{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 90171,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 4.100419998168945,
      "learning_rate": 0.0005999999998179221,
      "loss": 10.461,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.04095983505249,
      "learning_rate": 0.0005999999992716884,
      "loss": 9.714,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.7048234939575195,
      "learning_rate": 0.0005999999983612989,
      "loss": 9.083,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.520585060119629,
      "learning_rate": 0.0005999999970867536,
      "loss": 8.6521,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.4087798595428467,
      "learning_rate": 0.0005999999954480525,
      "loss": 8.3095,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.310696840286255,
      "learning_rate": 0.0005999999934451956,
      "loss": 7.9641,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.212531328201294,
      "learning_rate": 0.0005999999910781829,
      "loss": 7.6112,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.0805909633636475,
      "learning_rate": 0.0005999999883470145,
      "loss": 7.2986,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.921949028968811,
      "learning_rate": 0.0005999999852516903,
      "loss": 7.0263,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.7700287103652954,
      "learning_rate": 0.0005999999817922103,
      "loss": 6.758,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.6157866716384888,
      "learning_rate": 0.0005999999779685744,
      "loss": 6.5376,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.2736124992370605,
      "learning_rate": 0.0005999999737807829,
      "loss": 6.33,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.9858150482177734,
      "learning_rate": 0.0005999999692288357,
      "loss": 6.1685,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.0209728479385376,
      "learning_rate": 0.0005999999643127326,
      "loss": 6.0596,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5824848413467407,
      "learning_rate": 0.0005999999590324737,
      "loss": 5.9731,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5944679379463196,
      "learning_rate": 0.0005999999533880591,
      "loss": 5.923,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6339819431304932,
      "learning_rate": 0.0005999999473794888,
      "loss": 5.8905,
      "step": 17
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6671480536460876,
      "learning_rate": 0.0005999999410067627,
      "loss": 5.8114,
      "step": 18
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5308833718299866,
      "learning_rate": 0.000599999934269881,
      "loss": 5.7537,
      "step": 19
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5803480744361877,
      "learning_rate": 0.0005999999271688435,
      "loss": 5.7555,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6253674030303955,
      "learning_rate": 0.0005999999197036502,
      "loss": 5.7119,
      "step": 21
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5630332827568054,
      "learning_rate": 0.0005999999118743014,
      "loss": 5.6863,
      "step": 22
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.7562442421913147,
      "learning_rate": 0.0005999999036807968,
      "loss": 5.5703,
      "step": 23
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.072878122329712,
      "learning_rate": 0.0005999998951231365,
      "loss": 5.5569,
      "step": 24
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.561032772064209,
      "learning_rate": 0.0005999998862013205,
      "loss": 5.4968,
      "step": 25
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.030066967010498,
      "learning_rate": 0.000599999876915349,
      "loss": 5.3894,
      "step": 26
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.0081520080566406,
      "learning_rate": 0.0005999998672652217,
      "loss": 5.4254,
      "step": 27
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.9199492931365967,
      "learning_rate": 0.0005999998572509389,
      "loss": 5.3195,
      "step": 28
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.687520444393158,
      "learning_rate": 0.0005999998468725003,
      "loss": 5.2525,
      "step": 29
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5925342440605164,
      "learning_rate": 0.0005999998361299062,
      "loss": 5.1417,
      "step": 30
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6859751343727112,
      "learning_rate": 0.0005999998250231564,
      "loss": 5.1883,
      "step": 31
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6442691087722778,
      "learning_rate": 0.0005999998135522511,
      "loss": 5.0386,
      "step": 32
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6409505605697632,
      "learning_rate": 0.0005999998017171903,
      "loss": 4.9854,
      "step": 33
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5949588418006897,
      "learning_rate": 0.0005999997895179738,
      "loss": 4.9404,
      "step": 34
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5431768298149109,
      "learning_rate": 0.0005999997769546018,
      "loss": 4.8951,
      "step": 35
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6518623232841492,
      "learning_rate": 0.0005999997640270744,
      "loss": 4.8734,
      "step": 36
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4994063973426819,
      "learning_rate": 0.0005999997507353913,
      "loss": 4.89,
      "step": 37
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6366820335388184,
      "learning_rate": 0.0005999997370795528,
      "loss": 4.8211,
      "step": 38
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5413789749145508,
      "learning_rate": 0.0005999997230595589,
      "loss": 4.7332,
      "step": 39
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5580940842628479,
      "learning_rate": 0.0005999997086754094,
      "loss": 4.7002,
      "step": 40
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.48390433192253113,
      "learning_rate": 0.0005999996939271045,
      "loss": 4.6546,
      "step": 41
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5401293039321899,
      "learning_rate": 0.0005999996788146442,
      "loss": 4.6751,
      "step": 42
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5015139579772949,
      "learning_rate": 0.0005999996633380284,
      "loss": 4.5398,
      "step": 43
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5145017504692078,
      "learning_rate": 0.0005999996474972573,
      "loss": 4.6025,
      "step": 44
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5702989101409912,
      "learning_rate": 0.0005999996312923308,
      "loss": 4.5201,
      "step": 45
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.49771374464035034,
      "learning_rate": 0.000599999614723249,
      "loss": 4.4996,
      "step": 46
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5157600045204163,
      "learning_rate": 0.0005999995977900119,
      "loss": 4.388,
      "step": 47
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6218562722206116,
      "learning_rate": 0.0005999995804926194,
      "loss": 4.3927,
      "step": 48
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6880481839179993,
      "learning_rate": 0.0005999995628310717,
      "loss": 4.4304,
      "step": 49
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4667206108570099,
      "learning_rate": 0.0005999995448053686,
      "loss": 4.3869,
      "step": 50
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5024594664573669,
      "learning_rate": 0.0005999995264155104,
      "loss": 4.3169,
      "step": 51
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.48611363768577576,
      "learning_rate": 0.0005999995076614969,
      "loss": 4.3105,
      "step": 52
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5098620653152466,
      "learning_rate": 0.0005999994885433282,
      "loss": 4.2521,
      "step": 53
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4481331408023834,
      "learning_rate": 0.0005999994690610044,
      "loss": 4.2983,
      "step": 54
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5510146021842957,
      "learning_rate": 0.0005999994492145254,
      "loss": 4.2341,
      "step": 55
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.449519544839859,
      "learning_rate": 0.0005999994290038913,
      "loss": 4.1434,
      "step": 56
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5501143932342529,
      "learning_rate": 0.000599999408429102,
      "loss": 4.1884,
      "step": 57
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5295271277427673,
      "learning_rate": 0.0005999993874901576,
      "loss": 4.2603,
      "step": 58
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4831045866012573,
      "learning_rate": 0.0005999993661870583,
      "loss": 4.2304,
      "step": 59
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4511243402957916,
      "learning_rate": 0.0005999993445198038,
      "loss": 4.1728,
      "step": 60
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6093815565109253,
      "learning_rate": 0.0005999993224883944,
      "loss": 4.2199,
      "step": 61
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6417409181594849,
      "learning_rate": 0.0005999993000928301,
      "loss": 4.1899,
      "step": 62
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6364919543266296,
      "learning_rate": 0.0005999992773331107,
      "loss": 4.1171,
      "step": 63
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.618511974811554,
      "learning_rate": 0.0005999992542092365,
      "loss": 4.1427,
      "step": 64
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.768389105796814,
      "learning_rate": 0.0005999992307212073,
      "loss": 4.0961,
      "step": 65
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.49603357911109924,
      "learning_rate": 0.0005999992068690234,
      "loss": 4.1135,
      "step": 66
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.7058602571487427,
      "learning_rate": 0.0005999991826526845,
      "loss": 4.1084,
      "step": 67
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.7266976237297058,
      "learning_rate": 0.0005999991580721908,
      "loss": 4.0721,
      "step": 68
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5525277256965637,
      "learning_rate": 0.0005999991331275425,
      "loss": 4.0798,
      "step": 69
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5160976648330688,
      "learning_rate": 0.0005999991078187392,
      "loss": 3.9919,
      "step": 70
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5361717343330383,
      "learning_rate": 0.0005999990821457813,
      "loss": 3.9711,
      "step": 71
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6604675054550171,
      "learning_rate": 0.0005999990561086687,
      "loss": 4.0035,
      "step": 72
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5291124582290649,
      "learning_rate": 0.0005999990297074015,
      "loss": 3.9325,
      "step": 73
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6367715001106262,
      "learning_rate": 0.0005999990029419797,
      "loss": 3.9176,
      "step": 74
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.7171218395233154,
      "learning_rate": 0.0005999989758124033,
      "loss": 3.8686,
      "step": 75
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5966618061065674,
      "learning_rate": 0.0005999989483186723,
      "loss": 3.9331,
      "step": 76
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.62396639585495,
      "learning_rate": 0.0005999989204607868,
      "loss": 3.8792,
      "step": 77
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.654230535030365,
      "learning_rate": 0.0005999988922387469,
      "loss": 3.877,
      "step": 78
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.539253294467926,
      "learning_rate": 0.0005999988636525525,
      "loss": 3.8193,
      "step": 79
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5409449934959412,
      "learning_rate": 0.0005999988347022035,
      "loss": 3.7872,
      "step": 80
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5482544898986816,
      "learning_rate": 0.0005999988053877003,
      "loss": 3.8841,
      "step": 81
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5583504438400269,
      "learning_rate": 0.0005999987757090428,
      "loss": 3.8109,
      "step": 82
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4992579221725464,
      "learning_rate": 0.0005999987456662309,
      "loss": 3.7619,
      "step": 83
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5863670706748962,
      "learning_rate": 0.0005999987152592647,
      "loss": 3.7924,
      "step": 84
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5514638423919678,
      "learning_rate": 0.0005999986844881442,
      "loss": 3.8255,
      "step": 85
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5315267443656921,
      "learning_rate": 0.0005999986533528698,
      "loss": 3.7481,
      "step": 86
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.59005206823349,
      "learning_rate": 0.0005999986218534409,
      "loss": 3.7248,
      "step": 87
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5378859043121338,
      "learning_rate": 0.000599998589989858,
      "loss": 3.6737,
      "step": 88
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5472190976142883,
      "learning_rate": 0.0005999985577621211,
      "loss": 3.606,
      "step": 89
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6246824860572815,
      "learning_rate": 0.00059999852517023,
      "loss": 3.6336,
      "step": 90
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5384263396263123,
      "learning_rate": 0.000599998492214185,
      "loss": 3.74,
      "step": 91
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5925276279449463,
      "learning_rate": 0.000599998458893986,
      "loss": 3.7409,
      "step": 92
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6688694953918457,
      "learning_rate": 0.0005999984252096332,
      "loss": 3.6983,
      "step": 93
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6289793252944946,
      "learning_rate": 0.0005999983911611263,
      "loss": 3.6783,
      "step": 94
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5709659457206726,
      "learning_rate": 0.0005999983567484656,
      "loss": 3.5921,
      "step": 95
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.490721195936203,
      "learning_rate": 0.0005999983219716512,
      "loss": 3.6315,
      "step": 96
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5286503434181213,
      "learning_rate": 0.000599998286830683,
      "loss": 3.6357,
      "step": 97
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4576896131038666,
      "learning_rate": 0.0005999982513255611,
      "loss": 3.6329,
      "step": 98
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5236234068870544,
      "learning_rate": 0.0005999982154562854,
      "loss": 3.6097,
      "step": 99
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5232120752334595,
      "learning_rate": 0.0005999981792228562,
      "loss": 3.6424,
      "step": 100
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5558589696884155,
      "learning_rate": 0.0005999981426252734,
      "loss": 3.6283,
      "step": 101
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6334435939788818,
      "learning_rate": 0.000599998105663537,
      "loss": 3.6099,
      "step": 102
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5271775722503662,
      "learning_rate": 0.0005999980683376471,
      "loss": 3.5887,
      "step": 103
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.7453651428222656,
      "learning_rate": 0.0005999980306476038,
      "loss": 3.6413,
      "step": 104
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6092388033866882,
      "learning_rate": 0.0005999979925934071,
      "loss": 3.6677,
      "step": 105
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6265098452568054,
      "learning_rate": 0.000599997954175057,
      "loss": 3.5502,
      "step": 106
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.744401752948761,
      "learning_rate": 0.0005999979153925535,
      "loss": 3.6097,
      "step": 107
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5489829182624817,
      "learning_rate": 0.0005999978762458969,
      "loss": 3.623,
      "step": 108
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5673947930335999,
      "learning_rate": 0.000599997836735087,
      "loss": 3.5433,
      "step": 109
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.712709903717041,
      "learning_rate": 0.0005999977968601239,
      "loss": 3.6383,
      "step": 110
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5050762891769409,
      "learning_rate": 0.0005999977566210078,
      "loss": 3.6522,
      "step": 111
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6718909740447998,
      "learning_rate": 0.0005999977160177386,
      "loss": 3.5819,
      "step": 112
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6165395379066467,
      "learning_rate": 0.0005999976750503162,
      "loss": 3.5328,
      "step": 113
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6346534490585327,
      "learning_rate": 0.000599997633718741,
      "loss": 3.4697,
      "step": 114
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5758947730064392,
      "learning_rate": 0.0005999975920230128,
      "loss": 3.4446,
      "step": 115
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6033064126968384,
      "learning_rate": 0.0005999975499631318,
      "loss": 3.4638,
      "step": 116
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5638349056243896,
      "learning_rate": 0.000599997507539098,
      "loss": 3.5171,
      "step": 117
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5374543070793152,
      "learning_rate": 0.0005999974647509113,
      "loss": 3.5442,
      "step": 118
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6214122772216797,
      "learning_rate": 0.0005999974215985719,
      "loss": 3.4225,
      "step": 119
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.597389280796051,
      "learning_rate": 0.0005999973780820799,
      "loss": 3.5194,
      "step": 120
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5102914571762085,
      "learning_rate": 0.0005999973342014353,
      "loss": 3.5059,
      "step": 121
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6480877995491028,
      "learning_rate": 0.000599997289956638,
      "loss": 3.4574,
      "step": 122
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6812768578529358,
      "learning_rate": 0.0005999972453476884,
      "loss": 3.4487,
      "step": 123
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6697215437889099,
      "learning_rate": 0.0005999972003745862,
      "loss": 3.4224,
      "step": 124
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5850709676742554,
      "learning_rate": 0.0005999971550373316,
      "loss": 3.5103,
      "step": 125
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5740330219268799,
      "learning_rate": 0.0005999971093359247,
      "loss": 3.4,
      "step": 126
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5040827989578247,
      "learning_rate": 0.0005999970632703655,
      "loss": 3.4671,
      "step": 127
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5157521963119507,
      "learning_rate": 0.000599997016840654,
      "loss": 3.3904,
      "step": 128
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5290243625640869,
      "learning_rate": 0.0005999969700467904,
      "loss": 3.4566,
      "step": 129
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5128539800643921,
      "learning_rate": 0.0005999969228887746,
      "loss": 3.4128,
      "step": 130
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5105347633361816,
      "learning_rate": 0.0005999968753666069,
      "loss": 3.4034,
      "step": 131
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5942333936691284,
      "learning_rate": 0.0005999968274802872,
      "loss": 3.4234,
      "step": 132
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.49787646532058716,
      "learning_rate": 0.0005999967792298154,
      "loss": 3.4093,
      "step": 133
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.61094731092453,
      "learning_rate": 0.0005999967306151917,
      "loss": 3.3533,
      "step": 134
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5293035507202148,
      "learning_rate": 0.0005999966816364162,
      "loss": 3.3501,
      "step": 135
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6092743873596191,
      "learning_rate": 0.000599996632293489,
      "loss": 3.343,
      "step": 136
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.7072868347167969,
      "learning_rate": 0.0005999965825864101,
      "loss": 3.3099,
      "step": 137
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6296369433403015,
      "learning_rate": 0.0005999965325151796,
      "loss": 3.4336,
      "step": 138
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6529625058174133,
      "learning_rate": 0.0005999964820797974,
      "loss": 3.3371,
      "step": 139
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6638635396957397,
      "learning_rate": 0.0005999964312802637,
      "loss": 3.3205,
      "step": 140
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5755170583724976,
      "learning_rate": 0.0005999963801165785,
      "loss": 3.2595,
      "step": 141
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.586167573928833,
      "learning_rate": 0.000599996328588742,
      "loss": 3.3277,
      "step": 142
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5704978704452515,
      "learning_rate": 0.000599996276696754,
      "loss": 3.3162,
      "step": 143
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6114603877067566,
      "learning_rate": 0.0005999962244406148,
      "loss": 3.3624,
      "step": 144
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5689132213592529,
      "learning_rate": 0.0005999961718203245,
      "loss": 3.2159,
      "step": 145
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.64018315076828,
      "learning_rate": 0.000599996118835883,
      "loss": 3.312,
      "step": 146
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.560461699962616,
      "learning_rate": 0.0005999960654872903,
      "loss": 3.3314,
      "step": 147
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6050199866294861,
      "learning_rate": 0.0005999960117745466,
      "loss": 3.2733,
      "step": 148
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.6785863041877747,
      "learning_rate": 0.0005999959576976521,
      "loss": 3.3156,
      "step": 149
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5355931520462036,
      "learning_rate": 0.0005999959032566065,
      "loss": 3.2948,
      "step": 150
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6478989720344543,
      "learning_rate": 0.0005999958484514102,
      "loss": 3.2713,
      "step": 151
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.593499481678009,
      "learning_rate": 0.0005999957932820632,
      "loss": 3.3219,
      "step": 152
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.568182110786438,
      "learning_rate": 0.0005999957377485653,
      "loss": 3.246,
      "step": 153
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5640523433685303,
      "learning_rate": 0.000599995681850917,
      "loss": 3.2039,
      "step": 154
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5534161329269409,
      "learning_rate": 0.000599995625589118,
      "loss": 3.223,
      "step": 155
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5761936902999878,
      "learning_rate": 0.0005999955689631685,
      "loss": 3.2875,
      "step": 156
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6078358292579651,
      "learning_rate": 0.0005999955119730686,
      "loss": 3.2338,
      "step": 157
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5463889241218567,
      "learning_rate": 0.0005999954546188185,
      "loss": 3.2225,
      "step": 158
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6522239446640015,
      "learning_rate": 0.000599995396900418,
      "loss": 3.2996,
      "step": 159
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7029942274093628,
      "learning_rate": 0.0005999953388178673,
      "loss": 3.2306,
      "step": 160
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.627281129360199,
      "learning_rate": 0.0005999952803711665,
      "loss": 3.1742,
      "step": 161
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.828546941280365,
      "learning_rate": 0.0005999952215603156,
      "loss": 3.1914,
      "step": 162
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7777920961380005,
      "learning_rate": 0.0005999951623853146,
      "loss": 3.2125,
      "step": 163
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6201291084289551,
      "learning_rate": 0.0005999951028461639,
      "loss": 3.2351,
      "step": 164
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7055228352546692,
      "learning_rate": 0.0005999950429428632,
      "loss": 3.2829,
      "step": 165
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6314820051193237,
      "learning_rate": 0.0005999949826754127,
      "loss": 3.183,
      "step": 166
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6796358227729797,
      "learning_rate": 0.0005999949220438126,
      "loss": 3.1826,
      "step": 167
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6708800792694092,
      "learning_rate": 0.0005999948610480628,
      "loss": 3.2442,
      "step": 168
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5750407576560974,
      "learning_rate": 0.0005999947996881633,
      "loss": 3.1854,
      "step": 169
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6215304136276245,
      "learning_rate": 0.0005999947379641145,
      "loss": 3.1376,
      "step": 170
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6474730372428894,
      "learning_rate": 0.0005999946758759163,
      "loss": 3.1405,
      "step": 171
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.514997661113739,
      "learning_rate": 0.0005999946134235686,
      "loss": 3.2417,
      "step": 172
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5297843217849731,
      "learning_rate": 0.0005999945506070718,
      "loss": 3.2328,
      "step": 173
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5614755153656006,
      "learning_rate": 0.0005999944874264258,
      "loss": 3.2105,
      "step": 174
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5468325614929199,
      "learning_rate": 0.0005999944238816307,
      "loss": 3.1551,
      "step": 175
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5833327174186707,
      "learning_rate": 0.0005999943599726865,
      "loss": 3.2484,
      "step": 176
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5973279476165771,
      "learning_rate": 0.0005999942956995934,
      "loss": 3.2143,
      "step": 177
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5233656764030457,
      "learning_rate": 0.0005999942310623514,
      "loss": 3.0912,
      "step": 178
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5439130663871765,
      "learning_rate": 0.0005999941660609606,
      "loss": 3.1376,
      "step": 179
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5912011861801147,
      "learning_rate": 0.0005999941006954211,
      "loss": 3.1327,
      "step": 180
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5569300651550293,
      "learning_rate": 0.0005999940349657331,
      "loss": 3.1157,
      "step": 181
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5439979434013367,
      "learning_rate": 0.0005999939688718964,
      "loss": 3.0873,
      "step": 182
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5689502358436584,
      "learning_rate": 0.0005999939024139111,
      "loss": 3.1911,
      "step": 183
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5546268820762634,
      "learning_rate": 0.0005999938355917776,
      "loss": 3.1327,
      "step": 184
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5806894898414612,
      "learning_rate": 0.0005999937684054958,
      "loss": 3.1632,
      "step": 185
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5758529305458069,
      "learning_rate": 0.0005999937008550657,
      "loss": 3.2107,
      "step": 186
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.601890504360199,
      "learning_rate": 0.0005999936329404874,
      "loss": 3.0517,
      "step": 187
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5630647540092468,
      "learning_rate": 0.0005999935646617611,
      "loss": 2.9891,
      "step": 188
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5602962374687195,
      "learning_rate": 0.0005999934960188867,
      "loss": 3.0382,
      "step": 189
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6154148578643799,
      "learning_rate": 0.0005999934270118646,
      "loss": 3.1034,
      "step": 190
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5718434453010559,
      "learning_rate": 0.0005999933576406945,
      "loss": 3.0942,
      "step": 191
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5767517685890198,
      "learning_rate": 0.0005999932879053768,
      "loss": 3.0959,
      "step": 192
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5375617146492004,
      "learning_rate": 0.0005999932178059114,
      "loss": 3.0959,
      "step": 193
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5717343688011169,
      "learning_rate": 0.0005999931473422984,
      "loss": 3.0998,
      "step": 194
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5714278221130371,
      "learning_rate": 0.0005999930765145379,
      "loss": 3.0591,
      "step": 195
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5857183337211609,
      "learning_rate": 0.00059999300532263,
      "loss": 3.0466,
      "step": 196
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5603610277175903,
      "learning_rate": 0.0005999929337665748,
      "loss": 3.1399,
      "step": 197
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5433980226516724,
      "learning_rate": 0.0005999928618463724,
      "loss": 3.1364,
      "step": 198
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5821206569671631,
      "learning_rate": 0.000599992789562023,
      "loss": 3.0628,
      "step": 199
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6120539307594299,
      "learning_rate": 0.0005999927169135264,
      "loss": 3.1812,
      "step": 200
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5898521542549133,
      "learning_rate": 0.000599992643900883,
      "loss": 3.1177,
      "step": 201
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.558228075504303,
      "learning_rate": 0.0005999925705240925,
      "loss": 3.0919,
      "step": 202
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5695255994796753,
      "learning_rate": 0.0005999924967831553,
      "loss": 3.0398,
      "step": 203
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5639240145683289,
      "learning_rate": 0.0005999924226780715,
      "loss": 3.1107,
      "step": 204
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6811366677284241,
      "learning_rate": 0.000599992348208841,
      "loss": 3.0582,
      "step": 205
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6560092568397522,
      "learning_rate": 0.0005999922733754641,
      "loss": 3.1301,
      "step": 206
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6619062423706055,
      "learning_rate": 0.0005999921981779408,
      "loss": 3.0241,
      "step": 207
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6407262086868286,
      "learning_rate": 0.000599992122616271,
      "loss": 3.064,
      "step": 208
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6036890149116516,
      "learning_rate": 0.0005999920466904551,
      "loss": 3.0524,
      "step": 209
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6743110418319702,
      "learning_rate": 0.0005999919704004931,
      "loss": 3.0285,
      "step": 210
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6195433735847473,
      "learning_rate": 0.000599991893746385,
      "loss": 3.053,
      "step": 211
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.605640709400177,
      "learning_rate": 0.0005999918167281308,
      "loss": 3.0958,
      "step": 212
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5628243088722229,
      "learning_rate": 0.0005999917393457308,
      "loss": 3.0469,
      "step": 213
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5825402736663818,
      "learning_rate": 0.0005999916615991851,
      "loss": 2.9492,
      "step": 214
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5265458226203918,
      "learning_rate": 0.0005999915834884938,
      "loss": 3.0187,
      "step": 215
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5620290040969849,
      "learning_rate": 0.0005999915050136568,
      "loss": 3.036,
      "step": 216
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5514571666717529,
      "learning_rate": 0.0005999914261746743,
      "loss": 3.0058,
      "step": 217
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5275115966796875,
      "learning_rate": 0.0005999913469715465,
      "loss": 3.0321,
      "step": 218
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5986298322677612,
      "learning_rate": 0.0005999912674042732,
      "loss": 3.0544,
      "step": 219
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.524662435054779,
      "learning_rate": 0.000599991187472855,
      "loss": 3.0556,
      "step": 220
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.569474995136261,
      "learning_rate": 0.0005999911071772915,
      "loss": 2.9708,
      "step": 221
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5778971910476685,
      "learning_rate": 0.0005999910265175831,
      "loss": 3.0085,
      "step": 222
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6656152606010437,
      "learning_rate": 0.0005999909454937298,
      "loss": 2.9622,
      "step": 223
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5505759716033936,
      "learning_rate": 0.0005999908641057315,
      "loss": 2.9839,
      "step": 224
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6111534237861633,
      "learning_rate": 0.0005999907823535887,
      "loss": 2.9177,
      "step": 225
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5365133285522461,
      "learning_rate": 0.0005999907002373012,
      "loss": 2.9219,
      "step": 226
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5410639047622681,
      "learning_rate": 0.0005999906177568693,
      "loss": 2.8798,
      "step": 227
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5629809498786926,
      "learning_rate": 0.0005999905349122929,
      "loss": 3.0082,
      "step": 228
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6156588196754456,
      "learning_rate": 0.0005999904517035721,
      "loss": 2.8661,
      "step": 229
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5804888010025024,
      "learning_rate": 0.0005999903681307072,
      "loss": 2.8622,
      "step": 230
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5866600275039673,
      "learning_rate": 0.0005999902841936982,
      "loss": 3.0019,
      "step": 231
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.600818395614624,
      "learning_rate": 0.0005999901998925452,
      "loss": 2.8393,
      "step": 232
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6161274909973145,
      "learning_rate": 0.0005999901152272483,
      "loss": 2.9636,
      "step": 233
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5802502036094666,
      "learning_rate": 0.0005999900301978076,
      "loss": 3.0432,
      "step": 234
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5401687622070312,
      "learning_rate": 0.0005999899448042232,
      "loss": 2.8963,
      "step": 235
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6172357201576233,
      "learning_rate": 0.0005999898590464952,
      "loss": 2.9387,
      "step": 236
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5441912412643433,
      "learning_rate": 0.0005999897729246237,
      "loss": 2.8969,
      "step": 237
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5406686663627625,
      "learning_rate": 0.0005999896864386089,
      "loss": 2.954,
      "step": 238
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5661065578460693,
      "learning_rate": 0.0005999895995884507,
      "loss": 3.0229,
      "step": 239
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5290712714195251,
      "learning_rate": 0.0005999895123741494,
      "loss": 3.0275,
      "step": 240
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5769022107124329,
      "learning_rate": 0.000599989424795705,
      "loss": 2.8707,
      "step": 241
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5697169899940491,
      "learning_rate": 0.0005999893368531177,
      "loss": 2.9261,
      "step": 242
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5318011045455933,
      "learning_rate": 0.0005999892485463875,
      "loss": 2.9444,
      "step": 243
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6010552048683167,
      "learning_rate": 0.0005999891598755145,
      "loss": 2.9239,
      "step": 244
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5341883897781372,
      "learning_rate": 0.0005999890708404989,
      "loss": 2.8529,
      "step": 245
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5386232137680054,
      "learning_rate": 0.0005999889814413408,
      "loss": 2.9243,
      "step": 246
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6142899990081787,
      "learning_rate": 0.0005999888916780403,
      "loss": 2.8512,
      "step": 247
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6444046497344971,
      "learning_rate": 0.0005999888015505975,
      "loss": 2.913,
      "step": 248
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5601990222930908,
      "learning_rate": 0.0005999887110590123,
      "loss": 2.9016,
      "step": 249
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5984313488006592,
      "learning_rate": 0.0005999886202032853,
      "loss": 2.9132,
      "step": 250
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5805158019065857,
      "learning_rate": 0.0005999885289834162,
      "loss": 3.0701,
      "step": 251
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5441513657569885,
      "learning_rate": 0.0005999884373994051,
      "loss": 2.8516,
      "step": 252
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5596489906311035,
      "learning_rate": 0.0005999883454512523,
      "loss": 2.9078,
      "step": 253
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.537213921546936,
      "learning_rate": 0.0005999882531389579,
      "loss": 2.9042,
      "step": 254
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6410138607025146,
      "learning_rate": 0.0005999881604625219,
      "loss": 2.9113,
      "step": 255
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5795415043830872,
      "learning_rate": 0.0005999880674219445,
      "loss": 2.9098,
      "step": 256
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5669119358062744,
      "learning_rate": 0.0005999879740172259,
      "loss": 2.9674,
      "step": 257
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6304314732551575,
      "learning_rate": 0.000599987880248366,
      "loss": 2.8311,
      "step": 258
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5448317527770996,
      "learning_rate": 0.000599987786115365,
      "loss": 2.8903,
      "step": 259
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6150227785110474,
      "learning_rate": 0.000599987691618223,
      "loss": 2.9409,
      "step": 260
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5393643975257874,
      "learning_rate": 0.0005999875967569403,
      "loss": 2.8634,
      "step": 261
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5963976979255676,
      "learning_rate": 0.0005999875015315167,
      "loss": 2.9422,
      "step": 262
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5346020460128784,
      "learning_rate": 0.0005999874059419525,
      "loss": 2.9027,
      "step": 263
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5400343537330627,
      "learning_rate": 0.0005999873099882478,
      "loss": 2.8893,
      "step": 264
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5323367714881897,
      "learning_rate": 0.0005999872136704027,
      "loss": 2.8535,
      "step": 265
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6211659908294678,
      "learning_rate": 0.0005999871169884174,
      "loss": 2.8808,
      "step": 266
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5522543787956238,
      "learning_rate": 0.0005999870199422919,
      "loss": 2.9121,
      "step": 267
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6378204822540283,
      "learning_rate": 0.0005999869225320264,
      "loss": 2.9089,
      "step": 268
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.549895167350769,
      "learning_rate": 0.0005999868247576209,
      "loss": 2.8398,
      "step": 269
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6323292255401611,
      "learning_rate": 0.0005999867266190756,
      "loss": 2.8246,
      "step": 270
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5296311974525452,
      "learning_rate": 0.0005999866281163907,
      "loss": 2.7853,
      "step": 271
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6585826277732849,
      "learning_rate": 0.0005999865292495661,
      "loss": 2.8263,
      "step": 272
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5578379034996033,
      "learning_rate": 0.0005999864300186022,
      "loss": 2.9196,
      "step": 273
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6166523694992065,
      "learning_rate": 0.0005999863304234988,
      "loss": 2.8793,
      "step": 274
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5427587628364563,
      "learning_rate": 0.0005999862304642563,
      "loss": 2.9231,
      "step": 275
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6608619689941406,
      "learning_rate": 0.0005999861301408747,
      "loss": 2.871,
      "step": 276
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5328487753868103,
      "learning_rate": 0.0005999860294533542,
      "loss": 2.9369,
      "step": 277
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6998909115791321,
      "learning_rate": 0.0005999859284016948,
      "loss": 2.8853,
      "step": 278
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6014045476913452,
      "learning_rate": 0.0005999858269858967,
      "loss": 2.7977,
      "step": 279
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6405385136604309,
      "learning_rate": 0.00059998572520596,
      "loss": 2.8617,
      "step": 280
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.569327175617218,
      "learning_rate": 0.0005999856230618848,
      "loss": 2.8108,
      "step": 281
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6240563988685608,
      "learning_rate": 0.0005999855205536714,
      "loss": 2.8777,
      "step": 282
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6372579336166382,
      "learning_rate": 0.0005999854176813196,
      "loss": 2.8535,
      "step": 283
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6491696238517761,
      "learning_rate": 0.0005999853144448298,
      "loss": 2.8227,
      "step": 284
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6225499510765076,
      "learning_rate": 0.0005999852108442019,
      "loss": 2.8555,
      "step": 285
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5667343139648438,
      "learning_rate": 0.0005999851068794363,
      "loss": 2.8844,
      "step": 286
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6048612594604492,
      "learning_rate": 0.000599985002550533,
      "loss": 2.8805,
      "step": 287
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5694054961204529,
      "learning_rate": 0.0005999848978574919,
      "loss": 2.7515,
      "step": 288
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5777738690376282,
      "learning_rate": 0.0005999847928003135,
      "loss": 2.7948,
      "step": 289
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.578151524066925,
      "learning_rate": 0.0005999846873789978,
      "loss": 2.9065,
      "step": 290
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6232374906539917,
      "learning_rate": 0.0005999845815935447,
      "loss": 2.7931,
      "step": 291
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5281214118003845,
      "learning_rate": 0.0005999844754439547,
      "loss": 2.7761,
      "step": 292
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5897905826568604,
      "learning_rate": 0.0005999843689302278,
      "loss": 2.8639,
      "step": 293
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5740914940834045,
      "learning_rate": 0.0005999842620523639,
      "loss": 2.7415,
      "step": 294
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.60555499792099,
      "learning_rate": 0.0005999841548103634,
      "loss": 2.8361,
      "step": 295
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5856079459190369,
      "learning_rate": 0.0005999840472042263,
      "loss": 2.8541,
      "step": 296
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5560835003852844,
      "learning_rate": 0.0005999839392339529,
      "loss": 2.8196,
      "step": 297
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5955315828323364,
      "learning_rate": 0.000599983830899543,
      "loss": 2.8143,
      "step": 298
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.597012996673584,
      "learning_rate": 0.0005999837222009969,
      "loss": 2.8376,
      "step": 299
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6124674677848816,
      "learning_rate": 0.000599983613138315,
      "loss": 2.8062,
      "step": 300
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5664367079734802,
      "learning_rate": 0.000599983503711497,
      "loss": 2.7934,
      "step": 301
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.577237606048584,
      "learning_rate": 0.0005999833939205433,
      "loss": 2.8189,
      "step": 302
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5577530860900879,
      "learning_rate": 0.000599983283765454,
      "loss": 2.8179,
      "step": 303
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6034249663352966,
      "learning_rate": 0.0005999831732462291,
      "loss": 2.821,
      "step": 304
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5254485607147217,
      "learning_rate": 0.0005999830623628689,
      "loss": 2.8344,
      "step": 305
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5344562530517578,
      "learning_rate": 0.0005999829511153734,
      "loss": 2.8387,
      "step": 306
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.559207022190094,
      "learning_rate": 0.0005999828395037429,
      "loss": 2.7546,
      "step": 307
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5620198845863342,
      "learning_rate": 0.0005999827275279773,
      "loss": 2.7648,
      "step": 308
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5678921937942505,
      "learning_rate": 0.000599982615188077,
      "loss": 2.9389,
      "step": 309
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5454803109169006,
      "learning_rate": 0.0005999825024840419,
      "loss": 2.7477,
      "step": 310
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5814488530158997,
      "learning_rate": 0.0005999823894158723,
      "loss": 2.7788,
      "step": 311
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.548846960067749,
      "learning_rate": 0.0005999822759835682,
      "loss": 2.7604,
      "step": 312
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.597682774066925,
      "learning_rate": 0.0005999821621871299,
      "loss": 2.8094,
      "step": 313
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5303907990455627,
      "learning_rate": 0.0005999820480265575,
      "loss": 2.7546,
      "step": 314
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5713108777999878,
      "learning_rate": 0.000599981933501851,
      "loss": 2.7673,
      "step": 315
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5660058259963989,
      "learning_rate": 0.0005999818186130107,
      "loss": 2.7248,
      "step": 316
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5419771671295166,
      "learning_rate": 0.0005999817033600366,
      "loss": 2.7544,
      "step": 317
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5343615412712097,
      "learning_rate": 0.000599981587742929,
      "loss": 2.7886,
      "step": 318
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5431089401245117,
      "learning_rate": 0.0005999814717616878,
      "loss": 2.776,
      "step": 319
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5577673316001892,
      "learning_rate": 0.0005999813554163134,
      "loss": 2.8828,
      "step": 320
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5986990928649902,
      "learning_rate": 0.0005999812387068059,
      "loss": 2.8392,
      "step": 321
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5299428105354309,
      "learning_rate": 0.0005999811216331653,
      "loss": 2.7129,
      "step": 322
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5743503570556641,
      "learning_rate": 0.0005999810041953918,
      "loss": 2.8382,
      "step": 323
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5858314633369446,
      "learning_rate": 0.0005999808863934856,
      "loss": 2.8167,
      "step": 324
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5345534086227417,
      "learning_rate": 0.0005999807682274468,
      "loss": 2.7451,
      "step": 325
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5115928649902344,
      "learning_rate": 0.0005999806496972755,
      "loss": 2.6489,
      "step": 326
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5449874997138977,
      "learning_rate": 0.000599980530802972,
      "loss": 2.7055,
      "step": 327
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5526479482650757,
      "learning_rate": 0.0005999804115445363,
      "loss": 2.6965,
      "step": 328
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6022580862045288,
      "learning_rate": 0.0005999802919219685,
      "loss": 2.7409,
      "step": 329
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5555018186569214,
      "learning_rate": 0.0005999801719352689,
      "loss": 2.6884,
      "step": 330
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5512892007827759,
      "learning_rate": 0.0005999800515844374,
      "loss": 2.7493,
      "step": 331
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5305002331733704,
      "learning_rate": 0.0005999799308694745,
      "loss": 2.7509,
      "step": 332
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5370991826057434,
      "learning_rate": 0.0005999798097903802,
      "loss": 2.7075,
      "step": 333
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5422214269638062,
      "learning_rate": 0.0005999796883471545,
      "loss": 2.6826,
      "step": 334
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5408599972724915,
      "learning_rate": 0.0005999795665397977,
      "loss": 2.7138,
      "step": 335
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5370607376098633,
      "learning_rate": 0.00059997944436831,
      "loss": 2.7025,
      "step": 336
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5300086736679077,
      "learning_rate": 0.0005999793218326912,
      "loss": 2.6594,
      "step": 337
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5439915657043457,
      "learning_rate": 0.0005999791989329419,
      "loss": 2.7121,
      "step": 338
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5437742471694946,
      "learning_rate": 0.000599979075669062,
      "loss": 2.7033,
      "step": 339
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6035833954811096,
      "learning_rate": 0.0005999789520410518,
      "loss": 2.7308,
      "step": 340
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6720030903816223,
      "learning_rate": 0.0005999788280489113,
      "loss": 2.6667,
      "step": 341
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5419943332672119,
      "learning_rate": 0.0005999787036926407,
      "loss": 2.6021,
      "step": 342
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6319183707237244,
      "learning_rate": 0.00059997857897224,
      "loss": 2.7617,
      "step": 343
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6108864545822144,
      "learning_rate": 0.0005999784538877096,
      "loss": 2.7528,
      "step": 344
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5594912171363831,
      "learning_rate": 0.0005999783284390496,
      "loss": 2.7657,
      "step": 345
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6022003293037415,
      "learning_rate": 0.0005999782026262601,
      "loss": 2.703,
      "step": 346
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5699543952941895,
      "learning_rate": 0.0005999780764493412,
      "loss": 2.7266,
      "step": 347
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.556186854839325,
      "learning_rate": 0.0005999779499082932,
      "loss": 2.7103,
      "step": 348
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5868853330612183,
      "learning_rate": 0.0005999778230031161,
      "loss": 2.7357,
      "step": 349
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5736798644065857,
      "learning_rate": 0.0005999776957338102,
      "loss": 2.6695,
      "step": 350
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.555397629737854,
      "learning_rate": 0.0005999775681003756,
      "loss": 2.7204,
      "step": 351
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5641774535179138,
      "learning_rate": 0.0005999774401028123,
      "loss": 2.6822,
      "step": 352
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5455052852630615,
      "learning_rate": 0.0005999773117411207,
      "loss": 2.7192,
      "step": 353
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5982618927955627,
      "learning_rate": 0.0005999771830153007,
      "loss": 2.6304,
      "step": 354
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5191322565078735,
      "learning_rate": 0.0005999770539253528,
      "loss": 2.7808,
      "step": 355
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5657879114151001,
      "learning_rate": 0.0005999769244712768,
      "loss": 2.8037,
      "step": 356
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6014173030853271,
      "learning_rate": 0.0005999767946530732,
      "loss": 2.6455,
      "step": 357
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5666356682777405,
      "learning_rate": 0.0005999766644707417,
      "loss": 2.8278,
      "step": 358
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5454400777816772,
      "learning_rate": 0.0005999765339242828,
      "loss": 2.7097,
      "step": 359
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5434181690216064,
      "learning_rate": 0.0005999764030136967,
      "loss": 2.6082,
      "step": 360
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5930821299552917,
      "learning_rate": 0.0005999762717389834,
      "loss": 2.6597,
      "step": 361
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5563125610351562,
      "learning_rate": 0.0005999761401001432,
      "loss": 2.6832,
      "step": 362
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5894429683685303,
      "learning_rate": 0.000599976008097176,
      "loss": 2.808,
      "step": 363
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5638418793678284,
      "learning_rate": 0.0005999758757300822,
      "loss": 2.7481,
      "step": 364
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5670451521873474,
      "learning_rate": 0.0005999757429988619,
      "loss": 2.6994,
      "step": 365
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5429350733757019,
      "learning_rate": 0.0005999756099035152,
      "loss": 2.696,
      "step": 366
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5703597664833069,
      "learning_rate": 0.0005999754764440424,
      "loss": 2.6244,
      "step": 367
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5392597913742065,
      "learning_rate": 0.0005999753426204435,
      "loss": 2.6626,
      "step": 368
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5575547218322754,
      "learning_rate": 0.0005999752084327188,
      "loss": 2.6334,
      "step": 369
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.515196681022644,
      "learning_rate": 0.0005999750738808683,
      "loss": 2.6642,
      "step": 370
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5805004239082336,
      "learning_rate": 0.0005999749389648922,
      "loss": 2.7058,
      "step": 371
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.540103018283844,
      "learning_rate": 0.0005999748036847909,
      "loss": 2.7849,
      "step": 372
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6029999852180481,
      "learning_rate": 0.0005999746680405642,
      "loss": 2.61,
      "step": 373
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.564120888710022,
      "learning_rate": 0.0005999745320322126,
      "loss": 2.6744,
      "step": 374
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5936698317527771,
      "learning_rate": 0.0005999743956597361,
      "loss": 2.7002,
      "step": 375
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5315253734588623,
      "learning_rate": 0.0005999742589231349,
      "loss": 2.6531,
      "step": 376
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5716379880905151,
      "learning_rate": 0.0005999741218224091,
      "loss": 2.625,
      "step": 377
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.554419219493866,
      "learning_rate": 0.0005999739843575589,
      "loss": 2.7051,
      "step": 378
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5488412380218506,
      "learning_rate": 0.0005999738465285845,
      "loss": 2.6554,
      "step": 379
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5456680059432983,
      "learning_rate": 0.000599973708335486,
      "loss": 2.6345,
      "step": 380
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5362448692321777,
      "learning_rate": 0.0005999735697782637,
      "loss": 2.6755,
      "step": 381
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5132170915603638,
      "learning_rate": 0.0005999734308569177,
      "loss": 2.589,
      "step": 382
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5332268476486206,
      "learning_rate": 0.000599973291571448,
      "loss": 2.6792,
      "step": 383
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5701034665107727,
      "learning_rate": 0.0005999731519218552,
      "loss": 2.7016,
      "step": 384
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.551452100276947,
      "learning_rate": 0.0005999730119081389,
      "loss": 2.6047,
      "step": 385
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5279109477996826,
      "learning_rate": 0.0005999728715302998,
      "loss": 2.651,
      "step": 386
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5591900944709778,
      "learning_rate": 0.0005999727307883378,
      "loss": 2.7001,
      "step": 387
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.535057008266449,
      "learning_rate": 0.0005999725896822529,
      "loss": 2.6921,
      "step": 388
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5353574156761169,
      "learning_rate": 0.0005999724482120457,
      "loss": 2.7551,
      "step": 389
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5109115242958069,
      "learning_rate": 0.000599972306377716,
      "loss": 2.6387,
      "step": 390
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5294983983039856,
      "learning_rate": 0.0005999721641792642,
      "loss": 2.5511,
      "step": 391
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5371919870376587,
      "learning_rate": 0.0005999720216166904,
      "loss": 2.5979,
      "step": 392
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5531637072563171,
      "learning_rate": 0.0005999718786899946,
      "loss": 2.6348,
      "step": 393
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5132468938827515,
      "learning_rate": 0.0005999717353991774,
      "loss": 2.7136,
      "step": 394
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5954809784889221,
      "learning_rate": 0.0005999715917442384,
      "loss": 2.6991,
      "step": 395
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5808181166648865,
      "learning_rate": 0.0005999714477251783,
      "loss": 2.6672,
      "step": 396
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5839141011238098,
      "learning_rate": 0.0005999713033419971,
      "loss": 2.7271,
      "step": 397
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5401975512504578,
      "learning_rate": 0.0005999711585946948,
      "loss": 2.6871,
      "step": 398
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5933660864830017,
      "learning_rate": 0.0005999710134832718,
      "loss": 2.668,
      "step": 399
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5403844118118286,
      "learning_rate": 0.0005999708680077281,
      "loss": 2.7575,
      "step": 400
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5652638077735901,
      "learning_rate": 0.0005999707221680641,
      "loss": 2.5939,
      "step": 401
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5544996857643127,
      "learning_rate": 0.0005999705759642798,
      "loss": 2.6437,
      "step": 402
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.626749575138092,
      "learning_rate": 0.0005999704293963752,
      "loss": 2.6881,
      "step": 403
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5489891171455383,
      "learning_rate": 0.000599970282464351,
      "loss": 2.6565,
      "step": 404
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5898073315620422,
      "learning_rate": 0.0005999701351682069,
      "loss": 2.6143,
      "step": 405
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5472673177719116,
      "learning_rate": 0.0005999699875079434,
      "loss": 2.6132,
      "step": 406
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5973739624023438,
      "learning_rate": 0.0005999698394835604,
      "loss": 2.6479,
      "step": 407
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5398291945457458,
      "learning_rate": 0.0005999696910950582,
      "loss": 2.6412,
      "step": 408
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5614185333251953,
      "learning_rate": 0.0005999695423424371,
      "loss": 2.6418,
      "step": 409
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.538481593132019,
      "learning_rate": 0.0005999693932256971,
      "loss": 2.6519,
      "step": 410
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6548241376876831,
      "learning_rate": 0.0005999692437448386,
      "loss": 2.6489,
      "step": 411
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5426230430603027,
      "learning_rate": 0.0005999690938998614,
      "loss": 2.5769,
      "step": 412
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5475417971611023,
      "learning_rate": 0.000599968943690766,
      "loss": 2.5757,
      "step": 413
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5852922201156616,
      "learning_rate": 0.0005999687931175525,
      "loss": 2.6431,
      "step": 414
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5505759119987488,
      "learning_rate": 0.0005999686421802213,
      "loss": 2.6487,
      "step": 415
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6354086399078369,
      "learning_rate": 0.0005999684908787722,
      "loss": 2.6209,
      "step": 416
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5746538639068604,
      "learning_rate": 0.0005999683392132055,
      "loss": 2.5958,
      "step": 417
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5945218205451965,
      "learning_rate": 0.0005999681871835214,
      "loss": 2.5517,
      "step": 418
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.520301342010498,
      "learning_rate": 0.0005999680347897202,
      "loss": 2.6286,
      "step": 419
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5693234205245972,
      "learning_rate": 0.000599967882031802,
      "loss": 2.596,
      "step": 420
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5549063682556152,
      "learning_rate": 0.000599967728909767,
      "loss": 2.5624,
      "step": 421
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5640497803688049,
      "learning_rate": 0.0005999675754236153,
      "loss": 2.6494,
      "step": 422
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5371594429016113,
      "learning_rate": 0.0005999674215733473,
      "loss": 2.653,
      "step": 423
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5836842656135559,
      "learning_rate": 0.000599967267358963,
      "loss": 2.6236,
      "step": 424
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6052223443984985,
      "learning_rate": 0.0005999671127804626,
      "loss": 2.618,
      "step": 425
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5174363255500793,
      "learning_rate": 0.0005999669578378463,
      "loss": 2.6332,
      "step": 426
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5475605130195618,
      "learning_rate": 0.0005999668025311143,
      "loss": 2.5981,
      "step": 427
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5691794753074646,
      "learning_rate": 0.0005999666468602669,
      "loss": 2.6009,
      "step": 428
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5533199310302734,
      "learning_rate": 0.0005999664908253041,
      "loss": 2.6241,
      "step": 429
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5543381571769714,
      "learning_rate": 0.0005999663344262261,
      "loss": 2.5825,
      "step": 430
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6055874228477478,
      "learning_rate": 0.0005999661776630333,
      "loss": 2.6827,
      "step": 431
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5485331416130066,
      "learning_rate": 0.0005999660205357257,
      "loss": 2.6081,
      "step": 432
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5798375010490417,
      "learning_rate": 0.0005999658630443037,
      "loss": 2.5894,
      "step": 433
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5780116319656372,
      "learning_rate": 0.0005999657051887672,
      "loss": 2.6996,
      "step": 434
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5406432151794434,
      "learning_rate": 0.0005999655469691165,
      "loss": 2.5768,
      "step": 435
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5196858644485474,
      "learning_rate": 0.000599965388385352,
      "loss": 2.6032,
      "step": 436
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5528334379196167,
      "learning_rate": 0.0005999652294374735,
      "loss": 2.6499,
      "step": 437
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5673182606697083,
      "learning_rate": 0.0005999650701254815,
      "loss": 2.6864,
      "step": 438
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5856208801269531,
      "learning_rate": 0.0005999649104493762,
      "loss": 2.5915,
      "step": 439
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5615592002868652,
      "learning_rate": 0.0005999647504091576,
      "loss": 2.5717,
      "step": 440
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5538966059684753,
      "learning_rate": 0.000599964590004826,
      "loss": 2.5404,
      "step": 441
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5637511610984802,
      "learning_rate": 0.0005999644292363815,
      "loss": 2.5978,
      "step": 442
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5742683410644531,
      "learning_rate": 0.0005999642681038244,
      "loss": 2.6195,
      "step": 443
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.556248664855957,
      "learning_rate": 0.000599964106607155,
      "loss": 2.635,
      "step": 444
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.565915048122406,
      "learning_rate": 0.0005999639447463734,
      "loss": 2.7008,
      "step": 445
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5689303874969482,
      "learning_rate": 0.0005999637825214796,
      "loss": 2.6108,
      "step": 446
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5782982707023621,
      "learning_rate": 0.000599963619932474,
      "loss": 2.5665,
      "step": 447
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5767269730567932,
      "learning_rate": 0.0005999634569793568,
      "loss": 2.5583,
      "step": 448
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5664141178131104,
      "learning_rate": 0.0005999632936621282,
      "loss": 2.6595,
      "step": 449
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5816001892089844,
      "learning_rate": 0.0005999631299807884,
      "loss": 2.6733,
      "step": 450
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5516627430915833,
      "learning_rate": 0.0005999629659353375,
      "loss": 2.6222,
      "step": 451
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5798661708831787,
      "learning_rate": 0.0005999628015257757,
      "loss": 2.5811,
      "step": 452
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5251249670982361,
      "learning_rate": 0.0005999626367521033,
      "loss": 2.6773,
      "step": 453
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.572831928730011,
      "learning_rate": 0.0005999624716143204,
      "loss": 2.6117,
      "step": 454
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5542187094688416,
      "learning_rate": 0.0005999623061124273,
      "loss": 2.5569,
      "step": 455
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5531566143035889,
      "learning_rate": 0.0005999621402464242,
      "loss": 2.6313,
      "step": 456
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5243906378746033,
      "learning_rate": 0.0005999619740163112,
      "loss": 2.5227,
      "step": 457
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5692768096923828,
      "learning_rate": 0.0005999618074220886,
      "loss": 2.5417,
      "step": 458
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5338587760925293,
      "learning_rate": 0.0005999616404637566,
      "loss": 2.5699,
      "step": 459
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5468626618385315,
      "learning_rate": 0.0005999614731413153,
      "loss": 2.5369,
      "step": 460
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5785448551177979,
      "learning_rate": 0.0005999613054547649,
      "loss": 2.6484,
      "step": 461
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5520102381706238,
      "learning_rate": 0.0005999611374041058,
      "loss": 2.5809,
      "step": 462
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.542572021484375,
      "learning_rate": 0.0005999609689893381,
      "loss": 2.5326,
      "step": 463
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.56955885887146,
      "learning_rate": 0.0005999608002104619,
      "loss": 2.5447,
      "step": 464
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5250729918479919,
      "learning_rate": 0.0005999606310674774,
      "loss": 2.6033,
      "step": 465
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5760380029678345,
      "learning_rate": 0.000599960461560385,
      "loss": 2.5827,
      "step": 466
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5229824185371399,
      "learning_rate": 0.0005999602916891848,
      "loss": 2.6019,
      "step": 467
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5656493306159973,
      "learning_rate": 0.0005999601214538771,
      "loss": 2.508,
      "step": 468
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5519042611122131,
      "learning_rate": 0.0005999599508544617,
      "loss": 2.566,
      "step": 469
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5590528249740601,
      "learning_rate": 0.0005999597798909393,
      "loss": 2.5569,
      "step": 470
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5656933188438416,
      "learning_rate": 0.00059995960856331,
      "loss": 2.6301,
      "step": 471
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5631030797958374,
      "learning_rate": 0.0005999594368715739,
      "loss": 2.5937,
      "step": 472
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6227638721466064,
      "learning_rate": 0.0005999592648157313,
      "loss": 2.5749,
      "step": 473
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5635976195335388,
      "learning_rate": 0.0005999590923957822,
      "loss": 2.6005,
      "step": 474
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5948657989501953,
      "learning_rate": 0.0005999589196117271,
      "loss": 2.6017,
      "step": 475
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5798152685165405,
      "learning_rate": 0.0005999587464635659,
      "loss": 2.5014,
      "step": 476
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6062899827957153,
      "learning_rate": 0.0005999585729512991,
      "loss": 2.554,
      "step": 477
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5987078547477722,
      "learning_rate": 0.0005999583990749268,
      "loss": 2.546,
      "step": 478
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5302534103393555,
      "learning_rate": 0.0005999582248344492,
      "loss": 2.5954,
      "step": 479
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5906575918197632,
      "learning_rate": 0.0005999580502298663,
      "loss": 2.6804,
      "step": 480
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5595715045928955,
      "learning_rate": 0.0005999578752611788,
      "loss": 2.5176,
      "step": 481
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5798189640045166,
      "learning_rate": 0.0005999576999283865,
      "loss": 2.4965,
      "step": 482
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5691373348236084,
      "learning_rate": 0.0005999575242314897,
      "loss": 2.6134,
      "step": 483
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5317137241363525,
      "learning_rate": 0.0005999573481704888,
      "loss": 2.5425,
      "step": 484
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6059417724609375,
      "learning_rate": 0.0005999571717453839,
      "loss": 2.5213,
      "step": 485
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5446462035179138,
      "learning_rate": 0.0005999569949561751,
      "loss": 2.5263,
      "step": 486
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5224983096122742,
      "learning_rate": 0.0005999568178028627,
      "loss": 2.59,
      "step": 487
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5908533334732056,
      "learning_rate": 0.0005999566402854469,
      "loss": 2.5929,
      "step": 488
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5324013233184814,
      "learning_rate": 0.000599956462403928,
      "loss": 2.5861,
      "step": 489
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5533112287521362,
      "learning_rate": 0.0005999562841583061,
      "loss": 2.5024,
      "step": 490
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6142460107803345,
      "learning_rate": 0.0005999561055485815,
      "loss": 2.5929,
      "step": 491
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5884549617767334,
      "learning_rate": 0.0005999559265747543,
      "loss": 2.5106,
      "step": 492
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5689696669578552,
      "learning_rate": 0.0005999557472368248,
      "loss": 2.6331,
      "step": 493
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6133527755737305,
      "learning_rate": 0.0005999555675347934,
      "loss": 2.6302,
      "step": 494
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6250148415565491,
      "learning_rate": 0.00059995538746866,
      "loss": 2.5712,
      "step": 495
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5830291509628296,
      "learning_rate": 0.000599955207038425,
      "loss": 2.5701,
      "step": 496
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6386141777038574,
      "learning_rate": 0.0005999550262440886,
      "loss": 2.6183,
      "step": 497
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.625653088092804,
      "learning_rate": 0.0005999548450856509,
      "loss": 2.5074,
      "step": 498
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5698468089103699,
      "learning_rate": 0.0005999546635631122,
      "loss": 2.5057,
      "step": 499
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.601714551448822,
      "learning_rate": 0.0005999544816764729,
      "loss": 2.5425,
      "step": 500
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.566064715385437,
      "learning_rate": 0.0005999542994257329,
      "loss": 2.462,
      "step": 501
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5839936137199402,
      "learning_rate": 0.0005999541168108926,
      "loss": 2.5164,
      "step": 502
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5730149149894714,
      "learning_rate": 0.0005999539338319524,
      "loss": 2.5132,
      "step": 503
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5815629363059998,
      "learning_rate": 0.0005999537504889121,
      "loss": 2.5232,
      "step": 504
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6270017027854919,
      "learning_rate": 0.0005999535667817722,
      "loss": 2.5538,
      "step": 505
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.558246910572052,
      "learning_rate": 0.0005999533827105327,
      "loss": 2.5698,
      "step": 506
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6202226281166077,
      "learning_rate": 0.0005999531982751943,
      "loss": 2.4228,
      "step": 507
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6321775913238525,
      "learning_rate": 0.0005999530134757567,
      "loss": 2.5092,
      "step": 508
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6129736304283142,
      "learning_rate": 0.0005999528283122204,
      "loss": 2.6317,
      "step": 509
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.569252073764801,
      "learning_rate": 0.0005999526427845856,
      "loss": 2.5521,
      "step": 510
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6182504892349243,
      "learning_rate": 0.0005999524568928525,
      "loss": 2.5222,
      "step": 511
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5256249308586121,
      "learning_rate": 0.0005999522706370212,
      "loss": 2.565,
      "step": 512
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5748791694641113,
      "learning_rate": 0.0005999520840170921,
      "loss": 2.5157,
      "step": 513
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5846393704414368,
      "learning_rate": 0.0005999518970330654,
      "loss": 2.5507,
      "step": 514
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5256649255752563,
      "learning_rate": 0.0005999517096849413,
      "loss": 2.5179,
      "step": 515
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5844560265541077,
      "learning_rate": 0.00059995152197272,
      "loss": 2.5761,
      "step": 516
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5718159675598145,
      "learning_rate": 0.0005999513338964017,
      "loss": 2.6099,
      "step": 517
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5428345203399658,
      "learning_rate": 0.0005999511454559867,
      "loss": 2.5511,
      "step": 518
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5468198657035828,
      "learning_rate": 0.0005999509566514752,
      "loss": 2.5643,
      "step": 519
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5802648663520813,
      "learning_rate": 0.0005999507674828674,
      "loss": 2.607,
      "step": 520
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5528774857521057,
      "learning_rate": 0.0005999505779501637,
      "loss": 2.5386,
      "step": 521
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5261345505714417,
      "learning_rate": 0.0005999503880533641,
      "loss": 2.5542,
      "step": 522
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5563482046127319,
      "learning_rate": 0.0005999501977924688,
      "loss": 2.6071,
      "step": 523
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.549035906791687,
      "learning_rate": 0.0005999500071674783,
      "loss": 2.5614,
      "step": 524
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5312826037406921,
      "learning_rate": 0.0005999498161783928,
      "loss": 2.4994,
      "step": 525
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5129530429840088,
      "learning_rate": 0.0005999496248252122,
      "loss": 2.448,
      "step": 526
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5288770198822021,
      "learning_rate": 0.0005999494331079371,
      "loss": 2.5223,
      "step": 527
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5321092009544373,
      "learning_rate": 0.0005999492410265675,
      "loss": 2.4411,
      "step": 528
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5078006386756897,
      "learning_rate": 0.0005999490485811038,
      "loss": 2.6081,
      "step": 529
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5228567719459534,
      "learning_rate": 0.0005999488557715461,
      "loss": 2.5015,
      "step": 530
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5659018754959106,
      "learning_rate": 0.0005999486625978946,
      "loss": 2.4251,
      "step": 531
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5403483510017395,
      "learning_rate": 0.0005999484690601498,
      "loss": 2.5079,
      "step": 532
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5282948017120361,
      "learning_rate": 0.0005999482751583116,
      "loss": 2.5721,
      "step": 533
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5373184084892273,
      "learning_rate": 0.0005999480808923804,
      "loss": 2.5833,
      "step": 534
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5308322906494141,
      "learning_rate": 0.0005999478862623565,
      "loss": 2.5358,
      "step": 535
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5208572149276733,
      "learning_rate": 0.00059994769126824,
      "loss": 2.5502,
      "step": 536
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5330458879470825,
      "learning_rate": 0.0005999474959100312,
      "loss": 2.5391,
      "step": 537
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5991854071617126,
      "learning_rate": 0.0005999473001877304,
      "loss": 2.5032,
      "step": 538
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5514467358589172,
      "learning_rate": 0.0005999471041013377,
      "loss": 2.4499,
      "step": 539
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5604813098907471,
      "learning_rate": 0.0005999469076508534,
      "loss": 2.4827,
      "step": 540
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.540005087852478,
      "learning_rate": 0.0005999467108362778,
      "loss": 2.5683,
      "step": 541
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.626011312007904,
      "learning_rate": 0.0005999465136576111,
      "loss": 2.5164,
      "step": 542
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5158223509788513,
      "learning_rate": 0.0005999463161148536,
      "loss": 2.4918,
      "step": 543
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5909552574157715,
      "learning_rate": 0.0005999461182080054,
      "loss": 2.5705,
      "step": 544
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5325919985771179,
      "learning_rate": 0.0005999459199370667,
      "loss": 2.5087,
      "step": 545
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5971957445144653,
      "learning_rate": 0.0005999457213020379,
      "loss": 2.447,
      "step": 546
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5701583027839661,
      "learning_rate": 0.0005999455223029193,
      "loss": 2.4775,
      "step": 547
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5297234654426575,
      "learning_rate": 0.000599945322939711,
      "loss": 2.5092,
      "step": 548
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5914807915687561,
      "learning_rate": 0.0005999451232124131,
      "loss": 2.4889,
      "step": 549
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5118896961212158,
      "learning_rate": 0.0005999449231210262,
      "loss": 2.5798,
      "step": 550
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5885341763496399,
      "learning_rate": 0.0005999447226655503,
      "loss": 2.4662,
      "step": 551
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.540520966053009,
      "learning_rate": 0.0005999445218459856,
      "loss": 2.5218,
      "step": 552
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.538753092288971,
      "learning_rate": 0.0005999443206623326,
      "loss": 2.503,
      "step": 553
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.572259247303009,
      "learning_rate": 0.0005999441191145914,
      "loss": 2.4876,
      "step": 554
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5108733177185059,
      "learning_rate": 0.0005999439172027621,
      "loss": 2.5385,
      "step": 555
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.564863383769989,
      "learning_rate": 0.0005999437149268452,
      "loss": 2.5697,
      "step": 556
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5499584078788757,
      "learning_rate": 0.0005999435122868407,
      "loss": 2.4929,
      "step": 557
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5251414775848389,
      "learning_rate": 0.0005999433092827491,
      "loss": 2.5763,
      "step": 558
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5500982999801636,
      "learning_rate": 0.0005999431059145704,
      "loss": 2.4529,
      "step": 559
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5239517092704773,
      "learning_rate": 0.0005999429021823051,
      "loss": 2.4377,
      "step": 560
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5374017953872681,
      "learning_rate": 0.0005999426980859531,
      "loss": 2.5261,
      "step": 561
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5688635110855103,
      "learning_rate": 0.0005999424936255151,
      "loss": 2.5588,
      "step": 562
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5209962725639343,
      "learning_rate": 0.0005999422888009909,
      "loss": 2.5447,
      "step": 563
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5302043557167053,
      "learning_rate": 0.0005999420836123811,
      "loss": 2.5086,
      "step": 564
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5310183167457581,
      "learning_rate": 0.0005999418780596858,
      "loss": 2.5287,
      "step": 565
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5173277854919434,
      "learning_rate": 0.0005999416721429052,
      "loss": 2.4818,
      "step": 566
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5954013466835022,
      "learning_rate": 0.0005999414658620396,
      "loss": 2.4157,
      "step": 567
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5608422160148621,
      "learning_rate": 0.0005999412592170893,
      "loss": 2.5401,
      "step": 568
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5312801003456116,
      "learning_rate": 0.0005999410522080545,
      "loss": 2.4883,
      "step": 569
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5167436003684998,
      "learning_rate": 0.0005999408448349354,
      "loss": 2.5078,
      "step": 570
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5206165313720703,
      "learning_rate": 0.0005999406370977324,
      "loss": 2.5,
      "step": 571
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5334795117378235,
      "learning_rate": 0.0005999404289964456,
      "loss": 2.4616,
      "step": 572
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5657642483711243,
      "learning_rate": 0.0005999402205310754,
      "loss": 2.4728,
      "step": 573
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5276147723197937,
      "learning_rate": 0.0005999400117016217,
      "loss": 2.4603,
      "step": 574
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5286474227905273,
      "learning_rate": 0.0005999398025080852,
      "loss": 2.4632,
      "step": 575
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5065360069274902,
      "learning_rate": 0.000599939592950466,
      "loss": 2.4419,
      "step": 576
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.529607892036438,
      "learning_rate": 0.0005999393830287644,
      "loss": 2.536,
      "step": 577
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5291658043861389,
      "learning_rate": 0.0005999391727429805,
      "loss": 2.5131,
      "step": 578
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5096211433410645,
      "learning_rate": 0.0005999389620931145,
      "loss": 2.4613,
      "step": 579
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5374837517738342,
      "learning_rate": 0.000599938751079167,
      "loss": 2.4621,
      "step": 580
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5304521918296814,
      "learning_rate": 0.000599938539701138,
      "loss": 2.5021,
      "step": 581
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5431626439094543,
      "learning_rate": 0.0005999383279590277,
      "loss": 2.4993,
      "step": 582
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5377064943313599,
      "learning_rate": 0.0005999381158528366,
      "loss": 2.5626,
      "step": 583
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5446315407752991,
      "learning_rate": 0.0005999379033825649,
      "loss": 2.4761,
      "step": 584
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5803322792053223,
      "learning_rate": 0.0005999376905482125,
      "loss": 2.414,
      "step": 585
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.520871639251709,
      "learning_rate": 0.0005999374773497801,
      "loss": 2.4672,
      "step": 586
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5317761301994324,
      "learning_rate": 0.0005999372637872678,
      "loss": 2.4745,
      "step": 587
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.607904314994812,
      "learning_rate": 0.0005999370498606757,
      "loss": 2.5289,
      "step": 588
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5269620418548584,
      "learning_rate": 0.0005999368355700045,
      "loss": 2.4922,
      "step": 589
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5522414445877075,
      "learning_rate": 0.000599936620915254,
      "loss": 2.4289,
      "step": 590
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5336296558380127,
      "learning_rate": 0.0005999364058964247,
      "loss": 2.4161,
      "step": 591
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5262596011161804,
      "learning_rate": 0.0005999361905135168,
      "loss": 2.4344,
      "step": 592
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5419884324073792,
      "learning_rate": 0.0005999359747665304,
      "loss": 2.4854,
      "step": 593
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5293700695037842,
      "learning_rate": 0.0005999357586554661,
      "loss": 2.5118,
      "step": 594
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5467545390129089,
      "learning_rate": 0.0005999355421803239,
      "loss": 2.5064,
      "step": 595
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5473081469535828,
      "learning_rate": 0.0005999353253411041,
      "loss": 2.5054,
      "step": 596
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5371267199516296,
      "learning_rate": 0.0005999351081378071,
      "loss": 2.5295,
      "step": 597
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5237250328063965,
      "learning_rate": 0.000599934890570433,
      "loss": 2.4552,
      "step": 598
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5332470536231995,
      "learning_rate": 0.0005999346726389823,
      "loss": 2.4626,
      "step": 599
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5167912244796753,
      "learning_rate": 0.0005999344543434549,
      "loss": 2.4988,
      "step": 600
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5236017107963562,
      "learning_rate": 0.0005999342356838513,
      "loss": 2.4549,
      "step": 601
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5671952366828918,
      "learning_rate": 0.0005999340166601718,
      "loss": 2.488,
      "step": 602
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5264431834220886,
      "learning_rate": 0.0005999337972724166,
      "loss": 2.4987,
      "step": 603
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5864638686180115,
      "learning_rate": 0.0005999335775205859,
      "loss": 2.3441,
      "step": 604
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5983520150184631,
      "learning_rate": 0.0005999333574046802,
      "loss": 2.5356,
      "step": 605
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6097404956817627,
      "learning_rate": 0.0005999331369246993,
      "loss": 2.4484,
      "step": 606
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5804564952850342,
      "learning_rate": 0.000599932916080644,
      "loss": 2.4074,
      "step": 607
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5394394993782043,
      "learning_rate": 0.0005999326948725142,
      "loss": 2.404,
      "step": 608
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.543092668056488,
      "learning_rate": 0.0005999324733003105,
      "loss": 2.3552,
      "step": 609
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5440833568572998,
      "learning_rate": 0.0005999322513640327,
      "loss": 2.5098,
      "step": 610
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5235976576805115,
      "learning_rate": 0.0005999320290636815,
      "loss": 2.4595,
      "step": 611
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5338756442070007,
      "learning_rate": 0.000599931806399257,
      "loss": 2.4367,
      "step": 612
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5239266753196716,
      "learning_rate": 0.0005999315833707594,
      "loss": 2.4687,
      "step": 613
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.552028238773346,
      "learning_rate": 0.0005999313599781891,
      "loss": 2.433,
      "step": 614
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.53354811668396,
      "learning_rate": 0.0005999311362215465,
      "loss": 2.4705,
      "step": 615
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.523779571056366,
      "learning_rate": 0.0005999309121008314,
      "loss": 2.33,
      "step": 616
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5257861614227295,
      "learning_rate": 0.0005999306876160445,
      "loss": 2.4469,
      "step": 617
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5327796936035156,
      "learning_rate": 0.000599930462767186,
      "loss": 2.4352,
      "step": 618
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5440567135810852,
      "learning_rate": 0.000599930237554256,
      "loss": 2.5199,
      "step": 619
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5399265289306641,
      "learning_rate": 0.000599930011977255,
      "loss": 2.4604,
      "step": 620
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5907425880432129,
      "learning_rate": 0.000599929786036183,
      "loss": 2.4219,
      "step": 621
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5526651740074158,
      "learning_rate": 0.0005999295597310406,
      "loss": 2.5394,
      "step": 622
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.573243260383606,
      "learning_rate": 0.0005999293330618277,
      "loss": 2.4383,
      "step": 623
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5041510462760925,
      "learning_rate": 0.000599929106028545,
      "loss": 2.4644,
      "step": 624
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5486881732940674,
      "learning_rate": 0.0005999288786311924,
      "loss": 2.4449,
      "step": 625
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5515806674957275,
      "learning_rate": 0.0005999286508697705,
      "loss": 2.4213,
      "step": 626
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5376939177513123,
      "learning_rate": 0.0005999284227442793,
      "loss": 2.5218,
      "step": 627
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5298656821250916,
      "learning_rate": 0.0005999281942547191,
      "loss": 2.3641,
      "step": 628
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5742085576057434,
      "learning_rate": 0.0005999279654010904,
      "loss": 2.3688,
      "step": 629
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.572301983833313,
      "learning_rate": 0.0005999277361833933,
      "loss": 2.5254,
      "step": 630
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5459994077682495,
      "learning_rate": 0.0005999275066016282,
      "loss": 2.4665,
      "step": 631
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5830534100532532,
      "learning_rate": 0.0005999272766557952,
      "loss": 2.4809,
      "step": 632
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.532762348651886,
      "learning_rate": 0.0005999270463458947,
      "loss": 2.396,
      "step": 633
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5710887312889099,
      "learning_rate": 0.0005999268156719269,
      "loss": 2.4103,
      "step": 634
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5734756588935852,
      "learning_rate": 0.0005999265846338923,
      "loss": 2.4155,
      "step": 635
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5797313451766968,
      "learning_rate": 0.0005999263532317909,
      "loss": 2.4442,
      "step": 636
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5266671180725098,
      "learning_rate": 0.000599926121465623,
      "loss": 2.399,
      "step": 637
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5436414480209351,
      "learning_rate": 0.0005999258893353891,
      "loss": 2.4259,
      "step": 638
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5519590377807617,
      "learning_rate": 0.0005999256568410894,
      "loss": 2.4449,
      "step": 639
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.515599250793457,
      "learning_rate": 0.0005999254239827241,
      "loss": 2.3983,
      "step": 640
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5495505928993225,
      "learning_rate": 0.0005999251907602936,
      "loss": 2.5258,
      "step": 641
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5590931177139282,
      "learning_rate": 0.000599924957173798,
      "loss": 2.4359,
      "step": 642
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5732768774032593,
      "learning_rate": 0.0005999247232232376,
      "loss": 2.466,
      "step": 643
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5578808784484863,
      "learning_rate": 0.0005999244889086131,
      "loss": 2.48,
      "step": 644
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.562647819519043,
      "learning_rate": 0.0005999242542299242,
      "loss": 2.5273,
      "step": 645
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5514674782752991,
      "learning_rate": 0.0005999240191871715,
      "loss": 2.3663,
      "step": 646
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6354007720947266,
      "learning_rate": 0.0005999237837803552,
      "loss": 2.5152,
      "step": 647
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5597193241119385,
      "learning_rate": 0.0005999235480094757,
      "loss": 2.4361,
      "step": 648
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5522423982620239,
      "learning_rate": 0.0005999233118745333,
      "loss": 2.4179,
      "step": 649
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5248365998268127,
      "learning_rate": 0.0005999230753755279,
      "loss": 2.4153,
      "step": 650
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5301697254180908,
      "learning_rate": 0.0005999228385124603,
      "loss": 2.413,
      "step": 651
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5616469383239746,
      "learning_rate": 0.0005999226012853306,
      "loss": 2.4022,
      "step": 652
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5279538631439209,
      "learning_rate": 0.000599922363694139,
      "loss": 2.4348,
      "step": 653
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5447009205818176,
      "learning_rate": 0.0005999221257388857,
      "loss": 2.3469,
      "step": 654
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6143272519111633,
      "learning_rate": 0.0005999218874195712,
      "loss": 2.3867,
      "step": 655
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5182226300239563,
      "learning_rate": 0.0005999216487361958,
      "loss": 2.4942,
      "step": 656
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5847210884094238,
      "learning_rate": 0.0005999214096887597,
      "loss": 2.446,
      "step": 657
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5372312068939209,
      "learning_rate": 0.0005999211702772631,
      "loss": 2.4273,
      "step": 658
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.538029670715332,
      "learning_rate": 0.0005999209305017065,
      "loss": 2.4543,
      "step": 659
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5687229037284851,
      "learning_rate": 0.00059992069036209,
      "loss": 2.3862,
      "step": 660
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5622971057891846,
      "learning_rate": 0.000599920449858414,
      "loss": 2.4621,
      "step": 661
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5320502519607544,
      "learning_rate": 0.0005999202089906788,
      "loss": 2.4325,
      "step": 662
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5818053483963013,
      "learning_rate": 0.0005999199677588846,
      "loss": 2.4556,
      "step": 663
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.504327654838562,
      "learning_rate": 0.0005999197261630318,
      "loss": 2.4188,
      "step": 664
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6127235889434814,
      "learning_rate": 0.0005999194842031206,
      "loss": 2.4547,
      "step": 665
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5498173236846924,
      "learning_rate": 0.0005999192418791514,
      "loss": 2.4178,
      "step": 666
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5123918056488037,
      "learning_rate": 0.0005999189991911244,
      "loss": 2.4351,
      "step": 667
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5507996082305908,
      "learning_rate": 0.0005999187561390399,
      "loss": 2.3944,
      "step": 668
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5761390328407288,
      "learning_rate": 0.0005999185127228983,
      "loss": 2.5067,
      "step": 669
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5670554041862488,
      "learning_rate": 0.0005999182689426998,
      "loss": 2.331,
      "step": 670
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5643467307090759,
      "learning_rate": 0.0005999180247984446,
      "loss": 2.3984,
      "step": 671
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5333529114723206,
      "learning_rate": 0.0005999177802901332,
      "loss": 2.5047,
      "step": 672
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5375915169715881,
      "learning_rate": 0.0005999175354177658,
      "loss": 2.3696,
      "step": 673
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.553916335105896,
      "learning_rate": 0.0005999172901813427,
      "loss": 2.4361,
      "step": 674
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5575783848762512,
      "learning_rate": 0.0005999170445808641,
      "loss": 2.4117,
      "step": 675
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5611264109611511,
      "learning_rate": 0.0005999167986163305,
      "loss": 2.3488,
      "step": 676
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5588022470474243,
      "learning_rate": 0.0005999165522877422,
      "loss": 2.3668,
      "step": 677
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5533255934715271,
      "learning_rate": 0.0005999163055950992,
      "loss": 2.3273,
      "step": 678
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6116921305656433,
      "learning_rate": 0.000599916058538402,
      "loss": 2.4319,
      "step": 679
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5480513572692871,
      "learning_rate": 0.0005999158111176511,
      "loss": 2.3911,
      "step": 680
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5765905976295471,
      "learning_rate": 0.0005999155633328464,
      "loss": 2.3461,
      "step": 681
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5589997172355652,
      "learning_rate": 0.0005999153151839885,
      "loss": 2.4023,
      "step": 682
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.562271237373352,
      "learning_rate": 0.0005999150666710775,
      "loss": 2.4236,
      "step": 683
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5566955208778381,
      "learning_rate": 0.0005999148177941139,
      "loss": 2.4497,
      "step": 684
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.590217649936676,
      "learning_rate": 0.0005999145685530978,
      "loss": 2.4177,
      "step": 685
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5644487142562866,
      "learning_rate": 0.0005999143189480298,
      "loss": 2.3764,
      "step": 686
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.545585036277771,
      "learning_rate": 0.0005999140689789098,
      "loss": 2.4041,
      "step": 687
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5592756867408752,
      "learning_rate": 0.0005999138186457384,
      "loss": 2.4221,
      "step": 688
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5323581695556641,
      "learning_rate": 0.0005999135679485158,
      "loss": 2.4317,
      "step": 689
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5589087009429932,
      "learning_rate": 0.0005999133168872423,
      "loss": 2.3512,
      "step": 690
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.560042142868042,
      "learning_rate": 0.0005999130654619183,
      "loss": 2.3694,
      "step": 691
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5378957986831665,
      "learning_rate": 0.0005999128136725439,
      "loss": 2.4168,
      "step": 692
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5331454277038574,
      "learning_rate": 0.0005999125615191197,
      "loss": 2.4465,
      "step": 693
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.552297830581665,
      "learning_rate": 0.0005999123090016456,
      "loss": 2.4111,
      "step": 694
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5246497392654419,
      "learning_rate": 0.0005999120561201224,
      "loss": 2.4906,
      "step": 695
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.515898585319519,
      "learning_rate": 0.0005999118028745501,
      "loss": 2.3899,
      "step": 696
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5274523496627808,
      "learning_rate": 0.0005999115492649289,
      "loss": 2.4368,
      "step": 697
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5150489211082458,
      "learning_rate": 0.0005999112952912594,
      "loss": 2.4378,
      "step": 698
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5185562968254089,
      "learning_rate": 0.0005999110409535418,
      "loss": 2.4032,
      "step": 699
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5435193777084351,
      "learning_rate": 0.0005999107862517763,
      "loss": 2.4028,
      "step": 700
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5727892518043518,
      "learning_rate": 0.0005999105311859633,
      "loss": 2.3812,
      "step": 701
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5614235401153564,
      "learning_rate": 0.0005999102757561032,
      "loss": 2.4249,
      "step": 702
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5415563583374023,
      "learning_rate": 0.0005999100199621961,
      "loss": 2.3446,
      "step": 703
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5278894901275635,
      "learning_rate": 0.0005999097638042425,
      "loss": 2.3837,
      "step": 704
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5210657715797424,
      "learning_rate": 0.0005999095072822426,
      "loss": 2.3317,
      "step": 705
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5615662932395935,
      "learning_rate": 0.0005999092503961968,
      "loss": 2.41,
      "step": 706
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5151225924491882,
      "learning_rate": 0.0005999089931461054,
      "loss": 2.4184,
      "step": 707
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.6302006244659424,
      "learning_rate": 0.0005999087355319686,
      "loss": 2.3705,
      "step": 708
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5290981531143188,
      "learning_rate": 0.0005999084775537867,
      "loss": 2.2944,
      "step": 709
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5930208563804626,
      "learning_rate": 0.0005999082192115602,
      "loss": 2.4144,
      "step": 710
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5519159436225891,
      "learning_rate": 0.0005999079605052893,
      "loss": 2.309,
      "step": 711
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5718477368354797,
      "learning_rate": 0.0005999077014349742,
      "loss": 2.4482,
      "step": 712
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5403241515159607,
      "learning_rate": 0.0005999074420006156,
      "loss": 2.3954,
      "step": 713
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5393921136856079,
      "learning_rate": 0.0005999071822022133,
      "loss": 2.3288,
      "step": 714
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5322020649909973,
      "learning_rate": 0.000599906922039768,
      "loss": 2.4414,
      "step": 715
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.529391884803772,
      "learning_rate": 0.0005999066615132799,
      "loss": 2.4341,
      "step": 716
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5333637595176697,
      "learning_rate": 0.0005999064006227493,
      "loss": 2.3673,
      "step": 717
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5294150114059448,
      "learning_rate": 0.0005999061393681765,
      "loss": 2.4404,
      "step": 718
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5394929051399231,
      "learning_rate": 0.0005999058777495618,
      "loss": 2.3546,
      "step": 719
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5354108214378357,
      "learning_rate": 0.0005999056157669056,
      "loss": 2.4249,
      "step": 720
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5288283228874207,
      "learning_rate": 0.0005999053534202081,
      "loss": 2.4022,
      "step": 721
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5198693871498108,
      "learning_rate": 0.0005999050907094697,
      "loss": 2.4308,
      "step": 722
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5573158264160156,
      "learning_rate": 0.0005999048276346908,
      "loss": 2.4079,
      "step": 723
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5344955325126648,
      "learning_rate": 0.0005999045641958715,
      "loss": 2.3516,
      "step": 724
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5441338419914246,
      "learning_rate": 0.0005999043003930123,
      "loss": 2.3828,
      "step": 725
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5359179973602295,
      "learning_rate": 0.0005999040362261135,
      "loss": 2.2731,
      "step": 726
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5516365766525269,
      "learning_rate": 0.0005999037716951755,
      "loss": 2.3745,
      "step": 727
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5338647961616516,
      "learning_rate": 0.0005999035068001983,
      "loss": 2.3647,
      "step": 728
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5307949185371399,
      "learning_rate": 0.0005999032415411825,
      "loss": 2.3052,
      "step": 729
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5322198271751404,
      "learning_rate": 0.0005999029759181285,
      "loss": 2.3808,
      "step": 730
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5567410588264465,
      "learning_rate": 0.0005999027099310363,
      "loss": 2.353,
      "step": 731
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5270947813987732,
      "learning_rate": 0.0005999024435799063,
      "loss": 2.3578,
      "step": 732
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.50501549243927,
      "learning_rate": 0.0005999021768647392,
      "loss": 2.3085,
      "step": 733
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5077863931655884,
      "learning_rate": 0.0005999019097855349,
      "loss": 2.3135,
      "step": 734
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5303142666816711,
      "learning_rate": 0.0005999016423422938,
      "loss": 2.327,
      "step": 735
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5371215343475342,
      "learning_rate": 0.0005999013745350164,
      "loss": 2.458,
      "step": 736
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5690337419509888,
      "learning_rate": 0.000599901106363703,
      "loss": 2.3902,
      "step": 737
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5259177088737488,
      "learning_rate": 0.0005999008378283537,
      "loss": 2.3672,
      "step": 738
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5350672006607056,
      "learning_rate": 0.000599900568928969,
      "loss": 2.3076,
      "step": 739
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.527289092540741,
      "learning_rate": 0.0005999002996655493,
      "loss": 2.3222,
      "step": 740
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.529694139957428,
      "learning_rate": 0.0005999000300380946,
      "loss": 2.3918,
      "step": 741
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.56996089220047,
      "learning_rate": 0.0005998997600466057,
      "loss": 2.3901,
      "step": 742
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5301176905632019,
      "learning_rate": 0.0005998994896910826,
      "loss": 2.4338,
      "step": 743
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.559987485408783,
      "learning_rate": 0.0005998992189715257,
      "loss": 2.3607,
      "step": 744
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5391811728477478,
      "learning_rate": 0.0005998989478879352,
      "loss": 2.4139,
      "step": 745
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5928145051002502,
      "learning_rate": 0.0005998986764403117,
      "loss": 2.3406,
      "step": 746
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5696121454238892,
      "learning_rate": 0.0005998984046286554,
      "loss": 2.3922,
      "step": 747
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5161065459251404,
      "learning_rate": 0.0005998981324529665,
      "loss": 2.4,
      "step": 748
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5584115982055664,
      "learning_rate": 0.0005998978599132456,
      "loss": 2.3887,
      "step": 749
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5162433385848999,
      "learning_rate": 0.0005998975870094928,
      "loss": 2.4858,
      "step": 750
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5096307396888733,
      "learning_rate": 0.0005998973137417087,
      "loss": 2.4551,
      "step": 751
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5184403657913208,
      "learning_rate": 0.0005998970401098932,
      "loss": 2.2669,
      "step": 752
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5337183475494385,
      "learning_rate": 0.000599896766114047,
      "loss": 2.3507,
      "step": 753
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5306909084320068,
      "learning_rate": 0.0005998964917541703,
      "loss": 2.3935,
      "step": 754
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5513297915458679,
      "learning_rate": 0.0005998962170302635,
      "loss": 2.4024,
      "step": 755
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5254392027854919,
      "learning_rate": 0.0005998959419423268,
      "loss": 2.3967,
      "step": 756
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5517656207084656,
      "learning_rate": 0.0005998956664903607,
      "loss": 2.3968,
      "step": 757
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5472599267959595,
      "learning_rate": 0.0005998953906743653,
      "loss": 2.3139,
      "step": 758
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5212060213088989,
      "learning_rate": 0.0005998951144943412,
      "loss": 2.3404,
      "step": 759
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5381724238395691,
      "learning_rate": 0.0005998948379502886,
      "loss": 2.4248,
      "step": 760
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5263897180557251,
      "learning_rate": 0.0005998945610422078,
      "loss": 2.2849,
      "step": 761
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5417972803115845,
      "learning_rate": 0.0005998942837700992,
      "loss": 2.3482,
      "step": 762
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5508509874343872,
      "learning_rate": 0.0005998940061339633,
      "loss": 2.3456,
      "step": 763
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.546521782875061,
      "learning_rate": 0.0005998937281338001,
      "loss": 2.3817,
      "step": 764
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.567232072353363,
      "learning_rate": 0.0005998934497696101,
      "loss": 2.3156,
      "step": 765
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5718271732330322,
      "learning_rate": 0.0005998931710413936,
      "loss": 2.3586,
      "step": 766
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5468490719795227,
      "learning_rate": 0.0005998928919491511,
      "loss": 2.2554,
      "step": 767
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5568229556083679,
      "learning_rate": 0.0005998926124928828,
      "loss": 2.3681,
      "step": 768
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5707566738128662,
      "learning_rate": 0.000599892332672589,
      "loss": 2.4795,
      "step": 769
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5797488689422607,
      "learning_rate": 0.0005998920524882701,
      "loss": 2.3566,
      "step": 770
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5620765686035156,
      "learning_rate": 0.0005998917719399264,
      "loss": 2.3074,
      "step": 771
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5449508428573608,
      "learning_rate": 0.0005998914910275584,
      "loss": 2.2906,
      "step": 772
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6058652997016907,
      "learning_rate": 0.0005998912097511662,
      "loss": 2.3737,
      "step": 773
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5143831968307495,
      "learning_rate": 0.0005998909281107503,
      "loss": 2.3107,
      "step": 774
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5624595284461975,
      "learning_rate": 0.000599890646106311,
      "loss": 2.3835,
      "step": 775
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5628429651260376,
      "learning_rate": 0.0005998903637378487,
      "loss": 2.4181,
      "step": 776
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5374233722686768,
      "learning_rate": 0.0005998900810053636,
      "loss": 2.4374,
      "step": 777
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5491841435432434,
      "learning_rate": 0.0005998897979088561,
      "loss": 2.4431,
      "step": 778
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5797106027603149,
      "learning_rate": 0.0005998895144483266,
      "loss": 2.2786,
      "step": 779
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5666356086730957,
      "learning_rate": 0.0005998892306237755,
      "loss": 2.2561,
      "step": 780
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.539783775806427,
      "learning_rate": 0.000599888946435203,
      "loss": 2.2936,
      "step": 781
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.59385085105896,
      "learning_rate": 0.0005998886618826095,
      "loss": 2.3308,
      "step": 782
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5642499923706055,
      "learning_rate": 0.0005998883769659953,
      "loss": 2.4035,
      "step": 783
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.540844202041626,
      "learning_rate": 0.0005998880916853609,
      "loss": 2.3441,
      "step": 784
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5495225787162781,
      "learning_rate": 0.0005998878060407065,
      "loss": 2.3187,
      "step": 785
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5456387996673584,
      "learning_rate": 0.0005998875200320325,
      "loss": 2.289,
      "step": 786
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5515730381011963,
      "learning_rate": 0.0005998872336593392,
      "loss": 2.3599,
      "step": 787
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5825996398925781,
      "learning_rate": 0.000599886946922627,
      "loss": 2.4131,
      "step": 788
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5176287293434143,
      "learning_rate": 0.0005998866598218963,
      "loss": 2.3067,
      "step": 789
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5929204225540161,
      "learning_rate": 0.0005998863723571473,
      "loss": 2.4052,
      "step": 790
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5721216201782227,
      "learning_rate": 0.0005998860845283804,
      "loss": 2.4149,
      "step": 791
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5263400077819824,
      "learning_rate": 0.0005998857963355961,
      "loss": 2.3786,
      "step": 792
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.581911027431488,
      "learning_rate": 0.0005998855077787946,
      "loss": 2.3735,
      "step": 793
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5520954132080078,
      "learning_rate": 0.0005998852188579762,
      "loss": 2.2814,
      "step": 794
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5031235814094543,
      "learning_rate": 0.0005998849295731414,
      "loss": 2.3698,
      "step": 795
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5723980665206909,
      "learning_rate": 0.0005998846399242905,
      "loss": 2.3798,
      "step": 796
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5294168591499329,
      "learning_rate": 0.0005998843499114237,
      "loss": 2.253,
      "step": 797
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5388063192367554,
      "learning_rate": 0.0005998840595345416,
      "loss": 2.2563,
      "step": 798
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5927109122276306,
      "learning_rate": 0.0005998837687936445,
      "loss": 2.4555,
      "step": 799
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5193888545036316,
      "learning_rate": 0.0005998834776887326,
      "loss": 2.3105,
      "step": 800
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5436877012252808,
      "learning_rate": 0.0005998831862198062,
      "loss": 2.3844,
      "step": 801
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5903766751289368,
      "learning_rate": 0.000599882894386866,
      "loss": 2.3451,
      "step": 802
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5246678590774536,
      "learning_rate": 0.0005998826021899121,
      "loss": 2.3473,
      "step": 803
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5393039584159851,
      "learning_rate": 0.0005998823096289448,
      "loss": 2.3808,
      "step": 804
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.553642213344574,
      "learning_rate": 0.0005998820167039647,
      "loss": 2.3468,
      "step": 805
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5310191512107849,
      "learning_rate": 0.000599881723414972,
      "loss": 2.415,
      "step": 806
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5495155453681946,
      "learning_rate": 0.0005998814297619671,
      "loss": 2.3101,
      "step": 807
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5579994320869446,
      "learning_rate": 0.0005998811357449504,
      "loss": 2.4621,
      "step": 808
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5262506604194641,
      "learning_rate": 0.000599880841363922,
      "loss": 2.3885,
      "step": 809
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5537403225898743,
      "learning_rate": 0.0005998805466188825,
      "loss": 2.3306,
      "step": 810
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5379055142402649,
      "learning_rate": 0.0005998802515098322,
      "loss": 2.3285,
      "step": 811
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.537174642086029,
      "learning_rate": 0.0005998799560367714,
      "loss": 2.3375,
      "step": 812
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5899986624717712,
      "learning_rate": 0.0005998796601997007,
      "loss": 2.3763,
      "step": 813
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5051622986793518,
      "learning_rate": 0.0005998793639986201,
      "loss": 2.2947,
      "step": 814
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5176200270652771,
      "learning_rate": 0.0005998790674335302,
      "loss": 2.3402,
      "step": 815
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5183380842208862,
      "learning_rate": 0.0005998787705044313,
      "loss": 2.3122,
      "step": 816
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5176234841346741,
      "learning_rate": 0.0005998784732113238,
      "loss": 2.3693,
      "step": 817
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.526352047920227,
      "learning_rate": 0.000599878175554208,
      "loss": 2.313,
      "step": 818
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5118048787117004,
      "learning_rate": 0.0005998778775330842,
      "loss": 2.385,
      "step": 819
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5346338152885437,
      "learning_rate": 0.000599877579147953,
      "loss": 2.3326,
      "step": 820
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5278644561767578,
      "learning_rate": 0.0005998772803988145,
      "loss": 2.3818,
      "step": 821
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.548653244972229,
      "learning_rate": 0.0005998769812856692,
      "loss": 2.4052,
      "step": 822
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5234813094139099,
      "learning_rate": 0.0005998766818085174,
      "loss": 2.3562,
      "step": 823
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5474159717559814,
      "learning_rate": 0.0005998763819673594,
      "loss": 2.3276,
      "step": 824
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5313858985900879,
      "learning_rate": 0.0005998760817621957,
      "loss": 2.2507,
      "step": 825
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5133106708526611,
      "learning_rate": 0.0005998757811930268,
      "loss": 2.3237,
      "step": 826
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5473512411117554,
      "learning_rate": 0.0005998754802598528,
      "loss": 2.3696,
      "step": 827
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5439674258232117,
      "learning_rate": 0.000599875178962674,
      "loss": 2.3394,
      "step": 828
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5207926630973816,
      "learning_rate": 0.0005998748773014911,
      "loss": 2.3227,
      "step": 829
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5202538967132568,
      "learning_rate": 0.0005998745752763042,
      "loss": 2.3398,
      "step": 830
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5293751358985901,
      "learning_rate": 0.0005998742728871138,
      "loss": 2.3234,
      "step": 831
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5181113481521606,
      "learning_rate": 0.0005998739701339201,
      "loss": 2.4094,
      "step": 832
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5387468338012695,
      "learning_rate": 0.0005998736670167237,
      "loss": 2.3484,
      "step": 833
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5613673329353333,
      "learning_rate": 0.0005998733635355248,
      "loss": 2.3937,
      "step": 834
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.527904748916626,
      "learning_rate": 0.0005998730596903239,
      "loss": 2.2966,
      "step": 835
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5729063749313354,
      "learning_rate": 0.0005998727554811211,
      "loss": 2.3587,
      "step": 836
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5305527448654175,
      "learning_rate": 0.0005998724509079172,
      "loss": 2.3749,
      "step": 837
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5575835704803467,
      "learning_rate": 0.0005998721459707122,
      "loss": 2.332,
      "step": 838
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5633012652397156,
      "learning_rate": 0.0005998718406695065,
      "loss": 2.3195,
      "step": 839
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5540057420730591,
      "learning_rate": 0.0005998715350043007,
      "loss": 2.3101,
      "step": 840
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5445023775100708,
      "learning_rate": 0.0005998712289750952,
      "loss": 2.4207,
      "step": 841
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5539295673370361,
      "learning_rate": 0.00059987092258189,
      "loss": 2.3145,
      "step": 842
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5650376081466675,
      "learning_rate": 0.0005998706158246857,
      "loss": 2.4108,
      "step": 843
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5208696126937866,
      "learning_rate": 0.0005998703087034827,
      "loss": 2.3481,
      "step": 844
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.53379225730896,
      "learning_rate": 0.0005998700012182812,
      "loss": 2.2863,
      "step": 845
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5553328394889832,
      "learning_rate": 0.0005998696933690819,
      "loss": 2.3169,
      "step": 846
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5201312899589539,
      "learning_rate": 0.0005998693851558848,
      "loss": 2.3329,
      "step": 847
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5645260810852051,
      "learning_rate": 0.0005998690765786906,
      "loss": 2.3725,
      "step": 848
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5033709406852722,
      "learning_rate": 0.0005998687676374995,
      "loss": 2.3279,
      "step": 849
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5514258146286011,
      "learning_rate": 0.0005998684583323118,
      "loss": 2.2991,
      "step": 850
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5570060014724731,
      "learning_rate": 0.0005998681486631281,
      "loss": 2.4267,
      "step": 851
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.517353892326355,
      "learning_rate": 0.0005998678386299486,
      "loss": 2.3072,
      "step": 852
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5360201597213745,
      "learning_rate": 0.0005998675282327736,
      "loss": 2.3174,
      "step": 853
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.514726996421814,
      "learning_rate": 0.0005998672174716038,
      "loss": 2.2841,
      "step": 854
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5293750762939453,
      "learning_rate": 0.0005998669063464392,
      "loss": 2.3308,
      "step": 855
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5374003052711487,
      "learning_rate": 0.0005998665948572805,
      "loss": 2.2626,
      "step": 856
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5156189799308777,
      "learning_rate": 0.0005998662830041278,
      "loss": 2.2897,
      "step": 857
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5643547773361206,
      "learning_rate": 0.0005998659707869818,
      "loss": 2.321,
      "step": 858
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5077490210533142,
      "learning_rate": 0.0005998656582058426,
      "loss": 2.3237,
      "step": 859
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.542023241519928,
      "learning_rate": 0.0005998653452607106,
      "loss": 2.3169,
      "step": 860
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5365061163902283,
      "learning_rate": 0.0005998650319515864,
      "loss": 2.3162,
      "step": 861
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.542856752872467,
      "learning_rate": 0.0005998647182784702,
      "loss": 2.3304,
      "step": 862
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5319106578826904,
      "learning_rate": 0.0005998644042413624,
      "loss": 2.3056,
      "step": 863
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5114570260047913,
      "learning_rate": 0.0005998640898402633,
      "loss": 2.3261,
      "step": 864
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5585231781005859,
      "learning_rate": 0.0005998637750751735,
      "loss": 2.2842,
      "step": 865
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5226653218269348,
      "learning_rate": 0.0005998634599460932,
      "loss": 2.3822,
      "step": 866
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5610462427139282,
      "learning_rate": 0.0005998631444530229,
      "loss": 2.238,
      "step": 867
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5210893154144287,
      "learning_rate": 0.0005998628285959628,
      "loss": 2.2595,
      "step": 868
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5297709703445435,
      "learning_rate": 0.0005998625123749135,
      "loss": 2.3196,
      "step": 869
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5236052870750427,
      "learning_rate": 0.0005998621957898754,
      "loss": 2.3016,
      "step": 870
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5343360900878906,
      "learning_rate": 0.0005998618788408485,
      "loss": 2.3689,
      "step": 871
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5305886268615723,
      "learning_rate": 0.0005998615615278337,
      "loss": 2.2918,
      "step": 872
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5015169382095337,
      "learning_rate": 0.0005998612438508311,
      "loss": 2.3381,
      "step": 873
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5201072096824646,
      "learning_rate": 0.0005998609258098411,
      "loss": 2.2199,
      "step": 874
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.49780771136283875,
      "learning_rate": 0.0005998606074048641,
      "loss": 2.2481,
      "step": 875
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5191155076026917,
      "learning_rate": 0.0005998602886359006,
      "loss": 2.3292,
      "step": 876
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5317631363868713,
      "learning_rate": 0.0005998599695029508,
      "loss": 2.2755,
      "step": 877
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5150204300880432,
      "learning_rate": 0.0005998596500060152,
      "loss": 2.2466,
      "step": 878
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5285587310791016,
      "learning_rate": 0.0005998593301450941,
      "loss": 2.2815,
      "step": 879
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5809332728385925,
      "learning_rate": 0.000599859009920188,
      "loss": 2.2427,
      "step": 880
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5186752080917358,
      "learning_rate": 0.0005998586893312973,
      "loss": 2.4012,
      "step": 881
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5022939443588257,
      "learning_rate": 0.0005998583683784223,
      "loss": 2.2343,
      "step": 882
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5612741708755493,
      "learning_rate": 0.0005998580470615635,
      "loss": 2.236,
      "step": 883
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5223701596260071,
      "learning_rate": 0.0005998577253807211,
      "loss": 2.2296,
      "step": 884
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5390515923500061,
      "learning_rate": 0.0005998574033358956,
      "loss": 2.4181,
      "step": 885
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4868529140949249,
      "learning_rate": 0.0005998570809270875,
      "loss": 2.2824,
      "step": 886
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5410994291305542,
      "learning_rate": 0.000599856758154297,
      "loss": 2.3028,
      "step": 887
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5152238607406616,
      "learning_rate": 0.0005998564350175246,
      "loss": 2.3142,
      "step": 888
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5265399217605591,
      "learning_rate": 0.0005998561115167706,
      "loss": 2.3359,
      "step": 889
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5085618495941162,
      "learning_rate": 0.0005998557876520355,
      "loss": 2.3084,
      "step": 890
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5564749836921692,
      "learning_rate": 0.0005998554634233197,
      "loss": 2.3148,
      "step": 891
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5257198810577393,
      "learning_rate": 0.0005998551388306236,
      "loss": 2.3296,
      "step": 892
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5194730162620544,
      "learning_rate": 0.0005998548138739474,
      "loss": 2.2044,
      "step": 893
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.527059018611908,
      "learning_rate": 0.0005998544885532917,
      "loss": 2.3057,
      "step": 894
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5316935181617737,
      "learning_rate": 0.0005998541628686569,
      "loss": 2.3029,
      "step": 895
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5037040710449219,
      "learning_rate": 0.0005998538368200433,
      "loss": 2.2737,
      "step": 896
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5168867707252502,
      "learning_rate": 0.0005998535104074512,
      "loss": 2.3005,
      "step": 897
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5295670032501221,
      "learning_rate": 0.0005998531836308812,
      "loss": 2.3486,
      "step": 898
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5335251092910767,
      "learning_rate": 0.0005998528564903337,
      "loss": 2.3001,
      "step": 899
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5038827061653137,
      "learning_rate": 0.0005998525289858089,
      "loss": 2.3116,
      "step": 900
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5436520576477051,
      "learning_rate": 0.0005998522011173074,
      "loss": 2.2734,
      "step": 901
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5306395888328552,
      "learning_rate": 0.0005998518728848295,
      "loss": 2.3833,
      "step": 902
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5305691957473755,
      "learning_rate": 0.0005998515442883755,
      "loss": 2.336,
      "step": 903
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5313119292259216,
      "learning_rate": 0.000599851215327946,
      "loss": 2.2913,
      "step": 904
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5138800144195557,
      "learning_rate": 0.0005998508860035413,
      "loss": 2.3486,
      "step": 905
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6131629347801208,
      "learning_rate": 0.0005998505563151619,
      "loss": 2.345,
      "step": 906
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5098271369934082,
      "learning_rate": 0.0005998502262628078,
      "loss": 2.3628,
      "step": 907
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5872520804405212,
      "learning_rate": 0.00059984989584648,
      "loss": 2.3166,
      "step": 908
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6110334396362305,
      "learning_rate": 0.0005998495650661786,
      "loss": 2.234,
      "step": 909
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.538253128528595,
      "learning_rate": 0.0005998492339219038,
      "loss": 2.3482,
      "step": 910
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6191263794898987,
      "learning_rate": 0.0005998489024136563,
      "loss": 2.2708,
      "step": 911
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5274943113327026,
      "learning_rate": 0.0005998485705414365,
      "loss": 2.3316,
      "step": 912
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5290645360946655,
      "learning_rate": 0.0005998482383052446,
      "loss": 2.3154,
      "step": 913
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5395583510398865,
      "learning_rate": 0.0005998479057050812,
      "loss": 2.2504,
      "step": 914
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5539323687553406,
      "learning_rate": 0.0005998475727409466,
      "loss": 2.2457,
      "step": 915
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5295503735542297,
      "learning_rate": 0.0005998472394128413,
      "loss": 2.3132,
      "step": 916
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5389882326126099,
      "learning_rate": 0.0005998469057207654,
      "loss": 2.2649,
      "step": 917
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5346077084541321,
      "learning_rate": 0.0005998465716647198,
      "loss": 2.3158,
      "step": 918
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.550666868686676,
      "learning_rate": 0.0005998462372447046,
      "loss": 2.2822,
      "step": 919
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5385350584983826,
      "learning_rate": 0.0005998459024607202,
      "loss": 2.3518,
      "step": 920
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5153685212135315,
      "learning_rate": 0.000599845567312767,
      "loss": 2.2375,
      "step": 921
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5702595114707947,
      "learning_rate": 0.0005998452318008454,
      "loss": 2.239,
      "step": 922
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5127942562103271,
      "learning_rate": 0.0005998448959249561,
      "loss": 2.3012,
      "step": 923
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5297131538391113,
      "learning_rate": 0.000599844559685099,
      "loss": 2.3249,
      "step": 924
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5193686485290527,
      "learning_rate": 0.000599844223081275,
      "loss": 2.2632,
      "step": 925
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5353836417198181,
      "learning_rate": 0.0005998438861134842,
      "loss": 2.2429,
      "step": 926
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5287733674049377,
      "learning_rate": 0.0005998435487817271,
      "loss": 2.278,
      "step": 927
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5353133678436279,
      "learning_rate": 0.0005998432110860042,
      "loss": 2.3295,
      "step": 928
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5170515179634094,
      "learning_rate": 0.0005998428730263158,
      "loss": 2.3116,
      "step": 929
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5301783084869385,
      "learning_rate": 0.0005998425346026622,
      "loss": 2.333,
      "step": 930
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.507199764251709,
      "learning_rate": 0.000599842195815044,
      "loss": 2.2566,
      "step": 931
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.512298583984375,
      "learning_rate": 0.0005998418566634616,
      "loss": 2.2574,
      "step": 932
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5315385460853577,
      "learning_rate": 0.0005998415171479154,
      "loss": 2.3777,
      "step": 933
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5230227112770081,
      "learning_rate": 0.0005998411772684057,
      "loss": 2.204,
      "step": 934
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5148278474807739,
      "learning_rate": 0.000599840837024933,
      "loss": 2.2761,
      "step": 935
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5376530885696411,
      "learning_rate": 0.0005998404964174977,
      "loss": 2.3281,
      "step": 936
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5257109999656677,
      "learning_rate": 0.0005998401554461004,
      "loss": 2.3094,
      "step": 937
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5310860276222229,
      "learning_rate": 0.0005998398141107411,
      "loss": 2.1731,
      "step": 938
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5260249972343445,
      "learning_rate": 0.0005998394724114204,
      "loss": 2.301,
      "step": 939
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5379366278648376,
      "learning_rate": 0.0005998391303481391,
      "loss": 2.2625,
      "step": 940
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5020397901535034,
      "learning_rate": 0.0005998387879208969,
      "loss": 2.2093,
      "step": 941
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5310069918632507,
      "learning_rate": 0.0005998384451296948,
      "loss": 2.3124,
      "step": 942
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5400910377502441,
      "learning_rate": 0.0005998381019745329,
      "loss": 2.298,
      "step": 943
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5249016284942627,
      "learning_rate": 0.0005998377584554118,
      "loss": 2.3211,
      "step": 944
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5532753467559814,
      "learning_rate": 0.0005998374145723319,
      "loss": 2.2016,
      "step": 945
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5320402979850769,
      "learning_rate": 0.0005998370703252934,
      "loss": 2.2856,
      "step": 946
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5318677425384521,
      "learning_rate": 0.0005998367257142969,
      "loss": 2.2166,
      "step": 947
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5288400650024414,
      "learning_rate": 0.0005998363807393429,
      "loss": 2.2777,
      "step": 948
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.519352376461029,
      "learning_rate": 0.0005998360354004316,
      "loss": 2.2892,
      "step": 949
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5383090376853943,
      "learning_rate": 0.0005998356896975637,
      "loss": 2.2347,
      "step": 950
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5352795720100403,
      "learning_rate": 0.0005998353436307393,
      "loss": 2.2732,
      "step": 951
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5494447350502014,
      "learning_rate": 0.0005998349971999589,
      "loss": 2.3508,
      "step": 952
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5112937688827515,
      "learning_rate": 0.0005998346504052232,
      "loss": 2.2432,
      "step": 953
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5407999753952026,
      "learning_rate": 0.0005998343032465323,
      "loss": 2.2425,
      "step": 954
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5162979960441589,
      "learning_rate": 0.0005998339557238868,
      "loss": 2.239,
      "step": 955
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.49851346015930176,
      "learning_rate": 0.0005998336078372869,
      "loss": 2.2956,
      "step": 956
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5248076915740967,
      "learning_rate": 0.0005998332595867333,
      "loss": 2.2827,
      "step": 957
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5308201313018799,
      "learning_rate": 0.0005998329109722263,
      "loss": 2.34,
      "step": 958
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5474728345870972,
      "learning_rate": 0.0005998325619937663,
      "loss": 2.2778,
      "step": 959
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5567175149917603,
      "learning_rate": 0.0005998322126513538,
      "loss": 2.2653,
      "step": 960
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5152221322059631,
      "learning_rate": 0.0005998318629449891,
      "loss": 2.3365,
      "step": 961
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5349304676055908,
      "learning_rate": 0.0005998315128746727,
      "loss": 2.287,
      "step": 962
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5329380631446838,
      "learning_rate": 0.000599831162440405,
      "loss": 2.263,
      "step": 963
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5170268416404724,
      "learning_rate": 0.0005998308116421866,
      "loss": 2.3247,
      "step": 964
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5092799067497253,
      "learning_rate": 0.0005998304604800176,
      "loss": 2.2823,
      "step": 965
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5398449897766113,
      "learning_rate": 0.0005998301089538986,
      "loss": 2.2928,
      "step": 966
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.512045681476593,
      "learning_rate": 0.0005998297570638302,
      "loss": 2.3383,
      "step": 967
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.528499186038971,
      "learning_rate": 0.0005998294048098125,
      "loss": 2.3146,
      "step": 968
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.513765275478363,
      "learning_rate": 0.0005998290521918462,
      "loss": 2.305,
      "step": 969
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5288086533546448,
      "learning_rate": 0.0005998286992099314,
      "loss": 2.3098,
      "step": 970
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5273807048797607,
      "learning_rate": 0.0005998283458640689,
      "loss": 2.3343,
      "step": 971
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5140924453735352,
      "learning_rate": 0.000599827992154259,
      "loss": 2.2798,
      "step": 972
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5087928175926208,
      "learning_rate": 0.000599827638080502,
      "loss": 2.242,
      "step": 973
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5227571725845337,
      "learning_rate": 0.0005998272836427984,
      "loss": 2.2755,
      "step": 974
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.49844446778297424,
      "learning_rate": 0.0005998269288411488,
      "loss": 2.2508,
      "step": 975
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5292011499404907,
      "learning_rate": 0.0005998265736755534,
      "loss": 2.2695,
      "step": 976
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5314900279045105,
      "learning_rate": 0.0005998262181460127,
      "loss": 2.2823,
      "step": 977
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5148655772209167,
      "learning_rate": 0.0005998258622525271,
      "loss": 2.1682,
      "step": 978
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5409817695617676,
      "learning_rate": 0.0005998255059950972,
      "loss": 2.2734,
      "step": 979
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5330470204353333,
      "learning_rate": 0.0005998251493737231,
      "loss": 2.2163,
      "step": 980
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5386707782745361,
      "learning_rate": 0.0005998247923884056,
      "loss": 2.2714,
      "step": 981
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.575046718120575,
      "learning_rate": 0.0005998244350391451,
      "loss": 2.2503,
      "step": 982
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5224595665931702,
      "learning_rate": 0.0005998240773259418,
      "loss": 2.2396,
      "step": 983
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5713419318199158,
      "learning_rate": 0.0005998237192487962,
      "loss": 2.2453,
      "step": 984
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5041288733482361,
      "learning_rate": 0.0005998233608077088,
      "loss": 2.2675,
      "step": 985
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5296424031257629,
      "learning_rate": 0.0005998230020026801,
      "loss": 2.2949,
      "step": 986
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5338155627250671,
      "learning_rate": 0.0005998226428337104,
      "loss": 2.3211,
      "step": 987
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.49586600065231323,
      "learning_rate": 0.0005998222833008001,
      "loss": 2.2293,
      "step": 988
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5230187177658081,
      "learning_rate": 0.0005998219234039498,
      "loss": 2.2994,
      "step": 989
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5311446785926819,
      "learning_rate": 0.00059982156314316,
      "loss": 2.3051,
      "step": 990
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5299676060676575,
      "learning_rate": 0.0005998212025184308,
      "loss": 2.2672,
      "step": 991
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5405393242835999,
      "learning_rate": 0.0005998208415297629,
      "loss": 2.3117,
      "step": 992
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5490944981575012,
      "learning_rate": 0.0005998204801771566,
      "loss": 2.2932,
      "step": 993
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.555947482585907,
      "learning_rate": 0.0005998201184606125,
      "loss": 2.2099,
      "step": 994
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5349059104919434,
      "learning_rate": 0.000599819756380131,
      "loss": 2.3422,
      "step": 995
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.512062132358551,
      "learning_rate": 0.0005998193939357124,
      "loss": 2.2572,
      "step": 996
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5291525721549988,
      "learning_rate": 0.0005998190311273572,
      "loss": 2.166,
      "step": 997
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.510286271572113,
      "learning_rate": 0.000599818667955066,
      "loss": 2.231,
      "step": 998
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5459064245223999,
      "learning_rate": 0.000599818304418839,
      "loss": 2.3304,
      "step": 999
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4999310076236725,
      "learning_rate": 0.0005998179405186769,
      "loss": 2.2024,
      "step": 1000
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5427247285842896,
      "learning_rate": 0.0005998175762545799,
      "loss": 2.2637,
      "step": 1001
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5323691368103027,
      "learning_rate": 0.0005998172116265485,
      "loss": 2.3154,
      "step": 1002
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5226978659629822,
      "learning_rate": 0.0005998168466345832,
      "loss": 2.2648,
      "step": 1003
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5189045071601868,
      "learning_rate": 0.0005998164812786844,
      "loss": 2.1807,
      "step": 1004
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5295394659042358,
      "learning_rate": 0.0005998161155588527,
      "loss": 2.2095,
      "step": 1005
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5382786393165588,
      "learning_rate": 0.0005998157494750883,
      "loss": 2.1794,
      "step": 1006
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5976569652557373,
      "learning_rate": 0.0005998153830273918,
      "loss": 2.3509,
      "step": 1007
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5227192044258118,
      "learning_rate": 0.0005998150162157636,
      "loss": 2.2409,
      "step": 1008
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5746545791625977,
      "learning_rate": 0.000599814649040204,
      "loss": 2.2047,
      "step": 1009
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5353752374649048,
      "learning_rate": 0.0005998142815007139,
      "loss": 2.3005,
      "step": 1010
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5800999402999878,
      "learning_rate": 0.0005998139135972932,
      "loss": 2.2748,
      "step": 1011
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5191380381584167,
      "learning_rate": 0.0005998135453299426,
      "loss": 2.2681,
      "step": 1012
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5796344876289368,
      "learning_rate": 0.0005998131766986626,
      "loss": 2.2765,
      "step": 1013
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5467431545257568,
      "learning_rate": 0.0005998128077034535,
      "loss": 2.2611,
      "step": 1014
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5353221297264099,
      "learning_rate": 0.000599812438344316,
      "loss": 2.3102,
      "step": 1015
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.537661075592041,
      "learning_rate": 0.0005998120686212502,
      "loss": 2.1668,
      "step": 1016
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5084326863288879,
      "learning_rate": 0.0005998116985342567,
      "loss": 2.1435,
      "step": 1017
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5271964073181152,
      "learning_rate": 0.0005998113280833361,
      "loss": 2.2282,
      "step": 1018
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5322510600090027,
      "learning_rate": 0.0005998109572684886,
      "loss": 2.3431,
      "step": 1019
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5132867693901062,
      "learning_rate": 0.000599810586089715,
      "loss": 2.307,
      "step": 1020
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5156461596488953,
      "learning_rate": 0.0005998102145470152,
      "loss": 2.1603,
      "step": 1021
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5320558547973633,
      "learning_rate": 0.0005998098426403903,
      "loss": 2.2552,
      "step": 1022
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.51602703332901,
      "learning_rate": 0.0005998094703698402,
      "loss": 2.2075,
      "step": 1023
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4983408749103546,
      "learning_rate": 0.0005998090977353657,
      "loss": 2.2476,
      "step": 1024
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5126603841781616,
      "learning_rate": 0.000599808724736967,
      "loss": 2.2028,
      "step": 1025
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5143431425094604,
      "learning_rate": 0.0005998083513746447,
      "loss": 2.2845,
      "step": 1026
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.533698320388794,
      "learning_rate": 0.0005998079776483994,
      "loss": 2.2444,
      "step": 1027
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5271242260932922,
      "learning_rate": 0.0005998076035582312,
      "loss": 2.2619,
      "step": 1028
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5215731859207153,
      "learning_rate": 0.0005998072291041409,
      "loss": 2.2223,
      "step": 1029
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5029605627059937,
      "learning_rate": 0.0005998068542861287,
      "loss": 2.2634,
      "step": 1030
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5093151926994324,
      "learning_rate": 0.0005998064791041952,
      "loss": 2.1796,
      "step": 1031
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5321618318557739,
      "learning_rate": 0.0005998061035583409,
      "loss": 2.2463,
      "step": 1032
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.525684118270874,
      "learning_rate": 0.000599805727648566,
      "loss": 2.2209,
      "step": 1033
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5138219594955444,
      "learning_rate": 0.0005998053513748712,
      "loss": 2.2265,
      "step": 1034
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5232515335083008,
      "learning_rate": 0.0005998049747372567,
      "loss": 2.3074,
      "step": 1035
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5181029438972473,
      "learning_rate": 0.0005998045977357233,
      "loss": 2.2295,
      "step": 1036
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5730360150337219,
      "learning_rate": 0.0005998042203702714,
      "loss": 2.2114,
      "step": 1037
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5102617740631104,
      "learning_rate": 0.0005998038426409012,
      "loss": 2.1745,
      "step": 1038
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5218309760093689,
      "learning_rate": 0.0005998034645476133,
      "loss": 2.2677,
      "step": 1039
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5006607174873352,
      "learning_rate": 0.0005998030860904082,
      "loss": 2.2621,
      "step": 1040
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.537688672542572,
      "learning_rate": 0.0005998027072692864,
      "loss": 2.2068,
      "step": 1041
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5237244963645935,
      "learning_rate": 0.0005998023280842481,
      "loss": 2.3433,
      "step": 1042
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5070203542709351,
      "learning_rate": 0.0005998019485352941,
      "loss": 2.2519,
      "step": 1043
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5063414573669434,
      "learning_rate": 0.0005998015686224247,
      "loss": 2.2339,
      "step": 1044
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5433096289634705,
      "learning_rate": 0.0005998011883456404,
      "loss": 2.2954,
      "step": 1045
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5063415169715881,
      "learning_rate": 0.0005998008077049416,
      "loss": 2.2198,
      "step": 1046
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5442060828208923,
      "learning_rate": 0.0005998004267003288,
      "loss": 2.1719,
      "step": 1047
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5239965319633484,
      "learning_rate": 0.0005998000453318024,
      "loss": 2.273,
      "step": 1048
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4973800480365753,
      "learning_rate": 0.0005997996635993629,
      "loss": 2.2383,
      "step": 1049
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.522506833076477,
      "learning_rate": 0.0005997992815030108,
      "loss": 2.2505,
      "step": 1050
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5055362582206726,
      "learning_rate": 0.0005997988990427466,
      "loss": 2.2481,
      "step": 1051
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5252223610877991,
      "learning_rate": 0.0005997985162185707,
      "loss": 2.3284,
      "step": 1052
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5146301984786987,
      "learning_rate": 0.0005997981330304836,
      "loss": 2.2424,
      "step": 1053
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5206671953201294,
      "learning_rate": 0.0005997977494784856,
      "loss": 2.1951,
      "step": 1054
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5201317667961121,
      "learning_rate": 0.0005997973655625775,
      "loss": 2.2685,
      "step": 1055
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5128017663955688,
      "learning_rate": 0.0005997969812827595,
      "loss": 2.2543,
      "step": 1056
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5109292268753052,
      "learning_rate": 0.000599796596639032,
      "loss": 2.2993,
      "step": 1057
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5231579542160034,
      "learning_rate": 0.0005997962116313958,
      "loss": 2.2335,
      "step": 1058
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5598762631416321,
      "learning_rate": 0.0005997958262598511,
      "loss": 2.2535,
      "step": 1059
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5023894309997559,
      "learning_rate": 0.0005997954405243984,
      "loss": 2.2152,
      "step": 1060
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5174221396446228,
      "learning_rate": 0.0005997950544250382,
      "loss": 2.3213,
      "step": 1061
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.584612250328064,
      "learning_rate": 0.000599794667961771,
      "loss": 2.2683,
      "step": 1062
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5508764982223511,
      "learning_rate": 0.0005997942811345972,
      "loss": 2.3123,
      "step": 1063
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5842267274856567,
      "learning_rate": 0.0005997938939435176,
      "loss": 2.2015,
      "step": 1064
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.546382486820221,
      "learning_rate": 0.0005997935063885321,
      "loss": 2.2814,
      "step": 1065
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5379950404167175,
      "learning_rate": 0.0005997931184696415,
      "loss": 2.1544,
      "step": 1066
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5299201607704163,
      "learning_rate": 0.0005997927301868462,
      "loss": 2.2858,
      "step": 1067
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5254427194595337,
      "learning_rate": 0.0005997923415401468,
      "loss": 2.2288,
      "step": 1068
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5142642259597778,
      "learning_rate": 0.0005997919525295435,
      "loss": 2.1659,
      "step": 1069
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5593042373657227,
      "learning_rate": 0.0005997915631550372,
      "loss": 2.1725,
      "step": 1070
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49282607436180115,
      "learning_rate": 0.0005997911734166279,
      "loss": 2.1739,
      "step": 1071
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5542060732841492,
      "learning_rate": 0.0005997907833143163,
      "loss": 2.2428,
      "step": 1072
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5154624581336975,
      "learning_rate": 0.0005997903928481029,
      "loss": 2.3041,
      "step": 1073
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5266669988632202,
      "learning_rate": 0.0005997900020179882,
      "loss": 2.215,
      "step": 1074
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5371206402778625,
      "learning_rate": 0.0005997896108239726,
      "loss": 2.1857,
      "step": 1075
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5194790959358215,
      "learning_rate": 0.0005997892192660566,
      "loss": 2.2448,
      "step": 1076
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5482189059257507,
      "learning_rate": 0.0005997888273442405,
      "loss": 2.2337,
      "step": 1077
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5055240392684937,
      "learning_rate": 0.000599788435058525,
      "loss": 2.2522,
      "step": 1078
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5269842147827148,
      "learning_rate": 0.0005997880424089106,
      "loss": 2.2376,
      "step": 1079
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5333595871925354,
      "learning_rate": 0.0005997876493953977,
      "loss": 2.1867,
      "step": 1080
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5119982361793518,
      "learning_rate": 0.0005997872560179866,
      "loss": 2.2056,
      "step": 1081
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5092248320579529,
      "learning_rate": 0.0005997868622766781,
      "loss": 2.1541,
      "step": 1082
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5444697737693787,
      "learning_rate": 0.0005997864681714724,
      "loss": 2.2814,
      "step": 1083
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.540686845779419,
      "learning_rate": 0.0005997860737023702,
      "loss": 2.2777,
      "step": 1084
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5219284892082214,
      "learning_rate": 0.0005997856788693719,
      "loss": 2.2291,
      "step": 1085
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.515446662902832,
      "learning_rate": 0.0005997852836724779,
      "loss": 2.1972,
      "step": 1086
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5308130979537964,
      "learning_rate": 0.0005997848881116887,
      "loss": 2.2739,
      "step": 1087
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5010983943939209,
      "learning_rate": 0.0005997844921870049,
      "loss": 2.3056,
      "step": 1088
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5443838238716125,
      "learning_rate": 0.0005997840958984268,
      "loss": 2.2795,
      "step": 1089
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5267455577850342,
      "learning_rate": 0.0005997836992459551,
      "loss": 2.232,
      "step": 1090
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49665141105651855,
      "learning_rate": 0.00059978330222959,
      "loss": 2.2829,
      "step": 1091
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5217599868774414,
      "learning_rate": 0.0005997829048493323,
      "loss": 2.2265,
      "step": 1092
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5148625373840332,
      "learning_rate": 0.0005997825071051823,
      "loss": 2.2171,
      "step": 1093
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.504749596118927,
      "learning_rate": 0.0005997821089971404,
      "loss": 2.2326,
      "step": 1094
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5613767504692078,
      "learning_rate": 0.0005997817105252072,
      "loss": 2.32,
      "step": 1095
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5288518667221069,
      "learning_rate": 0.0005997813116893833,
      "loss": 2.2241,
      "step": 1096
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5383697152137756,
      "learning_rate": 0.000599780912489669,
      "loss": 2.2157,
      "step": 1097
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5148290395736694,
      "learning_rate": 0.0005997805129260647,
      "loss": 2.2226,
      "step": 1098
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5193274617195129,
      "learning_rate": 0.0005997801129985713,
      "loss": 2.1456,
      "step": 1099
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5099604725837708,
      "learning_rate": 0.0005997797127071889,
      "loss": 2.3452,
      "step": 1100
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.525185227394104,
      "learning_rate": 0.000599779312051918,
      "loss": 2.2027,
      "step": 1101
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5111838579177856,
      "learning_rate": 0.0005997789110327594,
      "loss": 2.2483,
      "step": 1102
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5537283420562744,
      "learning_rate": 0.0005997785096497131,
      "loss": 2.2645,
      "step": 1103
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5125260353088379,
      "learning_rate": 0.0005997781079027801,
      "loss": 2.2074,
      "step": 1104
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.522286057472229,
      "learning_rate": 0.0005997777057919605,
      "loss": 2.2869,
      "step": 1105
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.554145097732544,
      "learning_rate": 0.0005997773033172549,
      "loss": 2.2438,
      "step": 1106
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5211469531059265,
      "learning_rate": 0.000599776900478664,
      "loss": 2.3073,
      "step": 1107
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5707392692565918,
      "learning_rate": 0.0005997764972761879,
      "loss": 2.1559,
      "step": 1108
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5464833378791809,
      "learning_rate": 0.0005997760937098274,
      "loss": 2.2835,
      "step": 1109
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5270553827285767,
      "learning_rate": 0.0005997756897795829,
      "loss": 2.248,
      "step": 1110
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5470612049102783,
      "learning_rate": 0.0005997752854854549,
      "loss": 2.2241,
      "step": 1111
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5342752933502197,
      "learning_rate": 0.0005997748808274438,
      "loss": 2.2436,
      "step": 1112
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5225615501403809,
      "learning_rate": 0.0005997744758055503,
      "loss": 2.2805,
      "step": 1113
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5386373996734619,
      "learning_rate": 0.0005997740704197747,
      "loss": 2.1921,
      "step": 1114
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5172551870346069,
      "learning_rate": 0.0005997736646701175,
      "loss": 2.246,
      "step": 1115
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5420311689376831,
      "learning_rate": 0.0005997732585565793,
      "loss": 2.2428,
      "step": 1116
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5433714389801025,
      "learning_rate": 0.0005997728520791605,
      "loss": 2.2248,
      "step": 1117
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5319196581840515,
      "learning_rate": 0.0005997724452378616,
      "loss": 2.231,
      "step": 1118
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5195730328559875,
      "learning_rate": 0.0005997720380326832,
      "loss": 2.1694,
      "step": 1119
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5417072772979736,
      "learning_rate": 0.0005997716304636257,
      "loss": 2.2361,
      "step": 1120
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5305384993553162,
      "learning_rate": 0.0005997712225306895,
      "loss": 2.2423,
      "step": 1121
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5619945526123047,
      "learning_rate": 0.0005997708142338753,
      "loss": 2.214,
      "step": 1122
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.533048689365387,
      "learning_rate": 0.0005997704055731834,
      "loss": 2.1381,
      "step": 1123
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5561238527297974,
      "learning_rate": 0.0005997699965486146,
      "loss": 2.3004,
      "step": 1124
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5326356887817383,
      "learning_rate": 0.000599769587160169,
      "loss": 2.2454,
      "step": 1125
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5014199018478394,
      "learning_rate": 0.0005997691774078474,
      "loss": 2.2124,
      "step": 1126
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.54469895362854,
      "learning_rate": 0.0005997687672916501,
      "loss": 2.2757,
      "step": 1127
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5317622423171997,
      "learning_rate": 0.0005997683568115778,
      "loss": 2.2653,
      "step": 1128
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5220988988876343,
      "learning_rate": 0.0005997679459676308,
      "loss": 2.2746,
      "step": 1129
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5087020397186279,
      "learning_rate": 0.0005997675347598096,
      "loss": 2.156,
      "step": 1130
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5123298764228821,
      "learning_rate": 0.000599767123188115,
      "loss": 2.3039,
      "step": 1131
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.524616539478302,
      "learning_rate": 0.0005997667112525472,
      "loss": 2.2123,
      "step": 1132
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5221295952796936,
      "learning_rate": 0.0005997662989531067,
      "loss": 2.2532,
      "step": 1133
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5036554932594299,
      "learning_rate": 0.0005997658862897941,
      "loss": 2.2728,
      "step": 1134
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5189397931098938,
      "learning_rate": 0.0005997654732626099,
      "loss": 2.1895,
      "step": 1135
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5285994410514832,
      "learning_rate": 0.0005997650598715546,
      "loss": 2.2091,
      "step": 1136
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5254805088043213,
      "learning_rate": 0.0005997646461166287,
      "loss": 2.2068,
      "step": 1137
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5427247285842896,
      "learning_rate": 0.0005997642319978326,
      "loss": 2.2372,
      "step": 1138
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5080736875534058,
      "learning_rate": 0.000599763817515167,
      "loss": 2.2304,
      "step": 1139
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5557684898376465,
      "learning_rate": 0.0005997634026686323,
      "loss": 2.2421,
      "step": 1140
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5203586220741272,
      "learning_rate": 0.0005997629874582289,
      "loss": 2.18,
      "step": 1141
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5298359990119934,
      "learning_rate": 0.0005997625718839574,
      "loss": 2.2064,
      "step": 1142
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5557385087013245,
      "learning_rate": 0.0005997621559458184,
      "loss": 2.2466,
      "step": 1143
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.507335364818573,
      "learning_rate": 0.0005997617396438123,
      "loss": 2.1983,
      "step": 1144
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.506686806678772,
      "learning_rate": 0.0005997613229779396,
      "loss": 2.2422,
      "step": 1145
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.518476128578186,
      "learning_rate": 0.0005997609059482006,
      "loss": 2.1987,
      "step": 1146
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4995679557323456,
      "learning_rate": 0.0005997604885545964,
      "loss": 2.2167,
      "step": 1147
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5079747438430786,
      "learning_rate": 0.0005997600707971269,
      "loss": 2.2201,
      "step": 1148
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5480451583862305,
      "learning_rate": 0.000599759652675793,
      "loss": 2.2406,
      "step": 1149
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5292792320251465,
      "learning_rate": 0.0005997592341905949,
      "loss": 2.2675,
      "step": 1150
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5666579604148865,
      "learning_rate": 0.0005997588153415334,
      "loss": 2.305,
      "step": 1151
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5237678289413452,
      "learning_rate": 0.0005997583961286087,
      "loss": 2.2002,
      "step": 1152
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5500888824462891,
      "learning_rate": 0.0005997579765518215,
      "loss": 2.172,
      "step": 1153
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.514236330986023,
      "learning_rate": 0.0005997575566111723,
      "loss": 2.1848,
      "step": 1154
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5252038836479187,
      "learning_rate": 0.0005997571363066617,
      "loss": 2.1976,
      "step": 1155
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5306851267814636,
      "learning_rate": 0.0005997567156382901,
      "loss": 2.2419,
      "step": 1156
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.531078577041626,
      "learning_rate": 0.0005997562946060579,
      "loss": 2.29,
      "step": 1157
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5488890409469604,
      "learning_rate": 0.0005997558732099657,
      "loss": 2.2359,
      "step": 1158
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5451487302780151,
      "learning_rate": 0.0005997554514500142,
      "loss": 2.2483,
      "step": 1159
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.546234667301178,
      "learning_rate": 0.0005997550293262037,
      "loss": 2.1731,
      "step": 1160
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5344964265823364,
      "learning_rate": 0.0005997546068385347,
      "loss": 2.2212,
      "step": 1161
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5135567784309387,
      "learning_rate": 0.0005997541839870077,
      "loss": 2.2354,
      "step": 1162
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5530620813369751,
      "learning_rate": 0.0005997537607716234,
      "loss": 2.2515,
      "step": 1163
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5279534459114075,
      "learning_rate": 0.0005997533371923822,
      "loss": 2.121,
      "step": 1164
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49195289611816406,
      "learning_rate": 0.0005997529132492846,
      "loss": 2.1998,
      "step": 1165
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5286153554916382,
      "learning_rate": 0.0005997524889423311,
      "loss": 2.1265,
      "step": 1166
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5224853157997131,
      "learning_rate": 0.0005997520642715223,
      "loss": 2.2656,
      "step": 1167
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5320600271224976,
      "learning_rate": 0.0005997516392368586,
      "loss": 2.3172,
      "step": 1168
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4970293641090393,
      "learning_rate": 0.0005997512138383407,
      "loss": 2.2376,
      "step": 1169
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5667155385017395,
      "learning_rate": 0.0005997507880759689,
      "loss": 2.2765,
      "step": 1170
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5380274653434753,
      "learning_rate": 0.0005997503619497437,
      "loss": 2.1488,
      "step": 1171
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5261917114257812,
      "learning_rate": 0.0005997499354596659,
      "loss": 2.2747,
      "step": 1172
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5214913487434387,
      "learning_rate": 0.0005997495086057359,
      "loss": 2.2002,
      "step": 1173
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5546673536300659,
      "learning_rate": 0.0005997490813879539,
      "loss": 2.2341,
      "step": 1174
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5207167267799377,
      "learning_rate": 0.0005997486538063208,
      "loss": 2.1625,
      "step": 1175
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5311317443847656,
      "learning_rate": 0.0005997482258608371,
      "loss": 2.2186,
      "step": 1176
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5484099388122559,
      "learning_rate": 0.0005997477975515031,
      "loss": 2.1663,
      "step": 1177
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49005576968193054,
      "learning_rate": 0.0005997473688783195,
      "loss": 2.2029,
      "step": 1178
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5294895768165588,
      "learning_rate": 0.0005997469398412868,
      "loss": 2.1876,
      "step": 1179
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5531811714172363,
      "learning_rate": 0.0005997465104404054,
      "loss": 2.1864,
      "step": 1180
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5253298282623291,
      "learning_rate": 0.0005997460806756758,
      "loss": 2.261,
      "step": 1181
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5421540141105652,
      "learning_rate": 0.0005997456505470989,
      "loss": 2.2417,
      "step": 1182
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5299416780471802,
      "learning_rate": 0.0005997452200546747,
      "loss": 2.2724,
      "step": 1183
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5080252289772034,
      "learning_rate": 0.0005997447891984041,
      "loss": 2.2341,
      "step": 1184
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5451036691665649,
      "learning_rate": 0.0005997443579782875,
      "loss": 2.2763,
      "step": 1185
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5496907830238342,
      "learning_rate": 0.0005997439263943254,
      "loss": 2.1871,
      "step": 1186
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5621139407157898,
      "learning_rate": 0.0005997434944465183,
      "loss": 2.2774,
      "step": 1187
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.512711763381958,
      "learning_rate": 0.0005997430621348667,
      "loss": 2.2986,
      "step": 1188
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5313693881034851,
      "learning_rate": 0.0005997426294593712,
      "loss": 2.206,
      "step": 1189
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5310353636741638,
      "learning_rate": 0.0005997421964200325,
      "loss": 2.2368,
      "step": 1190
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5107322931289673,
      "learning_rate": 0.0005997417630168508,
      "loss": 2.2621,
      "step": 1191
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5364623665809631,
      "learning_rate": 0.0005997413292498267,
      "loss": 2.2235,
      "step": 1192
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5366859436035156,
      "learning_rate": 0.0005997408951189609,
      "loss": 2.2604,
      "step": 1193
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5260896682739258,
      "learning_rate": 0.0005997404606242538,
      "loss": 2.1677,
      "step": 1194
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5102962255477905,
      "learning_rate": 0.000599740025765706,
      "loss": 2.1669,
      "step": 1195
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5293447375297546,
      "learning_rate": 0.0005997395905433178,
      "loss": 2.1301,
      "step": 1196
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5607771277427673,
      "learning_rate": 0.0005997391549570901,
      "loss": 2.2582,
      "step": 1197
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5375000238418579,
      "learning_rate": 0.0005997387190070231,
      "loss": 2.2253,
      "step": 1198
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5468008518218994,
      "learning_rate": 0.0005997382826931174,
      "loss": 2.1468,
      "step": 1199
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5195159316062927,
      "learning_rate": 0.0005997378460153737,
      "loss": 2.2281,
      "step": 1200
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5214475989341736,
      "learning_rate": 0.0005997374089737925,
      "loss": 2.1853,
      "step": 1201
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5132924318313599,
      "learning_rate": 0.0005997369715683741,
      "loss": 2.17,
      "step": 1202
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5167860388755798,
      "learning_rate": 0.0005997365337991193,
      "loss": 2.1974,
      "step": 1203
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4932868480682373,
      "learning_rate": 0.0005997360956660284,
      "loss": 2.1952,
      "step": 1204
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5189034938812256,
      "learning_rate": 0.0005997356571691021,
      "loss": 2.2223,
      "step": 1205
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5081073641777039,
      "learning_rate": 0.0005997352183083408,
      "loss": 2.1988,
      "step": 1206
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.509829580783844,
      "learning_rate": 0.0005997347790837452,
      "loss": 2.1021,
      "step": 1207
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4862169921398163,
      "learning_rate": 0.0005997343394953157,
      "loss": 2.1959,
      "step": 1208
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4969381093978882,
      "learning_rate": 0.0005997338995430529,
      "loss": 2.1955,
      "step": 1209
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5092322826385498,
      "learning_rate": 0.0005997334592269573,
      "loss": 2.2277,
      "step": 1210
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5263013243675232,
      "learning_rate": 0.0005997330185470294,
      "loss": 2.1611,
      "step": 1211
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5184314250946045,
      "learning_rate": 0.0005997325775032699,
      "loss": 2.2328,
      "step": 1212
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5317542552947998,
      "learning_rate": 0.0005997321360956792,
      "loss": 2.2491,
      "step": 1213
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4989791512489319,
      "learning_rate": 0.0005997316943242578,
      "loss": 2.228,
      "step": 1214
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5269299149513245,
      "learning_rate": 0.0005997312521890063,
      "loss": 2.2524,
      "step": 1215
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5388824343681335,
      "learning_rate": 0.0005997308096899252,
      "loss": 2.1372,
      "step": 1216
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5356345772743225,
      "learning_rate": 0.000599730366827015,
      "loss": 2.2385,
      "step": 1217
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4892226755619049,
      "learning_rate": 0.0005997299236002762,
      "loss": 2.2099,
      "step": 1218
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5237752199172974,
      "learning_rate": 0.0005997294800097097,
      "loss": 2.2482,
      "step": 1219
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5124914050102234,
      "learning_rate": 0.0005997290360553157,
      "loss": 2.2176,
      "step": 1220
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5257775187492371,
      "learning_rate": 0.0005997285917370949,
      "loss": 2.1811,
      "step": 1221
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5136992335319519,
      "learning_rate": 0.0005997281470550475,
      "loss": 2.2524,
      "step": 1222
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5146762728691101,
      "learning_rate": 0.0005997277020091744,
      "loss": 2.2591,
      "step": 1223
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49598121643066406,
      "learning_rate": 0.0005997272565994761,
      "loss": 2.2245,
      "step": 1224
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5222114324569702,
      "learning_rate": 0.0005997268108259531,
      "loss": 2.3181,
      "step": 1225
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49923548102378845,
      "learning_rate": 0.0005997263646886058,
      "loss": 2.2067,
      "step": 1226
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5166123509407043,
      "learning_rate": 0.0005997259181874349,
      "loss": 2.2282,
      "step": 1227
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4985465109348297,
      "learning_rate": 0.0005997254713224409,
      "loss": 2.1627,
      "step": 1228
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5638032555580139,
      "learning_rate": 0.0005997250240936243,
      "loss": 2.3249,
      "step": 1229
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4976021349430084,
      "learning_rate": 0.0005997245765009858,
      "loss": 2.1844,
      "step": 1230
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5092288255691528,
      "learning_rate": 0.0005997241285445257,
      "loss": 2.1776,
      "step": 1231
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5044010281562805,
      "learning_rate": 0.0005997236802242447,
      "loss": 2.2508,
      "step": 1232
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5171561241149902,
      "learning_rate": 0.0005997232315401433,
      "loss": 2.2853,
      "step": 1233
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5021752119064331,
      "learning_rate": 0.0005997227824922222,
      "loss": 2.2056,
      "step": 1234
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5020009875297546,
      "learning_rate": 0.0005997223330804816,
      "loss": 2.1339,
      "step": 1235
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5395351648330688,
      "learning_rate": 0.0005997218833049224,
      "loss": 2.1604,
      "step": 1236
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5265259742736816,
      "learning_rate": 0.000599721433165545,
      "loss": 2.1225,
      "step": 1237
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5991176962852478,
      "learning_rate": 0.0005997209826623499,
      "loss": 2.2826,
      "step": 1238
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5267912149429321,
      "learning_rate": 0.0005997205317953376,
      "loss": 2.2121,
      "step": 1239
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5405052304267883,
      "learning_rate": 0.0005997200805645088,
      "loss": 2.1703,
      "step": 1240
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5368407368659973,
      "learning_rate": 0.000599719628969864,
      "loss": 2.1509,
      "step": 1241
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.47709858417510986,
      "learning_rate": 0.0005997191770114038,
      "loss": 2.0528,
      "step": 1242
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5287020802497864,
      "learning_rate": 0.0005997187246891285,
      "loss": 2.1755,
      "step": 1243
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5325050950050354,
      "learning_rate": 0.000599718272003039,
      "loss": 2.1728,
      "step": 1244
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5605565905570984,
      "learning_rate": 0.0005997178189531356,
      "loss": 2.2442,
      "step": 1245
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5286992192268372,
      "learning_rate": 0.000599717365539419,
      "loss": 2.3041,
      "step": 1246
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.515742301940918,
      "learning_rate": 0.0005997169117618895,
      "loss": 2.1523,
      "step": 1247
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5423796772956848,
      "learning_rate": 0.000599716457620548,
      "loss": 2.1815,
      "step": 1248
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5097941756248474,
      "learning_rate": 0.0005997160031153948,
      "loss": 2.1862,
      "step": 1249
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5266016721725464,
      "learning_rate": 0.0005997155482464306,
      "loss": 2.2569,
      "step": 1250
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5084812641143799,
      "learning_rate": 0.0005997150930136559,
      "loss": 2.136,
      "step": 1251
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.532321572303772,
      "learning_rate": 0.0005997146374170712,
      "loss": 2.2012,
      "step": 1252
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5071672201156616,
      "learning_rate": 0.000599714181456677,
      "loss": 2.1661,
      "step": 1253
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5082077980041504,
      "learning_rate": 0.0005997137251324741,
      "loss": 2.1983,
      "step": 1254
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5052589774131775,
      "learning_rate": 0.0005997132684444628,
      "loss": 2.1504,
      "step": 1255
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4908248782157898,
      "learning_rate": 0.0005997128113926438,
      "loss": 2.142,
      "step": 1256
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5046080350875854,
      "learning_rate": 0.0005997123539770176,
      "loss": 2.2107,
      "step": 1257
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5254181623458862,
      "learning_rate": 0.0005997118961975847,
      "loss": 2.2328,
      "step": 1258
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.49795082211494446,
      "learning_rate": 0.0005997114380543458,
      "loss": 2.2313,
      "step": 1259
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5067899823188782,
      "learning_rate": 0.0005997109795473013,
      "loss": 2.1492,
      "step": 1260
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5139245390892029,
      "learning_rate": 0.000599710520676452,
      "loss": 2.2609,
      "step": 1261
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4999127984046936,
      "learning_rate": 0.0005997100614417981,
      "loss": 2.149,
      "step": 1262
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5088088512420654,
      "learning_rate": 0.0005997096018433404,
      "loss": 2.1744,
      "step": 1263
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5303964614868164,
      "learning_rate": 0.0005997091418810795,
      "loss": 2.2276,
      "step": 1264
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5202494263648987,
      "learning_rate": 0.0005997086815550157,
      "loss": 2.0957,
      "step": 1265
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.499175488948822,
      "learning_rate": 0.0005997082208651497,
      "loss": 2.1261,
      "step": 1266
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.538501501083374,
      "learning_rate": 0.0005997077598114823,
      "loss": 2.0792,
      "step": 1267
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5096761584281921,
      "learning_rate": 0.0005997072983940137,
      "loss": 2.0978,
      "step": 1268
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.51618891954422,
      "learning_rate": 0.0005997068366127446,
      "loss": 2.2427,
      "step": 1269
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5407698750495911,
      "learning_rate": 0.0005997063744676756,
      "loss": 2.2109,
      "step": 1270
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5350332856178284,
      "learning_rate": 0.0005997059119588072,
      "loss": 2.2154,
      "step": 1271
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5377932786941528,
      "learning_rate": 0.0005997054490861399,
      "loss": 2.2553,
      "step": 1272
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5083953142166138,
      "learning_rate": 0.0005997049858496744,
      "loss": 2.2008,
      "step": 1273
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5478720664978027,
      "learning_rate": 0.0005997045222494113,
      "loss": 2.2094,
      "step": 1274
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5010371208190918,
      "learning_rate": 0.000599704058285351,
      "loss": 2.2461,
      "step": 1275
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.507015585899353,
      "learning_rate": 0.0005997035939574941,
      "loss": 2.2074,
      "step": 1276
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5383960604667664,
      "learning_rate": 0.0005997031292658412,
      "loss": 2.1889,
      "step": 1277
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5260322093963623,
      "learning_rate": 0.000599702664210393,
      "loss": 2.1079,
      "step": 1278
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.509573221206665,
      "learning_rate": 0.0005997021987911497,
      "loss": 2.1865,
      "step": 1279
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5256748199462891,
      "learning_rate": 0.0005997017330081122,
      "loss": 2.2475,
      "step": 1280
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5246407985687256,
      "learning_rate": 0.000599701266861281,
      "loss": 2.1695,
      "step": 1281
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5343704223632812,
      "learning_rate": 0.0005997008003506565,
      "loss": 2.2268,
      "step": 1282
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5293163061141968,
      "learning_rate": 0.0005997003334762396,
      "loss": 2.1623,
      "step": 1283
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5359432697296143,
      "learning_rate": 0.0005996998662380305,
      "loss": 2.2867,
      "step": 1284
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5196673274040222,
      "learning_rate": 0.0005996993986360299,
      "loss": 2.2365,
      "step": 1285
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5119814276695251,
      "learning_rate": 0.0005996989306702384,
      "loss": 2.2496,
      "step": 1286
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5484510660171509,
      "learning_rate": 0.0005996984623406566,
      "loss": 2.2293,
      "step": 1287
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5020361542701721,
      "learning_rate": 0.0005996979936472851,
      "loss": 2.1601,
      "step": 1288
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5334191918373108,
      "learning_rate": 0.0005996975245901242,
      "loss": 2.1185,
      "step": 1289
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5170401334762573,
      "learning_rate": 0.0005996970551691748,
      "loss": 2.1186,
      "step": 1290
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5328132510185242,
      "learning_rate": 0.0005996965853844373,
      "loss": 2.2389,
      "step": 1291
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4929928183555603,
      "learning_rate": 0.0005996961152359123,
      "loss": 2.1313,
      "step": 1292
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5225284695625305,
      "learning_rate": 0.0005996956447236003,
      "loss": 2.1853,
      "step": 1293
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5236028432846069,
      "learning_rate": 0.0005996951738475021,
      "loss": 2.1898,
      "step": 1294
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5164217352867126,
      "learning_rate": 0.000599694702607618,
      "loss": 2.1649,
      "step": 1295
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5281903147697449,
      "learning_rate": 0.0005996942310039487,
      "loss": 2.3009,
      "step": 1296
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5153746604919434,
      "learning_rate": 0.0005996937590364949,
      "loss": 2.1282,
      "step": 1297
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5088562369346619,
      "learning_rate": 0.0005996932867052569,
      "loss": 2.1657,
      "step": 1298
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5239070057868958,
      "learning_rate": 0.0005996928140102354,
      "loss": 2.175,
      "step": 1299
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5069267153739929,
      "learning_rate": 0.000599692340951431,
      "loss": 2.2459,
      "step": 1300
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5226582884788513,
      "learning_rate": 0.0005996918675288443,
      "loss": 2.222,
      "step": 1301
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4953843653202057,
      "learning_rate": 0.0005996913937424758,
      "loss": 2.2278,
      "step": 1302
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5000061392784119,
      "learning_rate": 0.0005996909195923261,
      "loss": 2.2022,
      "step": 1303
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.50799959897995,
      "learning_rate": 0.0005996904450783957,
      "loss": 2.1228,
      "step": 1304
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5339942574501038,
      "learning_rate": 0.0005996899702006855,
      "loss": 2.1824,
      "step": 1305
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5281594395637512,
      "learning_rate": 0.0005996894949591956,
      "loss": 2.2097,
      "step": 1306
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5380852818489075,
      "learning_rate": 0.0005996890193539269,
      "loss": 2.1101,
      "step": 1307
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.537744402885437,
      "learning_rate": 0.00059968854338488,
      "loss": 2.2479,
      "step": 1308
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5696763396263123,
      "learning_rate": 0.0005996880670520551,
      "loss": 2.1884,
      "step": 1309
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4942552447319031,
      "learning_rate": 0.0005996875903554532,
      "loss": 2.1852,
      "step": 1310
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5599664449691772,
      "learning_rate": 0.0005996871132950747,
      "loss": 2.203,
      "step": 1311
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5068357586860657,
      "learning_rate": 0.0005996866358709203,
      "loss": 2.1515,
      "step": 1312
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4988039433956146,
      "learning_rate": 0.0005996861580829904,
      "loss": 2.1137,
      "step": 1313
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5255107879638672,
      "learning_rate": 0.0005996856799312855,
      "loss": 2.1925,
      "step": 1314
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5174664855003357,
      "learning_rate": 0.0005996852014158065,
      "loss": 2.1062,
      "step": 1315
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.586100161075592,
      "learning_rate": 0.0005996847225365539,
      "loss": 2.194,
      "step": 1316
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5490893125534058,
      "learning_rate": 0.0005996842432935281,
      "loss": 2.0919,
      "step": 1317
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5390576720237732,
      "learning_rate": 0.0005996837636867298,
      "loss": 2.1453,
      "step": 1318
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5662080645561218,
      "learning_rate": 0.0005996832837161595,
      "loss": 2.1662,
      "step": 1319
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5336418747901917,
      "learning_rate": 0.000599682803381818,
      "loss": 2.1678,
      "step": 1320
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6045669913291931,
      "learning_rate": 0.0005996823226837056,
      "loss": 2.1791,
      "step": 1321
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5229825973510742,
      "learning_rate": 0.000599681841621823,
      "loss": 2.1561,
      "step": 1322
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.559335470199585,
      "learning_rate": 0.000599681360196171,
      "loss": 2.169,
      "step": 1323
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5171070098876953,
      "learning_rate": 0.0005996808784067498,
      "loss": 2.2395,
      "step": 1324
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4978300631046295,
      "learning_rate": 0.0005996803962535602,
      "loss": 2.1396,
      "step": 1325
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5233917832374573,
      "learning_rate": 0.0005996799137366028,
      "loss": 2.1733,
      "step": 1326
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5427499413490295,
      "learning_rate": 0.0005996794308558782,
      "loss": 2.1636,
      "step": 1327
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5164154171943665,
      "learning_rate": 0.0005996789476113868,
      "loss": 2.2043,
      "step": 1328
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.511517345905304,
      "learning_rate": 0.0005996784640031294,
      "loss": 2.0764,
      "step": 1329
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5131670832633972,
      "learning_rate": 0.0005996779800311064,
      "loss": 2.1675,
      "step": 1330
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.516798734664917,
      "learning_rate": 0.0005996774956953185,
      "loss": 2.2081,
      "step": 1331
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5347568988800049,
      "learning_rate": 0.0005996770109957664,
      "loss": 2.1383,
      "step": 1332
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5068216323852539,
      "learning_rate": 0.0005996765259324504,
      "loss": 2.1967,
      "step": 1333
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5126031637191772,
      "learning_rate": 0.0005996760405053715,
      "loss": 2.2684,
      "step": 1334
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5127672553062439,
      "learning_rate": 0.0005996755547145298,
      "loss": 2.1217,
      "step": 1335
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5250080227851868,
      "learning_rate": 0.0005996750685599261,
      "loss": 2.2079,
      "step": 1336
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.48921892046928406,
      "learning_rate": 0.0005996745820415611,
      "loss": 2.1971,
      "step": 1337
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5662738084793091,
      "learning_rate": 0.0005996740951594355,
      "loss": 2.1359,
      "step": 1338
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5119720697402954,
      "learning_rate": 0.0005996736079135495,
      "loss": 2.1123,
      "step": 1339
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4966568648815155,
      "learning_rate": 0.000599673120303904,
      "loss": 2.2238,
      "step": 1340
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5400710701942444,
      "learning_rate": 0.0005996726323304994,
      "loss": 2.2084,
      "step": 1341
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5220122933387756,
      "learning_rate": 0.0005996721439933363,
      "loss": 2.1657,
      "step": 1342
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5074149370193481,
      "learning_rate": 0.0005996716552924156,
      "loss": 2.171,
      "step": 1343
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5190070867538452,
      "learning_rate": 0.0005996711662277375,
      "loss": 2.2244,
      "step": 1344
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5131243467330933,
      "learning_rate": 0.0005996706767993028,
      "loss": 2.1236,
      "step": 1345
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5353633165359497,
      "learning_rate": 0.000599670187007112,
      "loss": 2.1966,
      "step": 1346
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5116366744041443,
      "learning_rate": 0.0005996696968511659,
      "loss": 2.1513,
      "step": 1347
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5064011812210083,
      "learning_rate": 0.0005996692063314649,
      "loss": 2.1639,
      "step": 1348
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.501043438911438,
      "learning_rate": 0.0005996687154480096,
      "loss": 2.1305,
      "step": 1349
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5294687747955322,
      "learning_rate": 0.0005996682242008005,
      "loss": 2.2469,
      "step": 1350
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5120517611503601,
      "learning_rate": 0.0005996677325898384,
      "loss": 2.2416,
      "step": 1351
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5111558437347412,
      "learning_rate": 0.0005996672406151239,
      "loss": 2.1799,
      "step": 1352
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5521277785301208,
      "learning_rate": 0.0005996667482766575,
      "loss": 2.2037,
      "step": 1353
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5060170292854309,
      "learning_rate": 0.0005996662555744399,
      "loss": 2.0916,
      "step": 1354
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4961560368537903,
      "learning_rate": 0.0005996657625084715,
      "loss": 2.0968,
      "step": 1355
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5161978006362915,
      "learning_rate": 0.0005996652690787531,
      "loss": 2.167,
      "step": 1356
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5299705862998962,
      "learning_rate": 0.0005996647752852852,
      "loss": 2.1573,
      "step": 1357
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48618441820144653,
      "learning_rate": 0.0005996642811280683,
      "loss": 2.1024,
      "step": 1358
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5096687078475952,
      "learning_rate": 0.0005996637866071032,
      "loss": 2.1623,
      "step": 1359
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5258167386054993,
      "learning_rate": 0.0005996632917223904,
      "loss": 2.2751,
      "step": 1360
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.514982283115387,
      "learning_rate": 0.0005996627964739306,
      "loss": 2.2157,
      "step": 1361
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48360002040863037,
      "learning_rate": 0.0005996623008617243,
      "loss": 2.0738,
      "step": 1362
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5153512954711914,
      "learning_rate": 0.000599661804885772,
      "loss": 2.1803,
      "step": 1363
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4967573881149292,
      "learning_rate": 0.0005996613085460746,
      "loss": 2.1255,
      "step": 1364
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4948665499687195,
      "learning_rate": 0.0005996608118426323,
      "loss": 2.1847,
      "step": 1365
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4996906518936157,
      "learning_rate": 0.0005996603147754461,
      "loss": 2.1228,
      "step": 1366
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.52731853723526,
      "learning_rate": 0.0005996598173445164,
      "loss": 2.2323,
      "step": 1367
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4943806827068329,
      "learning_rate": 0.0005996593195498437,
      "loss": 2.133,
      "step": 1368
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49094200134277344,
      "learning_rate": 0.000599658821391429,
      "loss": 2.1973,
      "step": 1369
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5247955918312073,
      "learning_rate": 0.0005996583228692725,
      "loss": 2.1238,
      "step": 1370
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49767738580703735,
      "learning_rate": 0.0005996578239833749,
      "loss": 2.143,
      "step": 1371
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49905121326446533,
      "learning_rate": 0.0005996573247337369,
      "loss": 2.1355,
      "step": 1372
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5286786556243896,
      "learning_rate": 0.000599656825120359,
      "loss": 2.2536,
      "step": 1373
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5022388696670532,
      "learning_rate": 0.000599656325143242,
      "loss": 2.1754,
      "step": 1374
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5102134943008423,
      "learning_rate": 0.0005996558248023864,
      "loss": 2.1841,
      "step": 1375
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.518818199634552,
      "learning_rate": 0.0005996553240977926,
      "loss": 2.2434,
      "step": 1376
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5050235390663147,
      "learning_rate": 0.0005996548230294615,
      "loss": 2.2693,
      "step": 1377
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.503234326839447,
      "learning_rate": 0.0005996543215973935,
      "loss": 2.2015,
      "step": 1378
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5456823706626892,
      "learning_rate": 0.0005996538198015894,
      "loss": 2.2767,
      "step": 1379
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5200332403182983,
      "learning_rate": 0.0005996533176420497,
      "loss": 2.1411,
      "step": 1380
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5055695176124573,
      "learning_rate": 0.000599652815118775,
      "loss": 2.2495,
      "step": 1381
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5025732517242432,
      "learning_rate": 0.0005996523122317659,
      "loss": 2.0732,
      "step": 1382
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5043956637382507,
      "learning_rate": 0.0005996518089810232,
      "loss": 2.236,
      "step": 1383
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5003711581230164,
      "learning_rate": 0.0005996513053665471,
      "loss": 2.1237,
      "step": 1384
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5438376665115356,
      "learning_rate": 0.0005996508013883387,
      "loss": 2.1402,
      "step": 1385
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5106468796730042,
      "learning_rate": 0.0005996502970463983,
      "loss": 2.1634,
      "step": 1386
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4978642761707306,
      "learning_rate": 0.0005996497923407266,
      "loss": 2.1482,
      "step": 1387
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5497966408729553,
      "learning_rate": 0.0005996492872713242,
      "loss": 2.2157,
      "step": 1388
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49890875816345215,
      "learning_rate": 0.0005996487818381917,
      "loss": 2.1239,
      "step": 1389
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5282178521156311,
      "learning_rate": 0.0005996482760413297,
      "loss": 2.1209,
      "step": 1390
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5289064049720764,
      "learning_rate": 0.0005996477698807389,
      "loss": 2.1656,
      "step": 1391
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5036537051200867,
      "learning_rate": 0.0005996472633564198,
      "loss": 2.1581,
      "step": 1392
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48488321900367737,
      "learning_rate": 0.0005996467564683732,
      "loss": 2.0478,
      "step": 1393
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5341582894325256,
      "learning_rate": 0.0005996462492165994,
      "loss": 2.2344,
      "step": 1394
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5401198267936707,
      "learning_rate": 0.0005996457416010993,
      "loss": 2.2673,
      "step": 1395
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49033641815185547,
      "learning_rate": 0.0005996452336218735,
      "loss": 2.1761,
      "step": 1396
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5134092569351196,
      "learning_rate": 0.0005996447252789224,
      "loss": 2.1667,
      "step": 1397
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5031534433364868,
      "learning_rate": 0.0005996442165722468,
      "loss": 2.1169,
      "step": 1398
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4876077473163605,
      "learning_rate": 0.0005996437075018473,
      "loss": 2.2036,
      "step": 1399
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5032498240470886,
      "learning_rate": 0.0005996431980677245,
      "loss": 2.1353,
      "step": 1400
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5093692541122437,
      "learning_rate": 0.000599642688269879,
      "loss": 2.1577,
      "step": 1401
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.47889024019241333,
      "learning_rate": 0.0005996421781083115,
      "loss": 2.065,
      "step": 1402
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5088245868682861,
      "learning_rate": 0.0005996416675830224,
      "loss": 2.1527,
      "step": 1403
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5009890794754028,
      "learning_rate": 0.0005996411566940125,
      "loss": 2.1341,
      "step": 1404
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49612152576446533,
      "learning_rate": 0.0005996406454412824,
      "loss": 2.1296,
      "step": 1405
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48581960797309875,
      "learning_rate": 0.0005996401338248328,
      "loss": 2.2517,
      "step": 1406
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5120406746864319,
      "learning_rate": 0.0005996396218446641,
      "loss": 2.1021,
      "step": 1407
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5004174113273621,
      "learning_rate": 0.000599639109500777,
      "loss": 2.1341,
      "step": 1408
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49105536937713623,
      "learning_rate": 0.0005996385967931723,
      "loss": 2.1598,
      "step": 1409
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49428755044937134,
      "learning_rate": 0.0005996380837218505,
      "loss": 2.1871,
      "step": 1410
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5481147170066833,
      "learning_rate": 0.0005996375702868121,
      "loss": 2.1834,
      "step": 1411
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5214208364486694,
      "learning_rate": 0.0005996370564880579,
      "loss": 2.0622,
      "step": 1412
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5373445153236389,
      "learning_rate": 0.0005996365423255885,
      "loss": 2.1443,
      "step": 1413
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4999103248119354,
      "learning_rate": 0.0005996360277994045,
      "loss": 2.1188,
      "step": 1414
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5130504965782166,
      "learning_rate": 0.0005996355129095064,
      "loss": 2.1446,
      "step": 1415
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5058520436286926,
      "learning_rate": 0.000599634997655895,
      "loss": 2.125,
      "step": 1416
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.512028157711029,
      "learning_rate": 0.000599634482038571,
      "loss": 2.1397,
      "step": 1417
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5240992903709412,
      "learning_rate": 0.0005996339660575347,
      "loss": 2.155,
      "step": 1418
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5088117718696594,
      "learning_rate": 0.000599633449712787,
      "loss": 2.1462,
      "step": 1419
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5622144341468811,
      "learning_rate": 0.0005996329330043284,
      "loss": 2.1853,
      "step": 1420
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5161691904067993,
      "learning_rate": 0.0005996324159321596,
      "loss": 2.1665,
      "step": 1421
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5147392749786377,
      "learning_rate": 0.0005996318984962812,
      "loss": 2.157,
      "step": 1422
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5296530723571777,
      "learning_rate": 0.0005996313806966937,
      "loss": 2.1329,
      "step": 1423
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5382733345031738,
      "learning_rate": 0.000599630862533398,
      "loss": 2.2332,
      "step": 1424
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5222955346107483,
      "learning_rate": 0.0005996303440063945,
      "loss": 2.1809,
      "step": 1425
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5867023468017578,
      "learning_rate": 0.000599629825115684,
      "loss": 2.1102,
      "step": 1426
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5119625926017761,
      "learning_rate": 0.0005996293058612669,
      "loss": 2.0211,
      "step": 1427
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5414231419563293,
      "learning_rate": 0.0005996287862431441,
      "loss": 2.1501,
      "step": 1428
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.536350429058075,
      "learning_rate": 0.0005996282662613161,
      "loss": 2.1652,
      "step": 1429
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5183199048042297,
      "learning_rate": 0.0005996277459157834,
      "loss": 2.1276,
      "step": 1430
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5098976492881775,
      "learning_rate": 0.0005996272252065469,
      "loss": 2.1476,
      "step": 1431
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.568909227848053,
      "learning_rate": 0.000599626704133607,
      "loss": 2.1553,
      "step": 1432
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5306019186973572,
      "learning_rate": 0.0005996261826969646,
      "loss": 2.1694,
      "step": 1433
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5267837643623352,
      "learning_rate": 0.00059962566089662,
      "loss": 2.1805,
      "step": 1434
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5477775931358337,
      "learning_rate": 0.000599625138732574,
      "loss": 2.1568,
      "step": 1435
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49941286444664,
      "learning_rate": 0.0005996246162048273,
      "loss": 2.2168,
      "step": 1436
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49548256397247314,
      "learning_rate": 0.0005996240933133805,
      "loss": 2.1242,
      "step": 1437
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5241397619247437,
      "learning_rate": 0.0005996235700582341,
      "loss": 2.2038,
      "step": 1438
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5232167840003967,
      "learning_rate": 0.0005996230464393889,
      "loss": 2.1901,
      "step": 1439
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5070139169692993,
      "learning_rate": 0.0005996225224568454,
      "loss": 2.1271,
      "step": 1440
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5174159407615662,
      "learning_rate": 0.0005996219981106043,
      "loss": 2.1512,
      "step": 1441
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5021247267723083,
      "learning_rate": 0.0005996214734006663,
      "loss": 2.0519,
      "step": 1442
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5071612000465393,
      "learning_rate": 0.000599620948327032,
      "loss": 2.1625,
      "step": 1443
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5244690775871277,
      "learning_rate": 0.0005996204228897019,
      "loss": 2.1554,
      "step": 1444
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.534235417842865,
      "learning_rate": 0.0005996198970886768,
      "loss": 2.2062,
      "step": 1445
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4982520043849945,
      "learning_rate": 0.0005996193709239574,
      "loss": 2.1207,
      "step": 1446
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5114610195159912,
      "learning_rate": 0.0005996188443955442,
      "loss": 2.1956,
      "step": 1447
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5011023879051208,
      "learning_rate": 0.0005996183175034377,
      "loss": 2.1078,
      "step": 1448
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5232593417167664,
      "learning_rate": 0.0005996177902476389,
      "loss": 2.2038,
      "step": 1449
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5128772854804993,
      "learning_rate": 0.0005996172626281482,
      "loss": 2.1963,
      "step": 1450
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5058014392852783,
      "learning_rate": 0.0005996167346449661,
      "loss": 2.14,
      "step": 1451
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5188851356506348,
      "learning_rate": 0.0005996162062980937,
      "loss": 2.1812,
      "step": 1452
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5129636526107788,
      "learning_rate": 0.0005996156775875313,
      "loss": 2.1642,
      "step": 1453
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4993593990802765,
      "learning_rate": 0.0005996151485132795,
      "loss": 2.0964,
      "step": 1454
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5082972049713135,
      "learning_rate": 0.0005996146190753392,
      "loss": 2.1309,
      "step": 1455
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49767813086509705,
      "learning_rate": 0.0005996140892737109,
      "loss": 2.0411,
      "step": 1456
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5074604749679565,
      "learning_rate": 0.0005996135591083951,
      "loss": 2.185,
      "step": 1457
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5134692788124084,
      "learning_rate": 0.0005996130285793927,
      "loss": 2.1791,
      "step": 1458
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5200720429420471,
      "learning_rate": 0.0005996124976867041,
      "loss": 2.1243,
      "step": 1459
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5106592178344727,
      "learning_rate": 0.0005996119664303302,
      "loss": 2.2004,
      "step": 1460
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5015459656715393,
      "learning_rate": 0.0005996114348102716,
      "loss": 2.1165,
      "step": 1461
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5105717778205872,
      "learning_rate": 0.0005996109028265287,
      "loss": 2.0974,
      "step": 1462
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5231652855873108,
      "learning_rate": 0.0005996103704791024,
      "loss": 2.1156,
      "step": 1463
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5101495981216431,
      "learning_rate": 0.0005996098377679932,
      "loss": 2.1467,
      "step": 1464
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5294966101646423,
      "learning_rate": 0.0005996093046932017,
      "loss": 2.1485,
      "step": 1465
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5084987878799438,
      "learning_rate": 0.0005996087712547289,
      "loss": 2.1982,
      "step": 1466
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49944090843200684,
      "learning_rate": 0.000599608237452575,
      "loss": 2.1394,
      "step": 1467
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4906846284866333,
      "learning_rate": 0.0005996077032867408,
      "loss": 2.2046,
      "step": 1468
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5126312971115112,
      "learning_rate": 0.0005996071687572272,
      "loss": 2.0616,
      "step": 1469
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5097758173942566,
      "learning_rate": 0.0005996066338640345,
      "loss": 2.1647,
      "step": 1470
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4687267541885376,
      "learning_rate": 0.0005996060986071636,
      "loss": 2.0525,
      "step": 1471
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5042805075645447,
      "learning_rate": 0.0005996055629866149,
      "loss": 2.1306,
      "step": 1472
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4907059967517853,
      "learning_rate": 0.0005996050270023894,
      "loss": 2.12,
      "step": 1473
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4921773374080658,
      "learning_rate": 0.0005996044906544873,
      "loss": 2.1698,
      "step": 1474
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4961964786052704,
      "learning_rate": 0.0005996039539429097,
      "loss": 2.1182,
      "step": 1475
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49911442399024963,
      "learning_rate": 0.0005996034168676569,
      "loss": 2.1089,
      "step": 1476
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5214292407035828,
      "learning_rate": 0.0005996028794287297,
      "loss": 2.1716,
      "step": 1477
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5028684139251709,
      "learning_rate": 0.0005996023416261288,
      "loss": 2.1981,
      "step": 1478
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5121282935142517,
      "learning_rate": 0.0005996018034598548,
      "loss": 2.1213,
      "step": 1479
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5151885151863098,
      "learning_rate": 0.0005996012649299084,
      "loss": 2.1974,
      "step": 1480
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5160229206085205,
      "learning_rate": 0.0005996007260362902,
      "loss": 2.2181,
      "step": 1481
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5109849572181702,
      "learning_rate": 0.0005996001867790008,
      "loss": 2.1115,
      "step": 1482
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49784910678863525,
      "learning_rate": 0.0005995996471580408,
      "loss": 2.1328,
      "step": 1483
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5028967261314392,
      "learning_rate": 0.0005995991071734112,
      "loss": 2.1743,
      "step": 1484
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5104190111160278,
      "learning_rate": 0.0005995985668251124,
      "loss": 2.1558,
      "step": 1485
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5391266345977783,
      "learning_rate": 0.000599598026113145,
      "loss": 2.1355,
      "step": 1486
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5085033774375916,
      "learning_rate": 0.0005995974850375097,
      "loss": 2.1389,
      "step": 1487
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5124326348304749,
      "learning_rate": 0.0005995969435982073,
      "loss": 2.1885,
      "step": 1488
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5495423078536987,
      "learning_rate": 0.0005995964017952383,
      "loss": 2.1088,
      "step": 1489
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5053282380104065,
      "learning_rate": 0.0005995958596286035,
      "loss": 2.1382,
      "step": 1490
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5142331719398499,
      "learning_rate": 0.0005995953170983033,
      "loss": 2.097,
      "step": 1491
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.53816819190979,
      "learning_rate": 0.0005995947742043386,
      "loss": 2.1517,
      "step": 1492
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.521105945110321,
      "learning_rate": 0.0005995942309467101,
      "loss": 2.0942,
      "step": 1493
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5054348707199097,
      "learning_rate": 0.0005995936873254183,
      "loss": 2.198,
      "step": 1494
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5179835557937622,
      "learning_rate": 0.0005995931433404639,
      "loss": 2.1486,
      "step": 1495
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5200733542442322,
      "learning_rate": 0.0005995925989918474,
      "loss": 2.0861,
      "step": 1496
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5273322463035583,
      "learning_rate": 0.0005995920542795698,
      "loss": 2.0879,
      "step": 1497
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4951372742652893,
      "learning_rate": 0.0005995915092036315,
      "loss": 2.1773,
      "step": 1498
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5029704570770264,
      "learning_rate": 0.0005995909637640333,
      "loss": 2.172,
      "step": 1499
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5293134450912476,
      "learning_rate": 0.0005995904179607758,
      "loss": 2.0859,
      "step": 1500
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5322535037994385,
      "learning_rate": 0.0005995898717938597,
      "loss": 2.1116,
      "step": 1501
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49578630924224854,
      "learning_rate": 0.0005995893252632857,
      "loss": 2.1088,
      "step": 1502
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5094016790390015,
      "learning_rate": 0.0005995887783690543,
      "loss": 2.0824,
      "step": 1503
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5068264603614807,
      "learning_rate": 0.0005995882311111663,
      "loss": 2.0703,
      "step": 1504
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5383314490318298,
      "learning_rate": 0.0005995876834896223,
      "loss": 2.1461,
      "step": 1505
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.51778244972229,
      "learning_rate": 0.000599587135504423,
      "loss": 2.1683,
      "step": 1506
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48727113008499146,
      "learning_rate": 0.0005995865871555691,
      "loss": 2.1031,
      "step": 1507
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48118630051612854,
      "learning_rate": 0.0005995860384430612,
      "loss": 2.1107,
      "step": 1508
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5460994839668274,
      "learning_rate": 0.0005995854893669,
      "loss": 2.22,
      "step": 1509
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5105001926422119,
      "learning_rate": 0.0005995849399270862,
      "loss": 2.1966,
      "step": 1510
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48922720551490784,
      "learning_rate": 0.0005995843901236203,
      "loss": 2.1907,
      "step": 1511
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5095862150192261,
      "learning_rate": 0.0005995838399565032,
      "loss": 2.1411,
      "step": 1512
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.529011070728302,
      "learning_rate": 0.0005995832894257354,
      "loss": 2.1315,
      "step": 1513
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4830959439277649,
      "learning_rate": 0.0005995827385313177,
      "loss": 2.1419,
      "step": 1514
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5287674069404602,
      "learning_rate": 0.0005995821872732506,
      "loss": 2.0735,
      "step": 1515
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5236121416091919,
      "learning_rate": 0.0005995816356515348,
      "loss": 2.168,
      "step": 1516
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5119972825050354,
      "learning_rate": 0.0005995810836661713,
      "loss": 2.0937,
      "step": 1517
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5334693193435669,
      "learning_rate": 0.0005995805313171602,
      "loss": 2.0999,
      "step": 1518
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4963446855545044,
      "learning_rate": 0.0005995799786045027,
      "loss": 2.1645,
      "step": 1519
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4981658160686493,
      "learning_rate": 0.0005995794255281992,
      "loss": 2.2076,
      "step": 1520
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5205165147781372,
      "learning_rate": 0.0005995788720882504,
      "loss": 2.1772,
      "step": 1521
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5001828074455261,
      "learning_rate": 0.000599578318284657,
      "loss": 2.0572,
      "step": 1522
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5020403265953064,
      "learning_rate": 0.0005995777641174197,
      "loss": 2.1786,
      "step": 1523
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5021458864212036,
      "learning_rate": 0.000599577209586539,
      "loss": 2.168,
      "step": 1524
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5021110773086548,
      "learning_rate": 0.0005995766546920159,
      "loss": 2.2062,
      "step": 1525
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5184682607650757,
      "learning_rate": 0.0005995760994338507,
      "loss": 2.0953,
      "step": 1526
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5024596452713013,
      "learning_rate": 0.0005995755438120443,
      "loss": 2.2239,
      "step": 1527
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5004575848579407,
      "learning_rate": 0.0005995749878265974,
      "loss": 2.0832,
      "step": 1528
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5098973512649536,
      "learning_rate": 0.0005995744314775106,
      "loss": 2.0455,
      "step": 1529
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5021374821662903,
      "learning_rate": 0.0005995738747647845,
      "loss": 2.1067,
      "step": 1530
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5185027718544006,
      "learning_rate": 0.0005995733176884199,
      "loss": 2.1522,
      "step": 1531
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5025861263275146,
      "learning_rate": 0.0005995727602484175,
      "loss": 2.1656,
      "step": 1532
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4981031119823456,
      "learning_rate": 0.0005995722024447778,
      "loss": 2.0744,
      "step": 1533
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5050783753395081,
      "learning_rate": 0.0005995716442775017,
      "loss": 2.1785,
      "step": 1534
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5115224719047546,
      "learning_rate": 0.0005995710857465896,
      "loss": 2.045,
      "step": 1535
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.512349545955658,
      "learning_rate": 0.0005995705268520425,
      "loss": 2.082,
      "step": 1536
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.502268373966217,
      "learning_rate": 0.0005995699675938608,
      "loss": 2.1516,
      "step": 1537
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5017773509025574,
      "learning_rate": 0.0005995694079720454,
      "loss": 2.1182,
      "step": 1538
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5069164037704468,
      "learning_rate": 0.0005995688479865968,
      "loss": 2.0503,
      "step": 1539
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49557945132255554,
      "learning_rate": 0.0005995682876375159,
      "loss": 2.0427,
      "step": 1540
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4896118938922882,
      "learning_rate": 0.0005995677269248031,
      "loss": 2.1273,
      "step": 1541
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5036673545837402,
      "learning_rate": 0.0005995671658484592,
      "loss": 2.1488,
      "step": 1542
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49794670939445496,
      "learning_rate": 0.000599566604408485,
      "loss": 2.1333,
      "step": 1543
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48611825704574585,
      "learning_rate": 0.0005995660426048809,
      "loss": 2.1005,
      "step": 1544
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49060073494911194,
      "learning_rate": 0.0005995654804376479,
      "loss": 2.1524,
      "step": 1545
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4846557080745697,
      "learning_rate": 0.0005995649179067866,
      "loss": 2.1104,
      "step": 1546
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5195398926734924,
      "learning_rate": 0.0005995643550122976,
      "loss": 2.1557,
      "step": 1547
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5091519355773926,
      "learning_rate": 0.0005995637917541815,
      "loss": 2.0925,
      "step": 1548
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4820343852043152,
      "learning_rate": 0.0005995632281324393,
      "loss": 2.1033,
      "step": 1549
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5070380568504333,
      "learning_rate": 0.0005995626641470713,
      "loss": 2.1716,
      "step": 1550
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.526272714138031,
      "learning_rate": 0.0005995620997980784,
      "loss": 2.1564,
      "step": 1551
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5000578761100769,
      "learning_rate": 0.0005995615350854613,
      "loss": 2.1235,
      "step": 1552
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4989824593067169,
      "learning_rate": 0.0005995609700092206,
      "loss": 2.1288,
      "step": 1553
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5003039836883545,
      "learning_rate": 0.000599560404569357,
      "loss": 2.0954,
      "step": 1554
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5209168791770935,
      "learning_rate": 0.0005995598387658713,
      "loss": 2.2058,
      "step": 1555
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5079679489135742,
      "learning_rate": 0.0005995592725987639,
      "loss": 2.1145,
      "step": 1556
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5149429440498352,
      "learning_rate": 0.0005995587060680359,
      "loss": 2.1612,
      "step": 1557
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5115970969200134,
      "learning_rate": 0.0005995581391736876,
      "loss": 2.1507,
      "step": 1558
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49131351709365845,
      "learning_rate": 0.00059955757191572,
      "loss": 1.9745,
      "step": 1559
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4981624186038971,
      "learning_rate": 0.0005995570042941335,
      "loss": 2.0786,
      "step": 1560
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5154067873954773,
      "learning_rate": 0.0005995564363089291,
      "loss": 2.1316,
      "step": 1561
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5088664889335632,
      "learning_rate": 0.0005995558679601072,
      "loss": 2.1891,
      "step": 1562
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5206109285354614,
      "learning_rate": 0.0005995552992476686,
      "loss": 2.1065,
      "step": 1563
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5196224451065063,
      "learning_rate": 0.000599554730171614,
      "loss": 2.1589,
      "step": 1564
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.511940598487854,
      "learning_rate": 0.0005995541607319442,
      "loss": 2.1272,
      "step": 1565
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5057846307754517,
      "learning_rate": 0.0005995535909286598,
      "loss": 2.1413,
      "step": 1566
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5013998746871948,
      "learning_rate": 0.0005995530207617614,
      "loss": 2.1647,
      "step": 1567
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5277997851371765,
      "learning_rate": 0.0005995524502312498,
      "loss": 2.1669,
      "step": 1568
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5121776461601257,
      "learning_rate": 0.0005995518793371256,
      "loss": 2.0862,
      "step": 1569
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5002267360687256,
      "learning_rate": 0.0005995513080793896,
      "loss": 2.1378,
      "step": 1570
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.497663289308548,
      "learning_rate": 0.0005995507364580425,
      "loss": 2.0874,
      "step": 1571
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5003471970558167,
      "learning_rate": 0.0005995501644730848,
      "loss": 2.0869,
      "step": 1572
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49871736764907837,
      "learning_rate": 0.0005995495921245175,
      "loss": 2.1578,
      "step": 1573
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4930514395236969,
      "learning_rate": 0.000599549019412341,
      "loss": 2.0157,
      "step": 1574
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4959535598754883,
      "learning_rate": 0.0005995484463365561,
      "loss": 2.1136,
      "step": 1575
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4910980463027954,
      "learning_rate": 0.0005995478728971637,
      "loss": 2.1062,
      "step": 1576
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5061337351799011,
      "learning_rate": 0.0005995472990941642,
      "loss": 2.2197,
      "step": 1577
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48314905166625977,
      "learning_rate": 0.0005995467249275585,
      "loss": 2.0844,
      "step": 1578
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48921170830726624,
      "learning_rate": 0.0005995461503973472,
      "loss": 2.1893,
      "step": 1579
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5065594911575317,
      "learning_rate": 0.0005995455755035308,
      "loss": 2.1801,
      "step": 1580
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5098234415054321,
      "learning_rate": 0.0005995450002461105,
      "loss": 2.093,
      "step": 1581
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.474607914686203,
      "learning_rate": 0.0005995444246250865,
      "loss": 2.1368,
      "step": 1582
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5088247060775757,
      "learning_rate": 0.0005995438486404598,
      "loss": 2.1362,
      "step": 1583
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4979974031448364,
      "learning_rate": 0.0005995432722922311,
      "loss": 2.1255,
      "step": 1584
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4909135699272156,
      "learning_rate": 0.0005995426955804008,
      "loss": 2.0541,
      "step": 1585
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.47828739881515503,
      "learning_rate": 0.0005995421185049698,
      "loss": 2.1795,
      "step": 1586
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6006237864494324,
      "learning_rate": 0.000599541541065939,
      "loss": 2.1502,
      "step": 1587
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4958835542201996,
      "learning_rate": 0.0005995409632633088,
      "loss": 2.09,
      "step": 1588
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5195178389549255,
      "learning_rate": 0.00059954038509708,
      "loss": 2.1132,
      "step": 1589
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5089520812034607,
      "learning_rate": 0.0005995398065672533,
      "loss": 2.1589,
      "step": 1590
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5366635918617249,
      "learning_rate": 0.0005995392276738294,
      "loss": 2.2102,
      "step": 1591
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49585625529289246,
      "learning_rate": 0.000599538648416809,
      "loss": 2.1241,
      "step": 1592
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5019461512565613,
      "learning_rate": 0.000599538068796193,
      "loss": 2.0936,
      "step": 1593
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49834078550338745,
      "learning_rate": 0.0005995374888119817,
      "loss": 2.0753,
      "step": 1594
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5314885377883911,
      "learning_rate": 0.0005995369084641761,
      "loss": 2.0341,
      "step": 1595
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5354588627815247,
      "learning_rate": 0.0005995363277527768,
      "loss": 2.1372,
      "step": 1596
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5054875016212463,
      "learning_rate": 0.0005995357466777846,
      "loss": 2.1181,
      "step": 1597
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5337271690368652,
      "learning_rate": 0.0005995351652392,
      "loss": 2.1091,
      "step": 1598
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5293384790420532,
      "learning_rate": 0.0005995345834370239,
      "loss": 2.1001,
      "step": 1599
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5001350045204163,
      "learning_rate": 0.0005995340012712571,
      "loss": 2.1068,
      "step": 1600
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5013286471366882,
      "learning_rate": 0.0005995334187419001,
      "loss": 2.2169,
      "step": 1601
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.525183379650116,
      "learning_rate": 0.0005995328358489535,
      "loss": 2.0892,
      "step": 1602
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5153791904449463,
      "learning_rate": 0.0005995322525924183,
      "loss": 2.1427,
      "step": 1603
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5027597546577454,
      "learning_rate": 0.000599531668972295,
      "loss": 2.1442,
      "step": 1604
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5157549977302551,
      "learning_rate": 0.0005995310849885845,
      "loss": 2.1366,
      "step": 1605
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5164462327957153,
      "learning_rate": 0.0005995305006412872,
      "loss": 2.1793,
      "step": 1606
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5279264450073242,
      "learning_rate": 0.0005995299159304042,
      "loss": 2.1474,
      "step": 1607
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5063609480857849,
      "learning_rate": 0.0005995293308559361,
      "loss": 2.0829,
      "step": 1608
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.503351092338562,
      "learning_rate": 0.0005995287454178833,
      "loss": 2.2661,
      "step": 1609
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4932304322719574,
      "learning_rate": 0.0005995281596162469,
      "loss": 2.1775,
      "step": 1610
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5178779363632202,
      "learning_rate": 0.0005995275734510274,
      "loss": 2.1089,
      "step": 1611
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4979042708873749,
      "learning_rate": 0.0005995269869222254,
      "loss": 2.1208,
      "step": 1612
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5036138296127319,
      "learning_rate": 0.000599526400029842,
      "loss": 2.0883,
      "step": 1613
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5128139853477478,
      "learning_rate": 0.0005995258127738776,
      "loss": 2.0639,
      "step": 1614
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5308849215507507,
      "learning_rate": 0.000599525225154333,
      "loss": 2.0777,
      "step": 1615
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5135461091995239,
      "learning_rate": 0.0005995246371712088,
      "loss": 2.0594,
      "step": 1616
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49869951605796814,
      "learning_rate": 0.0005995240488245059,
      "loss": 2.1715,
      "step": 1617
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5112341046333313,
      "learning_rate": 0.000599523460114225,
      "loss": 2.1595,
      "step": 1618
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5368996858596802,
      "learning_rate": 0.0005995228710403667,
      "loss": 2.1061,
      "step": 1619
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49179160594940186,
      "learning_rate": 0.0005995222816029317,
      "loss": 2.176,
      "step": 1620
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5122529864311218,
      "learning_rate": 0.000599521691801921,
      "loss": 2.0788,
      "step": 1621
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5043977499008179,
      "learning_rate": 0.0005995211016373349,
      "loss": 2.1105,
      "step": 1622
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5092669129371643,
      "learning_rate": 0.0005995205111091743,
      "loss": 2.1447,
      "step": 1623
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4792429506778717,
      "learning_rate": 0.0005995199202174401,
      "loss": 2.1627,
      "step": 1624
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4931907057762146,
      "learning_rate": 0.0005995193289621328,
      "loss": 2.1038,
      "step": 1625
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5073239803314209,
      "learning_rate": 0.000599518737343253,
      "loss": 2.0991,
      "step": 1626
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49398893117904663,
      "learning_rate": 0.0005995181453608017,
      "loss": 2.075,
      "step": 1627
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4824502766132355,
      "learning_rate": 0.0005995175530147795,
      "loss": 2.0682,
      "step": 1628
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.47645920515060425,
      "learning_rate": 0.0005995169603051872,
      "loss": 2.1463,
      "step": 1629
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49823689460754395,
      "learning_rate": 0.0005995163672320253,
      "loss": 2.0498,
      "step": 1630
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4830377399921417,
      "learning_rate": 0.0005995157737952948,
      "loss": 2.186,
      "step": 1631
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48554596304893494,
      "learning_rate": 0.0005995151799949962,
      "loss": 2.1239,
      "step": 1632
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5119943618774414,
      "learning_rate": 0.0005995145858311303,
      "loss": 2.1532,
      "step": 1633
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5099345445632935,
      "learning_rate": 0.0005995139913036979,
      "loss": 2.0588,
      "step": 1634
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4788348376750946,
      "learning_rate": 0.0005995133964126995,
      "loss": 2.0717,
      "step": 1635
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49159136414527893,
      "learning_rate": 0.000599512801158136,
      "loss": 2.1042,
      "step": 1636
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49177274107933044,
      "learning_rate": 0.0005995122055400083,
      "loss": 2.0353,
      "step": 1637
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49355652928352356,
      "learning_rate": 0.0005995116095583167,
      "loss": 2.1725,
      "step": 1638
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.49130213260650635,
      "learning_rate": 0.0005995110132130622,
      "loss": 2.1272,
      "step": 1639
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48217424750328064,
      "learning_rate": 0.0005995104165042454,
      "loss": 2.0965,
      "step": 1640
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5192065238952637,
      "learning_rate": 0.0005995098194318672,
      "loss": 2.0961,
      "step": 1641
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5145622491836548,
      "learning_rate": 0.0005995092219959281,
      "loss": 2.1441,
      "step": 1642
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5134544372558594,
      "learning_rate": 0.000599508624196429,
      "loss": 2.0305,
      "step": 1643
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4987397789955139,
      "learning_rate": 0.0005995080260333706,
      "loss": 2.1243,
      "step": 1644
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4947458803653717,
      "learning_rate": 0.0005995074275067535,
      "loss": 2.1817,
      "step": 1645
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5233307480812073,
      "learning_rate": 0.0005995068286165785,
      "loss": 2.1363,
      "step": 1646
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5172116160392761,
      "learning_rate": 0.0005995062293628464,
      "loss": 2.1329,
      "step": 1647
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.48449474573135376,
      "learning_rate": 0.0005995056297455579,
      "loss": 2.0608,
      "step": 1648
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5429913401603699,
      "learning_rate": 0.0005995050297647137,
      "loss": 2.1507,
      "step": 1649
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5477160215377808,
      "learning_rate": 0.0005995044294203144,
      "loss": 2.1784,
      "step": 1650
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5384494066238403,
      "learning_rate": 0.0005995038287123609,
      "loss": 2.1554,
      "step": 1651
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5079545974731445,
      "learning_rate": 0.0005995032276408539,
      "loss": 2.1631,
      "step": 1652
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5073851346969604,
      "learning_rate": 0.0005995026262057942,
      "loss": 2.0875,
      "step": 1653
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5175871849060059,
      "learning_rate": 0.0005995020244071822,
      "loss": 2.0937,
      "step": 1654
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4852049946784973,
      "learning_rate": 0.0005995014222450191,
      "loss": 2.1455,
      "step": 1655
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5027372241020203,
      "learning_rate": 0.0005995008197193053,
      "loss": 2.1023,
      "step": 1656
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5009369254112244,
      "learning_rate": 0.0005995002168300418,
      "loss": 2.0378,
      "step": 1657
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4960736036300659,
      "learning_rate": 0.000599499613577229,
      "loss": 2.0662,
      "step": 1658
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.510798990726471,
      "learning_rate": 0.0005994990099608678,
      "loss": 2.0959,
      "step": 1659
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5207686424255371,
      "learning_rate": 0.000599498405980959,
      "loss": 2.1956,
      "step": 1660
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5166386961936951,
      "learning_rate": 0.0005994978016375033,
      "loss": 2.1463,
      "step": 1661
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5291667580604553,
      "learning_rate": 0.0005994971969305013,
      "loss": 2.0999,
      "step": 1662
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48077958822250366,
      "learning_rate": 0.0005994965918599539,
      "loss": 2.1114,
      "step": 1663
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5090267062187195,
      "learning_rate": 0.0005994959864258616,
      "loss": 2.0869,
      "step": 1664
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5098292827606201,
      "learning_rate": 0.0005994953806282255,
      "loss": 2.1161,
      "step": 1665
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5018453001976013,
      "learning_rate": 0.000599494774467046,
      "loss": 2.1218,
      "step": 1666
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5114352703094482,
      "learning_rate": 0.0005994941679423241,
      "loss": 2.1549,
      "step": 1667
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4979443848133087,
      "learning_rate": 0.0005994935610540604,
      "loss": 2.0928,
      "step": 1668
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.502027690410614,
      "learning_rate": 0.0005994929538022556,
      "loss": 2.0318,
      "step": 1669
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5062592625617981,
      "learning_rate": 0.0005994923461869104,
      "loss": 2.1441,
      "step": 1670
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5134550333023071,
      "learning_rate": 0.0005994917382080257,
      "loss": 2.0821,
      "step": 1671
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4845198392868042,
      "learning_rate": 0.0005994911298656022,
      "loss": 2.1065,
      "step": 1672
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49452778697013855,
      "learning_rate": 0.0005994905211596404,
      "loss": 2.0978,
      "step": 1673
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5229991674423218,
      "learning_rate": 0.0005994899120901415,
      "loss": 2.0609,
      "step": 1674
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.503344714641571,
      "learning_rate": 0.0005994893026571058,
      "loss": 2.0981,
      "step": 1675
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.525348961353302,
      "learning_rate": 0.0005994886928605344,
      "loss": 2.0972,
      "step": 1676
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5499024987220764,
      "learning_rate": 0.0005994880827004276,
      "loss": 2.2429,
      "step": 1677
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5106154084205627,
      "learning_rate": 0.0005994874721767865,
      "loss": 2.0525,
      "step": 1678
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5353685021400452,
      "learning_rate": 0.0005994868612896118,
      "loss": 2.0664,
      "step": 1679
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5318310260772705,
      "learning_rate": 0.0005994862500389042,
      "loss": 2.0682,
      "step": 1680
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5320312976837158,
      "learning_rate": 0.0005994856384246642,
      "loss": 2.1991,
      "step": 1681
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5025217533111572,
      "learning_rate": 0.0005994850264468929,
      "loss": 2.1084,
      "step": 1682
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5258965492248535,
      "learning_rate": 0.000599484414105591,
      "loss": 2.1054,
      "step": 1683
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4968467950820923,
      "learning_rate": 0.0005994838014007591,
      "loss": 2.015,
      "step": 1684
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5087762475013733,
      "learning_rate": 0.000599483188332398,
      "loss": 2.0802,
      "step": 1685
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5742985010147095,
      "learning_rate": 0.0005994825749005083,
      "loss": 2.145,
      "step": 1686
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5059444904327393,
      "learning_rate": 0.000599481961105091,
      "loss": 2.2099,
      "step": 1687
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5291750431060791,
      "learning_rate": 0.0005994813469461467,
      "loss": 2.0899,
      "step": 1688
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5468727350234985,
      "learning_rate": 0.0005994807324236763,
      "loss": 2.0683,
      "step": 1689
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.498612642288208,
      "learning_rate": 0.0005994801175376802,
      "loss": 2.1096,
      "step": 1690
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5738738179206848,
      "learning_rate": 0.0005994795022881595,
      "loss": 2.1336,
      "step": 1691
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5410385131835938,
      "learning_rate": 0.0005994788866751147,
      "loss": 2.1471,
      "step": 1692
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.491787850856781,
      "learning_rate": 0.0005994782706985468,
      "loss": 2.1181,
      "step": 1693
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.582058310508728,
      "learning_rate": 0.0005994776543584563,
      "loss": 2.1234,
      "step": 1694
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5308154225349426,
      "learning_rate": 0.000599477037654844,
      "loss": 2.1354,
      "step": 1695
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49780187010765076,
      "learning_rate": 0.0005994764205877109,
      "loss": 2.1051,
      "step": 1696
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5280070304870605,
      "learning_rate": 0.0005994758031570574,
      "loss": 2.0785,
      "step": 1697
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5163387656211853,
      "learning_rate": 0.0005994751853628844,
      "loss": 2.0707,
      "step": 1698
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49338915944099426,
      "learning_rate": 0.0005994745672051927,
      "loss": 2.1743,
      "step": 1699
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.515967845916748,
      "learning_rate": 0.000599473948683983,
      "loss": 2.0872,
      "step": 1700
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.534760057926178,
      "learning_rate": 0.000599473329799256,
      "loss": 2.1261,
      "step": 1701
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5293734669685364,
      "learning_rate": 0.0005994727105510125,
      "loss": 2.1493,
      "step": 1702
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5283392667770386,
      "learning_rate": 0.0005994720909392534,
      "loss": 2.0925,
      "step": 1703
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49133145809173584,
      "learning_rate": 0.0005994714709639792,
      "loss": 2.0249,
      "step": 1704
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5168613195419312,
      "learning_rate": 0.0005994708506251908,
      "loss": 1.9634,
      "step": 1705
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5072116255760193,
      "learning_rate": 0.0005994702299228888,
      "loss": 2.1269,
      "step": 1706
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4897373616695404,
      "learning_rate": 0.0005994696088570742,
      "loss": 2.0949,
      "step": 1707
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49004024267196655,
      "learning_rate": 0.0005994689874277475,
      "loss": 2.1771,
      "step": 1708
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5077011585235596,
      "learning_rate": 0.0005994683656349096,
      "loss": 2.132,
      "step": 1709
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5167312026023865,
      "learning_rate": 0.0005994677434785613,
      "loss": 2.1801,
      "step": 1710
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49426162242889404,
      "learning_rate": 0.0005994671209587032,
      "loss": 2.1057,
      "step": 1711
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4895637333393097,
      "learning_rate": 0.0005994664980753362,
      "loss": 2.0763,
      "step": 1712
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5180984735488892,
      "learning_rate": 0.0005994658748284611,
      "loss": 2.0362,
      "step": 1713
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4969624876976013,
      "learning_rate": 0.0005994652512180783,
      "loss": 2.1019,
      "step": 1714
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4992312490940094,
      "learning_rate": 0.0005994646272441891,
      "loss": 2.0789,
      "step": 1715
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4868864417076111,
      "learning_rate": 0.0005994640029067937,
      "loss": 2.096,
      "step": 1716
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5311201214790344,
      "learning_rate": 0.0005994633782058933,
      "loss": 2.2098,
      "step": 1717
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5013237595558167,
      "learning_rate": 0.0005994627531414883,
      "loss": 2.173,
      "step": 1718
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5033336281776428,
      "learning_rate": 0.0005994621277135799,
      "loss": 2.065,
      "step": 1719
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5106431245803833,
      "learning_rate": 0.0005994615019221684,
      "loss": 2.0356,
      "step": 1720
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5002923607826233,
      "learning_rate": 0.0005994608757672548,
      "loss": 2.0889,
      "step": 1721
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4877859652042389,
      "learning_rate": 0.0005994602492488399,
      "loss": 2.0702,
      "step": 1722
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4940043091773987,
      "learning_rate": 0.0005994596223669243,
      "loss": 2.015,
      "step": 1723
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5052080154418945,
      "learning_rate": 0.0005994589951215088,
      "loss": 2.0631,
      "step": 1724
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5099850296974182,
      "learning_rate": 0.0005994583675125943,
      "loss": 2.1715,
      "step": 1725
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5328221917152405,
      "learning_rate": 0.0005994577395401814,
      "loss": 2.0879,
      "step": 1726
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5251267552375793,
      "learning_rate": 0.000599457111204271,
      "loss": 2.1293,
      "step": 1727
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5237347483634949,
      "learning_rate": 0.0005994564825048638,
      "loss": 2.0647,
      "step": 1728
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4972778260707855,
      "learning_rate": 0.0005994558534419604,
      "loss": 2.0819,
      "step": 1729
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48870161175727844,
      "learning_rate": 0.0005994552240155619,
      "loss": 2.1386,
      "step": 1730
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.525100827217102,
      "learning_rate": 0.0005994545942256688,
      "loss": 2.1069,
      "step": 1731
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4878394901752472,
      "learning_rate": 0.0005994539640722819,
      "loss": 2.0365,
      "step": 1732
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4996453821659088,
      "learning_rate": 0.0005994533335554021,
      "loss": 2.0506,
      "step": 1733
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5097852945327759,
      "learning_rate": 0.00059945270267503,
      "loss": 2.0514,
      "step": 1734
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49804943799972534,
      "learning_rate": 0.0005994520714311664,
      "loss": 2.134,
      "step": 1735
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4902268052101135,
      "learning_rate": 0.0005994514398238122,
      "loss": 2.1337,
      "step": 1736
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49149930477142334,
      "learning_rate": 0.0005994508078529681,
      "loss": 2.0567,
      "step": 1737
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4989362061023712,
      "learning_rate": 0.0005994501755186347,
      "loss": 2.0671,
      "step": 1738
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5067352652549744,
      "learning_rate": 0.0005994495428208131,
      "loss": 2.0599,
      "step": 1739
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5015086531639099,
      "learning_rate": 0.0005994489097595038,
      "loss": 2.0623,
      "step": 1740
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.523880124092102,
      "learning_rate": 0.0005994482763347075,
      "loss": 2.0864,
      "step": 1741
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48817622661590576,
      "learning_rate": 0.0005994476425464253,
      "loss": 2.0658,
      "step": 1742
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5629306435585022,
      "learning_rate": 0.0005994470083946577,
      "loss": 2.137,
      "step": 1743
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5270652770996094,
      "learning_rate": 0.0005994463738794056,
      "loss": 2.2199,
      "step": 1744
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5345612168312073,
      "learning_rate": 0.0005994457390006698,
      "loss": 2.1037,
      "step": 1745
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4828367531299591,
      "learning_rate": 0.0005994451037584508,
      "loss": 2.0838,
      "step": 1746
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.514313817024231,
      "learning_rate": 0.0005994444681527496,
      "loss": 2.1583,
      "step": 1747
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48837074637413025,
      "learning_rate": 0.0005994438321835671,
      "loss": 2.1232,
      "step": 1748
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5244690775871277,
      "learning_rate": 0.0005994431958509038,
      "loss": 2.1366,
      "step": 1749
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4843466877937317,
      "learning_rate": 0.0005994425591547606,
      "loss": 2.0163,
      "step": 1750
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5125066041946411,
      "learning_rate": 0.0005994419220951382,
      "loss": 2.0759,
      "step": 1751
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48794710636138916,
      "learning_rate": 0.0005994412846720374,
      "loss": 2.1312,
      "step": 1752
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48751094937324524,
      "learning_rate": 0.0005994406468854592,
      "loss": 2.0628,
      "step": 1753
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49480774998664856,
      "learning_rate": 0.000599440008735404,
      "loss": 2.1544,
      "step": 1754
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49467548727989197,
      "learning_rate": 0.0005994393702218728,
      "loss": 2.0825,
      "step": 1755
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49465280771255493,
      "learning_rate": 0.0005994387313448663,
      "loss": 2.1009,
      "step": 1756
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5049839615821838,
      "learning_rate": 0.0005994380921043853,
      "loss": 2.1201,
      "step": 1757
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49831366539001465,
      "learning_rate": 0.0005994374525004305,
      "loss": 2.0956,
      "step": 1758
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5052483677864075,
      "learning_rate": 0.000599436812533003,
      "loss": 2.1218,
      "step": 1759
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4880923330783844,
      "learning_rate": 0.0005994361722021031,
      "loss": 2.0279,
      "step": 1760
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5056562423706055,
      "learning_rate": 0.000599435531507732,
      "loss": 2.1376,
      "step": 1761
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47649529576301575,
      "learning_rate": 0.0005994348904498901,
      "loss": 2.0201,
      "step": 1762
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4968339502811432,
      "learning_rate": 0.0005994342490285784,
      "loss": 2.1404,
      "step": 1763
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5041817426681519,
      "learning_rate": 0.0005994336072437977,
      "loss": 2.0409,
      "step": 1764
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5028089880943298,
      "learning_rate": 0.0005994329650955486,
      "loss": 2.1448,
      "step": 1765
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4779711663722992,
      "learning_rate": 0.0005994323225838322,
      "loss": 2.0521,
      "step": 1766
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48074254393577576,
      "learning_rate": 0.0005994316797086489,
      "loss": 2.1518,
      "step": 1767
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5028201341629028,
      "learning_rate": 0.0005994310364699998,
      "loss": 2.0878,
      "step": 1768
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48909568786621094,
      "learning_rate": 0.0005994303928678854,
      "loss": 2.0251,
      "step": 1769
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.492369681596756,
      "learning_rate": 0.0005994297489023068,
      "loss": 2.0859,
      "step": 1770
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4968063235282898,
      "learning_rate": 0.0005994291045732644,
      "loss": 2.0136,
      "step": 1771
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4929839074611664,
      "learning_rate": 0.0005994284598807593,
      "loss": 2.0742,
      "step": 1772
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4987218976020813,
      "learning_rate": 0.0005994278148247922,
      "loss": 2.0823,
      "step": 1773
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4923698306083679,
      "learning_rate": 0.0005994271694053638,
      "loss": 2.0231,
      "step": 1774
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4938492178916931,
      "learning_rate": 0.0005994265236224749,
      "loss": 2.1534,
      "step": 1775
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4987800121307373,
      "learning_rate": 0.0005994258774761264,
      "loss": 2.087,
      "step": 1776
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4835057258605957,
      "learning_rate": 0.0005994252309663189,
      "loss": 2.1229,
      "step": 1777
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5069107413291931,
      "learning_rate": 0.0005994245840930533,
      "loss": 2.1187,
      "step": 1778
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5079271197319031,
      "learning_rate": 0.0005994239368563304,
      "loss": 2.1712,
      "step": 1779
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4952504336833954,
      "learning_rate": 0.000599423289256151,
      "loss": 2.0779,
      "step": 1780
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5261706113815308,
      "learning_rate": 0.0005994226412925159,
      "loss": 2.0575,
      "step": 1781
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5114449262619019,
      "learning_rate": 0.0005994219929654258,
      "loss": 2.0598,
      "step": 1782
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48965978622436523,
      "learning_rate": 0.0005994213442748814,
      "loss": 2.0877,
      "step": 1783
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5392100811004639,
      "learning_rate": 0.0005994206952208837,
      "loss": 2.0856,
      "step": 1784
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4867316484451294,
      "learning_rate": 0.0005994200458034333,
      "loss": 1.9671,
      "step": 1785
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5337316393852234,
      "learning_rate": 0.0005994193960225312,
      "loss": 2.033,
      "step": 1786
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4930683672428131,
      "learning_rate": 0.000599418745878178,
      "loss": 2.0952,
      "step": 1787
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5021100640296936,
      "learning_rate": 0.0005994180953703747,
      "loss": 2.1318,
      "step": 1788
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5100193023681641,
      "learning_rate": 0.0005994174444991217,
      "loss": 2.015,
      "step": 1789
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48660939931869507,
      "learning_rate": 0.0005994167932644203,
      "loss": 2.1268,
      "step": 1790
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49119529128074646,
      "learning_rate": 0.0005994161416662708,
      "loss": 2.0598,
      "step": 1791
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5104517340660095,
      "learning_rate": 0.0005994154897046744,
      "loss": 2.0375,
      "step": 1792
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4885219931602478,
      "learning_rate": 0.0005994148373796316,
      "loss": 2.1711,
      "step": 1793
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5025535821914673,
      "learning_rate": 0.0005994141846911434,
      "loss": 2.0644,
      "step": 1794
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4985889196395874,
      "learning_rate": 0.0005994135316392103,
      "loss": 2.0783,
      "step": 1795
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4966370165348053,
      "learning_rate": 0.0005994128782238335,
      "loss": 2.0886,
      "step": 1796
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49317675828933716,
      "learning_rate": 0.0005994122244450136,
      "loss": 2.0993,
      "step": 1797
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.508549690246582,
      "learning_rate": 0.0005994115703027512,
      "loss": 2.072,
      "step": 1798
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49498996138572693,
      "learning_rate": 0.0005994109157970473,
      "loss": 2.0805,
      "step": 1799
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5021207332611084,
      "learning_rate": 0.0005994102609279029,
      "loss": 2.1003,
      "step": 1800
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.512460470199585,
      "learning_rate": 0.0005994096056953182,
      "loss": 2.0815,
      "step": 1801
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.487252414226532,
      "learning_rate": 0.0005994089500992947,
      "loss": 2.0371,
      "step": 1802
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48931390047073364,
      "learning_rate": 0.0005994082941398326,
      "loss": 2.012,
      "step": 1803
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5127768516540527,
      "learning_rate": 0.0005994076378169331,
      "loss": 2.1032,
      "step": 1804
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5342350602149963,
      "learning_rate": 0.0005994069811305967,
      "loss": 2.0897,
      "step": 1805
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4829501211643219,
      "learning_rate": 0.0005994063240808244,
      "loss": 2.1288,
      "step": 1806
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5121124982833862,
      "learning_rate": 0.000599405666667617,
      "loss": 2.0712,
      "step": 1807
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5495009422302246,
      "learning_rate": 0.0005994050088909751,
      "loss": 2.0999,
      "step": 1808
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.492702841758728,
      "learning_rate": 0.0005994043507508998,
      "loss": 2.1454,
      "step": 1809
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47489967942237854,
      "learning_rate": 0.0005994036922473916,
      "loss": 2.0562,
      "step": 1810
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5003524422645569,
      "learning_rate": 0.0005994030333804515,
      "loss": 2.1018,
      "step": 1811
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.517733097076416,
      "learning_rate": 0.0005994023741500802,
      "loss": 2.0116,
      "step": 1812
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5027915835380554,
      "learning_rate": 0.0005994017145562786,
      "loss": 2.0926,
      "step": 1813
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4973122477531433,
      "learning_rate": 0.0005994010545990473,
      "loss": 2.1597,
      "step": 1814
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5273012518882751,
      "learning_rate": 0.0005994003942783874,
      "loss": 2.0586,
      "step": 1815
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.45854079723358154,
      "learning_rate": 0.0005993997335942995,
      "loss": 1.9902,
      "step": 1816
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4851674735546112,
      "learning_rate": 0.0005993990725467844,
      "loss": 1.9798,
      "step": 1817
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47542938590049744,
      "learning_rate": 0.0005993984111358428,
      "loss": 2.0839,
      "step": 1818
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48821043968200684,
      "learning_rate": 0.0005993977493614759,
      "loss": 2.1017,
      "step": 1819
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5037709474563599,
      "learning_rate": 0.0005993970872236841,
      "loss": 2.098,
      "step": 1820
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5663684606552124,
      "learning_rate": 0.0005993964247224684,
      "loss": 2.1103,
      "step": 1821
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4846193492412567,
      "learning_rate": 0.0005993957618578295,
      "loss": 2.0822,
      "step": 1822
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4808957874774933,
      "learning_rate": 0.0005993950986297684,
      "loss": 2.0673,
      "step": 1823
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5268735289573669,
      "learning_rate": 0.0005993944350382855,
      "loss": 2.0611,
      "step": 1824
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47772616147994995,
      "learning_rate": 0.0005993937710833821,
      "loss": 2.0772,
      "step": 1825
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4911404252052307,
      "learning_rate": 0.0005993931067650586,
      "loss": 2.0021,
      "step": 1826
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4916398227214813,
      "learning_rate": 0.0005993924420833162,
      "loss": 2.0815,
      "step": 1827
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4813215732574463,
      "learning_rate": 0.0005993917770381553,
      "loss": 2.0423,
      "step": 1828
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49049943685531616,
      "learning_rate": 0.000599391111629577,
      "loss": 2.0552,
      "step": 1829
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.502431333065033,
      "learning_rate": 0.000599390445857582,
      "loss": 2.1069,
      "step": 1830
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47816580533981323,
      "learning_rate": 0.000599389779722171,
      "loss": 2.0488,
      "step": 1831
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4835701286792755,
      "learning_rate": 0.0005993891132233451,
      "loss": 2.0995,
      "step": 1832
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4923000931739807,
      "learning_rate": 0.0005993884463611047,
      "loss": 2.1225,
      "step": 1833
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4980507791042328,
      "learning_rate": 0.000599387779135451,
      "loss": 2.0974,
      "step": 1834
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5215215682983398,
      "learning_rate": 0.0005993871115463846,
      "loss": 2.1052,
      "step": 1835
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4909190833568573,
      "learning_rate": 0.0005993864435939064,
      "loss": 2.0272,
      "step": 1836
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48108115792274475,
      "learning_rate": 0.0005993857752780172,
      "loss": 2.0875,
      "step": 1837
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5112154483795166,
      "learning_rate": 0.0005993851065987177,
      "loss": 2.0807,
      "step": 1838
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4933176040649414,
      "learning_rate": 0.0005993844375560088,
      "loss": 2.1242,
      "step": 1839
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5104843378067017,
      "learning_rate": 0.0005993837681498913,
      "loss": 2.1408,
      "step": 1840
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49509918689727783,
      "learning_rate": 0.0005993830983803661,
      "loss": 2.036,
      "step": 1841
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48914554715156555,
      "learning_rate": 0.0005993824282474338,
      "loss": 2.0648,
      "step": 1842
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.547258734703064,
      "learning_rate": 0.0005993817577510954,
      "loss": 2.1118,
      "step": 1843
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5402616858482361,
      "learning_rate": 0.0005993810868913517,
      "loss": 2.0309,
      "step": 1844
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4939388632774353,
      "learning_rate": 0.0005993804156682035,
      "loss": 2.0754,
      "step": 1845
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5140371322631836,
      "learning_rate": 0.0005993797440816515,
      "loss": 2.0515,
      "step": 1846
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5141245126724243,
      "learning_rate": 0.0005993790721316966,
      "loss": 2.0604,
      "step": 1847
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4917767643928528,
      "learning_rate": 0.0005993783998183398,
      "loss": 2.0839,
      "step": 1848
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5134466290473938,
      "learning_rate": 0.0005993777271415814,
      "loss": 2.0156,
      "step": 1849
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4982454180717468,
      "learning_rate": 0.0005993770541014229,
      "loss": 2.0052,
      "step": 1850
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48397207260131836,
      "learning_rate": 0.0005993763806978646,
      "loss": 2.0048,
      "step": 1851
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5185810923576355,
      "learning_rate": 0.0005993757069309074,
      "loss": 2.1354,
      "step": 1852
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.502518892288208,
      "learning_rate": 0.0005993750328005524,
      "loss": 2.0797,
      "step": 1853
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4966125190258026,
      "learning_rate": 0.0005993743583068001,
      "loss": 2.1218,
      "step": 1854
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.501128613948822,
      "learning_rate": 0.0005993736834496514,
      "loss": 2.0559,
      "step": 1855
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5104759335517883,
      "learning_rate": 0.0005993730082291072,
      "loss": 2.0538,
      "step": 1856
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4936419725418091,
      "learning_rate": 0.0005993723326451683,
      "loss": 2.1396,
      "step": 1857
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.487796425819397,
      "learning_rate": 0.0005993716566978356,
      "loss": 2.061,
      "step": 1858
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5198827981948853,
      "learning_rate": 0.0005993709803871096,
      "loss": 2.0797,
      "step": 1859
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4935835301876068,
      "learning_rate": 0.0005993703037129915,
      "loss": 2.093,
      "step": 1860
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.516901969909668,
      "learning_rate": 0.0005993696266754819,
      "loss": 2.1026,
      "step": 1861
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49875739216804504,
      "learning_rate": 0.0005993689492745817,
      "loss": 2.0799,
      "step": 1862
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49759113788604736,
      "learning_rate": 0.0005993682715102917,
      "loss": 2.0609,
      "step": 1863
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4946669042110443,
      "learning_rate": 0.0005993675933826127,
      "loss": 2.0844,
      "step": 1864
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47319912910461426,
      "learning_rate": 0.0005993669148915456,
      "loss": 2.0036,
      "step": 1865
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4845854640007019,
      "learning_rate": 0.0005993662360370912,
      "loss": 2.0829,
      "step": 1866
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49038732051849365,
      "learning_rate": 0.0005993655568192502,
      "loss": 1.9874,
      "step": 1867
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.499163419008255,
      "learning_rate": 0.0005993648772380236,
      "loss": 2.1955,
      "step": 1868
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4981425702571869,
      "learning_rate": 0.0005993641972934121,
      "loss": 2.1201,
      "step": 1869
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4973401129245758,
      "learning_rate": 0.0005993635169854166,
      "loss": 2.0147,
      "step": 1870
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5074312686920166,
      "learning_rate": 0.000599362836314038,
      "loss": 2.1253,
      "step": 1871
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48452213406562805,
      "learning_rate": 0.0005993621552792768,
      "loss": 2.0219,
      "step": 1872
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49750232696533203,
      "learning_rate": 0.0005993614738811342,
      "loss": 2.0868,
      "step": 1873
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4925052523612976,
      "learning_rate": 0.0005993607921196109,
      "loss": 2.1638,
      "step": 1874
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48144543170928955,
      "learning_rate": 0.0005993601099947076,
      "loss": 2.0686,
      "step": 1875
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49516940116882324,
      "learning_rate": 0.0005993594275064254,
      "loss": 2.1156,
      "step": 1876
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5083383917808533,
      "learning_rate": 0.0005993587446547647,
      "loss": 2.0993,
      "step": 1877
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5029248595237732,
      "learning_rate": 0.0005993580614397269,
      "loss": 2.0946,
      "step": 1878
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5087209939956665,
      "learning_rate": 0.0005993573778613123,
      "loss": 2.0538,
      "step": 1879
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5098389387130737,
      "learning_rate": 0.0005993566939195221,
      "loss": 2.0635,
      "step": 1880
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5065131187438965,
      "learning_rate": 0.0005993560096143569,
      "loss": 2.0521,
      "step": 1881
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5014896988868713,
      "learning_rate": 0.0005993553249458175,
      "loss": 2.1177,
      "step": 1882
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5209885239601135,
      "learning_rate": 0.000599354639913905,
      "loss": 2.0714,
      "step": 1883
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5021160840988159,
      "learning_rate": 0.0005993539545186201,
      "loss": 2.0533,
      "step": 1884
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5186029076576233,
      "learning_rate": 0.0005993532687599636,
      "loss": 2.0436,
      "step": 1885
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.50450199842453,
      "learning_rate": 0.0005993525826379363,
      "loss": 2.0999,
      "step": 1886
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48682311177253723,
      "learning_rate": 0.000599351896152539,
      "loss": 2.0274,
      "step": 1887
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5288524627685547,
      "learning_rate": 0.0005993512093037727,
      "loss": 2.054,
      "step": 1888
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5442003607749939,
      "learning_rate": 0.0005993505220916381,
      "loss": 2.0705,
      "step": 1889
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48448994755744934,
      "learning_rate": 0.0005993498345161361,
      "loss": 2.052,
      "step": 1890
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.508652925491333,
      "learning_rate": 0.0005993491465772675,
      "loss": 2.0577,
      "step": 1891
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49530887603759766,
      "learning_rate": 0.000599348458275033,
      "loss": 2.0336,
      "step": 1892
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.485230416059494,
      "learning_rate": 0.0005993477696094338,
      "loss": 2.0324,
      "step": 1893
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49169376492500305,
      "learning_rate": 0.0005993470805804703,
      "loss": 2.0704,
      "step": 1894
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.501300573348999,
      "learning_rate": 0.0005993463911881438,
      "loss": 2.0658,
      "step": 1895
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5040335655212402,
      "learning_rate": 0.0005993457014324547,
      "loss": 2.0929,
      "step": 1896
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4803130626678467,
      "learning_rate": 0.0005993450113134041,
      "loss": 2.0267,
      "step": 1897
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5054587721824646,
      "learning_rate": 0.0005993443208309928,
      "loss": 2.1717,
      "step": 1898
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5839106440544128,
      "learning_rate": 0.0005993436299852214,
      "loss": 2.0844,
      "step": 1899
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5084758400917053,
      "learning_rate": 0.0005993429387760913,
      "loss": 2.0403,
      "step": 1900
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5023441910743713,
      "learning_rate": 0.0005993422472036026,
      "loss": 2.0124,
      "step": 1901
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4926312565803528,
      "learning_rate": 0.0005993415552677568,
      "loss": 2.0721,
      "step": 1902
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5275788903236389,
      "learning_rate": 0.0005993408629685543,
      "loss": 2.1108,
      "step": 1903
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4945870339870453,
      "learning_rate": 0.0005993401703059962,
      "loss": 2.0511,
      "step": 1904
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.497417151927948,
      "learning_rate": 0.0005993394772800831,
      "loss": 2.0535,
      "step": 1905
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5278932452201843,
      "learning_rate": 0.0005993387838908161,
      "loss": 2.144,
      "step": 1906
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5059336423873901,
      "learning_rate": 0.0005993380901381959,
      "loss": 2.0914,
      "step": 1907
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5322759747505188,
      "learning_rate": 0.0005993373960222233,
      "loss": 2.1976,
      "step": 1908
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4841112494468689,
      "learning_rate": 0.0005993367015428992,
      "loss": 2.0237,
      "step": 1909
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4833528697490692,
      "learning_rate": 0.0005993360067002246,
      "loss": 2.0889,
      "step": 1910
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5379543304443359,
      "learning_rate": 0.0005993353114942001,
      "loss": 2.1657,
      "step": 1911
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5005047917366028,
      "learning_rate": 0.0005993346159248266,
      "loss": 2.072,
      "step": 1912
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5225033164024353,
      "learning_rate": 0.000599333919992105,
      "loss": 2.1822,
      "step": 1913
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4841325283050537,
      "learning_rate": 0.0005993332236960362,
      "loss": 2.1369,
      "step": 1914
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48794859647750854,
      "learning_rate": 0.0005993325270366209,
      "loss": 2.1078,
      "step": 1915
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.500224769115448,
      "learning_rate": 0.00059933183001386,
      "loss": 2.06,
      "step": 1916
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.486905574798584,
      "learning_rate": 0.0005993311326277544,
      "loss": 2.0653,
      "step": 1917
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4793369770050049,
      "learning_rate": 0.0005993304348783049,
      "loss": 2.0604,
      "step": 1918
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.490020215511322,
      "learning_rate": 0.0005993297367655123,
      "loss": 2.0081,
      "step": 1919
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.511803388595581,
      "learning_rate": 0.0005993290382893776,
      "loss": 2.0703,
      "step": 1920
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4756801128387451,
      "learning_rate": 0.0005993283394499016,
      "loss": 2.0568,
      "step": 1921
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4866655766963959,
      "learning_rate": 0.0005993276402470849,
      "loss": 2.0381,
      "step": 1922
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5111775398254395,
      "learning_rate": 0.0005993269406809287,
      "loss": 2.0854,
      "step": 1923
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5004279613494873,
      "learning_rate": 0.0005993262407514336,
      "loss": 2.0318,
      "step": 1924
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.484056681394577,
      "learning_rate": 0.0005993255404586007,
      "loss": 1.9482,
      "step": 1925
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5056121349334717,
      "learning_rate": 0.0005993248398024305,
      "loss": 2.0863,
      "step": 1926
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4936388432979584,
      "learning_rate": 0.0005993241387829242,
      "loss": 2.0719,
      "step": 1927
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4830998480319977,
      "learning_rate": 0.0005993234374000824,
      "loss": 2.0371,
      "step": 1928
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47768837213516235,
      "learning_rate": 0.0005993227356539062,
      "loss": 2.0384,
      "step": 1929
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4963807463645935,
      "learning_rate": 0.0005993220335443962,
      "loss": 2.12,
      "step": 1930
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5296173691749573,
      "learning_rate": 0.0005993213310715533,
      "loss": 2.0406,
      "step": 1931
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4983242154121399,
      "learning_rate": 0.0005993206282353785,
      "loss": 2.0983,
      "step": 1932
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5101084113121033,
      "learning_rate": 0.0005993199250358724,
      "loss": 2.0612,
      "step": 1933
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49719446897506714,
      "learning_rate": 0.0005993192214730362,
      "loss": 2.1311,
      "step": 1934
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5007452964782715,
      "learning_rate": 0.0005993185175468705,
      "loss": 2.0677,
      "step": 1935
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.513878345489502,
      "learning_rate": 0.0005993178132573762,
      "loss": 2.0723,
      "step": 1936
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5137979984283447,
      "learning_rate": 0.0005993171086045543,
      "loss": 2.1335,
      "step": 1937
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4999918043613434,
      "learning_rate": 0.0005993164035884053,
      "loss": 2.1163,
      "step": 1938
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5065720081329346,
      "learning_rate": 0.0005993156982089306,
      "loss": 2.0097,
      "step": 1939
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5246130228042603,
      "learning_rate": 0.0005993149924661304,
      "loss": 2.0151,
      "step": 1940
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4887925684452057,
      "learning_rate": 0.0005993142863600061,
      "loss": 1.9652,
      "step": 1941
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.507949948310852,
      "learning_rate": 0.0005993135798905584,
      "loss": 2.0904,
      "step": 1942
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49498414993286133,
      "learning_rate": 0.000599312873057788,
      "loss": 2.0099,
      "step": 1943
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.47160646319389343,
      "learning_rate": 0.000599312165861696,
      "loss": 2.0128,
      "step": 1944
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4909095764160156,
      "learning_rate": 0.000599311458302283,
      "loss": 2.008,
      "step": 1945
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48672497272491455,
      "learning_rate": 0.0005993107503795501,
      "loss": 2.0128,
      "step": 1946
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5224091410636902,
      "learning_rate": 0.000599310042093498,
      "loss": 2.0482,
      "step": 1947
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5030320286750793,
      "learning_rate": 0.0005993093334441276,
      "loss": 2.047,
      "step": 1948
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5428983569145203,
      "learning_rate": 0.0005993086244314397,
      "loss": 2.1246,
      "step": 1949
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.526210606098175,
      "learning_rate": 0.0005993079150554353,
      "loss": 2.177,
      "step": 1950
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5360022783279419,
      "learning_rate": 0.0005993072053161152,
      "loss": 2.0378,
      "step": 1951
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5462069511413574,
      "learning_rate": 0.0005993064952134803,
      "loss": 2.1255,
      "step": 1952
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4979858696460724,
      "learning_rate": 0.0005993057847475312,
      "loss": 1.9919,
      "step": 1953
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5979770421981812,
      "learning_rate": 0.0005993050739182692,
      "loss": 2.1556,
      "step": 1954
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5352436900138855,
      "learning_rate": 0.0005993043627256949,
      "loss": 2.0311,
      "step": 1955
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4936315417289734,
      "learning_rate": 0.0005993036511698092,
      "loss": 2.044,
      "step": 1956
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5306017994880676,
      "learning_rate": 0.000599302939250613,
      "loss": 1.9878,
      "step": 1957
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5087345242500305,
      "learning_rate": 0.0005993022269681071,
      "loss": 2.0954,
      "step": 1958
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48288998007774353,
      "learning_rate": 0.0005993015143222924,
      "loss": 1.9558,
      "step": 1959
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5366787314414978,
      "learning_rate": 0.0005993008013131697,
      "loss": 2.1085,
      "step": 1960
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5195428133010864,
      "learning_rate": 0.00059930008794074,
      "loss": 2.0655,
      "step": 1961
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5102314352989197,
      "learning_rate": 0.0005992993742050041,
      "loss": 2.0706,
      "step": 1962
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5129368901252747,
      "learning_rate": 0.0005992986601059628,
      "loss": 2.0287,
      "step": 1963
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4660797715187073,
      "learning_rate": 0.0005992979456436171,
      "loss": 1.9843,
      "step": 1964
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4961811900138855,
      "learning_rate": 0.0005992972308179676,
      "loss": 2.1109,
      "step": 1965
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5326012372970581,
      "learning_rate": 0.0005992965156290155,
      "loss": 2.1129,
      "step": 1966
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47162219882011414,
      "learning_rate": 0.0005992958000767616,
      "loss": 2.0438,
      "step": 1967
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48440515995025635,
      "learning_rate": 0.0005992950841612067,
      "loss": 2.0031,
      "step": 1968
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4950414001941681,
      "learning_rate": 0.0005992943678823515,
      "loss": 1.9975,
      "step": 1969
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.511107861995697,
      "learning_rate": 0.0005992936512401972,
      "loss": 2.1914,
      "step": 1970
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4882088303565979,
      "learning_rate": 0.0005992929342347444,
      "loss": 2.0135,
      "step": 1971
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46929726004600525,
      "learning_rate": 0.0005992922168659941,
      "loss": 2.0747,
      "step": 1972
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5017640590667725,
      "learning_rate": 0.0005992914991339472,
      "loss": 2.0667,
      "step": 1973
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4886489510536194,
      "learning_rate": 0.0005992907810386044,
      "loss": 2.0478,
      "step": 1974
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5080724358558655,
      "learning_rate": 0.0005992900625799669,
      "loss": 2.0713,
      "step": 1975
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4835126996040344,
      "learning_rate": 0.0005992893437580352,
      "loss": 2.0021,
      "step": 1976
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5132929086685181,
      "learning_rate": 0.0005992886245728104,
      "loss": 2.0181,
      "step": 1977
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4893377721309662,
      "learning_rate": 0.0005992879050242931,
      "loss": 1.9762,
      "step": 1978
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48216190934181213,
      "learning_rate": 0.0005992871851124847,
      "loss": 2.1103,
      "step": 1979
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5014403462409973,
      "learning_rate": 0.0005992864648373856,
      "loss": 2.0678,
      "step": 1980
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48489153385162354,
      "learning_rate": 0.0005992857441989969,
      "loss": 1.9919,
      "step": 1981
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46640387177467346,
      "learning_rate": 0.0005992850231973194,
      "loss": 2.0197,
      "step": 1982
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48925766348838806,
      "learning_rate": 0.0005992843018323539,
      "loss": 2.0009,
      "step": 1983
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4807981550693512,
      "learning_rate": 0.0005992835801041013,
      "loss": 2.0507,
      "step": 1984
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48872900009155273,
      "learning_rate": 0.0005992828580125626,
      "loss": 2.0253,
      "step": 1985
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47567304968833923,
      "learning_rate": 0.0005992821355577387,
      "loss": 2.0637,
      "step": 1986
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47508707642555237,
      "learning_rate": 0.0005992814127396302,
      "loss": 2.0358,
      "step": 1987
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48757633566856384,
      "learning_rate": 0.0005992806895582383,
      "loss": 2.1044,
      "step": 1988
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4808861017227173,
      "learning_rate": 0.0005992799660135637,
      "loss": 2.009,
      "step": 1989
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4848019778728485,
      "learning_rate": 0.0005992792421056074,
      "loss": 1.9686,
      "step": 1990
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4792124629020691,
      "learning_rate": 0.0005992785178343701,
      "loss": 1.9965,
      "step": 1991
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5150204300880432,
      "learning_rate": 0.0005992777931998528,
      "loss": 2.0317,
      "step": 1992
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5187709927558899,
      "learning_rate": 0.0005992770682020564,
      "loss": 2.1355,
      "step": 1993
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4843039810657501,
      "learning_rate": 0.0005992763428409816,
      "loss": 2.0816,
      "step": 1994
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49457457661628723,
      "learning_rate": 0.0005992756171166295,
      "loss": 2.0712,
      "step": 1995
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4823739528656006,
      "learning_rate": 0.0005992748910290009,
      "loss": 2.0477,
      "step": 1996
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47697004675865173,
      "learning_rate": 0.0005992741645780967,
      "loss": 2.0684,
      "step": 1997
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48547282814979553,
      "learning_rate": 0.0005992734377639178,
      "loss": 2.0391,
      "step": 1998
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.484221488237381,
      "learning_rate": 0.000599272710586465,
      "loss": 2.0616,
      "step": 1999
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4922955334186554,
      "learning_rate": 0.0005992719830457392,
      "loss": 2.0448,
      "step": 2000
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4877919554710388,
      "learning_rate": 0.0005992712551417414,
      "loss": 2.0296,
      "step": 2001
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48349931836128235,
      "learning_rate": 0.0005992705268744722,
      "loss": 1.9703,
      "step": 2002
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4931706488132477,
      "learning_rate": 0.0005992697982439328,
      "loss": 2.0978,
      "step": 2003
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4995599687099457,
      "learning_rate": 0.0005992690692501239,
      "loss": 2.021,
      "step": 2004
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4815528690814972,
      "learning_rate": 0.0005992683398930466,
      "loss": 2.0829,
      "step": 2005
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4887198507785797,
      "learning_rate": 0.0005992676101727014,
      "loss": 2.0057,
      "step": 2006
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4854414761066437,
      "learning_rate": 0.0005992668800890896,
      "loss": 2.0034,
      "step": 2007
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4812626838684082,
      "learning_rate": 0.0005992661496422118,
      "loss": 2.0395,
      "step": 2008
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5079806447029114,
      "learning_rate": 0.000599265418832069,
      "loss": 2.0752,
      "step": 2009
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47985050082206726,
      "learning_rate": 0.0005992646876586622,
      "loss": 1.9899,
      "step": 2010
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4950825572013855,
      "learning_rate": 0.0005992639561219921,
      "loss": 2.1173,
      "step": 2011
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49371737241744995,
      "learning_rate": 0.0005992632242220596,
      "loss": 2.1067,
      "step": 2012
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.478568434715271,
      "learning_rate": 0.0005992624919588656,
      "loss": 2.0522,
      "step": 2013
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4847866892814636,
      "learning_rate": 0.0005992617593324111,
      "loss": 2.1642,
      "step": 2014
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4833560287952423,
      "learning_rate": 0.0005992610263426969,
      "loss": 2.083,
      "step": 2015
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48416343331336975,
      "learning_rate": 0.000599260292989724,
      "loss": 2.0971,
      "step": 2016
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.486281156539917,
      "learning_rate": 0.0005992595592734931,
      "loss": 2.0597,
      "step": 2017
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4783433675765991,
      "learning_rate": 0.0005992588251940051,
      "loss": 2.0379,
      "step": 2018
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4980171322822571,
      "learning_rate": 0.0005992580907512612,
      "loss": 2.1476,
      "step": 2019
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48553791642189026,
      "learning_rate": 0.0005992573559452619,
      "loss": 2.111,
      "step": 2020
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5079394578933716,
      "learning_rate": 0.0005992566207760083,
      "loss": 2.1067,
      "step": 2021
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48821771144866943,
      "learning_rate": 0.0005992558852435013,
      "loss": 2.0647,
      "step": 2022
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5037851929664612,
      "learning_rate": 0.0005992551493477418,
      "loss": 2.1089,
      "step": 2023
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4801023602485657,
      "learning_rate": 0.0005992544130887305,
      "loss": 1.9923,
      "step": 2024
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4889361560344696,
      "learning_rate": 0.0005992536764664685,
      "loss": 2.0707,
      "step": 2025
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4828108251094818,
      "learning_rate": 0.0005992529394809566,
      "loss": 2.0996,
      "step": 2026
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4905172288417816,
      "learning_rate": 0.0005992522021321957,
      "loss": 2.0787,
      "step": 2027
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4863092601299286,
      "learning_rate": 0.0005992514644201868,
      "loss": 2.0462,
      "step": 2028
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47741571068763733,
      "learning_rate": 0.0005992507263449307,
      "loss": 2.0253,
      "step": 2029
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4956866502761841,
      "learning_rate": 0.0005992499879064284,
      "loss": 2.0248,
      "step": 2030
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4887841045856476,
      "learning_rate": 0.0005992492491046806,
      "loss": 2.0555,
      "step": 2031
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4707121253013611,
      "learning_rate": 0.0005992485099396883,
      "loss": 2.0454,
      "step": 2032
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5048136115074158,
      "learning_rate": 0.0005992477704114524,
      "loss": 2.0926,
      "step": 2033
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4968840479850769,
      "learning_rate": 0.0005992470305199738,
      "loss": 2.1375,
      "step": 2034
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48920854926109314,
      "learning_rate": 0.0005992462902652533,
      "loss": 2.0155,
      "step": 2035
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5240775346755981,
      "learning_rate": 0.0005992455496472922,
      "loss": 2.1395,
      "step": 2036
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4700902998447418,
      "learning_rate": 0.0005992448086660908,
      "loss": 2.052,
      "step": 2037
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48869433999061584,
      "learning_rate": 0.0005992440673216504,
      "loss": 2.0789,
      "step": 2038
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5035576820373535,
      "learning_rate": 0.0005992433256139717,
      "loss": 2.0715,
      "step": 2039
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4867147207260132,
      "learning_rate": 0.0005992425835430558,
      "loss": 2.0956,
      "step": 2040
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4935513734817505,
      "learning_rate": 0.0005992418411089035,
      "loss": 1.9991,
      "step": 2041
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49912121891975403,
      "learning_rate": 0.0005992410983115158,
      "loss": 2.0265,
      "step": 2042
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4715449810028076,
      "learning_rate": 0.0005992403551508933,
      "loss": 2.0648,
      "step": 2043
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49130257964134216,
      "learning_rate": 0.0005992396116270372,
      "loss": 2.0428,
      "step": 2044
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4739994704723358,
      "learning_rate": 0.0005992388677399481,
      "loss": 2.051,
      "step": 2045
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48662593960762024,
      "learning_rate": 0.0005992381234896274,
      "loss": 2.0268,
      "step": 2046
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4950896203517914,
      "learning_rate": 0.0005992373788760756,
      "loss": 2.106,
      "step": 2047
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48852360248565674,
      "learning_rate": 0.0005992366338992937,
      "loss": 2.0892,
      "step": 2048
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47568148374557495,
      "learning_rate": 0.0005992358885592825,
      "loss": 2.0028,
      "step": 2049
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5160146355628967,
      "learning_rate": 0.0005992351428560432,
      "loss": 2.1082,
      "step": 2050
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47205406427383423,
      "learning_rate": 0.0005992343967895765,
      "loss": 2.0753,
      "step": 2051
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5042465329170227,
      "learning_rate": 0.0005992336503598833,
      "loss": 2.1057,
      "step": 2052
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49922052025794983,
      "learning_rate": 0.0005992329035669645,
      "loss": 2.0677,
      "step": 2053
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4991268217563629,
      "learning_rate": 0.000599232156410821,
      "loss": 2.07,
      "step": 2054
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49050962924957275,
      "learning_rate": 0.0005992314088914539,
      "loss": 2.0039,
      "step": 2055
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5070292353630066,
      "learning_rate": 0.0005992306610088639,
      "loss": 2.0262,
      "step": 2056
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4844938814640045,
      "learning_rate": 0.0005992299127630519,
      "loss": 2.0592,
      "step": 2057
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4913065433502197,
      "learning_rate": 0.000599229164154019,
      "loss": 2.0965,
      "step": 2058
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5064153075218201,
      "learning_rate": 0.000599228415181766,
      "loss": 2.1348,
      "step": 2059
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48780113458633423,
      "learning_rate": 0.0005992276658462936,
      "loss": 2.0268,
      "step": 2060
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4749669134616852,
      "learning_rate": 0.0005992269161476031,
      "loss": 2.0469,
      "step": 2061
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5050814151763916,
      "learning_rate": 0.0005992261660856951,
      "loss": 2.1556,
      "step": 2062
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49240919947624207,
      "learning_rate": 0.0005992254156605705,
      "loss": 2.0691,
      "step": 2063
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4921538233757019,
      "learning_rate": 0.0005992246648722306,
      "loss": 2.0642,
      "step": 2064
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48818036913871765,
      "learning_rate": 0.0005992239137206759,
      "loss": 2.0234,
      "step": 2065
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4958321750164032,
      "learning_rate": 0.0005992231622059075,
      "loss": 2.143,
      "step": 2066
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46722763776779175,
      "learning_rate": 0.0005992224103279262,
      "loss": 2.0394,
      "step": 2067
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46893322467803955,
      "learning_rate": 0.0005992216580867332,
      "loss": 2.0628,
      "step": 2068
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4856874942779541,
      "learning_rate": 0.0005992209054823289,
      "loss": 2.1082,
      "step": 2069
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49028679728507996,
      "learning_rate": 0.0005992201525147146,
      "loss": 2.0615,
      "step": 2070
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48574817180633545,
      "learning_rate": 0.0005992193991838912,
      "loss": 2.0283,
      "step": 2071
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4891287088394165,
      "learning_rate": 0.0005992186454898596,
      "loss": 2.1224,
      "step": 2072
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5086154937744141,
      "learning_rate": 0.0005992178914326205,
      "loss": 2.0875,
      "step": 2073
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.477420836687088,
      "learning_rate": 0.000599217137012175,
      "loss": 2.022,
      "step": 2074
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4817391037940979,
      "learning_rate": 0.0005992163822285241,
      "loss": 2.0885,
      "step": 2075
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48142629861831665,
      "learning_rate": 0.0005992156270816684,
      "loss": 2.0806,
      "step": 2076
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49193522334098816,
      "learning_rate": 0.0005992148715716092,
      "loss": 2.0858,
      "step": 2077
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5067138075828552,
      "learning_rate": 0.0005992141156983471,
      "loss": 2.0499,
      "step": 2078
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49345821142196655,
      "learning_rate": 0.0005992133594618831,
      "loss": 2.1012,
      "step": 2079
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4972468912601471,
      "learning_rate": 0.0005992126028622184,
      "loss": 1.9881,
      "step": 2080
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5209426283836365,
      "learning_rate": 0.0005992118458993535,
      "loss": 2.1156,
      "step": 2081
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5160136222839355,
      "learning_rate": 0.0005992110885732896,
      "loss": 2.0708,
      "step": 2082
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47289690375328064,
      "learning_rate": 0.0005992103308840275,
      "loss": 1.9981,
      "step": 2083
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.476007878780365,
      "learning_rate": 0.0005992095728315682,
      "loss": 2.0589,
      "step": 2084
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5018350481987,
      "learning_rate": 0.0005992088144159124,
      "loss": 2.0548,
      "step": 2085
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5042988061904907,
      "learning_rate": 0.0005992080556370613,
      "loss": 2.1166,
      "step": 2086
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48134565353393555,
      "learning_rate": 0.0005992072964950156,
      "loss": 1.9984,
      "step": 2087
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4967081844806671,
      "learning_rate": 0.0005992065369897766,
      "loss": 2.0419,
      "step": 2088
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.470079243183136,
      "learning_rate": 0.0005992057771213447,
      "loss": 1.9722,
      "step": 2089
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4848218858242035,
      "learning_rate": 0.0005992050168897212,
      "loss": 2.0553,
      "step": 2090
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48314762115478516,
      "learning_rate": 0.0005992042562949068,
      "loss": 2.0208,
      "step": 2091
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48217010498046875,
      "learning_rate": 0.0005992034953369025,
      "loss": 2.0726,
      "step": 2092
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4793184697628021,
      "learning_rate": 0.0005992027340157093,
      "loss": 2.0297,
      "step": 2093
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47585612535476685,
      "learning_rate": 0.0005992019723313281,
      "loss": 1.9763,
      "step": 2094
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49016863107681274,
      "learning_rate": 0.0005992012102837597,
      "loss": 1.9754,
      "step": 2095
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4900517761707306,
      "learning_rate": 0.0005992004478730052,
      "loss": 2.0197,
      "step": 2096
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4960598647594452,
      "learning_rate": 0.0005991996850990654,
      "loss": 2.0143,
      "step": 2097
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4889969825744629,
      "learning_rate": 0.0005991989219619414,
      "loss": 2.0832,
      "step": 2098
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5158100724220276,
      "learning_rate": 0.0005991981584616338,
      "loss": 2.091,
      "step": 2099
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5011035203933716,
      "learning_rate": 0.0005991973945981438,
      "loss": 1.9907,
      "step": 2100
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49363210797309875,
      "learning_rate": 0.0005991966303714722,
      "loss": 2.1034,
      "step": 2101
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5020764470100403,
      "learning_rate": 0.0005991958657816201,
      "loss": 2.0631,
      "step": 2102
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49204498529434204,
      "learning_rate": 0.0005991951008285882,
      "loss": 2.0932,
      "step": 2103
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.491178423166275,
      "learning_rate": 0.0005991943355123776,
      "loss": 2.0436,
      "step": 2104
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5106345415115356,
      "learning_rate": 0.0005991935698329891,
      "loss": 2.1096,
      "step": 2105
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47267547249794006,
      "learning_rate": 0.0005991928037904237,
      "loss": 2.0714,
      "step": 2106
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4773252308368683,
      "learning_rate": 0.0005991920373846823,
      "loss": 2.0615,
      "step": 2107
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.488144189119339,
      "learning_rate": 0.0005991912706157659,
      "loss": 2.0454,
      "step": 2108
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48550230264663696,
      "learning_rate": 0.0005991905034836753,
      "loss": 2.0153,
      "step": 2109
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4750380516052246,
      "learning_rate": 0.0005991897359884116,
      "loss": 2.0201,
      "step": 2110
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.476444274187088,
      "learning_rate": 0.0005991889681299756,
      "loss": 1.9641,
      "step": 2111
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4776536524295807,
      "learning_rate": 0.0005991881999083682,
      "loss": 1.9788,
      "step": 2112
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49732041358947754,
      "learning_rate": 0.0005991874313235906,
      "loss": 2.0416,
      "step": 2113
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47457483410835266,
      "learning_rate": 0.0005991866623756435,
      "loss": 2.0924,
      "step": 2114
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4776777923107147,
      "learning_rate": 0.0005991858930645277,
      "loss": 2.0619,
      "step": 2115
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47664156556129456,
      "learning_rate": 0.0005991851233902445,
      "loss": 2.042,
      "step": 2116
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.482052206993103,
      "learning_rate": 0.0005991843533527945,
      "loss": 2.0482,
      "step": 2117
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4823179244995117,
      "learning_rate": 0.0005991835829521788,
      "loss": 2.0468,
      "step": 2118
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.482232928276062,
      "learning_rate": 0.0005991828121883984,
      "loss": 1.9865,
      "step": 2119
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4770219624042511,
      "learning_rate": 0.0005991820410614541,
      "loss": 2.0898,
      "step": 2120
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4806298315525055,
      "learning_rate": 0.0005991812695713469,
      "loss": 2.0666,
      "step": 2121
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5154494643211365,
      "learning_rate": 0.0005991804977180777,
      "loss": 2.0029,
      "step": 2122
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4893631637096405,
      "learning_rate": 0.0005991797255016475,
      "loss": 2.0074,
      "step": 2123
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4860959053039551,
      "learning_rate": 0.0005991789529220571,
      "loss": 2.0644,
      "step": 2124
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5087869167327881,
      "learning_rate": 0.0005991781799793077,
      "loss": 2.0678,
      "step": 2125
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.500625729560852,
      "learning_rate": 0.0005991774066733999,
      "loss": 2.0428,
      "step": 2126
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48784658312797546,
      "learning_rate": 0.0005991766330043349,
      "loss": 1.9994,
      "step": 2127
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4883649945259094,
      "learning_rate": 0.0005991758589721136,
      "loss": 2.0217,
      "step": 2128
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48500460386276245,
      "learning_rate": 0.0005991750845767369,
      "loss": 2.0982,
      "step": 2129
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4749293327331543,
      "learning_rate": 0.0005991743098182054,
      "loss": 2.0776,
      "step": 2130
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5155300498008728,
      "learning_rate": 0.0005991735346965207,
      "loss": 2.0526,
      "step": 2131
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5098645687103271,
      "learning_rate": 0.0005991727592116834,
      "loss": 2.0504,
      "step": 2132
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4935227930545807,
      "learning_rate": 0.0005991719833636943,
      "loss": 2.0487,
      "step": 2133
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5276983380317688,
      "learning_rate": 0.0005991712071525546,
      "loss": 2.0664,
      "step": 2134
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49153321981430054,
      "learning_rate": 0.0005991704305782651,
      "loss": 2.019,
      "step": 2135
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5034400820732117,
      "learning_rate": 0.0005991696536408268,
      "loss": 2.0316,
      "step": 2136
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4896112084388733,
      "learning_rate": 0.0005991688763402406,
      "loss": 1.9583,
      "step": 2137
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4904089868068695,
      "learning_rate": 0.0005991680986765075,
      "loss": 1.9697,
      "step": 2138
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5059282183647156,
      "learning_rate": 0.0005991673206496283,
      "loss": 2.0396,
      "step": 2139
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5002946257591248,
      "learning_rate": 0.0005991665422596041,
      "loss": 2.0,
      "step": 2140
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4632492959499359,
      "learning_rate": 0.0005991657635064358,
      "loss": 1.9845,
      "step": 2141
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5152105689048767,
      "learning_rate": 0.0005991649843901244,
      "loss": 2.0725,
      "step": 2142
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4995923936367035,
      "learning_rate": 0.0005991642049106708,
      "loss": 1.9991,
      "step": 2143
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48062509298324585,
      "learning_rate": 0.0005991634250680759,
      "loss": 2.0911,
      "step": 2144
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5172891616821289,
      "learning_rate": 0.0005991626448623407,
      "loss": 2.0993,
      "step": 2145
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4727185368537903,
      "learning_rate": 0.0005991618642934661,
      "loss": 2.0113,
      "step": 2146
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47112199664115906,
      "learning_rate": 0.0005991610833614531,
      "loss": 2.0116,
      "step": 2147
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4918220639228821,
      "learning_rate": 0.0005991603020663026,
      "loss": 2.0171,
      "step": 2148
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49922826886177063,
      "learning_rate": 0.0005991595204080156,
      "loss": 2.0478,
      "step": 2149
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4966173768043518,
      "learning_rate": 0.000599158738386593,
      "loss": 2.0786,
      "step": 2150
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4732248783111572,
      "learning_rate": 0.0005991579560020357,
      "loss": 2.0837,
      "step": 2151
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4811183512210846,
      "learning_rate": 0.0005991571732543448,
      "loss": 2.0985,
      "step": 2152
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4728623628616333,
      "learning_rate": 0.0005991563901435212,
      "loss": 1.9583,
      "step": 2153
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49128440022468567,
      "learning_rate": 0.0005991556066695658,
      "loss": 2.0919,
      "step": 2154
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4769372344017029,
      "learning_rate": 0.0005991548228324795,
      "loss": 2.0202,
      "step": 2155
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4859567880630493,
      "learning_rate": 0.0005991540386322634,
      "loss": 1.9778,
      "step": 2156
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4895475208759308,
      "learning_rate": 0.0005991532540689184,
      "loss": 2.0168,
      "step": 2157
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48963138461112976,
      "learning_rate": 0.0005991524691424453,
      "loss": 2.0385,
      "step": 2158
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5091761946678162,
      "learning_rate": 0.0005991516838528453,
      "loss": 2.0146,
      "step": 2159
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48368212580680847,
      "learning_rate": 0.0005991508982001192,
      "loss": 2.0211,
      "step": 2160
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49141839146614075,
      "learning_rate": 0.000599150112184268,
      "loss": 1.995,
      "step": 2161
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49651390314102173,
      "learning_rate": 0.0005991493258052926,
      "loss": 2.0073,
      "step": 2162
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4774792194366455,
      "learning_rate": 0.000599148539063194,
      "loss": 1.988,
      "step": 2163
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46484237909317017,
      "learning_rate": 0.0005991477519579732,
      "loss": 2.0801,
      "step": 2164
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5023207068443298,
      "learning_rate": 0.000599146964489631,
      "loss": 2.1229,
      "step": 2165
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4749656021595001,
      "learning_rate": 0.0005991461766581686,
      "loss": 2.048,
      "step": 2166
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4909835457801819,
      "learning_rate": 0.0005991453884635867,
      "loss": 1.9587,
      "step": 2167
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4744422435760498,
      "learning_rate": 0.0005991445999058865,
      "loss": 2.1117,
      "step": 2168
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5050740242004395,
      "learning_rate": 0.0005991438109850687,
      "loss": 2.15,
      "step": 2169
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48172304034233093,
      "learning_rate": 0.0005991430217011346,
      "loss": 2.009,
      "step": 2170
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4989725351333618,
      "learning_rate": 0.0005991422320540847,
      "loss": 2.0368,
      "step": 2171
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49036839604377747,
      "learning_rate": 0.0005991414420439203,
      "loss": 2.1048,
      "step": 2172
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.479953408241272,
      "learning_rate": 0.0005991406516706423,
      "loss": 2.0732,
      "step": 2173
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4984561800956726,
      "learning_rate": 0.0005991398609342516,
      "loss": 2.1066,
      "step": 2174
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5082252621650696,
      "learning_rate": 0.0005991390698347493,
      "loss": 2.0584,
      "step": 2175
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4812586307525635,
      "learning_rate": 0.000599138278372136,
      "loss": 2.0324,
      "step": 2176
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4752393960952759,
      "learning_rate": 0.0005991374865464131,
      "loss": 2.0619,
      "step": 2177
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5106094479560852,
      "learning_rate": 0.0005991366943575812,
      "loss": 2.0783,
      "step": 2178
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.493729829788208,
      "learning_rate": 0.0005991359018056417,
      "loss": 1.9346,
      "step": 2179
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4745744466781616,
      "learning_rate": 0.000599135108890595,
      "loss": 2.0079,
      "step": 2180
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47907355427742004,
      "learning_rate": 0.0005991343156124424,
      "loss": 1.9882,
      "step": 2181
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5115938186645508,
      "learning_rate": 0.000599133521971185,
      "loss": 2.0129,
      "step": 2182
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48668622970581055,
      "learning_rate": 0.0005991327279668235,
      "loss": 1.9935,
      "step": 2183
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5220390558242798,
      "learning_rate": 0.0005991319335993589,
      "loss": 2.0344,
      "step": 2184
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5303446650505066,
      "learning_rate": 0.0005991311388687922,
      "loss": 2.01,
      "step": 2185
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.522487461566925,
      "learning_rate": 0.0005991303437751244,
      "loss": 2.0667,
      "step": 2186
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49899619817733765,
      "learning_rate": 0.0005991295483183564,
      "loss": 1.9786,
      "step": 2187
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.542476236820221,
      "learning_rate": 0.0005991287524984893,
      "loss": 2.1073,
      "step": 2188
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4849144220352173,
      "learning_rate": 0.0005991279563155239,
      "loss": 2.0907,
      "step": 2189
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5564144849777222,
      "learning_rate": 0.0005991271597694612,
      "loss": 2.1134,
      "step": 2190
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5346643924713135,
      "learning_rate": 0.0005991263628603023,
      "loss": 1.9938,
      "step": 2191
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5263531804084778,
      "learning_rate": 0.0005991255655880479,
      "loss": 2.0874,
      "step": 2192
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5623610019683838,
      "learning_rate": 0.0005991247679526994,
      "loss": 2.0244,
      "step": 2193
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4942325949668884,
      "learning_rate": 0.0005991239699542573,
      "loss": 2.0005,
      "step": 2194
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5173336863517761,
      "learning_rate": 0.0005991231715927228,
      "loss": 2.0303,
      "step": 2195
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5796046257019043,
      "learning_rate": 0.0005991223728680969,
      "loss": 2.0019,
      "step": 2196
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47558581829071045,
      "learning_rate": 0.0005991215737803805,
      "loss": 2.0254,
      "step": 2197
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5224186778068542,
      "learning_rate": 0.0005991207743295746,
      "loss": 2.0843,
      "step": 2198
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5467379689216614,
      "learning_rate": 0.00059911997451568,
      "loss": 2.0515,
      "step": 2199
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4888555705547333,
      "learning_rate": 0.000599119174338698,
      "loss": 1.9515,
      "step": 2200
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4761732816696167,
      "learning_rate": 0.0005991183737986295,
      "loss": 2.0744,
      "step": 2201
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.497464120388031,
      "learning_rate": 0.0005991175728954751,
      "loss": 2.0536,
      "step": 2202
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49832040071487427,
      "learning_rate": 0.0005991167716292361,
      "loss": 2.0611,
      "step": 2203
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5035380125045776,
      "learning_rate": 0.0005991159699999135,
      "loss": 2.0921,
      "step": 2204
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5187416672706604,
      "learning_rate": 0.0005991151680075082,
      "loss": 1.9587,
      "step": 2205
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4865235686302185,
      "learning_rate": 0.000599114365652021,
      "loss": 2.0271,
      "step": 2206
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47867661714553833,
      "learning_rate": 0.0005991135629334532,
      "loss": 2.0588,
      "step": 2207
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4915415644645691,
      "learning_rate": 0.0005991127598518056,
      "loss": 1.9608,
      "step": 2208
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4775552749633789,
      "learning_rate": 0.0005991119564070791,
      "loss": 1.9886,
      "step": 2209
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4974175989627838,
      "learning_rate": 0.0005991111525992748,
      "loss": 2.07,
      "step": 2210
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4984329640865326,
      "learning_rate": 0.0005991103484283936,
      "loss": 2.0745,
      "step": 2211
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4846624732017517,
      "learning_rate": 0.0005991095438944366,
      "loss": 2.0991,
      "step": 2212
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49009138345718384,
      "learning_rate": 0.0005991087389974045,
      "loss": 2.0191,
      "step": 2213
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4888421893119812,
      "learning_rate": 0.0005991079337372986,
      "loss": 1.9503,
      "step": 2214
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4704529047012329,
      "learning_rate": 0.0005991071281141197,
      "loss": 1.9652,
      "step": 2215
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.511012077331543,
      "learning_rate": 0.0005991063221278688,
      "loss": 1.9951,
      "step": 2216
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5065732598304749,
      "learning_rate": 0.000599105515778547,
      "loss": 2.1131,
      "step": 2217
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4901813864707947,
      "learning_rate": 0.0005991047090661551,
      "loss": 2.0983,
      "step": 2218
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5046327710151672,
      "learning_rate": 0.0005991039019906942,
      "loss": 2.0013,
      "step": 2219
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49089762568473816,
      "learning_rate": 0.0005991030945521651,
      "loss": 2.07,
      "step": 2220
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4889634847640991,
      "learning_rate": 0.000599102286750569,
      "loss": 2.0964,
      "step": 2221
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4989972710609436,
      "learning_rate": 0.0005991014785859068,
      "loss": 1.9051,
      "step": 2222
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5079706311225891,
      "learning_rate": 0.0005991006700581795,
      "loss": 2.0522,
      "step": 2223
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5054579973220825,
      "learning_rate": 0.000599099861167388,
      "loss": 2.0316,
      "step": 2224
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5309011340141296,
      "learning_rate": 0.0005990990519135333,
      "loss": 2.106,
      "step": 2225
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4764169156551361,
      "learning_rate": 0.0005990982422966166,
      "loss": 2.1121,
      "step": 2226
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5175553560256958,
      "learning_rate": 0.0005990974323166386,
      "loss": 2.1403,
      "step": 2227
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49076423048973083,
      "learning_rate": 0.0005990966219736004,
      "loss": 2.0429,
      "step": 2228
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4947423040866852,
      "learning_rate": 0.000599095811267503,
      "loss": 2.0501,
      "step": 2229
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4837590754032135,
      "learning_rate": 0.0005990950001983472,
      "loss": 2.047,
      "step": 2230
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4850423336029053,
      "learning_rate": 0.0005990941887661342,
      "loss": 1.941,
      "step": 2231
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46915698051452637,
      "learning_rate": 0.0005990933769708651,
      "loss": 2.0154,
      "step": 2232
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4918272793292999,
      "learning_rate": 0.0005990925648125406,
      "loss": 2.0071,
      "step": 2233
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48272982239723206,
      "learning_rate": 0.0005990917522911617,
      "loss": 2.0205,
      "step": 2234
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4856390357017517,
      "learning_rate": 0.0005990909394067296,
      "loss": 2.0373,
      "step": 2235
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48372992873191833,
      "learning_rate": 0.0005990901261592451,
      "loss": 2.0239,
      "step": 2236
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5091007947921753,
      "learning_rate": 0.0005990893125487093,
      "loss": 2.1054,
      "step": 2237
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49241557717323303,
      "learning_rate": 0.0005990884985751231,
      "loss": 2.0382,
      "step": 2238
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48114678263664246,
      "learning_rate": 0.0005990876842384876,
      "loss": 1.9994,
      "step": 2239
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46740660071372986,
      "learning_rate": 0.0005990868695388037,
      "loss": 1.988,
      "step": 2240
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49042823910713196,
      "learning_rate": 0.0005990860544760724,
      "loss": 2.0002,
      "step": 2241
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.49399760365486145,
      "learning_rate": 0.0005990852390502946,
      "loss": 2.0326,
      "step": 2242
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46319741010665894,
      "learning_rate": 0.0005990844232614715,
      "loss": 2.0459,
      "step": 2243
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4760192334651947,
      "learning_rate": 0.000599083607109604,
      "loss": 2.0653,
      "step": 2244
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4998999536037445,
      "learning_rate": 0.0005990827905946929,
      "loss": 2.0342,
      "step": 2245
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48391321301460266,
      "learning_rate": 0.0005990819737167395,
      "loss": 1.9803,
      "step": 2246
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4713882505893707,
      "learning_rate": 0.0005990811564757447,
      "loss": 2.0207,
      "step": 2247
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.48236069083213806,
      "learning_rate": 0.0005990803388717093,
      "loss": 2.0903,
      "step": 2248
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4927000105381012,
      "learning_rate": 0.0005990795209046345,
      "loss": 2.0159,
      "step": 2249
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4862443208694458,
      "learning_rate": 0.0005990787025745213,
      "loss": 2.0559,
      "step": 2250
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.47563114762306213,
      "learning_rate": 0.0005990778838813705,
      "loss": 1.963,
      "step": 2251
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4667547345161438,
      "learning_rate": 0.0005990770648251834,
      "loss": 2.0256,
      "step": 2252
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4925341308116913,
      "learning_rate": 0.0005990762454059607,
      "loss": 2.0073,
      "step": 2253
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.46876922249794006,
      "learning_rate": 0.0005990754256237034,
      "loss": 2.015,
      "step": 2254
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46143200993537903,
      "learning_rate": 0.0005990746054784127,
      "loss": 2.0271,
      "step": 2255
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4713895320892334,
      "learning_rate": 0.0005990737849700895,
      "loss": 1.9641,
      "step": 2256
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4813520610332489,
      "learning_rate": 0.0005990729640987347,
      "loss": 1.993,
      "step": 2257
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4888943135738373,
      "learning_rate": 0.0005990721428643496,
      "loss": 1.9803,
      "step": 2258
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.45527300238609314,
      "learning_rate": 0.0005990713212669348,
      "loss": 1.9719,
      "step": 2259
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4929504096508026,
      "learning_rate": 0.0005990704993064915,
      "loss": 1.9577,
      "step": 2260
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48675453662872314,
      "learning_rate": 0.0005990696769830208,
      "loss": 2.0648,
      "step": 2261
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48630785942077637,
      "learning_rate": 0.0005990688542965235,
      "loss": 2.0802,
      "step": 2262
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5108882784843445,
      "learning_rate": 0.0005990680312470007,
      "loss": 2.0452,
      "step": 2263
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4987577795982361,
      "learning_rate": 0.0005990672078344533,
      "loss": 2.0379,
      "step": 2264
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.45817720890045166,
      "learning_rate": 0.0005990663840588823,
      "loss": 1.9355,
      "step": 2265
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4774691164493561,
      "learning_rate": 0.000599065559920289,
      "loss": 2.0469,
      "step": 2266
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48976677656173706,
      "learning_rate": 0.000599064735418674,
      "loss": 1.9422,
      "step": 2267
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.475034236907959,
      "learning_rate": 0.0005990639105540387,
      "loss": 2.0068,
      "step": 2268
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5031130313873291,
      "learning_rate": 0.0005990630853263836,
      "loss": 1.9865,
      "step": 2269
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47699254751205444,
      "learning_rate": 0.0005990622597357102,
      "loss": 2.0178,
      "step": 2270
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4984356760978699,
      "learning_rate": 0.0005990614337820191,
      "loss": 2.0197,
      "step": 2271
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4886229634284973,
      "learning_rate": 0.0005990606074653116,
      "loss": 2.0692,
      "step": 2272
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4730058014392853,
      "learning_rate": 0.0005990597807855885,
      "loss": 2.0237,
      "step": 2273
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49429604411125183,
      "learning_rate": 0.000599058953742851,
      "loss": 2.0243,
      "step": 2274
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4737715423107147,
      "learning_rate": 0.0005990581263370999,
      "loss": 1.9773,
      "step": 2275
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.489432156085968,
      "learning_rate": 0.0005990572985683363,
      "loss": 1.9679,
      "step": 2276
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.505590558052063,
      "learning_rate": 0.0005990564704365613,
      "loss": 2.0524,
      "step": 2277
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4684855043888092,
      "learning_rate": 0.0005990556419417758,
      "loss": 2.0032,
      "step": 2278
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47948533296585083,
      "learning_rate": 0.0005990548130839808,
      "loss": 2.0592,
      "step": 2279
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5041185617446899,
      "learning_rate": 0.0005990539838631772,
      "loss": 2.0403,
      "step": 2280
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48404958844184875,
      "learning_rate": 0.0005990531542793662,
      "loss": 1.9724,
      "step": 2281
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.501501202583313,
      "learning_rate": 0.0005990523243325489,
      "loss": 1.9908,
      "step": 2282
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4678090810775757,
      "learning_rate": 0.0005990514940227259,
      "loss": 2.0298,
      "step": 2283
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4933338165283203,
      "learning_rate": 0.0005990506633498985,
      "loss": 2.1116,
      "step": 2284
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4900827407836914,
      "learning_rate": 0.0005990498323140678,
      "loss": 1.9995,
      "step": 2285
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4735945761203766,
      "learning_rate": 0.0005990490009152345,
      "loss": 1.9925,
      "step": 2286
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4868703782558441,
      "learning_rate": 0.0005990481691533998,
      "loss": 2.0875,
      "step": 2287
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5074405670166016,
      "learning_rate": 0.0005990473370285648,
      "loss": 2.0256,
      "step": 2288
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4872313141822815,
      "learning_rate": 0.0005990465045407303,
      "loss": 1.9711,
      "step": 2289
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.485149085521698,
      "learning_rate": 0.0005990456716898974,
      "loss": 2.061,
      "step": 2290
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49165821075439453,
      "learning_rate": 0.0005990448384760672,
      "loss": 2.0624,
      "step": 2291
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5072799921035767,
      "learning_rate": 0.0005990440048992406,
      "loss": 2.0574,
      "step": 2292
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5218155980110168,
      "learning_rate": 0.0005990431709594186,
      "loss": 2.0936,
      "step": 2293
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4888557195663452,
      "learning_rate": 0.0005990423366566022,
      "loss": 2.0697,
      "step": 2294
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49941912293434143,
      "learning_rate": 0.0005990415019907925,
      "loss": 2.0558,
      "step": 2295
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4780676066875458,
      "learning_rate": 0.0005990406669619905,
      "loss": 1.973,
      "step": 2296
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.500825822353363,
      "learning_rate": 0.0005990398315701972,
      "loss": 2.0687,
      "step": 2297
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48285940289497375,
      "learning_rate": 0.0005990389958154136,
      "loss": 2.0463,
      "step": 2298
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5113555788993835,
      "learning_rate": 0.0005990381596976407,
      "loss": 2.0933,
      "step": 2299
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4855656921863556,
      "learning_rate": 0.0005990373232168797,
      "loss": 2.0614,
      "step": 2300
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4980567991733551,
      "learning_rate": 0.0005990364863731313,
      "loss": 1.9498,
      "step": 2301
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49290379881858826,
      "learning_rate": 0.0005990356491663967,
      "loss": 2.0481,
      "step": 2302
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5164096355438232,
      "learning_rate": 0.0005990348115966768,
      "loss": 2.0253,
      "step": 2303
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4537702798843384,
      "learning_rate": 0.0005990339736639727,
      "loss": 1.9831,
      "step": 2304
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46475693583488464,
      "learning_rate": 0.0005990331353682855,
      "loss": 1.9206,
      "step": 2305
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49193358421325684,
      "learning_rate": 0.0005990322967096161,
      "loss": 2.0337,
      "step": 2306
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47173425555229187,
      "learning_rate": 0.0005990314576879656,
      "loss": 2.0649,
      "step": 2307
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4796190857887268,
      "learning_rate": 0.0005990306183033349,
      "loss": 2.0627,
      "step": 2308
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47966253757476807,
      "learning_rate": 0.0005990297785557252,
      "loss": 1.9875,
      "step": 2309
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4752320349216461,
      "learning_rate": 0.0005990289384451373,
      "loss": 2.033,
      "step": 2310
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4711866080760956,
      "learning_rate": 0.0005990280979715723,
      "loss": 2.0,
      "step": 2311
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5009310841560364,
      "learning_rate": 0.0005990272571350314,
      "loss": 2.1172,
      "step": 2312
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47649818658828735,
      "learning_rate": 0.0005990264159355153,
      "loss": 2.123,
      "step": 2313
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5007657408714294,
      "learning_rate": 0.0005990255743730253,
      "loss": 2.103,
      "step": 2314
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48943182826042175,
      "learning_rate": 0.0005990247324475623,
      "loss": 2.0288,
      "step": 2315
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46523353457450867,
      "learning_rate": 0.0005990238901591273,
      "loss": 2.055,
      "step": 2316
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4826824963092804,
      "learning_rate": 0.0005990230475077213,
      "loss": 2.0295,
      "step": 2317
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47876986861228943,
      "learning_rate": 0.0005990222044933455,
      "loss": 2.0373,
      "step": 2318
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4874553084373474,
      "learning_rate": 0.0005990213611160007,
      "loss": 1.9852,
      "step": 2319
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47631075978279114,
      "learning_rate": 0.0005990205173756881,
      "loss": 1.9815,
      "step": 2320
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4758031368255615,
      "learning_rate": 0.0005990196732724086,
      "loss": 1.9909,
      "step": 2321
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4535992443561554,
      "learning_rate": 0.0005990188288061633,
      "loss": 2.0268,
      "step": 2322
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49132925271987915,
      "learning_rate": 0.0005990179839769533,
      "loss": 2.0379,
      "step": 2323
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47393766045570374,
      "learning_rate": 0.0005990171387847794,
      "loss": 2.0443,
      "step": 2324
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4751126766204834,
      "learning_rate": 0.0005990162932296428,
      "loss": 2.003,
      "step": 2325
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46825408935546875,
      "learning_rate": 0.0005990154473115445,
      "loss": 1.9797,
      "step": 2326
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48598185181617737,
      "learning_rate": 0.0005990146010304854,
      "loss": 2.0598,
      "step": 2327
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4743577539920807,
      "learning_rate": 0.0005990137543864667,
      "loss": 1.9678,
      "step": 2328
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48904258012771606,
      "learning_rate": 0.0005990129073794894,
      "loss": 1.9308,
      "step": 2329
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47309884428977966,
      "learning_rate": 0.0005990120600095544,
      "loss": 1.9655,
      "step": 2330
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4974723160266876,
      "learning_rate": 0.0005990112122766629,
      "loss": 2.0984,
      "step": 2331
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47398823499679565,
      "learning_rate": 0.0005990103641808158,
      "loss": 1.9407,
      "step": 2332
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46893996000289917,
      "learning_rate": 0.0005990095157220142,
      "loss": 1.9916,
      "step": 2333
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4858117699623108,
      "learning_rate": 0.0005990086669002591,
      "loss": 2.0552,
      "step": 2334
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49497345089912415,
      "learning_rate": 0.0005990078177155516,
      "loss": 2.0121,
      "step": 2335
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46806031465530396,
      "learning_rate": 0.0005990069681678924,
      "loss": 1.9782,
      "step": 2336
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5154680013656616,
      "learning_rate": 0.0005990061182572831,
      "loss": 1.9456,
      "step": 2337
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4869201183319092,
      "learning_rate": 0.0005990052679837243,
      "loss": 2.0131,
      "step": 2338
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4979437291622162,
      "learning_rate": 0.0005990044173472171,
      "loss": 1.9915,
      "step": 2339
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4823797345161438,
      "learning_rate": 0.0005990035663477627,
      "loss": 2.0262,
      "step": 2340
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5042315125465393,
      "learning_rate": 0.0005990027149853621,
      "loss": 1.9902,
      "step": 2341
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5076731443405151,
      "learning_rate": 0.000599001863260016,
      "loss": 1.9824,
      "step": 2342
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48179394006729126,
      "learning_rate": 0.0005990010111717259,
      "loss": 2.0211,
      "step": 2343
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4947013854980469,
      "learning_rate": 0.0005990001587204927,
      "loss": 2.0671,
      "step": 2344
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48454684019088745,
      "learning_rate": 0.0005989993059063171,
      "loss": 2.0167,
      "step": 2345
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47847768664360046,
      "learning_rate": 0.0005989984527292006,
      "loss": 1.9797,
      "step": 2346
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4791063964366913,
      "learning_rate": 0.0005989975991891439,
      "loss": 2.0884,
      "step": 2347
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4920877516269684,
      "learning_rate": 0.0005989967452861483,
      "loss": 1.9853,
      "step": 2348
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4673479199409485,
      "learning_rate": 0.0005989958910202147,
      "loss": 1.954,
      "step": 2349
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46145379543304443,
      "learning_rate": 0.0005989950363913441,
      "loss": 2.0677,
      "step": 2350
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48898473381996155,
      "learning_rate": 0.0005989941813995376,
      "loss": 1.9998,
      "step": 2351
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48389220237731934,
      "learning_rate": 0.0005989933260447961,
      "loss": 2.0204,
      "step": 2352
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4731299877166748,
      "learning_rate": 0.0005989924703271209,
      "loss": 1.9812,
      "step": 2353
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46904653310775757,
      "learning_rate": 0.0005989916142465128,
      "loss": 2.0515,
      "step": 2354
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5227206945419312,
      "learning_rate": 0.000598990757802973,
      "loss": 2.0069,
      "step": 2355
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47621509432792664,
      "learning_rate": 0.0005989899009965024,
      "loss": 1.9511,
      "step": 2356
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4925698935985565,
      "learning_rate": 0.0005989890438271022,
      "loss": 2.0245,
      "step": 2357
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.45763131976127625,
      "learning_rate": 0.0005989881862947733,
      "loss": 1.9553,
      "step": 2358
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48203444480895996,
      "learning_rate": 0.0005989873283995169,
      "loss": 2.0304,
      "step": 2359
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4963899254798889,
      "learning_rate": 0.0005989864701413339,
      "loss": 2.0579,
      "step": 2360
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.488252192735672,
      "learning_rate": 0.0005989856115202252,
      "loss": 2.0297,
      "step": 2361
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.472621887922287,
      "learning_rate": 0.0005989847525361922,
      "loss": 1.9171,
      "step": 2362
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47451356053352356,
      "learning_rate": 0.0005989838931892358,
      "loss": 1.9558,
      "step": 2363
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4816369116306305,
      "learning_rate": 0.0005989830334793569,
      "loss": 2.0131,
      "step": 2364
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4841279983520508,
      "learning_rate": 0.0005989821734065567,
      "loss": 2.036,
      "step": 2365
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4775497317314148,
      "learning_rate": 0.0005989813129708362,
      "loss": 2.0813,
      "step": 2366
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4717355966567993,
      "learning_rate": 0.0005989804521721963,
      "loss": 1.9357,
      "step": 2367
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49802371859550476,
      "learning_rate": 0.0005989795910106384,
      "loss": 1.9303,
      "step": 2368
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49559757113456726,
      "learning_rate": 0.0005989787294861631,
      "loss": 2.073,
      "step": 2369
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4817192256450653,
      "learning_rate": 0.0005989778675987718,
      "loss": 2.038,
      "step": 2370
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47631245851516724,
      "learning_rate": 0.0005989770053484655,
      "loss": 2.0347,
      "step": 2371
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47043827176094055,
      "learning_rate": 0.000598976142735245,
      "loss": 1.9979,
      "step": 2372
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4779561460018158,
      "learning_rate": 0.0005989752797591117,
      "loss": 2.0238,
      "step": 2373
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4682818055152893,
      "learning_rate": 0.0005989744164200663,
      "loss": 2.0357,
      "step": 2374
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4591258466243744,
      "learning_rate": 0.0005989735527181101,
      "loss": 1.9483,
      "step": 2375
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4698057174682617,
      "learning_rate": 0.000598972688653244,
      "loss": 2.0243,
      "step": 2376
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4974450170993805,
      "learning_rate": 0.0005989718242254691,
      "loss": 2.0009,
      "step": 2377
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48683249950408936,
      "learning_rate": 0.0005989709594347865,
      "loss": 2.059,
      "step": 2378
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4819333255290985,
      "learning_rate": 0.0005989700942811972,
      "loss": 2.0006,
      "step": 2379
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5147215127944946,
      "learning_rate": 0.0005989692287647023,
      "loss": 1.953,
      "step": 2380
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5043602585792542,
      "learning_rate": 0.0005989683628853027,
      "loss": 2.0557,
      "step": 2381
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49636349081993103,
      "learning_rate": 0.0005989674966429997,
      "loss": 2.0613,
      "step": 2382
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47383177280426025,
      "learning_rate": 0.0005989666300377942,
      "loss": 2.0011,
      "step": 2383
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4982454180717468,
      "learning_rate": 0.0005989657630696871,
      "loss": 2.1053,
      "step": 2384
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.475098580121994,
      "learning_rate": 0.0005989648957386797,
      "loss": 1.9892,
      "step": 2385
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4863572418689728,
      "learning_rate": 0.000598964028044773,
      "loss": 2.0963,
      "step": 2386
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4721061885356903,
      "learning_rate": 0.0005989631599879681,
      "loss": 2.0286,
      "step": 2387
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4871350824832916,
      "learning_rate": 0.0005989622915682657,
      "loss": 1.9793,
      "step": 2388
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47174587845802307,
      "learning_rate": 0.0005989614227856673,
      "loss": 2.0239,
      "step": 2389
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48903074860572815,
      "learning_rate": 0.0005989605536401739,
      "loss": 1.9818,
      "step": 2390
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47914713621139526,
      "learning_rate": 0.0005989596841317863,
      "loss": 2.0618,
      "step": 2391
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4879465401172638,
      "learning_rate": 0.0005989588142605057,
      "loss": 1.9998,
      "step": 2392
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4766758382320404,
      "learning_rate": 0.0005989579440263331,
      "loss": 2.0064,
      "step": 2393
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4793170392513275,
      "learning_rate": 0.0005989570734292697,
      "loss": 1.9763,
      "step": 2394
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.480654776096344,
      "learning_rate": 0.0005989562024693164,
      "loss": 2.0187,
      "step": 2395
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47687631845474243,
      "learning_rate": 0.0005989553311464744,
      "loss": 2.0362,
      "step": 2396
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4814198315143585,
      "learning_rate": 0.0005989544594607447,
      "loss": 1.9916,
      "step": 2397
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4779568612575531,
      "learning_rate": 0.0005989535874121281,
      "loss": 2.007,
      "step": 2398
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4638124704360962,
      "learning_rate": 0.0005989527150006262,
      "loss": 1.9688,
      "step": 2399
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46471109986305237,
      "learning_rate": 0.0005989518422262395,
      "loss": 2.0412,
      "step": 2400
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4843304455280304,
      "learning_rate": 0.0005989509690889694,
      "loss": 2.008,
      "step": 2401
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.45228227972984314,
      "learning_rate": 0.000598950095588817,
      "loss": 1.9815,
      "step": 2402
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47579285502433777,
      "learning_rate": 0.000598949221725783,
      "loss": 1.9724,
      "step": 2403
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4772801101207733,
      "learning_rate": 0.0005989483474998689,
      "loss": 1.9865,
      "step": 2404
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4698210656642914,
      "learning_rate": 0.0005989474729110755,
      "loss": 2.0677,
      "step": 2405
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47239747643470764,
      "learning_rate": 0.0005989465979594038,
      "loss": 1.995,
      "step": 2406
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4741513133049011,
      "learning_rate": 0.0005989457226448551,
      "loss": 1.982,
      "step": 2407
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4757000505924225,
      "learning_rate": 0.0005989448469674303,
      "loss": 1.9957,
      "step": 2408
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46280086040496826,
      "learning_rate": 0.0005989439709271305,
      "loss": 2.0163,
      "step": 2409
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46362555027008057,
      "learning_rate": 0.0005989430945239568,
      "loss": 1.9657,
      "step": 2410
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48635050654411316,
      "learning_rate": 0.0005989422177579102,
      "loss": 2.0231,
      "step": 2411
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48712414503097534,
      "learning_rate": 0.0005989413406289918,
      "loss": 2.0067,
      "step": 2412
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47955697774887085,
      "learning_rate": 0.0005989404631372027,
      "loss": 2.095,
      "step": 2413
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4803333580493927,
      "learning_rate": 0.0005989395852825438,
      "loss": 2.008,
      "step": 2414
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4990048408508301,
      "learning_rate": 0.0005989387070650165,
      "loss": 2.088,
      "step": 2415
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4899007976055145,
      "learning_rate": 0.0005989378284846215,
      "loss": 2.1335,
      "step": 2416
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.45273709297180176,
      "learning_rate": 0.0005989369495413599,
      "loss": 2.0084,
      "step": 2417
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46997806429862976,
      "learning_rate": 0.0005989360702352331,
      "loss": 1.9754,
      "step": 2418
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4922915995121002,
      "learning_rate": 0.000598935190566242,
      "loss": 2.1158,
      "step": 2419
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4668184220790863,
      "learning_rate": 0.0005989343105343875,
      "loss": 1.9955,
      "step": 2420
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4723716676235199,
      "learning_rate": 0.0005989334301396708,
      "loss": 1.986,
      "step": 2421
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4597671926021576,
      "learning_rate": 0.000598932549382093,
      "loss": 1.9828,
      "step": 2422
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4793221354484558,
      "learning_rate": 0.0005989316682616551,
      "loss": 1.9899,
      "step": 2423
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4786079227924347,
      "learning_rate": 0.0005989307867783582,
      "loss": 2.0191,
      "step": 2424
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48540353775024414,
      "learning_rate": 0.0005989299049322034,
      "loss": 2.0305,
      "step": 2425
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4750860333442688,
      "learning_rate": 0.0005989290227231917,
      "loss": 2.0551,
      "step": 2426
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5450699329376221,
      "learning_rate": 0.0005989281401513242,
      "loss": 2.0141,
      "step": 2427
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.468637079000473,
      "learning_rate": 0.000598927257216602,
      "loss": 2.0134,
      "step": 2428
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48122283816337585,
      "learning_rate": 0.0005989263739190262,
      "loss": 1.9885,
      "step": 2429
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5074202418327332,
      "learning_rate": 0.0005989254902585979,
      "loss": 1.9522,
      "step": 2430
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4865051507949829,
      "learning_rate": 0.0005989246062353179,
      "loss": 1.9818,
      "step": 2431
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48482847213745117,
      "learning_rate": 0.0005989237218491875,
      "loss": 1.9659,
      "step": 2432
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5046083331108093,
      "learning_rate": 0.0005989228371002079,
      "loss": 2.0235,
      "step": 2433
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49370136857032776,
      "learning_rate": 0.0005989219519883799,
      "loss": 2.0024,
      "step": 2434
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5280798673629761,
      "learning_rate": 0.0005989210665137048,
      "loss": 2.0273,
      "step": 2435
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4784035086631775,
      "learning_rate": 0.0005989201806761834,
      "loss": 1.9897,
      "step": 2436
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4998655915260315,
      "learning_rate": 0.0005989192944758172,
      "loss": 2.0504,
      "step": 2437
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4890778064727783,
      "learning_rate": 0.0005989184079126067,
      "loss": 2.0539,
      "step": 2438
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.475790411233902,
      "learning_rate": 0.0005989175209865535,
      "loss": 1.9564,
      "step": 2439
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48243075609207153,
      "learning_rate": 0.0005989166336976585,
      "loss": 2.0199,
      "step": 2440
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47789466381073,
      "learning_rate": 0.0005989157460459226,
      "loss": 2.0216,
      "step": 2441
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4593053162097931,
      "learning_rate": 0.0005989148580313471,
      "loss": 1.9659,
      "step": 2442
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4791175127029419,
      "learning_rate": 0.0005989139696539331,
      "loss": 2.082,
      "step": 2443
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4594874680042267,
      "learning_rate": 0.0005989130809136814,
      "loss": 1.9982,
      "step": 2444
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.493739515542984,
      "learning_rate": 0.0005989121918105934,
      "loss": 2.0259,
      "step": 2445
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46502843499183655,
      "learning_rate": 0.00059891130234467,
      "loss": 1.9916,
      "step": 2446
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4948466718196869,
      "learning_rate": 0.0005989104125159124,
      "loss": 2.033,
      "step": 2447
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4799428880214691,
      "learning_rate": 0.0005989095223243215,
      "loss": 1.9938,
      "step": 2448
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4754261374473572,
      "learning_rate": 0.0005989086317698984,
      "loss": 1.9594,
      "step": 2449
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4710546135902405,
      "learning_rate": 0.0005989077408526444,
      "loss": 2.0178,
      "step": 2450
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4743593633174896,
      "learning_rate": 0.0005989068495725604,
      "loss": 2.041,
      "step": 2451
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4801658093929291,
      "learning_rate": 0.0005989059579296476,
      "loss": 2.0538,
      "step": 2452
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4823084771633148,
      "learning_rate": 0.000598905065923907,
      "loss": 2.0311,
      "step": 2453
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48494845628738403,
      "learning_rate": 0.0005989041735553396,
      "loss": 2.0487,
      "step": 2454
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46902522444725037,
      "learning_rate": 0.0005989032808239466,
      "loss": 2.0004,
      "step": 2455
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4731304347515106,
      "learning_rate": 0.0005989023877297291,
      "loss": 2.0723,
      "step": 2456
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4588870108127594,
      "learning_rate": 0.0005989014942726881,
      "loss": 2.0128,
      "step": 2457
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48475444316864014,
      "learning_rate": 0.0005989006004528247,
      "loss": 2.0311,
      "step": 2458
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4867635667324066,
      "learning_rate": 0.0005988997062701401,
      "loss": 2.0036,
      "step": 2459
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4645974636077881,
      "learning_rate": 0.0005988988117246353,
      "loss": 2.0351,
      "step": 2460
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4910026788711548,
      "learning_rate": 0.0005988979168163113,
      "loss": 2.0241,
      "step": 2461
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47489145398139954,
      "learning_rate": 0.0005988970215451693,
      "loss": 1.9816,
      "step": 2462
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47485631704330444,
      "learning_rate": 0.0005988961259112104,
      "loss": 1.9975,
      "step": 2463
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.498586505651474,
      "learning_rate": 0.0005988952299144355,
      "loss": 2.0724,
      "step": 2464
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48871517181396484,
      "learning_rate": 0.0005988943335548461,
      "loss": 2.0013,
      "step": 2465
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4779992401599884,
      "learning_rate": 0.0005988934368324428,
      "loss": 1.9994,
      "step": 2466
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47910699248313904,
      "learning_rate": 0.0005988925397472269,
      "loss": 1.8987,
      "step": 2467
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48283928632736206,
      "learning_rate": 0.0005988916422991996,
      "loss": 1.9194,
      "step": 2468
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5368621945381165,
      "learning_rate": 0.0005988907444883618,
      "loss": 2.0019,
      "step": 2469
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47958168387413025,
      "learning_rate": 0.0005988898463147147,
      "loss": 2.0185,
      "step": 2470
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4680808484554291,
      "learning_rate": 0.0005988889477782594,
      "loss": 1.9494,
      "step": 2471
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4840298891067505,
      "learning_rate": 0.000598888048878997,
      "loss": 2.009,
      "step": 2472
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49757012724876404,
      "learning_rate": 0.0005988871496169284,
      "loss": 2.0058,
      "step": 2473
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47617438435554504,
      "learning_rate": 0.000598886249992055,
      "loss": 2.0118,
      "step": 2474
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48457998037338257,
      "learning_rate": 0.0005988853500043778,
      "loss": 1.9754,
      "step": 2475
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4806777238845825,
      "learning_rate": 0.0005988844496538975,
      "loss": 2.0463,
      "step": 2476
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46959254145622253,
      "learning_rate": 0.0005988835489406158,
      "loss": 2.006,
      "step": 2477
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4903695285320282,
      "learning_rate": 0.0005988826478645334,
      "loss": 2.0406,
      "step": 2478
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4870734214782715,
      "learning_rate": 0.0005988817464256515,
      "loss": 2.0598,
      "step": 2479
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4776677191257477,
      "learning_rate": 0.0005988808446239712,
      "loss": 2.0127,
      "step": 2480
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4740849733352661,
      "learning_rate": 0.0005988799424594936,
      "loss": 2.066,
      "step": 2481
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47541332244873047,
      "learning_rate": 0.0005988790399322198,
      "loss": 1.979,
      "step": 2482
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47052648663520813,
      "learning_rate": 0.0005988781370421509,
      "loss": 2.0112,
      "step": 2483
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46373650431632996,
      "learning_rate": 0.000598877233789288,
      "loss": 2.0074,
      "step": 2484
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48992666602134705,
      "learning_rate": 0.0005988763301736321,
      "loss": 2.0268,
      "step": 2485
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46712571382522583,
      "learning_rate": 0.0005988754261951844,
      "loss": 1.9284,
      "step": 2486
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47016483545303345,
      "learning_rate": 0.0005988745218539459,
      "loss": 1.9071,
      "step": 2487
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4546106159687042,
      "learning_rate": 0.000598873617149918,
      "loss": 1.9971,
      "step": 2488
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48412832617759705,
      "learning_rate": 0.0005988727120831013,
      "loss": 2.0269,
      "step": 2489
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5150318145751953,
      "learning_rate": 0.0005988718066534973,
      "loss": 2.0383,
      "step": 2490
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4956865906715393,
      "learning_rate": 0.0005988709008611069,
      "loss": 1.9601,
      "step": 2491
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47895917296409607,
      "learning_rate": 0.0005988699947059314,
      "loss": 2.0137,
      "step": 2492
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5071440935134888,
      "learning_rate": 0.0005988690881879716,
      "loss": 2.0343,
      "step": 2493
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5082190632820129,
      "learning_rate": 0.0005988681813072288,
      "loss": 1.9565,
      "step": 2494
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4718268811702728,
      "learning_rate": 0.0005988672740637041,
      "loss": 2.0062,
      "step": 2495
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5322040915489197,
      "learning_rate": 0.0005988663664573986,
      "loss": 2.0647,
      "step": 2496
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49227628111839294,
      "learning_rate": 0.0005988654584883133,
      "loss": 1.9611,
      "step": 2497
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4788406789302826,
      "learning_rate": 0.0005988645501564494,
      "loss": 1.9642,
      "step": 2498
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5522058606147766,
      "learning_rate": 0.000598863641461808,
      "loss": 2.0622,
      "step": 2499
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4925200939178467,
      "learning_rate": 0.0005988627324043901,
      "loss": 2.0549,
      "step": 2500
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5146825909614563,
      "learning_rate": 0.0005988618229841969,
      "loss": 1.9658,
      "step": 2501
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4926029145717621,
      "learning_rate": 0.0005988609132012295,
      "loss": 2.0382,
      "step": 2502
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5054047107696533,
      "learning_rate": 0.000598860003055489,
      "loss": 2.0089,
      "step": 2503
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48448899388313293,
      "learning_rate": 0.0005988590925469765,
      "loss": 2.0607,
      "step": 2504
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5474813580513,
      "learning_rate": 0.0005988581816756931,
      "loss": 2.0281,
      "step": 2505
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46982795000076294,
      "learning_rate": 0.0005988572704416398,
      "loss": 2.0231,
      "step": 2506
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5047665238380432,
      "learning_rate": 0.0005988563588448179,
      "loss": 1.9563,
      "step": 2507
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5128506422042847,
      "learning_rate": 0.0005988554468852284,
      "loss": 2.0265,
      "step": 2508
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.476033478975296,
      "learning_rate": 0.0005988545345628724,
      "loss": 1.9277,
      "step": 2509
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5303152203559875,
      "learning_rate": 0.000598853621877751,
      "loss": 2.0538,
      "step": 2510
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5202911496162415,
      "learning_rate": 0.0005988527088298654,
      "loss": 2.0188,
      "step": 2511
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5100900530815125,
      "learning_rate": 0.0005988517954192167,
      "loss": 2.0609,
      "step": 2512
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4908050000667572,
      "learning_rate": 0.0005988508816458058,
      "loss": 1.998,
      "step": 2513
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4783787131309509,
      "learning_rate": 0.0005988499675096342,
      "loss": 1.9899,
      "step": 2514
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48122796416282654,
      "learning_rate": 0.0005988490530107025,
      "loss": 2.0052,
      "step": 2515
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5013177990913391,
      "learning_rate": 0.0005988481381490122,
      "loss": 1.9465,
      "step": 2516
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5130632519721985,
      "learning_rate": 0.0005988472229245643,
      "loss": 1.9513,
      "step": 2517
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4886356294155121,
      "learning_rate": 0.00059884630733736,
      "loss": 2.0734,
      "step": 2518
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4793996214866638,
      "learning_rate": 0.0005988453913874002,
      "loss": 2.0046,
      "step": 2519
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48203399777412415,
      "learning_rate": 0.000598844475074686,
      "loss": 2.093,
      "step": 2520
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4890088438987732,
      "learning_rate": 0.0005988435583992188,
      "loss": 1.986,
      "step": 2521
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47774815559387207,
      "learning_rate": 0.0005988426413609996,
      "loss": 1.9737,
      "step": 2522
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5072156190872192,
      "learning_rate": 0.0005988417239600294,
      "loss": 1.9939,
      "step": 2523
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47753098607063293,
      "learning_rate": 0.0005988408061963094,
      "loss": 2.0146,
      "step": 2524
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49828556180000305,
      "learning_rate": 0.0005988398880698406,
      "loss": 2.0834,
      "step": 2525
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48700347542762756,
      "learning_rate": 0.0005988389695806244,
      "loss": 1.9491,
      "step": 2526
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.49014216661453247,
      "learning_rate": 0.0005988380507286616,
      "loss": 2.0225,
      "step": 2527
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.48585811257362366,
      "learning_rate": 0.0005988371315139534,
      "loss": 1.9055,
      "step": 2528
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5256956219673157,
      "learning_rate": 0.0005988362119365011,
      "loss": 1.9738,
      "step": 2529
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5021815299987793,
      "learning_rate": 0.0005988352919963055,
      "loss": 2.0578,
      "step": 2530
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5116182565689087,
      "learning_rate": 0.0005988343716933679,
      "loss": 1.9532,
      "step": 2531
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.535454511642456,
      "learning_rate": 0.0005988334510276895,
      "loss": 2.0338,
      "step": 2532
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4819473326206207,
      "learning_rate": 0.0005988325299992713,
      "loss": 2.0136,
      "step": 2533
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.480822890996933,
      "learning_rate": 0.0005988316086081145,
      "loss": 2.1125,
      "step": 2534
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4753120541572571,
      "learning_rate": 0.00059883068685422,
      "loss": 2.0171,
      "step": 2535
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4652998745441437,
      "learning_rate": 0.0005988297647375892,
      "loss": 1.9561,
      "step": 2536
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4939623773097992,
      "learning_rate": 0.000598828842258223,
      "loss": 2.0112,
      "step": 2537
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4958871304988861,
      "learning_rate": 0.0005988279194161227,
      "loss": 1.9738,
      "step": 2538
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4763679802417755,
      "learning_rate": 0.0005988269962112894,
      "loss": 2.0491,
      "step": 2539
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4831637740135193,
      "learning_rate": 0.0005988260726437239,
      "loss": 2.0689,
      "step": 2540
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47972407937049866,
      "learning_rate": 0.0005988251487134278,
      "loss": 2.005,
      "step": 2541
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47480082511901855,
      "learning_rate": 0.0005988242244204019,
      "loss": 1.9772,
      "step": 2542
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.46555882692337036,
      "learning_rate": 0.0005988232997646475,
      "loss": 2.0142,
      "step": 2543
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4682788848876953,
      "learning_rate": 0.0005988223747461656,
      "loss": 2.0191,
      "step": 2544
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4857727289199829,
      "learning_rate": 0.0005988214493649573,
      "loss": 1.9926,
      "step": 2545
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47374585270881653,
      "learning_rate": 0.0005988205236210239,
      "loss": 1.9568,
      "step": 2546
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47151219844818115,
      "learning_rate": 0.0005988195975143664,
      "loss": 2.0493,
      "step": 2547
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4851670265197754,
      "learning_rate": 0.000598818671044986,
      "loss": 1.9944,
      "step": 2548
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5271111130714417,
      "learning_rate": 0.0005988177442128836,
      "loss": 2.0301,
      "step": 2549
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.480146199464798,
      "learning_rate": 0.0005988168170180606,
      "loss": 2.0704,
      "step": 2550
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.47043368220329285,
      "learning_rate": 0.000598815889460518,
      "loss": 1.973,
      "step": 2551
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5120701789855957,
      "learning_rate": 0.0005988149615402567,
      "loss": 1.8803,
      "step": 2552
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4824488162994385,
      "learning_rate": 0.0005988140332572785,
      "loss": 1.9647,
      "step": 2553
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.468610942363739,
      "learning_rate": 0.0005988131046115837,
      "loss": 2.0571,
      "step": 2554
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47431662678718567,
      "learning_rate": 0.000598812175603174,
      "loss": 1.9722,
      "step": 2555
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5011693835258484,
      "learning_rate": 0.0005988112462320504,
      "loss": 1.931,
      "step": 2556
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4985302686691284,
      "learning_rate": 0.0005988103164982139,
      "loss": 1.9877,
      "step": 2557
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48479321599006653,
      "learning_rate": 0.0005988093864016657,
      "loss": 2.0333,
      "step": 2558
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49806010723114014,
      "learning_rate": 0.0005988084559424069,
      "loss": 2.0004,
      "step": 2559
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4798814058303833,
      "learning_rate": 0.0005988075251204387,
      "loss": 1.9976,
      "step": 2560
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47760009765625,
      "learning_rate": 0.0005988065939357622,
      "loss": 1.9724,
      "step": 2561
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47365960478782654,
      "learning_rate": 0.0005988056623883786,
      "loss": 1.9151,
      "step": 2562
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4719190001487732,
      "learning_rate": 0.000598804730478289,
      "loss": 2.0283,
      "step": 2563
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.483028382062912,
      "learning_rate": 0.0005988037982054942,
      "loss": 2.0067,
      "step": 2564
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49610549211502075,
      "learning_rate": 0.0005988028655699957,
      "loss": 2.0795,
      "step": 2565
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48696163296699524,
      "learning_rate": 0.0005988019325717947,
      "loss": 2.0256,
      "step": 2566
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4749898314476013,
      "learning_rate": 0.0005988009992108921,
      "loss": 1.946,
      "step": 2567
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4938138723373413,
      "learning_rate": 0.0005988000654872891,
      "loss": 1.991,
      "step": 2568
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4778982996940613,
      "learning_rate": 0.0005987991314009869,
      "loss": 1.9912,
      "step": 2569
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4702366590499878,
      "learning_rate": 0.0005987981969519865,
      "loss": 2.0977,
      "step": 2570
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47933676838874817,
      "learning_rate": 0.0005987972621402892,
      "loss": 2.0387,
      "step": 2571
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47665509581565857,
      "learning_rate": 0.000598796326965896,
      "loss": 2.0516,
      "step": 2572
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4749232828617096,
      "learning_rate": 0.000598795391428808,
      "loss": 1.9986,
      "step": 2573
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4659970998764038,
      "learning_rate": 0.0005987944555290265,
      "loss": 2.0475,
      "step": 2574
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4823915362358093,
      "learning_rate": 0.0005987935192665526,
      "loss": 2.0244,
      "step": 2575
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4652957320213318,
      "learning_rate": 0.0005987925826413874,
      "loss": 2.0844,
      "step": 2576
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4595585763454437,
      "learning_rate": 0.000598791645653532,
      "loss": 1.8939,
      "step": 2577
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47685956954956055,
      "learning_rate": 0.0005987907083029875,
      "loss": 2.0393,
      "step": 2578
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4601241946220398,
      "learning_rate": 0.0005987897705897552,
      "loss": 2.0089,
      "step": 2579
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4561750888824463,
      "learning_rate": 0.0005987888325138361,
      "loss": 2.0165,
      "step": 2580
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4697832465171814,
      "learning_rate": 0.0005987878940752314,
      "loss": 2.0347,
      "step": 2581
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47448813915252686,
      "learning_rate": 0.0005987869552739422,
      "loss": 2.0016,
      "step": 2582
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4671948254108429,
      "learning_rate": 0.0005987860161099697,
      "loss": 2.0349,
      "step": 2583
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4830012619495392,
      "learning_rate": 0.0005987850765833149,
      "loss": 1.9901,
      "step": 2584
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48154470324516296,
      "learning_rate": 0.0005987841366939792,
      "loss": 2.0571,
      "step": 2585
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4728475511074066,
      "learning_rate": 0.0005987831964419635,
      "loss": 2.0237,
      "step": 2586
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46829643845558167,
      "learning_rate": 0.0005987822558272689,
      "loss": 2.0357,
      "step": 2587
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47992345690727234,
      "learning_rate": 0.0005987813148498969,
      "loss": 2.1072,
      "step": 2588
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47789090871810913,
      "learning_rate": 0.0005987803735098482,
      "loss": 1.9708,
      "step": 2589
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.469251811504364,
      "learning_rate": 0.0005987794318071243,
      "loss": 1.9759,
      "step": 2590
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5071941018104553,
      "learning_rate": 0.000598778489741726,
      "loss": 1.9618,
      "step": 2591
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4751492142677307,
      "learning_rate": 0.0005987775473136549,
      "loss": 2.0157,
      "step": 2592
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5135500431060791,
      "learning_rate": 0.0005987766045229116,
      "loss": 2.0407,
      "step": 2593
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4947076439857483,
      "learning_rate": 0.0005987756613694978,
      "loss": 1.9898,
      "step": 2594
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4794262945652008,
      "learning_rate": 0.0005987747178534142,
      "loss": 2.078,
      "step": 2595
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5202187895774841,
      "learning_rate": 0.0005987737739746622,
      "loss": 2.1311,
      "step": 2596
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5044906735420227,
      "learning_rate": 0.0005987728297332429,
      "loss": 2.0822,
      "step": 2597
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49641209840774536,
      "learning_rate": 0.0005987718851291571,
      "loss": 1.9995,
      "step": 2598
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48403894901275635,
      "learning_rate": 0.0005987709401624066,
      "loss": 1.9573,
      "step": 2599
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48868879675865173,
      "learning_rate": 0.0005987699948329921,
      "loss": 2.0301,
      "step": 2600
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4566214680671692,
      "learning_rate": 0.0005987690491409148,
      "loss": 1.9372,
      "step": 2601
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49974191188812256,
      "learning_rate": 0.0005987681030861758,
      "loss": 1.9566,
      "step": 2602
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48904404044151306,
      "learning_rate": 0.0005987671566687765,
      "loss": 2.0234,
      "step": 2603
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.489202082157135,
      "learning_rate": 0.0005987662098887179,
      "loss": 2.0217,
      "step": 2604
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4845140874385834,
      "learning_rate": 0.0005987652627460011,
      "loss": 1.9344,
      "step": 2605
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47160905599594116,
      "learning_rate": 0.0005987643152406273,
      "loss": 1.9227,
      "step": 2606
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49001994729042053,
      "learning_rate": 0.0005987633673725976,
      "loss": 1.9067,
      "step": 2607
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4773803651332855,
      "learning_rate": 0.0005987624191419133,
      "loss": 2.0248,
      "step": 2608
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4771997928619385,
      "learning_rate": 0.0005987614705485753,
      "loss": 2.0117,
      "step": 2609
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46905866265296936,
      "learning_rate": 0.000598760521592585,
      "loss": 1.9948,
      "step": 2610
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48730671405792236,
      "learning_rate": 0.0005987595722739433,
      "loss": 2.022,
      "step": 2611
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49165216088294983,
      "learning_rate": 0.0005987586225926517,
      "loss": 1.9551,
      "step": 2612
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4653452932834625,
      "learning_rate": 0.0005987576725487111,
      "loss": 1.9846,
      "step": 2613
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49490559101104736,
      "learning_rate": 0.0005987567221421227,
      "loss": 1.9097,
      "step": 2614
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4850853979587555,
      "learning_rate": 0.0005987557713728876,
      "loss": 1.9399,
      "step": 2615
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5009227991104126,
      "learning_rate": 0.000598754820241007,
      "loss": 2.0058,
      "step": 2616
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49511808156967163,
      "learning_rate": 0.0005987538687464821,
      "loss": 1.991,
      "step": 2617
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49763941764831543,
      "learning_rate": 0.0005987529168893141,
      "loss": 1.9622,
      "step": 2618
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49483978748321533,
      "learning_rate": 0.000598751964669504,
      "loss": 1.9883,
      "step": 2619
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5045834183692932,
      "learning_rate": 0.0005987510120870529,
      "loss": 1.949,
      "step": 2620
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4781029522418976,
      "learning_rate": 0.0005987500591419624,
      "loss": 1.9406,
      "step": 2621
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4897352159023285,
      "learning_rate": 0.0005987491058342331,
      "loss": 1.9775,
      "step": 2622
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5300243496894836,
      "learning_rate": 0.0005987481521638665,
      "loss": 1.9951,
      "step": 2623
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5051652789115906,
      "learning_rate": 0.0005987471981308637,
      "loss": 1.9319,
      "step": 2624
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46549591422080994,
      "learning_rate": 0.0005987462437352257,
      "loss": 1.9182,
      "step": 2625
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5213764905929565,
      "learning_rate": 0.0005987452889769539,
      "loss": 2.1281,
      "step": 2626
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4822707772254944,
      "learning_rate": 0.0005987443338560493,
      "loss": 2.0216,
      "step": 2627
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4926886260509491,
      "learning_rate": 0.000598743378372513,
      "loss": 2.0019,
      "step": 2628
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4913156032562256,
      "learning_rate": 0.0005987424225263464,
      "loss": 2.0071,
      "step": 2629
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.504349946975708,
      "learning_rate": 0.0005987414663175504,
      "loss": 2.0159,
      "step": 2630
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5073020458221436,
      "learning_rate": 0.0005987405097461263,
      "loss": 2.1558,
      "step": 2631
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49365538358688354,
      "learning_rate": 0.0005987395528120753,
      "loss": 1.9576,
      "step": 2632
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4814349412918091,
      "learning_rate": 0.0005987385955153984,
      "loss": 2.0349,
      "step": 2633
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48654255270957947,
      "learning_rate": 0.000598737637856097,
      "loss": 1.9904,
      "step": 2634
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.500984787940979,
      "learning_rate": 0.0005987366798341721,
      "loss": 1.9676,
      "step": 2635
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4843560457229614,
      "learning_rate": 0.0005987357214496247,
      "loss": 1.9739,
      "step": 2636
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5163083672523499,
      "learning_rate": 0.0005987347627024564,
      "loss": 2.0005,
      "step": 2637
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4696096181869507,
      "learning_rate": 0.000598733803592668,
      "loss": 2.0179,
      "step": 2638
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5157457590103149,
      "learning_rate": 0.0005987328441202608,
      "loss": 1.9597,
      "step": 2639
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4761805236339569,
      "learning_rate": 0.0005987318842852359,
      "loss": 2.0053,
      "step": 2640
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49009278416633606,
      "learning_rate": 0.0005987309240875946,
      "loss": 2.087,
      "step": 2641
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49408987164497375,
      "learning_rate": 0.0005987299635273379,
      "loss": 1.9649,
      "step": 2642
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4765249490737915,
      "learning_rate": 0.0005987290026044671,
      "loss": 2.0082,
      "step": 2643
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49488046765327454,
      "learning_rate": 0.0005987280413189832,
      "loss": 2.0372,
      "step": 2644
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47573792934417725,
      "learning_rate": 0.0005987270796708875,
      "loss": 1.9577,
      "step": 2645
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48727017641067505,
      "learning_rate": 0.0005987261176601812,
      "loss": 2.016,
      "step": 2646
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4653600752353668,
      "learning_rate": 0.0005987251552868653,
      "loss": 2.0183,
      "step": 2647
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48102372884750366,
      "learning_rate": 0.0005987241925509413,
      "loss": 1.9986,
      "step": 2648
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5301035642623901,
      "learning_rate": 0.00059872322945241,
      "loss": 1.9968,
      "step": 2649
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46994292736053467,
      "learning_rate": 0.0005987222659912726,
      "loss": 1.9481,
      "step": 2650
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5258022546768188,
      "learning_rate": 0.0005987213021675306,
      "loss": 2.078,
      "step": 2651
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5016053915023804,
      "learning_rate": 0.0005987203379811848,
      "loss": 1.9881,
      "step": 2652
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49022412300109863,
      "learning_rate": 0.0005987193734322366,
      "loss": 1.9249,
      "step": 2653
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49166858196258545,
      "learning_rate": 0.000598718408520687,
      "loss": 1.945,
      "step": 2654
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5127615332603455,
      "learning_rate": 0.0005987174432465374,
      "loss": 2.0158,
      "step": 2655
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.491617351770401,
      "learning_rate": 0.0005987164776097887,
      "loss": 1.9854,
      "step": 2656
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48266535997390747,
      "learning_rate": 0.0005987155116104424,
      "loss": 1.9587,
      "step": 2657
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4695722162723541,
      "learning_rate": 0.0005987145452484993,
      "loss": 1.9819,
      "step": 2658
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49705907702445984,
      "learning_rate": 0.0005987135785239609,
      "loss": 2.04,
      "step": 2659
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46622607111930847,
      "learning_rate": 0.0005987126114368281,
      "loss": 1.9639,
      "step": 2660
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46294277906417847,
      "learning_rate": 0.0005987116439871023,
      "loss": 1.9339,
      "step": 2661
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46906521916389465,
      "learning_rate": 0.0005987106761747845,
      "loss": 1.9453,
      "step": 2662
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47093716263771057,
      "learning_rate": 0.000598709707999876,
      "loss": 1.9859,
      "step": 2663
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4641144573688507,
      "learning_rate": 0.0005987087394623778,
      "loss": 1.9159,
      "step": 2664
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4632810056209564,
      "learning_rate": 0.0005987077705622915,
      "loss": 1.9321,
      "step": 2665
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4712982773780823,
      "learning_rate": 0.0005987068012996178,
      "loss": 2.0654,
      "step": 2666
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49512961506843567,
      "learning_rate": 0.000598705831674358,
      "loss": 2.0213,
      "step": 2667
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4982711374759674,
      "learning_rate": 0.0005987048616865133,
      "loss": 2.1005,
      "step": 2668
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4732406437397003,
      "learning_rate": 0.000598703891336085,
      "loss": 1.9987,
      "step": 2669
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.459673672914505,
      "learning_rate": 0.0005987029206230743,
      "loss": 2.0058,
      "step": 2670
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4783072769641876,
      "learning_rate": 0.0005987019495474821,
      "loss": 1.9456,
      "step": 2671
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48913320899009705,
      "learning_rate": 0.0005987009781093098,
      "loss": 1.909,
      "step": 2672
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46756264567375183,
      "learning_rate": 0.0005987000063085585,
      "loss": 2.0322,
      "step": 2673
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4597536623477936,
      "learning_rate": 0.0005986990341452293,
      "loss": 1.9941,
      "step": 2674
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46211719512939453,
      "learning_rate": 0.0005986980616193237,
      "loss": 1.9645,
      "step": 2675
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4591681957244873,
      "learning_rate": 0.0005986970887308426,
      "loss": 1.9814,
      "step": 2676
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4852166175842285,
      "learning_rate": 0.0005986961154797872,
      "loss": 1.9682,
      "step": 2677
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4801482558250427,
      "learning_rate": 0.0005986951418661588,
      "loss": 2.0727,
      "step": 2678
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4666597843170166,
      "learning_rate": 0.0005986941678899584,
      "loss": 2.0129,
      "step": 2679
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4778619706630707,
      "learning_rate": 0.0005986931935511873,
      "loss": 2.0171,
      "step": 2680
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4725438952445984,
      "learning_rate": 0.0005986922188498467,
      "loss": 1.9941,
      "step": 2681
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4700261652469635,
      "learning_rate": 0.0005986912437859378,
      "loss": 2.0203,
      "step": 2682
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4757823050022125,
      "learning_rate": 0.0005986902683594617,
      "loss": 2.0118,
      "step": 2683
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4813448190689087,
      "learning_rate": 0.0005986892925704196,
      "loss": 2.0489,
      "step": 2684
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.496721088886261,
      "learning_rate": 0.0005986883164188128,
      "loss": 2.1043,
      "step": 2685
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4754481613636017,
      "learning_rate": 0.0005986873399046423,
      "loss": 2.0287,
      "step": 2686
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45921099185943604,
      "learning_rate": 0.0005986863630279095,
      "loss": 1.9886,
      "step": 2687
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5461210012435913,
      "learning_rate": 0.0005986853857886153,
      "loss": 1.9888,
      "step": 2688
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46560099720954895,
      "learning_rate": 0.0005986844081867611,
      "loss": 1.9494,
      "step": 2689
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4677560329437256,
      "learning_rate": 0.0005986834302223481,
      "loss": 1.9505,
      "step": 2690
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4641079604625702,
      "learning_rate": 0.0005986824518953775,
      "loss": 1.9771,
      "step": 2691
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4870452880859375,
      "learning_rate": 0.0005986814732058502,
      "loss": 1.9551,
      "step": 2692
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4691295325756073,
      "learning_rate": 0.0005986804941537677,
      "loss": 1.9444,
      "step": 2693
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47328343987464905,
      "learning_rate": 0.0005986795147391312,
      "loss": 2.0219,
      "step": 2694
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49960654973983765,
      "learning_rate": 0.0005986785349619417,
      "loss": 2.0386,
      "step": 2695
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4936210513114929,
      "learning_rate": 0.0005986775548222004,
      "loss": 2.0957,
      "step": 2696
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.468199223279953,
      "learning_rate": 0.0005986765743199085,
      "loss": 1.9964,
      "step": 2697
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48806998133659363,
      "learning_rate": 0.0005986755934550674,
      "loss": 2.0025,
      "step": 2698
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48294758796691895,
      "learning_rate": 0.000598674612227678,
      "loss": 1.9057,
      "step": 2699
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4653986990451813,
      "learning_rate": 0.0005986736306377418,
      "loss": 1.9321,
      "step": 2700
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47655439376831055,
      "learning_rate": 0.0005986726486852597,
      "loss": 1.9911,
      "step": 2701
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4639779031276703,
      "learning_rate": 0.000598671666370233,
      "loss": 2.0291,
      "step": 2702
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47227942943573,
      "learning_rate": 0.000598670683692663,
      "loss": 2.0242,
      "step": 2703
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47847235202789307,
      "learning_rate": 0.0005986697006525508,
      "loss": 1.9622,
      "step": 2704
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4728263318538666,
      "learning_rate": 0.0005986687172498975,
      "loss": 1.9961,
      "step": 2705
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47246524691581726,
      "learning_rate": 0.0005986677334847044,
      "loss": 2.0145,
      "step": 2706
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4770129919052124,
      "learning_rate": 0.0005986667493569727,
      "loss": 2.0245,
      "step": 2707
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4778933823108673,
      "learning_rate": 0.0005986657648667036,
      "loss": 1.965,
      "step": 2708
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4681050181388855,
      "learning_rate": 0.0005986647800138981,
      "loss": 1.9714,
      "step": 2709
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47879359126091003,
      "learning_rate": 0.0005986637947985577,
      "loss": 2.0323,
      "step": 2710
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.44586145877838135,
      "learning_rate": 0.0005986628092206835,
      "loss": 1.9949,
      "step": 2711
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4606013000011444,
      "learning_rate": 0.0005986618232802766,
      "loss": 1.9457,
      "step": 2712
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4787208139896393,
      "learning_rate": 0.0005986608369773383,
      "loss": 2.0052,
      "step": 2713
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4919089376926422,
      "learning_rate": 0.0005986598503118697,
      "loss": 1.9905,
      "step": 2714
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46825891733169556,
      "learning_rate": 0.0005986588632838721,
      "loss": 2.0593,
      "step": 2715
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5052998065948486,
      "learning_rate": 0.0005986578758933466,
      "loss": 1.9931,
      "step": 2716
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5161327719688416,
      "learning_rate": 0.0005986568881402944,
      "loss": 2.0242,
      "step": 2717
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4582599997520447,
      "learning_rate": 0.0005986559000247168,
      "loss": 1.8861,
      "step": 2718
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5063391327857971,
      "learning_rate": 0.0005986549115466149,
      "loss": 2.0087,
      "step": 2719
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4728124439716339,
      "learning_rate": 0.00059865392270599,
      "loss": 1.9606,
      "step": 2720
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4721280634403229,
      "learning_rate": 0.0005986529335028432,
      "loss": 2.0066,
      "step": 2721
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48591068387031555,
      "learning_rate": 0.0005986519439371758,
      "loss": 1.9754,
      "step": 2722
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48556217551231384,
      "learning_rate": 0.0005986509540089889,
      "loss": 1.9997,
      "step": 2723
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.477859228849411,
      "learning_rate": 0.0005986499637182837,
      "loss": 1.9664,
      "step": 2724
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4798053503036499,
      "learning_rate": 0.0005986489730650616,
      "loss": 2.0216,
      "step": 2725
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4898284673690796,
      "learning_rate": 0.0005986479820493235,
      "loss": 2.0007,
      "step": 2726
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4805683195590973,
      "learning_rate": 0.0005986469906710708,
      "loss": 1.9741,
      "step": 2727
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49656838178634644,
      "learning_rate": 0.0005986459989303047,
      "loss": 1.9944,
      "step": 2728
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4875886142253876,
      "learning_rate": 0.0005986450068270262,
      "loss": 2.1042,
      "step": 2729
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4749479591846466,
      "learning_rate": 0.0005986440143612369,
      "loss": 1.8726,
      "step": 2730
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5140029788017273,
      "learning_rate": 0.0005986430215329377,
      "loss": 1.9064,
      "step": 2731
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48730772733688354,
      "learning_rate": 0.0005986420283421298,
      "loss": 2.0023,
      "step": 2732
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49074217677116394,
      "learning_rate": 0.0005986410347888144,
      "loss": 1.9083,
      "step": 2733
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4840535521507263,
      "learning_rate": 0.0005986400408729929,
      "loss": 2.0719,
      "step": 2734
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.474028617143631,
      "learning_rate": 0.0005986390465946665,
      "loss": 1.9541,
      "step": 2735
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5203012228012085,
      "learning_rate": 0.0005986380519538362,
      "loss": 1.9844,
      "step": 2736
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4902576208114624,
      "learning_rate": 0.0005986370569505033,
      "loss": 2.0118,
      "step": 2737
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5173938870429993,
      "learning_rate": 0.0005986360615846689,
      "loss": 2.0202,
      "step": 2738
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.471333384513855,
      "learning_rate": 0.0005986350658563345,
      "loss": 1.965,
      "step": 2739
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49646449089050293,
      "learning_rate": 0.0005986340697655011,
      "loss": 1.944,
      "step": 2740
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4722736179828644,
      "learning_rate": 0.0005986330733121698,
      "loss": 1.8915,
      "step": 2741
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.480716735124588,
      "learning_rate": 0.0005986320764963421,
      "loss": 1.9575,
      "step": 2742
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4859112799167633,
      "learning_rate": 0.0005986310793180191,
      "loss": 2.0081,
      "step": 2743
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.467595636844635,
      "learning_rate": 0.0005986300817772018,
      "loss": 1.9276,
      "step": 2744
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4804335832595825,
      "learning_rate": 0.0005986290838738917,
      "loss": 2.0822,
      "step": 2745
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46021586656570435,
      "learning_rate": 0.0005986280856080899,
      "loss": 1.9855,
      "step": 2746
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46641993522644043,
      "learning_rate": 0.0005986270869797976,
      "loss": 1.9806,
      "step": 2747
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4769588112831116,
      "learning_rate": 0.0005986260879890159,
      "loss": 2.0124,
      "step": 2748
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4821103513240814,
      "learning_rate": 0.0005986250886357463,
      "loss": 2.0726,
      "step": 2749
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4509096145629883,
      "learning_rate": 0.0005986240889199897,
      "loss": 1.9825,
      "step": 2750
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47258907556533813,
      "learning_rate": 0.0005986230888417475,
      "loss": 1.9233,
      "step": 2751
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4848662316799164,
      "learning_rate": 0.0005986220884010209,
      "loss": 2.0308,
      "step": 2752
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4845257103443146,
      "learning_rate": 0.0005986210875978111,
      "loss": 1.9512,
      "step": 2753
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46173784136772156,
      "learning_rate": 0.0005986200864321193,
      "loss": 2.0333,
      "step": 2754
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47208526730537415,
      "learning_rate": 0.0005986190849039467,
      "loss": 1.9607,
      "step": 2755
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47464072704315186,
      "learning_rate": 0.0005986180830132945,
      "loss": 1.9243,
      "step": 2756
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4987531900405884,
      "learning_rate": 0.0005986170807601639,
      "loss": 1.9897,
      "step": 2757
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45862072706222534,
      "learning_rate": 0.0005986160781445563,
      "loss": 1.9134,
      "step": 2758
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46270981431007385,
      "learning_rate": 0.0005986150751664727,
      "loss": 1.9433,
      "step": 2759
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48350054025650024,
      "learning_rate": 0.0005986140718259144,
      "loss": 1.9556,
      "step": 2760
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4843186140060425,
      "learning_rate": 0.0005986130681228826,
      "loss": 2.0084,
      "step": 2761
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47251996397972107,
      "learning_rate": 0.0005986120640573785,
      "loss": 1.9974,
      "step": 2762
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4648881256580353,
      "learning_rate": 0.0005986110596294035,
      "loss": 1.9545,
      "step": 2763
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4507734477519989,
      "learning_rate": 0.0005986100548389585,
      "loss": 2.0273,
      "step": 2764
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4716931879520416,
      "learning_rate": 0.000598609049686045,
      "loss": 2.0447,
      "step": 2765
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4698037803173065,
      "learning_rate": 0.0005986080441706641,
      "loss": 1.9236,
      "step": 2766
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4631930887699127,
      "learning_rate": 0.0005986070382928171,
      "loss": 1.8791,
      "step": 2767
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4456099271774292,
      "learning_rate": 0.000598606032052505,
      "loss": 1.9144,
      "step": 2768
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47427812218666077,
      "learning_rate": 0.0005986050254497292,
      "loss": 1.9693,
      "step": 2769
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4779178202152252,
      "learning_rate": 0.000598604018484491,
      "loss": 1.9579,
      "step": 2770
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4583754241466522,
      "learning_rate": 0.0005986030111567914,
      "loss": 1.9254,
      "step": 2771
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47646719217300415,
      "learning_rate": 0.0005986020034666319,
      "loss": 2.029,
      "step": 2772
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4644624590873718,
      "learning_rate": 0.0005986009954140134,
      "loss": 1.9191,
      "step": 2773
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4776643216609955,
      "learning_rate": 0.0005985999869989373,
      "loss": 2.0242,
      "step": 2774
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4606563448905945,
      "learning_rate": 0.0005985989782214049,
      "loss": 1.9575,
      "step": 2775
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4754149913787842,
      "learning_rate": 0.0005985979690814173,
      "loss": 1.9778,
      "step": 2776
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4638144075870514,
      "learning_rate": 0.0005985969595789758,
      "loss": 1.9054,
      "step": 2777
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4654756486415863,
      "learning_rate": 0.0005985959497140815,
      "loss": 1.9459,
      "step": 2778
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4739869236946106,
      "learning_rate": 0.0005985949394867358,
      "loss": 1.9991,
      "step": 2779
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4835725426673889,
      "learning_rate": 0.0005985939288969397,
      "loss": 2.0016,
      "step": 2780
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47281357645988464,
      "learning_rate": 0.0005985929179446947,
      "loss": 1.931,
      "step": 2781
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47711867094039917,
      "learning_rate": 0.000598591906630002,
      "loss": 2.0126,
      "step": 2782
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45561662316322327,
      "learning_rate": 0.0005985908949528626,
      "loss": 2.0717,
      "step": 2783
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4615771472454071,
      "learning_rate": 0.0005985898829132777,
      "loss": 1.9655,
      "step": 2784
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4604629576206207,
      "learning_rate": 0.0005985888705112489,
      "loss": 2.0033,
      "step": 2785
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4670090079307556,
      "learning_rate": 0.0005985878577467771,
      "loss": 1.9489,
      "step": 2786
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46046343445777893,
      "learning_rate": 0.0005985868446198635,
      "loss": 2.0152,
      "step": 2787
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4525252878665924,
      "learning_rate": 0.0005985858311305097,
      "loss": 1.9727,
      "step": 2788
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48252758383750916,
      "learning_rate": 0.0005985848172787166,
      "loss": 2.0326,
      "step": 2789
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47366639971733093,
      "learning_rate": 0.0005985838030644855,
      "loss": 2.0028,
      "step": 2790
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4604419469833374,
      "learning_rate": 0.0005985827884878177,
      "loss": 2.0041,
      "step": 2791
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.459080308675766,
      "learning_rate": 0.0005985817735487144,
      "loss": 1.9933,
      "step": 2792
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48280829191207886,
      "learning_rate": 0.0005985807582471768,
      "loss": 1.9256,
      "step": 2793
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4679625928401947,
      "learning_rate": 0.0005985797425832062,
      "loss": 1.9997,
      "step": 2794
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4669997990131378,
      "learning_rate": 0.0005985787265568038,
      "loss": 2.0137,
      "step": 2795
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45985278487205505,
      "learning_rate": 0.0005985777101679706,
      "loss": 1.9616,
      "step": 2796
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4692857563495636,
      "learning_rate": 0.0005985766934167082,
      "loss": 2.0255,
      "step": 2797
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47558706998825073,
      "learning_rate": 0.0005985756763030178,
      "loss": 2.043,
      "step": 2798
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47823747992515564,
      "learning_rate": 0.0005985746588269004,
      "loss": 2.0268,
      "step": 2799
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5081666707992554,
      "learning_rate": 0.0005985736409883574,
      "loss": 1.9326,
      "step": 2800
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4621862471103668,
      "learning_rate": 0.0005985726227873899,
      "loss": 1.9398,
      "step": 2801
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48658278584480286,
      "learning_rate": 0.0005985716042239994,
      "loss": 1.9672,
      "step": 2802
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.458118200302124,
      "learning_rate": 0.0005985705852981869,
      "loss": 1.8682,
      "step": 2803
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47265568375587463,
      "learning_rate": 0.0005985695660099536,
      "loss": 2.0077,
      "step": 2804
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4680007994174957,
      "learning_rate": 0.000598568546359301,
      "loss": 1.9754,
      "step": 2805
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4744928479194641,
      "learning_rate": 0.0005985675263462301,
      "loss": 2.0526,
      "step": 2806
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4754510819911957,
      "learning_rate": 0.0005985665059707421,
      "loss": 2.0794,
      "step": 2807
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4634556174278259,
      "learning_rate": 0.0005985654852328384,
      "loss": 1.9319,
      "step": 2808
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4885236322879791,
      "learning_rate": 0.0005985644641325204,
      "loss": 1.9875,
      "step": 2809
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4761824309825897,
      "learning_rate": 0.0005985634426697889,
      "loss": 2.0047,
      "step": 2810
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4756571650505066,
      "learning_rate": 0.0005985624208446456,
      "loss": 1.9844,
      "step": 2811
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4810793697834015,
      "learning_rate": 0.0005985613986570912,
      "loss": 1.9881,
      "step": 2812
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45320671796798706,
      "learning_rate": 0.0005985603761071274,
      "loss": 1.9381,
      "step": 2813
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46381357312202454,
      "learning_rate": 0.0005985593531947554,
      "loss": 1.9858,
      "step": 2814
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5070539712905884,
      "learning_rate": 0.0005985583299199762,
      "loss": 1.9508,
      "step": 2815
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4580690562725067,
      "learning_rate": 0.0005985573062827912,
      "loss": 1.9017,
      "step": 2816
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4665699899196625,
      "learning_rate": 0.0005985562822832017,
      "loss": 2.045,
      "step": 2817
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47914862632751465,
      "learning_rate": 0.0005985552579212088,
      "loss": 1.8942,
      "step": 2818
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48402658104896545,
      "learning_rate": 0.0005985542331968138,
      "loss": 1.9381,
      "step": 2819
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.44925981760025024,
      "learning_rate": 0.000598553208110018,
      "loss": 1.9773,
      "step": 2820
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5086846351623535,
      "learning_rate": 0.0005985521826608225,
      "loss": 2.0344,
      "step": 2821
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.509750247001648,
      "learning_rate": 0.0005985511568492287,
      "loss": 1.936,
      "step": 2822
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.484497994184494,
      "learning_rate": 0.0005985501306752378,
      "loss": 2.0282,
      "step": 2823
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49316272139549255,
      "learning_rate": 0.0005985491041388511,
      "loss": 2.0635,
      "step": 2824
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4892164468765259,
      "learning_rate": 0.0005985480772400697,
      "loss": 2.0471,
      "step": 2825
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4694299101829529,
      "learning_rate": 0.0005985470499788949,
      "loss": 2.0326,
      "step": 2826
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.49625343084335327,
      "learning_rate": 0.0005985460223553279,
      "loss": 1.9934,
      "step": 2827
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4574940800666809,
      "learning_rate": 0.0005985449943693702,
      "loss": 1.9597,
      "step": 2828
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4768441915512085,
      "learning_rate": 0.0005985439660210227,
      "loss": 1.9784,
      "step": 2829
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.46214327216148376,
      "learning_rate": 0.0005985429373102869,
      "loss": 1.9847,
      "step": 2830
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48104679584503174,
      "learning_rate": 0.0005985419082371639,
      "loss": 2.0479,
      "step": 2831
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48157334327697754,
      "learning_rate": 0.0005985408788016551,
      "loss": 2.072,
      "step": 2832
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4668106138706207,
      "learning_rate": 0.0005985398490037616,
      "loss": 2.0376,
      "step": 2833
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4739672541618347,
      "learning_rate": 0.0005985388188434847,
      "loss": 1.9293,
      "step": 2834
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4832592010498047,
      "learning_rate": 0.0005985377883208257,
      "loss": 2.0142,
      "step": 2835
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5160173773765564,
      "learning_rate": 0.0005985367574357858,
      "loss": 2.1278,
      "step": 2836
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47141405940055847,
      "learning_rate": 0.0005985357261883664,
      "loss": 1.9869,
      "step": 2837
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4546114206314087,
      "learning_rate": 0.0005985346945785683,
      "loss": 1.9374,
      "step": 2838
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47585487365722656,
      "learning_rate": 0.0005985336626063933,
      "loss": 1.9547,
      "step": 2839
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4759639501571655,
      "learning_rate": 0.0005985326302718423,
      "loss": 1.9651,
      "step": 2840
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.47085824608802795,
      "learning_rate": 0.0005985315975749168,
      "loss": 1.9778,
      "step": 2841
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.44565802812576294,
      "learning_rate": 0.0005985305645156178,
      "loss": 1.9466,
      "step": 2842
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4553012251853943,
      "learning_rate": 0.0005985295310939468,
      "loss": 1.9758,
      "step": 2843
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4715828597545624,
      "learning_rate": 0.0005985284973099049,
      "loss": 1.9189,
      "step": 2844
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4687368869781494,
      "learning_rate": 0.0005985274631634934,
      "loss": 1.9569,
      "step": 2845
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.473764568567276,
      "learning_rate": 0.0005985264286547136,
      "loss": 2.1008,
      "step": 2846
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4555441737174988,
      "learning_rate": 0.0005985253937835666,
      "loss": 2.0339,
      "step": 2847
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4550454318523407,
      "learning_rate": 0.0005985243585500538,
      "loss": 1.9864,
      "step": 2848
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45375704765319824,
      "learning_rate": 0.0005985233229541763,
      "loss": 2.0086,
      "step": 2849
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4453229010105133,
      "learning_rate": 0.0005985222869959357,
      "loss": 1.9916,
      "step": 2850
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4626310169696808,
      "learning_rate": 0.0005985212506753329,
      "loss": 1.9304,
      "step": 2851
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45973047614097595,
      "learning_rate": 0.0005985202139923692,
      "loss": 1.9805,
      "step": 2852
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4788760542869568,
      "learning_rate": 0.000598519176947046,
      "loss": 2.0312,
      "step": 2853
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4678935408592224,
      "learning_rate": 0.0005985181395393646,
      "loss": 2.0063,
      "step": 2854
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4604710638523102,
      "learning_rate": 0.0005985171017693261,
      "loss": 2.0516,
      "step": 2855
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4535577893257141,
      "learning_rate": 0.0005985160636369318,
      "loss": 1.9966,
      "step": 2856
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48151397705078125,
      "learning_rate": 0.0005985150251421829,
      "loss": 2.0225,
      "step": 2857
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45990222692489624,
      "learning_rate": 0.0005985139862850809,
      "loss": 1.9597,
      "step": 2858
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46311208605766296,
      "learning_rate": 0.0005985129470656269,
      "loss": 1.9703,
      "step": 2859
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4783482551574707,
      "learning_rate": 0.0005985119074838222,
      "loss": 2.0299,
      "step": 2860
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47248438000679016,
      "learning_rate": 0.0005985108675396678,
      "loss": 1.936,
      "step": 2861
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47054150700569153,
      "learning_rate": 0.0005985098272331653,
      "loss": 1.9456,
      "step": 2862
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4711925685405731,
      "learning_rate": 0.0005985087865643159,
      "loss": 1.9318,
      "step": 2863
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4598124325275421,
      "learning_rate": 0.0005985077455331209,
      "loss": 2.0039,
      "step": 2864
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4827830195426941,
      "learning_rate": 0.0005985067041395813,
      "loss": 1.9814,
      "step": 2865
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46998995542526245,
      "learning_rate": 0.0005985056623836987,
      "loss": 1.9819,
      "step": 2866
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4873446822166443,
      "learning_rate": 0.0005985046202654741,
      "loss": 1.9979,
      "step": 2867
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4914700388908386,
      "learning_rate": 0.000598503577784909,
      "loss": 1.9316,
      "step": 2868
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4701588451862335,
      "learning_rate": 0.0005985025349420044,
      "loss": 2.0274,
      "step": 2869
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4614117741584778,
      "learning_rate": 0.0005985014917367616,
      "loss": 1.942,
      "step": 2870
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5048072338104248,
      "learning_rate": 0.0005985004481691823,
      "loss": 2.0289,
      "step": 2871
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4887906312942505,
      "learning_rate": 0.0005984994042392672,
      "loss": 2.037,
      "step": 2872
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.49637866020202637,
      "learning_rate": 0.0005984983599470179,
      "loss": 2.0313,
      "step": 2873
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5616869330406189,
      "learning_rate": 0.0005984973152924356,
      "loss": 2.0418,
      "step": 2874
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46557867527008057,
      "learning_rate": 0.0005984962702755214,
      "loss": 2.0075,
      "step": 2875
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47243833541870117,
      "learning_rate": 0.0005984952248962768,
      "loss": 1.921,
      "step": 2876
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4936571717262268,
      "learning_rate": 0.000598494179154703,
      "loss": 1.9606,
      "step": 2877
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4984095096588135,
      "learning_rate": 0.0005984931330508012,
      "loss": 1.9772,
      "step": 2878
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48719653487205505,
      "learning_rate": 0.0005984920865845728,
      "loss": 1.9872,
      "step": 2879
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5171453356742859,
      "learning_rate": 0.0005984910397560188,
      "loss": 2.0594,
      "step": 2880
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5128342509269714,
      "learning_rate": 0.0005984899925651409,
      "loss": 1.8964,
      "step": 2881
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4707784652709961,
      "learning_rate": 0.0005984889450119399,
      "loss": 2.0131,
      "step": 2882
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4969561696052551,
      "learning_rate": 0.0005984878970964174,
      "loss": 2.0278,
      "step": 2883
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5184569954872131,
      "learning_rate": 0.0005984868488185746,
      "loss": 2.0166,
      "step": 2884
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48509666323661804,
      "learning_rate": 0.0005984858001784127,
      "loss": 2.0608,
      "step": 2885
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48286905884742737,
      "learning_rate": 0.0005984847511759331,
      "loss": 1.9892,
      "step": 2886
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46583351492881775,
      "learning_rate": 0.0005984837018111369,
      "loss": 2.0829,
      "step": 2887
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48473864793777466,
      "learning_rate": 0.0005984826520840256,
      "loss": 1.9598,
      "step": 2888
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.489839643239975,
      "learning_rate": 0.0005984816019946002,
      "loss": 1.9365,
      "step": 2889
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4731464982032776,
      "learning_rate": 0.0005984805515428621,
      "loss": 2.0342,
      "step": 2890
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.477030485868454,
      "learning_rate": 0.0005984795007288128,
      "loss": 1.9933,
      "step": 2891
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.508823573589325,
      "learning_rate": 0.0005984784495524532,
      "loss": 2.0564,
      "step": 2892
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47129684686660767,
      "learning_rate": 0.0005984773980137847,
      "loss": 2.0378,
      "step": 2893
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4618988335132599,
      "learning_rate": 0.0005984763461128087,
      "loss": 2.016,
      "step": 2894
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5061407685279846,
      "learning_rate": 0.0005984752938495263,
      "loss": 1.9336,
      "step": 2895
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46067777276039124,
      "learning_rate": 0.0005984742412239389,
      "loss": 1.9268,
      "step": 2896
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45927634835243225,
      "learning_rate": 0.0005984731882360479,
      "loss": 2.0243,
      "step": 2897
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4937639832496643,
      "learning_rate": 0.0005984721348858543,
      "loss": 1.9516,
      "step": 2898
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4789717197418213,
      "learning_rate": 0.0005984710811733595,
      "loss": 2.0109,
      "step": 2899
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4574245512485504,
      "learning_rate": 0.0005984700270985647,
      "loss": 1.9781,
      "step": 2900
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4765574634075165,
      "learning_rate": 0.0005984689726614714,
      "loss": 1.9521,
      "step": 2901
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4690191447734833,
      "learning_rate": 0.0005984679178620808,
      "loss": 1.9658,
      "step": 2902
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4695355296134949,
      "learning_rate": 0.0005984668627003941,
      "loss": 1.9247,
      "step": 2903
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4718203842639923,
      "learning_rate": 0.0005984658071764125,
      "loss": 1.949,
      "step": 2904
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48471835255622864,
      "learning_rate": 0.0005984647512901374,
      "loss": 2.0106,
      "step": 2905
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4794180393218994,
      "learning_rate": 0.0005984636950415701,
      "loss": 2.0521,
      "step": 2906
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46031880378723145,
      "learning_rate": 0.0005984626384307119,
      "loss": 1.9879,
      "step": 2907
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48301419615745544,
      "learning_rate": 0.000598461581457564,
      "loss": 2.0215,
      "step": 2908
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4720017611980438,
      "learning_rate": 0.0005984605241221276,
      "loss": 1.9735,
      "step": 2909
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45286571979522705,
      "learning_rate": 0.0005984594664244043,
      "loss": 1.9721,
      "step": 2910
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45662572979927063,
      "learning_rate": 0.000598458408364395,
      "loss": 1.9384,
      "step": 2911
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4619089961051941,
      "learning_rate": 0.0005984573499421013,
      "loss": 1.9228,
      "step": 2912
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47013959288597107,
      "learning_rate": 0.0005984562911575243,
      "loss": 1.9792,
      "step": 2913
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4607774615287781,
      "learning_rate": 0.0005984552320106653,
      "loss": 1.9699,
      "step": 2914
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4652898609638214,
      "learning_rate": 0.0005984541725015257,
      "loss": 1.9693,
      "step": 2915
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47919413447380066,
      "learning_rate": 0.0005984531126301066,
      "loss": 1.964,
      "step": 2916
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45601940155029297,
      "learning_rate": 0.0005984520523964096,
      "loss": 1.9774,
      "step": 2917
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48087212443351746,
      "learning_rate": 0.0005984509918004356,
      "loss": 1.9931,
      "step": 2918
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4815153479576111,
      "learning_rate": 0.0005984499308421861,
      "loss": 2.0052,
      "step": 2919
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46591469645500183,
      "learning_rate": 0.0005984488695216625,
      "loss": 1.9899,
      "step": 2920
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4805293381214142,
      "learning_rate": 0.0005984478078388657,
      "loss": 2.0076,
      "step": 2921
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45913246273994446,
      "learning_rate": 0.0005984467457937974,
      "loss": 1.9491,
      "step": 2922
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.464971661567688,
      "learning_rate": 0.0005984456833864587,
      "loss": 1.978,
      "step": 2923
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46084001660346985,
      "learning_rate": 0.0005984446206168509,
      "loss": 1.9328,
      "step": 2924
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4565276801586151,
      "learning_rate": 0.0005984435574849753,
      "loss": 1.9602,
      "step": 2925
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47468358278274536,
      "learning_rate": 0.0005984424939908332,
      "loss": 1.9252,
      "step": 2926
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4533027708530426,
      "learning_rate": 0.0005984414301344259,
      "loss": 1.9055,
      "step": 2927
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4678756296634674,
      "learning_rate": 0.0005984403659157547,
      "loss": 2.0317,
      "step": 2928
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.49104997515678406,
      "learning_rate": 0.0005984393013348208,
      "loss": 2.0137,
      "step": 2929
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4633742868900299,
      "learning_rate": 0.0005984382363916255,
      "loss": 1.8975,
      "step": 2930
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.461382120847702,
      "learning_rate": 0.0005984371710861704,
      "loss": 1.9392,
      "step": 2931
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5081509947776794,
      "learning_rate": 0.0005984361054184563,
      "loss": 2.0083,
      "step": 2932
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47588708996772766,
      "learning_rate": 0.000598435039388485,
      "loss": 2.023,
      "step": 2933
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48368602991104126,
      "learning_rate": 0.0005984339729962573,
      "loss": 1.9432,
      "step": 2934
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4951629340648651,
      "learning_rate": 0.0005984329062417747,
      "loss": 1.9289,
      "step": 2935
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4605948328971863,
      "learning_rate": 0.0005984318391250387,
      "loss": 1.9274,
      "step": 2936
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4785570502281189,
      "learning_rate": 0.0005984307716460504,
      "loss": 1.9318,
      "step": 2937
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4920080304145813,
      "learning_rate": 0.000598429703804811,
      "loss": 2.0341,
      "step": 2938
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45880407094955444,
      "learning_rate": 0.000598428635601322,
      "loss": 2.0282,
      "step": 2939
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4934786558151245,
      "learning_rate": 0.0005984275670355846,
      "loss": 2.0175,
      "step": 2940
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4880155026912689,
      "learning_rate": 0.0005984264981076001,
      "loss": 1.9711,
      "step": 2941
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4782862961292267,
      "learning_rate": 0.0005984254288173697,
      "loss": 1.8988,
      "step": 2942
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5083089470863342,
      "learning_rate": 0.0005984243591648949,
      "loss": 1.9838,
      "step": 2943
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5131198763847351,
      "learning_rate": 0.000598423289150177,
      "loss": 1.9759,
      "step": 2944
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46094396710395813,
      "learning_rate": 0.000598422218773217,
      "loss": 2.0038,
      "step": 2945
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4820258319377899,
      "learning_rate": 0.0005984211480340165,
      "loss": 1.9813,
      "step": 2946
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4956805408000946,
      "learning_rate": 0.0005984200769325767,
      "loss": 1.9775,
      "step": 2947
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4805871248245239,
      "learning_rate": 0.0005984190054688989,
      "loss": 1.9809,
      "step": 2948
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4762290120124817,
      "learning_rate": 0.0005984179336429844,
      "loss": 1.915,
      "step": 2949
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.49264824390411377,
      "learning_rate": 0.0005984168614548344,
      "loss": 1.9856,
      "step": 2950
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47537484765052795,
      "learning_rate": 0.0005984157889044504,
      "loss": 1.9277,
      "step": 2951
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46362724900245667,
      "learning_rate": 0.0005984147159918336,
      "loss": 1.9737,
      "step": 2952
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5010947585105896,
      "learning_rate": 0.0005984136427169852,
      "loss": 1.9351,
      "step": 2953
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5003449320793152,
      "learning_rate": 0.0005984125690799068,
      "loss": 1.964,
      "step": 2954
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4683912992477417,
      "learning_rate": 0.0005984114950805992,
      "loss": 1.9789,
      "step": 2955
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5122321844100952,
      "learning_rate": 0.0005984104207190644,
      "loss": 1.9554,
      "step": 2956
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4872570037841797,
      "learning_rate": 0.000598409345995303,
      "loss": 1.9548,
      "step": 2957
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.464031457901001,
      "learning_rate": 0.0005984082709093167,
      "loss": 1.9154,
      "step": 2958
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5114568471908569,
      "learning_rate": 0.0005984071954611068,
      "loss": 2.0251,
      "step": 2959
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4870252013206482,
      "learning_rate": 0.0005984061196506746,
      "loss": 2.0047,
      "step": 2960
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4582957625389099,
      "learning_rate": 0.0005984050434780212,
      "loss": 1.9389,
      "step": 2961
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4839228093624115,
      "learning_rate": 0.0005984039669431481,
      "loss": 1.9201,
      "step": 2962
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4912426471710205,
      "learning_rate": 0.0005984028900460565,
      "loss": 1.9665,
      "step": 2963
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4852399528026581,
      "learning_rate": 0.0005984018127867479,
      "loss": 1.9707,
      "step": 2964
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4741870164871216,
      "learning_rate": 0.0005984007351652233,
      "loss": 1.957,
      "step": 2965
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4839998483657837,
      "learning_rate": 0.0005983996571814843,
      "loss": 1.9918,
      "step": 2966
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4708799123764038,
      "learning_rate": 0.000598398578835532,
      "loss": 1.9957,
      "step": 2967
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46435800194740295,
      "learning_rate": 0.0005983975001273678,
      "loss": 1.9258,
      "step": 2968
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47093209624290466,
      "learning_rate": 0.000598396421056993,
      "loss": 1.9366,
      "step": 2969
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4797789454460144,
      "learning_rate": 0.000598395341624409,
      "loss": 1.9547,
      "step": 2970
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4590575695037842,
      "learning_rate": 0.0005983942618296168,
      "loss": 1.9825,
      "step": 2971
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4716798961162567,
      "learning_rate": 0.0005983931816726183,
      "loss": 2.0341,
      "step": 2972
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4626722037792206,
      "learning_rate": 0.0005983921011534141,
      "loss": 1.9802,
      "step": 2973
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4630064368247986,
      "learning_rate": 0.000598391020272006,
      "loss": 2.0256,
      "step": 2974
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46040183305740356,
      "learning_rate": 0.0005983899390283951,
      "loss": 2.0276,
      "step": 2975
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4765946567058563,
      "learning_rate": 0.000598388857422583,
      "loss": 1.9398,
      "step": 2976
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.458854079246521,
      "learning_rate": 0.0005983877754545705,
      "loss": 1.9455,
      "step": 2977
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47756391763687134,
      "learning_rate": 0.0005983866931243594,
      "loss": 1.9551,
      "step": 2978
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45952820777893066,
      "learning_rate": 0.0005983856104319508,
      "loss": 2.0535,
      "step": 2979
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4654628038406372,
      "learning_rate": 0.000598384527377346,
      "loss": 2.0266,
      "step": 2980
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5020890831947327,
      "learning_rate": 0.0005983834439605462,
      "loss": 2.0766,
      "step": 2981
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4480483829975128,
      "learning_rate": 0.0005983823601815529,
      "loss": 1.9298,
      "step": 2982
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4666069746017456,
      "learning_rate": 0.0005983812760403676,
      "loss": 1.9814,
      "step": 2983
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4962475895881653,
      "learning_rate": 0.0005983801915369914,
      "loss": 1.9829,
      "step": 2984
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4527877867221832,
      "learning_rate": 0.0005983791066714254,
      "loss": 1.9761,
      "step": 2985
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48050442337989807,
      "learning_rate": 0.0005983780214436713,
      "loss": 1.9696,
      "step": 2986
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47657057642936707,
      "learning_rate": 0.0005983769358537301,
      "loss": 1.9743,
      "step": 2987
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47406893968582153,
      "learning_rate": 0.0005983758499016033,
      "loss": 2.009,
      "step": 2988
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47157517075538635,
      "learning_rate": 0.0005983747635872922,
      "loss": 1.9181,
      "step": 2989
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.480459988117218,
      "learning_rate": 0.0005983736769107981,
      "loss": 1.9359,
      "step": 2990
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48152104020118713,
      "learning_rate": 0.0005983725898721223,
      "loss": 1.9856,
      "step": 2991
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47531095147132874,
      "learning_rate": 0.0005983715024712661,
      "loss": 1.888,
      "step": 2992
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4494025409221649,
      "learning_rate": 0.0005983704147082311,
      "loss": 1.8513,
      "step": 2993
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47403788566589355,
      "learning_rate": 0.0005983693265830181,
      "loss": 1.907,
      "step": 2994
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46955782175064087,
      "learning_rate": 0.0005983682380956288,
      "loss": 1.9928,
      "step": 2995
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4631146788597107,
      "learning_rate": 0.0005983671492460644,
      "loss": 1.9185,
      "step": 2996
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4673387408256531,
      "learning_rate": 0.0005983660600343263,
      "loss": 2.0031,
      "step": 2997
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47363927960395813,
      "learning_rate": 0.0005983649704604157,
      "loss": 2.0182,
      "step": 2998
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4639486074447632,
      "learning_rate": 0.000598363880524334,
      "loss": 1.9969,
      "step": 2999
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4583533704280853,
      "learning_rate": 0.0005983627902260826,
      "loss": 2.0048,
      "step": 3000
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4501003623008728,
      "learning_rate": 0.0005983616995656626,
      "loss": 1.9996,
      "step": 3001
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46804875135421753,
      "learning_rate": 0.0005983606085430756,
      "loss": 1.9551,
      "step": 3002
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45017892122268677,
      "learning_rate": 0.0005983595171583227,
      "loss": 1.8888,
      "step": 3003
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4484257102012634,
      "learning_rate": 0.0005983584254114053,
      "loss": 1.932,
      "step": 3004
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4765784442424774,
      "learning_rate": 0.0005983573333023247,
      "loss": 2.0134,
      "step": 3005
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45690757036209106,
      "learning_rate": 0.0005983562408310823,
      "loss": 1.939,
      "step": 3006
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46685677766799927,
      "learning_rate": 0.0005983551479976794,
      "loss": 1.9918,
      "step": 3007
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47093304991722107,
      "learning_rate": 0.0005983540548021173,
      "loss": 1.9355,
      "step": 3008
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.467180997133255,
      "learning_rate": 0.0005983529612443974,
      "loss": 1.9495,
      "step": 3009
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4840784966945648,
      "learning_rate": 0.0005983518673245208,
      "loss": 1.8681,
      "step": 3010
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46527329087257385,
      "learning_rate": 0.0005983507730424892,
      "loss": 1.9341,
      "step": 3011
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4707736372947693,
      "learning_rate": 0.0005983496783983035,
      "loss": 1.9966,
      "step": 3012
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4756850004196167,
      "learning_rate": 0.0005983485833919654,
      "loss": 2.009,
      "step": 3013
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4670049548149109,
      "learning_rate": 0.0005983474880234761,
      "loss": 1.9645,
      "step": 3014
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4496251344680786,
      "learning_rate": 0.0005983463922928368,
      "loss": 1.9976,
      "step": 3015
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47982776165008545,
      "learning_rate": 0.0005983452962000491,
      "loss": 2.0159,
      "step": 3016
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47740352153778076,
      "learning_rate": 0.0005983441997451139,
      "loss": 1.9675,
      "step": 3017
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4624023735523224,
      "learning_rate": 0.000598343102928033,
      "loss": 2.0259,
      "step": 3018
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4727901518344879,
      "learning_rate": 0.0005983420057488075,
      "loss": 1.9796,
      "step": 3019
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4779941141605377,
      "learning_rate": 0.0005983409082074389,
      "loss": 1.9431,
      "step": 3020
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4597238004207611,
      "learning_rate": 0.0005983398103039282,
      "loss": 1.9642,
      "step": 3021
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47285354137420654,
      "learning_rate": 0.000598338712038277,
      "loss": 1.949,
      "step": 3022
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4694264531135559,
      "learning_rate": 0.0005983376134104865,
      "loss": 1.9675,
      "step": 3023
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4605972468852997,
      "learning_rate": 0.0005983365144205581,
      "loss": 1.9486,
      "step": 3024
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4506935477256775,
      "learning_rate": 0.0005983354150684932,
      "loss": 1.9014,
      "step": 3025
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4675922393798828,
      "learning_rate": 0.0005983343153542931,
      "loss": 1.9327,
      "step": 3026
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45899492502212524,
      "learning_rate": 0.000598333215277959,
      "loss": 1.9654,
      "step": 3027
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45561736822128296,
      "learning_rate": 0.0005983321148394923,
      "loss": 1.9996,
      "step": 3028
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4561186730861664,
      "learning_rate": 0.0005983310140388945,
      "loss": 2.0082,
      "step": 3029
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46479126811027527,
      "learning_rate": 0.0005983299128761667,
      "loss": 2.0023,
      "step": 3030
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4575969874858856,
      "learning_rate": 0.0005983288113513104,
      "loss": 1.9948,
      "step": 3031
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4655359089374542,
      "learning_rate": 0.0005983277094643269,
      "loss": 1.9107,
      "step": 3032
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45972487330436707,
      "learning_rate": 0.0005983266072152175,
      "loss": 1.9832,
      "step": 3033
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4660933017730713,
      "learning_rate": 0.0005983255046039835,
      "loss": 1.9742,
      "step": 3034
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5206528902053833,
      "learning_rate": 0.0005983244016306263,
      "loss": 1.9502,
      "step": 3035
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4853050708770752,
      "learning_rate": 0.0005983232982951473,
      "loss": 2.0795,
      "step": 3036
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4780459403991699,
      "learning_rate": 0.0005983221945975477,
      "loss": 1.9726,
      "step": 3037
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4572308361530304,
      "learning_rate": 0.0005983210905378289,
      "loss": 1.9508,
      "step": 3038
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46330592036247253,
      "learning_rate": 0.0005983199861159923,
      "loss": 2.0029,
      "step": 3039
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4624086320400238,
      "learning_rate": 0.0005983188813320393,
      "loss": 1.952,
      "step": 3040
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4477328658103943,
      "learning_rate": 0.000598317776185971,
      "loss": 1.9667,
      "step": 3041
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.44510382413864136,
      "learning_rate": 0.0005983166706777889,
      "loss": 1.9772,
      "step": 3042
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4932883083820343,
      "learning_rate": 0.0005983155648074944,
      "loss": 1.9632,
      "step": 3043
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45731502771377563,
      "learning_rate": 0.0005983144585750886,
      "loss": 1.9336,
      "step": 3044
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46648499369621277,
      "learning_rate": 0.000598313351980573,
      "loss": 1.9249,
      "step": 3045
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5089960098266602,
      "learning_rate": 0.0005983122450239491,
      "loss": 2.0327,
      "step": 3046
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46681979298591614,
      "learning_rate": 0.000598311137705218,
      "loss": 1.9231,
      "step": 3047
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4873941242694855,
      "learning_rate": 0.0005983100300243811,
      "loss": 1.9736,
      "step": 3048
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4994366466999054,
      "learning_rate": 0.0005983089219814398,
      "loss": 1.8556,
      "step": 3049
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4565739631652832,
      "learning_rate": 0.0005983078135763955,
      "loss": 1.9858,
      "step": 3050
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5081095695495605,
      "learning_rate": 0.0005983067048092494,
      "loss": 2.0022,
      "step": 3051
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47545936703681946,
      "learning_rate": 0.000598305595680003,
      "loss": 1.9658,
      "step": 3052
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4724839925765991,
      "learning_rate": 0.0005983044861886574,
      "loss": 1.9689,
      "step": 3053
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4693039655685425,
      "learning_rate": 0.0005983033763352142,
      "loss": 2.0014,
      "step": 3054
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47100934386253357,
      "learning_rate": 0.0005983022661196747,
      "loss": 2.0332,
      "step": 3055
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45783427357673645,
      "learning_rate": 0.00059830115554204,
      "loss": 1.8572,
      "step": 3056
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.485221266746521,
      "learning_rate": 0.0005983000446023119,
      "loss": 1.9856,
      "step": 3057
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4980063736438751,
      "learning_rate": 0.0005982989333004914,
      "loss": 1.9299,
      "step": 3058
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.49827152490615845,
      "learning_rate": 0.00059829782163658,
      "loss": 1.9803,
      "step": 3059
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46703213453292847,
      "learning_rate": 0.0005982967096105789,
      "loss": 1.9069,
      "step": 3060
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5032950639724731,
      "learning_rate": 0.0005982955972224896,
      "loss": 1.9282,
      "step": 3061
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45178940892219543,
      "learning_rate": 0.0005982944844723133,
      "loss": 1.9691,
      "step": 3062
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46700286865234375,
      "learning_rate": 0.0005982933713600516,
      "loss": 1.9507,
      "step": 3063
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4892186224460602,
      "learning_rate": 0.0005982922578857056,
      "loss": 1.9181,
      "step": 3064
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4956052601337433,
      "learning_rate": 0.0005982911440492768,
      "loss": 1.9078,
      "step": 3065
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45482781529426575,
      "learning_rate": 0.0005982900298507664,
      "loss": 1.8608,
      "step": 3066
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5031960606575012,
      "learning_rate": 0.000598288915290176,
      "loss": 1.9555,
      "step": 3067
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46787789463996887,
      "learning_rate": 0.0005982878003675067,
      "loss": 1.9556,
      "step": 3068
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4621261656284332,
      "learning_rate": 0.00059828668508276,
      "loss": 1.9429,
      "step": 3069
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4759731888771057,
      "learning_rate": 0.0005982855694359373,
      "loss": 1.909,
      "step": 3070
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4923769235610962,
      "learning_rate": 0.0005982844534270398,
      "loss": 2.0135,
      "step": 3071
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4666678309440613,
      "learning_rate": 0.0005982833370560688,
      "loss": 1.9183,
      "step": 3072
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4760437309741974,
      "learning_rate": 0.000598282220323026,
      "loss": 2.0091,
      "step": 3073
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4990135133266449,
      "learning_rate": 0.0005982811032279123,
      "loss": 1.9736,
      "step": 3074
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4655836224555969,
      "learning_rate": 0.0005982799857707295,
      "loss": 1.9132,
      "step": 3075
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46399685740470886,
      "learning_rate": 0.0005982788679514786,
      "loss": 1.9568,
      "step": 3076
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4819234311580658,
      "learning_rate": 0.0005982777497701612,
      "loss": 1.9391,
      "step": 3077
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47974124550819397,
      "learning_rate": 0.0005982766312267785,
      "loss": 1.9394,
      "step": 3078
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48686841130256653,
      "learning_rate": 0.000598275512321332,
      "loss": 1.967,
      "step": 3079
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4667030870914459,
      "learning_rate": 0.0005982743930538229,
      "loss": 1.9481,
      "step": 3080
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.458149254322052,
      "learning_rate": 0.0005982732734242527,
      "loss": 1.9854,
      "step": 3081
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45155125856399536,
      "learning_rate": 0.0005982721534326227,
      "loss": 2.0257,
      "step": 3082
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5035184621810913,
      "learning_rate": 0.0005982710330789342,
      "loss": 1.9355,
      "step": 3083
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4573138952255249,
      "learning_rate": 0.0005982699123631885,
      "loss": 1.9794,
      "step": 3084
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4730153977870941,
      "learning_rate": 0.0005982687912853873,
      "loss": 2.0217,
      "step": 3085
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45840343832969666,
      "learning_rate": 0.0005982676698455317,
      "loss": 1.9854,
      "step": 3086
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4736582040786743,
      "learning_rate": 0.0005982665480436229,
      "loss": 1.9405,
      "step": 3087
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4665621817111969,
      "learning_rate": 0.0005982654258796627,
      "loss": 1.9132,
      "step": 3088
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46783751249313354,
      "learning_rate": 0.000598264303353652,
      "loss": 2.0026,
      "step": 3089
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5083834528923035,
      "learning_rate": 0.0005982631804655925,
      "loss": 1.9477,
      "step": 3090
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47160711884498596,
      "learning_rate": 0.0005982620572154854,
      "loss": 1.8805,
      "step": 3091
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4634742736816406,
      "learning_rate": 0.0005982609336033322,
      "loss": 2.0192,
      "step": 3092
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47985416650772095,
      "learning_rate": 0.0005982598096291341,
      "loss": 2.0428,
      "step": 3093
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47992581129074097,
      "learning_rate": 0.0005982586852928926,
      "loss": 1.931,
      "step": 3094
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4819363057613373,
      "learning_rate": 0.000598257560594609,
      "loss": 1.8778,
      "step": 3095
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4981103241443634,
      "learning_rate": 0.0005982564355342846,
      "loss": 2.0063,
      "step": 3096
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4514337480068207,
      "learning_rate": 0.0005982553101119207,
      "loss": 1.937,
      "step": 3097
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45693570375442505,
      "learning_rate": 0.0005982541843275191,
      "loss": 1.9307,
      "step": 3098
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4720735549926758,
      "learning_rate": 0.0005982530581810807,
      "loss": 2.0077,
      "step": 3099
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4760143458843231,
      "learning_rate": 0.000598251931672607,
      "loss": 1.9442,
      "step": 3100
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4730042815208435,
      "learning_rate": 0.0005982508048020995,
      "loss": 1.9957,
      "step": 3101
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4497334957122803,
      "learning_rate": 0.0005982496775695595,
      "loss": 1.927,
      "step": 3102
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4862586557865143,
      "learning_rate": 0.0005982485499749882,
      "loss": 2.0684,
      "step": 3103
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4504830837249756,
      "learning_rate": 0.0005982474220183871,
      "loss": 1.9828,
      "step": 3104
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48793667554855347,
      "learning_rate": 0.0005982462936997577,
      "loss": 1.9968,
      "step": 3105
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48532426357269287,
      "learning_rate": 0.0005982451650191012,
      "loss": 1.9227,
      "step": 3106
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4446304738521576,
      "learning_rate": 0.000598244035976419,
      "loss": 1.9378,
      "step": 3107
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.482902467250824,
      "learning_rate": 0.0005982429065717125,
      "loss": 1.9867,
      "step": 3108
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46117478609085083,
      "learning_rate": 0.000598241776804983,
      "loss": 1.9974,
      "step": 3109
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4600599408149719,
      "learning_rate": 0.000598240646676232,
      "loss": 1.9838,
      "step": 3110
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4624824523925781,
      "learning_rate": 0.0005982395161854607,
      "loss": 1.9813,
      "step": 3111
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4747900068759918,
      "learning_rate": 0.0005982383853326707,
      "loss": 2.0938,
      "step": 3112
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45050904154777527,
      "learning_rate": 0.0005982372541178631,
      "loss": 1.97,
      "step": 3113
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4641396105289459,
      "learning_rate": 0.0005982361225410395,
      "loss": 1.9119,
      "step": 3114
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4801253378391266,
      "learning_rate": 0.0005982349906022012,
      "loss": 1.9433,
      "step": 3115
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45945483446121216,
      "learning_rate": 0.0005982338583013496,
      "loss": 1.9398,
      "step": 3116
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45450159907341003,
      "learning_rate": 0.0005982327256384859,
      "loss": 1.8868,
      "step": 3117
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4707413613796234,
      "learning_rate": 0.0005982315926136117,
      "loss": 1.9073,
      "step": 3118
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4560719430446625,
      "learning_rate": 0.0005982304592267283,
      "loss": 1.9367,
      "step": 3119
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4534398913383484,
      "learning_rate": 0.0005982293254778371,
      "loss": 1.9234,
      "step": 3120
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45938289165496826,
      "learning_rate": 0.0005982281913669395,
      "loss": 1.8754,
      "step": 3121
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.44899025559425354,
      "learning_rate": 0.0005982270568940366,
      "loss": 1.9577,
      "step": 3122
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4629271626472473,
      "learning_rate": 0.0005982259220591302,
      "loss": 1.9978,
      "step": 3123
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4680502712726593,
      "learning_rate": 0.0005982247868622213,
      "loss": 2.0024,
      "step": 3124
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.44612404704093933,
      "learning_rate": 0.0005982236513033116,
      "loss": 1.9242,
      "step": 3125
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4740424156188965,
      "learning_rate": 0.0005982225153824023,
      "loss": 2.0074,
      "step": 3126
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4545837938785553,
      "learning_rate": 0.0005982213790994947,
      "loss": 1.8858,
      "step": 3127
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4652990400791168,
      "learning_rate": 0.0005982202424545903,
      "loss": 1.9658,
      "step": 3128
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4643170237541199,
      "learning_rate": 0.0005982191054476906,
      "loss": 1.8421,
      "step": 3129
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48337680101394653,
      "learning_rate": 0.0005982179680787968,
      "loss": 1.9493,
      "step": 3130
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46003270149230957,
      "learning_rate": 0.0005982168303479102,
      "loss": 1.984,
      "step": 3131
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45649200677871704,
      "learning_rate": 0.0005982156922550324,
      "loss": 1.9367,
      "step": 3132
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47795945405960083,
      "learning_rate": 0.0005982145538001647,
      "loss": 1.919,
      "step": 3133
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.44787779450416565,
      "learning_rate": 0.0005982134149833085,
      "loss": 1.8809,
      "step": 3134
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4785766303539276,
      "learning_rate": 0.0005982122758044651,
      "loss": 1.8445,
      "step": 3135
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46759873628616333,
      "learning_rate": 0.000598211136263636,
      "loss": 1.9638,
      "step": 3136
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46206575632095337,
      "learning_rate": 0.0005982099963608223,
      "loss": 1.9815,
      "step": 3137
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47470852732658386,
      "learning_rate": 0.0005982088560960259,
      "loss": 1.9964,
      "step": 3138
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48622816801071167,
      "learning_rate": 0.0005982077154692478,
      "loss": 2.0136,
      "step": 3139
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.473915159702301,
      "learning_rate": 0.0005982065744804893,
      "loss": 2.0185,
      "step": 3140
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4744058847427368,
      "learning_rate": 0.0005982054331297522,
      "loss": 2.0198,
      "step": 3141
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4841473698616028,
      "learning_rate": 0.0005982042914170375,
      "loss": 2.0061,
      "step": 3142
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4475008249282837,
      "learning_rate": 0.0005982031493423468,
      "loss": 1.9226,
      "step": 3143
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4443657696247101,
      "learning_rate": 0.0005982020069056814,
      "loss": 1.887,
      "step": 3144
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4680742025375366,
      "learning_rate": 0.0005982008641070426,
      "loss": 2.0004,
      "step": 3145
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4620439410209656,
      "learning_rate": 0.000598199720946432,
      "loss": 1.9355,
      "step": 3146
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4692157208919525,
      "learning_rate": 0.0005981985774238509,
      "loss": 1.9115,
      "step": 3147
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45783165097236633,
      "learning_rate": 0.0005981974335393006,
      "loss": 1.9587,
      "step": 3148
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45895445346832275,
      "learning_rate": 0.0005981962892927825,
      "loss": 2.0149,
      "step": 3149
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4541885256767273,
      "learning_rate": 0.0005981951446842981,
      "loss": 2.001,
      "step": 3150
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.44932830333709717,
      "learning_rate": 0.0005981939997138487,
      "loss": 1.9261,
      "step": 3151
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4596976935863495,
      "learning_rate": 0.0005981928543814358,
      "loss": 1.9941,
      "step": 3152
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4577505588531494,
      "learning_rate": 0.0005981917086870607,
      "loss": 1.957,
      "step": 3153
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4585613012313843,
      "learning_rate": 0.0005981905626307247,
      "loss": 1.9424,
      "step": 3154
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4596557915210724,
      "learning_rate": 0.0005981894162124294,
      "loss": 1.9138,
      "step": 3155
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45522868633270264,
      "learning_rate": 0.0005981882694321762,
      "loss": 2.0374,
      "step": 3156
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4691418707370758,
      "learning_rate": 0.000598187122289966,
      "loss": 1.95,
      "step": 3157
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4530431032180786,
      "learning_rate": 0.0005981859747858009,
      "loss": 1.8818,
      "step": 3158
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48754116892814636,
      "learning_rate": 0.0005981848269196818,
      "loss": 1.9534,
      "step": 3159
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46452200412750244,
      "learning_rate": 0.0005981836786916104,
      "loss": 1.9049,
      "step": 3160
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4526725113391876,
      "learning_rate": 0.0005981825301015879,
      "loss": 1.8936,
      "step": 3161
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4587843418121338,
      "learning_rate": 0.0005981813811496156,
      "loss": 1.8844,
      "step": 3162
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4851638972759247,
      "learning_rate": 0.0005981802318356952,
      "loss": 1.9535,
      "step": 3163
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4622476398944855,
      "learning_rate": 0.0005981790821598279,
      "loss": 1.8626,
      "step": 3164
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45250770449638367,
      "learning_rate": 0.0005981779321220151,
      "loss": 1.9423,
      "step": 3165
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47033974528312683,
      "learning_rate": 0.0005981767817222583,
      "loss": 1.9901,
      "step": 3166
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4816402196884155,
      "learning_rate": 0.0005981756309605587,
      "loss": 2.0377,
      "step": 3167
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4622952938079834,
      "learning_rate": 0.000598174479836918,
      "loss": 1.9523,
      "step": 3168
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47473520040512085,
      "learning_rate": 0.0005981733283513371,
      "loss": 2.0095,
      "step": 3169
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4779161214828491,
      "learning_rate": 0.000598172176503818,
      "loss": 2.0384,
      "step": 3170
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4521547555923462,
      "learning_rate": 0.0005981710242943617,
      "loss": 1.9344,
      "step": 3171
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47264015674591064,
      "learning_rate": 0.0005981698717229697,
      "loss": 1.9128,
      "step": 3172
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46195289492607117,
      "learning_rate": 0.0005981687187896434,
      "loss": 1.9023,
      "step": 3173
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45053631067276,
      "learning_rate": 0.0005981675654943842,
      "loss": 1.9543,
      "step": 3174
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48830029368400574,
      "learning_rate": 0.0005981664118371936,
      "loss": 1.9584,
      "step": 3175
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4768262207508087,
      "learning_rate": 0.0005981652578180729,
      "loss": 1.9675,
      "step": 3176
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4843844473361969,
      "learning_rate": 0.0005981641034370234,
      "loss": 1.8973,
      "step": 3177
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45520538091659546,
      "learning_rate": 0.0005981629486940467,
      "loss": 1.9561,
      "step": 3178
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4632326364517212,
      "learning_rate": 0.0005981617935891441,
      "loss": 1.9838,
      "step": 3179
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47524431347846985,
      "learning_rate": 0.000598160638122317,
      "loss": 1.9052,
      "step": 3180
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4729512631893158,
      "learning_rate": 0.0005981594822935669,
      "loss": 1.9204,
      "step": 3181
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46727100014686584,
      "learning_rate": 0.0005981583261028949,
      "loss": 1.9872,
      "step": 3182
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4567136764526367,
      "learning_rate": 0.0005981571695503028,
      "loss": 1.9272,
      "step": 3183
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44749563932418823,
      "learning_rate": 0.0005981560126357919,
      "loss": 1.9728,
      "step": 3184
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4688372313976288,
      "learning_rate": 0.0005981548553593634,
      "loss": 1.9567,
      "step": 3185
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46232935786247253,
      "learning_rate": 0.0005981536977210188,
      "loss": 1.8641,
      "step": 3186
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48108577728271484,
      "learning_rate": 0.0005981525397207596,
      "loss": 2.0275,
      "step": 3187
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46337518095970154,
      "learning_rate": 0.0005981513813585872,
      "loss": 1.9276,
      "step": 3188
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4516023099422455,
      "learning_rate": 0.0005981502226345029,
      "loss": 1.8534,
      "step": 3189
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46991032361984253,
      "learning_rate": 0.0005981490635485081,
      "loss": 1.9904,
      "step": 3190
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4725697934627533,
      "learning_rate": 0.0005981479041006044,
      "loss": 2.0003,
      "step": 3191
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4663584530353546,
      "learning_rate": 0.000598146744290793,
      "loss": 1.9682,
      "step": 3192
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4564180374145508,
      "learning_rate": 0.0005981455841190754,
      "loss": 1.911,
      "step": 3193
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4700571894645691,
      "learning_rate": 0.000598144423585453,
      "loss": 1.9689,
      "step": 3194
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46556708216667175,
      "learning_rate": 0.0005981432626899271,
      "loss": 1.9367,
      "step": 3195
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46605369448661804,
      "learning_rate": 0.0005981421014324994,
      "loss": 1.9435,
      "step": 3196
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4605207145214081,
      "learning_rate": 0.0005981409398131709,
      "loss": 1.9717,
      "step": 3197
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4569545090198517,
      "learning_rate": 0.0005981397778319434,
      "loss": 1.949,
      "step": 3198
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47940000891685486,
      "learning_rate": 0.000598138615488818,
      "loss": 1.9655,
      "step": 3199
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4656640589237213,
      "learning_rate": 0.0005981374527837963,
      "loss": 1.9343,
      "step": 3200
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4752119183540344,
      "learning_rate": 0.0005981362897168797,
      "loss": 1.987,
      "step": 3201
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4595526456832886,
      "learning_rate": 0.0005981351262880696,
      "loss": 1.9595,
      "step": 3202
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.468336284160614,
      "learning_rate": 0.0005981339624973673,
      "loss": 1.9846,
      "step": 3203
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46711936593055725,
      "learning_rate": 0.0005981327983447744,
      "loss": 1.9426,
      "step": 3204
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46908047795295715,
      "learning_rate": 0.0005981316338302921,
      "loss": 2.0603,
      "step": 3205
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45897677540779114,
      "learning_rate": 0.000598130468953922,
      "loss": 1.9578,
      "step": 3206
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46828535199165344,
      "learning_rate": 0.0005981293037156653,
      "loss": 1.9101,
      "step": 3207
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47116613388061523,
      "learning_rate": 0.0005981281381155238,
      "loss": 1.9703,
      "step": 3208
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4481576979160309,
      "learning_rate": 0.0005981269721534985,
      "loss": 1.9847,
      "step": 3209
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4553675353527069,
      "learning_rate": 0.000598125805829591,
      "loss": 1.9573,
      "step": 3210
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46058258414268494,
      "learning_rate": 0.0005981246391438028,
      "loss": 1.9211,
      "step": 3211
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46547314524650574,
      "learning_rate": 0.0005981234720961351,
      "loss": 1.9466,
      "step": 3212
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4688865542411804,
      "learning_rate": 0.0005981223046865894,
      "loss": 1.9037,
      "step": 3213
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4522068202495575,
      "learning_rate": 0.0005981211369151672,
      "loss": 1.9372,
      "step": 3214
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46538224816322327,
      "learning_rate": 0.0005981199687818699,
      "loss": 1.9659,
      "step": 3215
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4711386561393738,
      "learning_rate": 0.0005981188002866988,
      "loss": 2.0198,
      "step": 3216
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4529559016227722,
      "learning_rate": 0.0005981176314296555,
      "loss": 1.8771,
      "step": 3217
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46541643142700195,
      "learning_rate": 0.0005981164622107412,
      "loss": 1.9318,
      "step": 3218
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4549058973789215,
      "learning_rate": 0.0005981152926299576,
      "loss": 1.9739,
      "step": 3219
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4684121310710907,
      "learning_rate": 0.0005981141226873059,
      "loss": 2.0575,
      "step": 3220
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48104479908943176,
      "learning_rate": 0.0005981129523827876,
      "loss": 2.041,
      "step": 3221
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4641743004322052,
      "learning_rate": 0.000598111781716404,
      "loss": 2.0012,
      "step": 3222
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4742780327796936,
      "learning_rate": 0.0005981106106881566,
      "loss": 1.8874,
      "step": 3223
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4846299886703491,
      "learning_rate": 0.0005981094392980469,
      "loss": 1.8957,
      "step": 3224
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45858514308929443,
      "learning_rate": 0.0005981082675460764,
      "loss": 1.8916,
      "step": 3225
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45857807993888855,
      "learning_rate": 0.0005981070954322463,
      "loss": 1.971,
      "step": 3226
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45799320936203003,
      "learning_rate": 0.000598105922956558,
      "loss": 1.8994,
      "step": 3227
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46822282671928406,
      "learning_rate": 0.0005981047501190131,
      "loss": 1.8944,
      "step": 3228
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45625734329223633,
      "learning_rate": 0.0005981035769196131,
      "loss": 1.9498,
      "step": 3229
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.460516095161438,
      "learning_rate": 0.0005981024033583591,
      "loss": 1.9719,
      "step": 3230
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47462528944015503,
      "learning_rate": 0.0005981012294352528,
      "loss": 1.9377,
      "step": 3231
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4691106081008911,
      "learning_rate": 0.0005981000551502954,
      "loss": 1.9435,
      "step": 3232
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46683135628700256,
      "learning_rate": 0.0005980988805034886,
      "loss": 2.0059,
      "step": 3233
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46071749925613403,
      "learning_rate": 0.0005980977054948336,
      "loss": 1.9386,
      "step": 3234
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4614467918872833,
      "learning_rate": 0.000598096530124332,
      "loss": 1.9274,
      "step": 3235
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4717399775981903,
      "learning_rate": 0.000598095354391985,
      "loss": 1.9513,
      "step": 3236
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46304476261138916,
      "learning_rate": 0.0005980941782977942,
      "loss": 2.028,
      "step": 3237
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47060826420783997,
      "learning_rate": 0.0005980930018417611,
      "loss": 1.9619,
      "step": 3238
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46243155002593994,
      "learning_rate": 0.000598091825023887,
      "loss": 1.9807,
      "step": 3239
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46037447452545166,
      "learning_rate": 0.0005980906478441733,
      "loss": 1.9255,
      "step": 3240
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4455789029598236,
      "learning_rate": 0.0005980894703026215,
      "loss": 1.959,
      "step": 3241
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4572242796421051,
      "learning_rate": 0.000598088292399233,
      "loss": 1.9618,
      "step": 3242
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47339722514152527,
      "learning_rate": 0.0005980871141340091,
      "loss": 1.9703,
      "step": 3243
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45017895102500916,
      "learning_rate": 0.0005980859355069515,
      "loss": 1.888,
      "step": 3244
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4522574245929718,
      "learning_rate": 0.0005980847565180614,
      "loss": 1.8847,
      "step": 3245
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4650225043296814,
      "learning_rate": 0.0005980835771673404,
      "loss": 1.9485,
      "step": 3246
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4756365120410919,
      "learning_rate": 0.0005980823974547899,
      "loss": 1.9343,
      "step": 3247
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45743104815483093,
      "learning_rate": 0.0005980812173804112,
      "loss": 2.0543,
      "step": 3248
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45893535017967224,
      "learning_rate": 0.0005980800369442059,
      "loss": 1.9801,
      "step": 3249
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.485799640417099,
      "learning_rate": 0.0005980788561461753,
      "loss": 1.9433,
      "step": 3250
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46550360321998596,
      "learning_rate": 0.0005980776749863209,
      "loss": 1.9275,
      "step": 3251
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4633760452270508,
      "learning_rate": 0.000598076493464644,
      "loss": 1.9777,
      "step": 3252
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46183308959007263,
      "learning_rate": 0.0005980753115811464,
      "loss": 1.9559,
      "step": 3253
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5030831694602966,
      "learning_rate": 0.0005980741293358292,
      "loss": 1.9635,
      "step": 3254
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4490751028060913,
      "learning_rate": 0.0005980729467286939,
      "loss": 1.8976,
      "step": 3255
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45954805612564087,
      "learning_rate": 0.0005980717637597419,
      "loss": 1.9545,
      "step": 3256
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45908570289611816,
      "learning_rate": 0.0005980705804289749,
      "loss": 2.0024,
      "step": 3257
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.482144832611084,
      "learning_rate": 0.0005980693967363939,
      "loss": 1.9804,
      "step": 3258
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4700790345668793,
      "learning_rate": 0.0005980682126820006,
      "loss": 2.0037,
      "step": 3259
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4713347256183624,
      "learning_rate": 0.0005980670282657966,
      "loss": 1.9375,
      "step": 3260
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.461717426776886,
      "learning_rate": 0.0005980658434877829,
      "loss": 2.0249,
      "step": 3261
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4503597617149353,
      "learning_rate": 0.0005980646583479614,
      "loss": 1.9097,
      "step": 3262
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4609600603580475,
      "learning_rate": 0.0005980634728463332,
      "loss": 1.9274,
      "step": 3263
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45934414863586426,
      "learning_rate": 0.0005980622869828999,
      "loss": 1.9079,
      "step": 3264
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47105681896209717,
      "learning_rate": 0.000598061100757663,
      "loss": 1.9798,
      "step": 3265
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45352110266685486,
      "learning_rate": 0.0005980599141706236,
      "loss": 1.9429,
      "step": 3266
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5100075006484985,
      "learning_rate": 0.0005980587272217835,
      "loss": 1.9879,
      "step": 3267
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4972912073135376,
      "learning_rate": 0.000598057539911144,
      "loss": 1.9419,
      "step": 3268
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4589950740337372,
      "learning_rate": 0.0005980563522387066,
      "loss": 1.8323,
      "step": 3269
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5209131240844727,
      "learning_rate": 0.0005980551642044727,
      "loss": 2.0107,
      "step": 3270
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46431732177734375,
      "learning_rate": 0.0005980539758084438,
      "loss": 1.9816,
      "step": 3271
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4734753668308258,
      "learning_rate": 0.0005980527870506211,
      "loss": 1.8794,
      "step": 3272
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.520850419998169,
      "learning_rate": 0.0005980515979310065,
      "loss": 2.0213,
      "step": 3273
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46251922845840454,
      "learning_rate": 0.000598050408449601,
      "loss": 1.8852,
      "step": 3274
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4638817608356476,
      "learning_rate": 0.0005980492186064062,
      "loss": 1.9168,
      "step": 3275
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5072383284568787,
      "learning_rate": 0.0005980480284014237,
      "loss": 1.9716,
      "step": 3276
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.466009259223938,
      "learning_rate": 0.0005980468378346548,
      "loss": 2.0095,
      "step": 3277
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4820593595504761,
      "learning_rate": 0.0005980456469061009,
      "loss": 1.9817,
      "step": 3278
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4919133186340332,
      "learning_rate": 0.0005980444556157635,
      "loss": 1.9337,
      "step": 3279
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45533841848373413,
      "learning_rate": 0.0005980432639636439,
      "loss": 1.9282,
      "step": 3280
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4856603741645813,
      "learning_rate": 0.0005980420719497439,
      "loss": 1.9781,
      "step": 3281
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48197922110557556,
      "learning_rate": 0.0005980408795740647,
      "loss": 1.8868,
      "step": 3282
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45790478587150574,
      "learning_rate": 0.0005980396868366077,
      "loss": 1.997,
      "step": 3283
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4846707880496979,
      "learning_rate": 0.0005980384937373745,
      "loss": 1.9418,
      "step": 3284
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.49188753962516785,
      "learning_rate": 0.0005980373002763665,
      "loss": 1.9803,
      "step": 3285
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48312288522720337,
      "learning_rate": 0.0005980361064535851,
      "loss": 1.9126,
      "step": 3286
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.471114844083786,
      "learning_rate": 0.0005980349122690318,
      "loss": 1.9615,
      "step": 3287
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47535014152526855,
      "learning_rate": 0.0005980337177227081,
      "loss": 1.9462,
      "step": 3288
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48339784145355225,
      "learning_rate": 0.0005980325228146151,
      "loss": 1.9413,
      "step": 3289
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46741408109664917,
      "learning_rate": 0.0005980313275447548,
      "loss": 1.8833,
      "step": 3290
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46246710419654846,
      "learning_rate": 0.0005980301319131284,
      "loss": 1.9302,
      "step": 3291
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4883299767971039,
      "learning_rate": 0.0005980289359197371,
      "loss": 2.0264,
      "step": 3292
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4978266954421997,
      "learning_rate": 0.0005980277395645828,
      "loss": 1.9629,
      "step": 3293
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4577033519744873,
      "learning_rate": 0.0005980265428476666,
      "loss": 2.035,
      "step": 3294
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46866896748542786,
      "learning_rate": 0.0005980253457689901,
      "loss": 1.9072,
      "step": 3295
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.478328675031662,
      "learning_rate": 0.0005980241483285549,
      "loss": 1.9505,
      "step": 3296
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4604038894176483,
      "learning_rate": 0.0005980229505263622,
      "loss": 1.9782,
      "step": 3297
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44873642921447754,
      "learning_rate": 0.0005980217523624135,
      "loss": 1.972,
      "step": 3298
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.475650817155838,
      "learning_rate": 0.0005980205538367104,
      "loss": 1.9008,
      "step": 3299
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45755037665367126,
      "learning_rate": 0.0005980193549492541,
      "loss": 1.9146,
      "step": 3300
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4658607840538025,
      "learning_rate": 0.0005980181557000464,
      "loss": 1.8602,
      "step": 3301
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45832082629203796,
      "learning_rate": 0.0005980169560890885,
      "loss": 1.857,
      "step": 3302
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4693092405796051,
      "learning_rate": 0.0005980157561163819,
      "loss": 2.0178,
      "step": 3303
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47126084566116333,
      "learning_rate": 0.0005980145557819281,
      "loss": 1.995,
      "step": 3304
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4764918088912964,
      "learning_rate": 0.0005980133550857285,
      "loss": 1.9184,
      "step": 3305
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4930385649204254,
      "learning_rate": 0.0005980121540277846,
      "loss": 1.9967,
      "step": 3306
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46048468351364136,
      "learning_rate": 0.0005980109526080978,
      "loss": 1.9758,
      "step": 3307
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4527047276496887,
      "learning_rate": 0.0005980097508266698,
      "loss": 1.9483,
      "step": 3308
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.451584130525589,
      "learning_rate": 0.0005980085486835018,
      "loss": 1.9827,
      "step": 3309
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45209237933158875,
      "learning_rate": 0.0005980073461785952,
      "loss": 1.9329,
      "step": 3310
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45318734645843506,
      "learning_rate": 0.0005980061433119517,
      "loss": 1.9286,
      "step": 3311
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4404554069042206,
      "learning_rate": 0.0005980049400835727,
      "loss": 1.8854,
      "step": 3312
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45249760150909424,
      "learning_rate": 0.0005980037364934596,
      "loss": 1.9304,
      "step": 3313
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5017125606536865,
      "learning_rate": 0.0005980025325416138,
      "loss": 2.0125,
      "step": 3314
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4544236660003662,
      "learning_rate": 0.0005980013282280368,
      "loss": 1.8832,
      "step": 3315
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46137356758117676,
      "learning_rate": 0.0005980001235527302,
      "loss": 1.9167,
      "step": 3316
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5385123491287231,
      "learning_rate": 0.0005979989185156952,
      "loss": 1.9462,
      "step": 3317
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4636050760746002,
      "learning_rate": 0.0005979977131169336,
      "loss": 1.9267,
      "step": 3318
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4979928135871887,
      "learning_rate": 0.0005979965073564466,
      "loss": 1.9478,
      "step": 3319
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4694516360759735,
      "learning_rate": 0.0005979953012342358,
      "loss": 2.0182,
      "step": 3320
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45276907086372375,
      "learning_rate": 0.0005979940947503026,
      "loss": 1.9577,
      "step": 3321
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4622441232204437,
      "learning_rate": 0.0005979928879046484,
      "loss": 1.965,
      "step": 3322
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47630664706230164,
      "learning_rate": 0.0005979916806972748,
      "loss": 2.0174,
      "step": 3323
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4622105062007904,
      "learning_rate": 0.0005979904731281833,
      "loss": 1.9095,
      "step": 3324
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4448348581790924,
      "learning_rate": 0.0005979892651973751,
      "loss": 1.8397,
      "step": 3325
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4759432375431061,
      "learning_rate": 0.000597988056904852,
      "loss": 1.8783,
      "step": 3326
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4621356129646301,
      "learning_rate": 0.0005979868482506152,
      "loss": 2.0248,
      "step": 3327
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4676779508590698,
      "learning_rate": 0.0005979856392346662,
      "loss": 1.9426,
      "step": 3328
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4770115613937378,
      "learning_rate": 0.0005979844298570067,
      "loss": 1.8987,
      "step": 3329
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4394647479057312,
      "learning_rate": 0.0005979832201176379,
      "loss": 1.9656,
      "step": 3330
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4596739411354065,
      "learning_rate": 0.0005979820100165614,
      "loss": 1.9435,
      "step": 3331
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4915854036808014,
      "learning_rate": 0.0005979807995537787,
      "loss": 1.9761,
      "step": 3332
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4588932693004608,
      "learning_rate": 0.0005979795887292912,
      "loss": 2.0135,
      "step": 3333
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4554077088832855,
      "learning_rate": 0.0005979783775431004,
      "loss": 1.9499,
      "step": 3334
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44641658663749695,
      "learning_rate": 0.0005979771659952077,
      "loss": 1.9553,
      "step": 3335
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45096930861473083,
      "learning_rate": 0.0005979759540856146,
      "loss": 1.9446,
      "step": 3336
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46410712599754333,
      "learning_rate": 0.0005979747418143227,
      "loss": 1.9926,
      "step": 3337
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47758936882019043,
      "learning_rate": 0.0005979735291813333,
      "loss": 1.9366,
      "step": 3338
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4569186568260193,
      "learning_rate": 0.0005979723161866479,
      "loss": 1.9375,
      "step": 3339
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4552866518497467,
      "learning_rate": 0.000597971102830268,
      "loss": 1.9563,
      "step": 3340
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4499393105506897,
      "learning_rate": 0.0005979698891121952,
      "loss": 2.0602,
      "step": 3341
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47757473587989807,
      "learning_rate": 0.0005979686750324308,
      "loss": 1.9312,
      "step": 3342
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4496464133262634,
      "learning_rate": 0.0005979674605909763,
      "loss": 1.9888,
      "step": 3343
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46167346835136414,
      "learning_rate": 0.0005979662457878332,
      "loss": 1.969,
      "step": 3344
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4514390528202057,
      "learning_rate": 0.000597965030623003,
      "loss": 1.9779,
      "step": 3345
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4536641538143158,
      "learning_rate": 0.0005979638150964873,
      "loss": 1.8547,
      "step": 3346
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4584331810474396,
      "learning_rate": 0.0005979625992082873,
      "loss": 1.9395,
      "step": 3347
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45622050762176514,
      "learning_rate": 0.0005979613829584046,
      "loss": 1.9253,
      "step": 3348
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44925135374069214,
      "learning_rate": 0.0005979601663468406,
      "loss": 1.8988,
      "step": 3349
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4411838948726654,
      "learning_rate": 0.0005979589493735971,
      "loss": 1.8816,
      "step": 3350
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4928930103778839,
      "learning_rate": 0.0005979577320386752,
      "loss": 1.9705,
      "step": 3351
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4571605920791626,
      "learning_rate": 0.0005979565143420765,
      "loss": 1.9258,
      "step": 3352
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45474138855934143,
      "learning_rate": 0.0005979552962838025,
      "loss": 1.9406,
      "step": 3353
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47049662470817566,
      "learning_rate": 0.0005979540778638547,
      "loss": 1.8941,
      "step": 3354
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4426802098751068,
      "learning_rate": 0.0005979528590822345,
      "loss": 1.8726,
      "step": 3355
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4652121365070343,
      "learning_rate": 0.0005979516399389434,
      "loss": 2.0018,
      "step": 3356
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44784921407699585,
      "learning_rate": 0.000597950420433983,
      "loss": 1.968,
      "step": 3357
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46212008595466614,
      "learning_rate": 0.0005979492005673547,
      "loss": 1.9144,
      "step": 3358
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4603739082813263,
      "learning_rate": 0.0005979479803390599,
      "loss": 1.9707,
      "step": 3359
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.49317869544029236,
      "learning_rate": 0.0005979467597491001,
      "loss": 1.9492,
      "step": 3360
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4511110186576843,
      "learning_rate": 0.000597945538797477,
      "loss": 1.9052,
      "step": 3361
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4468536674976349,
      "learning_rate": 0.0005979443174841918,
      "loss": 1.9937,
      "step": 3362
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4621158242225647,
      "learning_rate": 0.0005979430958092461,
      "loss": 1.9446,
      "step": 3363
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46664953231811523,
      "learning_rate": 0.0005979418737726415,
      "loss": 1.9476,
      "step": 3364
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4497362971305847,
      "learning_rate": 0.0005979406513743793,
      "loss": 1.8262,
      "step": 3365
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.464638352394104,
      "learning_rate": 0.000597939428614461,
      "loss": 1.8105,
      "step": 3366
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4532303810119629,
      "learning_rate": 0.0005979382054928882,
      "loss": 1.8599,
      "step": 3367
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4673020541667938,
      "learning_rate": 0.0005979369820096623,
      "loss": 1.9713,
      "step": 3368
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4655636250972748,
      "learning_rate": 0.0005979357581647847,
      "loss": 1.9908,
      "step": 3369
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.469251811504364,
      "learning_rate": 0.0005979345339582571,
      "loss": 1.9669,
      "step": 3370
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47263991832733154,
      "learning_rate": 0.0005979333093900809,
      "loss": 1.9175,
      "step": 3371
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4522457718849182,
      "learning_rate": 0.0005979320844602575,
      "loss": 1.9474,
      "step": 3372
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48035937547683716,
      "learning_rate": 0.0005979308591687884,
      "loss": 2.0009,
      "step": 3373
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47899648547172546,
      "learning_rate": 0.0005979296335156752,
      "loss": 2.0389,
      "step": 3374
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46378880739212036,
      "learning_rate": 0.0005979284075009193,
      "loss": 1.9768,
      "step": 3375
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.452610045671463,
      "learning_rate": 0.0005979271811245222,
      "loss": 1.8684,
      "step": 3376
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4579559564590454,
      "learning_rate": 0.0005979259543864853,
      "loss": 2.0031,
      "step": 3377
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.453080415725708,
      "learning_rate": 0.0005979247272868104,
      "loss": 1.9334,
      "step": 3378
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4539440870285034,
      "learning_rate": 0.0005979234998254987,
      "loss": 1.9124,
      "step": 3379
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44422218203544617,
      "learning_rate": 0.0005979222720025517,
      "loss": 1.9032,
      "step": 3380
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46604299545288086,
      "learning_rate": 0.0005979210438179711,
      "loss": 1.9928,
      "step": 3381
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4512207508087158,
      "learning_rate": 0.0005979198152717581,
      "loss": 1.9417,
      "step": 3382
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.456734836101532,
      "learning_rate": 0.0005979185863639145,
      "loss": 1.9634,
      "step": 3383
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4672149121761322,
      "learning_rate": 0.0005979173570944415,
      "loss": 1.9845,
      "step": 3384
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4760546386241913,
      "learning_rate": 0.0005979161274633408,
      "loss": 1.8843,
      "step": 3385
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4440804123878479,
      "learning_rate": 0.0005979148974706137,
      "loss": 1.9572,
      "step": 3386
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46967658400535583,
      "learning_rate": 0.0005979136671162619,
      "loss": 1.8917,
      "step": 3387
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47749418020248413,
      "learning_rate": 0.0005979124364002868,
      "loss": 1.9015,
      "step": 3388
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4457562565803528,
      "learning_rate": 0.0005979112053226899,
      "loss": 1.9943,
      "step": 3389
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5105025172233582,
      "learning_rate": 0.0005979099738834727,
      "loss": 1.9184,
      "step": 3390
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4461935758590698,
      "learning_rate": 0.0005979087420826366,
      "loss": 1.9052,
      "step": 3391
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4838971495628357,
      "learning_rate": 0.0005979075099201834,
      "loss": 2.0232,
      "step": 3392
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46157458424568176,
      "learning_rate": 0.0005979062773961142,
      "loss": 1.9144,
      "step": 3393
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4680291414260864,
      "learning_rate": 0.0005979050445104306,
      "loss": 1.9611,
      "step": 3394
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4777539372444153,
      "learning_rate": 0.0005979038112631344,
      "loss": 1.8851,
      "step": 3395
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46728530526161194,
      "learning_rate": 0.0005979025776542266,
      "loss": 1.9211,
      "step": 3396
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4973669946193695,
      "learning_rate": 0.0005979013436837092,
      "loss": 1.9313,
      "step": 3397
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4632403254508972,
      "learning_rate": 0.0005979001093515833,
      "loss": 1.9817,
      "step": 3398
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4996083080768585,
      "learning_rate": 0.0005978988746578507,
      "loss": 2.0243,
      "step": 3399
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4852522313594818,
      "learning_rate": 0.0005978976396025127,
      "loss": 1.9255,
      "step": 3400
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4570966362953186,
      "learning_rate": 0.0005978964041855708,
      "loss": 1.8444,
      "step": 3401
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4804878234863281,
      "learning_rate": 0.0005978951684070266,
      "loss": 1.9912,
      "step": 3402
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48554831743240356,
      "learning_rate": 0.0005978939322668816,
      "loss": 1.9495,
      "step": 3403
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4568331241607666,
      "learning_rate": 0.0005978926957651373,
      "loss": 1.9631,
      "step": 3404
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45115044713020325,
      "learning_rate": 0.000597891458901795,
      "loss": 1.9429,
      "step": 3405
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47472405433654785,
      "learning_rate": 0.0005978902216768565,
      "loss": 1.9738,
      "step": 3406
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45463767647743225,
      "learning_rate": 0.0005978889840903231,
      "loss": 1.9303,
      "step": 3407
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45381787419319153,
      "learning_rate": 0.0005978877461421963,
      "loss": 1.848,
      "step": 3408
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4626232087612152,
      "learning_rate": 0.0005978865078324777,
      "loss": 1.9376,
      "step": 3409
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4643896818161011,
      "learning_rate": 0.0005978852691611689,
      "loss": 1.9571,
      "step": 3410
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45350176095962524,
      "learning_rate": 0.0005978840301282711,
      "loss": 1.9793,
      "step": 3411
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4633921682834625,
      "learning_rate": 0.0005978827907337861,
      "loss": 1.9264,
      "step": 3412
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4635264277458191,
      "learning_rate": 0.0005978815509777153,
      "loss": 1.9274,
      "step": 3413
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45683911442756653,
      "learning_rate": 0.00059788031086006,
      "loss": 1.9179,
      "step": 3414
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44465628266334534,
      "learning_rate": 0.0005978790703808221,
      "loss": 1.9615,
      "step": 3415
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46279090642929077,
      "learning_rate": 0.0005978778295400029,
      "loss": 1.9954,
      "step": 3416
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4491606056690216,
      "learning_rate": 0.0005978765883376037,
      "loss": 1.8509,
      "step": 3417
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45624321699142456,
      "learning_rate": 0.0005978753467736264,
      "loss": 1.9196,
      "step": 3418
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46422117948532104,
      "learning_rate": 0.0005978741048480723,
      "loss": 1.9956,
      "step": 3419
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.49447038769721985,
      "learning_rate": 0.0005978728625609428,
      "loss": 1.9882,
      "step": 3420
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47188666462898254,
      "learning_rate": 0.0005978716199122396,
      "loss": 1.9213,
      "step": 3421
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.468590646982193,
      "learning_rate": 0.0005978703769019642,
      "loss": 1.9661,
      "step": 3422
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4618811309337616,
      "learning_rate": 0.000597869133530118,
      "loss": 1.9408,
      "step": 3423
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46082204580307007,
      "learning_rate": 0.0005978678897967027,
      "loss": 1.9043,
      "step": 3424
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4545232355594635,
      "learning_rate": 0.0005978666457017195,
      "loss": 1.8947,
      "step": 3425
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4576185941696167,
      "learning_rate": 0.0005978654012451701,
      "loss": 1.9537,
      "step": 3426
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4812772274017334,
      "learning_rate": 0.000597864156427056,
      "loss": 2.0147,
      "step": 3427
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44690799713134766,
      "learning_rate": 0.0005978629112473787,
      "loss": 1.9483,
      "step": 3428
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4617348611354828,
      "learning_rate": 0.0005978616657061397,
      "loss": 1.9597,
      "step": 3429
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46699029207229614,
      "learning_rate": 0.0005978604198033407,
      "loss": 1.9683,
      "step": 3430
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45751938223838806,
      "learning_rate": 0.0005978591735389828,
      "loss": 1.9392,
      "step": 3431
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45190849900245667,
      "learning_rate": 0.0005978579269130678,
      "loss": 1.8874,
      "step": 3432
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48270708322525024,
      "learning_rate": 0.0005978566799255973,
      "loss": 1.9561,
      "step": 3433
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4624013900756836,
      "learning_rate": 0.0005978554325765725,
      "loss": 1.958,
      "step": 3434
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4615314304828644,
      "learning_rate": 0.0005978541848659952,
      "loss": 1.9689,
      "step": 3435
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46087732911109924,
      "learning_rate": 0.0005978529367938668,
      "loss": 1.983,
      "step": 3436
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4806864261627197,
      "learning_rate": 0.0005978516883601889,
      "loss": 1.9377,
      "step": 3437
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46164587140083313,
      "learning_rate": 0.0005978504395649628,
      "loss": 1.9849,
      "step": 3438
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46211302280426025,
      "learning_rate": 0.0005978491904081902,
      "loss": 1.9037,
      "step": 3439
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.48617804050445557,
      "learning_rate": 0.0005978479408898726,
      "loss": 1.8196,
      "step": 3440
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4575660824775696,
      "learning_rate": 0.0005978466910100114,
      "loss": 1.8739,
      "step": 3441
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4822496771812439,
      "learning_rate": 0.0005978454407686083,
      "loss": 1.9911,
      "step": 3442
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.49024802446365356,
      "learning_rate": 0.0005978441901656647,
      "loss": 1.8656,
      "step": 3443
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45596182346343994,
      "learning_rate": 0.0005978429392011821,
      "loss": 1.915,
      "step": 3444
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4453645348548889,
      "learning_rate": 0.0005978416878751621,
      "loss": 1.9249,
      "step": 3445
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4743295907974243,
      "learning_rate": 0.0005978404361876061,
      "loss": 1.9504,
      "step": 3446
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46383196115493774,
      "learning_rate": 0.0005978391841385158,
      "loss": 1.9293,
      "step": 3447
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.46020832657814026,
      "learning_rate": 0.0005978379317278926,
      "loss": 1.9678,
      "step": 3448
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47128382325172424,
      "learning_rate": 0.0005978366789557379,
      "loss": 1.8853,
      "step": 3449
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45047512650489807,
      "learning_rate": 0.0005978354258220535,
      "loss": 1.9761,
      "step": 3450
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4490184187889099,
      "learning_rate": 0.0005978341723268407,
      "loss": 1.9848,
      "step": 3451
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45797011256217957,
      "learning_rate": 0.0005978329184701012,
      "loss": 1.9427,
      "step": 3452
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4500174820423126,
      "learning_rate": 0.0005978316642518362,
      "loss": 1.9008,
      "step": 3453
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4471273720264435,
      "learning_rate": 0.0005978304096720476,
      "loss": 1.8705,
      "step": 3454
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4680235981941223,
      "learning_rate": 0.0005978291547307368,
      "loss": 1.9331,
      "step": 3455
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.471365749835968,
      "learning_rate": 0.0005978278994279053,
      "loss": 1.8503,
      "step": 3456
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45743635296821594,
      "learning_rate": 0.0005978266437635546,
      "loss": 1.9007,
      "step": 3457
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46051645278930664,
      "learning_rate": 0.0005978253877376861,
      "loss": 1.9503,
      "step": 3458
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.501907229423523,
      "learning_rate": 0.0005978241313503016,
      "loss": 1.9286,
      "step": 3459
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45461222529411316,
      "learning_rate": 0.0005978228746014024,
      "loss": 1.9432,
      "step": 3460
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44200393557548523,
      "learning_rate": 0.0005978216174909901,
      "loss": 1.924,
      "step": 3461
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46873971819877625,
      "learning_rate": 0.0005978203600190663,
      "loss": 1.8744,
      "step": 3462
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4388563334941864,
      "learning_rate": 0.0005978191021856325,
      "loss": 1.9366,
      "step": 3463
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44307148456573486,
      "learning_rate": 0.0005978178439906902,
      "loss": 1.9832,
      "step": 3464
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4688965678215027,
      "learning_rate": 0.0005978165854342408,
      "loss": 1.9526,
      "step": 3465
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4578423500061035,
      "learning_rate": 0.000597815326516286,
      "loss": 1.921,
      "step": 3466
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.461635559797287,
      "learning_rate": 0.0005978140672368273,
      "loss": 2.0318,
      "step": 3467
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.460163414478302,
      "learning_rate": 0.0005978128075958662,
      "loss": 1.9451,
      "step": 3468
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47201719880104065,
      "learning_rate": 0.0005978115475934043,
      "loss": 1.9709,
      "step": 3469
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4519042372703552,
      "learning_rate": 0.000597810287229443,
      "loss": 1.8431,
      "step": 3470
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4580751657485962,
      "learning_rate": 0.0005978090265039838,
      "loss": 1.9949,
      "step": 3471
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45934683084487915,
      "learning_rate": 0.0005978077654170285,
      "loss": 2.0024,
      "step": 3472
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.488567054271698,
      "learning_rate": 0.0005978065039685783,
      "loss": 1.9243,
      "step": 3473
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44462481141090393,
      "learning_rate": 0.0005978052421586349,
      "loss": 1.9272,
      "step": 3474
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44459694623947144,
      "learning_rate": 0.0005978039799871998,
      "loss": 1.8803,
      "step": 3475
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47113901376724243,
      "learning_rate": 0.0005978027174542747,
      "loss": 1.9636,
      "step": 3476
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.453502357006073,
      "learning_rate": 0.0005978014545598609,
      "loss": 1.8566,
      "step": 3477
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43984776735305786,
      "learning_rate": 0.00059780019130396,
      "loss": 1.948,
      "step": 3478
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46066227555274963,
      "learning_rate": 0.0005977989276865735,
      "loss": 1.966,
      "step": 3479
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4442479908466339,
      "learning_rate": 0.000597797663707703,
      "loss": 1.904,
      "step": 3480
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47051361203193665,
      "learning_rate": 0.0005977963993673501,
      "loss": 1.9545,
      "step": 3481
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45972293615341187,
      "learning_rate": 0.0005977951346655162,
      "loss": 1.9555,
      "step": 3482
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4608438313007355,
      "learning_rate": 0.0005977938696022027,
      "loss": 2.0317,
      "step": 3483
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4707627296447754,
      "learning_rate": 0.0005977926041774116,
      "loss": 1.9113,
      "step": 3484
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47570928931236267,
      "learning_rate": 0.0005977913383911441,
      "loss": 1.9882,
      "step": 3485
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4532095789909363,
      "learning_rate": 0.0005977900722434018,
      "loss": 1.9928,
      "step": 3486
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4503166377544403,
      "learning_rate": 0.0005977888057341861,
      "loss": 1.9224,
      "step": 3487
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46499282121658325,
      "learning_rate": 0.0005977875388634988,
      "loss": 1.963,
      "step": 3488
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4500972032546997,
      "learning_rate": 0.0005977862716313411,
      "loss": 1.9006,
      "step": 3489
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43980690836906433,
      "learning_rate": 0.0005977850040377149,
      "loss": 1.9311,
      "step": 3490
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4636812210083008,
      "learning_rate": 0.0005977837360826216,
      "loss": 1.9446,
      "step": 3491
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4705277681350708,
      "learning_rate": 0.0005977824677660627,
      "loss": 1.9846,
      "step": 3492
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43781521916389465,
      "learning_rate": 0.0005977811990880397,
      "loss": 1.8592,
      "step": 3493
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44601914286613464,
      "learning_rate": 0.0005977799300485543,
      "loss": 2.008,
      "step": 3494
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.450311541557312,
      "learning_rate": 0.0005977786606476079,
      "loss": 1.9932,
      "step": 3495
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4675542712211609,
      "learning_rate": 0.000597777390885202,
      "loss": 1.987,
      "step": 3496
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4615534543991089,
      "learning_rate": 0.0005977761207613383,
      "loss": 2.0376,
      "step": 3497
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46489617228507996,
      "learning_rate": 0.0005977748502760182,
      "loss": 1.9226,
      "step": 3498
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45553481578826904,
      "learning_rate": 0.0005977735794292434,
      "loss": 1.9455,
      "step": 3499
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45921552181243896,
      "learning_rate": 0.0005977723082210154,
      "loss": 1.9161,
      "step": 3500
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46026647090911865,
      "learning_rate": 0.0005977710366513356,
      "loss": 1.8982,
      "step": 3501
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4415113925933838,
      "learning_rate": 0.0005977697647202056,
      "loss": 1.9575,
      "step": 3502
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4644586145877838,
      "learning_rate": 0.000597768492427627,
      "loss": 1.9258,
      "step": 3503
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46134817600250244,
      "learning_rate": 0.0005977672197736015,
      "loss": 2.0397,
      "step": 3504
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.48238393664360046,
      "learning_rate": 0.0005977659467581302,
      "loss": 1.8902,
      "step": 3505
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4552602171897888,
      "learning_rate": 0.000597764673381215,
      "loss": 2.0263,
      "step": 3506
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44457677006721497,
      "learning_rate": 0.0005977633996428574,
      "loss": 1.9222,
      "step": 3507
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4583314061164856,
      "learning_rate": 0.000597762125543059,
      "loss": 1.9677,
      "step": 3508
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47481903433799744,
      "learning_rate": 0.000597760851081821,
      "loss": 1.9222,
      "step": 3509
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47249647974967957,
      "learning_rate": 0.0005977595762591454,
      "loss": 1.9053,
      "step": 3510
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.49442270398139954,
      "learning_rate": 0.0005977583010750335,
      "loss": 1.99,
      "step": 3511
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45935672521591187,
      "learning_rate": 0.0005977570255294869,
      "loss": 1.8915,
      "step": 3512
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46254268288612366,
      "learning_rate": 0.0005977557496225071,
      "loss": 1.8467,
      "step": 3513
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4834715723991394,
      "learning_rate": 0.0005977544733540958,
      "loss": 1.9622,
      "step": 3514
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4926810562610626,
      "learning_rate": 0.0005977531967242544,
      "loss": 1.9676,
      "step": 3515
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45650696754455566,
      "learning_rate": 0.0005977519197329844,
      "loss": 1.9733,
      "step": 3516
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.459426611661911,
      "learning_rate": 0.0005977506423802875,
      "loss": 1.8965,
      "step": 3517
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4570455849170685,
      "learning_rate": 0.0005977493646661652,
      "loss": 1.8855,
      "step": 3518
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4730473458766937,
      "learning_rate": 0.000597748086590619,
      "loss": 1.9289,
      "step": 3519
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4594475030899048,
      "learning_rate": 0.0005977468081536505,
      "loss": 1.948,
      "step": 3520
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4530510902404785,
      "learning_rate": 0.0005977455293552613,
      "loss": 1.9923,
      "step": 3521
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4739876985549927,
      "learning_rate": 0.0005977442501954529,
      "loss": 1.9139,
      "step": 3522
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45215943455696106,
      "learning_rate": 0.0005977429706742268,
      "loss": 1.9837,
      "step": 3523
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4725794792175293,
      "learning_rate": 0.0005977416907915847,
      "loss": 1.9793,
      "step": 3524
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4775899648666382,
      "learning_rate": 0.0005977404105475279,
      "loss": 1.974,
      "step": 3525
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5103431344032288,
      "learning_rate": 0.0005977391299420582,
      "loss": 1.9195,
      "step": 3526
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4759625494480133,
      "learning_rate": 0.000597737848975177,
      "loss": 1.9621,
      "step": 3527
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4811243712902069,
      "learning_rate": 0.0005977365676468861,
      "loss": 1.9854,
      "step": 3528
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46099790930747986,
      "learning_rate": 0.0005977352859571868,
      "loss": 1.8958,
      "step": 3529
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4527030885219574,
      "learning_rate": 0.0005977340039060806,
      "loss": 1.9455,
      "step": 3530
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4719119966030121,
      "learning_rate": 0.0005977327214935693,
      "loss": 1.9081,
      "step": 3531
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4843381345272064,
      "learning_rate": 0.0005977314387196544,
      "loss": 1.9343,
      "step": 3532
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4756230115890503,
      "learning_rate": 0.0005977301555843373,
      "loss": 2.0042,
      "step": 3533
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.49194279313087463,
      "learning_rate": 0.0005977288720876195,
      "loss": 1.9538,
      "step": 3534
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.480696439743042,
      "learning_rate": 0.000597727588229503,
      "loss": 2.0431,
      "step": 3535
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47213247418403625,
      "learning_rate": 0.000597726304009989,
      "loss": 1.9187,
      "step": 3536
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.48030006885528564,
      "learning_rate": 0.0005977250194290791,
      "loss": 1.9523,
      "step": 3537
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.49153459072113037,
      "learning_rate": 0.000597723734486775,
      "loss": 1.9416,
      "step": 3538
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4646003842353821,
      "learning_rate": 0.000597722449183078,
      "loss": 1.8416,
      "step": 3539
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47280338406562805,
      "learning_rate": 0.0005977211635179899,
      "loss": 1.9552,
      "step": 3540
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45439285039901733,
      "learning_rate": 0.0005977198774915121,
      "loss": 1.9626,
      "step": 3541
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47071370482444763,
      "learning_rate": 0.0005977185911036464,
      "loss": 1.9136,
      "step": 3542
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4517328143119812,
      "learning_rate": 0.000597717304354394,
      "loss": 1.8788,
      "step": 3543
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4408477246761322,
      "learning_rate": 0.0005977160172437568,
      "loss": 1.9343,
      "step": 3544
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4510534703731537,
      "learning_rate": 0.0005977147297717362,
      "loss": 1.9996,
      "step": 3545
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45630913972854614,
      "learning_rate": 0.0005977134419383337,
      "loss": 1.8411,
      "step": 3546
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.459136426448822,
      "learning_rate": 0.000597712153743551,
      "loss": 1.9276,
      "step": 3547
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45224085450172424,
      "learning_rate": 0.0005977108651873896,
      "loss": 1.9488,
      "step": 3548
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4637565016746521,
      "learning_rate": 0.000597709576269851,
      "loss": 1.847,
      "step": 3549
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4697812497615814,
      "learning_rate": 0.0005977082869909371,
      "loss": 1.9209,
      "step": 3550
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46696433424949646,
      "learning_rate": 0.0005977069973506488,
      "loss": 1.9536,
      "step": 3551
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44545936584472656,
      "learning_rate": 0.0005977057073489884,
      "loss": 1.9186,
      "step": 3552
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47550877928733826,
      "learning_rate": 0.0005977044169859571,
      "loss": 1.8747,
      "step": 3553
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4705904722213745,
      "learning_rate": 0.0005977031262615563,
      "loss": 1.8533,
      "step": 3554
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47324541211128235,
      "learning_rate": 0.000597701835175788,
      "loss": 1.9276,
      "step": 3555
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45489761233329773,
      "learning_rate": 0.0005977005437286534,
      "loss": 1.9428,
      "step": 3556
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5015748739242554,
      "learning_rate": 0.0005976992519201543,
      "loss": 1.9933,
      "step": 3557
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45466670393943787,
      "learning_rate": 0.000597697959750292,
      "loss": 1.9303,
      "step": 3558
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4484633803367615,
      "learning_rate": 0.0005976966672190684,
      "loss": 1.8885,
      "step": 3559
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4506910741329193,
      "learning_rate": 0.0005976953743264849,
      "loss": 1.9148,
      "step": 3560
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4553264081478119,
      "learning_rate": 0.0005976940810725431,
      "loss": 1.9961,
      "step": 3561
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4497351050376892,
      "learning_rate": 0.0005976927874572444,
      "loss": 1.9133,
      "step": 3562
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4548032879829407,
      "learning_rate": 0.0005976914934805906,
      "loss": 1.9037,
      "step": 3563
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44522717595100403,
      "learning_rate": 0.0005976901991425832,
      "loss": 1.8732,
      "step": 3564
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4985196590423584,
      "learning_rate": 0.0005976889044432238,
      "loss": 1.9858,
      "step": 3565
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4494979977607727,
      "learning_rate": 0.0005976876093825139,
      "loss": 1.9406,
      "step": 3566
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4578305780887604,
      "learning_rate": 0.0005976863139604551,
      "loss": 1.9972,
      "step": 3567
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47897157073020935,
      "learning_rate": 0.000597685018177049,
      "loss": 1.9063,
      "step": 3568
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4480195641517639,
      "learning_rate": 0.0005976837220322971,
      "loss": 1.8483,
      "step": 3569
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47786644101142883,
      "learning_rate": 0.0005976824255262011,
      "loss": 1.9974,
      "step": 3570
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.454119473695755,
      "learning_rate": 0.0005976811286587624,
      "loss": 1.9434,
      "step": 3571
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46218881011009216,
      "learning_rate": 0.0005976798314299827,
      "loss": 2.001,
      "step": 3572
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45567211508750916,
      "learning_rate": 0.0005976785338398636,
      "loss": 1.9441,
      "step": 3573
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46002164483070374,
      "learning_rate": 0.0005976772358884066,
      "loss": 1.9745,
      "step": 3574
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45408451557159424,
      "learning_rate": 0.0005976759375756133,
      "loss": 1.9389,
      "step": 3575
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4565972685813904,
      "learning_rate": 0.0005976746389014852,
      "loss": 1.958,
      "step": 3576
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4646485447883606,
      "learning_rate": 0.0005976733398660241,
      "loss": 1.9322,
      "step": 3577
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4526839852333069,
      "learning_rate": 0.0005976720404692313,
      "loss": 2.0218,
      "step": 3578
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46172451972961426,
      "learning_rate": 0.0005976707407111086,
      "loss": 1.9629,
      "step": 3579
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4347906708717346,
      "learning_rate": 0.0005976694405916573,
      "loss": 1.9488,
      "step": 3580
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43500715494155884,
      "learning_rate": 0.0005976681401108793,
      "loss": 1.8852,
      "step": 3581
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46304622292518616,
      "learning_rate": 0.000597666839268776,
      "loss": 1.9857,
      "step": 3582
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4477807283401489,
      "learning_rate": 0.000597665538065349,
      "loss": 1.8391,
      "step": 3583
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4542297124862671,
      "learning_rate": 0.0005976642365006,
      "loss": 1.8745,
      "step": 3584
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4559994041919708,
      "learning_rate": 0.0005976629345745304,
      "loss": 1.9611,
      "step": 3585
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4423430860042572,
      "learning_rate": 0.0005976616322871418,
      "loss": 1.9906,
      "step": 3586
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.445283442735672,
      "learning_rate": 0.0005976603296384359,
      "loss": 1.96,
      "step": 3587
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4610505700111389,
      "learning_rate": 0.0005976590266284142,
      "loss": 1.9646,
      "step": 3588
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4597020149230957,
      "learning_rate": 0.0005976577232570783,
      "loss": 1.9516,
      "step": 3589
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45887893438339233,
      "learning_rate": 0.0005976564195244297,
      "loss": 1.9536,
      "step": 3590
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4687340557575226,
      "learning_rate": 0.0005976551154304702,
      "loss": 1.88,
      "step": 3591
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4506954252719879,
      "learning_rate": 0.0005976538109752012,
      "loss": 1.9135,
      "step": 3592
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5554261207580566,
      "learning_rate": 0.0005976525061586244,
      "loss": 1.977,
      "step": 3593
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4384406507015228,
      "learning_rate": 0.0005976512009807413,
      "loss": 1.9939,
      "step": 3594
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45134907960891724,
      "learning_rate": 0.0005976498954415534,
      "loss": 1.9419,
      "step": 3595
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47167569398880005,
      "learning_rate": 0.0005976485895410623,
      "loss": 1.9397,
      "step": 3596
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4794814884662628,
      "learning_rate": 0.0005976472832792699,
      "loss": 1.9588,
      "step": 3597
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4540049731731415,
      "learning_rate": 0.0005976459766561774,
      "loss": 1.9465,
      "step": 3598
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4528965651988983,
      "learning_rate": 0.0005976446696717867,
      "loss": 1.8712,
      "step": 3599
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4590654969215393,
      "learning_rate": 0.000597643362326099,
      "loss": 1.9291,
      "step": 3600
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45915910601615906,
      "learning_rate": 0.0005976420546191162,
      "loss": 1.8909,
      "step": 3601
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.446666955947876,
      "learning_rate": 0.0005976407465508399,
      "loss": 1.9096,
      "step": 3602
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47451192140579224,
      "learning_rate": 0.0005976394381212715,
      "loss": 1.9595,
      "step": 3603
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4636967182159424,
      "learning_rate": 0.0005976381293304128,
      "loss": 1.9692,
      "step": 3604
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47141316533088684,
      "learning_rate": 0.0005976368201782651,
      "loss": 1.9608,
      "step": 3605
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4514106512069702,
      "learning_rate": 0.0005976355106648302,
      "loss": 1.9097,
      "step": 3606
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4572887122631073,
      "learning_rate": 0.0005976342007901097,
      "loss": 1.8691,
      "step": 3607
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4882966876029968,
      "learning_rate": 0.000597632890554105,
      "loss": 1.9682,
      "step": 3608
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4579319655895233,
      "learning_rate": 0.0005976315799568181,
      "loss": 1.9003,
      "step": 3609
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46191415190696716,
      "learning_rate": 0.00059763026899825,
      "loss": 1.9004,
      "step": 3610
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.48235875368118286,
      "learning_rate": 0.0005976289576784028,
      "loss": 1.9735,
      "step": 3611
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4568343162536621,
      "learning_rate": 0.0005976276459972778,
      "loss": 1.9662,
      "step": 3612
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.48600757122039795,
      "learning_rate": 0.0005976263339548769,
      "loss": 1.9598,
      "step": 3613
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5157257914543152,
      "learning_rate": 0.0005976250215512012,
      "loss": 1.9103,
      "step": 3614
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4475361704826355,
      "learning_rate": 0.0005976237087862527,
      "loss": 1.8841,
      "step": 3615
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45660361647605896,
      "learning_rate": 0.0005976223956600329,
      "loss": 1.9493,
      "step": 3616
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5086906552314758,
      "learning_rate": 0.0005976210821725433,
      "loss": 1.9197,
      "step": 3617
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47937360405921936,
      "learning_rate": 0.0005976197683237856,
      "loss": 1.9486,
      "step": 3618
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4693979322910309,
      "learning_rate": 0.0005976184541137613,
      "loss": 1.9881,
      "step": 3619
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5348284840583801,
      "learning_rate": 0.0005976171395424721,
      "loss": 1.9531,
      "step": 3620
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44879552721977234,
      "learning_rate": 0.0005976158246099196,
      "loss": 1.8828,
      "step": 3621
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5001000761985779,
      "learning_rate": 0.0005976145093161052,
      "loss": 1.9644,
      "step": 3622
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5008522272109985,
      "learning_rate": 0.0005976131936610308,
      "loss": 1.9809,
      "step": 3623
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44904133677482605,
      "learning_rate": 0.0005976118776446978,
      "loss": 1.963,
      "step": 3624
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4517171084880829,
      "learning_rate": 0.0005976105612671077,
      "loss": 2.0054,
      "step": 3625
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5109225511550903,
      "learning_rate": 0.0005976092445282624,
      "loss": 2.0067,
      "step": 3626
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4792356789112091,
      "learning_rate": 0.0005976079274281632,
      "loss": 1.8358,
      "step": 3627
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45656391978263855,
      "learning_rate": 0.0005976066099668119,
      "loss": 1.9601,
      "step": 3628
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4614538848400116,
      "learning_rate": 0.0005976052921442098,
      "loss": 1.8799,
      "step": 3629
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4820341467857361,
      "learning_rate": 0.000597603973960359,
      "loss": 2.0087,
      "step": 3630
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4853261411190033,
      "learning_rate": 0.0005976026554152607,
      "loss": 1.8948,
      "step": 3631
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4451919496059418,
      "learning_rate": 0.0005976013365089167,
      "loss": 1.9092,
      "step": 3632
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4820505380630493,
      "learning_rate": 0.0005976000172413285,
      "loss": 1.9888,
      "step": 3633
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44951191544532776,
      "learning_rate": 0.0005975986976124977,
      "loss": 1.9821,
      "step": 3634
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4437907636165619,
      "learning_rate": 0.000597597377622426,
      "loss": 1.9155,
      "step": 3635
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45298025012016296,
      "learning_rate": 0.0005975960572711149,
      "loss": 1.8878,
      "step": 3636
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4642948806285858,
      "learning_rate": 0.000597594736558566,
      "loss": 1.9126,
      "step": 3637
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4538162052631378,
      "learning_rate": 0.000597593415484781,
      "loss": 1.8308,
      "step": 3638
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4469187557697296,
      "learning_rate": 0.0005975920940497613,
      "loss": 1.9438,
      "step": 3639
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45587223768234253,
      "learning_rate": 0.0005975907722535088,
      "loss": 1.9364,
      "step": 3640
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45362862944602966,
      "learning_rate": 0.0005975894500960249,
      "loss": 1.9051,
      "step": 3641
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4580160677433014,
      "learning_rate": 0.0005975881275773113,
      "loss": 1.9798,
      "step": 3642
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4489840269088745,
      "learning_rate": 0.0005975868046973695,
      "loss": 1.9039,
      "step": 3643
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4474230408668518,
      "learning_rate": 0.0005975854814562012,
      "loss": 1.8835,
      "step": 3644
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4581061899662018,
      "learning_rate": 0.0005975841578538079,
      "loss": 1.9708,
      "step": 3645
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4395158886909485,
      "learning_rate": 0.0005975828338901914,
      "loss": 1.9682,
      "step": 3646
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4558916985988617,
      "learning_rate": 0.000597581509565353,
      "loss": 1.9671,
      "step": 3647
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4450623095035553,
      "learning_rate": 0.0005975801848792947,
      "loss": 1.9046,
      "step": 3648
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4468495547771454,
      "learning_rate": 0.0005975788598320177,
      "loss": 1.9281,
      "step": 3649
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44834569096565247,
      "learning_rate": 0.0005975775344235241,
      "loss": 1.9667,
      "step": 3650
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4521448016166687,
      "learning_rate": 0.000597576208653815,
      "loss": 1.9658,
      "step": 3651
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45482757687568665,
      "learning_rate": 0.0005975748825228922,
      "loss": 1.9387,
      "step": 3652
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4482792317867279,
      "learning_rate": 0.0005975735560307575,
      "loss": 1.8918,
      "step": 3653
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4540630578994751,
      "learning_rate": 0.0005975722291774122,
      "loss": 1.9817,
      "step": 3654
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43847253918647766,
      "learning_rate": 0.0005975709019628582,
      "loss": 2.0117,
      "step": 3655
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44524839520454407,
      "learning_rate": 0.0005975695743870969,
      "loss": 1.9533,
      "step": 3656
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4793214499950409,
      "learning_rate": 0.0005975682464501299,
      "loss": 1.9692,
      "step": 3657
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4570166766643524,
      "learning_rate": 0.000597566918151959,
      "loss": 1.9131,
      "step": 3658
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44150957465171814,
      "learning_rate": 0.0005975655894925857,
      "loss": 1.896,
      "step": 3659
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46593695878982544,
      "learning_rate": 0.0005975642604720116,
      "loss": 1.9404,
      "step": 3660
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4422571659088135,
      "learning_rate": 0.0005975629310902382,
      "loss": 1.9821,
      "step": 3661
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43850430846214294,
      "learning_rate": 0.0005975616013472674,
      "loss": 1.9283,
      "step": 3662
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4478863477706909,
      "learning_rate": 0.0005975602712431006,
      "loss": 1.9749,
      "step": 3663
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4434604048728943,
      "learning_rate": 0.0005975589407777396,
      "loss": 1.9384,
      "step": 3664
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4513329565525055,
      "learning_rate": 0.0005975576099511857,
      "loss": 1.9717,
      "step": 3665
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4459861218929291,
      "learning_rate": 0.0005975562787634408,
      "loss": 1.9007,
      "step": 3666
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4546630382537842,
      "learning_rate": 0.0005975549472145064,
      "loss": 1.9225,
      "step": 3667
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4497966766357422,
      "learning_rate": 0.0005975536153043842,
      "loss": 1.8963,
      "step": 3668
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6710610389709473,
      "learning_rate": 0.0005975522830330757,
      "loss": 1.9608,
      "step": 3669
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4383711516857147,
      "learning_rate": 0.0005975509504005825,
      "loss": 1.9059,
      "step": 3670
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45955711603164673,
      "learning_rate": 0.0005975496174069064,
      "loss": 1.9407,
      "step": 3671
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4605327248573303,
      "learning_rate": 0.0005975482840520489,
      "loss": 1.841,
      "step": 3672
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45150893926620483,
      "learning_rate": 0.0005975469503360116,
      "loss": 1.982,
      "step": 3673
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4559580385684967,
      "learning_rate": 0.0005975456162587962,
      "loss": 1.9835,
      "step": 3674
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46244052052497864,
      "learning_rate": 0.000597544281820404,
      "loss": 1.8486,
      "step": 3675
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4632386565208435,
      "learning_rate": 0.0005975429470208371,
      "loss": 1.9736,
      "step": 3676
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44877901673316956,
      "learning_rate": 0.0005975416118600969,
      "loss": 1.882,
      "step": 3677
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44885921478271484,
      "learning_rate": 0.0005975402763381851,
      "loss": 2.025,
      "step": 3678
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47257286310195923,
      "learning_rate": 0.0005975389404551031,
      "loss": 1.9668,
      "step": 3679
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46075958013534546,
      "learning_rate": 0.0005975376042108528,
      "loss": 1.975,
      "step": 3680
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4304050803184509,
      "learning_rate": 0.0005975362676054356,
      "loss": 1.8451,
      "step": 3681
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44787779450416565,
      "learning_rate": 0.0005975349306388532,
      "loss": 1.8953,
      "step": 3682
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4399215281009674,
      "learning_rate": 0.0005975335933111072,
      "loss": 1.9008,
      "step": 3683
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44531798362731934,
      "learning_rate": 0.0005975322556221993,
      "loss": 1.9176,
      "step": 3684
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44403913617134094,
      "learning_rate": 0.0005975309175721312,
      "loss": 1.9165,
      "step": 3685
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4511029124259949,
      "learning_rate": 0.0005975295791609042,
      "loss": 1.8425,
      "step": 3686
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4640505313873291,
      "learning_rate": 0.0005975282403885203,
      "loss": 1.918,
      "step": 3687
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4615810215473175,
      "learning_rate": 0.0005975269012549809,
      "loss": 1.8931,
      "step": 3688
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4668142795562744,
      "learning_rate": 0.0005975255617602876,
      "loss": 1.9595,
      "step": 3689
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4739857017993927,
      "learning_rate": 0.0005975242219044422,
      "loss": 1.8176,
      "step": 3690
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4737356901168823,
      "learning_rate": 0.0005975228816874462,
      "loss": 1.9436,
      "step": 3691
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4574489891529083,
      "learning_rate": 0.0005975215411093013,
      "loss": 1.9853,
      "step": 3692
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4929491877555847,
      "learning_rate": 0.0005975202001700091,
      "loss": 1.9555,
      "step": 3693
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4556577801704407,
      "learning_rate": 0.0005975188588695711,
      "loss": 1.872,
      "step": 3694
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4473947584629059,
      "learning_rate": 0.000597517517207989,
      "loss": 1.9022,
      "step": 3695
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4769591689109802,
      "learning_rate": 0.0005975161751852646,
      "loss": 1.9109,
      "step": 3696
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47334808111190796,
      "learning_rate": 0.0005975148328013995,
      "loss": 1.9663,
      "step": 3697
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4715364873409271,
      "learning_rate": 0.000597513490056395,
      "loss": 1.8665,
      "step": 3698
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4743201732635498,
      "learning_rate": 0.0005975121469502531,
      "loss": 1.8653,
      "step": 3699
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4754601716995239,
      "learning_rate": 0.0005975108034829752,
      "loss": 1.9247,
      "step": 3700
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46214213967323303,
      "learning_rate": 0.0005975094596545632,
      "loss": 1.9065,
      "step": 3701
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4895722568035126,
      "learning_rate": 0.0005975081154650184,
      "loss": 1.9379,
      "step": 3702
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45367079973220825,
      "learning_rate": 0.0005975067709143426,
      "loss": 1.9585,
      "step": 3703
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43901878595352173,
      "learning_rate": 0.0005975054260025374,
      "loss": 1.9143,
      "step": 3704
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47068241238594055,
      "learning_rate": 0.0005975040807296045,
      "loss": 1.991,
      "step": 3705
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.484516978263855,
      "learning_rate": 0.0005975027350955455,
      "loss": 1.8933,
      "step": 3706
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44453826546669006,
      "learning_rate": 0.0005975013891003619,
      "loss": 1.8791,
      "step": 3707
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4611378312110901,
      "learning_rate": 0.0005975000427440556,
      "loss": 1.9692,
      "step": 3708
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.48012593388557434,
      "learning_rate": 0.0005974986960266281,
      "loss": 1.9171,
      "step": 3709
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4417670667171478,
      "learning_rate": 0.0005974973489480807,
      "loss": 1.8764,
      "step": 3710
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47387078404426575,
      "learning_rate": 0.0005974960015084157,
      "loss": 1.9133,
      "step": 3711
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4779955744743347,
      "learning_rate": 0.0005974946537076342,
      "loss": 1.8638,
      "step": 3712
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4502995014190674,
      "learning_rate": 0.0005974933055457381,
      "loss": 1.9671,
      "step": 3713
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46184420585632324,
      "learning_rate": 0.000597491957022729,
      "loss": 1.9925,
      "step": 3714
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45869213342666626,
      "learning_rate": 0.0005974906081386085,
      "loss": 2.0069,
      "step": 3715
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4661276340484619,
      "learning_rate": 0.0005974892588933781,
      "loss": 1.9649,
      "step": 3716
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4470972418785095,
      "learning_rate": 0.0005974879092870397,
      "loss": 1.8863,
      "step": 3717
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4427666962146759,
      "learning_rate": 0.0005974865593195947,
      "loss": 1.8942,
      "step": 3718
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46034663915634155,
      "learning_rate": 0.0005974852089910449,
      "loss": 1.9039,
      "step": 3719
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4405089318752289,
      "learning_rate": 0.000597483858301392,
      "loss": 1.9628,
      "step": 3720
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4717884063720703,
      "learning_rate": 0.0005974825072506373,
      "loss": 1.9459,
      "step": 3721
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4806138873100281,
      "learning_rate": 0.0005974811558387828,
      "loss": 2.0486,
      "step": 3722
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.49588918685913086,
      "learning_rate": 0.00059747980406583,
      "loss": 1.8455,
      "step": 3723
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45369789004325867,
      "learning_rate": 0.0005974784519317807,
      "loss": 1.9432,
      "step": 3724
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47310757637023926,
      "learning_rate": 0.0005974770994366362,
      "loss": 1.9261,
      "step": 3725
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4587821364402771,
      "learning_rate": 0.0005974757465803984,
      "loss": 1.8925,
      "step": 3726
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44951310753822327,
      "learning_rate": 0.0005974743933630688,
      "loss": 1.8628,
      "step": 3727
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4669308066368103,
      "learning_rate": 0.0005974730397846492,
      "loss": 1.8979,
      "step": 3728
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4678439497947693,
      "learning_rate": 0.0005974716858451411,
      "loss": 1.9357,
      "step": 3729
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45853304862976074,
      "learning_rate": 0.0005974703315445463,
      "loss": 1.8704,
      "step": 3730
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4646657109260559,
      "learning_rate": 0.0005974689768828662,
      "loss": 1.9719,
      "step": 3731
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4536302089691162,
      "learning_rate": 0.0005974676218601027,
      "loss": 1.8992,
      "step": 3732
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4739559590816498,
      "learning_rate": 0.0005974662664762573,
      "loss": 2.0015,
      "step": 3733
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4523197114467621,
      "learning_rate": 0.0005974649107313316,
      "loss": 1.8763,
      "step": 3734
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4600365459918976,
      "learning_rate": 0.0005974635546253276,
      "loss": 2.0026,
      "step": 3735
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46987494826316833,
      "learning_rate": 0.0005974621981582464,
      "loss": 1.9411,
      "step": 3736
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45095953345298767,
      "learning_rate": 0.00059746084133009,
      "loss": 1.8759,
      "step": 3737
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4588605761528015,
      "learning_rate": 0.00059745948414086,
      "loss": 2.0217,
      "step": 3738
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4602651000022888,
      "learning_rate": 0.000597458126590558,
      "loss": 1.9045,
      "step": 3739
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43424269556999207,
      "learning_rate": 0.0005974567686791857,
      "loss": 1.8552,
      "step": 3740
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4440946877002716,
      "learning_rate": 0.0005974554104067446,
      "loss": 1.9329,
      "step": 3741
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46888917684555054,
      "learning_rate": 0.0005974540517732366,
      "loss": 1.8907,
      "step": 3742
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4388866722583771,
      "learning_rate": 0.0005974526927786632,
      "loss": 1.904,
      "step": 3743
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4686152935028076,
      "learning_rate": 0.0005974513334230259,
      "loss": 1.9106,
      "step": 3744
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4619910717010498,
      "learning_rate": 0.0005974499737063266,
      "loss": 1.8253,
      "step": 3745
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4386986494064331,
      "learning_rate": 0.0005974486136285669,
      "loss": 1.8829,
      "step": 3746
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45764803886413574,
      "learning_rate": 0.0005974472531897483,
      "loss": 1.9248,
      "step": 3747
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4600755274295807,
      "learning_rate": 0.0005974458923898727,
      "loss": 1.8759,
      "step": 3748
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.47296443581581116,
      "learning_rate": 0.0005974445312289415,
      "loss": 1.9981,
      "step": 3749
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4423311650753021,
      "learning_rate": 0.0005974431697069566,
      "loss": 1.9015,
      "step": 3750
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.455569863319397,
      "learning_rate": 0.0005974418078239195,
      "loss": 1.8705,
      "step": 3751
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.46292081475257874,
      "learning_rate": 0.0005974404455798317,
      "loss": 1.997,
      "step": 3752
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43772101402282715,
      "learning_rate": 0.0005974390829746951,
      "loss": 1.9106,
      "step": 3753
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4878349006175995,
      "learning_rate": 0.0005974377200085114,
      "loss": 1.9627,
      "step": 3754
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4694451093673706,
      "learning_rate": 0.0005974363566812821,
      "loss": 1.8935,
      "step": 3755
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.471755713224411,
      "learning_rate": 0.0005974349929930088,
      "loss": 1.8724,
      "step": 3756
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.45923423767089844,
      "learning_rate": 0.0005974336289436932,
      "loss": 1.886,
      "step": 3757
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47498592734336853,
      "learning_rate": 0.000597432264533337,
      "loss": 1.9361,
      "step": 3758
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4608322083950043,
      "learning_rate": 0.0005974308997619421,
      "loss": 1.905,
      "step": 3759
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45922139286994934,
      "learning_rate": 0.0005974295346295096,
      "loss": 1.8895,
      "step": 3760
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46318793296813965,
      "learning_rate": 0.0005974281691360417,
      "loss": 1.913,
      "step": 3761
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4572087824344635,
      "learning_rate": 0.0005974268032815397,
      "loss": 2.0173,
      "step": 3762
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4506908059120178,
      "learning_rate": 0.0005974254370660054,
      "loss": 1.9002,
      "step": 3763
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.49151068925857544,
      "learning_rate": 0.0005974240704894405,
      "loss": 1.919,
      "step": 3764
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4557880461215973,
      "learning_rate": 0.0005974227035518466,
      "loss": 1.9061,
      "step": 3765
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47377070784568787,
      "learning_rate": 0.0005974213362532253,
      "loss": 1.9281,
      "step": 3766
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45596975088119507,
      "learning_rate": 0.0005974199685935784,
      "loss": 1.9072,
      "step": 3767
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.437690407037735,
      "learning_rate": 0.0005974186005729073,
      "loss": 1.8764,
      "step": 3768
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45409727096557617,
      "learning_rate": 0.0005974172321912141,
      "loss": 1.8925,
      "step": 3769
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47370654344558716,
      "learning_rate": 0.0005974158634485,
      "loss": 1.8388,
      "step": 3770
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4576706886291504,
      "learning_rate": 0.0005974144943447669,
      "loss": 1.9273,
      "step": 3771
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45320814847946167,
      "learning_rate": 0.0005974131248800165,
      "loss": 1.9404,
      "step": 3772
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4947015047073364,
      "learning_rate": 0.0005974117550542504,
      "loss": 1.9425,
      "step": 3773
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.454002320766449,
      "learning_rate": 0.0005974103848674702,
      "loss": 1.9007,
      "step": 3774
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.446515291929245,
      "learning_rate": 0.0005974090143196776,
      "loss": 1.8969,
      "step": 3775
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45783936977386475,
      "learning_rate": 0.0005974076434108744,
      "loss": 1.9225,
      "step": 3776
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4468347132205963,
      "learning_rate": 0.0005974062721410619,
      "loss": 1.9261,
      "step": 3777
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4477391839027405,
      "learning_rate": 0.0005974049005102422,
      "loss": 1.9282,
      "step": 3778
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4576576054096222,
      "learning_rate": 0.0005974035285184167,
      "loss": 1.9309,
      "step": 3779
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45351243019104004,
      "learning_rate": 0.0005974021561655871,
      "loss": 2.0065,
      "step": 3780
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4597281813621521,
      "learning_rate": 0.0005974007834517552,
      "loss": 1.9585,
      "step": 3781
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46781912446022034,
      "learning_rate": 0.0005973994103769225,
      "loss": 1.9281,
      "step": 3782
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44947826862335205,
      "learning_rate": 0.0005973980369410908,
      "loss": 1.9564,
      "step": 3783
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4540373682975769,
      "learning_rate": 0.0005973966631442617,
      "loss": 1.8467,
      "step": 3784
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45052874088287354,
      "learning_rate": 0.0005973952889864368,
      "loss": 1.9328,
      "step": 3785
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4509107172489166,
      "learning_rate": 0.0005973939144676178,
      "loss": 1.9098,
      "step": 3786
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44356563687324524,
      "learning_rate": 0.0005973925395878065,
      "loss": 1.9395,
      "step": 3787
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45238223671913147,
      "learning_rate": 0.0005973911643470045,
      "loss": 1.8896,
      "step": 3788
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4689770042896271,
      "learning_rate": 0.0005973897887452134,
      "loss": 1.962,
      "step": 3789
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.452629417181015,
      "learning_rate": 0.0005973884127824349,
      "loss": 1.9361,
      "step": 3790
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4620959460735321,
      "learning_rate": 0.0005973870364586706,
      "loss": 1.9109,
      "step": 3791
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45407208800315857,
      "learning_rate": 0.0005973856597739224,
      "loss": 1.8965,
      "step": 3792
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43835046887397766,
      "learning_rate": 0.0005973842827281918,
      "loss": 1.854,
      "step": 3793
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46441367268562317,
      "learning_rate": 0.0005973829053214805,
      "loss": 1.9743,
      "step": 3794
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4342963993549347,
      "learning_rate": 0.0005973815275537901,
      "loss": 1.8732,
      "step": 3795
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46272626519203186,
      "learning_rate": 0.0005973801494251223,
      "loss": 1.8573,
      "step": 3796
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46558234095573425,
      "learning_rate": 0.0005973787709354791,
      "loss": 1.941,
      "step": 3797
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4504741132259369,
      "learning_rate": 0.0005973773920848616,
      "loss": 1.8419,
      "step": 3798
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4521922171115875,
      "learning_rate": 0.0005973760128732718,
      "loss": 1.8084,
      "step": 3799
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47520843148231506,
      "learning_rate": 0.0005973746333007115,
      "loss": 1.9739,
      "step": 3800
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4592677354812622,
      "learning_rate": 0.000597373253367182,
      "loss": 1.9504,
      "step": 3801
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4295574724674225,
      "learning_rate": 0.0005973718730726854,
      "loss": 1.8617,
      "step": 3802
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4565453827381134,
      "learning_rate": 0.000597370492417223,
      "loss": 1.9368,
      "step": 3803
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4750134348869324,
      "learning_rate": 0.0005973691114007967,
      "loss": 1.943,
      "step": 3804
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45252132415771484,
      "learning_rate": 0.0005973677300234082,
      "loss": 1.9052,
      "step": 3805
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4531645178794861,
      "learning_rate": 0.0005973663482850589,
      "loss": 1.9502,
      "step": 3806
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.49501240253448486,
      "learning_rate": 0.0005973649661857507,
      "loss": 1.9799,
      "step": 3807
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4716182351112366,
      "learning_rate": 0.0005973635837254854,
      "loss": 1.9433,
      "step": 3808
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4725326597690582,
      "learning_rate": 0.0005973622009042644,
      "loss": 1.9825,
      "step": 3809
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47472137212753296,
      "learning_rate": 0.0005973608177220896,
      "loss": 2.0225,
      "step": 3810
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46046724915504456,
      "learning_rate": 0.0005973594341789625,
      "loss": 1.8736,
      "step": 3811
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46734365820884705,
      "learning_rate": 0.0005973580502748849,
      "loss": 1.9668,
      "step": 3812
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46085140109062195,
      "learning_rate": 0.0005973566660098584,
      "loss": 1.9548,
      "step": 3813
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.48827826976776123,
      "learning_rate": 0.0005973552813838847,
      "loss": 1.9302,
      "step": 3814
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44630730152130127,
      "learning_rate": 0.0005973538963969656,
      "loss": 1.8861,
      "step": 3815
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4595634639263153,
      "learning_rate": 0.0005973525110491026,
      "loss": 1.9403,
      "step": 3816
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46284276247024536,
      "learning_rate": 0.0005973511253402975,
      "loss": 1.8874,
      "step": 3817
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4676705002784729,
      "learning_rate": 0.0005973497392705518,
      "loss": 1.9955,
      "step": 3818
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44840413331985474,
      "learning_rate": 0.0005973483528398675,
      "loss": 1.8966,
      "step": 3819
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4819090962409973,
      "learning_rate": 0.0005973469660482462,
      "loss": 1.891,
      "step": 3820
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4658931791782379,
      "learning_rate": 0.0005973455788956893,
      "loss": 1.9469,
      "step": 3821
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44458112120628357,
      "learning_rate": 0.0005973441913821988,
      "loss": 1.933,
      "step": 3822
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4917616844177246,
      "learning_rate": 0.0005973428035077762,
      "loss": 1.9752,
      "step": 3823
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46023231744766235,
      "learning_rate": 0.0005973414152724233,
      "loss": 1.8846,
      "step": 3824
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4625696837902069,
      "learning_rate": 0.0005973400266761417,
      "loss": 2.0115,
      "step": 3825
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4560675323009491,
      "learning_rate": 0.0005973386377189331,
      "loss": 1.8998,
      "step": 3826
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4656386077404022,
      "learning_rate": 0.0005973372484007991,
      "loss": 1.8716,
      "step": 3827
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4688156843185425,
      "learning_rate": 0.0005973358587217417,
      "loss": 1.9384,
      "step": 3828
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4578005075454712,
      "learning_rate": 0.0005973344686817623,
      "loss": 1.9107,
      "step": 3829
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4592445194721222,
      "learning_rate": 0.0005973330782808626,
      "loss": 1.9208,
      "step": 3830
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43420514464378357,
      "learning_rate": 0.0005973316875190444,
      "loss": 1.8919,
      "step": 3831
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4719095230102539,
      "learning_rate": 0.0005973302963963094,
      "loss": 1.9073,
      "step": 3832
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4826499819755554,
      "learning_rate": 0.0005973289049126591,
      "loss": 1.9027,
      "step": 3833
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4467496871948242,
      "learning_rate": 0.0005973275130680954,
      "loss": 1.8779,
      "step": 3834
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46371617913246155,
      "learning_rate": 0.00059732612086262,
      "loss": 1.9701,
      "step": 3835
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4783291518688202,
      "learning_rate": 0.0005973247282962343,
      "loss": 1.8931,
      "step": 3836
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4597189128398895,
      "learning_rate": 0.0005973233353689404,
      "loss": 1.9471,
      "step": 3837
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46745777130126953,
      "learning_rate": 0.0005973219420807395,
      "loss": 1.9492,
      "step": 3838
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.462349534034729,
      "learning_rate": 0.0005973205484316338,
      "loss": 1.8887,
      "step": 3839
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4428785741329193,
      "learning_rate": 0.0005973191544216247,
      "loss": 1.8777,
      "step": 3840
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4744831323623657,
      "learning_rate": 0.000597317760050714,
      "loss": 1.9335,
      "step": 3841
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.462944358587265,
      "learning_rate": 0.0005973163653189032,
      "loss": 1.8902,
      "step": 3842
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4485599398612976,
      "learning_rate": 0.0005973149702261944,
      "loss": 1.9611,
      "step": 3843
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45375239849090576,
      "learning_rate": 0.0005973135747725888,
      "loss": 1.9845,
      "step": 3844
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4544644355773926,
      "learning_rate": 0.0005973121789580884,
      "loss": 1.8717,
      "step": 3845
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4480833411216736,
      "learning_rate": 0.0005973107827826949,
      "loss": 1.9079,
      "step": 3846
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4443512558937073,
      "learning_rate": 0.0005973093862464097,
      "loss": 1.9088,
      "step": 3847
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43439021706581116,
      "learning_rate": 0.000597307989349235,
      "loss": 1.9083,
      "step": 3848
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4404895305633545,
      "learning_rate": 0.000597306592091172,
      "loss": 1.8254,
      "step": 3849
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.437674880027771,
      "learning_rate": 0.0005973051944722226,
      "loss": 1.8745,
      "step": 3850
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4476046860218048,
      "learning_rate": 0.0005973037964923886,
      "loss": 1.9174,
      "step": 3851
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45677560567855835,
      "learning_rate": 0.0005973023981516716,
      "loss": 1.9118,
      "step": 3852
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4447915554046631,
      "learning_rate": 0.0005973009994500732,
      "loss": 1.9289,
      "step": 3853
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44730719923973083,
      "learning_rate": 0.0005972996003875952,
      "loss": 1.9462,
      "step": 3854
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45134586095809937,
      "learning_rate": 0.0005972982009642394,
      "loss": 1.864,
      "step": 3855
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44286981225013733,
      "learning_rate": 0.0005972968011800074,
      "loss": 1.9032,
      "step": 3856
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4464578926563263,
      "learning_rate": 0.0005972954010349008,
      "loss": 1.8568,
      "step": 3857
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46084854006767273,
      "learning_rate": 0.0005972940005289214,
      "loss": 1.9059,
      "step": 3858
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46569278836250305,
      "learning_rate": 0.0005972925996620709,
      "loss": 1.9909,
      "step": 3859
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4428013265132904,
      "learning_rate": 0.0005972911984343509,
      "loss": 1.9762,
      "step": 3860
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4382575750350952,
      "learning_rate": 0.0005972897968457633,
      "loss": 1.9695,
      "step": 3861
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46120569109916687,
      "learning_rate": 0.0005972883948963097,
      "loss": 1.903,
      "step": 3862
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44529128074645996,
      "learning_rate": 0.0005972869925859917,
      "loss": 2.0444,
      "step": 3863
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4503993093967438,
      "learning_rate": 0.0005972855899148111,
      "loss": 1.9859,
      "step": 3864
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4767523407936096,
      "learning_rate": 0.0005972841868827697,
      "loss": 1.9008,
      "step": 3865
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44629305601119995,
      "learning_rate": 0.000597282783489869,
      "loss": 1.8255,
      "step": 3866
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4359848201274872,
      "learning_rate": 0.0005972813797361108,
      "loss": 1.8496,
      "step": 3867
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47226640582084656,
      "learning_rate": 0.0005972799756214969,
      "loss": 1.9406,
      "step": 3868
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45883166790008545,
      "learning_rate": 0.0005972785711460288,
      "loss": 1.9092,
      "step": 3869
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4397014081478119,
      "learning_rate": 0.0005972771663097084,
      "loss": 1.8684,
      "step": 3870
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4460897743701935,
      "learning_rate": 0.0005972757611125373,
      "loss": 1.9269,
      "step": 3871
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46963614225387573,
      "learning_rate": 0.0005972743555545172,
      "loss": 1.9685,
      "step": 3872
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4321388602256775,
      "learning_rate": 0.0005972729496356499,
      "loss": 1.9188,
      "step": 3873
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46485835313796997,
      "learning_rate": 0.000597271543355937,
      "loss": 1.9167,
      "step": 3874
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4829595983028412,
      "learning_rate": 0.0005972701367153802,
      "loss": 1.9273,
      "step": 3875
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4528416097164154,
      "learning_rate": 0.0005972687297139814,
      "loss": 1.9848,
      "step": 3876
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4574681520462036,
      "learning_rate": 0.000597267322351742,
      "loss": 1.925,
      "step": 3877
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47040703892707825,
      "learning_rate": 0.0005972659146286641,
      "loss": 1.9369,
      "step": 3878
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4533594846725464,
      "learning_rate": 0.0005972645065447489,
      "loss": 1.9234,
      "step": 3879
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4459720253944397,
      "learning_rate": 0.0005972630980999985,
      "loss": 1.9178,
      "step": 3880
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4627826511859894,
      "learning_rate": 0.0005972616892944145,
      "loss": 1.8402,
      "step": 3881
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4520038068294525,
      "learning_rate": 0.0005972602801279987,
      "loss": 1.9313,
      "step": 3882
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4566735029220581,
      "learning_rate": 0.0005972588706007525,
      "loss": 1.9071,
      "step": 3883
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4699566960334778,
      "learning_rate": 0.000597257460712678,
      "loss": 1.9224,
      "step": 3884
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4673506021499634,
      "learning_rate": 0.0005972560504637767,
      "loss": 1.9525,
      "step": 3885
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4460160434246063,
      "learning_rate": 0.0005972546398540504,
      "loss": 1.9049,
      "step": 3886
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.451187402009964,
      "learning_rate": 0.0005972532288835006,
      "loss": 1.9368,
      "step": 3887
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47087419033050537,
      "learning_rate": 0.0005972518175521294,
      "loss": 1.991,
      "step": 3888
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4395603537559509,
      "learning_rate": 0.0005972504058599381,
      "loss": 1.9255,
      "step": 3889
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44071337580680847,
      "learning_rate": 0.0005972489938069288,
      "loss": 1.9216,
      "step": 3890
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45175987482070923,
      "learning_rate": 0.0005972475813931029,
      "loss": 1.9523,
      "step": 3891
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4484732747077942,
      "learning_rate": 0.0005972461686184622,
      "loss": 1.8836,
      "step": 3892
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44616198539733887,
      "learning_rate": 0.0005972447554830085,
      "loss": 1.8915,
      "step": 3893
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44678816199302673,
      "learning_rate": 0.0005972433419867434,
      "loss": 1.8761,
      "step": 3894
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4429258108139038,
      "learning_rate": 0.0005972419281296688,
      "loss": 1.9034,
      "step": 3895
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4435669779777527,
      "learning_rate": 0.0005972405139117864,
      "loss": 1.9185,
      "step": 3896
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4426289200782776,
      "learning_rate": 0.0005972390993330976,
      "loss": 1.9242,
      "step": 3897
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46020177006721497,
      "learning_rate": 0.0005972376843936043,
      "loss": 2.0124,
      "step": 3898
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45296674966812134,
      "learning_rate": 0.0005972362690933083,
      "loss": 1.8558,
      "step": 3899
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4821537137031555,
      "learning_rate": 0.0005972348534322114,
      "loss": 1.9588,
      "step": 3900
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43966227769851685,
      "learning_rate": 0.000597233437410315,
      "loss": 1.9236,
      "step": 3901
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.48059144616127014,
      "learning_rate": 0.000597232021027621,
      "loss": 1.9693,
      "step": 3902
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46331340074539185,
      "learning_rate": 0.0005972306042841313,
      "loss": 1.8871,
      "step": 3903
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44465699791908264,
      "learning_rate": 0.0005972291871798474,
      "loss": 1.9045,
      "step": 3904
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44372615218162537,
      "learning_rate": 0.0005972277697147708,
      "loss": 1.8504,
      "step": 3905
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44994616508483887,
      "learning_rate": 0.0005972263518889038,
      "loss": 1.8873,
      "step": 3906
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.461677610874176,
      "learning_rate": 0.0005972249337022476,
      "loss": 1.9202,
      "step": 3907
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43645334243774414,
      "learning_rate": 0.0005972235151548043,
      "loss": 1.9557,
      "step": 3908
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4489169418811798,
      "learning_rate": 0.0005972220962465754,
      "loss": 1.9255,
      "step": 3909
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45159971714019775,
      "learning_rate": 0.0005972206769775626,
      "loss": 1.8341,
      "step": 3910
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4473732113838196,
      "learning_rate": 0.0005972192573477677,
      "loss": 1.916,
      "step": 3911
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4546279013156891,
      "learning_rate": 0.0005972178373571925,
      "loss": 1.9133,
      "step": 3912
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45473748445510864,
      "learning_rate": 0.0005972164170058385,
      "loss": 1.9909,
      "step": 3913
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44369906187057495,
      "learning_rate": 0.0005972149962937076,
      "loss": 1.9211,
      "step": 3914
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46230635046958923,
      "learning_rate": 0.0005972135752208016,
      "loss": 1.95,
      "step": 3915
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4362363815307617,
      "learning_rate": 0.000597212153787122,
      "loss": 1.9097,
      "step": 3916
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4439390301704407,
      "learning_rate": 0.0005972107319926706,
      "loss": 1.9275,
      "step": 3917
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4799621105194092,
      "learning_rate": 0.0005972093098374493,
      "loss": 1.9512,
      "step": 3918
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4555675983428955,
      "learning_rate": 0.0005972078873214597,
      "loss": 1.8786,
      "step": 3919
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44828522205352783,
      "learning_rate": 0.0005972064644447034,
      "loss": 1.9285,
      "step": 3920
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.49056878685951233,
      "learning_rate": 0.0005972050412071823,
      "loss": 2.0166,
      "step": 3921
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4516879916191101,
      "learning_rate": 0.0005972036176088981,
      "loss": 1.944,
      "step": 3922
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4504585564136505,
      "learning_rate": 0.0005972021936498524,
      "loss": 1.8881,
      "step": 3923
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.469251424074173,
      "learning_rate": 0.000597200769330047,
      "loss": 1.9472,
      "step": 3924
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46568113565444946,
      "learning_rate": 0.0005971993446494837,
      "loss": 1.9839,
      "step": 3925
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5104448795318604,
      "learning_rate": 0.0005971979196081643,
      "loss": 1.969,
      "step": 3926
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45443618297576904,
      "learning_rate": 0.0005971964942060904,
      "loss": 1.905,
      "step": 3927
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4490271210670471,
      "learning_rate": 0.0005971950684432637,
      "loss": 1.9231,
      "step": 3928
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46723777055740356,
      "learning_rate": 0.0005971936423196859,
      "loss": 1.8975,
      "step": 3929
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4384182393550873,
      "learning_rate": 0.0005971922158353589,
      "loss": 1.8949,
      "step": 3930
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43983516097068787,
      "learning_rate": 0.0005971907889902842,
      "loss": 1.8781,
      "step": 3931
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45528504252433777,
      "learning_rate": 0.0005971893617844639,
      "loss": 1.9772,
      "step": 3932
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44934606552124023,
      "learning_rate": 0.0005971879342178993,
      "loss": 1.839,
      "step": 3933
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47436749935150146,
      "learning_rate": 0.0005971865062905924,
      "loss": 1.9279,
      "step": 3934
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4492606520652771,
      "learning_rate": 0.0005971850780025449,
      "loss": 1.9325,
      "step": 3935
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4673735201358795,
      "learning_rate": 0.0005971836493537585,
      "loss": 1.9664,
      "step": 3936
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44601672887802124,
      "learning_rate": 0.000597182220344235,
      "loss": 1.8984,
      "step": 3937
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4564412832260132,
      "learning_rate": 0.0005971807909739759,
      "loss": 1.9668,
      "step": 3938
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4607207775115967,
      "learning_rate": 0.0005971793612429832,
      "loss": 1.9659,
      "step": 3939
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4385194182395935,
      "learning_rate": 0.0005971779311512586,
      "loss": 1.8833,
      "step": 3940
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44363924860954285,
      "learning_rate": 0.0005971765006988038,
      "loss": 1.8795,
      "step": 3941
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4596548080444336,
      "learning_rate": 0.0005971750698856204,
      "loss": 1.9495,
      "step": 3942
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4481976330280304,
      "learning_rate": 0.0005971736387117103,
      "loss": 1.9269,
      "step": 3943
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47761762142181396,
      "learning_rate": 0.0005971722071770752,
      "loss": 1.9429,
      "step": 3944
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47909706830978394,
      "learning_rate": 0.0005971707752817167,
      "loss": 1.9399,
      "step": 3945
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4458622634410858,
      "learning_rate": 0.0005971693430256369,
      "loss": 1.9386,
      "step": 3946
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44489893317222595,
      "learning_rate": 0.0005971679104088372,
      "loss": 1.9209,
      "step": 3947
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4675346910953522,
      "learning_rate": 0.0005971664774313194,
      "loss": 1.9362,
      "step": 3948
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4536363184452057,
      "learning_rate": 0.0005971650440930853,
      "loss": 1.928,
      "step": 3949
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4395607113838196,
      "learning_rate": 0.0005971636103941365,
      "loss": 1.8947,
      "step": 3950
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4622430205345154,
      "learning_rate": 0.0005971621763344751,
      "loss": 1.854,
      "step": 3951
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46649008989334106,
      "learning_rate": 0.0005971607419141024,
      "loss": 1.9438,
      "step": 3952
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45029163360595703,
      "learning_rate": 0.0005971593071330205,
      "loss": 1.9339,
      "step": 3953
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4512037932872772,
      "learning_rate": 0.0005971578719912309,
      "loss": 1.8838,
      "step": 3954
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4564030170440674,
      "learning_rate": 0.0005971564364887355,
      "loss": 1.896,
      "step": 3955
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4538283050060272,
      "learning_rate": 0.0005971550006255359,
      "loss": 1.9173,
      "step": 3956
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45507577061653137,
      "learning_rate": 0.0005971535644016339,
      "loss": 1.9128,
      "step": 3957
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4572252333164215,
      "learning_rate": 0.0005971521278170313,
      "loss": 1.9173,
      "step": 3958
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4601823389530182,
      "learning_rate": 0.0005971506908717298,
      "loss": 1.891,
      "step": 3959
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4552323818206787,
      "learning_rate": 0.0005971492535657312,
      "loss": 1.911,
      "step": 3960
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4590456783771515,
      "learning_rate": 0.000597147815899037,
      "loss": 1.8826,
      "step": 3961
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4730730950832367,
      "learning_rate": 0.0005971463778716493,
      "loss": 1.9466,
      "step": 3962
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4720422625541687,
      "learning_rate": 0.0005971449394835697,
      "loss": 1.9117,
      "step": 3963
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4601254463195801,
      "learning_rate": 0.0005971435007347998,
      "loss": 1.957,
      "step": 3964
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44550061225891113,
      "learning_rate": 0.0005971420616253416,
      "loss": 1.8509,
      "step": 3965
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.480329304933548,
      "learning_rate": 0.0005971406221551966,
      "loss": 1.872,
      "step": 3966
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43039387464523315,
      "learning_rate": 0.0005971391823243668,
      "loss": 1.9384,
      "step": 3967
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44473832845687866,
      "learning_rate": 0.0005971377421328537,
      "loss": 1.919,
      "step": 3968
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44308042526245117,
      "learning_rate": 0.0005971363015806592,
      "loss": 1.8803,
      "step": 3969
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46084386110305786,
      "learning_rate": 0.000597134860667785,
      "loss": 1.9719,
      "step": 3970
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45875605940818787,
      "learning_rate": 0.0005971334193942329,
      "loss": 1.9088,
      "step": 3971
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4444296061992645,
      "learning_rate": 0.0005971319777600045,
      "loss": 1.8826,
      "step": 3972
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44252076745033264,
      "learning_rate": 0.0005971305357651018,
      "loss": 1.9573,
      "step": 3973
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44899746775627136,
      "learning_rate": 0.0005971290934095263,
      "loss": 1.8692,
      "step": 3974
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44008323550224304,
      "learning_rate": 0.0005971276506932799,
      "loss": 1.9557,
      "step": 3975
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4460790157318115,
      "learning_rate": 0.0005971262076163643,
      "loss": 1.9301,
      "step": 3976
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4427020847797394,
      "learning_rate": 0.0005971247641787813,
      "loss": 1.8757,
      "step": 3977
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4433024823665619,
      "learning_rate": 0.0005971233203805326,
      "loss": 1.9068,
      "step": 3978
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4349629878997803,
      "learning_rate": 0.0005971218762216199,
      "loss": 1.9636,
      "step": 3979
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4408770203590393,
      "learning_rate": 0.0005971204317020451,
      "loss": 1.9589,
      "step": 3980
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4415076971054077,
      "learning_rate": 0.0005971189868218099,
      "loss": 1.8928,
      "step": 3981
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44850388169288635,
      "learning_rate": 0.0005971175415809161,
      "loss": 1.8969,
      "step": 3982
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4382517337799072,
      "learning_rate": 0.0005971160959793653,
      "loss": 1.9612,
      "step": 3983
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44342225790023804,
      "learning_rate": 0.0005971146500171592,
      "loss": 1.9003,
      "step": 3984
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4525308907032013,
      "learning_rate": 0.0005971132036942997,
      "loss": 1.9582,
      "step": 3985
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.456355482339859,
      "learning_rate": 0.0005971117570107887,
      "loss": 1.9664,
      "step": 3986
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44407474994659424,
      "learning_rate": 0.0005971103099666278,
      "loss": 1.9195,
      "step": 3987
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4663015604019165,
      "learning_rate": 0.0005971088625618187,
      "loss": 1.9093,
      "step": 3988
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4559783339500427,
      "learning_rate": 0.0005971074147963632,
      "loss": 1.9666,
      "step": 3989
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4463990032672882,
      "learning_rate": 0.0005971059666702632,
      "loss": 1.91,
      "step": 3990
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44295963644981384,
      "learning_rate": 0.0005971045181835202,
      "loss": 1.9547,
      "step": 3991
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4446285367012024,
      "learning_rate": 0.0005971030693361361,
      "loss": 1.9368,
      "step": 3992
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43680667877197266,
      "learning_rate": 0.0005971016201281128,
      "loss": 1.8656,
      "step": 3993
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43046683073043823,
      "learning_rate": 0.0005971001705594517,
      "loss": 1.8548,
      "step": 3994
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44398683309555054,
      "learning_rate": 0.0005970987206301548,
      "loss": 1.8927,
      "step": 3995
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4592621326446533,
      "learning_rate": 0.0005970972703402239,
      "loss": 1.894,
      "step": 3996
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44790005683898926,
      "learning_rate": 0.0005970958196896607,
      "loss": 1.938,
      "step": 3997
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45092490315437317,
      "learning_rate": 0.0005970943686784669,
      "loss": 1.8976,
      "step": 3998
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4423554241657257,
      "learning_rate": 0.0005970929173066444,
      "loss": 1.8593,
      "step": 3999
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4444218575954437,
      "learning_rate": 0.0005970914655741948,
      "loss": 1.9512,
      "step": 4000
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4450065493583679,
      "learning_rate": 0.00059709001348112,
      "loss": 1.8081,
      "step": 4001
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43582016229629517,
      "learning_rate": 0.0005970885610274216,
      "loss": 1.8605,
      "step": 4002
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4405900239944458,
      "learning_rate": 0.0005970871082131015,
      "loss": 1.8872,
      "step": 4003
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4432612657546997,
      "learning_rate": 0.0005970856550381614,
      "loss": 1.9417,
      "step": 4004
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4584922790527344,
      "learning_rate": 0.0005970842015026031,
      "loss": 1.9419,
      "step": 4005
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4410027265548706,
      "learning_rate": 0.0005970827476064283,
      "loss": 1.9541,
      "step": 4006
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4431038200855255,
      "learning_rate": 0.000597081293349639,
      "loss": 1.9263,
      "step": 4007
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4446783661842346,
      "learning_rate": 0.0005970798387322367,
      "loss": 1.9013,
      "step": 4008
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44379958510398865,
      "learning_rate": 0.0005970783837542232,
      "loss": 1.8666,
      "step": 4009
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4611915647983551,
      "learning_rate": 0.0005970769284156004,
      "loss": 1.9048,
      "step": 4010
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.448303759098053,
      "learning_rate": 0.0005970754727163699,
      "loss": 1.9429,
      "step": 4011
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4704934358596802,
      "learning_rate": 0.0005970740166565335,
      "loss": 1.8981,
      "step": 4012
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44528013467788696,
      "learning_rate": 0.0005970725602360931,
      "loss": 1.8792,
      "step": 4013
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43467962741851807,
      "learning_rate": 0.0005970711034550503,
      "loss": 1.8878,
      "step": 4014
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45527854561805725,
      "learning_rate": 0.0005970696463134071,
      "loss": 1.9794,
      "step": 4015
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4591865539550781,
      "learning_rate": 0.000597068188811165,
      "loss": 1.8006,
      "step": 4016
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45491376519203186,
      "learning_rate": 0.0005970667309483259,
      "loss": 1.9746,
      "step": 4017
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4343528747558594,
      "learning_rate": 0.0005970652727248916,
      "loss": 1.9013,
      "step": 4018
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46785393357276917,
      "learning_rate": 0.0005970638141408638,
      "loss": 1.8588,
      "step": 4019
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4451686143875122,
      "learning_rate": 0.0005970623551962443,
      "loss": 1.8983,
      "step": 4020
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4644211530685425,
      "learning_rate": 0.0005970608958910349,
      "loss": 1.8721,
      "step": 4021
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4416864812374115,
      "learning_rate": 0.0005970594362252373,
      "loss": 1.9169,
      "step": 4022
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44043418765068054,
      "learning_rate": 0.0005970579761988533,
      "loss": 1.9584,
      "step": 4023
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44957470893859863,
      "learning_rate": 0.0005970565158118847,
      "loss": 1.9401,
      "step": 4024
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45933958888053894,
      "learning_rate": 0.0005970550550643334,
      "loss": 1.9437,
      "step": 4025
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4444894790649414,
      "learning_rate": 0.0005970535939562009,
      "loss": 1.8956,
      "step": 4026
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4276595413684845,
      "learning_rate": 0.0005970521324874891,
      "loss": 1.8592,
      "step": 4027
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45950987935066223,
      "learning_rate": 0.0005970506706581999,
      "loss": 1.8799,
      "step": 4028
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4772523045539856,
      "learning_rate": 0.0005970492084683348,
      "loss": 2.0102,
      "step": 4029
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46763676404953003,
      "learning_rate": 0.0005970477459178958,
      "loss": 1.9606,
      "step": 4030
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46826839447021484,
      "learning_rate": 0.0005970462830068846,
      "loss": 1.8896,
      "step": 4031
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4487505555152893,
      "learning_rate": 0.000597044819735303,
      "loss": 1.9031,
      "step": 4032
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44905421137809753,
      "learning_rate": 0.0005970433561031526,
      "loss": 1.7771,
      "step": 4033
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44363662600517273,
      "learning_rate": 0.0005970418921104355,
      "loss": 1.8198,
      "step": 4034
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4483489990234375,
      "learning_rate": 0.0005970404277571533,
      "loss": 1.9588,
      "step": 4035
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4582356810569763,
      "learning_rate": 0.0005970389630433078,
      "loss": 1.8969,
      "step": 4036
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46709030866622925,
      "learning_rate": 0.0005970374979689006,
      "loss": 2.0419,
      "step": 4037
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4425355792045593,
      "learning_rate": 0.0005970360325339338,
      "loss": 1.999,
      "step": 4038
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44509580731391907,
      "learning_rate": 0.000597034566738409,
      "loss": 1.9566,
      "step": 4039
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4499770402908325,
      "learning_rate": 0.000597033100582328,
      "loss": 1.9478,
      "step": 4040
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4424581527709961,
      "learning_rate": 0.0005970316340656926,
      "loss": 1.9276,
      "step": 4041
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45179685950279236,
      "learning_rate": 0.0005970301671885046,
      "loss": 1.878,
      "step": 4042
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.433577299118042,
      "learning_rate": 0.0005970286999507656,
      "loss": 1.8513,
      "step": 4043
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45778709650039673,
      "learning_rate": 0.0005970272323524776,
      "loss": 1.9581,
      "step": 4044
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44809702038764954,
      "learning_rate": 0.0005970257643936423,
      "loss": 1.8546,
      "step": 4045
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.44130510091781616,
      "learning_rate": 0.0005970242960742615,
      "loss": 1.8903,
      "step": 4046
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4431958794593811,
      "learning_rate": 0.000597022827394337,
      "loss": 1.9478,
      "step": 4047
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4634535610675812,
      "learning_rate": 0.0005970213583538704,
      "loss": 1.92,
      "step": 4048
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4437062442302704,
      "learning_rate": 0.0005970198889528639,
      "loss": 1.9659,
      "step": 4049
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46942389011383057,
      "learning_rate": 0.0005970184191913189,
      "loss": 1.9023,
      "step": 4050
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4622710943222046,
      "learning_rate": 0.0005970169490692372,
      "loss": 1.9234,
      "step": 4051
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4471690356731415,
      "learning_rate": 0.0005970154785866207,
      "loss": 1.7673,
      "step": 4052
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.46007639169692993,
      "learning_rate": 0.0005970140077434713,
      "loss": 1.9301,
      "step": 4053
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.452915221452713,
      "learning_rate": 0.0005970125365397905,
      "loss": 1.9056,
      "step": 4054
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4482170343399048,
      "learning_rate": 0.0005970110649755803,
      "loss": 1.9259,
      "step": 4055
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45254889130592346,
      "learning_rate": 0.0005970095930508425,
      "loss": 1.9517,
      "step": 4056
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4590599536895752,
      "learning_rate": 0.0005970081207655789,
      "loss": 2.0025,
      "step": 4057
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46686071157455444,
      "learning_rate": 0.000597006648119791,
      "loss": 1.9739,
      "step": 4058
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4481654763221741,
      "learning_rate": 0.0005970051751134809,
      "loss": 1.9082,
      "step": 4059
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44697821140289307,
      "learning_rate": 0.0005970037017466502,
      "loss": 1.8895,
      "step": 4060
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.48285600543022156,
      "learning_rate": 0.0005970022280193008,
      "loss": 1.9074,
      "step": 4061
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4593620300292969,
      "learning_rate": 0.0005970007539314345,
      "loss": 1.8498,
      "step": 4062
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44037461280822754,
      "learning_rate": 0.000596999279483053,
      "loss": 1.8948,
      "step": 4063
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44601213932037354,
      "learning_rate": 0.0005969978046741582,
      "loss": 1.9547,
      "step": 4064
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4490702152252197,
      "learning_rate": 0.0005969963295047517,
      "loss": 1.8644,
      "step": 4065
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47195735573768616,
      "learning_rate": 0.0005969948539748355,
      "loss": 1.9092,
      "step": 4066
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46934157609939575,
      "learning_rate": 0.0005969933780844113,
      "loss": 1.8949,
      "step": 4067
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45877423882484436,
      "learning_rate": 0.000596991901833481,
      "loss": 1.8674,
      "step": 4068
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45680510997772217,
      "learning_rate": 0.0005969904252220462,
      "loss": 1.9034,
      "step": 4069
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4680324196815491,
      "learning_rate": 0.0005969889482501088,
      "loss": 1.9565,
      "step": 4070
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46920549869537354,
      "learning_rate": 0.0005969874709176705,
      "loss": 1.8865,
      "step": 4071
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4557921290397644,
      "learning_rate": 0.0005969859932247332,
      "loss": 1.8565,
      "step": 4072
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4501701295375824,
      "learning_rate": 0.0005969845151712987,
      "loss": 1.8387,
      "step": 4073
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4560319483280182,
      "learning_rate": 0.0005969830367573688,
      "loss": 1.8851,
      "step": 4074
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4320671260356903,
      "learning_rate": 0.0005969815579829451,
      "loss": 1.8733,
      "step": 4075
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44626930356025696,
      "learning_rate": 0.0005969800788480298,
      "loss": 1.9243,
      "step": 4076
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45887812972068787,
      "learning_rate": 0.0005969785993526242,
      "loss": 1.9766,
      "step": 4077
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4348146319389343,
      "learning_rate": 0.0005969771194967304,
      "loss": 1.9092,
      "step": 4078
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44512373208999634,
      "learning_rate": 0.0005969756392803501,
      "loss": 1.9472,
      "step": 4079
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4378921687602997,
      "learning_rate": 0.0005969741587034853,
      "loss": 1.8954,
      "step": 4080
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4430016577243805,
      "learning_rate": 0.0005969726777661375,
      "loss": 1.9701,
      "step": 4081
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44608965516090393,
      "learning_rate": 0.0005969711964683086,
      "loss": 1.8314,
      "step": 4082
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4492579698562622,
      "learning_rate": 0.0005969697148100005,
      "loss": 1.8413,
      "step": 4083
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4422076344490051,
      "learning_rate": 0.0005969682327912148,
      "loss": 1.9059,
      "step": 4084
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4443075954914093,
      "learning_rate": 0.0005969667504119536,
      "loss": 1.9516,
      "step": 4085
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4476582705974579,
      "learning_rate": 0.0005969652676722183,
      "loss": 1.8263,
      "step": 4086
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4472508728504181,
      "learning_rate": 0.0005969637845720111,
      "loss": 1.9043,
      "step": 4087
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4425753355026245,
      "learning_rate": 0.0005969623011113336,
      "loss": 1.8688,
      "step": 4088
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4464368224143982,
      "learning_rate": 0.0005969608172901876,
      "loss": 1.8777,
      "step": 4089
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45960289239883423,
      "learning_rate": 0.0005969593331085749,
      "loss": 1.9291,
      "step": 4090
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4451911449432373,
      "learning_rate": 0.0005969578485664973,
      "loss": 1.9321,
      "step": 4091
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.450982928276062,
      "learning_rate": 0.0005969563636639567,
      "loss": 1.8769,
      "step": 4092
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44427555799484253,
      "learning_rate": 0.0005969548784009549,
      "loss": 1.9088,
      "step": 4093
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44777196645736694,
      "learning_rate": 0.0005969533927774935,
      "loss": 1.8687,
      "step": 4094
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45997127890586853,
      "learning_rate": 0.0005969519067935744,
      "loss": 2.0403,
      "step": 4095
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4375452399253845,
      "learning_rate": 0.0005969504204491995,
      "loss": 1.9002,
      "step": 4096
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44706323742866516,
      "learning_rate": 0.0005969489337443706,
      "loss": 1.929,
      "step": 4097
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45601174235343933,
      "learning_rate": 0.0005969474466790893,
      "loss": 1.9088,
      "step": 4098
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4542880952358246,
      "learning_rate": 0.0005969459592533577,
      "loss": 1.8245,
      "step": 4099
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44081583619117737,
      "learning_rate": 0.0005969444714671774,
      "loss": 1.9106,
      "step": 4100
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4377349019050598,
      "learning_rate": 0.0005969429833205504,
      "loss": 1.9243,
      "step": 4101
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4355205297470093,
      "learning_rate": 0.0005969414948134782,
      "loss": 1.8185,
      "step": 4102
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44211816787719727,
      "learning_rate": 0.0005969400059459628,
      "loss": 1.9434,
      "step": 4103
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4385492205619812,
      "learning_rate": 0.000596938516718006,
      "loss": 1.9614,
      "step": 4104
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4598406255245209,
      "learning_rate": 0.0005969370271296095,
      "loss": 1.8666,
      "step": 4105
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4526555836200714,
      "learning_rate": 0.0005969355371807753,
      "loss": 1.8824,
      "step": 4106
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4517003893852234,
      "learning_rate": 0.0005969340468715052,
      "loss": 1.851,
      "step": 4107
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46685129404067993,
      "learning_rate": 0.0005969325562018008,
      "loss": 1.8901,
      "step": 4108
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4392194449901581,
      "learning_rate": 0.000596931065171664,
      "loss": 1.8743,
      "step": 4109
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.449653685092926,
      "learning_rate": 0.0005969295737810967,
      "loss": 1.9337,
      "step": 4110
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44234877824783325,
      "learning_rate": 0.0005969280820301006,
      "loss": 1.9025,
      "step": 4111
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46304047107696533,
      "learning_rate": 0.0005969265899186777,
      "loss": 1.9419,
      "step": 4112
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43392282724380493,
      "learning_rate": 0.0005969250974468296,
      "loss": 1.8627,
      "step": 4113
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46023911237716675,
      "learning_rate": 0.000596923604614558,
      "loss": 1.9243,
      "step": 4114
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4543597996234894,
      "learning_rate": 0.0005969221114218651,
      "loss": 1.9711,
      "step": 4115
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4423946142196655,
      "learning_rate": 0.0005969206178687525,
      "loss": 1.8902,
      "step": 4116
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4333628714084625,
      "learning_rate": 0.000596919123955222,
      "loss": 1.8984,
      "step": 4117
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43257367610931396,
      "learning_rate": 0.0005969176296812753,
      "loss": 1.9153,
      "step": 4118
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4386184513568878,
      "learning_rate": 0.0005969161350469145,
      "loss": 1.8356,
      "step": 4119
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4445706307888031,
      "learning_rate": 0.0005969146400521412,
      "loss": 1.9126,
      "step": 4120
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46301907300949097,
      "learning_rate": 0.0005969131446969572,
      "loss": 1.9209,
      "step": 4121
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4374442994594574,
      "learning_rate": 0.0005969116489813645,
      "loss": 1.8789,
      "step": 4122
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45606160163879395,
      "learning_rate": 0.0005969101529053649,
      "loss": 1.8891,
      "step": 4123
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4592348337173462,
      "learning_rate": 0.00059690865646896,
      "loss": 1.9012,
      "step": 4124
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4480287730693817,
      "learning_rate": 0.0005969071596721517,
      "loss": 1.7917,
      "step": 4125
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4809249937534332,
      "learning_rate": 0.0005969056625149419,
      "loss": 1.9285,
      "step": 4126
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4544300436973572,
      "learning_rate": 0.0005969041649973323,
      "loss": 1.8446,
      "step": 4127
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43982040882110596,
      "learning_rate": 0.0005969026671193249,
      "loss": 1.9429,
      "step": 4128
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4331628978252411,
      "learning_rate": 0.0005969011688809213,
      "loss": 1.886,
      "step": 4129
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45744577050209045,
      "learning_rate": 0.0005968996702821236,
      "loss": 1.8005,
      "step": 4130
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4588802754878998,
      "learning_rate": 0.0005968981713229333,
      "loss": 1.9879,
      "step": 4131
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43929383158683777,
      "learning_rate": 0.0005968966720033525,
      "loss": 1.829,
      "step": 4132
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46048808097839355,
      "learning_rate": 0.0005968951723233827,
      "loss": 1.9276,
      "step": 4133
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44231748580932617,
      "learning_rate": 0.000596893672283026,
      "loss": 1.8797,
      "step": 4134
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43990716338157654,
      "learning_rate": 0.0005968921718822841,
      "loss": 1.865,
      "step": 4135
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45790228247642517,
      "learning_rate": 0.0005968906711211588,
      "loss": 1.8552,
      "step": 4136
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4859568476676941,
      "learning_rate": 0.0005968891699996521,
      "loss": 1.9445,
      "step": 4137
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47223010659217834,
      "learning_rate": 0.0005968876685177656,
      "loss": 1.8776,
      "step": 4138
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45882201194763184,
      "learning_rate": 0.0005968861666755013,
      "loss": 1.9211,
      "step": 4139
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4529021680355072,
      "learning_rate": 0.000596884664472861,
      "loss": 1.9453,
      "step": 4140
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44748562574386597,
      "learning_rate": 0.0005968831619098462,
      "loss": 1.8815,
      "step": 4141
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46105846762657166,
      "learning_rate": 0.0005968816589864592,
      "loss": 1.9101,
      "step": 4142
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47365647554397583,
      "learning_rate": 0.0005968801557027015,
      "loss": 1.8651,
      "step": 4143
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44446107745170593,
      "learning_rate": 0.0005968786520585751,
      "loss": 1.8492,
      "step": 4144
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46857959032058716,
      "learning_rate": 0.0005968771480540817,
      "loss": 1.9176,
      "step": 4145
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4464043080806732,
      "learning_rate": 0.0005968756436892232,
      "loss": 1.9167,
      "step": 4146
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4322345554828644,
      "learning_rate": 0.0005968741389640015,
      "loss": 1.9555,
      "step": 4147
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44482293725013733,
      "learning_rate": 0.0005968726338784182,
      "loss": 1.903,
      "step": 4148
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45770764350891113,
      "learning_rate": 0.0005968711284324754,
      "loss": 1.864,
      "step": 4149
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44334790110588074,
      "learning_rate": 0.0005968696226261747,
      "loss": 1.9493,
      "step": 4150
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45124465227127075,
      "learning_rate": 0.0005968681164595181,
      "loss": 1.9316,
      "step": 4151
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.445112019777298,
      "learning_rate": 0.0005968666099325072,
      "loss": 1.8821,
      "step": 4152
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4268440306186676,
      "learning_rate": 0.0005968651030451442,
      "loss": 1.853,
      "step": 4153
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.445721834897995,
      "learning_rate": 0.0005968635957974305,
      "loss": 1.9769,
      "step": 4154
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45704299211502075,
      "learning_rate": 0.0005968620881893682,
      "loss": 1.9115,
      "step": 4155
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45899635553359985,
      "learning_rate": 0.0005968605802209591,
      "loss": 1.8826,
      "step": 4156
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4322369396686554,
      "learning_rate": 0.000596859071892205,
      "loss": 1.877,
      "step": 4157
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.42573732137680054,
      "learning_rate": 0.0005968575632031076,
      "loss": 1.8997,
      "step": 4158
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44884783029556274,
      "learning_rate": 0.0005968560541536691,
      "loss": 1.8963,
      "step": 4159
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4284011721611023,
      "learning_rate": 0.0005968545447438909,
      "loss": 1.918,
      "step": 4160
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44330763816833496,
      "learning_rate": 0.000596853034973775,
      "loss": 1.9031,
      "step": 4161
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4607188403606415,
      "learning_rate": 0.0005968515248433234,
      "loss": 1.8979,
      "step": 4162
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4362274706363678,
      "learning_rate": 0.0005968500143525377,
      "loss": 1.9407,
      "step": 4163
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4374482035636902,
      "learning_rate": 0.0005968485035014198,
      "loss": 1.8298,
      "step": 4164
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4586285948753357,
      "learning_rate": 0.0005968469922899717,
      "loss": 1.9014,
      "step": 4165
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45592740178108215,
      "learning_rate": 0.0005968454807181949,
      "loss": 1.932,
      "step": 4166
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4406023323535919,
      "learning_rate": 0.0005968439687860915,
      "loss": 1.8751,
      "step": 4167
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4346827566623688,
      "learning_rate": 0.0005968424564936633,
      "loss": 1.8463,
      "step": 4168
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46861058473587036,
      "learning_rate": 0.0005968409438409121,
      "loss": 1.9099,
      "step": 4169
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45546773076057434,
      "learning_rate": 0.0005968394308278397,
      "loss": 1.8541,
      "step": 4170
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4891808032989502,
      "learning_rate": 0.0005968379174544479,
      "loss": 1.926,
      "step": 4171
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45311614871025085,
      "learning_rate": 0.0005968364037207387,
      "loss": 1.8907,
      "step": 4172
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4635484218597412,
      "learning_rate": 0.0005968348896267137,
      "loss": 1.8288,
      "step": 4173
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.48098868131637573,
      "learning_rate": 0.0005968333751723751,
      "loss": 1.9197,
      "step": 4174
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4521216154098511,
      "learning_rate": 0.0005968318603577243,
      "loss": 1.8695,
      "step": 4175
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4560317397117615,
      "learning_rate": 0.0005968303451827636,
      "loss": 1.8628,
      "step": 4176
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4631466567516327,
      "learning_rate": 0.0005968288296474944,
      "loss": 1.9054,
      "step": 4177
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4437549412250519,
      "learning_rate": 0.0005968273137519188,
      "loss": 1.9096,
      "step": 4178
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4519948363304138,
      "learning_rate": 0.0005968257974960387,
      "loss": 1.9668,
      "step": 4179
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5084123015403748,
      "learning_rate": 0.0005968242808798555,
      "loss": 1.9468,
      "step": 4180
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44590237736701965,
      "learning_rate": 0.0005968227639033717,
      "loss": 1.9145,
      "step": 4181
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4608286917209625,
      "learning_rate": 0.0005968212465665886,
      "loss": 1.9246,
      "step": 4182
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4612613320350647,
      "learning_rate": 0.0005968197288695082,
      "loss": 1.8729,
      "step": 4183
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4496547281742096,
      "learning_rate": 0.0005968182108121326,
      "loss": 1.8637,
      "step": 4184
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4472424387931824,
      "learning_rate": 0.0005968166923944633,
      "loss": 1.9521,
      "step": 4185
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46888071298599243,
      "learning_rate": 0.0005968151736165022,
      "loss": 1.8932,
      "step": 4186
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4507954716682434,
      "learning_rate": 0.0005968136544782513,
      "loss": 1.9119,
      "step": 4187
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4469684362411499,
      "learning_rate": 0.0005968121349797124,
      "loss": 1.9734,
      "step": 4188
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4268758296966553,
      "learning_rate": 0.0005968106151208872,
      "loss": 1.7809,
      "step": 4189
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44498151540756226,
      "learning_rate": 0.0005968090949017777,
      "loss": 1.9062,
      "step": 4190
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44302359223365784,
      "learning_rate": 0.0005968075743223856,
      "loss": 1.8588,
      "step": 4191
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4348446726799011,
      "learning_rate": 0.000596806053382713,
      "loss": 1.8656,
      "step": 4192
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4660232663154602,
      "learning_rate": 0.0005968045320827615,
      "loss": 1.8768,
      "step": 4193
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45484307408332825,
      "learning_rate": 0.000596803010422533,
      "loss": 1.8676,
      "step": 4194
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44953757524490356,
      "learning_rate": 0.0005968014884020294,
      "loss": 1.9144,
      "step": 4195
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45811548829078674,
      "learning_rate": 0.0005967999660212525,
      "loss": 1.9125,
      "step": 4196
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45390430092811584,
      "learning_rate": 0.0005967984432802043,
      "loss": 1.9358,
      "step": 4197
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44031235575675964,
      "learning_rate": 0.0005967969201788865,
      "loss": 1.8861,
      "step": 4198
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43678656220436096,
      "learning_rate": 0.0005967953967173007,
      "loss": 1.9329,
      "step": 4199
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.42633819580078125,
      "learning_rate": 0.0005967938728954493,
      "loss": 1.8677,
      "step": 4200
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4442245364189148,
      "learning_rate": 0.0005967923487133338,
      "loss": 1.9266,
      "step": 4201
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4430333375930786,
      "learning_rate": 0.0005967908241709561,
      "loss": 1.8965,
      "step": 4202
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4475432336330414,
      "learning_rate": 0.000596789299268318,
      "loss": 1.9049,
      "step": 4203
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44694507122039795,
      "learning_rate": 0.0005967877740054216,
      "loss": 1.93,
      "step": 4204
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46216100454330444,
      "learning_rate": 0.0005967862483822684,
      "loss": 1.9268,
      "step": 4205
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44150885939598083,
      "learning_rate": 0.0005967847223988605,
      "loss": 1.9251,
      "step": 4206
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43963631987571716,
      "learning_rate": 0.0005967831960551997,
      "loss": 1.8722,
      "step": 4207
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4473663866519928,
      "learning_rate": 0.0005967816693512877,
      "loss": 1.8929,
      "step": 4208
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4411616921424866,
      "learning_rate": 0.0005967801422871266,
      "loss": 1.8537,
      "step": 4209
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45028188824653625,
      "learning_rate": 0.0005967786148627182,
      "loss": 1.9236,
      "step": 4210
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.452387273311615,
      "learning_rate": 0.0005967770870780641,
      "loss": 1.9825,
      "step": 4211
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4489869773387909,
      "learning_rate": 0.0005967755589331665,
      "loss": 1.9125,
      "step": 4212
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4397001266479492,
      "learning_rate": 0.0005967740304280271,
      "loss": 1.8356,
      "step": 4213
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.48416653275489807,
      "learning_rate": 0.0005967725015626476,
      "loss": 1.9782,
      "step": 4214
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44054558873176575,
      "learning_rate": 0.0005967709723370302,
      "loss": 1.9088,
      "step": 4215
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.455921471118927,
      "learning_rate": 0.0005967694427511765,
      "loss": 1.9489,
      "step": 4216
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4435497522354126,
      "learning_rate": 0.0005967679128050884,
      "loss": 1.8972,
      "step": 4217
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46524107456207275,
      "learning_rate": 0.0005967663824987677,
      "loss": 1.9208,
      "step": 4218
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44745051860809326,
      "learning_rate": 0.0005967648518322165,
      "loss": 1.8981,
      "step": 4219
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4467006027698517,
      "learning_rate": 0.0005967633208054363,
      "loss": 1.9432,
      "step": 4220
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44942542910575867,
      "learning_rate": 0.0005967617894184293,
      "loss": 1.8883,
      "step": 4221
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4446672797203064,
      "learning_rate": 0.0005967602576711972,
      "loss": 1.8389,
      "step": 4222
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44766539335250854,
      "learning_rate": 0.0005967587255637419,
      "loss": 1.8921,
      "step": 4223
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44520828127861023,
      "learning_rate": 0.0005967571930960651,
      "loss": 1.9677,
      "step": 4224
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43397441506385803,
      "learning_rate": 0.0005967556602681689,
      "loss": 1.8569,
      "step": 4225
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45679259300231934,
      "learning_rate": 0.000596754127080055,
      "loss": 1.947,
      "step": 4226
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4749581813812256,
      "learning_rate": 0.0005967525935317254,
      "loss": 1.9537,
      "step": 4227
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46362176537513733,
      "learning_rate": 0.0005967510596231818,
      "loss": 1.8853,
      "step": 4228
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4672650992870331,
      "learning_rate": 0.0005967495253544262,
      "loss": 1.9043,
      "step": 4229
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45064741373062134,
      "learning_rate": 0.0005967479907254603,
      "loss": 1.8877,
      "step": 4230
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4411870837211609,
      "learning_rate": 0.0005967464557362862,
      "loss": 1.8265,
      "step": 4231
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44777223467826843,
      "learning_rate": 0.0005967449203869055,
      "loss": 1.8591,
      "step": 4232
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44591090083122253,
      "learning_rate": 0.0005967433846773203,
      "loss": 1.8793,
      "step": 4233
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4704132378101349,
      "learning_rate": 0.0005967418486075323,
      "loss": 1.9417,
      "step": 4234
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47026875615119934,
      "learning_rate": 0.0005967403121775434,
      "loss": 1.917,
      "step": 4235
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4329659640789032,
      "learning_rate": 0.0005967387753873555,
      "loss": 1.862,
      "step": 4236
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4549194276332855,
      "learning_rate": 0.0005967372382369705,
      "loss": 1.927,
      "step": 4237
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4706743359565735,
      "learning_rate": 0.0005967357007263901,
      "loss": 1.8202,
      "step": 4238
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4561152160167694,
      "learning_rate": 0.0005967341628556163,
      "loss": 1.974,
      "step": 4239
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.449353963136673,
      "learning_rate": 0.000596732624624651,
      "loss": 1.882,
      "step": 4240
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4950244128704071,
      "learning_rate": 0.0005967310860334961,
      "loss": 1.8267,
      "step": 4241
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4592248499393463,
      "learning_rate": 0.0005967295470821533,
      "loss": 1.9587,
      "step": 4242
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4258473515510559,
      "learning_rate": 0.0005967280077706245,
      "loss": 1.8306,
      "step": 4243
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46087199449539185,
      "learning_rate": 0.0005967264680989116,
      "loss": 1.9058,
      "step": 4244
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4369261562824249,
      "learning_rate": 0.0005967249280670167,
      "loss": 1.9438,
      "step": 4245
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44902727007865906,
      "learning_rate": 0.0005967233876749413,
      "loss": 1.8853,
      "step": 4246
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4549672603607178,
      "learning_rate": 0.0005967218469226874,
      "loss": 1.9543,
      "step": 4247
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4359913766384125,
      "learning_rate": 0.0005967203058102569,
      "loss": 1.8494,
      "step": 4248
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4457261562347412,
      "learning_rate": 0.0005967187643376516,
      "loss": 1.9293,
      "step": 4249
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4389914274215698,
      "learning_rate": 0.0005967172225048737,
      "loss": 1.8231,
      "step": 4250
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4353073835372925,
      "learning_rate": 0.0005967156803119246,
      "loss": 1.8928,
      "step": 4251
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4480324387550354,
      "learning_rate": 0.0005967141377588063,
      "loss": 1.8638,
      "step": 4252
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.42830029129981995,
      "learning_rate": 0.0005967125948455209,
      "loss": 1.9213,
      "step": 4253
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4310055077075958,
      "learning_rate": 0.0005967110515720702,
      "loss": 1.8857,
      "step": 4254
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4226974546909332,
      "learning_rate": 0.0005967095079384559,
      "loss": 1.9228,
      "step": 4255
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4586408734321594,
      "learning_rate": 0.0005967079639446801,
      "loss": 1.8674,
      "step": 4256
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4417514503002167,
      "learning_rate": 0.0005967064195907443,
      "loss": 1.8868,
      "step": 4257
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.42965903878211975,
      "learning_rate": 0.0005967048748766508,
      "loss": 1.8475,
      "step": 4258
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4475497305393219,
      "learning_rate": 0.0005967033298024013,
      "loss": 1.8243,
      "step": 4259
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45922964811325073,
      "learning_rate": 0.0005967017843679977,
      "loss": 1.896,
      "step": 4260
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4461730122566223,
      "learning_rate": 0.0005967002385734417,
      "loss": 1.9716,
      "step": 4261
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4640287160873413,
      "learning_rate": 0.0005966986924187354,
      "loss": 1.9041,
      "step": 4262
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43867599964141846,
      "learning_rate": 0.0005966971459038806,
      "loss": 1.8582,
      "step": 4263
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44693174958229065,
      "learning_rate": 0.0005966955990288793,
      "loss": 1.8733,
      "step": 4264
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4404119849205017,
      "learning_rate": 0.0005966940517937332,
      "loss": 1.8143,
      "step": 4265
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47824206948280334,
      "learning_rate": 0.0005966925041984442,
      "loss": 1.8999,
      "step": 4266
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44679492712020874,
      "learning_rate": 0.0005966909562430141,
      "loss": 1.8833,
      "step": 4267
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4362069070339203,
      "learning_rate": 0.000596689407927445,
      "loss": 1.8564,
      "step": 4268
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.449135959148407,
      "learning_rate": 0.0005966878592517388,
      "loss": 1.8283,
      "step": 4269
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43428513407707214,
      "learning_rate": 0.000596686310215897,
      "loss": 1.8985,
      "step": 4270
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44275087118148804,
      "learning_rate": 0.0005966847608199219,
      "loss": 1.9497,
      "step": 4271
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4486331343650818,
      "learning_rate": 0.0005966832110638153,
      "loss": 1.8782,
      "step": 4272
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4411633014678955,
      "learning_rate": 0.0005966816609475788,
      "loss": 1.8878,
      "step": 4273
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4485291540622711,
      "learning_rate": 0.0005966801104712146,
      "loss": 1.9192,
      "step": 4274
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44359153509140015,
      "learning_rate": 0.0005966785596347244,
      "loss": 1.8288,
      "step": 4275
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4297477602958679,
      "learning_rate": 0.0005966770084381102,
      "loss": 1.8921,
      "step": 4276
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4351744055747986,
      "learning_rate": 0.0005966754568813738,
      "loss": 1.8292,
      "step": 4277
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45195573568344116,
      "learning_rate": 0.0005966739049645171,
      "loss": 1.8653,
      "step": 4278
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4363279342651367,
      "learning_rate": 0.000596672352687542,
      "loss": 1.8585,
      "step": 4279
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4383673667907715,
      "learning_rate": 0.0005966708000504504,
      "loss": 1.9019,
      "step": 4280
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4354769289493561,
      "learning_rate": 0.0005966692470532442,
      "loss": 1.8913,
      "step": 4281
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4355472922325134,
      "learning_rate": 0.0005966676936959251,
      "loss": 1.8709,
      "step": 4282
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4362727403640747,
      "learning_rate": 0.0005966661399784952,
      "loss": 1.8887,
      "step": 4283
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4486324191093445,
      "learning_rate": 0.0005966645859009562,
      "loss": 1.8765,
      "step": 4284
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4444054663181305,
      "learning_rate": 0.0005966630314633102,
      "loss": 1.9258,
      "step": 4285
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44335803389549255,
      "learning_rate": 0.0005966614766655591,
      "loss": 1.9073,
      "step": 4286
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43424883484840393,
      "learning_rate": 0.0005966599215077046,
      "loss": 1.9076,
      "step": 4287
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45001429319381714,
      "learning_rate": 0.0005966583659897487,
      "loss": 1.9,
      "step": 4288
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4384790062904358,
      "learning_rate": 0.0005966568101116932,
      "loss": 1.8684,
      "step": 4289
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44058600068092346,
      "learning_rate": 0.0005966552538735401,
      "loss": 1.8498,
      "step": 4290
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4501517713069916,
      "learning_rate": 0.0005966536972752912,
      "loss": 1.8796,
      "step": 4291
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43759533762931824,
      "learning_rate": 0.0005966521403169483,
      "loss": 1.8628,
      "step": 4292
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4448128044605255,
      "learning_rate": 0.0005966505829985136,
      "loss": 1.901,
      "step": 4293
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.446598082780838,
      "learning_rate": 0.0005966490253199887,
      "loss": 1.8337,
      "step": 4294
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4331754744052887,
      "learning_rate": 0.0005966474672813757,
      "loss": 1.8532,
      "step": 4295
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4395691156387329,
      "learning_rate": 0.0005966459088826762,
      "loss": 1.9577,
      "step": 4296
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44888609647750854,
      "learning_rate": 0.0005966443501238924,
      "loss": 1.8325,
      "step": 4297
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4447953402996063,
      "learning_rate": 0.0005966427910050261,
      "loss": 1.9371,
      "step": 4298
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4325675964355469,
      "learning_rate": 0.000596641231526079,
      "loss": 1.8738,
      "step": 4299
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44217145442962646,
      "learning_rate": 0.0005966396716870532,
      "loss": 1.878,
      "step": 4300
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4483361840248108,
      "learning_rate": 0.0005966381114879507,
      "loss": 1.9553,
      "step": 4301
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4525425136089325,
      "learning_rate": 0.0005966365509287732,
      "loss": 1.7775,
      "step": 4302
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.447716623544693,
      "learning_rate": 0.0005966349900095225,
      "loss": 1.9461,
      "step": 4303
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46564915776252747,
      "learning_rate": 0.0005966334287302007,
      "loss": 1.9008,
      "step": 4304
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45312219858169556,
      "learning_rate": 0.0005966318670908097,
      "loss": 1.8711,
      "step": 4305
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43389326333999634,
      "learning_rate": 0.0005966303050913513,
      "loss": 1.8767,
      "step": 4306
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44596871733665466,
      "learning_rate": 0.0005966287427318273,
      "loss": 1.9236,
      "step": 4307
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4824237823486328,
      "learning_rate": 0.0005966271800122398,
      "loss": 1.9499,
      "step": 4308
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5114679336547852,
      "learning_rate": 0.0005966256169325906,
      "loss": 1.8499,
      "step": 4309
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44458067417144775,
      "learning_rate": 0.0005966240534928816,
      "loss": 1.9163,
      "step": 4310
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4888150095939636,
      "learning_rate": 0.0005966224896931146,
      "loss": 1.9288,
      "step": 4311
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45040225982666016,
      "learning_rate": 0.0005966209255332918,
      "loss": 1.7912,
      "step": 4312
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4529089331626892,
      "learning_rate": 0.0005966193610134149,
      "loss": 1.8799,
      "step": 4313
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45525258779525757,
      "learning_rate": 0.0005966177961334855,
      "loss": 1.9375,
      "step": 4314
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45738911628723145,
      "learning_rate": 0.000596616230893506,
      "loss": 1.9006,
      "step": 4315
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4376705288887024,
      "learning_rate": 0.0005966146652934782,
      "loss": 1.9266,
      "step": 4316
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4564995765686035,
      "learning_rate": 0.0005966130993334038,
      "loss": 1.9012,
      "step": 4317
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4606323540210724,
      "learning_rate": 0.0005966115330132848,
      "loss": 1.8744,
      "step": 4318
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4386453926563263,
      "learning_rate": 0.0005966099663331231,
      "loss": 1.8526,
      "step": 4319
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44635817408561707,
      "learning_rate": 0.0005966083992929207,
      "loss": 1.9585,
      "step": 4320
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4519191086292267,
      "learning_rate": 0.0005966068318926793,
      "loss": 1.9483,
      "step": 4321
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4527679681777954,
      "learning_rate": 0.0005966052641324008,
      "loss": 1.8611,
      "step": 4322
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.43415912985801697,
      "learning_rate": 0.0005966036960120874,
      "loss": 1.8433,
      "step": 4323
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46214330196380615,
      "learning_rate": 0.0005966021275317408,
      "loss": 1.8797,
      "step": 4324
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4581601023674011,
      "learning_rate": 0.0005966005586913628,
      "loss": 1.9379,
      "step": 4325
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44200599193573,
      "learning_rate": 0.0005965989894909556,
      "loss": 1.8551,
      "step": 4326
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47956645488739014,
      "learning_rate": 0.0005965974199305208,
      "loss": 1.8842,
      "step": 4327
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44723424315452576,
      "learning_rate": 0.0005965958500100605,
      "loss": 1.9545,
      "step": 4328
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47131744027137756,
      "learning_rate": 0.0005965942797295764,
      "loss": 1.9668,
      "step": 4329
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5003196001052856,
      "learning_rate": 0.0005965927090890706,
      "loss": 1.9584,
      "step": 4330
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4570409655570984,
      "learning_rate": 0.0005965911380885451,
      "loss": 1.98,
      "step": 4331
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44567057490348816,
      "learning_rate": 0.0005965895667280016,
      "loss": 1.921,
      "step": 4332
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4610615372657776,
      "learning_rate": 0.000596587995007442,
      "loss": 1.9468,
      "step": 4333
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4496910274028778,
      "learning_rate": 0.0005965864229268683,
      "loss": 1.8734,
      "step": 4334
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45717573165893555,
      "learning_rate": 0.0005965848504862825,
      "loss": 1.9152,
      "step": 4335
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4640923738479614,
      "learning_rate": 0.0005965832776856861,
      "loss": 1.8983,
      "step": 4336
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4494301378726959,
      "learning_rate": 0.0005965817045250815,
      "loss": 1.9048,
      "step": 4337
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4482780694961548,
      "learning_rate": 0.0005965801310044704,
      "loss": 1.9677,
      "step": 4338
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.46062996983528137,
      "learning_rate": 0.0005965785571238547,
      "loss": 1.9013,
      "step": 4339
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44744473695755005,
      "learning_rate": 0.0005965769828832364,
      "loss": 1.8696,
      "step": 4340
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4466482698917389,
      "learning_rate": 0.0005965754082826173,
      "loss": 1.8905,
      "step": 4341
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4442233443260193,
      "learning_rate": 0.0005965738333219993,
      "loss": 1.8907,
      "step": 4342
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4717493951320648,
      "learning_rate": 0.0005965722580013844,
      "loss": 1.8956,
      "step": 4343
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4473791718482971,
      "learning_rate": 0.0005965706823207744,
      "loss": 1.8854,
      "step": 4344
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4326651990413666,
      "learning_rate": 0.0005965691062801714,
      "loss": 1.9122,
      "step": 4345
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4613979160785675,
      "learning_rate": 0.0005965675298795772,
      "loss": 1.9454,
      "step": 4346
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4467666745185852,
      "learning_rate": 0.0005965659531189936,
      "loss": 1.9039,
      "step": 4347
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.439104825258255,
      "learning_rate": 0.0005965643759984228,
      "loss": 1.8708,
      "step": 4348
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45148763060569763,
      "learning_rate": 0.0005965627985178663,
      "loss": 1.891,
      "step": 4349
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.45653435587882996,
      "learning_rate": 0.0005965612206773265,
      "loss": 1.9534,
      "step": 4350
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4584418833255768,
      "learning_rate": 0.000596559642476805,
      "loss": 1.9668,
      "step": 4351
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.439862459897995,
      "learning_rate": 0.0005965580639163037,
      "loss": 1.8727,
      "step": 4352
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4405754804611206,
      "learning_rate": 0.0005965564849958247,
      "loss": 1.8813,
      "step": 4353
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.42868277430534363,
      "learning_rate": 0.0005965549057153698,
      "loss": 1.8959,
      "step": 4354
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4532527029514313,
      "learning_rate": 0.000596553326074941,
      "loss": 1.8873,
      "step": 4355
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4461899995803833,
      "learning_rate": 0.0005965517460745401,
      "loss": 1.9558,
      "step": 4356
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44361162185668945,
      "learning_rate": 0.000596550165714169,
      "loss": 1.9739,
      "step": 4357
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.44800835847854614,
      "learning_rate": 0.0005965485849938299,
      "loss": 1.8797,
      "step": 4358
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45108699798583984,
      "learning_rate": 0.0005965470039135242,
      "loss": 1.9064,
      "step": 4359
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4472082555294037,
      "learning_rate": 0.0005965454224732545,
      "loss": 1.8771,
      "step": 4360
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4318217933177948,
      "learning_rate": 0.000596543840673022,
      "loss": 1.9761,
      "step": 4361
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4516530930995941,
      "learning_rate": 0.0005965422585128292,
      "loss": 1.9068,
      "step": 4362
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4573522210121155,
      "learning_rate": 0.0005965406759926777,
      "loss": 1.9899,
      "step": 4363
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43989312648773193,
      "learning_rate": 0.0005965390931125696,
      "loss": 1.8846,
      "step": 4364
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43631330132484436,
      "learning_rate": 0.0005965375098725067,
      "loss": 1.868,
      "step": 4365
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4516010284423828,
      "learning_rate": 0.0005965359262724909,
      "loss": 1.9328,
      "step": 4366
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45273035764694214,
      "learning_rate": 0.0005965343423125243,
      "loss": 1.9954,
      "step": 4367
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43680334091186523,
      "learning_rate": 0.0005965327579926086,
      "loss": 1.8381,
      "step": 4368
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43616896867752075,
      "learning_rate": 0.0005965311733127457,
      "loss": 1.9231,
      "step": 4369
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43412044644355774,
      "learning_rate": 0.0005965295882729378,
      "loss": 1.8772,
      "step": 4370
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4293464124202728,
      "learning_rate": 0.0005965280028731866,
      "loss": 1.8962,
      "step": 4371
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45278504490852356,
      "learning_rate": 0.0005965264171134942,
      "loss": 1.9076,
      "step": 4372
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4482845962047577,
      "learning_rate": 0.0005965248309938623,
      "loss": 1.8815,
      "step": 4373
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4476050138473511,
      "learning_rate": 0.0005965232445142931,
      "loss": 1.9476,
      "step": 4374
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4490533471107483,
      "learning_rate": 0.0005965216576747882,
      "loss": 1.9031,
      "step": 4375
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4438994824886322,
      "learning_rate": 0.0005965200704753499,
      "loss": 1.8583,
      "step": 4376
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43948885798454285,
      "learning_rate": 0.0005965184829159798,
      "loss": 1.8533,
      "step": 4377
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45365166664123535,
      "learning_rate": 0.0005965168949966799,
      "loss": 1.926,
      "step": 4378
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44268423318862915,
      "learning_rate": 0.0005965153067174523,
      "loss": 1.9312,
      "step": 4379
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4403487741947174,
      "learning_rate": 0.0005965137180782987,
      "loss": 1.9717,
      "step": 4380
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44648051261901855,
      "learning_rate": 0.0005965121290792212,
      "loss": 1.9239,
      "step": 4381
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44166281819343567,
      "learning_rate": 0.0005965105397202216,
      "loss": 1.8684,
      "step": 4382
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4306381642818451,
      "learning_rate": 0.0005965089500013021,
      "loss": 1.8916,
      "step": 4383
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42851871252059937,
      "learning_rate": 0.0005965073599224641,
      "loss": 1.7948,
      "step": 4384
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42359164357185364,
      "learning_rate": 0.00059650576948371,
      "loss": 1.8641,
      "step": 4385
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42886409163475037,
      "learning_rate": 0.0005965041786850417,
      "loss": 1.9196,
      "step": 4386
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43133383989334106,
      "learning_rate": 0.0005965025875264609,
      "loss": 1.8655,
      "step": 4387
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44271185994148254,
      "learning_rate": 0.0005965009960079696,
      "loss": 1.8841,
      "step": 4388
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4268450140953064,
      "learning_rate": 0.0005964994041295699,
      "loss": 1.8929,
      "step": 4389
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4406839609146118,
      "learning_rate": 0.0005964978118912635,
      "loss": 1.841,
      "step": 4390
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42094266414642334,
      "learning_rate": 0.0005964962192930525,
      "loss": 1.877,
      "step": 4391
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43494880199432373,
      "learning_rate": 0.0005964946263349388,
      "loss": 1.8876,
      "step": 4392
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42767462134361267,
      "learning_rate": 0.0005964930330169243,
      "loss": 1.8833,
      "step": 4393
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.41618403792381287,
      "learning_rate": 0.0005964914393390109,
      "loss": 1.8286,
      "step": 4394
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42931628227233887,
      "learning_rate": 0.0005964898453012006,
      "loss": 1.8774,
      "step": 4395
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43985283374786377,
      "learning_rate": 0.0005964882509034953,
      "loss": 1.9449,
      "step": 4396
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43818923830986023,
      "learning_rate": 0.000596486656145897,
      "loss": 1.8751,
      "step": 4397
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4331211447715759,
      "learning_rate": 0.0005964850610284075,
      "loss": 1.8206,
      "step": 4398
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42814669013023376,
      "learning_rate": 0.0005964834655510289,
      "loss": 1.8992,
      "step": 4399
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4523474872112274,
      "learning_rate": 0.000596481869713763,
      "loss": 1.9489,
      "step": 4400
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4333445131778717,
      "learning_rate": 0.0005964802735166118,
      "loss": 1.8244,
      "step": 4401
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4292585551738739,
      "learning_rate": 0.0005964786769595773,
      "loss": 1.8919,
      "step": 4402
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45076942443847656,
      "learning_rate": 0.0005964770800426614,
      "loss": 1.9577,
      "step": 4403
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4610546827316284,
      "learning_rate": 0.0005964754827658659,
      "loss": 1.8931,
      "step": 4404
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4447636008262634,
      "learning_rate": 0.0005964738851291928,
      "loss": 1.8575,
      "step": 4405
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4547765552997589,
      "learning_rate": 0.0005964722871326442,
      "loss": 1.9969,
      "step": 4406
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45369499921798706,
      "learning_rate": 0.0005964706887762219,
      "loss": 1.8953,
      "step": 4407
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4527725577354431,
      "learning_rate": 0.0005964690900599279,
      "loss": 1.8572,
      "step": 4408
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4449184536933899,
      "learning_rate": 0.000596467490983764,
      "loss": 1.9936,
      "step": 4409
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44287338852882385,
      "learning_rate": 0.0005964658915477324,
      "loss": 1.9083,
      "step": 4410
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45355087518692017,
      "learning_rate": 0.0005964642917518348,
      "loss": 1.922,
      "step": 4411
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45781686902046204,
      "learning_rate": 0.0005964626915960731,
      "loss": 1.9513,
      "step": 4412
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4619285464286804,
      "learning_rate": 0.0005964610910804497,
      "loss": 1.8879,
      "step": 4413
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4496670365333557,
      "learning_rate": 0.000596459490204966,
      "loss": 1.8889,
      "step": 4414
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4352363646030426,
      "learning_rate": 0.0005964578889696241,
      "loss": 1.8792,
      "step": 4415
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45911937952041626,
      "learning_rate": 0.0005964562873744262,
      "loss": 1.9431,
      "step": 4416
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4377501904964447,
      "learning_rate": 0.0005964546854193739,
      "loss": 1.8912,
      "step": 4417
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42814207077026367,
      "learning_rate": 0.0005964530831044693,
      "loss": 1.8248,
      "step": 4418
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4378390312194824,
      "learning_rate": 0.0005964514804297145,
      "loss": 1.8551,
      "step": 4419
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4525965750217438,
      "learning_rate": 0.0005964498773951111,
      "loss": 1.9129,
      "step": 4420
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4484943449497223,
      "learning_rate": 0.0005964482740006612,
      "loss": 1.8859,
      "step": 4421
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4322461187839508,
      "learning_rate": 0.0005964466702463669,
      "loss": 1.8639,
      "step": 4422
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4521539509296417,
      "learning_rate": 0.0005964450661322299,
      "loss": 1.8524,
      "step": 4423
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46613961458206177,
      "learning_rate": 0.0005964434616582524,
      "loss": 1.8665,
      "step": 4424
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4539480209350586,
      "learning_rate": 0.0005964418568244361,
      "loss": 1.953,
      "step": 4425
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4481440782546997,
      "learning_rate": 0.0005964402516307832,
      "loss": 1.8999,
      "step": 4426
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4665062725543976,
      "learning_rate": 0.0005964386460772954,
      "loss": 1.9203,
      "step": 4427
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4388270378112793,
      "learning_rate": 0.0005964370401639749,
      "loss": 1.8835,
      "step": 4428
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4359927177429199,
      "learning_rate": 0.0005964354338908234,
      "loss": 1.9003,
      "step": 4429
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4544507563114166,
      "learning_rate": 0.0005964338272578429,
      "loss": 1.9163,
      "step": 4430
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4612165093421936,
      "learning_rate": 0.0005964322202650355,
      "loss": 1.9329,
      "step": 4431
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4514496922492981,
      "learning_rate": 0.0005964306129124031,
      "loss": 1.8703,
      "step": 4432
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4352874755859375,
      "learning_rate": 0.0005964290051999476,
      "loss": 1.8595,
      "step": 4433
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4492189884185791,
      "learning_rate": 0.0005964273971276709,
      "loss": 1.8443,
      "step": 4434
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4585091173648834,
      "learning_rate": 0.000596425788695575,
      "loss": 1.8924,
      "step": 4435
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43970149755477905,
      "learning_rate": 0.000596424179903662,
      "loss": 1.9041,
      "step": 4436
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45707032084465027,
      "learning_rate": 0.0005964225707519336,
      "loss": 1.9042,
      "step": 4437
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44065725803375244,
      "learning_rate": 0.0005964209612403919,
      "loss": 1.8977,
      "step": 4438
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4384084939956665,
      "learning_rate": 0.0005964193513690388,
      "loss": 1.9029,
      "step": 4439
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42745307087898254,
      "learning_rate": 0.0005964177411378763,
      "loss": 1.7617,
      "step": 4440
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.450318843126297,
      "learning_rate": 0.0005964161305469064,
      "loss": 1.9387,
      "step": 4441
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44313061237335205,
      "learning_rate": 0.000596414519596131,
      "loss": 1.953,
      "step": 4442
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45653364062309265,
      "learning_rate": 0.000596412908285552,
      "loss": 1.9535,
      "step": 4443
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4319470524787903,
      "learning_rate": 0.0005964112966151714,
      "loss": 1.9349,
      "step": 4444
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4293503761291504,
      "learning_rate": 0.0005964096845849911,
      "loss": 1.8634,
      "step": 4445
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43487071990966797,
      "learning_rate": 0.0005964080721950132,
      "loss": 1.8958,
      "step": 4446
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44596782326698303,
      "learning_rate": 0.0005964064594452396,
      "loss": 1.9376,
      "step": 4447
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44360050559043884,
      "learning_rate": 0.0005964048463356721,
      "loss": 1.8981,
      "step": 4448
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4493839144706726,
      "learning_rate": 0.0005964032328663128,
      "loss": 1.9092,
      "step": 4449
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4307622015476227,
      "learning_rate": 0.0005964016190371639,
      "loss": 1.904,
      "step": 4450
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44843679666519165,
      "learning_rate": 0.0005964000048482268,
      "loss": 1.9122,
      "step": 4451
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44744759798049927,
      "learning_rate": 0.0005963983902995039,
      "loss": 1.8795,
      "step": 4452
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43359479308128357,
      "learning_rate": 0.0005963967753909971,
      "loss": 1.861,
      "step": 4453
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4474387764930725,
      "learning_rate": 0.0005963951601227082,
      "loss": 1.9434,
      "step": 4454
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4405134916305542,
      "learning_rate": 0.0005963935444946392,
      "loss": 1.8918,
      "step": 4455
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4343891739845276,
      "learning_rate": 0.0005963919285067921,
      "loss": 1.9015,
      "step": 4456
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45187607407569885,
      "learning_rate": 0.0005963903121591691,
      "loss": 1.8807,
      "step": 4457
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4418558180332184,
      "learning_rate": 0.0005963886954517717,
      "loss": 1.8858,
      "step": 4458
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4449894428253174,
      "learning_rate": 0.0005963870783846022,
      "loss": 1.9016,
      "step": 4459
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43161773681640625,
      "learning_rate": 0.0005963854609576624,
      "loss": 1.8211,
      "step": 4460
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4389606714248657,
      "learning_rate": 0.0005963838431709543,
      "loss": 1.87,
      "step": 4461
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.464157372713089,
      "learning_rate": 0.00059638222502448,
      "loss": 1.8996,
      "step": 4462
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44561102986335754,
      "learning_rate": 0.0005963806065182412,
      "loss": 1.8807,
      "step": 4463
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4517956078052521,
      "learning_rate": 0.0005963789876522401,
      "loss": 1.8976,
      "step": 4464
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45320427417755127,
      "learning_rate": 0.0005963773684264786,
      "loss": 1.9127,
      "step": 4465
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4227412939071655,
      "learning_rate": 0.0005963757488409585,
      "loss": 1.8725,
      "step": 4466
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4694673418998718,
      "learning_rate": 0.000596374128895682,
      "loss": 1.8547,
      "step": 4467
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44888317584991455,
      "learning_rate": 0.0005963725085906511,
      "loss": 2.0177,
      "step": 4468
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43185392022132874,
      "learning_rate": 0.0005963708879258675,
      "loss": 1.8603,
      "step": 4469
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4450679123401642,
      "learning_rate": 0.0005963692669013334,
      "loss": 1.8946,
      "step": 4470
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48202356696128845,
      "learning_rate": 0.0005963676455170506,
      "loss": 1.9373,
      "step": 4471
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44791245460510254,
      "learning_rate": 0.0005963660237730212,
      "loss": 1.8958,
      "step": 4472
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4641874134540558,
      "learning_rate": 0.0005963644016692471,
      "loss": 1.8516,
      "step": 4473
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4770016372203827,
      "learning_rate": 0.0005963627792057301,
      "loss": 1.9326,
      "step": 4474
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43835997581481934,
      "learning_rate": 0.0005963611563824726,
      "loss": 1.8873,
      "step": 4475
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4492616057395935,
      "learning_rate": 0.0005963595331994763,
      "loss": 1.908,
      "step": 4476
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45669645071029663,
      "learning_rate": 0.0005963579096567431,
      "loss": 1.8095,
      "step": 4477
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43309980630874634,
      "learning_rate": 0.0005963562857542751,
      "loss": 1.8019,
      "step": 4478
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43476602435112,
      "learning_rate": 0.0005963546614920742,
      "loss": 1.8956,
      "step": 4479
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45690086483955383,
      "learning_rate": 0.0005963530368701426,
      "loss": 1.8819,
      "step": 4480
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4541335999965668,
      "learning_rate": 0.0005963514118884818,
      "loss": 1.9508,
      "step": 4481
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43163153529167175,
      "learning_rate": 0.0005963497865470942,
      "loss": 1.8335,
      "step": 4482
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44007986783981323,
      "learning_rate": 0.0005963481608459816,
      "loss": 1.8756,
      "step": 4483
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4428327679634094,
      "learning_rate": 0.0005963465347851461,
      "loss": 1.8844,
      "step": 4484
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4410926401615143,
      "learning_rate": 0.0005963449083645893,
      "loss": 1.8819,
      "step": 4485
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4389432668685913,
      "learning_rate": 0.0005963432815843137,
      "loss": 1.8614,
      "step": 4486
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43109428882598877,
      "learning_rate": 0.0005963416544443209,
      "loss": 1.8583,
      "step": 4487
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4839138984680176,
      "learning_rate": 0.000596340026944613,
      "loss": 1.807,
      "step": 4488
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.443668395280838,
      "learning_rate": 0.000596338399085192,
      "loss": 1.9049,
      "step": 4489
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46810853481292725,
      "learning_rate": 0.0005963367708660599,
      "loss": 1.9628,
      "step": 4490
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4861205816268921,
      "learning_rate": 0.0005963351422872186,
      "loss": 1.8448,
      "step": 4491
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4507891833782196,
      "learning_rate": 0.00059633351334867,
      "loss": 1.9342,
      "step": 4492
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.466699481010437,
      "learning_rate": 0.0005963318840504163,
      "loss": 1.9385,
      "step": 4493
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4445033073425293,
      "learning_rate": 0.0005963302543924592,
      "loss": 1.846,
      "step": 4494
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4628830850124359,
      "learning_rate": 0.000596328624374801,
      "loss": 1.9728,
      "step": 4495
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45282790064811707,
      "learning_rate": 0.0005963269939974435,
      "loss": 1.8946,
      "step": 4496
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4431159794330597,
      "learning_rate": 0.0005963253632603887,
      "loss": 1.8463,
      "step": 4497
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4430145025253296,
      "learning_rate": 0.0005963237321636385,
      "loss": 1.8626,
      "step": 4498
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4485141336917877,
      "learning_rate": 0.0005963221007071949,
      "loss": 1.8368,
      "step": 4499
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4777049124240875,
      "learning_rate": 0.00059632046889106,
      "loss": 1.8464,
      "step": 4500
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42514610290527344,
      "learning_rate": 0.0005963188367152357,
      "loss": 1.8538,
      "step": 4501
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4319066107273102,
      "learning_rate": 0.000596317204179724,
      "loss": 1.8789,
      "step": 4502
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44628193974494934,
      "learning_rate": 0.0005963155712845269,
      "loss": 1.9559,
      "step": 4503
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4661758542060852,
      "learning_rate": 0.0005963139380296463,
      "loss": 1.9017,
      "step": 4504
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43160009384155273,
      "learning_rate": 0.0005963123044150843,
      "loss": 1.8081,
      "step": 4505
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45712435245513916,
      "learning_rate": 0.0005963106704408428,
      "loss": 2.039,
      "step": 4506
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4507676661014557,
      "learning_rate": 0.0005963090361069237,
      "loss": 1.9335,
      "step": 4507
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4537041485309601,
      "learning_rate": 0.0005963074014133292,
      "loss": 1.86,
      "step": 4508
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4413181245326996,
      "learning_rate": 0.0005963057663600611,
      "loss": 1.9017,
      "step": 4509
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4444677233695984,
      "learning_rate": 0.0005963041309471216,
      "loss": 1.8715,
      "step": 4510
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44492587447166443,
      "learning_rate": 0.0005963024951745124,
      "loss": 1.8293,
      "step": 4511
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4602604806423187,
      "learning_rate": 0.0005963008590422357,
      "loss": 1.9324,
      "step": 4512
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4571487605571747,
      "learning_rate": 0.0005962992225502935,
      "loss": 1.8755,
      "step": 4513
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43964052200317383,
      "learning_rate": 0.0005962975856986875,
      "loss": 1.913,
      "step": 4514
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4440055787563324,
      "learning_rate": 0.00059629594848742,
      "loss": 1.9011,
      "step": 4515
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46184924244880676,
      "learning_rate": 0.0005962943109164929,
      "loss": 1.8725,
      "step": 4516
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4495641887187958,
      "learning_rate": 0.0005962926729859081,
      "loss": 1.9534,
      "step": 4517
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46328893303871155,
      "learning_rate": 0.0005962910346956677,
      "loss": 1.9306,
      "step": 4518
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4565512239933014,
      "learning_rate": 0.0005962893960457736,
      "loss": 1.8779,
      "step": 4519
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4468275308609009,
      "learning_rate": 0.0005962877570362278,
      "loss": 1.9317,
      "step": 4520
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4499225616455078,
      "learning_rate": 0.0005962861176670325,
      "loss": 1.9466,
      "step": 4521
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4571668207645416,
      "learning_rate": 0.0005962844779381893,
      "loss": 1.9675,
      "step": 4522
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44838500022888184,
      "learning_rate": 0.0005962828378497005,
      "loss": 1.9021,
      "step": 4523
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44694623351097107,
      "learning_rate": 0.000596281197401568,
      "loss": 1.8939,
      "step": 4524
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43547114729881287,
      "learning_rate": 0.0005962795565937937,
      "loss": 1.9038,
      "step": 4525
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4472818970680237,
      "learning_rate": 0.0005962779154263798,
      "loss": 1.8374,
      "step": 4526
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4569040834903717,
      "learning_rate": 0.0005962762738993281,
      "loss": 1.8728,
      "step": 4527
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43915560841560364,
      "learning_rate": 0.0005962746320126406,
      "loss": 1.95,
      "step": 4528
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4272801876068115,
      "learning_rate": 0.0005962729897663194,
      "loss": 1.8037,
      "step": 4529
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4614410996437073,
      "learning_rate": 0.0005962713471603665,
      "loss": 1.8653,
      "step": 4530
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4495222866535187,
      "learning_rate": 0.0005962697041947837,
      "loss": 1.9156,
      "step": 4531
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4261854290962219,
      "learning_rate": 0.0005962680608695732,
      "loss": 1.8419,
      "step": 4532
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43043452501296997,
      "learning_rate": 0.000596266417184737,
      "loss": 1.798,
      "step": 4533
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46521803736686707,
      "learning_rate": 0.000596264773140277,
      "loss": 1.9399,
      "step": 4534
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4476815462112427,
      "learning_rate": 0.0005962631287361952,
      "loss": 1.833,
      "step": 4535
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4521167576313019,
      "learning_rate": 0.0005962614839724935,
      "loss": 1.9748,
      "step": 4536
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46690288186073303,
      "learning_rate": 0.0005962598388491741,
      "loss": 1.9027,
      "step": 4537
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4441845118999481,
      "learning_rate": 0.0005962581933662389,
      "loss": 1.9242,
      "step": 4538
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4627678394317627,
      "learning_rate": 0.0005962565475236899,
      "loss": 1.9801,
      "step": 4539
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4477466940879822,
      "learning_rate": 0.0005962549013215292,
      "loss": 1.9053,
      "step": 4540
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4426691234111786,
      "learning_rate": 0.0005962532547597586,
      "loss": 1.8949,
      "step": 4541
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44935983419418335,
      "learning_rate": 0.0005962516078383802,
      "loss": 1.8265,
      "step": 4542
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42706984281539917,
      "learning_rate": 0.0005962499605573961,
      "loss": 1.8487,
      "step": 4543
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4496399164199829,
      "learning_rate": 0.0005962483129168081,
      "loss": 1.8945,
      "step": 4544
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4450691044330597,
      "learning_rate": 0.0005962466649166182,
      "loss": 1.9185,
      "step": 4545
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42896345257759094,
      "learning_rate": 0.0005962450165568287,
      "loss": 1.8687,
      "step": 4546
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4324616491794586,
      "learning_rate": 0.0005962433678374413,
      "loss": 1.8948,
      "step": 4547
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43687617778778076,
      "learning_rate": 0.0005962417187584581,
      "loss": 1.7746,
      "step": 4548
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43633323907852173,
      "learning_rate": 0.0005962400693198812,
      "loss": 1.9338,
      "step": 4549
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43082109093666077,
      "learning_rate": 0.0005962384195217123,
      "loss": 1.9302,
      "step": 4550
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43144163489341736,
      "learning_rate": 0.0005962367693639537,
      "loss": 1.8114,
      "step": 4551
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4473516643047333,
      "learning_rate": 0.0005962351188466074,
      "loss": 1.8963,
      "step": 4552
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.434481143951416,
      "learning_rate": 0.0005962334679696752,
      "loss": 1.8907,
      "step": 4553
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4281035363674164,
      "learning_rate": 0.0005962318167331593,
      "loss": 1.8819,
      "step": 4554
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4427412450313568,
      "learning_rate": 0.0005962301651370617,
      "loss": 1.8898,
      "step": 4555
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44599780440330505,
      "learning_rate": 0.0005962285131813842,
      "loss": 1.8384,
      "step": 4556
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4661238193511963,
      "learning_rate": 0.000596226860866129,
      "loss": 1.9547,
      "step": 4557
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4350373446941376,
      "learning_rate": 0.0005962252081912979,
      "loss": 1.8562,
      "step": 4558
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45757678151130676,
      "learning_rate": 0.0005962235551568931,
      "loss": 2.0124,
      "step": 4559
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44616010785102844,
      "learning_rate": 0.0005962219017629166,
      "loss": 1.7916,
      "step": 4560
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4605741500854492,
      "learning_rate": 0.0005962202480093704,
      "loss": 1.9151,
      "step": 4561
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45131227374076843,
      "learning_rate": 0.0005962185938962564,
      "loss": 1.9165,
      "step": 4562
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4395981431007385,
      "learning_rate": 0.0005962169394235766,
      "loss": 1.9401,
      "step": 4563
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4735950529575348,
      "learning_rate": 0.0005962152845913332,
      "loss": 1.8545,
      "step": 4564
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43217933177948,
      "learning_rate": 0.000596213629399528,
      "loss": 1.9054,
      "step": 4565
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4381575882434845,
      "learning_rate": 0.0005962119738481632,
      "loss": 1.8232,
      "step": 4566
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42845746874809265,
      "learning_rate": 0.0005962103179372407,
      "loss": 1.829,
      "step": 4567
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4441424608230591,
      "learning_rate": 0.0005962086616667625,
      "loss": 1.9609,
      "step": 4568
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44766688346862793,
      "learning_rate": 0.0005962070050367305,
      "loss": 1.793,
      "step": 4569
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4559915363788605,
      "learning_rate": 0.0005962053480471469,
      "loss": 1.9164,
      "step": 4570
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45117276906967163,
      "learning_rate": 0.0005962036906980138,
      "loss": 1.9241,
      "step": 4571
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4280973970890045,
      "learning_rate": 0.0005962020329893329,
      "loss": 1.9094,
      "step": 4572
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4647426903247833,
      "learning_rate": 0.0005962003749211065,
      "loss": 1.9091,
      "step": 4573
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4505385458469391,
      "learning_rate": 0.0005961987164933364,
      "loss": 1.8056,
      "step": 4574
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4433090388774872,
      "learning_rate": 0.0005961970577060247,
      "loss": 1.9409,
      "step": 4575
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9945829510688782,
      "learning_rate": 0.0005961953985591735,
      "loss": 1.9137,
      "step": 4576
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44947490096092224,
      "learning_rate": 0.0005961937390527846,
      "loss": 1.9411,
      "step": 4577
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43673980236053467,
      "learning_rate": 0.0005961920791868601,
      "loss": 1.8613,
      "step": 4578
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4448694884777069,
      "learning_rate": 0.0005961904189614023,
      "loss": 1.8552,
      "step": 4579
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42601916193962097,
      "learning_rate": 0.0005961887583764129,
      "loss": 1.8302,
      "step": 4580
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44661277532577515,
      "learning_rate": 0.0005961870974318939,
      "loss": 1.9056,
      "step": 4581
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4530055522918701,
      "learning_rate": 0.0005961854361278474,
      "loss": 1.91,
      "step": 4582
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4380996823310852,
      "learning_rate": 0.0005961837744642755,
      "loss": 1.8626,
      "step": 4583
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.441834956407547,
      "learning_rate": 0.0005961821124411801,
      "loss": 1.9177,
      "step": 4584
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46265578269958496,
      "learning_rate": 0.0005961804500585632,
      "loss": 2.0198,
      "step": 4585
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4291038513183594,
      "learning_rate": 0.000596178787316427,
      "loss": 1.8899,
      "step": 4586
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4237004816532135,
      "learning_rate": 0.0005961771242147733,
      "loss": 1.8197,
      "step": 4587
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4384770095348358,
      "learning_rate": 0.0005961754607536041,
      "loss": 1.8466,
      "step": 4588
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44889384508132935,
      "learning_rate": 0.0005961737969329218,
      "loss": 1.9096,
      "step": 4589
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4408811032772064,
      "learning_rate": 0.0005961721327527279,
      "loss": 1.9511,
      "step": 4590
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4388484060764313,
      "learning_rate": 0.0005961704682130248,
      "loss": 1.8362,
      "step": 4591
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4415561556816101,
      "learning_rate": 0.0005961688033138144,
      "loss": 1.8364,
      "step": 4592
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43957579135894775,
      "learning_rate": 0.0005961671380550987,
      "loss": 1.8214,
      "step": 4593
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46217793226242065,
      "learning_rate": 0.0005961654724368796,
      "loss": 1.8824,
      "step": 4594
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4341006577014923,
      "learning_rate": 0.0005961638064591595,
      "loss": 1.8326,
      "step": 4595
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43601399660110474,
      "learning_rate": 0.00059616214012194,
      "loss": 1.8736,
      "step": 4596
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43911367654800415,
      "learning_rate": 0.0005961604734252234,
      "loss": 1.8665,
      "step": 4597
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44286173582077026,
      "learning_rate": 0.0005961588063690116,
      "loss": 1.9289,
      "step": 4598
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4421229362487793,
      "learning_rate": 0.0005961571389533065,
      "loss": 1.8126,
      "step": 4599
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48431891202926636,
      "learning_rate": 0.0005961554711781103,
      "loss": 2.0088,
      "step": 4600
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44138607382774353,
      "learning_rate": 0.0005961538030434251,
      "loss": 1.9301,
      "step": 4601
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4553227126598358,
      "learning_rate": 0.0005961521345492529,
      "loss": 1.8923,
      "step": 4602
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4423312246799469,
      "learning_rate": 0.0005961504656955954,
      "loss": 2.0098,
      "step": 4603
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43423405289649963,
      "learning_rate": 0.0005961487964824551,
      "loss": 1.8548,
      "step": 4604
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4305744171142578,
      "learning_rate": 0.0005961471269098338,
      "loss": 1.856,
      "step": 4605
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.456942081451416,
      "learning_rate": 0.0005961454569777333,
      "loss": 1.8637,
      "step": 4606
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4402020275592804,
      "learning_rate": 0.0005961437866861559,
      "loss": 1.8721,
      "step": 4607
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4387633502483368,
      "learning_rate": 0.0005961421160351038,
      "loss": 1.888,
      "step": 4608
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4410229027271271,
      "learning_rate": 0.0005961404450245786,
      "loss": 1.9487,
      "step": 4609
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4301413893699646,
      "learning_rate": 0.0005961387736545826,
      "loss": 1.7069,
      "step": 4610
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44281724095344543,
      "learning_rate": 0.0005961371019251178,
      "loss": 1.918,
      "step": 4611
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4556618630886078,
      "learning_rate": 0.0005961354298361861,
      "loss": 1.9172,
      "step": 4612
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4383598864078522,
      "learning_rate": 0.0005961337573877896,
      "loss": 1.8921,
      "step": 4613
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4600476622581482,
      "learning_rate": 0.0005961320845799305,
      "loss": 1.8993,
      "step": 4614
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4377383291721344,
      "learning_rate": 0.0005961304114126106,
      "loss": 1.9005,
      "step": 4615
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4356945753097534,
      "learning_rate": 0.0005961287378858321,
      "loss": 1.8952,
      "step": 4616
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44488558173179626,
      "learning_rate": 0.0005961270639995969,
      "loss": 1.8681,
      "step": 4617
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4588577151298523,
      "learning_rate": 0.0005961253897539069,
      "loss": 1.8782,
      "step": 4618
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4294813871383667,
      "learning_rate": 0.0005961237151487645,
      "loss": 1.8951,
      "step": 4619
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4439685046672821,
      "learning_rate": 0.0005961220401841715,
      "loss": 1.9414,
      "step": 4620
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.47336098551750183,
      "learning_rate": 0.00059612036486013,
      "loss": 1.9123,
      "step": 4621
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45144784450531006,
      "learning_rate": 0.0005961186891766419,
      "loss": 1.872,
      "step": 4622
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44547829031944275,
      "learning_rate": 0.0005961170131337094,
      "loss": 1.8555,
      "step": 4623
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44403818249702454,
      "learning_rate": 0.0005961153367313345,
      "loss": 1.9417,
      "step": 4624
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4470353126525879,
      "learning_rate": 0.0005961136599695193,
      "loss": 1.8821,
      "step": 4625
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4501815736293793,
      "learning_rate": 0.0005961119828482656,
      "loss": 1.8812,
      "step": 4626
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43306875228881836,
      "learning_rate": 0.0005961103053675757,
      "loss": 2.0016,
      "step": 4627
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.47971609234809875,
      "learning_rate": 0.0005961086275274514,
      "loss": 1.8709,
      "step": 4628
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4472297132015228,
      "learning_rate": 0.0005961069493278948,
      "loss": 1.9046,
      "step": 4629
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4624016582965851,
      "learning_rate": 0.0005961052707689083,
      "loss": 1.9287,
      "step": 4630
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48762086033821106,
      "learning_rate": 0.0005961035918504933,
      "loss": 1.938,
      "step": 4631
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4468839168548584,
      "learning_rate": 0.0005961019125726524,
      "loss": 1.8476,
      "step": 4632
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4645066261291504,
      "learning_rate": 0.0005961002329353872,
      "loss": 1.916,
      "step": 4633
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4444294273853302,
      "learning_rate": 0.0005960985529387001,
      "loss": 1.9735,
      "step": 4634
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45381245017051697,
      "learning_rate": 0.0005960968725825929,
      "loss": 1.8558,
      "step": 4635
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44935181736946106,
      "learning_rate": 0.0005960951918670677,
      "loss": 1.9023,
      "step": 4636
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.47843489050865173,
      "learning_rate": 0.0005960935107921267,
      "loss": 1.9412,
      "step": 4637
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43639007210731506,
      "learning_rate": 0.0005960918293577717,
      "loss": 1.9593,
      "step": 4638
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44948795437812805,
      "learning_rate": 0.0005960901475640049,
      "loss": 1.8545,
      "step": 4639
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.47911757230758667,
      "learning_rate": 0.0005960884654108283,
      "loss": 1.854,
      "step": 4640
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4358823597431183,
      "learning_rate": 0.0005960867828982439,
      "loss": 1.882,
      "step": 4641
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4493141770362854,
      "learning_rate": 0.0005960851000262538,
      "loss": 1.9398,
      "step": 4642
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45747730135917664,
      "learning_rate": 0.00059608341679486,
      "loss": 1.9275,
      "step": 4643
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45789822936058044,
      "learning_rate": 0.0005960817332040646,
      "loss": 1.8031,
      "step": 4644
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44416990876197815,
      "learning_rate": 0.0005960800492538695,
      "loss": 1.9065,
      "step": 4645
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43724194169044495,
      "learning_rate": 0.0005960783649442767,
      "loss": 1.9285,
      "step": 4646
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44230544567108154,
      "learning_rate": 0.0005960766802752888,
      "loss": 1.8827,
      "step": 4647
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44524961709976196,
      "learning_rate": 0.0005960749952469071,
      "loss": 1.8413,
      "step": 4648
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4185412526130676,
      "learning_rate": 0.000596073309859134,
      "loss": 1.8622,
      "step": 4649
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43070605397224426,
      "learning_rate": 0.0005960716241119717,
      "loss": 1.8672,
      "step": 4650
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45033448934555054,
      "learning_rate": 0.000596069938005422,
      "loss": 1.939,
      "step": 4651
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4391688108444214,
      "learning_rate": 0.000596068251539487,
      "loss": 1.9534,
      "step": 4652
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44377902150154114,
      "learning_rate": 0.0005960665647141688,
      "loss": 1.9354,
      "step": 4653
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43857553601264954,
      "learning_rate": 0.0005960648775294693,
      "loss": 1.8038,
      "step": 4654
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4313315451145172,
      "learning_rate": 0.0005960631899853909,
      "loss": 1.8906,
      "step": 4655
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43640831112861633,
      "learning_rate": 0.0005960615020819352,
      "loss": 1.9283,
      "step": 4656
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4392666220664978,
      "learning_rate": 0.0005960598138191045,
      "loss": 1.8149,
      "step": 4657
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4595973789691925,
      "learning_rate": 0.0005960581251969008,
      "loss": 1.9562,
      "step": 4658
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43749353289604187,
      "learning_rate": 0.0005960564362153262,
      "loss": 1.9126,
      "step": 4659
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4342558681964874,
      "learning_rate": 0.0005960547468743827,
      "loss": 1.8428,
      "step": 4660
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43936675786972046,
      "learning_rate": 0.0005960530571740724,
      "loss": 1.9244,
      "step": 4661
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4330587387084961,
      "learning_rate": 0.0005960513671143973,
      "loss": 1.8359,
      "step": 4662
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43086716532707214,
      "learning_rate": 0.0005960496766953594,
      "loss": 1.8077,
      "step": 4663
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4285643696784973,
      "learning_rate": 0.0005960479859169609,
      "loss": 1.823,
      "step": 4664
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.474863737821579,
      "learning_rate": 0.0005960462947792036,
      "loss": 1.932,
      "step": 4665
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4383554458618164,
      "learning_rate": 0.0005960446032820899,
      "loss": 1.8601,
      "step": 4666
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44541090726852417,
      "learning_rate": 0.0005960429114256216,
      "loss": 1.9149,
      "step": 4667
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4643113911151886,
      "learning_rate": 0.0005960412192098008,
      "loss": 1.8386,
      "step": 4668
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4347060024738312,
      "learning_rate": 0.0005960395266346296,
      "loss": 1.9042,
      "step": 4669
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4878292679786682,
      "learning_rate": 0.00059603783370011,
      "loss": 1.9588,
      "step": 4670
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4403936564922333,
      "learning_rate": 0.0005960361404062442,
      "loss": 1.9096,
      "step": 4671
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4285931885242462,
      "learning_rate": 0.0005960344467530339,
      "loss": 1.8515,
      "step": 4672
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4541918635368347,
      "learning_rate": 0.0005960327527404816,
      "loss": 1.8539,
      "step": 4673
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42570364475250244,
      "learning_rate": 0.0005960310583685893,
      "loss": 1.8995,
      "step": 4674
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4416223466396332,
      "learning_rate": 0.0005960293636373587,
      "loss": 1.922,
      "step": 4675
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4564324617385864,
      "learning_rate": 0.0005960276685467921,
      "loss": 1.8401,
      "step": 4676
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42359107732772827,
      "learning_rate": 0.0005960259730968915,
      "loss": 1.84,
      "step": 4677
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43122127652168274,
      "learning_rate": 0.000596024277287659,
      "loss": 1.8456,
      "step": 4678
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4566870331764221,
      "learning_rate": 0.0005960225811190967,
      "loss": 1.8997,
      "step": 4679
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4413372874259949,
      "learning_rate": 0.0005960208845912065,
      "loss": 1.8783,
      "step": 4680
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42473360896110535,
      "learning_rate": 0.0005960191877039907,
      "loss": 1.863,
      "step": 4681
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4506971538066864,
      "learning_rate": 0.0005960174904574511,
      "loss": 1.8128,
      "step": 4682
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4539646804332733,
      "learning_rate": 0.00059601579285159,
      "loss": 1.9291,
      "step": 4683
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4402054250240326,
      "learning_rate": 0.0005960140948864092,
      "loss": 1.8922,
      "step": 4684
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44019997119903564,
      "learning_rate": 0.0005960123965619111,
      "loss": 1.8658,
      "step": 4685
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4435481131076813,
      "learning_rate": 0.0005960106978780973,
      "loss": 1.8634,
      "step": 4686
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44617706537246704,
      "learning_rate": 0.0005960089988349703,
      "loss": 1.921,
      "step": 4687
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44467660784721375,
      "learning_rate": 0.0005960072994325321,
      "loss": 1.9099,
      "step": 4688
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4483354985713959,
      "learning_rate": 0.0005960055996707845,
      "loss": 1.864,
      "step": 4689
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.434584379196167,
      "learning_rate": 0.0005960038995497297,
      "loss": 1.9137,
      "step": 4690
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4380449652671814,
      "learning_rate": 0.0005960021990693698,
      "loss": 1.8275,
      "step": 4691
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4378083348274231,
      "learning_rate": 0.0005960004982297069,
      "loss": 1.8581,
      "step": 4692
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4382990598678589,
      "learning_rate": 0.000595998797030743,
      "loss": 1.9148,
      "step": 4693
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44124338030815125,
      "learning_rate": 0.0005959970954724802,
      "loss": 1.8967,
      "step": 4694
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4395790994167328,
      "learning_rate": 0.0005959953935549204,
      "loss": 1.9328,
      "step": 4695
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4302434027194977,
      "learning_rate": 0.0005959936912780659,
      "loss": 1.8904,
      "step": 4696
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43553534150123596,
      "learning_rate": 0.0005959919886419187,
      "loss": 1.8294,
      "step": 4697
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4296090602874756,
      "learning_rate": 0.0005959902856464808,
      "loss": 1.8902,
      "step": 4698
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4336394965648651,
      "learning_rate": 0.0005959885822917543,
      "loss": 1.8938,
      "step": 4699
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42025336623191833,
      "learning_rate": 0.0005959868785777412,
      "loss": 1.8212,
      "step": 4700
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42853814363479614,
      "learning_rate": 0.0005959851745044438,
      "loss": 1.941,
      "step": 4701
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4505036175251007,
      "learning_rate": 0.0005959834700718639,
      "loss": 1.778,
      "step": 4702
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4473550617694855,
      "learning_rate": 0.0005959817652800037,
      "loss": 1.7602,
      "step": 4703
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43432554602622986,
      "learning_rate": 0.0005959800601288653,
      "loss": 1.8677,
      "step": 4704
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46345090866088867,
      "learning_rate": 0.0005959783546184506,
      "loss": 1.9359,
      "step": 4705
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4631619155406952,
      "learning_rate": 0.0005959766487487619,
      "loss": 1.8488,
      "step": 4706
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4300480782985687,
      "learning_rate": 0.0005959749425198011,
      "loss": 1.8785,
      "step": 4707
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4843279719352722,
      "learning_rate": 0.0005959732359315704,
      "loss": 1.8626,
      "step": 4708
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.452057421207428,
      "learning_rate": 0.0005959715289840718,
      "loss": 1.9167,
      "step": 4709
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4736933708190918,
      "learning_rate": 0.0005959698216773073,
      "loss": 1.8649,
      "step": 4710
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44287359714508057,
      "learning_rate": 0.000595968114011279,
      "loss": 1.8939,
      "step": 4711
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45952150225639343,
      "learning_rate": 0.0005959664059859891,
      "loss": 1.8735,
      "step": 4712
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45051002502441406,
      "learning_rate": 0.0005959646976014395,
      "loss": 1.9221,
      "step": 4713
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4390411376953125,
      "learning_rate": 0.0005959629888576326,
      "loss": 1.837,
      "step": 4714
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4647088348865509,
      "learning_rate": 0.0005959612797545701,
      "loss": 1.9027,
      "step": 4715
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4472818374633789,
      "learning_rate": 0.0005959595702922541,
      "loss": 1.9506,
      "step": 4716
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4815739095211029,
      "learning_rate": 0.0005959578604706869,
      "loss": 1.9993,
      "step": 4717
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43653759360313416,
      "learning_rate": 0.0005959561502898705,
      "loss": 1.8745,
      "step": 4718
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4359753727912903,
      "learning_rate": 0.0005959544397498069,
      "loss": 1.8878,
      "step": 4719
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43290945887565613,
      "learning_rate": 0.0005959527288504981,
      "loss": 1.9428,
      "step": 4720
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43921682238578796,
      "learning_rate": 0.0005959510175919465,
      "loss": 1.907,
      "step": 4721
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44301360845565796,
      "learning_rate": 0.0005959493059741539,
      "loss": 1.8526,
      "step": 4722
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43708378076553345,
      "learning_rate": 0.0005959475939971224,
      "loss": 1.8669,
      "step": 4723
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4425943195819855,
      "learning_rate": 0.0005959458816608542,
      "loss": 1.9156,
      "step": 4724
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4344406723976135,
      "learning_rate": 0.0005959441689653512,
      "loss": 1.8383,
      "step": 4725
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42500150203704834,
      "learning_rate": 0.0005959424559106157,
      "loss": 1.7791,
      "step": 4726
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43080511689186096,
      "learning_rate": 0.0005959407424966495,
      "loss": 1.858,
      "step": 4727
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4514664113521576,
      "learning_rate": 0.000595939028723455,
      "loss": 1.8831,
      "step": 4728
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43205392360687256,
      "learning_rate": 0.000595937314591034,
      "loss": 1.8857,
      "step": 4729
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4377850294113159,
      "learning_rate": 0.0005959356000993888,
      "loss": 1.8325,
      "step": 4730
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4266451597213745,
      "learning_rate": 0.0005959338852485214,
      "loss": 1.8852,
      "step": 4731
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.449185848236084,
      "learning_rate": 0.0005959321700384338,
      "loss": 1.8934,
      "step": 4732
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4337664544582367,
      "learning_rate": 0.0005959304544691282,
      "loss": 1.9276,
      "step": 4733
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43476635217666626,
      "learning_rate": 0.0005959287385406066,
      "loss": 1.8759,
      "step": 4734
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4424087405204773,
      "learning_rate": 0.0005959270222528712,
      "loss": 1.8381,
      "step": 4735
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4466264545917511,
      "learning_rate": 0.0005959253056059239,
      "loss": 1.9202,
      "step": 4736
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43741726875305176,
      "learning_rate": 0.0005959235885997668,
      "loss": 1.8903,
      "step": 4737
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44030842185020447,
      "learning_rate": 0.0005959218712344022,
      "loss": 1.9306,
      "step": 4738
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4448259472846985,
      "learning_rate": 0.000595920153509832,
      "loss": 1.9533,
      "step": 4739
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45420870184898376,
      "learning_rate": 0.0005959184354260584,
      "loss": 1.8715,
      "step": 4740
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44554662704467773,
      "learning_rate": 0.0005959167169830834,
      "loss": 1.8896,
      "step": 4741
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4262942373752594,
      "learning_rate": 0.000595914998180909,
      "loss": 1.91,
      "step": 4742
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42842552065849304,
      "learning_rate": 0.0005959132790195375,
      "loss": 1.8865,
      "step": 4743
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43893077969551086,
      "learning_rate": 0.0005959115594989709,
      "loss": 1.8116,
      "step": 4744
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4328339397907257,
      "learning_rate": 0.0005959098396192112,
      "loss": 1.9525,
      "step": 4745
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4350045621395111,
      "learning_rate": 0.0005959081193802606,
      "loss": 1.9853,
      "step": 4746
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45183005928993225,
      "learning_rate": 0.0005959063987821211,
      "loss": 1.8914,
      "step": 4747
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42319929599761963,
      "learning_rate": 0.0005959046778247948,
      "loss": 1.8644,
      "step": 4748
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43096664547920227,
      "learning_rate": 0.000595902956508284,
      "loss": 1.9246,
      "step": 4749
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4238251745700836,
      "learning_rate": 0.0005959012348325905,
      "loss": 1.8171,
      "step": 4750
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4317236840724945,
      "learning_rate": 0.0005958995127977164,
      "loss": 1.9124,
      "step": 4751
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42555633187294006,
      "learning_rate": 0.0005958977904036639,
      "loss": 1.8908,
      "step": 4752
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4435980021953583,
      "learning_rate": 0.0005958960676504352,
      "loss": 1.9116,
      "step": 4753
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45808708667755127,
      "learning_rate": 0.0005958943445380322,
      "loss": 1.9042,
      "step": 4754
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42583149671554565,
      "learning_rate": 0.0005958926210664572,
      "loss": 1.8064,
      "step": 4755
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4403885304927826,
      "learning_rate": 0.000595890897235712,
      "loss": 1.9188,
      "step": 4756
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44825464487075806,
      "learning_rate": 0.000595889173045799,
      "loss": 1.8502,
      "step": 4757
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4517552852630615,
      "learning_rate": 0.0005958874484967199,
      "loss": 1.939,
      "step": 4758
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4499969482421875,
      "learning_rate": 0.0005958857235884772,
      "loss": 1.8887,
      "step": 4759
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4386421740055084,
      "learning_rate": 0.0005958839983210728,
      "loss": 1.87,
      "step": 4760
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43084877729415894,
      "learning_rate": 0.0005958822726945088,
      "loss": 1.8506,
      "step": 4761
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4448094367980957,
      "learning_rate": 0.0005958805467087874,
      "loss": 1.8787,
      "step": 4762
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42815276980400085,
      "learning_rate": 0.0005958788203639105,
      "loss": 1.9077,
      "step": 4763
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4236276149749756,
      "learning_rate": 0.0005958770936598804,
      "loss": 1.8207,
      "step": 4764
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4321819245815277,
      "learning_rate": 0.000595875366596699,
      "loss": 1.8563,
      "step": 4765
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.453108012676239,
      "learning_rate": 0.0005958736391743686,
      "loss": 1.8834,
      "step": 4766
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4344586431980133,
      "learning_rate": 0.0005958719113928912,
      "loss": 1.8636,
      "step": 4767
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4421800673007965,
      "learning_rate": 0.0005958701832522688,
      "loss": 1.956,
      "step": 4768
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.47638949751853943,
      "learning_rate": 0.0005958684547525036,
      "loss": 1.9303,
      "step": 4769
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4445381462574005,
      "learning_rate": 0.0005958667258935979,
      "loss": 1.8335,
      "step": 4770
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45367398858070374,
      "learning_rate": 0.0005958649966755533,
      "loss": 1.9152,
      "step": 4771
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4487447738647461,
      "learning_rate": 0.0005958632670983724,
      "loss": 1.8892,
      "step": 4772
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46280261874198914,
      "learning_rate": 0.000595861537162057,
      "loss": 1.9013,
      "step": 4773
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42889779806137085,
      "learning_rate": 0.0005958598068666092,
      "loss": 1.8972,
      "step": 4774
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42738232016563416,
      "learning_rate": 0.0005958580762120313,
      "loss": 1.8785,
      "step": 4775
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44323286414146423,
      "learning_rate": 0.0005958563451983252,
      "loss": 1.9007,
      "step": 4776
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44547221064567566,
      "learning_rate": 0.0005958546138254932,
      "loss": 1.9002,
      "step": 4777
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4404606819152832,
      "learning_rate": 0.0005958528820935372,
      "loss": 1.8857,
      "step": 4778
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43657010793685913,
      "learning_rate": 0.0005958511500024595,
      "loss": 1.9587,
      "step": 4779
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4311869740486145,
      "learning_rate": 0.000595849417552262,
      "loss": 1.9122,
      "step": 4780
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4353312849998474,
      "learning_rate": 0.000595847684742947,
      "loss": 1.8469,
      "step": 4781
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42369598150253296,
      "learning_rate": 0.0005958459515745164,
      "loss": 1.8271,
      "step": 4782
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4302361309528351,
      "learning_rate": 0.0005958442180469724,
      "loss": 1.8446,
      "step": 4783
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4301072657108307,
      "learning_rate": 0.0005958424841603172,
      "loss": 1.908,
      "step": 4784
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4331604242324829,
      "learning_rate": 0.0005958407499145527,
      "loss": 1.9281,
      "step": 4785
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45230692625045776,
      "learning_rate": 0.0005958390153096812,
      "loss": 1.8916,
      "step": 4786
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4286663830280304,
      "learning_rate": 0.0005958372803457047,
      "loss": 1.876,
      "step": 4787
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4372955858707428,
      "learning_rate": 0.0005958355450226253,
      "loss": 1.8241,
      "step": 4788
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4311501979827881,
      "learning_rate": 0.0005958338093404452,
      "loss": 1.8626,
      "step": 4789
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.448011577129364,
      "learning_rate": 0.0005958320732991665,
      "loss": 1.9162,
      "step": 4790
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44560006260871887,
      "learning_rate": 0.0005958303368987911,
      "loss": 1.8641,
      "step": 4791
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4439051151275635,
      "learning_rate": 0.0005958286001393213,
      "loss": 1.9103,
      "step": 4792
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44515445828437805,
      "learning_rate": 0.0005958268630207592,
      "loss": 1.8777,
      "step": 4793
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45507538318634033,
      "learning_rate": 0.0005958251255431069,
      "loss": 1.8706,
      "step": 4794
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43952423334121704,
      "learning_rate": 0.0005958233877063665,
      "loss": 1.9016,
      "step": 4795
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4362826943397522,
      "learning_rate": 0.00059582164951054,
      "loss": 1.8337,
      "step": 4796
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4333590269088745,
      "learning_rate": 0.0005958199109556297,
      "loss": 1.8398,
      "step": 4797
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42706865072250366,
      "learning_rate": 0.0005958181720416376,
      "loss": 1.9273,
      "step": 4798
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4389377236366272,
      "learning_rate": 0.0005958164327685658,
      "loss": 1.8934,
      "step": 4799
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46923691034317017,
      "learning_rate": 0.0005958146931364164,
      "loss": 1.8439,
      "step": 4800
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4462162256240845,
      "learning_rate": 0.0005958129531451915,
      "loss": 1.9419,
      "step": 4801
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4600743353366852,
      "learning_rate": 0.0005958112127948934,
      "loss": 1.8566,
      "step": 4802
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4619198143482208,
      "learning_rate": 0.000595809472085524,
      "loss": 1.8209,
      "step": 4803
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46931928396224976,
      "learning_rate": 0.0005958077310170855,
      "loss": 1.8227,
      "step": 4804
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4301639795303345,
      "learning_rate": 0.00059580598958958,
      "loss": 1.8114,
      "step": 4805
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.48739176988601685,
      "learning_rate": 0.0005958042478030096,
      "loss": 1.957,
      "step": 4806
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4438096284866333,
      "learning_rate": 0.0005958025056573765,
      "loss": 1.8852,
      "step": 4807
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.436740517616272,
      "learning_rate": 0.0005958007631526827,
      "loss": 1.9237,
      "step": 4808
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4657008647918701,
      "learning_rate": 0.0005957990202889303,
      "loss": 1.7668,
      "step": 4809
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4532816708087921,
      "learning_rate": 0.0005957972770661216,
      "loss": 1.9944,
      "step": 4810
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45843809843063354,
      "learning_rate": 0.0005957955334842585,
      "loss": 1.8663,
      "step": 4811
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44443729519844055,
      "learning_rate": 0.0005957937895433432,
      "loss": 1.8849,
      "step": 4812
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4429384171962738,
      "learning_rate": 0.0005957920452433778,
      "loss": 1.8511,
      "step": 4813
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44512906670570374,
      "learning_rate": 0.0005957903005843646,
      "loss": 1.7769,
      "step": 4814
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44629958271980286,
      "learning_rate": 0.0005957885555663054,
      "loss": 1.8773,
      "step": 4815
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4327840805053711,
      "learning_rate": 0.0005957868101892025,
      "loss": 1.8373,
      "step": 4816
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4298604726791382,
      "learning_rate": 0.000595785064453058,
      "loss": 1.923,
      "step": 4817
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4525246322154999,
      "learning_rate": 0.0005957833183578739,
      "loss": 1.9605,
      "step": 4818
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42945200204849243,
      "learning_rate": 0.0005957815719036527,
      "loss": 1.9288,
      "step": 4819
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4399494528770447,
      "learning_rate": 0.000595779825090396,
      "loss": 1.8777,
      "step": 4820
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43333402276039124,
      "learning_rate": 0.0005957780779181064,
      "loss": 1.8427,
      "step": 4821
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43804407119750977,
      "learning_rate": 0.0005957763303867856,
      "loss": 1.8866,
      "step": 4822
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44850826263427734,
      "learning_rate": 0.000595774582496436,
      "loss": 1.8505,
      "step": 4823
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4558659791946411,
      "learning_rate": 0.0005957728342470596,
      "loss": 1.8922,
      "step": 4824
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.439134806394577,
      "learning_rate": 0.0005957710856386586,
      "loss": 1.9383,
      "step": 4825
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4336325228214264,
      "learning_rate": 0.0005957693366712351,
      "loss": 1.7911,
      "step": 4826
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42440032958984375,
      "learning_rate": 0.0005957675873447912,
      "loss": 1.866,
      "step": 4827
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4471566379070282,
      "learning_rate": 0.000595765837659329,
      "loss": 1.8635,
      "step": 4828
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4353695809841156,
      "learning_rate": 0.0005957640876148506,
      "loss": 1.8148,
      "step": 4829
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4359147250652313,
      "learning_rate": 0.0005957623372113582,
      "loss": 1.8895,
      "step": 4830
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43844494223594666,
      "learning_rate": 0.000595760586448854,
      "loss": 1.8355,
      "step": 4831
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43985864520072937,
      "learning_rate": 0.00059575883532734,
      "loss": 1.8717,
      "step": 4832
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4363187849521637,
      "learning_rate": 0.0005957570838468183,
      "loss": 1.9962,
      "step": 4833
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4321730136871338,
      "learning_rate": 0.000595755332007291,
      "loss": 1.9182,
      "step": 4834
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.451708048582077,
      "learning_rate": 0.0005957535798087604,
      "loss": 1.8794,
      "step": 4835
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4443688690662384,
      "learning_rate": 0.0005957518272512285,
      "loss": 1.9122,
      "step": 4836
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42125818133354187,
      "learning_rate": 0.0005957500743346975,
      "loss": 1.9105,
      "step": 4837
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4498453438282013,
      "learning_rate": 0.0005957483210591695,
      "loss": 1.8595,
      "step": 4838
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4265613555908203,
      "learning_rate": 0.0005957465674246466,
      "loss": 1.8913,
      "step": 4839
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4549828767776489,
      "learning_rate": 0.0005957448134311309,
      "loss": 1.7956,
      "step": 4840
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43267929553985596,
      "learning_rate": 0.0005957430590786245,
      "loss": 1.8793,
      "step": 4841
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44488751888275146,
      "learning_rate": 0.0005957413043671298,
      "loss": 1.9709,
      "step": 4842
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4435873329639435,
      "learning_rate": 0.0005957395492966486,
      "loss": 1.8891,
      "step": 4843
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42173752188682556,
      "learning_rate": 0.0005957377938671833,
      "loss": 1.8409,
      "step": 4844
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.437533438205719,
      "learning_rate": 0.0005957360380787357,
      "loss": 1.888,
      "step": 4845
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43648889660835266,
      "learning_rate": 0.0005957342819313083,
      "loss": 1.8712,
      "step": 4846
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4336802363395691,
      "learning_rate": 0.0005957325254249029,
      "loss": 1.8684,
      "step": 4847
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4254704713821411,
      "learning_rate": 0.0005957307685595218,
      "loss": 1.8938,
      "step": 4848
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4369674026966095,
      "learning_rate": 0.0005957290113351673,
      "loss": 1.9228,
      "step": 4849
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44571036100387573,
      "learning_rate": 0.0005957272537518412,
      "loss": 1.9238,
      "step": 4850
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43315958976745605,
      "learning_rate": 0.0005957254958095458,
      "loss": 1.9241,
      "step": 4851
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4260433614253998,
      "learning_rate": 0.0005957237375082833,
      "loss": 1.8911,
      "step": 4852
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4261251389980316,
      "learning_rate": 0.0005957219788480557,
      "loss": 1.8878,
      "step": 4853
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43111613392829895,
      "learning_rate": 0.0005957202198288652,
      "loss": 1.8818,
      "step": 4854
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42235955595970154,
      "learning_rate": 0.0005957184604507139,
      "loss": 1.8635,
      "step": 4855
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42534956336021423,
      "learning_rate": 0.0005957167007136039,
      "loss": 1.9196,
      "step": 4856
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44847798347473145,
      "learning_rate": 0.0005957149406175374,
      "loss": 1.8381,
      "step": 4857
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44708365201950073,
      "learning_rate": 0.0005957131801625166,
      "loss": 1.9779,
      "step": 4858
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4220069646835327,
      "learning_rate": 0.0005957114193485437,
      "loss": 1.9116,
      "step": 4859
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43239036202430725,
      "learning_rate": 0.0005957096581756206,
      "loss": 1.8237,
      "step": 4860
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4332743287086487,
      "learning_rate": 0.0005957078966437495,
      "loss": 1.9193,
      "step": 4861
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46808093786239624,
      "learning_rate": 0.0005957061347529327,
      "loss": 1.9223,
      "step": 4862
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43118876218795776,
      "learning_rate": 0.000595704372503172,
      "loss": 2.0049,
      "step": 4863
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43571510910987854,
      "learning_rate": 0.0005957026098944699,
      "loss": 1.9379,
      "step": 4864
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44881993532180786,
      "learning_rate": 0.0005957008469268284,
      "loss": 1.8264,
      "step": 4865
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43309691548347473,
      "learning_rate": 0.0005956990836002497,
      "loss": 1.8214,
      "step": 4866
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44811171293258667,
      "learning_rate": 0.0005956973199147357,
      "loss": 1.976,
      "step": 4867
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43550586700439453,
      "learning_rate": 0.000595695555870289,
      "loss": 1.9039,
      "step": 4868
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42646661400794983,
      "learning_rate": 0.0005956937914669112,
      "loss": 1.8593,
      "step": 4869
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4277845025062561,
      "learning_rate": 0.0005956920267046049,
      "loss": 1.8384,
      "step": 4870
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4236343204975128,
      "learning_rate": 0.0005956902615833719,
      "loss": 1.7973,
      "step": 4871
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.417162150144577,
      "learning_rate": 0.0005956884961032145,
      "loss": 1.9177,
      "step": 4872
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.48238489031791687,
      "learning_rate": 0.000595686730264135,
      "loss": 1.9479,
      "step": 4873
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4421416223049164,
      "learning_rate": 0.0005956849640661353,
      "loss": 1.8713,
      "step": 4874
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42441630363464355,
      "learning_rate": 0.0005956831975092175,
      "loss": 1.9276,
      "step": 4875
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43275192379951477,
      "learning_rate": 0.0005956814305933839,
      "loss": 1.9302,
      "step": 4876
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4338447153568268,
      "learning_rate": 0.0005956796633186367,
      "loss": 1.8739,
      "step": 4877
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43208831548690796,
      "learning_rate": 0.000595677895684978,
      "loss": 1.9206,
      "step": 4878
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42323800921440125,
      "learning_rate": 0.0005956761276924097,
      "loss": 1.8614,
      "step": 4879
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43241429328918457,
      "learning_rate": 0.0005956743593409342,
      "loss": 1.8756,
      "step": 4880
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43030011653900146,
      "learning_rate": 0.0005956725906305538,
      "loss": 1.8767,
      "step": 4881
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44028881192207336,
      "learning_rate": 0.0005956708215612702,
      "loss": 1.9162,
      "step": 4882
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4421220123767853,
      "learning_rate": 0.0005956690521330859,
      "loss": 1.8157,
      "step": 4883
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4374578297138214,
      "learning_rate": 0.0005956672823460029,
      "loss": 1.8368,
      "step": 4884
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43239840865135193,
      "learning_rate": 0.0005956655122000234,
      "loss": 1.8639,
      "step": 4885
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.413700670003891,
      "learning_rate": 0.0005956637416951495,
      "loss": 1.8654,
      "step": 4886
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4311181902885437,
      "learning_rate": 0.0005956619708313834,
      "loss": 1.88,
      "step": 4887
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43146324157714844,
      "learning_rate": 0.0005956601996087274,
      "loss": 1.872,
      "step": 4888
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4311939775943756,
      "learning_rate": 0.0005956584280271832,
      "loss": 1.8406,
      "step": 4889
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43313467502593994,
      "learning_rate": 0.0005956566560867534,
      "loss": 1.938,
      "step": 4890
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4246487021446228,
      "learning_rate": 0.0005956548837874399,
      "loss": 1.8761,
      "step": 4891
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44109392166137695,
      "learning_rate": 0.0005956531111292449,
      "loss": 1.8293,
      "step": 4892
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43300285935401917,
      "learning_rate": 0.0005956513381121707,
      "loss": 1.8513,
      "step": 4893
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4622761011123657,
      "learning_rate": 0.0005956495647362193,
      "loss": 1.8272,
      "step": 4894
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42190948128700256,
      "learning_rate": 0.000595647791001393,
      "loss": 1.8678,
      "step": 4895
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44496408104896545,
      "learning_rate": 0.0005956460169076937,
      "loss": 1.9048,
      "step": 4896
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44919779896736145,
      "learning_rate": 0.0005956442424551237,
      "loss": 1.8068,
      "step": 4897
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4346495568752289,
      "learning_rate": 0.0005956424676436851,
      "loss": 1.7647,
      "step": 4898
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42554113268852234,
      "learning_rate": 0.0005956406924733802,
      "loss": 1.8327,
      "step": 4899
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.478101521730423,
      "learning_rate": 0.0005956389169442111,
      "loss": 1.9225,
      "step": 4900
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43732255697250366,
      "learning_rate": 0.0005956371410561799,
      "loss": 1.8366,
      "step": 4901
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.41766980290412903,
      "learning_rate": 0.0005956353648092887,
      "loss": 1.8089,
      "step": 4902
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4286959171295166,
      "learning_rate": 0.0005956335882035397,
      "loss": 1.8454,
      "step": 4903
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44286981225013733,
      "learning_rate": 0.0005956318112389352,
      "loss": 1.9367,
      "step": 4904
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4307136833667755,
      "learning_rate": 0.0005956300339154772,
      "loss": 1.9607,
      "step": 4905
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4395138919353485,
      "learning_rate": 0.0005956282562331679,
      "loss": 1.7931,
      "step": 4906
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44080010056495667,
      "learning_rate": 0.0005956264781920094,
      "loss": 1.8956,
      "step": 4907
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4135746657848358,
      "learning_rate": 0.000595624699792004,
      "loss": 1.9089,
      "step": 4908
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43121442198753357,
      "learning_rate": 0.0005956229210331537,
      "loss": 1.9263,
      "step": 4909
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43842610716819763,
      "learning_rate": 0.0005956211419154608,
      "loss": 1.874,
      "step": 4910
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4605969190597534,
      "learning_rate": 0.0005956193624389273,
      "loss": 2.0042,
      "step": 4911
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.41195541620254517,
      "learning_rate": 0.0005956175826035555,
      "loss": 1.8724,
      "step": 4912
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43194228410720825,
      "learning_rate": 0.0005956158024093475,
      "loss": 1.9058,
      "step": 4913
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4495493471622467,
      "learning_rate": 0.0005956140218563055,
      "loss": 1.8769,
      "step": 4914
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43835338950157166,
      "learning_rate": 0.0005956122409444315,
      "loss": 1.8554,
      "step": 4915
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42488422989845276,
      "learning_rate": 0.000595610459673728,
      "loss": 1.8499,
      "step": 4916
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4275818169116974,
      "learning_rate": 0.0005956086780441969,
      "loss": 1.8946,
      "step": 4917
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4244157373905182,
      "learning_rate": 0.0005956068960558404,
      "loss": 1.9248,
      "step": 4918
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.41707852482795715,
      "learning_rate": 0.0005956051137086606,
      "loss": 1.8656,
      "step": 4919
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43599802255630493,
      "learning_rate": 0.0005956033310026598,
      "loss": 1.8767,
      "step": 4920
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.434928297996521,
      "learning_rate": 0.0005956015479378402,
      "loss": 1.8416,
      "step": 4921
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46506476402282715,
      "learning_rate": 0.0005955997645142037,
      "loss": 1.8837,
      "step": 4922
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45105186104774475,
      "learning_rate": 0.0005955979807317529,
      "loss": 1.9736,
      "step": 4923
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4506908059120178,
      "learning_rate": 0.0005955961965904895,
      "loss": 1.8968,
      "step": 4924
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4332119822502136,
      "learning_rate": 0.0005955944120904159,
      "loss": 1.8857,
      "step": 4925
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43207722902297974,
      "learning_rate": 0.0005955926272315343,
      "loss": 1.8997,
      "step": 4926
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44650793075561523,
      "learning_rate": 0.0005955908420138468,
      "loss": 1.9361,
      "step": 4927
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42517316341400146,
      "learning_rate": 0.0005955890564373554,
      "loss": 1.9057,
      "step": 4928
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4398256242275238,
      "learning_rate": 0.0005955872705020627,
      "loss": 1.8563,
      "step": 4929
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43964365124702454,
      "learning_rate": 0.0005955854842079704,
      "loss": 1.8511,
      "step": 4930
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44932180643081665,
      "learning_rate": 0.000595583697555081,
      "loss": 1.9218,
      "step": 4931
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43776699900627136,
      "learning_rate": 0.0005955819105433964,
      "loss": 1.8246,
      "step": 4932
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.42874443531036377,
      "learning_rate": 0.0005955801231729191,
      "loss": 1.955,
      "step": 4933
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4502396285533905,
      "learning_rate": 0.000595578335443651,
      "loss": 1.9308,
      "step": 4934
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.427694708108902,
      "learning_rate": 0.0005955765473555943,
      "loss": 1.9188,
      "step": 4935
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44415798783302307,
      "learning_rate": 0.0005955747589087514,
      "loss": 1.8579,
      "step": 4936
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4382087290287018,
      "learning_rate": 0.0005955729701031241,
      "loss": 1.8895,
      "step": 4937
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.48927628993988037,
      "learning_rate": 0.0005955711809387148,
      "loss": 1.8886,
      "step": 4938
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4388902485370636,
      "learning_rate": 0.0005955693914155256,
      "loss": 1.9305,
      "step": 4939
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4565591514110565,
      "learning_rate": 0.0005955676015335588,
      "loss": 1.8902,
      "step": 4940
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4498235881328583,
      "learning_rate": 0.0005955658112928165,
      "loss": 1.9097,
      "step": 4941
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43228504061698914,
      "learning_rate": 0.0005955640206933008,
      "loss": 1.8457,
      "step": 4942
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44518256187438965,
      "learning_rate": 0.000595562229735014,
      "loss": 1.8792,
      "step": 4943
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44440799951553345,
      "learning_rate": 0.0005955604384179582,
      "loss": 1.853,
      "step": 4944
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4434151351451874,
      "learning_rate": 0.0005955586467421355,
      "loss": 1.9056,
      "step": 4945
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4340190291404724,
      "learning_rate": 0.0005955568547075481,
      "loss": 1.8611,
      "step": 4946
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4633239805698395,
      "learning_rate": 0.0005955550623141983,
      "loss": 1.8997,
      "step": 4947
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44298070669174194,
      "learning_rate": 0.0005955532695620882,
      "loss": 1.8612,
      "step": 4948
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.459136039018631,
      "learning_rate": 0.0005955514764512199,
      "loss": 1.9506,
      "step": 4949
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43688902258872986,
      "learning_rate": 0.0005955496829815958,
      "loss": 1.8895,
      "step": 4950
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4655425250530243,
      "learning_rate": 0.0005955478891532178,
      "loss": 1.8509,
      "step": 4951
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4363325834274292,
      "learning_rate": 0.0005955460949660883,
      "loss": 1.8998,
      "step": 4952
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4371693432331085,
      "learning_rate": 0.0005955443004202095,
      "loss": 1.8367,
      "step": 4953
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43445467948913574,
      "learning_rate": 0.0005955425055155832,
      "loss": 1.8553,
      "step": 4954
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45882925391197205,
      "learning_rate": 0.0005955407102522121,
      "loss": 1.8824,
      "step": 4955
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43329834938049316,
      "learning_rate": 0.0005955389146300978,
      "loss": 1.9266,
      "step": 4956
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45544877648353577,
      "learning_rate": 0.0005955371186492431,
      "loss": 1.9784,
      "step": 4957
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4400841295719147,
      "learning_rate": 0.0005955353223096498,
      "loss": 1.9124,
      "step": 4958
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43014076352119446,
      "learning_rate": 0.0005955335256113201,
      "loss": 1.85,
      "step": 4959
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4986362159252167,
      "learning_rate": 0.0005955317285542563,
      "loss": 1.9117,
      "step": 4960
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4268856346607208,
      "learning_rate": 0.0005955299311384605,
      "loss": 1.9066,
      "step": 4961
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4416220486164093,
      "learning_rate": 0.0005955281333639349,
      "loss": 1.8919,
      "step": 4962
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44151973724365234,
      "learning_rate": 0.0005955263352306817,
      "loss": 1.9005,
      "step": 4963
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43101564049720764,
      "learning_rate": 0.0005955245367387031,
      "loss": 1.9103,
      "step": 4964
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44597581028938293,
      "learning_rate": 0.0005955227378880013,
      "loss": 1.8683,
      "step": 4965
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4331118166446686,
      "learning_rate": 0.0005955209386785783,
      "loss": 1.8094,
      "step": 4966
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43075981736183167,
      "learning_rate": 0.0005955191391104366,
      "loss": 1.9129,
      "step": 4967
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42950373888015747,
      "learning_rate": 0.0005955173391835781,
      "loss": 1.9116,
      "step": 4968
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.448539674282074,
      "learning_rate": 0.0005955155388980051,
      "loss": 1.9013,
      "step": 4969
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43786025047302246,
      "learning_rate": 0.0005955137382537198,
      "loss": 1.9003,
      "step": 4970
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4362953007221222,
      "learning_rate": 0.0005955119372507244,
      "loss": 1.8775,
      "step": 4971
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43371349573135376,
      "learning_rate": 0.0005955101358890209,
      "loss": 1.9283,
      "step": 4972
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4261019229888916,
      "learning_rate": 0.0005955083341686117,
      "loss": 1.8964,
      "step": 4973
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43730899691581726,
      "learning_rate": 0.000595506532089499,
      "loss": 1.8825,
      "step": 4974
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41889065504074097,
      "learning_rate": 0.0005955047296516848,
      "loss": 1.9133,
      "step": 4975
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43776997923851013,
      "learning_rate": 0.0005955029268551715,
      "loss": 1.8779,
      "step": 4976
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.425235778093338,
      "learning_rate": 0.0005955011236999612,
      "loss": 1.8964,
      "step": 4977
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42503610253334045,
      "learning_rate": 0.000595499320186056,
      "loss": 1.9231,
      "step": 4978
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42072567343711853,
      "learning_rate": 0.0005954975163134582,
      "loss": 1.9058,
      "step": 4979
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42294904589653015,
      "learning_rate": 0.00059549571208217,
      "loss": 1.8855,
      "step": 4980
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42941609025001526,
      "learning_rate": 0.0005954939074921935,
      "loss": 1.8924,
      "step": 4981
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.434752494096756,
      "learning_rate": 0.0005954921025435308,
      "loss": 1.8932,
      "step": 4982
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4106192886829376,
      "learning_rate": 0.0005954902972361844,
      "loss": 1.8523,
      "step": 4983
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42609432339668274,
      "learning_rate": 0.0005954884915701562,
      "loss": 1.8782,
      "step": 4984
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42893481254577637,
      "learning_rate": 0.0005954866855454487,
      "loss": 1.8508,
      "step": 4985
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42619848251342773,
      "learning_rate": 0.0005954848791620638,
      "loss": 1.8842,
      "step": 4986
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43234899640083313,
      "learning_rate": 0.0005954830724200038,
      "loss": 1.8753,
      "step": 4987
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44903409481048584,
      "learning_rate": 0.0005954812653192709,
      "loss": 1.8855,
      "step": 4988
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4414846897125244,
      "learning_rate": 0.0005954794578598672,
      "loss": 1.9914,
      "step": 4989
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42847326397895813,
      "learning_rate": 0.000595477650041795,
      "loss": 1.867,
      "step": 4990
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44216036796569824,
      "learning_rate": 0.0005954758418650564,
      "loss": 1.9156,
      "step": 4991
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4335767924785614,
      "learning_rate": 0.0005954740333296538,
      "loss": 1.885,
      "step": 4992
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4468213617801666,
      "learning_rate": 0.0005954722244355894,
      "loss": 1.8912,
      "step": 4993
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4293264150619507,
      "learning_rate": 0.0005954704151828649,
      "loss": 1.8707,
      "step": 4994
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4393373429775238,
      "learning_rate": 0.0005954686055714831,
      "loss": 1.8429,
      "step": 4995
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4262249171733856,
      "learning_rate": 0.0005954667956014458,
      "loss": 1.8785,
      "step": 4996
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43249058723449707,
      "learning_rate": 0.0005954649852727555,
      "loss": 1.8961,
      "step": 4997
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43779170513153076,
      "learning_rate": 0.000595463174585414,
      "loss": 1.8347,
      "step": 4998
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4343356788158417,
      "learning_rate": 0.000595461363539424,
      "loss": 1.8519,
      "step": 4999
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43322500586509705,
      "learning_rate": 0.0005954595521347873,
      "loss": 1.8383,
      "step": 5000
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4450136423110962,
      "learning_rate": 0.0005954577403715064,
      "loss": 1.849,
      "step": 5001
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4367397427558899,
      "learning_rate": 0.000595455928249583,
      "loss": 1.8743,
      "step": 5002
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4521564245223999,
      "learning_rate": 0.00059545411576902,
      "loss": 1.9009,
      "step": 5003
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4281778037548065,
      "learning_rate": 0.0005954523029298191,
      "loss": 1.856,
      "step": 5004
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44579625129699707,
      "learning_rate": 0.0005954504897319826,
      "loss": 1.8458,
      "step": 5005
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4418767988681793,
      "learning_rate": 0.0005954486761755128,
      "loss": 1.8854,
      "step": 5006
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4535151720046997,
      "learning_rate": 0.0005954468622604117,
      "loss": 1.9536,
      "step": 5007
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42932307720184326,
      "learning_rate": 0.0005954450479866818,
      "loss": 1.8216,
      "step": 5008
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4307803511619568,
      "learning_rate": 0.0005954432333543251,
      "loss": 1.8418,
      "step": 5009
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4330439865589142,
      "learning_rate": 0.0005954414183633438,
      "loss": 1.8779,
      "step": 5010
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4323902726173401,
      "learning_rate": 0.0005954396030137402,
      "loss": 1.8766,
      "step": 5011
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4314107894897461,
      "learning_rate": 0.0005954377873055164,
      "loss": 1.8342,
      "step": 5012
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42368587851524353,
      "learning_rate": 0.0005954359712386747,
      "loss": 1.7622,
      "step": 5013
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.406888872385025,
      "learning_rate": 0.0005954341548132173,
      "loss": 1.7839,
      "step": 5014
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4459581673145294,
      "learning_rate": 0.0005954323380291462,
      "loss": 1.9717,
      "step": 5015
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43310511112213135,
      "learning_rate": 0.0005954305208864639,
      "loss": 1.9181,
      "step": 5016
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42146778106689453,
      "learning_rate": 0.0005954287033851724,
      "loss": 1.882,
      "step": 5017
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44018399715423584,
      "learning_rate": 0.0005954268855252741,
      "loss": 1.8943,
      "step": 5018
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4453170597553253,
      "learning_rate": 0.0005954250673067711,
      "loss": 1.9223,
      "step": 5019
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43414995074272156,
      "learning_rate": 0.0005954232487296656,
      "loss": 1.8928,
      "step": 5020
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41903871297836304,
      "learning_rate": 0.0005954214297939597,
      "loss": 1.8439,
      "step": 5021
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4394146502017975,
      "learning_rate": 0.0005954196104996557,
      "loss": 1.8721,
      "step": 5022
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4224875271320343,
      "learning_rate": 0.0005954177908467559,
      "loss": 1.8423,
      "step": 5023
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4350840449333191,
      "learning_rate": 0.0005954159708352625,
      "loss": 1.9741,
      "step": 5024
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41460439562797546,
      "learning_rate": 0.0005954141504651775,
      "loss": 1.821,
      "step": 5025
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4337351322174072,
      "learning_rate": 0.0005954123297365033,
      "loss": 1.8911,
      "step": 5026
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4232397675514221,
      "learning_rate": 0.0005954105086492421,
      "loss": 1.8919,
      "step": 5027
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43159019947052,
      "learning_rate": 0.0005954086872033959,
      "loss": 1.8348,
      "step": 5028
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4367198348045349,
      "learning_rate": 0.0005954068653989673,
      "loss": 1.8961,
      "step": 5029
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4285948872566223,
      "learning_rate": 0.0005954050432359581,
      "loss": 1.8762,
      "step": 5030
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4264279305934906,
      "learning_rate": 0.0005954032207143708,
      "loss": 1.8763,
      "step": 5031
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4455881118774414,
      "learning_rate": 0.0005954013978342075,
      "loss": 1.9257,
      "step": 5032
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.428693026304245,
      "learning_rate": 0.0005953995745954704,
      "loss": 1.7954,
      "step": 5033
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4396496117115021,
      "learning_rate": 0.0005953977509981618,
      "loss": 1.9317,
      "step": 5034
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4329598844051361,
      "learning_rate": 0.0005953959270422838,
      "loss": 1.8868,
      "step": 5035
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4382950961589813,
      "learning_rate": 0.0005953941027278388,
      "loss": 1.8904,
      "step": 5036
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44422590732574463,
      "learning_rate": 0.0005953922780548288,
      "loss": 1.8779,
      "step": 5037
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4472610354423523,
      "learning_rate": 0.0005953904530232561,
      "loss": 1.8448,
      "step": 5038
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4408337473869324,
      "learning_rate": 0.000595388627633123,
      "loss": 1.9386,
      "step": 5039
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41903290152549744,
      "learning_rate": 0.0005953868018844314,
      "loss": 1.7847,
      "step": 5040
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42945247888565063,
      "learning_rate": 0.0005953849757771839,
      "loss": 1.9253,
      "step": 5041
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.446014404296875,
      "learning_rate": 0.0005953831493113825,
      "loss": 1.8385,
      "step": 5042
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44374004006385803,
      "learning_rate": 0.0005953813224870296,
      "loss": 1.8893,
      "step": 5043
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4507979452610016,
      "learning_rate": 0.0005953794953041272,
      "loss": 1.8567,
      "step": 5044
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4256635308265686,
      "learning_rate": 0.0005953776677626776,
      "loss": 1.8536,
      "step": 5045
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4439854919910431,
      "learning_rate": 0.0005953758398626831,
      "loss": 1.8668,
      "step": 5046
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4376603662967682,
      "learning_rate": 0.0005953740116041458,
      "loss": 1.8136,
      "step": 5047
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4325615167617798,
      "learning_rate": 0.0005953721829870679,
      "loss": 1.8606,
      "step": 5048
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44503122568130493,
      "learning_rate": 0.0005953703540114518,
      "loss": 1.8588,
      "step": 5049
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4416264295578003,
      "learning_rate": 0.0005953685246772996,
      "loss": 1.8789,
      "step": 5050
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43035393953323364,
      "learning_rate": 0.0005953666949846135,
      "loss": 1.8894,
      "step": 5051
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4360728859901428,
      "learning_rate": 0.0005953648649333958,
      "loss": 1.9027,
      "step": 5052
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4201446771621704,
      "learning_rate": 0.0005953630345236487,
      "loss": 1.8956,
      "step": 5053
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44247448444366455,
      "learning_rate": 0.0005953612037553742,
      "loss": 1.9656,
      "step": 5054
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4299508035182953,
      "learning_rate": 0.000595359372628575,
      "loss": 1.9083,
      "step": 5055
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4640096127986908,
      "learning_rate": 0.0005953575411432528,
      "loss": 1.8819,
      "step": 5056
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45342913269996643,
      "learning_rate": 0.0005953557092994102,
      "loss": 1.9344,
      "step": 5057
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4558819532394409,
      "learning_rate": 0.0005953538770970492,
      "loss": 1.8383,
      "step": 5058
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4279482960700989,
      "learning_rate": 0.0005953520445361722,
      "loss": 1.9583,
      "step": 5059
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42456528544425964,
      "learning_rate": 0.0005953502116167813,
      "loss": 1.7579,
      "step": 5060
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4227927327156067,
      "learning_rate": 0.0005953483783388788,
      "loss": 1.8529,
      "step": 5061
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4349546730518341,
      "learning_rate": 0.0005953465447024668,
      "loss": 1.8899,
      "step": 5062
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4583718776702881,
      "learning_rate": 0.0005953447107075476,
      "loss": 1.8654,
      "step": 5063
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4342685341835022,
      "learning_rate": 0.0005953428763541236,
      "loss": 1.909,
      "step": 5064
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42578834295272827,
      "learning_rate": 0.0005953410416421967,
      "loss": 1.8318,
      "step": 5065
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44873881340026855,
      "learning_rate": 0.0005953392065717694,
      "loss": 1.9478,
      "step": 5066
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.46056291460990906,
      "learning_rate": 0.0005953373711428438,
      "loss": 1.8796,
      "step": 5067
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4191902279853821,
      "learning_rate": 0.0005953355353554221,
      "loss": 1.8502,
      "step": 5068
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4386979937553406,
      "learning_rate": 0.0005953336992095066,
      "loss": 1.8162,
      "step": 5069
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4334680140018463,
      "learning_rate": 0.0005953318627050995,
      "loss": 1.7939,
      "step": 5070
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45435041189193726,
      "learning_rate": 0.0005953300258422031,
      "loss": 1.8792,
      "step": 5071
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43415209650993347,
      "learning_rate": 0.0005953281886208194,
      "loss": 1.8379,
      "step": 5072
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41934075951576233,
      "learning_rate": 0.0005953263510409509,
      "loss": 1.8188,
      "step": 5073
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4320545494556427,
      "learning_rate": 0.0005953245131025997,
      "loss": 1.8363,
      "step": 5074
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4658876359462738,
      "learning_rate": 0.0005953226748057681,
      "loss": 1.9135,
      "step": 5075
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4253784418106079,
      "learning_rate": 0.0005953208361504583,
      "loss": 1.8226,
      "step": 5076
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43899163603782654,
      "learning_rate": 0.0005953189971366724,
      "loss": 1.9014,
      "step": 5077
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4349430203437805,
      "learning_rate": 0.0005953171577644129,
      "loss": 1.8814,
      "step": 5078
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45098161697387695,
      "learning_rate": 0.0005953153180336819,
      "loss": 1.9738,
      "step": 5079
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43948832154273987,
      "learning_rate": 0.0005953134779444814,
      "loss": 1.8816,
      "step": 5080
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4348312318325043,
      "learning_rate": 0.000595311637496814,
      "loss": 1.9073,
      "step": 5081
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4310856759548187,
      "learning_rate": 0.0005953097966906818,
      "loss": 1.8695,
      "step": 5082
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4356291592121124,
      "learning_rate": 0.0005953079555260869,
      "loss": 1.8742,
      "step": 5083
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4277813136577606,
      "learning_rate": 0.0005953061140030318,
      "loss": 1.8664,
      "step": 5084
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4542878270149231,
      "learning_rate": 0.0005953042721215185,
      "loss": 1.9172,
      "step": 5085
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43512940406799316,
      "learning_rate": 0.0005953024298815493,
      "loss": 1.8974,
      "step": 5086
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43179967999458313,
      "learning_rate": 0.0005953005872831265,
      "loss": 1.8263,
      "step": 5087
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4286513030529022,
      "learning_rate": 0.0005952987443262523,
      "loss": 1.8517,
      "step": 5088
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42799586057662964,
      "learning_rate": 0.000595296901010929,
      "loss": 1.8625,
      "step": 5089
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42918524146080017,
      "learning_rate": 0.0005952950573371587,
      "loss": 1.8194,
      "step": 5090
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4320290684700012,
      "learning_rate": 0.0005952932133049437,
      "loss": 1.8947,
      "step": 5091
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4208933413028717,
      "learning_rate": 0.0005952913689142862,
      "loss": 1.7877,
      "step": 5092
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43297070264816284,
      "learning_rate": 0.0005952895241651886,
      "loss": 1.8224,
      "step": 5093
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42093226313591003,
      "learning_rate": 0.000595287679057653,
      "loss": 1.8927,
      "step": 5094
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4180566668510437,
      "learning_rate": 0.0005952858335916817,
      "loss": 1.8416,
      "step": 5095
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4315432906150818,
      "learning_rate": 0.0005952839877672769,
      "loss": 1.9527,
      "step": 5096
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41812026500701904,
      "learning_rate": 0.0005952821415844407,
      "loss": 1.8662,
      "step": 5097
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4320257604122162,
      "learning_rate": 0.0005952802950431757,
      "loss": 1.9122,
      "step": 5098
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43031567335128784,
      "learning_rate": 0.0005952784481434837,
      "loss": 1.8257,
      "step": 5099
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4396717846393585,
      "learning_rate": 0.0005952766008853673,
      "loss": 1.8415,
      "step": 5100
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4207567572593689,
      "learning_rate": 0.0005952747532688286,
      "loss": 1.851,
      "step": 5101
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4400906562805176,
      "learning_rate": 0.0005952729052938699,
      "loss": 1.8244,
      "step": 5102
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45778384804725647,
      "learning_rate": 0.0005952710569604934,
      "loss": 1.8488,
      "step": 5103
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42103731632232666,
      "learning_rate": 0.0005952692082687012,
      "loss": 1.6558,
      "step": 5104
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4342440366744995,
      "learning_rate": 0.0005952673592184959,
      "loss": 1.9442,
      "step": 5105
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44323962926864624,
      "learning_rate": 0.0005952655098098793,
      "loss": 1.8913,
      "step": 5106
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4482710361480713,
      "learning_rate": 0.0005952636600428541,
      "loss": 1.858,
      "step": 5107
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42412856221199036,
      "learning_rate": 0.0005952618099174222,
      "loss": 1.9182,
      "step": 5108
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43390825390815735,
      "learning_rate": 0.000595259959433586,
      "loss": 1.9131,
      "step": 5109
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4333675801753998,
      "learning_rate": 0.0005952581085913477,
      "loss": 1.8415,
      "step": 5110
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43937546014785767,
      "learning_rate": 0.0005952562573907096,
      "loss": 1.8481,
      "step": 5111
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43928468227386475,
      "learning_rate": 0.0005952544058316739,
      "loss": 1.8386,
      "step": 5112
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4395431876182556,
      "learning_rate": 0.0005952525539142427,
      "loss": 1.8579,
      "step": 5113
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43634775280952454,
      "learning_rate": 0.0005952507016384186,
      "loss": 1.8911,
      "step": 5114
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4487419128417969,
      "learning_rate": 0.0005952488490042036,
      "loss": 1.8711,
      "step": 5115
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43194836378097534,
      "learning_rate": 0.0005952469960115999,
      "loss": 1.8756,
      "step": 5116
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4542301595211029,
      "learning_rate": 0.00059524514266061,
      "loss": 1.9355,
      "step": 5117
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4897618591785431,
      "learning_rate": 0.000595243288951236,
      "loss": 1.9148,
      "step": 5118
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42427873611450195,
      "learning_rate": 0.00059524143488348,
      "loss": 1.8077,
      "step": 5119
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4829614758491516,
      "learning_rate": 0.0005952395804573444,
      "loss": 1.8787,
      "step": 5120
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4437286853790283,
      "learning_rate": 0.0005952377256728316,
      "loss": 1.8756,
      "step": 5121
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7898586392402649,
      "learning_rate": 0.0005952358705299437,
      "loss": 1.919,
      "step": 5122
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4487137198448181,
      "learning_rate": 0.0005952340150286828,
      "loss": 1.9068,
      "step": 5123
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4887665808200836,
      "learning_rate": 0.0005952321591690514,
      "loss": 1.9638,
      "step": 5124
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.416439950466156,
      "learning_rate": 0.0005952303029510516,
      "loss": 1.8391,
      "step": 5125
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4377208352088928,
      "learning_rate": 0.0005952284463746857,
      "loss": 1.8763,
      "step": 5126
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.46020379662513733,
      "learning_rate": 0.0005952265894399562,
      "loss": 1.881,
      "step": 5127
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4671874940395355,
      "learning_rate": 0.0005952247321468648,
      "loss": 1.8812,
      "step": 5128
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42601948976516724,
      "learning_rate": 0.0005952228744954143,
      "loss": 1.8335,
      "step": 5129
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.444247841835022,
      "learning_rate": 0.0005952210164856067,
      "loss": 1.8661,
      "step": 5130
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4231734573841095,
      "learning_rate": 0.0005952191581174442,
      "loss": 1.7917,
      "step": 5131
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41855722665786743,
      "learning_rate": 0.0005952172993909291,
      "loss": 1.7709,
      "step": 5132
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42391183972358704,
      "learning_rate": 0.0005952154403060638,
      "loss": 1.8759,
      "step": 5133
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45640888810157776,
      "learning_rate": 0.0005952135808628505,
      "loss": 1.9582,
      "step": 5134
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4369685649871826,
      "learning_rate": 0.0005952117210612913,
      "loss": 1.8889,
      "step": 5135
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41875970363616943,
      "learning_rate": 0.0005952098609013886,
      "loss": 1.8603,
      "step": 5136
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43675053119659424,
      "learning_rate": 0.0005952080003831446,
      "loss": 1.9082,
      "step": 5137
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.436235636472702,
      "learning_rate": 0.0005952061395065616,
      "loss": 1.8236,
      "step": 5138
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.422798216342926,
      "learning_rate": 0.000595204278271642,
      "loss": 1.7839,
      "step": 5139
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43385088443756104,
      "learning_rate": 0.0005952024166783877,
      "loss": 1.8647,
      "step": 5140
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4429484009742737,
      "learning_rate": 0.0005952005547268012,
      "loss": 1.9395,
      "step": 5141
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43001264333724976,
      "learning_rate": 0.0005951986924168848,
      "loss": 1.904,
      "step": 5142
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44066599011421204,
      "learning_rate": 0.0005951968297486405,
      "loss": 1.8808,
      "step": 5143
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4340130090713501,
      "learning_rate": 0.0005951949667220709,
      "loss": 1.9288,
      "step": 5144
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42989423871040344,
      "learning_rate": 0.0005951931033371782,
      "loss": 1.8924,
      "step": 5145
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4286995232105255,
      "learning_rate": 0.0005951912395939644,
      "loss": 1.8247,
      "step": 5146
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45255494117736816,
      "learning_rate": 0.0005951893754924319,
      "loss": 1.8657,
      "step": 5147
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42874547839164734,
      "learning_rate": 0.0005951875110325831,
      "loss": 1.8367,
      "step": 5148
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4369552731513977,
      "learning_rate": 0.0005951856462144201,
      "loss": 1.8452,
      "step": 5149
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.427651584148407,
      "learning_rate": 0.0005951837810379453,
      "loss": 1.9492,
      "step": 5150
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4256303906440735,
      "learning_rate": 0.0005951819155031609,
      "loss": 1.844,
      "step": 5151
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4358890652656555,
      "learning_rate": 0.000595180049610069,
      "loss": 1.8471,
      "step": 5152
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41662800312042236,
      "learning_rate": 0.000595178183358672,
      "loss": 1.8403,
      "step": 5153
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44293922185897827,
      "learning_rate": 0.0005951763167489723,
      "loss": 1.8529,
      "step": 5154
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42173534631729126,
      "learning_rate": 0.0005951744497809721,
      "loss": 1.7718,
      "step": 5155
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4457346796989441,
      "learning_rate": 0.0005951725824546734,
      "loss": 1.8277,
      "step": 5156
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42822179198265076,
      "learning_rate": 0.0005951707147700789,
      "loss": 1.7839,
      "step": 5157
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4397731125354767,
      "learning_rate": 0.0005951688467271905,
      "loss": 1.9049,
      "step": 5158
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.438217431306839,
      "learning_rate": 0.0005951669783260106,
      "loss": 1.8425,
      "step": 5159
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4438410997390747,
      "learning_rate": 0.0005951651095665415,
      "loss": 1.8426,
      "step": 5160
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.435123473405838,
      "learning_rate": 0.0005951632404487856,
      "loss": 1.833,
      "step": 5161
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43121451139450073,
      "learning_rate": 0.0005951613709727449,
      "loss": 1.7827,
      "step": 5162
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4623410105705261,
      "learning_rate": 0.0005951595011384217,
      "loss": 1.8576,
      "step": 5163
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4422595202922821,
      "learning_rate": 0.0005951576309458184,
      "loss": 1.8936,
      "step": 5164
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.464651495218277,
      "learning_rate": 0.0005951557603949373,
      "loss": 1.8703,
      "step": 5165
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4260941743850708,
      "learning_rate": 0.0005951538894857806,
      "loss": 1.8535,
      "step": 5166
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4315856397151947,
      "learning_rate": 0.0005951520182183505,
      "loss": 1.8698,
      "step": 5167
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4473521113395691,
      "learning_rate": 0.0005951501465926494,
      "loss": 1.7949,
      "step": 5168
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42484843730926514,
      "learning_rate": 0.0005951482746086794,
      "loss": 1.8066,
      "step": 5169
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42591428756713867,
      "learning_rate": 0.000595146402266443,
      "loss": 1.8535,
      "step": 5170
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42043858766555786,
      "learning_rate": 0.0005951445295659422,
      "loss": 1.8802,
      "step": 5171
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44565582275390625,
      "learning_rate": 0.0005951426565071797,
      "loss": 1.8379,
      "step": 5172
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44681063294410706,
      "learning_rate": 0.0005951407830901573,
      "loss": 1.9112,
      "step": 5173
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4515606164932251,
      "learning_rate": 0.0005951389093148775,
      "loss": 1.9361,
      "step": 5174
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4240841567516327,
      "learning_rate": 0.0005951370351813426,
      "loss": 1.817,
      "step": 5175
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43664249777793884,
      "learning_rate": 0.0005951351606895548,
      "loss": 1.8807,
      "step": 5176
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44214680790901184,
      "learning_rate": 0.0005951332858395163,
      "loss": 1.8662,
      "step": 5177
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4253512918949127,
      "learning_rate": 0.0005951314106312296,
      "loss": 1.7851,
      "step": 5178
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44614341855049133,
      "learning_rate": 0.0005951295350646968,
      "loss": 1.8889,
      "step": 5179
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4173499643802643,
      "learning_rate": 0.0005951276591399203,
      "loss": 1.8329,
      "step": 5180
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4384004771709442,
      "learning_rate": 0.0005951257828569022,
      "loss": 1.8528,
      "step": 5181
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4515700340270996,
      "learning_rate": 0.000595123906215645,
      "loss": 1.8744,
      "step": 5182
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42651355266571045,
      "learning_rate": 0.0005951220292161508,
      "loss": 1.872,
      "step": 5183
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43083634972572327,
      "learning_rate": 0.000595120151858422,
      "loss": 1.8745,
      "step": 5184
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4473552405834198,
      "learning_rate": 0.0005951182741424606,
      "loss": 1.8214,
      "step": 5185
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42846664786338806,
      "learning_rate": 0.0005951163960682694,
      "loss": 1.9079,
      "step": 5186
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42080679535865784,
      "learning_rate": 0.0005951145176358502,
      "loss": 1.8491,
      "step": 5187
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4358278810977936,
      "learning_rate": 0.0005951126388452054,
      "loss": 1.8134,
      "step": 5188
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4114522337913513,
      "learning_rate": 0.0005951107596963376,
      "loss": 1.8053,
      "step": 5189
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5006285905838013,
      "learning_rate": 0.0005951088801892485,
      "loss": 1.8845,
      "step": 5190
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4196341335773468,
      "learning_rate": 0.000595107000323941,
      "loss": 1.8354,
      "step": 5191
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4441930949687958,
      "learning_rate": 0.000595105120100417,
      "loss": 1.8792,
      "step": 5192
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4327605664730072,
      "learning_rate": 0.0005951032395186787,
      "loss": 1.7806,
      "step": 5193
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.440703421831131,
      "learning_rate": 0.0005951013585787287,
      "loss": 1.8412,
      "step": 5194
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41625627875328064,
      "learning_rate": 0.000595099477280569,
      "loss": 1.8492,
      "step": 5195
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4385387599468231,
      "learning_rate": 0.0005950975956242021,
      "loss": 1.8708,
      "step": 5196
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4331868588924408,
      "learning_rate": 0.0005950957136096303,
      "loss": 1.8792,
      "step": 5197
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4343004524707794,
      "learning_rate": 0.0005950938312368557,
      "loss": 1.8799,
      "step": 5198
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43749815225601196,
      "learning_rate": 0.0005950919485058807,
      "loss": 1.9053,
      "step": 5199
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43092066049575806,
      "learning_rate": 0.0005950900654167074,
      "loss": 1.8354,
      "step": 5200
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42884591221809387,
      "learning_rate": 0.0005950881819693384,
      "loss": 1.8104,
      "step": 5201
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41962897777557373,
      "learning_rate": 0.0005950862981637758,
      "loss": 1.8973,
      "step": 5202
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4408673942089081,
      "learning_rate": 0.0005950844140000218,
      "loss": 1.8786,
      "step": 5203
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43556827306747437,
      "learning_rate": 0.0005950825294780789,
      "loss": 1.9125,
      "step": 5204
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43152815103530884,
      "learning_rate": 0.0005950806445979493,
      "loss": 1.8313,
      "step": 5205
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4908098876476288,
      "learning_rate": 0.0005950787593596354,
      "loss": 1.8666,
      "step": 5206
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4427306056022644,
      "learning_rate": 0.0005950768737631391,
      "loss": 1.9003,
      "step": 5207
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4220053553581238,
      "learning_rate": 0.0005950749878084631,
      "loss": 1.7879,
      "step": 5208
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4278414249420166,
      "learning_rate": 0.0005950731014956096,
      "loss": 1.8585,
      "step": 5209
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42800173163414,
      "learning_rate": 0.0005950712148245807,
      "loss": 1.8734,
      "step": 5210
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4411679804325104,
      "learning_rate": 0.0005950693277953789,
      "loss": 1.8265,
      "step": 5211
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43492212891578674,
      "learning_rate": 0.0005950674404080063,
      "loss": 1.9106,
      "step": 5212
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4416884183883667,
      "learning_rate": 0.0005950655526624654,
      "loss": 1.8914,
      "step": 5213
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43301406502723694,
      "learning_rate": 0.0005950636645587585,
      "loss": 1.8262,
      "step": 5214
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4373733401298523,
      "learning_rate": 0.0005950617760968875,
      "loss": 1.8146,
      "step": 5215
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4308040738105774,
      "learning_rate": 0.0005950598872768552,
      "loss": 1.9207,
      "step": 5216
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42774397134780884,
      "learning_rate": 0.0005950579980986637,
      "loss": 1.8708,
      "step": 5217
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42307335138320923,
      "learning_rate": 0.0005950561085623151,
      "loss": 1.8324,
      "step": 5218
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43085432052612305,
      "learning_rate": 0.0005950542186678119,
      "loss": 1.9051,
      "step": 5219
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4253649115562439,
      "learning_rate": 0.0005950523284151564,
      "loss": 1.7977,
      "step": 5220
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4169226586818695,
      "learning_rate": 0.0005950504378043509,
      "loss": 1.8557,
      "step": 5221
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4306202232837677,
      "learning_rate": 0.0005950485468353975,
      "loss": 1.824,
      "step": 5222
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43221282958984375,
      "learning_rate": 0.0005950466555082988,
      "loss": 1.7909,
      "step": 5223
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4579683244228363,
      "learning_rate": 0.0005950447638230569,
      "loss": 1.8771,
      "step": 5224
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44952356815338135,
      "learning_rate": 0.000595042871779674,
      "loss": 1.9345,
      "step": 5225
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4666612148284912,
      "learning_rate": 0.0005950409793781527,
      "loss": 1.9081,
      "step": 5226
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4491504728794098,
      "learning_rate": 0.000595039086618495,
      "loss": 1.8033,
      "step": 5227
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44367071986198425,
      "learning_rate": 0.0005950371935007033,
      "loss": 1.8535,
      "step": 5228
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4405577778816223,
      "learning_rate": 0.00059503530002478,
      "loss": 1.9241,
      "step": 5229
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4170069694519043,
      "learning_rate": 0.0005950334061907273,
      "loss": 1.8543,
      "step": 5230
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8335433602333069,
      "learning_rate": 0.0005950315119985475,
      "loss": 1.9261,
      "step": 5231
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4279514253139496,
      "learning_rate": 0.000595029617448243,
      "loss": 1.9108,
      "step": 5232
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4250124990940094,
      "learning_rate": 0.0005950277225398159,
      "loss": 1.9167,
      "step": 5233
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42780181765556335,
      "learning_rate": 0.0005950258272732687,
      "loss": 1.8779,
      "step": 5234
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4686993956565857,
      "learning_rate": 0.0005950239316486035,
      "loss": 1.9193,
      "step": 5235
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43661677837371826,
      "learning_rate": 0.0005950220356658228,
      "loss": 1.8091,
      "step": 5236
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43448349833488464,
      "learning_rate": 0.0005950201393249288,
      "loss": 1.9693,
      "step": 5237
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4551900625228882,
      "learning_rate": 0.0005950182426259238,
      "loss": 1.7937,
      "step": 5238
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4367510676383972,
      "learning_rate": 0.0005950163455688102,
      "loss": 1.9025,
      "step": 5239
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4394896328449249,
      "learning_rate": 0.0005950144481535901,
      "loss": 1.8063,
      "step": 5240
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44705408811569214,
      "learning_rate": 0.0005950125503802661,
      "loss": 1.8338,
      "step": 5241
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45255246758461,
      "learning_rate": 0.0005950106522488402,
      "loss": 1.9049,
      "step": 5242
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42959359288215637,
      "learning_rate": 0.0005950087537593149,
      "loss": 1.8784,
      "step": 5243
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4440644085407257,
      "learning_rate": 0.0005950068549116924,
      "loss": 1.9146,
      "step": 5244
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43436527252197266,
      "learning_rate": 0.000595004955705975,
      "loss": 1.8527,
      "step": 5245
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44234251976013184,
      "learning_rate": 0.0005950030561421651,
      "loss": 1.9125,
      "step": 5246
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4279610812664032,
      "learning_rate": 0.000595001156220265,
      "loss": 1.8921,
      "step": 5247
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4272216558456421,
      "learning_rate": 0.0005949992559402768,
      "loss": 1.8937,
      "step": 5248
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4452821910381317,
      "learning_rate": 0.0005949973553022032,
      "loss": 1.9121,
      "step": 5249
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4328245520591736,
      "learning_rate": 0.0005949954543060462,
      "loss": 1.8816,
      "step": 5250
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4169463515281677,
      "learning_rate": 0.0005949935529518081,
      "loss": 1.8534,
      "step": 5251
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4403230845928192,
      "learning_rate": 0.0005949916512394913,
      "loss": 1.915,
      "step": 5252
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44469866156578064,
      "learning_rate": 0.0005949897491690982,
      "loss": 1.9047,
      "step": 5253
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.44177135825157166,
      "learning_rate": 0.000594987846740631,
      "loss": 1.879,
      "step": 5254
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43519529700279236,
      "learning_rate": 0.0005949859439540919,
      "loss": 1.8165,
      "step": 5255
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4380744695663452,
      "learning_rate": 0.0005949840408094834,
      "loss": 1.9503,
      "step": 5256
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41001656651496887,
      "learning_rate": 0.0005949821373068077,
      "loss": 1.8,
      "step": 5257
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43374499678611755,
      "learning_rate": 0.0005949802334460672,
      "loss": 1.8751,
      "step": 5258
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.43830180168151855,
      "learning_rate": 0.0005949783292272642,
      "loss": 1.8132,
      "step": 5259
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42385268211364746,
      "learning_rate": 0.0005949764246504009,
      "loss": 1.837,
      "step": 5260
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42333292961120605,
      "learning_rate": 0.0005949745197154797,
      "loss": 1.8809,
      "step": 5261
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4509008228778839,
      "learning_rate": 0.0005949726144225029,
      "loss": 1.9131,
      "step": 5262
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42423611879348755,
      "learning_rate": 0.0005949707087714728,
      "loss": 1.8135,
      "step": 5263
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41744205355644226,
      "learning_rate": 0.0005949688027623918,
      "loss": 1.8358,
      "step": 5264
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4368826150894165,
      "learning_rate": 0.000594966896395262,
      "loss": 1.9565,
      "step": 5265
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43859604001045227,
      "learning_rate": 0.0005949649896700859,
      "loss": 1.8143,
      "step": 5266
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4189828336238861,
      "learning_rate": 0.0005949630825868657,
      "loss": 1.8301,
      "step": 5267
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42112576961517334,
      "learning_rate": 0.0005949611751456039,
      "loss": 1.8132,
      "step": 5268
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43545085191726685,
      "learning_rate": 0.0005949592673463027,
      "loss": 1.8306,
      "step": 5269
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43667715787887573,
      "learning_rate": 0.0005949573591889644,
      "loss": 1.9497,
      "step": 5270
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42343851923942566,
      "learning_rate": 0.0005949554506735912,
      "loss": 1.8383,
      "step": 5271
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.46781229972839355,
      "learning_rate": 0.0005949535418001856,
      "loss": 1.9003,
      "step": 5272
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43686047196388245,
      "learning_rate": 0.0005949516325687499,
      "loss": 1.8504,
      "step": 5273
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42618072032928467,
      "learning_rate": 0.0005949497229792864,
      "loss": 1.8497,
      "step": 5274
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4375041425228119,
      "learning_rate": 0.0005949478130317973,
      "loss": 1.8515,
      "step": 5275
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4400712847709656,
      "learning_rate": 0.0005949459027262852,
      "loss": 1.8763,
      "step": 5276
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.47267597913742065,
      "learning_rate": 0.0005949439920627521,
      "loss": 1.9388,
      "step": 5277
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4303024709224701,
      "learning_rate": 0.0005949420810412004,
      "loss": 1.8829,
      "step": 5278
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4665893614292145,
      "learning_rate": 0.0005949401696616325,
      "loss": 1.9586,
      "step": 5279
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42993366718292236,
      "learning_rate": 0.0005949382579240508,
      "loss": 1.906,
      "step": 5280
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4359740912914276,
      "learning_rate": 0.0005949363458284574,
      "loss": 1.8729,
      "step": 5281
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43674004077911377,
      "learning_rate": 0.0005949344333748548,
      "loss": 1.8793,
      "step": 5282
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.46174997091293335,
      "learning_rate": 0.0005949325205632451,
      "loss": 1.834,
      "step": 5283
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4226231575012207,
      "learning_rate": 0.0005949306073936309,
      "loss": 1.8301,
      "step": 5284
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44582873582839966,
      "learning_rate": 0.0005949286938660144,
      "loss": 1.8933,
      "step": 5285
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45828062295913696,
      "learning_rate": 0.0005949267799803979,
      "loss": 1.9023,
      "step": 5286
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4215034544467926,
      "learning_rate": 0.0005949248657367838,
      "loss": 1.8488,
      "step": 5287
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4319323003292084,
      "learning_rate": 0.0005949229511351743,
      "loss": 1.8726,
      "step": 5288
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43702006340026855,
      "learning_rate": 0.0005949210361755719,
      "loss": 1.9638,
      "step": 5289
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4346824884414673,
      "learning_rate": 0.0005949191208579786,
      "loss": 1.8755,
      "step": 5290
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4268941283226013,
      "learning_rate": 0.0005949172051823972,
      "loss": 1.8265,
      "step": 5291
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4141264855861664,
      "learning_rate": 0.0005949152891488297,
      "loss": 1.7797,
      "step": 5292
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44622179865837097,
      "learning_rate": 0.0005949133727572784,
      "loss": 1.9234,
      "step": 5293
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43869027495384216,
      "learning_rate": 0.0005949114560077457,
      "loss": 1.9071,
      "step": 5294
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4343675374984741,
      "learning_rate": 0.000594909538900234,
      "loss": 1.9278,
      "step": 5295
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42723897099494934,
      "learning_rate": 0.0005949076214347456,
      "loss": 1.8775,
      "step": 5296
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44131430983543396,
      "learning_rate": 0.0005949057036112827,
      "loss": 1.8118,
      "step": 5297
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43660181760787964,
      "learning_rate": 0.0005949037854298478,
      "loss": 1.8875,
      "step": 5298
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4264371395111084,
      "learning_rate": 0.0005949018668904432,
      "loss": 1.8773,
      "step": 5299
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4196178913116455,
      "learning_rate": 0.0005948999479930712,
      "loss": 1.8439,
      "step": 5300
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.432752400636673,
      "learning_rate": 0.000594898028737734,
      "loss": 1.8737,
      "step": 5301
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4392545223236084,
      "learning_rate": 0.0005948961091244341,
      "loss": 1.9712,
      "step": 5302
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.420454740524292,
      "learning_rate": 0.0005948941891531738,
      "loss": 1.8701,
      "step": 5303
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4377681016921997,
      "learning_rate": 0.0005948922688239554,
      "loss": 1.8953,
      "step": 5304
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43623483180999756,
      "learning_rate": 0.0005948903481367812,
      "loss": 1.8893,
      "step": 5305
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4435584843158722,
      "learning_rate": 0.0005948884270916535,
      "loss": 1.8539,
      "step": 5306
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4362363815307617,
      "learning_rate": 0.0005948865056885749,
      "loss": 1.9126,
      "step": 5307
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4239487051963806,
      "learning_rate": 0.0005948845839275474,
      "loss": 1.8964,
      "step": 5308
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4244551658630371,
      "learning_rate": 0.0005948826618085734,
      "loss": 1.8618,
      "step": 5309
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44332513213157654,
      "learning_rate": 0.0005948807393316555,
      "loss": 1.8068,
      "step": 5310
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42041948437690735,
      "learning_rate": 0.0005948788164967956,
      "loss": 1.8605,
      "step": 5311
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4313007891178131,
      "learning_rate": 0.0005948768933039965,
      "loss": 1.8805,
      "step": 5312
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4204220175743103,
      "learning_rate": 0.0005948749697532601,
      "loss": 1.9315,
      "step": 5313
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43306228518486023,
      "learning_rate": 0.000594873045844589,
      "loss": 1.9317,
      "step": 5314
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43523353338241577,
      "learning_rate": 0.0005948711215779855,
      "loss": 1.8778,
      "step": 5315
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4230070114135742,
      "learning_rate": 0.0005948691969534519,
      "loss": 1.9006,
      "step": 5316
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4295344352722168,
      "learning_rate": 0.0005948672719709904,
      "loss": 1.9305,
      "step": 5317
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45205214619636536,
      "learning_rate": 0.0005948653466306038,
      "loss": 1.7729,
      "step": 5318
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4310673177242279,
      "learning_rate": 0.0005948634209322938,
      "loss": 1.9093,
      "step": 5319
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4364662170410156,
      "learning_rate": 0.0005948614948760632,
      "loss": 1.8587,
      "step": 5320
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42260676622390747,
      "learning_rate": 0.0005948595684619141,
      "loss": 1.8315,
      "step": 5321
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4209683835506439,
      "learning_rate": 0.000594857641689849,
      "loss": 1.9396,
      "step": 5322
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43881410360336304,
      "learning_rate": 0.0005948557145598702,
      "loss": 1.8634,
      "step": 5323
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4212338328361511,
      "learning_rate": 0.00059485378707198,
      "loss": 1.8193,
      "step": 5324
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4218834638595581,
      "learning_rate": 0.0005948518592261806,
      "loss": 1.8508,
      "step": 5325
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43283799290657043,
      "learning_rate": 0.0005948499310224747,
      "loss": 1.8894,
      "step": 5326
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44589877128601074,
      "learning_rate": 0.0005948480024608643,
      "loss": 1.8974,
      "step": 5327
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.436955064535141,
      "learning_rate": 0.0005948460735413519,
      "loss": 1.8487,
      "step": 5328
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42366740107536316,
      "learning_rate": 0.0005948441442639399,
      "loss": 1.8311,
      "step": 5329
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45563533902168274,
      "learning_rate": 0.0005948422146286303,
      "loss": 1.8647,
      "step": 5330
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4354325532913208,
      "learning_rate": 0.0005948402846354259,
      "loss": 1.895,
      "step": 5331
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4215660095214844,
      "learning_rate": 0.0005948383542843289,
      "loss": 1.864,
      "step": 5332
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45405709743499756,
      "learning_rate": 0.0005948364235753414,
      "loss": 1.8812,
      "step": 5333
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44934967160224915,
      "learning_rate": 0.000594834492508466,
      "loss": 1.8623,
      "step": 5334
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42296475172042847,
      "learning_rate": 0.000594832561083705,
      "loss": 1.8629,
      "step": 5335
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42706435918807983,
      "learning_rate": 0.0005948306293010607,
      "loss": 1.879,
      "step": 5336
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4404531419277191,
      "learning_rate": 0.0005948286971605353,
      "loss": 1.8629,
      "step": 5337
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4346655011177063,
      "learning_rate": 0.0005948267646621315,
      "loss": 1.851,
      "step": 5338
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42015665769577026,
      "learning_rate": 0.0005948248318058514,
      "loss": 1.8166,
      "step": 5339
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41576263308525085,
      "learning_rate": 0.0005948228985916974,
      "loss": 1.8355,
      "step": 5340
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44449254870414734,
      "learning_rate": 0.0005948209650196718,
      "loss": 1.9371,
      "step": 5341
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4759473502635956,
      "learning_rate": 0.000594819031089777,
      "loss": 1.8501,
      "step": 5342
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4262716770172119,
      "learning_rate": 0.0005948170968020154,
      "loss": 1.8563,
      "step": 5343
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.444701224565506,
      "learning_rate": 0.0005948151621563892,
      "loss": 1.8412,
      "step": 5344
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42371222376823425,
      "learning_rate": 0.0005948132271529008,
      "loss": 1.8702,
      "step": 5345
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4243762195110321,
      "learning_rate": 0.0005948112917915527,
      "loss": 1.8186,
      "step": 5346
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4263980984687805,
      "learning_rate": 0.0005948093560723471,
      "loss": 1.8587,
      "step": 5347
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4381578862667084,
      "learning_rate": 0.0005948074199952863,
      "loss": 1.825,
      "step": 5348
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4328414499759674,
      "learning_rate": 0.0005948054835603728,
      "loss": 1.8586,
      "step": 5349
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4311353862285614,
      "learning_rate": 0.0005948035467676089,
      "loss": 1.9,
      "step": 5350
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4360077381134033,
      "learning_rate": 0.0005948016096169969,
      "loss": 1.8319,
      "step": 5351
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4440624713897705,
      "learning_rate": 0.0005947996721085392,
      "loss": 1.8383,
      "step": 5352
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4252392053604126,
      "learning_rate": 0.0005947977342422381,
      "loss": 1.912,
      "step": 5353
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.428358256816864,
      "learning_rate": 0.0005947957960180959,
      "loss": 1.8584,
      "step": 5354
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43565791845321655,
      "learning_rate": 0.0005947938574361152,
      "loss": 1.8249,
      "step": 5355
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4536206126213074,
      "learning_rate": 0.0005947919184962981,
      "loss": 1.9236,
      "step": 5356
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4306814968585968,
      "learning_rate": 0.0005947899791986472,
      "loss": 1.7746,
      "step": 5357
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4117598533630371,
      "learning_rate": 0.0005947880395431645,
      "loss": 1.8077,
      "step": 5358
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44295069575309753,
      "learning_rate": 0.0005947860995298526,
      "loss": 1.8817,
      "step": 5359
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45649582147598267,
      "learning_rate": 0.0005947841591587139,
      "loss": 1.9196,
      "step": 5360
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43462514877319336,
      "learning_rate": 0.0005947822184297506,
      "loss": 1.8891,
      "step": 5361
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43292564153671265,
      "learning_rate": 0.0005947802773429652,
      "loss": 1.7908,
      "step": 5362
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4530436098575592,
      "learning_rate": 0.0005947783358983598,
      "loss": 1.8541,
      "step": 5363
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4342930018901825,
      "learning_rate": 0.0005947763940959371,
      "loss": 1.8028,
      "step": 5364
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4279443621635437,
      "learning_rate": 0.0005947744519356992,
      "loss": 1.9205,
      "step": 5365
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43522486090660095,
      "learning_rate": 0.0005947725094176485,
      "loss": 1.8576,
      "step": 5366
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4296503961086273,
      "learning_rate": 0.0005947705665417875,
      "loss": 1.8425,
      "step": 5367
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5170107483863831,
      "learning_rate": 0.0005947686233081185,
      "loss": 1.9383,
      "step": 5368
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4323422610759735,
      "learning_rate": 0.0005947666797166438,
      "loss": 1.9084,
      "step": 5369
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4179479479789734,
      "learning_rate": 0.0005947647357673657,
      "loss": 1.8712,
      "step": 5370
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42462098598480225,
      "learning_rate": 0.0005947627914602868,
      "loss": 1.8637,
      "step": 5371
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4383915662765503,
      "learning_rate": 0.0005947608467954091,
      "loss": 1.7428,
      "step": 5372
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4227648675441742,
      "learning_rate": 0.0005947589017727353,
      "loss": 1.8729,
      "step": 5373
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4221213757991791,
      "learning_rate": 0.0005947569563922676,
      "loss": 1.7995,
      "step": 5374
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4267354905605316,
      "learning_rate": 0.0005947550106540085,
      "loss": 1.8594,
      "step": 5375
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4137305021286011,
      "learning_rate": 0.00059475306455796,
      "loss": 1.9383,
      "step": 5376
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.426395058631897,
      "learning_rate": 0.0005947511181041248,
      "loss": 1.9092,
      "step": 5377
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43741753697395325,
      "learning_rate": 0.0005947491712925052,
      "loss": 1.9787,
      "step": 5378
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4330431818962097,
      "learning_rate": 0.0005947472241231036,
      "loss": 1.7661,
      "step": 5379
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42137661576271057,
      "learning_rate": 0.0005947452765959222,
      "loss": 1.8714,
      "step": 5380
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42932480573654175,
      "learning_rate": 0.0005947433287109635,
      "loss": 1.8787,
      "step": 5381
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43825653195381165,
      "learning_rate": 0.0005947413804682298,
      "loss": 1.9361,
      "step": 5382
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41637229919433594,
      "learning_rate": 0.0005947394318677236,
      "loss": 1.7514,
      "step": 5383
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.449113667011261,
      "learning_rate": 0.000594737482909447,
      "loss": 1.8879,
      "step": 5384
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.434436172246933,
      "learning_rate": 0.0005947355335934026,
      "loss": 1.8535,
      "step": 5385
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43189606070518494,
      "learning_rate": 0.0005947335839195928,
      "loss": 1.8968,
      "step": 5386
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4426405429840088,
      "learning_rate": 0.0005947316338880197,
      "loss": 1.8565,
      "step": 5387
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4394357204437256,
      "learning_rate": 0.0005947296834986858,
      "loss": 1.7307,
      "step": 5388
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4304928183555603,
      "learning_rate": 0.0005947277327515935,
      "loss": 1.8656,
      "step": 5389
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4190187454223633,
      "learning_rate": 0.0005947257816467453,
      "loss": 1.7951,
      "step": 5390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4384046792984009,
      "learning_rate": 0.0005947238301841433,
      "loss": 1.9191,
      "step": 5391
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4420701265335083,
      "learning_rate": 0.0005947218783637901,
      "loss": 1.8565,
      "step": 5392
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4395548403263092,
      "learning_rate": 0.0005947199261856879,
      "loss": 1.9048,
      "step": 5393
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43655458092689514,
      "learning_rate": 0.0005947179736498392,
      "loss": 1.9291,
      "step": 5394
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4127989411354065,
      "learning_rate": 0.0005947160207562461,
      "loss": 1.7998,
      "step": 5395
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44147175550460815,
      "learning_rate": 0.0005947140675049114,
      "loss": 1.8627,
      "step": 5396
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42928001284599304,
      "learning_rate": 0.0005947121138958373,
      "loss": 1.866,
      "step": 5397
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44736582040786743,
      "learning_rate": 0.0005947101599290259,
      "loss": 1.8592,
      "step": 5398
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41671222448349,
      "learning_rate": 0.00059470820560448,
      "loss": 1.8191,
      "step": 5399
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43357235193252563,
      "learning_rate": 0.0005947062509222015,
      "loss": 1.8083,
      "step": 5400
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43764060735702515,
      "learning_rate": 0.0005947042958821931,
      "loss": 1.8642,
      "step": 5401
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4287860095500946,
      "learning_rate": 0.0005947023404844573,
      "loss": 1.8689,
      "step": 5402
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4569835960865021,
      "learning_rate": 0.0005947003847289961,
      "loss": 2.0081,
      "step": 5403
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42752426862716675,
      "learning_rate": 0.0005946984286158121,
      "loss": 1.8531,
      "step": 5404
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.420890748500824,
      "learning_rate": 0.0005946964721449077,
      "loss": 1.814,
      "step": 5405
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4405428469181061,
      "learning_rate": 0.0005946945153162851,
      "loss": 1.8359,
      "step": 5406
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42129820585250854,
      "learning_rate": 0.0005946925581299468,
      "loss": 1.8362,
      "step": 5407
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41742730140686035,
      "learning_rate": 0.0005946906005858952,
      "loss": 1.8483,
      "step": 5408
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.434253454208374,
      "learning_rate": 0.0005946886426841326,
      "loss": 1.7982,
      "step": 5409
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.40721049904823303,
      "learning_rate": 0.0005946866844246613,
      "loss": 1.8088,
      "step": 5410
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43018990755081177,
      "learning_rate": 0.000594684725807484,
      "loss": 1.8536,
      "step": 5411
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42477622628211975,
      "learning_rate": 0.0005946827668326028,
      "loss": 1.7858,
      "step": 5412
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43569114804267883,
      "learning_rate": 0.0005946808075000201,
      "loss": 1.8788,
      "step": 5413
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.427805632352829,
      "learning_rate": 0.0005946788478097383,
      "loss": 1.8602,
      "step": 5414
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4219866096973419,
      "learning_rate": 0.0005946768877617599,
      "loss": 1.7903,
      "step": 5415
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44366195797920227,
      "learning_rate": 0.0005946749273560871,
      "loss": 1.9153,
      "step": 5416
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42611145973205566,
      "learning_rate": 0.0005946729665927224,
      "loss": 1.8566,
      "step": 5417
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41212424635887146,
      "learning_rate": 0.000594671005471668,
      "loss": 1.8642,
      "step": 5418
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4518905282020569,
      "learning_rate": 0.0005946690439929265,
      "loss": 1.877,
      "step": 5419
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42766761779785156,
      "learning_rate": 0.0005946670821565002,
      "loss": 1.837,
      "step": 5420
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43622010946273804,
      "learning_rate": 0.0005946651199623916,
      "loss": 1.8527,
      "step": 5421
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41488945484161377,
      "learning_rate": 0.0005946631574106028,
      "loss": 1.8384,
      "step": 5422
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4233488440513611,
      "learning_rate": 0.0005946611945011365,
      "loss": 1.8546,
      "step": 5423
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4416346251964569,
      "learning_rate": 0.0005946592312339947,
      "loss": 1.8173,
      "step": 5424
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41746723651885986,
      "learning_rate": 0.0005946572676091801,
      "loss": 1.8809,
      "step": 5425
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4231848418712616,
      "learning_rate": 0.0005946553036266951,
      "loss": 1.8971,
      "step": 5426
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4353017210960388,
      "learning_rate": 0.0005946533392865419,
      "loss": 1.8991,
      "step": 5427
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45345035195350647,
      "learning_rate": 0.000594651374588723,
      "loss": 1.9458,
      "step": 5428
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42450371384620667,
      "learning_rate": 0.0005946494095332407,
      "loss": 1.8366,
      "step": 5429
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4279319941997528,
      "learning_rate": 0.0005946474441200974,
      "loss": 1.8458,
      "step": 5430
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.47221189737319946,
      "learning_rate": 0.0005946454783492956,
      "loss": 1.879,
      "step": 5431
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44652119278907776,
      "learning_rate": 0.0005946435122208375,
      "loss": 1.8624,
      "step": 5432
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4211235046386719,
      "learning_rate": 0.0005946415457347257,
      "loss": 1.8135,
      "step": 5433
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.47094663977622986,
      "learning_rate": 0.0005946395788909624,
      "loss": 1.859,
      "step": 5434
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44393402338027954,
      "learning_rate": 0.0005946376116895501,
      "loss": 1.8391,
      "step": 5435
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4167201817035675,
      "learning_rate": 0.0005946356441304911,
      "loss": 1.833,
      "step": 5436
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4611132740974426,
      "learning_rate": 0.0005946336762137879,
      "loss": 1.9098,
      "step": 5437
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4482068717479706,
      "learning_rate": 0.0005946317079394427,
      "loss": 1.887,
      "step": 5438
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4459485709667206,
      "learning_rate": 0.0005946297393074583,
      "loss": 1.8659,
      "step": 5439
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45608824491500854,
      "learning_rate": 0.0005946277703178366,
      "loss": 1.9478,
      "step": 5440
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4422398805618286,
      "learning_rate": 0.0005946258009705802,
      "loss": 1.9016,
      "step": 5441
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44072580337524414,
      "learning_rate": 0.0005946238312656916,
      "loss": 1.8861,
      "step": 5442
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4242158830165863,
      "learning_rate": 0.0005946218612031729,
      "loss": 1.835,
      "step": 5443
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43739572167396545,
      "learning_rate": 0.0005946198907830268,
      "loss": 1.804,
      "step": 5444
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41563454270362854,
      "learning_rate": 0.0005946179200052555,
      "loss": 1.8225,
      "step": 5445
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4192143678665161,
      "learning_rate": 0.0005946159488698615,
      "loss": 1.811,
      "step": 5446
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44065549969673157,
      "learning_rate": 0.0005946139773768471,
      "loss": 1.867,
      "step": 5447
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.434818834066391,
      "learning_rate": 0.0005946120055262149,
      "loss": 1.8275,
      "step": 5448
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42883914709091187,
      "learning_rate": 0.000594610033317967,
      "loss": 1.819,
      "step": 5449
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4262778162956238,
      "learning_rate": 0.000594608060752106,
      "loss": 1.8433,
      "step": 5450
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42616039514541626,
      "learning_rate": 0.000594606087828634,
      "loss": 1.8741,
      "step": 5451
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43490681052207947,
      "learning_rate": 0.0005946041145475538,
      "loss": 1.8866,
      "step": 5452
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4278579354286194,
      "learning_rate": 0.0005946021409088676,
      "loss": 1.8414,
      "step": 5453
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42560532689094543,
      "learning_rate": 0.0005946001669125779,
      "loss": 1.959,
      "step": 5454
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42386049032211304,
      "learning_rate": 0.0005945981925586869,
      "loss": 1.9345,
      "step": 5455
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4357093572616577,
      "learning_rate": 0.0005945962178471971,
      "loss": 1.9347,
      "step": 5456
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43482208251953125,
      "learning_rate": 0.0005945942427781109,
      "loss": 1.8189,
      "step": 5457
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42757803201675415,
      "learning_rate": 0.0005945922673514307,
      "loss": 1.8585,
      "step": 5458
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41290348768234253,
      "learning_rate": 0.0005945902915671589,
      "loss": 1.8529,
      "step": 5459
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43443548679351807,
      "learning_rate": 0.0005945883154252979,
      "loss": 1.8082,
      "step": 5460
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4388372004032135,
      "learning_rate": 0.0005945863389258501,
      "loss": 1.9033,
      "step": 5461
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41370412707328796,
      "learning_rate": 0.0005945843620688179,
      "loss": 1.9086,
      "step": 5462
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41871359944343567,
      "learning_rate": 0.0005945823848542036,
      "loss": 1.8358,
      "step": 5463
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44677746295928955,
      "learning_rate": 0.0005945804072820098,
      "loss": 1.8811,
      "step": 5464
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.440789133310318,
      "learning_rate": 0.0005945784293522387,
      "loss": 1.9187,
      "step": 5465
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4287923574447632,
      "learning_rate": 0.0005945764510648929,
      "loss": 1.9764,
      "step": 5466
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43384966254234314,
      "learning_rate": 0.0005945744724199746,
      "loss": 1.8203,
      "step": 5467
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4451068043708801,
      "learning_rate": 0.0005945724934174863,
      "loss": 1.9735,
      "step": 5468
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44395315647125244,
      "learning_rate": 0.0005945705140574304,
      "loss": 1.9192,
      "step": 5469
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4270083010196686,
      "learning_rate": 0.0005945685343398093,
      "loss": 1.8346,
      "step": 5470
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43703728914260864,
      "learning_rate": 0.0005945665542646254,
      "loss": 1.9602,
      "step": 5471
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4506227970123291,
      "learning_rate": 0.0005945645738318812,
      "loss": 1.9007,
      "step": 5472
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42707133293151855,
      "learning_rate": 0.0005945625930415789,
      "loss": 1.8083,
      "step": 5473
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4194985330104828,
      "learning_rate": 0.0005945606118937211,
      "loss": 1.7719,
      "step": 5474
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42602038383483887,
      "learning_rate": 0.00059455863038831,
      "loss": 1.8279,
      "step": 5475
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43870633840560913,
      "learning_rate": 0.0005945566485253482,
      "loss": 1.8612,
      "step": 5476
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4386656880378723,
      "learning_rate": 0.000594554666304838,
      "loss": 1.8765,
      "step": 5477
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4376663267612457,
      "learning_rate": 0.0005945526837267818,
      "loss": 1.8753,
      "step": 5478
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4195145070552826,
      "learning_rate": 0.0005945507007911821,
      "loss": 1.9068,
      "step": 5479
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4857683777809143,
      "learning_rate": 0.0005945487174980413,
      "loss": 1.9273,
      "step": 5480
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4458085000514984,
      "learning_rate": 0.0005945467338473617,
      "loss": 1.8348,
      "step": 5481
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4367511570453644,
      "learning_rate": 0.0005945447498391458,
      "loss": 1.8498,
      "step": 5482
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42784324288368225,
      "learning_rate": 0.0005945427654733959,
      "loss": 1.8118,
      "step": 5483
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4183720052242279,
      "learning_rate": 0.0005945407807501146,
      "loss": 1.9234,
      "step": 5484
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42261838912963867,
      "learning_rate": 0.000594538795669304,
      "loss": 1.8167,
      "step": 5485
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42685407400131226,
      "learning_rate": 0.0005945368102309668,
      "loss": 1.8172,
      "step": 5486
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45109355449676514,
      "learning_rate": 0.0005945348244351053,
      "loss": 1.8461,
      "step": 5487
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44418251514434814,
      "learning_rate": 0.000594532838281722,
      "loss": 1.9143,
      "step": 5488
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42269065976142883,
      "learning_rate": 0.0005945308517708191,
      "loss": 1.8618,
      "step": 5489
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43807634711265564,
      "learning_rate": 0.0005945288649023994,
      "loss": 1.8507,
      "step": 5490
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43130478262901306,
      "learning_rate": 0.0005945268776764648,
      "loss": 1.7756,
      "step": 5491
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.439557284116745,
      "learning_rate": 0.000594524890093018,
      "loss": 1.9517,
      "step": 5492
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41948768496513367,
      "learning_rate": 0.0005945229021520614,
      "loss": 1.8185,
      "step": 5493
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4338656961917877,
      "learning_rate": 0.0005945209138535975,
      "loss": 1.8691,
      "step": 5494
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4133392572402954,
      "learning_rate": 0.0005945189251976284,
      "loss": 1.7964,
      "step": 5495
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41839608550071716,
      "learning_rate": 0.0005945169361841569,
      "loss": 1.8084,
      "step": 5496
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4243858754634857,
      "learning_rate": 0.0005945149468131851,
      "loss": 1.8146,
      "step": 5497
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4212396442890167,
      "learning_rate": 0.0005945129570847157,
      "loss": 1.8548,
      "step": 5498
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41969746351242065,
      "learning_rate": 0.0005945109669987508,
      "loss": 1.8449,
      "step": 5499
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43309205770492554,
      "learning_rate": 0.0005945089765552931,
      "loss": 1.8383,
      "step": 5500
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4324241280555725,
      "learning_rate": 0.0005945069857543449,
      "loss": 1.8139,
      "step": 5501
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4294273257255554,
      "learning_rate": 0.0005945049945959086,
      "loss": 1.8645,
      "step": 5502
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43184173107147217,
      "learning_rate": 0.0005945030030799866,
      "loss": 1.8897,
      "step": 5503
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42830654978752136,
      "learning_rate": 0.0005945010112065813,
      "loss": 1.9214,
      "step": 5504
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4225163459777832,
      "learning_rate": 0.0005944990189756952,
      "loss": 1.8679,
      "step": 5505
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45428311824798584,
      "learning_rate": 0.0005944970263873307,
      "loss": 1.8991,
      "step": 5506
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.46065661311149597,
      "learning_rate": 0.0005944950334414903,
      "loss": 1.8362,
      "step": 5507
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4233579635620117,
      "learning_rate": 0.0005944930401381762,
      "loss": 1.9041,
      "step": 5508
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44455018639564514,
      "learning_rate": 0.000594491046477391,
      "loss": 1.8233,
      "step": 5509
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44866225123405457,
      "learning_rate": 0.000594489052459137,
      "loss": 1.9231,
      "step": 5510
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43572041392326355,
      "learning_rate": 0.0005944870580834166,
      "loss": 1.9016,
      "step": 5511
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4488879442214966,
      "learning_rate": 0.0005944850633502325,
      "loss": 1.8259,
      "step": 5512
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42705288529396057,
      "learning_rate": 0.0005944830682595868,
      "loss": 1.8257,
      "step": 5513
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44255948066711426,
      "learning_rate": 0.0005944810728114821,
      "loss": 1.943,
      "step": 5514
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4318524897098541,
      "learning_rate": 0.0005944790770059207,
      "loss": 1.8543,
      "step": 5515
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42007195949554443,
      "learning_rate": 0.0005944770808429052,
      "loss": 1.8765,
      "step": 5516
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42505449056625366,
      "learning_rate": 0.0005944750843224378,
      "loss": 1.9103,
      "step": 5517
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42696452140808105,
      "learning_rate": 0.0005944730874445211,
      "loss": 1.7925,
      "step": 5518
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43000686168670654,
      "learning_rate": 0.0005944710902091575,
      "loss": 1.9684,
      "step": 5519
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4273099899291992,
      "learning_rate": 0.0005944690926163493,
      "loss": 1.9921,
      "step": 5520
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45516103506088257,
      "learning_rate": 0.0005944670946660991,
      "loss": 1.8279,
      "step": 5521
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43237200379371643,
      "learning_rate": 0.0005944650963584091,
      "loss": 1.8881,
      "step": 5522
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4250396490097046,
      "learning_rate": 0.0005944630976932819,
      "loss": 1.8916,
      "step": 5523
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45507457852363586,
      "learning_rate": 0.0005944610986707199,
      "loss": 1.762,
      "step": 5524
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4280977249145508,
      "learning_rate": 0.0005944590992907256,
      "loss": 1.8252,
      "step": 5525
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43756234645843506,
      "learning_rate": 0.0005944570995533012,
      "loss": 1.8789,
      "step": 5526
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4389629662036896,
      "learning_rate": 0.0005944550994584493,
      "loss": 1.8592,
      "step": 5527
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42843326926231384,
      "learning_rate": 0.0005944530990061724,
      "loss": 1.8959,
      "step": 5528
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4199795126914978,
      "learning_rate": 0.0005944510981964728,
      "loss": 1.8515,
      "step": 5529
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43785372376441956,
      "learning_rate": 0.0005944490970293529,
      "loss": 1.8858,
      "step": 5530
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4399960935115814,
      "learning_rate": 0.0005944470955048152,
      "loss": 1.8294,
      "step": 5531
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4255189001560211,
      "learning_rate": 0.000594445093622862,
      "loss": 1.9091,
      "step": 5532
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4411734640598297,
      "learning_rate": 0.000594443091383496,
      "loss": 1.8992,
      "step": 5533
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41283440589904785,
      "learning_rate": 0.0005944410887867194,
      "loss": 1.8183,
      "step": 5534
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41764140129089355,
      "learning_rate": 0.0005944390858325346,
      "loss": 1.8775,
      "step": 5535
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4142928421497345,
      "learning_rate": 0.0005944370825209444,
      "loss": 1.8401,
      "step": 5536
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4278629720211029,
      "learning_rate": 0.0005944350788519508,
      "loss": 1.9341,
      "step": 5537
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44492024183273315,
      "learning_rate": 0.0005944330748255563,
      "loss": 1.887,
      "step": 5538
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4356498718261719,
      "learning_rate": 0.0005944310704417636,
      "loss": 1.8734,
      "step": 5539
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4343706965446472,
      "learning_rate": 0.0005944290657005749,
      "loss": 1.8512,
      "step": 5540
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43663230538368225,
      "learning_rate": 0.0005944270606019927,
      "loss": 1.8411,
      "step": 5541
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43668854236602783,
      "learning_rate": 0.0005944250551460196,
      "loss": 1.9345,
      "step": 5542
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4375258982181549,
      "learning_rate": 0.0005944230493326576,
      "loss": 1.844,
      "step": 5543
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45178917050361633,
      "learning_rate": 0.0005944210431619095,
      "loss": 1.8327,
      "step": 5544
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4187440574169159,
      "learning_rate": 0.0005944190366337776,
      "loss": 1.8758,
      "step": 5545
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4249556064605713,
      "learning_rate": 0.0005944170297482644,
      "loss": 1.8149,
      "step": 5546
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4395832419395447,
      "learning_rate": 0.0005944150225053724,
      "loss": 1.8719,
      "step": 5547
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.418826162815094,
      "learning_rate": 0.0005944130149051038,
      "loss": 1.7834,
      "step": 5548
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42945826053619385,
      "learning_rate": 0.0005944110069474613,
      "loss": 1.8037,
      "step": 5549
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4241584241390228,
      "learning_rate": 0.0005944089986324471,
      "loss": 1.8933,
      "step": 5550
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43044978380203247,
      "learning_rate": 0.0005944069899600637,
      "loss": 1.798,
      "step": 5551
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42733174562454224,
      "learning_rate": 0.0005944049809303137,
      "loss": 1.8766,
      "step": 5552
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.417174756526947,
      "learning_rate": 0.0005944029715431995,
      "loss": 1.8029,
      "step": 5553
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4195585250854492,
      "learning_rate": 0.0005944009617987234,
      "loss": 1.837,
      "step": 5554
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42606663703918457,
      "learning_rate": 0.0005943989516968879,
      "loss": 1.8794,
      "step": 5555
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4218670427799225,
      "learning_rate": 0.0005943969412376955,
      "loss": 1.843,
      "step": 5556
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4140489399433136,
      "learning_rate": 0.0005943949304211485,
      "loss": 1.8646,
      "step": 5557
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4240570664405823,
      "learning_rate": 0.0005943929192472495,
      "loss": 1.9264,
      "step": 5558
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43601831793785095,
      "learning_rate": 0.0005943909077160009,
      "loss": 1.873,
      "step": 5559
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.425873339176178,
      "learning_rate": 0.000594388895827405,
      "loss": 1.8717,
      "step": 5560
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4512084424495697,
      "learning_rate": 0.0005943868835814644,
      "loss": 1.8993,
      "step": 5561
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42770683765411377,
      "learning_rate": 0.0005943848709781815,
      "loss": 1.8522,
      "step": 5562
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4316290616989136,
      "learning_rate": 0.0005943828580175588,
      "loss": 1.8805,
      "step": 5563
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43618425726890564,
      "learning_rate": 0.0005943808446995986,
      "loss": 1.8946,
      "step": 5564
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4405818581581116,
      "learning_rate": 0.0005943788310243035,
      "loss": 1.9648,
      "step": 5565
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.46845555305480957,
      "learning_rate": 0.0005943768169916759,
      "loss": 1.7975,
      "step": 5566
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41555261611938477,
      "learning_rate": 0.0005943748026017181,
      "loss": 1.8735,
      "step": 5567
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4212903082370758,
      "learning_rate": 0.0005943727878544328,
      "loss": 1.8621,
      "step": 5568
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4206704795360565,
      "learning_rate": 0.0005943707727498222,
      "loss": 1.8352,
      "step": 5569
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43606871366500854,
      "learning_rate": 0.0005943687572878889,
      "loss": 1.9237,
      "step": 5570
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4296630620956421,
      "learning_rate": 0.0005943667414686353,
      "loss": 1.8781,
      "step": 5571
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42859169840812683,
      "learning_rate": 0.0005943647252920639,
      "loss": 1.8658,
      "step": 5572
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44329363107681274,
      "learning_rate": 0.000594362708758177,
      "loss": 1.9126,
      "step": 5573
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4268266260623932,
      "learning_rate": 0.0005943606918669772,
      "loss": 1.8119,
      "step": 5574
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42300114035606384,
      "learning_rate": 0.0005943586746184669,
      "loss": 1.8911,
      "step": 5575
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43222320079803467,
      "learning_rate": 0.0005943566570126486,
      "loss": 1.8558,
      "step": 5576
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42497336864471436,
      "learning_rate": 0.0005943546390495245,
      "loss": 1.8813,
      "step": 5577
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42159414291381836,
      "learning_rate": 0.0005943526207290974,
      "loss": 1.8512,
      "step": 5578
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4233425557613373,
      "learning_rate": 0.0005943506020513695,
      "loss": 1.8909,
      "step": 5579
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4533044993877411,
      "learning_rate": 0.0005943485830163434,
      "loss": 1.8259,
      "step": 5580
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43020084500312805,
      "learning_rate": 0.0005943465636240215,
      "loss": 1.8749,
      "step": 5581
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4349452555179596,
      "learning_rate": 0.0005943445438744062,
      "loss": 1.9212,
      "step": 5582
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4781108498573303,
      "learning_rate": 0.0005943425237675001,
      "loss": 1.9051,
      "step": 5583
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42112666368484497,
      "learning_rate": 0.0005943405033033053,
      "loss": 1.8673,
      "step": 5584
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44317954778671265,
      "learning_rate": 0.0005943384824818247,
      "loss": 1.796,
      "step": 5585
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44700345396995544,
      "learning_rate": 0.0005943364613030605,
      "loss": 1.7774,
      "step": 5586
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4220917224884033,
      "learning_rate": 0.0005943344397670152,
      "loss": 1.8581,
      "step": 5587
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43472254276275635,
      "learning_rate": 0.0005943324178736913,
      "loss": 1.8428,
      "step": 5588
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4458436071872711,
      "learning_rate": 0.0005943303956230912,
      "loss": 1.9642,
      "step": 5589
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45185837149620056,
      "learning_rate": 0.0005943283730152173,
      "loss": 1.9704,
      "step": 5590
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4384869337081909,
      "learning_rate": 0.0005943263500500722,
      "loss": 1.8841,
      "step": 5591
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42744916677474976,
      "learning_rate": 0.0005943243267276582,
      "loss": 1.8035,
      "step": 5592
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4360021650791168,
      "learning_rate": 0.0005943223030479779,
      "loss": 1.8335,
      "step": 5593
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4087563753128052,
      "learning_rate": 0.0005943202790110336,
      "loss": 1.8103,
      "step": 5594
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42129552364349365,
      "learning_rate": 0.000594318254616828,
      "loss": 1.826,
      "step": 5595
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43730977177619934,
      "learning_rate": 0.0005943162298653633,
      "loss": 1.8581,
      "step": 5596
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4282667338848114,
      "learning_rate": 0.0005943142047566421,
      "loss": 1.9298,
      "step": 5597
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4403906464576721,
      "learning_rate": 0.0005943121792906668,
      "loss": 1.8237,
      "step": 5598
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4558810591697693,
      "learning_rate": 0.00059431015346744,
      "loss": 1.8209,
      "step": 5599
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4247404932975769,
      "learning_rate": 0.0005943081272869638,
      "loss": 1.814,
      "step": 5600
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44157490134239197,
      "learning_rate": 0.000594306100749241,
      "loss": 1.8982,
      "step": 5601
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4564712941646576,
      "learning_rate": 0.000594304073854274,
      "loss": 1.8758,
      "step": 5602
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41955995559692383,
      "learning_rate": 0.0005943020466020652,
      "loss": 1.8923,
      "step": 5603
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4328061640262604,
      "learning_rate": 0.0005943000189926171,
      "loss": 1.8488,
      "step": 5604
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42392417788505554,
      "learning_rate": 0.000594297991025932,
      "loss": 1.8432,
      "step": 5605
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4263667166233063,
      "learning_rate": 0.0005942959627020127,
      "loss": 1.8989,
      "step": 5606
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43123432993888855,
      "learning_rate": 0.0005942939340208614,
      "loss": 1.7866,
      "step": 5607
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42320314049720764,
      "learning_rate": 0.0005942919049824805,
      "loss": 1.8829,
      "step": 5608
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4345702826976776,
      "learning_rate": 0.0005942898755868728,
      "loss": 1.8511,
      "step": 5609
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42634761333465576,
      "learning_rate": 0.0005942878458340404,
      "loss": 1.8906,
      "step": 5610
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.46394985914230347,
      "learning_rate": 0.000594285815723986,
      "loss": 1.7731,
      "step": 5611
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.47208189964294434,
      "learning_rate": 0.000594283785256712,
      "loss": 1.8369,
      "step": 5612
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4219071865081787,
      "learning_rate": 0.0005942817544322208,
      "loss": 1.9153,
      "step": 5613
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42782771587371826,
      "learning_rate": 0.0005942797232505149,
      "loss": 1.8214,
      "step": 5614
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4251365065574646,
      "learning_rate": 0.0005942776917115967,
      "loss": 1.8089,
      "step": 5615
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.49406898021698,
      "learning_rate": 0.0005942756598154688,
      "loss": 1.9196,
      "step": 5616
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4171871244907379,
      "learning_rate": 0.0005942736275621336,
      "loss": 1.775,
      "step": 5617
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4594571590423584,
      "learning_rate": 0.0005942715949515937,
      "loss": 1.891,
      "step": 5618
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4624512195587158,
      "learning_rate": 0.0005942695619838513,
      "loss": 1.8416,
      "step": 5619
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43119850754737854,
      "learning_rate": 0.000594267528658909,
      "loss": 1.8723,
      "step": 5620
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4396075904369354,
      "learning_rate": 0.0005942654949767694,
      "loss": 1.8588,
      "step": 5621
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4358716607093811,
      "learning_rate": 0.0005942634609374347,
      "loss": 1.7632,
      "step": 5622
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42858952283859253,
      "learning_rate": 0.0005942614265409077,
      "loss": 1.7938,
      "step": 5623
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4197608232498169,
      "learning_rate": 0.0005942593917871906,
      "loss": 1.8384,
      "step": 5624
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44569501280784607,
      "learning_rate": 0.0005942573566762859,
      "loss": 1.8543,
      "step": 5625
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4354418218135834,
      "learning_rate": 0.0005942553212081962,
      "loss": 1.8153,
      "step": 5626
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4166286885738373,
      "learning_rate": 0.0005942532853829239,
      "loss": 1.8191,
      "step": 5627
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42424049973487854,
      "learning_rate": 0.0005942512492004713,
      "loss": 1.7605,
      "step": 5628
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4566083252429962,
      "learning_rate": 0.0005942492126608412,
      "loss": 1.8677,
      "step": 5629
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45981356501579285,
      "learning_rate": 0.0005942471757640359,
      "loss": 1.9335,
      "step": 5630
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41785043478012085,
      "learning_rate": 0.0005942451385100579,
      "loss": 1.7985,
      "step": 5631
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4462570250034332,
      "learning_rate": 0.0005942431008989096,
      "loss": 1.8602,
      "step": 5632
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4343875050544739,
      "learning_rate": 0.0005942410629305935,
      "loss": 1.8183,
      "step": 5633
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43830493092536926,
      "learning_rate": 0.0005942390246051121,
      "loss": 1.853,
      "step": 5634
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45830240845680237,
      "learning_rate": 0.000594236985922468,
      "loss": 1.8774,
      "step": 5635
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4236375093460083,
      "learning_rate": 0.0005942349468826634,
      "loss": 1.8685,
      "step": 5636
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4120873212814331,
      "learning_rate": 0.0005942329074857012,
      "loss": 1.8265,
      "step": 5637
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4471563994884491,
      "learning_rate": 0.0005942308677315833,
      "loss": 1.8006,
      "step": 5638
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44930779933929443,
      "learning_rate": 0.0005942288276203127,
      "loss": 1.7594,
      "step": 5639
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4308475852012634,
      "learning_rate": 0.0005942267871518915,
      "loss": 1.8623,
      "step": 5640
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4707956314086914,
      "learning_rate": 0.0005942247463263223,
      "loss": 1.845,
      "step": 5641
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4181397259235382,
      "learning_rate": 0.0005942227051436077,
      "loss": 1.8459,
      "step": 5642
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41769808530807495,
      "learning_rate": 0.0005942206636037501,
      "loss": 1.8111,
      "step": 5643
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4075907766819,
      "learning_rate": 0.000594218621706752,
      "loss": 1.8367,
      "step": 5644
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4326830804347992,
      "learning_rate": 0.0005942165794526158,
      "loss": 1.8143,
      "step": 5645
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41639548540115356,
      "learning_rate": 0.000594214536841344,
      "loss": 1.8392,
      "step": 5646
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4256088435649872,
      "learning_rate": 0.0005942124938729391,
      "loss": 1.8486,
      "step": 5647
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42011892795562744,
      "learning_rate": 0.0005942104505474036,
      "loss": 1.8073,
      "step": 5648
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4428239166736603,
      "learning_rate": 0.00059420840686474,
      "loss": 1.8221,
      "step": 5649
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4173506796360016,
      "learning_rate": 0.0005942063628249508,
      "loss": 1.8773,
      "step": 5650
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4334050118923187,
      "learning_rate": 0.0005942043184280381,
      "loss": 1.8564,
      "step": 5651
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4396630823612213,
      "learning_rate": 0.000594202273674005,
      "loss": 1.8561,
      "step": 5652
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4216466248035431,
      "learning_rate": 0.0005942002285628537,
      "loss": 1.8322,
      "step": 5653
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4231053590774536,
      "learning_rate": 0.0005941981830945866,
      "loss": 1.8347,
      "step": 5654
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43815702199935913,
      "learning_rate": 0.0005941961372692063,
      "loss": 1.9467,
      "step": 5655
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4310005009174347,
      "learning_rate": 0.0005941940910867151,
      "loss": 1.8456,
      "step": 5656
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4202611446380615,
      "learning_rate": 0.0005941920445471158,
      "loss": 1.8257,
      "step": 5657
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.455468088388443,
      "learning_rate": 0.0005941899976504105,
      "loss": 1.8111,
      "step": 5658
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42906033992767334,
      "learning_rate": 0.0005941879503966021,
      "loss": 1.9349,
      "step": 5659
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43586352467536926,
      "learning_rate": 0.0005941859027856927,
      "loss": 1.8018,
      "step": 5660
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4395349323749542,
      "learning_rate": 0.000594183854817685,
      "loss": 1.9187,
      "step": 5661
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4324524998664856,
      "learning_rate": 0.0005941818064925815,
      "loss": 1.8327,
      "step": 5662
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4212287366390228,
      "learning_rate": 0.0005941797578103847,
      "loss": 1.859,
      "step": 5663
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.451378732919693,
      "learning_rate": 0.0005941777087710969,
      "loss": 1.8632,
      "step": 5664
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4303475320339203,
      "learning_rate": 0.0005941756593747207,
      "loss": 1.862,
      "step": 5665
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4261172115802765,
      "learning_rate": 0.0005941736096212587,
      "loss": 1.779,
      "step": 5666
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4425869584083557,
      "learning_rate": 0.0005941715595107133,
      "loss": 1.9227,
      "step": 5667
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43124067783355713,
      "learning_rate": 0.0005941695090430868,
      "loss": 1.8066,
      "step": 5668
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41580042243003845,
      "learning_rate": 0.0005941674582183819,
      "loss": 1.8469,
      "step": 5669
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4190828800201416,
      "learning_rate": 0.0005941654070366012,
      "loss": 1.7986,
      "step": 5670
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41780683398246765,
      "learning_rate": 0.0005941633554977469,
      "loss": 1.7921,
      "step": 5671
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45144063234329224,
      "learning_rate": 0.0005941613036018216,
      "loss": 1.8366,
      "step": 5672
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4189049303531647,
      "learning_rate": 0.000594159251348828,
      "loss": 1.8444,
      "step": 5673
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4105575680732727,
      "learning_rate": 0.0005941571987387683,
      "loss": 1.8205,
      "step": 5674
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4281264543533325,
      "learning_rate": 0.000594155145771645,
      "loss": 1.847,
      "step": 5675
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45097625255584717,
      "learning_rate": 0.0005941530924474609,
      "loss": 1.8953,
      "step": 5676
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4416786730289459,
      "learning_rate": 0.0005941510387662181,
      "loss": 1.9182,
      "step": 5677
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4275834262371063,
      "learning_rate": 0.0005941489847279194,
      "loss": 1.884,
      "step": 5678
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42112550139427185,
      "learning_rate": 0.0005941469303325671,
      "loss": 1.9112,
      "step": 5679
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44220930337905884,
      "learning_rate": 0.0005941448755801638,
      "loss": 1.9206,
      "step": 5680
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4227997362613678,
      "learning_rate": 0.000594142820470712,
      "loss": 1.8653,
      "step": 5681
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4265611171722412,
      "learning_rate": 0.0005941407650042142,
      "loss": 1.8287,
      "step": 5682
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43460381031036377,
      "learning_rate": 0.0005941387091806727,
      "loss": 1.8475,
      "step": 5683
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42720645666122437,
      "learning_rate": 0.0005941366530000902,
      "loss": 1.8451,
      "step": 5684
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4609851539134979,
      "learning_rate": 0.0005941345964624692,
      "loss": 1.9141,
      "step": 5685
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41559499502182007,
      "learning_rate": 0.000594132539567812,
      "loss": 1.7824,
      "step": 5686
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41189044713974,
      "learning_rate": 0.0005941304823161214,
      "loss": 1.8474,
      "step": 5687
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4496251046657562,
      "learning_rate": 0.0005941284247073996,
      "loss": 1.8538,
      "step": 5688
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4313250184059143,
      "learning_rate": 0.0005941263667416495,
      "loss": 1.8124,
      "step": 5689
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4265916645526886,
      "learning_rate": 0.000594124308418873,
      "loss": 1.8431,
      "step": 5690
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43894922733306885,
      "learning_rate": 0.000594122249739073,
      "loss": 1.8593,
      "step": 5691
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44159889221191406,
      "learning_rate": 0.000594120190702252,
      "loss": 1.9182,
      "step": 5692
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4462256133556366,
      "learning_rate": 0.0005941181313084124,
      "loss": 1.8421,
      "step": 5693
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42745065689086914,
      "learning_rate": 0.0005941160715575568,
      "loss": 1.8146,
      "step": 5694
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42519447207450867,
      "learning_rate": 0.0005941140114496875,
      "loss": 1.8931,
      "step": 5695
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42854782938957214,
      "learning_rate": 0.0005941119509848072,
      "loss": 1.8461,
      "step": 5696
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41634055972099304,
      "learning_rate": 0.0005941098901629183,
      "loss": 1.8969,
      "step": 5697
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4221244156360626,
      "learning_rate": 0.0005941078289840234,
      "loss": 1.8915,
      "step": 5698
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44440773129463196,
      "learning_rate": 0.0005941057674481248,
      "loss": 1.8993,
      "step": 5699
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41635701060295105,
      "learning_rate": 0.0005941037055552253,
      "loss": 1.8742,
      "step": 5700
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4181405305862427,
      "learning_rate": 0.0005941016433053271,
      "loss": 1.879,
      "step": 5701
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42739373445510864,
      "learning_rate": 0.0005940995806984329,
      "loss": 1.8423,
      "step": 5702
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4257744550704956,
      "learning_rate": 0.000594097517734545,
      "loss": 1.8679,
      "step": 5703
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.414864718914032,
      "learning_rate": 0.0005940954544136662,
      "loss": 1.77,
      "step": 5704
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42713019251823425,
      "learning_rate": 0.0005940933907357988,
      "loss": 1.9043,
      "step": 5705
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41807886958122253,
      "learning_rate": 0.0005940913267009454,
      "loss": 1.7778,
      "step": 5706
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43663549423217773,
      "learning_rate": 0.0005940892623091085,
      "loss": 1.8316,
      "step": 5707
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4071520268917084,
      "learning_rate": 0.0005940871975602905,
      "loss": 1.8379,
      "step": 5708
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4283962845802307,
      "learning_rate": 0.0005940851324544938,
      "loss": 1.8279,
      "step": 5709
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43624985218048096,
      "learning_rate": 0.0005940830669917213,
      "loss": 1.8252,
      "step": 5710
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4085600972175598,
      "learning_rate": 0.0005940810011719753,
      "loss": 1.7831,
      "step": 5711
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4115374684333801,
      "learning_rate": 0.0005940789349952582,
      "loss": 1.8335,
      "step": 5712
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41249004006385803,
      "learning_rate": 0.0005940768684615726,
      "loss": 1.8578,
      "step": 5713
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42078304290771484,
      "learning_rate": 0.0005940748015709212,
      "loss": 1.8651,
      "step": 5714
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43565964698791504,
      "learning_rate": 0.0005940727343233061,
      "loss": 1.778,
      "step": 5715
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42759349942207336,
      "learning_rate": 0.0005940706667187301,
      "loss": 1.8631,
      "step": 5716
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4668519198894501,
      "learning_rate": 0.0005940685987571956,
      "loss": 1.866,
      "step": 5717
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42926928400993347,
      "learning_rate": 0.0005940665304387052,
      "loss": 1.8699,
      "step": 5718
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41345104575157166,
      "learning_rate": 0.0005940644617632614,
      "loss": 1.7799,
      "step": 5719
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.434686541557312,
      "learning_rate": 0.0005940623927308666,
      "loss": 1.821,
      "step": 5720
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4287927448749542,
      "learning_rate": 0.0005940603233415235,
      "loss": 1.8509,
      "step": 5721
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41521313786506653,
      "learning_rate": 0.0005940582535952343,
      "loss": 1.8543,
      "step": 5722
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41310200095176697,
      "learning_rate": 0.0005940561834920018,
      "loss": 1.8351,
      "step": 5723
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4208786189556122,
      "learning_rate": 0.0005940541130318285,
      "loss": 1.8632,
      "step": 5724
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44201141595840454,
      "learning_rate": 0.0005940520422147167,
      "loss": 1.7979,
      "step": 5725
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4314010441303253,
      "learning_rate": 0.0005940499710406692,
      "loss": 1.7989,
      "step": 5726
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4091027081012726,
      "learning_rate": 0.0005940478995096882,
      "loss": 1.8275,
      "step": 5727
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44151571393013,
      "learning_rate": 0.0005940458276217765,
      "loss": 1.8372,
      "step": 5728
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4199172854423523,
      "learning_rate": 0.0005940437553769364,
      "loss": 1.8433,
      "step": 5729
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4185153841972351,
      "learning_rate": 0.0005940416827751706,
      "loss": 1.8899,
      "step": 5730
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4329478144645691,
      "learning_rate": 0.0005940396098164815,
      "loss": 1.8204,
      "step": 5731
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.426212877035141,
      "learning_rate": 0.0005940375365008716,
      "loss": 1.8386,
      "step": 5732
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4084719717502594,
      "learning_rate": 0.0005940354628283434,
      "loss": 1.8169,
      "step": 5733
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42084556818008423,
      "learning_rate": 0.0005940333887988995,
      "loss": 1.8999,
      "step": 5734
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4475133717060089,
      "learning_rate": 0.0005940313144125425,
      "loss": 1.8913,
      "step": 5735
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4175350069999695,
      "learning_rate": 0.0005940292396692747,
      "loss": 1.7434,
      "step": 5736
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4330393970012665,
      "learning_rate": 0.0005940271645690987,
      "loss": 1.8512,
      "step": 5737
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.40765780210494995,
      "learning_rate": 0.0005940250891120172,
      "loss": 1.8345,
      "step": 5738
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41497474908828735,
      "learning_rate": 0.0005940230132980324,
      "loss": 1.7736,
      "step": 5739
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41605818271636963,
      "learning_rate": 0.000594020937127147,
      "loss": 1.9031,
      "step": 5740
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4183341860771179,
      "learning_rate": 0.0005940188605993637,
      "loss": 1.8135,
      "step": 5741
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4237729012966156,
      "learning_rate": 0.0005940167837146847,
      "loss": 1.8797,
      "step": 5742
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4334384500980377,
      "learning_rate": 0.0005940147064731126,
      "loss": 1.8518,
      "step": 5743
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4237566292285919,
      "learning_rate": 0.0005940126288746499,
      "loss": 1.8119,
      "step": 5744
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4365551471710205,
      "learning_rate": 0.0005940105509192993,
      "loss": 1.8641,
      "step": 5745
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4600019156932831,
      "learning_rate": 0.0005940084726070632,
      "loss": 1.8949,
      "step": 5746
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43184515833854675,
      "learning_rate": 0.0005940063939379441,
      "loss": 1.8805,
      "step": 5747
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44916972517967224,
      "learning_rate": 0.0005940043149119446,
      "loss": 1.8652,
      "step": 5748
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41921618580818176,
      "learning_rate": 0.0005940022355290672,
      "loss": 1.867,
      "step": 5749
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4348784387111664,
      "learning_rate": 0.0005940001557893144,
      "loss": 1.8871,
      "step": 5750
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45665067434310913,
      "learning_rate": 0.0005939980756926888,
      "loss": 1.8476,
      "step": 5751
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42920830845832825,
      "learning_rate": 0.0005939959952391926,
      "loss": 1.9189,
      "step": 5752
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41561293601989746,
      "learning_rate": 0.0005939939144288288,
      "loss": 1.8896,
      "step": 5753
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4419461786746979,
      "learning_rate": 0.0005939918332615996,
      "loss": 1.8834,
      "step": 5754
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4404359757900238,
      "learning_rate": 0.0005939897517375077,
      "loss": 1.8403,
      "step": 5755
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41746658086776733,
      "learning_rate": 0.0005939876698565556,
      "loss": 1.847,
      "step": 5756
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43768584728240967,
      "learning_rate": 0.0005939855876187457,
      "loss": 1.7917,
      "step": 5757
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44334590435028076,
      "learning_rate": 0.0005939835050240807,
      "loss": 1.8204,
      "step": 5758
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4354963004589081,
      "learning_rate": 0.0005939814220725628,
      "loss": 1.8554,
      "step": 5759
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42702946066856384,
      "learning_rate": 0.000593979338764195,
      "loss": 1.9095,
      "step": 5760
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4556025564670563,
      "learning_rate": 0.0005939772550989796,
      "loss": 1.9122,
      "step": 5761
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4436844289302826,
      "learning_rate": 0.0005939751710769191,
      "loss": 1.8457,
      "step": 5762
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42688697576522827,
      "learning_rate": 0.000593973086698016,
      "loss": 1.8293,
      "step": 5763
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4371020197868347,
      "learning_rate": 0.0005939710019622729,
      "loss": 1.8339,
      "step": 5764
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43820977210998535,
      "learning_rate": 0.0005939689168696923,
      "loss": 1.92,
      "step": 5765
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43834370374679565,
      "learning_rate": 0.0005939668314202768,
      "loss": 1.7805,
      "step": 5766
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43952471017837524,
      "learning_rate": 0.0005939647456140288,
      "loss": 1.828,
      "step": 5767
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4378155767917633,
      "learning_rate": 0.0005939626594509511,
      "loss": 1.8931,
      "step": 5768
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41219401359558105,
      "learning_rate": 0.0005939605729310459,
      "loss": 1.8456,
      "step": 5769
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4532703757286072,
      "learning_rate": 0.0005939584860543159,
      "loss": 1.8965,
      "step": 5770
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4323948323726654,
      "learning_rate": 0.0005939563988207636,
      "loss": 1.8451,
      "step": 5771
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4156060516834259,
      "learning_rate": 0.0005939543112303916,
      "loss": 1.9133,
      "step": 5772
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41079220175743103,
      "learning_rate": 0.0005939522232832023,
      "loss": 1.8422,
      "step": 5773
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4222905933856964,
      "learning_rate": 0.0005939501349791984,
      "loss": 1.9179,
      "step": 5774
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41934096813201904,
      "learning_rate": 0.0005939480463183822,
      "loss": 1.8659,
      "step": 5775
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4256139397621155,
      "learning_rate": 0.0005939459573007565,
      "loss": 1.8845,
      "step": 5776
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4250096082687378,
      "learning_rate": 0.0005939438679263237,
      "loss": 1.7966,
      "step": 5777
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44157272577285767,
      "learning_rate": 0.0005939417781950863,
      "loss": 1.8577,
      "step": 5778
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4226475954055786,
      "learning_rate": 0.0005939396881070471,
      "loss": 1.9481,
      "step": 5779
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4305744171142578,
      "learning_rate": 0.0005939375976622081,
      "loss": 1.8802,
      "step": 5780
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4375111758708954,
      "learning_rate": 0.0005939355068605724,
      "loss": 1.879,
      "step": 5781
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43874022364616394,
      "learning_rate": 0.0005939334157021422,
      "loss": 1.8687,
      "step": 5782
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4336004853248596,
      "learning_rate": 0.0005939313241869203,
      "loss": 1.8159,
      "step": 5783
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42534059286117554,
      "learning_rate": 0.0005939292323149089,
      "loss": 1.8887,
      "step": 5784
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4233889877796173,
      "learning_rate": 0.0005939271400861107,
      "loss": 1.8427,
      "step": 5785
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4435238242149353,
      "learning_rate": 0.0005939250475005284,
      "loss": 1.8583,
      "step": 5786
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.448246568441391,
      "learning_rate": 0.0005939229545581644,
      "loss": 1.8755,
      "step": 5787
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4420647919178009,
      "learning_rate": 0.0005939208612590211,
      "loss": 1.8706,
      "step": 5788
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4347752332687378,
      "learning_rate": 0.0005939187676031013,
      "loss": 1.8878,
      "step": 5789
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4225591719150543,
      "learning_rate": 0.0005939166735904074,
      "loss": 1.8278,
      "step": 5790
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43069711327552795,
      "learning_rate": 0.0005939145792209419,
      "loss": 1.7409,
      "step": 5791
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41459792852401733,
      "learning_rate": 0.0005939124844947075,
      "loss": 1.8511,
      "step": 5792
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.40663960576057434,
      "learning_rate": 0.0005939103894117067,
      "loss": 1.7954,
      "step": 5793
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43674346804618835,
      "learning_rate": 0.0005939082939719418,
      "loss": 1.7782,
      "step": 5794
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4163051247596741,
      "learning_rate": 0.0005939061981754157,
      "loss": 1.8652,
      "step": 5795
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41856899857521057,
      "learning_rate": 0.0005939041020221307,
      "loss": 1.911,
      "step": 5796
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42843908071517944,
      "learning_rate": 0.0005939020055120894,
      "loss": 1.8406,
      "step": 5797
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4392285645008087,
      "learning_rate": 0.0005938999086452945,
      "loss": 1.8378,
      "step": 5798
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41693219542503357,
      "learning_rate": 0.0005938978114217483,
      "loss": 1.8617,
      "step": 5799
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43207380175590515,
      "learning_rate": 0.0005938957138414535,
      "loss": 1.9641,
      "step": 5800
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4109446704387665,
      "learning_rate": 0.0005938936159044126,
      "loss": 1.8405,
      "step": 5801
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.421413779258728,
      "learning_rate": 0.0005938915176106281,
      "loss": 1.7993,
      "step": 5802
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42995336651802063,
      "learning_rate": 0.0005938894189601027,
      "loss": 1.878,
      "step": 5803
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41002926230430603,
      "learning_rate": 0.0005938873199528387,
      "loss": 1.7849,
      "step": 5804
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41707223653793335,
      "learning_rate": 0.000593885220588839,
      "loss": 1.851,
      "step": 5805
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4122040569782257,
      "learning_rate": 0.0005938831208681058,
      "loss": 1.8017,
      "step": 5806
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42909955978393555,
      "learning_rate": 0.0005938810207906419,
      "loss": 1.835,
      "step": 5807
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4319581687450409,
      "learning_rate": 0.0005938789203564496,
      "loss": 1.8819,
      "step": 5808
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.421272337436676,
      "learning_rate": 0.0005938768195655318,
      "loss": 1.802,
      "step": 5809
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42141637206077576,
      "learning_rate": 0.0005938747184178906,
      "loss": 1.9039,
      "step": 5810
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4149225652217865,
      "learning_rate": 0.000593872616913529,
      "loss": 1.8277,
      "step": 5811
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4279979169368744,
      "learning_rate": 0.0005938705150524492,
      "loss": 1.8883,
      "step": 5812
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42204979062080383,
      "learning_rate": 0.0005938684128346539,
      "loss": 1.857,
      "step": 5813
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4136015772819519,
      "learning_rate": 0.0005938663102601457,
      "loss": 1.7826,
      "step": 5814
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43014901876449585,
      "learning_rate": 0.0005938642073289271,
      "loss": 1.8464,
      "step": 5815
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43272167444229126,
      "learning_rate": 0.0005938621040410005,
      "loss": 1.8692,
      "step": 5816
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42644941806793213,
      "learning_rate": 0.0005938600003963689,
      "loss": 1.8623,
      "step": 5817
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42853492498397827,
      "learning_rate": 0.0005938578963950344,
      "loss": 1.8122,
      "step": 5818
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41142570972442627,
      "learning_rate": 0.0005938557920369997,
      "loss": 1.828,
      "step": 5819
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.654485285282135,
      "learning_rate": 0.0005938536873222673,
      "loss": 1.9599,
      "step": 5820
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43442827463150024,
      "learning_rate": 0.0005938515822508399,
      "loss": 1.8264,
      "step": 5821
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4411887526512146,
      "learning_rate": 0.00059384947682272,
      "loss": 1.8838,
      "step": 5822
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41219475865364075,
      "learning_rate": 0.0005938473710379101,
      "loss": 1.8397,
      "step": 5823
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42137160897254944,
      "learning_rate": 0.0005938452648964128,
      "loss": 1.8799,
      "step": 5824
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4228063225746155,
      "learning_rate": 0.0005938431583982307,
      "loss": 1.9344,
      "step": 5825
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4277888536453247,
      "learning_rate": 0.0005938410515433662,
      "loss": 1.8498,
      "step": 5826
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.43058517575263977,
      "learning_rate": 0.000593838944331822,
      "loss": 1.8267,
      "step": 5827
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41285768151283264,
      "learning_rate": 0.0005938368367636006,
      "loss": 1.83,
      "step": 5828
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41980209946632385,
      "learning_rate": 0.0005938347288387046,
      "loss": 1.8465,
      "step": 5829
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4196935296058655,
      "learning_rate": 0.0005938326205571365,
      "loss": 1.8585,
      "step": 5830
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41630053520202637,
      "learning_rate": 0.0005938305119188989,
      "loss": 1.9587,
      "step": 5831
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41261929273605347,
      "learning_rate": 0.0005938284029239944,
      "loss": 1.8219,
      "step": 5832
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42066892981529236,
      "learning_rate": 0.0005938262935724255,
      "loss": 1.8497,
      "step": 5833
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4282466769218445,
      "learning_rate": 0.0005938241838641948,
      "loss": 1.9341,
      "step": 5834
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42731764912605286,
      "learning_rate": 0.0005938220737993047,
      "loss": 1.8011,
      "step": 5835
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.411344051361084,
      "learning_rate": 0.000593819963377758,
      "loss": 1.8536,
      "step": 5836
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42167913913726807,
      "learning_rate": 0.0005938178525995572,
      "loss": 1.8148,
      "step": 5837
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4227769672870636,
      "learning_rate": 0.0005938157414647047,
      "loss": 1.8284,
      "step": 5838
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4392288029193878,
      "learning_rate": 0.0005938136299732033,
      "loss": 1.865,
      "step": 5839
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4307650625705719,
      "learning_rate": 0.0005938115181250553,
      "loss": 1.8272,
      "step": 5840
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4266425669193268,
      "learning_rate": 0.0005938094059202635,
      "loss": 1.8008,
      "step": 5841
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4304305613040924,
      "learning_rate": 0.0005938072933588304,
      "loss": 1.8483,
      "step": 5842
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4351072311401367,
      "learning_rate": 0.0005938051804407585,
      "loss": 1.8647,
      "step": 5843
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41973769664764404,
      "learning_rate": 0.0005938030671660503,
      "loss": 1.8715,
      "step": 5844
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44650450348854065,
      "learning_rate": 0.0005938009535347087,
      "loss": 1.8558,
      "step": 5845
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4429263770580292,
      "learning_rate": 0.0005937988395467358,
      "loss": 1.8862,
      "step": 5846
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4385107755661011,
      "learning_rate": 0.0005937967252021345,
      "loss": 1.8239,
      "step": 5847
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4525063633918762,
      "learning_rate": 0.0005937946105009073,
      "loss": 1.838,
      "step": 5848
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41590946912765503,
      "learning_rate": 0.0005937924954430567,
      "loss": 1.9018,
      "step": 5849
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44322919845581055,
      "learning_rate": 0.0005937903800285853,
      "loss": 1.8968,
      "step": 5850
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4291854798793793,
      "learning_rate": 0.0005937882642574956,
      "loss": 1.866,
      "step": 5851
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.411855548620224,
      "learning_rate": 0.0005937861481297903,
      "loss": 1.8006,
      "step": 5852
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4045146107673645,
      "learning_rate": 0.0005937840316454719,
      "loss": 1.812,
      "step": 5853
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4261121451854706,
      "learning_rate": 0.000593781914804543,
      "loss": 1.7987,
      "step": 5854
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42873913049697876,
      "learning_rate": 0.0005937797976070062,
      "loss": 1.7945,
      "step": 5855
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.40805691480636597,
      "learning_rate": 0.0005937776800528638,
      "loss": 1.8528,
      "step": 5856
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41138434410095215,
      "learning_rate": 0.0005937755621421188,
      "loss": 1.838,
      "step": 5857
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41234642267227173,
      "learning_rate": 0.0005937734438747734,
      "loss": 1.8037,
      "step": 5858
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41903117299079895,
      "learning_rate": 0.0005937713252508305,
      "loss": 1.7955,
      "step": 5859
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4513534605503082,
      "learning_rate": 0.0005937692062702923,
      "loss": 1.8514,
      "step": 5860
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4260447323322296,
      "learning_rate": 0.0005937670869331617,
      "loss": 1.8079,
      "step": 5861
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4260219931602478,
      "learning_rate": 0.0005937649672394411,
      "loss": 1.8721,
      "step": 5862
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4387008249759674,
      "learning_rate": 0.000593762847189133,
      "loss": 1.9028,
      "step": 5863
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41296666860580444,
      "learning_rate": 0.0005937607267822402,
      "loss": 1.8158,
      "step": 5864
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4272289574146271,
      "learning_rate": 0.0005937586060187651,
      "loss": 1.8515,
      "step": 5865
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4310186505317688,
      "learning_rate": 0.0005937564848987105,
      "loss": 1.8845,
      "step": 5866
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4336164891719818,
      "learning_rate": 0.0005937543634220786,
      "loss": 1.8848,
      "step": 5867
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43529772758483887,
      "learning_rate": 0.0005937522415888724,
      "loss": 1.8396,
      "step": 5868
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41727638244628906,
      "learning_rate": 0.0005937501193990941,
      "loss": 1.8266,
      "step": 5869
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41413789987564087,
      "learning_rate": 0.0005937479968527464,
      "loss": 1.7917,
      "step": 5870
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42727091908454895,
      "learning_rate": 0.0005937458739498321,
      "loss": 1.8131,
      "step": 5871
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4119151830673218,
      "learning_rate": 0.0005937437506903535,
      "loss": 1.8036,
      "step": 5872
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41389769315719604,
      "learning_rate": 0.0005937416270743132,
      "loss": 1.819,
      "step": 5873
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4239064157009125,
      "learning_rate": 0.000593739503101714,
      "loss": 1.8959,
      "step": 5874
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.423667848110199,
      "learning_rate": 0.0005937373787725581,
      "loss": 1.8502,
      "step": 5875
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4340452551841736,
      "learning_rate": 0.0005937352540868484,
      "loss": 1.8931,
      "step": 5876
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.45808184146881104,
      "learning_rate": 0.0005937331290445875,
      "loss": 1.8465,
      "step": 5877
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4232487380504608,
      "learning_rate": 0.0005937310036457777,
      "loss": 1.8302,
      "step": 5878
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44314563274383545,
      "learning_rate": 0.0005937288778904219,
      "loss": 1.7825,
      "step": 5879
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42369285225868225,
      "learning_rate": 0.0005937267517785224,
      "loss": 1.8443,
      "step": 5880
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4375057518482208,
      "learning_rate": 0.0005937246253100819,
      "loss": 1.9066,
      "step": 5881
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4347006678581238,
      "learning_rate": 0.000593722498485103,
      "loss": 1.8583,
      "step": 5882
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4408818185329437,
      "learning_rate": 0.0005937203713035883,
      "loss": 1.8248,
      "step": 5883
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4122411608695984,
      "learning_rate": 0.0005937182437655403,
      "loss": 1.8645,
      "step": 5884
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41779088973999023,
      "learning_rate": 0.0005937161158709617,
      "loss": 1.862,
      "step": 5885
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4304034113883972,
      "learning_rate": 0.000593713987619855,
      "loss": 1.9602,
      "step": 5886
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4116111695766449,
      "learning_rate": 0.0005937118590122227,
      "loss": 1.7684,
      "step": 5887
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4218629002571106,
      "learning_rate": 0.0005937097300480676,
      "loss": 1.8693,
      "step": 5888
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4216177463531494,
      "learning_rate": 0.0005937076007273922,
      "loss": 1.8743,
      "step": 5889
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42190268635749817,
      "learning_rate": 0.0005937054710501989,
      "loss": 1.8945,
      "step": 5890
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.421505868434906,
      "learning_rate": 0.0005937033410164904,
      "loss": 1.8571,
      "step": 5891
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4150841236114502,
      "learning_rate": 0.0005937012106262694,
      "loss": 1.8113,
      "step": 5892
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41533777117729187,
      "learning_rate": 0.0005936990798795385,
      "loss": 1.7737,
      "step": 5893
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4264829158782959,
      "learning_rate": 0.0005936969487763,
      "loss": 1.8249,
      "step": 5894
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43241366744041443,
      "learning_rate": 0.0005936948173165569,
      "loss": 1.8521,
      "step": 5895
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43326255679130554,
      "learning_rate": 0.0005936926855003114,
      "loss": 1.9077,
      "step": 5896
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4163641929626465,
      "learning_rate": 0.0005936905533275663,
      "loss": 1.9214,
      "step": 5897
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4226064682006836,
      "learning_rate": 0.0005936884207983241,
      "loss": 1.7995,
      "step": 5898
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4297170042991638,
      "learning_rate": 0.0005936862879125875,
      "loss": 1.8996,
      "step": 5899
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4156549572944641,
      "learning_rate": 0.000593684154670359,
      "loss": 1.7831,
      "step": 5900
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42636197805404663,
      "learning_rate": 0.0005936820210716412,
      "loss": 1.8765,
      "step": 5901
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42059439420700073,
      "learning_rate": 0.0005936798871164367,
      "loss": 1.8197,
      "step": 5902
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.424783855676651,
      "learning_rate": 0.0005936777528047481,
      "loss": 1.7896,
      "step": 5903
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4369165003299713,
      "learning_rate": 0.000593675618136578,
      "loss": 1.8931,
      "step": 5904
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41450342535972595,
      "learning_rate": 0.0005936734831119289,
      "loss": 1.8412,
      "step": 5905
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4188270568847656,
      "learning_rate": 0.0005936713477308035,
      "loss": 1.8852,
      "step": 5906
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4192321300506592,
      "learning_rate": 0.0005936692119932044,
      "loss": 1.8459,
      "step": 5907
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4297989308834076,
      "learning_rate": 0.0005936670758991341,
      "loss": 1.8387,
      "step": 5908
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41094523668289185,
      "learning_rate": 0.0005936649394485952,
      "loss": 1.7597,
      "step": 5909
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4103440046310425,
      "learning_rate": 0.0005936628026415904,
      "loss": 1.8311,
      "step": 5910
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4407903254032135,
      "learning_rate": 0.0005936606654781222,
      "loss": 1.9815,
      "step": 5911
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42460891604423523,
      "learning_rate": 0.0005936585279581933,
      "loss": 1.9192,
      "step": 5912
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4204544126987457,
      "learning_rate": 0.0005936563900818061,
      "loss": 1.8689,
      "step": 5913
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4218288064002991,
      "learning_rate": 0.0005936542518489633,
      "loss": 1.8377,
      "step": 5914
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42644381523132324,
      "learning_rate": 0.0005936521132596676,
      "loss": 1.9685,
      "step": 5915
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.421847403049469,
      "learning_rate": 0.0005936499743139214,
      "loss": 1.8714,
      "step": 5916
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41329172253608704,
      "learning_rate": 0.0005936478350117275,
      "loss": 1.7974,
      "step": 5917
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4377228617668152,
      "learning_rate": 0.0005936456953530883,
      "loss": 1.8298,
      "step": 5918
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4123891592025757,
      "learning_rate": 0.0005936435553380066,
      "loss": 1.8005,
      "step": 5919
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43621641397476196,
      "learning_rate": 0.0005936414149664848,
      "loss": 1.9389,
      "step": 5920
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4422110319137573,
      "learning_rate": 0.0005936392742385256,
      "loss": 1.872,
      "step": 5921
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44457849860191345,
      "learning_rate": 0.0005936371331541317,
      "loss": 1.8385,
      "step": 5922
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43075376749038696,
      "learning_rate": 0.0005936349917133054,
      "loss": 1.8511,
      "step": 5923
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4603618085384369,
      "learning_rate": 0.0005936328499160496,
      "loss": 1.9017,
      "step": 5924
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4184591770172119,
      "learning_rate": 0.0005936307077623668,
      "loss": 1.7412,
      "step": 5925
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41450852155685425,
      "learning_rate": 0.0005936285652522596,
      "loss": 1.7998,
      "step": 5926
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.45137083530426025,
      "learning_rate": 0.0005936264223857304,
      "loss": 1.7919,
      "step": 5927
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43406733870506287,
      "learning_rate": 0.0005936242791627823,
      "loss": 1.8574,
      "step": 5928
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42115214467048645,
      "learning_rate": 0.0005936221355834172,
      "loss": 1.8293,
      "step": 5929
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.45141491293907166,
      "learning_rate": 0.0005936199916476383,
      "loss": 1.8801,
      "step": 5930
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4650326669216156,
      "learning_rate": 0.0005936178473554481,
      "loss": 1.8403,
      "step": 5931
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4174071252346039,
      "learning_rate": 0.000593615702706849,
      "loss": 1.8584,
      "step": 5932
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42998403310775757,
      "learning_rate": 0.0005936135577018437,
      "loss": 1.8443,
      "step": 5933
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40669214725494385,
      "learning_rate": 0.0005936114123404348,
      "loss": 1.8709,
      "step": 5934
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40813061594963074,
      "learning_rate": 0.000593609266622625,
      "loss": 1.8318,
      "step": 5935
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4135196805000305,
      "learning_rate": 0.0005936071205484166,
      "loss": 1.7725,
      "step": 5936
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4135374128818512,
      "learning_rate": 0.0005936049741178125,
      "loss": 1.8486,
      "step": 5937
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4329586327075958,
      "learning_rate": 0.0005936028273308153,
      "loss": 1.8587,
      "step": 5938
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4271875023841858,
      "learning_rate": 0.0005936006801874274,
      "loss": 1.8906,
      "step": 5939
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4225832223892212,
      "learning_rate": 0.0005935985326876517,
      "loss": 1.8,
      "step": 5940
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43360257148742676,
      "learning_rate": 0.0005935963848314905,
      "loss": 1.8609,
      "step": 5941
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4245133697986603,
      "learning_rate": 0.0005935942366189467,
      "loss": 1.8447,
      "step": 5942
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42677929997444153,
      "learning_rate": 0.0005935920880500226,
      "loss": 1.8948,
      "step": 5943
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41929367184638977,
      "learning_rate": 0.0005935899391247211,
      "loss": 1.8818,
      "step": 5944
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42042937874794006,
      "learning_rate": 0.0005935877898430445,
      "loss": 1.8501,
      "step": 5945
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42189326882362366,
      "learning_rate": 0.0005935856402049957,
      "loss": 1.8887,
      "step": 5946
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42454105615615845,
      "learning_rate": 0.0005935834902105772,
      "loss": 1.8733,
      "step": 5947
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4254069924354553,
      "learning_rate": 0.0005935813398597915,
      "loss": 1.873,
      "step": 5948
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4205109179019928,
      "learning_rate": 0.0005935791891526414,
      "loss": 1.7957,
      "step": 5949
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4243810772895813,
      "learning_rate": 0.0005935770380891294,
      "loss": 1.8986,
      "step": 5950
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4206991493701935,
      "learning_rate": 0.0005935748866692581,
      "loss": 1.9449,
      "step": 5951
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4145348072052002,
      "learning_rate": 0.0005935727348930302,
      "loss": 1.8956,
      "step": 5952
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5990872979164124,
      "learning_rate": 0.0005935705827604483,
      "loss": 1.8975,
      "step": 5953
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4211418032646179,
      "learning_rate": 0.0005935684302715149,
      "loss": 1.8885,
      "step": 5954
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42524078488349915,
      "learning_rate": 0.0005935662774262327,
      "loss": 1.8815,
      "step": 5955
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41512542963027954,
      "learning_rate": 0.0005935641242246042,
      "loss": 1.7958,
      "step": 5956
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4361301064491272,
      "learning_rate": 0.0005935619706666322,
      "loss": 1.9052,
      "step": 5957
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42341333627700806,
      "learning_rate": 0.0005935598167523192,
      "loss": 1.8579,
      "step": 5958
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4222021996974945,
      "learning_rate": 0.0005935576624816678,
      "loss": 1.8931,
      "step": 5959
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42673060297966003,
      "learning_rate": 0.0005935555078546808,
      "loss": 1.9042,
      "step": 5960
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42632776498794556,
      "learning_rate": 0.0005935533528713605,
      "loss": 1.8916,
      "step": 5961
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41611358523368835,
      "learning_rate": 0.0005935511975317097,
      "loss": 1.9275,
      "step": 5962
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4215390384197235,
      "learning_rate": 0.000593549041835731,
      "loss": 1.8732,
      "step": 5963
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4126932919025421,
      "learning_rate": 0.0005935468857834272,
      "loss": 1.835,
      "step": 5964
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4139385223388672,
      "learning_rate": 0.0005935447293748005,
      "loss": 1.8737,
      "step": 5965
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41241636872291565,
      "learning_rate": 0.0005935425726098539,
      "loss": 1.86,
      "step": 5966
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4249633252620697,
      "learning_rate": 0.0005935404154885898,
      "loss": 1.9591,
      "step": 5967
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.433002769947052,
      "learning_rate": 0.0005935382580110109,
      "loss": 1.9286,
      "step": 5968
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4147522747516632,
      "learning_rate": 0.0005935361001771197,
      "loss": 1.8945,
      "step": 5969
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40202492475509644,
      "learning_rate": 0.0005935339419869191,
      "loss": 1.7503,
      "step": 5970
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41980913281440735,
      "learning_rate": 0.0005935317834404114,
      "loss": 1.7429,
      "step": 5971
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4136880040168762,
      "learning_rate": 0.0005935296245375995,
      "loss": 1.7675,
      "step": 5972
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42604953050613403,
      "learning_rate": 0.0005935274652784858,
      "loss": 1.8693,
      "step": 5973
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4260537326335907,
      "learning_rate": 0.000593525305663073,
      "loss": 1.8538,
      "step": 5974
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4181179702281952,
      "learning_rate": 0.0005935231456913638,
      "loss": 1.8854,
      "step": 5975
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42706239223480225,
      "learning_rate": 0.0005935209853633607,
      "loss": 1.9012,
      "step": 5976
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41848501563072205,
      "learning_rate": 0.0005935188246790664,
      "loss": 1.8037,
      "step": 5977
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42333823442459106,
      "learning_rate": 0.0005935166636384835,
      "loss": 1.7796,
      "step": 5978
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40857020020484924,
      "learning_rate": 0.0005935145022416146,
      "loss": 1.8421,
      "step": 5979
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40715640783309937,
      "learning_rate": 0.0005935123404884623,
      "loss": 1.8335,
      "step": 5980
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40910181403160095,
      "learning_rate": 0.0005935101783790292,
      "loss": 1.7706,
      "step": 5981
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43752703070640564,
      "learning_rate": 0.0005935080159133182,
      "loss": 1.8367,
      "step": 5982
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4216799736022949,
      "learning_rate": 0.0005935058530913315,
      "loss": 1.8189,
      "step": 5983
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41837742924690247,
      "learning_rate": 0.0005935036899130721,
      "loss": 1.8405,
      "step": 5984
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42691662907600403,
      "learning_rate": 0.0005935015263785424,
      "loss": 1.7779,
      "step": 5985
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43128976225852966,
      "learning_rate": 0.000593499362487745,
      "loss": 1.8559,
      "step": 5986
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41432985663414,
      "learning_rate": 0.0005934971982406828,
      "loss": 1.8273,
      "step": 5987
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4273667335510254,
      "learning_rate": 0.0005934950336373582,
      "loss": 1.8712,
      "step": 5988
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4193313419818878,
      "learning_rate": 0.0005934928686777737,
      "loss": 1.8867,
      "step": 5989
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4429670572280884,
      "learning_rate": 0.0005934907033619324,
      "loss": 1.913,
      "step": 5990
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4395487308502197,
      "learning_rate": 0.0005934885376898364,
      "loss": 1.8724,
      "step": 5991
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4198307991027832,
      "learning_rate": 0.0005934863716614886,
      "loss": 1.8588,
      "step": 5992
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44174495339393616,
      "learning_rate": 0.0005934842052768916,
      "loss": 1.7837,
      "step": 5993
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4147774279117584,
      "learning_rate": 0.0005934820385360482,
      "loss": 1.8193,
      "step": 5994
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4249073565006256,
      "learning_rate": 0.0005934798714389605,
      "loss": 1.8126,
      "step": 5995
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4587821066379547,
      "learning_rate": 0.0005934777039856317,
      "loss": 1.8981,
      "step": 5996
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4284401535987854,
      "learning_rate": 0.0005934755361760642,
      "loss": 1.8876,
      "step": 5997
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4044216573238373,
      "learning_rate": 0.0005934733680102606,
      "loss": 1.7829,
      "step": 5998
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4214935600757599,
      "learning_rate": 0.0005934711994882236,
      "loss": 1.8276,
      "step": 5999
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44326725602149963,
      "learning_rate": 0.0005934690306099559,
      "loss": 1.9383,
      "step": 6000
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.47520947456359863,
      "learning_rate": 0.0005934668613754599,
      "loss": 1.7869,
      "step": 6001
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41384729743003845,
      "learning_rate": 0.0005934646917847384,
      "loss": 1.8362,
      "step": 6002
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4300689101219177,
      "learning_rate": 0.0005934625218377939,
      "loss": 1.837,
      "step": 6003
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4089331328868866,
      "learning_rate": 0.0005934603515346293,
      "loss": 1.7665,
      "step": 6004
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4208703339099884,
      "learning_rate": 0.000593458180875247,
      "loss": 1.8099,
      "step": 6005
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4233001470565796,
      "learning_rate": 0.0005934560098596497,
      "loss": 1.839,
      "step": 6006
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41024160385131836,
      "learning_rate": 0.00059345383848784,
      "loss": 1.825,
      "step": 6007
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43643516302108765,
      "learning_rate": 0.0005934516667598207,
      "loss": 1.8582,
      "step": 6008
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4191048741340637,
      "learning_rate": 0.0005934494946755942,
      "loss": 1.8051,
      "step": 6009
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41879481077194214,
      "learning_rate": 0.0005934473222351633,
      "loss": 1.819,
      "step": 6010
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41854098439216614,
      "learning_rate": 0.0005934451494385306,
      "loss": 1.9043,
      "step": 6011
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41614559292793274,
      "learning_rate": 0.0005934429762856988,
      "loss": 1.8039,
      "step": 6012
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4238576889038086,
      "learning_rate": 0.0005934408027766703,
      "loss": 1.8825,
      "step": 6013
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4223358929157257,
      "learning_rate": 0.0005934386289114479,
      "loss": 1.8053,
      "step": 6014
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42357754707336426,
      "learning_rate": 0.0005934364546900344,
      "loss": 1.8255,
      "step": 6015
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4088694751262665,
      "learning_rate": 0.0005934342801124323,
      "loss": 1.8037,
      "step": 6016
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41639629006385803,
      "learning_rate": 0.0005934321051786441,
      "loss": 1.7931,
      "step": 6017
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4196920096874237,
      "learning_rate": 0.0005934299298886725,
      "loss": 1.8075,
      "step": 6018
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4165610671043396,
      "learning_rate": 0.0005934277542425203,
      "loss": 1.8066,
      "step": 6019
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40291696786880493,
      "learning_rate": 0.0005934255782401901,
      "loss": 1.7755,
      "step": 6020
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4436749517917633,
      "learning_rate": 0.0005934234018816843,
      "loss": 1.8244,
      "step": 6021
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42775288224220276,
      "learning_rate": 0.0005934212251670059,
      "loss": 1.8489,
      "step": 6022
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4183003604412079,
      "learning_rate": 0.0005934190480961574,
      "loss": 1.8657,
      "step": 6023
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4265685975551605,
      "learning_rate": 0.0005934168706691412,
      "loss": 1.7702,
      "step": 6024
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4173722267150879,
      "learning_rate": 0.0005934146928859603,
      "loss": 1.818,
      "step": 6025
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41672632098197937,
      "learning_rate": 0.0005934125147466172,
      "loss": 1.9784,
      "step": 6026
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4251486361026764,
      "learning_rate": 0.0005934103362511145,
      "loss": 1.8976,
      "step": 6027
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4345587491989136,
      "learning_rate": 0.0005934081573994548,
      "loss": 1.901,
      "step": 6028
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40841877460479736,
      "learning_rate": 0.0005934059781916409,
      "loss": 1.7434,
      "step": 6029
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41678810119628906,
      "learning_rate": 0.0005934037986276753,
      "loss": 1.7791,
      "step": 6030
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4114878177642822,
      "learning_rate": 0.0005934016187075609,
      "loss": 1.7946,
      "step": 6031
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41930288076400757,
      "learning_rate": 0.0005933994384313,
      "loss": 1.8585,
      "step": 6032
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.422946572303772,
      "learning_rate": 0.0005933972577988956,
      "loss": 1.8948,
      "step": 6033
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41564929485321045,
      "learning_rate": 0.0005933950768103499,
      "loss": 1.898,
      "step": 6034
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4103717505931854,
      "learning_rate": 0.000593392895465666,
      "loss": 1.8153,
      "step": 6035
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41901808977127075,
      "learning_rate": 0.0005933907137648463,
      "loss": 1.8557,
      "step": 6036
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42859354615211487,
      "learning_rate": 0.0005933885317078935,
      "loss": 1.8746,
      "step": 6037
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4268695116043091,
      "learning_rate": 0.0005933863492948103,
      "loss": 1.7994,
      "step": 6038
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42694947123527527,
      "learning_rate": 0.0005933841665255992,
      "loss": 1.8945,
      "step": 6039
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4306384325027466,
      "learning_rate": 0.0005933819834002629,
      "loss": 1.8092,
      "step": 6040
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41839122772216797,
      "learning_rate": 0.0005933797999188043,
      "loss": 1.8602,
      "step": 6041
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41680002212524414,
      "learning_rate": 0.0005933776160812257,
      "loss": 1.8545,
      "step": 6042
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4014389216899872,
      "learning_rate": 0.00059337543188753,
      "loss": 1.8326,
      "step": 6043
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42445990443229675,
      "learning_rate": 0.0005933732473377198,
      "loss": 1.7401,
      "step": 6044
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4291354715824127,
      "learning_rate": 0.0005933710624317976,
      "loss": 1.9125,
      "step": 6045
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5154922604560852,
      "learning_rate": 0.0005933688771697661,
      "loss": 1.9459,
      "step": 6046
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42462167143821716,
      "learning_rate": 0.000593366691551628,
      "loss": 1.8227,
      "step": 6047
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42817455530166626,
      "learning_rate": 0.0005933645055773861,
      "loss": 1.8601,
      "step": 6048
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4133455157279968,
      "learning_rate": 0.0005933623192470428,
      "loss": 1.7854,
      "step": 6049
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.427891343832016,
      "learning_rate": 0.000593360132560601,
      "loss": 1.8983,
      "step": 6050
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4435745179653168,
      "learning_rate": 0.0005933579455180631,
      "loss": 1.9157,
      "step": 6051
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4244644343852997,
      "learning_rate": 0.000593355758119432,
      "loss": 1.8067,
      "step": 6052
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4266129434108734,
      "learning_rate": 0.0005933535703647101,
      "loss": 1.9226,
      "step": 6053
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42329081892967224,
      "learning_rate": 0.0005933513822539002,
      "loss": 1.7507,
      "step": 6054
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4343853294849396,
      "learning_rate": 0.0005933491937870051,
      "loss": 1.9028,
      "step": 6055
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44410690665245056,
      "learning_rate": 0.0005933470049640272,
      "loss": 1.8257,
      "step": 6056
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4451039135456085,
      "learning_rate": 0.0005933448157849692,
      "loss": 1.8357,
      "step": 6057
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4279745817184448,
      "learning_rate": 0.0005933426262498338,
      "loss": 1.8411,
      "step": 6058
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4228073060512543,
      "learning_rate": 0.0005933404363586237,
      "loss": 1.8499,
      "step": 6059
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44246724247932434,
      "learning_rate": 0.0005933382461113417,
      "loss": 1.8529,
      "step": 6060
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4360188841819763,
      "learning_rate": 0.0005933360555079901,
      "loss": 1.8876,
      "step": 6061
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4177398085594177,
      "learning_rate": 0.0005933338645485719,
      "loss": 1.8495,
      "step": 6062
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42670780420303345,
      "learning_rate": 0.0005933316732330895,
      "loss": 1.7878,
      "step": 6063
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44810113310813904,
      "learning_rate": 0.0005933294815615456,
      "loss": 1.849,
      "step": 6064
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4139852821826935,
      "learning_rate": 0.0005933272895339431,
      "loss": 1.8487,
      "step": 6065
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42490965127944946,
      "learning_rate": 0.0005933250971502844,
      "loss": 1.801,
      "step": 6066
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4295045733451843,
      "learning_rate": 0.0005933229044105722,
      "loss": 1.7787,
      "step": 6067
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4313112199306488,
      "learning_rate": 0.0005933207113148093,
      "loss": 1.9481,
      "step": 6068
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4453587532043457,
      "learning_rate": 0.0005933185178629983,
      "loss": 1.9038,
      "step": 6069
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4162604808807373,
      "learning_rate": 0.0005933163240551418,
      "loss": 1.8886,
      "step": 6070
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40723496675491333,
      "learning_rate": 0.0005933141298912425,
      "loss": 1.8688,
      "step": 6071
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41902095079421997,
      "learning_rate": 0.000593311935371303,
      "loss": 1.7595,
      "step": 6072
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4035562574863434,
      "learning_rate": 0.0005933097404953261,
      "loss": 1.9232,
      "step": 6073
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4167655408382416,
      "learning_rate": 0.0005933075452633144,
      "loss": 1.8333,
      "step": 6074
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4193984568119049,
      "learning_rate": 0.0005933053496752705,
      "loss": 1.7935,
      "step": 6075
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4275704026222229,
      "learning_rate": 0.0005933031537311971,
      "loss": 1.7796,
      "step": 6076
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4188033938407898,
      "learning_rate": 0.0005933009574310969,
      "loss": 1.8714,
      "step": 6077
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4108406901359558,
      "learning_rate": 0.0005932987607749727,
      "loss": 1.8376,
      "step": 6078
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4522482454776764,
      "learning_rate": 0.000593296563762827,
      "loss": 1.8614,
      "step": 6079
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4235839545726776,
      "learning_rate": 0.0005932943663946623,
      "loss": 1.8504,
      "step": 6080
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42228594422340393,
      "learning_rate": 0.0005932921686704816,
      "loss": 1.8681,
      "step": 6081
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4315977692604065,
      "learning_rate": 0.0005932899705902873,
      "loss": 1.796,
      "step": 6082
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4417087733745575,
      "learning_rate": 0.0005932877721540824,
      "loss": 1.8026,
      "step": 6083
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41960471868515015,
      "learning_rate": 0.0005932855733618691,
      "loss": 1.8468,
      "step": 6084
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44622132182121277,
      "learning_rate": 0.0005932833742136505,
      "loss": 1.836,
      "step": 6085
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43272435665130615,
      "learning_rate": 0.000593281174709429,
      "loss": 1.8956,
      "step": 6086
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4239726960659027,
      "learning_rate": 0.0005932789748492075,
      "loss": 1.8283,
      "step": 6087
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43052786588668823,
      "learning_rate": 0.0005932767746329884,
      "loss": 1.887,
      "step": 6088
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42830637097358704,
      "learning_rate": 0.0005932745740607746,
      "loss": 1.8757,
      "step": 6089
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44682034850120544,
      "learning_rate": 0.0005932723731325686,
      "loss": 1.844,
      "step": 6090
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43339550495147705,
      "learning_rate": 0.0005932701718483732,
      "loss": 1.8359,
      "step": 6091
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4514829218387604,
      "learning_rate": 0.0005932679702081911,
      "loss": 1.875,
      "step": 6092
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42218390107154846,
      "learning_rate": 0.0005932657682120247,
      "loss": 1.8121,
      "step": 6093
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4150991439819336,
      "learning_rate": 0.000593263565859877,
      "loss": 1.853,
      "step": 6094
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43827223777770996,
      "learning_rate": 0.0005932613631517505,
      "loss": 1.8568,
      "step": 6095
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4201650321483612,
      "learning_rate": 0.000593259160087648,
      "loss": 1.8475,
      "step": 6096
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42897340655326843,
      "learning_rate": 0.000593256956667572,
      "loss": 1.9416,
      "step": 6097
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4256747364997864,
      "learning_rate": 0.0005932547528915253,
      "loss": 1.7842,
      "step": 6098
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44279080629348755,
      "learning_rate": 0.0005932525487595104,
      "loss": 1.8658,
      "step": 6099
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4294944107532501,
      "learning_rate": 0.0005932503442715303,
      "loss": 1.8384,
      "step": 6100
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4120776355266571,
      "learning_rate": 0.0005932481394275874,
      "loss": 1.7415,
      "step": 6101
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4343326687812805,
      "learning_rate": 0.0005932459342276846,
      "loss": 1.9041,
      "step": 6102
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4270523488521576,
      "learning_rate": 0.0005932437286718243,
      "loss": 1.7711,
      "step": 6103
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43547749519348145,
      "learning_rate": 0.0005932415227600093,
      "loss": 1.8458,
      "step": 6104
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42316076159477234,
      "learning_rate": 0.0005932393164922424,
      "loss": 1.85,
      "step": 6105
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4120297431945801,
      "learning_rate": 0.0005932371098685261,
      "loss": 1.8087,
      "step": 6106
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44626033306121826,
      "learning_rate": 0.0005932349028888633,
      "loss": 1.8526,
      "step": 6107
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.44644325971603394,
      "learning_rate": 0.0005932326955532563,
      "loss": 1.8711,
      "step": 6108
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4152873754501343,
      "learning_rate": 0.0005932304878617082,
      "loss": 1.7708,
      "step": 6109
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41689804196357727,
      "learning_rate": 0.0005932282798142215,
      "loss": 1.8423,
      "step": 6110
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42397013306617737,
      "learning_rate": 0.0005932260714107988,
      "loss": 1.8437,
      "step": 6111
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4283998906612396,
      "learning_rate": 0.0005932238626514428,
      "loss": 1.8059,
      "step": 6112
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4274340867996216,
      "learning_rate": 0.0005932216535361563,
      "loss": 1.8156,
      "step": 6113
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42368704080581665,
      "learning_rate": 0.0005932194440649419,
      "loss": 1.7976,
      "step": 6114
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43967631459236145,
      "learning_rate": 0.0005932172342378024,
      "loss": 1.8069,
      "step": 6115
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4364645779132843,
      "learning_rate": 0.0005932150240547402,
      "loss": 1.8576,
      "step": 6116
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4243392050266266,
      "learning_rate": 0.0005932128135157583,
      "loss": 1.8849,
      "step": 6117
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4245067834854126,
      "learning_rate": 0.0005932106026208592,
      "loss": 1.8786,
      "step": 6118
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4151493012905121,
      "learning_rate": 0.0005932083913700457,
      "loss": 1.8539,
      "step": 6119
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4218123257160187,
      "learning_rate": 0.0005932061797633203,
      "loss": 1.815,
      "step": 6120
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42914947867393494,
      "learning_rate": 0.0005932039678006859,
      "loss": 1.7572,
      "step": 6121
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4201001226902008,
      "learning_rate": 0.0005932017554821451,
      "loss": 1.7985,
      "step": 6122
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42172691226005554,
      "learning_rate": 0.0005931995428077005,
      "loss": 1.8104,
      "step": 6123
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4289968013763428,
      "learning_rate": 0.0005931973297773548,
      "loss": 1.8945,
      "step": 6124
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42312297224998474,
      "learning_rate": 0.0005931951163911108,
      "loss": 1.8204,
      "step": 6125
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42249998450279236,
      "learning_rate": 0.0005931929026489711,
      "loss": 1.8602,
      "step": 6126
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4413035213947296,
      "learning_rate": 0.0005931906885509384,
      "loss": 1.9127,
      "step": 6127
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4182582199573517,
      "learning_rate": 0.0005931884740970155,
      "loss": 1.7881,
      "step": 6128
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4161413908004761,
      "learning_rate": 0.0005931862592872049,
      "loss": 1.8413,
      "step": 6129
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42732349038124084,
      "learning_rate": 0.0005931840441215095,
      "loss": 1.9826,
      "step": 6130
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4268394708633423,
      "learning_rate": 0.0005931818285999317,
      "loss": 1.8093,
      "step": 6131
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4087294042110443,
      "learning_rate": 0.0005931796127224745,
      "loss": 1.8016,
      "step": 6132
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4184848964214325,
      "learning_rate": 0.0005931773964891404,
      "loss": 1.806,
      "step": 6133
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40599796175956726,
      "learning_rate": 0.0005931751798999321,
      "loss": 1.8145,
      "step": 6134
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4422188103199005,
      "learning_rate": 0.0005931729629548524,
      "loss": 1.8307,
      "step": 6135
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42711785435676575,
      "learning_rate": 0.0005931707456539039,
      "loss": 1.8292,
      "step": 6136
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4491913616657257,
      "learning_rate": 0.0005931685279970892,
      "loss": 1.8829,
      "step": 6137
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43646401166915894,
      "learning_rate": 0.0005931663099844113,
      "loss": 1.8352,
      "step": 6138
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41166624426841736,
      "learning_rate": 0.0005931640916158725,
      "loss": 1.8539,
      "step": 6139
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42761948704719543,
      "learning_rate": 0.0005931618728914758,
      "loss": 1.8942,
      "step": 6140
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4269714653491974,
      "learning_rate": 0.0005931596538112238,
      "loss": 1.7943,
      "step": 6141
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4272501468658447,
      "learning_rate": 0.0005931574343751192,
      "loss": 1.8016,
      "step": 6142
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42392605543136597,
      "learning_rate": 0.0005931552145831645,
      "loss": 1.7953,
      "step": 6143
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4170854687690735,
      "learning_rate": 0.0005931529944353627,
      "loss": 1.8399,
      "step": 6144
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40399685502052307,
      "learning_rate": 0.0005931507739317164,
      "loss": 1.7728,
      "step": 6145
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4350014925003052,
      "learning_rate": 0.0005931485530722281,
      "loss": 1.8051,
      "step": 6146
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4108186364173889,
      "learning_rate": 0.0005931463318569008,
      "loss": 1.8269,
      "step": 6147
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4283861517906189,
      "learning_rate": 0.000593144110285737,
      "loss": 1.9201,
      "step": 6148
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4778969883918762,
      "learning_rate": 0.0005931418883587394,
      "loss": 1.914,
      "step": 6149
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.40461111068725586,
      "learning_rate": 0.0005931396660759108,
      "loss": 1.7347,
      "step": 6150
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4084770977497101,
      "learning_rate": 0.0005931374434372538,
      "loss": 1.7501,
      "step": 6151
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4197133183479309,
      "learning_rate": 0.0005931352204427711,
      "loss": 1.8442,
      "step": 6152
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4265687167644501,
      "learning_rate": 0.0005931329970924655,
      "loss": 1.8884,
      "step": 6153
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4128674864768982,
      "learning_rate": 0.0005931307733863397,
      "loss": 1.9046,
      "step": 6154
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43178829550743103,
      "learning_rate": 0.0005931285493243963,
      "loss": 1.8954,
      "step": 6155
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4219830632209778,
      "learning_rate": 0.0005931263249066378,
      "loss": 1.8828,
      "step": 6156
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43562930822372437,
      "learning_rate": 0.0005931241001330674,
      "loss": 1.8745,
      "step": 6157
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41024377942085266,
      "learning_rate": 0.0005931218750036874,
      "loss": 1.7725,
      "step": 6158
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42252644896507263,
      "learning_rate": 0.0005931196495185006,
      "loss": 1.8888,
      "step": 6159
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4234279692173004,
      "learning_rate": 0.0005931174236775098,
      "loss": 1.8495,
      "step": 6160
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.41801828145980835,
      "learning_rate": 0.0005931151974807176,
      "loss": 1.7744,
      "step": 6161
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44818252325057983,
      "learning_rate": 0.0005931129709281268,
      "loss": 1.9619,
      "step": 6162
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4029337465763092,
      "learning_rate": 0.00059311074401974,
      "loss": 1.8023,
      "step": 6163
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4133812189102173,
      "learning_rate": 0.0005931085167555601,
      "loss": 1.8266,
      "step": 6164
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4280970096588135,
      "learning_rate": 0.0005931062891355894,
      "loss": 1.8477,
      "step": 6165
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4225631356239319,
      "learning_rate": 0.000593104061159831,
      "loss": 1.8387,
      "step": 6166
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4254554212093353,
      "learning_rate": 0.0005931018328282874,
      "loss": 1.8523,
      "step": 6167
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4137119650840759,
      "learning_rate": 0.0005930996041409615,
      "loss": 1.8428,
      "step": 6168
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41410258412361145,
      "learning_rate": 0.0005930973750978557,
      "loss": 1.8287,
      "step": 6169
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43865418434143066,
      "learning_rate": 0.0005930951456989729,
      "loss": 1.8664,
      "step": 6170
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4449411630630493,
      "learning_rate": 0.0005930929159443158,
      "loss": 1.8729,
      "step": 6171
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4101441204547882,
      "learning_rate": 0.0005930906858338871,
      "loss": 1.7763,
      "step": 6172
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42930376529693604,
      "learning_rate": 0.0005930884553676895,
      "loss": 1.7026,
      "step": 6173
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4240376949310303,
      "learning_rate": 0.0005930862245457256,
      "loss": 1.8902,
      "step": 6174
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4116542637348175,
      "learning_rate": 0.0005930839933679983,
      "loss": 1.766,
      "step": 6175
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4071517586708069,
      "learning_rate": 0.0005930817618345102,
      "loss": 1.8417,
      "step": 6176
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42390507459640503,
      "learning_rate": 0.000593079529945264,
      "loss": 1.8406,
      "step": 6177
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41944023966789246,
      "learning_rate": 0.0005930772977002625,
      "loss": 1.8358,
      "step": 6178
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41195476055145264,
      "learning_rate": 0.0005930750650995083,
      "loss": 1.8482,
      "step": 6179
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42110201716423035,
      "learning_rate": 0.0005930728321430042,
      "loss": 1.8458,
      "step": 6180
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4169263541698456,
      "learning_rate": 0.0005930705988307528,
      "loss": 1.9128,
      "step": 6181
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4114929437637329,
      "learning_rate": 0.0005930683651627569,
      "loss": 1.8308,
      "step": 6182
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40502938628196716,
      "learning_rate": 0.0005930661311390192,
      "loss": 1.8445,
      "step": 6183
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41515079140663147,
      "learning_rate": 0.0005930638967595424,
      "loss": 1.7969,
      "step": 6184
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40743163228034973,
      "learning_rate": 0.0005930616620243291,
      "loss": 1.7258,
      "step": 6185
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42464712262153625,
      "learning_rate": 0.0005930594269333823,
      "loss": 1.8683,
      "step": 6186
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4039533734321594,
      "learning_rate": 0.0005930571914867043,
      "loss": 1.8206,
      "step": 6187
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4114735722541809,
      "learning_rate": 0.0005930549556842983,
      "loss": 1.7685,
      "step": 6188
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42275893688201904,
      "learning_rate": 0.0005930527195261667,
      "loss": 1.7914,
      "step": 6189
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41737279295921326,
      "learning_rate": 0.0005930504830123122,
      "loss": 1.759,
      "step": 6190
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40809309482574463,
      "learning_rate": 0.0005930482461427376,
      "loss": 1.7539,
      "step": 6191
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4244115948677063,
      "learning_rate": 0.0005930460089174456,
      "loss": 1.8681,
      "step": 6192
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42386722564697266,
      "learning_rate": 0.0005930437713364391,
      "loss": 1.8434,
      "step": 6193
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4231050908565521,
      "learning_rate": 0.0005930415333997204,
      "loss": 1.823,
      "step": 6194
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40967267751693726,
      "learning_rate": 0.0005930392951072926,
      "loss": 1.8634,
      "step": 6195
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41583654284477234,
      "learning_rate": 0.0005930370564591582,
      "loss": 1.7868,
      "step": 6196
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43349239230155945,
      "learning_rate": 0.00059303481745532,
      "loss": 1.9354,
      "step": 6197
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43082040548324585,
      "learning_rate": 0.0005930325780957807,
      "loss": 1.8679,
      "step": 6198
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4339961111545563,
      "learning_rate": 0.0005930303383805431,
      "loss": 1.8655,
      "step": 6199
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4116930663585663,
      "learning_rate": 0.0005930280983096099,
      "loss": 1.7702,
      "step": 6200
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43956825137138367,
      "learning_rate": 0.0005930258578829837,
      "loss": 1.8652,
      "step": 6201
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4511549174785614,
      "learning_rate": 0.0005930236171006671,
      "loss": 1.8835,
      "step": 6202
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42678767442703247,
      "learning_rate": 0.0005930213759626632,
      "loss": 1.8829,
      "step": 6203
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4227992594242096,
      "learning_rate": 0.0005930191344689746,
      "loss": 1.7739,
      "step": 6204
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4291711449623108,
      "learning_rate": 0.0005930168926196037,
      "loss": 1.8778,
      "step": 6205
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4292256832122803,
      "learning_rate": 0.0005930146504145536,
      "loss": 1.8909,
      "step": 6206
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4166257679462433,
      "learning_rate": 0.000593012407853827,
      "loss": 1.835,
      "step": 6207
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42480647563934326,
      "learning_rate": 0.0005930101649374263,
      "loss": 1.8673,
      "step": 6208
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4172910749912262,
      "learning_rate": 0.0005930079216653545,
      "loss": 1.9094,
      "step": 6209
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4188292324542999,
      "learning_rate": 0.0005930056780376143,
      "loss": 1.8448,
      "step": 6210
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42466068267822266,
      "learning_rate": 0.0005930034340542084,
      "loss": 1.8609,
      "step": 6211
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4274838864803314,
      "learning_rate": 0.0005930011897151394,
      "loss": 1.8541,
      "step": 6212
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4101792871952057,
      "learning_rate": 0.0005929989450204102,
      "loss": 1.7615,
      "step": 6213
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4234952926635742,
      "learning_rate": 0.0005929966999700234,
      "loss": 1.7912,
      "step": 6214
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41372591257095337,
      "learning_rate": 0.0005929944545639818,
      "loss": 1.8679,
      "step": 6215
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43684089183807373,
      "learning_rate": 0.0005929922088022882,
      "loss": 1.8463,
      "step": 6216
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4327707886695862,
      "learning_rate": 0.000592989962684945,
      "loss": 1.7828,
      "step": 6217
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4111385941505432,
      "learning_rate": 0.0005929877162119554,
      "loss": 1.8059,
      "step": 6218
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4424208998680115,
      "learning_rate": 0.0005929854693833218,
      "loss": 1.8634,
      "step": 6219
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4207051396369934,
      "learning_rate": 0.000592983222199047,
      "loss": 1.7849,
      "step": 6220
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42658141255378723,
      "learning_rate": 0.0005929809746591337,
      "loss": 1.83,
      "step": 6221
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43679672479629517,
      "learning_rate": 0.0005929787267635847,
      "loss": 1.8285,
      "step": 6222
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43401217460632324,
      "learning_rate": 0.0005929764785124027,
      "loss": 1.8286,
      "step": 6223
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4093348979949951,
      "learning_rate": 0.0005929742299055905,
      "loss": 1.8012,
      "step": 6224
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41015374660491943,
      "learning_rate": 0.0005929719809431506,
      "loss": 1.7943,
      "step": 6225
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42190125584602356,
      "learning_rate": 0.000592969731625086,
      "loss": 1.8759,
      "step": 6226
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41635310649871826,
      "learning_rate": 0.0005929674819513993,
      "loss": 1.8221,
      "step": 6227
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4247339367866516,
      "learning_rate": 0.0005929652319220931,
      "loss": 1.7989,
      "step": 6228
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42235851287841797,
      "learning_rate": 0.0005929629815371704,
      "loss": 1.8141,
      "step": 6229
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4265781044960022,
      "learning_rate": 0.0005929607307966338,
      "loss": 1.7755,
      "step": 6230
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4182773530483246,
      "learning_rate": 0.000592958479700486,
      "loss": 1.8567,
      "step": 6231
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4445572793483734,
      "learning_rate": 0.0005929562282487298,
      "loss": 1.8287,
      "step": 6232
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43941792845726013,
      "learning_rate": 0.0005929539764413679,
      "loss": 1.8107,
      "step": 6233
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4238155782222748,
      "learning_rate": 0.0005929517242784031,
      "loss": 1.8756,
      "step": 6234
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4277503490447998,
      "learning_rate": 0.000592949471759838,
      "loss": 1.8692,
      "step": 6235
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4174652695655823,
      "learning_rate": 0.0005929472188856755,
      "loss": 1.8455,
      "step": 6236
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42137226462364197,
      "learning_rate": 0.0005929449656559181,
      "loss": 1.8623,
      "step": 6237
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42586156725883484,
      "learning_rate": 0.0005929427120705687,
      "loss": 1.8354,
      "step": 6238
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4275702238082886,
      "learning_rate": 0.0005929404581296301,
      "loss": 1.8468,
      "step": 6239
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4122195839881897,
      "learning_rate": 0.0005929382038331048,
      "loss": 1.7962,
      "step": 6240
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.447409063577652,
      "learning_rate": 0.0005929359491809958,
      "loss": 1.8453,
      "step": 6241
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4224778413772583,
      "learning_rate": 0.0005929336941733057,
      "loss": 1.8663,
      "step": 6242
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42247095704078674,
      "learning_rate": 0.0005929314388100372,
      "loss": 1.8298,
      "step": 6243
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4295114278793335,
      "learning_rate": 0.0005929291830911931,
      "loss": 1.8799,
      "step": 6244
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4274943768978119,
      "learning_rate": 0.0005929269270167762,
      "loss": 1.8049,
      "step": 6245
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4227224886417389,
      "learning_rate": 0.0005929246705867892,
      "loss": 1.8749,
      "step": 6246
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40499696135520935,
      "learning_rate": 0.0005929224138012348,
      "loss": 1.7875,
      "step": 6247
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42466577887535095,
      "learning_rate": 0.0005929201566601156,
      "loss": 1.9187,
      "step": 6248
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40685537457466125,
      "learning_rate": 0.0005929178991634347,
      "loss": 1.7797,
      "step": 6249
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44687771797180176,
      "learning_rate": 0.0005929156413111944,
      "loss": 1.8023,
      "step": 6250
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4204593002796173,
      "learning_rate": 0.0005929133831033979,
      "loss": 1.8039,
      "step": 6251
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4404495060443878,
      "learning_rate": 0.0005929111245400477,
      "loss": 1.8031,
      "step": 6252
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4274812340736389,
      "learning_rate": 0.0005929088656211463,
      "loss": 1.8016,
      "step": 6253
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4353300929069519,
      "learning_rate": 0.0005929066063466968,
      "loss": 1.7696,
      "step": 6254
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4276772141456604,
      "learning_rate": 0.000592904346716702,
      "loss": 1.7866,
      "step": 6255
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.427800714969635,
      "learning_rate": 0.0005929020867311643,
      "loss": 1.8676,
      "step": 6256
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4217029809951782,
      "learning_rate": 0.0005928998263900868,
      "loss": 1.8687,
      "step": 6257
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4391801357269287,
      "learning_rate": 0.000592897565693472,
      "loss": 1.8239,
      "step": 6258
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4249826967716217,
      "learning_rate": 0.0005928953046413226,
      "loss": 1.8524,
      "step": 6259
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4267537593841553,
      "learning_rate": 0.0005928930432336415,
      "loss": 1.7832,
      "step": 6260
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4195294678211212,
      "learning_rate": 0.0005928907814704315,
      "loss": 1.8161,
      "step": 6261
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.47130531072616577,
      "learning_rate": 0.0005928885193516952,
      "loss": 1.7311,
      "step": 6262
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42680367827415466,
      "learning_rate": 0.0005928862568774354,
      "loss": 1.8405,
      "step": 6263
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43946537375450134,
      "learning_rate": 0.0005928839940476547,
      "loss": 1.8272,
      "step": 6264
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.45491862297058105,
      "learning_rate": 0.0005928817308623562,
      "loss": 1.8947,
      "step": 6265
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41748496890068054,
      "learning_rate": 0.0005928794673215423,
      "loss": 1.9074,
      "step": 6266
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41045117378234863,
      "learning_rate": 0.0005928772034252159,
      "loss": 1.8895,
      "step": 6267
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43359529972076416,
      "learning_rate": 0.0005928749391733798,
      "loss": 1.8004,
      "step": 6268
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44397401809692383,
      "learning_rate": 0.0005928726745660365,
      "loss": 1.8882,
      "step": 6269
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42797577381134033,
      "learning_rate": 0.000592870409603189,
      "loss": 1.795,
      "step": 6270
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4186205267906189,
      "learning_rate": 0.0005928681442848401,
      "loss": 1.8797,
      "step": 6271
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.45067086815834045,
      "learning_rate": 0.0005928658786109924,
      "loss": 1.8017,
      "step": 6272
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4465472102165222,
      "learning_rate": 0.0005928636125816486,
      "loss": 1.8253,
      "step": 6273
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4141475260257721,
      "learning_rate": 0.0005928613461968115,
      "loss": 1.8261,
      "step": 6274
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44729864597320557,
      "learning_rate": 0.000592859079456484,
      "loss": 1.8232,
      "step": 6275
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43021658062934875,
      "learning_rate": 0.0005928568123606686,
      "loss": 1.7992,
      "step": 6276
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42154568433761597,
      "learning_rate": 0.0005928545449093683,
      "loss": 1.8395,
      "step": 6277
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4288433790206909,
      "learning_rate": 0.0005928522771025856,
      "loss": 1.9096,
      "step": 6278
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41142022609710693,
      "learning_rate": 0.0005928500089403234,
      "loss": 1.8448,
      "step": 6279
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41127532720565796,
      "learning_rate": 0.0005928477404225845,
      "loss": 1.7907,
      "step": 6280
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43870285153388977,
      "learning_rate": 0.0005928454715493716,
      "loss": 1.8651,
      "step": 6281
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41881364583969116,
      "learning_rate": 0.0005928432023206875,
      "loss": 1.8329,
      "step": 6282
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4267846941947937,
      "learning_rate": 0.0005928409327365348,
      "loss": 1.871,
      "step": 6283
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4456579089164734,
      "learning_rate": 0.0005928386627969164,
      "loss": 1.9164,
      "step": 6284
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4160516858100891,
      "learning_rate": 0.000592836392501835,
      "loss": 1.8656,
      "step": 6285
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4262675642967224,
      "learning_rate": 0.0005928341218512934,
      "loss": 1.9037,
      "step": 6286
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4242765009403229,
      "learning_rate": 0.0005928318508452942,
      "loss": 1.946,
      "step": 6287
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4199880063533783,
      "learning_rate": 0.0005928295794838404,
      "loss": 1.8338,
      "step": 6288
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44605451822280884,
      "learning_rate": 0.0005928273077669346,
      "loss": 1.8276,
      "step": 6289
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4194469451904297,
      "learning_rate": 0.0005928250356945795,
      "loss": 1.7932,
      "step": 6290
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4163515269756317,
      "learning_rate": 0.0005928227632667781,
      "loss": 1.7993,
      "step": 6291
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4223870635032654,
      "learning_rate": 0.0005928204904835329,
      "loss": 1.8299,
      "step": 6292
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4208570420742035,
      "learning_rate": 0.0005928182173448468,
      "loss": 1.8773,
      "step": 6293
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41442397236824036,
      "learning_rate": 0.0005928159438507227,
      "loss": 1.8227,
      "step": 6294
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41327640414237976,
      "learning_rate": 0.0005928136700011629,
      "loss": 1.8408,
      "step": 6295
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41249802708625793,
      "learning_rate": 0.0005928113957961706,
      "loss": 1.8713,
      "step": 6296
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43512097001075745,
      "learning_rate": 0.0005928091212357485,
      "loss": 1.8822,
      "step": 6297
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4262370467185974,
      "learning_rate": 0.0005928068463198991,
      "loss": 1.8554,
      "step": 6298
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4258663058280945,
      "learning_rate": 0.0005928045710486254,
      "loss": 1.8837,
      "step": 6299
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42554447054862976,
      "learning_rate": 0.0005928022954219301,
      "loss": 1.9291,
      "step": 6300
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42203420400619507,
      "learning_rate": 0.000592800019439816,
      "loss": 1.7979,
      "step": 6301
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4124583601951599,
      "learning_rate": 0.0005927977431022858,
      "loss": 1.8719,
      "step": 6302
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.446397602558136,
      "learning_rate": 0.0005927954664093423,
      "loss": 1.8538,
      "step": 6303
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.427474707365036,
      "learning_rate": 0.0005927931893609881,
      "loss": 1.8376,
      "step": 6304
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4120129346847534,
      "learning_rate": 0.0005927909119572263,
      "loss": 1.8694,
      "step": 6305
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5243309140205383,
      "learning_rate": 0.0005927886341980593,
      "loss": 1.7873,
      "step": 6306
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4169679284095764,
      "learning_rate": 0.0005927863560834902,
      "loss": 1.7571,
      "step": 6307
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41487836837768555,
      "learning_rate": 0.0005927840776135215,
      "loss": 1.7955,
      "step": 6308
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41652002930641174,
      "learning_rate": 0.0005927817987881561,
      "loss": 1.8341,
      "step": 6309
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42211660742759705,
      "learning_rate": 0.0005927795196073967,
      "loss": 1.8136,
      "step": 6310
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4300291836261749,
      "learning_rate": 0.0005927772400712461,
      "loss": 1.7866,
      "step": 6311
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.416565477848053,
      "learning_rate": 0.0005927749601797071,
      "loss": 1.8395,
      "step": 6312
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4333397448062897,
      "learning_rate": 0.0005927726799327825,
      "loss": 1.8535,
      "step": 6313
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4335363507270813,
      "learning_rate": 0.0005927703993304749,
      "loss": 1.8713,
      "step": 6314
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4466687738895416,
      "learning_rate": 0.0005927681183727872,
      "loss": 1.8362,
      "step": 6315
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4081117510795593,
      "learning_rate": 0.0005927658370597222,
      "loss": 1.8364,
      "step": 6316
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4179674983024597,
      "learning_rate": 0.0005927635553912825,
      "loss": 1.8541,
      "step": 6317
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42846009135246277,
      "learning_rate": 0.000592761273367471,
      "loss": 1.8335,
      "step": 6318
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44430336356163025,
      "learning_rate": 0.0005927589909882905,
      "loss": 1.8379,
      "step": 6319
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41557520627975464,
      "learning_rate": 0.0005927567082537438,
      "loss": 1.8536,
      "step": 6320
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4348844885826111,
      "learning_rate": 0.0005927544251638335,
      "loss": 1.8266,
      "step": 6321
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42338573932647705,
      "learning_rate": 0.0005927521417185626,
      "loss": 1.8869,
      "step": 6322
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42259863018989563,
      "learning_rate": 0.0005927498579179335,
      "loss": 1.8974,
      "step": 6323
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41258201003074646,
      "learning_rate": 0.0005927475737619493,
      "loss": 1.9052,
      "step": 6324
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42286545038223267,
      "learning_rate": 0.0005927452892506127,
      "loss": 1.878,
      "step": 6325
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42112261056900024,
      "learning_rate": 0.0005927430043839264,
      "loss": 1.9026,
      "step": 6326
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4111008942127228,
      "learning_rate": 0.0005927407191618934,
      "loss": 1.8421,
      "step": 6327
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4134349524974823,
      "learning_rate": 0.000592738433584516,
      "loss": 1.8521,
      "step": 6328
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4113277792930603,
      "learning_rate": 0.0005927361476517975,
      "loss": 1.8348,
      "step": 6329
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4175644814968109,
      "learning_rate": 0.0005927338613637406,
      "loss": 1.7755,
      "step": 6330
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41588953137397766,
      "learning_rate": 0.0005927315747203476,
      "loss": 1.9005,
      "step": 6331
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41262564063072205,
      "learning_rate": 0.0005927292877216218,
      "loss": 1.8376,
      "step": 6332
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4178375005722046,
      "learning_rate": 0.0005927270003675656,
      "loss": 1.8307,
      "step": 6333
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4068889915943146,
      "learning_rate": 0.000592724712658182,
      "loss": 1.7557,
      "step": 6334
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41902676224708557,
      "learning_rate": 0.0005927224245934738,
      "loss": 1.8862,
      "step": 6335
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4253752529621124,
      "learning_rate": 0.0005927201361734438,
      "loss": 1.7885,
      "step": 6336
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42166629433631897,
      "learning_rate": 0.0005927178473980946,
      "loss": 1.8903,
      "step": 6337
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43444201350212097,
      "learning_rate": 0.000592715558267429,
      "loss": 1.8584,
      "step": 6338
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4224189817905426,
      "learning_rate": 0.0005927132687814498,
      "loss": 1.8934,
      "step": 6339
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4161829650402069,
      "learning_rate": 0.0005927109789401599,
      "loss": 1.8409,
      "step": 6340
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4273362159729004,
      "learning_rate": 0.000592708688743562,
      "loss": 1.8311,
      "step": 6341
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4031338691711426,
      "learning_rate": 0.0005927063981916589,
      "loss": 1.8344,
      "step": 6342
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40153229236602783,
      "learning_rate": 0.0005927041072844533,
      "loss": 1.8375,
      "step": 6343
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44077643752098083,
      "learning_rate": 0.0005927018160219481,
      "loss": 1.7949,
      "step": 6344
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41633474826812744,
      "learning_rate": 0.000592699524404146,
      "loss": 1.855,
      "step": 6345
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4227716326713562,
      "learning_rate": 0.0005926972324310499,
      "loss": 1.8541,
      "step": 6346
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4267214238643646,
      "learning_rate": 0.0005926949401026623,
      "loss": 1.7747,
      "step": 6347
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4234757721424103,
      "learning_rate": 0.0005926926474189863,
      "loss": 1.8345,
      "step": 6348
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4117761254310608,
      "learning_rate": 0.0005926903543800246,
      "loss": 1.7998,
      "step": 6349
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4190298020839691,
      "learning_rate": 0.0005926880609857798,
      "loss": 1.8279,
      "step": 6350
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42074882984161377,
      "learning_rate": 0.0005926857672362549,
      "loss": 1.7731,
      "step": 6351
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4177493155002594,
      "learning_rate": 0.0005926834731314525,
      "loss": 1.8112,
      "step": 6352
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41362154483795166,
      "learning_rate": 0.0005926811786713756,
      "loss": 1.8366,
      "step": 6353
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4301811158657074,
      "learning_rate": 0.0005926788838560268,
      "loss": 1.7835,
      "step": 6354
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4229746162891388,
      "learning_rate": 0.0005926765886854091,
      "loss": 1.7788,
      "step": 6355
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42068392038345337,
      "learning_rate": 0.000592674293159525,
      "loss": 1.7538,
      "step": 6356
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4137399196624756,
      "learning_rate": 0.0005926719972783775,
      "loss": 1.8447,
      "step": 6357
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40665754675865173,
      "learning_rate": 0.0005926697010419693,
      "loss": 1.8152,
      "step": 6358
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4106837511062622,
      "learning_rate": 0.0005926674044503033,
      "loss": 1.7912,
      "step": 6359
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4077504873275757,
      "learning_rate": 0.0005926651075033821,
      "loss": 1.7464,
      "step": 6360
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41151538491249084,
      "learning_rate": 0.0005926628102012085,
      "loss": 1.8047,
      "step": 6361
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40840110182762146,
      "learning_rate": 0.0005926605125437855,
      "loss": 1.8615,
      "step": 6362
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4119543135166168,
      "learning_rate": 0.0005926582145311157,
      "loss": 1.8777,
      "step": 6363
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4253467321395874,
      "learning_rate": 0.0005926559161632019,
      "loss": 1.8773,
      "step": 6364
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40846577286720276,
      "learning_rate": 0.000592653617440047,
      "loss": 1.8669,
      "step": 6365
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4098367989063263,
      "learning_rate": 0.0005926513183616537,
      "loss": 1.8723,
      "step": 6366
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4067055583000183,
      "learning_rate": 0.0005926490189280249,
      "loss": 1.8782,
      "step": 6367
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4278583228588104,
      "learning_rate": 0.0005926467191391632,
      "loss": 1.8701,
      "step": 6368
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4186893701553345,
      "learning_rate": 0.0005926444189950715,
      "loss": 1.899,
      "step": 6369
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4359646439552307,
      "learning_rate": 0.0005926421184957527,
      "loss": 1.8435,
      "step": 6370
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41552191972732544,
      "learning_rate": 0.0005926398176412095,
      "loss": 1.7955,
      "step": 6371
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4138062000274658,
      "learning_rate": 0.0005926375164314446,
      "loss": 1.7866,
      "step": 6372
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42163345217704773,
      "learning_rate": 0.0005926352148664608,
      "loss": 1.8413,
      "step": 6373
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4120625853538513,
      "learning_rate": 0.0005926329129462612,
      "loss": 1.8742,
      "step": 6374
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.39839988946914673,
      "learning_rate": 0.0005926306106708482,
      "loss": 1.7706,
      "step": 6375
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4839642643928528,
      "learning_rate": 0.0005926283080402247,
      "loss": 1.848,
      "step": 6376
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4222680628299713,
      "learning_rate": 0.0005926260050543936,
      "loss": 1.8244,
      "step": 6377
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41072216629981995,
      "learning_rate": 0.0005926237017133577,
      "loss": 1.8839,
      "step": 6378
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42202407121658325,
      "learning_rate": 0.0005926213980171198,
      "loss": 1.8171,
      "step": 6379
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.421089231967926,
      "learning_rate": 0.0005926190939656825,
      "loss": 1.7772,
      "step": 6380
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42468443512916565,
      "learning_rate": 0.0005926167895590487,
      "loss": 1.8325,
      "step": 6381
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4090923070907593,
      "learning_rate": 0.0005926144847972213,
      "loss": 1.8303,
      "step": 6382
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4163496494293213,
      "learning_rate": 0.0005926121796802032,
      "loss": 1.7716,
      "step": 6383
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42991822957992554,
      "learning_rate": 0.0005926098742079968,
      "loss": 1.7931,
      "step": 6384
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40872666239738464,
      "learning_rate": 0.0005926075683806053,
      "loss": 1.7677,
      "step": 6385
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4489225745201111,
      "learning_rate": 0.0005926052621980311,
      "loss": 1.9213,
      "step": 6386
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4165763258934021,
      "learning_rate": 0.0005926029556602774,
      "loss": 1.7695,
      "step": 6387
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4588342010974884,
      "learning_rate": 0.0005926006487673468,
      "loss": 1.8343,
      "step": 6388
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41431474685668945,
      "learning_rate": 0.0005925983415192421,
      "loss": 1.8748,
      "step": 6389
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4382324516773224,
      "learning_rate": 0.0005925960339159661,
      "loss": 1.9236,
      "step": 6390
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4183863699436188,
      "learning_rate": 0.0005925937259575217,
      "loss": 1.822,
      "step": 6391
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.44109392166137695,
      "learning_rate": 0.0005925914176439116,
      "loss": 1.9054,
      "step": 6392
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4143296480178833,
      "learning_rate": 0.0005925891089751386,
      "loss": 1.8635,
      "step": 6393
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43828558921813965,
      "learning_rate": 0.0005925867999512055,
      "loss": 1.8709,
      "step": 6394
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4310591220855713,
      "learning_rate": 0.0005925844905721152,
      "loss": 1.7638,
      "step": 6395
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4120650291442871,
      "learning_rate": 0.0005925821808378704,
      "loss": 1.9025,
      "step": 6396
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40614229440689087,
      "learning_rate": 0.0005925798707484741,
      "loss": 1.8164,
      "step": 6397
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4412487745285034,
      "learning_rate": 0.0005925775603039287,
      "loss": 1.8173,
      "step": 6398
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4212803244590759,
      "learning_rate": 0.0005925752495042374,
      "loss": 1.84,
      "step": 6399
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42641401290893555,
      "learning_rate": 0.0005925729383494028,
      "loss": 1.8513,
      "step": 6400
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43674665689468384,
      "learning_rate": 0.0005925706268394277,
      "loss": 1.8833,
      "step": 6401
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4009447991847992,
      "learning_rate": 0.0005925683149743152,
      "loss": 1.8294,
      "step": 6402
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4159083366394043,
      "learning_rate": 0.0005925660027540677,
      "loss": 1.8418,
      "step": 6403
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42269906401634216,
      "learning_rate": 0.0005925636901786882,
      "loss": 1.82,
      "step": 6404
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.43707138299942017,
      "learning_rate": 0.0005925613772481794,
      "loss": 1.9837,
      "step": 6405
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41318953037261963,
      "learning_rate": 0.0005925590639625443,
      "loss": 1.8074,
      "step": 6406
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3986048698425293,
      "learning_rate": 0.0005925567503217857,
      "loss": 1.7863,
      "step": 6407
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41543516516685486,
      "learning_rate": 0.0005925544363259061,
      "loss": 1.8557,
      "step": 6408
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41646674275398254,
      "learning_rate": 0.0005925521219749087,
      "loss": 1.8312,
      "step": 6409
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4082297682762146,
      "learning_rate": 0.000592549807268796,
      "loss": 1.8568,
      "step": 6410
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4135532081127167,
      "learning_rate": 0.0005925474922075709,
      "loss": 1.7783,
      "step": 6411
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4274713099002838,
      "learning_rate": 0.0005925451767912365,
      "loss": 1.838,
      "step": 6412
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41739875078201294,
      "learning_rate": 0.0005925428610197951,
      "loss": 1.7989,
      "step": 6413
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41598260402679443,
      "learning_rate": 0.0005925405448932499,
      "loss": 1.8789,
      "step": 6414
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4253414571285248,
      "learning_rate": 0.0005925382284116036,
      "loss": 1.882,
      "step": 6415
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40334171056747437,
      "learning_rate": 0.0005925359115748588,
      "loss": 1.8468,
      "step": 6416
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4263135492801666,
      "learning_rate": 0.0005925335943830187,
      "loss": 1.8909,
      "step": 6417
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4147770404815674,
      "learning_rate": 0.0005925312768360859,
      "loss": 1.7772,
      "step": 6418
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42770954966545105,
      "learning_rate": 0.0005925289589340633,
      "loss": 1.884,
      "step": 6419
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4231818914413452,
      "learning_rate": 0.0005925266406769535,
      "loss": 1.8709,
      "step": 6420
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42100590467453003,
      "learning_rate": 0.0005925243220647595,
      "loss": 1.8526,
      "step": 6421
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41818177700042725,
      "learning_rate": 0.000592522003097484,
      "loss": 1.7679,
      "step": 6422
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4169398546218872,
      "learning_rate": 0.0005925196837751301,
      "loss": 1.9034,
      "step": 6423
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42620909214019775,
      "learning_rate": 0.0005925173640977002,
      "loss": 1.8303,
      "step": 6424
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42414548993110657,
      "learning_rate": 0.0005925150440651974,
      "loss": 1.8578,
      "step": 6425
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4273516535758972,
      "learning_rate": 0.0005925127236776245,
      "loss": 1.838,
      "step": 6426
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42096614837646484,
      "learning_rate": 0.0005925104029349841,
      "loss": 1.8344,
      "step": 6427
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4793239235877991,
      "learning_rate": 0.0005925080818372792,
      "loss": 1.8526,
      "step": 6428
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4428699016571045,
      "learning_rate": 0.0005925057603845127,
      "loss": 1.8676,
      "step": 6429
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4214492738246918,
      "learning_rate": 0.0005925034385766872,
      "loss": 1.7897,
      "step": 6430
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41153684258461,
      "learning_rate": 0.0005925011164138057,
      "loss": 1.7841,
      "step": 6431
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4403969645500183,
      "learning_rate": 0.000592498793895871,
      "loss": 1.7801,
      "step": 6432
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41774076223373413,
      "learning_rate": 0.0005924964710228857,
      "loss": 1.7538,
      "step": 6433
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4233202040195465,
      "learning_rate": 0.0005924941477948529,
      "loss": 1.7508,
      "step": 6434
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4323127269744873,
      "learning_rate": 0.0005924918242117753,
      "loss": 1.8055,
      "step": 6435
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4220564067363739,
      "learning_rate": 0.0005924895002736556,
      "loss": 1.8619,
      "step": 6436
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4389462471008301,
      "learning_rate": 0.0005924871759804968,
      "loss": 1.8996,
      "step": 6437
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4180995225906372,
      "learning_rate": 0.0005924848513323017,
      "loss": 1.8261,
      "step": 6438
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4218199849128723,
      "learning_rate": 0.0005924825263290731,
      "loss": 1.8763,
      "step": 6439
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41150757670402527,
      "learning_rate": 0.0005924802009708138,
      "loss": 1.8567,
      "step": 6440
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4255404472351074,
      "learning_rate": 0.0005924778752575267,
      "loss": 1.8214,
      "step": 6441
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4228636920452118,
      "learning_rate": 0.0005924755491892145,
      "loss": 1.8236,
      "step": 6442
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41564226150512695,
      "learning_rate": 0.0005924732227658799,
      "loss": 1.8111,
      "step": 6443
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41371655464172363,
      "learning_rate": 0.000592470895987526,
      "loss": 1.8284,
      "step": 6444
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4248621165752411,
      "learning_rate": 0.0005924685688541557,
      "loss": 1.8088,
      "step": 6445
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42135176062583923,
      "learning_rate": 0.0005924662413657715,
      "loss": 1.8117,
      "step": 6446
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4224371612071991,
      "learning_rate": 0.0005924639135223764,
      "loss": 1.836,
      "step": 6447
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4174208641052246,
      "learning_rate": 0.0005924615853239733,
      "loss": 1.8531,
      "step": 6448
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4176623225212097,
      "learning_rate": 0.0005924592567705648,
      "loss": 1.857,
      "step": 6449
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4499545395374298,
      "learning_rate": 0.0005924569278621539,
      "loss": 1.8382,
      "step": 6450
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.42996135354042053,
      "learning_rate": 0.0005924545985987433,
      "loss": 1.7926,
      "step": 6451
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4200316071510315,
      "learning_rate": 0.000592452268980336,
      "loss": 1.8127,
      "step": 6452
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4306917190551758,
      "learning_rate": 0.0005924499390069347,
      "loss": 1.8716,
      "step": 6453
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4210531413555145,
      "learning_rate": 0.0005924476086785423,
      "loss": 1.7821,
      "step": 6454
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4192254841327667,
      "learning_rate": 0.0005924452779951615,
      "loss": 1.7388,
      "step": 6455
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4200049340724945,
      "learning_rate": 0.0005924429469567954,
      "loss": 1.8352,
      "step": 6456
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4147113561630249,
      "learning_rate": 0.0005924406155634464,
      "loss": 1.8597,
      "step": 6457
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4108114242553711,
      "learning_rate": 0.0005924382838151178,
      "loss": 1.7595,
      "step": 6458
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4131660461425781,
      "learning_rate": 0.0005924359517118121,
      "loss": 1.8073,
      "step": 6459
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.426493376493454,
      "learning_rate": 0.0005924336192535323,
      "loss": 1.7731,
      "step": 6460
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4213624894618988,
      "learning_rate": 0.0005924312864402811,
      "loss": 1.8754,
      "step": 6461
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.41858360171318054,
      "learning_rate": 0.0005924289532720616,
      "loss": 1.8366,
      "step": 6462
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40934592485427856,
      "learning_rate": 0.0005924266197488762,
      "loss": 1.7482,
      "step": 6463
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42005863785743713,
      "learning_rate": 0.0005924242858707281,
      "loss": 1.8228,
      "step": 6464
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4265616238117218,
      "learning_rate": 0.00059242195163762,
      "loss": 1.7956,
      "step": 6465
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.425180047750473,
      "learning_rate": 0.0005924196170495547,
      "loss": 1.8639,
      "step": 6466
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4095625579357147,
      "learning_rate": 0.000592417282106535,
      "loss": 1.7929,
      "step": 6467
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41225671768188477,
      "learning_rate": 0.0005924149468085639,
      "loss": 1.8383,
      "step": 6468
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4175441265106201,
      "learning_rate": 0.0005924126111556442,
      "loss": 1.855,
      "step": 6469
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41570645570755005,
      "learning_rate": 0.0005924102751477786,
      "loss": 1.8794,
      "step": 6470
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43667250871658325,
      "learning_rate": 0.00059240793878497,
      "loss": 1.7643,
      "step": 6471
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.431720107793808,
      "learning_rate": 0.0005924056020672213,
      "loss": 1.7811,
      "step": 6472
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.418860524892807,
      "learning_rate": 0.0005924032649945352,
      "loss": 1.8933,
      "step": 6473
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42229336500167847,
      "learning_rate": 0.0005924009275669146,
      "loss": 1.845,
      "step": 6474
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4097999334335327,
      "learning_rate": 0.0005923985897843626,
      "loss": 1.8239,
      "step": 6475
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42546045780181885,
      "learning_rate": 0.0005923962516468815,
      "loss": 1.8583,
      "step": 6476
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4138610363006592,
      "learning_rate": 0.0005923939131544745,
      "loss": 1.8006,
      "step": 6477
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41128551959991455,
      "learning_rate": 0.0005923915743071444,
      "loss": 1.8157,
      "step": 6478
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4086846709251404,
      "learning_rate": 0.0005923892351048941,
      "loss": 1.8164,
      "step": 6479
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4228076636791229,
      "learning_rate": 0.0005923868955477262,
      "loss": 1.8342,
      "step": 6480
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4260950982570648,
      "learning_rate": 0.0005923845556356439,
      "loss": 1.9756,
      "step": 6481
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41533997654914856,
      "learning_rate": 0.0005923822153686497,
      "loss": 1.828,
      "step": 6482
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41049617528915405,
      "learning_rate": 0.0005923798747467465,
      "loss": 1.898,
      "step": 6483
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41404420137405396,
      "learning_rate": 0.0005923775337699373,
      "loss": 1.7669,
      "step": 6484
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42977216839790344,
      "learning_rate": 0.0005923751924382248,
      "loss": 1.8112,
      "step": 6485
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4323742985725403,
      "learning_rate": 0.0005923728507516119,
      "loss": 1.8529,
      "step": 6486
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.412514328956604,
      "learning_rate": 0.0005923705087101015,
      "loss": 1.7922,
      "step": 6487
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4120037853717804,
      "learning_rate": 0.0005923681663136963,
      "loss": 1.7721,
      "step": 6488
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4512282609939575,
      "learning_rate": 0.0005923658235623993,
      "loss": 1.9258,
      "step": 6489
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.437881737947464,
      "learning_rate": 0.0005923634804562133,
      "loss": 1.8851,
      "step": 6490
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4291727840900421,
      "learning_rate": 0.000592361136995141,
      "loss": 1.8217,
      "step": 6491
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42269712686538696,
      "learning_rate": 0.0005923587931791855,
      "loss": 1.9339,
      "step": 6492
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43031424283981323,
      "learning_rate": 0.0005923564490083494,
      "loss": 1.8119,
      "step": 6493
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.509621798992157,
      "learning_rate": 0.0005923541044826357,
      "loss": 1.8955,
      "step": 6494
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4311179220676422,
      "learning_rate": 0.000592351759602047,
      "loss": 1.8221,
      "step": 6495
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4080328643321991,
      "learning_rate": 0.0005923494143665866,
      "loss": 1.7587,
      "step": 6496
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41634199023246765,
      "learning_rate": 0.000592347068776257,
      "loss": 1.8193,
      "step": 6497
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4254423677921295,
      "learning_rate": 0.0005923447228310611,
      "loss": 1.8091,
      "step": 6498
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4145679175853729,
      "learning_rate": 0.0005923423765310018,
      "loss": 1.7805,
      "step": 6499
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43338868021965027,
      "learning_rate": 0.000592340029876082,
      "loss": 1.8166,
      "step": 6500
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4304637014865875,
      "learning_rate": 0.0005923376828663044,
      "loss": 1.8202,
      "step": 6501
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4239172339439392,
      "learning_rate": 0.0005923353355016718,
      "loss": 1.8531,
      "step": 6502
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4141809940338135,
      "learning_rate": 0.0005923329877821874,
      "loss": 1.8694,
      "step": 6503
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44989484548568726,
      "learning_rate": 0.0005923306397078537,
      "loss": 1.933,
      "step": 6504
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41980990767478943,
      "learning_rate": 0.0005923282912786737,
      "loss": 1.8457,
      "step": 6505
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41575154662132263,
      "learning_rate": 0.0005923259424946502,
      "loss": 1.8168,
      "step": 6506
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4140765964984894,
      "learning_rate": 0.0005923235933557862,
      "loss": 1.9011,
      "step": 6507
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41848790645599365,
      "learning_rate": 0.0005923212438620843,
      "loss": 1.8902,
      "step": 6508
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4099056124687195,
      "learning_rate": 0.0005923188940135475,
      "loss": 1.8436,
      "step": 6509
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41588184237480164,
      "learning_rate": 0.0005923165438101787,
      "loss": 1.8267,
      "step": 6510
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.411676287651062,
      "learning_rate": 0.0005923141932519806,
      "loss": 1.8483,
      "step": 6511
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41068488359451294,
      "learning_rate": 0.0005923118423389563,
      "loss": 1.9079,
      "step": 6512
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4174797534942627,
      "learning_rate": 0.0005923094910711083,
      "loss": 1.8196,
      "step": 6513
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40563416481018066,
      "learning_rate": 0.0005923071394484398,
      "loss": 1.7232,
      "step": 6514
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4015517234802246,
      "learning_rate": 0.0005923047874709534,
      "loss": 1.8688,
      "step": 6515
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43509310483932495,
      "learning_rate": 0.0005923024351386521,
      "loss": 1.844,
      "step": 6516
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4222241938114166,
      "learning_rate": 0.0005923000824515387,
      "loss": 1.8451,
      "step": 6517
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4080849885940552,
      "learning_rate": 0.000592297729409616,
      "loss": 1.9035,
      "step": 6518
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4333394169807434,
      "learning_rate": 0.000592295376012887,
      "loss": 1.8511,
      "step": 6519
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4189995527267456,
      "learning_rate": 0.0005922930222613546,
      "loss": 1.8787,
      "step": 6520
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4254316985607147,
      "learning_rate": 0.0005922906681550214,
      "loss": 1.8295,
      "step": 6521
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42261338233947754,
      "learning_rate": 0.0005922883136938904,
      "loss": 1.9363,
      "step": 6522
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4188307523727417,
      "learning_rate": 0.0005922859588779643,
      "loss": 1.8862,
      "step": 6523
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41605472564697266,
      "learning_rate": 0.0005922836037072464,
      "loss": 1.7753,
      "step": 6524
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40555617213249207,
      "learning_rate": 0.0005922812481817392,
      "loss": 1.7047,
      "step": 6525
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4190475344657898,
      "learning_rate": 0.0005922788923014455,
      "loss": 1.881,
      "step": 6526
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41788816452026367,
      "learning_rate": 0.0005922765360663684,
      "loss": 1.8882,
      "step": 6527
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4079603850841522,
      "learning_rate": 0.0005922741794765106,
      "loss": 1.9314,
      "step": 6528
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40887680649757385,
      "learning_rate": 0.000592271822531875,
      "loss": 1.8606,
      "step": 6529
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41897377371788025,
      "learning_rate": 0.0005922694652324645,
      "loss": 1.8812,
      "step": 6530
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4159892499446869,
      "learning_rate": 0.000592267107578282,
      "loss": 1.8684,
      "step": 6531
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40545886754989624,
      "learning_rate": 0.0005922647495693302,
      "loss": 1.8215,
      "step": 6532
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4156062602996826,
      "learning_rate": 0.000592262391205612,
      "loss": 1.8394,
      "step": 6533
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41448596119880676,
      "learning_rate": 0.0005922600324871304,
      "loss": 1.8818,
      "step": 6534
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41749659180641174,
      "learning_rate": 0.0005922576734138882,
      "loss": 1.8801,
      "step": 6535
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41146665811538696,
      "learning_rate": 0.0005922553139858884,
      "loss": 1.8352,
      "step": 6536
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4029426574707031,
      "learning_rate": 0.0005922529542031334,
      "loss": 1.7793,
      "step": 6537
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4227936863899231,
      "learning_rate": 0.0005922505940656266,
      "loss": 1.8089,
      "step": 6538
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42775610089302063,
      "learning_rate": 0.0005922482335733706,
      "loss": 1.7806,
      "step": 6539
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4221453070640564,
      "learning_rate": 0.0005922458727263682,
      "loss": 1.8451,
      "step": 6540
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4376084804534912,
      "learning_rate": 0.0005922435115246225,
      "loss": 1.9132,
      "step": 6541
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4181232750415802,
      "learning_rate": 0.0005922411499681361,
      "loss": 1.803,
      "step": 6542
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44760996103286743,
      "learning_rate": 0.0005922387880569121,
      "loss": 1.8517,
      "step": 6543
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4181433618068695,
      "learning_rate": 0.0005922364257909533,
      "loss": 1.8533,
      "step": 6544
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4078340530395508,
      "learning_rate": 0.0005922340631702625,
      "loss": 1.9179,
      "step": 6545
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4955091178417206,
      "learning_rate": 0.0005922317001948426,
      "loss": 1.8145,
      "step": 6546
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4087976813316345,
      "learning_rate": 0.0005922293368646963,
      "loss": 1.8326,
      "step": 6547
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4153588116168976,
      "learning_rate": 0.0005922269731798269,
      "loss": 1.7877,
      "step": 6548
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4136652648448944,
      "learning_rate": 0.0005922246091402369,
      "loss": 1.8834,
      "step": 6549
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44525936245918274,
      "learning_rate": 0.0005922222447459292,
      "loss": 1.7873,
      "step": 6550
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41325870156288147,
      "learning_rate": 0.0005922198799969069,
      "loss": 1.8504,
      "step": 6551
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.449758380651474,
      "learning_rate": 0.0005922175148931727,
      "loss": 1.8878,
      "step": 6552
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4320238530635834,
      "learning_rate": 0.0005922151494347295,
      "loss": 1.8757,
      "step": 6553
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41620072722435,
      "learning_rate": 0.0005922127836215801,
      "loss": 1.814,
      "step": 6554
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4410882294178009,
      "learning_rate": 0.0005922104174537275,
      "loss": 1.8546,
      "step": 6555
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4174148142337799,
      "learning_rate": 0.0005922080509311744,
      "loss": 1.8124,
      "step": 6556
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4250161051750183,
      "learning_rate": 0.0005922056840539239,
      "loss": 1.8035,
      "step": 6557
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4409938454627991,
      "learning_rate": 0.0005922033168219787,
      "loss": 1.8628,
      "step": 6558
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4390520751476288,
      "learning_rate": 0.0005922009492353418,
      "loss": 1.8134,
      "step": 6559
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4126579761505127,
      "learning_rate": 0.000592198581294016,
      "loss": 1.9005,
      "step": 6560
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41273677349090576,
      "learning_rate": 0.000592196212998004,
      "loss": 1.8464,
      "step": 6561
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4330331087112427,
      "learning_rate": 0.0005921938443473091,
      "loss": 1.8767,
      "step": 6562
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42782267928123474,
      "learning_rate": 0.0005921914753419337,
      "loss": 1.9172,
      "step": 6563
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44130173325538635,
      "learning_rate": 0.0005921891059818811,
      "loss": 1.7869,
      "step": 6564
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4163210391998291,
      "learning_rate": 0.0005921867362671539,
      "loss": 1.7731,
      "step": 6565
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43077218532562256,
      "learning_rate": 0.000592184366197755,
      "loss": 1.7549,
      "step": 6566
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4217667579650879,
      "learning_rate": 0.0005921819957736872,
      "loss": 1.9214,
      "step": 6567
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4225458800792694,
      "learning_rate": 0.0005921796249949538,
      "loss": 1.8366,
      "step": 6568
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43993622064590454,
      "learning_rate": 0.0005921772538615573,
      "loss": 1.8059,
      "step": 6569
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4411165118217468,
      "learning_rate": 0.0005921748823735005,
      "loss": 1.8173,
      "step": 6570
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41623741388320923,
      "learning_rate": 0.0005921725105307866,
      "loss": 1.781,
      "step": 6571
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4132205545902252,
      "learning_rate": 0.0005921701383334182,
      "loss": 1.8081,
      "step": 6572
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4450046420097351,
      "learning_rate": 0.0005921677657813985,
      "loss": 1.8078,
      "step": 6573
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42700332403182983,
      "learning_rate": 0.00059216539287473,
      "loss": 1.8558,
      "step": 6574
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41459545493125916,
      "learning_rate": 0.0005921630196134159,
      "loss": 1.7507,
      "step": 6575
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4251613914966583,
      "learning_rate": 0.0005921606459974588,
      "loss": 1.8872,
      "step": 6576
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42404207587242126,
      "learning_rate": 0.0005921582720268618,
      "loss": 1.9234,
      "step": 6577
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4111666977405548,
      "learning_rate": 0.0005921558977016277,
      "loss": 1.8785,
      "step": 6578
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4125157296657562,
      "learning_rate": 0.0005921535230217594,
      "loss": 1.8372,
      "step": 6579
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4335392713546753,
      "learning_rate": 0.0005921511479872598,
      "loss": 1.831,
      "step": 6580
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40773072838783264,
      "learning_rate": 0.0005921487725981317,
      "loss": 1.773,
      "step": 6581
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40612611174583435,
      "learning_rate": 0.0005921463968543779,
      "loss": 1.805,
      "step": 6582
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42597562074661255,
      "learning_rate": 0.0005921440207560016,
      "loss": 1.7868,
      "step": 6583
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4223848283290863,
      "learning_rate": 0.0005921416443030055,
      "loss": 1.8118,
      "step": 6584
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41759273409843445,
      "learning_rate": 0.0005921392674953925,
      "loss": 1.7862,
      "step": 6585
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4213649034500122,
      "learning_rate": 0.0005921368903331654,
      "loss": 1.8458,
      "step": 6586
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4351065456867218,
      "learning_rate": 0.0005921345128163272,
      "loss": 1.8119,
      "step": 6587
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44388940930366516,
      "learning_rate": 0.0005921321349448807,
      "loss": 1.7951,
      "step": 6588
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42762789130210876,
      "learning_rate": 0.0005921297567188289,
      "loss": 1.8751,
      "step": 6589
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4197405278682709,
      "learning_rate": 0.0005921273781381745,
      "loss": 1.8319,
      "step": 6590
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43722695112228394,
      "learning_rate": 0.0005921249992029207,
      "loss": 1.8971,
      "step": 6591
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43571823835372925,
      "learning_rate": 0.00059212261991307,
      "loss": 1.8008,
      "step": 6592
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41944509744644165,
      "learning_rate": 0.0005921202402686256,
      "loss": 1.9221,
      "step": 6593
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4247223138809204,
      "learning_rate": 0.0005921178602695902,
      "loss": 1.8962,
      "step": 6594
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41322726011276245,
      "learning_rate": 0.0005921154799159668,
      "loss": 1.8616,
      "step": 6595
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4216824769973755,
      "learning_rate": 0.0005921130992077582,
      "loss": 1.8301,
      "step": 6596
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4494858682155609,
      "learning_rate": 0.0005921107181449674,
      "loss": 1.8418,
      "step": 6597
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41421017050743103,
      "learning_rate": 0.0005921083367275972,
      "loss": 1.7823,
      "step": 6598
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4266011714935303,
      "learning_rate": 0.0005921059549556506,
      "loss": 1.8899,
      "step": 6599
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4184122681617737,
      "learning_rate": 0.0005921035728291303,
      "loss": 1.833,
      "step": 6600
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4235086739063263,
      "learning_rate": 0.0005921011903480393,
      "loss": 1.8583,
      "step": 6601
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4080325663089752,
      "learning_rate": 0.0005920988075123806,
      "loss": 1.8439,
      "step": 6602
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4106867015361786,
      "learning_rate": 0.0005920964243221569,
      "loss": 1.8558,
      "step": 6603
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42005524039268494,
      "learning_rate": 0.0005920940407773712,
      "loss": 1.9209,
      "step": 6604
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41654661297798157,
      "learning_rate": 0.0005920916568780265,
      "loss": 1.8865,
      "step": 6605
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44259053468704224,
      "learning_rate": 0.0005920892726241254,
      "loss": 1.7918,
      "step": 6606
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40996503829956055,
      "learning_rate": 0.0005920868880156709,
      "loss": 1.8076,
      "step": 6607
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44847699999809265,
      "learning_rate": 0.0005920845030526661,
      "loss": 1.8378,
      "step": 6608
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40101826190948486,
      "learning_rate": 0.0005920821177351137,
      "loss": 1.8399,
      "step": 6609
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4173961281776428,
      "learning_rate": 0.0005920797320630167,
      "loss": 1.8063,
      "step": 6610
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4201923608779907,
      "learning_rate": 0.0005920773460363779,
      "loss": 1.7846,
      "step": 6611
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41807037591934204,
      "learning_rate": 0.0005920749596552002,
      "loss": 1.8281,
      "step": 6612
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4292496144771576,
      "learning_rate": 0.0005920725729194866,
      "loss": 1.8497,
      "step": 6613
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4245549440383911,
      "learning_rate": 0.0005920701858292399,
      "loss": 1.8647,
      "step": 6614
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40756309032440186,
      "learning_rate": 0.000592067798384463,
      "loss": 1.8857,
      "step": 6615
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42122337222099304,
      "learning_rate": 0.0005920654105851589,
      "loss": 1.8268,
      "step": 6616
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4416544735431671,
      "learning_rate": 0.0005920630224313303,
      "loss": 1.836,
      "step": 6617
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42583030462265015,
      "learning_rate": 0.0005920606339229803,
      "loss": 1.9072,
      "step": 6618
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4341593384742737,
      "learning_rate": 0.0005920582450601118,
      "loss": 1.8217,
      "step": 6619
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41439521312713623,
      "learning_rate": 0.0005920558558427275,
      "loss": 1.8584,
      "step": 6620
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41167017817497253,
      "learning_rate": 0.0005920534662708305,
      "loss": 1.8197,
      "step": 6621
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40581780672073364,
      "learning_rate": 0.0005920510763444235,
      "loss": 1.7827,
      "step": 6622
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41842642426490784,
      "learning_rate": 0.0005920486860635097,
      "loss": 1.8864,
      "step": 6623
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41463208198547363,
      "learning_rate": 0.0005920462954280918,
      "loss": 1.7953,
      "step": 6624
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4113042950630188,
      "learning_rate": 0.0005920439044381726,
      "loss": 1.7992,
      "step": 6625
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3937758505344391,
      "learning_rate": 0.0005920415130937553,
      "loss": 1.8129,
      "step": 6626
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40781453251838684,
      "learning_rate": 0.0005920391213948425,
      "loss": 1.8265,
      "step": 6627
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3965373933315277,
      "learning_rate": 0.0005920367293414373,
      "loss": 1.7589,
      "step": 6628
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4066201448440552,
      "learning_rate": 0.0005920343369335424,
      "loss": 1.8303,
      "step": 6629
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4250369668006897,
      "learning_rate": 0.000592031944171161,
      "loss": 1.8246,
      "step": 6630
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4160767197608948,
      "learning_rate": 0.0005920295510542958,
      "loss": 1.8101,
      "step": 6631
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4294757544994354,
      "learning_rate": 0.0005920271575829498,
      "loss": 1.8089,
      "step": 6632
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4155580401420593,
      "learning_rate": 0.0005920247637571258,
      "loss": 1.7774,
      "step": 6633
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41921284794807434,
      "learning_rate": 0.0005920223695768268,
      "loss": 1.8039,
      "step": 6634
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4315241277217865,
      "learning_rate": 0.0005920199750420556,
      "loss": 1.8793,
      "step": 6635
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4060954749584198,
      "learning_rate": 0.0005920175801528152,
      "loss": 1.8903,
      "step": 6636
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43256875872612,
      "learning_rate": 0.0005920151849091086,
      "loss": 1.8616,
      "step": 6637
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4156266450881958,
      "learning_rate": 0.0005920127893109385,
      "loss": 1.8236,
      "step": 6638
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.413443922996521,
      "learning_rate": 0.0005920103933583079,
      "loss": 1.839,
      "step": 6639
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4128503203392029,
      "learning_rate": 0.0005920079970512198,
      "loss": 1.8987,
      "step": 6640
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41650354862213135,
      "learning_rate": 0.0005920056003896768,
      "loss": 1.8152,
      "step": 6641
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3991559147834778,
      "learning_rate": 0.0005920032033736822,
      "loss": 1.781,
      "step": 6642
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4054740369319916,
      "learning_rate": 0.0005920008060032387,
      "loss": 1.8164,
      "step": 6643
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4372953474521637,
      "learning_rate": 0.0005919984082783493,
      "loss": 1.8757,
      "step": 6644
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4023895263671875,
      "learning_rate": 0.0005919960101990169,
      "loss": 1.8471,
      "step": 6645
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4072970151901245,
      "learning_rate": 0.0005919936117652442,
      "loss": 1.7512,
      "step": 6646
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4008690118789673,
      "learning_rate": 0.0005919912129770343,
      "loss": 1.8191,
      "step": 6647
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4089721143245697,
      "learning_rate": 0.0005919888138343901,
      "loss": 1.6985,
      "step": 6648
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41642525792121887,
      "learning_rate": 0.0005919864143373145,
      "loss": 1.8738,
      "step": 6649
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4134085476398468,
      "learning_rate": 0.0005919840144858105,
      "loss": 1.7855,
      "step": 6650
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40929102897644043,
      "learning_rate": 0.0005919816142798809,
      "loss": 1.8289,
      "step": 6651
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4098183214664459,
      "learning_rate": 0.0005919792137195286,
      "loss": 1.7532,
      "step": 6652
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40877825021743774,
      "learning_rate": 0.0005919768128047566,
      "loss": 1.8196,
      "step": 6653
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42752769589424133,
      "learning_rate": 0.0005919744115355678,
      "loss": 1.873,
      "step": 6654
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4092629849910736,
      "learning_rate": 0.000591972009911965,
      "loss": 1.7634,
      "step": 6655
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4050436317920685,
      "learning_rate": 0.0005919696079339513,
      "loss": 1.7894,
      "step": 6656
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4179416596889496,
      "learning_rate": 0.0005919672056015294,
      "loss": 1.8695,
      "step": 6657
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4259720742702484,
      "learning_rate": 0.0005919648029147023,
      "loss": 1.8226,
      "step": 6658
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4178736209869385,
      "learning_rate": 0.000591962399873473,
      "loss": 1.7646,
      "step": 6659
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4288797974586487,
      "learning_rate": 0.0005919599964778445,
      "loss": 1.8795,
      "step": 6660
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42217105627059937,
      "learning_rate": 0.0005919575927278195,
      "loss": 1.7927,
      "step": 6661
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43059042096138,
      "learning_rate": 0.0005919551886234009,
      "loss": 1.8369,
      "step": 6662
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4214898347854614,
      "learning_rate": 0.0005919527841645918,
      "loss": 1.7734,
      "step": 6663
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4151493012905121,
      "learning_rate": 0.0005919503793513951,
      "loss": 1.7916,
      "step": 6664
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4467926323413849,
      "learning_rate": 0.0005919479741838136,
      "loss": 1.8255,
      "step": 6665
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4578779935836792,
      "learning_rate": 0.0005919455686618502,
      "loss": 1.7899,
      "step": 6666
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4148070216178894,
      "learning_rate": 0.000591943162785508,
      "loss": 1.731,
      "step": 6667
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4342311918735504,
      "learning_rate": 0.0005919407565547897,
      "loss": 1.8533,
      "step": 6668
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41049668192863464,
      "learning_rate": 0.0005919383499696985,
      "loss": 1.8485,
      "step": 6669
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4366459846496582,
      "learning_rate": 0.0005919359430302372,
      "loss": 1.8206,
      "step": 6670
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4463627338409424,
      "learning_rate": 0.0005919335357364085,
      "loss": 1.8717,
      "step": 6671
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.407442182302475,
      "learning_rate": 0.0005919311280882155,
      "loss": 1.7809,
      "step": 6672
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4208389222621918,
      "learning_rate": 0.0005919287200856612,
      "loss": 1.7585,
      "step": 6673
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4180850684642792,
      "learning_rate": 0.0005919263117287484,
      "loss": 1.8581,
      "step": 6674
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4164499044418335,
      "learning_rate": 0.0005919239030174801,
      "loss": 1.8643,
      "step": 6675
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41261211037635803,
      "learning_rate": 0.0005919214939518592,
      "loss": 1.8283,
      "step": 6676
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41891130805015564,
      "learning_rate": 0.0005919190845318885,
      "loss": 1.8737,
      "step": 6677
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40585586428642273,
      "learning_rate": 0.0005919166747575713,
      "loss": 1.6992,
      "step": 6678
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40971076488494873,
      "learning_rate": 0.0005919142646289101,
      "loss": 1.8563,
      "step": 6679
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41318267583847046,
      "learning_rate": 0.000591911854145908,
      "loss": 1.8572,
      "step": 6680
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42668986320495605,
      "learning_rate": 0.000591909443308568,
      "loss": 1.7824,
      "step": 6681
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4212667644023895,
      "learning_rate": 0.0005919070321168928,
      "loss": 1.848,
      "step": 6682
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4493131935596466,
      "learning_rate": 0.0005919046205708856,
      "loss": 1.933,
      "step": 6683
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4078715741634369,
      "learning_rate": 0.0005919022086705492,
      "loss": 1.9187,
      "step": 6684
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4134202003479004,
      "learning_rate": 0.0005918997964158864,
      "loss": 1.8079,
      "step": 6685
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43950802087783813,
      "learning_rate": 0.0005918973838069003,
      "loss": 1.8618,
      "step": 6686
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4180278778076172,
      "learning_rate": 0.0005918949708435939,
      "loss": 1.8988,
      "step": 6687
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42289307713508606,
      "learning_rate": 0.00059189255752597,
      "loss": 1.9209,
      "step": 6688
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40705162286758423,
      "learning_rate": 0.0005918901438540314,
      "loss": 1.8443,
      "step": 6689
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4262969493865967,
      "learning_rate": 0.0005918877298277813,
      "loss": 1.8969,
      "step": 6690
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40953329205513,
      "learning_rate": 0.0005918853154472224,
      "loss": 1.7082,
      "step": 6691
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4195505976676941,
      "learning_rate": 0.0005918829007123578,
      "loss": 1.8958,
      "step": 6692
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4106556475162506,
      "learning_rate": 0.0005918804856231903,
      "loss": 1.8721,
      "step": 6693
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41933587193489075,
      "learning_rate": 0.000591878070179723,
      "loss": 1.8495,
      "step": 6694
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.433655709028244,
      "learning_rate": 0.0005918756543819587,
      "loss": 1.8043,
      "step": 6695
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41774195432662964,
      "learning_rate": 0.0005918732382299004,
      "loss": 1.8503,
      "step": 6696
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.410566121339798,
      "learning_rate": 0.000591870821723551,
      "loss": 1.7506,
      "step": 6697
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40213465690612793,
      "learning_rate": 0.0005918684048629133,
      "loss": 1.8784,
      "step": 6698
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4150516390800476,
      "learning_rate": 0.0005918659876479904,
      "loss": 1.8503,
      "step": 6699
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4328785538673401,
      "learning_rate": 0.0005918635700787853,
      "loss": 1.8327,
      "step": 6700
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4320138096809387,
      "learning_rate": 0.0005918611521553008,
      "loss": 1.849,
      "step": 6701
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42460402846336365,
      "learning_rate": 0.0005918587338775398,
      "loss": 1.8729,
      "step": 6702
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41368111968040466,
      "learning_rate": 0.0005918563152455054,
      "loss": 1.8239,
      "step": 6703
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4188520014286041,
      "learning_rate": 0.0005918538962592003,
      "loss": 1.8029,
      "step": 6704
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4174153506755829,
      "learning_rate": 0.0005918514769186276,
      "loss": 1.7962,
      "step": 6705
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40698879957199097,
      "learning_rate": 0.0005918490572237902,
      "loss": 1.7635,
      "step": 6706
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44218793511390686,
      "learning_rate": 0.0005918466371746911,
      "loss": 1.8148,
      "step": 6707
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4252622127532959,
      "learning_rate": 0.0005918442167713332,
      "loss": 1.786,
      "step": 6708
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43953487277030945,
      "learning_rate": 0.0005918417960137194,
      "loss": 1.875,
      "step": 6709
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42309606075286865,
      "learning_rate": 0.0005918393749018527,
      "loss": 1.8932,
      "step": 6710
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41698184609413147,
      "learning_rate": 0.000591836953435736,
      "loss": 1.856,
      "step": 6711
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.444013386964798,
      "learning_rate": 0.0005918345316153721,
      "loss": 1.8312,
      "step": 6712
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4548708498477936,
      "learning_rate": 0.0005918321094407642,
      "loss": 1.8031,
      "step": 6713
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.39816564321517944,
      "learning_rate": 0.000591829686911915,
      "loss": 1.7437,
      "step": 6714
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.428972452878952,
      "learning_rate": 0.0005918272640288277,
      "loss": 1.8594,
      "step": 6715
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.437265545129776,
      "learning_rate": 0.0005918248407915051,
      "loss": 1.7325,
      "step": 6716
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42539724707603455,
      "learning_rate": 0.0005918224171999501,
      "loss": 1.7746,
      "step": 6717
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43269822001457214,
      "learning_rate": 0.0005918199932541656,
      "loss": 1.8605,
      "step": 6718
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4079444706439972,
      "learning_rate": 0.0005918175689541547,
      "loss": 1.8442,
      "step": 6719
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.43780967593193054,
      "learning_rate": 0.0005918151442999203,
      "loss": 1.8918,
      "step": 6720
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4313461482524872,
      "learning_rate": 0.0005918127192914653,
      "loss": 1.8185,
      "step": 6721
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.44036009907722473,
      "learning_rate": 0.0005918102939287927,
      "loss": 1.8563,
      "step": 6722
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42221951484680176,
      "learning_rate": 0.0005918078682119052,
      "loss": 1.8375,
      "step": 6723
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4127318859100342,
      "learning_rate": 0.0005918054421408062,
      "loss": 1.8585,
      "step": 6724
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4469195604324341,
      "learning_rate": 0.0005918030157154983,
      "loss": 1.9326,
      "step": 6725
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4380243122577667,
      "learning_rate": 0.0005918005889359845,
      "loss": 1.8045,
      "step": 6726
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42299792170524597,
      "learning_rate": 0.0005917981618022678,
      "loss": 1.8069,
      "step": 6727
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40674951672554016,
      "learning_rate": 0.0005917957343143511,
      "loss": 1.8123,
      "step": 6728
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41689038276672363,
      "learning_rate": 0.0005917933064722373,
      "loss": 1.9017,
      "step": 6729
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41910919547080994,
      "learning_rate": 0.0005917908782759295,
      "loss": 1.8113,
      "step": 6730
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4206547141075134,
      "learning_rate": 0.0005917884497254306,
      "loss": 1.8191,
      "step": 6731
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4122423231601715,
      "learning_rate": 0.0005917860208207435,
      "loss": 1.802,
      "step": 6732
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41123083233833313,
      "learning_rate": 0.0005917835915618711,
      "loss": 1.8117,
      "step": 6733
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4303024411201477,
      "learning_rate": 0.0005917811619488164,
      "loss": 1.8361,
      "step": 6734
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41302797198295593,
      "learning_rate": 0.0005917787319815825,
      "loss": 1.8583,
      "step": 6735
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4146725535392761,
      "learning_rate": 0.0005917763016601721,
      "loss": 1.8383,
      "step": 6736
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42382195591926575,
      "learning_rate": 0.0005917738709845884,
      "loss": 1.8217,
      "step": 6737
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4092120826244354,
      "learning_rate": 0.000591771439954834,
      "loss": 1.7885,
      "step": 6738
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.419802188873291,
      "learning_rate": 0.0005917690085709122,
      "loss": 1.8135,
      "step": 6739
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4108015298843384,
      "learning_rate": 0.0005917665768328258,
      "loss": 1.81,
      "step": 6740
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40298300981521606,
      "learning_rate": 0.0005917641447405778,
      "loss": 1.7235,
      "step": 6741
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40431341528892517,
      "learning_rate": 0.000591761712294171,
      "loss": 1.7845,
      "step": 6742
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4069950580596924,
      "learning_rate": 0.0005917592794936086,
      "loss": 1.8478,
      "step": 6743
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4081546664237976,
      "learning_rate": 0.0005917568463388933,
      "loss": 1.7443,
      "step": 6744
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4117322266101837,
      "learning_rate": 0.0005917544128300282,
      "loss": 1.7925,
      "step": 6745
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42703649401664734,
      "learning_rate": 0.0005917519789670162,
      "loss": 1.8545,
      "step": 6746
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.414103239774704,
      "learning_rate": 0.0005917495447498604,
      "loss": 1.8231,
      "step": 6747
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41614365577697754,
      "learning_rate": 0.0005917471101785636,
      "loss": 1.783,
      "step": 6748
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4108145833015442,
      "learning_rate": 0.0005917446752531289,
      "loss": 1.8198,
      "step": 6749
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4085412919521332,
      "learning_rate": 0.000591742239973559,
      "loss": 1.9137,
      "step": 6750
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42356473207473755,
      "learning_rate": 0.0005917398043398571,
      "loss": 1.8687,
      "step": 6751
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4339405298233032,
      "learning_rate": 0.0005917373683520258,
      "loss": 1.781,
      "step": 6752
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4246031939983368,
      "learning_rate": 0.0005917349320100686,
      "loss": 1.7844,
      "step": 6753
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41504165530204773,
      "learning_rate": 0.000591732495313988,
      "loss": 1.8057,
      "step": 6754
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4236655831336975,
      "learning_rate": 0.0005917300582637874,
      "loss": 1.8659,
      "step": 6755
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4086250066757202,
      "learning_rate": 0.0005917276208594693,
      "loss": 1.8797,
      "step": 6756
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4222802519798279,
      "learning_rate": 0.0005917251831010369,
      "loss": 1.8428,
      "step": 6757
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41103097796440125,
      "learning_rate": 0.0005917227449884931,
      "loss": 1.864,
      "step": 6758
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40987905859947205,
      "learning_rate": 0.0005917203065218409,
      "loss": 1.8163,
      "step": 6759
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40160924196243286,
      "learning_rate": 0.0005917178677010831,
      "loss": 1.8003,
      "step": 6760
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42231446504592896,
      "learning_rate": 0.0005917154285262229,
      "loss": 1.8356,
      "step": 6761
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.41782769560813904,
      "learning_rate": 0.0005917129889972632,
      "loss": 1.7819,
      "step": 6762
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40804675221443176,
      "learning_rate": 0.0005917105491142069,
      "loss": 1.8406,
      "step": 6763
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40237683057785034,
      "learning_rate": 0.0005917081088770569,
      "loss": 1.7743,
      "step": 6764
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41090089082717896,
      "learning_rate": 0.0005917056682858162,
      "loss": 1.8164,
      "step": 6765
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4390715956687927,
      "learning_rate": 0.000591703227340488,
      "loss": 1.819,
      "step": 6766
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3947678804397583,
      "learning_rate": 0.0005917007860410748,
      "loss": 1.7814,
      "step": 6767
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4107472896575928,
      "learning_rate": 0.00059169834438758,
      "loss": 1.7831,
      "step": 6768
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40924572944641113,
      "learning_rate": 0.0005916959023800064,
      "loss": 1.7944,
      "step": 6769
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41318854689598083,
      "learning_rate": 0.0005916934600183569,
      "loss": 1.823,
      "step": 6770
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4618768095970154,
      "learning_rate": 0.0005916910173026345,
      "loss": 1.7986,
      "step": 6771
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4276143014431,
      "learning_rate": 0.0005916885742328422,
      "loss": 1.8753,
      "step": 6772
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40092238783836365,
      "learning_rate": 0.0005916861308089829,
      "loss": 1.8573,
      "step": 6773
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40310633182525635,
      "learning_rate": 0.0005916836870310597,
      "loss": 1.709,
      "step": 6774
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40838712453842163,
      "learning_rate": 0.0005916812428990755,
      "loss": 1.8665,
      "step": 6775
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42225417494773865,
      "learning_rate": 0.0005916787984130332,
      "loss": 1.8846,
      "step": 6776
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41680648922920227,
      "learning_rate": 0.0005916763535729358,
      "loss": 1.8721,
      "step": 6777
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4140467047691345,
      "learning_rate": 0.0005916739083787862,
      "loss": 1.8621,
      "step": 6778
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40512239933013916,
      "learning_rate": 0.0005916714628305875,
      "loss": 1.8237,
      "step": 6779
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4286835193634033,
      "learning_rate": 0.0005916690169283427,
      "loss": 1.795,
      "step": 6780
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41876688599586487,
      "learning_rate": 0.0005916665706720547,
      "loss": 1.7933,
      "step": 6781
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4108680188655853,
      "learning_rate": 0.0005916641240617265,
      "loss": 1.9063,
      "step": 6782
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41267848014831543,
      "learning_rate": 0.0005916616770973609,
      "loss": 1.8333,
      "step": 6783
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4289416968822479,
      "learning_rate": 0.000591659229778961,
      "loss": 1.8471,
      "step": 6784
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4156808853149414,
      "learning_rate": 0.0005916567821065298,
      "loss": 1.8633,
      "step": 6785
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4288659691810608,
      "learning_rate": 0.0005916543340800703,
      "loss": 1.912,
      "step": 6786
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40682289004325867,
      "learning_rate": 0.0005916518856995853,
      "loss": 1.7786,
      "step": 6787
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42173898220062256,
      "learning_rate": 0.000591649436965078,
      "loss": 1.8373,
      "step": 6788
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41525983810424805,
      "learning_rate": 0.0005916469878765512,
      "loss": 1.7946,
      "step": 6789
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41606852412223816,
      "learning_rate": 0.0005916445384340079,
      "loss": 1.8655,
      "step": 6790
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4192124605178833,
      "learning_rate": 0.0005916420886374511,
      "loss": 1.7537,
      "step": 6791
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3961387574672699,
      "learning_rate": 0.0005916396384868838,
      "loss": 1.8268,
      "step": 6792
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41012510657310486,
      "learning_rate": 0.000591637187982309,
      "loss": 1.8425,
      "step": 6793
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40931040048599243,
      "learning_rate": 0.0005916347371237295,
      "loss": 1.9112,
      "step": 6794
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4242548644542694,
      "learning_rate": 0.0005916322859111485,
      "loss": 1.8087,
      "step": 6795
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5577987432479858,
      "learning_rate": 0.0005916298343445689,
      "loss": 1.8123,
      "step": 6796
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4120969772338867,
      "learning_rate": 0.0005916273824239936,
      "loss": 1.8473,
      "step": 6797
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42773503065109253,
      "learning_rate": 0.0005916249301494256,
      "loss": 1.789,
      "step": 6798
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42383259534835815,
      "learning_rate": 0.000591622477520868,
      "loss": 1.7754,
      "step": 6799
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41124266386032104,
      "learning_rate": 0.0005916200245383236,
      "loss": 1.8266,
      "step": 6800
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4365924000740051,
      "learning_rate": 0.0005916175712017955,
      "loss": 1.8432,
      "step": 6801
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4367620050907135,
      "learning_rate": 0.0005916151175112866,
      "loss": 1.8847,
      "step": 6802
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41353756189346313,
      "learning_rate": 0.0005916126634667999,
      "loss": 1.8343,
      "step": 6803
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4085748791694641,
      "learning_rate": 0.0005916102090683384,
      "loss": 1.8346,
      "step": 6804
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41908159852027893,
      "learning_rate": 0.0005916077543159052,
      "loss": 1.7533,
      "step": 6805
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41803666949272156,
      "learning_rate": 0.000591605299209503,
      "loss": 1.8561,
      "step": 6806
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40497255325317383,
      "learning_rate": 0.0005916028437491349,
      "loss": 1.833,
      "step": 6807
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40973421931266785,
      "learning_rate": 0.0005916003879348041,
      "loss": 1.8474,
      "step": 6808
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3978654146194458,
      "learning_rate": 0.0005915979317665133,
      "loss": 1.7964,
      "step": 6809
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4039127826690674,
      "learning_rate": 0.0005915954752442655,
      "loss": 1.7437,
      "step": 6810
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4310287833213806,
      "learning_rate": 0.0005915930183680638,
      "loss": 1.8825,
      "step": 6811
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4059329330921173,
      "learning_rate": 0.0005915905611379112,
      "loss": 1.8073,
      "step": 6812
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4041607677936554,
      "learning_rate": 0.0005915881035538106,
      "loss": 1.7208,
      "step": 6813
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4250595271587372,
      "learning_rate": 0.000591585645615765,
      "loss": 1.7665,
      "step": 6814
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4228672981262207,
      "learning_rate": 0.0005915831873237773,
      "loss": 1.8931,
      "step": 6815
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40659743547439575,
      "learning_rate": 0.0005915807286778507,
      "loss": 1.8033,
      "step": 6816
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42280611395835876,
      "learning_rate": 0.000591578269677988,
      "loss": 1.8291,
      "step": 6817
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40807586908340454,
      "learning_rate": 0.0005915758103241922,
      "loss": 1.801,
      "step": 6818
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4069015681743622,
      "learning_rate": 0.0005915733506164664,
      "loss": 1.8376,
      "step": 6819
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42435601353645325,
      "learning_rate": 0.0005915708905548135,
      "loss": 1.7496,
      "step": 6820
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40759870409965515,
      "learning_rate": 0.0005915684301392365,
      "loss": 1.7942,
      "step": 6821
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4161192774772644,
      "learning_rate": 0.0005915659693697384,
      "loss": 1.7794,
      "step": 6822
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41718751192092896,
      "learning_rate": 0.0005915635082463221,
      "loss": 1.7891,
      "step": 6823
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4158569574356079,
      "learning_rate": 0.0005915610467689908,
      "loss": 1.8359,
      "step": 6824
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4067946672439575,
      "learning_rate": 0.0005915585849377473,
      "loss": 1.8263,
      "step": 6825
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41290631890296936,
      "learning_rate": 0.0005915561227525946,
      "loss": 1.8286,
      "step": 6826
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4283711016178131,
      "learning_rate": 0.0005915536602135356,
      "loss": 1.8672,
      "step": 6827
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42608585953712463,
      "learning_rate": 0.0005915511973205736,
      "loss": 1.8015,
      "step": 6828
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41660332679748535,
      "learning_rate": 0.0005915487340737113,
      "loss": 1.8075,
      "step": 6829
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4172852337360382,
      "learning_rate": 0.0005915462704729518,
      "loss": 1.8909,
      "step": 6830
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42243555188179016,
      "learning_rate": 0.0005915438065182981,
      "loss": 1.7394,
      "step": 6831
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.409987211227417,
      "learning_rate": 0.0005915413422097533,
      "loss": 1.7446,
      "step": 6832
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4128849506378174,
      "learning_rate": 0.0005915388775473201,
      "loss": 1.8647,
      "step": 6833
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42357176542282104,
      "learning_rate": 0.0005915364125310018,
      "loss": 1.8172,
      "step": 6834
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4160465598106384,
      "learning_rate": 0.0005915339471608012,
      "loss": 1.8011,
      "step": 6835
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41376370191574097,
      "learning_rate": 0.0005915314814367213,
      "loss": 1.7003,
      "step": 6836
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4091135561466217,
      "learning_rate": 0.0005915290153587652,
      "loss": 1.8198,
      "step": 6837
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4253137707710266,
      "learning_rate": 0.0005915265489269358,
      "loss": 1.8733,
      "step": 6838
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40737637877464294,
      "learning_rate": 0.000591524082141236,
      "loss": 1.8304,
      "step": 6839
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42480576038360596,
      "learning_rate": 0.0005915216150016691,
      "loss": 1.8486,
      "step": 6840
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4170844852924347,
      "learning_rate": 0.0005915191475082378,
      "loss": 1.8278,
      "step": 6841
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42452192306518555,
      "learning_rate": 0.0005915166796609453,
      "loss": 1.8341,
      "step": 6842
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4354403018951416,
      "learning_rate": 0.0005915142114597944,
      "loss": 1.8736,
      "step": 6843
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4430561661720276,
      "learning_rate": 0.0005915117429047882,
      "loss": 1.7633,
      "step": 6844
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.425970196723938,
      "learning_rate": 0.0005915092739959298,
      "loss": 1.7611,
      "step": 6845
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41593137383461,
      "learning_rate": 0.000591506804733222,
      "loss": 1.8761,
      "step": 6846
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4477817714214325,
      "learning_rate": 0.000591504335116668,
      "loss": 1.8863,
      "step": 6847
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4443899393081665,
      "learning_rate": 0.0005915018651462706,
      "loss": 1.7689,
      "step": 6848
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41891002655029297,
      "learning_rate": 0.0005914993948220329,
      "loss": 1.8638,
      "step": 6849
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.45118412375450134,
      "learning_rate": 0.0005914969241439579,
      "loss": 1.8989,
      "step": 6850
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.45335590839385986,
      "learning_rate": 0.0005914944531120486,
      "loss": 1.7971,
      "step": 6851
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4349018931388855,
      "learning_rate": 0.000591491981726308,
      "loss": 1.8682,
      "step": 6852
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4429117739200592,
      "learning_rate": 0.000591489509986739,
      "loss": 1.8373,
      "step": 6853
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.452436238527298,
      "learning_rate": 0.0005914870378933447,
      "loss": 1.7729,
      "step": 6854
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4431033730506897,
      "learning_rate": 0.0005914845654461282,
      "loss": 1.8631,
      "step": 6855
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43569350242614746,
      "learning_rate": 0.0005914820926450923,
      "loss": 1.8512,
      "step": 6856
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.45517319440841675,
      "learning_rate": 0.00059147961949024,
      "loss": 1.8211,
      "step": 6857
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4479823410511017,
      "learning_rate": 0.0005914771459815745,
      "loss": 1.8329,
      "step": 6858
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4121929109096527,
      "learning_rate": 0.0005914746721190987,
      "loss": 1.8013,
      "step": 6859
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44591274857521057,
      "learning_rate": 0.0005914721979028156,
      "loss": 1.8792,
      "step": 6860
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42750367522239685,
      "learning_rate": 0.0005914697233327281,
      "loss": 1.878,
      "step": 6861
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41041022539138794,
      "learning_rate": 0.0005914672484088393,
      "loss": 1.8213,
      "step": 6862
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4166908264160156,
      "learning_rate": 0.0005914647731311524,
      "loss": 1.7768,
      "step": 6863
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41662338376045227,
      "learning_rate": 0.00059146229749967,
      "loss": 1.7764,
      "step": 6864
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4275859296321869,
      "learning_rate": 0.0005914598215143955,
      "loss": 1.8383,
      "step": 6865
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40965917706489563,
      "learning_rate": 0.0005914573451753316,
      "loss": 1.8532,
      "step": 6866
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41026660799980164,
      "learning_rate": 0.0005914548684824814,
      "loss": 1.8063,
      "step": 6867
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4617849886417389,
      "learning_rate": 0.000591452391435848,
      "loss": 1.7971,
      "step": 6868
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40397292375564575,
      "learning_rate": 0.0005914499140354343,
      "loss": 1.8208,
      "step": 6869
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4111005663871765,
      "learning_rate": 0.0005914474362812434,
      "loss": 1.8389,
      "step": 6870
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42928600311279297,
      "learning_rate": 0.0005914449581732781,
      "loss": 1.8005,
      "step": 6871
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4214317202568054,
      "learning_rate": 0.0005914424797115418,
      "loss": 1.8503,
      "step": 6872
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4067007899284363,
      "learning_rate": 0.0005914400008960371,
      "loss": 1.852,
      "step": 6873
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4452696442604065,
      "learning_rate": 0.0005914375217267674,
      "loss": 1.8953,
      "step": 6874
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41815999150276184,
      "learning_rate": 0.0005914350422037353,
      "loss": 1.8676,
      "step": 6875
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4068617522716522,
      "learning_rate": 0.0005914325623269439,
      "loss": 1.7226,
      "step": 6876
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4031878709793091,
      "learning_rate": 0.0005914300820963965,
      "loss": 1.7706,
      "step": 6877
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4294377863407135,
      "learning_rate": 0.0005914276015120958,
      "loss": 1.8234,
      "step": 6878
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4228031039237976,
      "learning_rate": 0.000591425120574045,
      "loss": 1.7939,
      "step": 6879
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4077955484390259,
      "learning_rate": 0.0005914226392822471,
      "loss": 1.8323,
      "step": 6880
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3941178321838379,
      "learning_rate": 0.000591420157636705,
      "loss": 1.7935,
      "step": 6881
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4234952926635742,
      "learning_rate": 0.0005914176756374217,
      "loss": 1.8884,
      "step": 6882
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4393216669559479,
      "learning_rate": 0.0005914151932844004,
      "loss": 1.7986,
      "step": 6883
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4093259572982788,
      "learning_rate": 0.0005914127105776439,
      "loss": 1.9102,
      "step": 6884
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44562363624572754,
      "learning_rate": 0.0005914102275171553,
      "loss": 1.889,
      "step": 6885
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4539301097393036,
      "learning_rate": 0.0005914077441029376,
      "loss": 1.7943,
      "step": 6886
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4066717326641083,
      "learning_rate": 0.0005914052603349939,
      "loss": 1.8117,
      "step": 6887
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4171939790248871,
      "learning_rate": 0.0005914027762133272,
      "loss": 1.8258,
      "step": 6888
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4604804217815399,
      "learning_rate": 0.0005914002917379404,
      "loss": 1.8347,
      "step": 6889
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43005427718162537,
      "learning_rate": 0.0005913978069088366,
      "loss": 1.8208,
      "step": 6890
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4228689968585968,
      "learning_rate": 0.0005913953217260189,
      "loss": 1.8274,
      "step": 6891
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4299604296684265,
      "learning_rate": 0.00059139283618949,
      "loss": 1.8186,
      "step": 6892
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43304407596588135,
      "learning_rate": 0.0005913903502992533,
      "loss": 1.8644,
      "step": 6893
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4391319453716278,
      "learning_rate": 0.0005913878640553115,
      "loss": 1.9436,
      "step": 6894
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4228176474571228,
      "learning_rate": 0.0005913853774576678,
      "loss": 1.8328,
      "step": 6895
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4242379367351532,
      "learning_rate": 0.0005913828905063254,
      "loss": 1.771,
      "step": 6896
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40421822667121887,
      "learning_rate": 0.0005913804032012869,
      "loss": 1.7565,
      "step": 6897
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.417743444442749,
      "learning_rate": 0.0005913779155425554,
      "loss": 1.767,
      "step": 6898
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41079261898994446,
      "learning_rate": 0.0005913754275301343,
      "loss": 1.801,
      "step": 6899
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40196502208709717,
      "learning_rate": 0.0005913729391640262,
      "loss": 1.7957,
      "step": 6900
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41561049222946167,
      "learning_rate": 0.0005913704504442345,
      "loss": 1.751,
      "step": 6901
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4084414839744568,
      "learning_rate": 0.0005913679613707618,
      "loss": 1.8164,
      "step": 6902
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4156062602996826,
      "learning_rate": 0.0005913654719436114,
      "loss": 1.7942,
      "step": 6903
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43076473474502563,
      "learning_rate": 0.0005913629821627861,
      "loss": 1.7648,
      "step": 6904
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4093884825706482,
      "learning_rate": 0.0005913604920282893,
      "loss": 1.855,
      "step": 6905
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40622562170028687,
      "learning_rate": 0.0005913580015401238,
      "loss": 1.7973,
      "step": 6906
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42155101895332336,
      "learning_rate": 0.0005913555106982924,
      "loss": 1.8752,
      "step": 6907
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44380810856819153,
      "learning_rate": 0.0005913530195027984,
      "loss": 1.8422,
      "step": 6908
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41973790526390076,
      "learning_rate": 0.0005913505279536448,
      "loss": 1.8136,
      "step": 6909
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.410845011472702,
      "learning_rate": 0.0005913480360508346,
      "loss": 1.7194,
      "step": 6910
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4296410381793976,
      "learning_rate": 0.0005913455437943708,
      "loss": 1.8765,
      "step": 6911
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41955050826072693,
      "learning_rate": 0.0005913430511842565,
      "loss": 1.7911,
      "step": 6912
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4136531949043274,
      "learning_rate": 0.0005913405582204946,
      "loss": 1.8385,
      "step": 6913
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4194309413433075,
      "learning_rate": 0.0005913380649030882,
      "loss": 1.7994,
      "step": 6914
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4186798930168152,
      "learning_rate": 0.0005913355712320403,
      "loss": 1.8391,
      "step": 6915
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4107133150100708,
      "learning_rate": 0.000591333077207354,
      "loss": 1.8012,
      "step": 6916
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41325151920318604,
      "learning_rate": 0.0005913305828290323,
      "loss": 1.7758,
      "step": 6917
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4228660464286804,
      "learning_rate": 0.000591328088097078,
      "loss": 1.8476,
      "step": 6918
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5554419159889221,
      "learning_rate": 0.0005913255930114945,
      "loss": 1.8395,
      "step": 6919
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4148220419883728,
      "learning_rate": 0.0005913230975722846,
      "loss": 1.7613,
      "step": 6920
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4142969846725464,
      "learning_rate": 0.0005913206017794515,
      "loss": 1.7888,
      "step": 6921
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4129602909088135,
      "learning_rate": 0.0005913181056329979,
      "loss": 1.8547,
      "step": 6922
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41427311301231384,
      "learning_rate": 0.0005913156091329272,
      "loss": 1.7796,
      "step": 6923
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4326227605342865,
      "learning_rate": 0.0005913131122792422,
      "loss": 1.7986,
      "step": 6924
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3972046375274658,
      "learning_rate": 0.0005913106150719461,
      "loss": 1.7187,
      "step": 6925
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43735361099243164,
      "learning_rate": 0.0005913081175110417,
      "loss": 1.8784,
      "step": 6926
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.39858031272888184,
      "learning_rate": 0.0005913056195965323,
      "loss": 1.7606,
      "step": 6927
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40737470984458923,
      "learning_rate": 0.0005913031213284207,
      "loss": 1.8108,
      "step": 6928
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4093529284000397,
      "learning_rate": 0.00059130062270671,
      "loss": 1.7783,
      "step": 6929
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43103161454200745,
      "learning_rate": 0.0005912981237314034,
      "loss": 1.8147,
      "step": 6930
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40115588903427124,
      "learning_rate": 0.0005912956244025037,
      "loss": 1.7814,
      "step": 6931
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5351392030715942,
      "learning_rate": 0.000591293124720014,
      "loss": 1.8057,
      "step": 6932
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4036041498184204,
      "learning_rate": 0.0005912906246839375,
      "loss": 1.8187,
      "step": 6933
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6035260558128357,
      "learning_rate": 0.000591288124294277,
      "loss": 1.8721,
      "step": 6934
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40585777163505554,
      "learning_rate": 0.0005912856235510357,
      "loss": 1.8252,
      "step": 6935
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.39835506677627563,
      "learning_rate": 0.0005912831224542165,
      "loss": 1.8915,
      "step": 6936
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40102577209472656,
      "learning_rate": 0.0005912806210038225,
      "loss": 1.8364,
      "step": 6937
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4163742959499359,
      "learning_rate": 0.0005912781191998569,
      "loss": 1.8536,
      "step": 6938
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.39519068598747253,
      "learning_rate": 0.0005912756170423223,
      "loss": 1.7637,
      "step": 6939
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40650272369384766,
      "learning_rate": 0.0005912731145312223,
      "loss": 1.7733,
      "step": 6940
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41568082571029663,
      "learning_rate": 0.0005912706116665596,
      "loss": 1.7861,
      "step": 6941
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40578651428222656,
      "learning_rate": 0.0005912681084483372,
      "loss": 1.841,
      "step": 6942
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4063882827758789,
      "learning_rate": 0.0005912656048765582,
      "loss": 1.739,
      "step": 6943
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3999510109424591,
      "learning_rate": 0.0005912631009512258,
      "loss": 1.8363,
      "step": 6944
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42865562438964844,
      "learning_rate": 0.0005912605966723429,
      "loss": 1.8363,
      "step": 6945
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4280247986316681,
      "learning_rate": 0.0005912580920399125,
      "loss": 1.8314,
      "step": 6946
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40647923946380615,
      "learning_rate": 0.0005912555870539376,
      "loss": 1.8553,
      "step": 6947
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42281460762023926,
      "learning_rate": 0.0005912530817144215,
      "loss": 1.8572,
      "step": 6948
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40696948766708374,
      "learning_rate": 0.000591250576021367,
      "loss": 1.7373,
      "step": 6949
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3993341326713562,
      "learning_rate": 0.0005912480699747772,
      "loss": 1.7803,
      "step": 6950
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.405640572309494,
      "learning_rate": 0.0005912455635746553,
      "loss": 1.8282,
      "step": 6951
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4078572690486908,
      "learning_rate": 0.0005912430568210039,
      "loss": 1.8355,
      "step": 6952
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40959206223487854,
      "learning_rate": 0.0005912405497138266,
      "loss": 1.8694,
      "step": 6953
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40486449003219604,
      "learning_rate": 0.000591238042253126,
      "loss": 1.8126,
      "step": 6954
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4155830144882202,
      "learning_rate": 0.0005912355344389055,
      "loss": 1.828,
      "step": 6955
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40638500452041626,
      "learning_rate": 0.0005912330262711679,
      "loss": 1.7951,
      "step": 6956
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4152820110321045,
      "learning_rate": 0.0005912305177499163,
      "loss": 1.8681,
      "step": 6957
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40943610668182373,
      "learning_rate": 0.0005912280088751538,
      "loss": 1.8713,
      "step": 6958
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41098207235336304,
      "learning_rate": 0.0005912254996468833,
      "loss": 1.8776,
      "step": 6959
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4402231276035309,
      "learning_rate": 0.0005912229900651081,
      "loss": 1.8805,
      "step": 6960
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.39966070652008057,
      "learning_rate": 0.0005912204801298311,
      "loss": 1.7925,
      "step": 6961
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4148707091808319,
      "learning_rate": 0.0005912179698410552,
      "loss": 1.8037,
      "step": 6962
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43473362922668457,
      "learning_rate": 0.0005912154591987838,
      "loss": 1.7881,
      "step": 6963
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4130557179450989,
      "learning_rate": 0.0005912129482030195,
      "loss": 1.7781,
      "step": 6964
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40190771222114563,
      "learning_rate": 0.0005912104368537657,
      "loss": 1.8183,
      "step": 6965
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43301621079444885,
      "learning_rate": 0.0005912079251510254,
      "loss": 1.8172,
      "step": 6966
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.427503377199173,
      "learning_rate": 0.0005912054130948016,
      "loss": 1.7156,
      "step": 6967
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42470431327819824,
      "learning_rate": 0.0005912029006850971,
      "loss": 1.8883,
      "step": 6968
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4091331660747528,
      "learning_rate": 0.0005912003879219155,
      "loss": 1.8469,
      "step": 6969
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4407532215118408,
      "learning_rate": 0.0005911978748052593,
      "loss": 1.8325,
      "step": 6970
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4254283010959625,
      "learning_rate": 0.0005911953613351319,
      "loss": 1.83,
      "step": 6971
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41613301634788513,
      "learning_rate": 0.0005911928475115363,
      "loss": 1.7729,
      "step": 6972
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4130888879299164,
      "learning_rate": 0.0005911903333344753,
      "loss": 1.7709,
      "step": 6973
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41035589575767517,
      "learning_rate": 0.0005911878188039522,
      "loss": 1.8123,
      "step": 6974
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40800338983535767,
      "learning_rate": 0.0005911853039199701,
      "loss": 1.7606,
      "step": 6975
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4188607335090637,
      "learning_rate": 0.0005911827886825318,
      "loss": 1.8073,
      "step": 6976
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.46233460307121277,
      "learning_rate": 0.0005911802730916406,
      "loss": 1.8409,
      "step": 6977
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3954075276851654,
      "learning_rate": 0.0005911777571472995,
      "loss": 1.7638,
      "step": 6978
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41688236594200134,
      "learning_rate": 0.0005911752408495114,
      "loss": 1.851,
      "step": 6979
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42956700921058655,
      "learning_rate": 0.0005911727241982795,
      "loss": 1.8366,
      "step": 6980
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41579967737197876,
      "learning_rate": 0.0005911702071936069,
      "loss": 1.8555,
      "step": 6981
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41976481676101685,
      "learning_rate": 0.0005911676898354963,
      "loss": 1.8226,
      "step": 6982
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40665876865386963,
      "learning_rate": 0.0005911651721239513,
      "loss": 1.8289,
      "step": 6983
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42566853761672974,
      "learning_rate": 0.0005911626540589746,
      "loss": 1.8759,
      "step": 6984
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4093686044216156,
      "learning_rate": 0.0005911601356405693,
      "loss": 1.75,
      "step": 6985
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4148170053958893,
      "learning_rate": 0.0005911576168687385,
      "loss": 1.835,
      "step": 6986
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4235876202583313,
      "learning_rate": 0.0005911550977434853,
      "loss": 1.8192,
      "step": 6987
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41763269901275635,
      "learning_rate": 0.0005911525782648127,
      "loss": 1.8377,
      "step": 6988
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4102042317390442,
      "learning_rate": 0.0005911500584327238,
      "loss": 1.8799,
      "step": 6989
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40381383895874023,
      "learning_rate": 0.0005911475382472215,
      "loss": 1.8464,
      "step": 6990
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40286189317703247,
      "learning_rate": 0.0005911450177083092,
      "loss": 1.8154,
      "step": 6991
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4464229643344879,
      "learning_rate": 0.0005911424968159895,
      "loss": 1.7859,
      "step": 6992
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4085719883441925,
      "learning_rate": 0.0005911399755702659,
      "loss": 1.8506,
      "step": 6993
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.397396981716156,
      "learning_rate": 0.0005911374539711412,
      "loss": 1.8796,
      "step": 6994
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41344472765922546,
      "learning_rate": 0.0005911349320186185,
      "loss": 1.7633,
      "step": 6995
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41039419174194336,
      "learning_rate": 0.0005911324097127009,
      "loss": 1.8328,
      "step": 6996
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41920801997184753,
      "learning_rate": 0.0005911298870533915,
      "loss": 1.748,
      "step": 6997
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41906487941741943,
      "learning_rate": 0.0005911273640406932,
      "loss": 1.8371,
      "step": 6998
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40856078267097473,
      "learning_rate": 0.0005911248406746093,
      "loss": 1.8671,
      "step": 6999
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4074401557445526,
      "learning_rate": 0.0005911223169551427,
      "loss": 1.8736,
      "step": 7000
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4059475064277649,
      "learning_rate": 0.0005911197928822965,
      "loss": 1.7839,
      "step": 7001
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4044182002544403,
      "learning_rate": 0.0005911172684560737,
      "loss": 1.8336,
      "step": 7002
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3974529206752777,
      "learning_rate": 0.0005911147436764775,
      "loss": 1.7733,
      "step": 7003
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4004956781864166,
      "learning_rate": 0.0005911122185435108,
      "loss": 1.7978,
      "step": 7004
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3974183201789856,
      "learning_rate": 0.0005911096930571769,
      "loss": 1.905,
      "step": 7005
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40390822291374207,
      "learning_rate": 0.0005911071672174787,
      "loss": 1.831,
      "step": 7006
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4036615192890167,
      "learning_rate": 0.0005911046410244193,
      "loss": 1.8109,
      "step": 7007
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41174250841140747,
      "learning_rate": 0.0005911021144780017,
      "loss": 1.8456,
      "step": 7008
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.39907488226890564,
      "learning_rate": 0.000591099587578229,
      "loss": 1.761,
      "step": 7009
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3953886330127716,
      "learning_rate": 0.0005910970603251044,
      "loss": 1.8281,
      "step": 7010
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4075435996055603,
      "learning_rate": 0.0005910945327186307,
      "loss": 1.8374,
      "step": 7011
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4012806713581085,
      "learning_rate": 0.0005910920047588113,
      "loss": 1.7882,
      "step": 7012
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41248777508735657,
      "learning_rate": 0.000591089476445649,
      "loss": 1.7481,
      "step": 7013
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40394991636276245,
      "learning_rate": 0.0005910869477791469,
      "loss": 1.8105,
      "step": 7014
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41310879588127136,
      "learning_rate": 0.0005910844187593082,
      "loss": 1.8274,
      "step": 7015
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40153270959854126,
      "learning_rate": 0.000591081889386136,
      "loss": 1.8128,
      "step": 7016
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43301481008529663,
      "learning_rate": 0.0005910793596596332,
      "loss": 1.8131,
      "step": 7017
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4021691679954529,
      "learning_rate": 0.0005910768295798029,
      "loss": 1.7733,
      "step": 7018
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41277825832366943,
      "learning_rate": 0.0005910742991466482,
      "loss": 1.7881,
      "step": 7019
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41551142930984497,
      "learning_rate": 0.0005910717683601723,
      "loss": 1.867,
      "step": 7020
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3935256004333496,
      "learning_rate": 0.0005910692372203782,
      "loss": 1.8235,
      "step": 7021
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4287266433238983,
      "learning_rate": 0.0005910667057272688,
      "loss": 1.8853,
      "step": 7022
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4130684733390808,
      "learning_rate": 0.0005910641738808473,
      "loss": 1.8338,
      "step": 7023
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4181941747665405,
      "learning_rate": 0.0005910616416811169,
      "loss": 1.8491,
      "step": 7024
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40601232647895813,
      "learning_rate": 0.0005910591091280804,
      "loss": 1.7379,
      "step": 7025
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4126355051994324,
      "learning_rate": 0.0005910565762217412,
      "loss": 1.7388,
      "step": 7026
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42854228615760803,
      "learning_rate": 0.0005910540429621021,
      "loss": 1.8522,
      "step": 7027
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41076338291168213,
      "learning_rate": 0.0005910515093491662,
      "loss": 1.8439,
      "step": 7028
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40950441360473633,
      "learning_rate": 0.0005910489753829368,
      "loss": 1.8353,
      "step": 7029
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4124574661254883,
      "learning_rate": 0.0005910464410634167,
      "loss": 1.825,
      "step": 7030
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42136096954345703,
      "learning_rate": 0.0005910439063906092,
      "loss": 1.8627,
      "step": 7031
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3982257544994354,
      "learning_rate": 0.0005910413713645173,
      "loss": 1.7807,
      "step": 7032
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4198605418205261,
      "learning_rate": 0.0005910388359851441,
      "loss": 1.8744,
      "step": 7033
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4020874500274658,
      "learning_rate": 0.0005910363002524924,
      "loss": 1.7886,
      "step": 7034
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4094761908054352,
      "learning_rate": 0.0005910337641665657,
      "loss": 1.7997,
      "step": 7035
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41568848490715027,
      "learning_rate": 0.0005910312277273669,
      "loss": 1.8462,
      "step": 7036
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3949562609195709,
      "learning_rate": 0.000591028690934899,
      "loss": 1.8436,
      "step": 7037
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40294426679611206,
      "learning_rate": 0.0005910261537891651,
      "loss": 1.859,
      "step": 7038
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4170439541339874,
      "learning_rate": 0.0005910236162901685,
      "loss": 1.8546,
      "step": 7039
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41201528906822205,
      "learning_rate": 0.0005910210784379119,
      "loss": 1.8024,
      "step": 7040
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4119548797607422,
      "learning_rate": 0.0005910185402323988,
      "loss": 1.8287,
      "step": 7041
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40291139483451843,
      "learning_rate": 0.000591016001673632,
      "loss": 1.8624,
      "step": 7042
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42098668217658997,
      "learning_rate": 0.0005910134627616146,
      "loss": 1.8148,
      "step": 7043
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42010030150413513,
      "learning_rate": 0.0005910109234963497,
      "loss": 1.872,
      "step": 7044
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.403493732213974,
      "learning_rate": 0.0005910083838778405,
      "loss": 1.7814,
      "step": 7045
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41714251041412354,
      "learning_rate": 0.00059100584390609,
      "loss": 1.7712,
      "step": 7046
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42754843831062317,
      "learning_rate": 0.0005910033035811013,
      "loss": 1.822,
      "step": 7047
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4100855588912964,
      "learning_rate": 0.0005910007629028774,
      "loss": 1.848,
      "step": 7048
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42256104946136475,
      "learning_rate": 0.0005909982218714215,
      "loss": 1.888,
      "step": 7049
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.416869193315506,
      "learning_rate": 0.0005909956804867367,
      "loss": 1.8253,
      "step": 7050
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42098575830459595,
      "learning_rate": 0.0005909931387488258,
      "loss": 1.8652,
      "step": 7051
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42602476477622986,
      "learning_rate": 0.0005909905966576922,
      "loss": 1.8034,
      "step": 7052
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41519972681999207,
      "learning_rate": 0.0005909880542133391,
      "loss": 1.9106,
      "step": 7053
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4091978669166565,
      "learning_rate": 0.0005909855114157691,
      "loss": 1.8291,
      "step": 7054
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4294591248035431,
      "learning_rate": 0.0005909829682649856,
      "loss": 1.8306,
      "step": 7055
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43088221549987793,
      "learning_rate": 0.0005909804247609919,
      "loss": 1.7975,
      "step": 7056
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41940292716026306,
      "learning_rate": 0.0005909778809037906,
      "loss": 1.9002,
      "step": 7057
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42383500933647156,
      "learning_rate": 0.0005909753366933852,
      "loss": 1.7713,
      "step": 7058
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.40547844767570496,
      "learning_rate": 0.0005909727921297784,
      "loss": 1.7723,
      "step": 7059
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4129522740840912,
      "learning_rate": 0.0005909702472129736,
      "loss": 1.8499,
      "step": 7060
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4168078899383545,
      "learning_rate": 0.0005909677019429738,
      "loss": 1.8856,
      "step": 7061
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.42498570680618286,
      "learning_rate": 0.0005909651563197821,
      "loss": 1.8239,
      "step": 7062
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4283735156059265,
      "learning_rate": 0.0005909626103434016,
      "loss": 1.8918,
      "step": 7063
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42174652218818665,
      "learning_rate": 0.0005909600640138353,
      "loss": 1.7497,
      "step": 7064
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42316681146621704,
      "learning_rate": 0.0005909575173310863,
      "loss": 1.8417,
      "step": 7065
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40680843591690063,
      "learning_rate": 0.0005909549702951579,
      "loss": 1.9289,
      "step": 7066
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4051920473575592,
      "learning_rate": 0.0005909524229060529,
      "loss": 1.7364,
      "step": 7067
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41478046774864197,
      "learning_rate": 0.0005909498751637746,
      "loss": 1.7606,
      "step": 7068
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4202573895454407,
      "learning_rate": 0.000590947327068326,
      "loss": 1.8467,
      "step": 7069
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42104074358940125,
      "learning_rate": 0.0005909447786197102,
      "loss": 1.8005,
      "step": 7070
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41299939155578613,
      "learning_rate": 0.0005909422298179303,
      "loss": 1.8309,
      "step": 7071
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40312230587005615,
      "learning_rate": 0.0005909396806629895,
      "loss": 1.7455,
      "step": 7072
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4160914123058319,
      "learning_rate": 0.0005909371311548907,
      "loss": 1.8125,
      "step": 7073
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4252966046333313,
      "learning_rate": 0.000590934581293637,
      "loss": 1.7903,
      "step": 7074
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4303376376628876,
      "learning_rate": 0.0005909320310792318,
      "loss": 1.8788,
      "step": 7075
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41173312067985535,
      "learning_rate": 0.0005909294805116779,
      "loss": 1.8019,
      "step": 7076
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4102155864238739,
      "learning_rate": 0.0005909269295909784,
      "loss": 1.8003,
      "step": 7077
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4102376699447632,
      "learning_rate": 0.0005909243783171366,
      "loss": 1.829,
      "step": 7078
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42904695868492126,
      "learning_rate": 0.0005909218266901552,
      "loss": 1.8438,
      "step": 7079
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41358497738838196,
      "learning_rate": 0.0005909192747100379,
      "loss": 1.8633,
      "step": 7080
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4194830060005188,
      "learning_rate": 0.0005909167223767873,
      "loss": 1.8224,
      "step": 7081
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4258211553096771,
      "learning_rate": 0.0005909141696904067,
      "loss": 1.9156,
      "step": 7082
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4106981158256531,
      "learning_rate": 0.0005909116166508991,
      "loss": 1.8382,
      "step": 7083
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40944504737854004,
      "learning_rate": 0.0005909090632582678,
      "loss": 1.8015,
      "step": 7084
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4083019495010376,
      "learning_rate": 0.0005909065095125157,
      "loss": 1.8328,
      "step": 7085
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42150530219078064,
      "learning_rate": 0.0005909039554136459,
      "loss": 1.815,
      "step": 7086
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41331908106803894,
      "learning_rate": 0.0005909014009616617,
      "loss": 1.8265,
      "step": 7087
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.404171884059906,
      "learning_rate": 0.0005908988461565659,
      "loss": 1.7824,
      "step": 7088
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4133261442184448,
      "learning_rate": 0.0005908962909983618,
      "loss": 1.8495,
      "step": 7089
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42578449845314026,
      "learning_rate": 0.0005908937354870524,
      "loss": 1.8583,
      "step": 7090
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4176798462867737,
      "learning_rate": 0.0005908911796226409,
      "loss": 1.8195,
      "step": 7091
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4059385657310486,
      "learning_rate": 0.0005908886234051305,
      "loss": 1.8249,
      "step": 7092
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41044577956199646,
      "learning_rate": 0.0005908860668345241,
      "loss": 1.8357,
      "step": 7093
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4116993546485901,
      "learning_rate": 0.000590883509910825,
      "loss": 1.7896,
      "step": 7094
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4135347604751587,
      "learning_rate": 0.0005908809526340359,
      "loss": 1.7716,
      "step": 7095
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41812339425086975,
      "learning_rate": 0.0005908783950041604,
      "loss": 1.857,
      "step": 7096
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42555785179138184,
      "learning_rate": 0.0005908758370212013,
      "loss": 1.8306,
      "step": 7097
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42144280672073364,
      "learning_rate": 0.0005908732786851619,
      "loss": 1.8747,
      "step": 7098
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3959324061870575,
      "learning_rate": 0.0005908707199960451,
      "loss": 1.8314,
      "step": 7099
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41836464405059814,
      "learning_rate": 0.000590868160953854,
      "loss": 1.8307,
      "step": 7100
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41770535707473755,
      "learning_rate": 0.0005908656015585919,
      "loss": 1.8665,
      "step": 7101
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41439613699913025,
      "learning_rate": 0.0005908630418102619,
      "loss": 1.871,
      "step": 7102
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41602471470832825,
      "learning_rate": 0.0005908604817088669,
      "loss": 1.8088,
      "step": 7103
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3954332768917084,
      "learning_rate": 0.0005908579212544102,
      "loss": 1.8072,
      "step": 7104
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42568477988243103,
      "learning_rate": 0.0005908553604468948,
      "loss": 1.8066,
      "step": 7105
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4159511625766754,
      "learning_rate": 0.000590852799286324,
      "loss": 1.814,
      "step": 7106
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41197267174720764,
      "learning_rate": 0.0005908502377727006,
      "loss": 1.8851,
      "step": 7107
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4064006209373474,
      "learning_rate": 0.0005908476759060279,
      "loss": 1.7389,
      "step": 7108
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4132038652896881,
      "learning_rate": 0.000590845113686309,
      "loss": 1.7844,
      "step": 7109
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4242563247680664,
      "learning_rate": 0.000590842551113547,
      "loss": 1.77,
      "step": 7110
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41856956481933594,
      "learning_rate": 0.000590839988187745,
      "loss": 1.8518,
      "step": 7111
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4157731235027313,
      "learning_rate": 0.000590837424908906,
      "loss": 1.881,
      "step": 7112
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4060581624507904,
      "learning_rate": 0.0005908348612770332,
      "loss": 1.8128,
      "step": 7113
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4350816309452057,
      "learning_rate": 0.0005908322972921298,
      "loss": 1.9335,
      "step": 7114
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4178207218647003,
      "learning_rate": 0.0005908297329541989,
      "loss": 1.8455,
      "step": 7115
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4189681112766266,
      "learning_rate": 0.0005908271682632435,
      "loss": 1.7786,
      "step": 7116
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4041706621646881,
      "learning_rate": 0.0005908246032192668,
      "loss": 1.7966,
      "step": 7117
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43105560541152954,
      "learning_rate": 0.000590822037822272,
      "loss": 1.9024,
      "step": 7118
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4111011028289795,
      "learning_rate": 0.000590819472072262,
      "loss": 1.8545,
      "step": 7119
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4022877812385559,
      "learning_rate": 0.0005908169059692399,
      "loss": 1.8238,
      "step": 7120
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4016198515892029,
      "learning_rate": 0.000590814339513209,
      "loss": 1.7445,
      "step": 7121
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4238477647304535,
      "learning_rate": 0.0005908117727041724,
      "loss": 1.8565,
      "step": 7122
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4123203754425049,
      "learning_rate": 0.000590809205542133,
      "loss": 1.8295,
      "step": 7123
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4005323350429535,
      "learning_rate": 0.0005908066380270942,
      "loss": 1.8191,
      "step": 7124
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4247302711009979,
      "learning_rate": 0.000590804070159059,
      "loss": 1.8188,
      "step": 7125
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4207668602466583,
      "learning_rate": 0.0005908015019380305,
      "loss": 1.8301,
      "step": 7126
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4369829297065735,
      "learning_rate": 0.0005907989333640117,
      "loss": 1.8648,
      "step": 7127
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4305194616317749,
      "learning_rate": 0.0005907963644370061,
      "loss": 1.8612,
      "step": 7128
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42033132910728455,
      "learning_rate": 0.0005907937951570163,
      "loss": 1.8776,
      "step": 7129
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41408851742744446,
      "learning_rate": 0.0005907912255240459,
      "loss": 1.7956,
      "step": 7130
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4213126003742218,
      "learning_rate": 0.0005907886555380975,
      "loss": 1.8351,
      "step": 7131
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42888498306274414,
      "learning_rate": 0.0005907860851991747,
      "loss": 1.7661,
      "step": 7132
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40500643849372864,
      "learning_rate": 0.0005907835145072805,
      "loss": 1.7362,
      "step": 7133
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.44478023052215576,
      "learning_rate": 0.0005907809434624178,
      "loss": 1.829,
      "step": 7134
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43513908982276917,
      "learning_rate": 0.0005907783720645901,
      "loss": 1.87,
      "step": 7135
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41847333312034607,
      "learning_rate": 0.0005907758003138001,
      "loss": 1.9167,
      "step": 7136
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41541510820388794,
      "learning_rate": 0.0005907732282100513,
      "loss": 1.7793,
      "step": 7137
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42628616094589233,
      "learning_rate": 0.0005907706557533465,
      "loss": 1.8213,
      "step": 7138
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4050484299659729,
      "learning_rate": 0.0005907680829436889,
      "loss": 1.8289,
      "step": 7139
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4235740005970001,
      "learning_rate": 0.0005907655097810819,
      "loss": 1.7418,
      "step": 7140
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43165987730026245,
      "learning_rate": 0.0005907629362655282,
      "loss": 1.8417,
      "step": 7141
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4161391854286194,
      "learning_rate": 0.0005907603623970314,
      "loss": 1.8656,
      "step": 7142
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4128987789154053,
      "learning_rate": 0.0005907577881755941,
      "loss": 1.807,
      "step": 7143
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43066465854644775,
      "learning_rate": 0.0005907552136012198,
      "loss": 1.882,
      "step": 7144
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4426649808883667,
      "learning_rate": 0.0005907526386739114,
      "loss": 1.7843,
      "step": 7145
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4184325039386749,
      "learning_rate": 0.0005907500633936724,
      "loss": 1.8138,
      "step": 7146
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41881078481674194,
      "learning_rate": 0.0005907474877605055,
      "loss": 1.773,
      "step": 7147
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4412510395050049,
      "learning_rate": 0.0005907449117744139,
      "loss": 1.8013,
      "step": 7148
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42005640268325806,
      "learning_rate": 0.0005907423354354009,
      "loss": 1.8286,
      "step": 7149
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42639586329460144,
      "learning_rate": 0.0005907397587434696,
      "loss": 1.8344,
      "step": 7150
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.45788243412971497,
      "learning_rate": 0.000590737181698623,
      "loss": 1.8537,
      "step": 7151
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4179251194000244,
      "learning_rate": 0.0005907346043008644,
      "loss": 1.8904,
      "step": 7152
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4338095784187317,
      "learning_rate": 0.0005907320265501967,
      "loss": 1.839,
      "step": 7153
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.44472333788871765,
      "learning_rate": 0.0005907294484466233,
      "loss": 1.8147,
      "step": 7154
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4253615438938141,
      "learning_rate": 0.0005907268699901471,
      "loss": 1.8618,
      "step": 7155
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40034639835357666,
      "learning_rate": 0.0005907242911807713,
      "loss": 1.7969,
      "step": 7156
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.44531169533729553,
      "learning_rate": 0.000590721712018499,
      "loss": 1.7487,
      "step": 7157
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4419340193271637,
      "learning_rate": 0.0005907191325033334,
      "loss": 1.8791,
      "step": 7158
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3994736075401306,
      "learning_rate": 0.0005907165526352777,
      "loss": 1.7957,
      "step": 7159
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42150768637657166,
      "learning_rate": 0.0005907139724143349,
      "loss": 1.7297,
      "step": 7160
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4120410084724426,
      "learning_rate": 0.0005907113918405081,
      "loss": 1.7652,
      "step": 7161
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4329649806022644,
      "learning_rate": 0.0005907088109138006,
      "loss": 1.836,
      "step": 7162
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4116944968700409,
      "learning_rate": 0.0005907062296342154,
      "loss": 1.8201,
      "step": 7163
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4133481979370117,
      "learning_rate": 0.0005907036480017557,
      "loss": 1.7928,
      "step": 7164
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4010131359100342,
      "learning_rate": 0.0005907010660164245,
      "loss": 1.815,
      "step": 7165
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43524491786956787,
      "learning_rate": 0.0005906984836782251,
      "loss": 1.857,
      "step": 7166
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4129907786846161,
      "learning_rate": 0.0005906959009871607,
      "loss": 1.7954,
      "step": 7167
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4025720953941345,
      "learning_rate": 0.0005906933179432341,
      "loss": 1.7359,
      "step": 7168
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4122091829776764,
      "learning_rate": 0.0005906907345464488,
      "loss": 1.8261,
      "step": 7169
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42722082138061523,
      "learning_rate": 0.0005906881507968077,
      "loss": 1.8201,
      "step": 7170
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42230942845344543,
      "learning_rate": 0.0005906855666943141,
      "loss": 1.8622,
      "step": 7171
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.396380752325058,
      "learning_rate": 0.0005906829822389709,
      "loss": 1.7806,
      "step": 7172
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4052797853946686,
      "learning_rate": 0.0005906803974307815,
      "loss": 1.8334,
      "step": 7173
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4094783663749695,
      "learning_rate": 0.0005906778122697489,
      "loss": 1.7032,
      "step": 7174
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4155486524105072,
      "learning_rate": 0.0005906752267558763,
      "loss": 1.7797,
      "step": 7175
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40731242299079895,
      "learning_rate": 0.0005906726408891667,
      "loss": 1.8078,
      "step": 7176
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4299204349517822,
      "learning_rate": 0.0005906700546696235,
      "loss": 1.8752,
      "step": 7177
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.415371298789978,
      "learning_rate": 0.0005906674680972496,
      "loss": 1.7916,
      "step": 7178
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40292927622795105,
      "learning_rate": 0.0005906648811720482,
      "loss": 1.8116,
      "step": 7179
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4180997908115387,
      "learning_rate": 0.0005906622938940224,
      "loss": 1.8995,
      "step": 7180
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4055633544921875,
      "learning_rate": 0.0005906597062631755,
      "loss": 1.8084,
      "step": 7181
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40969863533973694,
      "learning_rate": 0.0005906571182795106,
      "loss": 1.85,
      "step": 7182
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4185704290866852,
      "learning_rate": 0.0005906545299430307,
      "loss": 1.8081,
      "step": 7183
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4181375205516815,
      "learning_rate": 0.000590651941253739,
      "loss": 1.8196,
      "step": 7184
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41118812561035156,
      "learning_rate": 0.0005906493522116387,
      "loss": 1.8752,
      "step": 7185
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4121086299419403,
      "learning_rate": 0.000590646762816733,
      "loss": 1.7234,
      "step": 7186
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5134137272834778,
      "learning_rate": 0.0005906441730690248,
      "loss": 1.8812,
      "step": 7187
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4120399057865143,
      "learning_rate": 0.0005906415829685175,
      "loss": 1.8258,
      "step": 7188
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4296993911266327,
      "learning_rate": 0.000590638992515214,
      "loss": 1.8124,
      "step": 7189
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4170231819152832,
      "learning_rate": 0.0005906364017091178,
      "loss": 1.7744,
      "step": 7190
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4131951630115509,
      "learning_rate": 0.0005906338105502318,
      "loss": 1.819,
      "step": 7191
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4137779474258423,
      "learning_rate": 0.000590631219038559,
      "loss": 1.812,
      "step": 7192
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4147688150405884,
      "learning_rate": 0.0005906286271741029,
      "loss": 1.8223,
      "step": 7193
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40877288579940796,
      "learning_rate": 0.0005906260349568663,
      "loss": 1.7676,
      "step": 7194
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41174954175949097,
      "learning_rate": 0.0005906234423868527,
      "loss": 1.8355,
      "step": 7195
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4671200215816498,
      "learning_rate": 0.000590620849464065,
      "loss": 1.8364,
      "step": 7196
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4153817594051361,
      "learning_rate": 0.0005906182561885063,
      "loss": 1.8372,
      "step": 7197
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40327733755111694,
      "learning_rate": 0.00059061566256018,
      "loss": 1.8252,
      "step": 7198
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4238628149032593,
      "learning_rate": 0.0005906130685790891,
      "loss": 1.9053,
      "step": 7199
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40533825755119324,
      "learning_rate": 0.0005906104742452367,
      "loss": 1.8033,
      "step": 7200
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4188584089279175,
      "learning_rate": 0.000590607879558626,
      "loss": 1.9452,
      "step": 7201
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4159494936466217,
      "learning_rate": 0.0005906052845192601,
      "loss": 1.8394,
      "step": 7202
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41279277205467224,
      "learning_rate": 0.0005906026891271424,
      "loss": 1.8333,
      "step": 7203
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4073537290096283,
      "learning_rate": 0.0005906000933822756,
      "loss": 1.8156,
      "step": 7204
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42752954363822937,
      "learning_rate": 0.0005905974972846632,
      "loss": 1.8905,
      "step": 7205
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4105948209762573,
      "learning_rate": 0.0005905949008343084,
      "loss": 1.8352,
      "step": 7206
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4048708975315094,
      "learning_rate": 0.000590592304031214,
      "loss": 1.8332,
      "step": 7207
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.415036678314209,
      "learning_rate": 0.0005905897068753834,
      "loss": 1.917,
      "step": 7208
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4100727140903473,
      "learning_rate": 0.0005905871093668198,
      "loss": 1.8759,
      "step": 7209
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.400850772857666,
      "learning_rate": 0.0005905845115055263,
      "loss": 1.8267,
      "step": 7210
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40531420707702637,
      "learning_rate": 0.0005905819132915059,
      "loss": 1.7863,
      "step": 7211
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.39969685673713684,
      "learning_rate": 0.0005905793147247619,
      "loss": 1.8784,
      "step": 7212
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4044089913368225,
      "learning_rate": 0.0005905767158052975,
      "loss": 1.8821,
      "step": 7213
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41820308566093445,
      "learning_rate": 0.0005905741165331157,
      "loss": 1.7335,
      "step": 7214
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4202815890312195,
      "learning_rate": 0.0005905715169082197,
      "loss": 1.7987,
      "step": 7215
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4023978114128113,
      "learning_rate": 0.0005905689169306128,
      "loss": 1.8024,
      "step": 7216
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.421969473361969,
      "learning_rate": 0.0005905663166002979,
      "loss": 1.7969,
      "step": 7217
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4117405414581299,
      "learning_rate": 0.0005905637159172785,
      "loss": 1.7801,
      "step": 7218
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4071884751319885,
      "learning_rate": 0.0005905611148815575,
      "loss": 1.8279,
      "step": 7219
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41826456785202026,
      "learning_rate": 0.000590558513493138,
      "loss": 1.8209,
      "step": 7220
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4107651710510254,
      "learning_rate": 0.0005905559117520234,
      "loss": 1.783,
      "step": 7221
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4221997857093811,
      "learning_rate": 0.0005905533096582167,
      "loss": 1.7351,
      "step": 7222
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.413725346326828,
      "learning_rate": 0.0005905507072117211,
      "loss": 1.7864,
      "step": 7223
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4262275695800781,
      "learning_rate": 0.0005905481044125397,
      "loss": 1.8739,
      "step": 7224
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40348291397094727,
      "learning_rate": 0.0005905455012606758,
      "loss": 1.716,
      "step": 7225
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4086931645870209,
      "learning_rate": 0.0005905428977561325,
      "loss": 1.7547,
      "step": 7226
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4328180253505707,
      "learning_rate": 0.0005905402938989128,
      "loss": 1.8066,
      "step": 7227
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4088189899921417,
      "learning_rate": 0.00059053768968902,
      "loss": 1.7596,
      "step": 7228
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42763271927833557,
      "learning_rate": 0.0005905350851264573,
      "loss": 1.8635,
      "step": 7229
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41455867886543274,
      "learning_rate": 0.0005905324802112278,
      "loss": 1.7343,
      "step": 7230
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.416164755821228,
      "learning_rate": 0.0005905298749433347,
      "loss": 1.7943,
      "step": 7231
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40576162934303284,
      "learning_rate": 0.0005905272693227811,
      "loss": 1.7836,
      "step": 7232
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4145742654800415,
      "learning_rate": 0.0005905246633495703,
      "loss": 1.7968,
      "step": 7233
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4159662425518036,
      "learning_rate": 0.0005905220570237053,
      "loss": 1.8445,
      "step": 7234
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4282396137714386,
      "learning_rate": 0.0005905194503451894,
      "loss": 1.8075,
      "step": 7235
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4160185158252716,
      "learning_rate": 0.0005905168433140256,
      "loss": 1.8681,
      "step": 7236
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41972407698631287,
      "learning_rate": 0.0005905142359302171,
      "loss": 1.7953,
      "step": 7237
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4378787875175476,
      "learning_rate": 0.0005905116281937672,
      "loss": 1.7433,
      "step": 7238
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4486648440361023,
      "learning_rate": 0.000590509020104679,
      "loss": 1.7589,
      "step": 7239
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41861671209335327,
      "learning_rate": 0.0005905064116629557,
      "loss": 1.7806,
      "step": 7240
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40781286358833313,
      "learning_rate": 0.0005905038028686003,
      "loss": 1.8125,
      "step": 7241
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43417835235595703,
      "learning_rate": 0.0005905011937216161,
      "loss": 1.8919,
      "step": 7242
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4136296808719635,
      "learning_rate": 0.0005904985842220064,
      "loss": 1.7693,
      "step": 7243
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4247640073299408,
      "learning_rate": 0.0005904959743697741,
      "loss": 1.8146,
      "step": 7244
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4232935905456543,
      "learning_rate": 0.0005904933641649226,
      "loss": 1.8005,
      "step": 7245
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.414934366941452,
      "learning_rate": 0.0005904907536074548,
      "loss": 1.7639,
      "step": 7246
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41692298650741577,
      "learning_rate": 0.0005904881426973741,
      "loss": 1.8579,
      "step": 7247
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4292316138744354,
      "learning_rate": 0.0005904855314346837,
      "loss": 1.8737,
      "step": 7248
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4154432415962219,
      "learning_rate": 0.0005904829198193865,
      "loss": 1.7774,
      "step": 7249
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4283350706100464,
      "learning_rate": 0.000590480307851486,
      "loss": 1.8158,
      "step": 7250
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41065916419029236,
      "learning_rate": 0.000590477695530985,
      "loss": 1.8436,
      "step": 7251
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40223515033721924,
      "learning_rate": 0.000590475082857887,
      "loss": 1.8668,
      "step": 7252
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4448240399360657,
      "learning_rate": 0.000590472469832195,
      "loss": 1.8778,
      "step": 7253
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4324786961078644,
      "learning_rate": 0.0005904698564539123,
      "loss": 1.8479,
      "step": 7254
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4106466770172119,
      "learning_rate": 0.0005904672427230419,
      "loss": 1.8133,
      "step": 7255
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4058991074562073,
      "learning_rate": 0.0005904646286395872,
      "loss": 1.7751,
      "step": 7256
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41027623414993286,
      "learning_rate": 0.0005904620142035511,
      "loss": 1.8041,
      "step": 7257
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4043320119380951,
      "learning_rate": 0.000590459399414937,
      "loss": 1.8054,
      "step": 7258
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3940104842185974,
      "learning_rate": 0.0005904567842737479,
      "loss": 1.8053,
      "step": 7259
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42064762115478516,
      "learning_rate": 0.0005904541687799872,
      "loss": 1.8397,
      "step": 7260
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4054555594921112,
      "learning_rate": 0.0005904515529336578,
      "loss": 1.8499,
      "step": 7261
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4137110114097595,
      "learning_rate": 0.000590448936734763,
      "loss": 1.7909,
      "step": 7262
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4095943868160248,
      "learning_rate": 0.0005904463201833061,
      "loss": 1.7555,
      "step": 7263
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4065020680427551,
      "learning_rate": 0.0005904437032792901,
      "loss": 1.747,
      "step": 7264
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4105737507343292,
      "learning_rate": 0.0005904410860227182,
      "loss": 1.8008,
      "step": 7265
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4145843982696533,
      "learning_rate": 0.0005904384684135937,
      "loss": 1.803,
      "step": 7266
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40759602189064026,
      "learning_rate": 0.0005904358504519198,
      "loss": 1.8253,
      "step": 7267
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4125692546367645,
      "learning_rate": 0.0005904332321376993,
      "loss": 1.7773,
      "step": 7268
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4729611575603485,
      "learning_rate": 0.0005904306134709358,
      "loss": 1.9117,
      "step": 7269
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4020671844482422,
      "learning_rate": 0.0005904279944516323,
      "loss": 1.8079,
      "step": 7270
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4166650176048279,
      "learning_rate": 0.000590425375079792,
      "loss": 1.8072,
      "step": 7271
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4083811938762665,
      "learning_rate": 0.0005904227553554181,
      "loss": 1.8069,
      "step": 7272
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4208969473838806,
      "learning_rate": 0.0005904201352785138,
      "loss": 1.8126,
      "step": 7273
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4016479551792145,
      "learning_rate": 0.0005904175148490822,
      "loss": 1.7808,
      "step": 7274
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4134668707847595,
      "learning_rate": 0.0005904148940671265,
      "loss": 1.7974,
      "step": 7275
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4147156774997711,
      "learning_rate": 0.00059041227293265,
      "loss": 1.899,
      "step": 7276
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40759190917015076,
      "learning_rate": 0.0005904096514456557,
      "loss": 1.7957,
      "step": 7277
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3906378448009491,
      "learning_rate": 0.0005904070296061469,
      "loss": 1.794,
      "step": 7278
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4393993020057678,
      "learning_rate": 0.0005904044074141268,
      "loss": 1.9172,
      "step": 7279
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4182409346103668,
      "learning_rate": 0.0005904017848695985,
      "loss": 1.8095,
      "step": 7280
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43368661403656006,
      "learning_rate": 0.0005903991619725653,
      "loss": 1.8236,
      "step": 7281
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41119185090065,
      "learning_rate": 0.0005903965387230301,
      "loss": 1.7993,
      "step": 7282
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4143570363521576,
      "learning_rate": 0.0005903939151209965,
      "loss": 1.8668,
      "step": 7283
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4275139570236206,
      "learning_rate": 0.0005903912911664675,
      "loss": 1.8892,
      "step": 7284
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40564030408859253,
      "learning_rate": 0.0005903886668594461,
      "loss": 1.7907,
      "step": 7285
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4130684435367584,
      "learning_rate": 0.0005903860421999356,
      "loss": 1.8575,
      "step": 7286
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4056921601295471,
      "learning_rate": 0.0005903834171879395,
      "loss": 1.8227,
      "step": 7287
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41156473755836487,
      "learning_rate": 0.0005903807918234605,
      "loss": 1.8455,
      "step": 7288
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4105203151702881,
      "learning_rate": 0.000590378166106502,
      "loss": 1.8579,
      "step": 7289
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4127732217311859,
      "learning_rate": 0.0005903755400370672,
      "loss": 1.8139,
      "step": 7290
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40868043899536133,
      "learning_rate": 0.0005903729136151595,
      "loss": 1.8182,
      "step": 7291
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41537362337112427,
      "learning_rate": 0.0005903702868407816,
      "loss": 1.9216,
      "step": 7292
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4044124186038971,
      "learning_rate": 0.0005903676597139371,
      "loss": 1.8531,
      "step": 7293
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42221635580062866,
      "learning_rate": 0.000590365032234629,
      "loss": 1.898,
      "step": 7294
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4010712802410126,
      "learning_rate": 0.0005903624044028605,
      "loss": 1.838,
      "step": 7295
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43035194277763367,
      "learning_rate": 0.0005903597762186349,
      "loss": 1.8323,
      "step": 7296
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4049879312515259,
      "learning_rate": 0.0005903571476819552,
      "loss": 1.8148,
      "step": 7297
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42204955220222473,
      "learning_rate": 0.0005903545187928247,
      "loss": 1.8281,
      "step": 7298
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4270229637622833,
      "learning_rate": 0.0005903518895512467,
      "loss": 1.7622,
      "step": 7299
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41935205459594727,
      "learning_rate": 0.0005903492599572243,
      "loss": 1.8221,
      "step": 7300
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.422306627035141,
      "learning_rate": 0.0005903466300107606,
      "loss": 1.7505,
      "step": 7301
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42775455117225647,
      "learning_rate": 0.000590343999711859,
      "loss": 1.7793,
      "step": 7302
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4257274568080902,
      "learning_rate": 0.0005903413690605225,
      "loss": 1.7452,
      "step": 7303
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41216108202934265,
      "learning_rate": 0.0005903387380567543,
      "loss": 1.7842,
      "step": 7304
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42080071568489075,
      "learning_rate": 0.0005903361067005577,
      "loss": 1.7502,
      "step": 7305
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4348171353340149,
      "learning_rate": 0.0005903334749919358,
      "loss": 1.7898,
      "step": 7306
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4011390209197998,
      "learning_rate": 0.0005903308429308919,
      "loss": 1.7524,
      "step": 7307
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41056567430496216,
      "learning_rate": 0.0005903282105174291,
      "loss": 1.783,
      "step": 7308
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4267154633998871,
      "learning_rate": 0.0005903255777515505,
      "loss": 1.7688,
      "step": 7309
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4108225405216217,
      "learning_rate": 0.0005903229446332596,
      "loss": 1.7122,
      "step": 7310
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4138055443763733,
      "learning_rate": 0.0005903203111625594,
      "loss": 1.8401,
      "step": 7311
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41438138484954834,
      "learning_rate": 0.0005903176773394531,
      "loss": 1.8353,
      "step": 7312
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41209372878074646,
      "learning_rate": 0.0005903150431639439,
      "loss": 1.7505,
      "step": 7313
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4018115699291229,
      "learning_rate": 0.000590312408636035,
      "loss": 1.6239,
      "step": 7314
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41109222173690796,
      "learning_rate": 0.0005903097737557298,
      "loss": 1.7689,
      "step": 7315
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3998132348060608,
      "learning_rate": 0.000590307138523031,
      "loss": 1.7878,
      "step": 7316
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41955527663230896,
      "learning_rate": 0.0005903045029379423,
      "loss": 1.7838,
      "step": 7317
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4133192002773285,
      "learning_rate": 0.0005903018670004668,
      "loss": 1.8203,
      "step": 7318
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40281301736831665,
      "learning_rate": 0.0005902992307106074,
      "loss": 1.7678,
      "step": 7319
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41758233308792114,
      "learning_rate": 0.0005902965940683676,
      "loss": 1.7976,
      "step": 7320
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.413038432598114,
      "learning_rate": 0.0005902939570737504,
      "loss": 1.8547,
      "step": 7321
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42217767238616943,
      "learning_rate": 0.0005902913197267592,
      "loss": 1.8668,
      "step": 7322
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41501808166503906,
      "learning_rate": 0.0005902886820273971,
      "loss": 1.7396,
      "step": 7323
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4242829382419586,
      "learning_rate": 0.0005902860439756674,
      "loss": 1.7878,
      "step": 7324
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4154386520385742,
      "learning_rate": 0.0005902834055715731,
      "loss": 1.816,
      "step": 7325
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4173702597618103,
      "learning_rate": 0.0005902807668151176,
      "loss": 1.8441,
      "step": 7326
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4127635657787323,
      "learning_rate": 0.0005902781277063039,
      "loss": 1.8247,
      "step": 7327
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41469475626945496,
      "learning_rate": 0.0005902754882451354,
      "loss": 1.7933,
      "step": 7328
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43707603216171265,
      "learning_rate": 0.0005902728484316153,
      "loss": 1.8841,
      "step": 7329
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.39665457606315613,
      "learning_rate": 0.0005902702082657466,
      "loss": 1.7205,
      "step": 7330
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3963415026664734,
      "learning_rate": 0.0005902675677475327,
      "loss": 1.763,
      "step": 7331
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4045317769050598,
      "learning_rate": 0.0005902649268769767,
      "loss": 1.7748,
      "step": 7332
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42370104789733887,
      "learning_rate": 0.0005902622856540819,
      "loss": 1.8094,
      "step": 7333
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4361146092414856,
      "learning_rate": 0.0005902596440788514,
      "loss": 1.8008,
      "step": 7334
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4230262041091919,
      "learning_rate": 0.0005902570021512885,
      "loss": 1.8168,
      "step": 7335
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41484615206718445,
      "learning_rate": 0.0005902543598713964,
      "loss": 1.8158,
      "step": 7336
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4281125068664551,
      "learning_rate": 0.0005902517172391782,
      "loss": 1.8626,
      "step": 7337
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4096071422100067,
      "learning_rate": 0.0005902490742546372,
      "loss": 1.767,
      "step": 7338
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4156695604324341,
      "learning_rate": 0.0005902464309177766,
      "loss": 1.7669,
      "step": 7339
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4168788492679596,
      "learning_rate": 0.0005902437872285996,
      "loss": 1.8405,
      "step": 7340
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.413519024848938,
      "learning_rate": 0.0005902411431871094,
      "loss": 1.7624,
      "step": 7341
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4710423946380615,
      "learning_rate": 0.0005902384987933094,
      "loss": 1.7741,
      "step": 7342
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41078808903694153,
      "learning_rate": 0.0005902358540472024,
      "loss": 1.7972,
      "step": 7343
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43422770500183105,
      "learning_rate": 0.0005902332089487919,
      "loss": 1.8391,
      "step": 7344
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4300803244113922,
      "learning_rate": 0.0005902305634980811,
      "loss": 1.8701,
      "step": 7345
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41639143228530884,
      "learning_rate": 0.000590227917695073,
      "loss": 1.7822,
      "step": 7346
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.41669410467147827,
      "learning_rate": 0.000590225271539771,
      "loss": 1.8438,
      "step": 7347
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4198852777481079,
      "learning_rate": 0.0005902226250321784,
      "loss": 1.827,
      "step": 7348
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.45764899253845215,
      "learning_rate": 0.0005902199781722983,
      "loss": 1.8864,
      "step": 7349
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40060660243034363,
      "learning_rate": 0.000590217330960134,
      "loss": 1.8476,
      "step": 7350
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4027445316314697,
      "learning_rate": 0.0005902146833956884,
      "loss": 1.8324,
      "step": 7351
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40387284755706787,
      "learning_rate": 0.000590212035478965,
      "loss": 1.7873,
      "step": 7352
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.40525075793266296,
      "learning_rate": 0.000590209387209967,
      "loss": 1.803,
      "step": 7353
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4209972620010376,
      "learning_rate": 0.0005902067385886975,
      "loss": 1.8154,
      "step": 7354
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4030410945415497,
      "learning_rate": 0.0005902040896151598,
      "loss": 1.8711,
      "step": 7355
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4095556437969208,
      "learning_rate": 0.0005902014402893571,
      "loss": 1.869,
      "step": 7356
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4161614179611206,
      "learning_rate": 0.0005901987906112926,
      "loss": 1.8384,
      "step": 7357
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4120655357837677,
      "learning_rate": 0.0005901961405809696,
      "loss": 1.7909,
      "step": 7358
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.409882128238678,
      "learning_rate": 0.0005901934901983911,
      "loss": 1.7741,
      "step": 7359
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4002556800842285,
      "learning_rate": 0.0005901908394635606,
      "loss": 1.8096,
      "step": 7360
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42421770095825195,
      "learning_rate": 0.0005901881883764811,
      "loss": 1.8033,
      "step": 7361
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4073697626590729,
      "learning_rate": 0.0005901855369371559,
      "loss": 1.755,
      "step": 7362
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4199810326099396,
      "learning_rate": 0.0005901828851455883,
      "loss": 1.8459,
      "step": 7363
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4058670699596405,
      "learning_rate": 0.0005901802330017813,
      "loss": 1.7975,
      "step": 7364
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40459516644477844,
      "learning_rate": 0.0005901775805057383,
      "loss": 1.8567,
      "step": 7365
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4378649890422821,
      "learning_rate": 0.0005901749276574626,
      "loss": 1.8717,
      "step": 7366
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4064997732639313,
      "learning_rate": 0.0005901722744569572,
      "loss": 1.7672,
      "step": 7367
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4071054756641388,
      "learning_rate": 0.0005901696209042254,
      "loss": 1.7854,
      "step": 7368
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4218856692314148,
      "learning_rate": 0.0005901669669992704,
      "loss": 1.8573,
      "step": 7369
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.416873574256897,
      "learning_rate": 0.0005901643127420956,
      "loss": 1.8579,
      "step": 7370
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39793211221694946,
      "learning_rate": 0.0005901616581327039,
      "loss": 1.8015,
      "step": 7371
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4028949737548828,
      "learning_rate": 0.0005901590031710987,
      "loss": 1.7808,
      "step": 7372
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4126102924346924,
      "learning_rate": 0.0005901563478572833,
      "loss": 1.8144,
      "step": 7373
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4216967225074768,
      "learning_rate": 0.0005901536921912609,
      "loss": 1.8361,
      "step": 7374
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4017089903354645,
      "learning_rate": 0.0005901510361730346,
      "loss": 1.7219,
      "step": 7375
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.43070679903030396,
      "learning_rate": 0.0005901483798026077,
      "loss": 1.8481,
      "step": 7376
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40691062808036804,
      "learning_rate": 0.0005901457230799834,
      "loss": 1.8587,
      "step": 7377
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40757477283477783,
      "learning_rate": 0.000590143066005165,
      "loss": 1.8297,
      "step": 7378
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3999510705471039,
      "learning_rate": 0.0005901404085781556,
      "loss": 1.8468,
      "step": 7379
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40649205446243286,
      "learning_rate": 0.0005901377507989585,
      "loss": 1.8769,
      "step": 7380
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41564470529556274,
      "learning_rate": 0.000590135092667577,
      "loss": 1.9584,
      "step": 7381
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40127596259117126,
      "learning_rate": 0.0005901324341840143,
      "loss": 1.7901,
      "step": 7382
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41410529613494873,
      "learning_rate": 0.0005901297753482733,
      "loss": 1.8613,
      "step": 7383
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4009781777858734,
      "learning_rate": 0.0005901271161603578,
      "loss": 1.7531,
      "step": 7384
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4077174663543701,
      "learning_rate": 0.0005901244566202705,
      "loss": 1.8098,
      "step": 7385
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.395427942276001,
      "learning_rate": 0.000590121796728015,
      "loss": 1.8101,
      "step": 7386
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41769295930862427,
      "learning_rate": 0.0005901191364835943,
      "loss": 1.9024,
      "step": 7387
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39321503043174744,
      "learning_rate": 0.0005901164758870119,
      "loss": 1.7732,
      "step": 7388
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4001888930797577,
      "learning_rate": 0.0005901138149382707,
      "loss": 1.7702,
      "step": 7389
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4087563157081604,
      "learning_rate": 0.000590111153637374,
      "loss": 1.8344,
      "step": 7390
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40399765968322754,
      "learning_rate": 0.0005901084919843251,
      "loss": 1.8174,
      "step": 7391
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.414271742105484,
      "learning_rate": 0.0005901058299791275,
      "loss": 1.7833,
      "step": 7392
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41037440299987793,
      "learning_rate": 0.0005901031676217839,
      "loss": 1.8546,
      "step": 7393
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4220041036605835,
      "learning_rate": 0.0005901005049122979,
      "loss": 1.8072,
      "step": 7394
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4181680679321289,
      "learning_rate": 0.0005900978418506725,
      "loss": 1.9079,
      "step": 7395
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4144149124622345,
      "learning_rate": 0.0005900951784369113,
      "loss": 1.8242,
      "step": 7396
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4016364812850952,
      "learning_rate": 0.0005900925146710172,
      "loss": 1.7507,
      "step": 7397
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4182116985321045,
      "learning_rate": 0.0005900898505529935,
      "loss": 1.8423,
      "step": 7398
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40849024057388306,
      "learning_rate": 0.0005900871860828435,
      "loss": 1.8243,
      "step": 7399
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4173597991466522,
      "learning_rate": 0.0005900845212605703,
      "loss": 1.8521,
      "step": 7400
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40634769201278687,
      "learning_rate": 0.0005900818560861774,
      "loss": 1.7781,
      "step": 7401
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4082939028739929,
      "learning_rate": 0.0005900791905596677,
      "loss": 1.8449,
      "step": 7402
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4175513982772827,
      "learning_rate": 0.0005900765246810447,
      "loss": 1.793,
      "step": 7403
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42097771167755127,
      "learning_rate": 0.0005900738584503116,
      "loss": 1.8003,
      "step": 7404
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40614643692970276,
      "learning_rate": 0.0005900711918674714,
      "loss": 1.7978,
      "step": 7405
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.408465713262558,
      "learning_rate": 0.0005900685249325277,
      "loss": 1.8015,
      "step": 7406
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42552870512008667,
      "learning_rate": 0.0005900658576454835,
      "loss": 1.835,
      "step": 7407
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41882526874542236,
      "learning_rate": 0.000590063190006342,
      "loss": 1.7751,
      "step": 7408
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.43527889251708984,
      "learning_rate": 0.0005900605220151066,
      "loss": 1.8976,
      "step": 7409
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40851131081581116,
      "learning_rate": 0.0005900578536717805,
      "loss": 1.8802,
      "step": 7410
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41476863622665405,
      "learning_rate": 0.0005900551849763667,
      "loss": 1.854,
      "step": 7411
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4046936333179474,
      "learning_rate": 0.0005900525159288688,
      "loss": 1.8621,
      "step": 7412
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.411424458026886,
      "learning_rate": 0.0005900498465292899,
      "loss": 1.7557,
      "step": 7413
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4429383873939514,
      "learning_rate": 0.0005900471767776332,
      "loss": 1.7481,
      "step": 7414
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41681182384490967,
      "learning_rate": 0.0005900445066739019,
      "loss": 1.8464,
      "step": 7415
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39938977360725403,
      "learning_rate": 0.0005900418362180995,
      "loss": 1.816,
      "step": 7416
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41904810070991516,
      "learning_rate": 0.0005900391654102288,
      "loss": 1.8423,
      "step": 7417
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4265294671058655,
      "learning_rate": 0.0005900364942502934,
      "loss": 1.9011,
      "step": 7418
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40868890285491943,
      "learning_rate": 0.0005900338227382964,
      "loss": 1.7721,
      "step": 7419
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4044876992702484,
      "learning_rate": 0.0005900311508742411,
      "loss": 1.8168,
      "step": 7420
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4116654098033905,
      "learning_rate": 0.0005900284786581307,
      "loss": 1.7957,
      "step": 7421
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41510245203971863,
      "learning_rate": 0.0005900258060899685,
      "loss": 1.8432,
      "step": 7422
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4157581627368927,
      "learning_rate": 0.0005900231331697577,
      "loss": 1.7868,
      "step": 7423
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41376298666000366,
      "learning_rate": 0.0005900204598975015,
      "loss": 1.9044,
      "step": 7424
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42145413160324097,
      "learning_rate": 0.0005900177862732032,
      "loss": 1.8064,
      "step": 7425
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4060921370983124,
      "learning_rate": 0.0005900151122968662,
      "loss": 1.7922,
      "step": 7426
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3999340832233429,
      "learning_rate": 0.0005900124379684934,
      "loss": 1.7577,
      "step": 7427
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42250144481658936,
      "learning_rate": 0.0005900097632880883,
      "loss": 1.874,
      "step": 7428
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.412933349609375,
      "learning_rate": 0.000590007088255654,
      "loss": 1.7907,
      "step": 7429
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4137633144855499,
      "learning_rate": 0.0005900044128711939,
      "loss": 1.8057,
      "step": 7430
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40813976526260376,
      "learning_rate": 0.0005900017371347112,
      "loss": 1.7748,
      "step": 7431
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40959542989730835,
      "learning_rate": 0.000589999061046209,
      "loss": 1.8559,
      "step": 7432
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3892916142940521,
      "learning_rate": 0.0005899963846056908,
      "loss": 1.8008,
      "step": 7433
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41155698895454407,
      "learning_rate": 0.0005899937078131597,
      "loss": 1.7738,
      "step": 7434
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39028188586235046,
      "learning_rate": 0.0005899910306686189,
      "loss": 1.808,
      "step": 7435
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3920980393886566,
      "learning_rate": 0.0005899883531720717,
      "loss": 1.7548,
      "step": 7436
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40979164838790894,
      "learning_rate": 0.0005899856753235215,
      "loss": 1.8479,
      "step": 7437
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40342187881469727,
      "learning_rate": 0.0005899829971229713,
      "loss": 1.7864,
      "step": 7438
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4050305187702179,
      "learning_rate": 0.0005899803185704245,
      "loss": 1.8103,
      "step": 7439
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39738929271698,
      "learning_rate": 0.0005899776396658843,
      "loss": 1.8093,
      "step": 7440
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41375845670700073,
      "learning_rate": 0.000589974960409354,
      "loss": 1.7598,
      "step": 7441
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40973278880119324,
      "learning_rate": 0.0005899722808008368,
      "loss": 1.8212,
      "step": 7442
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4017355740070343,
      "learning_rate": 0.0005899696008403361,
      "loss": 1.7479,
      "step": 7443
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4201713800430298,
      "learning_rate": 0.0005899669205278548,
      "loss": 1.754,
      "step": 7444
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4010471701622009,
      "learning_rate": 0.0005899642398633965,
      "loss": 1.7719,
      "step": 7445
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4052293598651886,
      "learning_rate": 0.0005899615588469644,
      "loss": 1.7684,
      "step": 7446
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4047698676586151,
      "learning_rate": 0.0005899588774785616,
      "loss": 1.8098,
      "step": 7447
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4216524660587311,
      "learning_rate": 0.0005899561957581914,
      "loss": 1.8411,
      "step": 7448
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4207702577114105,
      "learning_rate": 0.0005899535136858572,
      "loss": 1.8098,
      "step": 7449
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3957454264163971,
      "learning_rate": 0.0005899508312615622,
      "loss": 1.8292,
      "step": 7450
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41876456141471863,
      "learning_rate": 0.0005899481484853095,
      "loss": 1.7953,
      "step": 7451
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4181694984436035,
      "learning_rate": 0.0005899454653571026,
      "loss": 1.869,
      "step": 7452
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41046762466430664,
      "learning_rate": 0.0005899427818769446,
      "loss": 1.7893,
      "step": 7453
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4243818521499634,
      "learning_rate": 0.0005899400980448387,
      "loss": 1.8252,
      "step": 7454
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41178902983665466,
      "learning_rate": 0.0005899374138607883,
      "loss": 1.7646,
      "step": 7455
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3972558379173279,
      "learning_rate": 0.0005899347293247966,
      "loss": 1.7563,
      "step": 7456
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5438073873519897,
      "learning_rate": 0.0005899320444368668,
      "loss": 1.849,
      "step": 7457
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40399169921875,
      "learning_rate": 0.0005899293591970022,
      "loss": 1.8137,
      "step": 7458
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.43625226616859436,
      "learning_rate": 0.0005899266736052062,
      "loss": 1.9126,
      "step": 7459
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41580066084861755,
      "learning_rate": 0.0005899239876614818,
      "loss": 1.8234,
      "step": 7460
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4153585433959961,
      "learning_rate": 0.0005899213013658325,
      "loss": 1.807,
      "step": 7461
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3994938135147095,
      "learning_rate": 0.0005899186147182615,
      "loss": 1.7758,
      "step": 7462
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4103133976459503,
      "learning_rate": 0.0005899159277187719,
      "loss": 1.8047,
      "step": 7463
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41869041323661804,
      "learning_rate": 0.0005899132403673671,
      "loss": 1.7875,
      "step": 7464
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42266303300857544,
      "learning_rate": 0.0005899105526640503,
      "loss": 1.7754,
      "step": 7465
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4097731113433838,
      "learning_rate": 0.0005899078646088249,
      "loss": 1.7083,
      "step": 7466
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4411388337612152,
      "learning_rate": 0.000589905176201694,
      "loss": 1.8241,
      "step": 7467
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4149938225746155,
      "learning_rate": 0.000589902487442661,
      "loss": 1.8,
      "step": 7468
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3974343240261078,
      "learning_rate": 0.0005898997983317291,
      "loss": 1.7894,
      "step": 7469
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4131569266319275,
      "learning_rate": 0.0005898971088689016,
      "loss": 1.8754,
      "step": 7470
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4313831925392151,
      "learning_rate": 0.0005898944190541815,
      "loss": 1.8068,
      "step": 7471
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40683263540267944,
      "learning_rate": 0.0005898917288875725,
      "loss": 1.8803,
      "step": 7472
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39923155307769775,
      "learning_rate": 0.0005898890383690776,
      "loss": 1.8263,
      "step": 7473
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4070589542388916,
      "learning_rate": 0.0005898863474987001,
      "loss": 1.7931,
      "step": 7474
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42010143399238586,
      "learning_rate": 0.0005898836562764434,
      "loss": 1.8201,
      "step": 7475
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3960898220539093,
      "learning_rate": 0.0005898809647023104,
      "loss": 1.8576,
      "step": 7476
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40564584732055664,
      "learning_rate": 0.0005898782727763049,
      "loss": 1.8663,
      "step": 7477
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3960094749927521,
      "learning_rate": 0.0005898755804984297,
      "loss": 1.7942,
      "step": 7478
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40164658427238464,
      "learning_rate": 0.0005898728878686884,
      "loss": 1.7596,
      "step": 7479
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41086623072624207,
      "learning_rate": 0.000589870194887084,
      "loss": 1.7523,
      "step": 7480
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41166093945503235,
      "learning_rate": 0.0005898675015536199,
      "loss": 1.8152,
      "step": 7481
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4001549482345581,
      "learning_rate": 0.0005898648078682994,
      "loss": 1.8131,
      "step": 7482
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40387260913848877,
      "learning_rate": 0.0005898621138311258,
      "loss": 1.8017,
      "step": 7483
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42366573214530945,
      "learning_rate": 0.0005898594194421022,
      "loss": 1.8435,
      "step": 7484
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4169657528400421,
      "learning_rate": 0.000589856724701232,
      "loss": 1.7855,
      "step": 7485
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41910383105278015,
      "learning_rate": 0.0005898540296085184,
      "loss": 1.8751,
      "step": 7486
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4175613820552826,
      "learning_rate": 0.0005898513341639648,
      "loss": 1.8074,
      "step": 7487
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4044167101383209,
      "learning_rate": 0.0005898486383675744,
      "loss": 1.8286,
      "step": 7488
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42305251955986023,
      "learning_rate": 0.0005898459422193505,
      "loss": 1.9235,
      "step": 7489
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39951401948928833,
      "learning_rate": 0.0005898432457192961,
      "loss": 1.7659,
      "step": 7490
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4124797284603119,
      "learning_rate": 0.000589840548867415,
      "loss": 1.7809,
      "step": 7491
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3966372311115265,
      "learning_rate": 0.0005898378516637099,
      "loss": 1.7512,
      "step": 7492
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4108142852783203,
      "learning_rate": 0.0005898351541081846,
      "loss": 1.8539,
      "step": 7493
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4121762216091156,
      "learning_rate": 0.000589832456200842,
      "loss": 1.7727,
      "step": 7494
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4123011529445648,
      "learning_rate": 0.0005898297579416855,
      "loss": 1.8286,
      "step": 7495
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4126889407634735,
      "learning_rate": 0.0005898270593307184,
      "loss": 1.8378,
      "step": 7496
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4012720286846161,
      "learning_rate": 0.0005898243603679439,
      "loss": 1.8,
      "step": 7497
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3943203389644623,
      "learning_rate": 0.0005898216610533654,
      "loss": 1.8183,
      "step": 7498
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.408136248588562,
      "learning_rate": 0.0005898189613869862,
      "loss": 1.7604,
      "step": 7499
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.415477991104126,
      "learning_rate": 0.0005898162613688094,
      "loss": 1.8876,
      "step": 7500
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40800634026527405,
      "learning_rate": 0.0005898135609988383,
      "loss": 1.761,
      "step": 7501
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4256328046321869,
      "learning_rate": 0.0005898108602770762,
      "loss": 1.8894,
      "step": 7502
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4095940589904785,
      "learning_rate": 0.0005898081592035265,
      "loss": 1.8239,
      "step": 7503
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42718905210494995,
      "learning_rate": 0.0005898054577781924,
      "loss": 1.8191,
      "step": 7504
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41010865569114685,
      "learning_rate": 0.0005898027560010771,
      "loss": 1.7425,
      "step": 7505
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4178430736064911,
      "learning_rate": 0.0005898000538721841,
      "loss": 1.8668,
      "step": 7506
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40982696413993835,
      "learning_rate": 0.0005897973513915164,
      "loss": 1.8252,
      "step": 7507
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40501758456230164,
      "learning_rate": 0.0005897946485590775,
      "loss": 1.8215,
      "step": 7508
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4049334228038788,
      "learning_rate": 0.0005897919453748705,
      "loss": 1.7874,
      "step": 7509
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3936886489391327,
      "learning_rate": 0.0005897892418388989,
      "loss": 1.7512,
      "step": 7510
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42608991265296936,
      "learning_rate": 0.0005897865379511658,
      "loss": 1.7915,
      "step": 7511
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4065401554107666,
      "learning_rate": 0.0005897838337116745,
      "loss": 1.8442,
      "step": 7512
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39888688921928406,
      "learning_rate": 0.0005897811291204284,
      "loss": 1.8097,
      "step": 7513
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40142330527305603,
      "learning_rate": 0.0005897784241774306,
      "loss": 1.7496,
      "step": 7514
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41860008239746094,
      "learning_rate": 0.0005897757188826847,
      "loss": 1.858,
      "step": 7515
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4206491708755493,
      "learning_rate": 0.0005897730132361935,
      "loss": 1.8467,
      "step": 7516
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4109291732311249,
      "learning_rate": 0.0005897703072379608,
      "loss": 1.8852,
      "step": 7517
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40916386246681213,
      "learning_rate": 0.0005897676008879895,
      "loss": 1.8496,
      "step": 7518
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4174031913280487,
      "learning_rate": 0.0005897648941862831,
      "loss": 1.9054,
      "step": 7519
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40999066829681396,
      "learning_rate": 0.0005897621871328447,
      "loss": 1.8326,
      "step": 7520
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41199353337287903,
      "learning_rate": 0.0005897594797276779,
      "loss": 1.8,
      "step": 7521
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4016900658607483,
      "learning_rate": 0.0005897567719707856,
      "loss": 1.8296,
      "step": 7522
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.408656507730484,
      "learning_rate": 0.0005897540638621714,
      "loss": 1.9405,
      "step": 7523
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40239232778549194,
      "learning_rate": 0.0005897513554018383,
      "loss": 1.7749,
      "step": 7524
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3972628116607666,
      "learning_rate": 0.0005897486465897898,
      "loss": 1.7939,
      "step": 7525
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40513086318969727,
      "learning_rate": 0.0005897459374260293,
      "loss": 1.8187,
      "step": 7526
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4223839342594147,
      "learning_rate": 0.0005897432279105598,
      "loss": 1.7825,
      "step": 7527
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3996533751487732,
      "learning_rate": 0.0005897405180433846,
      "loss": 1.9517,
      "step": 7528
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40320730209350586,
      "learning_rate": 0.0005897378078245073,
      "loss": 1.7774,
      "step": 7529
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4059617817401886,
      "learning_rate": 0.0005897350972539309,
      "loss": 1.8186,
      "step": 7530
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4094238877296448,
      "learning_rate": 0.0005897323863316588,
      "loss": 1.7879,
      "step": 7531
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4151323139667511,
      "learning_rate": 0.0005897296750576942,
      "loss": 1.7847,
      "step": 7532
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39996907114982605,
      "learning_rate": 0.0005897269634320406,
      "loss": 1.8533,
      "step": 7533
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39765170216560364,
      "learning_rate": 0.000589724251454701,
      "loss": 1.7689,
      "step": 7534
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3927589952945709,
      "learning_rate": 0.000589721539125679,
      "loss": 1.7769,
      "step": 7535
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41051337122917175,
      "learning_rate": 0.0005897188264449777,
      "loss": 1.8027,
      "step": 7536
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4066329598426819,
      "learning_rate": 0.0005897161134126004,
      "loss": 1.859,
      "step": 7537
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.405683308839798,
      "learning_rate": 0.0005897134000285504,
      "loss": 1.7372,
      "step": 7538
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40976011753082275,
      "learning_rate": 0.0005897106862928311,
      "loss": 1.8696,
      "step": 7539
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40410950779914856,
      "learning_rate": 0.0005897079722054456,
      "loss": 1.7588,
      "step": 7540
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40889933705329895,
      "learning_rate": 0.0005897052577663974,
      "loss": 1.7241,
      "step": 7541
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4332508146762848,
      "learning_rate": 0.0005897025429756897,
      "loss": 1.8724,
      "step": 7542
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3927091956138611,
      "learning_rate": 0.0005896998278333256,
      "loss": 1.83,
      "step": 7543
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4504104256629944,
      "learning_rate": 0.0005896971123393089,
      "loss": 1.8161,
      "step": 7544
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4130956828594208,
      "learning_rate": 0.0005896943964936425,
      "loss": 1.7915,
      "step": 7545
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.418878972530365,
      "learning_rate": 0.0005896916802963296,
      "loss": 1.8174,
      "step": 7546
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41389089822769165,
      "learning_rate": 0.0005896889637473739,
      "loss": 1.8079,
      "step": 7547
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4315672516822815,
      "learning_rate": 0.0005896862468467784,
      "loss": 1.7971,
      "step": 7548
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4152796268463135,
      "learning_rate": 0.0005896835295945465,
      "loss": 1.8148,
      "step": 7549
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41549918055534363,
      "learning_rate": 0.0005896808119906815,
      "loss": 1.7755,
      "step": 7550
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4393915832042694,
      "learning_rate": 0.0005896780940351866,
      "loss": 1.824,
      "step": 7551
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4039255678653717,
      "learning_rate": 0.0005896753757280652,
      "loss": 1.8151,
      "step": 7552
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3792140781879425,
      "learning_rate": 0.0005896726570693207,
      "loss": 1.7223,
      "step": 7553
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41043156385421753,
      "learning_rate": 0.0005896699380589561,
      "loss": 1.7842,
      "step": 7554
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4169280230998993,
      "learning_rate": 0.0005896672186969749,
      "loss": 1.7643,
      "step": 7555
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4093979597091675,
      "learning_rate": 0.0005896644989833805,
      "loss": 1.7397,
      "step": 7556
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.399611234664917,
      "learning_rate": 0.000589661778918176,
      "loss": 1.7789,
      "step": 7557
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4214171767234802,
      "learning_rate": 0.0005896590585013647,
      "loss": 1.9243,
      "step": 7558
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41183915734291077,
      "learning_rate": 0.0005896563377329501,
      "loss": 1.7024,
      "step": 7559
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.402264267206192,
      "learning_rate": 0.0005896536166129354,
      "loss": 1.7339,
      "step": 7560
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42526736855506897,
      "learning_rate": 0.0005896508951413239,
      "loss": 1.7335,
      "step": 7561
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42846977710723877,
      "learning_rate": 0.0005896481733181188,
      "loss": 1.8354,
      "step": 7562
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4153974950313568,
      "learning_rate": 0.0005896454511433234,
      "loss": 1.8482,
      "step": 7563
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40402424335479736,
      "learning_rate": 0.0005896427286169413,
      "loss": 1.8381,
      "step": 7564
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4121943414211273,
      "learning_rate": 0.0005896400057389755,
      "loss": 1.7628,
      "step": 7565
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42151379585266113,
      "learning_rate": 0.0005896372825094294,
      "loss": 1.8549,
      "step": 7566
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4052620232105255,
      "learning_rate": 0.0005896345589283064,
      "loss": 1.8122,
      "step": 7567
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39655670523643494,
      "learning_rate": 0.0005896318349956097,
      "loss": 1.7916,
      "step": 7568
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3968499004840851,
      "learning_rate": 0.0005896291107113426,
      "loss": 1.7966,
      "step": 7569
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4161085784435272,
      "learning_rate": 0.0005896263860755085,
      "loss": 1.8175,
      "step": 7570
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4206482172012329,
      "learning_rate": 0.0005896236610881104,
      "loss": 1.801,
      "step": 7571
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4023627042770386,
      "learning_rate": 0.0005896209357491521,
      "loss": 1.7996,
      "step": 7572
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.401156485080719,
      "learning_rate": 0.0005896182100586366,
      "loss": 1.8077,
      "step": 7573
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.411034494638443,
      "learning_rate": 0.0005896154840165672,
      "loss": 1.7545,
      "step": 7574
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.417231947183609,
      "learning_rate": 0.0005896127576229474,
      "loss": 1.8145,
      "step": 7575
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42047810554504395,
      "learning_rate": 0.0005896100308777803,
      "loss": 1.8789,
      "step": 7576
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4157266616821289,
      "learning_rate": 0.0005896073037810693,
      "loss": 1.8601,
      "step": 7577
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.43143975734710693,
      "learning_rate": 0.0005896045763328177,
      "loss": 1.8505,
      "step": 7578
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41814929246902466,
      "learning_rate": 0.0005896018485330288,
      "loss": 1.7896,
      "step": 7579
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42442965507507324,
      "learning_rate": 0.0005895991203817059,
      "loss": 1.7982,
      "step": 7580
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4089938700199127,
      "learning_rate": 0.0005895963918788525,
      "loss": 1.7597,
      "step": 7581
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4077696204185486,
      "learning_rate": 0.0005895936630244716,
      "loss": 1.7085,
      "step": 7582
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.43754100799560547,
      "learning_rate": 0.0005895909338185667,
      "loss": 1.8019,
      "step": 7583
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41386666893959045,
      "learning_rate": 0.000589588204261141,
      "loss": 1.8143,
      "step": 7584
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4025876820087433,
      "learning_rate": 0.000589585474352198,
      "loss": 1.8152,
      "step": 7585
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40470582246780396,
      "learning_rate": 0.000589582744091741,
      "loss": 1.8372,
      "step": 7586
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4182445704936981,
      "learning_rate": 0.0005895800134797731,
      "loss": 1.8718,
      "step": 7587
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4010654389858246,
      "learning_rate": 0.0005895772825162977,
      "loss": 1.799,
      "step": 7588
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4127356708049774,
      "learning_rate": 0.0005895745512013181,
      "loss": 1.8821,
      "step": 7589
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3958311378955841,
      "learning_rate": 0.0005895718195348377,
      "loss": 1.7494,
      "step": 7590
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40540188550949097,
      "learning_rate": 0.0005895690875168598,
      "loss": 1.8732,
      "step": 7591
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.419996976852417,
      "learning_rate": 0.0005895663551473877,
      "loss": 1.8021,
      "step": 7592
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40211668610572815,
      "learning_rate": 0.0005895636224264247,
      "loss": 1.7701,
      "step": 7593
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.415116548538208,
      "learning_rate": 0.0005895608893539742,
      "loss": 1.7892,
      "step": 7594
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4016801714897156,
      "learning_rate": 0.0005895581559300394,
      "loss": 1.7777,
      "step": 7595
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41261088848114014,
      "learning_rate": 0.0005895554221546236,
      "loss": 1.8293,
      "step": 7596
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.404173344373703,
      "learning_rate": 0.0005895526880277302,
      "loss": 1.7499,
      "step": 7597
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40964123606681824,
      "learning_rate": 0.0005895499535493626,
      "loss": 1.8098,
      "step": 7598
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.418515145778656,
      "learning_rate": 0.0005895472187195239,
      "loss": 1.8022,
      "step": 7599
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4112347960472107,
      "learning_rate": 0.0005895444835382176,
      "loss": 1.8464,
      "step": 7600
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40628018975257874,
      "learning_rate": 0.0005895417480054469,
      "loss": 1.7913,
      "step": 7601
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4044646918773651,
      "learning_rate": 0.0005895390121212153,
      "loss": 1.8129,
      "step": 7602
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40569981932640076,
      "learning_rate": 0.0005895362758855259,
      "loss": 1.82,
      "step": 7603
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40523582696914673,
      "learning_rate": 0.0005895335392983822,
      "loss": 1.7661,
      "step": 7604
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4088272154331207,
      "learning_rate": 0.0005895308023597873,
      "loss": 1.8055,
      "step": 7605
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4079151451587677,
      "learning_rate": 0.0005895280650697447,
      "loss": 1.8633,
      "step": 7606
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4014589786529541,
      "learning_rate": 0.0005895253274282578,
      "loss": 1.7893,
      "step": 7607
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40720057487487793,
      "learning_rate": 0.0005895225894353298,
      "loss": 1.8679,
      "step": 7608
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3926493525505066,
      "learning_rate": 0.000589519851090964,
      "loss": 1.8137,
      "step": 7609
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4063635468482971,
      "learning_rate": 0.0005895171123951637,
      "loss": 1.8604,
      "step": 7610
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40132609009742737,
      "learning_rate": 0.0005895143733479324,
      "loss": 1.7882,
      "step": 7611
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3975318670272827,
      "learning_rate": 0.0005895116339492732,
      "loss": 1.7587,
      "step": 7612
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41537904739379883,
      "learning_rate": 0.0005895088941991896,
      "loss": 1.8879,
      "step": 7613
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4071487784385681,
      "learning_rate": 0.0005895061540976849,
      "loss": 1.8516,
      "step": 7614
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39719486236572266,
      "learning_rate": 0.0005895034136447622,
      "loss": 1.7655,
      "step": 7615
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3990260064601898,
      "learning_rate": 0.0005895006728404253,
      "loss": 1.7831,
      "step": 7616
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.409769207239151,
      "learning_rate": 0.000589497931684677,
      "loss": 1.7094,
      "step": 7617
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4105047881603241,
      "learning_rate": 0.000589495190177521,
      "loss": 1.8015,
      "step": 7618
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.411329448223114,
      "learning_rate": 0.0005894924483189604,
      "loss": 1.8023,
      "step": 7619
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4098765254020691,
      "learning_rate": 0.0005894897061089986,
      "loss": 1.803,
      "step": 7620
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4203189015388489,
      "learning_rate": 0.000589486963547639,
      "loss": 1.8505,
      "step": 7621
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4097103178501129,
      "learning_rate": 0.000589484220634885,
      "loss": 1.8211,
      "step": 7622
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4206624925136566,
      "learning_rate": 0.0005894814773707396,
      "loss": 1.8325,
      "step": 7623
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4004437029361725,
      "learning_rate": 0.0005894787337552065,
      "loss": 1.7937,
      "step": 7624
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4244300425052643,
      "learning_rate": 0.0005894759897882888,
      "loss": 1.8157,
      "step": 7625
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4125344455242157,
      "learning_rate": 0.0005894732454699899,
      "loss": 1.7855,
      "step": 7626
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4042264223098755,
      "learning_rate": 0.0005894705008003131,
      "loss": 1.8437,
      "step": 7627
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40748468041419983,
      "learning_rate": 0.0005894677557792618,
      "loss": 1.8578,
      "step": 7628
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41844284534454346,
      "learning_rate": 0.0005894650104068393,
      "loss": 1.8411,
      "step": 7629
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4128682017326355,
      "learning_rate": 0.000589462264683049,
      "loss": 1.7882,
      "step": 7630
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4060189127922058,
      "learning_rate": 0.0005894595186078941,
      "loss": 1.7988,
      "step": 7631
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4107097089290619,
      "learning_rate": 0.0005894567721813779,
      "loss": 1.8689,
      "step": 7632
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.408646821975708,
      "learning_rate": 0.000589454025403504,
      "loss": 1.7654,
      "step": 7633
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4054585099220276,
      "learning_rate": 0.0005894512782742754,
      "loss": 1.8313,
      "step": 7634
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40490421652793884,
      "learning_rate": 0.0005894485307936957,
      "loss": 1.8599,
      "step": 7635
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39523088932037354,
      "learning_rate": 0.0005894457829617681,
      "loss": 1.8384,
      "step": 7636
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40020057559013367,
      "learning_rate": 0.000589443034778496,
      "loss": 1.7048,
      "step": 7637
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41082528233528137,
      "learning_rate": 0.0005894402862438826,
      "loss": 1.7721,
      "step": 7638
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4128570556640625,
      "learning_rate": 0.0005894375373579315,
      "loss": 1.8268,
      "step": 7639
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42186203598976135,
      "learning_rate": 0.0005894347881206458,
      "loss": 1.8246,
      "step": 7640
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4068487584590912,
      "learning_rate": 0.0005894320385320289,
      "loss": 1.7788,
      "step": 7641
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40197324752807617,
      "learning_rate": 0.0005894292885920841,
      "loss": 1.7583,
      "step": 7642
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4214175045490265,
      "learning_rate": 0.0005894265383008148,
      "loss": 1.789,
      "step": 7643
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39844194054603577,
      "learning_rate": 0.0005894237876582244,
      "loss": 1.794,
      "step": 7644
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4202061891555786,
      "learning_rate": 0.0005894210366643161,
      "loss": 1.8406,
      "step": 7645
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40050727128982544,
      "learning_rate": 0.0005894182853190934,
      "loss": 1.7807,
      "step": 7646
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4027363359928131,
      "learning_rate": 0.0005894155336225595,
      "loss": 1.845,
      "step": 7647
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4253113567829132,
      "learning_rate": 0.0005894127815747177,
      "loss": 1.7991,
      "step": 7648
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3950366973876953,
      "learning_rate": 0.0005894100291755715,
      "loss": 1.7522,
      "step": 7649
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4044089913368225,
      "learning_rate": 0.0005894072764251242,
      "loss": 1.8009,
      "step": 7650
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4143640398979187,
      "learning_rate": 0.0005894045233233791,
      "loss": 1.8471,
      "step": 7651
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.401654452085495,
      "learning_rate": 0.0005894017698703395,
      "loss": 1.8023,
      "step": 7652
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40567347407341003,
      "learning_rate": 0.0005893990160660089,
      "loss": 1.8089,
      "step": 7653
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.41494420170783997,
      "learning_rate": 0.0005893962619103905,
      "loss": 1.8354,
      "step": 7654
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40515559911727905,
      "learning_rate": 0.0005893935074034875,
      "loss": 1.8026,
      "step": 7655
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.40581467747688293,
      "learning_rate": 0.0005893907525453037,
      "loss": 1.8425,
      "step": 7656
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4040190875530243,
      "learning_rate": 0.000589387997335842,
      "loss": 1.7928,
      "step": 7657
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4048292636871338,
      "learning_rate": 0.0005893852417751059,
      "loss": 1.7597,
      "step": 7658
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6198222637176514,
      "learning_rate": 0.0005893824858630987,
      "loss": 1.7474,
      "step": 7659
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4174315929412842,
      "learning_rate": 0.0005893797295998239,
      "loss": 1.8588,
      "step": 7660
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4071819484233856,
      "learning_rate": 0.0005893769729852848,
      "loss": 1.8501,
      "step": 7661
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4098946750164032,
      "learning_rate": 0.0005893742160194846,
      "loss": 1.8212,
      "step": 7662
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4378233253955841,
      "learning_rate": 0.0005893714587024267,
      "loss": 1.8008,
      "step": 7663
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3926328122615814,
      "learning_rate": 0.0005893687010341146,
      "loss": 1.7421,
      "step": 7664
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40084365010261536,
      "learning_rate": 0.0005893659430145514,
      "loss": 1.8521,
      "step": 7665
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40387454628944397,
      "learning_rate": 0.0005893631846437408,
      "loss": 1.8532,
      "step": 7666
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4169960021972656,
      "learning_rate": 0.0005893604259216858,
      "loss": 1.8923,
      "step": 7667
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4092330038547516,
      "learning_rate": 0.0005893576668483899,
      "loss": 1.8079,
      "step": 7668
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41099947690963745,
      "learning_rate": 0.0005893549074238564,
      "loss": 1.8171,
      "step": 7669
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39689353108406067,
      "learning_rate": 0.0005893521476480887,
      "loss": 1.8285,
      "step": 7670
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4109072983264923,
      "learning_rate": 0.00058934938752109,
      "loss": 1.779,
      "step": 7671
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3952629864215851,
      "learning_rate": 0.000589346627042864,
      "loss": 1.8523,
      "step": 7672
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4102224111557007,
      "learning_rate": 0.0005893438662134136,
      "loss": 1.7898,
      "step": 7673
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40478238463401794,
      "learning_rate": 0.0005893411050327425,
      "loss": 1.7949,
      "step": 7674
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40996626019477844,
      "learning_rate": 0.000589338343500854,
      "loss": 1.8012,
      "step": 7675
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39923879504203796,
      "learning_rate": 0.0005893355816177512,
      "loss": 1.765,
      "step": 7676
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4114774167537689,
      "learning_rate": 0.0005893328193834378,
      "loss": 1.7905,
      "step": 7677
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4040921628475189,
      "learning_rate": 0.0005893300567979168,
      "loss": 1.8019,
      "step": 7678
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39832034707069397,
      "learning_rate": 0.0005893272938611921,
      "loss": 1.7905,
      "step": 7679
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40433168411254883,
      "learning_rate": 0.0005893245305732663,
      "loss": 1.8729,
      "step": 7680
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39211151003837585,
      "learning_rate": 0.0005893217669341433,
      "loss": 1.8081,
      "step": 7681
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3947366178035736,
      "learning_rate": 0.0005893190029438264,
      "loss": 1.7386,
      "step": 7682
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4469057023525238,
      "learning_rate": 0.0005893162386023188,
      "loss": 1.7866,
      "step": 7683
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.38931208848953247,
      "learning_rate": 0.0005893134739096238,
      "loss": 1.8201,
      "step": 7684
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4177641272544861,
      "learning_rate": 0.0005893107088657451,
      "loss": 1.8345,
      "step": 7685
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39955592155456543,
      "learning_rate": 0.0005893079434706857,
      "loss": 1.8027,
      "step": 7686
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41056758165359497,
      "learning_rate": 0.000589305177724449,
      "loss": 1.8125,
      "step": 7687
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4295741319656372,
      "learning_rate": 0.0005893024116270385,
      "loss": 1.8019,
      "step": 7688
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41040968894958496,
      "learning_rate": 0.0005892996451784575,
      "loss": 1.7612,
      "step": 7689
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40464431047439575,
      "learning_rate": 0.0005892968783787094,
      "loss": 1.8594,
      "step": 7690
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4075370132923126,
      "learning_rate": 0.0005892941112277976,
      "loss": 1.8103,
      "step": 7691
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40206700563430786,
      "learning_rate": 0.0005892913437257251,
      "loss": 1.7978,
      "step": 7692
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39453256130218506,
      "learning_rate": 0.0005892885758724957,
      "loss": 1.8136,
      "step": 7693
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.44289010763168335,
      "learning_rate": 0.0005892858076681127,
      "loss": 1.903,
      "step": 7694
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4221154451370239,
      "learning_rate": 0.0005892830391125792,
      "loss": 1.7597,
      "step": 7695
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4107012152671814,
      "learning_rate": 0.0005892802702058987,
      "loss": 1.7621,
      "step": 7696
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41584864258766174,
      "learning_rate": 0.0005892775009480747,
      "loss": 1.8393,
      "step": 7697
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4082140326499939,
      "learning_rate": 0.0005892747313391103,
      "loss": 1.7877,
      "step": 7698
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4033731520175934,
      "learning_rate": 0.0005892719613790091,
      "loss": 1.7574,
      "step": 7699
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4260869026184082,
      "learning_rate": 0.0005892691910677744,
      "loss": 1.7654,
      "step": 7700
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4003288149833679,
      "learning_rate": 0.0005892664204054093,
      "loss": 1.7465,
      "step": 7701
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40921133756637573,
      "learning_rate": 0.0005892636493919177,
      "loss": 1.8671,
      "step": 7702
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.38512682914733887,
      "learning_rate": 0.0005892608780273024,
      "loss": 1.8009,
      "step": 7703
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41292640566825867,
      "learning_rate": 0.0005892581063115672,
      "loss": 1.8248,
      "step": 7704
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41242027282714844,
      "learning_rate": 0.0005892553342447151,
      "loss": 1.8163,
      "step": 7705
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4194607436656952,
      "learning_rate": 0.0005892525618267498,
      "loss": 1.7895,
      "step": 7706
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4014289379119873,
      "learning_rate": 0.0005892497890576744,
      "loss": 1.7932,
      "step": 7707
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40020227432250977,
      "learning_rate": 0.0005892470159374924,
      "loss": 1.7503,
      "step": 7708
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4375096261501312,
      "learning_rate": 0.0005892442424662072,
      "loss": 1.8459,
      "step": 7709
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4698813259601593,
      "learning_rate": 0.0005892414686438221,
      "loss": 1.7851,
      "step": 7710
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4099264144897461,
      "learning_rate": 0.0005892386944703404,
      "loss": 1.7178,
      "step": 7711
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42356085777282715,
      "learning_rate": 0.0005892359199457656,
      "loss": 1.8123,
      "step": 7712
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41411295533180237,
      "learning_rate": 0.000589233145070101,
      "loss": 1.8102,
      "step": 7713
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40524885058403015,
      "learning_rate": 0.0005892303698433499,
      "loss": 1.8079,
      "step": 7714
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.410184383392334,
      "learning_rate": 0.0005892275942655158,
      "loss": 1.7233,
      "step": 7715
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40515321493148804,
      "learning_rate": 0.000589224818336602,
      "loss": 1.8399,
      "step": 7716
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4038822650909424,
      "learning_rate": 0.000589222042056612,
      "loss": 1.8189,
      "step": 7717
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4145757853984833,
      "learning_rate": 0.000589219265425549,
      "loss": 1.7131,
      "step": 7718
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.400955468416214,
      "learning_rate": 0.0005892164884434164,
      "loss": 1.7704,
      "step": 7719
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3988880515098572,
      "learning_rate": 0.0005892137111102176,
      "loss": 1.8046,
      "step": 7720
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4012483060359955,
      "learning_rate": 0.000589210933425956,
      "loss": 1.7995,
      "step": 7721
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4161843955516815,
      "learning_rate": 0.0005892081553906348,
      "loss": 1.8031,
      "step": 7722
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4168252944946289,
      "learning_rate": 0.0005892053770042577,
      "loss": 1.8749,
      "step": 7723
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3987012207508087,
      "learning_rate": 0.0005892025982668277,
      "loss": 1.7954,
      "step": 7724
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3983718454837799,
      "learning_rate": 0.0005891998191783485,
      "loss": 1.7889,
      "step": 7725
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4050387144088745,
      "learning_rate": 0.0005891970397388233,
      "loss": 1.729,
      "step": 7726
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.405315637588501,
      "learning_rate": 0.0005891942599482554,
      "loss": 1.7788,
      "step": 7727
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40353187918663025,
      "learning_rate": 0.0005891914798066485,
      "loss": 1.828,
      "step": 7728
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3919159471988678,
      "learning_rate": 0.0005891886993140056,
      "loss": 1.8202,
      "step": 7729
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40840578079223633,
      "learning_rate": 0.0005891859184703303,
      "loss": 1.8014,
      "step": 7730
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4039880931377411,
      "learning_rate": 0.0005891831372756259,
      "loss": 1.838,
      "step": 7731
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40298590064048767,
      "learning_rate": 0.0005891803557298958,
      "loss": 1.8706,
      "step": 7732
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4160785675048828,
      "learning_rate": 0.0005891775738331432,
      "loss": 1.7737,
      "step": 7733
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4057704210281372,
      "learning_rate": 0.0005891747915853717,
      "loss": 1.8558,
      "step": 7734
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4029763340950012,
      "learning_rate": 0.0005891720089865847,
      "loss": 1.7682,
      "step": 7735
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.407486230134964,
      "learning_rate": 0.0005891692260367854,
      "loss": 1.7767,
      "step": 7736
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3910157084465027,
      "learning_rate": 0.0005891664427359773,
      "loss": 1.7472,
      "step": 7737
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3933793306350708,
      "learning_rate": 0.0005891636590841637,
      "loss": 1.7889,
      "step": 7738
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4045732915401459,
      "learning_rate": 0.0005891608750813481,
      "loss": 1.7503,
      "step": 7739
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39368191361427307,
      "learning_rate": 0.0005891580907275338,
      "loss": 1.741,
      "step": 7740
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39761993288993835,
      "learning_rate": 0.0005891553060227241,
      "loss": 1.8229,
      "step": 7741
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4040437936782837,
      "learning_rate": 0.0005891525209669226,
      "loss": 1.803,
      "step": 7742
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43551966547966003,
      "learning_rate": 0.0005891497355601325,
      "loss": 1.7644,
      "step": 7743
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4029526114463806,
      "learning_rate": 0.0005891469498023571,
      "loss": 1.7727,
      "step": 7744
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42695024609565735,
      "learning_rate": 0.0005891441636936,
      "loss": 1.8864,
      "step": 7745
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40703123807907104,
      "learning_rate": 0.0005891413772338645,
      "loss": 1.8585,
      "step": 7746
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40650254487991333,
      "learning_rate": 0.0005891385904231541,
      "loss": 1.8064,
      "step": 7747
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4011220932006836,
      "learning_rate": 0.0005891358032614717,
      "loss": 1.743,
      "step": 7748
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41016823053359985,
      "learning_rate": 0.0005891330157488213,
      "loss": 1.8224,
      "step": 7749
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4093281626701355,
      "learning_rate": 0.000589130227885206,
      "loss": 1.7815,
      "step": 7750
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41100066900253296,
      "learning_rate": 0.0005891274396706293,
      "loss": 1.8496,
      "step": 7751
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39118027687072754,
      "learning_rate": 0.0005891246511050942,
      "loss": 1.784,
      "step": 7752
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.397943377494812,
      "learning_rate": 0.0005891218621886046,
      "loss": 1.7679,
      "step": 7753
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4093616008758545,
      "learning_rate": 0.0005891190729211636,
      "loss": 1.8577,
      "step": 7754
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39137428998947144,
      "learning_rate": 0.0005891162833027747,
      "loss": 1.8079,
      "step": 7755
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41136595606803894,
      "learning_rate": 0.0005891134933334411,
      "loss": 1.7848,
      "step": 7756
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4072505533695221,
      "learning_rate": 0.0005891107030131663,
      "loss": 1.8009,
      "step": 7757
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39543813467025757,
      "learning_rate": 0.0005891079123419539,
      "loss": 1.7656,
      "step": 7758
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40876638889312744,
      "learning_rate": 0.000589105121319807,
      "loss": 1.8665,
      "step": 7759
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.38622617721557617,
      "learning_rate": 0.000589102329946729,
      "loss": 1.7284,
      "step": 7760
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3982221782207489,
      "learning_rate": 0.0005890995382227235,
      "loss": 1.9154,
      "step": 7761
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4109010696411133,
      "learning_rate": 0.0005890967461477937,
      "loss": 1.7878,
      "step": 7762
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3966192901134491,
      "learning_rate": 0.0005890939537219431,
      "loss": 1.7455,
      "step": 7763
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4084691107273102,
      "learning_rate": 0.0005890911609451749,
      "loss": 1.7935,
      "step": 7764
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41492167115211487,
      "learning_rate": 0.0005890883678174927,
      "loss": 1.8329,
      "step": 7765
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4128485321998596,
      "learning_rate": 0.0005890855743388998,
      "loss": 1.7746,
      "step": 7766
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41740497946739197,
      "learning_rate": 0.0005890827805093996,
      "loss": 1.8371,
      "step": 7767
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4004819691181183,
      "learning_rate": 0.0005890799863289955,
      "loss": 1.7403,
      "step": 7768
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3980753421783447,
      "learning_rate": 0.000589077191797691,
      "loss": 1.8558,
      "step": 7769
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40403273701667786,
      "learning_rate": 0.0005890743969154893,
      "loss": 1.8024,
      "step": 7770
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.415389746427536,
      "learning_rate": 0.0005890716016823938,
      "loss": 1.8716,
      "step": 7771
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4154355525970459,
      "learning_rate": 0.0005890688060984081,
      "loss": 1.7886,
      "step": 7772
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39833906292915344,
      "learning_rate": 0.0005890660101635354,
      "loss": 1.7274,
      "step": 7773
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4082159996032715,
      "learning_rate": 0.0005890632138777792,
      "loss": 1.8207,
      "step": 7774
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3960353434085846,
      "learning_rate": 0.0005890604172411428,
      "loss": 1.7686,
      "step": 7775
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4204632341861725,
      "learning_rate": 0.0005890576202536296,
      "loss": 1.8384,
      "step": 7776
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4046708643436432,
      "learning_rate": 0.0005890548229152431,
      "loss": 1.7988,
      "step": 7777
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4562270939350128,
      "learning_rate": 0.0005890520252259866,
      "loss": 1.8332,
      "step": 7778
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4009573757648468,
      "learning_rate": 0.0005890492271858636,
      "loss": 1.8219,
      "step": 7779
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4047437906265259,
      "learning_rate": 0.0005890464287948774,
      "loss": 1.9104,
      "step": 7780
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4275408089160919,
      "learning_rate": 0.0005890436300530314,
      "loss": 1.844,
      "step": 7781
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4199609160423279,
      "learning_rate": 0.0005890408309603291,
      "loss": 1.8431,
      "step": 7782
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.395887553691864,
      "learning_rate": 0.0005890380315167736,
      "loss": 1.8375,
      "step": 7783
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41455769538879395,
      "learning_rate": 0.0005890352317223687,
      "loss": 1.8287,
      "step": 7784
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40795180201530457,
      "learning_rate": 0.0005890324315771177,
      "loss": 1.7974,
      "step": 7785
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.423213392496109,
      "learning_rate": 0.0005890296310810237,
      "loss": 1.8242,
      "step": 7786
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4071337878704071,
      "learning_rate": 0.0005890268302340904,
      "loss": 1.7481,
      "step": 7787
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41052109003067017,
      "learning_rate": 0.0005890240290363211,
      "loss": 1.7788,
      "step": 7788
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39736074209213257,
      "learning_rate": 0.0005890212274877193,
      "loss": 1.7646,
      "step": 7789
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39970365166664124,
      "learning_rate": 0.0005890184255882883,
      "loss": 1.8701,
      "step": 7790
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4183638393878937,
      "learning_rate": 0.0005890156233380315,
      "loss": 1.807,
      "step": 7791
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4011901319026947,
      "learning_rate": 0.0005890128207369523,
      "loss": 1.795,
      "step": 7792
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39493295550346375,
      "learning_rate": 0.0005890100177850541,
      "loss": 1.7543,
      "step": 7793
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4129410684108734,
      "learning_rate": 0.0005890072144823403,
      "loss": 1.8323,
      "step": 7794
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4174860119819641,
      "learning_rate": 0.0005890044108288144,
      "loss": 1.8072,
      "step": 7795
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4077347218990326,
      "learning_rate": 0.0005890016068244797,
      "loss": 1.8578,
      "step": 7796
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40151873230934143,
      "learning_rate": 0.0005889988024693395,
      "loss": 1.7921,
      "step": 7797
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4077279567718506,
      "learning_rate": 0.0005889959977633975,
      "loss": 1.7623,
      "step": 7798
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39911404252052307,
      "learning_rate": 0.000588993192706657,
      "loss": 1.7806,
      "step": 7799
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42285701632499695,
      "learning_rate": 0.0005889903872991212,
      "loss": 1.8384,
      "step": 7800
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4125211536884308,
      "learning_rate": 0.0005889875815407936,
      "loss": 1.8067,
      "step": 7801
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42617395520210266,
      "learning_rate": 0.0005889847754316778,
      "loss": 1.8278,
      "step": 7802
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42355141043663025,
      "learning_rate": 0.0005889819689717771,
      "loss": 1.8112,
      "step": 7803
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41098296642303467,
      "learning_rate": 0.0005889791621610947,
      "loss": 1.8298,
      "step": 7804
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4323396384716034,
      "learning_rate": 0.0005889763549996342,
      "loss": 1.8152,
      "step": 7805
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4068489074707031,
      "learning_rate": 0.0005889735474873991,
      "loss": 1.8042,
      "step": 7806
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42447972297668457,
      "learning_rate": 0.0005889707396243926,
      "loss": 1.8181,
      "step": 7807
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4309796094894409,
      "learning_rate": 0.0005889679314106183,
      "loss": 1.7888,
      "step": 7808
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40515220165252686,
      "learning_rate": 0.0005889651228460794,
      "loss": 1.7481,
      "step": 7809
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4284602999687195,
      "learning_rate": 0.0005889623139307794,
      "loss": 1.777,
      "step": 7810
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4525856375694275,
      "learning_rate": 0.0005889595046647218,
      "loss": 1.7918,
      "step": 7811
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42498350143432617,
      "learning_rate": 0.0005889566950479099,
      "loss": 1.7917,
      "step": 7812
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4069707691669464,
      "learning_rate": 0.0005889538850803473,
      "loss": 1.8049,
      "step": 7813
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41244155168533325,
      "learning_rate": 0.000588951074762037,
      "loss": 1.8205,
      "step": 7814
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4032074213027954,
      "learning_rate": 0.0005889482640929829,
      "loss": 1.7334,
      "step": 7815
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39504045248031616,
      "learning_rate": 0.000588945453073188,
      "loss": 1.7513,
      "step": 7816
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40735751390457153,
      "learning_rate": 0.000588942641702656,
      "loss": 1.8283,
      "step": 7817
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40624746680259705,
      "learning_rate": 0.0005889398299813903,
      "loss": 1.8853,
      "step": 7818
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4324266314506531,
      "learning_rate": 0.000588937017909394,
      "loss": 1.7883,
      "step": 7819
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40221160650253296,
      "learning_rate": 0.0005889342054866709,
      "loss": 1.8164,
      "step": 7820
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39597728848457336,
      "learning_rate": 0.0005889313927132241,
      "loss": 1.7527,
      "step": 7821
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5342960357666016,
      "learning_rate": 0.0005889285795890573,
      "loss": 1.8917,
      "step": 7822
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40380775928497314,
      "learning_rate": 0.0005889257661141737,
      "loss": 1.7946,
      "step": 7823
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4255557656288147,
      "learning_rate": 0.0005889229522885767,
      "loss": 1.8037,
      "step": 7824
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3977174162864685,
      "learning_rate": 0.00058892013811227,
      "loss": 1.7339,
      "step": 7825
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42142167687416077,
      "learning_rate": 0.0005889173235852568,
      "loss": 1.8656,
      "step": 7826
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4153940677642822,
      "learning_rate": 0.0005889145087075405,
      "loss": 1.8296,
      "step": 7827
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3956904709339142,
      "learning_rate": 0.0005889116934791245,
      "loss": 1.7315,
      "step": 7828
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3963344395160675,
      "learning_rate": 0.0005889088779000123,
      "loss": 1.7563,
      "step": 7829
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43886619806289673,
      "learning_rate": 0.0005889060619702073,
      "loss": 1.7948,
      "step": 7830
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40543273091316223,
      "learning_rate": 0.0005889032456897129,
      "loss": 1.771,
      "step": 7831
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41458916664123535,
      "learning_rate": 0.0005889004290585326,
      "loss": 1.7894,
      "step": 7832
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4338108003139496,
      "learning_rate": 0.0005888976120766696,
      "loss": 1.8068,
      "step": 7833
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41193050146102905,
      "learning_rate": 0.0005888947947441276,
      "loss": 1.8394,
      "step": 7834
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.38972899317741394,
      "learning_rate": 0.0005888919770609099,
      "loss": 1.7609,
      "step": 7835
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4044230580329895,
      "learning_rate": 0.0005888891590270197,
      "loss": 1.7791,
      "step": 7836
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4223078787326813,
      "learning_rate": 0.0005888863406424608,
      "loss": 1.8647,
      "step": 7837
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40650874376296997,
      "learning_rate": 0.0005888835219072365,
      "loss": 1.8044,
      "step": 7838
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39975354075431824,
      "learning_rate": 0.00058888070282135,
      "loss": 1.8085,
      "step": 7839
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4181307256221771,
      "learning_rate": 0.000588877883384805,
      "loss": 1.83,
      "step": 7840
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4072006940841675,
      "learning_rate": 0.0005888750635976048,
      "loss": 1.8273,
      "step": 7841
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4123156666755676,
      "learning_rate": 0.0005888722434597528,
      "loss": 1.8496,
      "step": 7842
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4203339219093323,
      "learning_rate": 0.0005888694229712524,
      "loss": 1.8307,
      "step": 7843
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4098389744758606,
      "learning_rate": 0.0005888666021321073,
      "loss": 1.7923,
      "step": 7844
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42078697681427,
      "learning_rate": 0.0005888637809423206,
      "loss": 1.7929,
      "step": 7845
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4123844802379608,
      "learning_rate": 0.0005888609594018958,
      "loss": 1.8895,
      "step": 7846
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.412686824798584,
      "learning_rate": 0.0005888581375108363,
      "loss": 1.8194,
      "step": 7847
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.398783415555954,
      "learning_rate": 0.0005888553152691456,
      "loss": 1.8254,
      "step": 7848
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40526753664016724,
      "learning_rate": 0.0005888524926768272,
      "loss": 1.801,
      "step": 7849
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41591814160346985,
      "learning_rate": 0.0005888496697338844,
      "loss": 1.9485,
      "step": 7850
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4022083878517151,
      "learning_rate": 0.0005888468464403207,
      "loss": 1.8577,
      "step": 7851
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4168008267879486,
      "learning_rate": 0.0005888440227961394,
      "loss": 1.8078,
      "step": 7852
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40544137358665466,
      "learning_rate": 0.0005888411988013441,
      "loss": 1.8351,
      "step": 7853
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3906354308128357,
      "learning_rate": 0.0005888383744559381,
      "loss": 1.7568,
      "step": 7854
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41159573197364807,
      "learning_rate": 0.0005888355497599249,
      "loss": 1.7941,
      "step": 7855
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4010888636112213,
      "learning_rate": 0.0005888327247133078,
      "loss": 1.7329,
      "step": 7856
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4511120319366455,
      "learning_rate": 0.0005888298993160905,
      "loss": 1.8755,
      "step": 7857
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4024313688278198,
      "learning_rate": 0.000588827073568276,
      "loss": 1.7489,
      "step": 7858
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40951648354530334,
      "learning_rate": 0.0005888242474698682,
      "loss": 1.8119,
      "step": 7859
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4125463664531708,
      "learning_rate": 0.0005888214210208703,
      "loss": 1.7517,
      "step": 7860
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40629035234451294,
      "learning_rate": 0.0005888185942212857,
      "loss": 1.8272,
      "step": 7861
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4085432291030884,
      "learning_rate": 0.0005888157670711179,
      "loss": 1.9084,
      "step": 7862
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4069642722606659,
      "learning_rate": 0.0005888129395703704,
      "loss": 1.8284,
      "step": 7863
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4000217318534851,
      "learning_rate": 0.0005888101117190464,
      "loss": 1.7931,
      "step": 7864
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40825361013412476,
      "learning_rate": 0.0005888072835171495,
      "loss": 1.8218,
      "step": 7865
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3999307155609131,
      "learning_rate": 0.0005888044549646832,
      "loss": 1.8575,
      "step": 7866
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4015927314758301,
      "learning_rate": 0.0005888016260616508,
      "loss": 1.8139,
      "step": 7867
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4008459746837616,
      "learning_rate": 0.0005887987968080558,
      "loss": 1.6862,
      "step": 7868
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3996291160583496,
      "learning_rate": 0.0005887959672039016,
      "loss": 1.8192,
      "step": 7869
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3978671431541443,
      "learning_rate": 0.0005887931372491915,
      "loss": 1.791,
      "step": 7870
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4065202474594116,
      "learning_rate": 0.0005887903069439292,
      "loss": 1.8322,
      "step": 7871
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4056156873703003,
      "learning_rate": 0.0005887874762881182,
      "loss": 1.7977,
      "step": 7872
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4067438244819641,
      "learning_rate": 0.0005887846452817615,
      "loss": 1.7755,
      "step": 7873
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41207507252693176,
      "learning_rate": 0.000588781813924863,
      "loss": 1.8004,
      "step": 7874
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41596826910972595,
      "learning_rate": 0.0005887789822174258,
      "loss": 1.8382,
      "step": 7875
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4202883243560791,
      "learning_rate": 0.0005887761501594534,
      "loss": 1.8098,
      "step": 7876
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4171634912490845,
      "learning_rate": 0.0005887733177509494,
      "loss": 1.805,
      "step": 7877
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4032479524612427,
      "learning_rate": 0.000588770484991917,
      "loss": 1.8093,
      "step": 7878
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4211943745613098,
      "learning_rate": 0.00058876765188236,
      "loss": 1.808,
      "step": 7879
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3996438980102539,
      "learning_rate": 0.0005887648184222815,
      "loss": 1.7622,
      "step": 7880
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40274500846862793,
      "learning_rate": 0.0005887619846116851,
      "loss": 1.8364,
      "step": 7881
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3888266980648041,
      "learning_rate": 0.0005887591504505742,
      "loss": 1.7721,
      "step": 7882
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4123486578464508,
      "learning_rate": 0.0005887563159389522,
      "loss": 1.7951,
      "step": 7883
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4164406359195709,
      "learning_rate": 0.0005887534810768226,
      "loss": 1.8234,
      "step": 7884
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41026681661605835,
      "learning_rate": 0.0005887506458641888,
      "loss": 1.7571,
      "step": 7885
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4162379801273346,
      "learning_rate": 0.0005887478103010543,
      "loss": 1.8289,
      "step": 7886
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39023202657699585,
      "learning_rate": 0.0005887449743874224,
      "loss": 1.7735,
      "step": 7887
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43192771077156067,
      "learning_rate": 0.0005887421381232968,
      "loss": 1.7757,
      "step": 7888
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40218299627304077,
      "learning_rate": 0.0005887393015086807,
      "loss": 1.7768,
      "step": 7889
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42203134298324585,
      "learning_rate": 0.0005887364645435776,
      "loss": 1.7849,
      "step": 7890
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4190320074558258,
      "learning_rate": 0.000588733627227991,
      "loss": 1.8786,
      "step": 7891
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41856828331947327,
      "learning_rate": 0.0005887307895619244,
      "loss": 1.7418,
      "step": 7892
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3988089859485626,
      "learning_rate": 0.000588727951545381,
      "loss": 1.7324,
      "step": 7893
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4085274338722229,
      "learning_rate": 0.0005887251131783646,
      "loss": 1.7944,
      "step": 7894
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42674171924591064,
      "learning_rate": 0.0005887222744608783,
      "loss": 1.7751,
      "step": 7895
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.401457816362381,
      "learning_rate": 0.0005887194353929258,
      "loss": 1.8094,
      "step": 7896
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40431463718414307,
      "learning_rate": 0.0005887165959745104,
      "loss": 1.7195,
      "step": 7897
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43654370307922363,
      "learning_rate": 0.0005887137562056357,
      "loss": 1.8379,
      "step": 7898
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4003117084503174,
      "learning_rate": 0.0005887109160863049,
      "loss": 1.7758,
      "step": 7899
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4086354970932007,
      "learning_rate": 0.0005887080756165216,
      "loss": 1.8085,
      "step": 7900
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41219961643218994,
      "learning_rate": 0.0005887052347962892,
      "loss": 1.8211,
      "step": 7901
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.423882395029068,
      "learning_rate": 0.0005887023936256114,
      "loss": 1.7731,
      "step": 7902
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40669018030166626,
      "learning_rate": 0.0005886995521044912,
      "loss": 1.8267,
      "step": 7903
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41511622071266174,
      "learning_rate": 0.0005886967102329324,
      "loss": 1.7595,
      "step": 7904
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4405120313167572,
      "learning_rate": 0.0005886938680109382,
      "loss": 1.7928,
      "step": 7905
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3975425362586975,
      "learning_rate": 0.0005886910254385123,
      "loss": 1.7854,
      "step": 7906
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4157413840293884,
      "learning_rate": 0.000588688182515658,
      "loss": 1.8587,
      "step": 7907
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4362075924873352,
      "learning_rate": 0.0005886853392423788,
      "loss": 1.8171,
      "step": 7908
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4304409325122833,
      "learning_rate": 0.0005886824956186781,
      "loss": 1.8025,
      "step": 7909
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4142140746116638,
      "learning_rate": 0.0005886796516445595,
      "loss": 1.8679,
      "step": 7910
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4060933589935303,
      "learning_rate": 0.0005886768073200262,
      "loss": 1.8006,
      "step": 7911
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43820124864578247,
      "learning_rate": 0.0005886739626450819,
      "loss": 1.8189,
      "step": 7912
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4330536127090454,
      "learning_rate": 0.0005886711176197298,
      "loss": 1.7874,
      "step": 7913
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40264880657196045,
      "learning_rate": 0.0005886682722439737,
      "loss": 1.771,
      "step": 7914
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4194267690181732,
      "learning_rate": 0.0005886654265178167,
      "loss": 1.7445,
      "step": 7915
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4334303140640259,
      "learning_rate": 0.0005886625804412624,
      "loss": 1.7841,
      "step": 7916
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41056355834007263,
      "learning_rate": 0.0005886597340143142,
      "loss": 1.8093,
      "step": 7917
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40399834513664246,
      "learning_rate": 0.0005886568872369757,
      "loss": 1.7684,
      "step": 7918
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42438238859176636,
      "learning_rate": 0.0005886540401092503,
      "loss": 1.8129,
      "step": 7919
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4272330701351166,
      "learning_rate": 0.0005886511926311414,
      "loss": 1.8207,
      "step": 7920
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40483036637306213,
      "learning_rate": 0.0005886483448026526,
      "loss": 1.8254,
      "step": 7921
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4125688970088959,
      "learning_rate": 0.0005886454966237871,
      "loss": 1.861,
      "step": 7922
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4435955584049225,
      "learning_rate": 0.0005886426480945485,
      "loss": 1.7887,
      "step": 7923
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4105144441127777,
      "learning_rate": 0.0005886397992149403,
      "loss": 1.784,
      "step": 7924
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41671222448349,
      "learning_rate": 0.0005886369499849658,
      "loss": 1.8249,
      "step": 7925
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40952715277671814,
      "learning_rate": 0.0005886341004046287,
      "loss": 1.8134,
      "step": 7926
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42212218046188354,
      "learning_rate": 0.0005886312504739323,
      "loss": 1.8057,
      "step": 7927
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4129127264022827,
      "learning_rate": 0.0005886284001928801,
      "loss": 1.8675,
      "step": 7928
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39532795548439026,
      "learning_rate": 0.0005886255495614756,
      "loss": 1.8094,
      "step": 7929
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41460156440734863,
      "learning_rate": 0.0005886226985797221,
      "loss": 1.7788,
      "step": 7930
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4305647909641266,
      "learning_rate": 0.0005886198472476233,
      "loss": 1.8219,
      "step": 7931
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39699843525886536,
      "learning_rate": 0.0005886169955651824,
      "loss": 1.7724,
      "step": 7932
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39067912101745605,
      "learning_rate": 0.000588614143532403,
      "loss": 1.7483,
      "step": 7933
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42372629046440125,
      "learning_rate": 0.0005886112911492887,
      "loss": 1.8473,
      "step": 7934
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4120435416698456,
      "learning_rate": 0.0005886084384158426,
      "loss": 1.7199,
      "step": 7935
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41308823227882385,
      "learning_rate": 0.0005886055853320685,
      "loss": 1.7672,
      "step": 7936
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4195191562175751,
      "learning_rate": 0.0005886027318979697,
      "loss": 1.8651,
      "step": 7937
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41076040267944336,
      "learning_rate": 0.0005885998781135497,
      "loss": 1.7091,
      "step": 7938
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41138753294944763,
      "learning_rate": 0.0005885970239788122,
      "loss": 1.8458,
      "step": 7939
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4170721769332886,
      "learning_rate": 0.0005885941694937601,
      "loss": 1.8782,
      "step": 7940
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.403604120016098,
      "learning_rate": 0.0005885913146583974,
      "loss": 1.8047,
      "step": 7941
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40265125036239624,
      "learning_rate": 0.0005885884594727273,
      "loss": 1.8263,
      "step": 7942
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4154226779937744,
      "learning_rate": 0.0005885856039367533,
      "loss": 1.7705,
      "step": 7943
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3986065685749054,
      "learning_rate": 0.000588582748050479,
      "loss": 1.8071,
      "step": 7944
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3914267420768738,
      "learning_rate": 0.0005885798918139078,
      "loss": 1.8222,
      "step": 7945
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4081070125102997,
      "learning_rate": 0.0005885770352270429,
      "loss": 1.8599,
      "step": 7946
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40748289227485657,
      "learning_rate": 0.0005885741782898882,
      "loss": 1.7898,
      "step": 7947
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41704118251800537,
      "learning_rate": 0.0005885713210024469,
      "loss": 1.7377,
      "step": 7948
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3977414667606354,
      "learning_rate": 0.0005885684633647225,
      "loss": 1.797,
      "step": 7949
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41618555784225464,
      "learning_rate": 0.0005885656053767186,
      "loss": 1.7408,
      "step": 7950
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4025616943836212,
      "learning_rate": 0.0005885627470384384,
      "loss": 1.8395,
      "step": 7951
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4155949056148529,
      "learning_rate": 0.0005885598883498858,
      "loss": 1.7396,
      "step": 7952
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40926221013069153,
      "learning_rate": 0.0005885570293110639,
      "loss": 1.8679,
      "step": 7953
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4034852087497711,
      "learning_rate": 0.0005885541699219762,
      "loss": 1.6852,
      "step": 7954
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41256630420684814,
      "learning_rate": 0.0005885513101826263,
      "loss": 1.7649,
      "step": 7955
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4251938760280609,
      "learning_rate": 0.0005885484500930177,
      "loss": 1.7875,
      "step": 7956
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.43192601203918457,
      "learning_rate": 0.0005885455896531537,
      "loss": 1.8534,
      "step": 7957
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40822169184684753,
      "learning_rate": 0.0005885427288630379,
      "loss": 1.8808,
      "step": 7958
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.40914246439933777,
      "learning_rate": 0.0005885398677226737,
      "loss": 1.8616,
      "step": 7959
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.410165011882782,
      "learning_rate": 0.0005885370062320648,
      "loss": 1.9701,
      "step": 7960
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41805800795555115,
      "learning_rate": 0.0005885341443912143,
      "loss": 1.8529,
      "step": 7961
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41176244616508484,
      "learning_rate": 0.0005885312822001259,
      "loss": 1.8614,
      "step": 7962
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4192562699317932,
      "learning_rate": 0.000588528419658803,
      "loss": 1.8425,
      "step": 7963
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.39783912897109985,
      "learning_rate": 0.0005885255567672492,
      "loss": 1.8076,
      "step": 7964
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42206549644470215,
      "learning_rate": 0.0005885226935254678,
      "loss": 1.7843,
      "step": 7965
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4038923382759094,
      "learning_rate": 0.0005885198299334625,
      "loss": 1.7526,
      "step": 7966
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4358486235141754,
      "learning_rate": 0.0005885169659912364,
      "loss": 1.8342,
      "step": 7967
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4306652843952179,
      "learning_rate": 0.0005885141016987935,
      "loss": 1.7591,
      "step": 7968
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4121645987033844,
      "learning_rate": 0.0005885112370561368,
      "loss": 1.8032,
      "step": 7969
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4032589793205261,
      "learning_rate": 0.00058850837206327,
      "loss": 1.7753,
      "step": 7970
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41747981309890747,
      "learning_rate": 0.0005885055067201966,
      "loss": 1.7756,
      "step": 7971
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4214545786380768,
      "learning_rate": 0.00058850264102692,
      "loss": 1.8812,
      "step": 7972
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41251009702682495,
      "learning_rate": 0.0005884997749834437,
      "loss": 1.8496,
      "step": 7973
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4092971980571747,
      "learning_rate": 0.0005884969085897711,
      "loss": 1.7622,
      "step": 7974
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43150192499160767,
      "learning_rate": 0.0005884940418459059,
      "loss": 1.8333,
      "step": 7975
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5554962754249573,
      "learning_rate": 0.0005884911747518513,
      "loss": 1.7651,
      "step": 7976
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.44286537170410156,
      "learning_rate": 0.0005884883073076111,
      "loss": 1.8492,
      "step": 7977
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4056504964828491,
      "learning_rate": 0.0005884854395131885,
      "loss": 1.808,
      "step": 7978
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43764591217041016,
      "learning_rate": 0.000588482571368587,
      "loss": 1.9129,
      "step": 7979
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40174397826194763,
      "learning_rate": 0.0005884797028738102,
      "loss": 1.8023,
      "step": 7980
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43523910641670227,
      "learning_rate": 0.0005884768340288617,
      "loss": 1.6986,
      "step": 7981
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4003739058971405,
      "learning_rate": 0.0005884739648337447,
      "loss": 1.7518,
      "step": 7982
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3954503536224365,
      "learning_rate": 0.0005884710952884628,
      "loss": 1.7646,
      "step": 7983
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40262848138809204,
      "learning_rate": 0.0005884682253930195,
      "loss": 1.8223,
      "step": 7984
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3968423902988434,
      "learning_rate": 0.0005884653551474183,
      "loss": 1.7584,
      "step": 7985
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41906458139419556,
      "learning_rate": 0.0005884624845516627,
      "loss": 1.8359,
      "step": 7986
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3939937949180603,
      "learning_rate": 0.0005884596136057561,
      "loss": 1.842,
      "step": 7987
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3977062702178955,
      "learning_rate": 0.0005884567423097021,
      "loss": 1.7776,
      "step": 7988
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4282373785972595,
      "learning_rate": 0.000588453870663504,
      "loss": 1.8048,
      "step": 7989
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40187302231788635,
      "learning_rate": 0.0005884509986671655,
      "loss": 1.7347,
      "step": 7990
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4997705817222595,
      "learning_rate": 0.00058844812632069,
      "loss": 1.9513,
      "step": 7991
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39650759100914,
      "learning_rate": 0.0005884452536240809,
      "loss": 1.8051,
      "step": 7992
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4257071614265442,
      "learning_rate": 0.0005884423805773418,
      "loss": 1.778,
      "step": 7993
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4019000232219696,
      "learning_rate": 0.0005884395071804762,
      "loss": 1.7573,
      "step": 7994
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40399718284606934,
      "learning_rate": 0.0005884366334334874,
      "loss": 1.7377,
      "step": 7995
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4556560814380646,
      "learning_rate": 0.0005884337593363791,
      "loss": 1.7892,
      "step": 7996
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40872740745544434,
      "learning_rate": 0.0005884308848891547,
      "loss": 1.773,
      "step": 7997
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40714383125305176,
      "learning_rate": 0.0005884280100918177,
      "loss": 1.8905,
      "step": 7998
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40066495537757874,
      "learning_rate": 0.0005884251349443717,
      "loss": 1.7707,
      "step": 7999
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41212213039398193,
      "learning_rate": 0.0005884222594468199,
      "loss": 1.7672,
      "step": 8000
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4230312407016754,
      "learning_rate": 0.0005884193835991662,
      "loss": 1.8514,
      "step": 8001
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4202595055103302,
      "learning_rate": 0.0005884165074014137,
      "loss": 1.8603,
      "step": 8002
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41038012504577637,
      "learning_rate": 0.0005884136308535661,
      "loss": 1.8398,
      "step": 8003
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4161534607410431,
      "learning_rate": 0.0005884107539556268,
      "loss": 1.8205,
      "step": 8004
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40696462988853455,
      "learning_rate": 0.0005884078767075994,
      "loss": 1.76,
      "step": 8005
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41456642746925354,
      "learning_rate": 0.0005884049991094874,
      "loss": 1.7845,
      "step": 8006
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4209590554237366,
      "learning_rate": 0.0005884021211612941,
      "loss": 1.78,
      "step": 8007
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4063820242881775,
      "learning_rate": 0.0005883992428630232,
      "loss": 1.8248,
      "step": 8008
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41861873865127563,
      "learning_rate": 0.000588396364214678,
      "loss": 1.8404,
      "step": 8009
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4236874282360077,
      "learning_rate": 0.0005883934852162622,
      "loss": 1.7996,
      "step": 8010
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40335339307785034,
      "learning_rate": 0.0005883906058677793,
      "loss": 1.7749,
      "step": 8011
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4120449423789978,
      "learning_rate": 0.0005883877261692325,
      "loss": 1.813,
      "step": 8012
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4262031614780426,
      "learning_rate": 0.0005883848461206256,
      "loss": 1.8065,
      "step": 8013
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4224846065044403,
      "learning_rate": 0.0005883819657219619,
      "loss": 1.8234,
      "step": 8014
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41154831647872925,
      "learning_rate": 0.0005883790849732451,
      "loss": 1.7723,
      "step": 8015
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4093349277973175,
      "learning_rate": 0.0005883762038744785,
      "loss": 1.7621,
      "step": 8016
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4236268401145935,
      "learning_rate": 0.0005883733224256657,
      "loss": 1.8829,
      "step": 8017
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4160136282444,
      "learning_rate": 0.0005883704406268102,
      "loss": 1.8468,
      "step": 8018
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39615628123283386,
      "learning_rate": 0.0005883675584779155,
      "loss": 1.8142,
      "step": 8019
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4201633334159851,
      "learning_rate": 0.000588364675978985,
      "loss": 1.8635,
      "step": 8020
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4109290838241577,
      "learning_rate": 0.0005883617931300222,
      "loss": 1.7819,
      "step": 8021
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4090980291366577,
      "learning_rate": 0.0005883589099310308,
      "loss": 1.8856,
      "step": 8022
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4026782214641571,
      "learning_rate": 0.0005883560263820141,
      "loss": 1.8041,
      "step": 8023
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.45426279306411743,
      "learning_rate": 0.0005883531424829758,
      "loss": 1.7625,
      "step": 8024
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4045106768608093,
      "learning_rate": 0.0005883502582339191,
      "loss": 1.6921,
      "step": 8025
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42408961057662964,
      "learning_rate": 0.0005883473736348478,
      "loss": 1.7909,
      "step": 8026
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4287797212600708,
      "learning_rate": 0.0005883444886857652,
      "loss": 1.8697,
      "step": 8027
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4226190149784088,
      "learning_rate": 0.000588341603386675,
      "loss": 1.8182,
      "step": 8028
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42637741565704346,
      "learning_rate": 0.0005883387177375804,
      "loss": 1.8007,
      "step": 8029
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39604243636131287,
      "learning_rate": 0.0005883358317384853,
      "loss": 1.8583,
      "step": 8030
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4061525762081146,
      "learning_rate": 0.0005883329453893929,
      "loss": 1.795,
      "step": 8031
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4376222491264343,
      "learning_rate": 0.0005883300586903066,
      "loss": 1.7906,
      "step": 8032
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3882093131542206,
      "learning_rate": 0.0005883271716412302,
      "loss": 1.8217,
      "step": 8033
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40269961953163147,
      "learning_rate": 0.0005883242842421672,
      "loss": 1.8358,
      "step": 8034
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41373318433761597,
      "learning_rate": 0.0005883213964931209,
      "loss": 1.7834,
      "step": 8035
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40402668714523315,
      "learning_rate": 0.0005883185083940949,
      "loss": 1.8342,
      "step": 8036
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39772099256515503,
      "learning_rate": 0.0005883156199450928,
      "loss": 1.7994,
      "step": 8037
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40180838108062744,
      "learning_rate": 0.0005883127311461181,
      "loss": 1.8377,
      "step": 8038
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4044789671897888,
      "learning_rate": 0.000588309841997174,
      "loss": 1.7931,
      "step": 8039
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4403701424598694,
      "learning_rate": 0.0005883069524982643,
      "loss": 1.8039,
      "step": 8040
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4169134795665741,
      "learning_rate": 0.0005883040626493925,
      "loss": 1.7868,
      "step": 8041
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43611717224121094,
      "learning_rate": 0.000588301172450562,
      "loss": 1.845,
      "step": 8042
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4030188024044037,
      "learning_rate": 0.0005882982819017765,
      "loss": 1.7519,
      "step": 8043
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4172518849372864,
      "learning_rate": 0.0005882953910030392,
      "loss": 1.7985,
      "step": 8044
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42111390829086304,
      "learning_rate": 0.0005882924997543537,
      "loss": 1.7958,
      "step": 8045
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4247117340564728,
      "learning_rate": 0.0005882896081557238,
      "loss": 1.8115,
      "step": 8046
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40833580493927,
      "learning_rate": 0.0005882867162071527,
      "loss": 1.8306,
      "step": 8047
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.393306165933609,
      "learning_rate": 0.0005882838239086439,
      "loss": 1.743,
      "step": 8048
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43027979135513306,
      "learning_rate": 0.0005882809312602012,
      "loss": 1.813,
      "step": 8049
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41334298253059387,
      "learning_rate": 0.0005882780382618278,
      "loss": 1.7876,
      "step": 8050
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4058009088039398,
      "learning_rate": 0.0005882751449135273,
      "loss": 1.8651,
      "step": 8051
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40173208713531494,
      "learning_rate": 0.0005882722512153034,
      "loss": 1.8023,
      "step": 8052
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4101145565509796,
      "learning_rate": 0.0005882693571671593,
      "loss": 1.7729,
      "step": 8053
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4055722653865814,
      "learning_rate": 0.0005882664627690988,
      "loss": 1.8232,
      "step": 8054
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38740792870521545,
      "learning_rate": 0.0005882635680211253,
      "loss": 1.7664,
      "step": 8055
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41326600313186646,
      "learning_rate": 0.0005882606729232421,
      "loss": 1.857,
      "step": 8056
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4032393991947174,
      "learning_rate": 0.0005882577774754531,
      "loss": 1.7386,
      "step": 8057
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42493805289268494,
      "learning_rate": 0.0005882548816777616,
      "loss": 1.8512,
      "step": 8058
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40140512585639954,
      "learning_rate": 0.0005882519855301712,
      "loss": 1.8483,
      "step": 8059
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40242406725883484,
      "learning_rate": 0.0005882490890326853,
      "loss": 1.8,
      "step": 8060
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4096375107765198,
      "learning_rate": 0.0005882461921853074,
      "loss": 1.7843,
      "step": 8061
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40752702951431274,
      "learning_rate": 0.0005882432949880413,
      "loss": 1.8817,
      "step": 8062
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40447625517845154,
      "learning_rate": 0.0005882403974408901,
      "loss": 1.8271,
      "step": 8063
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40601983666419983,
      "learning_rate": 0.0005882374995438576,
      "loss": 1.8517,
      "step": 8064
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39533695578575134,
      "learning_rate": 0.0005882346012969473,
      "loss": 1.773,
      "step": 8065
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4000287652015686,
      "learning_rate": 0.0005882317027001625,
      "loss": 1.8031,
      "step": 8066
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41215550899505615,
      "learning_rate": 0.0005882288037535071,
      "loss": 1.8098,
      "step": 8067
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4039342999458313,
      "learning_rate": 0.0005882259044569843,
      "loss": 1.8532,
      "step": 8068
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3995089828968048,
      "learning_rate": 0.0005882230048105977,
      "loss": 1.8253,
      "step": 8069
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3844630718231201,
      "learning_rate": 0.0005882201048143509,
      "loss": 1.7129,
      "step": 8070
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40393126010894775,
      "learning_rate": 0.0005882172044682473,
      "loss": 1.8042,
      "step": 8071
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40299782156944275,
      "learning_rate": 0.0005882143037722905,
      "loss": 1.8716,
      "step": 8072
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38727253675460815,
      "learning_rate": 0.000588211402726484,
      "loss": 1.7718,
      "step": 8073
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4016037583351135,
      "learning_rate": 0.0005882085013308313,
      "loss": 1.8714,
      "step": 8074
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4140540361404419,
      "learning_rate": 0.000588205599585336,
      "loss": 1.7795,
      "step": 8075
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4023480713367462,
      "learning_rate": 0.0005882026974900015,
      "loss": 1.7685,
      "step": 8076
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3881927728652954,
      "learning_rate": 0.0005881997950448315,
      "loss": 1.6841,
      "step": 8077
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4029066860675812,
      "learning_rate": 0.0005881968922498293,
      "loss": 1.7654,
      "step": 8078
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39668717980384827,
      "learning_rate": 0.0005881939891049986,
      "loss": 1.7777,
      "step": 8079
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40713539719581604,
      "learning_rate": 0.0005881910856103428,
      "loss": 1.7958,
      "step": 8080
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39942336082458496,
      "learning_rate": 0.0005881881817658655,
      "loss": 1.8133,
      "step": 8081
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40674081444740295,
      "learning_rate": 0.0005881852775715703,
      "loss": 1.7139,
      "step": 8082
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3761667013168335,
      "learning_rate": 0.0005881823730274606,
      "loss": 1.7388,
      "step": 8083
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40281736850738525,
      "learning_rate": 0.0005881794681335398,
      "loss": 1.7682,
      "step": 8084
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40138232707977295,
      "learning_rate": 0.0005881765628898117,
      "loss": 1.8496,
      "step": 8085
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39477604627609253,
      "learning_rate": 0.0005881736572962798,
      "loss": 1.7617,
      "step": 8086
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4067905843257904,
      "learning_rate": 0.0005881707513529475,
      "loss": 1.8819,
      "step": 8087
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4024573862552643,
      "learning_rate": 0.0005881678450598184,
      "loss": 1.8142,
      "step": 8088
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4041390120983124,
      "learning_rate": 0.0005881649384168959,
      "loss": 1.7684,
      "step": 8089
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4054768681526184,
      "learning_rate": 0.0005881620314241836,
      "loss": 1.8284,
      "step": 8090
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3985871374607086,
      "learning_rate": 0.0005881591240816851,
      "loss": 1.8872,
      "step": 8091
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39863014221191406,
      "learning_rate": 0.0005881562163894038,
      "loss": 1.779,
      "step": 8092
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39830246567726135,
      "learning_rate": 0.0005881533083473435,
      "loss": 1.8168,
      "step": 8093
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4051174521446228,
      "learning_rate": 0.0005881503999555075,
      "loss": 1.8311,
      "step": 8094
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4047938585281372,
      "learning_rate": 0.0005881474912138992,
      "loss": 1.8037,
      "step": 8095
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3864125609397888,
      "learning_rate": 0.0005881445821225226,
      "loss": 1.7548,
      "step": 8096
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3926551342010498,
      "learning_rate": 0.0005881416726813807,
      "loss": 1.7774,
      "step": 8097
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40734556317329407,
      "learning_rate": 0.0005881387628904772,
      "loss": 1.8678,
      "step": 8098
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4082721471786499,
      "learning_rate": 0.0005881358527498159,
      "loss": 1.9196,
      "step": 8099
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.409054696559906,
      "learning_rate": 0.0005881329422594,
      "loss": 1.7545,
      "step": 8100
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4119476079940796,
      "learning_rate": 0.0005881300314192332,
      "loss": 1.7759,
      "step": 8101
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3897526264190674,
      "learning_rate": 0.000588127120229319,
      "loss": 1.8173,
      "step": 8102
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3849899172782898,
      "learning_rate": 0.000588124208689661,
      "loss": 1.7477,
      "step": 8103
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3938981890678406,
      "learning_rate": 0.0005881212968002626,
      "loss": 1.8373,
      "step": 8104
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3952007591724396,
      "learning_rate": 0.0005881183845611273,
      "loss": 1.7586,
      "step": 8105
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4225361943244934,
      "learning_rate": 0.0005881154719722589,
      "loss": 1.9125,
      "step": 8106
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3923826217651367,
      "learning_rate": 0.0005881125590336606,
      "loss": 1.8187,
      "step": 8107
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40013232827186584,
      "learning_rate": 0.0005881096457453363,
      "loss": 1.8218,
      "step": 8108
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4032612442970276,
      "learning_rate": 0.0005881067321072892,
      "loss": 1.7877,
      "step": 8109
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3936023414134979,
      "learning_rate": 0.0005881038181195231,
      "loss": 1.7573,
      "step": 8110
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4002951979637146,
      "learning_rate": 0.0005881009037820412,
      "loss": 1.7809,
      "step": 8111
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.394085168838501,
      "learning_rate": 0.0005880979890948474,
      "loss": 1.8461,
      "step": 8112
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42206254601478577,
      "learning_rate": 0.0005880950740579452,
      "loss": 1.8314,
      "step": 8113
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3906615674495697,
      "learning_rate": 0.0005880921586713378,
      "loss": 1.7088,
      "step": 8114
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4176803231239319,
      "learning_rate": 0.000588089242935029,
      "loss": 1.7656,
      "step": 8115
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4013504981994629,
      "learning_rate": 0.0005880863268490225,
      "loss": 1.7221,
      "step": 8116
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4070233404636383,
      "learning_rate": 0.0005880834104133215,
      "loss": 1.8748,
      "step": 8117
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3986741006374359,
      "learning_rate": 0.0005880804936279297,
      "loss": 1.8276,
      "step": 8118
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39292699098587036,
      "learning_rate": 0.0005880775764928506,
      "loss": 1.7199,
      "step": 8119
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40993770956993103,
      "learning_rate": 0.0005880746590080879,
      "loss": 1.7819,
      "step": 8120
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3984229564666748,
      "learning_rate": 0.0005880717411736448,
      "loss": 1.7738,
      "step": 8121
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4069153368473053,
      "learning_rate": 0.0005880688229895252,
      "loss": 1.7964,
      "step": 8122
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41063830256462097,
      "learning_rate": 0.0005880659044557326,
      "loss": 1.8475,
      "step": 8123
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42170044779777527,
      "learning_rate": 0.0005880629855722702,
      "loss": 1.8008,
      "step": 8124
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4121834337711334,
      "learning_rate": 0.0005880600663391418,
      "loss": 1.7934,
      "step": 8125
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.405203640460968,
      "learning_rate": 0.0005880571467563511,
      "loss": 1.8565,
      "step": 8126
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4234253764152527,
      "learning_rate": 0.0005880542268239013,
      "loss": 1.7903,
      "step": 8127
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41268688440322876,
      "learning_rate": 0.0005880513065417962,
      "loss": 1.7872,
      "step": 8128
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41417622566223145,
      "learning_rate": 0.0005880483859100393,
      "loss": 1.8631,
      "step": 8129
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40533941984176636,
      "learning_rate": 0.000588045464928634,
      "loss": 1.793,
      "step": 8130
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43352749943733215,
      "learning_rate": 0.0005880425435975839,
      "loss": 1.7832,
      "step": 8131
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4033980667591095,
      "learning_rate": 0.0005880396219168928,
      "loss": 1.7647,
      "step": 8132
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41822341084480286,
      "learning_rate": 0.000588036699886564,
      "loss": 1.7782,
      "step": 8133
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42363429069519043,
      "learning_rate": 0.0005880337775066009,
      "loss": 1.8106,
      "step": 8134
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41370096802711487,
      "learning_rate": 0.0005880308547770073,
      "loss": 1.7757,
      "step": 8135
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4020635187625885,
      "learning_rate": 0.0005880279316977868,
      "loss": 1.8545,
      "step": 8136
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39927613735198975,
      "learning_rate": 0.0005880250082689427,
      "loss": 1.7456,
      "step": 8137
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41162559390068054,
      "learning_rate": 0.0005880220844904787,
      "loss": 1.7797,
      "step": 8138
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4057934880256653,
      "learning_rate": 0.0005880191603623984,
      "loss": 1.7898,
      "step": 8139
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4000631272792816,
      "learning_rate": 0.0005880162358847052,
      "loss": 1.7555,
      "step": 8140
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.438144326210022,
      "learning_rate": 0.0005880133110574028,
      "loss": 1.8673,
      "step": 8141
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4102493226528168,
      "learning_rate": 0.0005880103858804946,
      "loss": 1.8218,
      "step": 8142
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4193989336490631,
      "learning_rate": 0.0005880074603539843,
      "loss": 1.7403,
      "step": 8143
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.405007928609848,
      "learning_rate": 0.0005880045344778754,
      "loss": 1.7916,
      "step": 8144
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4091339111328125,
      "learning_rate": 0.0005880016082521714,
      "loss": 1.8273,
      "step": 8145
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4037947654724121,
      "learning_rate": 0.0005879986816768758,
      "loss": 1.7316,
      "step": 8146
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39268267154693604,
      "learning_rate": 0.0005879957547519923,
      "loss": 1.8053,
      "step": 8147
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41574034094810486,
      "learning_rate": 0.0005879928274775244,
      "loss": 1.8522,
      "step": 8148
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4009479880332947,
      "learning_rate": 0.0005879898998534756,
      "loss": 1.8098,
      "step": 8149
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39287325739860535,
      "learning_rate": 0.0005879869718798495,
      "loss": 1.7565,
      "step": 8150
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39945730566978455,
      "learning_rate": 0.0005879840435566498,
      "loss": 1.7959,
      "step": 8151
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.407457560300827,
      "learning_rate": 0.0005879811148838797,
      "loss": 1.8057,
      "step": 8152
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4167932868003845,
      "learning_rate": 0.000587978185861543,
      "loss": 1.7565,
      "step": 8153
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40219083428382874,
      "learning_rate": 0.0005879752564896432,
      "loss": 1.7861,
      "step": 8154
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4114207327365875,
      "learning_rate": 0.0005879723267681839,
      "loss": 1.8301,
      "step": 8155
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40288686752319336,
      "learning_rate": 0.0005879693966971687,
      "loss": 1.7176,
      "step": 8156
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4037097692489624,
      "learning_rate": 0.000587966466276601,
      "loss": 1.7723,
      "step": 8157
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.404651403427124,
      "learning_rate": 0.0005879635355064845,
      "loss": 1.7504,
      "step": 8158
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4130387306213379,
      "learning_rate": 0.0005879606043868226,
      "loss": 1.8017,
      "step": 8159
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41665926575660706,
      "learning_rate": 0.000587957672917619,
      "loss": 1.8251,
      "step": 8160
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4075466990470886,
      "learning_rate": 0.0005879547410988773,
      "loss": 1.8115,
      "step": 8161
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3950839936733246,
      "learning_rate": 0.0005879518089306009,
      "loss": 1.8173,
      "step": 8162
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4041212797164917,
      "learning_rate": 0.0005879488764127934,
      "loss": 1.8719,
      "step": 8163
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43610048294067383,
      "learning_rate": 0.0005879459435454584,
      "loss": 1.8388,
      "step": 8164
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3947771489620209,
      "learning_rate": 0.0005879430103285995,
      "loss": 1.7919,
      "step": 8165
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4001944363117218,
      "learning_rate": 0.0005879400767622201,
      "loss": 1.8428,
      "step": 8166
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38985949754714966,
      "learning_rate": 0.000587937142846324,
      "loss": 1.8248,
      "step": 8167
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41132408380508423,
      "learning_rate": 0.0005879342085809146,
      "loss": 1.801,
      "step": 8168
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38583385944366455,
      "learning_rate": 0.0005879312739659955,
      "loss": 1.7683,
      "step": 8169
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38909709453582764,
      "learning_rate": 0.0005879283390015702,
      "loss": 1.7862,
      "step": 8170
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3945774435997009,
      "learning_rate": 0.0005879254036876424,
      "loss": 1.824,
      "step": 8171
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40283337235450745,
      "learning_rate": 0.0005879224680242156,
      "loss": 1.8398,
      "step": 8172
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40280240774154663,
      "learning_rate": 0.0005879195320112932,
      "loss": 1.8013,
      "step": 8173
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3841104209423065,
      "learning_rate": 0.000587916595648879,
      "loss": 1.7588,
      "step": 8174
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4065425992012024,
      "learning_rate": 0.0005879136589369765,
      "loss": 1.751,
      "step": 8175
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41371896862983704,
      "learning_rate": 0.0005879107218755893,
      "loss": 1.875,
      "step": 8176
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4094052016735077,
      "learning_rate": 0.0005879077844647208,
      "loss": 1.873,
      "step": 8177
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41688594222068787,
      "learning_rate": 0.0005879048467043747,
      "loss": 1.8012,
      "step": 8178
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4026123285293579,
      "learning_rate": 0.0005879019085945546,
      "loss": 1.7635,
      "step": 8179
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3964250385761261,
      "learning_rate": 0.0005878989701352639,
      "loss": 1.7581,
      "step": 8180
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40795090794563293,
      "learning_rate": 0.0005878960313265064,
      "loss": 1.8353,
      "step": 8181
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4109475910663605,
      "learning_rate": 0.0005878930921682854,
      "loss": 1.8646,
      "step": 8182
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4118678867816925,
      "learning_rate": 0.0005878901526606046,
      "loss": 1.7797,
      "step": 8183
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40624573826789856,
      "learning_rate": 0.0005878872128034676,
      "loss": 1.7895,
      "step": 8184
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4039967358112335,
      "learning_rate": 0.000587884272596878,
      "loss": 1.7783,
      "step": 8185
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41844239830970764,
      "learning_rate": 0.0005878813320408393,
      "loss": 1.859,
      "step": 8186
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5723122358322144,
      "learning_rate": 0.000587878391135355,
      "loss": 1.8825,
      "step": 8187
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4154074490070343,
      "learning_rate": 0.0005878754498804289,
      "loss": 1.8162,
      "step": 8188
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4125545918941498,
      "learning_rate": 0.0005878725082760644,
      "loss": 1.8308,
      "step": 8189
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3966812491416931,
      "learning_rate": 0.000587869566322265,
      "loss": 1.7495,
      "step": 8190
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3991299271583557,
      "learning_rate": 0.0005878666240190343,
      "loss": 1.7907,
      "step": 8191
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39959245920181274,
      "learning_rate": 0.0005878636813663761,
      "loss": 1.7752,
      "step": 8192
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41672611236572266,
      "learning_rate": 0.0005878607383642937,
      "loss": 1.7845,
      "step": 8193
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4014960527420044,
      "learning_rate": 0.0005878577950127907,
      "loss": 1.7629,
      "step": 8194
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39465683698654175,
      "learning_rate": 0.0005878548513118709,
      "loss": 1.8149,
      "step": 8195
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41026216745376587,
      "learning_rate": 0.0005878519072615376,
      "loss": 1.7832,
      "step": 8196
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42135611176490784,
      "learning_rate": 0.0005878489628617946,
      "loss": 1.8954,
      "step": 8197
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4136728048324585,
      "learning_rate": 0.0005878460181126453,
      "loss": 1.7593,
      "step": 8198
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40224897861480713,
      "learning_rate": 0.0005878430730140935,
      "loss": 1.763,
      "step": 8199
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42269882559776306,
      "learning_rate": 0.0005878401275661425,
      "loss": 1.8309,
      "step": 8200
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41936782002449036,
      "learning_rate": 0.000587837181768796,
      "loss": 1.85,
      "step": 8201
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40957844257354736,
      "learning_rate": 0.0005878342356220575,
      "loss": 1.8089,
      "step": 8202
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41436031460762024,
      "learning_rate": 0.0005878312891259308,
      "loss": 1.8272,
      "step": 8203
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3984970450401306,
      "learning_rate": 0.0005878283422804193,
      "loss": 1.7895,
      "step": 8204
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4115946590900421,
      "learning_rate": 0.0005878253950855265,
      "loss": 1.8632,
      "step": 8205
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39322635531425476,
      "learning_rate": 0.0005878224475412561,
      "loss": 1.7523,
      "step": 8206
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42215538024902344,
      "learning_rate": 0.0005878194996476118,
      "loss": 1.8269,
      "step": 8207
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39632222056388855,
      "learning_rate": 0.0005878165514045968,
      "loss": 1.751,
      "step": 8208
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4074631631374359,
      "learning_rate": 0.0005878136028122151,
      "loss": 1.7314,
      "step": 8209
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40335986018180847,
      "learning_rate": 0.0005878106538704701,
      "loss": 1.7881,
      "step": 8210
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4039911925792694,
      "learning_rate": 0.0005878077045793652,
      "loss": 1.8162,
      "step": 8211
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4247177839279175,
      "learning_rate": 0.0005878047549389043,
      "loss": 1.7823,
      "step": 8212
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39692211151123047,
      "learning_rate": 0.0005878018049490908,
      "loss": 1.7555,
      "step": 8213
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4076908230781555,
      "learning_rate": 0.0005877988546099283,
      "loss": 1.7611,
      "step": 8214
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4079834222793579,
      "learning_rate": 0.0005877959039214205,
      "loss": 1.7957,
      "step": 8215
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3971863389015198,
      "learning_rate": 0.0005877929528835707,
      "loss": 1.7723,
      "step": 8216
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3930293917655945,
      "learning_rate": 0.0005877900014963828,
      "loss": 1.7752,
      "step": 8217
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39704179763793945,
      "learning_rate": 0.0005877870497598601,
      "loss": 1.8018,
      "step": 8218
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39245274662971497,
      "learning_rate": 0.0005877840976740065,
      "loss": 1.7598,
      "step": 8219
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4054759442806244,
      "learning_rate": 0.0005877811452388253,
      "loss": 1.8018,
      "step": 8220
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39314693212509155,
      "learning_rate": 0.0005877781924543201,
      "loss": 1.7495,
      "step": 8221
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39652469754219055,
      "learning_rate": 0.0005877752393204949,
      "loss": 1.6783,
      "step": 8222
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3956473469734192,
      "learning_rate": 0.0005877722858373527,
      "loss": 1.7399,
      "step": 8223
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4075775146484375,
      "learning_rate": 0.0005877693320048973,
      "loss": 1.8325,
      "step": 8224
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4105788469314575,
      "learning_rate": 0.0005877663778231325,
      "loss": 1.813,
      "step": 8225
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40672358870506287,
      "learning_rate": 0.0005877634232920616,
      "loss": 1.8638,
      "step": 8226
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4054601788520813,
      "learning_rate": 0.0005877604684116883,
      "loss": 1.7829,
      "step": 8227
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4136604368686676,
      "learning_rate": 0.0005877575131820163,
      "loss": 1.8172,
      "step": 8228
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4013831615447998,
      "learning_rate": 0.000587754557603049,
      "loss": 1.735,
      "step": 8229
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3923855721950531,
      "learning_rate": 0.00058775160167479,
      "loss": 1.7882,
      "step": 8230
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.402761310338974,
      "learning_rate": 0.0005877486453972432,
      "loss": 1.8038,
      "step": 8231
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3874671459197998,
      "learning_rate": 0.0005877456887704117,
      "loss": 1.7227,
      "step": 8232
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40898415446281433,
      "learning_rate": 0.0005877427317942994,
      "loss": 1.8241,
      "step": 8233
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4027538299560547,
      "learning_rate": 0.0005877397744689098,
      "loss": 1.8715,
      "step": 8234
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38348710536956787,
      "learning_rate": 0.0005877368167942465,
      "loss": 1.7899,
      "step": 8235
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4014030992984772,
      "learning_rate": 0.0005877338587703132,
      "loss": 1.7749,
      "step": 8236
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.416902095079422,
      "learning_rate": 0.0005877309003971133,
      "loss": 1.8131,
      "step": 8237
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39850151538848877,
      "learning_rate": 0.0005877279416746505,
      "loss": 1.905,
      "step": 8238
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3832587003707886,
      "learning_rate": 0.0005877249826029285,
      "loss": 1.7502,
      "step": 8239
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3969337046146393,
      "learning_rate": 0.0005877220231819507,
      "loss": 1.8015,
      "step": 8240
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40967366099357605,
      "learning_rate": 0.0005877190634117206,
      "loss": 1.8898,
      "step": 8241
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4023784101009369,
      "learning_rate": 0.000587716103292242,
      "loss": 1.8187,
      "step": 8242
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4081351161003113,
      "learning_rate": 0.0005877131428235185,
      "loss": 1.8348,
      "step": 8243
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4019010066986084,
      "learning_rate": 0.0005877101820055537,
      "loss": 1.8307,
      "step": 8244
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39566570520401,
      "learning_rate": 0.0005877072208383511,
      "loss": 1.7002,
      "step": 8245
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3912751078605652,
      "learning_rate": 0.0005877042593219143,
      "loss": 1.7496,
      "step": 8246
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39847975969314575,
      "learning_rate": 0.000587701297456247,
      "loss": 1.7633,
      "step": 8247
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.43602868914604187,
      "learning_rate": 0.0005876983352413525,
      "loss": 1.8464,
      "step": 8248
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4051516354084015,
      "learning_rate": 0.0005876953726772347,
      "loss": 1.8068,
      "step": 8249
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4041473865509033,
      "learning_rate": 0.0005876924097638973,
      "loss": 1.844,
      "step": 8250
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40313225984573364,
      "learning_rate": 0.0005876894465013436,
      "loss": 1.8028,
      "step": 8251
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4059661030769348,
      "learning_rate": 0.0005876864828895771,
      "loss": 1.8021,
      "step": 8252
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38881152868270874,
      "learning_rate": 0.0005876835189286018,
      "loss": 1.7435,
      "step": 8253
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4116600751876831,
      "learning_rate": 0.000587680554618421,
      "loss": 1.7979,
      "step": 8254
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40895113348960876,
      "learning_rate": 0.0005876775899590385,
      "loss": 1.7893,
      "step": 8255
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4103280305862427,
      "learning_rate": 0.0005876746249504578,
      "loss": 1.7656,
      "step": 8256
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4101640284061432,
      "learning_rate": 0.0005876716595926823,
      "loss": 1.7985,
      "step": 8257
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3958272933959961,
      "learning_rate": 0.000587668693885716,
      "loss": 1.7076,
      "step": 8258
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40133747458457947,
      "learning_rate": 0.0005876657278295623,
      "loss": 1.7637,
      "step": 8259
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40464723110198975,
      "learning_rate": 0.0005876627614242246,
      "loss": 1.7903,
      "step": 8260
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.39904993772506714,
      "learning_rate": 0.0005876597946697068,
      "loss": 1.8193,
      "step": 8261
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4118507206439972,
      "learning_rate": 0.0005876568275660124,
      "loss": 1.7492,
      "step": 8262
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3990574777126312,
      "learning_rate": 0.000587653860113145,
      "loss": 1.8081,
      "step": 8263
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41096410155296326,
      "learning_rate": 0.0005876508923111082,
      "loss": 1.7019,
      "step": 8264
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4063534736633301,
      "learning_rate": 0.0005876479241599056,
      "loss": 1.8296,
      "step": 8265
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3991756737232208,
      "learning_rate": 0.0005876449556595409,
      "loss": 1.7901,
      "step": 8266
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4058908522129059,
      "learning_rate": 0.0005876419868100175,
      "loss": 1.7692,
      "step": 8267
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4027567207813263,
      "learning_rate": 0.000587639017611339,
      "loss": 1.8085,
      "step": 8268
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3937302827835083,
      "learning_rate": 0.0005876360480635092,
      "loss": 1.8294,
      "step": 8269
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3992448151111603,
      "learning_rate": 0.0005876330781665317,
      "loss": 1.7885,
      "step": 8270
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3998933434486389,
      "learning_rate": 0.0005876301079204099,
      "loss": 1.7668,
      "step": 8271
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40680447220802307,
      "learning_rate": 0.0005876271373251476,
      "loss": 1.8467,
      "step": 8272
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39618319272994995,
      "learning_rate": 0.0005876241663807484,
      "loss": 1.7839,
      "step": 8273
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39623358845710754,
      "learning_rate": 0.0005876211950872157,
      "loss": 1.7599,
      "step": 8274
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4001486599445343,
      "learning_rate": 0.0005876182234445534,
      "loss": 1.7457,
      "step": 8275
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4090222716331482,
      "learning_rate": 0.0005876152514527649,
      "loss": 1.8712,
      "step": 8276
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4005434215068817,
      "learning_rate": 0.0005876122791118538,
      "loss": 1.7126,
      "step": 8277
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4225206673145294,
      "learning_rate": 0.0005876093064218238,
      "loss": 1.8342,
      "step": 8278
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.42212310433387756,
      "learning_rate": 0.0005876063333826784,
      "loss": 1.8423,
      "step": 8279
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4033582806587219,
      "learning_rate": 0.0005876033599944214,
      "loss": 1.8535,
      "step": 8280
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4009828567504883,
      "learning_rate": 0.0005876003862570564,
      "loss": 1.8191,
      "step": 8281
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40131017565727234,
      "learning_rate": 0.0005875974121705866,
      "loss": 1.8641,
      "step": 8282
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4080093204975128,
      "learning_rate": 0.0005875944377350162,
      "loss": 1.8113,
      "step": 8283
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40591761469841003,
      "learning_rate": 0.0005875914629503484,
      "loss": 1.7886,
      "step": 8284
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4052804410457611,
      "learning_rate": 0.0005875884878165869,
      "loss": 1.8132,
      "step": 8285
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40904656052589417,
      "learning_rate": 0.0005875855123337355,
      "loss": 1.8008,
      "step": 8286
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39383259415626526,
      "learning_rate": 0.0005875825365017975,
      "loss": 1.7637,
      "step": 8287
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40002405643463135,
      "learning_rate": 0.0005875795603207768,
      "loss": 1.7743,
      "step": 8288
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4048837721347809,
      "learning_rate": 0.0005875765837906769,
      "loss": 1.7713,
      "step": 8289
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41386422514915466,
      "learning_rate": 0.0005875736069115013,
      "loss": 1.7943,
      "step": 8290
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4138227701187134,
      "learning_rate": 0.0005875706296832537,
      "loss": 1.8171,
      "step": 8291
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41008883714675903,
      "learning_rate": 0.0005875676521059378,
      "loss": 1.7165,
      "step": 8292
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40542519092559814,
      "learning_rate": 0.0005875646741795572,
      "loss": 1.8272,
      "step": 8293
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39743685722351074,
      "learning_rate": 0.0005875616959041153,
      "loss": 1.7539,
      "step": 8294
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3981671929359436,
      "learning_rate": 0.000587558717279616,
      "loss": 1.7856,
      "step": 8295
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.406215101480484,
      "learning_rate": 0.0005875557383060627,
      "loss": 1.7492,
      "step": 8296
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39618316292762756,
      "learning_rate": 0.0005875527589834591,
      "loss": 1.7638,
      "step": 8297
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4037448465824127,
      "learning_rate": 0.0005875497793118089,
      "loss": 1.8105,
      "step": 8298
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41102075576782227,
      "learning_rate": 0.0005875467992911155,
      "loss": 1.8715,
      "step": 8299
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4904978573322296,
      "learning_rate": 0.0005875438189213828,
      "loss": 1.824,
      "step": 8300
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4020351469516754,
      "learning_rate": 0.0005875408382026142,
      "loss": 1.7413,
      "step": 8301
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.407812237739563,
      "learning_rate": 0.0005875378571348134,
      "loss": 1.7982,
      "step": 8302
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4232792854309082,
      "learning_rate": 0.000587534875717984,
      "loss": 1.8575,
      "step": 8303
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39563849568367004,
      "learning_rate": 0.0005875318939521296,
      "loss": 1.764,
      "step": 8304
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.401689350605011,
      "learning_rate": 0.0005875289118372538,
      "loss": 1.7681,
      "step": 8305
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4047468602657318,
      "learning_rate": 0.0005875259293733605,
      "loss": 1.8181,
      "step": 8306
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39512380957603455,
      "learning_rate": 0.000587522946560453,
      "loss": 1.7659,
      "step": 8307
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3966078758239746,
      "learning_rate": 0.0005875199633985349,
      "loss": 1.7684,
      "step": 8308
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40967196226119995,
      "learning_rate": 0.0005875169798876099,
      "loss": 1.8468,
      "step": 8309
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40130627155303955,
      "learning_rate": 0.0005875139960276818,
      "loss": 1.767,
      "step": 8310
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40142449736595154,
      "learning_rate": 0.000587511011818754,
      "loss": 1.801,
      "step": 8311
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41036680340766907,
      "learning_rate": 0.0005875080272608301,
      "loss": 1.7836,
      "step": 8312
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4165690839290619,
      "learning_rate": 0.000587505042353914,
      "loss": 1.773,
      "step": 8313
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4044455885887146,
      "learning_rate": 0.000587502057098009,
      "loss": 1.8435,
      "step": 8314
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3986280858516693,
      "learning_rate": 0.0005874990714931189,
      "loss": 1.6776,
      "step": 8315
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41281235218048096,
      "learning_rate": 0.0005874960855392473,
      "loss": 1.852,
      "step": 8316
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40081489086151123,
      "learning_rate": 0.0005874930992363979,
      "loss": 1.8549,
      "step": 8317
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4049471616744995,
      "learning_rate": 0.0005874901125845741,
      "loss": 1.7703,
      "step": 8318
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3880172371864319,
      "learning_rate": 0.0005874871255837796,
      "loss": 1.8255,
      "step": 8319
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39088940620422363,
      "learning_rate": 0.0005874841382340183,
      "loss": 1.7877,
      "step": 8320
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4211425185203552,
      "learning_rate": 0.0005874811505352936,
      "loss": 1.8096,
      "step": 8321
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40179672837257385,
      "learning_rate": 0.000587478162487609,
      "loss": 1.8034,
      "step": 8322
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4055596590042114,
      "learning_rate": 0.0005874751740909684,
      "loss": 1.7391,
      "step": 8323
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3912595212459564,
      "learning_rate": 0.0005874721853453751,
      "loss": 1.7299,
      "step": 8324
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4028378129005432,
      "learning_rate": 0.0005874691962508332,
      "loss": 1.8046,
      "step": 8325
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3999032974243164,
      "learning_rate": 0.0005874662068073458,
      "loss": 1.7856,
      "step": 8326
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38912591338157654,
      "learning_rate": 0.0005874632170149169,
      "loss": 1.782,
      "step": 8327
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39732253551483154,
      "learning_rate": 0.0005874602268735499,
      "loss": 1.7716,
      "step": 8328
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39756345748901367,
      "learning_rate": 0.0005874572363832487,
      "loss": 1.7625,
      "step": 8329
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3890655040740967,
      "learning_rate": 0.0005874542455440167,
      "loss": 1.8099,
      "step": 8330
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39317557215690613,
      "learning_rate": 0.0005874512543558577,
      "loss": 1.79,
      "step": 8331
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40884676575660706,
      "learning_rate": 0.0005874482628187751,
      "loss": 1.7741,
      "step": 8332
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.400049090385437,
      "learning_rate": 0.0005874452709327727,
      "loss": 1.8011,
      "step": 8333
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.391579270362854,
      "learning_rate": 0.000587442278697854,
      "loss": 1.7842,
      "step": 8334
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40897759795188904,
      "learning_rate": 0.0005874392861140229,
      "loss": 1.7795,
      "step": 8335
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3964352607727051,
      "learning_rate": 0.0005874362931812827,
      "loss": 1.8115,
      "step": 8336
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40400201082229614,
      "learning_rate": 0.0005874332998996373,
      "loss": 1.8448,
      "step": 8337
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4070594012737274,
      "learning_rate": 0.0005874303062690902,
      "loss": 1.738,
      "step": 8338
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3889535665512085,
      "learning_rate": 0.0005874273122896451,
      "loss": 1.7198,
      "step": 8339
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4026682376861572,
      "learning_rate": 0.0005874243179613054,
      "loss": 1.825,
      "step": 8340
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4074781835079193,
      "learning_rate": 0.0005874213232840752,
      "loss": 1.7942,
      "step": 8341
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4075406491756439,
      "learning_rate": 0.0005874183282579577,
      "loss": 1.8822,
      "step": 8342
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4031336307525635,
      "learning_rate": 0.0005874153328829568,
      "loss": 1.6785,
      "step": 8343
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3966706395149231,
      "learning_rate": 0.000587412337159076,
      "loss": 1.7905,
      "step": 8344
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4014833867549896,
      "learning_rate": 0.0005874093410863188,
      "loss": 1.7715,
      "step": 8345
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4001469612121582,
      "learning_rate": 0.0005874063446646892,
      "loss": 1.8462,
      "step": 8346
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39045050740242004,
      "learning_rate": 0.0005874033478941906,
      "loss": 1.7678,
      "step": 8347
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4024788439273834,
      "learning_rate": 0.0005874003507748267,
      "loss": 1.7792,
      "step": 8348
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4046529531478882,
      "learning_rate": 0.000587397353306601,
      "loss": 1.8794,
      "step": 8349
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40795958042144775,
      "learning_rate": 0.0005873943554895174,
      "loss": 1.8382,
      "step": 8350
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41511648893356323,
      "learning_rate": 0.0005873913573235793,
      "loss": 1.7668,
      "step": 8351
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4003991484642029,
      "learning_rate": 0.0005873883588087906,
      "loss": 1.6929,
      "step": 8352
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.597967803478241,
      "learning_rate": 0.0005873853599451547,
      "loss": 1.8812,
      "step": 8353
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.42303311824798584,
      "learning_rate": 0.0005873823607326752,
      "loss": 1.8442,
      "step": 8354
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40101882815361023,
      "learning_rate": 0.0005873793611713559,
      "loss": 1.749,
      "step": 8355
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41859158873558044,
      "learning_rate": 0.0005873763612612006,
      "loss": 1.8057,
      "step": 8356
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4107213020324707,
      "learning_rate": 0.0005873733610022125,
      "loss": 1.8788,
      "step": 8357
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40062054991722107,
      "learning_rate": 0.0005873703603943956,
      "loss": 1.7685,
      "step": 8358
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40078219771385193,
      "learning_rate": 0.0005873673594377533,
      "loss": 1.7639,
      "step": 8359
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4001615047454834,
      "learning_rate": 0.0005873643581322895,
      "loss": 1.7559,
      "step": 8360
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3896768093109131,
      "learning_rate": 0.0005873613564780077,
      "loss": 1.7797,
      "step": 8361
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4140937626361847,
      "learning_rate": 0.0005873583544749115,
      "loss": 1.8228,
      "step": 8362
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.419434130191803,
      "learning_rate": 0.0005873553521230046,
      "loss": 1.7956,
      "step": 8363
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4092461168766022,
      "learning_rate": 0.0005873523494222907,
      "loss": 1.7934,
      "step": 8364
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4058491587638855,
      "learning_rate": 0.0005873493463727734,
      "loss": 1.843,
      "step": 8365
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4097919464111328,
      "learning_rate": 0.0005873463429744562,
      "loss": 1.7472,
      "step": 8366
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41790005564689636,
      "learning_rate": 0.0005873433392273429,
      "loss": 1.7762,
      "step": 8367
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41889774799346924,
      "learning_rate": 0.0005873403351314372,
      "loss": 1.7536,
      "step": 8368
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4196746051311493,
      "learning_rate": 0.0005873373306867427,
      "loss": 1.8144,
      "step": 8369
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4161941111087799,
      "learning_rate": 0.0005873343258932629,
      "loss": 1.8328,
      "step": 8370
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41121599078178406,
      "learning_rate": 0.0005873313207510017,
      "loss": 1.817,
      "step": 8371
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.43369656801223755,
      "learning_rate": 0.0005873283152599626,
      "loss": 1.9112,
      "step": 8372
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5218467712402344,
      "learning_rate": 0.0005873253094201491,
      "loss": 1.8168,
      "step": 8373
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3987034559249878,
      "learning_rate": 0.0005873223032315652,
      "loss": 1.7776,
      "step": 8374
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40223628282546997,
      "learning_rate": 0.0005873192966942142,
      "loss": 1.7831,
      "step": 8375
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4034339487552643,
      "learning_rate": 0.0005873162898081,
      "loss": 1.7842,
      "step": 8376
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4012421667575836,
      "learning_rate": 0.0005873132825732262,
      "loss": 1.8466,
      "step": 8377
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.399881511926651,
      "learning_rate": 0.0005873102749895964,
      "loss": 1.729,
      "step": 8378
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4045077860355377,
      "learning_rate": 0.0005873072670572141,
      "loss": 1.806,
      "step": 8379
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4179934561252594,
      "learning_rate": 0.0005873042587760832,
      "loss": 1.8411,
      "step": 8380
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41595590114593506,
      "learning_rate": 0.0005873012501462074,
      "loss": 1.7762,
      "step": 8381
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3877718150615692,
      "learning_rate": 0.00058729824116759,
      "loss": 1.7624,
      "step": 8382
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39971715211868286,
      "learning_rate": 0.000587295231840235,
      "loss": 1.8091,
      "step": 8383
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4276030361652374,
      "learning_rate": 0.0005872922221641459,
      "loss": 1.7874,
      "step": 8384
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41114234924316406,
      "learning_rate": 0.0005872892121393263,
      "loss": 1.8885,
      "step": 8385
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4068983793258667,
      "learning_rate": 0.0005872862017657801,
      "loss": 1.7293,
      "step": 8386
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40387117862701416,
      "learning_rate": 0.0005872831910435106,
      "loss": 1.831,
      "step": 8387
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.43837305903434753,
      "learning_rate": 0.0005872801799725217,
      "loss": 1.8179,
      "step": 8388
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3993990123271942,
      "learning_rate": 0.0005872771685528171,
      "loss": 1.7456,
      "step": 8389
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4124874770641327,
      "learning_rate": 0.0005872741567844002,
      "loss": 1.827,
      "step": 8390
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4012604057788849,
      "learning_rate": 0.0005872711446672748,
      "loss": 1.781,
      "step": 8391
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39911946654319763,
      "learning_rate": 0.0005872681322014446,
      "loss": 1.8093,
      "step": 8392
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.393771231174469,
      "learning_rate": 0.0005872651193869132,
      "loss": 1.8122,
      "step": 8393
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41353049874305725,
      "learning_rate": 0.0005872621062236843,
      "loss": 1.8049,
      "step": 8394
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39886635541915894,
      "learning_rate": 0.0005872590927117615,
      "loss": 1.8335,
      "step": 8395
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4169495403766632,
      "learning_rate": 0.0005872560788511486,
      "loss": 1.7917,
      "step": 8396
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.398333877325058,
      "learning_rate": 0.0005872530646418489,
      "loss": 1.8183,
      "step": 8397
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41451239585876465,
      "learning_rate": 0.0005872500500838665,
      "loss": 1.7727,
      "step": 8398
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.43474701046943665,
      "learning_rate": 0.0005872470351772048,
      "loss": 1.8823,
      "step": 8399
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40805763006210327,
      "learning_rate": 0.0005872440199218675,
      "loss": 1.8423,
      "step": 8400
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4104251563549042,
      "learning_rate": 0.0005872410043178584,
      "loss": 1.7872,
      "step": 8401
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40815386176109314,
      "learning_rate": 0.0005872379883651809,
      "loss": 1.8069,
      "step": 8402
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40837374329566956,
      "learning_rate": 0.0005872349720638389,
      "loss": 1.843,
      "step": 8403
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4109964668750763,
      "learning_rate": 0.000587231955413836,
      "loss": 1.721,
      "step": 8404
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40395528078079224,
      "learning_rate": 0.0005872289384151757,
      "loss": 1.7898,
      "step": 8405
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41479581594467163,
      "learning_rate": 0.0005872259210678619,
      "loss": 1.8662,
      "step": 8406
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40533342957496643,
      "learning_rate": 0.0005872229033718981,
      "loss": 1.7545,
      "step": 8407
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40290915966033936,
      "learning_rate": 0.000587219885327288,
      "loss": 1.7652,
      "step": 8408
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40632131695747375,
      "learning_rate": 0.0005872168669340352,
      "loss": 1.8121,
      "step": 8409
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40206608176231384,
      "learning_rate": 0.0005872138481921435,
      "loss": 1.7843,
      "step": 8410
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39619308710098267,
      "learning_rate": 0.0005872108291016167,
      "loss": 1.7961,
      "step": 8411
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.400552898645401,
      "learning_rate": 0.0005872078096624581,
      "loss": 1.793,
      "step": 8412
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4064514636993408,
      "learning_rate": 0.0005872047898746716,
      "loss": 1.7727,
      "step": 8413
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38763880729675293,
      "learning_rate": 0.0005872017697382607,
      "loss": 1.7415,
      "step": 8414
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4183942377567291,
      "learning_rate": 0.0005871987492532292,
      "loss": 1.7863,
      "step": 8415
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40235474705696106,
      "learning_rate": 0.0005871957284195808,
      "loss": 1.7719,
      "step": 8416
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39681148529052734,
      "learning_rate": 0.0005871927072373191,
      "loss": 1.7801,
      "step": 8417
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3963761627674103,
      "learning_rate": 0.0005871896857064477,
      "loss": 1.8268,
      "step": 8418
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39985525608062744,
      "learning_rate": 0.0005871866638269703,
      "loss": 1.82,
      "step": 8419
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3922317326068878,
      "learning_rate": 0.0005871836415988907,
      "loss": 1.856,
      "step": 8420
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39240121841430664,
      "learning_rate": 0.0005871806190222125,
      "loss": 1.7439,
      "step": 8421
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39332181215286255,
      "learning_rate": 0.0005871775960969393,
      "loss": 1.7898,
      "step": 8422
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38818714022636414,
      "learning_rate": 0.0005871745728230749,
      "loss": 1.7703,
      "step": 8423
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4222886264324188,
      "learning_rate": 0.0005871715492006226,
      "loss": 1.7716,
      "step": 8424
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4214036464691162,
      "learning_rate": 0.0005871685252295866,
      "loss": 1.8029,
      "step": 8425
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38867419958114624,
      "learning_rate": 0.0005871655009099702,
      "loss": 1.6974,
      "step": 8426
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4237556457519531,
      "learning_rate": 0.0005871624762417774,
      "loss": 1.7473,
      "step": 8427
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40148380398750305,
      "learning_rate": 0.0005871594512250115,
      "loss": 1.7432,
      "step": 8428
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3802941143512726,
      "learning_rate": 0.0005871564258596763,
      "loss": 1.6812,
      "step": 8429
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.434647798538208,
      "learning_rate": 0.0005871534001457755,
      "loss": 1.8487,
      "step": 8430
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41913455724716187,
      "learning_rate": 0.000587150374083313,
      "loss": 1.8567,
      "step": 8431
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40263649821281433,
      "learning_rate": 0.000587147347672292,
      "loss": 1.7915,
      "step": 8432
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41851988434791565,
      "learning_rate": 0.0005871443209127166,
      "loss": 1.787,
      "step": 8433
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3913586139678955,
      "learning_rate": 0.0005871412938045903,
      "loss": 1.8433,
      "step": 8434
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4167378544807434,
      "learning_rate": 0.0005871382663479167,
      "loss": 1.8065,
      "step": 8435
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39729103446006775,
      "learning_rate": 0.0005871352385426995,
      "loss": 1.7957,
      "step": 8436
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3928709924221039,
      "learning_rate": 0.0005871322103889425,
      "loss": 1.8369,
      "step": 8437
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39991000294685364,
      "learning_rate": 0.0005871291818866493,
      "loss": 1.8324,
      "step": 8438
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.405857652425766,
      "learning_rate": 0.0005871261530358236,
      "loss": 1.8662,
      "step": 8439
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3943120539188385,
      "learning_rate": 0.000587123123836469,
      "loss": 1.8392,
      "step": 8440
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4061046838760376,
      "learning_rate": 0.0005871200942885892,
      "loss": 1.8138,
      "step": 8441
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40759581327438354,
      "learning_rate": 0.000587117064392188,
      "loss": 1.8503,
      "step": 8442
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4000011384487152,
      "learning_rate": 0.000587114034147269,
      "loss": 1.7708,
      "step": 8443
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3913653492927551,
      "learning_rate": 0.0005871110035538359,
      "loss": 1.8147,
      "step": 8444
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40534666180610657,
      "learning_rate": 0.0005871079726118922,
      "loss": 1.8375,
      "step": 8445
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.397185742855072,
      "learning_rate": 0.0005871049413214419,
      "loss": 1.7275,
      "step": 8446
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4020964801311493,
      "learning_rate": 0.0005871019096824883,
      "loss": 1.8465,
      "step": 8447
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39691710472106934,
      "learning_rate": 0.0005870988776950354,
      "loss": 1.8068,
      "step": 8448
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4138990640640259,
      "learning_rate": 0.0005870958453590868,
      "loss": 1.7706,
      "step": 8449
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41448649764060974,
      "learning_rate": 0.0005870928126746461,
      "loss": 1.8329,
      "step": 8450
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39895978569984436,
      "learning_rate": 0.000587089779641717,
      "loss": 1.825,
      "step": 8451
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4028748571872711,
      "learning_rate": 0.0005870867462603033,
      "loss": 1.7848,
      "step": 8452
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4128267765045166,
      "learning_rate": 0.0005870837125304084,
      "loss": 1.7869,
      "step": 8453
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41082265973091125,
      "learning_rate": 0.0005870806784520364,
      "loss": 1.8991,
      "step": 8454
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41009193658828735,
      "learning_rate": 0.0005870776440251907,
      "loss": 1.803,
      "step": 8455
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39869368076324463,
      "learning_rate": 0.000587074609249875,
      "loss": 1.7414,
      "step": 8456
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39904141426086426,
      "learning_rate": 0.000587071574126093,
      "loss": 1.7904,
      "step": 8457
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3919130861759186,
      "learning_rate": 0.0005870685386538485,
      "loss": 1.8106,
      "step": 8458
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.404156893491745,
      "learning_rate": 0.0005870655028331449,
      "loss": 1.7959,
      "step": 8459
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4072687327861786,
      "learning_rate": 0.0005870624666639862,
      "loss": 1.7908,
      "step": 8460
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4046332836151123,
      "learning_rate": 0.000587059430146376,
      "loss": 1.8331,
      "step": 8461
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40345248579978943,
      "learning_rate": 0.0005870563932803179,
      "loss": 1.8937,
      "step": 8462
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3878171443939209,
      "learning_rate": 0.0005870533560658156,
      "loss": 1.7541,
      "step": 8463
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3947880268096924,
      "learning_rate": 0.0005870503185028728,
      "loss": 1.7568,
      "step": 8464
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4096745550632477,
      "learning_rate": 0.0005870472805914933,
      "loss": 1.8208,
      "step": 8465
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40130653977394104,
      "learning_rate": 0.0005870442423316807,
      "loss": 1.8088,
      "step": 8466
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4162704646587372,
      "learning_rate": 0.0005870412037234387,
      "loss": 1.8841,
      "step": 8467
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.42653441429138184,
      "learning_rate": 0.0005870381647667709,
      "loss": 1.7378,
      "step": 8468
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.43227455019950867,
      "learning_rate": 0.000587035125461681,
      "loss": 1.8544,
      "step": 8469
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41651275753974915,
      "learning_rate": 0.0005870320858081729,
      "loss": 1.8369,
      "step": 8470
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40986865758895874,
      "learning_rate": 0.00058702904580625,
      "loss": 1.799,
      "step": 8471
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39509284496307373,
      "learning_rate": 0.0005870260054559163,
      "loss": 1.8092,
      "step": 8472
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39665544033050537,
      "learning_rate": 0.0005870229647571752,
      "loss": 1.7723,
      "step": 8473
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3964940011501312,
      "learning_rate": 0.0005870199237100305,
      "loss": 1.8132,
      "step": 8474
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3915589451789856,
      "learning_rate": 0.000587016882314486,
      "loss": 1.8389,
      "step": 8475
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4045414626598358,
      "learning_rate": 0.0005870138405705452,
      "loss": 1.8102,
      "step": 8476
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3933444321155548,
      "learning_rate": 0.0005870107984782119,
      "loss": 1.7268,
      "step": 8477
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40047624707221985,
      "learning_rate": 0.0005870077560374897,
      "loss": 1.8111,
      "step": 8478
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41668763756752014,
      "learning_rate": 0.0005870047132483826,
      "loss": 1.7861,
      "step": 8479
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3942403495311737,
      "learning_rate": 0.0005870016701108939,
      "loss": 1.7784,
      "step": 8480
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3914036154747009,
      "learning_rate": 0.0005869986266250275,
      "loss": 1.7646,
      "step": 8481
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39199671149253845,
      "learning_rate": 0.0005869955827907871,
      "loss": 1.7323,
      "step": 8482
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4170322120189667,
      "learning_rate": 0.0005869925386081762,
      "loss": 1.8061,
      "step": 8483
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41278499364852905,
      "learning_rate": 0.0005869894940771988,
      "loss": 1.8335,
      "step": 8484
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38779276609420776,
      "learning_rate": 0.0005869864491978583,
      "loss": 1.7464,
      "step": 8485
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5698879957199097,
      "learning_rate": 0.0005869834039701588,
      "loss": 1.9213,
      "step": 8486
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40990203619003296,
      "learning_rate": 0.0005869803583941034,
      "loss": 1.7575,
      "step": 8487
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39184829592704773,
      "learning_rate": 0.0005869773124696963,
      "loss": 1.815,
      "step": 8488
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39123478531837463,
      "learning_rate": 0.000586974266196941,
      "loss": 1.775,
      "step": 8489
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3947846293449402,
      "learning_rate": 0.0005869712195758413,
      "loss": 1.7946,
      "step": 8490
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3971458971500397,
      "learning_rate": 0.0005869681726064007,
      "loss": 1.8154,
      "step": 8491
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.405099481344223,
      "learning_rate": 0.0005869651252886232,
      "loss": 1.761,
      "step": 8492
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4340668022632599,
      "learning_rate": 0.000586962077622512,
      "loss": 1.8161,
      "step": 8493
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39302974939346313,
      "learning_rate": 0.0005869590296080715,
      "loss": 1.7872,
      "step": 8494
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3901621997356415,
      "learning_rate": 0.0005869559812453047,
      "loss": 1.7809,
      "step": 8495
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40053391456604004,
      "learning_rate": 0.0005869529325342158,
      "loss": 1.7834,
      "step": 8496
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4105859696865082,
      "learning_rate": 0.0005869498834748083,
      "loss": 1.7703,
      "step": 8497
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41281136870384216,
      "learning_rate": 0.0005869468340670859,
      "loss": 1.8336,
      "step": 8498
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40880680084228516,
      "learning_rate": 0.0005869437843110523,
      "loss": 1.8627,
      "step": 8499
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3882649540901184,
      "learning_rate": 0.0005869407342067113,
      "loss": 1.7531,
      "step": 8500
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4249939024448395,
      "learning_rate": 0.0005869376837540664,
      "loss": 1.7374,
      "step": 8501
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.404732882976532,
      "learning_rate": 0.0005869346329531216,
      "loss": 1.8186,
      "step": 8502
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4280339479446411,
      "learning_rate": 0.0005869315818038803,
      "loss": 1.855,
      "step": 8503
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41092631220817566,
      "learning_rate": 0.0005869285303063464,
      "loss": 1.7826,
      "step": 8504
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40335872769355774,
      "learning_rate": 0.0005869254784605234,
      "loss": 1.7938,
      "step": 8505
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4009898006916046,
      "learning_rate": 0.0005869224262664153,
      "loss": 1.8195,
      "step": 8506
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4187025725841522,
      "learning_rate": 0.0005869193737240257,
      "loss": 1.8245,
      "step": 8507
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39828306436538696,
      "learning_rate": 0.0005869163208333582,
      "loss": 1.779,
      "step": 8508
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3993177115917206,
      "learning_rate": 0.0005869132675944165,
      "loss": 1.8027,
      "step": 8509
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4202880263328552,
      "learning_rate": 0.0005869102140072044,
      "loss": 1.8314,
      "step": 8510
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4297424852848053,
      "learning_rate": 0.0005869071600717256,
      "loss": 1.7693,
      "step": 8511
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4003421366214752,
      "learning_rate": 0.0005869041057879837,
      "loss": 1.7554,
      "step": 8512
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4169199466705322,
      "learning_rate": 0.0005869010511559826,
      "loss": 1.858,
      "step": 8513
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.397779256105423,
      "learning_rate": 0.0005868979961757259,
      "loss": 1.7591,
      "step": 8514
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41481560468673706,
      "learning_rate": 0.0005868949408472171,
      "loss": 1.7437,
      "step": 8515
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39883968234062195,
      "learning_rate": 0.0005868918851704602,
      "loss": 1.8118,
      "step": 8516
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4038967192173004,
      "learning_rate": 0.0005868888291454589,
      "loss": 1.699,
      "step": 8517
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41797542572021484,
      "learning_rate": 0.0005868857727722169,
      "loss": 1.8122,
      "step": 8518
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4017297625541687,
      "learning_rate": 0.0005868827160507377,
      "loss": 1.797,
      "step": 8519
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40081843733787537,
      "learning_rate": 0.0005868796589810252,
      "loss": 1.8573,
      "step": 8520
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4132721424102783,
      "learning_rate": 0.0005868766015630832,
      "loss": 1.8384,
      "step": 8521
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39080139994621277,
      "learning_rate": 0.0005868735437969151,
      "loss": 1.8619,
      "step": 8522
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4017236530780792,
      "learning_rate": 0.0005868704856825249,
      "loss": 1.7598,
      "step": 8523
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40084171295166016,
      "learning_rate": 0.000586867427219916,
      "loss": 1.7628,
      "step": 8524
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4094037711620331,
      "learning_rate": 0.0005868643684090925,
      "loss": 1.7722,
      "step": 8525
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4220803678035736,
      "learning_rate": 0.0005868613092500579,
      "loss": 1.8456,
      "step": 8526
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39706477522850037,
      "learning_rate": 0.0005868582497428158,
      "loss": 1.8514,
      "step": 8527
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.44126230478286743,
      "learning_rate": 0.0005868551898873702,
      "loss": 1.9117,
      "step": 8528
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4071207642555237,
      "learning_rate": 0.0005868521296837247,
      "loss": 1.7564,
      "step": 8529
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4198658764362335,
      "learning_rate": 0.0005868490691318829,
      "loss": 1.8051,
      "step": 8530
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3874966502189636,
      "learning_rate": 0.0005868460082318486,
      "loss": 1.8234,
      "step": 8531
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40235841274261475,
      "learning_rate": 0.0005868429469836255,
      "loss": 1.7618,
      "step": 8532
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40856578946113586,
      "learning_rate": 0.0005868398853872173,
      "loss": 1.8373,
      "step": 8533
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4171195328235626,
      "learning_rate": 0.0005868368234426278,
      "loss": 1.7641,
      "step": 8534
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40823012590408325,
      "learning_rate": 0.0005868337611498606,
      "loss": 1.7764,
      "step": 8535
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40731489658355713,
      "learning_rate": 0.0005868306985089195,
      "loss": 1.8416,
      "step": 8536
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41117939352989197,
      "learning_rate": 0.0005868276355198083,
      "loss": 1.7745,
      "step": 8537
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41910502314567566,
      "learning_rate": 0.0005868245721825305,
      "loss": 1.75,
      "step": 8538
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4030076861381531,
      "learning_rate": 0.00058682150849709,
      "loss": 1.7944,
      "step": 8539
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4452091455459595,
      "learning_rate": 0.0005868184444634903,
      "loss": 1.8247,
      "step": 8540
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3907059133052826,
      "learning_rate": 0.0005868153800817355,
      "loss": 1.7999,
      "step": 8541
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40267112851142883,
      "learning_rate": 0.0005868123153518289,
      "loss": 1.8238,
      "step": 8542
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41000205278396606,
      "learning_rate": 0.0005868092502737745,
      "loss": 1.8508,
      "step": 8543
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41251417994499207,
      "learning_rate": 0.0005868061848475759,
      "loss": 1.7757,
      "step": 8544
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4127666652202606,
      "learning_rate": 0.0005868031190732368,
      "loss": 1.8216,
      "step": 8545
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4026610851287842,
      "learning_rate": 0.000586800052950761,
      "loss": 1.7363,
      "step": 8546
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.43664121627807617,
      "learning_rate": 0.0005867969864801522,
      "loss": 1.7907,
      "step": 8547
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40686261653900146,
      "learning_rate": 0.0005867939196614141,
      "loss": 1.7971,
      "step": 8548
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3948456346988678,
      "learning_rate": 0.0005867908524945505,
      "loss": 1.8049,
      "step": 8549
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39925768971443176,
      "learning_rate": 0.000586787784979565,
      "loss": 1.7912,
      "step": 8550
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4298885464668274,
      "learning_rate": 0.0005867847171164615,
      "loss": 1.781,
      "step": 8551
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3963455855846405,
      "learning_rate": 0.0005867816489052435,
      "loss": 1.7865,
      "step": 8552
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39899942278862,
      "learning_rate": 0.0005867785803459149,
      "loss": 1.8113,
      "step": 8553
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40921419858932495,
      "learning_rate": 0.0005867755114384793,
      "loss": 1.8268,
      "step": 8554
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.43730998039245605,
      "learning_rate": 0.0005867724421829406,
      "loss": 1.7552,
      "step": 8555
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.403677374124527,
      "learning_rate": 0.0005867693725793022,
      "loss": 1.7816,
      "step": 8556
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.426617294549942,
      "learning_rate": 0.0005867663026275681,
      "loss": 1.7324,
      "step": 8557
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.42764487862586975,
      "learning_rate": 0.000586763232327742,
      "loss": 1.8152,
      "step": 8558
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40022099018096924,
      "learning_rate": 0.0005867601616798277,
      "loss": 1.7368,
      "step": 8559
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39472728967666626,
      "learning_rate": 0.0005867570906838288,
      "loss": 1.7846,
      "step": 8560
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4135632812976837,
      "learning_rate": 0.0005867540193397489,
      "loss": 1.862,
      "step": 8561
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39267605543136597,
      "learning_rate": 0.0005867509476475918,
      "loss": 1.8003,
      "step": 8562
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.40852636098861694,
      "learning_rate": 0.0005867478756073616,
      "loss": 1.7968,
      "step": 8563
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3998974859714508,
      "learning_rate": 0.0005867448032190615,
      "loss": 1.8042,
      "step": 8564
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4013808071613312,
      "learning_rate": 0.0005867417304826955,
      "loss": 1.8439,
      "step": 8565
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3921964168548584,
      "learning_rate": 0.0005867386573982674,
      "loss": 1.8702,
      "step": 8566
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3988618552684784,
      "learning_rate": 0.0005867355839657807,
      "loss": 1.8238,
      "step": 8567
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4030379354953766,
      "learning_rate": 0.0005867325101852392,
      "loss": 1.8853,
      "step": 8568
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4051629304885864,
      "learning_rate": 0.0005867294360566468,
      "loss": 1.8385,
      "step": 8569
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.399972528219223,
      "learning_rate": 0.000586726361580007,
      "loss": 1.8408,
      "step": 8570
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4122077226638794,
      "learning_rate": 0.0005867232867553237,
      "loss": 1.8795,
      "step": 8571
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4101985991001129,
      "learning_rate": 0.0005867202115826006,
      "loss": 1.7783,
      "step": 8572
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4066027104854584,
      "learning_rate": 0.0005867171360618414,
      "loss": 1.7487,
      "step": 8573
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41745057702064514,
      "learning_rate": 0.0005867140601930499,
      "loss": 1.8819,
      "step": 8574
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39706259965896606,
      "learning_rate": 0.0005867109839762298,
      "loss": 1.7851,
      "step": 8575
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3957889676094055,
      "learning_rate": 0.0005867079074113846,
      "loss": 1.7363,
      "step": 8576
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39567360281944275,
      "learning_rate": 0.0005867048304985184,
      "loss": 1.7314,
      "step": 8577
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41187289357185364,
      "learning_rate": 0.0005867017532376347,
      "loss": 1.759,
      "step": 8578
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4023938477039337,
      "learning_rate": 0.0005866986756287374,
      "loss": 1.851,
      "step": 8579
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4141281843185425,
      "learning_rate": 0.00058669559767183,
      "loss": 1.7956,
      "step": 8580
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42305848002433777,
      "learning_rate": 0.0005866925193669166,
      "loss": 1.8348,
      "step": 8581
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39207923412323,
      "learning_rate": 0.0005866894407140006,
      "loss": 1.7371,
      "step": 8582
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4100862145423889,
      "learning_rate": 0.0005866863617130859,
      "loss": 1.7624,
      "step": 8583
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4032335877418518,
      "learning_rate": 0.0005866832823641763,
      "loss": 1.7938,
      "step": 8584
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3953728675842285,
      "learning_rate": 0.0005866802026672752,
      "loss": 1.8307,
      "step": 8585
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3885541558265686,
      "learning_rate": 0.0005866771226223867,
      "loss": 1.6897,
      "step": 8586
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39664989709854126,
      "learning_rate": 0.0005866740422295145,
      "loss": 1.699,
      "step": 8587
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4118787348270416,
      "learning_rate": 0.0005866709614886622,
      "loss": 1.8053,
      "step": 8588
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41300928592681885,
      "learning_rate": 0.0005866678803998335,
      "loss": 1.8297,
      "step": 8589
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42231497168540955,
      "learning_rate": 0.0005866647989630322,
      "loss": 1.8694,
      "step": 8590
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4167826175689697,
      "learning_rate": 0.0005866617171782622,
      "loss": 1.765,
      "step": 8591
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40902113914489746,
      "learning_rate": 0.0005866586350455271,
      "loss": 1.7653,
      "step": 8592
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4060509502887726,
      "learning_rate": 0.0005866555525648306,
      "loss": 1.8681,
      "step": 8593
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4266752004623413,
      "learning_rate": 0.0005866524697361765,
      "loss": 1.8233,
      "step": 8594
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4211811125278473,
      "learning_rate": 0.0005866493865595686,
      "loss": 1.8105,
      "step": 8595
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4091033935546875,
      "learning_rate": 0.0005866463030350105,
      "loss": 1.7735,
      "step": 8596
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4135589897632599,
      "learning_rate": 0.0005866432191625062,
      "loss": 1.7925,
      "step": 8597
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4366767704486847,
      "learning_rate": 0.0005866401349420591,
      "loss": 1.8582,
      "step": 8598
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4051167666912079,
      "learning_rate": 0.000586637050373673,
      "loss": 1.8504,
      "step": 8599
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4091777801513672,
      "learning_rate": 0.000586633965457352,
      "loss": 1.7528,
      "step": 8600
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3938519060611725,
      "learning_rate": 0.0005866308801930995,
      "loss": 1.8056,
      "step": 8601
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3871442973613739,
      "learning_rate": 0.0005866277945809193,
      "loss": 1.772,
      "step": 8602
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3866952955722809,
      "learning_rate": 0.0005866247086208152,
      "loss": 1.7809,
      "step": 8603
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38618984818458557,
      "learning_rate": 0.000586621622312791,
      "loss": 1.769,
      "step": 8604
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38024061918258667,
      "learning_rate": 0.0005866185356568504,
      "loss": 1.7396,
      "step": 8605
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4103972613811493,
      "learning_rate": 0.000586615448652997,
      "loss": 1.8486,
      "step": 8606
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3906863033771515,
      "learning_rate": 0.0005866123613012347,
      "loss": 1.827,
      "step": 8607
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3932725191116333,
      "learning_rate": 0.0005866092736015674,
      "loss": 1.829,
      "step": 8608
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40542739629745483,
      "learning_rate": 0.0005866061855539985,
      "loss": 1.7687,
      "step": 8609
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3949679732322693,
      "learning_rate": 0.000586603097158532,
      "loss": 1.8043,
      "step": 8610
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39624032378196716,
      "learning_rate": 0.0005866000084151715,
      "loss": 1.7837,
      "step": 8611
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3969709575176239,
      "learning_rate": 0.0005865969193239208,
      "loss": 1.7906,
      "step": 8612
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40341708064079285,
      "learning_rate": 0.0005865938298847838,
      "loss": 1.7205,
      "step": 8613
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.409723162651062,
      "learning_rate": 0.000586590740097764,
      "loss": 1.709,
      "step": 8614
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41249433159828186,
      "learning_rate": 0.0005865876499628654,
      "loss": 1.8719,
      "step": 8615
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40819454193115234,
      "learning_rate": 0.0005865845594800914,
      "loss": 1.782,
      "step": 8616
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39439430832862854,
      "learning_rate": 0.0005865814686494462,
      "loss": 1.8084,
      "step": 8617
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3907912075519562,
      "learning_rate": 0.0005865783774709332,
      "loss": 1.8665,
      "step": 8618
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41007035970687866,
      "learning_rate": 0.0005865752859445563,
      "loss": 1.7522,
      "step": 8619
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41379284858703613,
      "learning_rate": 0.0005865721940703192,
      "loss": 1.7597,
      "step": 8620
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.396428644657135,
      "learning_rate": 0.0005865691018482257,
      "loss": 1.8448,
      "step": 8621
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3991968631744385,
      "learning_rate": 0.0005865660092782796,
      "loss": 1.7905,
      "step": 8622
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3975398540496826,
      "learning_rate": 0.0005865629163604846,
      "loss": 1.7942,
      "step": 8623
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38779017329216003,
      "learning_rate": 0.0005865598230948442,
      "loss": 1.7944,
      "step": 8624
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3964911699295044,
      "learning_rate": 0.0005865567294813627,
      "loss": 1.8009,
      "step": 8625
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39979711174964905,
      "learning_rate": 0.0005865536355200433,
      "loss": 1.7619,
      "step": 8626
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4097909927368164,
      "learning_rate": 0.0005865505412108901,
      "loss": 1.8588,
      "step": 8627
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40479615330696106,
      "learning_rate": 0.0005865474465539069,
      "loss": 1.7873,
      "step": 8628
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40485867857933044,
      "learning_rate": 0.0005865443515490972,
      "loss": 1.7867,
      "step": 8629
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39972761273384094,
      "learning_rate": 0.0005865412561964649,
      "loss": 1.7785,
      "step": 8630
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4164411723613739,
      "learning_rate": 0.0005865381604960138,
      "loss": 1.8179,
      "step": 8631
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4182795286178589,
      "learning_rate": 0.0005865350644477475,
      "loss": 1.772,
      "step": 8632
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3938054144382477,
      "learning_rate": 0.0005865319680516698,
      "loss": 1.7373,
      "step": 8633
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3804517090320587,
      "learning_rate": 0.0005865288713077846,
      "loss": 1.77,
      "step": 8634
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3951277732849121,
      "learning_rate": 0.0005865257742160956,
      "loss": 1.7543,
      "step": 8635
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38888800144195557,
      "learning_rate": 0.0005865226767766065,
      "loss": 1.7551,
      "step": 8636
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4090620279312134,
      "learning_rate": 0.000586519578989321,
      "loss": 1.7781,
      "step": 8637
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38893797993659973,
      "learning_rate": 0.0005865164808542431,
      "loss": 1.8023,
      "step": 8638
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41182756423950195,
      "learning_rate": 0.0005865133823713762,
      "loss": 1.8293,
      "step": 8639
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3956276476383209,
      "learning_rate": 0.0005865102835407244,
      "loss": 1.7798,
      "step": 8640
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42281049489974976,
      "learning_rate": 0.0005865071843622913,
      "loss": 1.8047,
      "step": 8641
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3935425579547882,
      "learning_rate": 0.0005865040848360807,
      "loss": 1.8222,
      "step": 8642
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4090476930141449,
      "learning_rate": 0.0005865009849620964,
      "loss": 1.8488,
      "step": 8643
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40666860342025757,
      "learning_rate": 0.0005864978847403421,
      "loss": 1.7686,
      "step": 8644
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40793028473854065,
      "learning_rate": 0.0005864947841708215,
      "loss": 1.8271,
      "step": 8645
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.392264187335968,
      "learning_rate": 0.0005864916832535386,
      "loss": 1.7654,
      "step": 8646
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4159805476665497,
      "learning_rate": 0.0005864885819884969,
      "loss": 1.7805,
      "step": 8647
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.43081170320510864,
      "learning_rate": 0.0005864854803757002,
      "loss": 1.8575,
      "step": 8648
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3874543309211731,
      "learning_rate": 0.0005864823784151526,
      "loss": 1.7717,
      "step": 8649
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40535447001457214,
      "learning_rate": 0.0005864792761068573,
      "loss": 1.7463,
      "step": 8650
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4134102761745453,
      "learning_rate": 0.0005864761734508185,
      "loss": 1.7765,
      "step": 8651
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4087018668651581,
      "learning_rate": 0.0005864730704470399,
      "loss": 1.7586,
      "step": 8652
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40571844577789307,
      "learning_rate": 0.0005864699670955251,
      "loss": 1.7208,
      "step": 8653
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.396797239780426,
      "learning_rate": 0.0005864668633962781,
      "loss": 1.8241,
      "step": 8654
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39535632729530334,
      "learning_rate": 0.0005864637593493025,
      "loss": 1.918,
      "step": 8655
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4082755148410797,
      "learning_rate": 0.000586460654954602,
      "loss": 1.8087,
      "step": 8656
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3955440819263458,
      "learning_rate": 0.0005864575502121806,
      "loss": 1.8546,
      "step": 8657
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39639875292778015,
      "learning_rate": 0.0005864544451220418,
      "loss": 1.7608,
      "step": 8658
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3995055556297302,
      "learning_rate": 0.0005864513396841896,
      "loss": 1.7844,
      "step": 8659
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4009862244129181,
      "learning_rate": 0.0005864482338986277,
      "loss": 1.7667,
      "step": 8660
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3948489725589752,
      "learning_rate": 0.0005864451277653598,
      "loss": 1.7474,
      "step": 8661
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4165697395801544,
      "learning_rate": 0.0005864420212843897,
      "loss": 1.7927,
      "step": 8662
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42847442626953125,
      "learning_rate": 0.0005864389144557212,
      "loss": 1.8369,
      "step": 8663
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.390673965215683,
      "learning_rate": 0.0005864358072793581,
      "loss": 1.8046,
      "step": 8664
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4081903398036957,
      "learning_rate": 0.0005864326997553042,
      "loss": 1.8229,
      "step": 8665
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4315156042575836,
      "learning_rate": 0.0005864295918835631,
      "loss": 1.8035,
      "step": 8666
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3951507806777954,
      "learning_rate": 0.0005864264836641387,
      "loss": 1.7414,
      "step": 8667
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4028722941875458,
      "learning_rate": 0.0005864233750970348,
      "loss": 1.7876,
      "step": 8668
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3957076966762543,
      "learning_rate": 0.000586420266182255,
      "loss": 1.7962,
      "step": 8669
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4081076979637146,
      "learning_rate": 0.0005864171569198033,
      "loss": 1.8019,
      "step": 8670
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40052732825279236,
      "learning_rate": 0.0005864140473096834,
      "loss": 1.7634,
      "step": 8671
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39623796939849854,
      "learning_rate": 0.000586410937351899,
      "loss": 1.7826,
      "step": 8672
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.519758939743042,
      "learning_rate": 0.0005864078270464538,
      "loss": 1.8452,
      "step": 8673
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40141066908836365,
      "learning_rate": 0.0005864047163933519,
      "loss": 1.8115,
      "step": 8674
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4080067276954651,
      "learning_rate": 0.0005864016053925968,
      "loss": 1.8034,
      "step": 8675
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4080716371536255,
      "learning_rate": 0.0005863984940441923,
      "loss": 1.806,
      "step": 8676
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41401511430740356,
      "learning_rate": 0.0005863953823481424,
      "loss": 1.7103,
      "step": 8677
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4081377387046814,
      "learning_rate": 0.0005863922703044505,
      "loss": 1.8513,
      "step": 8678
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39106985926628113,
      "learning_rate": 0.0005863891579131207,
      "loss": 1.7641,
      "step": 8679
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4190278649330139,
      "learning_rate": 0.0005863860451741566,
      "loss": 1.7915,
      "step": 8680
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41684576869010925,
      "learning_rate": 0.0005863829320875621,
      "loss": 1.8672,
      "step": 8681
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3964049816131592,
      "learning_rate": 0.0005863798186533408,
      "loss": 1.7959,
      "step": 8682
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39808744192123413,
      "learning_rate": 0.0005863767048714968,
      "loss": 1.8357,
      "step": 8683
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3952968418598175,
      "learning_rate": 0.0005863735907420335,
      "loss": 1.7934,
      "step": 8684
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4081791937351227,
      "learning_rate": 0.0005863704762649549,
      "loss": 1.8317,
      "step": 8685
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4110344648361206,
      "learning_rate": 0.0005863673614402647,
      "loss": 1.8091,
      "step": 8686
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41186997294425964,
      "learning_rate": 0.0005863642462679668,
      "loss": 1.7833,
      "step": 8687
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41236308217048645,
      "learning_rate": 0.0005863611307480648,
      "loss": 1.7573,
      "step": 8688
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3985811471939087,
      "learning_rate": 0.0005863580148805626,
      "loss": 1.7689,
      "step": 8689
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39351972937583923,
      "learning_rate": 0.0005863548986654641,
      "loss": 1.7303,
      "step": 8690
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4113575220108032,
      "learning_rate": 0.0005863517821027729,
      "loss": 1.768,
      "step": 8691
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4962577819824219,
      "learning_rate": 0.0005863486651924928,
      "loss": 1.9044,
      "step": 8692
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40855973958969116,
      "learning_rate": 0.0005863455479346275,
      "loss": 1.7894,
      "step": 8693
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4201453626155853,
      "learning_rate": 0.0005863424303291809,
      "loss": 1.8365,
      "step": 8694
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4197678565979004,
      "learning_rate": 0.0005863393123761569,
      "loss": 1.795,
      "step": 8695
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3984246850013733,
      "learning_rate": 0.0005863361940755591,
      "loss": 1.8465,
      "step": 8696
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3966900706291199,
      "learning_rate": 0.0005863330754273915,
      "loss": 1.8067,
      "step": 8697
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41019028425216675,
      "learning_rate": 0.0005863299564316575,
      "loss": 1.8507,
      "step": 8698
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39763763546943665,
      "learning_rate": 0.0005863268370883613,
      "loss": 1.7673,
      "step": 8699
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4043840765953064,
      "learning_rate": 0.0005863237173975064,
      "loss": 1.7709,
      "step": 8700
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40723463892936707,
      "learning_rate": 0.0005863205973590967,
      "loss": 1.7857,
      "step": 8701
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4184938073158264,
      "learning_rate": 0.000586317476973136,
      "loss": 1.7894,
      "step": 8702
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4103832542896271,
      "learning_rate": 0.0005863143562396282,
      "loss": 1.852,
      "step": 8703
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3982695937156677,
      "learning_rate": 0.0005863112351585768,
      "loss": 1.7752,
      "step": 8704
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3968551456928253,
      "learning_rate": 0.0005863081137299858,
      "loss": 1.8002,
      "step": 8705
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3993387818336487,
      "learning_rate": 0.000586304991953859,
      "loss": 1.7789,
      "step": 8706
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4209502637386322,
      "learning_rate": 0.0005863018698302,
      "loss": 1.7646,
      "step": 8707
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3947104513645172,
      "learning_rate": 0.0005862987473590127,
      "loss": 1.8541,
      "step": 8708
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3937300443649292,
      "learning_rate": 0.000586295624540301,
      "loss": 1.782,
      "step": 8709
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4015710651874542,
      "learning_rate": 0.0005862925013740686,
      "loss": 1.739,
      "step": 8710
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4119734764099121,
      "learning_rate": 0.0005862893778603192,
      "loss": 1.8416,
      "step": 8711
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40561559796333313,
      "learning_rate": 0.0005862862539990568,
      "loss": 1.7779,
      "step": 8712
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4036101996898651,
      "learning_rate": 0.000586283129790285,
      "loss": 1.7901,
      "step": 8713
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38348984718322754,
      "learning_rate": 0.0005862800052340077,
      "loss": 1.6861,
      "step": 8714
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.395891398191452,
      "learning_rate": 0.0005862768803302286,
      "loss": 1.7539,
      "step": 8715
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.447573721408844,
      "learning_rate": 0.0005862737550789516,
      "loss": 1.8639,
      "step": 8716
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4024212062358856,
      "learning_rate": 0.0005862706294801804,
      "loss": 1.7557,
      "step": 8717
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3972614109516144,
      "learning_rate": 0.0005862675035339189,
      "loss": 1.7781,
      "step": 8718
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4030163586139679,
      "learning_rate": 0.0005862643772401707,
      "loss": 1.8135,
      "step": 8719
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4046999514102936,
      "learning_rate": 0.0005862612505989399,
      "loss": 1.8686,
      "step": 8720
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38690027594566345,
      "learning_rate": 0.00058625812361023,
      "loss": 1.7667,
      "step": 8721
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4089484214782715,
      "learning_rate": 0.0005862549962740448,
      "loss": 1.8268,
      "step": 8722
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42834562063217163,
      "learning_rate": 0.0005862518685903885,
      "loss": 1.792,
      "step": 8723
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4072329103946686,
      "learning_rate": 0.0005862487405592643,
      "loss": 1.8262,
      "step": 8724
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4133960008621216,
      "learning_rate": 0.0005862456121806766,
      "loss": 1.809,
      "step": 8725
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39075562357902527,
      "learning_rate": 0.0005862424834546287,
      "loss": 1.758,
      "step": 8726
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4100339710712433,
      "learning_rate": 0.0005862393543811247,
      "loss": 1.8303,
      "step": 8727
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4192550778388977,
      "learning_rate": 0.0005862362249601683,
      "loss": 1.7979,
      "step": 8728
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39648109674453735,
      "learning_rate": 0.0005862330951917632,
      "loss": 1.8091,
      "step": 8729
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4019051790237427,
      "learning_rate": 0.0005862299650759133,
      "loss": 1.7828,
      "step": 8730
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4219619929790497,
      "learning_rate": 0.0005862268346126226,
      "loss": 1.8323,
      "step": 8731
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4077993631362915,
      "learning_rate": 0.0005862237038018946,
      "loss": 1.8113,
      "step": 8732
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39466553926467896,
      "learning_rate": 0.0005862205726437331,
      "loss": 1.8386,
      "step": 8733
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41836312413215637,
      "learning_rate": 0.000586217441138142,
      "loss": 1.7968,
      "step": 8734
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3904277980327606,
      "learning_rate": 0.0005862143092851252,
      "loss": 1.7309,
      "step": 8735
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39910024404525757,
      "learning_rate": 0.0005862111770846863,
      "loss": 1.7992,
      "step": 8736
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39093321561813354,
      "learning_rate": 0.0005862080445368293,
      "loss": 1.7426,
      "step": 8737
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4041300117969513,
      "learning_rate": 0.0005862049116415579,
      "loss": 1.8019,
      "step": 8738
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39855334162712097,
      "learning_rate": 0.0005862017783988758,
      "loss": 1.7698,
      "step": 8739
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39688539505004883,
      "learning_rate": 0.000586198644808787,
      "loss": 1.8482,
      "step": 8740
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4157695174217224,
      "learning_rate": 0.0005861955108712952,
      "loss": 1.739,
      "step": 8741
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42182594537734985,
      "learning_rate": 0.0005861923765864041,
      "loss": 1.7598,
      "step": 8742
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4040874242782593,
      "learning_rate": 0.0005861892419541179,
      "loss": 1.8351,
      "step": 8743
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41696783900260925,
      "learning_rate": 0.0005861861069744399,
      "loss": 1.787,
      "step": 8744
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.399577796459198,
      "learning_rate": 0.0005861829716473742,
      "loss": 1.7483,
      "step": 8745
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40954411029815674,
      "learning_rate": 0.0005861798359729245,
      "loss": 1.7749,
      "step": 8746
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3996117115020752,
      "learning_rate": 0.0005861766999510947,
      "loss": 1.769,
      "step": 8747
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3924342095851898,
      "learning_rate": 0.0005861735635818886,
      "loss": 1.805,
      "step": 8748
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3862797021865845,
      "learning_rate": 0.0005861704268653098,
      "loss": 1.755,
      "step": 8749
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39722639322280884,
      "learning_rate": 0.0005861672898013623,
      "loss": 1.7939,
      "step": 8750
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40384072065353394,
      "learning_rate": 0.00058616415239005,
      "loss": 1.7794,
      "step": 8751
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3919425904750824,
      "learning_rate": 0.0005861610146313765,
      "loss": 1.7719,
      "step": 8752
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39081984758377075,
      "learning_rate": 0.0005861578765253457,
      "loss": 1.7389,
      "step": 8753
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4069265127182007,
      "learning_rate": 0.0005861547380719615,
      "loss": 1.8144,
      "step": 8754
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39823418855667114,
      "learning_rate": 0.0005861515992712275,
      "loss": 1.8502,
      "step": 8755
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39341774582862854,
      "learning_rate": 0.0005861484601231477,
      "loss": 1.8624,
      "step": 8756
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.409219354391098,
      "learning_rate": 0.0005861453206277257,
      "loss": 1.7883,
      "step": 8757
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40340420603752136,
      "learning_rate": 0.0005861421807849654,
      "loss": 1.8015,
      "step": 8758
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3820720314979553,
      "learning_rate": 0.0005861390405948708,
      "loss": 1.8052,
      "step": 8759
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3970821797847748,
      "learning_rate": 0.0005861359000574456,
      "loss": 1.8226,
      "step": 8760
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3994053602218628,
      "learning_rate": 0.0005861327591726935,
      "loss": 1.8232,
      "step": 8761
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3934054970741272,
      "learning_rate": 0.0005861296179406184,
      "loss": 1.7818,
      "step": 8762
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4059978723526001,
      "learning_rate": 0.0005861264763612241,
      "loss": 1.8228,
      "step": 8763
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3987578749656677,
      "learning_rate": 0.0005861233344345144,
      "loss": 1.786,
      "step": 8764
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4033285081386566,
      "learning_rate": 0.0005861201921604932,
      "loss": 1.7798,
      "step": 8765
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4922267496585846,
      "learning_rate": 0.0005861170495391642,
      "loss": 1.8095,
      "step": 8766
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39294666051864624,
      "learning_rate": 0.0005861139065705313,
      "loss": 1.753,
      "step": 8767
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3869551420211792,
      "learning_rate": 0.0005861107632545981,
      "loss": 1.6988,
      "step": 8768
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3996964693069458,
      "learning_rate": 0.0005861076195913688,
      "loss": 1.8967,
      "step": 8769
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39640992879867554,
      "learning_rate": 0.0005861044755808469,
      "loss": 1.7648,
      "step": 8770
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40144839882850647,
      "learning_rate": 0.0005861013312230363,
      "loss": 1.8395,
      "step": 8771
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42164430022239685,
      "learning_rate": 0.0005860981865179409,
      "loss": 1.8304,
      "step": 8772
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41117599606513977,
      "learning_rate": 0.0005860950414655645,
      "loss": 1.8193,
      "step": 8773
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40212225914001465,
      "learning_rate": 0.0005860918960659108,
      "loss": 1.8156,
      "step": 8774
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40326815843582153,
      "learning_rate": 0.0005860887503189837,
      "loss": 1.8893,
      "step": 8775
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.438689649105072,
      "learning_rate": 0.000586085604224787,
      "loss": 1.7845,
      "step": 8776
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.398463636636734,
      "learning_rate": 0.0005860824577833246,
      "loss": 1.8384,
      "step": 8777
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40956997871398926,
      "learning_rate": 0.0005860793109946002,
      "loss": 1.8272,
      "step": 8778
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40472573041915894,
      "learning_rate": 0.0005860761638586176,
      "loss": 1.8143,
      "step": 8779
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42875170707702637,
      "learning_rate": 0.0005860730163753808,
      "loss": 1.8084,
      "step": 8780
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41462576389312744,
      "learning_rate": 0.0005860698685448934,
      "loss": 1.8707,
      "step": 8781
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.400761216878891,
      "learning_rate": 0.0005860667203671595,
      "loss": 1.7529,
      "step": 8782
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4078204333782196,
      "learning_rate": 0.0005860635718421826,
      "loss": 1.752,
      "step": 8783
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.47072362899780273,
      "learning_rate": 0.0005860604229699667,
      "loss": 1.8261,
      "step": 8784
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4058089554309845,
      "learning_rate": 0.0005860572737505156,
      "loss": 1.8177,
      "step": 8785
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40578365325927734,
      "learning_rate": 0.0005860541241838332,
      "loss": 1.7587,
      "step": 8786
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5045615434646606,
      "learning_rate": 0.000586050974269923,
      "loss": 1.8906,
      "step": 8787
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4039393663406372,
      "learning_rate": 0.0005860478240087894,
      "loss": 1.7469,
      "step": 8788
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3949042856693268,
      "learning_rate": 0.0005860446734004358,
      "loss": 1.7295,
      "step": 8789
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39449796080589294,
      "learning_rate": 0.0005860415224448659,
      "loss": 1.7923,
      "step": 8790
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4102383255958557,
      "learning_rate": 0.0005860383711420839,
      "loss": 1.7432,
      "step": 8791
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3904346823692322,
      "learning_rate": 0.0005860352194920934,
      "loss": 1.8086,
      "step": 8792
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4069667458534241,
      "learning_rate": 0.0005860320674948983,
      "loss": 1.7764,
      "step": 8793
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4025626480579376,
      "learning_rate": 0.0005860289151505025,
      "loss": 1.8674,
      "step": 8794
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4046490490436554,
      "learning_rate": 0.0005860257624589097,
      "loss": 1.82,
      "step": 8795
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40015295147895813,
      "learning_rate": 0.0005860226094201237,
      "loss": 1.8105,
      "step": 8796
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40124961733818054,
      "learning_rate": 0.0005860194560341485,
      "loss": 1.8013,
      "step": 8797
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39561277627944946,
      "learning_rate": 0.0005860163023009878,
      "loss": 1.8146,
      "step": 8798
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3952423334121704,
      "learning_rate": 0.0005860131482206454,
      "loss": 1.823,
      "step": 8799
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3932637870311737,
      "learning_rate": 0.0005860099937931252,
      "loss": 1.7249,
      "step": 8800
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40947097539901733,
      "learning_rate": 0.000586006839018431,
      "loss": 1.8153,
      "step": 8801
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.397198349237442,
      "learning_rate": 0.0005860036838965666,
      "loss": 1.8183,
      "step": 8802
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41803818941116333,
      "learning_rate": 0.000586000528427536,
      "loss": 1.7699,
      "step": 8803
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40024542808532715,
      "learning_rate": 0.0005859973726113428,
      "loss": 1.7589,
      "step": 8804
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3960860073566437,
      "learning_rate": 0.000585994216447991,
      "loss": 1.7955,
      "step": 8805
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3926904499530792,
      "learning_rate": 0.0005859910599374842,
      "loss": 1.6974,
      "step": 8806
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4210723340511322,
      "learning_rate": 0.0005859879030798266,
      "loss": 1.8014,
      "step": 8807
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40851786732673645,
      "learning_rate": 0.0005859847458750217,
      "loss": 1.7988,
      "step": 8808
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4050019383430481,
      "learning_rate": 0.0005859815883230735,
      "loss": 1.7509,
      "step": 8809
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4067469835281372,
      "learning_rate": 0.0005859784304239858,
      "loss": 1.8438,
      "step": 8810
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.387746125459671,
      "learning_rate": 0.0005859752721777623,
      "loss": 1.7812,
      "step": 8811
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4004778265953064,
      "learning_rate": 0.0005859721135844071,
      "loss": 1.8291,
      "step": 8812
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4355755150318146,
      "learning_rate": 0.0005859689546439239,
      "loss": 1.8599,
      "step": 8813
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40318563580513,
      "learning_rate": 0.0005859657953563163,
      "loss": 1.716,
      "step": 8814
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3861813247203827,
      "learning_rate": 0.0005859626357215886,
      "loss": 1.7234,
      "step": 8815
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39729443192481995,
      "learning_rate": 0.0005859594757397443,
      "loss": 1.8072,
      "step": 8816
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4077136814594269,
      "learning_rate": 0.0005859563154107873,
      "loss": 1.8078,
      "step": 8817
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38954058289527893,
      "learning_rate": 0.0005859531547347215,
      "loss": 1.8065,
      "step": 8818
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4130687117576599,
      "learning_rate": 0.0005859499937115508,
      "loss": 1.7962,
      "step": 8819
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39376986026763916,
      "learning_rate": 0.0005859468323412789,
      "loss": 1.8186,
      "step": 8820
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39745229482650757,
      "learning_rate": 0.0005859436706239096,
      "loss": 1.8025,
      "step": 8821
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39680612087249756,
      "learning_rate": 0.0005859405085594469,
      "loss": 1.7914,
      "step": 8822
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40792545676231384,
      "learning_rate": 0.0005859373461478944,
      "loss": 1.8445,
      "step": 8823
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4033393859863281,
      "learning_rate": 0.0005859341833892562,
      "loss": 1.7581,
      "step": 8824
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.395122230052948,
      "learning_rate": 0.0005859310202835361,
      "loss": 1.803,
      "step": 8825
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4005495011806488,
      "learning_rate": 0.0005859278568307377,
      "loss": 1.7074,
      "step": 8826
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4083241820335388,
      "learning_rate": 0.0005859246930308653,
      "loss": 1.7635,
      "step": 8827
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40231579542160034,
      "learning_rate": 0.0005859215288839222,
      "loss": 1.8369,
      "step": 8828
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40830090641975403,
      "learning_rate": 0.0005859183643899125,
      "loss": 1.7755,
      "step": 8829
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4167431592941284,
      "learning_rate": 0.0005859151995488401,
      "loss": 1.8087,
      "step": 8830
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4024852514266968,
      "learning_rate": 0.0005859120343607088,
      "loss": 1.7692,
      "step": 8831
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40131738781929016,
      "learning_rate": 0.0005859088688255224,
      "loss": 1.861,
      "step": 8832
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40215909481048584,
      "learning_rate": 0.0005859057029432847,
      "loss": 1.8435,
      "step": 8833
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.388301819562912,
      "learning_rate": 0.0005859025367139996,
      "loss": 1.7613,
      "step": 8834
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4075726568698883,
      "learning_rate": 0.000585899370137671,
      "loss": 1.8113,
      "step": 8835
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3977207541465759,
      "learning_rate": 0.0005858962032143027,
      "loss": 1.835,
      "step": 8836
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41082313656806946,
      "learning_rate": 0.0005858930359438986,
      "loss": 1.8465,
      "step": 8837
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40224888920783997,
      "learning_rate": 0.0005858898683264624,
      "loss": 1.7569,
      "step": 8838
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3994148373603821,
      "learning_rate": 0.000585886700361998,
      "loss": 1.7365,
      "step": 8839
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42332541942596436,
      "learning_rate": 0.0005858835320505093,
      "loss": 1.8342,
      "step": 8840
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39488551020622253,
      "learning_rate": 0.0005858803633920001,
      "loss": 1.7353,
      "step": 8841
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3886258602142334,
      "learning_rate": 0.0005858771943864743,
      "loss": 1.7138,
      "step": 8842
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40159872174263,
      "learning_rate": 0.0005858740250339355,
      "loss": 1.8258,
      "step": 8843
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4083404242992401,
      "learning_rate": 0.000585870855334388,
      "loss": 1.7641,
      "step": 8844
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4013260304927826,
      "learning_rate": 0.0005858676852878354,
      "loss": 1.7682,
      "step": 8845
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39192184805870056,
      "learning_rate": 0.0005858645148942814,
      "loss": 1.8407,
      "step": 8846
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3969257175922394,
      "learning_rate": 0.0005858613441537301,
      "loss": 1.8134,
      "step": 8847
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4018402695655823,
      "learning_rate": 0.0005858581730661853,
      "loss": 1.7802,
      "step": 8848
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4064788818359375,
      "learning_rate": 0.0005858550016316507,
      "loss": 1.7668,
      "step": 8849
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3920997381210327,
      "learning_rate": 0.0005858518298501302,
      "loss": 1.7684,
      "step": 8850
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4007004499435425,
      "learning_rate": 0.0005858486577216277,
      "loss": 1.8312,
      "step": 8851
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4088910222053528,
      "learning_rate": 0.0005858454852461472,
      "loss": 1.8952,
      "step": 8852
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4141296148300171,
      "learning_rate": 0.0005858423124236923,
      "loss": 1.9105,
      "step": 8853
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39431023597717285,
      "learning_rate": 0.000585839139254267,
      "loss": 1.8451,
      "step": 8854
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38855111598968506,
      "learning_rate": 0.0005858359657378751,
      "loss": 1.7636,
      "step": 8855
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38366231322288513,
      "learning_rate": 0.0005858327918745204,
      "loss": 1.7352,
      "step": 8856
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40714144706726074,
      "learning_rate": 0.0005858296176642068,
      "loss": 1.8225,
      "step": 8857
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3981874883174896,
      "learning_rate": 0.0005858264431069382,
      "loss": 1.7361,
      "step": 8858
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4187939465045929,
      "learning_rate": 0.0005858232682027184,
      "loss": 1.7992,
      "step": 8859
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.39551371335983276,
      "learning_rate": 0.0005858200929515513,
      "loss": 1.8073,
      "step": 8860
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40786007046699524,
      "learning_rate": 0.0005858169173534407,
      "loss": 1.8129,
      "step": 8861
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3954773545265198,
      "learning_rate": 0.0005858137414083904,
      "loss": 1.784,
      "step": 8862
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.405309796333313,
      "learning_rate": 0.0005858105651164045,
      "loss": 1.7834,
      "step": 8863
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3950774669647217,
      "learning_rate": 0.0005858073884774865,
      "loss": 1.7247,
      "step": 8864
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42621922492980957,
      "learning_rate": 0.0005858042114916405,
      "loss": 1.8457,
      "step": 8865
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41843003034591675,
      "learning_rate": 0.0005858010341588703,
      "loss": 1.8198,
      "step": 8866
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3941648602485657,
      "learning_rate": 0.0005857978564791798,
      "loss": 1.8061,
      "step": 8867
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.391504168510437,
      "learning_rate": 0.0005857946784525728,
      "loss": 1.7909,
      "step": 8868
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4206312298774719,
      "learning_rate": 0.0005857915000790531,
      "loss": 1.7787,
      "step": 8869
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4229785203933716,
      "learning_rate": 0.0005857883213586248,
      "loss": 1.8796,
      "step": 8870
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4038212299346924,
      "learning_rate": 0.0005857851422912914,
      "loss": 1.8032,
      "step": 8871
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4017595052719116,
      "learning_rate": 0.000585781962877057,
      "loss": 1.7577,
      "step": 8872
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.389487624168396,
      "learning_rate": 0.0005857787831159255,
      "loss": 1.7991,
      "step": 8873
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40318435430526733,
      "learning_rate": 0.0005857756030079005,
      "loss": 1.8397,
      "step": 8874
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38610148429870605,
      "learning_rate": 0.0005857724225529861,
      "loss": 1.7259,
      "step": 8875
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3869735896587372,
      "learning_rate": 0.0005857692417511861,
      "loss": 1.806,
      "step": 8876
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3983549177646637,
      "learning_rate": 0.0005857660606025044,
      "loss": 1.8159,
      "step": 8877
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4125846028327942,
      "learning_rate": 0.0005857628791069448,
      "loss": 1.7095,
      "step": 8878
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4086752235889435,
      "learning_rate": 0.000585759697264511,
      "loss": 1.8664,
      "step": 8879
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3845503032207489,
      "learning_rate": 0.0005857565150752072,
      "loss": 1.8073,
      "step": 8880
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3947058618068695,
      "learning_rate": 0.000585753332539037,
      "loss": 1.7974,
      "step": 8881
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40175968408584595,
      "learning_rate": 0.0005857501496560045,
      "loss": 1.8443,
      "step": 8882
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40779566764831543,
      "learning_rate": 0.0005857469664261133,
      "loss": 1.7967,
      "step": 8883
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3880719542503357,
      "learning_rate": 0.0005857437828493674,
      "loss": 1.7915,
      "step": 8884
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3920477032661438,
      "learning_rate": 0.0005857405989257706,
      "loss": 1.7875,
      "step": 8885
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4120841920375824,
      "learning_rate": 0.0005857374146553269,
      "loss": 1.8747,
      "step": 8886
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3951297998428345,
      "learning_rate": 0.0005857342300380401,
      "loss": 1.7568,
      "step": 8887
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4015275537967682,
      "learning_rate": 0.000585731045073914,
      "loss": 1.798,
      "step": 8888
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40631523728370667,
      "learning_rate": 0.0005857278597629525,
      "loss": 1.8078,
      "step": 8889
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3939836919307709,
      "learning_rate": 0.0005857246741051595,
      "loss": 1.7941,
      "step": 8890
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4119017422199249,
      "learning_rate": 0.0005857214881005388,
      "loss": 1.7708,
      "step": 8891
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4080442786216736,
      "learning_rate": 0.0005857183017490944,
      "loss": 1.7801,
      "step": 8892
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.42147496342658997,
      "learning_rate": 0.0005857151150508301,
      "loss": 1.8212,
      "step": 8893
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3878065347671509,
      "learning_rate": 0.0005857119280057497,
      "loss": 1.7761,
      "step": 8894
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41401901841163635,
      "learning_rate": 0.000585708740613857,
      "loss": 1.8277,
      "step": 8895
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3876829743385315,
      "learning_rate": 0.0005857055528751562,
      "loss": 1.7447,
      "step": 8896
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39701899886131287,
      "learning_rate": 0.0005857023647896508,
      "loss": 1.871,
      "step": 8897
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3862152397632599,
      "learning_rate": 0.0005856991763573448,
      "loss": 1.7709,
      "step": 8898
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39787808060646057,
      "learning_rate": 0.0005856959875782422,
      "loss": 1.7782,
      "step": 8899
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.406538188457489,
      "learning_rate": 0.0005856927984523467,
      "loss": 1.7839,
      "step": 8900
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39346879720687866,
      "learning_rate": 0.0005856896089796623,
      "loss": 1.8037,
      "step": 8901
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4051781892776489,
      "learning_rate": 0.0005856864191601928,
      "loss": 1.7855,
      "step": 8902
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4283386170864105,
      "learning_rate": 0.000585683228993942,
      "loss": 1.8394,
      "step": 8903
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4035075008869171,
      "learning_rate": 0.0005856800384809139,
      "loss": 1.772,
      "step": 8904
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39960962533950806,
      "learning_rate": 0.0005856768476211124,
      "loss": 1.79,
      "step": 8905
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40906935930252075,
      "learning_rate": 0.0005856736564145412,
      "loss": 1.7862,
      "step": 8906
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40579137206077576,
      "learning_rate": 0.0005856704648612044,
      "loss": 1.7387,
      "step": 8907
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4032495319843292,
      "learning_rate": 0.0005856672729611055,
      "loss": 1.7934,
      "step": 8908
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4276260435581207,
      "learning_rate": 0.0005856640807142488,
      "loss": 1.7956,
      "step": 8909
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39380136132240295,
      "learning_rate": 0.000585660888120638,
      "loss": 1.796,
      "step": 8910
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40308713912963867,
      "learning_rate": 0.000585657695180277,
      "loss": 1.7714,
      "step": 8911
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4003274142742157,
      "learning_rate": 0.0005856545018931696,
      "loss": 1.7753,
      "step": 8912
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40270158648490906,
      "learning_rate": 0.0005856513082593196,
      "loss": 1.8032,
      "step": 8913
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3924500048160553,
      "learning_rate": 0.0005856481142787311,
      "loss": 1.7568,
      "step": 8914
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3983432948589325,
      "learning_rate": 0.000585644919951408,
      "loss": 1.7473,
      "step": 8915
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.414564847946167,
      "learning_rate": 0.0005856417252773539,
      "loss": 1.879,
      "step": 8916
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39528247714042664,
      "learning_rate": 0.0005856385302565729,
      "loss": 1.7493,
      "step": 8917
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3993910849094391,
      "learning_rate": 0.0005856353348890688,
      "loss": 1.7548,
      "step": 8918
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40892836451530457,
      "learning_rate": 0.0005856321391748456,
      "loss": 1.8347,
      "step": 8919
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40114566683769226,
      "learning_rate": 0.0005856289431139068,
      "loss": 1.7619,
      "step": 8920
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3930066227912903,
      "learning_rate": 0.0005856257467062567,
      "loss": 1.7249,
      "step": 8921
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39423465728759766,
      "learning_rate": 0.0005856225499518991,
      "loss": 1.7621,
      "step": 8922
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38342222571372986,
      "learning_rate": 0.0005856193528508376,
      "loss": 1.7302,
      "step": 8923
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4646011292934418,
      "learning_rate": 0.0005856161554030765,
      "loss": 1.8368,
      "step": 8924
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40339338779449463,
      "learning_rate": 0.0005856129576086195,
      "loss": 1.7833,
      "step": 8925
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4151422083377838,
      "learning_rate": 0.0005856097594674702,
      "loss": 1.7914,
      "step": 8926
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4125745892524719,
      "learning_rate": 0.000585606560979633,
      "loss": 1.8403,
      "step": 8927
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40465742349624634,
      "learning_rate": 0.0005856033621451114,
      "loss": 1.7725,
      "step": 8928
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39727920293807983,
      "learning_rate": 0.0005856001629639093,
      "loss": 1.8194,
      "step": 8929
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4133741557598114,
      "learning_rate": 0.0005855969634360309,
      "loss": 1.8729,
      "step": 8930
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3838757574558258,
      "learning_rate": 0.0005855937635614797,
      "loss": 1.7456,
      "step": 8931
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3925012946128845,
      "learning_rate": 0.0005855905633402597,
      "loss": 1.7587,
      "step": 8932
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.405773788690567,
      "learning_rate": 0.000585587362772375,
      "loss": 1.8445,
      "step": 8933
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4246087968349457,
      "learning_rate": 0.0005855841618578293,
      "loss": 1.847,
      "step": 8934
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.401614785194397,
      "learning_rate": 0.0005855809605966265,
      "loss": 1.7704,
      "step": 8935
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39728057384490967,
      "learning_rate": 0.0005855777589887704,
      "loss": 1.7532,
      "step": 8936
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41154950857162476,
      "learning_rate": 0.0005855745570342651,
      "loss": 1.8558,
      "step": 8937
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39141297340393066,
      "learning_rate": 0.0005855713547331143,
      "loss": 1.7606,
      "step": 8938
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41474106907844543,
      "learning_rate": 0.0005855681520853219,
      "loss": 1.7677,
      "step": 8939
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3852938413619995,
      "learning_rate": 0.0005855649490908919,
      "loss": 1.6585,
      "step": 8940
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40115219354629517,
      "learning_rate": 0.0005855617457498282,
      "loss": 1.811,
      "step": 8941
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4037930965423584,
      "learning_rate": 0.0005855585420621345,
      "loss": 1.8257,
      "step": 8942
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3941473960876465,
      "learning_rate": 0.0005855553380278148,
      "loss": 1.7588,
      "step": 8943
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4023856222629547,
      "learning_rate": 0.0005855521336468731,
      "loss": 1.8218,
      "step": 8944
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39415106177330017,
      "learning_rate": 0.0005855489289193131,
      "loss": 1.8626,
      "step": 8945
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38920941948890686,
      "learning_rate": 0.0005855457238451389,
      "loss": 1.7577,
      "step": 8946
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4110356271266937,
      "learning_rate": 0.0005855425184243541,
      "loss": 1.738,
      "step": 8947
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3918774127960205,
      "learning_rate": 0.0005855393126569628,
      "loss": 1.8046,
      "step": 8948
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39064037799835205,
      "learning_rate": 0.0005855361065429689,
      "loss": 1.8258,
      "step": 8949
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39427176117897034,
      "learning_rate": 0.0005855329000823761,
      "loss": 1.6871,
      "step": 8950
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3937203288078308,
      "learning_rate": 0.0005855296932751886,
      "loss": 1.7399,
      "step": 8951
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3861241936683655,
      "learning_rate": 0.00058552648612141,
      "loss": 1.7262,
      "step": 8952
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3850478231906891,
      "learning_rate": 0.0005855232786210444,
      "loss": 1.7844,
      "step": 8953
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3933984339237213,
      "learning_rate": 0.0005855200707740956,
      "loss": 1.8135,
      "step": 8954
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4125894606113434,
      "learning_rate": 0.0005855168625805675,
      "loss": 1.7901,
      "step": 8955
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.37459614872932434,
      "learning_rate": 0.000585513654040464,
      "loss": 1.7532,
      "step": 8956
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38834771513938904,
      "learning_rate": 0.000585510445153789,
      "loss": 1.7333,
      "step": 8957
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38400784134864807,
      "learning_rate": 0.0005855072359205463,
      "loss": 1.7506,
      "step": 8958
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40606799721717834,
      "learning_rate": 0.00058550402634074,
      "loss": 1.8489,
      "step": 8959
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3855270743370056,
      "learning_rate": 0.0005855008164143738,
      "loss": 1.7756,
      "step": 8960
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3881152272224426,
      "learning_rate": 0.0005854976061414517,
      "loss": 1.7647,
      "step": 8961
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4012170732021332,
      "learning_rate": 0.0005854943955219776,
      "loss": 1.8132,
      "step": 8962
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4023953676223755,
      "learning_rate": 0.0005854911845559553,
      "loss": 1.8212,
      "step": 8963
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3933711051940918,
      "learning_rate": 0.0005854879732433889,
      "loss": 1.8802,
      "step": 8964
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3874940872192383,
      "learning_rate": 0.000585484761584282,
      "loss": 1.797,
      "step": 8965
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39724698662757874,
      "learning_rate": 0.0005854815495786388,
      "loss": 1.7303,
      "step": 8966
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39668887853622437,
      "learning_rate": 0.000585478337226463,
      "loss": 1.683,
      "step": 8967
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.396757036447525,
      "learning_rate": 0.0005854751245277586,
      "loss": 1.8089,
      "step": 8968
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39439091086387634,
      "learning_rate": 0.0005854719114825294,
      "loss": 1.8037,
      "step": 8969
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4218784272670746,
      "learning_rate": 0.0005854686980907793,
      "loss": 1.8633,
      "step": 8970
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.43690159916877747,
      "learning_rate": 0.0005854654843525124,
      "loss": 1.7901,
      "step": 8971
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41281619668006897,
      "learning_rate": 0.0005854622702677324,
      "loss": 1.784,
      "step": 8972
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4012839198112488,
      "learning_rate": 0.0005854590558364433,
      "loss": 1.7331,
      "step": 8973
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40787073969841003,
      "learning_rate": 0.0005854558410586489,
      "loss": 1.8443,
      "step": 8974
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4178909659385681,
      "learning_rate": 0.0005854526259343532,
      "loss": 1.7643,
      "step": 8975
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3980098366737366,
      "learning_rate": 0.0005854494104635601,
      "loss": 1.7861,
      "step": 8976
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41715070605278015,
      "learning_rate": 0.0005854461946462735,
      "loss": 1.7785,
      "step": 8977
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40297195315361023,
      "learning_rate": 0.0005854429784824972,
      "loss": 1.7863,
      "step": 8978
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39356687664985657,
      "learning_rate": 0.0005854397619722353,
      "loss": 1.7579,
      "step": 8979
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40791770815849304,
      "learning_rate": 0.0005854365451154914,
      "loss": 1.8405,
      "step": 8980
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3851766884326935,
      "learning_rate": 0.0005854333279122697,
      "loss": 1.8323,
      "step": 8981
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38853299617767334,
      "learning_rate": 0.0005854301103625741,
      "loss": 1.8171,
      "step": 8982
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3954331576824188,
      "learning_rate": 0.0005854268924664083,
      "loss": 1.7863,
      "step": 8983
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3939494490623474,
      "learning_rate": 0.0005854236742237763,
      "loss": 1.729,
      "step": 8984
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3853398263454437,
      "learning_rate": 0.0005854204556346819,
      "loss": 1.816,
      "step": 8985
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38514500856399536,
      "learning_rate": 0.0005854172366991293,
      "loss": 1.8574,
      "step": 8986
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3952922523021698,
      "learning_rate": 0.0005854140174171221,
      "loss": 1.7971,
      "step": 8987
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3981128931045532,
      "learning_rate": 0.0005854107977886645,
      "loss": 1.7725,
      "step": 8988
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4050966203212738,
      "learning_rate": 0.0005854075778137601,
      "loss": 1.7249,
      "step": 8989
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3937075138092041,
      "learning_rate": 0.000585404357492413,
      "loss": 1.8555,
      "step": 8990
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3996933698654175,
      "learning_rate": 0.0005854011368246271,
      "loss": 1.8179,
      "step": 8991
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.37392285466194153,
      "learning_rate": 0.0005853979158104062,
      "loss": 1.7803,
      "step": 8992
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3984297513961792,
      "learning_rate": 0.0005853946944497543,
      "loss": 1.7623,
      "step": 8993
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3951418399810791,
      "learning_rate": 0.0005853914727426753,
      "loss": 1.7449,
      "step": 8994
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40412819385528564,
      "learning_rate": 0.0005853882506891731,
      "loss": 1.8098,
      "step": 8995
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3892661929130554,
      "learning_rate": 0.0005853850282892517,
      "loss": 1.7822,
      "step": 8996
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.396081805229187,
      "learning_rate": 0.0005853818055429149,
      "loss": 1.831,
      "step": 8997
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40140312910079956,
      "learning_rate": 0.0005853785824501666,
      "loss": 1.8142,
      "step": 8998
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3896932601928711,
      "learning_rate": 0.0005853753590110107,
      "loss": 1.7832,
      "step": 8999
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38856199383735657,
      "learning_rate": 0.0005853721352254512,
      "loss": 1.7519,
      "step": 9000
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39132487773895264,
      "learning_rate": 0.000585368911093492,
      "loss": 1.7828,
      "step": 9001
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41229483485221863,
      "learning_rate": 0.0005853656866151368,
      "loss": 1.7989,
      "step": 9002
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4129696488380432,
      "learning_rate": 0.00058536246179039,
      "loss": 1.8035,
      "step": 9003
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3960513770580292,
      "learning_rate": 0.000585359236619255,
      "loss": 1.8377,
      "step": 9004
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4009173810482025,
      "learning_rate": 0.000585356011101736,
      "loss": 1.7585,
      "step": 9005
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39987802505493164,
      "learning_rate": 0.0005853527852378369,
      "loss": 1.7915,
      "step": 9006
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4033767879009247,
      "learning_rate": 0.0005853495590275616,
      "loss": 1.7361,
      "step": 9007
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3908844590187073,
      "learning_rate": 0.0005853463324709139,
      "loss": 1.8159,
      "step": 9008
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3998534381389618,
      "learning_rate": 0.0005853431055678978,
      "loss": 1.8058,
      "step": 9009
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.43641233444213867,
      "learning_rate": 0.0005853398783185172,
      "loss": 1.8796,
      "step": 9010
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3995545506477356,
      "learning_rate": 0.0005853366507227761,
      "loss": 1.7954,
      "step": 9011
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4108316898345947,
      "learning_rate": 0.0005853334227806783,
      "loss": 1.8274,
      "step": 9012
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40086591243743896,
      "learning_rate": 0.0005853301944922277,
      "loss": 1.816,
      "step": 9013
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.37910196185112,
      "learning_rate": 0.0005853269658574284,
      "loss": 1.7965,
      "step": 9014
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39720138907432556,
      "learning_rate": 0.0005853237368762841,
      "loss": 1.7757,
      "step": 9015
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3977963328361511,
      "learning_rate": 0.000585320507548799,
      "loss": 1.7389,
      "step": 9016
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3964502811431885,
      "learning_rate": 0.0005853172778749766,
      "loss": 1.7566,
      "step": 9017
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3934707045555115,
      "learning_rate": 0.0005853140478548212,
      "loss": 1.8312,
      "step": 9018
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.46213769912719727,
      "learning_rate": 0.0005853108174883366,
      "loss": 1.7936,
      "step": 9019
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3904544413089752,
      "learning_rate": 0.0005853075867755267,
      "loss": 1.8197,
      "step": 9020
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40477633476257324,
      "learning_rate": 0.0005853043557163954,
      "loss": 1.7914,
      "step": 9021
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40395525097846985,
      "learning_rate": 0.0005853011243109466,
      "loss": 1.753,
      "step": 9022
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3808251917362213,
      "learning_rate": 0.0005852978925591844,
      "loss": 1.7425,
      "step": 9023
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.394985556602478,
      "learning_rate": 0.0005852946604611125,
      "loss": 1.7753,
      "step": 9024
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39671590924263,
      "learning_rate": 0.000585291428016735,
      "loss": 1.78,
      "step": 9025
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38749298453330994,
      "learning_rate": 0.0005852881952260556,
      "loss": 1.7612,
      "step": 9026
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38357222080230713,
      "learning_rate": 0.0005852849620890785,
      "loss": 1.8251,
      "step": 9027
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4027349054813385,
      "learning_rate": 0.0005852817286058074,
      "loss": 1.7617,
      "step": 9028
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39818716049194336,
      "learning_rate": 0.0005852784947762463,
      "loss": 1.7744,
      "step": 9029
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39654719829559326,
      "learning_rate": 0.0005852752606003992,
      "loss": 1.777,
      "step": 9030
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39910241961479187,
      "learning_rate": 0.00058527202607827,
      "loss": 1.7865,
      "step": 9031
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3936839699745178,
      "learning_rate": 0.0005852687912098626,
      "loss": 1.8393,
      "step": 9032
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4026528000831604,
      "learning_rate": 0.0005852655559951808,
      "loss": 1.7973,
      "step": 9033
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39805877208709717,
      "learning_rate": 0.0005852623204342288,
      "loss": 1.7931,
      "step": 9034
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3888612985610962,
      "learning_rate": 0.0005852590845270103,
      "loss": 1.7457,
      "step": 9035
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39808008074760437,
      "learning_rate": 0.0005852558482735293,
      "loss": 1.7797,
      "step": 9036
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40512752532958984,
      "learning_rate": 0.0005852526116737897,
      "loss": 1.8014,
      "step": 9037
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4240359365940094,
      "learning_rate": 0.0005852493747277955,
      "loss": 1.8539,
      "step": 9038
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.47312068939208984,
      "learning_rate": 0.0005852461374355506,
      "loss": 1.8299,
      "step": 9039
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39723750948905945,
      "learning_rate": 0.0005852428997970588,
      "loss": 1.7294,
      "step": 9040
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4052355885505676,
      "learning_rate": 0.0005852396618123243,
      "loss": 1.7936,
      "step": 9041
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3852328360080719,
      "learning_rate": 0.0005852364234813508,
      "loss": 1.7423,
      "step": 9042
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4033339023590088,
      "learning_rate": 0.0005852331848041424,
      "loss": 1.7745,
      "step": 9043
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4032449424266815,
      "learning_rate": 0.0005852299457807028,
      "loss": 1.816,
      "step": 9044
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40395835041999817,
      "learning_rate": 0.0005852267064110362,
      "loss": 1.8376,
      "step": 9045
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39372530579566956,
      "learning_rate": 0.0005852234666951463,
      "loss": 1.7652,
      "step": 9046
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39104655385017395,
      "learning_rate": 0.0005852202266330372,
      "loss": 1.8169,
      "step": 9047
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3979918360710144,
      "learning_rate": 0.0005852169862247127,
      "loss": 1.6901,
      "step": 9048
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4078470468521118,
      "learning_rate": 0.000585213745470177,
      "loss": 1.856,
      "step": 9049
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3930862843990326,
      "learning_rate": 0.0005852105043694337,
      "loss": 1.8045,
      "step": 9050
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4220829904079437,
      "learning_rate": 0.0005852072629224869,
      "loss": 1.8649,
      "step": 9051
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4084690809249878,
      "learning_rate": 0.0005852040211293404,
      "loss": 1.8359,
      "step": 9052
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39602118730545044,
      "learning_rate": 0.0005852007789899984,
      "loss": 1.7765,
      "step": 9053
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4114656448364258,
      "learning_rate": 0.0005851975365044645,
      "loss": 1.8077,
      "step": 9054
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39487534761428833,
      "learning_rate": 0.000585194293672743,
      "loss": 1.8013,
      "step": 9055
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4001464247703552,
      "learning_rate": 0.0005851910504948375,
      "loss": 1.7893,
      "step": 9056
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39781779050827026,
      "learning_rate": 0.0005851878069707521,
      "loss": 1.7485,
      "step": 9057
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3951928913593292,
      "learning_rate": 0.0005851845631004908,
      "loss": 1.759,
      "step": 9058
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3793856203556061,
      "learning_rate": 0.0005851813188840574,
      "loss": 1.7762,
      "step": 9059
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3967347741127014,
      "learning_rate": 0.000585178074321456,
      "loss": 1.7323,
      "step": 9060
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39390435814857483,
      "learning_rate": 0.0005851748294126904,
      "loss": 1.8167,
      "step": 9061
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40771427750587463,
      "learning_rate": 0.0005851715841577645,
      "loss": 1.786,
      "step": 9062
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4026417136192322,
      "learning_rate": 0.0005851683385566823,
      "loss": 1.7349,
      "step": 9063
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4096084237098694,
      "learning_rate": 0.0005851650926094479,
      "loss": 1.7633,
      "step": 9064
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40145978331565857,
      "learning_rate": 0.0005851618463160649,
      "loss": 1.7752,
      "step": 9065
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40043991804122925,
      "learning_rate": 0.0005851585996765376,
      "loss": 1.765,
      "step": 9066
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4013593792915344,
      "learning_rate": 0.0005851553526908696,
      "loss": 1.7651,
      "step": 9067
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4139421880245209,
      "learning_rate": 0.0005851521053590652,
      "loss": 1.7896,
      "step": 9068
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4104245603084564,
      "learning_rate": 0.0005851488576811281,
      "loss": 1.7343,
      "step": 9069
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39999496936798096,
      "learning_rate": 0.0005851456096570623,
      "loss": 1.7978,
      "step": 9070
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39072299003601074,
      "learning_rate": 0.0005851423612868717,
      "loss": 1.819,
      "step": 9071
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40581223368644714,
      "learning_rate": 0.0005851391125705603,
      "loss": 1.7005,
      "step": 9072
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3984224796295166,
      "learning_rate": 0.000585135863508132,
      "loss": 1.7741,
      "step": 9073
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38686099648475647,
      "learning_rate": 0.0005851326140995909,
      "loss": 1.6747,
      "step": 9074
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39780193567276,
      "learning_rate": 0.0005851293643449408,
      "loss": 1.798,
      "step": 9075
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4229156970977783,
      "learning_rate": 0.0005851261142441856,
      "loss": 1.7924,
      "step": 9076
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39905738830566406,
      "learning_rate": 0.0005851228637973292,
      "loss": 1.6813,
      "step": 9077
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4188495874404907,
      "learning_rate": 0.0005851196130043758,
      "loss": 1.7953,
      "step": 9078
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4020778238773346,
      "learning_rate": 0.0005851163618653293,
      "loss": 1.8483,
      "step": 9079
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39159584045410156,
      "learning_rate": 0.0005851131103801933,
      "loss": 1.8373,
      "step": 9080
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3989222049713135,
      "learning_rate": 0.0005851098585489721,
      "loss": 1.7333,
      "step": 9081
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3953859508037567,
      "learning_rate": 0.0005851066063716696,
      "loss": 1.8353,
      "step": 9082
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.400458425283432,
      "learning_rate": 0.0005851033538482897,
      "loss": 1.813,
      "step": 9083
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39689043164253235,
      "learning_rate": 0.0005851001009788363,
      "loss": 1.8495,
      "step": 9084
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39839792251586914,
      "learning_rate": 0.0005850968477633132,
      "loss": 1.8355,
      "step": 9085
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3881973326206207,
      "learning_rate": 0.0005850935942017248,
      "loss": 1.8069,
      "step": 9086
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4021146595478058,
      "learning_rate": 0.0005850903402940747,
      "loss": 1.8327,
      "step": 9087
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39247721433639526,
      "learning_rate": 0.0005850870860403669,
      "loss": 1.7729,
      "step": 9088
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4007943868637085,
      "learning_rate": 0.0005850838314406054,
      "loss": 1.7276,
      "step": 9089
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40049001574516296,
      "learning_rate": 0.000585080576494794,
      "loss": 1.778,
      "step": 9090
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3941657841205597,
      "learning_rate": 0.000585077321202937,
      "loss": 1.7539,
      "step": 9091
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4170478582382202,
      "learning_rate": 0.0005850740655650381,
      "loss": 1.786,
      "step": 9092
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38904455304145813,
      "learning_rate": 0.0005850708095811012,
      "loss": 1.8408,
      "step": 9093
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38483330607414246,
      "learning_rate": 0.0005850675532511304,
      "loss": 1.7882,
      "step": 9094
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39424464106559753,
      "learning_rate": 0.0005850642965751295,
      "loss": 1.8308,
      "step": 9095
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39031559228897095,
      "learning_rate": 0.0005850610395531027,
      "loss": 1.8328,
      "step": 9096
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3805445432662964,
      "learning_rate": 0.0005850577821850538,
      "loss": 1.7162,
      "step": 9097
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3978967070579529,
      "learning_rate": 0.0005850545244709866,
      "loss": 1.7218,
      "step": 9098
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39878183603286743,
      "learning_rate": 0.0005850512664109052,
      "loss": 1.7447,
      "step": 9099
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3942895531654358,
      "learning_rate": 0.0005850480080048136,
      "loss": 1.7659,
      "step": 9100
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39865249395370483,
      "learning_rate": 0.0005850447492527159,
      "loss": 1.8128,
      "step": 9101
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39753150939941406,
      "learning_rate": 0.0005850414901546157,
      "loss": 1.7809,
      "step": 9102
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39467883110046387,
      "learning_rate": 0.0005850382307105172,
      "loss": 1.7968,
      "step": 9103
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41739052534103394,
      "learning_rate": 0.0005850349709204243,
      "loss": 1.821,
      "step": 9104
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39970770478248596,
      "learning_rate": 0.0005850317107843407,
      "loss": 1.7809,
      "step": 9105
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3829468786716461,
      "learning_rate": 0.0005850284503022709,
      "loss": 1.8178,
      "step": 9106
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4001186192035675,
      "learning_rate": 0.0005850251894742185,
      "loss": 1.7884,
      "step": 9107
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3950640857219696,
      "learning_rate": 0.0005850219283001874,
      "loss": 1.8349,
      "step": 9108
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3884961009025574,
      "learning_rate": 0.0005850186667801817,
      "loss": 1.7795,
      "step": 9109
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3987254202365875,
      "learning_rate": 0.0005850154049142055,
      "loss": 1.787,
      "step": 9110
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40093421936035156,
      "learning_rate": 0.0005850121427022624,
      "loss": 1.8565,
      "step": 9111
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39820876717567444,
      "learning_rate": 0.0005850088801443566,
      "loss": 1.8207,
      "step": 9112
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39187803864479065,
      "learning_rate": 0.0005850056172404921,
      "loss": 1.7735,
      "step": 9113
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4031370282173157,
      "learning_rate": 0.0005850023539906727,
      "loss": 1.7584,
      "step": 9114
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3956913650035858,
      "learning_rate": 0.0005849990903949025,
      "loss": 1.808,
      "step": 9115
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4149335026741028,
      "learning_rate": 0.0005849958264531853,
      "loss": 1.763,
      "step": 9116
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3947997987270355,
      "learning_rate": 0.0005849925621655252,
      "loss": 1.8021,
      "step": 9117
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38836005330085754,
      "learning_rate": 0.0005849892975319261,
      "loss": 1.8169,
      "step": 9118
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41326048970222473,
      "learning_rate": 0.000584986032552392,
      "loss": 1.783,
      "step": 9119
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4082280993461609,
      "learning_rate": 0.0005849827672269269,
      "loss": 1.8273,
      "step": 9120
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4050614535808563,
      "learning_rate": 0.0005849795015555347,
      "loss": 1.7163,
      "step": 9121
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4019210934638977,
      "learning_rate": 0.0005849762355382193,
      "loss": 1.7555,
      "step": 9122
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39559999108314514,
      "learning_rate": 0.0005849729691749847,
      "loss": 1.8,
      "step": 9123
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40124258399009705,
      "learning_rate": 0.000584969702465835,
      "loss": 1.7396,
      "step": 9124
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.42183181643486023,
      "learning_rate": 0.0005849664354107742,
      "loss": 1.8401,
      "step": 9125
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41112759709358215,
      "learning_rate": 0.0005849631680098059,
      "loss": 1.8181,
      "step": 9126
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.404988169670105,
      "learning_rate": 0.0005849599002629344,
      "loss": 1.8069,
      "step": 9127
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3927691876888275,
      "learning_rate": 0.0005849566321701635,
      "loss": 1.7884,
      "step": 9128
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4158584475517273,
      "learning_rate": 0.0005849533637314973,
      "loss": 1.8275,
      "step": 9129
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41742902994155884,
      "learning_rate": 0.0005849500949469397,
      "loss": 1.8252,
      "step": 9130
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39734721183776855,
      "learning_rate": 0.0005849468258164946,
      "loss": 1.8445,
      "step": 9131
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41568827629089355,
      "learning_rate": 0.0005849435563401662,
      "loss": 1.8141,
      "step": 9132
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4138340353965759,
      "learning_rate": 0.0005849402865179583,
      "loss": 1.7494,
      "step": 9133
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.399089515209198,
      "learning_rate": 0.0005849370163498748,
      "loss": 1.8805,
      "step": 9134
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40045681595802307,
      "learning_rate": 0.0005849337458359197,
      "loss": 1.7663,
      "step": 9135
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4017464816570282,
      "learning_rate": 0.0005849304749760971,
      "loss": 1.7746,
      "step": 9136
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38775914907455444,
      "learning_rate": 0.0005849272037704108,
      "loss": 1.723,
      "step": 9137
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3871954381465912,
      "learning_rate": 0.0005849239322188648,
      "loss": 1.8017,
      "step": 9138
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38100484013557434,
      "learning_rate": 0.0005849206603214633,
      "loss": 1.7188,
      "step": 9139
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4362335205078125,
      "learning_rate": 0.00058491738807821,
      "loss": 1.7808,
      "step": 9140
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.44940295815467834,
      "learning_rate": 0.000584914115489109,
      "loss": 1.8265,
      "step": 9141
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40103310346603394,
      "learning_rate": 0.0005849108425541643,
      "loss": 1.7711,
      "step": 9142
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3975916802883148,
      "learning_rate": 0.0005849075692733797,
      "loss": 1.7902,
      "step": 9143
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40524113178253174,
      "learning_rate": 0.0005849042956467593,
      "loss": 1.7767,
      "step": 9144
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40173330903053284,
      "learning_rate": 0.0005849010216743072,
      "loss": 1.7279,
      "step": 9145
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3918395936489105,
      "learning_rate": 0.000584897747356027,
      "loss": 1.8479,
      "step": 9146
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40072113275527954,
      "learning_rate": 0.0005848944726919231,
      "loss": 1.7744,
      "step": 9147
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3933521509170532,
      "learning_rate": 0.0005848911976819993,
      "loss": 1.7795,
      "step": 9148
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39747172594070435,
      "learning_rate": 0.0005848879223262594,
      "loss": 1.828,
      "step": 9149
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3967999219894409,
      "learning_rate": 0.0005848846466247077,
      "loss": 1.7807,
      "step": 9150
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38387274742126465,
      "learning_rate": 0.000584881370577348,
      "loss": 1.7487,
      "step": 9151
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40018394589424133,
      "learning_rate": 0.0005848780941841842,
      "loss": 1.7756,
      "step": 9152
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.41321733593940735,
      "learning_rate": 0.0005848748174452204,
      "loss": 1.7941,
      "step": 9153
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39642971754074097,
      "learning_rate": 0.0005848715403604606,
      "loss": 1.8004,
      "step": 9154
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.40770241618156433,
      "learning_rate": 0.0005848682629299087,
      "loss": 1.8477,
      "step": 9155
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3944874703884125,
      "learning_rate": 0.0005848649851535687,
      "loss": 1.7434,
      "step": 9156
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4032137393951416,
      "learning_rate": 0.0005848617070314446,
      "loss": 1.7606,
      "step": 9157
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4051043689250946,
      "learning_rate": 0.0005848584285635403,
      "loss": 1.7622,
      "step": 9158
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38393470644950867,
      "learning_rate": 0.0005848551497498599,
      "loss": 1.8077,
      "step": 9159
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39067569375038147,
      "learning_rate": 0.0005848518705904072,
      "loss": 1.8222,
      "step": 9160
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4051898121833801,
      "learning_rate": 0.0005848485910851864,
      "loss": 1.7886,
      "step": 9161
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3985723853111267,
      "learning_rate": 0.0005848453112342013,
      "loss": 1.7535,
      "step": 9162
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4144560992717743,
      "learning_rate": 0.0005848420310374562,
      "loss": 1.8579,
      "step": 9163
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39848029613494873,
      "learning_rate": 0.0005848387504949547,
      "loss": 1.7834,
      "step": 9164
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38616493344306946,
      "learning_rate": 0.0005848354696067009,
      "loss": 1.7696,
      "step": 9165
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3833444118499756,
      "learning_rate": 0.0005848321883726987,
      "loss": 1.761,
      "step": 9166
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3939463794231415,
      "learning_rate": 0.0005848289067929524,
      "loss": 1.6691,
      "step": 9167
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42343321442604065,
      "learning_rate": 0.0005848256248674657,
      "loss": 1.8155,
      "step": 9168
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4056667983531952,
      "learning_rate": 0.0005848223425962426,
      "loss": 1.7358,
      "step": 9169
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39879220724105835,
      "learning_rate": 0.0005848190599792871,
      "loss": 1.7837,
      "step": 9170
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38396310806274414,
      "learning_rate": 0.0005848157770166034,
      "loss": 1.7115,
      "step": 9171
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4106001555919647,
      "learning_rate": 0.0005848124937081952,
      "loss": 1.6975,
      "step": 9172
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3940013647079468,
      "learning_rate": 0.0005848092100540666,
      "loss": 1.7174,
      "step": 9173
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3995237350463867,
      "learning_rate": 0.0005848059260542217,
      "loss": 1.7888,
      "step": 9174
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40313541889190674,
      "learning_rate": 0.0005848026417086642,
      "loss": 1.8547,
      "step": 9175
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3910715878009796,
      "learning_rate": 0.0005847993570173983,
      "loss": 1.803,
      "step": 9176
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3983768820762634,
      "learning_rate": 0.000584796071980428,
      "loss": 1.7732,
      "step": 9177
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4080111086368561,
      "learning_rate": 0.0005847927865977572,
      "loss": 1.7851,
      "step": 9178
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39070066809654236,
      "learning_rate": 0.00058478950086939,
      "loss": 1.7393,
      "step": 9179
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3844342529773712,
      "learning_rate": 0.0005847862147953301,
      "loss": 1.7591,
      "step": 9180
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41254398226737976,
      "learning_rate": 0.0005847829283755819,
      "loss": 1.7587,
      "step": 9181
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3948351740837097,
      "learning_rate": 0.0005847796416101491,
      "loss": 1.7278,
      "step": 9182
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4105321764945984,
      "learning_rate": 0.0005847763544990358,
      "loss": 1.6826,
      "step": 9183
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41646313667297363,
      "learning_rate": 0.0005847730670422459,
      "loss": 1.7751,
      "step": 9184
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4108565151691437,
      "learning_rate": 0.0005847697792397836,
      "loss": 1.8258,
      "step": 9185
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4121914803981781,
      "learning_rate": 0.0005847664910916526,
      "loss": 1.7578,
      "step": 9186
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4013935625553131,
      "learning_rate": 0.0005847632025978571,
      "loss": 1.7823,
      "step": 9187
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3988015055656433,
      "learning_rate": 0.000584759913758401,
      "loss": 1.8086,
      "step": 9188
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4125988483428955,
      "learning_rate": 0.0005847566245732885,
      "loss": 1.7779,
      "step": 9189
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.391674667596817,
      "learning_rate": 0.0005847533350425232,
      "loss": 1.793,
      "step": 9190
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40287986397743225,
      "learning_rate": 0.0005847500451661093,
      "loss": 1.8001,
      "step": 9191
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.48527640104293823,
      "learning_rate": 0.0005847467549440509,
      "loss": 1.8491,
      "step": 9192
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4026680886745453,
      "learning_rate": 0.0005847434643763518,
      "loss": 1.7974,
      "step": 9193
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40555232763290405,
      "learning_rate": 0.0005847401734630161,
      "loss": 1.8717,
      "step": 9194
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39692234992980957,
      "learning_rate": 0.000584736882204048,
      "loss": 1.726,
      "step": 9195
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.43466007709503174,
      "learning_rate": 0.0005847335905994511,
      "loss": 1.8159,
      "step": 9196
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3864732086658478,
      "learning_rate": 0.0005847302986492296,
      "loss": 1.7833,
      "step": 9197
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3965756893157959,
      "learning_rate": 0.0005847270063533874,
      "loss": 1.8303,
      "step": 9198
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42606616020202637,
      "learning_rate": 0.0005847237137119286,
      "loss": 1.8033,
      "step": 9199
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41008633375167847,
      "learning_rate": 0.0005847204207248572,
      "loss": 1.8507,
      "step": 9200
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4092496633529663,
      "learning_rate": 0.0005847171273921772,
      "loss": 1.8649,
      "step": 9201
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40539830923080444,
      "learning_rate": 0.0005847138337138925,
      "loss": 1.7755,
      "step": 9202
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4152674078941345,
      "learning_rate": 0.0005847105396900072,
      "loss": 1.7899,
      "step": 9203
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40478771924972534,
      "learning_rate": 0.0005847072453205251,
      "loss": 1.8017,
      "step": 9204
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4234653115272522,
      "learning_rate": 0.0005847039506054506,
      "loss": 1.819,
      "step": 9205
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39497849345207214,
      "learning_rate": 0.0005847006555447872,
      "loss": 1.7909,
      "step": 9206
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41450756788253784,
      "learning_rate": 0.0005846973601385394,
      "loss": 1.7013,
      "step": 9207
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40046483278274536,
      "learning_rate": 0.0005846940643867108,
      "loss": 1.8412,
      "step": 9208
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4030228555202484,
      "learning_rate": 0.0005846907682893056,
      "loss": 1.7722,
      "step": 9209
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40230801701545715,
      "learning_rate": 0.0005846874718463277,
      "loss": 1.8764,
      "step": 9210
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4124740958213806,
      "learning_rate": 0.0005846841750577812,
      "loss": 1.7843,
      "step": 9211
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40531742572784424,
      "learning_rate": 0.00058468087792367,
      "loss": 1.7603,
      "step": 9212
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3896806836128235,
      "learning_rate": 0.0005846775804439983,
      "loss": 1.8345,
      "step": 9213
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3998757600784302,
      "learning_rate": 0.00058467428261877,
      "loss": 1.8593,
      "step": 9214
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3976471722126007,
      "learning_rate": 0.0005846709844479889,
      "loss": 1.7798,
      "step": 9215
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3945784568786621,
      "learning_rate": 0.0005846676859316591,
      "loss": 1.8117,
      "step": 9216
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.406924307346344,
      "learning_rate": 0.0005846643870697848,
      "loss": 1.8002,
      "step": 9217
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40777459740638733,
      "learning_rate": 0.0005846610878623699,
      "loss": 1.7727,
      "step": 9218
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3910956084728241,
      "learning_rate": 0.0005846577883094183,
      "loss": 1.768,
      "step": 9219
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.406887024641037,
      "learning_rate": 0.0005846544884109342,
      "loss": 1.7699,
      "step": 9220
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39913153648376465,
      "learning_rate": 0.0005846511881669214,
      "loss": 1.8234,
      "step": 9221
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39035698771476746,
      "learning_rate": 0.0005846478875773841,
      "loss": 1.7264,
      "step": 9222
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3864830434322357,
      "learning_rate": 0.0005846445866423261,
      "loss": 1.6831,
      "step": 9223
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40865445137023926,
      "learning_rate": 0.0005846412853617516,
      "loss": 1.7742,
      "step": 9224
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40395045280456543,
      "learning_rate": 0.0005846379837356644,
      "loss": 1.7732,
      "step": 9225
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39337924122810364,
      "learning_rate": 0.0005846346817640687,
      "loss": 1.8316,
      "step": 9226
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3922382891178131,
      "learning_rate": 0.0005846313794469685,
      "loss": 1.7971,
      "step": 9227
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4211917519569397,
      "learning_rate": 0.0005846280767843676,
      "loss": 1.7516,
      "step": 9228
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4062851071357727,
      "learning_rate": 0.0005846247737762702,
      "loss": 1.7541,
      "step": 9229
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3983830213546753,
      "learning_rate": 0.0005846214704226803,
      "loss": 1.822,
      "step": 9230
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39938119053840637,
      "learning_rate": 0.0005846181667236019,
      "loss": 1.7345,
      "step": 9231
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4528481066226959,
      "learning_rate": 0.0005846148626790389,
      "loss": 1.7494,
      "step": 9232
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4007580578327179,
      "learning_rate": 0.0005846115582889954,
      "loss": 1.7562,
      "step": 9233
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4010368287563324,
      "learning_rate": 0.0005846082535534755,
      "loss": 1.8333,
      "step": 9234
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3984316289424896,
      "learning_rate": 0.000584604948472483,
      "loss": 1.7316,
      "step": 9235
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40852952003479004,
      "learning_rate": 0.000584601643046022,
      "loss": 1.8343,
      "step": 9236
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4206271469593048,
      "learning_rate": 0.0005845983372740966,
      "loss": 1.7669,
      "step": 9237
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4124419391155243,
      "learning_rate": 0.0005845950311567109,
      "loss": 1.8118,
      "step": 9238
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4187801778316498,
      "learning_rate": 0.0005845917246938686,
      "loss": 1.8322,
      "step": 9239
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4243399202823639,
      "learning_rate": 0.0005845884178855739,
      "loss": 1.7475,
      "step": 9240
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42552313208580017,
      "learning_rate": 0.0005845851107318308,
      "loss": 1.8134,
      "step": 9241
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4077807068824768,
      "learning_rate": 0.0005845818032326434,
      "loss": 1.8661,
      "step": 9242
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39652085304260254,
      "learning_rate": 0.0005845784953880155,
      "loss": 1.8166,
      "step": 9243
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4097274839878082,
      "learning_rate": 0.0005845751871979513,
      "loss": 1.8125,
      "step": 9244
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3968932628631592,
      "learning_rate": 0.0005845718786624547,
      "loss": 1.7884,
      "step": 9245
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3870082497596741,
      "learning_rate": 0.0005845685697815298,
      "loss": 1.7325,
      "step": 9246
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.388467401266098,
      "learning_rate": 0.0005845652605551806,
      "loss": 1.8186,
      "step": 9247
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.391359806060791,
      "learning_rate": 0.0005845619509834111,
      "loss": 1.8049,
      "step": 9248
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39535433053970337,
      "learning_rate": 0.0005845586410662253,
      "loss": 1.7316,
      "step": 9249
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.394586980342865,
      "learning_rate": 0.0005845553308036272,
      "loss": 1.8107,
      "step": 9250
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39741313457489014,
      "learning_rate": 0.0005845520201956209,
      "loss": 1.7221,
      "step": 9251
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4107784926891327,
      "learning_rate": 0.0005845487092422104,
      "loss": 1.8598,
      "step": 9252
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3928488492965698,
      "learning_rate": 0.0005845453979433997,
      "loss": 1.7773,
      "step": 9253
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3996785581111908,
      "learning_rate": 0.0005845420862991927,
      "loss": 1.7927,
      "step": 9254
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3910292387008667,
      "learning_rate": 0.0005845387743095937,
      "loss": 1.7577,
      "step": 9255
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39099809527397156,
      "learning_rate": 0.0005845354619746064,
      "loss": 1.8495,
      "step": 9256
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39974528551101685,
      "learning_rate": 0.000584532149294235,
      "loss": 1.8002,
      "step": 9257
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4207722842693329,
      "learning_rate": 0.0005845288362684835,
      "loss": 1.8492,
      "step": 9258
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40451496839523315,
      "learning_rate": 0.0005845255228973561,
      "loss": 1.7618,
      "step": 9259
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3832814693450928,
      "learning_rate": 0.0005845222091808564,
      "loss": 1.8041,
      "step": 9260
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4196454882621765,
      "learning_rate": 0.0005845188951189887,
      "loss": 1.7693,
      "step": 9261
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4063315987586975,
      "learning_rate": 0.0005845155807117571,
      "loss": 1.8237,
      "step": 9262
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4041082262992859,
      "learning_rate": 0.0005845122659591653,
      "loss": 1.8243,
      "step": 9263
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39664918184280396,
      "learning_rate": 0.0005845089508612177,
      "loss": 1.7717,
      "step": 9264
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40210163593292236,
      "learning_rate": 0.0005845056354179182,
      "loss": 1.7222,
      "step": 9265
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4176895320415497,
      "learning_rate": 0.0005845023196292706,
      "loss": 1.8015,
      "step": 9266
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39586490392684937,
      "learning_rate": 0.0005844990034952793,
      "loss": 1.7786,
      "step": 9267
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42776787281036377,
      "learning_rate": 0.000584495687015948,
      "loss": 1.8277,
      "step": 9268
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4047808051109314,
      "learning_rate": 0.0005844923701912809,
      "loss": 1.8456,
      "step": 9269
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4042380452156067,
      "learning_rate": 0.0005844890530212819,
      "loss": 1.7582,
      "step": 9270
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39830124378204346,
      "learning_rate": 0.0005844857355059552,
      "loss": 1.8557,
      "step": 9271
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3984474241733551,
      "learning_rate": 0.0005844824176453047,
      "loss": 1.8182,
      "step": 9272
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4140392541885376,
      "learning_rate": 0.0005844790994393345,
      "loss": 1.7745,
      "step": 9273
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39588239789009094,
      "learning_rate": 0.0005844757808880485,
      "loss": 1.7966,
      "step": 9274
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39187493920326233,
      "learning_rate": 0.000584472461991451,
      "loss": 1.7495,
      "step": 9275
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3966844379901886,
      "learning_rate": 0.0005844691427495456,
      "loss": 1.7917,
      "step": 9276
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4080839157104492,
      "learning_rate": 0.0005844658231623367,
      "loss": 1.776,
      "step": 9277
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3922920227050781,
      "learning_rate": 0.0005844625032298283,
      "loss": 1.6928,
      "step": 9278
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42964833974838257,
      "learning_rate": 0.0005844591829520241,
      "loss": 1.7935,
      "step": 9279
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4180144965648651,
      "learning_rate": 0.0005844558623289285,
      "loss": 1.7741,
      "step": 9280
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3893345296382904,
      "learning_rate": 0.0005844525413605454,
      "loss": 1.7465,
      "step": 9281
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41407522559165955,
      "learning_rate": 0.0005844492200468788,
      "loss": 1.7588,
      "step": 9282
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40039342641830444,
      "learning_rate": 0.0005844458983879329,
      "loss": 1.7234,
      "step": 9283
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.390116810798645,
      "learning_rate": 0.0005844425763837114,
      "loss": 1.8221,
      "step": 9284
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39397212862968445,
      "learning_rate": 0.0005844392540342186,
      "loss": 1.7496,
      "step": 9285
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42504024505615234,
      "learning_rate": 0.0005844359313394585,
      "loss": 1.7698,
      "step": 9286
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3961066007614136,
      "learning_rate": 0.000584432608299435,
      "loss": 1.7788,
      "step": 9287
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4052228331565857,
      "learning_rate": 0.0005844292849141523,
      "loss": 1.799,
      "step": 9288
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4054417014122009,
      "learning_rate": 0.0005844259611836142,
      "loss": 1.7488,
      "step": 9289
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4202577471733093,
      "learning_rate": 0.0005844226371078251,
      "loss": 1.8361,
      "step": 9290
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3936839997768402,
      "learning_rate": 0.0005844193126867888,
      "loss": 1.7185,
      "step": 9291
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41614922881126404,
      "learning_rate": 0.0005844159879205093,
      "loss": 1.805,
      "step": 9292
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4169999659061432,
      "learning_rate": 0.0005844126628089906,
      "loss": 1.8111,
      "step": 9293
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3946819305419922,
      "learning_rate": 0.0005844093373522369,
      "loss": 1.7517,
      "step": 9294
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4093248248100281,
      "learning_rate": 0.0005844060115502523,
      "loss": 1.8479,
      "step": 9295
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3926463723182678,
      "learning_rate": 0.0005844026854030406,
      "loss": 1.7441,
      "step": 9296
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38927027583122253,
      "learning_rate": 0.000584399358910606,
      "loss": 1.7355,
      "step": 9297
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38980692625045776,
      "learning_rate": 0.0005843960320729523,
      "loss": 1.8487,
      "step": 9298
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3938509523868561,
      "learning_rate": 0.0005843927048900839,
      "loss": 1.7442,
      "step": 9299
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39240679144859314,
      "learning_rate": 0.0005843893773620046,
      "loss": 1.788,
      "step": 9300
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.397790789604187,
      "learning_rate": 0.0005843860494887186,
      "loss": 1.8253,
      "step": 9301
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4011211693286896,
      "learning_rate": 0.0005843827212702297,
      "loss": 1.8035,
      "step": 9302
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40130966901779175,
      "learning_rate": 0.0005843793927065422,
      "loss": 1.7788,
      "step": 9303
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3916778564453125,
      "learning_rate": 0.0005843760637976598,
      "loss": 1.8789,
      "step": 9304
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3906971216201782,
      "learning_rate": 0.000584372734543587,
      "loss": 1.7887,
      "step": 9305
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40026068687438965,
      "learning_rate": 0.0005843694049443276,
      "loss": 1.7612,
      "step": 9306
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4059448838233948,
      "learning_rate": 0.0005843660749998854,
      "loss": 1.814,
      "step": 9307
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38686394691467285,
      "learning_rate": 0.0005843627447102649,
      "loss": 1.7428,
      "step": 9308
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3903619349002838,
      "learning_rate": 0.0005843594140754699,
      "loss": 1.8234,
      "step": 9309
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3893851339817047,
      "learning_rate": 0.0005843560830955044,
      "loss": 1.7896,
      "step": 9310
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39417344331741333,
      "learning_rate": 0.0005843527517703725,
      "loss": 1.7164,
      "step": 9311
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3980771005153656,
      "learning_rate": 0.0005843494201000783,
      "loss": 1.8052,
      "step": 9312
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3868219256401062,
      "learning_rate": 0.0005843460880846259,
      "loss": 1.6976,
      "step": 9313
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3941085636615753,
      "learning_rate": 0.000584342755724019,
      "loss": 1.7552,
      "step": 9314
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39656293392181396,
      "learning_rate": 0.000584339423018262,
      "loss": 1.7213,
      "step": 9315
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3878892660140991,
      "learning_rate": 0.0005843360899673589,
      "loss": 1.7361,
      "step": 9316
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39274680614471436,
      "learning_rate": 0.0005843327565713138,
      "loss": 1.8065,
      "step": 9317
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3953591585159302,
      "learning_rate": 0.0005843294228301304,
      "loss": 1.7761,
      "step": 9318
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3947865962982178,
      "learning_rate": 0.0005843260887438131,
      "loss": 1.7817,
      "step": 9319
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38660651445388794,
      "learning_rate": 0.0005843227543123657,
      "loss": 1.8262,
      "step": 9320
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3915647566318512,
      "learning_rate": 0.0005843194195357924,
      "loss": 1.738,
      "step": 9321
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.374763160943985,
      "learning_rate": 0.0005843160844140973,
      "loss": 1.745,
      "step": 9322
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3934653699398041,
      "learning_rate": 0.0005843127489472843,
      "loss": 1.8229,
      "step": 9323
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39289307594299316,
      "learning_rate": 0.0005843094131353576,
      "loss": 1.7606,
      "step": 9324
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3876548707485199,
      "learning_rate": 0.0005843060769783212,
      "loss": 1.7147,
      "step": 9325
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3987440764904022,
      "learning_rate": 0.000584302740476179,
      "loss": 1.762,
      "step": 9326
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3993535041809082,
      "learning_rate": 0.0005842994036289351,
      "loss": 1.7479,
      "step": 9327
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3850788176059723,
      "learning_rate": 0.0005842960664365937,
      "loss": 1.7985,
      "step": 9328
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3893212676048279,
      "learning_rate": 0.0005842927288991588,
      "loss": 1.7546,
      "step": 9329
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39203035831451416,
      "learning_rate": 0.0005842893910166344,
      "loss": 1.8117,
      "step": 9330
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41205325722694397,
      "learning_rate": 0.0005842860527890245,
      "loss": 1.7952,
      "step": 9331
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3969844877719879,
      "learning_rate": 0.0005842827142163333,
      "loss": 1.8876,
      "step": 9332
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.398616224527359,
      "learning_rate": 0.0005842793752985647,
      "loss": 1.835,
      "step": 9333
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38941776752471924,
      "learning_rate": 0.0005842760360357229,
      "loss": 1.8143,
      "step": 9334
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.408577024936676,
      "learning_rate": 0.0005842726964278118,
      "loss": 1.7569,
      "step": 9335
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3983716070652008,
      "learning_rate": 0.0005842693564748357,
      "loss": 1.9225,
      "step": 9336
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4127829372882843,
      "learning_rate": 0.0005842660161767982,
      "loss": 1.8436,
      "step": 9337
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41335758566856384,
      "learning_rate": 0.0005842626755337038,
      "loss": 1.7774,
      "step": 9338
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39232271909713745,
      "learning_rate": 0.0005842593345455565,
      "loss": 1.697,
      "step": 9339
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3936968743801117,
      "learning_rate": 0.0005842559932123601,
      "loss": 1.7988,
      "step": 9340
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3980669379234314,
      "learning_rate": 0.0005842526515341189,
      "loss": 1.7797,
      "step": 9341
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4176902770996094,
      "learning_rate": 0.0005842493095108369,
      "loss": 1.8668,
      "step": 9342
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3976493179798126,
      "learning_rate": 0.0005842459671425179,
      "loss": 1.8065,
      "step": 9343
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4012362062931061,
      "learning_rate": 0.0005842426244291664,
      "loss": 1.7604,
      "step": 9344
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5363591313362122,
      "learning_rate": 0.0005842392813707861,
      "loss": 1.9273,
      "step": 9345
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38262635469436646,
      "learning_rate": 0.0005842359379673813,
      "loss": 1.7588,
      "step": 9346
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3996847867965698,
      "learning_rate": 0.0005842325942189558,
      "loss": 1.7576,
      "step": 9347
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3910219073295593,
      "learning_rate": 0.000584229250125514,
      "loss": 1.7118,
      "step": 9348
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4321102201938629,
      "learning_rate": 0.0005842259056870596,
      "loss": 1.8321,
      "step": 9349
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4059627652168274,
      "learning_rate": 0.0005842225609035969,
      "loss": 1.7544,
      "step": 9350
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3848295509815216,
      "learning_rate": 0.0005842192157751299,
      "loss": 1.783,
      "step": 9351
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41030359268188477,
      "learning_rate": 0.0005842158703016627,
      "loss": 1.8099,
      "step": 9352
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4130391478538513,
      "learning_rate": 0.0005842125244831992,
      "loss": 1.7898,
      "step": 9353
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40155914425849915,
      "learning_rate": 0.0005842091783197437,
      "loss": 1.8152,
      "step": 9354
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6213873624801636,
      "learning_rate": 0.0005842058318113,
      "loss": 1.7732,
      "step": 9355
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3949536383152008,
      "learning_rate": 0.0005842024849578724,
      "loss": 1.8388,
      "step": 9356
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41061365604400635,
      "learning_rate": 0.0005841991377594647,
      "loss": 1.8044,
      "step": 9357
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4055188298225403,
      "learning_rate": 0.0005841957902160813,
      "loss": 1.8203,
      "step": 9358
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3920646905899048,
      "learning_rate": 0.0005841924423277261,
      "loss": 1.7473,
      "step": 9359
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3913612365722656,
      "learning_rate": 0.000584189094094403,
      "loss": 1.672,
      "step": 9360
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41788148880004883,
      "learning_rate": 0.0005841857455161163,
      "loss": 1.7928,
      "step": 9361
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41195788979530334,
      "learning_rate": 0.00058418239659287,
      "loss": 1.8464,
      "step": 9362
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39748716354370117,
      "learning_rate": 0.000584179047324668,
      "loss": 1.785,
      "step": 9363
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40954527258872986,
      "learning_rate": 0.0005841756977115147,
      "loss": 1.7684,
      "step": 9364
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3925398290157318,
      "learning_rate": 0.0005841723477534138,
      "loss": 1.8415,
      "step": 9365
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3965831696987152,
      "learning_rate": 0.0005841689974503697,
      "loss": 1.8014,
      "step": 9366
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38358572125434875,
      "learning_rate": 0.0005841656468023863,
      "loss": 1.7423,
      "step": 9367
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39077168703079224,
      "learning_rate": 0.0005841622958094676,
      "loss": 1.8001,
      "step": 9368
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40136057138442993,
      "learning_rate": 0.0005841589444716177,
      "loss": 1.785,
      "step": 9369
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39498692750930786,
      "learning_rate": 0.0005841555927888407,
      "loss": 1.777,
      "step": 9370
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39996328949928284,
      "learning_rate": 0.0005841522407611408,
      "loss": 1.765,
      "step": 9371
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3762679994106293,
      "learning_rate": 0.0005841488883885219,
      "loss": 1.7356,
      "step": 9372
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40309134125709534,
      "learning_rate": 0.0005841455356709881,
      "loss": 1.7625,
      "step": 9373
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39333376288414,
      "learning_rate": 0.0005841421826085435,
      "loss": 1.7676,
      "step": 9374
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3988509476184845,
      "learning_rate": 0.0005841388292011922,
      "loss": 1.7879,
      "step": 9375
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3836153447628021,
      "learning_rate": 0.0005841354754489382,
      "loss": 1.7865,
      "step": 9376
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38184601068496704,
      "learning_rate": 0.0005841321213517855,
      "loss": 1.7213,
      "step": 9377
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38942503929138184,
      "learning_rate": 0.0005841287669097384,
      "loss": 1.7662,
      "step": 9378
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39334654808044434,
      "learning_rate": 0.0005841254121228007,
      "loss": 1.7915,
      "step": 9379
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3994915187358856,
      "learning_rate": 0.0005841220569909767,
      "loss": 1.8354,
      "step": 9380
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.386979341506958,
      "learning_rate": 0.0005841187015142704,
      "loss": 1.7787,
      "step": 9381
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3785843849182129,
      "learning_rate": 0.0005841153456926859,
      "loss": 1.7296,
      "step": 9382
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4059644937515259,
      "learning_rate": 0.0005841119895262271,
      "loss": 1.7784,
      "step": 9383
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4801424443721771,
      "learning_rate": 0.0005841086330148983,
      "loss": 1.7736,
      "step": 9384
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39084160327911377,
      "learning_rate": 0.0005841052761587035,
      "loss": 1.7292,
      "step": 9385
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40209636092185974,
      "learning_rate": 0.0005841019189576468,
      "loss": 1.6924,
      "step": 9386
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4126186668872833,
      "learning_rate": 0.000584098561411732,
      "loss": 1.7785,
      "step": 9387
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39125871658325195,
      "learning_rate": 0.0005840952035209636,
      "loss": 1.7938,
      "step": 9388
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3983974754810333,
      "learning_rate": 0.0005840918452853455,
      "loss": 1.8622,
      "step": 9389
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.400652140378952,
      "learning_rate": 0.0005840884867048817,
      "loss": 1.7526,
      "step": 9390
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4252997040748596,
      "learning_rate": 0.0005840851277795762,
      "loss": 1.7973,
      "step": 9391
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40987318754196167,
      "learning_rate": 0.0005840817685094334,
      "loss": 1.733,
      "step": 9392
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40520426630973816,
      "learning_rate": 0.0005840784088944572,
      "loss": 1.8015,
      "step": 9393
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39137473702430725,
      "learning_rate": 0.0005840750489346516,
      "loss": 1.8241,
      "step": 9394
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4258587062358856,
      "learning_rate": 0.0005840716886300208,
      "loss": 1.8786,
      "step": 9395
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3918061852455139,
      "learning_rate": 0.0005840683279805687,
      "loss": 1.6809,
      "step": 9396
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.398987740278244,
      "learning_rate": 0.0005840649669862995,
      "loss": 1.763,
      "step": 9397
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.421447217464447,
      "learning_rate": 0.0005840616056472175,
      "loss": 1.7544,
      "step": 9398
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3872755467891693,
      "learning_rate": 0.0005840582439633265,
      "loss": 1.7183,
      "step": 9399
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40773481130599976,
      "learning_rate": 0.0005840548819346304,
      "loss": 1.7886,
      "step": 9400
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.44017910957336426,
      "learning_rate": 0.0005840515195611337,
      "loss": 1.8494,
      "step": 9401
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3881801664829254,
      "learning_rate": 0.0005840481568428405,
      "loss": 1.7974,
      "step": 9402
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41884756088256836,
      "learning_rate": 0.0005840447937797544,
      "loss": 1.7561,
      "step": 9403
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40198686718940735,
      "learning_rate": 0.0005840414303718799,
      "loss": 1.753,
      "step": 9404
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39131006598472595,
      "learning_rate": 0.0005840380666192209,
      "loss": 1.757,
      "step": 9405
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38384565711021423,
      "learning_rate": 0.0005840347025217816,
      "loss": 1.743,
      "step": 9406
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38889849185943604,
      "learning_rate": 0.000584031338079566,
      "loss": 1.7737,
      "step": 9407
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4057651162147522,
      "learning_rate": 0.0005840279732925782,
      "loss": 1.8012,
      "step": 9408
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4033738672733307,
      "learning_rate": 0.0005840246081608223,
      "loss": 1.8208,
      "step": 9409
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4038747251033783,
      "learning_rate": 0.0005840212426843023,
      "loss": 1.8043,
      "step": 9410
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39585572481155396,
      "learning_rate": 0.0005840178768630224,
      "loss": 1.7284,
      "step": 9411
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3941185772418976,
      "learning_rate": 0.0005840145106969868,
      "loss": 1.8013,
      "step": 9412
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39320531487464905,
      "learning_rate": 0.0005840111441861993,
      "loss": 1.7541,
      "step": 9413
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.391554057598114,
      "learning_rate": 0.000584007777330664,
      "loss": 1.7027,
      "step": 9414
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3891579210758209,
      "learning_rate": 0.0005840044101303852,
      "loss": 1.7809,
      "step": 9415
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39539238810539246,
      "learning_rate": 0.000584001042585367,
      "loss": 1.7042,
      "step": 9416
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39573240280151367,
      "learning_rate": 0.0005839976746956133,
      "loss": 1.8511,
      "step": 9417
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.37752220034599304,
      "learning_rate": 0.0005839943064611283,
      "loss": 1.7484,
      "step": 9418
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38423946499824524,
      "learning_rate": 0.0005839909378819161,
      "loss": 1.7231,
      "step": 9419
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3999485969543457,
      "learning_rate": 0.0005839875689579806,
      "loss": 1.8156,
      "step": 9420
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4004848897457123,
      "learning_rate": 0.0005839841996893261,
      "loss": 1.7479,
      "step": 9421
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39206328988075256,
      "learning_rate": 0.0005839808300759566,
      "loss": 1.7779,
      "step": 9422
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3950704038143158,
      "learning_rate": 0.0005839774601178763,
      "loss": 1.8085,
      "step": 9423
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41723814606666565,
      "learning_rate": 0.0005839740898150891,
      "loss": 1.7982,
      "step": 9424
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3873751759529114,
      "learning_rate": 0.0005839707191675992,
      "loss": 1.7491,
      "step": 9425
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38997167348861694,
      "learning_rate": 0.0005839673481754108,
      "loss": 1.8128,
      "step": 9426
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3993488550186157,
      "learning_rate": 0.0005839639768385278,
      "loss": 1.6627,
      "step": 9427
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4017855226993561,
      "learning_rate": 0.0005839606051569544,
      "loss": 1.7013,
      "step": 9428
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42016837000846863,
      "learning_rate": 0.0005839572331306946,
      "loss": 1.7466,
      "step": 9429
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4061506986618042,
      "learning_rate": 0.0005839538607597527,
      "loss": 1.7579,
      "step": 9430
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39170902967453003,
      "learning_rate": 0.0005839504880441325,
      "loss": 1.7718,
      "step": 9431
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4113105237483978,
      "learning_rate": 0.0005839471149838382,
      "loss": 1.7732,
      "step": 9432
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3789272606372833,
      "learning_rate": 0.0005839437415788741,
      "loss": 1.7737,
      "step": 9433
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40752336382865906,
      "learning_rate": 0.0005839403678292441,
      "loss": 1.8019,
      "step": 9434
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4118448495864868,
      "learning_rate": 0.0005839369937349523,
      "loss": 1.8656,
      "step": 9435
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4115651547908783,
      "learning_rate": 0.0005839336192960028,
      "loss": 1.805,
      "step": 9436
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40233591198921204,
      "learning_rate": 0.0005839302445123998,
      "loss": 1.7817,
      "step": 9437
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39830783009529114,
      "learning_rate": 0.0005839268693841473,
      "loss": 1.795,
      "step": 9438
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42094090580940247,
      "learning_rate": 0.0005839234939112493,
      "loss": 1.7563,
      "step": 9439
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3989379107952118,
      "learning_rate": 0.0005839201180937101,
      "loss": 1.7775,
      "step": 9440
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40071967244148254,
      "learning_rate": 0.0005839167419315338,
      "loss": 1.8117,
      "step": 9441
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.399734765291214,
      "learning_rate": 0.0005839133654247243,
      "loss": 1.7928,
      "step": 9442
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4156278073787689,
      "learning_rate": 0.0005839099885732858,
      "loss": 1.8378,
      "step": 9443
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3965320587158203,
      "learning_rate": 0.0005839066113772224,
      "loss": 1.7461,
      "step": 9444
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4915775954723358,
      "learning_rate": 0.0005839032338365382,
      "loss": 1.8383,
      "step": 9445
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4069870412349701,
      "learning_rate": 0.0005838998559512374,
      "loss": 1.7467,
      "step": 9446
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4112018048763275,
      "learning_rate": 0.000583896477721324,
      "loss": 1.7925,
      "step": 9447
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3995136320590973,
      "learning_rate": 0.000583893099146802,
      "loss": 1.7565,
      "step": 9448
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3911115229129791,
      "learning_rate": 0.0005838897202276757,
      "loss": 1.7745,
      "step": 9449
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.42217209935188293,
      "learning_rate": 0.0005838863409639491,
      "loss": 1.7543,
      "step": 9450
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4141845405101776,
      "learning_rate": 0.0005838829613556263,
      "loss": 1.8381,
      "step": 9451
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39151501655578613,
      "learning_rate": 0.0005838795814027114,
      "loss": 1.8203,
      "step": 9452
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41678714752197266,
      "learning_rate": 0.0005838762011052084,
      "loss": 1.7931,
      "step": 9453
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.43872252106666565,
      "learning_rate": 0.0005838728204631217,
      "loss": 1.8494,
      "step": 9454
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3916299045085907,
      "learning_rate": 0.0005838694394764551,
      "loss": 1.759,
      "step": 9455
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39371994137763977,
      "learning_rate": 0.000583866058145213,
      "loss": 1.8569,
      "step": 9456
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39614495635032654,
      "learning_rate": 0.0005838626764693991,
      "loss": 1.7698,
      "step": 9457
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39588215947151184,
      "learning_rate": 0.000583859294449018,
      "loss": 1.7937,
      "step": 9458
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39472001791000366,
      "learning_rate": 0.0005838559120840733,
      "loss": 1.8204,
      "step": 9459
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4025217294692993,
      "learning_rate": 0.0005838525293745695,
      "loss": 1.7541,
      "step": 9460
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4034268260002136,
      "learning_rate": 0.0005838491463205104,
      "loss": 1.9256,
      "step": 9461
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39323344826698303,
      "learning_rate": 0.0005838457629219004,
      "loss": 1.8072,
      "step": 9462
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39901551604270935,
      "learning_rate": 0.0005838423791787433,
      "loss": 1.8365,
      "step": 9463
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4046468138694763,
      "learning_rate": 0.0005838389950910436,
      "loss": 1.8209,
      "step": 9464
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4097121059894562,
      "learning_rate": 0.0005838356106588051,
      "loss": 1.8448,
      "step": 9465
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38961100578308105,
      "learning_rate": 0.000583832225882032,
      "loss": 1.8351,
      "step": 9466
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3795650005340576,
      "learning_rate": 0.0005838288407607283,
      "loss": 1.7266,
      "step": 9467
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4080372452735901,
      "learning_rate": 0.0005838254552948982,
      "loss": 1.7167,
      "step": 9468
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39202404022216797,
      "learning_rate": 0.000583822069484546,
      "loss": 1.7572,
      "step": 9469
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39925527572631836,
      "learning_rate": 0.0005838186833296754,
      "loss": 1.7565,
      "step": 9470
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38967251777648926,
      "learning_rate": 0.0005838152968302908,
      "loss": 1.7551,
      "step": 9471
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4168667793273926,
      "learning_rate": 0.0005838119099863964,
      "loss": 1.7583,
      "step": 9472
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40040868520736694,
      "learning_rate": 0.000583808522797996,
      "loss": 1.8289,
      "step": 9473
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4105245769023895,
      "learning_rate": 0.000583805135265094,
      "loss": 1.7907,
      "step": 9474
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40018248558044434,
      "learning_rate": 0.0005838017473876943,
      "loss": 1.8115,
      "step": 9475
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40148696303367615,
      "learning_rate": 0.0005837983591658011,
      "loss": 1.8478,
      "step": 9476
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3952869474887848,
      "learning_rate": 0.0005837949705994185,
      "loss": 1.785,
      "step": 9477
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3943234384059906,
      "learning_rate": 0.0005837915816885506,
      "loss": 1.8288,
      "step": 9478
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4014657139778137,
      "learning_rate": 0.0005837881924332016,
      "loss": 1.7917,
      "step": 9479
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38241851329803467,
      "learning_rate": 0.0005837848028333756,
      "loss": 1.7451,
      "step": 9480
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3928004503250122,
      "learning_rate": 0.0005837814128890765,
      "loss": 1.7979,
      "step": 9481
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4042642414569855,
      "learning_rate": 0.0005837780226003086,
      "loss": 1.8534,
      "step": 9482
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4114649295806885,
      "learning_rate": 0.0005837746319670761,
      "loss": 1.845,
      "step": 9483
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39200565218925476,
      "learning_rate": 0.0005837712409893829,
      "loss": 1.8161,
      "step": 9484
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3771221339702606,
      "learning_rate": 0.0005837678496672333,
      "loss": 1.7932,
      "step": 9485
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39909616112709045,
      "learning_rate": 0.0005837644580006313,
      "loss": 1.8848,
      "step": 9486
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.412853866815567,
      "learning_rate": 0.0005837610659895811,
      "loss": 1.7269,
      "step": 9487
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3815828859806061,
      "learning_rate": 0.0005837576736340867,
      "loss": 1.7717,
      "step": 9488
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39575502276420593,
      "learning_rate": 0.0005837542809341525,
      "loss": 1.818,
      "step": 9489
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40299591422080994,
      "learning_rate": 0.0005837508878897822,
      "loss": 1.7715,
      "step": 9490
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4067263603210449,
      "learning_rate": 0.0005837474945009802,
      "loss": 1.749,
      "step": 9491
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3999800682067871,
      "learning_rate": 0.0005837441007677506,
      "loss": 1.8493,
      "step": 9492
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.425199031829834,
      "learning_rate": 0.0005837407066900974,
      "loss": 1.8711,
      "step": 9493
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.43836238980293274,
      "learning_rate": 0.0005837373122680248,
      "loss": 1.7753,
      "step": 9494
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3915286362171173,
      "learning_rate": 0.0005837339175015369,
      "loss": 1.8353,
      "step": 9495
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3970775008201599,
      "learning_rate": 0.0005837305223906378,
      "loss": 1.7954,
      "step": 9496
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4510142207145691,
      "learning_rate": 0.0005837271269353317,
      "loss": 1.7711,
      "step": 9497
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4108511805534363,
      "learning_rate": 0.0005837237311356227,
      "loss": 1.9033,
      "step": 9498
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40169304609298706,
      "learning_rate": 0.0005837203349915149,
      "loss": 1.7832,
      "step": 9499
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41266217827796936,
      "learning_rate": 0.0005837169385030124,
      "loss": 1.8041,
      "step": 9500
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5769331455230713,
      "learning_rate": 0.0005837135416701193,
      "loss": 1.8363,
      "step": 9501
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39146578311920166,
      "learning_rate": 0.0005837101444928398,
      "loss": 1.7256,
      "step": 9502
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38609078526496887,
      "learning_rate": 0.0005837067469711779,
      "loss": 1.7389,
      "step": 9503
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.416347473859787,
      "learning_rate": 0.0005837033491051379,
      "loss": 1.7925,
      "step": 9504
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40864071249961853,
      "learning_rate": 0.0005836999508947239,
      "loss": 1.8166,
      "step": 9505
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3957933187484741,
      "learning_rate": 0.0005836965523399398,
      "loss": 1.8349,
      "step": 9506
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39594483375549316,
      "learning_rate": 0.00058369315344079,
      "loss": 1.7367,
      "step": 9507
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.400605171918869,
      "learning_rate": 0.0005836897541972784,
      "loss": 1.7446,
      "step": 9508
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40240421891212463,
      "learning_rate": 0.0005836863546094094,
      "loss": 1.8494,
      "step": 9509
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3956052362918854,
      "learning_rate": 0.0005836829546771869,
      "loss": 1.7673,
      "step": 9510
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4092732071876526,
      "learning_rate": 0.0005836795544006151,
      "loss": 1.817,
      "step": 9511
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39733368158340454,
      "learning_rate": 0.0005836761537796981,
      "loss": 1.7767,
      "step": 9512
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41294217109680176,
      "learning_rate": 0.0005836727528144399,
      "loss": 1.8047,
      "step": 9513
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40448981523513794,
      "learning_rate": 0.0005836693515048451,
      "loss": 1.8535,
      "step": 9514
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4167728126049042,
      "learning_rate": 0.0005836659498509171,
      "loss": 1.7699,
      "step": 9515
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39861470460891724,
      "learning_rate": 0.0005836625478526607,
      "loss": 1.749,
      "step": 9516
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38862115144729614,
      "learning_rate": 0.0005836591455100798,
      "loss": 1.7886,
      "step": 9517
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3992859423160553,
      "learning_rate": 0.0005836557428231784,
      "loss": 1.8514,
      "step": 9518
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40689587593078613,
      "learning_rate": 0.0005836523397919608,
      "loss": 1.7898,
      "step": 9519
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38987597823143005,
      "learning_rate": 0.0005836489364164309,
      "loss": 1.833,
      "step": 9520
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39351677894592285,
      "learning_rate": 0.000583645532696593,
      "loss": 1.7693,
      "step": 9521
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3993060290813446,
      "learning_rate": 0.0005836421286324514,
      "loss": 1.7385,
      "step": 9522
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3895949125289917,
      "learning_rate": 0.0005836387242240099,
      "loss": 1.817,
      "step": 9523
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39710256457328796,
      "learning_rate": 0.0005836353194712728,
      "loss": 1.8223,
      "step": 9524
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3874666392803192,
      "learning_rate": 0.0005836319143742443,
      "loss": 1.7261,
      "step": 9525
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3828634023666382,
      "learning_rate": 0.0005836285089329283,
      "loss": 1.7599,
      "step": 9526
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3928307592868805,
      "learning_rate": 0.0005836251031473292,
      "loss": 1.7457,
      "step": 9527
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41305428743362427,
      "learning_rate": 0.000583621697017451,
      "loss": 1.8518,
      "step": 9528
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40107592940330505,
      "learning_rate": 0.0005836182905432978,
      "loss": 1.796,
      "step": 9529
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.413797527551651,
      "learning_rate": 0.0005836148837248738,
      "loss": 1.7409,
      "step": 9530
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3980850875377655,
      "learning_rate": 0.0005836114765621831,
      "loss": 1.8904,
      "step": 9531
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3937475085258484,
      "learning_rate": 0.0005836080690552299,
      "loss": 1.7212,
      "step": 9532
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38224032521247864,
      "learning_rate": 0.0005836046612040182,
      "loss": 1.7492,
      "step": 9533
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3851875364780426,
      "learning_rate": 0.0005836012530085524,
      "loss": 1.7305,
      "step": 9534
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40495696663856506,
      "learning_rate": 0.0005835978444688364,
      "loss": 1.75,
      "step": 9535
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39705631136894226,
      "learning_rate": 0.0005835944355848743,
      "loss": 1.806,
      "step": 9536
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4054756462574005,
      "learning_rate": 0.0005835910263566704,
      "loss": 1.7939,
      "step": 9537
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3969869613647461,
      "learning_rate": 0.0005835876167842288,
      "loss": 1.7294,
      "step": 9538
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3896726071834564,
      "learning_rate": 0.0005835842068675536,
      "loss": 1.8558,
      "step": 9539
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3931354284286499,
      "learning_rate": 0.000583580796606649,
      "loss": 1.7948,
      "step": 9540
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3918992877006531,
      "learning_rate": 0.000583577386001519,
      "loss": 1.8434,
      "step": 9541
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40445128083229065,
      "learning_rate": 0.0005835739750521679,
      "loss": 1.7852,
      "step": 9542
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3957482576370239,
      "learning_rate": 0.0005835705637585999,
      "loss": 1.8459,
      "step": 9543
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40420788526535034,
      "learning_rate": 0.0005835671521208188,
      "loss": 1.7732,
      "step": 9544
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39975282549858093,
      "learning_rate": 0.0005835637401388291,
      "loss": 1.8117,
      "step": 9545
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3928331136703491,
      "learning_rate": 0.0005835603278126347,
      "loss": 1.772,
      "step": 9546
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.42621588706970215,
      "learning_rate": 0.0005835569151422399,
      "loss": 1.7813,
      "step": 9547
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40246379375457764,
      "learning_rate": 0.0005835535021276488,
      "loss": 1.6487,
      "step": 9548
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40175876021385193,
      "learning_rate": 0.0005835500887688656,
      "loss": 1.8658,
      "step": 9549
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39603927731513977,
      "learning_rate": 0.0005835466750658941,
      "loss": 1.8078,
      "step": 9550
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4042530059814453,
      "learning_rate": 0.000583543261018739,
      "loss": 1.7571,
      "step": 9551
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3939604163169861,
      "learning_rate": 0.000583539846627404,
      "loss": 1.7733,
      "step": 9552
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3961760401725769,
      "learning_rate": 0.0005835364318918935,
      "loss": 1.749,
      "step": 9553
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4089777171611786,
      "learning_rate": 0.0005835330168122116,
      "loss": 1.838,
      "step": 9554
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41469380259513855,
      "learning_rate": 0.0005835296013883622,
      "loss": 1.6806,
      "step": 9555
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4071866571903229,
      "learning_rate": 0.0005835261856203497,
      "loss": 1.7217,
      "step": 9556
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.392010360956192,
      "learning_rate": 0.0005835227695081783,
      "loss": 1.7402,
      "step": 9557
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3876921832561493,
      "learning_rate": 0.000583519353051852,
      "loss": 1.7088,
      "step": 9558
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3851514458656311,
      "learning_rate": 0.000583515936251375,
      "loss": 1.7932,
      "step": 9559
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4131810963153839,
      "learning_rate": 0.0005835125191067513,
      "loss": 1.7681,
      "step": 9560
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39410191774368286,
      "learning_rate": 0.0005835091016179851,
      "loss": 1.7092,
      "step": 9561
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39749276638031006,
      "learning_rate": 0.0005835056837850809,
      "loss": 1.7251,
      "step": 9562
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.399194598197937,
      "learning_rate": 0.0005835022656080424,
      "loss": 1.8251,
      "step": 9563
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3955376148223877,
      "learning_rate": 0.000583498847086874,
      "loss": 1.7595,
      "step": 9564
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3997882604598999,
      "learning_rate": 0.0005834954282215797,
      "loss": 1.8022,
      "step": 9565
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3968107998371124,
      "learning_rate": 0.0005834920090121638,
      "loss": 1.743,
      "step": 9566
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3939686417579651,
      "learning_rate": 0.0005834885894586303,
      "loss": 1.7161,
      "step": 9567
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38027581572532654,
      "learning_rate": 0.0005834851695609834,
      "loss": 1.7304,
      "step": 9568
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4030815064907074,
      "learning_rate": 0.0005834817493192274,
      "loss": 1.8641,
      "step": 9569
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39420050382614136,
      "learning_rate": 0.0005834783287333662,
      "loss": 1.7974,
      "step": 9570
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3916562497615814,
      "learning_rate": 0.0005834749078034042,
      "loss": 1.7309,
      "step": 9571
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39982277154922485,
      "learning_rate": 0.0005834714865293454,
      "loss": 1.7528,
      "step": 9572
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3947829008102417,
      "learning_rate": 0.0005834680649111939,
      "loss": 1.7618,
      "step": 9573
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4041026532649994,
      "learning_rate": 0.0005834646429489539,
      "loss": 1.8156,
      "step": 9574
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4005655348300934,
      "learning_rate": 0.0005834612206426297,
      "loss": 1.7707,
      "step": 9575
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3879951536655426,
      "learning_rate": 0.0005834577979922254,
      "loss": 1.7564,
      "step": 9576
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3969142735004425,
      "learning_rate": 0.000583454374997745,
      "loss": 1.8164,
      "step": 9577
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3966784179210663,
      "learning_rate": 0.0005834509516591926,
      "loss": 1.7353,
      "step": 9578
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39561378955841064,
      "learning_rate": 0.0005834475279765728,
      "loss": 1.7157,
      "step": 9579
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41535666584968567,
      "learning_rate": 0.0005834441039498893,
      "loss": 1.7888,
      "step": 9580
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.407939076423645,
      "learning_rate": 0.0005834406795791465,
      "loss": 1.7114,
      "step": 9581
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40023842453956604,
      "learning_rate": 0.0005834372548643484,
      "loss": 1.7804,
      "step": 9582
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4151366651058197,
      "learning_rate": 0.0005834338298054992,
      "loss": 1.8987,
      "step": 9583
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39288878440856934,
      "learning_rate": 0.0005834304044026032,
      "loss": 1.7639,
      "step": 9584
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4035565257072449,
      "learning_rate": 0.0005834269786556645,
      "loss": 1.81,
      "step": 9585
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.415789395570755,
      "learning_rate": 0.0005834235525646871,
      "loss": 1.7092,
      "step": 9586
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.37975841760635376,
      "learning_rate": 0.0005834201261296752,
      "loss": 1.8263,
      "step": 9587
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3911895453929901,
      "learning_rate": 0.0005834166993506332,
      "loss": 1.7523,
      "step": 9588
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3979348838329315,
      "learning_rate": 0.000583413272227565,
      "loss": 1.7506,
      "step": 9589
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4004163444042206,
      "learning_rate": 0.0005834098447604748,
      "loss": 1.8449,
      "step": 9590
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40723276138305664,
      "learning_rate": 0.0005834064169493668,
      "loss": 1.7616,
      "step": 9591
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41352543234825134,
      "learning_rate": 0.0005834029887942453,
      "loss": 1.7359,
      "step": 9592
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39964374899864197,
      "learning_rate": 0.0005833995602951142,
      "loss": 1.8048,
      "step": 9593
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.43319323658943176,
      "learning_rate": 0.0005833961314519779,
      "loss": 1.7408,
      "step": 9594
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39533233642578125,
      "learning_rate": 0.0005833927022648404,
      "loss": 1.7289,
      "step": 9595
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4145280122756958,
      "learning_rate": 0.0005833892727337059,
      "loss": 1.7612,
      "step": 9596
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.399662584066391,
      "learning_rate": 0.0005833858428585786,
      "loss": 1.8417,
      "step": 9597
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3861345052719116,
      "learning_rate": 0.0005833824126394627,
      "loss": 1.6948,
      "step": 9598
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39337316155433655,
      "learning_rate": 0.0005833789820763621,
      "loss": 1.7188,
      "step": 9599
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39033380150794983,
      "learning_rate": 0.0005833755511692813,
      "loss": 1.8342,
      "step": 9600
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3804812431335449,
      "learning_rate": 0.0005833721199182244,
      "loss": 1.6878,
      "step": 9601
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40273940563201904,
      "learning_rate": 0.0005833686883231954,
      "loss": 1.8021,
      "step": 9602
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3880190849304199,
      "learning_rate": 0.0005833652563841987,
      "loss": 1.7436,
      "step": 9603
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.388210654258728,
      "learning_rate": 0.0005833618241012382,
      "loss": 1.7016,
      "step": 9604
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3920084238052368,
      "learning_rate": 0.0005833583914743182,
      "loss": 1.8052,
      "step": 9605
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3884473443031311,
      "learning_rate": 0.0005833549585034429,
      "loss": 1.8138,
      "step": 9606
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4015522599220276,
      "learning_rate": 0.0005833515251886164,
      "loss": 1.7698,
      "step": 9607
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.398098349571228,
      "learning_rate": 0.000583348091529843,
      "loss": 1.7694,
      "step": 9608
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3958008289337158,
      "learning_rate": 0.0005833446575271267,
      "loss": 1.7982,
      "step": 9609
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3945459723472595,
      "learning_rate": 0.0005833412231804717,
      "loss": 1.7845,
      "step": 9610
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38996750116348267,
      "learning_rate": 0.0005833377884898822,
      "loss": 1.7769,
      "step": 9611
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39101356267929077,
      "learning_rate": 0.0005833343534553624,
      "loss": 1.8498,
      "step": 9612
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3955906927585602,
      "learning_rate": 0.0005833309180769164,
      "loss": 1.7967,
      "step": 9613
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3864940404891968,
      "learning_rate": 0.0005833274823545486,
      "loss": 1.8148,
      "step": 9614
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.379454642534256,
      "learning_rate": 0.0005833240462882628,
      "loss": 1.7878,
      "step": 9615
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.394806444644928,
      "learning_rate": 0.0005833206098780633,
      "loss": 1.7547,
      "step": 9616
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3948272168636322,
      "learning_rate": 0.0005833171731239545,
      "loss": 1.6735,
      "step": 9617
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3878364562988281,
      "learning_rate": 0.0005833137360259403,
      "loss": 1.7515,
      "step": 9618
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4028201997280121,
      "learning_rate": 0.000583310298584025,
      "loss": 1.7812,
      "step": 9619
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4035983681678772,
      "learning_rate": 0.0005833068607982128,
      "loss": 1.8427,
      "step": 9620
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39112699031829834,
      "learning_rate": 0.0005833034226685077,
      "loss": 1.7884,
      "step": 9621
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3968546688556671,
      "learning_rate": 0.0005832999841949141,
      "loss": 1.796,
      "step": 9622
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38392892479896545,
      "learning_rate": 0.0005832965453774359,
      "loss": 1.7567,
      "step": 9623
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4043903350830078,
      "learning_rate": 0.0005832931062160775,
      "loss": 1.8081,
      "step": 9624
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40617045760154724,
      "learning_rate": 0.0005832896667108431,
      "loss": 1.7001,
      "step": 9625
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40344002842903137,
      "learning_rate": 0.0005832862268617367,
      "loss": 1.8427,
      "step": 9626
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3934789001941681,
      "learning_rate": 0.0005832827866687626,
      "loss": 1.7705,
      "step": 9627
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40070581436157227,
      "learning_rate": 0.0005832793461319249,
      "loss": 1.7944,
      "step": 9628
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.48967650532722473,
      "learning_rate": 0.0005832759052512278,
      "loss": 1.7661,
      "step": 9629
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38580384850502014,
      "learning_rate": 0.0005832724640266755,
      "loss": 1.7747,
      "step": 9630
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38953226804733276,
      "learning_rate": 0.0005832690224582722,
      "loss": 1.7336,
      "step": 9631
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4003971815109253,
      "learning_rate": 0.000583265580546022,
      "loss": 1.8429,
      "step": 9632
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40151268243789673,
      "learning_rate": 0.0005832621382899292,
      "loss": 1.8486,
      "step": 9633
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38329944014549255,
      "learning_rate": 0.0005832586956899978,
      "loss": 1.8635,
      "step": 9634
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39662668108940125,
      "learning_rate": 0.0005832552527462322,
      "loss": 1.7636,
      "step": 9635
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3991083800792694,
      "learning_rate": 0.0005832518094586364,
      "loss": 1.7984,
      "step": 9636
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3962973654270172,
      "learning_rate": 0.0005832483658272146,
      "loss": 1.7928,
      "step": 9637
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38667452335357666,
      "learning_rate": 0.0005832449218519711,
      "loss": 1.7104,
      "step": 9638
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.408379465341568,
      "learning_rate": 0.00058324147753291,
      "loss": 1.797,
      "step": 9639
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39342132210731506,
      "learning_rate": 0.0005832380328700354,
      "loss": 1.7659,
      "step": 9640
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38952839374542236,
      "learning_rate": 0.0005832345878633516,
      "loss": 1.7377,
      "step": 9641
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39168962836265564,
      "learning_rate": 0.0005832311425128628,
      "loss": 1.785,
      "step": 9642
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3892567753791809,
      "learning_rate": 0.000583227696818573,
      "loss": 1.8093,
      "step": 9643
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39003369212150574,
      "learning_rate": 0.0005832242507804865,
      "loss": 1.7812,
      "step": 9644
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.393677294254303,
      "learning_rate": 0.0005832208043986076,
      "loss": 1.846,
      "step": 9645
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4125591218471527,
      "learning_rate": 0.0005832173576729403,
      "loss": 1.8654,
      "step": 9646
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38548150658607483,
      "learning_rate": 0.000583213910603489,
      "loss": 1.79,
      "step": 9647
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3929133415222168,
      "learning_rate": 0.0005832104631902575,
      "loss": 1.8194,
      "step": 9648
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.388908326625824,
      "learning_rate": 0.0005832070154332504,
      "loss": 1.7935,
      "step": 9649
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41006720066070557,
      "learning_rate": 0.0005832035673324716,
      "loss": 1.8547,
      "step": 9650
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3901830017566681,
      "learning_rate": 0.0005832001188879255,
      "loss": 1.862,
      "step": 9651
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38219428062438965,
      "learning_rate": 0.0005831966700996162,
      "loss": 1.8013,
      "step": 9652
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3999903202056885,
      "learning_rate": 0.0005831932209675478,
      "loss": 1.8026,
      "step": 9653
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40920019149780273,
      "learning_rate": 0.0005831897714917246,
      "loss": 1.7622,
      "step": 9654
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40210339426994324,
      "learning_rate": 0.0005831863216721507,
      "loss": 1.8275,
      "step": 9655
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3881555199623108,
      "learning_rate": 0.0005831828715088304,
      "loss": 1.8069,
      "step": 9656
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40430718660354614,
      "learning_rate": 0.0005831794210017678,
      "loss": 1.7746,
      "step": 9657
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3988853394985199,
      "learning_rate": 0.0005831759701509671,
      "loss": 1.7925,
      "step": 9658
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3945496380329132,
      "learning_rate": 0.0005831725189564324,
      "loss": 1.765,
      "step": 9659
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38658255338668823,
      "learning_rate": 0.0005831690674181681,
      "loss": 1.787,
      "step": 9660
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3967009484767914,
      "learning_rate": 0.0005831656155361782,
      "loss": 1.8614,
      "step": 9661
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3938102424144745,
      "learning_rate": 0.000583162163310467,
      "loss": 1.769,
      "step": 9662
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4093081057071686,
      "learning_rate": 0.0005831587107410386,
      "loss": 1.7966,
      "step": 9663
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3923400342464447,
      "learning_rate": 0.0005831552578278973,
      "loss": 1.7701,
      "step": 9664
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39648857712745667,
      "learning_rate": 0.0005831518045710472,
      "loss": 1.7865,
      "step": 9665
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3920697569847107,
      "learning_rate": 0.0005831483509704927,
      "loss": 1.7861,
      "step": 9666
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4008897840976715,
      "learning_rate": 0.0005831448970262376,
      "loss": 1.7266,
      "step": 9667
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40927425026893616,
      "learning_rate": 0.0005831414427382865,
      "loss": 1.7378,
      "step": 9668
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39831966161727905,
      "learning_rate": 0.0005831379881066433,
      "loss": 1.8034,
      "step": 9669
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3893921375274658,
      "learning_rate": 0.0005831345331313123,
      "loss": 1.7245,
      "step": 9670
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38251835107803345,
      "learning_rate": 0.0005831310778122977,
      "loss": 1.7815,
      "step": 9671
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40583065152168274,
      "learning_rate": 0.0005831276221496037,
      "loss": 1.7423,
      "step": 9672
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4270290732383728,
      "learning_rate": 0.0005831241661432344,
      "loss": 1.8411,
      "step": 9673
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38716381788253784,
      "learning_rate": 0.0005831207097931943,
      "loss": 1.7928,
      "step": 9674
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.37818142771720886,
      "learning_rate": 0.0005831172530994872,
      "loss": 1.7601,
      "step": 9675
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39707380533218384,
      "learning_rate": 0.0005831137960621175,
      "loss": 1.824,
      "step": 9676
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39887842535972595,
      "learning_rate": 0.0005831103386810893,
      "loss": 1.8582,
      "step": 9677
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39428743720054626,
      "learning_rate": 0.000583106880956407,
      "loss": 1.9055,
      "step": 9678
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4205408990383148,
      "learning_rate": 0.0005831034228880746,
      "loss": 1.7642,
      "step": 9679
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3785451650619507,
      "learning_rate": 0.0005830999644760964,
      "loss": 1.7654,
      "step": 9680
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39827027916908264,
      "learning_rate": 0.0005830965057204765,
      "loss": 1.733,
      "step": 9681
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3938605487346649,
      "learning_rate": 0.0005830930466212192,
      "loss": 1.6841,
      "step": 9682
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40429186820983887,
      "learning_rate": 0.0005830895871783285,
      "loss": 1.793,
      "step": 9683
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3930601477622986,
      "learning_rate": 0.0005830861273918089,
      "loss": 1.6761,
      "step": 9684
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3895341753959656,
      "learning_rate": 0.0005830826672616644,
      "loss": 1.7048,
      "step": 9685
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40795060992240906,
      "learning_rate": 0.0005830792067878993,
      "loss": 1.8668,
      "step": 9686
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4001424312591553,
      "learning_rate": 0.0005830757459705177,
      "loss": 1.7766,
      "step": 9687
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39576655626296997,
      "learning_rate": 0.000583072284809524,
      "loss": 1.7206,
      "step": 9688
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4008542001247406,
      "learning_rate": 0.000583068823304922,
      "loss": 1.7778,
      "step": 9689
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.385387659072876,
      "learning_rate": 0.0005830653614567164,
      "loss": 1.7832,
      "step": 9690
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4217846393585205,
      "learning_rate": 0.0005830618992649111,
      "loss": 1.7606,
      "step": 9691
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40149012207984924,
      "learning_rate": 0.0005830584367295102,
      "loss": 1.7379,
      "step": 9692
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41593220829963684,
      "learning_rate": 0.0005830549738505182,
      "loss": 1.8525,
      "step": 9693
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4016769826412201,
      "learning_rate": 0.0005830515106279391,
      "loss": 1.853,
      "step": 9694
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4039657413959503,
      "learning_rate": 0.0005830480470617773,
      "loss": 1.8352,
      "step": 9695
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4026361405849457,
      "learning_rate": 0.0005830445831520368,
      "loss": 1.7241,
      "step": 9696
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40328824520111084,
      "learning_rate": 0.0005830411188987218,
      "loss": 1.7836,
      "step": 9697
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4089009761810303,
      "learning_rate": 0.0005830376543018367,
      "loss": 1.7771,
      "step": 9698
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39708563685417175,
      "learning_rate": 0.0005830341893613856,
      "loss": 1.7388,
      "step": 9699
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.413517564535141,
      "learning_rate": 0.0005830307240773726,
      "loss": 1.7951,
      "step": 9700
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3988458514213562,
      "learning_rate": 0.000583027258449802,
      "loss": 1.7498,
      "step": 9701
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40064823627471924,
      "learning_rate": 0.0005830237924786782,
      "loss": 1.744,
      "step": 9702
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.41309282183647156,
      "learning_rate": 0.0005830203261640049,
      "loss": 1.7672,
      "step": 9703
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.42226049304008484,
      "learning_rate": 0.0005830168595057869,
      "loss": 1.7366,
      "step": 9704
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3871348798274994,
      "learning_rate": 0.000583013392504028,
      "loss": 1.8556,
      "step": 9705
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3896099925041199,
      "learning_rate": 0.0005830099251587326,
      "loss": 1.7705,
      "step": 9706
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39582955837249756,
      "learning_rate": 0.0005830064574699048,
      "loss": 1.7393,
      "step": 9707
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40610581636428833,
      "learning_rate": 0.0005830029894375489,
      "loss": 1.7815,
      "step": 9708
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4012163579463959,
      "learning_rate": 0.0005829995210616691,
      "loss": 1.8466,
      "step": 9709
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38691437244415283,
      "learning_rate": 0.0005829960523422695,
      "loss": 1.658,
      "step": 9710
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3910951018333435,
      "learning_rate": 0.0005829925832793545,
      "loss": 1.773,
      "step": 9711
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.399702787399292,
      "learning_rate": 0.000582989113872928,
      "loss": 1.7352,
      "step": 9712
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.405732125043869,
      "learning_rate": 0.0005829856441229946,
      "loss": 1.7646,
      "step": 9713
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3894490897655487,
      "learning_rate": 0.0005829821740295582,
      "loss": 1.7811,
      "step": 9714
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3903898298740387,
      "learning_rate": 0.0005829787035926233,
      "loss": 1.7525,
      "step": 9715
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3963310718536377,
      "learning_rate": 0.0005829752328121939,
      "loss": 1.7411,
      "step": 9716
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39668235182762146,
      "learning_rate": 0.0005829717616882741,
      "loss": 1.718,
      "step": 9717
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39947929978370667,
      "learning_rate": 0.0005829682902208684,
      "loss": 1.756,
      "step": 9718
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39518317580223083,
      "learning_rate": 0.0005829648184099809,
      "loss": 1.8306,
      "step": 9719
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38419094681739807,
      "learning_rate": 0.0005829613462556158,
      "loss": 1.7647,
      "step": 9720
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39475154876708984,
      "learning_rate": 0.0005829578737577772,
      "loss": 1.8499,
      "step": 9721
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.397210955619812,
      "learning_rate": 0.0005829544009164696,
      "loss": 1.7405,
      "step": 9722
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40520837903022766,
      "learning_rate": 0.000582950927731697,
      "loss": 1.7853,
      "step": 9723
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3840351700782776,
      "learning_rate": 0.0005829474542034637,
      "loss": 1.8221,
      "step": 9724
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38472265005111694,
      "learning_rate": 0.0005829439803317737,
      "loss": 1.7029,
      "step": 9725
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3885704278945923,
      "learning_rate": 0.0005829405061166317,
      "loss": 1.7674,
      "step": 9726
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38608473539352417,
      "learning_rate": 0.0005829370315580413,
      "loss": 1.8532,
      "step": 9727
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3951020836830139,
      "learning_rate": 0.0005829335566560072,
      "loss": 1.8256,
      "step": 9728
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.383838415145874,
      "learning_rate": 0.0005829300814105334,
      "loss": 1.7227,
      "step": 9729
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3999766409397125,
      "learning_rate": 0.0005829266058216242,
      "loss": 1.8086,
      "step": 9730
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39152979850769043,
      "learning_rate": 0.0005829231298892837,
      "loss": 1.7794,
      "step": 9731
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40221530199050903,
      "learning_rate": 0.0005829196536135164,
      "loss": 1.8073,
      "step": 9732
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3968786597251892,
      "learning_rate": 0.0005829161769943262,
      "loss": 1.7828,
      "step": 9733
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3909267485141754,
      "learning_rate": 0.0005829127000317175,
      "loss": 1.727,
      "step": 9734
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3902750611305237,
      "learning_rate": 0.0005829092227256944,
      "loss": 1.7679,
      "step": 9735
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40634456276893616,
      "learning_rate": 0.0005829057450762612,
      "loss": 1.8184,
      "step": 9736
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39749643206596375,
      "learning_rate": 0.000582902267083422,
      "loss": 1.7885,
      "step": 9737
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38622620701789856,
      "learning_rate": 0.0005828987887471814,
      "loss": 1.7805,
      "step": 9738
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.37928086519241333,
      "learning_rate": 0.0005828953100675432,
      "loss": 1.7833,
      "step": 9739
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3879779875278473,
      "learning_rate": 0.0005828918310445117,
      "loss": 1.7876,
      "step": 9740
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3863646984100342,
      "learning_rate": 0.0005828883516780913,
      "loss": 1.8358,
      "step": 9741
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3954053521156311,
      "learning_rate": 0.0005828848719682861,
      "loss": 1.7696,
      "step": 9742
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3855080306529999,
      "learning_rate": 0.0005828813919151005,
      "loss": 1.7138,
      "step": 9743
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3961026668548584,
      "learning_rate": 0.0005828779115185384,
      "loss": 1.8231,
      "step": 9744
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4016518294811249,
      "learning_rate": 0.0005828744307786042,
      "loss": 1.8019,
      "step": 9745
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3919217884540558,
      "learning_rate": 0.0005828709496953021,
      "loss": 1.8258,
      "step": 9746
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3974122703075409,
      "learning_rate": 0.0005828674682686364,
      "loss": 1.8039,
      "step": 9747
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.40919944643974304,
      "learning_rate": 0.0005828639864986112,
      "loss": 1.7849,
      "step": 9748
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.386852890253067,
      "learning_rate": 0.0005828605043852309,
      "loss": 1.7804,
      "step": 9749
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39719587564468384,
      "learning_rate": 0.0005828570219284996,
      "loss": 1.8364,
      "step": 9750
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38058143854141235,
      "learning_rate": 0.0005828535391284215,
      "loss": 1.7446,
      "step": 9751
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4331545829772949,
      "learning_rate": 0.0005828500559850009,
      "loss": 1.7654,
      "step": 9752
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3974004089832306,
      "learning_rate": 0.000582846572498242,
      "loss": 1.7507,
      "step": 9753
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.384076327085495,
      "learning_rate": 0.0005828430886681491,
      "loss": 1.7285,
      "step": 9754
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39665836095809937,
      "learning_rate": 0.0005828396044947263,
      "loss": 1.8465,
      "step": 9755
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39721035957336426,
      "learning_rate": 0.000582836119977978,
      "loss": 1.7882,
      "step": 9756
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.38924404978752136,
      "learning_rate": 0.0005828326351179082,
      "loss": 1.7612,
      "step": 9757
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3869282305240631,
      "learning_rate": 0.0005828291499145213,
      "loss": 1.7331,
      "step": 9758
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3995797038078308,
      "learning_rate": 0.0005828256643678214,
      "loss": 1.7872,
      "step": 9759
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.392681360244751,
      "learning_rate": 0.000582822178477813,
      "loss": 1.8571,
      "step": 9760
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4029856324195862,
      "learning_rate": 0.0005828186922445,
      "loss": 1.8419,
      "step": 9761
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.386628657579422,
      "learning_rate": 0.0005828152056678868,
      "loss": 1.8,
      "step": 9762
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39152219891548157,
      "learning_rate": 0.0005828117187479777,
      "loss": 1.8293,
      "step": 9763
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3854609429836273,
      "learning_rate": 0.0005828082314847767,
      "loss": 1.7393,
      "step": 9764
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39747825264930725,
      "learning_rate": 0.0005828047438782883,
      "loss": 1.8177,
      "step": 9765
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3875814974308014,
      "learning_rate": 0.0005828012559285166,
      "loss": 1.8034,
      "step": 9766
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3857441246509552,
      "learning_rate": 0.0005827977676354659,
      "loss": 1.6815,
      "step": 9767
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.39021214842796326,
      "learning_rate": 0.0005827942789991402,
      "loss": 1.7668,
      "step": 9768
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3890153765678406,
      "learning_rate": 0.000582790790019544,
      "loss": 1.7521,
      "step": 9769
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3982054591178894,
      "learning_rate": 0.0005827873006966814,
      "loss": 1.8247,
      "step": 9770
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4055224061012268,
      "learning_rate": 0.0005827838110305568,
      "loss": 1.7344,
      "step": 9771
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39332544803619385,
      "learning_rate": 0.0005827803210211742,
      "loss": 1.8541,
      "step": 9772
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3902297616004944,
      "learning_rate": 0.000582776830668538,
      "loss": 1.7177,
      "step": 9773
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.391432523727417,
      "learning_rate": 0.0005827733399726525,
      "loss": 1.7762,
      "step": 9774
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4342721700668335,
      "learning_rate": 0.0005827698489335217,
      "loss": 1.8801,
      "step": 9775
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39234668016433716,
      "learning_rate": 0.00058276635755115,
      "loss": 1.7621,
      "step": 9776
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4014013111591339,
      "learning_rate": 0.0005827628658255416,
      "loss": 1.7978,
      "step": 9777
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3880177438259125,
      "learning_rate": 0.0005827593737567008,
      "loss": 1.8121,
      "step": 9778
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3951530158519745,
      "learning_rate": 0.0005827558813446316,
      "loss": 1.7415,
      "step": 9779
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3911551237106323,
      "learning_rate": 0.0005827523885893386,
      "loss": 1.7863,
      "step": 9780
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.42735329270362854,
      "learning_rate": 0.0005827488954908258,
      "loss": 1.7659,
      "step": 9781
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3974961042404175,
      "learning_rate": 0.0005827454020490975,
      "loss": 1.8196,
      "step": 9782
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3967081904411316,
      "learning_rate": 0.000582741908264158,
      "loss": 1.7352,
      "step": 9783
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4069104492664337,
      "learning_rate": 0.0005827384141360115,
      "loss": 1.743,
      "step": 9784
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3920447826385498,
      "learning_rate": 0.0005827349196646621,
      "loss": 1.7449,
      "step": 9785
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3940657675266266,
      "learning_rate": 0.0005827314248501143,
      "loss": 1.8193,
      "step": 9786
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4217229187488556,
      "learning_rate": 0.0005827279296923721,
      "loss": 1.8729,
      "step": 9787
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4061462879180908,
      "learning_rate": 0.0005827244341914399,
      "loss": 1.8313,
      "step": 9788
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39542457461357117,
      "learning_rate": 0.0005827209383473219,
      "loss": 1.7748,
      "step": 9789
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38089779019355774,
      "learning_rate": 0.0005827174421600223,
      "loss": 1.7265,
      "step": 9790
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4154468774795532,
      "learning_rate": 0.0005827139456295454,
      "loss": 1.8131,
      "step": 9791
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40143516659736633,
      "learning_rate": 0.0005827104487558955,
      "loss": 1.8118,
      "step": 9792
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3781387507915497,
      "learning_rate": 0.0005827069515390767,
      "loss": 1.7563,
      "step": 9793
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3865963816642761,
      "learning_rate": 0.0005827034539790933,
      "loss": 1.7122,
      "step": 9794
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3812101185321808,
      "learning_rate": 0.0005826999560759496,
      "loss": 1.8503,
      "step": 9795
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4057353436946869,
      "learning_rate": 0.0005826964578296498,
      "loss": 1.7839,
      "step": 9796
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40188613533973694,
      "learning_rate": 0.0005826929592401981,
      "loss": 1.7332,
      "step": 9797
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.390336275100708,
      "learning_rate": 0.0005826894603075988,
      "loss": 1.8442,
      "step": 9798
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4028914272785187,
      "learning_rate": 0.0005826859610318563,
      "loss": 1.8255,
      "step": 9799
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39126351475715637,
      "learning_rate": 0.0005826824614129746,
      "loss": 1.8131,
      "step": 9800
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4048897624015808,
      "learning_rate": 0.000582678961450958,
      "loss": 1.7851,
      "step": 9801
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3824847340583801,
      "learning_rate": 0.0005826754611458108,
      "loss": 1.8507,
      "step": 9802
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40786364674568176,
      "learning_rate": 0.0005826719604975373,
      "loss": 1.741,
      "step": 9803
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3954015374183655,
      "learning_rate": 0.0005826684595061416,
      "loss": 1.7588,
      "step": 9804
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39608651399612427,
      "learning_rate": 0.0005826649581716281,
      "loss": 1.7943,
      "step": 9805
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3910682499408722,
      "learning_rate": 0.000582661456494001,
      "loss": 1.7423,
      "step": 9806
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40373268723487854,
      "learning_rate": 0.0005826579544732645,
      "loss": 1.8393,
      "step": 9807
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40150171518325806,
      "learning_rate": 0.000582654452109423,
      "loss": 1.755,
      "step": 9808
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38928449153900146,
      "learning_rate": 0.0005826509494024804,
      "loss": 1.7189,
      "step": 9809
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38824573159217834,
      "learning_rate": 0.0005826474463524415,
      "loss": 1.7449,
      "step": 9810
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3921811282634735,
      "learning_rate": 0.00058264394295931,
      "loss": 1.6958,
      "step": 9811
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38987743854522705,
      "learning_rate": 0.0005826404392230906,
      "loss": 1.7745,
      "step": 9812
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4055030941963196,
      "learning_rate": 0.0005826369351437872,
      "loss": 1.7881,
      "step": 9813
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3978753387928009,
      "learning_rate": 0.0005826334307214042,
      "loss": 1.7314,
      "step": 9814
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39391934871673584,
      "learning_rate": 0.000582629925955946,
      "loss": 1.7645,
      "step": 9815
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39197227358818054,
      "learning_rate": 0.0005826264208474165,
      "loss": 1.7647,
      "step": 9816
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39695119857788086,
      "learning_rate": 0.0005826229153958203,
      "loss": 1.78,
      "step": 9817
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3883381187915802,
      "learning_rate": 0.0005826194096011616,
      "loss": 1.7318,
      "step": 9818
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4025823175907135,
      "learning_rate": 0.0005826159034634444,
      "loss": 1.836,
      "step": 9819
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3954503834247589,
      "learning_rate": 0.0005826123969826732,
      "loss": 1.7804,
      "step": 9820
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3901366889476776,
      "learning_rate": 0.0005826088901588523,
      "loss": 1.7964,
      "step": 9821
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4046725034713745,
      "learning_rate": 0.0005826053829919857,
      "loss": 1.854,
      "step": 9822
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3829026520252228,
      "learning_rate": 0.0005826018754820779,
      "loss": 1.832,
      "step": 9823
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3964768350124359,
      "learning_rate": 0.0005825983676291331,
      "loss": 1.817,
      "step": 9824
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.389078825712204,
      "learning_rate": 0.0005825948594331554,
      "loss": 1.8104,
      "step": 9825
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38593435287475586,
      "learning_rate": 0.0005825913508941493,
      "loss": 1.7897,
      "step": 9826
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39054596424102783,
      "learning_rate": 0.0005825878420121189,
      "loss": 1.7312,
      "step": 9827
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39479300379753113,
      "learning_rate": 0.0005825843327870684,
      "loss": 1.7169,
      "step": 9828
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3949964940547943,
      "learning_rate": 0.0005825808232190023,
      "loss": 1.7253,
      "step": 9829
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39237311482429504,
      "learning_rate": 0.0005825773133079246,
      "loss": 1.8136,
      "step": 9830
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3890301287174225,
      "learning_rate": 0.0005825738030538398,
      "loss": 1.7634,
      "step": 9831
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39925578236579895,
      "learning_rate": 0.0005825702924567519,
      "loss": 1.7761,
      "step": 9832
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3927833139896393,
      "learning_rate": 0.0005825667815166653,
      "loss": 1.8194,
      "step": 9833
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4118054509162903,
      "learning_rate": 0.0005825632702335843,
      "loss": 1.8153,
      "step": 9834
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3996337950229645,
      "learning_rate": 0.0005825597586075133,
      "loss": 1.8078,
      "step": 9835
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39988696575164795,
      "learning_rate": 0.0005825562466384562,
      "loss": 1.7355,
      "step": 9836
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4129139184951782,
      "learning_rate": 0.0005825527343264175,
      "loss": 1.7468,
      "step": 9837
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.394880086183548,
      "learning_rate": 0.0005825492216714013,
      "loss": 1.7371,
      "step": 9838
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.45736902952194214,
      "learning_rate": 0.0005825457086734121,
      "loss": 1.8297,
      "step": 9839
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38831230998039246,
      "learning_rate": 0.000582542195332454,
      "loss": 1.8035,
      "step": 9840
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.418985515832901,
      "learning_rate": 0.0005825386816485313,
      "loss": 1.8707,
      "step": 9841
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40521425008773804,
      "learning_rate": 0.0005825351676216482,
      "loss": 1.8418,
      "step": 9842
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3860341012477875,
      "learning_rate": 0.0005825316532518092,
      "loss": 1.7808,
      "step": 9843
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41147011518478394,
      "learning_rate": 0.0005825281385390183,
      "loss": 1.8186,
      "step": 9844
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3851751387119293,
      "learning_rate": 0.0005825246234832799,
      "loss": 1.7475,
      "step": 9845
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39907601475715637,
      "learning_rate": 0.0005825211080845983,
      "loss": 1.8604,
      "step": 9846
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39848023653030396,
      "learning_rate": 0.0005825175923429776,
      "loss": 1.8002,
      "step": 9847
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39583978056907654,
      "learning_rate": 0.0005825140762584222,
      "loss": 1.8052,
      "step": 9848
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3898319900035858,
      "learning_rate": 0.0005825105598309363,
      "loss": 1.7443,
      "step": 9849
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38924020528793335,
      "learning_rate": 0.0005825070430605242,
      "loss": 1.783,
      "step": 9850
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40129315853118896,
      "learning_rate": 0.0005825035259471903,
      "loss": 1.7232,
      "step": 9851
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3999066948890686,
      "learning_rate": 0.0005825000084909386,
      "loss": 1.8221,
      "step": 9852
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3968162536621094,
      "learning_rate": 0.0005824964906917736,
      "loss": 1.7809,
      "step": 9853
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4192578196525574,
      "learning_rate": 0.0005824929725496995,
      "loss": 1.7283,
      "step": 9854
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3941304683685303,
      "learning_rate": 0.0005824894540647206,
      "loss": 1.7966,
      "step": 9855
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40521055459976196,
      "learning_rate": 0.000582485935236841,
      "loss": 1.8033,
      "step": 9856
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4041987657546997,
      "learning_rate": 0.0005824824160660651,
      "loss": 1.7688,
      "step": 9857
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3903612196445465,
      "learning_rate": 0.0005824788965523972,
      "loss": 1.8186,
      "step": 9858
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4022531509399414,
      "learning_rate": 0.0005824753766958416,
      "loss": 1.7996,
      "step": 9859
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41011208295822144,
      "learning_rate": 0.0005824718564964024,
      "loss": 1.7706,
      "step": 9860
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38418760895729065,
      "learning_rate": 0.000582468335954084,
      "loss": 1.7257,
      "step": 9861
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39244771003723145,
      "learning_rate": 0.0005824648150688908,
      "loss": 1.7477,
      "step": 9862
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3934458792209625,
      "learning_rate": 0.0005824612938408268,
      "loss": 1.727,
      "step": 9863
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4171646535396576,
      "learning_rate": 0.0005824577722698965,
      "loss": 1.8376,
      "step": 9864
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41445672512054443,
      "learning_rate": 0.000582454250356104,
      "loss": 1.7929,
      "step": 9865
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40032604336738586,
      "learning_rate": 0.0005824507280994536,
      "loss": 1.7392,
      "step": 9866
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39231616258621216,
      "learning_rate": 0.0005824472054999498,
      "loss": 1.7872,
      "step": 9867
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4107727110385895,
      "learning_rate": 0.0005824436825575966,
      "loss": 1.7323,
      "step": 9868
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40338438749313354,
      "learning_rate": 0.0005824401592723985,
      "loss": 1.7527,
      "step": 9869
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3926417827606201,
      "learning_rate": 0.0005824366356443595,
      "loss": 1.8192,
      "step": 9870
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40787455439567566,
      "learning_rate": 0.0005824331116734842,
      "loss": 1.7488,
      "step": 9871
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41045883297920227,
      "learning_rate": 0.0005824295873597767,
      "loss": 1.8012,
      "step": 9872
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39114800095558167,
      "learning_rate": 0.0005824260627032412,
      "loss": 1.7258,
      "step": 9873
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40634405612945557,
      "learning_rate": 0.000582422537703882,
      "loss": 1.7763,
      "step": 9874
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4421982765197754,
      "learning_rate": 0.0005824190123617036,
      "loss": 1.7962,
      "step": 9875
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4005388915538788,
      "learning_rate": 0.0005824154866767101,
      "loss": 1.6829,
      "step": 9876
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5121558308601379,
      "learning_rate": 0.0005824119606489058,
      "loss": 1.7848,
      "step": 9877
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3926144540309906,
      "learning_rate": 0.000582408434278295,
      "loss": 1.7927,
      "step": 9878
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3925800323486328,
      "learning_rate": 0.000582404907564882,
      "loss": 1.7766,
      "step": 9879
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39242640137672424,
      "learning_rate": 0.000582401380508671,
      "loss": 1.7271,
      "step": 9880
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39123982191085815,
      "learning_rate": 0.0005823978531096664,
      "loss": 1.7595,
      "step": 9881
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3966760039329529,
      "learning_rate": 0.0005823943253678723,
      "loss": 1.7662,
      "step": 9882
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3865438401699066,
      "learning_rate": 0.0005823907972832931,
      "loss": 1.738,
      "step": 9883
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39523762464523315,
      "learning_rate": 0.0005823872688559331,
      "loss": 1.8064,
      "step": 9884
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4093983471393585,
      "learning_rate": 0.0005823837400857967,
      "loss": 1.7946,
      "step": 9885
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40625372529029846,
      "learning_rate": 0.000582380210972888,
      "loss": 1.7923,
      "step": 9886
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4039791226387024,
      "learning_rate": 0.0005823766815172113,
      "loss": 1.7794,
      "step": 9887
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39479219913482666,
      "learning_rate": 0.0005823731517187709,
      "loss": 1.8007,
      "step": 9888
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39526426792144775,
      "learning_rate": 0.0005823696215775711,
      "loss": 1.7352,
      "step": 9889
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3840944170951843,
      "learning_rate": 0.0005823660910936162,
      "loss": 1.7589,
      "step": 9890
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3997907042503357,
      "learning_rate": 0.0005823625602669103,
      "loss": 1.7667,
      "step": 9891
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4066116213798523,
      "learning_rate": 0.000582359029097458,
      "loss": 1.858,
      "step": 9892
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39005348086357117,
      "learning_rate": 0.0005823554975852635,
      "loss": 1.8188,
      "step": 9893
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40310782194137573,
      "learning_rate": 0.000582351965730331,
      "loss": 1.8086,
      "step": 9894
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3862307071685791,
      "learning_rate": 0.0005823484335326648,
      "loss": 1.7851,
      "step": 9895
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40331733226776123,
      "learning_rate": 0.0005823449009922692,
      "loss": 1.7269,
      "step": 9896
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38263487815856934,
      "learning_rate": 0.0005823413681091485,
      "loss": 1.7875,
      "step": 9897
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3952583074569702,
      "learning_rate": 0.0005823378348833071,
      "loss": 1.8719,
      "step": 9898
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4060487151145935,
      "learning_rate": 0.000582334301314749,
      "loss": 1.7675,
      "step": 9899
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4073655307292938,
      "learning_rate": 0.0005823307674034787,
      "loss": 1.7487,
      "step": 9900
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3959031403064728,
      "learning_rate": 0.0005823272331495005,
      "loss": 1.7889,
      "step": 9901
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39353981614112854,
      "learning_rate": 0.0005823236985528184,
      "loss": 1.8168,
      "step": 9902
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3951047658920288,
      "learning_rate": 0.0005823201636134372,
      "loss": 1.8536,
      "step": 9903
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40576261281967163,
      "learning_rate": 0.0005823166283313608,
      "loss": 1.7458,
      "step": 9904
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39309462904930115,
      "learning_rate": 0.0005823130927065937,
      "loss": 1.7856,
      "step": 9905
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3994865119457245,
      "learning_rate": 0.00058230955673914,
      "loss": 1.7816,
      "step": 9906
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38630566000938416,
      "learning_rate": 0.0005823060204290042,
      "loss": 1.718,
      "step": 9907
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3879091739654541,
      "learning_rate": 0.0005823024837761904,
      "loss": 1.7515,
      "step": 9908
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.392917662858963,
      "learning_rate": 0.0005822989467807031,
      "loss": 1.7097,
      "step": 9909
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39078187942504883,
      "learning_rate": 0.0005822954094425463,
      "loss": 1.6805,
      "step": 9910
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38818368315696716,
      "learning_rate": 0.0005822918717617245,
      "loss": 1.747,
      "step": 9911
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4058604836463928,
      "learning_rate": 0.000582288333738242,
      "loss": 1.8275,
      "step": 9912
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3881531059741974,
      "learning_rate": 0.0005822847953721031,
      "loss": 1.8427,
      "step": 9913
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4020751416683197,
      "learning_rate": 0.0005822812566633121,
      "loss": 1.7366,
      "step": 9914
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3927786350250244,
      "learning_rate": 0.0005822777176118731,
      "loss": 1.7288,
      "step": 9915
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3905104398727417,
      "learning_rate": 0.0005822741782177907,
      "loss": 1.7648,
      "step": 9916
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39938703179359436,
      "learning_rate": 0.0005822706384810689,
      "loss": 1.8193,
      "step": 9917
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4070289134979248,
      "learning_rate": 0.0005822670984017122,
      "loss": 1.7632,
      "step": 9918
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40093713998794556,
      "learning_rate": 0.0005822635579797248,
      "loss": 1.6826,
      "step": 9919
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4204133152961731,
      "learning_rate": 0.000582260017215111,
      "loss": 1.7496,
      "step": 9920
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4087423086166382,
      "learning_rate": 0.0005822564761078751,
      "loss": 1.8253,
      "step": 9921
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4008537530899048,
      "learning_rate": 0.0005822529346580216,
      "loss": 1.8071,
      "step": 9922
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3965355157852173,
      "learning_rate": 0.0005822493928655545,
      "loss": 1.8213,
      "step": 9923
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.405545711517334,
      "learning_rate": 0.0005822458507304783,
      "loss": 1.7782,
      "step": 9924
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39906373620033264,
      "learning_rate": 0.0005822423082527972,
      "loss": 1.8373,
      "step": 9925
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3920469284057617,
      "learning_rate": 0.0005822387654325154,
      "loss": 1.7593,
      "step": 9926
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3922339379787445,
      "learning_rate": 0.0005822352222696374,
      "loss": 1.8532,
      "step": 9927
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3919884264469147,
      "learning_rate": 0.0005822316787641675,
      "loss": 1.7743,
      "step": 9928
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38294798135757446,
      "learning_rate": 0.0005822281349161098,
      "loss": 1.759,
      "step": 9929
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3995136618614197,
      "learning_rate": 0.0005822245907254689,
      "loss": 1.7006,
      "step": 9930
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3892810344696045,
      "learning_rate": 0.0005822210461922488,
      "loss": 1.8281,
      "step": 9931
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39266881346702576,
      "learning_rate": 0.000582217501316454,
      "loss": 1.8474,
      "step": 9932
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39174413681030273,
      "learning_rate": 0.0005822139560980887,
      "loss": 1.7358,
      "step": 9933
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40648263692855835,
      "learning_rate": 0.0005822104105371572,
      "loss": 1.7527,
      "step": 9934
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3921941816806793,
      "learning_rate": 0.000582206864633664,
      "loss": 1.7241,
      "step": 9935
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39041411876678467,
      "learning_rate": 0.000582203318387613,
      "loss": 1.8435,
      "step": 9936
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40915510058403015,
      "learning_rate": 0.0005821997717990089,
      "loss": 1.8681,
      "step": 9937
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40774378180503845,
      "learning_rate": 0.0005821962248678559,
      "loss": 1.8261,
      "step": 9938
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38545769453048706,
      "learning_rate": 0.0005821926775941581,
      "loss": 1.765,
      "step": 9939
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39486363530158997,
      "learning_rate": 0.0005821891299779201,
      "loss": 1.7495,
      "step": 9940
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3985549807548523,
      "learning_rate": 0.0005821855820191461,
      "loss": 1.788,
      "step": 9941
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38686931133270264,
      "learning_rate": 0.0005821820337178404,
      "loss": 1.7863,
      "step": 9942
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41225484013557434,
      "learning_rate": 0.0005821784850740071,
      "loss": 1.7015,
      "step": 9943
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40509146451950073,
      "learning_rate": 0.0005821749360876508,
      "loss": 1.8171,
      "step": 9944
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3955451548099518,
      "learning_rate": 0.0005821713867587758,
      "loss": 1.8393,
      "step": 9945
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3964219093322754,
      "learning_rate": 0.0005821678370873862,
      "loss": 1.7398,
      "step": 9946
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39635786414146423,
      "learning_rate": 0.0005821642870734864,
      "loss": 1.7206,
      "step": 9947
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39951229095458984,
      "learning_rate": 0.0005821607367170809,
      "loss": 1.8607,
      "step": 9948
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40547892451286316,
      "learning_rate": 0.0005821571860181737,
      "loss": 1.7692,
      "step": 9949
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40392470359802246,
      "learning_rate": 0.0005821536349767693,
      "loss": 1.7681,
      "step": 9950
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3915219008922577,
      "learning_rate": 0.0005821500835928719,
      "loss": 1.7691,
      "step": 9951
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40948015451431274,
      "learning_rate": 0.0005821465318664858,
      "loss": 1.7786,
      "step": 9952
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38276365399360657,
      "learning_rate": 0.0005821429797976156,
      "loss": 1.7887,
      "step": 9953
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4241165816783905,
      "learning_rate": 0.0005821394273862652,
      "loss": 1.8205,
      "step": 9954
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39166098833084106,
      "learning_rate": 0.0005821358746324393,
      "loss": 1.7437,
      "step": 9955
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3937273919582367,
      "learning_rate": 0.0005821323215361419,
      "loss": 1.8146,
      "step": 9956
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39771080017089844,
      "learning_rate": 0.0005821287680973774,
      "loss": 1.7639,
      "step": 9957
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40396007895469666,
      "learning_rate": 0.0005821252143161503,
      "loss": 1.7416,
      "step": 9958
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40383830666542053,
      "learning_rate": 0.0005821216601924645,
      "loss": 1.7547,
      "step": 9959
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3945566415786743,
      "learning_rate": 0.0005821181057263248,
      "loss": 1.7805,
      "step": 9960
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40610066056251526,
      "learning_rate": 0.0005821145509177352,
      "loss": 1.7483,
      "step": 9961
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.43022340536117554,
      "learning_rate": 0.0005821109957667,
      "loss": 1.8344,
      "step": 9962
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.41450008749961853,
      "learning_rate": 0.0005821074402732238,
      "loss": 1.8604,
      "step": 9963
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3996087312698364,
      "learning_rate": 0.0005821038844373107,
      "loss": 1.7947,
      "step": 9964
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.43254801630973816,
      "learning_rate": 0.000582100328258965,
      "loss": 1.7438,
      "step": 9965
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39525094628334045,
      "learning_rate": 0.0005820967717381911,
      "loss": 1.7669,
      "step": 9966
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.398733913898468,
      "learning_rate": 0.0005820932148749932,
      "loss": 1.7747,
      "step": 9967
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3973475992679596,
      "learning_rate": 0.0005820896576693757,
      "loss": 1.7606,
      "step": 9968
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.44745999574661255,
      "learning_rate": 0.0005820861001213431,
      "loss": 1.746,
      "step": 9969
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38780471682548523,
      "learning_rate": 0.0005820825422308994,
      "loss": 1.689,
      "step": 9970
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3864131271839142,
      "learning_rate": 0.000582078983998049,
      "loss": 1.7217,
      "step": 9971
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.42569249868392944,
      "learning_rate": 0.0005820754254227964,
      "loss": 1.8041,
      "step": 9972
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4072229266166687,
      "learning_rate": 0.0005820718665051457,
      "loss": 1.8774,
      "step": 9973
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3949744701385498,
      "learning_rate": 0.0005820683072451015,
      "loss": 1.8248,
      "step": 9974
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3978271186351776,
      "learning_rate": 0.0005820647476426677,
      "loss": 1.7789,
      "step": 9975
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3859005868434906,
      "learning_rate": 0.0005820611876978489,
      "loss": 1.7333,
      "step": 9976
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38787660002708435,
      "learning_rate": 0.0005820576274106494,
      "loss": 1.7597,
      "step": 9977
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3811013698577881,
      "learning_rate": 0.0005820540667810737,
      "loss": 1.7261,
      "step": 9978
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3923732042312622,
      "learning_rate": 0.0005820505058091257,
      "loss": 1.7636,
      "step": 9979
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3777616024017334,
      "learning_rate": 0.00058204694449481,
      "loss": 1.7513,
      "step": 9980
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38826850056648254,
      "learning_rate": 0.0005820433828381309,
      "loss": 1.7229,
      "step": 9981
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40331903100013733,
      "learning_rate": 0.0005820398208390926,
      "loss": 1.82,
      "step": 9982
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3867270350456238,
      "learning_rate": 0.0005820362584976997,
      "loss": 1.7853,
      "step": 9983
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3982464075088501,
      "learning_rate": 0.0005820326958139562,
      "loss": 1.8329,
      "step": 9984
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3843282461166382,
      "learning_rate": 0.0005820291327878665,
      "loss": 1.8009,
      "step": 9985
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.43247008323669434,
      "learning_rate": 0.000582025569419435,
      "loss": 1.7453,
      "step": 9986
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3974316120147705,
      "learning_rate": 0.0005820220057086661,
      "loss": 1.7616,
      "step": 9987
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3993896245956421,
      "learning_rate": 0.000582018441655564,
      "loss": 1.7639,
      "step": 9988
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.396098256111145,
      "learning_rate": 0.0005820148772601331,
      "loss": 1.7347,
      "step": 9989
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38693925738334656,
      "learning_rate": 0.0005820113125223777,
      "loss": 1.7328,
      "step": 9990
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4123779833316803,
      "learning_rate": 0.000582007747442302,
      "loss": 1.8111,
      "step": 9991
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39314472675323486,
      "learning_rate": 0.0005820041820199105,
      "loss": 1.8149,
      "step": 9992
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3903554081916809,
      "learning_rate": 0.0005820006162552076,
      "loss": 1.7992,
      "step": 9993
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3937581777572632,
      "learning_rate": 0.0005819970501481974,
      "loss": 1.8493,
      "step": 9994
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39650478959083557,
      "learning_rate": 0.0005819934836988844,
      "loss": 1.7781,
      "step": 9995
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3864147961139679,
      "learning_rate": 0.0005819899169072728,
      "loss": 1.774,
      "step": 9996
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39988139271736145,
      "learning_rate": 0.000581986349773367,
      "loss": 1.7784,
      "step": 9997
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.44340571761131287,
      "learning_rate": 0.0005819827822971713,
      "loss": 1.7613,
      "step": 9998
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4208274185657501,
      "learning_rate": 0.0005819792144786901,
      "loss": 1.8377,
      "step": 9999
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39235034584999084,
      "learning_rate": 0.0005819756463179277,
      "loss": 1.716,
      "step": 10000
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38930463790893555,
      "learning_rate": 0.0005819720778148883,
      "loss": 1.7305,
      "step": 10001
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38382723927497864,
      "learning_rate": 0.0005819685089695763,
      "loss": 1.8227,
      "step": 10002
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3974272608757019,
      "learning_rate": 0.0005819649397819963,
      "loss": 1.8067,
      "step": 10003
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.37984269857406616,
      "learning_rate": 0.0005819613702521523,
      "loss": 1.7722,
      "step": 10004
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39711055159568787,
      "learning_rate": 0.0005819578003800487,
      "loss": 1.8308,
      "step": 10005
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39707449078559875,
      "learning_rate": 0.0005819542301656899,
      "loss": 1.7991,
      "step": 10006
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39552322030067444,
      "learning_rate": 0.0005819506596090802,
      "loss": 1.7706,
      "step": 10007
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3978315591812134,
      "learning_rate": 0.0005819470887102239,
      "loss": 1.7758,
      "step": 10008
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3863023519515991,
      "learning_rate": 0.0005819435174691255,
      "loss": 1.7284,
      "step": 10009
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4086214005947113,
      "learning_rate": 0.0005819399458857891,
      "loss": 1.804,
      "step": 10010
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4095383584499359,
      "learning_rate": 0.0005819363739602193,
      "loss": 1.7003,
      "step": 10011
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3933680057525635,
      "learning_rate": 0.0005819328016924201,
      "loss": 1.8208,
      "step": 10012
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4022410809993744,
      "learning_rate": 0.0005819292290823961,
      "loss": 1.8358,
      "step": 10013
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3942628502845764,
      "learning_rate": 0.0005819256561301515,
      "loss": 1.7354,
      "step": 10014
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39265817403793335,
      "learning_rate": 0.0005819220828356908,
      "loss": 1.7556,
      "step": 10015
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.37175413966178894,
      "learning_rate": 0.0005819185091990182,
      "loss": 1.6812,
      "step": 10016
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3946984112262726,
      "learning_rate": 0.000581914935220138,
      "loss": 1.711,
      "step": 10017
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3860476613044739,
      "learning_rate": 0.0005819113608990546,
      "loss": 1.7723,
      "step": 10018
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.45151400566101074,
      "learning_rate": 0.0005819077862357724,
      "loss": 1.7963,
      "step": 10019
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38914382457733154,
      "learning_rate": 0.0005819042112302958,
      "loss": 1.7036,
      "step": 10020
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3988647758960724,
      "learning_rate": 0.0005819006358826289,
      "loss": 1.771,
      "step": 10021
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38648658990859985,
      "learning_rate": 0.0005818970601927762,
      "loss": 1.7355,
      "step": 10022
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3836800754070282,
      "learning_rate": 0.000581893484160742,
      "loss": 1.8262,
      "step": 10023
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4084174335002899,
      "learning_rate": 0.0005818899077865304,
      "loss": 1.9271,
      "step": 10024
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38160043954849243,
      "learning_rate": 0.0005818863310701463,
      "loss": 1.8139,
      "step": 10025
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3902655243873596,
      "learning_rate": 0.0005818827540115937,
      "loss": 1.8004,
      "step": 10026
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39773842692375183,
      "learning_rate": 0.0005818791766108768,
      "loss": 1.8649,
      "step": 10027
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39001116156578064,
      "learning_rate": 0.0005818755988680003,
      "loss": 1.7856,
      "step": 10028
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39472776651382446,
      "learning_rate": 0.0005818720207829683,
      "loss": 1.7488,
      "step": 10029
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.37931326031684875,
      "learning_rate": 0.0005818684423557852,
      "loss": 1.7454,
      "step": 10030
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4075549244880676,
      "learning_rate": 0.0005818648635864552,
      "loss": 1.8618,
      "step": 10031
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3997233211994171,
      "learning_rate": 0.000581861284474983,
      "loss": 1.7612,
      "step": 10032
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38752973079681396,
      "learning_rate": 0.0005818577050213725,
      "loss": 1.7771,
      "step": 10033
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39634469151496887,
      "learning_rate": 0.0005818541252256284,
      "loss": 1.8127,
      "step": 10034
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39475274085998535,
      "learning_rate": 0.0005818505450877551,
      "loss": 1.7546,
      "step": 10035
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3855789303779602,
      "learning_rate": 0.0005818469646077564,
      "loss": 1.7637,
      "step": 10036
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3929125666618347,
      "learning_rate": 0.0005818433837856373,
      "loss": 1.7918,
      "step": 10037
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38976797461509705,
      "learning_rate": 0.0005818398026214019,
      "loss": 1.7554,
      "step": 10038
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3762733042240143,
      "learning_rate": 0.0005818362211150543,
      "loss": 1.7414,
      "step": 10039
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.37946054339408875,
      "learning_rate": 0.0005818326392665991,
      "loss": 1.777,
      "step": 10040
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.37893614172935486,
      "learning_rate": 0.0005818290570760406,
      "loss": 1.7546,
      "step": 10041
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39309990406036377,
      "learning_rate": 0.0005818254745433832,
      "loss": 1.8079,
      "step": 10042
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39829057455062866,
      "learning_rate": 0.0005818218916686311,
      "loss": 1.8124,
      "step": 10043
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3826356828212738,
      "learning_rate": 0.000581818308451789,
      "loss": 1.7711,
      "step": 10044
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4062863886356354,
      "learning_rate": 0.0005818147248928607,
      "loss": 1.7327,
      "step": 10045
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3862276077270508,
      "learning_rate": 0.000581811140991851,
      "loss": 1.7779,
      "step": 10046
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39040035009384155,
      "learning_rate": 0.0005818075567487641,
      "loss": 1.7764,
      "step": 10047
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38784319162368774,
      "learning_rate": 0.0005818039721636043,
      "loss": 1.8338,
      "step": 10048
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3866581320762634,
      "learning_rate": 0.0005818003872363759,
      "loss": 1.7886,
      "step": 10049
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39870887994766235,
      "learning_rate": 0.0005817968019670837,
      "loss": 1.776,
      "step": 10050
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.38789427280426025,
      "learning_rate": 0.0005817932163557313,
      "loss": 1.756,
      "step": 10051
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3882581293582916,
      "learning_rate": 0.0005817896304023236,
      "loss": 1.734,
      "step": 10052
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3842605650424957,
      "learning_rate": 0.0005817860441068649,
      "loss": 1.7457,
      "step": 10053
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40606674551963806,
      "learning_rate": 0.0005817824574693595,
      "loss": 1.8126,
      "step": 10054
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3950691819190979,
      "learning_rate": 0.0005817788704898116,
      "loss": 1.7752,
      "step": 10055
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3922116756439209,
      "learning_rate": 0.0005817752831682256,
      "loss": 1.7409,
      "step": 10056
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4036237597465515,
      "learning_rate": 0.0005817716955046061,
      "loss": 1.8624,
      "step": 10057
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3953920304775238,
      "learning_rate": 0.0005817681074989572,
      "loss": 1.7749,
      "step": 10058
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3902622163295746,
      "learning_rate": 0.0005817645191512833,
      "loss": 1.8322,
      "step": 10059
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39528679847717285,
      "learning_rate": 0.0005817609304615888,
      "loss": 1.8114,
      "step": 10060
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40399911999702454,
      "learning_rate": 0.0005817573414298781,
      "loss": 1.6496,
      "step": 10061
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.39252030849456787,
      "learning_rate": 0.0005817537520561554,
      "loss": 1.8384,
      "step": 10062
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3863450288772583,
      "learning_rate": 0.0005817501623404252,
      "loss": 1.7813,
      "step": 10063
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3960273265838623,
      "learning_rate": 0.0005817465722826918,
      "loss": 1.6992,
      "step": 10064
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3993835747241974,
      "learning_rate": 0.0005817429818829596,
      "loss": 1.6899,
      "step": 10065
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3872620165348053,
      "learning_rate": 0.000581739391141233,
      "loss": 1.6988,
      "step": 10066
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4081631898880005,
      "learning_rate": 0.0005817358000575162,
      "loss": 1.7131,
      "step": 10067
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3949566185474396,
      "learning_rate": 0.0005817322086318137,
      "loss": 1.7652,
      "step": 10068
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.37445974349975586,
      "learning_rate": 0.0005817286168641298,
      "loss": 1.7246,
      "step": 10069
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4141513407230377,
      "learning_rate": 0.0005817250247544688,
      "loss": 1.7851,
      "step": 10070
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3932766616344452,
      "learning_rate": 0.0005817214323028352,
      "loss": 1.762,
      "step": 10071
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4116581380367279,
      "learning_rate": 0.0005817178395092333,
      "loss": 1.7406,
      "step": 10072
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3948706090450287,
      "learning_rate": 0.0005817142463736676,
      "loss": 1.7951,
      "step": 10073
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39667344093322754,
      "learning_rate": 0.000581710652896142,
      "loss": 1.8305,
      "step": 10074
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4029458165168762,
      "learning_rate": 0.0005817070590766614,
      "loss": 1.748,
      "step": 10075
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39287230372428894,
      "learning_rate": 0.0005817034649152298,
      "loss": 1.8955,
      "step": 10076
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40220823884010315,
      "learning_rate": 0.0005816998704118517,
      "loss": 1.7793,
      "step": 10077
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38853150606155396,
      "learning_rate": 0.0005816962755665317,
      "loss": 1.6882,
      "step": 10078
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40309107303619385,
      "learning_rate": 0.0005816926803792737,
      "loss": 1.8284,
      "step": 10079
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3816051185131073,
      "learning_rate": 0.0005816890848500823,
      "loss": 1.7771,
      "step": 10080
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3960039019584656,
      "learning_rate": 0.000581685488978962,
      "loss": 1.7941,
      "step": 10081
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4067724049091339,
      "learning_rate": 0.0005816818927659169,
      "loss": 1.7583,
      "step": 10082
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3799043595790863,
      "learning_rate": 0.0005816782962109515,
      "loss": 1.7214,
      "step": 10083
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38035860657691956,
      "learning_rate": 0.0005816746993140702,
      "loss": 1.7616,
      "step": 10084
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4039665162563324,
      "learning_rate": 0.0005816711020752772,
      "loss": 1.8006,
      "step": 10085
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3837437331676483,
      "learning_rate": 0.0005816675044945771,
      "loss": 1.7475,
      "step": 10086
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39086344838142395,
      "learning_rate": 0.0005816639065719741,
      "loss": 1.7451,
      "step": 10087
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3936227858066559,
      "learning_rate": 0.0005816603083074727,
      "loss": 1.7234,
      "step": 10088
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41598960757255554,
      "learning_rate": 0.000581656709701077,
      "loss": 1.8367,
      "step": 10089
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3887017071247101,
      "learning_rate": 0.0005816531107527917,
      "loss": 1.8231,
      "step": 10090
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4210374355316162,
      "learning_rate": 0.0005816495114626211,
      "loss": 1.8394,
      "step": 10091
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3910679519176483,
      "learning_rate": 0.0005816459118305694,
      "loss": 1.8109,
      "step": 10092
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39007797837257385,
      "learning_rate": 0.000581642311856641,
      "loss": 1.85,
      "step": 10093
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3853233754634857,
      "learning_rate": 0.0005816387115408403,
      "loss": 1.7271,
      "step": 10094
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3956383168697357,
      "learning_rate": 0.0005816351108831718,
      "loss": 1.7562,
      "step": 10095
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.391891747713089,
      "learning_rate": 0.0005816315098836399,
      "loss": 1.8284,
      "step": 10096
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39639872312545776,
      "learning_rate": 0.0005816279085422486,
      "loss": 1.7476,
      "step": 10097
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38934481143951416,
      "learning_rate": 0.0005816243068590026,
      "loss": 1.7977,
      "step": 10098
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3920314908027649,
      "learning_rate": 0.0005816207048339063,
      "loss": 1.7611,
      "step": 10099
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3945555090904236,
      "learning_rate": 0.0005816171024669638,
      "loss": 1.8287,
      "step": 10100
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3941004276275635,
      "learning_rate": 0.0005816134997581797,
      "loss": 1.7897,
      "step": 10101
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3870942294597626,
      "learning_rate": 0.0005816098967075583,
      "loss": 1.6898,
      "step": 10102
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3993014991283417,
      "learning_rate": 0.000581606293315104,
      "loss": 1.7266,
      "step": 10103
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39103636145591736,
      "learning_rate": 0.0005816026895808211,
      "loss": 1.7499,
      "step": 10104
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3800252676010132,
      "learning_rate": 0.0005815990855047141,
      "loss": 1.8037,
      "step": 10105
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4022996127605438,
      "learning_rate": 0.0005815954810867872,
      "loss": 1.7845,
      "step": 10106
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38659903407096863,
      "learning_rate": 0.000581591876327045,
      "loss": 1.7699,
      "step": 10107
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4019029140472412,
      "learning_rate": 0.0005815882712254917,
      "loss": 1.7914,
      "step": 10108
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3949955701828003,
      "learning_rate": 0.0005815846657821317,
      "loss": 1.8351,
      "step": 10109
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38694778084754944,
      "learning_rate": 0.0005815810599969694,
      "loss": 1.7761,
      "step": 10110
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39300817251205444,
      "learning_rate": 0.0005815774538700092,
      "loss": 1.7768,
      "step": 10111
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.379859060049057,
      "learning_rate": 0.0005815738474012554,
      "loss": 1.8265,
      "step": 10112
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3917510211467743,
      "learning_rate": 0.0005815702405907126,
      "loss": 1.7177,
      "step": 10113
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39767125248908997,
      "learning_rate": 0.0005815666334383849,
      "loss": 1.8074,
      "step": 10114
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.426058292388916,
      "learning_rate": 0.0005815630259442768,
      "loss": 1.8914,
      "step": 10115
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3908672630786896,
      "learning_rate": 0.0005815594181083927,
      "loss": 1.8186,
      "step": 10116
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3845493793487549,
      "learning_rate": 0.0005815558099307369,
      "loss": 1.8083,
      "step": 10117
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.394382119178772,
      "learning_rate": 0.000581552201411314,
      "loss": 1.7702,
      "step": 10118
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3867535889148712,
      "learning_rate": 0.000581548592550128,
      "loss": 1.7877,
      "step": 10119
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38204246759414673,
      "learning_rate": 0.0005815449833471835,
      "loss": 1.736,
      "step": 10120
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38857001066207886,
      "learning_rate": 0.000581541373802485,
      "loss": 1.7695,
      "step": 10121
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.399867981672287,
      "learning_rate": 0.0005815377639160367,
      "loss": 1.7388,
      "step": 10122
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38285088539123535,
      "learning_rate": 0.000581534153687843,
      "loss": 1.8286,
      "step": 10123
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3895815908908844,
      "learning_rate": 0.0005815305431179084,
      "loss": 1.8345,
      "step": 10124
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3908109962940216,
      "learning_rate": 0.0005815269322062372,
      "loss": 1.6757,
      "step": 10125
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3954649269580841,
      "learning_rate": 0.0005815233209528338,
      "loss": 1.773,
      "step": 10126
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40526631474494934,
      "learning_rate": 0.0005815197093577024,
      "loss": 1.7901,
      "step": 10127
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4090157151222229,
      "learning_rate": 0.0005815160974208478,
      "loss": 1.7915,
      "step": 10128
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3955425024032593,
      "learning_rate": 0.0005815124851422739,
      "loss": 1.7508,
      "step": 10129
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4202759563922882,
      "learning_rate": 0.0005815088725219855,
      "loss": 1.7222,
      "step": 10130
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4159616529941559,
      "learning_rate": 0.0005815052595599867,
      "loss": 1.8121,
      "step": 10131
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4026533365249634,
      "learning_rate": 0.000581501646256282,
      "loss": 1.7401,
      "step": 10132
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3807205259799957,
      "learning_rate": 0.0005814980326108759,
      "loss": 1.8025,
      "step": 10133
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3864988684654236,
      "learning_rate": 0.0005814944186237726,
      "loss": 1.8124,
      "step": 10134
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39378419518470764,
      "learning_rate": 0.0005814908042949764,
      "loss": 1.7773,
      "step": 10135
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3920113444328308,
      "learning_rate": 0.000581487189624492,
      "loss": 1.8119,
      "step": 10136
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39167577028274536,
      "learning_rate": 0.0005814835746123236,
      "loss": 1.7901,
      "step": 10137
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3898470103740692,
      "learning_rate": 0.0005814799592584756,
      "loss": 1.7727,
      "step": 10138
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38294464349746704,
      "learning_rate": 0.0005814763435629524,
      "loss": 1.7456,
      "step": 10139
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4034941792488098,
      "learning_rate": 0.0005814727275257584,
      "loss": 1.7825,
      "step": 10140
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39023151993751526,
      "learning_rate": 0.000581469111146898,
      "loss": 1.715,
      "step": 10141
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3770132064819336,
      "learning_rate": 0.0005814654944263756,
      "loss": 1.8056,
      "step": 10142
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4107199013233185,
      "learning_rate": 0.0005814618773641954,
      "loss": 1.8571,
      "step": 10143
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38174203038215637,
      "learning_rate": 0.0005814582599603621,
      "loss": 1.7712,
      "step": 10144
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39221853017807007,
      "learning_rate": 0.0005814546422148799,
      "loss": 1.8291,
      "step": 10145
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3898759186267853,
      "learning_rate": 0.0005814510241277534,
      "loss": 1.761,
      "step": 10146
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39822569489479065,
      "learning_rate": 0.0005814474056989866,
      "loss": 1.7896,
      "step": 10147
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3913039267063141,
      "learning_rate": 0.0005814437869285842,
      "loss": 1.8454,
      "step": 10148
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39707067608833313,
      "learning_rate": 0.0005814401678165505,
      "loss": 1.7472,
      "step": 10149
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38997912406921387,
      "learning_rate": 0.0005814365483628899,
      "loss": 1.7383,
      "step": 10150
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4032805860042572,
      "learning_rate": 0.0005814329285676067,
      "loss": 1.6947,
      "step": 10151
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39487332105636597,
      "learning_rate": 0.0005814293084307055,
      "loss": 1.7248,
      "step": 10152
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4069480895996094,
      "learning_rate": 0.0005814256879521908,
      "loss": 1.8231,
      "step": 10153
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3971564471721649,
      "learning_rate": 0.0005814220671320665,
      "loss": 1.7467,
      "step": 10154
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.391769140958786,
      "learning_rate": 0.0005814184459703373,
      "loss": 1.8013,
      "step": 10155
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39444416761398315,
      "learning_rate": 0.0005814148244670075,
      "loss": 1.7955,
      "step": 10156
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3869973123073578,
      "learning_rate": 0.0005814112026220818,
      "loss": 1.7591,
      "step": 10157
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38484472036361694,
      "learning_rate": 0.0005814075804355642,
      "loss": 1.7447,
      "step": 10158
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39919814467430115,
      "learning_rate": 0.0005814039579074594,
      "loss": 1.7432,
      "step": 10159
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4003034830093384,
      "learning_rate": 0.0005814003350377715,
      "loss": 1.6888,
      "step": 10160
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4012356400489807,
      "learning_rate": 0.0005813967118265052,
      "loss": 1.7364,
      "step": 10161
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3911968469619751,
      "learning_rate": 0.0005813930882736646,
      "loss": 1.8316,
      "step": 10162
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39410436153411865,
      "learning_rate": 0.0005813894643792543,
      "loss": 1.8188,
      "step": 10163
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4134688377380371,
      "learning_rate": 0.0005813858401432787,
      "loss": 1.7796,
      "step": 10164
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38472214341163635,
      "learning_rate": 0.0005813822155657421,
      "loss": 1.8458,
      "step": 10165
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3998703360557556,
      "learning_rate": 0.000581378590646649,
      "loss": 1.7967,
      "step": 10166
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3961740732192993,
      "learning_rate": 0.0005813749653860037,
      "loss": 1.7553,
      "step": 10167
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3950584828853607,
      "learning_rate": 0.0005813713397838108,
      "loss": 1.733,
      "step": 10168
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3892625570297241,
      "learning_rate": 0.0005813677138400744,
      "loss": 1.7643,
      "step": 10169
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4020795226097107,
      "learning_rate": 0.000581364087554799,
      "loss": 1.8303,
      "step": 10170
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3889860212802887,
      "learning_rate": 0.0005813604609279892,
      "loss": 1.7673,
      "step": 10171
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3931325078010559,
      "learning_rate": 0.0005813568339596492,
      "loss": 1.7713,
      "step": 10172
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39564889669418335,
      "learning_rate": 0.0005813532066497834,
      "loss": 1.8612,
      "step": 10173
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39316022396087646,
      "learning_rate": 0.0005813495789983963,
      "loss": 1.7114,
      "step": 10174
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38823461532592773,
      "learning_rate": 0.0005813459510054923,
      "loss": 1.756,
      "step": 10175
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4064187705516815,
      "learning_rate": 0.0005813423226710757,
      "loss": 1.7742,
      "step": 10176
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39440464973449707,
      "learning_rate": 0.0005813386939951511,
      "loss": 1.7893,
      "step": 10177
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3971864879131317,
      "learning_rate": 0.0005813350649777227,
      "loss": 1.7947,
      "step": 10178
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3920663893222809,
      "learning_rate": 0.000581331435618795,
      "loss": 1.8091,
      "step": 10179
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39692261815071106,
      "learning_rate": 0.0005813278059183724,
      "loss": 1.7732,
      "step": 10180
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39452067017555237,
      "learning_rate": 0.0005813241758764593,
      "loss": 1.8108,
      "step": 10181
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4013229310512543,
      "learning_rate": 0.0005813205454930601,
      "loss": 1.8309,
      "step": 10182
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4151768088340759,
      "learning_rate": 0.0005813169147681791,
      "loss": 1.789,
      "step": 10183
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.409534752368927,
      "learning_rate": 0.0005813132837018209,
      "loss": 1.8234,
      "step": 10184
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3952111303806305,
      "learning_rate": 0.0005813096522939898,
      "loss": 1.8437,
      "step": 10185
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3984726667404175,
      "learning_rate": 0.0005813060205446903,
      "loss": 1.8015,
      "step": 10186
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3769376575946808,
      "learning_rate": 0.0005813023884539267,
      "loss": 1.8245,
      "step": 10187
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3945201635360718,
      "learning_rate": 0.0005812987560217034,
      "loss": 1.7344,
      "step": 10188
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3960760533809662,
      "learning_rate": 0.000581295123248025,
      "loss": 1.8234,
      "step": 10189
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3695525527000427,
      "learning_rate": 0.0005812914901328956,
      "loss": 1.716,
      "step": 10190
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41240161657333374,
      "learning_rate": 0.0005812878566763198,
      "loss": 1.8164,
      "step": 10191
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38065072894096375,
      "learning_rate": 0.0005812842228783021,
      "loss": 1.6467,
      "step": 10192
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41695863008499146,
      "learning_rate": 0.0005812805887388467,
      "loss": 1.8182,
      "step": 10193
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38358044624328613,
      "learning_rate": 0.0005812769542579581,
      "loss": 1.6475,
      "step": 10194
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40322887897491455,
      "learning_rate": 0.0005812733194356408,
      "loss": 1.7977,
      "step": 10195
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3879072368144989,
      "learning_rate": 0.000581269684271899,
      "loss": 1.7341,
      "step": 10196
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4051456153392792,
      "learning_rate": 0.0005812660487667375,
      "loss": 1.8039,
      "step": 10197
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39401429891586304,
      "learning_rate": 0.0005812624129201602,
      "loss": 1.7728,
      "step": 10198
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3960648775100708,
      "learning_rate": 0.0005812587767321719,
      "loss": 1.7794,
      "step": 10199
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3835086226463318,
      "learning_rate": 0.0005812551402027769,
      "loss": 1.68,
      "step": 10200
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.45612186193466187,
      "learning_rate": 0.0005812515033319795,
      "loss": 1.7493,
      "step": 10201
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39067769050598145,
      "learning_rate": 0.0005812478661197843,
      "loss": 1.727,
      "step": 10202
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3984866440296173,
      "learning_rate": 0.0005812442285661956,
      "loss": 1.7652,
      "step": 10203
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3860029876232147,
      "learning_rate": 0.0005812405906712179,
      "loss": 1.7672,
      "step": 10204
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39078646898269653,
      "learning_rate": 0.0005812369524348555,
      "loss": 1.6967,
      "step": 10205
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3913986086845398,
      "learning_rate": 0.0005812333138571129,
      "loss": 1.7991,
      "step": 10206
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.49784359335899353,
      "learning_rate": 0.0005812296749379945,
      "loss": 1.751,
      "step": 10207
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38521841168403625,
      "learning_rate": 0.0005812260356775048,
      "loss": 1.731,
      "step": 10208
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38953936100006104,
      "learning_rate": 0.0005812223960756479,
      "loss": 1.8099,
      "step": 10209
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39938727021217346,
      "learning_rate": 0.0005812187561324286,
      "loss": 1.7133,
      "step": 10210
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3826429545879364,
      "learning_rate": 0.0005812151158478511,
      "loss": 1.7747,
      "step": 10211
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40463078022003174,
      "learning_rate": 0.00058121147522192,
      "loss": 1.7939,
      "step": 10212
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38488706946372986,
      "learning_rate": 0.0005812078342546395,
      "loss": 1.7366,
      "step": 10213
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3896203339099884,
      "learning_rate": 0.0005812041929460142,
      "loss": 1.718,
      "step": 10214
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3831982910633087,
      "learning_rate": 0.0005812005512960483,
      "loss": 1.7346,
      "step": 10215
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39938434958457947,
      "learning_rate": 0.0005811969093047466,
      "loss": 1.7672,
      "step": 10216
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4020347595214844,
      "learning_rate": 0.0005811932669721131,
      "loss": 1.7525,
      "step": 10217
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39511945843696594,
      "learning_rate": 0.0005811896242981524,
      "loss": 1.7005,
      "step": 10218
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3918895125389099,
      "learning_rate": 0.000581185981282869,
      "loss": 1.7945,
      "step": 10219
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41263651847839355,
      "learning_rate": 0.0005811823379262672,
      "loss": 1.7371,
      "step": 10220
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4011993706226349,
      "learning_rate": 0.0005811786942283516,
      "loss": 1.7644,
      "step": 10221
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38268476724624634,
      "learning_rate": 0.0005811750501891264,
      "loss": 1.7916,
      "step": 10222
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5154992341995239,
      "learning_rate": 0.000581171405808596,
      "loss": 1.789,
      "step": 10223
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3958847224712372,
      "learning_rate": 0.0005811677610867652,
      "loss": 1.7412,
      "step": 10224
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3927059471607208,
      "learning_rate": 0.000581164116023638,
      "loss": 1.7156,
      "step": 10225
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.402436763048172,
      "learning_rate": 0.000581160470619219,
      "loss": 1.7711,
      "step": 10226
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3965517580509186,
      "learning_rate": 0.0005811568248735126,
      "loss": 1.7586,
      "step": 10227
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3924095332622528,
      "learning_rate": 0.0005811531787865232,
      "loss": 1.6821,
      "step": 10228
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3920229971408844,
      "learning_rate": 0.0005811495323582553,
      "loss": 1.7395,
      "step": 10229
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41911745071411133,
      "learning_rate": 0.0005811458855887134,
      "loss": 1.8291,
      "step": 10230
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39906609058380127,
      "learning_rate": 0.0005811422384779017,
      "loss": 1.7452,
      "step": 10231
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39001524448394775,
      "learning_rate": 0.0005811385910258248,
      "loss": 1.7869,
      "step": 10232
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3879685401916504,
      "learning_rate": 0.0005811349432324872,
      "loss": 1.7583,
      "step": 10233
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39332315325737,
      "learning_rate": 0.000581131295097893,
      "loss": 1.775,
      "step": 10234
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4022732377052307,
      "learning_rate": 0.0005811276466220469,
      "loss": 1.7623,
      "step": 10235
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3942699432373047,
      "learning_rate": 0.0005811239978049533,
      "loss": 1.7639,
      "step": 10236
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3816583454608917,
      "learning_rate": 0.0005811203486466165,
      "loss": 1.7244,
      "step": 10237
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4044858515262604,
      "learning_rate": 0.000581116699147041,
      "loss": 1.728,
      "step": 10238
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38446682691574097,
      "learning_rate": 0.0005811130493062314,
      "loss": 1.7439,
      "step": 10239
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3956420123577118,
      "learning_rate": 0.0005811093991241919,
      "loss": 1.7505,
      "step": 10240
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39378246665000916,
      "learning_rate": 0.0005811057486009271,
      "loss": 1.7976,
      "step": 10241
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3889307677745819,
      "learning_rate": 0.0005811020977364411,
      "loss": 1.8193,
      "step": 10242
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40073156356811523,
      "learning_rate": 0.0005810984465307388,
      "loss": 1.7456,
      "step": 10243
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40502774715423584,
      "learning_rate": 0.0005810947949838243,
      "loss": 1.7628,
      "step": 10244
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3933815360069275,
      "learning_rate": 0.0005810911430957022,
      "loss": 1.7029,
      "step": 10245
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.397213339805603,
      "learning_rate": 0.0005810874908663767,
      "loss": 1.7657,
      "step": 10246
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3879040479660034,
      "learning_rate": 0.0005810838382958527,
      "loss": 1.812,
      "step": 10247
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39095190167427063,
      "learning_rate": 0.000581080185384134,
      "loss": 1.7504,
      "step": 10248
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4629664123058319,
      "learning_rate": 0.0005810765321312256,
      "loss": 1.6682,
      "step": 10249
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3931805193424225,
      "learning_rate": 0.0005810728785371317,
      "loss": 1.8014,
      "step": 10250
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4047359824180603,
      "learning_rate": 0.0005810692246018566,
      "loss": 1.7737,
      "step": 10251
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3935009837150574,
      "learning_rate": 0.0005810655703254049,
      "loss": 1.6939,
      "step": 10252
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3932202160358429,
      "learning_rate": 0.0005810619157077811,
      "loss": 1.7951,
      "step": 10253
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3970060646533966,
      "learning_rate": 0.0005810582607489895,
      "loss": 1.8943,
      "step": 10254
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40423399209976196,
      "learning_rate": 0.0005810546054490347,
      "loss": 1.7678,
      "step": 10255
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3975333571434021,
      "learning_rate": 0.0005810509498079208,
      "loss": 1.8038,
      "step": 10256
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40756258368492126,
      "learning_rate": 0.0005810472938256526,
      "loss": 1.8266,
      "step": 10257
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39247483015060425,
      "learning_rate": 0.0005810436375022344,
      "loss": 1.7323,
      "step": 10258
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4446311295032501,
      "learning_rate": 0.0005810399808376706,
      "loss": 1.8082,
      "step": 10259
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3862411081790924,
      "learning_rate": 0.0005810363238319656,
      "loss": 1.7003,
      "step": 10260
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3931029140949249,
      "learning_rate": 0.000581032666485124,
      "loss": 1.7372,
      "step": 10261
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4090088903903961,
      "learning_rate": 0.0005810290087971501,
      "loss": 1.7831,
      "step": 10262
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4157414734363556,
      "learning_rate": 0.0005810253507680486,
      "loss": 1.8138,
      "step": 10263
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3924969732761383,
      "learning_rate": 0.0005810216923978236,
      "loss": 1.7147,
      "step": 10264
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3966151773929596,
      "learning_rate": 0.0005810180336864795,
      "loss": 1.8234,
      "step": 10265
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4062121510505676,
      "learning_rate": 0.0005810143746340211,
      "loss": 1.8379,
      "step": 10266
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3829527497291565,
      "learning_rate": 0.0005810107152404526,
      "loss": 1.7551,
      "step": 10267
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4032074511051178,
      "learning_rate": 0.0005810070555057785,
      "loss": 1.8413,
      "step": 10268
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39758792519569397,
      "learning_rate": 0.0005810033954300032,
      "loss": 1.7697,
      "step": 10269
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38773056864738464,
      "learning_rate": 0.0005809997350131312,
      "loss": 1.7369,
      "step": 10270
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40478965640068054,
      "learning_rate": 0.000580996074255167,
      "loss": 1.8089,
      "step": 10271
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3941323161125183,
      "learning_rate": 0.0005809924131561149,
      "loss": 1.7462,
      "step": 10272
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3991925120353699,
      "learning_rate": 0.0005809887517159794,
      "loss": 1.738,
      "step": 10273
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39540693163871765,
      "learning_rate": 0.0005809850899347649,
      "loss": 1.7885,
      "step": 10274
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3882395625114441,
      "learning_rate": 0.000580981427812476,
      "loss": 1.7655,
      "step": 10275
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3884700834751129,
      "learning_rate": 0.0005809777653491171,
      "loss": 1.8128,
      "step": 10276
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38803520798683167,
      "learning_rate": 0.0005809741025446925,
      "loss": 1.7698,
      "step": 10277
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4073915481567383,
      "learning_rate": 0.0005809704393992067,
      "loss": 1.8621,
      "step": 10278
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3901698589324951,
      "learning_rate": 0.0005809667759126643,
      "loss": 1.7669,
      "step": 10279
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3941706717014313,
      "learning_rate": 0.0005809631120850695,
      "loss": 1.7871,
      "step": 10280
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39511510729789734,
      "learning_rate": 0.0005809594479164271,
      "loss": 1.7344,
      "step": 10281
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4007144868373871,
      "learning_rate": 0.0005809557834067411,
      "loss": 1.8381,
      "step": 10282
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3911767303943634,
      "learning_rate": 0.0005809521185560164,
      "loss": 1.7723,
      "step": 10283
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.394043505191803,
      "learning_rate": 0.000580948453364257,
      "loss": 1.7668,
      "step": 10284
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3950442671775818,
      "learning_rate": 0.0005809447878314677,
      "loss": 1.7699,
      "step": 10285
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3868229389190674,
      "learning_rate": 0.0005809411219576528,
      "loss": 1.8071,
      "step": 10286
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4140930473804474,
      "learning_rate": 0.0005809374557428168,
      "loss": 1.8018,
      "step": 10287
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3891851603984833,
      "learning_rate": 0.000580933789186964,
      "loss": 1.7218,
      "step": 10288
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3905678987503052,
      "learning_rate": 0.0005809301222900991,
      "loss": 1.7125,
      "step": 10289
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39808550477027893,
      "learning_rate": 0.0005809264550522263,
      "loss": 1.6955,
      "step": 10290
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3866406977176666,
      "learning_rate": 0.0005809227874733503,
      "loss": 1.7322,
      "step": 10291
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3913952708244324,
      "learning_rate": 0.0005809191195534754,
      "loss": 1.7704,
      "step": 10292
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.37957000732421875,
      "learning_rate": 0.000580915451292606,
      "loss": 1.7746,
      "step": 10293
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39830300211906433,
      "learning_rate": 0.0005809117826907468,
      "loss": 1.8005,
      "step": 10294
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3994790017604828,
      "learning_rate": 0.0005809081137479018,
      "loss": 1.7224,
      "step": 10295
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38829439878463745,
      "learning_rate": 0.000580904444464076,
      "loss": 1.81,
      "step": 10296
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40409785509109497,
      "learning_rate": 0.0005809007748392736,
      "loss": 1.8027,
      "step": 10297
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39533209800720215,
      "learning_rate": 0.0005808971048734989,
      "loss": 1.7732,
      "step": 10298
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4004366993904114,
      "learning_rate": 0.0005808934345667566,
      "loss": 1.7894,
      "step": 10299
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3934148848056793,
      "learning_rate": 0.000580889763919051,
      "loss": 1.7381,
      "step": 10300
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4078228175640106,
      "learning_rate": 0.0005808860929303867,
      "loss": 1.7871,
      "step": 10301
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3846677541732788,
      "learning_rate": 0.000580882421600768,
      "loss": 1.7041,
      "step": 10302
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4134577810764313,
      "learning_rate": 0.0005808787499301994,
      "loss": 1.7604,
      "step": 10303
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3894239366054535,
      "learning_rate": 0.0005808750779186854,
      "loss": 1.7265,
      "step": 10304
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.37948858737945557,
      "learning_rate": 0.0005808714055662305,
      "loss": 1.6987,
      "step": 10305
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38567835092544556,
      "learning_rate": 0.000580867732872839,
      "loss": 1.7598,
      "step": 10306
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40314602851867676,
      "learning_rate": 0.0005808640598385156,
      "loss": 1.8417,
      "step": 10307
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39881280064582825,
      "learning_rate": 0.0005808603864632645,
      "loss": 1.7476,
      "step": 10308
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.381971538066864,
      "learning_rate": 0.0005808567127470903,
      "loss": 1.799,
      "step": 10309
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.391676127910614,
      "learning_rate": 0.0005808530386899974,
      "loss": 1.7948,
      "step": 10310
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3950151801109314,
      "learning_rate": 0.0005808493642919903,
      "loss": 1.7087,
      "step": 10311
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39100566506385803,
      "learning_rate": 0.0005808456895530736,
      "loss": 1.7695,
      "step": 10312
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3930613696575165,
      "learning_rate": 0.0005808420144732514,
      "loss": 1.8323,
      "step": 10313
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3900364339351654,
      "learning_rate": 0.0005808383390525285,
      "loss": 1.7396,
      "step": 10314
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.42225882411003113,
      "learning_rate": 0.0005808346632909092,
      "loss": 1.7425,
      "step": 10315
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39554306864738464,
      "learning_rate": 0.0005808309871883979,
      "loss": 1.7888,
      "step": 10316
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40338319540023804,
      "learning_rate": 0.0005808273107449993,
      "loss": 1.82,
      "step": 10317
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39739325642585754,
      "learning_rate": 0.0005808236339607177,
      "loss": 1.7829,
      "step": 10318
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39729371666908264,
      "learning_rate": 0.0005808199568355576,
      "loss": 1.778,
      "step": 10319
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3852292597293854,
      "learning_rate": 0.0005808162793695234,
      "loss": 1.7925,
      "step": 10320
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4006287157535553,
      "learning_rate": 0.0005808126015626196,
      "loss": 1.8238,
      "step": 10321
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39671066403388977,
      "learning_rate": 0.0005808089234148508,
      "loss": 1.7346,
      "step": 10322
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3956244885921478,
      "learning_rate": 0.0005808052449262212,
      "loss": 1.789,
      "step": 10323
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40769317746162415,
      "learning_rate": 0.0005808015660967354,
      "loss": 1.7957,
      "step": 10324
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4140537679195404,
      "learning_rate": 0.000580797886926398,
      "loss": 1.8935,
      "step": 10325
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3852633833885193,
      "learning_rate": 0.0005807942074152133,
      "loss": 1.7687,
      "step": 10326
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4091574251651764,
      "learning_rate": 0.0005807905275631857,
      "loss": 1.8089,
      "step": 10327
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39775869250297546,
      "learning_rate": 0.0005807868473703199,
      "loss": 1.8063,
      "step": 10328
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38364413380622864,
      "learning_rate": 0.0005807831668366202,
      "loss": 1.7946,
      "step": 10329
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39581698179244995,
      "learning_rate": 0.0005807794859620911,
      "loss": 1.8514,
      "step": 10330
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4046473801136017,
      "learning_rate": 0.000580775804746737,
      "loss": 1.8592,
      "step": 10331
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3969593942165375,
      "learning_rate": 0.0005807721231905626,
      "loss": 1.7911,
      "step": 10332
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3972571790218353,
      "learning_rate": 0.0005807684412935721,
      "loss": 1.8139,
      "step": 10333
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39083200693130493,
      "learning_rate": 0.0005807647590557701,
      "loss": 1.7584,
      "step": 10334
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3963526785373688,
      "learning_rate": 0.000580761076477161,
      "loss": 1.7611,
      "step": 10335
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4123789966106415,
      "learning_rate": 0.0005807573935577494,
      "loss": 1.8383,
      "step": 10336
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.43596792221069336,
      "learning_rate": 0.0005807537102975398,
      "loss": 1.7474,
      "step": 10337
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3823051154613495,
      "learning_rate": 0.0005807500266965364,
      "loss": 1.7454,
      "step": 10338
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39482879638671875,
      "learning_rate": 0.0005807463427547438,
      "loss": 1.7748,
      "step": 10339
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.42085111141204834,
      "learning_rate": 0.0005807426584721666,
      "loss": 1.8397,
      "step": 10340
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4065975844860077,
      "learning_rate": 0.0005807389738488091,
      "loss": 1.8181,
      "step": 10341
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3871948719024658,
      "learning_rate": 0.0005807352888846759,
      "loss": 1.7725,
      "step": 10342
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38837113976478577,
      "learning_rate": 0.0005807316035797715,
      "loss": 1.731,
      "step": 10343
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39911529421806335,
      "learning_rate": 0.0005807279179341002,
      "loss": 1.7577,
      "step": 10344
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39257892966270447,
      "learning_rate": 0.0005807242319476666,
      "loss": 1.7627,
      "step": 10345
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40625351667404175,
      "learning_rate": 0.0005807205456204752,
      "loss": 1.7205,
      "step": 10346
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3862825930118561,
      "learning_rate": 0.0005807168589525303,
      "loss": 1.769,
      "step": 10347
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3818730115890503,
      "learning_rate": 0.0005807131719438365,
      "loss": 1.8082,
      "step": 10348
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3817942142486572,
      "learning_rate": 0.0005807094845943984,
      "loss": 1.826,
      "step": 10349
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.37952181696891785,
      "learning_rate": 0.0005807057969042203,
      "loss": 1.7498,
      "step": 10350
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3953096270561218,
      "learning_rate": 0.0005807021088733066,
      "loss": 1.7825,
      "step": 10351
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4915345013141632,
      "learning_rate": 0.0005806984205016621,
      "loss": 1.755,
      "step": 10352
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.37729212641716003,
      "learning_rate": 0.0005806947317892909,
      "loss": 1.7531,
      "step": 10353
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3771267831325531,
      "learning_rate": 0.0005806910427361978,
      "loss": 1.7723,
      "step": 10354
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4556831121444702,
      "learning_rate": 0.0005806873533423869,
      "loss": 1.7438,
      "step": 10355
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3808857500553131,
      "learning_rate": 0.0005806836636078631,
      "loss": 1.7269,
      "step": 10356
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38803282380104065,
      "learning_rate": 0.0005806799735326307,
      "loss": 1.7233,
      "step": 10357
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.44619065523147583,
      "learning_rate": 0.0005806762831166942,
      "loss": 1.7522,
      "step": 10358
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5001435875892639,
      "learning_rate": 0.0005806725923600579,
      "loss": 1.8409,
      "step": 10359
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39102625846862793,
      "learning_rate": 0.0005806689012627266,
      "loss": 1.7695,
      "step": 10360
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39535728096961975,
      "learning_rate": 0.0005806652098247044,
      "loss": 1.699,
      "step": 10361
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4033545255661011,
      "learning_rate": 0.0005806615180459961,
      "loss": 1.7209,
      "step": 10362
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39617040753364563,
      "learning_rate": 0.0005806578259266061,
      "loss": 1.8099,
      "step": 10363
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3694106340408325,
      "learning_rate": 0.0005806541334665388,
      "loss": 1.6873,
      "step": 10364
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38498809933662415,
      "learning_rate": 0.0005806504406657988,
      "loss": 1.7647,
      "step": 10365
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38371413946151733,
      "learning_rate": 0.0005806467475243905,
      "loss": 1.7279,
      "step": 10366
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.37579911947250366,
      "learning_rate": 0.0005806430540423183,
      "loss": 1.7394,
      "step": 10367
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3822655975818634,
      "learning_rate": 0.0005806393602195869,
      "loss": 1.7645,
      "step": 10368
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39910370111465454,
      "learning_rate": 0.0005806356660562006,
      "loss": 1.7774,
      "step": 10369
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40281185507774353,
      "learning_rate": 0.000580631971552164,
      "loss": 1.8652,
      "step": 10370
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4087452292442322,
      "learning_rate": 0.0005806282767074815,
      "loss": 1.7613,
      "step": 10371
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3894473612308502,
      "learning_rate": 0.0005806245815221576,
      "loss": 1.787,
      "step": 10372
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38985326886177063,
      "learning_rate": 0.0005806208859961969,
      "loss": 1.7502,
      "step": 10373
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4032861590385437,
      "learning_rate": 0.0005806171901296036,
      "loss": 1.7964,
      "step": 10374
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3759804368019104,
      "learning_rate": 0.0005806134939223826,
      "loss": 1.8346,
      "step": 10375
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3935011029243469,
      "learning_rate": 0.000580609797374538,
      "loss": 1.8125,
      "step": 10376
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40818068385124207,
      "learning_rate": 0.0005806061004860745,
      "loss": 1.7393,
      "step": 10377
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39542680978775024,
      "learning_rate": 0.0005806024032569966,
      "loss": 1.7929,
      "step": 10378
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4067116379737854,
      "learning_rate": 0.0005805987056873087,
      "loss": 1.753,
      "step": 10379
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3926408886909485,
      "learning_rate": 0.0005805950077770153,
      "loss": 1.7678,
      "step": 10380
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3867436945438385,
      "learning_rate": 0.0005805913095261209,
      "loss": 1.7177,
      "step": 10381
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39759090542793274,
      "learning_rate": 0.0005805876109346301,
      "loss": 1.7254,
      "step": 10382
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3733616769313812,
      "learning_rate": 0.0005805839120025471,
      "loss": 1.718,
      "step": 10383
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3981069028377533,
      "learning_rate": 0.0005805802127298767,
      "loss": 1.8038,
      "step": 10384
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3812159597873688,
      "learning_rate": 0.0005805765131166233,
      "loss": 1.7594,
      "step": 10385
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39825761318206787,
      "learning_rate": 0.0005805728131627911,
      "loss": 1.7293,
      "step": 10386
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39102765917778015,
      "learning_rate": 0.0005805691128683852,
      "loss": 1.7084,
      "step": 10387
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3835453391075134,
      "learning_rate": 0.0005805654122334094,
      "loss": 1.8074,
      "step": 10388
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3828044831752777,
      "learning_rate": 0.0005805617112578687,
      "loss": 1.7805,
      "step": 10389
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39967620372772217,
      "learning_rate": 0.0005805580099417675,
      "loss": 1.6947,
      "step": 10390
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.381466269493103,
      "learning_rate": 0.0005805543082851101,
      "loss": 1.7778,
      "step": 10391
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3938288688659668,
      "learning_rate": 0.0005805506062879011,
      "loss": 1.7858,
      "step": 10392
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41346070170402527,
      "learning_rate": 0.000580546903950145,
      "loss": 1.8238,
      "step": 10393
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3965376615524292,
      "learning_rate": 0.0005805432012718464,
      "loss": 1.9401,
      "step": 10394
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3852798640727997,
      "learning_rate": 0.0005805394982530096,
      "loss": 1.738,
      "step": 10395
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3993876576423645,
      "learning_rate": 0.0005805357948936393,
      "loss": 1.7599,
      "step": 10396
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41302719712257385,
      "learning_rate": 0.0005805320911937397,
      "loss": 1.7463,
      "step": 10397
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38095787167549133,
      "learning_rate": 0.0005805283871533156,
      "loss": 1.6985,
      "step": 10398
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38382792472839355,
      "learning_rate": 0.0005805246827723713,
      "loss": 1.7935,
      "step": 10399
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3974032700061798,
      "learning_rate": 0.0005805209780509114,
      "loss": 1.6935,
      "step": 10400
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3868262469768524,
      "learning_rate": 0.0005805172729889403,
      "loss": 1.7641,
      "step": 10401
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39295899868011475,
      "learning_rate": 0.0005805135675864627,
      "loss": 1.876,
      "step": 10402
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4422982633113861,
      "learning_rate": 0.0005805098618434829,
      "loss": 1.7382,
      "step": 10403
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38851335644721985,
      "learning_rate": 0.0005805061557600054,
      "loss": 1.7801,
      "step": 10404
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38339322805404663,
      "learning_rate": 0.0005805024493360347,
      "loss": 1.7341,
      "step": 10405
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38994064927101135,
      "learning_rate": 0.0005804987425715756,
      "loss": 1.7836,
      "step": 10406
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3934139907360077,
      "learning_rate": 0.0005804950354666321,
      "loss": 1.7638,
      "step": 10407
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39729833602905273,
      "learning_rate": 0.0005804913280212092,
      "loss": 1.8224,
      "step": 10408
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39690446853637695,
      "learning_rate": 0.000580487620235311,
      "loss": 1.7107,
      "step": 10409
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3957561254501343,
      "learning_rate": 0.0005804839121089422,
      "loss": 1.7159,
      "step": 10410
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4028025269508362,
      "learning_rate": 0.0005804802036421072,
      "loss": 1.7337,
      "step": 10411
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39183229207992554,
      "learning_rate": 0.0005804764948348106,
      "loss": 1.7326,
      "step": 10412
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39079928398132324,
      "learning_rate": 0.0005804727856870568,
      "loss": 1.728,
      "step": 10413
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39076492190361023,
      "learning_rate": 0.0005804690761988504,
      "loss": 1.7633,
      "step": 10414
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37991011142730713,
      "learning_rate": 0.000580465366370196,
      "loss": 1.761,
      "step": 10415
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3865669369697571,
      "learning_rate": 0.0005804616562010978,
      "loss": 1.7833,
      "step": 10416
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3847242593765259,
      "learning_rate": 0.0005804579456915606,
      "loss": 1.8202,
      "step": 10417
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3857826292514801,
      "learning_rate": 0.0005804542348415887,
      "loss": 1.8756,
      "step": 10418
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3934585750102997,
      "learning_rate": 0.0005804505236511867,
      "loss": 1.7835,
      "step": 10419
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4054509401321411,
      "learning_rate": 0.0005804468121203591,
      "loss": 1.7577,
      "step": 10420
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39250725507736206,
      "learning_rate": 0.0005804431002491104,
      "loss": 1.7948,
      "step": 10421
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37681838870048523,
      "learning_rate": 0.000580439388037445,
      "loss": 1.728,
      "step": 10422
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39781808853149414,
      "learning_rate": 0.0005804356754853675,
      "loss": 1.8115,
      "step": 10423
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.397789865732193,
      "learning_rate": 0.0005804319625928826,
      "loss": 1.8258,
      "step": 10424
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39418739080429077,
      "learning_rate": 0.0005804282493599946,
      "loss": 1.8126,
      "step": 10425
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3896145820617676,
      "learning_rate": 0.0005804245357867078,
      "loss": 1.7845,
      "step": 10426
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3833464980125427,
      "learning_rate": 0.0005804208218730271,
      "loss": 1.6831,
      "step": 10427
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39218148589134216,
      "learning_rate": 0.0005804171076189568,
      "loss": 1.7575,
      "step": 10428
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3996950089931488,
      "learning_rate": 0.0005804133930245014,
      "loss": 1.7881,
      "step": 10429
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3932286202907562,
      "learning_rate": 0.0005804096780896655,
      "loss": 1.7445,
      "step": 10430
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.382805734872818,
      "learning_rate": 0.0005804059628144537,
      "loss": 1.7437,
      "step": 10431
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3781775236129761,
      "learning_rate": 0.0005804022471988701,
      "loss": 1.7185,
      "step": 10432
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3869073688983917,
      "learning_rate": 0.0005803985312429198,
      "loss": 1.8024,
      "step": 10433
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37879592180252075,
      "learning_rate": 0.0005803948149466068,
      "loss": 1.7338,
      "step": 10434
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3918513059616089,
      "learning_rate": 0.0005803910983099358,
      "loss": 1.7784,
      "step": 10435
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37577909231185913,
      "learning_rate": 0.0005803873813329115,
      "loss": 1.7308,
      "step": 10436
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3881481885910034,
      "learning_rate": 0.000580383664015538,
      "loss": 1.7758,
      "step": 10437
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3820262551307678,
      "learning_rate": 0.0005803799463578201,
      "loss": 1.8331,
      "step": 10438
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39744332432746887,
      "learning_rate": 0.0005803762283597623,
      "loss": 1.7519,
      "step": 10439
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3930073082447052,
      "learning_rate": 0.0005803725100213691,
      "loss": 1.7884,
      "step": 10440
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38968735933303833,
      "learning_rate": 0.0005803687913426449,
      "loss": 1.8017,
      "step": 10441
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38056015968322754,
      "learning_rate": 0.0005803650723235944,
      "loss": 1.7076,
      "step": 10442
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3850015699863434,
      "learning_rate": 0.0005803613529642219,
      "loss": 1.7216,
      "step": 10443
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.401953786611557,
      "learning_rate": 0.0005803576332645322,
      "loss": 1.803,
      "step": 10444
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.399558424949646,
      "learning_rate": 0.0005803539132245296,
      "loss": 1.7536,
      "step": 10445
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39769595861434937,
      "learning_rate": 0.0005803501928442186,
      "loss": 1.7639,
      "step": 10446
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37459510564804077,
      "learning_rate": 0.0005803464721236036,
      "loss": 1.8198,
      "step": 10447
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3884757161140442,
      "learning_rate": 0.0005803427510626895,
      "loss": 1.7306,
      "step": 10448
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3994033634662628,
      "learning_rate": 0.0005803390296614805,
      "loss": 1.7454,
      "step": 10449
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39342957735061646,
      "learning_rate": 0.0005803353079199814,
      "loss": 1.7549,
      "step": 10450
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38648009300231934,
      "learning_rate": 0.0005803315858381964,
      "loss": 1.754,
      "step": 10451
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41199108958244324,
      "learning_rate": 0.0005803278634161302,
      "loss": 1.7541,
      "step": 10452
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38675427436828613,
      "learning_rate": 0.0005803241406537872,
      "loss": 1.6755,
      "step": 10453
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3778553307056427,
      "learning_rate": 0.0005803204175511721,
      "loss": 1.7507,
      "step": 10454
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39592280983924866,
      "learning_rate": 0.0005803166941082893,
      "loss": 1.7357,
      "step": 10455
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4067656099796295,
      "learning_rate": 0.0005803129703251432,
      "loss": 1.7258,
      "step": 10456
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39079245924949646,
      "learning_rate": 0.0005803092462017387,
      "loss": 1.7503,
      "step": 10457
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4011653661727905,
      "learning_rate": 0.0005803055217380799,
      "loss": 1.769,
      "step": 10458
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4113315939903259,
      "learning_rate": 0.0005803017969341716,
      "loss": 1.7771,
      "step": 10459
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3862459063529968,
      "learning_rate": 0.0005802980717900181,
      "loss": 1.7785,
      "step": 10460
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3981132209300995,
      "learning_rate": 0.0005802943463056241,
      "loss": 1.7743,
      "step": 10461
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3988654613494873,
      "learning_rate": 0.0005802906204809941,
      "loss": 1.765,
      "step": 10462
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39128822088241577,
      "learning_rate": 0.0005802868943161325,
      "loss": 1.7168,
      "step": 10463
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4034656286239624,
      "learning_rate": 0.000580283167811044,
      "loss": 1.7337,
      "step": 10464
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40026912093162537,
      "learning_rate": 0.000580279440965733,
      "loss": 1.7978,
      "step": 10465
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.403605192899704,
      "learning_rate": 0.000580275713780204,
      "loss": 1.8217,
      "step": 10466
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3923032879829407,
      "learning_rate": 0.0005802719862544616,
      "loss": 1.7181,
      "step": 10467
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38726693391799927,
      "learning_rate": 0.0005802682583885103,
      "loss": 1.758,
      "step": 10468
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3937072157859802,
      "learning_rate": 0.0005802645301823548,
      "loss": 1.7157,
      "step": 10469
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39320436120033264,
      "learning_rate": 0.0005802608016359993,
      "loss": 1.7609,
      "step": 10470
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4051531255245209,
      "learning_rate": 0.0005802570727494485,
      "loss": 1.6797,
      "step": 10471
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38154757022857666,
      "learning_rate": 0.0005802533435227069,
      "loss": 1.7253,
      "step": 10472
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4023720324039459,
      "learning_rate": 0.000580249613955779,
      "loss": 1.79,
      "step": 10473
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38459688425064087,
      "learning_rate": 0.0005802458840486695,
      "loss": 1.7498,
      "step": 10474
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39800235629081726,
      "learning_rate": 0.0005802421538013827,
      "loss": 1.7721,
      "step": 10475
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39757299423217773,
      "learning_rate": 0.0005802384232139232,
      "loss": 1.6938,
      "step": 10476
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4110148251056671,
      "learning_rate": 0.0005802346922862955,
      "loss": 1.7563,
      "step": 10477
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.398761510848999,
      "learning_rate": 0.0005802309610185042,
      "loss": 1.7767,
      "step": 10478
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.386586993932724,
      "learning_rate": 0.0005802272294105539,
      "loss": 1.7373,
      "step": 10479
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3942798972129822,
      "learning_rate": 0.000580223497462449,
      "loss": 1.782,
      "step": 10480
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4239271283149719,
      "learning_rate": 0.000580219765174194,
      "loss": 1.8136,
      "step": 10481
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38995644450187683,
      "learning_rate": 0.0005802160325457935,
      "loss": 1.7277,
      "step": 10482
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.400225430727005,
      "learning_rate": 0.000580212299577252,
      "loss": 1.7522,
      "step": 10483
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39233413338661194,
      "learning_rate": 0.0005802085662685742,
      "loss": 1.7536,
      "step": 10484
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3851277828216553,
      "learning_rate": 0.0005802048326197643,
      "loss": 1.6855,
      "step": 10485
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4109759032726288,
      "learning_rate": 0.0005802010986308272,
      "loss": 1.8055,
      "step": 10486
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3900183141231537,
      "learning_rate": 0.0005801973643017671,
      "loss": 1.7874,
      "step": 10487
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38935935497283936,
      "learning_rate": 0.0005801936296325888,
      "loss": 1.7065,
      "step": 10488
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40034714341163635,
      "learning_rate": 0.0005801898946232966,
      "loss": 1.7522,
      "step": 10489
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3945070803165436,
      "learning_rate": 0.0005801861592738953,
      "loss": 1.7877,
      "step": 10490
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38864874839782715,
      "learning_rate": 0.0005801824235843892,
      "loss": 1.7263,
      "step": 10491
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38728028535842896,
      "learning_rate": 0.0005801786875547828,
      "loss": 1.7714,
      "step": 10492
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3816497027873993,
      "learning_rate": 0.0005801749511850809,
      "loss": 1.7583,
      "step": 10493
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39858272671699524,
      "learning_rate": 0.0005801712144752879,
      "loss": 1.7785,
      "step": 10494
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3980444073677063,
      "learning_rate": 0.0005801674774254084,
      "loss": 1.7718,
      "step": 10495
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.397959440946579,
      "learning_rate": 0.0005801637400354466,
      "loss": 1.7513,
      "step": 10496
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3908838629722595,
      "learning_rate": 0.0005801600023054076,
      "loss": 1.8294,
      "step": 10497
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3833889663219452,
      "learning_rate": 0.0005801562642352955,
      "loss": 1.8561,
      "step": 10498
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3846592903137207,
      "learning_rate": 0.0005801525258251149,
      "loss": 1.6997,
      "step": 10499
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4119759500026703,
      "learning_rate": 0.0005801487870748705,
      "loss": 1.8176,
      "step": 10500
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39146196842193604,
      "learning_rate": 0.0005801450479845667,
      "loss": 1.7913,
      "step": 10501
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40960919857025146,
      "learning_rate": 0.0005801413085542082,
      "loss": 1.8494,
      "step": 10502
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3892189562320709,
      "learning_rate": 0.0005801375687837993,
      "loss": 1.8118,
      "step": 10503
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3903852701187134,
      "learning_rate": 0.0005801338286733447,
      "loss": 1.7841,
      "step": 10504
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3842112123966217,
      "learning_rate": 0.0005801300882228489,
      "loss": 1.7308,
      "step": 10505
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40497952699661255,
      "learning_rate": 0.0005801263474323166,
      "loss": 1.7972,
      "step": 10506
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4000628590583801,
      "learning_rate": 0.000580122606301752,
      "loss": 1.7642,
      "step": 10507
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3992573916912079,
      "learning_rate": 0.0005801188648311598,
      "loss": 1.7181,
      "step": 10508
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.418100506067276,
      "learning_rate": 0.0005801151230205448,
      "loss": 1.733,
      "step": 10509
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3867579996585846,
      "learning_rate": 0.0005801113808699111,
      "loss": 1.7704,
      "step": 10510
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4199824035167694,
      "learning_rate": 0.0005801076383792637,
      "loss": 1.8491,
      "step": 10511
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39599958062171936,
      "learning_rate": 0.0005801038955486066,
      "loss": 1.7499,
      "step": 10512
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3881604075431824,
      "learning_rate": 0.0005801001523779448,
      "loss": 1.8136,
      "step": 10513
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38944733142852783,
      "learning_rate": 0.0005800964088672827,
      "loss": 1.6887,
      "step": 10514
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38950127363204956,
      "learning_rate": 0.0005800926650166248,
      "loss": 1.7597,
      "step": 10515
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38416334986686707,
      "learning_rate": 0.0005800889208259757,
      "loss": 1.7739,
      "step": 10516
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38591858744621277,
      "learning_rate": 0.0005800851762953398,
      "loss": 1.7771,
      "step": 10517
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3814261555671692,
      "learning_rate": 0.0005800814314247219,
      "loss": 1.799,
      "step": 10518
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38285449147224426,
      "learning_rate": 0.0005800776862141263,
      "loss": 1.7189,
      "step": 10519
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3841983377933502,
      "learning_rate": 0.0005800739406635577,
      "loss": 1.8092,
      "step": 10520
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3944539427757263,
      "learning_rate": 0.0005800701947730208,
      "loss": 1.7439,
      "step": 10521
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3862718641757965,
      "learning_rate": 0.0005800664485425196,
      "loss": 1.7363,
      "step": 10522
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3924434781074524,
      "learning_rate": 0.0005800627019720592,
      "loss": 1.7141,
      "step": 10523
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40224748849868774,
      "learning_rate": 0.0005800589550616439,
      "loss": 1.7684,
      "step": 10524
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3813527226448059,
      "learning_rate": 0.0005800552078112783,
      "loss": 1.7832,
      "step": 10525
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39439868927001953,
      "learning_rate": 0.0005800514602209671,
      "loss": 1.7578,
      "step": 10526
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4012621343135834,
      "learning_rate": 0.0005800477122907145,
      "loss": 1.7644,
      "step": 10527
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4000278115272522,
      "learning_rate": 0.0005800439640205252,
      "loss": 1.7404,
      "step": 10528
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40121716260910034,
      "learning_rate": 0.0005800402154104039,
      "loss": 1.7881,
      "step": 10529
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40194591879844666,
      "learning_rate": 0.000580036466460355,
      "loss": 1.8043,
      "step": 10530
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39036619663238525,
      "learning_rate": 0.0005800327171703832,
      "loss": 1.7845,
      "step": 10531
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38616660237312317,
      "learning_rate": 0.0005800289675404927,
      "loss": 1.7242,
      "step": 10532
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39069288969039917,
      "learning_rate": 0.0005800252175706884,
      "loss": 1.8036,
      "step": 10533
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3818930983543396,
      "learning_rate": 0.0005800214672609748,
      "loss": 1.7101,
      "step": 10534
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3900603950023651,
      "learning_rate": 0.0005800177166113565,
      "loss": 1.8041,
      "step": 10535
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.393339067697525,
      "learning_rate": 0.0005800139656218378,
      "loss": 1.7233,
      "step": 10536
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4120859205722809,
      "learning_rate": 0.0005800102142924234,
      "loss": 1.8292,
      "step": 10537
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3878687024116516,
      "learning_rate": 0.0005800064626231179,
      "loss": 1.8105,
      "step": 10538
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3914972245693207,
      "learning_rate": 0.0005800027106139258,
      "loss": 1.7668,
      "step": 10539
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4124241769313812,
      "learning_rate": 0.0005799989582648517,
      "loss": 1.8568,
      "step": 10540
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3851240277290344,
      "learning_rate": 0.0005799952055759001,
      "loss": 1.7977,
      "step": 10541
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4003165662288666,
      "learning_rate": 0.0005799914525470755,
      "loss": 1.7919,
      "step": 10542
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40356406569480896,
      "learning_rate": 0.0005799876991783826,
      "loss": 1.7732,
      "step": 10543
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.382826566696167,
      "learning_rate": 0.000579983945469826,
      "loss": 1.7756,
      "step": 10544
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3984684348106384,
      "learning_rate": 0.00057998019142141,
      "loss": 1.8279,
      "step": 10545
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4023108184337616,
      "learning_rate": 0.0005799764370331392,
      "loss": 1.7623,
      "step": 10546
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4059557318687439,
      "learning_rate": 0.0005799726823050185,
      "loss": 1.7989,
      "step": 10547
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3941243290901184,
      "learning_rate": 0.000579968927237052,
      "loss": 1.7947,
      "step": 10548
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40915584564208984,
      "learning_rate": 0.0005799651718292446,
      "loss": 1.7707,
      "step": 10549
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41253533959388733,
      "learning_rate": 0.0005799614160816009,
      "loss": 1.7852,
      "step": 10550
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38710784912109375,
      "learning_rate": 0.000579957659994125,
      "loss": 1.8311,
      "step": 10551
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3951021730899811,
      "learning_rate": 0.0005799539035668219,
      "loss": 1.7883,
      "step": 10552
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.393128901720047,
      "learning_rate": 0.0005799501467996959,
      "loss": 1.6791,
      "step": 10553
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41678938269615173,
      "learning_rate": 0.0005799463896927517,
      "loss": 1.7669,
      "step": 10554
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3892725110054016,
      "learning_rate": 0.0005799426322459939,
      "loss": 1.7334,
      "step": 10555
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3937598466873169,
      "learning_rate": 0.000579938874459427,
      "loss": 1.7592,
      "step": 10556
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4092281460762024,
      "learning_rate": 0.0005799351163330554,
      "loss": 1.7472,
      "step": 10557
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.388217955827713,
      "learning_rate": 0.0005799313578668839,
      "loss": 1.7484,
      "step": 10558
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3784807026386261,
      "learning_rate": 0.0005799275990609171,
      "loss": 1.6825,
      "step": 10559
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39557796716690063,
      "learning_rate": 0.0005799238399151593,
      "loss": 1.7301,
      "step": 10560
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40348100662231445,
      "learning_rate": 0.0005799200804296153,
      "loss": 1.7755,
      "step": 10561
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39060765504837036,
      "learning_rate": 0.0005799163206042895,
      "loss": 1.776,
      "step": 10562
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3876522481441498,
      "learning_rate": 0.0005799125604391865,
      "loss": 1.7713,
      "step": 10563
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3973652422428131,
      "learning_rate": 0.000579908799934311,
      "loss": 1.7547,
      "step": 10564
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4010319709777832,
      "learning_rate": 0.0005799050390896674,
      "loss": 1.79,
      "step": 10565
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3872119188308716,
      "learning_rate": 0.0005799012779052603,
      "loss": 1.7459,
      "step": 10566
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4000187814235687,
      "learning_rate": 0.0005798975163810943,
      "loss": 1.7813,
      "step": 10567
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39061427116394043,
      "learning_rate": 0.0005798937545171739,
      "loss": 1.7928,
      "step": 10568
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3914153575897217,
      "learning_rate": 0.0005798899923135038,
      "loss": 1.8747,
      "step": 10569
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39687174558639526,
      "learning_rate": 0.0005798862297700885,
      "loss": 1.7836,
      "step": 10570
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40243685245513916,
      "learning_rate": 0.0005798824668869326,
      "loss": 1.8001,
      "step": 10571
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3985530436038971,
      "learning_rate": 0.0005798787036640405,
      "loss": 1.8234,
      "step": 10572
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3882909417152405,
      "learning_rate": 0.0005798749401014169,
      "loss": 1.8261,
      "step": 10573
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38815364241600037,
      "learning_rate": 0.0005798711761990665,
      "loss": 1.7179,
      "step": 10574
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38625583052635193,
      "learning_rate": 0.0005798674119569937,
      "loss": 1.7626,
      "step": 10575
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3813914656639099,
      "learning_rate": 0.0005798636473752029,
      "loss": 1.8312,
      "step": 10576
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38067805767059326,
      "learning_rate": 0.000579859882453699,
      "loss": 1.7763,
      "step": 10577
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3943168818950653,
      "learning_rate": 0.0005798561171924865,
      "loss": 1.7744,
      "step": 10578
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3975837528705597,
      "learning_rate": 0.0005798523515915699,
      "loss": 1.7915,
      "step": 10579
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.395551472902298,
      "learning_rate": 0.0005798485856509537,
      "loss": 1.7803,
      "step": 10580
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3979077935218811,
      "learning_rate": 0.0005798448193706426,
      "loss": 1.7934,
      "step": 10581
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3791027367115021,
      "learning_rate": 0.0005798410527506411,
      "loss": 1.7818,
      "step": 10582
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3866809010505676,
      "learning_rate": 0.0005798372857909539,
      "loss": 1.6923,
      "step": 10583
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39501655101776123,
      "learning_rate": 0.0005798335184915853,
      "loss": 1.7575,
      "step": 10584
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38600462675094604,
      "learning_rate": 0.0005798297508525401,
      "loss": 1.7598,
      "step": 10585
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3710596561431885,
      "learning_rate": 0.0005798259828738228,
      "loss": 1.6714,
      "step": 10586
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3956371247768402,
      "learning_rate": 0.000579822214555438,
      "loss": 1.8403,
      "step": 10587
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3868994116783142,
      "learning_rate": 0.0005798184458973903,
      "loss": 1.7741,
      "step": 10588
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4019891321659088,
      "learning_rate": 0.0005798146768996842,
      "loss": 1.78,
      "step": 10589
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38948115706443787,
      "learning_rate": 0.0005798109075623244,
      "loss": 1.7684,
      "step": 10590
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3948003351688385,
      "learning_rate": 0.0005798071378853153,
      "loss": 1.7476,
      "step": 10591
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3758033514022827,
      "learning_rate": 0.0005798033678686616,
      "loss": 1.7567,
      "step": 10592
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3784589469432831,
      "learning_rate": 0.0005797995975123678,
      "loss": 1.7143,
      "step": 10593
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4032383859157562,
      "learning_rate": 0.0005797958268164385,
      "loss": 1.7486,
      "step": 10594
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3960176110267639,
      "learning_rate": 0.0005797920557808783,
      "loss": 1.827,
      "step": 10595
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39510926604270935,
      "learning_rate": 0.0005797882844056917,
      "loss": 1.7731,
      "step": 10596
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3880576193332672,
      "learning_rate": 0.0005797845126908834,
      "loss": 1.7484,
      "step": 10597
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38715609908103943,
      "learning_rate": 0.0005797807406364581,
      "loss": 1.6476,
      "step": 10598
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38694828748703003,
      "learning_rate": 0.00057977696824242,
      "loss": 1.7639,
      "step": 10599
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39552193880081177,
      "learning_rate": 0.000579773195508774,
      "loss": 1.7528,
      "step": 10600
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3814060389995575,
      "learning_rate": 0.0005797694224355244,
      "loss": 1.7499,
      "step": 10601
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39567482471466064,
      "learning_rate": 0.0005797656490226761,
      "loss": 1.8077,
      "step": 10602
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3846537172794342,
      "learning_rate": 0.0005797618752702335,
      "loss": 1.7691,
      "step": 10603
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3898341655731201,
      "learning_rate": 0.0005797581011782012,
      "loss": 1.7642,
      "step": 10604
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39758580923080444,
      "learning_rate": 0.0005797543267465837,
      "loss": 1.8642,
      "step": 10605
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3856393098831177,
      "learning_rate": 0.0005797505519753858,
      "loss": 1.746,
      "step": 10606
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4137670397758484,
      "learning_rate": 0.0005797467768646118,
      "loss": 1.808,
      "step": 10607
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3886672556400299,
      "learning_rate": 0.0005797430014142665,
      "loss": 1.714,
      "step": 10608
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38374799489974976,
      "learning_rate": 0.0005797392256243544,
      "loss": 1.7216,
      "step": 10609
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3949229419231415,
      "learning_rate": 0.0005797354494948802,
      "loss": 1.7897,
      "step": 10610
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39444708824157715,
      "learning_rate": 0.0005797316730258483,
      "loss": 1.7715,
      "step": 10611
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3913588225841522,
      "learning_rate": 0.0005797278962172633,
      "loss": 1.6709,
      "step": 10612
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3926277458667755,
      "learning_rate": 0.00057972411906913,
      "loss": 1.8133,
      "step": 10613
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37961292266845703,
      "learning_rate": 0.0005797203415814527,
      "loss": 1.7758,
      "step": 10614
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3867241144180298,
      "learning_rate": 0.0005797165637542363,
      "loss": 1.736,
      "step": 10615
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3962767720222473,
      "learning_rate": 0.000579712785587485,
      "loss": 1.8493,
      "step": 10616
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38044196367263794,
      "learning_rate": 0.0005797090070812038,
      "loss": 1.7612,
      "step": 10617
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37903061509132385,
      "learning_rate": 0.0005797052282353967,
      "loss": 1.6483,
      "step": 10618
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3898698091506958,
      "learning_rate": 0.000579701449050069,
      "loss": 1.7823,
      "step": 10619
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38418084383010864,
      "learning_rate": 0.0005796976695252249,
      "loss": 1.7707,
      "step": 10620
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39700552821159363,
      "learning_rate": 0.000579693889660869,
      "loss": 1.7588,
      "step": 10621
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39036455750465393,
      "learning_rate": 0.000579690109457006,
      "loss": 1.7727,
      "step": 10622
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3876844644546509,
      "learning_rate": 0.0005796863289136404,
      "loss": 1.7109,
      "step": 10623
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39200639724731445,
      "learning_rate": 0.0005796825480307767,
      "loss": 1.8164,
      "step": 10624
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3764760494232178,
      "learning_rate": 0.0005796787668084196,
      "loss": 1.7285,
      "step": 10625
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39139002561569214,
      "learning_rate": 0.0005796749852465739,
      "loss": 1.823,
      "step": 10626
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3933144211769104,
      "learning_rate": 0.0005796712033452437,
      "loss": 1.8317,
      "step": 10627
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39046233892440796,
      "learning_rate": 0.0005796674211044341,
      "loss": 1.7578,
      "step": 10628
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38871583342552185,
      "learning_rate": 0.0005796636385241493,
      "loss": 1.81,
      "step": 10629
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41084709763526917,
      "learning_rate": 0.000579659855604394,
      "loss": 1.7326,
      "step": 10630
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3985885679721832,
      "learning_rate": 0.000579656072345173,
      "loss": 1.7969,
      "step": 10631
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3772982358932495,
      "learning_rate": 0.0005796522887464907,
      "loss": 1.7815,
      "step": 10632
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39114975929260254,
      "learning_rate": 0.0005796485048083517,
      "loss": 1.7991,
      "step": 10633
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4023720324039459,
      "learning_rate": 0.0005796447205307606,
      "loss": 1.7045,
      "step": 10634
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4179568290710449,
      "learning_rate": 0.000579640935913722,
      "loss": 1.7506,
      "step": 10635
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3874285817146301,
      "learning_rate": 0.0005796371509572407,
      "loss": 1.7933,
      "step": 10636
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3892020583152771,
      "learning_rate": 0.0005796333656613209,
      "loss": 1.7587,
      "step": 10637
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.43464601039886475,
      "learning_rate": 0.0005796295800259674,
      "loss": 1.7914,
      "step": 10638
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3952769935131073,
      "learning_rate": 0.0005796257940511848,
      "loss": 1.7401,
      "step": 10639
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4016193151473999,
      "learning_rate": 0.0005796220077369776,
      "loss": 1.6978,
      "step": 10640
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3853198289871216,
      "learning_rate": 0.0005796182210833507,
      "loss": 1.7734,
      "step": 10641
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.425846129655838,
      "learning_rate": 0.0005796144340903084,
      "loss": 1.7696,
      "step": 10642
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38583654165267944,
      "learning_rate": 0.0005796106467578553,
      "loss": 1.723,
      "step": 10643
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38690030574798584,
      "learning_rate": 0.0005796068590859962,
      "loss": 1.7872,
      "step": 10644
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3977225422859192,
      "learning_rate": 0.0005796030710747354,
      "loss": 1.7598,
      "step": 10645
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4243986904621124,
      "learning_rate": 0.0005795992827240779,
      "loss": 1.748,
      "step": 10646
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3833064138889313,
      "learning_rate": 0.0005795954940340279,
      "loss": 1.8025,
      "step": 10647
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40469491481781006,
      "learning_rate": 0.0005795917050045901,
      "loss": 1.6868,
      "step": 10648
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41401994228363037,
      "learning_rate": 0.0005795879156357694,
      "loss": 1.7727,
      "step": 10649
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3954857289791107,
      "learning_rate": 0.00057958412592757,
      "loss": 1.7731,
      "step": 10650
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41777148842811584,
      "learning_rate": 0.0005795803358799967,
      "loss": 1.7893,
      "step": 10651
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4142799377441406,
      "learning_rate": 0.000579576545493054,
      "loss": 1.7673,
      "step": 10652
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38870543241500854,
      "learning_rate": 0.0005795727547667467,
      "loss": 1.7621,
      "step": 10653
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3897629380226135,
      "learning_rate": 0.0005795689637010791,
      "loss": 1.7238,
      "step": 10654
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40773963928222656,
      "learning_rate": 0.0005795651722960561,
      "loss": 1.7713,
      "step": 10655
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4073973298072815,
      "learning_rate": 0.0005795613805516822,
      "loss": 1.8003,
      "step": 10656
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3826353847980499,
      "learning_rate": 0.0005795575884679618,
      "loss": 1.7453,
      "step": 10657
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38567760586738586,
      "learning_rate": 0.0005795537960448999,
      "loss": 1.7892,
      "step": 10658
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39970457553863525,
      "learning_rate": 0.0005795500032825008,
      "loss": 1.7678,
      "step": 10659
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4050862193107605,
      "learning_rate": 0.0005795462101807692,
      "loss": 1.855,
      "step": 10660
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.39738431572914124,
      "learning_rate": 0.0005795424167397096,
      "loss": 1.7859,
      "step": 10661
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38606002926826477,
      "learning_rate": 0.0005795386229593267,
      "loss": 1.8134,
      "step": 10662
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41975101828575134,
      "learning_rate": 0.0005795348288396252,
      "loss": 1.816,
      "step": 10663
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38971781730651855,
      "learning_rate": 0.0005795310343806096,
      "loss": 1.7747,
      "step": 10664
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.37496522068977356,
      "learning_rate": 0.0005795272395822844,
      "loss": 1.7657,
      "step": 10665
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38373884558677673,
      "learning_rate": 0.0005795234444446543,
      "loss": 1.7436,
      "step": 10666
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3868975043296814,
      "learning_rate": 0.0005795196489677241,
      "loss": 1.7315,
      "step": 10667
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4023669362068176,
      "learning_rate": 0.0005795158531514982,
      "loss": 1.7488,
      "step": 10668
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3984676003456116,
      "learning_rate": 0.0005795120569959812,
      "loss": 1.7598,
      "step": 10669
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.40086984634399414,
      "learning_rate": 0.0005795082605011777,
      "loss": 1.6914,
      "step": 10670
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3905543088912964,
      "learning_rate": 0.0005795044636670922,
      "loss": 1.7525,
      "step": 10671
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3950989246368408,
      "learning_rate": 0.0005795006664937297,
      "loss": 1.7937,
      "step": 10672
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4150572717189789,
      "learning_rate": 0.0005794968689810946,
      "loss": 1.749,
      "step": 10673
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3778758943080902,
      "learning_rate": 0.0005794930711291913,
      "loss": 1.7537,
      "step": 10674
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41685834527015686,
      "learning_rate": 0.0005794892729380248,
      "loss": 1.7812,
      "step": 10675
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4081401526927948,
      "learning_rate": 0.0005794854744075995,
      "loss": 1.8207,
      "step": 10676
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3985942602157593,
      "learning_rate": 0.0005794816755379198,
      "loss": 1.7272,
      "step": 10677
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.42176011204719543,
      "learning_rate": 0.0005794778763289906,
      "loss": 1.8901,
      "step": 10678
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39503636956214905,
      "learning_rate": 0.0005794740767808166,
      "loss": 1.7362,
      "step": 10679
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38705483078956604,
      "learning_rate": 0.0005794702768934021,
      "loss": 1.7715,
      "step": 10680
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39916154742240906,
      "learning_rate": 0.0005794664766667518,
      "loss": 1.7164,
      "step": 10681
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39440271258354187,
      "learning_rate": 0.0005794626761008705,
      "loss": 1.717,
      "step": 10682
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3886347711086273,
      "learning_rate": 0.0005794588751957627,
      "loss": 1.7677,
      "step": 10683
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38902243971824646,
      "learning_rate": 0.0005794550739514329,
      "loss": 1.7325,
      "step": 10684
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40791749954223633,
      "learning_rate": 0.0005794512723678859,
      "loss": 1.7802,
      "step": 10685
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3934381604194641,
      "learning_rate": 0.0005794474704451262,
      "loss": 1.831,
      "step": 10686
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37988537549972534,
      "learning_rate": 0.0005794436681831584,
      "loss": 1.6815,
      "step": 10687
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3844059705734253,
      "learning_rate": 0.0005794398655819872,
      "loss": 1.7331,
      "step": 10688
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4057762622833252,
      "learning_rate": 0.0005794360626416172,
      "loss": 1.7502,
      "step": 10689
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3912549912929535,
      "learning_rate": 0.0005794322593620529,
      "loss": 1.7259,
      "step": 10690
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38910266757011414,
      "learning_rate": 0.0005794284557432992,
      "loss": 1.7626,
      "step": 10691
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39213845133781433,
      "learning_rate": 0.0005794246517853604,
      "loss": 1.8101,
      "step": 10692
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4008304178714752,
      "learning_rate": 0.0005794208474882412,
      "loss": 1.6727,
      "step": 10693
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3788364827632904,
      "learning_rate": 0.0005794170428519463,
      "loss": 1.7207,
      "step": 10694
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3992636203765869,
      "learning_rate": 0.0005794132378764803,
      "loss": 1.7806,
      "step": 10695
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4017395079135895,
      "learning_rate": 0.0005794094325618478,
      "loss": 1.7269,
      "step": 10696
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3890054225921631,
      "learning_rate": 0.0005794056269080534,
      "loss": 1.8058,
      "step": 10697
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3810155391693115,
      "learning_rate": 0.0005794018209151019,
      "loss": 1.7157,
      "step": 10698
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4956025183200836,
      "learning_rate": 0.0005793980145829975,
      "loss": 1.8267,
      "step": 10699
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4146902859210968,
      "learning_rate": 0.0005793942079117452,
      "loss": 1.8362,
      "step": 10700
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38631927967071533,
      "learning_rate": 0.0005793904009013495,
      "loss": 1.728,
      "step": 10701
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.380649596452713,
      "learning_rate": 0.000579386593551815,
      "loss": 1.7142,
      "step": 10702
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3869098126888275,
      "learning_rate": 0.0005793827858631464,
      "loss": 1.7343,
      "step": 10703
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38539400696754456,
      "learning_rate": 0.0005793789778353481,
      "loss": 1.767,
      "step": 10704
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3988654911518097,
      "learning_rate": 0.0005793751694684251,
      "loss": 1.8417,
      "step": 10705
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39456379413604736,
      "learning_rate": 0.0005793713607623816,
      "loss": 1.8022,
      "step": 10706
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3877441883087158,
      "learning_rate": 0.0005793675517172226,
      "loss": 1.8193,
      "step": 10707
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39195677638053894,
      "learning_rate": 0.0005793637423329524,
      "loss": 1.797,
      "step": 10708
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38929468393325806,
      "learning_rate": 0.0005793599326095759,
      "loss": 1.8351,
      "step": 10709
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40070927143096924,
      "learning_rate": 0.0005793561225470976,
      "loss": 1.8243,
      "step": 10710
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38745370507240295,
      "learning_rate": 0.0005793523121455221,
      "loss": 1.7506,
      "step": 10711
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3978918194770813,
      "learning_rate": 0.0005793485014048541,
      "loss": 1.7564,
      "step": 10712
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38561001420021057,
      "learning_rate": 0.0005793446903250982,
      "loss": 1.7134,
      "step": 10713
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3736364543437958,
      "learning_rate": 0.0005793408789062588,
      "loss": 1.7847,
      "step": 10714
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39555609226226807,
      "learning_rate": 0.0005793370671483409,
      "loss": 1.7957,
      "step": 10715
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38020870089530945,
      "learning_rate": 0.000579333255051349,
      "loss": 1.7609,
      "step": 10716
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.404636025428772,
      "learning_rate": 0.0005793294426152875,
      "loss": 1.7882,
      "step": 10717
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4083807170391083,
      "learning_rate": 0.0005793256298401614,
      "loss": 1.8289,
      "step": 10718
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3931792974472046,
      "learning_rate": 0.0005793218167259751,
      "loss": 1.8449,
      "step": 10719
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39359331130981445,
      "learning_rate": 0.0005793180032727332,
      "loss": 1.7383,
      "step": 10720
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3917088508605957,
      "learning_rate": 0.0005793141894804405,
      "loss": 1.7007,
      "step": 10721
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3781052231788635,
      "learning_rate": 0.0005793103753491014,
      "loss": 1.78,
      "step": 10722
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3895261883735657,
      "learning_rate": 0.0005793065608787208,
      "loss": 1.7138,
      "step": 10723
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3898608982563019,
      "learning_rate": 0.0005793027460693031,
      "loss": 1.7791,
      "step": 10724
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3985992968082428,
      "learning_rate": 0.000579298930920853,
      "loss": 1.8116,
      "step": 10725
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3817494213581085,
      "learning_rate": 0.0005792951154333752,
      "loss": 1.7785,
      "step": 10726
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.392017126083374,
      "learning_rate": 0.0005792912996068743,
      "loss": 1.7578,
      "step": 10727
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39460957050323486,
      "learning_rate": 0.0005792874834413548,
      "loss": 1.7694,
      "step": 10728
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3890036642551422,
      "learning_rate": 0.0005792836669368215,
      "loss": 1.7542,
      "step": 10729
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40480953454971313,
      "learning_rate": 0.0005792798500932791,
      "loss": 1.7542,
      "step": 10730
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3958522379398346,
      "learning_rate": 0.000579276032910732,
      "loss": 1.7639,
      "step": 10731
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39764097332954407,
      "learning_rate": 0.0005792722153891849,
      "loss": 1.7466,
      "step": 10732
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3945454955101013,
      "learning_rate": 0.0005792683975286427,
      "loss": 1.7324,
      "step": 10733
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39336004853248596,
      "learning_rate": 0.0005792645793291097,
      "loss": 1.7974,
      "step": 10734
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3866320550441742,
      "learning_rate": 0.0005792607607905905,
      "loss": 1.8867,
      "step": 10735
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39106228947639465,
      "learning_rate": 0.00057925694191309,
      "loss": 1.8858,
      "step": 10736
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3753075897693634,
      "learning_rate": 0.0005792531226966127,
      "loss": 1.7613,
      "step": 10737
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3949226140975952,
      "learning_rate": 0.0005792493031411633,
      "loss": 1.8255,
      "step": 10738
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37927818298339844,
      "learning_rate": 0.0005792454832467464,
      "loss": 1.7444,
      "step": 10739
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38296183943748474,
      "learning_rate": 0.0005792416630133664,
      "loss": 1.7738,
      "step": 10740
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4002002477645874,
      "learning_rate": 0.0005792378424410285,
      "loss": 1.7705,
      "step": 10741
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38775336742401123,
      "learning_rate": 0.0005792340215297367,
      "loss": 1.7378,
      "step": 10742
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4432136118412018,
      "learning_rate": 0.0005792302002794962,
      "loss": 1.806,
      "step": 10743
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3955392837524414,
      "learning_rate": 0.0005792263786903113,
      "loss": 1.7326,
      "step": 10744
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3940756022930145,
      "learning_rate": 0.0005792225567621867,
      "loss": 1.8016,
      "step": 10745
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3767212927341461,
      "learning_rate": 0.000579218734495127,
      "loss": 1.7113,
      "step": 10746
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3960617184638977,
      "learning_rate": 0.0005792149118891369,
      "loss": 1.7779,
      "step": 10747
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39208048582077026,
      "learning_rate": 0.0005792110889442211,
      "loss": 1.8184,
      "step": 10748
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41091829538345337,
      "learning_rate": 0.0005792072656603842,
      "loss": 1.7478,
      "step": 10749
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3896716833114624,
      "learning_rate": 0.0005792034420376308,
      "loss": 1.8376,
      "step": 10750
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3841373324394226,
      "learning_rate": 0.0005791996180759656,
      "loss": 1.7827,
      "step": 10751
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39204123616218567,
      "learning_rate": 0.0005791957937753931,
      "loss": 1.72,
      "step": 10752
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3868967294692993,
      "learning_rate": 0.0005791919691359181,
      "loss": 1.7995,
      "step": 10753
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39533448219299316,
      "learning_rate": 0.0005791881441575452,
      "loss": 1.7733,
      "step": 10754
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3856748044490814,
      "learning_rate": 0.000579184318840279,
      "loss": 1.7523,
      "step": 10755
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3893531560897827,
      "learning_rate": 0.0005791804931841241,
      "loss": 1.7365,
      "step": 10756
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4008624851703644,
      "learning_rate": 0.0005791766671890854,
      "loss": 1.8776,
      "step": 10757
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4027143120765686,
      "learning_rate": 0.0005791728408551672,
      "loss": 1.861,
      "step": 10758
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3924718201160431,
      "learning_rate": 0.0005791690141823744,
      "loss": 1.7291,
      "step": 10759
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38592076301574707,
      "learning_rate": 0.0005791651871707115,
      "loss": 1.7618,
      "step": 10760
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40235498547554016,
      "learning_rate": 0.0005791613598201831,
      "loss": 1.7183,
      "step": 10761
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.380938857793808,
      "learning_rate": 0.000579157532130794,
      "loss": 1.8065,
      "step": 10762
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38335418701171875,
      "learning_rate": 0.000579153704102549,
      "loss": 1.7806,
      "step": 10763
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3949706256389618,
      "learning_rate": 0.0005791498757354523,
      "loss": 1.8058,
      "step": 10764
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39294853806495667,
      "learning_rate": 0.0005791460470295089,
      "loss": 1.7921,
      "step": 10765
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3956078886985779,
      "learning_rate": 0.0005791422179847232,
      "loss": 1.7495,
      "step": 10766
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4043343663215637,
      "learning_rate": 0.0005791383886011001,
      "loss": 1.7444,
      "step": 10767
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38661107420921326,
      "learning_rate": 0.0005791345588786441,
      "loss": 1.7905,
      "step": 10768
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3968415856361389,
      "learning_rate": 0.0005791307288173598,
      "loss": 1.8155,
      "step": 10769
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4004315733909607,
      "learning_rate": 0.0005791268984172521,
      "loss": 1.7041,
      "step": 10770
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39062920212745667,
      "learning_rate": 0.0005791230676783253,
      "loss": 1.7815,
      "step": 10771
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40416616201400757,
      "learning_rate": 0.0005791192366005842,
      "loss": 1.7112,
      "step": 10772
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3975144326686859,
      "learning_rate": 0.0005791154051840336,
      "loss": 1.7996,
      "step": 10773
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37996232509613037,
      "learning_rate": 0.0005791115734286779,
      "loss": 1.7343,
      "step": 10774
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3823978304862976,
      "learning_rate": 0.000579107741334522,
      "loss": 1.8179,
      "step": 10775
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38596728444099426,
      "learning_rate": 0.0005791039089015704,
      "loss": 1.8139,
      "step": 10776
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3777976930141449,
      "learning_rate": 0.0005791000761298277,
      "loss": 1.7887,
      "step": 10777
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3913637399673462,
      "learning_rate": 0.0005790962430192987,
      "loss": 1.7825,
      "step": 10778
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.378585547208786,
      "learning_rate": 0.000579092409569988,
      "loss": 1.7672,
      "step": 10779
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38664358854293823,
      "learning_rate": 0.0005790885757819002,
      "loss": 1.7959,
      "step": 10780
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3865263760089874,
      "learning_rate": 0.00057908474165504,
      "loss": 1.7679,
      "step": 10781
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38083624839782715,
      "learning_rate": 0.000579080907189412,
      "loss": 1.7023,
      "step": 10782
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3876362442970276,
      "learning_rate": 0.000579077072385021,
      "loss": 1.7811,
      "step": 10783
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3802430331707001,
      "learning_rate": 0.0005790732372418714,
      "loss": 1.7344,
      "step": 10784
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3752124011516571,
      "learning_rate": 0.0005790694017599682,
      "loss": 1.7006,
      "step": 10785
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39024198055267334,
      "learning_rate": 0.0005790655659393157,
      "loss": 1.7714,
      "step": 10786
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37650975584983826,
      "learning_rate": 0.0005790617297799189,
      "loss": 1.7359,
      "step": 10787
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3985452353954315,
      "learning_rate": 0.0005790578932817821,
      "loss": 1.7376,
      "step": 10788
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39554503560066223,
      "learning_rate": 0.0005790540564449101,
      "loss": 1.8187,
      "step": 10789
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40013471245765686,
      "learning_rate": 0.0005790502192693078,
      "loss": 1.8133,
      "step": 10790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4071764349937439,
      "learning_rate": 0.0005790463817549796,
      "loss": 1.7561,
      "step": 10791
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.396848201751709,
      "learning_rate": 0.0005790425439019301,
      "loss": 1.8052,
      "step": 10792
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3827034533023834,
      "learning_rate": 0.0005790387057101642,
      "loss": 1.793,
      "step": 10793
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40453794598579407,
      "learning_rate": 0.0005790348671796863,
      "loss": 1.7805,
      "step": 10794
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39022067189216614,
      "learning_rate": 0.0005790310283105012,
      "loss": 1.7648,
      "step": 10795
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37698596715927124,
      "learning_rate": 0.0005790271891026135,
      "loss": 1.8205,
      "step": 10796
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3896448314189911,
      "learning_rate": 0.000579023349556028,
      "loss": 1.7561,
      "step": 10797
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3870066702365875,
      "learning_rate": 0.0005790195096707494,
      "loss": 1.7573,
      "step": 10798
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3954702615737915,
      "learning_rate": 0.000579015669446782,
      "loss": 1.8161,
      "step": 10799
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4044373333454132,
      "learning_rate": 0.0005790118288841308,
      "loss": 1.8467,
      "step": 10800
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40356579422950745,
      "learning_rate": 0.0005790079879828003,
      "loss": 1.735,
      "step": 10801
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39047732949256897,
      "learning_rate": 0.0005790041467427951,
      "loss": 1.6868,
      "step": 10802
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39771735668182373,
      "learning_rate": 0.0005790003051641201,
      "loss": 1.758,
      "step": 10803
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4015355706214905,
      "learning_rate": 0.0005789964632467798,
      "loss": 1.7783,
      "step": 10804
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3859562277793884,
      "learning_rate": 0.000578992620990779,
      "loss": 1.7793,
      "step": 10805
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40434446930885315,
      "learning_rate": 0.0005789887783961223,
      "loss": 1.8034,
      "step": 10806
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41226470470428467,
      "learning_rate": 0.0005789849354628141,
      "loss": 1.7526,
      "step": 10807
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3941211402416229,
      "learning_rate": 0.0005789810921908594,
      "loss": 1.755,
      "step": 10808
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.406902551651001,
      "learning_rate": 0.0005789772485802629,
      "loss": 1.6417,
      "step": 10809
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37964123487472534,
      "learning_rate": 0.0005789734046310291,
      "loss": 1.7242,
      "step": 10810
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41346603631973267,
      "learning_rate": 0.0005789695603431624,
      "loss": 1.7883,
      "step": 10811
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40596646070480347,
      "learning_rate": 0.0005789657157166681,
      "loss": 1.7652,
      "step": 10812
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39596712589263916,
      "learning_rate": 0.0005789618707515503,
      "loss": 1.7719,
      "step": 10813
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4108746647834778,
      "learning_rate": 0.0005789580254478141,
      "loss": 1.7378,
      "step": 10814
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3977263271808624,
      "learning_rate": 0.0005789541798054638,
      "loss": 1.7764,
      "step": 10815
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37642350792884827,
      "learning_rate": 0.0005789503338245042,
      "loss": 1.7728,
      "step": 10816
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3916884958744049,
      "learning_rate": 0.0005789464875049402,
      "loss": 1.7498,
      "step": 10817
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4022217094898224,
      "learning_rate": 0.0005789426408467761,
      "loss": 1.7066,
      "step": 10818
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4391656816005707,
      "learning_rate": 0.0005789387938500167,
      "loss": 1.7524,
      "step": 10819
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3797438144683838,
      "learning_rate": 0.0005789349465146668,
      "loss": 1.7381,
      "step": 10820
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37766584753990173,
      "learning_rate": 0.0005789310988407309,
      "loss": 1.7031,
      "step": 10821
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.387626975774765,
      "learning_rate": 0.0005789272508282138,
      "loss": 1.7678,
      "step": 10822
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4167430102825165,
      "learning_rate": 0.0005789234024771202,
      "loss": 1.7654,
      "step": 10823
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39766064286231995,
      "learning_rate": 0.0005789195537874546,
      "loss": 1.7967,
      "step": 10824
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3981683552265167,
      "learning_rate": 0.0005789157047592216,
      "loss": 1.8449,
      "step": 10825
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3937832713127136,
      "learning_rate": 0.0005789118553924263,
      "loss": 1.7635,
      "step": 10826
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3812602460384369,
      "learning_rate": 0.0005789080056870728,
      "loss": 1.732,
      "step": 10827
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40076810121536255,
      "learning_rate": 0.0005789041556431664,
      "loss": 1.7697,
      "step": 10828
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39865702390670776,
      "learning_rate": 0.0005789003052607113,
      "loss": 1.6976,
      "step": 10829
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39996716380119324,
      "learning_rate": 0.0005788964545397124,
      "loss": 1.8033,
      "step": 10830
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3921331465244293,
      "learning_rate": 0.0005788926034801742,
      "loss": 1.7575,
      "step": 10831
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4129144251346588,
      "learning_rate": 0.0005788887520821014,
      "loss": 1.7942,
      "step": 10832
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41258683800697327,
      "learning_rate": 0.0005788849003454989,
      "loss": 1.7616,
      "step": 10833
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3937534689903259,
      "learning_rate": 0.0005788810482703712,
      "loss": 1.8159,
      "step": 10834
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39222708344459534,
      "learning_rate": 0.000578877195856723,
      "loss": 1.7192,
      "step": 10835
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4067084491252899,
      "learning_rate": 0.0005788733431045589,
      "loss": 1.7027,
      "step": 10836
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39360716938972473,
      "learning_rate": 0.0005788694900138837,
      "loss": 1.7764,
      "step": 10837
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.43549278378486633,
      "learning_rate": 0.000578865636584702,
      "loss": 1.8101,
      "step": 10838
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38330626487731934,
      "learning_rate": 0.0005788617828170185,
      "loss": 1.7642,
      "step": 10839
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40546393394470215,
      "learning_rate": 0.000578857928710838,
      "loss": 1.6771,
      "step": 10840
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38609403371810913,
      "learning_rate": 0.0005788540742661649,
      "loss": 1.7392,
      "step": 10841
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3906552791595459,
      "learning_rate": 0.0005788502194830041,
      "loss": 1.7121,
      "step": 10842
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39790916442871094,
      "learning_rate": 0.0005788463643613604,
      "loss": 1.7729,
      "step": 10843
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4134620726108551,
      "learning_rate": 0.0005788425089012381,
      "loss": 1.7389,
      "step": 10844
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3758629262447357,
      "learning_rate": 0.000578838653102642,
      "loss": 1.6743,
      "step": 10845
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4126111567020416,
      "learning_rate": 0.0005788347969655769,
      "loss": 1.7657,
      "step": 10846
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4574229419231415,
      "learning_rate": 0.0005788309404900476,
      "loss": 1.8204,
      "step": 10847
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4043768346309662,
      "learning_rate": 0.0005788270836760586,
      "loss": 1.8093,
      "step": 10848
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39533302187919617,
      "learning_rate": 0.0005788232265236145,
      "loss": 1.7123,
      "step": 10849
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39270445704460144,
      "learning_rate": 0.0005788193690327201,
      "loss": 1.758,
      "step": 10850
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40891528129577637,
      "learning_rate": 0.0005788155112033802,
      "loss": 1.7427,
      "step": 10851
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.394031822681427,
      "learning_rate": 0.0005788116530355993,
      "loss": 1.7156,
      "step": 10852
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40304651856422424,
      "learning_rate": 0.0005788077945293819,
      "loss": 1.8387,
      "step": 10853
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.388211727142334,
      "learning_rate": 0.0005788039356847332,
      "loss": 1.756,
      "step": 10854
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39527177810668945,
      "learning_rate": 0.0005788000765016575,
      "loss": 1.7466,
      "step": 10855
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.377970814704895,
      "learning_rate": 0.0005787962169801596,
      "loss": 1.8075,
      "step": 10856
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3970355689525604,
      "learning_rate": 0.0005787923571202441,
      "loss": 1.7739,
      "step": 10857
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4060940742492676,
      "learning_rate": 0.0005787884969219158,
      "loss": 1.7702,
      "step": 10858
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37702515721321106,
      "learning_rate": 0.0005787846363851794,
      "loss": 1.7334,
      "step": 10859
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37850308418273926,
      "learning_rate": 0.0005787807755100395,
      "loss": 1.8324,
      "step": 10860
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4021018445491791,
      "learning_rate": 0.0005787769142965007,
      "loss": 1.8356,
      "step": 10861
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40372952818870544,
      "learning_rate": 0.000578773052744568,
      "loss": 1.8122,
      "step": 10862
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39766353368759155,
      "learning_rate": 0.0005787691908542458,
      "loss": 1.7957,
      "step": 10863
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39853140711784363,
      "learning_rate": 0.0005787653286255389,
      "loss": 1.7561,
      "step": 10864
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40740910172462463,
      "learning_rate": 0.0005787614660584519,
      "loss": 1.8033,
      "step": 10865
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3981768786907196,
      "learning_rate": 0.0005787576031529896,
      "loss": 1.762,
      "step": 10866
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38795071840286255,
      "learning_rate": 0.0005787537399091566,
      "loss": 1.7206,
      "step": 10867
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40093886852264404,
      "learning_rate": 0.0005787498763269578,
      "loss": 1.8153,
      "step": 10868
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4083375930786133,
      "learning_rate": 0.0005787460124063975,
      "loss": 1.8522,
      "step": 10869
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39208588004112244,
      "learning_rate": 0.0005787421481474808,
      "loss": 1.822,
      "step": 10870
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39546528458595276,
      "learning_rate": 0.000578738283550212,
      "loss": 1.7674,
      "step": 10871
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4124244749546051,
      "learning_rate": 0.0005787344186145961,
      "loss": 1.7781,
      "step": 10872
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3868872821331024,
      "learning_rate": 0.0005787305533406377,
      "loss": 1.8115,
      "step": 10873
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3826943337917328,
      "learning_rate": 0.0005787266877283414,
      "loss": 1.7944,
      "step": 10874
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38060513138771057,
      "learning_rate": 0.000578722821777712,
      "loss": 1.7566,
      "step": 10875
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3891785740852356,
      "learning_rate": 0.0005787189554887543,
      "loss": 1.7916,
      "step": 10876
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4079781472682953,
      "learning_rate": 0.0005787150888614727,
      "loss": 1.7707,
      "step": 10877
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3956332802772522,
      "learning_rate": 0.0005787112218958721,
      "loss": 1.7649,
      "step": 10878
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3783874213695526,
      "learning_rate": 0.0005787073545919572,
      "loss": 1.7491,
      "step": 10879
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40617868304252625,
      "learning_rate": 0.0005787034869497326,
      "loss": 1.8262,
      "step": 10880
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38103577494621277,
      "learning_rate": 0.0005786996189692029,
      "loss": 1.7322,
      "step": 10881
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3830420672893524,
      "learning_rate": 0.0005786957506503731,
      "loss": 1.7809,
      "step": 10882
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4088040590286255,
      "learning_rate": 0.0005786918819932476,
      "loss": 1.8095,
      "step": 10883
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39584508538246155,
      "learning_rate": 0.0005786880129978313,
      "loss": 1.8008,
      "step": 10884
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3855781555175781,
      "learning_rate": 0.0005786841436641288,
      "loss": 1.7398,
      "step": 10885
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38093528151512146,
      "learning_rate": 0.0005786802739921448,
      "loss": 1.7512,
      "step": 10886
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38903772830963135,
      "learning_rate": 0.0005786764039818839,
      "loss": 1.7683,
      "step": 10887
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3943620026111603,
      "learning_rate": 0.0005786725336333511,
      "loss": 1.7801,
      "step": 10888
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39452165365219116,
      "learning_rate": 0.0005786686629465508,
      "loss": 1.7907,
      "step": 10889
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38893067836761475,
      "learning_rate": 0.0005786647919214879,
      "loss": 1.7311,
      "step": 10890
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37413838505744934,
      "learning_rate": 0.000578660920558167,
      "loss": 1.718,
      "step": 10891
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3833129405975342,
      "learning_rate": 0.0005786570488565926,
      "loss": 1.7486,
      "step": 10892
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38207244873046875,
      "learning_rate": 0.0005786531768167697,
      "loss": 1.7689,
      "step": 10893
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3923943042755127,
      "learning_rate": 0.000578649304438703,
      "loss": 1.7215,
      "step": 10894
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3854157030582428,
      "learning_rate": 0.000578645431722397,
      "loss": 1.6998,
      "step": 10895
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3922407627105713,
      "learning_rate": 0.0005786415586678565,
      "loss": 1.7867,
      "step": 10896
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3920414447784424,
      "learning_rate": 0.0005786376852750863,
      "loss": 1.745,
      "step": 10897
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4005931317806244,
      "learning_rate": 0.0005786338115440909,
      "loss": 1.7766,
      "step": 10898
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38640400767326355,
      "learning_rate": 0.0005786299374748752,
      "loss": 1.7711,
      "step": 10899
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3991040289402008,
      "learning_rate": 0.0005786260630674438,
      "loss": 1.7086,
      "step": 10900
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3851599097251892,
      "learning_rate": 0.0005786221883218013,
      "loss": 1.687,
      "step": 10901
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40035831928253174,
      "learning_rate": 0.0005786183132379526,
      "loss": 1.7763,
      "step": 10902
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3843711316585541,
      "learning_rate": 0.0005786144378159023,
      "loss": 1.718,
      "step": 10903
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3995029330253601,
      "learning_rate": 0.0005786105620556552,
      "loss": 1.7612,
      "step": 10904
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38811078667640686,
      "learning_rate": 0.0005786066859572158,
      "loss": 1.7735,
      "step": 10905
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39702287316322327,
      "learning_rate": 0.000578602809520589,
      "loss": 1.8513,
      "step": 10906
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3991348147392273,
      "learning_rate": 0.0005785989327457794,
      "loss": 1.8066,
      "step": 10907
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3970085084438324,
      "learning_rate": 0.0005785950556327919,
      "loss": 1.8062,
      "step": 10908
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38379544019699097,
      "learning_rate": 0.000578591178181631,
      "loss": 1.6868,
      "step": 10909
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3961125910282135,
      "learning_rate": 0.0005785873003923013,
      "loss": 1.7636,
      "step": 10910
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3900405466556549,
      "learning_rate": 0.0005785834222648077,
      "loss": 1.8195,
      "step": 10911
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3837025761604309,
      "learning_rate": 0.000578579543799155,
      "loss": 1.7738,
      "step": 10912
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3927837312221527,
      "learning_rate": 0.0005785756649953476,
      "loss": 1.7697,
      "step": 10913
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3811061680316925,
      "learning_rate": 0.0005785717858533906,
      "loss": 1.753,
      "step": 10914
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3943108916282654,
      "learning_rate": 0.0005785679063732884,
      "loss": 1.7103,
      "step": 10915
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3805009126663208,
      "learning_rate": 0.0005785640265550458,
      "loss": 1.7245,
      "step": 10916
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38981273770332336,
      "learning_rate": 0.0005785601463986675,
      "loss": 1.7331,
      "step": 10917
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4110078811645508,
      "learning_rate": 0.0005785562659041582,
      "loss": 1.7351,
      "step": 10918
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38203081488609314,
      "learning_rate": 0.0005785523850715227,
      "loss": 1.7586,
      "step": 10919
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4020770192146301,
      "learning_rate": 0.0005785485039007656,
      "loss": 1.8167,
      "step": 10920
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39173299074172974,
      "learning_rate": 0.0005785446223918917,
      "loss": 1.689,
      "step": 10921
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4030691385269165,
      "learning_rate": 0.0005785407405449057,
      "loss": 1.7769,
      "step": 10922
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40146970748901367,
      "learning_rate": 0.0005785368583598122,
      "loss": 1.754,
      "step": 10923
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4061325788497925,
      "learning_rate": 0.000578532975836616,
      "loss": 1.809,
      "step": 10924
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.413630872964859,
      "learning_rate": 0.0005785290929753219,
      "loss": 1.8096,
      "step": 10925
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39717912673950195,
      "learning_rate": 0.0005785252097759345,
      "loss": 1.7899,
      "step": 10926
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3854959309101105,
      "learning_rate": 0.0005785213262384585,
      "loss": 1.7077,
      "step": 10927
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3994629383087158,
      "learning_rate": 0.0005785174423628987,
      "loss": 1.7638,
      "step": 10928
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3921385407447815,
      "learning_rate": 0.0005785135581492596,
      "loss": 1.7782,
      "step": 10929
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37661898136138916,
      "learning_rate": 0.0005785096735975463,
      "loss": 1.7502,
      "step": 10930
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38817542791366577,
      "learning_rate": 0.000578505788707763,
      "loss": 1.7396,
      "step": 10931
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3871518075466156,
      "learning_rate": 0.0005785019034799149,
      "loss": 1.7262,
      "step": 10932
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39252448081970215,
      "learning_rate": 0.0005784980179140065,
      "loss": 1.8539,
      "step": 10933
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37164106965065,
      "learning_rate": 0.0005784941320100427,
      "loss": 1.7283,
      "step": 10934
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37991997599601746,
      "learning_rate": 0.0005784902457680279,
      "loss": 1.7231,
      "step": 10935
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4032852053642273,
      "learning_rate": 0.0005784863591879669,
      "loss": 1.7994,
      "step": 10936
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38225650787353516,
      "learning_rate": 0.0005784824722698647,
      "loss": 1.6648,
      "step": 10937
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.379546195268631,
      "learning_rate": 0.0005784785850137256,
      "loss": 1.7984,
      "step": 10938
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3855893909931183,
      "learning_rate": 0.0005784746974195547,
      "loss": 1.7045,
      "step": 10939
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4089691638946533,
      "learning_rate": 0.0005784708094873564,
      "loss": 1.7417,
      "step": 10940
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.37917712330818176,
      "learning_rate": 0.0005784669212171356,
      "loss": 1.7728,
      "step": 10941
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3899886906147003,
      "learning_rate": 0.000578463032608897,
      "loss": 1.775,
      "step": 10942
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3911469578742981,
      "learning_rate": 0.0005784591436626454,
      "loss": 1.7148,
      "step": 10943
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3941628336906433,
      "learning_rate": 0.0005784552543783853,
      "loss": 1.765,
      "step": 10944
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3995203375816345,
      "learning_rate": 0.0005784513647561217,
      "loss": 1.7706,
      "step": 10945
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40269362926483154,
      "learning_rate": 0.000578447474795859,
      "loss": 1.7471,
      "step": 10946
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38904163241386414,
      "learning_rate": 0.0005784435844976022,
      "loss": 1.7785,
      "step": 10947
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38532593846321106,
      "learning_rate": 0.0005784396938613559,
      "loss": 1.7037,
      "step": 10948
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.533883810043335,
      "learning_rate": 0.0005784358028871248,
      "loss": 1.8457,
      "step": 10949
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39004889130592346,
      "learning_rate": 0.0005784319115749137,
      "loss": 1.746,
      "step": 10950
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3893989324569702,
      "learning_rate": 0.0005784280199247273,
      "loss": 1.8267,
      "step": 10951
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3960280418395996,
      "learning_rate": 0.0005784241279365702,
      "loss": 1.7723,
      "step": 10952
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39597636461257935,
      "learning_rate": 0.0005784202356104473,
      "loss": 1.7422,
      "step": 10953
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.40118226408958435,
      "learning_rate": 0.0005784163429463634,
      "loss": 1.751,
      "step": 10954
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3942200541496277,
      "learning_rate": 0.0005784124499443228,
      "loss": 1.6962,
      "step": 10955
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3858456015586853,
      "learning_rate": 0.0005784085566043308,
      "loss": 1.7959,
      "step": 10956
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3792373836040497,
      "learning_rate": 0.0005784046629263917,
      "loss": 1.7716,
      "step": 10957
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3967415988445282,
      "learning_rate": 0.0005784007689105102,
      "loss": 1.7655,
      "step": 10958
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3959910571575165,
      "learning_rate": 0.0005783968745566914,
      "loss": 1.8024,
      "step": 10959
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3828877806663513,
      "learning_rate": 0.0005783929798649398,
      "loss": 1.7584,
      "step": 10960
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4083719551563263,
      "learning_rate": 0.00057838908483526,
      "loss": 1.8012,
      "step": 10961
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39446237683296204,
      "learning_rate": 0.0005783851894676571,
      "loss": 1.7994,
      "step": 10962
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.396220326423645,
      "learning_rate": 0.0005783812937621354,
      "loss": 1.7639,
      "step": 10963
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38001447916030884,
      "learning_rate": 0.0005783773977186999,
      "loss": 1.7227,
      "step": 10964
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.39066559076309204,
      "learning_rate": 0.0005783735013373553,
      "loss": 1.8302,
      "step": 10965
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3936251997947693,
      "learning_rate": 0.0005783696046181063,
      "loss": 1.7941,
      "step": 10966
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3822207748889923,
      "learning_rate": 0.0005783657075609575,
      "loss": 1.7704,
      "step": 10967
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.38145336508750916,
      "learning_rate": 0.0005783618101659137,
      "loss": 1.7001,
      "step": 10968
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3854704201221466,
      "learning_rate": 0.0005783579124329798,
      "loss": 1.7114,
      "step": 10969
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3893115222454071,
      "learning_rate": 0.0005783540143621604,
      "loss": 1.7496,
      "step": 10970
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38690176606178284,
      "learning_rate": 0.0005783501159534602,
      "loss": 1.7026,
      "step": 10971
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3779124319553375,
      "learning_rate": 0.0005783462172068841,
      "loss": 1.7398,
      "step": 10972
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39614230394363403,
      "learning_rate": 0.0005783423181224365,
      "loss": 1.7862,
      "step": 10973
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39942464232444763,
      "learning_rate": 0.0005783384187001224,
      "loss": 1.7929,
      "step": 10974
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39237967133522034,
      "learning_rate": 0.0005783345189399465,
      "loss": 1.7669,
      "step": 10975
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3774773180484772,
      "learning_rate": 0.0005783306188419135,
      "loss": 1.7593,
      "step": 10976
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37701353430747986,
      "learning_rate": 0.0005783267184060282,
      "loss": 1.7821,
      "step": 10977
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39999160170555115,
      "learning_rate": 0.0005783228176322952,
      "loss": 1.7281,
      "step": 10978
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41796988248825073,
      "learning_rate": 0.0005783189165207194,
      "loss": 1.6301,
      "step": 10979
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3920440375804901,
      "learning_rate": 0.0005783150150713054,
      "loss": 1.7569,
      "step": 10980
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39329856634140015,
      "learning_rate": 0.0005783111132840579,
      "loss": 1.8295,
      "step": 10981
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3784943222999573,
      "learning_rate": 0.0005783072111589817,
      "loss": 1.6742,
      "step": 10982
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38834309577941895,
      "learning_rate": 0.0005783033086960817,
      "loss": 1.7246,
      "step": 10983
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40491390228271484,
      "learning_rate": 0.0005782994058953625,
      "loss": 1.7624,
      "step": 10984
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40089020133018494,
      "learning_rate": 0.0005782955027568286,
      "loss": 1.7124,
      "step": 10985
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3970056176185608,
      "learning_rate": 0.0005782915992804851,
      "loss": 1.7802,
      "step": 10986
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3887074887752533,
      "learning_rate": 0.0005782876954663367,
      "loss": 1.7415,
      "step": 10987
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37758421897888184,
      "learning_rate": 0.0005782837913143879,
      "loss": 1.8403,
      "step": 10988
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40761566162109375,
      "learning_rate": 0.0005782798868246437,
      "loss": 1.756,
      "step": 10989
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40801098942756653,
      "learning_rate": 0.0005782759819971086,
      "loss": 1.8582,
      "step": 10990
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38330546021461487,
      "learning_rate": 0.0005782720768317875,
      "loss": 1.7112,
      "step": 10991
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3919440805912018,
      "learning_rate": 0.0005782681713286851,
      "loss": 1.7187,
      "step": 10992
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3961911201477051,
      "learning_rate": 0.0005782642654878061,
      "loss": 1.781,
      "step": 10993
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39291876554489136,
      "learning_rate": 0.0005782603593091554,
      "loss": 1.7626,
      "step": 10994
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38486793637275696,
      "learning_rate": 0.0005782564527927375,
      "loss": 1.7806,
      "step": 10995
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41150808334350586,
      "learning_rate": 0.0005782525459385573,
      "loss": 1.7411,
      "step": 10996
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3876786231994629,
      "learning_rate": 0.0005782486387466196,
      "loss": 1.6951,
      "step": 10997
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3820640742778778,
      "learning_rate": 0.000578244731216929,
      "loss": 1.761,
      "step": 10998
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.43663230538368225,
      "learning_rate": 0.0005782408233494903,
      "loss": 1.804,
      "step": 10999
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3949674367904663,
      "learning_rate": 0.0005782369151443081,
      "loss": 1.766,
      "step": 11000
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4003164768218994,
      "learning_rate": 0.0005782330066013875,
      "loss": 1.7245,
      "step": 11001
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38871851563453674,
      "learning_rate": 0.0005782290977207329,
      "loss": 1.7416,
      "step": 11002
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41833773255348206,
      "learning_rate": 0.0005782251885023492,
      "loss": 1.7805,
      "step": 11003
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4115191698074341,
      "learning_rate": 0.0005782212789462411,
      "loss": 1.8131,
      "step": 11004
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3979765474796295,
      "learning_rate": 0.0005782173690524133,
      "loss": 1.7306,
      "step": 11005
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40907779335975647,
      "learning_rate": 0.0005782134588208707,
      "loss": 1.7133,
      "step": 11006
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3680805265903473,
      "learning_rate": 0.0005782095482516179,
      "loss": 1.6646,
      "step": 11007
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38103047013282776,
      "learning_rate": 0.0005782056373446597,
      "loss": 1.8054,
      "step": 11008
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3968590199947357,
      "learning_rate": 0.0005782017261000008,
      "loss": 1.7388,
      "step": 11009
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38272732496261597,
      "learning_rate": 0.0005781978145176462,
      "loss": 1.7561,
      "step": 11010
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39238110184669495,
      "learning_rate": 0.0005781939025976004,
      "loss": 1.8066,
      "step": 11011
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39105528593063354,
      "learning_rate": 0.000578189990339868,
      "loss": 1.757,
      "step": 11012
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3754231333732605,
      "learning_rate": 0.0005781860777444541,
      "loss": 1.6836,
      "step": 11013
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3850153386592865,
      "learning_rate": 0.0005781821648113632,
      "loss": 1.6863,
      "step": 11014
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3896757662296295,
      "learning_rate": 0.0005781782515406001,
      "loss": 1.7962,
      "step": 11015
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39261579513549805,
      "learning_rate": 0.0005781743379321698,
      "loss": 1.8051,
      "step": 11016
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38270777463912964,
      "learning_rate": 0.0005781704239860766,
      "loss": 1.7401,
      "step": 11017
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.387616902589798,
      "learning_rate": 0.0005781665097023257,
      "loss": 1.7675,
      "step": 11018
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3909705877304077,
      "learning_rate": 0.0005781625950809215,
      "loss": 1.7187,
      "step": 11019
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38080376386642456,
      "learning_rate": 0.0005781586801218689,
      "loss": 1.7996,
      "step": 11020
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3807542622089386,
      "learning_rate": 0.0005781547648251727,
      "loss": 1.7329,
      "step": 11021
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3831911087036133,
      "learning_rate": 0.0005781508491908376,
      "loss": 1.7768,
      "step": 11022
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38435253500938416,
      "learning_rate": 0.0005781469332188683,
      "loss": 1.7157,
      "step": 11023
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37664589285850525,
      "learning_rate": 0.0005781430169092697,
      "loss": 1.6736,
      "step": 11024
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39222925901412964,
      "learning_rate": 0.0005781391002620464,
      "loss": 1.7589,
      "step": 11025
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38271892070770264,
      "learning_rate": 0.0005781351832772032,
      "loss": 1.7278,
      "step": 11026
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3889419734477997,
      "learning_rate": 0.000578131265954745,
      "loss": 1.7742,
      "step": 11027
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3956480324268341,
      "learning_rate": 0.0005781273482946762,
      "loss": 1.7399,
      "step": 11028
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3901236951351166,
      "learning_rate": 0.0005781234302970019,
      "loss": 1.7741,
      "step": 11029
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38993701338768005,
      "learning_rate": 0.0005781195119617267,
      "loss": 1.8225,
      "step": 11030
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3883049786090851,
      "learning_rate": 0.0005781155932888555,
      "loss": 1.8111,
      "step": 11031
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3826899528503418,
      "learning_rate": 0.0005781116742783929,
      "loss": 1.7521,
      "step": 11032
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3958272635936737,
      "learning_rate": 0.0005781077549303436,
      "loss": 1.747,
      "step": 11033
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.402482271194458,
      "learning_rate": 0.0005781038352447125,
      "loss": 1.771,
      "step": 11034
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38194188475608826,
      "learning_rate": 0.0005780999152215044,
      "loss": 1.7847,
      "step": 11035
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38362735509872437,
      "learning_rate": 0.0005780959948607239,
      "loss": 1.7992,
      "step": 11036
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40867239236831665,
      "learning_rate": 0.0005780920741623759,
      "loss": 1.8318,
      "step": 11037
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3943920433521271,
      "learning_rate": 0.000578088153126465,
      "loss": 1.7946,
      "step": 11038
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3858339488506317,
      "learning_rate": 0.0005780842317529961,
      "loss": 1.7977,
      "step": 11039
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3969249427318573,
      "learning_rate": 0.000578080310041974,
      "loss": 1.8205,
      "step": 11040
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38947832584381104,
      "learning_rate": 0.0005780763879934033,
      "loss": 1.7547,
      "step": 11041
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3849261999130249,
      "learning_rate": 0.000578072465607289,
      "loss": 1.7248,
      "step": 11042
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3966286778450012,
      "learning_rate": 0.0005780685428836354,
      "loss": 1.6981,
      "step": 11043
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.402341365814209,
      "learning_rate": 0.0005780646198224478,
      "loss": 1.8631,
      "step": 11044
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3892585039138794,
      "learning_rate": 0.0005780606964237306,
      "loss": 1.8209,
      "step": 11045
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40923306345939636,
      "learning_rate": 0.0005780567726874887,
      "loss": 1.8808,
      "step": 11046
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38254624605178833,
      "learning_rate": 0.0005780528486137268,
      "loss": 1.7613,
      "step": 11047
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4087924361228943,
      "learning_rate": 0.0005780489242024499,
      "loss": 1.7715,
      "step": 11048
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3916422724723816,
      "learning_rate": 0.0005780449994536624,
      "loss": 1.6979,
      "step": 11049
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39398038387298584,
      "learning_rate": 0.0005780410743673693,
      "loss": 1.7761,
      "step": 11050
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3824121057987213,
      "learning_rate": 0.0005780371489435752,
      "loss": 1.6976,
      "step": 11051
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3914512097835541,
      "learning_rate": 0.0005780332231822851,
      "loss": 1.7309,
      "step": 11052
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3904803693294525,
      "learning_rate": 0.0005780292970835037,
      "loss": 1.7661,
      "step": 11053
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40451693534851074,
      "learning_rate": 0.0005780253706472356,
      "loss": 1.7364,
      "step": 11054
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39675575494766235,
      "learning_rate": 0.0005780214438734856,
      "loss": 1.7375,
      "step": 11055
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3709217607975006,
      "learning_rate": 0.0005780175167622586,
      "loss": 1.7864,
      "step": 11056
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3987794518470764,
      "learning_rate": 0.0005780135893135594,
      "loss": 1.7875,
      "step": 11057
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4009019434452057,
      "learning_rate": 0.0005780096615273925,
      "loss": 1.7232,
      "step": 11058
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40425941348075867,
      "learning_rate": 0.0005780057334037629,
      "loss": 1.6915,
      "step": 11059
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3912220597267151,
      "learning_rate": 0.0005780018049426752,
      "loss": 1.719,
      "step": 11060
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3983897566795349,
      "learning_rate": 0.0005779978761441344,
      "loss": 1.8226,
      "step": 11061
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4162311851978302,
      "learning_rate": 0.0005779939470081451,
      "loss": 1.7396,
      "step": 11062
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3981766700744629,
      "learning_rate": 0.0005779900175347121,
      "loss": 1.6703,
      "step": 11063
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4101385772228241,
      "learning_rate": 0.0005779860877238402,
      "loss": 1.7219,
      "step": 11064
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41957294940948486,
      "learning_rate": 0.0005779821575755341,
      "loss": 1.8063,
      "step": 11065
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40485501289367676,
      "learning_rate": 0.0005779782270897987,
      "loss": 1.7155,
      "step": 11066
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3878370225429535,
      "learning_rate": 0.0005779742962666386,
      "loss": 1.7034,
      "step": 11067
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38482654094696045,
      "learning_rate": 0.0005779703651060588,
      "loss": 1.7462,
      "step": 11068
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4054257273674011,
      "learning_rate": 0.0005779664336080639,
      "loss": 1.7476,
      "step": 11069
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4074668884277344,
      "learning_rate": 0.0005779625017726586,
      "loss": 1.7181,
      "step": 11070
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3925425708293915,
      "learning_rate": 0.0005779585695998478,
      "loss": 1.8022,
      "step": 11071
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4039437472820282,
      "learning_rate": 0.0005779546370896364,
      "loss": 1.7588,
      "step": 11072
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4182426631450653,
      "learning_rate": 0.0005779507042420288,
      "loss": 1.8227,
      "step": 11073
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39936813712120056,
      "learning_rate": 0.0005779467710570302,
      "loss": 1.7452,
      "step": 11074
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3873879015445709,
      "learning_rate": 0.000577942837534645,
      "loss": 1.7212,
      "step": 11075
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39622822403907776,
      "learning_rate": 0.0005779389036748783,
      "loss": 1.7579,
      "step": 11076
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40920817852020264,
      "learning_rate": 0.0005779349694777345,
      "loss": 1.8836,
      "step": 11077
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3894360065460205,
      "learning_rate": 0.0005779310349432187,
      "loss": 1.7094,
      "step": 11078
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3884466886520386,
      "learning_rate": 0.0005779271000713358,
      "loss": 1.8567,
      "step": 11079
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4069761633872986,
      "learning_rate": 0.0005779231648620902,
      "loss": 1.7338,
      "step": 11080
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4015057682991028,
      "learning_rate": 0.0005779192293154867,
      "loss": 1.7642,
      "step": 11081
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3931449353694916,
      "learning_rate": 0.0005779152934315304,
      "loss": 1.8114,
      "step": 11082
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37478041648864746,
      "learning_rate": 0.0005779113572102258,
      "loss": 1.7139,
      "step": 11083
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3941074311733246,
      "learning_rate": 0.0005779074206515777,
      "loss": 1.7597,
      "step": 11084
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40531888604164124,
      "learning_rate": 0.000577903483755591,
      "loss": 1.8374,
      "step": 11085
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38020017743110657,
      "learning_rate": 0.0005778995465222704,
      "loss": 1.7501,
      "step": 11086
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3903385400772095,
      "learning_rate": 0.0005778956089516207,
      "loss": 1.7343,
      "step": 11087
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.379722535610199,
      "learning_rate": 0.0005778916710436467,
      "loss": 1.76,
      "step": 11088
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3912023901939392,
      "learning_rate": 0.000577887732798353,
      "loss": 1.7513,
      "step": 11089
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3952895998954773,
      "learning_rate": 0.0005778837942157448,
      "loss": 1.7729,
      "step": 11090
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39425164461135864,
      "learning_rate": 0.0005778798552958265,
      "loss": 1.7448,
      "step": 11091
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4064103662967682,
      "learning_rate": 0.0005778759160386029,
      "loss": 1.7228,
      "step": 11092
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3911594748497009,
      "learning_rate": 0.000577871976444079,
      "loss": 1.8417,
      "step": 11093
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40304887294769287,
      "learning_rate": 0.0005778680365122595,
      "loss": 1.7909,
      "step": 11094
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39753884077072144,
      "learning_rate": 0.0005778640962431491,
      "loss": 1.7044,
      "step": 11095
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39544036984443665,
      "learning_rate": 0.0005778601556367525,
      "loss": 1.7818,
      "step": 11096
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3990441560745239,
      "learning_rate": 0.0005778562146930748,
      "loss": 1.7982,
      "step": 11097
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.392742782831192,
      "learning_rate": 0.0005778522734121204,
      "loss": 1.7794,
      "step": 11098
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3925585448741913,
      "learning_rate": 0.0005778483317938945,
      "loss": 1.8482,
      "step": 11099
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39430099725723267,
      "learning_rate": 0.0005778443898384016,
      "loss": 1.7956,
      "step": 11100
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3878823220729828,
      "learning_rate": 0.0005778404475456465,
      "loss": 1.8377,
      "step": 11101
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4035319685935974,
      "learning_rate": 0.000577836504915634,
      "loss": 1.8349,
      "step": 11102
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37660160660743713,
      "learning_rate": 0.0005778325619483689,
      "loss": 1.6917,
      "step": 11103
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.47246477007865906,
      "learning_rate": 0.0005778286186438562,
      "loss": 1.7088,
      "step": 11104
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3934914171695709,
      "learning_rate": 0.0005778246750021003,
      "loss": 1.7274,
      "step": 11105
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3903861939907074,
      "learning_rate": 0.0005778207310231064,
      "loss": 1.716,
      "step": 11106
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3964082896709442,
      "learning_rate": 0.0005778167867068788,
      "loss": 1.8139,
      "step": 11107
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3844301700592041,
      "learning_rate": 0.0005778128420534227,
      "loss": 1.6762,
      "step": 11108
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3842061161994934,
      "learning_rate": 0.0005778088970627426,
      "loss": 1.7286,
      "step": 11109
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38870376348495483,
      "learning_rate": 0.0005778049517348436,
      "loss": 1.8246,
      "step": 11110
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37950143218040466,
      "learning_rate": 0.0005778010060697303,
      "loss": 1.711,
      "step": 11111
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38981112837791443,
      "learning_rate": 0.0005777970600674075,
      "loss": 1.7085,
      "step": 11112
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3843529522418976,
      "learning_rate": 0.00057779311372788,
      "loss": 1.7656,
      "step": 11113
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3751771152019501,
      "learning_rate": 0.0005777891670511525,
      "loss": 1.7718,
      "step": 11114
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39253416657447815,
      "learning_rate": 0.00057778522003723,
      "loss": 1.7489,
      "step": 11115
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40066054463386536,
      "learning_rate": 0.0005777812726861172,
      "loss": 1.8002,
      "step": 11116
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38612473011016846,
      "learning_rate": 0.0005777773249978187,
      "loss": 1.7771,
      "step": 11117
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3761771023273468,
      "learning_rate": 0.0005777733769723396,
      "loss": 1.7126,
      "step": 11118
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39254996180534363,
      "learning_rate": 0.0005777694286096844,
      "loss": 1.7617,
      "step": 11119
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3797778785228729,
      "learning_rate": 0.0005777654799098581,
      "loss": 1.7344,
      "step": 11120
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3786807358264923,
      "learning_rate": 0.0005777615308728655,
      "loss": 1.7664,
      "step": 11121
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3894002437591553,
      "learning_rate": 0.0005777575814987114,
      "loss": 1.7899,
      "step": 11122
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3790798485279083,
      "learning_rate": 0.0005777536317874004,
      "loss": 1.733,
      "step": 11123
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37896257638931274,
      "learning_rate": 0.0005777496817389373,
      "loss": 1.7127,
      "step": 11124
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4003289043903351,
      "learning_rate": 0.0005777457313533272,
      "loss": 1.7372,
      "step": 11125
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.383222371339798,
      "learning_rate": 0.0005777417806305747,
      "loss": 1.7178,
      "step": 11126
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3851688802242279,
      "learning_rate": 0.0005777378295706845,
      "loss": 1.8189,
      "step": 11127
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38254642486572266,
      "learning_rate": 0.0005777338781736616,
      "loss": 1.7663,
      "step": 11128
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3814256489276886,
      "learning_rate": 0.0005777299264395106,
      "loss": 1.7214,
      "step": 11129
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39629003405570984,
      "learning_rate": 0.0005777259743682366,
      "loss": 1.8266,
      "step": 11130
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38833197951316833,
      "learning_rate": 0.0005777220219598439,
      "loss": 1.7533,
      "step": 11131
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3885050415992737,
      "learning_rate": 0.0005777180692143377,
      "loss": 1.7126,
      "step": 11132
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38745686411857605,
      "learning_rate": 0.0005777141161317227,
      "loss": 1.7205,
      "step": 11133
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38320666551589966,
      "learning_rate": 0.0005777101627120036,
      "loss": 1.7955,
      "step": 11134
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40421557426452637,
      "learning_rate": 0.0005777062089551855,
      "loss": 1.844,
      "step": 11135
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39250701665878296,
      "learning_rate": 0.0005777022548612727,
      "loss": 1.7897,
      "step": 11136
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3897460103034973,
      "learning_rate": 0.0005776983004302705,
      "loss": 1.7738,
      "step": 11137
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38669800758361816,
      "learning_rate": 0.0005776943456621834,
      "loss": 1.8157,
      "step": 11138
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.396138995885849,
      "learning_rate": 0.0005776903905570163,
      "loss": 1.6901,
      "step": 11139
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3903234302997589,
      "learning_rate": 0.000577686435114774,
      "loss": 1.6855,
      "step": 11140
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38565728068351746,
      "learning_rate": 0.0005776824793354611,
      "loss": 1.7684,
      "step": 11141
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38397112488746643,
      "learning_rate": 0.0005776785232190828,
      "loss": 1.7305,
      "step": 11142
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39596813917160034,
      "learning_rate": 0.0005776745667656436,
      "loss": 1.803,
      "step": 11143
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4087545871734619,
      "learning_rate": 0.0005776706099751484,
      "loss": 1.8169,
      "step": 11144
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38531699776649475,
      "learning_rate": 0.000577666652847602,
      "loss": 1.8055,
      "step": 11145
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38294652104377747,
      "learning_rate": 0.0005776626953830091,
      "loss": 1.7073,
      "step": 11146
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40364813804626465,
      "learning_rate": 0.0005776587375813748,
      "loss": 1.8475,
      "step": 11147
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3822326064109802,
      "learning_rate": 0.0005776547794427036,
      "loss": 1.7528,
      "step": 11148
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3877124488353729,
      "learning_rate": 0.0005776508209670003,
      "loss": 1.654,
      "step": 11149
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3843037784099579,
      "learning_rate": 0.00057764686215427,
      "loss": 1.6496,
      "step": 11150
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38415420055389404,
      "learning_rate": 0.0005776429030045171,
      "loss": 1.7236,
      "step": 11151
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38527876138687134,
      "learning_rate": 0.0005776389435177469,
      "loss": 1.7486,
      "step": 11152
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4055591821670532,
      "learning_rate": 0.0005776349836939637,
      "loss": 1.7435,
      "step": 11153
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3852095901966095,
      "learning_rate": 0.0005776310235331727,
      "loss": 1.8074,
      "step": 11154
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39146655797958374,
      "learning_rate": 0.0005776270630353784,
      "loss": 1.7014,
      "step": 11155
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3887065649032593,
      "learning_rate": 0.0005776231022005859,
      "loss": 1.7,
      "step": 11156
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40002667903900146,
      "learning_rate": 0.0005776191410287998,
      "loss": 1.7273,
      "step": 11157
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39236757159233093,
      "learning_rate": 0.000577615179520025,
      "loss": 1.7759,
      "step": 11158
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3869096040725708,
      "learning_rate": 0.0005776112176742662,
      "loss": 1.7753,
      "step": 11159
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4105375409126282,
      "learning_rate": 0.0005776072554915283,
      "loss": 1.7663,
      "step": 11160
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38735127449035645,
      "learning_rate": 0.0005776032929718161,
      "loss": 1.8286,
      "step": 11161
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.42166897654533386,
      "learning_rate": 0.0005775993301151344,
      "loss": 1.85,
      "step": 11162
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4059995412826538,
      "learning_rate": 0.000577595366921488,
      "loss": 1.7807,
      "step": 11163
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3901095986366272,
      "learning_rate": 0.0005775914033908818,
      "loss": 1.7852,
      "step": 11164
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39212659001350403,
      "learning_rate": 0.0005775874395233205,
      "loss": 1.7504,
      "step": 11165
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4084094166755676,
      "learning_rate": 0.0005775834753188088,
      "loss": 1.8029,
      "step": 11166
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3917454779148102,
      "learning_rate": 0.0005775795107773519,
      "loss": 1.7806,
      "step": 11167
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3912947475910187,
      "learning_rate": 0.0005775755458989543,
      "loss": 1.7903,
      "step": 11168
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38885587453842163,
      "learning_rate": 0.0005775715806836209,
      "loss": 1.7747,
      "step": 11169
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3877308964729309,
      "learning_rate": 0.0005775676151313564,
      "loss": 1.7528,
      "step": 11170
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3897097110748291,
      "learning_rate": 0.0005775636492421658,
      "loss": 1.7254,
      "step": 11171
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3731417655944824,
      "learning_rate": 0.0005775596830160538,
      "loss": 1.678,
      "step": 11172
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38190218806266785,
      "learning_rate": 0.0005775557164530253,
      "loss": 1.7118,
      "step": 11173
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3860984146595001,
      "learning_rate": 0.0005775517495530849,
      "loss": 1.6537,
      "step": 11174
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38617032766342163,
      "learning_rate": 0.0005775477823162377,
      "loss": 1.6823,
      "step": 11175
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39059460163116455,
      "learning_rate": 0.0005775438147424883,
      "loss": 1.7784,
      "step": 11176
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3924427330493927,
      "learning_rate": 0.0005775398468318417,
      "loss": 1.8167,
      "step": 11177
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3822718560695648,
      "learning_rate": 0.0005775358785843026,
      "loss": 1.7921,
      "step": 11178
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40327948331832886,
      "learning_rate": 0.0005775319099998759,
      "loss": 1.686,
      "step": 11179
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4089423716068268,
      "learning_rate": 0.0005775279410785662,
      "loss": 1.8188,
      "step": 11180
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4101339280605316,
      "learning_rate": 0.0005775239718203784,
      "loss": 1.7769,
      "step": 11181
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38655632734298706,
      "learning_rate": 0.0005775200022253177,
      "loss": 1.7699,
      "step": 11182
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41948366165161133,
      "learning_rate": 0.0005775160322933884,
      "loss": 1.7886,
      "step": 11183
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40352633595466614,
      "learning_rate": 0.0005775120620245956,
      "loss": 1.82,
      "step": 11184
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38212889432907104,
      "learning_rate": 0.0005775080914189439,
      "loss": 1.7003,
      "step": 11185
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3955112397670746,
      "learning_rate": 0.0005775041204764385,
      "loss": 1.7681,
      "step": 11186
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3998972773551941,
      "learning_rate": 0.0005775001491970838,
      "loss": 1.8327,
      "step": 11187
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3903670608997345,
      "learning_rate": 0.0005774961775808849,
      "loss": 1.7483,
      "step": 11188
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3761170506477356,
      "learning_rate": 0.0005774922056278464,
      "loss": 1.7797,
      "step": 11189
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39178764820098877,
      "learning_rate": 0.0005774882333379734,
      "loss": 1.8212,
      "step": 11190
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38551077246665955,
      "learning_rate": 0.0005774842607112706,
      "loss": 1.7966,
      "step": 11191
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40135490894317627,
      "learning_rate": 0.0005774802877477426,
      "loss": 1.7919,
      "step": 11192
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39781010150909424,
      "learning_rate": 0.0005774763144473946,
      "loss": 1.7915,
      "step": 11193
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3918924629688263,
      "learning_rate": 0.0005774723408102312,
      "loss": 1.7752,
      "step": 11194
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40507814288139343,
      "learning_rate": 0.0005774683668362572,
      "loss": 1.7407,
      "step": 11195
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39332425594329834,
      "learning_rate": 0.0005774643925254775,
      "loss": 1.7689,
      "step": 11196
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3986761271953583,
      "learning_rate": 0.0005774604178778969,
      "loss": 1.7856,
      "step": 11197
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4149579405784607,
      "learning_rate": 0.0005774564428935203,
      "loss": 1.7996,
      "step": 11198
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3967491090297699,
      "learning_rate": 0.0005774524675723524,
      "loss": 1.7262,
      "step": 11199
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4097585678100586,
      "learning_rate": 0.0005774484919143981,
      "loss": 1.7954,
      "step": 11200
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41192707419395447,
      "learning_rate": 0.0005774445159196622,
      "loss": 1.786,
      "step": 11201
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4143145978450775,
      "learning_rate": 0.0005774405395881496,
      "loss": 1.7373,
      "step": 11202
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40179744362831116,
      "learning_rate": 0.000577436562919865,
      "loss": 1.7766,
      "step": 11203
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3968253433704376,
      "learning_rate": 0.0005774325859148133,
      "loss": 1.7561,
      "step": 11204
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38570505380630493,
      "learning_rate": 0.0005774286085729992,
      "loss": 1.7322,
      "step": 11205
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40056031942367554,
      "learning_rate": 0.0005774246308944278,
      "loss": 1.8472,
      "step": 11206
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3946627676486969,
      "learning_rate": 0.0005774206528791038,
      "loss": 1.7633,
      "step": 11207
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3957454264163971,
      "learning_rate": 0.000577416674527032,
      "loss": 1.7961,
      "step": 11208
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4065057933330536,
      "learning_rate": 0.0005774126958382171,
      "loss": 1.7939,
      "step": 11209
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3952057659626007,
      "learning_rate": 0.0005774087168126642,
      "loss": 1.7393,
      "step": 11210
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3949598968029022,
      "learning_rate": 0.0005774047374503779,
      "loss": 1.726,
      "step": 11211
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40481114387512207,
      "learning_rate": 0.0005774007577513631,
      "loss": 1.7942,
      "step": 11212
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.40194496512413025,
      "learning_rate": 0.0005773967777156247,
      "loss": 1.7376,
      "step": 11213
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3965572118759155,
      "learning_rate": 0.0005773927973431677,
      "loss": 1.7601,
      "step": 11214
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3768475651741028,
      "learning_rate": 0.0005773888166339964,
      "loss": 1.7853,
      "step": 11215
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38335177302360535,
      "learning_rate": 0.0005773848355881161,
      "loss": 1.7391,
      "step": 11216
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3904033899307251,
      "learning_rate": 0.0005773808542055315,
      "loss": 1.7669,
      "step": 11217
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3947876989841461,
      "learning_rate": 0.0005773768724862473,
      "loss": 1.8167,
      "step": 11218
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3932046890258789,
      "learning_rate": 0.0005773728904302684,
      "loss": 1.8179,
      "step": 11219
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3951221704483032,
      "learning_rate": 0.0005773689080375998,
      "loss": 1.7161,
      "step": 11220
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.37254756689071655,
      "learning_rate": 0.0005773649253082463,
      "loss": 1.744,
      "step": 11221
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3776162266731262,
      "learning_rate": 0.0005773609422422124,
      "loss": 1.7638,
      "step": 11222
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3910696804523468,
      "learning_rate": 0.0005773569588395034,
      "loss": 1.7314,
      "step": 11223
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3953360617160797,
      "learning_rate": 0.0005773529751001239,
      "loss": 1.7163,
      "step": 11224
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4026290774345398,
      "learning_rate": 0.0005773489910240787,
      "loss": 1.7406,
      "step": 11225
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39490923285484314,
      "learning_rate": 0.0005773450066113726,
      "loss": 1.8056,
      "step": 11226
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38447269797325134,
      "learning_rate": 0.0005773410218620106,
      "loss": 1.8086,
      "step": 11227
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.45365118980407715,
      "learning_rate": 0.0005773370367759974,
      "loss": 1.7667,
      "step": 11228
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3949465751647949,
      "learning_rate": 0.000577333051353338,
      "loss": 1.7615,
      "step": 11229
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.382976770401001,
      "learning_rate": 0.0005773290655940372,
      "loss": 1.7439,
      "step": 11230
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3844377398490906,
      "learning_rate": 0.0005773250794980997,
      "loss": 1.7942,
      "step": 11231
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38683342933654785,
      "learning_rate": 0.0005773210930655304,
      "loss": 1.7329,
      "step": 11232
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3987199366092682,
      "learning_rate": 0.0005773171062963342,
      "loss": 1.8277,
      "step": 11233
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.387145072221756,
      "learning_rate": 0.0005773131191905158,
      "loss": 1.6743,
      "step": 11234
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.381621390581131,
      "learning_rate": 0.0005773091317480801,
      "loss": 1.6923,
      "step": 11235
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4088349938392639,
      "learning_rate": 0.0005773051439690321,
      "loss": 1.7637,
      "step": 11236
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3986116945743561,
      "learning_rate": 0.0005773011558533765,
      "loss": 1.866,
      "step": 11237
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38181641697883606,
      "learning_rate": 0.0005772971674011182,
      "loss": 1.7801,
      "step": 11238
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41875961422920227,
      "learning_rate": 0.0005772931786122619,
      "loss": 1.7512,
      "step": 11239
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39303913712501526,
      "learning_rate": 0.0005772891894868126,
      "loss": 1.7289,
      "step": 11240
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3804459571838379,
      "learning_rate": 0.000577285200024775,
      "loss": 1.7802,
      "step": 11241
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3798314929008484,
      "learning_rate": 0.0005772812102261541,
      "loss": 1.8558,
      "step": 11242
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3936702311038971,
      "learning_rate": 0.0005772772200909546,
      "loss": 1.8107,
      "step": 11243
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.387630432844162,
      "learning_rate": 0.0005772732296191815,
      "loss": 1.7401,
      "step": 11244
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.45560741424560547,
      "learning_rate": 0.0005772692388108395,
      "loss": 1.7327,
      "step": 11245
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3883468508720398,
      "learning_rate": 0.0005772652476659334,
      "loss": 1.7684,
      "step": 11246
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39923998713493347,
      "learning_rate": 0.0005772612561844684,
      "loss": 1.6818,
      "step": 11247
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.41276589035987854,
      "learning_rate": 0.0005772572643664488,
      "loss": 1.7921,
      "step": 11248
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38023874163627625,
      "learning_rate": 0.0005772532722118799,
      "loss": 1.7187,
      "step": 11249
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38716915249824524,
      "learning_rate": 0.0005772492797207664,
      "loss": 1.7177,
      "step": 11250
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3994569182395935,
      "learning_rate": 0.000577245286893113,
      "loss": 1.7303,
      "step": 11251
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3797084391117096,
      "learning_rate": 0.0005772412937289247,
      "loss": 1.7768,
      "step": 11252
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3984476625919342,
      "learning_rate": 0.0005772373002282064,
      "loss": 1.8131,
      "step": 11253
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38916832208633423,
      "learning_rate": 0.0005772333063909629,
      "loss": 1.8155,
      "step": 11254
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38043448328971863,
      "learning_rate": 0.0005772293122171989,
      "loss": 1.8029,
      "step": 11255
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38696298003196716,
      "learning_rate": 0.0005772253177069194,
      "loss": 1.7366,
      "step": 11256
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38920795917510986,
      "learning_rate": 0.0005772213228601292,
      "loss": 1.837,
      "step": 11257
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3833352327346802,
      "learning_rate": 0.0005772173276768331,
      "loss": 1.8274,
      "step": 11258
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38841354846954346,
      "learning_rate": 0.0005772133321570362,
      "loss": 1.7567,
      "step": 11259
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3877783715724945,
      "learning_rate": 0.000577209336300743,
      "loss": 1.6893,
      "step": 11260
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.43918904662132263,
      "learning_rate": 0.0005772053401079585,
      "loss": 1.7717,
      "step": 11261
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39781761169433594,
      "learning_rate": 0.0005772013435786877,
      "loss": 1.8321,
      "step": 11262
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39058151841163635,
      "learning_rate": 0.0005771973467129352,
      "loss": 1.7615,
      "step": 11263
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3863273859024048,
      "learning_rate": 0.000577193349510706,
      "loss": 1.7336,
      "step": 11264
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39285802841186523,
      "learning_rate": 0.0005771893519720049,
      "loss": 1.6683,
      "step": 11265
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3847642242908478,
      "learning_rate": 0.0005771853540968367,
      "loss": 1.7614,
      "step": 11266
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.390931636095047,
      "learning_rate": 0.0005771813558852065,
      "loss": 1.8357,
      "step": 11267
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39206787943840027,
      "learning_rate": 0.0005771773573371189,
      "loss": 1.8054,
      "step": 11268
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38032063841819763,
      "learning_rate": 0.0005771733584525788,
      "loss": 1.7082,
      "step": 11269
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3893185257911682,
      "learning_rate": 0.000577169359231591,
      "loss": 1.7858,
      "step": 11270
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3742770850658417,
      "learning_rate": 0.0005771653596741606,
      "loss": 1.7009,
      "step": 11271
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39433908462524414,
      "learning_rate": 0.0005771613597802921,
      "loss": 1.7415,
      "step": 11272
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3740754723548889,
      "learning_rate": 0.0005771573595499907,
      "loss": 1.8267,
      "step": 11273
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3829350471496582,
      "learning_rate": 0.0005771533589832611,
      "loss": 1.8084,
      "step": 11274
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3780490756034851,
      "learning_rate": 0.0005771493580801081,
      "loss": 1.7606,
      "step": 11275
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3765375018119812,
      "learning_rate": 0.0005771453568405367,
      "loss": 1.7215,
      "step": 11276
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38529372215270996,
      "learning_rate": 0.0005771413552645516,
      "loss": 1.6985,
      "step": 11277
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37795698642730713,
      "learning_rate": 0.0005771373533521577,
      "loss": 1.7208,
      "step": 11278
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3969343602657318,
      "learning_rate": 0.0005771333511033599,
      "loss": 1.7756,
      "step": 11279
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3901139497756958,
      "learning_rate": 0.0005771293485181631,
      "loss": 1.688,
      "step": 11280
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39584264159202576,
      "learning_rate": 0.0005771253455965721,
      "loss": 1.7908,
      "step": 11281
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3953924775123596,
      "learning_rate": 0.0005771213423385917,
      "loss": 1.7938,
      "step": 11282
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4059436321258545,
      "learning_rate": 0.0005771173387442268,
      "loss": 1.7867,
      "step": 11283
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39601051807403564,
      "learning_rate": 0.0005771133348134825,
      "loss": 1.707,
      "step": 11284
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3856757581233978,
      "learning_rate": 0.0005771093305463632,
      "loss": 1.7585,
      "step": 11285
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40174418687820435,
      "learning_rate": 0.0005771053259428741,
      "loss": 1.7639,
      "step": 11286
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3876268267631531,
      "learning_rate": 0.00057710132100302,
      "loss": 1.748,
      "step": 11287
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4038621783256531,
      "learning_rate": 0.0005770973157268056,
      "loss": 1.7637,
      "step": 11288
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6375775933265686,
      "learning_rate": 0.000577093310114236,
      "loss": 1.7649,
      "step": 11289
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3836967647075653,
      "learning_rate": 0.0005770893041653159,
      "loss": 1.7332,
      "step": 11290
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42892545461654663,
      "learning_rate": 0.0005770852978800502,
      "loss": 1.7429,
      "step": 11291
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3945613205432892,
      "learning_rate": 0.0005770812912584438,
      "loss": 1.7976,
      "step": 11292
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3716467618942261,
      "learning_rate": 0.0005770772843005016,
      "loss": 1.7704,
      "step": 11293
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38942238688468933,
      "learning_rate": 0.0005770732770062283,
      "loss": 1.7942,
      "step": 11294
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39971455931663513,
      "learning_rate": 0.0005770692693756289,
      "loss": 1.7527,
      "step": 11295
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3879319131374359,
      "learning_rate": 0.0005770652614087082,
      "loss": 1.7536,
      "step": 11296
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39954185485839844,
      "learning_rate": 0.0005770612531054712,
      "loss": 1.8536,
      "step": 11297
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39551612734794617,
      "learning_rate": 0.0005770572444659226,
      "loss": 1.7647,
      "step": 11298
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39850613474845886,
      "learning_rate": 0.0005770532354900673,
      "loss": 1.7767,
      "step": 11299
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3780807852745056,
      "learning_rate": 0.0005770492261779102,
      "loss": 1.683,
      "step": 11300
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38390135765075684,
      "learning_rate": 0.0005770452165294562,
      "loss": 1.757,
      "step": 11301
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3931083381175995,
      "learning_rate": 0.0005770412065447102,
      "loss": 1.7758,
      "step": 11302
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4170530438423157,
      "learning_rate": 0.0005770371962236768,
      "loss": 1.8956,
      "step": 11303
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37730687856674194,
      "learning_rate": 0.0005770331855663612,
      "loss": 1.8055,
      "step": 11304
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4136795103549957,
      "learning_rate": 0.0005770291745727681,
      "loss": 1.6759,
      "step": 11305
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3918522298336029,
      "learning_rate": 0.0005770251632429024,
      "loss": 1.7313,
      "step": 11306
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39149630069732666,
      "learning_rate": 0.000577021151576769,
      "loss": 1.7422,
      "step": 11307
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3807358741760254,
      "learning_rate": 0.0005770171395743727,
      "loss": 1.7163,
      "step": 11308
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38737162947654724,
      "learning_rate": 0.0005770131272357184,
      "loss": 1.789,
      "step": 11309
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41265347599983215,
      "learning_rate": 0.000577009114560811,
      "loss": 1.7637,
      "step": 11310
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41613924503326416,
      "learning_rate": 0.0005770051015496553,
      "loss": 1.8181,
      "step": 11311
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38619858026504517,
      "learning_rate": 0.0005770010882022563,
      "loss": 1.7693,
      "step": 11312
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38920843601226807,
      "learning_rate": 0.0005769970745186188,
      "loss": 1.7953,
      "step": 11313
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39951270818710327,
      "learning_rate": 0.0005769930604987477,
      "loss": 1.7858,
      "step": 11314
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4081304371356964,
      "learning_rate": 0.0005769890461426476,
      "loss": 1.7324,
      "step": 11315
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4114990532398224,
      "learning_rate": 0.0005769850314503238,
      "loss": 1.7385,
      "step": 11316
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.409481942653656,
      "learning_rate": 0.000576981016421781,
      "loss": 1.7822,
      "step": 11317
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40027371048927307,
      "learning_rate": 0.000576977001057024,
      "loss": 1.864,
      "step": 11318
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3902667462825775,
      "learning_rate": 0.0005769729853560577,
      "loss": 1.76,
      "step": 11319
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40597230195999146,
      "learning_rate": 0.0005769689693188871,
      "loss": 1.8101,
      "step": 11320
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39021924138069153,
      "learning_rate": 0.000576964952945517,
      "loss": 1.7842,
      "step": 11321
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40144920349121094,
      "learning_rate": 0.0005769609362359521,
      "loss": 1.8396,
      "step": 11322
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37679383158683777,
      "learning_rate": 0.0005769569191901976,
      "loss": 1.7765,
      "step": 11323
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39055025577545166,
      "learning_rate": 0.0005769529018082581,
      "loss": 1.8727,
      "step": 11324
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3885798454284668,
      "learning_rate": 0.0005769488840901385,
      "loss": 1.6784,
      "step": 11325
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4056965410709381,
      "learning_rate": 0.000576944866035844,
      "loss": 1.7953,
      "step": 11326
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38272589445114136,
      "learning_rate": 0.0005769408476453791,
      "loss": 1.7297,
      "step": 11327
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3864339590072632,
      "learning_rate": 0.0005769368289187488,
      "loss": 1.7712,
      "step": 11328
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38894563913345337,
      "learning_rate": 0.0005769328098559581,
      "loss": 1.728,
      "step": 11329
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37541019916534424,
      "learning_rate": 0.0005769287904570116,
      "loss": 1.6738,
      "step": 11330
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3850449323654175,
      "learning_rate": 0.0005769247707219145,
      "loss": 1.7303,
      "step": 11331
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3750908672809601,
      "learning_rate": 0.0005769207506506715,
      "loss": 1.7523,
      "step": 11332
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3862118124961853,
      "learning_rate": 0.0005769167302432874,
      "loss": 1.7745,
      "step": 11333
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3969985842704773,
      "learning_rate": 0.0005769127094997673,
      "loss": 1.7605,
      "step": 11334
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38141068816185,
      "learning_rate": 0.0005769086884201159,
      "loss": 1.7726,
      "step": 11335
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3929470479488373,
      "learning_rate": 0.0005769046670043383,
      "loss": 1.7393,
      "step": 11336
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39348238706588745,
      "learning_rate": 0.0005769006452524391,
      "loss": 1.8234,
      "step": 11337
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38288822770118713,
      "learning_rate": 0.0005768966231644233,
      "loss": 1.7128,
      "step": 11338
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3628807067871094,
      "learning_rate": 0.0005768926007402959,
      "loss": 1.6885,
      "step": 11339
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40054258704185486,
      "learning_rate": 0.0005768885779800617,
      "loss": 1.8288,
      "step": 11340
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38686463236808777,
      "learning_rate": 0.0005768845548837255,
      "loss": 1.7817,
      "step": 11341
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38543784618377686,
      "learning_rate": 0.0005768805314512923,
      "loss": 1.7753,
      "step": 11342
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4036265015602112,
      "learning_rate": 0.0005768765076827668,
      "loss": 1.7349,
      "step": 11343
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3779347836971283,
      "learning_rate": 0.0005768724835781541,
      "loss": 1.7277,
      "step": 11344
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3745374083518982,
      "learning_rate": 0.000576868459137459,
      "loss": 1.6578,
      "step": 11345
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3835808038711548,
      "learning_rate": 0.0005768644343606864,
      "loss": 1.7583,
      "step": 11346
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3878018260002136,
      "learning_rate": 0.0005768604092478411,
      "loss": 1.7446,
      "step": 11347
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4308304190635681,
      "learning_rate": 0.0005768563837989281,
      "loss": 1.8472,
      "step": 11348
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3859846591949463,
      "learning_rate": 0.0005768523580139522,
      "loss": 1.7357,
      "step": 11349
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38237422704696655,
      "learning_rate": 0.0005768483318929185,
      "loss": 1.734,
      "step": 11350
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3834517002105713,
      "learning_rate": 0.0005768443054358315,
      "loss": 1.7479,
      "step": 11351
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3756459057331085,
      "learning_rate": 0.0005768402786426965,
      "loss": 1.7007,
      "step": 11352
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39758092164993286,
      "learning_rate": 0.000576836251513518,
      "loss": 1.7391,
      "step": 11353
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40088900923728943,
      "learning_rate": 0.0005768322240483012,
      "loss": 1.7441,
      "step": 11354
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38305729627609253,
      "learning_rate": 0.0005768281962470509,
      "loss": 1.7695,
      "step": 11355
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3906356990337372,
      "learning_rate": 0.0005768241681097718,
      "loss": 1.7348,
      "step": 11356
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.396452933549881,
      "learning_rate": 0.0005768201396364691,
      "loss": 1.7534,
      "step": 11357
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41739532351493835,
      "learning_rate": 0.0005768161108271476,
      "loss": 1.7803,
      "step": 11358
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3964233696460724,
      "learning_rate": 0.0005768120816818119,
      "loss": 1.6805,
      "step": 11359
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39637333154678345,
      "learning_rate": 0.0005768080522004672,
      "loss": 1.7719,
      "step": 11360
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.394868940114975,
      "learning_rate": 0.0005768040223831185,
      "loss": 1.7633,
      "step": 11361
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3915075957775116,
      "learning_rate": 0.0005767999922297702,
      "loss": 1.7502,
      "step": 11362
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39584243297576904,
      "learning_rate": 0.0005767959617404276,
      "loss": 1.8004,
      "step": 11363
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39707890152931213,
      "learning_rate": 0.0005767919309150956,
      "loss": 1.7615,
      "step": 11364
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3882488012313843,
      "learning_rate": 0.0005767878997537789,
      "loss": 1.7006,
      "step": 11365
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40283459424972534,
      "learning_rate": 0.0005767838682564824,
      "loss": 1.7787,
      "step": 11366
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39184069633483887,
      "learning_rate": 0.0005767798364232112,
      "loss": 1.8443,
      "step": 11367
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40430426597595215,
      "learning_rate": 0.00057677580425397,
      "loss": 1.8038,
      "step": 11368
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3942697048187256,
      "learning_rate": 0.0005767717717487638,
      "loss": 1.7456,
      "step": 11369
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3871133029460907,
      "learning_rate": 0.0005767677389075974,
      "loss": 1.7591,
      "step": 11370
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3968220055103302,
      "learning_rate": 0.0005767637057304758,
      "loss": 1.7822,
      "step": 11371
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3826853036880493,
      "learning_rate": 0.0005767596722174037,
      "loss": 1.8232,
      "step": 11372
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.393022358417511,
      "learning_rate": 0.0005767556383683862,
      "loss": 1.788,
      "step": 11373
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39041146636009216,
      "learning_rate": 0.0005767516041834282,
      "loss": 1.7195,
      "step": 11374
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3824538290500641,
      "learning_rate": 0.0005767475696625346,
      "loss": 1.782,
      "step": 11375
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3820885717868805,
      "learning_rate": 0.00057674353480571,
      "loss": 1.7281,
      "step": 11376
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4012826085090637,
      "learning_rate": 0.0005767394996129597,
      "loss": 1.7937,
      "step": 11377
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3874768018722534,
      "learning_rate": 0.0005767354640842885,
      "loss": 1.7377,
      "step": 11378
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3859632909297943,
      "learning_rate": 0.0005767314282197009,
      "loss": 1.8329,
      "step": 11379
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38609227538108826,
      "learning_rate": 0.0005767273920192023,
      "loss": 1.6631,
      "step": 11380
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3900633454322815,
      "learning_rate": 0.0005767233554827975,
      "loss": 1.7322,
      "step": 11381
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3965078592300415,
      "learning_rate": 0.0005767193186104913,
      "loss": 1.755,
      "step": 11382
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39217692613601685,
      "learning_rate": 0.0005767152814022885,
      "loss": 1.8152,
      "step": 11383
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38464516401290894,
      "learning_rate": 0.0005767112438581942,
      "loss": 1.7336,
      "step": 11384
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3939354121685028,
      "learning_rate": 0.0005767072059782132,
      "loss": 1.7613,
      "step": 11385
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3797135055065155,
      "learning_rate": 0.0005767031677623505,
      "loss": 1.7823,
      "step": 11386
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40349864959716797,
      "learning_rate": 0.0005766991292106108,
      "loss": 1.7484,
      "step": 11387
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.390890896320343,
      "learning_rate": 0.0005766950903229992,
      "loss": 1.7406,
      "step": 11388
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38925206661224365,
      "learning_rate": 0.0005766910510995205,
      "loss": 1.7462,
      "step": 11389
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3895544111728668,
      "learning_rate": 0.0005766870115401796,
      "loss": 1.7216,
      "step": 11390
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40527787804603577,
      "learning_rate": 0.0005766829716449815,
      "loss": 1.8064,
      "step": 11391
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38963428139686584,
      "learning_rate": 0.0005766789314139311,
      "loss": 1.8091,
      "step": 11392
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3805692195892334,
      "learning_rate": 0.0005766748908470332,
      "loss": 1.7545,
      "step": 11393
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3850005865097046,
      "learning_rate": 0.0005766708499442927,
      "loss": 1.6786,
      "step": 11394
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4032430946826935,
      "learning_rate": 0.0005766668087057146,
      "loss": 1.7828,
      "step": 11395
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3982321321964264,
      "learning_rate": 0.0005766627671313037,
      "loss": 1.8457,
      "step": 11396
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3980187177658081,
      "learning_rate": 0.000576658725221065,
      "loss": 1.7721,
      "step": 11397
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3838498890399933,
      "learning_rate": 0.0005766546829750034,
      "loss": 1.7785,
      "step": 11398
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4028308093547821,
      "learning_rate": 0.0005766506403931237,
      "loss": 1.7394,
      "step": 11399
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42777523398399353,
      "learning_rate": 0.0005766465974754309,
      "loss": 1.7889,
      "step": 11400
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38786622881889343,
      "learning_rate": 0.00057664255422193,
      "loss": 1.7511,
      "step": 11401
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3855154514312744,
      "learning_rate": 0.0005766385106326257,
      "loss": 1.7902,
      "step": 11402
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38767048716545105,
      "learning_rate": 0.000576634466707523,
      "loss": 1.7403,
      "step": 11403
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3879203200340271,
      "learning_rate": 0.0005766304224466269,
      "loss": 1.6748,
      "step": 11404
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3980448544025421,
      "learning_rate": 0.0005766263778499422,
      "loss": 1.8433,
      "step": 11405
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3913397192955017,
      "learning_rate": 0.0005766223329174737,
      "loss": 1.8697,
      "step": 11406
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38447317481040955,
      "learning_rate": 0.0005766182876492266,
      "loss": 1.8265,
      "step": 11407
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39905938506126404,
      "learning_rate": 0.0005766142420452056,
      "loss": 1.7495,
      "step": 11408
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.384342759847641,
      "learning_rate": 0.0005766101961054157,
      "loss": 1.732,
      "step": 11409
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38586491346359253,
      "learning_rate": 0.0005766061498298617,
      "loss": 1.8058,
      "step": 11410
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3905685842037201,
      "learning_rate": 0.0005766021032185487,
      "loss": 1.7618,
      "step": 11411
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3723580539226532,
      "learning_rate": 0.0005765980562714815,
      "loss": 1.7699,
      "step": 11412
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3886931538581848,
      "learning_rate": 0.000576594008988665,
      "loss": 1.7684,
      "step": 11413
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.401821494102478,
      "learning_rate": 0.000576589961370104,
      "loss": 1.7653,
      "step": 11414
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3858206272125244,
      "learning_rate": 0.0005765859134158037,
      "loss": 1.7116,
      "step": 11415
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3864382207393646,
      "learning_rate": 0.0005765818651257687,
      "loss": 1.7669,
      "step": 11416
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38640424609184265,
      "learning_rate": 0.0005765778165000042,
      "loss": 1.7195,
      "step": 11417
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38959193229675293,
      "learning_rate": 0.000576573767538515,
      "loss": 1.7372,
      "step": 11418
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37319061160087585,
      "learning_rate": 0.0005765697182413059,
      "loss": 1.7246,
      "step": 11419
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.388473242521286,
      "learning_rate": 0.000576565668608382,
      "loss": 1.8163,
      "step": 11420
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38144758343696594,
      "learning_rate": 0.000576561618639748,
      "loss": 1.798,
      "step": 11421
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3922604024410248,
      "learning_rate": 0.000576557568335409,
      "loss": 1.7566,
      "step": 11422
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4506661593914032,
      "learning_rate": 0.0005765535176953699,
      "loss": 1.7883,
      "step": 11423
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39294904470443726,
      "learning_rate": 0.0005765494667196356,
      "loss": 1.7141,
      "step": 11424
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3864532709121704,
      "learning_rate": 0.0005765454154082109,
      "loss": 1.8145,
      "step": 11425
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39680036902427673,
      "learning_rate": 0.000576541363761101,
      "loss": 1.7464,
      "step": 11426
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3979424238204956,
      "learning_rate": 0.0005765373117783105,
      "loss": 1.7126,
      "step": 11427
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3771958351135254,
      "learning_rate": 0.0005765332594598444,
      "loss": 1.8097,
      "step": 11428
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37723541259765625,
      "learning_rate": 0.0005765292068057076,
      "loss": 1.8112,
      "step": 11429
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39822688698768616,
      "learning_rate": 0.0005765251538159054,
      "loss": 1.8019,
      "step": 11430
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3774830102920532,
      "learning_rate": 0.0005765211004904421,
      "loss": 1.6734,
      "step": 11431
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5440849661827087,
      "learning_rate": 0.0005765170468293231,
      "loss": 1.8201,
      "step": 11432
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38745608925819397,
      "learning_rate": 0.0005765129928325531,
      "loss": 1.7326,
      "step": 11433
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3902762830257416,
      "learning_rate": 0.000576508938500137,
      "loss": 1.7635,
      "step": 11434
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38594338297843933,
      "learning_rate": 0.0005765048838320798,
      "loss": 1.7306,
      "step": 11435
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3931506276130676,
      "learning_rate": 0.0005765008288283865,
      "loss": 1.7926,
      "step": 11436
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3854838013648987,
      "learning_rate": 0.0005764967734890619,
      "loss": 1.7033,
      "step": 11437
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3983321487903595,
      "learning_rate": 0.000576492717814111,
      "loss": 1.8044,
      "step": 11438
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3860020339488983,
      "learning_rate": 0.0005764886618035385,
      "loss": 1.8052,
      "step": 11439
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3923332393169403,
      "learning_rate": 0.0005764846054573498,
      "loss": 1.8568,
      "step": 11440
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40703916549682617,
      "learning_rate": 0.0005764805487755493,
      "loss": 1.7676,
      "step": 11441
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3818018138408661,
      "learning_rate": 0.0005764764917581422,
      "loss": 1.8336,
      "step": 11442
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3919103443622589,
      "learning_rate": 0.0005764724344051335,
      "loss": 1.7837,
      "step": 11443
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3985873758792877,
      "learning_rate": 0.0005764683767165278,
      "loss": 1.7485,
      "step": 11444
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3979959487915039,
      "learning_rate": 0.0005764643186923303,
      "loss": 1.7216,
      "step": 11445
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3773241341114044,
      "learning_rate": 0.0005764602603325459,
      "loss": 1.7088,
      "step": 11446
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3869633972644806,
      "learning_rate": 0.0005764562016371794,
      "loss": 1.7748,
      "step": 11447
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3809395730495453,
      "learning_rate": 0.0005764521426062358,
      "loss": 1.7714,
      "step": 11448
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39569270610809326,
      "learning_rate": 0.0005764480832397202,
      "loss": 1.8154,
      "step": 11449
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3761490285396576,
      "learning_rate": 0.0005764440235376372,
      "loss": 1.8131,
      "step": 11450
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3964993953704834,
      "learning_rate": 0.0005764399634999919,
      "loss": 1.8162,
      "step": 11451
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38552290201187134,
      "learning_rate": 0.0005764359031267893,
      "loss": 1.7555,
      "step": 11452
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3844127357006073,
      "learning_rate": 0.0005764318424180342,
      "loss": 1.7392,
      "step": 11453
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38545286655426025,
      "learning_rate": 0.0005764277813737315,
      "loss": 1.7744,
      "step": 11454
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38812461495399475,
      "learning_rate": 0.0005764237199938863,
      "loss": 1.8162,
      "step": 11455
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3897984027862549,
      "learning_rate": 0.0005764196582785034,
      "loss": 1.6609,
      "step": 11456
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.368971049785614,
      "learning_rate": 0.0005764155962275879,
      "loss": 1.7125,
      "step": 11457
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39906927943229675,
      "learning_rate": 0.0005764115338411443,
      "loss": 1.7833,
      "step": 11458
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40322166681289673,
      "learning_rate": 0.000576407471119178,
      "loss": 1.7544,
      "step": 11459
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3790610134601593,
      "learning_rate": 0.0005764034080616938,
      "loss": 1.7666,
      "step": 11460
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3831510841846466,
      "learning_rate": 0.0005763993446686965,
      "loss": 1.7665,
      "step": 11461
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3912762701511383,
      "learning_rate": 0.0005763952809401911,
      "loss": 1.7151,
      "step": 11462
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4082344174385071,
      "learning_rate": 0.0005763912168761826,
      "loss": 1.6971,
      "step": 11463
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3915631175041199,
      "learning_rate": 0.000576387152476676,
      "loss": 1.7099,
      "step": 11464
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3836647570133209,
      "learning_rate": 0.000576383087741676,
      "loss": 1.7612,
      "step": 11465
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39228636026382446,
      "learning_rate": 0.0005763790226711876,
      "loss": 1.7466,
      "step": 11466
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3815450966358185,
      "learning_rate": 0.0005763749572652159,
      "loss": 1.771,
      "step": 11467
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3925894498825073,
      "learning_rate": 0.0005763708915237657,
      "loss": 1.8009,
      "step": 11468
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38993462920188904,
      "learning_rate": 0.0005763668254468419,
      "loss": 1.7355,
      "step": 11469
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39005234837532043,
      "learning_rate": 0.0005763627590344495,
      "loss": 1.6792,
      "step": 11470
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3791898787021637,
      "learning_rate": 0.0005763586922865935,
      "loss": 1.7883,
      "step": 11471
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3986358940601349,
      "learning_rate": 0.0005763546252032787,
      "loss": 1.7697,
      "step": 11472
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41355180740356445,
      "learning_rate": 0.0005763505577845101,
      "loss": 1.7655,
      "step": 11473
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6845685243606567,
      "learning_rate": 0.0005763464900302928,
      "loss": 1.8931,
      "step": 11474
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38270723819732666,
      "learning_rate": 0.0005763424219406314,
      "loss": 1.8629,
      "step": 11475
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3953274190425873,
      "learning_rate": 0.0005763383535155311,
      "loss": 1.7356,
      "step": 11476
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3938075602054596,
      "learning_rate": 0.0005763342847549967,
      "loss": 1.7837,
      "step": 11477
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39575502276420593,
      "learning_rate": 0.0005763302156590333,
      "loss": 1.819,
      "step": 11478
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37875285744667053,
      "learning_rate": 0.0005763261462276455,
      "loss": 1.8012,
      "step": 11479
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38334226608276367,
      "learning_rate": 0.0005763220764608387,
      "loss": 1.7544,
      "step": 11480
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3852388858795166,
      "learning_rate": 0.0005763180063586176,
      "loss": 1.7746,
      "step": 11481
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3887072503566742,
      "learning_rate": 0.000576313935920987,
      "loss": 1.8418,
      "step": 11482
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3821448087692261,
      "learning_rate": 0.0005763098651479522,
      "loss": 1.8023,
      "step": 11483
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3813440501689911,
      "learning_rate": 0.0005763057940395178,
      "loss": 1.7613,
      "step": 11484
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3951854109764099,
      "learning_rate": 0.0005763017225956889,
      "loss": 1.7495,
      "step": 11485
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3788149356842041,
      "learning_rate": 0.0005762976508164704,
      "loss": 1.7465,
      "step": 11486
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3804832398891449,
      "learning_rate": 0.0005762935787018673,
      "loss": 1.7373,
      "step": 11487
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3945131301879883,
      "learning_rate": 0.0005762895062518845,
      "loss": 1.7576,
      "step": 11488
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38908565044403076,
      "learning_rate": 0.0005762854334665268,
      "loss": 1.7137,
      "step": 11489
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3992466926574707,
      "learning_rate": 0.0005762813603457995,
      "loss": 1.8089,
      "step": 11490
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3887922465801239,
      "learning_rate": 0.0005762772868897073,
      "loss": 1.7483,
      "step": 11491
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3820997476577759,
      "learning_rate": 0.0005762732130982552,
      "loss": 1.7845,
      "step": 11492
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3951316177845001,
      "learning_rate": 0.0005762691389714481,
      "loss": 1.7653,
      "step": 11493
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4007938802242279,
      "learning_rate": 0.0005762650645092909,
      "loss": 1.766,
      "step": 11494
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39142489433288574,
      "learning_rate": 0.0005762609897117886,
      "loss": 1.7266,
      "step": 11495
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39418497681617737,
      "learning_rate": 0.0005762569145789464,
      "loss": 1.7871,
      "step": 11496
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3873331844806671,
      "learning_rate": 0.0005762528391107687,
      "loss": 1.7687,
      "step": 11497
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3912604749202728,
      "learning_rate": 0.000576248763307261,
      "loss": 1.6614,
      "step": 11498
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3879295587539673,
      "learning_rate": 0.0005762446871684278,
      "loss": 1.7812,
      "step": 11499
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3880316913127899,
      "learning_rate": 0.0005762406106942743,
      "loss": 1.7787,
      "step": 11500
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39332714676856995,
      "learning_rate": 0.0005762365338848055,
      "loss": 1.7354,
      "step": 11501
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39606773853302,
      "learning_rate": 0.0005762324567400262,
      "loss": 1.8244,
      "step": 11502
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38459914922714233,
      "learning_rate": 0.0005762283792599414,
      "loss": 1.7729,
      "step": 11503
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38849079608917236,
      "learning_rate": 0.0005762243014445561,
      "loss": 1.7982,
      "step": 11504
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3918207883834839,
      "learning_rate": 0.0005762202232938752,
      "loss": 1.7093,
      "step": 11505
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3910757899284363,
      "learning_rate": 0.0005762161448079036,
      "loss": 1.7803,
      "step": 11506
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3890877962112427,
      "learning_rate": 0.0005762120659866463,
      "loss": 1.834,
      "step": 11507
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3855556547641754,
      "learning_rate": 0.0005762079868301082,
      "loss": 1.7448,
      "step": 11508
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3784562647342682,
      "learning_rate": 0.0005762039073382943,
      "loss": 1.7313,
      "step": 11509
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3984164297580719,
      "learning_rate": 0.0005761998275112096,
      "loss": 1.7337,
      "step": 11510
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3820762038230896,
      "learning_rate": 0.0005761957473488591,
      "loss": 1.825,
      "step": 11511
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38394230604171753,
      "learning_rate": 0.0005761916668512475,
      "loss": 1.7048,
      "step": 11512
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4044990837574005,
      "learning_rate": 0.00057618758601838,
      "loss": 1.7731,
      "step": 11513
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3854379653930664,
      "learning_rate": 0.0005761835048502614,
      "loss": 1.8669,
      "step": 11514
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3760233521461487,
      "learning_rate": 0.0005761794233468967,
      "loss": 1.7856,
      "step": 11515
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3925238847732544,
      "learning_rate": 0.000576175341508291,
      "loss": 1.7278,
      "step": 11516
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37886691093444824,
      "learning_rate": 0.0005761712593344491,
      "loss": 1.6982,
      "step": 11517
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3945622146129608,
      "learning_rate": 0.0005761671768253759,
      "loss": 1.7935,
      "step": 11518
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3894524872303009,
      "learning_rate": 0.0005761630939810765,
      "loss": 1.7334,
      "step": 11519
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40111568570137024,
      "learning_rate": 0.0005761590108015559,
      "loss": 1.7861,
      "step": 11520
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38247355818748474,
      "learning_rate": 0.0005761549272868187,
      "loss": 1.8285,
      "step": 11521
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4889761805534363,
      "learning_rate": 0.0005761508434368703,
      "loss": 1.7615,
      "step": 11522
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38827481865882874,
      "learning_rate": 0.0005761467592517154,
      "loss": 1.7335,
      "step": 11523
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38050249218940735,
      "learning_rate": 0.000576142674731359,
      "loss": 1.6849,
      "step": 11524
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4053034484386444,
      "learning_rate": 0.0005761385898758061,
      "loss": 1.8152,
      "step": 11525
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3948584794998169,
      "learning_rate": 0.0005761345046850616,
      "loss": 1.7762,
      "step": 11526
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.415638267993927,
      "learning_rate": 0.0005761304191591306,
      "loss": 1.7915,
      "step": 11527
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39121559262275696,
      "learning_rate": 0.0005761263332980179,
      "loss": 1.7007,
      "step": 11528
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3783949613571167,
      "learning_rate": 0.0005761222471017285,
      "loss": 1.7977,
      "step": 11529
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3903331458568573,
      "learning_rate": 0.0005761181605702674,
      "loss": 1.8061,
      "step": 11530
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41154876351356506,
      "learning_rate": 0.0005761140737036395,
      "loss": 1.7149,
      "step": 11531
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5865132212638855,
      "learning_rate": 0.0005761099865018498,
      "loss": 1.7305,
      "step": 11532
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3951667249202728,
      "learning_rate": 0.0005761058989649033,
      "loss": 1.7276,
      "step": 11533
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3870205283164978,
      "learning_rate": 0.0005761018110928049,
      "loss": 1.7103,
      "step": 11534
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3821174204349518,
      "learning_rate": 0.0005760977228855596,
      "loss": 1.6676,
      "step": 11535
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38209161162376404,
      "learning_rate": 0.0005760936343431724,
      "loss": 1.7496,
      "step": 11536
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39543816447257996,
      "learning_rate": 0.0005760895454656481,
      "loss": 1.7438,
      "step": 11537
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.41653409600257874,
      "learning_rate": 0.0005760854562529918,
      "loss": 1.8569,
      "step": 11538
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38724812865257263,
      "learning_rate": 0.0005760813667052085,
      "loss": 1.7077,
      "step": 11539
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39495620131492615,
      "learning_rate": 0.000576077276822303,
      "loss": 1.7905,
      "step": 11540
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.384166419506073,
      "learning_rate": 0.0005760731866042804,
      "loss": 1.8117,
      "step": 11541
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38103345036506653,
      "learning_rate": 0.0005760690960511457,
      "loss": 1.823,
      "step": 11542
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.42341741919517517,
      "learning_rate": 0.0005760650051629037,
      "loss": 1.7364,
      "step": 11543
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3831437826156616,
      "learning_rate": 0.0005760609139395595,
      "loss": 1.7608,
      "step": 11544
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37416017055511475,
      "learning_rate": 0.000576056822381118,
      "loss": 1.7671,
      "step": 11545
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.36464551091194153,
      "learning_rate": 0.0005760527304875842,
      "loss": 1.7336,
      "step": 11546
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3820531666278839,
      "learning_rate": 0.0005760486382589632,
      "loss": 1.7417,
      "step": 11547
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3812722861766815,
      "learning_rate": 0.0005760445456952595,
      "loss": 1.6866,
      "step": 11548
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.371225506067276,
      "learning_rate": 0.0005760404527964787,
      "loss": 1.7723,
      "step": 11549
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3878844380378723,
      "learning_rate": 0.0005760363595626254,
      "loss": 1.7894,
      "step": 11550
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3956456184387207,
      "learning_rate": 0.0005760322659937046,
      "loss": 1.7953,
      "step": 11551
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3891257047653198,
      "learning_rate": 0.0005760281720897213,
      "loss": 1.7485,
      "step": 11552
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3848826289176941,
      "learning_rate": 0.0005760240778506804,
      "loss": 1.7274,
      "step": 11553
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3819868564605713,
      "learning_rate": 0.000576019983276587,
      "loss": 1.6541,
      "step": 11554
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3801576495170593,
      "learning_rate": 0.000576015888367446,
      "loss": 1.7524,
      "step": 11555
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37809938192367554,
      "learning_rate": 0.0005760117931232623,
      "loss": 1.7078,
      "step": 11556
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37678444385528564,
      "learning_rate": 0.0005760076975440412,
      "loss": 1.7439,
      "step": 11557
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37257447838783264,
      "learning_rate": 0.0005760036016297873,
      "loss": 1.7318,
      "step": 11558
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3821064531803131,
      "learning_rate": 0.0005759995053805057,
      "loss": 1.7061,
      "step": 11559
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38270506262779236,
      "learning_rate": 0.0005759954087962011,
      "loss": 1.7856,
      "step": 11560
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3806760311126709,
      "learning_rate": 0.0005759913118768791,
      "loss": 1.6965,
      "step": 11561
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.37992051243782043,
      "learning_rate": 0.0005759872146225442,
      "loss": 1.7217,
      "step": 11562
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3858228623867035,
      "learning_rate": 0.0005759831170332015,
      "loss": 1.7705,
      "step": 11563
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38194069266319275,
      "learning_rate": 0.0005759790191088559,
      "loss": 1.7438,
      "step": 11564
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3851270079612732,
      "learning_rate": 0.0005759749208495123,
      "loss": 1.7015,
      "step": 11565
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39332032203674316,
      "learning_rate": 0.000575970822255176,
      "loss": 1.7466,
      "step": 11566
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.387133926153183,
      "learning_rate": 0.0005759667233258518,
      "loss": 1.7117,
      "step": 11567
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39156076312065125,
      "learning_rate": 0.0005759626240615447,
      "loss": 1.7388,
      "step": 11568
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.38493990898132324,
      "learning_rate": 0.0005759585244622595,
      "loss": 1.8604,
      "step": 11569
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3759183883666992,
      "learning_rate": 0.0005759544245280015,
      "loss": 1.7005,
      "step": 11570
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3809778094291687,
      "learning_rate": 0.0005759503242587753,
      "loss": 1.7646,
      "step": 11571
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39158177375793457,
      "learning_rate": 0.000575946223654586,
      "loss": 1.7526,
      "step": 11572
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3807508051395416,
      "learning_rate": 0.0005759421227154388,
      "loss": 1.7555,
      "step": 11573
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37637123465538025,
      "learning_rate": 0.0005759380214413385,
      "loss": 1.6988,
      "step": 11574
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39589497447013855,
      "learning_rate": 0.0005759339198322901,
      "loss": 1.6604,
      "step": 11575
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40600311756134033,
      "learning_rate": 0.0005759298178882985,
      "loss": 1.7842,
      "step": 11576
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3893650472164154,
      "learning_rate": 0.0005759257156093689,
      "loss": 1.8032,
      "step": 11577
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3916347920894623,
      "learning_rate": 0.000575921612995506,
      "loss": 1.7578,
      "step": 11578
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4355854392051697,
      "learning_rate": 0.000575917510046715,
      "loss": 1.809,
      "step": 11579
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.41546353697776794,
      "learning_rate": 0.0005759134067630007,
      "loss": 1.7903,
      "step": 11580
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3955371379852295,
      "learning_rate": 0.0005759093031443683,
      "loss": 1.7044,
      "step": 11581
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38500940799713135,
      "learning_rate": 0.0005759051991908226,
      "loss": 1.7219,
      "step": 11582
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3949529826641083,
      "learning_rate": 0.0005759010949023686,
      "loss": 1.7908,
      "step": 11583
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37714052200317383,
      "learning_rate": 0.0005758969902790115,
      "loss": 1.6888,
      "step": 11584
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4000817835330963,
      "learning_rate": 0.0005758928853207559,
      "loss": 1.7326,
      "step": 11585
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3900952637195587,
      "learning_rate": 0.000575888780027607,
      "loss": 1.7552,
      "step": 11586
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38046616315841675,
      "learning_rate": 0.0005758846743995699,
      "loss": 1.7155,
      "step": 11587
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37556618452072144,
      "learning_rate": 0.0005758805684366494,
      "loss": 1.7272,
      "step": 11588
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38503968715667725,
      "learning_rate": 0.0005758764621388505,
      "loss": 1.7109,
      "step": 11589
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3968932628631592,
      "learning_rate": 0.0005758723555061783,
      "loss": 1.7454,
      "step": 11590
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3994942605495453,
      "learning_rate": 0.0005758682485386377,
      "loss": 1.7525,
      "step": 11591
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3828457295894623,
      "learning_rate": 0.0005758641412362336,
      "loss": 1.7545,
      "step": 11592
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3977890908718109,
      "learning_rate": 0.0005758600335989711,
      "loss": 1.831,
      "step": 11593
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38716742396354675,
      "learning_rate": 0.0005758559256268552,
      "loss": 1.7828,
      "step": 11594
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3871481418609619,
      "learning_rate": 0.0005758518173198909,
      "loss": 1.6881,
      "step": 11595
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4351724684238434,
      "learning_rate": 0.0005758477086780831,
      "loss": 1.7588,
      "step": 11596
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3826378881931305,
      "learning_rate": 0.0005758435997014368,
      "loss": 1.7449,
      "step": 11597
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3945361375808716,
      "learning_rate": 0.000575839490389957,
      "loss": 1.8302,
      "step": 11598
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37547844648361206,
      "learning_rate": 0.0005758353807436488,
      "loss": 1.7236,
      "step": 11599
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39304691553115845,
      "learning_rate": 0.000575831270762517,
      "loss": 1.7428,
      "step": 11600
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37482792139053345,
      "learning_rate": 0.0005758271604465667,
      "loss": 1.8112,
      "step": 11601
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38843637704849243,
      "learning_rate": 0.0005758230497958028,
      "loss": 1.8039,
      "step": 11602
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38022729754447937,
      "learning_rate": 0.0005758189388102304,
      "loss": 1.7582,
      "step": 11603
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.438809335231781,
      "learning_rate": 0.0005758148274898545,
      "loss": 1.7868,
      "step": 11604
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3906937539577484,
      "learning_rate": 0.0005758107158346801,
      "loss": 1.7407,
      "step": 11605
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3947641849517822,
      "learning_rate": 0.000575806603844712,
      "loss": 1.789,
      "step": 11606
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39798057079315186,
      "learning_rate": 0.0005758024915199554,
      "loss": 1.7635,
      "step": 11607
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4237458407878876,
      "learning_rate": 0.0005757983788604151,
      "loss": 1.735,
      "step": 11608
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39924973249435425,
      "learning_rate": 0.0005757942658660963,
      "loss": 1.7866,
      "step": 11609
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39618614315986633,
      "learning_rate": 0.0005757901525370038,
      "loss": 1.7404,
      "step": 11610
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.43229833245277405,
      "learning_rate": 0.0005757860388731429,
      "loss": 1.7913,
      "step": 11611
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4089413583278656,
      "learning_rate": 0.0005757819248745182,
      "loss": 1.8149,
      "step": 11612
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39693552255630493,
      "learning_rate": 0.0005757778105411349,
      "loss": 1.7078,
      "step": 11613
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4115716516971588,
      "learning_rate": 0.000575773695872998,
      "loss": 1.7757,
      "step": 11614
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4182819426059723,
      "learning_rate": 0.0005757695808701126,
      "loss": 1.7824,
      "step": 11615
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38833531737327576,
      "learning_rate": 0.0005757654655324833,
      "loss": 1.7214,
      "step": 11616
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3937276005744934,
      "learning_rate": 0.0005757613498601155,
      "loss": 1.7387,
      "step": 11617
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4009898900985718,
      "learning_rate": 0.0005757572338530141,
      "loss": 1.7502,
      "step": 11618
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3933548033237457,
      "learning_rate": 0.000575753117511184,
      "loss": 1.821,
      "step": 11619
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3772737383842468,
      "learning_rate": 0.0005757490008346303,
      "loss": 1.7176,
      "step": 11620
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.402128666639328,
      "learning_rate": 0.0005757448838233578,
      "loss": 1.7471,
      "step": 11621
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3808663785457611,
      "learning_rate": 0.0005757407664773716,
      "loss": 1.7669,
      "step": 11622
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.388911634683609,
      "learning_rate": 0.000575736648796677,
      "loss": 1.7203,
      "step": 11623
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3758966326713562,
      "learning_rate": 0.0005757325307812785,
      "loss": 1.7001,
      "step": 11624
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3929634392261505,
      "learning_rate": 0.0005757284124311815,
      "loss": 1.7441,
      "step": 11625
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39976218342781067,
      "learning_rate": 0.0005757242937463907,
      "loss": 1.7794,
      "step": 11626
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39287257194519043,
      "learning_rate": 0.0005757201747269113,
      "loss": 1.7587,
      "step": 11627
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3850755989551544,
      "learning_rate": 0.0005757160553727483,
      "loss": 1.7782,
      "step": 11628
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39063915610313416,
      "learning_rate": 0.0005757119356839066,
      "loss": 1.6909,
      "step": 11629
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3994915783405304,
      "learning_rate": 0.0005757078156603911,
      "loss": 1.7933,
      "step": 11630
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3905317187309265,
      "learning_rate": 0.0005757036953022071,
      "loss": 1.7609,
      "step": 11631
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39612436294555664,
      "learning_rate": 0.0005756995746093593,
      "loss": 1.7675,
      "step": 11632
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3851965367794037,
      "learning_rate": 0.0005756954535818529,
      "loss": 1.7833,
      "step": 11633
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38838258385658264,
      "learning_rate": 0.0005756913322196929,
      "loss": 1.7179,
      "step": 11634
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3914881944656372,
      "learning_rate": 0.0005756872105228842,
      "loss": 1.7864,
      "step": 11635
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38919639587402344,
      "learning_rate": 0.0005756830884914319,
      "loss": 1.7992,
      "step": 11636
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3888462483882904,
      "learning_rate": 0.0005756789661253408,
      "loss": 1.6487,
      "step": 11637
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3917537331581116,
      "learning_rate": 0.0005756748434246161,
      "loss": 1.7807,
      "step": 11638
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3908851146697998,
      "learning_rate": 0.0005756707203892628,
      "loss": 1.7972,
      "step": 11639
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39365264773368835,
      "learning_rate": 0.000575666597019286,
      "loss": 1.8458,
      "step": 11640
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3937698006629944,
      "learning_rate": 0.0005756624733146904,
      "loss": 1.8108,
      "step": 11641
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38941720128059387,
      "learning_rate": 0.0005756583492754812,
      "loss": 1.7764,
      "step": 11642
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.458027184009552,
      "learning_rate": 0.0005756542249016634,
      "loss": 1.7432,
      "step": 11643
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3818444311618805,
      "learning_rate": 0.000575650100193242,
      "loss": 1.7356,
      "step": 11644
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3879804313182831,
      "learning_rate": 0.0005756459751502219,
      "loss": 1.6926,
      "step": 11645
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3906062841415405,
      "learning_rate": 0.0005756418497726083,
      "loss": 1.7676,
      "step": 11646
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4076932370662689,
      "learning_rate": 0.0005756377240604061,
      "loss": 1.7415,
      "step": 11647
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38871774077415466,
      "learning_rate": 0.0005756335980136203,
      "loss": 1.7219,
      "step": 11648
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38147345185279846,
      "learning_rate": 0.0005756294716322558,
      "loss": 1.8368,
      "step": 11649
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4015413820743561,
      "learning_rate": 0.0005756253449163179,
      "loss": 1.8133,
      "step": 11650
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4008685052394867,
      "learning_rate": 0.0005756212178658114,
      "loss": 1.7363,
      "step": 11651
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3739646375179291,
      "learning_rate": 0.0005756170904807413,
      "loss": 1.7561,
      "step": 11652
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40543562173843384,
      "learning_rate": 0.0005756129627611128,
      "loss": 1.7822,
      "step": 11653
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38504067063331604,
      "learning_rate": 0.0005756088347069307,
      "loss": 1.7878,
      "step": 11654
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4071536064147949,
      "learning_rate": 0.0005756047063182001,
      "loss": 1.8093,
      "step": 11655
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3914046883583069,
      "learning_rate": 0.0005756005775949259,
      "loss": 1.7762,
      "step": 11656
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37546390295028687,
      "learning_rate": 0.0005755964485371133,
      "loss": 1.6759,
      "step": 11657
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39857956767082214,
      "learning_rate": 0.0005755923191447672,
      "loss": 1.7162,
      "step": 11658
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3857535123825073,
      "learning_rate": 0.0005755881894178926,
      "loss": 1.8464,
      "step": 11659
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38162678480148315,
      "learning_rate": 0.0005755840593564946,
      "loss": 1.7273,
      "step": 11660
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3852923512458801,
      "learning_rate": 0.0005755799289605781,
      "loss": 1.7416,
      "step": 11661
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4003864824771881,
      "learning_rate": 0.0005755757982301481,
      "loss": 1.8225,
      "step": 11662
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3786897361278534,
      "learning_rate": 0.0005755716671652099,
      "loss": 1.6746,
      "step": 11663
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3813335597515106,
      "learning_rate": 0.0005755675357657681,
      "loss": 1.7525,
      "step": 11664
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4084897041320801,
      "learning_rate": 0.000575563404031828,
      "loss": 1.7751,
      "step": 11665
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3880102038383484,
      "learning_rate": 0.0005755592719633945,
      "loss": 1.8325,
      "step": 11666
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38270530104637146,
      "learning_rate": 0.0005755551395604727,
      "loss": 1.7402,
      "step": 11667
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3865608274936676,
      "learning_rate": 0.0005755510068230676,
      "loss": 1.8178,
      "step": 11668
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3807278573513031,
      "learning_rate": 0.0005755468737511841,
      "loss": 1.6935,
      "step": 11669
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38095757365226746,
      "learning_rate": 0.0005755427403448273,
      "loss": 1.759,
      "step": 11670
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39535385370254517,
      "learning_rate": 0.0005755386066040022,
      "loss": 1.6992,
      "step": 11671
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38285326957702637,
      "learning_rate": 0.0005755344725287138,
      "loss": 1.7508,
      "step": 11672
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3806178867816925,
      "learning_rate": 0.0005755303381189672,
      "loss": 1.6817,
      "step": 11673
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4015978276729584,
      "learning_rate": 0.0005755262033747674,
      "loss": 1.785,
      "step": 11674
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40357738733291626,
      "learning_rate": 0.0005755220682961193,
      "loss": 1.7192,
      "step": 11675
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38678547739982605,
      "learning_rate": 0.0005755179328830281,
      "loss": 1.7946,
      "step": 11676
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39263245463371277,
      "learning_rate": 0.0005755137971354986,
      "loss": 1.7674,
      "step": 11677
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37338659167289734,
      "learning_rate": 0.0005755096610535361,
      "loss": 1.8044,
      "step": 11678
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38311275839805603,
      "learning_rate": 0.0005755055246371454,
      "loss": 1.7281,
      "step": 11679
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39127159118652344,
      "learning_rate": 0.0005755013878863315,
      "loss": 1.7448,
      "step": 11680
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38085079193115234,
      "learning_rate": 0.0005754972508010996,
      "loss": 1.6956,
      "step": 11681
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3936573266983032,
      "learning_rate": 0.0005754931133814547,
      "loss": 1.8069,
      "step": 11682
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38512948155403137,
      "learning_rate": 0.0005754889756274015,
      "loss": 1.6882,
      "step": 11683
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3813319504261017,
      "learning_rate": 0.0005754848375389456,
      "loss": 1.8145,
      "step": 11684
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3831489384174347,
      "learning_rate": 0.0005754806991160915,
      "loss": 1.6955,
      "step": 11685
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3812929093837738,
      "learning_rate": 0.0005754765603588445,
      "loss": 1.7179,
      "step": 11686
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3741258382797241,
      "learning_rate": 0.0005754724212672094,
      "loss": 1.7576,
      "step": 11687
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3826117515563965,
      "learning_rate": 0.0005754682818411915,
      "loss": 1.7434,
      "step": 11688
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38380831480026245,
      "learning_rate": 0.0005754641420807957,
      "loss": 1.727,
      "step": 11689
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.384964257478714,
      "learning_rate": 0.000575460001986027,
      "loss": 1.7709,
      "step": 11690
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3802865743637085,
      "learning_rate": 0.0005754558615568905,
      "loss": 1.7934,
      "step": 11691
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38413625955581665,
      "learning_rate": 0.0005754517207933911,
      "loss": 1.7327,
      "step": 11692
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3745303153991699,
      "learning_rate": 0.0005754475796955339,
      "loss": 1.6649,
      "step": 11693
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37630051374435425,
      "learning_rate": 0.0005754434382633239,
      "loss": 1.6879,
      "step": 11694
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3762193024158478,
      "learning_rate": 0.0005754392964967661,
      "loss": 1.7081,
      "step": 11695
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3832552433013916,
      "learning_rate": 0.0005754351543958657,
      "loss": 1.7182,
      "step": 11696
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38085436820983887,
      "learning_rate": 0.0005754310119606275,
      "loss": 1.7378,
      "step": 11697
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37776249647140503,
      "learning_rate": 0.0005754268691910568,
      "loss": 1.7804,
      "step": 11698
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3831937909126282,
      "learning_rate": 0.0005754227260871583,
      "loss": 1.7598,
      "step": 11699
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39759454131126404,
      "learning_rate": 0.0005754185826489372,
      "loss": 1.8427,
      "step": 11700
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38376906514167786,
      "learning_rate": 0.0005754144388763987,
      "loss": 1.6841,
      "step": 11701
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3911755681037903,
      "learning_rate": 0.0005754102947695475,
      "loss": 1.7681,
      "step": 11702
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38764485716819763,
      "learning_rate": 0.0005754061503283887,
      "loss": 1.7966,
      "step": 11703
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3803279399871826,
      "learning_rate": 0.0005754020055529276,
      "loss": 1.7292,
      "step": 11704
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3866104185581207,
      "learning_rate": 0.0005753978604431689,
      "loss": 1.7508,
      "step": 11705
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3907213807106018,
      "learning_rate": 0.0005753937149991179,
      "loss": 1.6763,
      "step": 11706
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3853136897087097,
      "learning_rate": 0.0005753895692207794,
      "loss": 1.7824,
      "step": 11707
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37184128165245056,
      "learning_rate": 0.0005753854231081586,
      "loss": 1.757,
      "step": 11708
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3953152596950531,
      "learning_rate": 0.0005753812766612604,
      "loss": 1.7304,
      "step": 11709
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4105144143104553,
      "learning_rate": 0.00057537712988009,
      "loss": 1.7726,
      "step": 11710
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3944452106952667,
      "learning_rate": 0.0005753729827646523,
      "loss": 1.7367,
      "step": 11711
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39089804887771606,
      "learning_rate": 0.0005753688353149524,
      "loss": 1.789,
      "step": 11712
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37611448764801025,
      "learning_rate": 0.0005753646875309952,
      "loss": 1.7325,
      "step": 11713
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4002286493778229,
      "learning_rate": 0.000575360539412786,
      "loss": 1.8067,
      "step": 11714
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3909379541873932,
      "learning_rate": 0.0005753563909603296,
      "loss": 1.7564,
      "step": 11715
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3942050635814667,
      "learning_rate": 0.0005753522421736311,
      "loss": 1.7787,
      "step": 11716
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3972856402397156,
      "learning_rate": 0.0005753480930526956,
      "loss": 1.734,
      "step": 11717
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39126527309417725,
      "learning_rate": 0.000575343943597528,
      "loss": 1.7981,
      "step": 11718
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39073488116264343,
      "learning_rate": 0.0005753397938081335,
      "loss": 1.7914,
      "step": 11719
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3911563456058502,
      "learning_rate": 0.000575335643684517,
      "loss": 1.7593,
      "step": 11720
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3970470428466797,
      "learning_rate": 0.0005753314932266837,
      "loss": 1.7695,
      "step": 11721
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4351044297218323,
      "learning_rate": 0.0005753273424346384,
      "loss": 1.825,
      "step": 11722
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3950347304344177,
      "learning_rate": 0.0005753231913083863,
      "loss": 1.8032,
      "step": 11723
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4002196788787842,
      "learning_rate": 0.0005753190398479326,
      "loss": 1.8143,
      "step": 11724
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3883001506328583,
      "learning_rate": 0.0005753148880532819,
      "loss": 1.8036,
      "step": 11725
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39965569972991943,
      "learning_rate": 0.0005753107359244395,
      "loss": 1.7415,
      "step": 11726
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38668328523635864,
      "learning_rate": 0.0005753065834614107,
      "loss": 1.7829,
      "step": 11727
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3867879807949066,
      "learning_rate": 0.0005753024306642,
      "loss": 1.7172,
      "step": 11728
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3815067410469055,
      "learning_rate": 0.0005752982775328128,
      "loss": 1.7272,
      "step": 11729
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39354878664016724,
      "learning_rate": 0.0005752941240672541,
      "loss": 1.7788,
      "step": 11730
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38222458958625793,
      "learning_rate": 0.000575289970267529,
      "loss": 1.7892,
      "step": 11731
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3953014016151428,
      "learning_rate": 0.0005752858161336421,
      "loss": 1.8013,
      "step": 11732
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3945290148258209,
      "learning_rate": 0.0005752816616655991,
      "loss": 1.8301,
      "step": 11733
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3746493458747864,
      "learning_rate": 0.0005752775068634046,
      "loss": 1.7396,
      "step": 11734
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3855244219303131,
      "learning_rate": 0.0005752733517270638,
      "loss": 1.6997,
      "step": 11735
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3896903395652771,
      "learning_rate": 0.0005752691962565816,
      "loss": 1.7191,
      "step": 11736
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3870830237865448,
      "learning_rate": 0.0005752650404519633,
      "loss": 1.7512,
      "step": 11737
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3938583731651306,
      "learning_rate": 0.0005752608843132138,
      "loss": 1.7227,
      "step": 11738
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3938055634498596,
      "learning_rate": 0.000575256727840338,
      "loss": 1.7316,
      "step": 11739
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.36969056725502014,
      "learning_rate": 0.0005752525710333412,
      "loss": 1.7014,
      "step": 11740
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38940244913101196,
      "learning_rate": 0.0005752484138922283,
      "loss": 1.7847,
      "step": 11741
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38748225569725037,
      "learning_rate": 0.0005752442564170043,
      "loss": 1.7725,
      "step": 11742
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39687663316726685,
      "learning_rate": 0.0005752400986076744,
      "loss": 1.73,
      "step": 11743
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3806339502334595,
      "learning_rate": 0.0005752359404642437,
      "loss": 1.7476,
      "step": 11744
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37865912914276123,
      "learning_rate": 0.000575231781986717,
      "loss": 1.7777,
      "step": 11745
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38036632537841797,
      "learning_rate": 0.0005752276231750994,
      "loss": 1.7042,
      "step": 11746
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3781529366970062,
      "learning_rate": 0.0005752234640293961,
      "loss": 1.7429,
      "step": 11747
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39176657795906067,
      "learning_rate": 0.0005752193045496122,
      "loss": 1.7769,
      "step": 11748
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4015217125415802,
      "learning_rate": 0.0005752151447357525,
      "loss": 1.7786,
      "step": 11749
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3868129849433899,
      "learning_rate": 0.000575210984587822,
      "loss": 1.8354,
      "step": 11750
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4050508141517639,
      "learning_rate": 0.0005752068241058262,
      "loss": 1.7661,
      "step": 11751
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38976192474365234,
      "learning_rate": 0.0005752026632897697,
      "loss": 1.7056,
      "step": 11752
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39084774255752563,
      "learning_rate": 0.0005751985021396577,
      "loss": 1.7213,
      "step": 11753
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38402795791625977,
      "learning_rate": 0.0005751943406554954,
      "loss": 1.7677,
      "step": 11754
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3925132751464844,
      "learning_rate": 0.0005751901788372876,
      "loss": 1.6697,
      "step": 11755
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40993809700012207,
      "learning_rate": 0.0005751860166850394,
      "loss": 1.7875,
      "step": 11756
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3699532449245453,
      "learning_rate": 0.0005751818541987561,
      "loss": 1.6773,
      "step": 11757
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39875030517578125,
      "learning_rate": 0.0005751776913784425,
      "loss": 1.8054,
      "step": 11758
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3981558382511139,
      "learning_rate": 0.0005751735282241037,
      "loss": 1.7549,
      "step": 11759
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38463959097862244,
      "learning_rate": 0.0005751693647357448,
      "loss": 1.7358,
      "step": 11760
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37540361285209656,
      "learning_rate": 0.0005751652009133709,
      "loss": 1.6984,
      "step": 11761
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.419767290353775,
      "learning_rate": 0.0005751610367569869,
      "loss": 1.7208,
      "step": 11762
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4107217490673065,
      "learning_rate": 0.000575156872266598,
      "loss": 1.8016,
      "step": 11763
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3805752098560333,
      "learning_rate": 0.0005751527074422092,
      "loss": 1.7791,
      "step": 11764
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3965306878089905,
      "learning_rate": 0.0005751485422838255,
      "loss": 1.7089,
      "step": 11765
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4213210940361023,
      "learning_rate": 0.000575144376791452,
      "loss": 1.7326,
      "step": 11766
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4020349383354187,
      "learning_rate": 0.0005751402109650938,
      "loss": 1.7876,
      "step": 11767
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39016592502593994,
      "learning_rate": 0.000575136044804756,
      "loss": 1.7562,
      "step": 11768
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4063088893890381,
      "learning_rate": 0.0005751318783104436,
      "loss": 1.7402,
      "step": 11769
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4037920832633972,
      "learning_rate": 0.0005751277114821614,
      "loss": 1.7714,
      "step": 11770
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.383940726518631,
      "learning_rate": 0.000575123544319915,
      "loss": 1.8071,
      "step": 11771
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3882558047771454,
      "learning_rate": 0.000575119376823709,
      "loss": 1.7482,
      "step": 11772
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39697936177253723,
      "learning_rate": 0.0005751152089935486,
      "loss": 1.7559,
      "step": 11773
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3933701813220978,
      "learning_rate": 0.0005751110408294389,
      "loss": 1.792,
      "step": 11774
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3952978253364563,
      "learning_rate": 0.0005751068723313849,
      "loss": 1.8034,
      "step": 11775
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3880772888660431,
      "learning_rate": 0.0005751027034993916,
      "loss": 1.739,
      "step": 11776
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4005340039730072,
      "learning_rate": 0.0005750985343334643,
      "loss": 1.8175,
      "step": 11777
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3750060498714447,
      "learning_rate": 0.0005750943648336079,
      "loss": 1.747,
      "step": 11778
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37466102838516235,
      "learning_rate": 0.0005750901949998275,
      "loss": 1.7629,
      "step": 11779
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4078769385814667,
      "learning_rate": 0.000575086024832128,
      "loss": 1.7171,
      "step": 11780
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.42530688643455505,
      "learning_rate": 0.0005750818543305147,
      "loss": 1.7919,
      "step": 11781
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3847178518772125,
      "learning_rate": 0.0005750776834949926,
      "loss": 1.749,
      "step": 11782
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3858743906021118,
      "learning_rate": 0.0005750735123255667,
      "loss": 1.818,
      "step": 11783
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4197688400745392,
      "learning_rate": 0.0005750693408222421,
      "loss": 1.7854,
      "step": 11784
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40743234753608704,
      "learning_rate": 0.0005750651689850238,
      "loss": 1.7263,
      "step": 11785
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3927065432071686,
      "learning_rate": 0.000575060996813917,
      "loss": 1.7523,
      "step": 11786
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4042337238788605,
      "learning_rate": 0.0005750568243089265,
      "loss": 1.7346,
      "step": 11787
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40813198685646057,
      "learning_rate": 0.0005750526514700576,
      "loss": 1.7442,
      "step": 11788
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3982899785041809,
      "learning_rate": 0.0005750484782973154,
      "loss": 1.666,
      "step": 11789
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40104299783706665,
      "learning_rate": 0.0005750443047907048,
      "loss": 1.8123,
      "step": 11790
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4214321970939636,
      "learning_rate": 0.000575040130950231,
      "loss": 1.703,
      "step": 11791
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.41233935952186584,
      "learning_rate": 0.000575035956775899,
      "loss": 1.8015,
      "step": 11792
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3960738182067871,
      "learning_rate": 0.0005750317822677138,
      "loss": 1.6973,
      "step": 11793
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4129103422164917,
      "learning_rate": 0.0005750276074256806,
      "loss": 1.7566,
      "step": 11794
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40053099393844604,
      "learning_rate": 0.0005750234322498044,
      "loss": 1.7824,
      "step": 11795
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3894769549369812,
      "learning_rate": 0.0005750192567400903,
      "loss": 1.7524,
      "step": 11796
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3903177082538605,
      "learning_rate": 0.0005750150808965433,
      "loss": 1.7322,
      "step": 11797
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37851548194885254,
      "learning_rate": 0.0005750109047191684,
      "loss": 1.7068,
      "step": 11798
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40736597776412964,
      "learning_rate": 0.000575006728207971,
      "loss": 1.7975,
      "step": 11799
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3877119719982147,
      "learning_rate": 0.0005750025513629559,
      "loss": 1.7174,
      "step": 11800
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3814602494239807,
      "learning_rate": 0.0005749983741841281,
      "loss": 1.7401,
      "step": 11801
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39012375473976135,
      "learning_rate": 0.000574994196671493,
      "loss": 1.7682,
      "step": 11802
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40258607268333435,
      "learning_rate": 0.0005749900188250552,
      "loss": 1.6953,
      "step": 11803
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37711912393569946,
      "learning_rate": 0.0005749858406448202,
      "loss": 1.7456,
      "step": 11804
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37867578864097595,
      "learning_rate": 0.0005749816621307929,
      "loss": 1.7351,
      "step": 11805
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3954073190689087,
      "learning_rate": 0.0005749774832829784,
      "loss": 1.7015,
      "step": 11806
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4082780182361603,
      "learning_rate": 0.0005749733041013817,
      "loss": 1.7967,
      "step": 11807
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3903476595878601,
      "learning_rate": 0.0005749691245860079,
      "loss": 1.8021,
      "step": 11808
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3740249574184418,
      "learning_rate": 0.0005749649447368622,
      "loss": 1.7958,
      "step": 11809
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39961400628089905,
      "learning_rate": 0.0005749607645539496,
      "loss": 1.7437,
      "step": 11810
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38877445459365845,
      "learning_rate": 0.000574956584037275,
      "loss": 1.6857,
      "step": 11811
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4012185335159302,
      "learning_rate": 0.0005749524031868436,
      "loss": 1.8022,
      "step": 11812
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3829309344291687,
      "learning_rate": 0.0005749482220026607,
      "loss": 1.7406,
      "step": 11813
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3893376588821411,
      "learning_rate": 0.0005749440404847309,
      "loss": 1.8054,
      "step": 11814
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3756512701511383,
      "learning_rate": 0.0005749398586330597,
      "loss": 1.7152,
      "step": 11815
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38120514154434204,
      "learning_rate": 0.0005749356764476521,
      "loss": 1.7521,
      "step": 11816
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3971502482891083,
      "learning_rate": 0.0005749314939285129,
      "loss": 1.7946,
      "step": 11817
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.389252632856369,
      "learning_rate": 0.0005749273110756475,
      "loss": 1.7346,
      "step": 11818
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3871934413909912,
      "learning_rate": 0.0005749231278890609,
      "loss": 1.7891,
      "step": 11819
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3805766999721527,
      "learning_rate": 0.000574918944368758,
      "loss": 1.7329,
      "step": 11820
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38577356934547424,
      "learning_rate": 0.0005749147605147441,
      "loss": 1.7849,
      "step": 11821
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37702426314353943,
      "learning_rate": 0.0005749105763270241,
      "loss": 1.7105,
      "step": 11822
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3798057734966278,
      "learning_rate": 0.0005749063918056033,
      "loss": 1.8067,
      "step": 11823
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38463282585144043,
      "learning_rate": 0.0005749022069504866,
      "loss": 1.7592,
      "step": 11824
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3919079601764679,
      "learning_rate": 0.0005748980217616791,
      "loss": 1.8083,
      "step": 11825
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.377199649810791,
      "learning_rate": 0.0005748938362391858,
      "loss": 1.7776,
      "step": 11826
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3763929307460785,
      "learning_rate": 0.000574889650383012,
      "loss": 1.8246,
      "step": 11827
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38595572113990784,
      "learning_rate": 0.0005748854641931627,
      "loss": 1.7389,
      "step": 11828
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3793518841266632,
      "learning_rate": 0.0005748812776696429,
      "loss": 1.7835,
      "step": 11829
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3845013380050659,
      "learning_rate": 0.0005748770908124577,
      "loss": 1.7722,
      "step": 11830
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3818100094795227,
      "learning_rate": 0.0005748729036216122,
      "loss": 1.7805,
      "step": 11831
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3856368958950043,
      "learning_rate": 0.0005748687160971116,
      "loss": 1.7255,
      "step": 11832
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3769443929195404,
      "learning_rate": 0.0005748645282389608,
      "loss": 1.7498,
      "step": 11833
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38999703526496887,
      "learning_rate": 0.000574860340047165,
      "loss": 1.7302,
      "step": 11834
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3784395456314087,
      "learning_rate": 0.0005748561515217293,
      "loss": 1.7538,
      "step": 11835
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.391730397939682,
      "learning_rate": 0.0005748519626626586,
      "loss": 1.76,
      "step": 11836
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3937883973121643,
      "learning_rate": 0.0005748477734699582,
      "loss": 1.7782,
      "step": 11837
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3798145055770874,
      "learning_rate": 0.0005748435839436332,
      "loss": 1.7284,
      "step": 11838
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3816545903682709,
      "learning_rate": 0.0005748393940836884,
      "loss": 1.7299,
      "step": 11839
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.41015660762786865,
      "learning_rate": 0.0005748352038901291,
      "loss": 1.7575,
      "step": 11840
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.43174806237220764,
      "learning_rate": 0.0005748310133629603,
      "loss": 1.7569,
      "step": 11841
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37508833408355713,
      "learning_rate": 0.0005748268225021873,
      "loss": 1.7834,
      "step": 11842
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3897441327571869,
      "learning_rate": 0.000574822631307815,
      "loss": 1.7289,
      "step": 11843
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39275306463241577,
      "learning_rate": 0.0005748184397798484,
      "loss": 1.8029,
      "step": 11844
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37684017419815063,
      "learning_rate": 0.0005748142479182929,
      "loss": 1.6926,
      "step": 11845
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.379092812538147,
      "learning_rate": 0.0005748100557231532,
      "loss": 1.7462,
      "step": 11846
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37651216983795166,
      "learning_rate": 0.0005748058631944347,
      "loss": 1.7359,
      "step": 11847
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3778740465641022,
      "learning_rate": 0.0005748016703321424,
      "loss": 1.7425,
      "step": 11848
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3899322748184204,
      "learning_rate": 0.0005747974771362813,
      "loss": 1.7449,
      "step": 11849
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3867632746696472,
      "learning_rate": 0.0005747932836068565,
      "loss": 1.7936,
      "step": 11850
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.39815929532051086,
      "learning_rate": 0.0005747890897438733,
      "loss": 1.7426,
      "step": 11851
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3981376588344574,
      "learning_rate": 0.0005747848955473364,
      "loss": 1.7623,
      "step": 11852
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3828330636024475,
      "learning_rate": 0.0005747807010172513,
      "loss": 1.7767,
      "step": 11853
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.41615772247314453,
      "learning_rate": 0.000574776506153623,
      "loss": 1.8378,
      "step": 11854
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38865748047828674,
      "learning_rate": 0.0005747723109564563,
      "loss": 1.7613,
      "step": 11855
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3746812641620636,
      "learning_rate": 0.0005747681154257565,
      "loss": 1.7622,
      "step": 11856
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.40595361590385437,
      "learning_rate": 0.0005747639195615289,
      "loss": 1.7082,
      "step": 11857
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.376449853181839,
      "learning_rate": 0.0005747597233637782,
      "loss": 1.8003,
      "step": 11858
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38280293345451355,
      "learning_rate": 0.0005747555268325098,
      "loss": 1.7338,
      "step": 11859
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4437316358089447,
      "learning_rate": 0.0005747513299677286,
      "loss": 1.8154,
      "step": 11860
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37365520000457764,
      "learning_rate": 0.0005747471327694398,
      "loss": 1.7785,
      "step": 11861
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3918581008911133,
      "learning_rate": 0.0005747429352376484,
      "loss": 1.7856,
      "step": 11862
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3833603262901306,
      "learning_rate": 0.0005747387373723597,
      "loss": 1.7396,
      "step": 11863
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3853371739387512,
      "learning_rate": 0.0005747345391735784,
      "loss": 1.8131,
      "step": 11864
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37930822372436523,
      "learning_rate": 0.00057473034064131,
      "loss": 1.786,
      "step": 11865
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37075358629226685,
      "learning_rate": 0.0005747261417755595,
      "loss": 1.733,
      "step": 11866
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38207340240478516,
      "learning_rate": 0.0005747219425763319,
      "loss": 1.798,
      "step": 11867
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38833972811698914,
      "learning_rate": 0.0005747177430436324,
      "loss": 1.7365,
      "step": 11868
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3855067193508148,
      "learning_rate": 0.0005747135431774659,
      "loss": 1.6493,
      "step": 11869
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3917226493358612,
      "learning_rate": 0.0005747093429778377,
      "loss": 1.7922,
      "step": 11870
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.37054917216300964,
      "learning_rate": 0.0005747051424447529,
      "loss": 1.7364,
      "step": 11871
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38894134759902954,
      "learning_rate": 0.0005747009415782165,
      "loss": 1.7176,
      "step": 11872
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4069933295249939,
      "learning_rate": 0.0005746967403782335,
      "loss": 1.7826,
      "step": 11873
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4128876030445099,
      "learning_rate": 0.0005746925388448093,
      "loss": 1.7355,
      "step": 11874
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.405606746673584,
      "learning_rate": 0.0005746883369779488,
      "loss": 1.7724,
      "step": 11875
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39370477199554443,
      "learning_rate": 0.0005746841347776571,
      "loss": 1.7855,
      "step": 11876
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3855753540992737,
      "learning_rate": 0.0005746799322439393,
      "loss": 1.7631,
      "step": 11877
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3795311450958252,
      "learning_rate": 0.0005746757293768006,
      "loss": 1.8016,
      "step": 11878
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3895840644836426,
      "learning_rate": 0.000574671526176246,
      "loss": 1.7896,
      "step": 11879
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3937709331512451,
      "learning_rate": 0.0005746673226422807,
      "loss": 1.8049,
      "step": 11880
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3902248740196228,
      "learning_rate": 0.0005746631187749097,
      "loss": 1.7591,
      "step": 11881
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38676729798316956,
      "learning_rate": 0.0005746589145741381,
      "loss": 1.8551,
      "step": 11882
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39604103565216064,
      "learning_rate": 0.0005746547100399711,
      "loss": 1.6966,
      "step": 11883
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3941158056259155,
      "learning_rate": 0.0005746505051724138,
      "loss": 1.8135,
      "step": 11884
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.42768362164497375,
      "learning_rate": 0.0005746462999714711,
      "loss": 1.7525,
      "step": 11885
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3910852074623108,
      "learning_rate": 0.0005746420944371483,
      "loss": 1.666,
      "step": 11886
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3819238841533661,
      "learning_rate": 0.0005746378885694506,
      "loss": 1.7255,
      "step": 11887
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39292848110198975,
      "learning_rate": 0.0005746336823683828,
      "loss": 1.8113,
      "step": 11888
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39127930998802185,
      "learning_rate": 0.0005746294758339503,
      "loss": 1.7274,
      "step": 11889
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39753738045692444,
      "learning_rate": 0.000574625268966158,
      "loss": 1.7795,
      "step": 11890
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3956871032714844,
      "learning_rate": 0.0005746210617650112,
      "loss": 1.7184,
      "step": 11891
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4086599349975586,
      "learning_rate": 0.0005746168542305148,
      "loss": 1.748,
      "step": 11892
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3870849907398224,
      "learning_rate": 0.000574612646362674,
      "loss": 1.7612,
      "step": 11893
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38614422082901,
      "learning_rate": 0.0005746084381614938,
      "loss": 1.7967,
      "step": 11894
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3901691734790802,
      "learning_rate": 0.0005746042296269797,
      "loss": 1.8305,
      "step": 11895
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3959278166294098,
      "learning_rate": 0.0005746000207591364,
      "loss": 1.7586,
      "step": 11896
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3787807524204254,
      "learning_rate": 0.0005745958115579691,
      "loss": 1.7775,
      "step": 11897
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38969287276268005,
      "learning_rate": 0.0005745916020234829,
      "loss": 1.7156,
      "step": 11898
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4010022282600403,
      "learning_rate": 0.000574587392155683,
      "loss": 1.7514,
      "step": 11899
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3842668831348419,
      "learning_rate": 0.0005745831819545745,
      "loss": 1.7199,
      "step": 11900
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38512253761291504,
      "learning_rate": 0.0005745789714201624,
      "loss": 1.745,
      "step": 11901
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38431933522224426,
      "learning_rate": 0.000574574760552452,
      "loss": 1.7841,
      "step": 11902
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37576308846473694,
      "learning_rate": 0.0005745705493514482,
      "loss": 1.7891,
      "step": 11903
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37467336654663086,
      "learning_rate": 0.0005745663378171563,
      "loss": 1.7626,
      "step": 11904
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39097025990486145,
      "learning_rate": 0.0005745621259495811,
      "loss": 1.763,
      "step": 11905
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38456103205680847,
      "learning_rate": 0.0005745579137487281,
      "loss": 1.8209,
      "step": 11906
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3861662447452545,
      "learning_rate": 0.0005745537012146023,
      "loss": 1.7911,
      "step": 11907
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3859247863292694,
      "learning_rate": 0.0005745494883472086,
      "loss": 1.7518,
      "step": 11908
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38928693532943726,
      "learning_rate": 0.0005745452751465524,
      "loss": 1.6913,
      "step": 11909
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3788198232650757,
      "learning_rate": 0.0005745410616126387,
      "loss": 1.7399,
      "step": 11910
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3884721100330353,
      "learning_rate": 0.0005745368477454725,
      "loss": 1.7218,
      "step": 11911
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38338807225227356,
      "learning_rate": 0.0005745326335450592,
      "loss": 1.7689,
      "step": 11912
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3896056115627289,
      "learning_rate": 0.0005745284190114036,
      "loss": 1.7736,
      "step": 11913
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3852953612804413,
      "learning_rate": 0.0005745242041445111,
      "loss": 1.6821,
      "step": 11914
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38151124119758606,
      "learning_rate": 0.0005745199889443863,
      "loss": 1.7439,
      "step": 11915
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3781607151031494,
      "learning_rate": 0.000574515773411035,
      "loss": 1.7906,
      "step": 11916
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3844844102859497,
      "learning_rate": 0.000574511557544462,
      "loss": 1.7688,
      "step": 11917
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3851761817932129,
      "learning_rate": 0.0005745073413446723,
      "loss": 1.8107,
      "step": 11918
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3873603343963623,
      "learning_rate": 0.0005745031248116711,
      "loss": 1.7681,
      "step": 11919
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3850114941596985,
      "learning_rate": 0.0005744989079454636,
      "loss": 1.712,
      "step": 11920
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3965334892272949,
      "learning_rate": 0.0005744946907460549,
      "loss": 1.773,
      "step": 11921
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3830301761627197,
      "learning_rate": 0.0005744904732134501,
      "loss": 1.6687,
      "step": 11922
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3704856336116791,
      "learning_rate": 0.0005744862553476543,
      "loss": 1.6996,
      "step": 11923
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.41299018263816833,
      "learning_rate": 0.0005744820371486726,
      "loss": 1.7756,
      "step": 11924
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3947583734989166,
      "learning_rate": 0.0005744778186165101,
      "loss": 1.7242,
      "step": 11925
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4032643437385559,
      "learning_rate": 0.0005744735997511722,
      "loss": 1.8464,
      "step": 11926
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39197731018066406,
      "learning_rate": 0.0005744693805526636,
      "loss": 1.8334,
      "step": 11927
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39803868532180786,
      "learning_rate": 0.0005744651610209896,
      "loss": 1.8159,
      "step": 11928
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3902629613876343,
      "learning_rate": 0.0005744609411561553,
      "loss": 1.7503,
      "step": 11929
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38495755195617676,
      "learning_rate": 0.000574456720958166,
      "loss": 1.8172,
      "step": 11930
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38429731130599976,
      "learning_rate": 0.0005744525004270266,
      "loss": 1.7959,
      "step": 11931
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3767567574977875,
      "learning_rate": 0.0005744482795627423,
      "loss": 1.7245,
      "step": 11932
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37742576003074646,
      "learning_rate": 0.0005744440583653183,
      "loss": 1.7386,
      "step": 11933
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3835040032863617,
      "learning_rate": 0.0005744398368347596,
      "loss": 1.7382,
      "step": 11934
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39043474197387695,
      "learning_rate": 0.0005744356149710713,
      "loss": 1.7962,
      "step": 11935
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39184820652008057,
      "learning_rate": 0.0005744313927742587,
      "loss": 1.7716,
      "step": 11936
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39282381534576416,
      "learning_rate": 0.0005744271702443267,
      "loss": 1.7708,
      "step": 11937
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3952701687812805,
      "learning_rate": 0.0005744229473812807,
      "loss": 1.7582,
      "step": 11938
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39079663157463074,
      "learning_rate": 0.0005744187241851256,
      "loss": 1.8073,
      "step": 11939
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3809155523777008,
      "learning_rate": 0.0005744145006558667,
      "loss": 1.7116,
      "step": 11940
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39564192295074463,
      "learning_rate": 0.0005744102767935089,
      "loss": 1.6033,
      "step": 11941
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3776838779449463,
      "learning_rate": 0.0005744060525980575,
      "loss": 1.7194,
      "step": 11942
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.380088210105896,
      "learning_rate": 0.0005744018280695176,
      "loss": 1.7259,
      "step": 11943
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3816717267036438,
      "learning_rate": 0.0005743976032078944,
      "loss": 1.6539,
      "step": 11944
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.36822688579559326,
      "learning_rate": 0.0005743933780131928,
      "loss": 1.7005,
      "step": 11945
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38670846819877625,
      "learning_rate": 0.0005743891524854181,
      "loss": 1.8004,
      "step": 11946
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39111217856407166,
      "learning_rate": 0.0005743849266245754,
      "loss": 1.732,
      "step": 11947
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38278937339782715,
      "learning_rate": 0.0005743807004306698,
      "loss": 1.7645,
      "step": 11948
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3831711411476135,
      "learning_rate": 0.0005743764739037066,
      "loss": 1.7499,
      "step": 11949
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39294806122779846,
      "learning_rate": 0.0005743722470436906,
      "loss": 1.8186,
      "step": 11950
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3837283253669739,
      "learning_rate": 0.0005743680198506272,
      "loss": 1.7569,
      "step": 11951
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3875196576118469,
      "learning_rate": 0.0005743637923245215,
      "loss": 1.778,
      "step": 11952
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3891972303390503,
      "learning_rate": 0.0005743595644653785,
      "loss": 1.7684,
      "step": 11953
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3974181115627289,
      "learning_rate": 0.0005743553362732035,
      "loss": 1.8053,
      "step": 11954
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37135642766952515,
      "learning_rate": 0.0005743511077480015,
      "loss": 1.788,
      "step": 11955
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3892629146575928,
      "learning_rate": 0.0005743468788897777,
      "loss": 1.7856,
      "step": 11956
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38426366448402405,
      "learning_rate": 0.0005743426496985372,
      "loss": 1.7158,
      "step": 11957
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39319419860839844,
      "learning_rate": 0.0005743384201742851,
      "loss": 1.8426,
      "step": 11958
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3885820508003235,
      "learning_rate": 0.0005743341903170266,
      "loss": 1.79,
      "step": 11959
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4006430506706238,
      "learning_rate": 0.0005743299601267668,
      "loss": 1.7254,
      "step": 11960
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38169199228286743,
      "learning_rate": 0.0005743257296035108,
      "loss": 1.787,
      "step": 11961
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4060661196708679,
      "learning_rate": 0.0005743214987472639,
      "loss": 1.7536,
      "step": 11962
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4044454097747803,
      "learning_rate": 0.0005743172675580311,
      "loss": 1.7974,
      "step": 11963
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3886280059814453,
      "learning_rate": 0.0005743130360358176,
      "loss": 1.7308,
      "step": 11964
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3903890550136566,
      "learning_rate": 0.0005743088041806284,
      "loss": 1.7555,
      "step": 11965
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3847566843032837,
      "learning_rate": 0.0005743045719924688,
      "loss": 1.7042,
      "step": 11966
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4047101140022278,
      "learning_rate": 0.0005743003394713439,
      "loss": 1.7306,
      "step": 11967
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39487224817276,
      "learning_rate": 0.0005742961066172586,
      "loss": 1.7916,
      "step": 11968
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38596826791763306,
      "learning_rate": 0.0005742918734302183,
      "loss": 1.7187,
      "step": 11969
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.406264990568161,
      "learning_rate": 0.0005742876399102283,
      "loss": 1.7288,
      "step": 11970
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3913598954677582,
      "learning_rate": 0.0005742834060572933,
      "loss": 1.7043,
      "step": 11971
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3940487802028656,
      "learning_rate": 0.0005742791718714187,
      "loss": 1.7534,
      "step": 11972
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40269213914871216,
      "learning_rate": 0.0005742749373526096,
      "loss": 1.7533,
      "step": 11973
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4029598832130432,
      "learning_rate": 0.0005742707025008713,
      "loss": 1.7627,
      "step": 11974
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3742406964302063,
      "learning_rate": 0.0005742664673162086,
      "loss": 1.6479,
      "step": 11975
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.390301913022995,
      "learning_rate": 0.0005742622317986268,
      "loss": 1.7248,
      "step": 11976
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39345061779022217,
      "learning_rate": 0.0005742579959481312,
      "loss": 1.7244,
      "step": 11977
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3870762288570404,
      "learning_rate": 0.0005742537597647267,
      "loss": 1.7607,
      "step": 11978
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.381611704826355,
      "learning_rate": 0.0005742495232484185,
      "loss": 1.7466,
      "step": 11979
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39278069138526917,
      "learning_rate": 0.000574245286399212,
      "loss": 1.7273,
      "step": 11980
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38840287923812866,
      "learning_rate": 0.000574241049217112,
      "loss": 1.7768,
      "step": 11981
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39353057742118835,
      "learning_rate": 0.0005742368117021237,
      "loss": 1.7662,
      "step": 11982
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3891209363937378,
      "learning_rate": 0.0005742325738542524,
      "loss": 1.7193,
      "step": 11983
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3916292190551758,
      "learning_rate": 0.0005742283356735032,
      "loss": 1.8296,
      "step": 11984
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39470648765563965,
      "learning_rate": 0.0005742240971598811,
      "loss": 1.7624,
      "step": 11985
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3973398506641388,
      "learning_rate": 0.0005742198583133914,
      "loss": 1.8063,
      "step": 11986
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39607110619544983,
      "learning_rate": 0.0005742156191340392,
      "loss": 1.711,
      "step": 11987
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3932526409626007,
      "learning_rate": 0.0005742113796218297,
      "loss": 1.7495,
      "step": 11988
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40344125032424927,
      "learning_rate": 0.0005742071397767678,
      "loss": 1.7372,
      "step": 11989
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37943994998931885,
      "learning_rate": 0.0005742028995988591,
      "loss": 1.8116,
      "step": 11990
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.393228679895401,
      "learning_rate": 0.0005741986590881084,
      "loss": 1.8113,
      "step": 11991
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4421476721763611,
      "learning_rate": 0.0005741944182445208,
      "loss": 1.8545,
      "step": 11992
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5412926077842712,
      "learning_rate": 0.0005741901770681015,
      "loss": 1.7009,
      "step": 11993
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3896334767341614,
      "learning_rate": 0.000574185935558856,
      "loss": 1.727,
      "step": 11994
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4036775231361389,
      "learning_rate": 0.0005741816937167891,
      "loss": 1.7888,
      "step": 11995
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3908088803291321,
      "learning_rate": 0.0005741774515419059,
      "loss": 1.7881,
      "step": 11996
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3884858787059784,
      "learning_rate": 0.0005741732090342118,
      "loss": 1.7166,
      "step": 11997
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39592838287353516,
      "learning_rate": 0.0005741689661937117,
      "loss": 1.8538,
      "step": 11998
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38708874583244324,
      "learning_rate": 0.000574164723020411,
      "loss": 1.7552,
      "step": 11999
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3936793804168701,
      "learning_rate": 0.0005741604795143146,
      "loss": 1.7218,
      "step": 12000
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38053277134895325,
      "learning_rate": 0.0005741562356754279,
      "loss": 1.7282,
      "step": 12001
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3859044313430786,
      "learning_rate": 0.0005741519915037558,
      "loss": 1.6931,
      "step": 12002
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38057026267051697,
      "learning_rate": 0.0005741477469993037,
      "loss": 1.7185,
      "step": 12003
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3797219693660736,
      "learning_rate": 0.0005741435021620765,
      "loss": 1.7992,
      "step": 12004
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3828628957271576,
      "learning_rate": 0.0005741392569920796,
      "loss": 1.7733,
      "step": 12005
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3909203112125397,
      "learning_rate": 0.000574135011489318,
      "loss": 1.7184,
      "step": 12006
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3780058026313782,
      "learning_rate": 0.0005741307656537968,
      "loss": 1.7922,
      "step": 12007
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3997032940387726,
      "learning_rate": 0.0005741265194855213,
      "loss": 1.7577,
      "step": 12008
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.384990930557251,
      "learning_rate": 0.0005741222729844966,
      "loss": 1.8557,
      "step": 12009
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37690624594688416,
      "learning_rate": 0.0005741180261507279,
      "loss": 1.7746,
      "step": 12010
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3898109495639801,
      "learning_rate": 0.0005741137789842202,
      "loss": 1.7462,
      "step": 12011
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39661145210266113,
      "learning_rate": 0.0005741095314849789,
      "loss": 1.7722,
      "step": 12012
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38162270188331604,
      "learning_rate": 0.000574105283653009,
      "loss": 1.7629,
      "step": 12013
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4960128366947174,
      "learning_rate": 0.0005741010354883156,
      "loss": 1.8234,
      "step": 12014
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38566917181015015,
      "learning_rate": 0.0005740967869909039,
      "loss": 1.8381,
      "step": 12015
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4033120274543762,
      "learning_rate": 0.0005740925381607792,
      "loss": 1.7033,
      "step": 12016
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3774603009223938,
      "learning_rate": 0.0005740882889979464,
      "loss": 1.8162,
      "step": 12017
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.390289306640625,
      "learning_rate": 0.0005740840395024109,
      "loss": 1.7274,
      "step": 12018
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37676650285720825,
      "learning_rate": 0.0005740797896741777,
      "loss": 1.6381,
      "step": 12019
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40237921476364136,
      "learning_rate": 0.0005740755395132521,
      "loss": 1.8134,
      "step": 12020
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38884851336479187,
      "learning_rate": 0.0005740712890196391,
      "loss": 1.7539,
      "step": 12021
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39065849781036377,
      "learning_rate": 0.000574067038193344,
      "loss": 1.7312,
      "step": 12022
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38504311442375183,
      "learning_rate": 0.0005740627870343719,
      "loss": 1.8261,
      "step": 12023
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40888291597366333,
      "learning_rate": 0.0005740585355427279,
      "loss": 1.7092,
      "step": 12024
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38624975085258484,
      "learning_rate": 0.0005740542837184173,
      "loss": 1.7232,
      "step": 12025
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37611353397369385,
      "learning_rate": 0.0005740500315614452,
      "loss": 1.6881,
      "step": 12026
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3868675231933594,
      "learning_rate": 0.0005740457790718165,
      "loss": 1.8096,
      "step": 12027
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38054949045181274,
      "learning_rate": 0.0005740415262495369,
      "loss": 1.71,
      "step": 12028
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37781617045402527,
      "learning_rate": 0.0005740372730946111,
      "loss": 1.7125,
      "step": 12029
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40177780389785767,
      "learning_rate": 0.0005740330196070444,
      "loss": 1.8643,
      "step": 12030
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3899039030075073,
      "learning_rate": 0.0005740287657868421,
      "loss": 1.79,
      "step": 12031
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39474400877952576,
      "learning_rate": 0.0005740245116340092,
      "loss": 1.7502,
      "step": 12032
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37697142362594604,
      "learning_rate": 0.0005740202571485509,
      "loss": 1.7706,
      "step": 12033
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3828975558280945,
      "learning_rate": 0.0005740160023304725,
      "loss": 1.7182,
      "step": 12034
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.36590081453323364,
      "learning_rate": 0.0005740117471797789,
      "loss": 1.7014,
      "step": 12035
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3764561414718628,
      "learning_rate": 0.0005740074916964755,
      "loss": 1.7781,
      "step": 12036
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38387370109558105,
      "learning_rate": 0.0005740032358805673,
      "loss": 1.7732,
      "step": 12037
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38449183106422424,
      "learning_rate": 0.0005739989797320596,
      "loss": 1.633,
      "step": 12038
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39995360374450684,
      "learning_rate": 0.0005739947232509575,
      "loss": 1.8062,
      "step": 12039
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4946310520172119,
      "learning_rate": 0.0005739904664372662,
      "loss": 1.7313,
      "step": 12040
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38496193289756775,
      "learning_rate": 0.0005739862092909909,
      "loss": 1.7911,
      "step": 12041
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39315763115882874,
      "learning_rate": 0.0005739819518121366,
      "loss": 1.7272,
      "step": 12042
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37374231219291687,
      "learning_rate": 0.0005739776940007086,
      "loss": 1.7761,
      "step": 12043
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3900420069694519,
      "learning_rate": 0.000573973435856712,
      "loss": 1.8035,
      "step": 12044
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.41360709071159363,
      "learning_rate": 0.0005739691773801521,
      "loss": 1.7764,
      "step": 12045
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3918541669845581,
      "learning_rate": 0.000573964918571034,
      "loss": 1.7669,
      "step": 12046
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38863542675971985,
      "learning_rate": 0.0005739606594293629,
      "loss": 1.7561,
      "step": 12047
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3843785524368286,
      "learning_rate": 0.0005739563999551438,
      "loss": 1.7515,
      "step": 12048
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3832533061504364,
      "learning_rate": 0.000573952140148382,
      "loss": 1.7369,
      "step": 12049
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39341193437576294,
      "learning_rate": 0.0005739478800090827,
      "loss": 1.6853,
      "step": 12050
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37313950061798096,
      "learning_rate": 0.0005739436195372511,
      "loss": 1.7582,
      "step": 12051
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3989425599575043,
      "learning_rate": 0.0005739393587328922,
      "loss": 1.7008,
      "step": 12052
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3844623267650604,
      "learning_rate": 0.0005739350975960114,
      "loss": 1.7579,
      "step": 12053
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.376933217048645,
      "learning_rate": 0.0005739308361266137,
      "loss": 1.7789,
      "step": 12054
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3868221640586853,
      "learning_rate": 0.0005739265743247043,
      "loss": 1.7051,
      "step": 12055
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3791519105434418,
      "learning_rate": 0.0005739223121902884,
      "loss": 1.7551,
      "step": 12056
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39347878098487854,
      "learning_rate": 0.0005739180497233712,
      "loss": 1.786,
      "step": 12057
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3767509460449219,
      "learning_rate": 0.0005739137869239579,
      "loss": 1.7079,
      "step": 12058
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3906078040599823,
      "learning_rate": 0.0005739095237920535,
      "loss": 1.8259,
      "step": 12059
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39327162504196167,
      "learning_rate": 0.0005739052603276634,
      "loss": 1.8031,
      "step": 12060
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3791806697845459,
      "learning_rate": 0.0005739009965307927,
      "loss": 1.7619,
      "step": 12061
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37926360964775085,
      "learning_rate": 0.0005738967324014464,
      "loss": 1.7041,
      "step": 12062
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38102293014526367,
      "learning_rate": 0.00057389246793963,
      "loss": 1.7343,
      "step": 12063
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3893894553184509,
      "learning_rate": 0.0005738882031453484,
      "loss": 1.7187,
      "step": 12064
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38518446683883667,
      "learning_rate": 0.0005738839380186069,
      "loss": 1.7392,
      "step": 12065
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3829995095729828,
      "learning_rate": 0.0005738796725594106,
      "loss": 1.8257,
      "step": 12066
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3728443384170532,
      "learning_rate": 0.0005738754067677647,
      "loss": 1.6585,
      "step": 12067
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3903307616710663,
      "learning_rate": 0.0005738711406436745,
      "loss": 1.7157,
      "step": 12068
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3856251835823059,
      "learning_rate": 0.0005738668741871451,
      "loss": 1.808,
      "step": 12069
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3942098021507263,
      "learning_rate": 0.0005738626073981816,
      "loss": 1.7693,
      "step": 12070
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37993282079696655,
      "learning_rate": 0.0005738583402767893,
      "loss": 1.7641,
      "step": 12071
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37281128764152527,
      "learning_rate": 0.0005738540728229733,
      "loss": 1.6851,
      "step": 12072
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3860781490802765,
      "learning_rate": 0.0005738498050367389,
      "loss": 1.7087,
      "step": 12073
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38966652750968933,
      "learning_rate": 0.000573845536918091,
      "loss": 1.7237,
      "step": 12074
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3978360593318939,
      "learning_rate": 0.000573841268467035,
      "loss": 1.7239,
      "step": 12075
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.36684319376945496,
      "learning_rate": 0.0005738369996835761,
      "loss": 1.6601,
      "step": 12076
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3838757574558258,
      "learning_rate": 0.0005738327305677195,
      "loss": 1.7215,
      "step": 12077
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4033651053905487,
      "learning_rate": 0.0005738284611194703,
      "loss": 1.7854,
      "step": 12078
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3811119496822357,
      "learning_rate": 0.0005738241913388337,
      "loss": 1.7714,
      "step": 12079
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38781097531318665,
      "learning_rate": 0.0005738199212258148,
      "loss": 1.8007,
      "step": 12080
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3871507942676544,
      "learning_rate": 0.0005738156507804189,
      "loss": 1.7677,
      "step": 12081
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3883908689022064,
      "learning_rate": 0.0005738113800026511,
      "loss": 1.7039,
      "step": 12082
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3939073085784912,
      "learning_rate": 0.0005738071088925167,
      "loss": 1.712,
      "step": 12083
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3729824423789978,
      "learning_rate": 0.0005738028374500208,
      "loss": 1.7795,
      "step": 12084
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39924976229667664,
      "learning_rate": 0.0005737985656751685,
      "loss": 1.7167,
      "step": 12085
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.395967960357666,
      "learning_rate": 0.0005737942935679652,
      "loss": 1.7276,
      "step": 12086
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37164872884750366,
      "learning_rate": 0.0005737900211284159,
      "loss": 1.6871,
      "step": 12087
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3816155791282654,
      "learning_rate": 0.0005737857483565259,
      "loss": 1.7176,
      "step": 12088
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3865952789783478,
      "learning_rate": 0.0005737814752523004,
      "loss": 1.7284,
      "step": 12089
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3978675901889801,
      "learning_rate": 0.0005737772018157444,
      "loss": 1.7538,
      "step": 12090
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3774678707122803,
      "learning_rate": 0.0005737729280468633,
      "loss": 1.7757,
      "step": 12091
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38080793619155884,
      "learning_rate": 0.0005737686539456622,
      "loss": 1.7486,
      "step": 12092
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3871360719203949,
      "learning_rate": 0.0005737643795121463,
      "loss": 1.7436,
      "step": 12093
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39780667424201965,
      "learning_rate": 0.0005737601047463208,
      "loss": 1.6988,
      "step": 12094
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3872852325439453,
      "learning_rate": 0.0005737558296481907,
      "loss": 1.7774,
      "step": 12095
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3910425901412964,
      "learning_rate": 0.0005737515542177615,
      "loss": 1.7734,
      "step": 12096
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3890882134437561,
      "learning_rate": 0.0005737472784550382,
      "loss": 1.7861,
      "step": 12097
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3992270231246948,
      "learning_rate": 0.0005737430023600261,
      "loss": 1.7449,
      "step": 12098
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38746002316474915,
      "learning_rate": 0.0005737387259327302,
      "loss": 1.7015,
      "step": 12099
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3983848989009857,
      "learning_rate": 0.000573734449173156,
      "loss": 1.7281,
      "step": 12100
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3829266130924225,
      "learning_rate": 0.0005737301720813083,
      "loss": 1.7196,
      "step": 12101
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40095970034599304,
      "learning_rate": 0.0005737258946571927,
      "loss": 1.812,
      "step": 12102
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.384225994348526,
      "learning_rate": 0.0005737216169008142,
      "loss": 1.7418,
      "step": 12103
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3773735761642456,
      "learning_rate": 0.0005737173388121779,
      "loss": 1.768,
      "step": 12104
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3754225969314575,
      "learning_rate": 0.0005737130603912891,
      "loss": 1.6392,
      "step": 12105
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3796027600765228,
      "learning_rate": 0.000573708781638153,
      "loss": 1.7629,
      "step": 12106
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40032216906547546,
      "learning_rate": 0.0005737045025527746,
      "loss": 1.7333,
      "step": 12107
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3724374771118164,
      "learning_rate": 0.0005737002231351595,
      "loss": 1.7964,
      "step": 12108
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3810960352420807,
      "learning_rate": 0.0005736959433853125,
      "loss": 1.7608,
      "step": 12109
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3824445605278015,
      "learning_rate": 0.000573691663303239,
      "loss": 1.789,
      "step": 12110
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3833230137825012,
      "learning_rate": 0.0005736873828889442,
      "loss": 1.7057,
      "step": 12111
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38711804151535034,
      "learning_rate": 0.0005736831021424331,
      "loss": 1.7391,
      "step": 12112
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38897791504859924,
      "learning_rate": 0.0005736788210637112,
      "loss": 1.7227,
      "step": 12113
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3757178485393524,
      "learning_rate": 0.0005736745396527835,
      "loss": 1.7407,
      "step": 12114
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38215571641921997,
      "learning_rate": 0.0005736702579096552,
      "loss": 1.7167,
      "step": 12115
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.40571725368499756,
      "learning_rate": 0.0005736659758343315,
      "loss": 1.8432,
      "step": 12116
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3770177662372589,
      "learning_rate": 0.0005736616934268178,
      "loss": 1.7764,
      "step": 12117
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3653963804244995,
      "learning_rate": 0.0005736574106871188,
      "loss": 1.7485,
      "step": 12118
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3745698928833008,
      "learning_rate": 0.0005736531276152403,
      "loss": 1.7335,
      "step": 12119
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3751367926597595,
      "learning_rate": 0.0005736488442111872,
      "loss": 1.6902,
      "step": 12120
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39084282517433167,
      "learning_rate": 0.0005736445604749646,
      "loss": 1.7396,
      "step": 12121
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39153656363487244,
      "learning_rate": 0.0005736402764065779,
      "loss": 1.8071,
      "step": 12122
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37974706292152405,
      "learning_rate": 0.0005736359920060323,
      "loss": 1.8213,
      "step": 12123
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3779125511646271,
      "learning_rate": 0.0005736317072733328,
      "loss": 1.7451,
      "step": 12124
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3847249448299408,
      "learning_rate": 0.0005736274222084847,
      "loss": 1.7826,
      "step": 12125
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37739822268486023,
      "learning_rate": 0.0005736231368114932,
      "loss": 1.6978,
      "step": 12126
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3847707509994507,
      "learning_rate": 0.0005736188510823637,
      "loss": 1.7425,
      "step": 12127
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3667222857475281,
      "learning_rate": 0.0005736145650211012,
      "loss": 1.8123,
      "step": 12128
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38844671845436096,
      "learning_rate": 0.0005736102786277109,
      "loss": 1.7525,
      "step": 12129
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39731934666633606,
      "learning_rate": 0.0005736059919021979,
      "loss": 1.777,
      "step": 12130
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37291011214256287,
      "learning_rate": 0.0005736017048445677,
      "loss": 1.7746,
      "step": 12131
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3842010498046875,
      "learning_rate": 0.0005735974174548253,
      "loss": 1.7445,
      "step": 12132
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3850271701812744,
      "learning_rate": 0.0005735931297329759,
      "loss": 1.7229,
      "step": 12133
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39616119861602783,
      "learning_rate": 0.0005735888416790249,
      "loss": 1.6875,
      "step": 12134
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3947650194168091,
      "learning_rate": 0.0005735845532929772,
      "loss": 1.775,
      "step": 12135
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38634514808654785,
      "learning_rate": 0.0005735802645748382,
      "loss": 1.8098,
      "step": 12136
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38554078340530396,
      "learning_rate": 0.0005735759755246131,
      "loss": 1.7125,
      "step": 12137
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3888801634311676,
      "learning_rate": 0.0005735716861423071,
      "loss": 1.7594,
      "step": 12138
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3807336390018463,
      "learning_rate": 0.0005735673964279253,
      "loss": 1.7724,
      "step": 12139
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3811597228050232,
      "learning_rate": 0.0005735631063814731,
      "loss": 1.7232,
      "step": 12140
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3783065974712372,
      "learning_rate": 0.0005735588160029555,
      "loss": 1.6624,
      "step": 12141
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38631096482276917,
      "learning_rate": 0.0005735545252923778,
      "loss": 1.6729,
      "step": 12142
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38224348425865173,
      "learning_rate": 0.0005735502342497453,
      "loss": 1.7165,
      "step": 12143
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3903595507144928,
      "learning_rate": 0.000573545942875063,
      "loss": 1.6958,
      "step": 12144
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37230563163757324,
      "learning_rate": 0.0005735416511683364,
      "loss": 1.7048,
      "step": 12145
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3926308751106262,
      "learning_rate": 0.0005735373591295704,
      "loss": 1.8554,
      "step": 12146
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39686837792396545,
      "learning_rate": 0.0005735330667587704,
      "loss": 1.8307,
      "step": 12147
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38903987407684326,
      "learning_rate": 0.0005735287740559415,
      "loss": 1.7737,
      "step": 12148
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38130611181259155,
      "learning_rate": 0.000573524481021089,
      "loss": 1.7238,
      "step": 12149
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3869917690753937,
      "learning_rate": 0.0005735201876542181,
      "loss": 1.8328,
      "step": 12150
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39160266518592834,
      "learning_rate": 0.000573515893955334,
      "loss": 1.7311,
      "step": 12151
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.379341185092926,
      "learning_rate": 0.0005735115999244419,
      "loss": 1.6829,
      "step": 12152
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3763403296470642,
      "learning_rate": 0.0005735073055615471,
      "loss": 1.6779,
      "step": 12153
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38922640681266785,
      "learning_rate": 0.0005735030108666546,
      "loss": 1.8233,
      "step": 12154
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3848372995853424,
      "learning_rate": 0.0005734987158397698,
      "loss": 1.7826,
      "step": 12155
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39275410771369934,
      "learning_rate": 0.0005734944204808978,
      "loss": 1.6873,
      "step": 12156
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39147236943244934,
      "learning_rate": 0.0005734901247900439,
      "loss": 1.7837,
      "step": 12157
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37974244356155396,
      "learning_rate": 0.0005734858287672134,
      "loss": 1.6771,
      "step": 12158
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38175705075263977,
      "learning_rate": 0.0005734815324124113,
      "loss": 1.7202,
      "step": 12159
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3888562321662903,
      "learning_rate": 0.000573477235725643,
      "loss": 1.7302,
      "step": 12160
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3790157735347748,
      "learning_rate": 0.0005734729387069135,
      "loss": 1.7846,
      "step": 12161
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38659173250198364,
      "learning_rate": 0.0005734686413562282,
      "loss": 1.8028,
      "step": 12162
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3926113247871399,
      "learning_rate": 0.0005734643436735922,
      "loss": 1.6621,
      "step": 12163
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3891449272632599,
      "learning_rate": 0.0005734600456590109,
      "loss": 1.8286,
      "step": 12164
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39290520548820496,
      "learning_rate": 0.0005734557473124893,
      "loss": 1.7128,
      "step": 12165
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.385185182094574,
      "learning_rate": 0.0005734514486340327,
      "loss": 1.7871,
      "step": 12166
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4073426127433777,
      "learning_rate": 0.0005734471496236464,
      "loss": 1.7558,
      "step": 12167
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3958606719970703,
      "learning_rate": 0.0005734428502813355,
      "loss": 1.7763,
      "step": 12168
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.38666096329689026,
      "learning_rate": 0.0005734385506071055,
      "loss": 1.7938,
      "step": 12169
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.39289751648902893,
      "learning_rate": 0.000573434250600961,
      "loss": 1.8087,
      "step": 12170
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.386318564414978,
      "learning_rate": 0.0005734299502629079,
      "loss": 1.7139,
      "step": 12171
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37640154361724854,
      "learning_rate": 0.000573425649592951,
      "loss": 1.664,
      "step": 12172
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3968418836593628,
      "learning_rate": 0.0005734213485910957,
      "loss": 1.7086,
      "step": 12173
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38412097096443176,
      "learning_rate": 0.0005734170472573471,
      "loss": 1.7684,
      "step": 12174
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39214175939559937,
      "learning_rate": 0.0005734127455917107,
      "loss": 1.7836,
      "step": 12175
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38651981949806213,
      "learning_rate": 0.0005734084435941913,
      "loss": 1.816,
      "step": 12176
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3813287317752838,
      "learning_rate": 0.0005734041412647944,
      "loss": 1.7473,
      "step": 12177
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3898213803768158,
      "learning_rate": 0.0005733998386035251,
      "loss": 1.7079,
      "step": 12178
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4000912606716156,
      "learning_rate": 0.0005733955356103887,
      "loss": 1.7887,
      "step": 12179
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38639524579048157,
      "learning_rate": 0.0005733912322853905,
      "loss": 1.7724,
      "step": 12180
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6051532030105591,
      "learning_rate": 0.0005733869286285356,
      "loss": 1.799,
      "step": 12181
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3811390697956085,
      "learning_rate": 0.0005733826246398291,
      "loss": 1.7673,
      "step": 12182
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38428375124931335,
      "learning_rate": 0.0005733783203192765,
      "loss": 1.7861,
      "step": 12183
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3746168315410614,
      "learning_rate": 0.0005733740156668829,
      "loss": 1.7216,
      "step": 12184
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38453221321105957,
      "learning_rate": 0.0005733697106826535,
      "loss": 1.7983,
      "step": 12185
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37873825430870056,
      "learning_rate": 0.0005733654053665935,
      "loss": 1.6989,
      "step": 12186
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38559871912002563,
      "learning_rate": 0.0005733610997187083,
      "loss": 1.7534,
      "step": 12187
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4116255044937134,
      "learning_rate": 0.0005733567937390028,
      "loss": 1.7946,
      "step": 12188
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4297303259372711,
      "learning_rate": 0.0005733524874274827,
      "loss": 1.8174,
      "step": 12189
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.381591796875,
      "learning_rate": 0.0005733481807841528,
      "loss": 1.7814,
      "step": 12190
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3902159333229065,
      "learning_rate": 0.0005733438738090184,
      "loss": 1.7653,
      "step": 12191
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3896729350090027,
      "learning_rate": 0.000573339566502085,
      "loss": 1.7493,
      "step": 12192
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37725263833999634,
      "learning_rate": 0.0005733352588633576,
      "loss": 1.8094,
      "step": 12193
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3851322531700134,
      "learning_rate": 0.0005733309508928414,
      "loss": 1.7329,
      "step": 12194
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37091317772865295,
      "learning_rate": 0.0005733266425905417,
      "loss": 1.7284,
      "step": 12195
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38219940662384033,
      "learning_rate": 0.0005733223339564637,
      "loss": 1.7585,
      "step": 12196
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3785279095172882,
      "learning_rate": 0.0005733180249906128,
      "loss": 1.6999,
      "step": 12197
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3918372392654419,
      "learning_rate": 0.000573313715692994,
      "loss": 1.8245,
      "step": 12198
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4437108337879181,
      "learning_rate": 0.0005733094060636126,
      "loss": 1.6927,
      "step": 12199
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38529953360557556,
      "learning_rate": 0.0005733050961024739,
      "loss": 1.7145,
      "step": 12200
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39193195104599,
      "learning_rate": 0.000573300785809583,
      "loss": 1.7746,
      "step": 12201
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3762996196746826,
      "learning_rate": 0.0005732964751849454,
      "loss": 1.6819,
      "step": 12202
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3835183084011078,
      "learning_rate": 0.000573292164228566,
      "loss": 1.6619,
      "step": 12203
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4061066210269928,
      "learning_rate": 0.0005732878529404502,
      "loss": 1.7504,
      "step": 12204
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38658666610717773,
      "learning_rate": 0.0005732835413206031,
      "loss": 1.7368,
      "step": 12205
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3743602931499481,
      "learning_rate": 0.0005732792293690303,
      "loss": 1.7681,
      "step": 12206
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39901062846183777,
      "learning_rate": 0.0005732749170857366,
      "loss": 1.7613,
      "step": 12207
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38833126425743103,
      "learning_rate": 0.0005732706044707273,
      "loss": 1.6958,
      "step": 12208
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40193796157836914,
      "learning_rate": 0.000573266291524008,
      "loss": 1.8305,
      "step": 12209
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37916144728660583,
      "learning_rate": 0.0005732619782455835,
      "loss": 1.7783,
      "step": 12210
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38468846678733826,
      "learning_rate": 0.0005732576646354594,
      "loss": 1.7258,
      "step": 12211
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3955504298210144,
      "learning_rate": 0.0005732533506936407,
      "loss": 1.7881,
      "step": 12212
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3845682442188263,
      "learning_rate": 0.0005732490364201327,
      "loss": 1.7217,
      "step": 12213
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37756702303886414,
      "learning_rate": 0.0005732447218149406,
      "loss": 1.6917,
      "step": 12214
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4462360143661499,
      "learning_rate": 0.0005732404068780696,
      "loss": 1.8292,
      "step": 12215
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3893745541572571,
      "learning_rate": 0.0005732360916095251,
      "loss": 1.8032,
      "step": 12216
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3926357924938202,
      "learning_rate": 0.0005732317760093123,
      "loss": 1.7723,
      "step": 12217
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3627864718437195,
      "learning_rate": 0.0005732274600774363,
      "loss": 1.747,
      "step": 12218
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3878929316997528,
      "learning_rate": 0.0005732231438139024,
      "loss": 1.7038,
      "step": 12219
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39520660042762756,
      "learning_rate": 0.0005732188272187158,
      "loss": 1.7914,
      "step": 12220
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37741342186927795,
      "learning_rate": 0.0005732145102918819,
      "loss": 1.7938,
      "step": 12221
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3819403052330017,
      "learning_rate": 0.0005732101930334059,
      "loss": 1.723,
      "step": 12222
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38183191418647766,
      "learning_rate": 0.0005732058754432929,
      "loss": 1.7554,
      "step": 12223
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3861401379108429,
      "learning_rate": 0.0005732015575215482,
      "loss": 1.6789,
      "step": 12224
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40629684925079346,
      "learning_rate": 0.0005731972392681771,
      "loss": 1.7324,
      "step": 12225
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3870867192745209,
      "learning_rate": 0.0005731929206831848,
      "loss": 1.7385,
      "step": 12226
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37610843777656555,
      "learning_rate": 0.0005731886017665765,
      "loss": 1.7528,
      "step": 12227
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3882017135620117,
      "learning_rate": 0.0005731842825183576,
      "loss": 1.737,
      "step": 12228
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3909534513950348,
      "learning_rate": 0.0005731799629385331,
      "loss": 1.7706,
      "step": 12229
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38165342807769775,
      "learning_rate": 0.0005731756430271084,
      "loss": 1.7137,
      "step": 12230
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4128156900405884,
      "learning_rate": 0.0005731713227840889,
      "loss": 1.7805,
      "step": 12231
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.385741651058197,
      "learning_rate": 0.0005731670022094794,
      "loss": 1.7839,
      "step": 12232
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38674789667129517,
      "learning_rate": 0.0005731626813032856,
      "loss": 1.7869,
      "step": 12233
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40069499611854553,
      "learning_rate": 0.0005731583600655124,
      "loss": 1.8108,
      "step": 12234
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3999917209148407,
      "learning_rate": 0.0005731540384961654,
      "loss": 1.6972,
      "step": 12235
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38376584649086,
      "learning_rate": 0.0005731497165952495,
      "loss": 1.7126,
      "step": 12236
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3851553797721863,
      "learning_rate": 0.0005731453943627701,
      "loss": 1.7256,
      "step": 12237
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38938143849372864,
      "learning_rate": 0.0005731410717987324,
      "loss": 1.7809,
      "step": 12238
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.400261789560318,
      "learning_rate": 0.0005731367489031419,
      "loss": 1.7728,
      "step": 12239
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38622725009918213,
      "learning_rate": 0.0005731324256760034,
      "loss": 1.7149,
      "step": 12240
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39512231945991516,
      "learning_rate": 0.0005731281021173225,
      "loss": 1.755,
      "step": 12241
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39387232065200806,
      "learning_rate": 0.0005731237782271042,
      "loss": 1.6958,
      "step": 12242
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3942546248435974,
      "learning_rate": 0.000573119454005354,
      "loss": 1.7006,
      "step": 12243
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3942893147468567,
      "learning_rate": 0.000573115129452077,
      "loss": 1.7382,
      "step": 12244
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40121161937713623,
      "learning_rate": 0.0005731108045672784,
      "loss": 1.7132,
      "step": 12245
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39469805359840393,
      "learning_rate": 0.0005731064793509636,
      "loss": 1.7367,
      "step": 12246
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4417690932750702,
      "learning_rate": 0.0005731021538031378,
      "loss": 1.7964,
      "step": 12247
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38769593834877014,
      "learning_rate": 0.0005730978279238062,
      "loss": 1.7866,
      "step": 12248
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40440043807029724,
      "learning_rate": 0.000573093501712974,
      "loss": 1.7334,
      "step": 12249
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3764832615852356,
      "learning_rate": 0.0005730891751706466,
      "loss": 1.7246,
      "step": 12250
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39156296849250793,
      "learning_rate": 0.0005730848482968292,
      "loss": 1.7471,
      "step": 12251
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3818807005882263,
      "learning_rate": 0.0005730805210915269,
      "loss": 1.7589,
      "step": 12252
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3779226243495941,
      "learning_rate": 0.0005730761935547452,
      "loss": 1.7548,
      "step": 12253
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3720666170120239,
      "learning_rate": 0.0005730718656864893,
      "loss": 1.7449,
      "step": 12254
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3781992793083191,
      "learning_rate": 0.0005730675374867643,
      "loss": 1.7333,
      "step": 12255
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39419835805892944,
      "learning_rate": 0.0005730632089555756,
      "loss": 1.8445,
      "step": 12256
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3790808916091919,
      "learning_rate": 0.0005730588800929283,
      "loss": 1.7838,
      "step": 12257
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.370548278093338,
      "learning_rate": 0.0005730545508988278,
      "loss": 1.7907,
      "step": 12258
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3744969666004181,
      "learning_rate": 0.0005730502213732794,
      "loss": 1.7606,
      "step": 12259
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3984455466270447,
      "learning_rate": 0.0005730458915162881,
      "loss": 1.8654,
      "step": 12260
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3789757788181305,
      "learning_rate": 0.0005730415613278593,
      "loss": 1.7586,
      "step": 12261
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37438058853149414,
      "learning_rate": 0.0005730372308079985,
      "loss": 1.7021,
      "step": 12262
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37467390298843384,
      "learning_rate": 0.0005730328999567105,
      "loss": 1.7011,
      "step": 12263
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38998711109161377,
      "learning_rate": 0.000573028568774001,
      "loss": 1.754,
      "step": 12264
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38597413897514343,
      "learning_rate": 0.0005730242372598749,
      "loss": 1.741,
      "step": 12265
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40793144702911377,
      "learning_rate": 0.0005730199054143376,
      "loss": 1.7736,
      "step": 12266
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3975454270839691,
      "learning_rate": 0.0005730155732373945,
      "loss": 1.7244,
      "step": 12267
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3827172517776489,
      "learning_rate": 0.0005730112407290505,
      "loss": 1.7346,
      "step": 12268
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.393413782119751,
      "learning_rate": 0.0005730069078893112,
      "loss": 1.7391,
      "step": 12269
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3863617479801178,
      "learning_rate": 0.0005730025747181819,
      "loss": 1.6679,
      "step": 12270
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.382205605506897,
      "learning_rate": 0.0005729982412156675,
      "loss": 1.7128,
      "step": 12271
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3857673406600952,
      "learning_rate": 0.0005729939073817735,
      "loss": 1.6812,
      "step": 12272
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40735045075416565,
      "learning_rate": 0.0005729895732165051,
      "loss": 1.7404,
      "step": 12273
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38562747836112976,
      "learning_rate": 0.0005729852387198676,
      "loss": 1.7103,
      "step": 12274
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3980269134044647,
      "learning_rate": 0.0005729809038918663,
      "loss": 1.7687,
      "step": 12275
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37718331813812256,
      "learning_rate": 0.0005729765687325063,
      "loss": 1.7,
      "step": 12276
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3916594088077545,
      "learning_rate": 0.000572972233241793,
      "loss": 1.8265,
      "step": 12277
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37741658091545105,
      "learning_rate": 0.0005729678974197316,
      "loss": 1.7153,
      "step": 12278
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3709662854671478,
      "learning_rate": 0.0005729635612663275,
      "loss": 1.71,
      "step": 12279
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3764280080795288,
      "learning_rate": 0.0005729592247815858,
      "loss": 1.6624,
      "step": 12280
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37844330072402954,
      "learning_rate": 0.0005729548879655119,
      "loss": 1.7324,
      "step": 12281
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37527868151664734,
      "learning_rate": 0.0005729505508181108,
      "loss": 1.7746,
      "step": 12282
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38792338967323303,
      "learning_rate": 0.0005729462133393881,
      "loss": 1.7553,
      "step": 12283
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37920066714286804,
      "learning_rate": 0.0005729418755293489,
      "loss": 1.6911,
      "step": 12284
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3779693841934204,
      "learning_rate": 0.0005729375373879984,
      "loss": 1.7384,
      "step": 12285
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38684096932411194,
      "learning_rate": 0.000572933198915342,
      "loss": 1.7554,
      "step": 12286
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3988877236843109,
      "learning_rate": 0.0005729288601113848,
      "loss": 1.8054,
      "step": 12287
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38064083456993103,
      "learning_rate": 0.0005729245209761323,
      "loss": 1.7577,
      "step": 12288
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3828376531600952,
      "learning_rate": 0.0005729201815095897,
      "loss": 1.7589,
      "step": 12289
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38424110412597656,
      "learning_rate": 0.000572915841711762,
      "loss": 1.7322,
      "step": 12290
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3952263295650482,
      "learning_rate": 0.0005729115015826549,
      "loss": 1.7485,
      "step": 12291
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5784225463867188,
      "learning_rate": 0.0005729071611222734,
      "loss": 1.8889,
      "step": 12292
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38684892654418945,
      "learning_rate": 0.0005729028203306228,
      "loss": 1.7161,
      "step": 12293
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3863171339035034,
      "learning_rate": 0.0005728984792077083,
      "loss": 1.7873,
      "step": 12294
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3827945291996002,
      "learning_rate": 0.0005728941377535354,
      "loss": 1.7374,
      "step": 12295
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3871646225452423,
      "learning_rate": 0.0005728897959681091,
      "loss": 1.7484,
      "step": 12296
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39494046568870544,
      "learning_rate": 0.0005728854538514349,
      "loss": 1.7479,
      "step": 12297
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39336127042770386,
      "learning_rate": 0.0005728811114035178,
      "loss": 1.8148,
      "step": 12298
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3916308879852295,
      "learning_rate": 0.0005728767686243633,
      "loss": 1.7376,
      "step": 12299
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40036144852638245,
      "learning_rate": 0.0005728724255139767,
      "loss": 1.7748,
      "step": 12300
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38225412368774414,
      "learning_rate": 0.0005728680820723633,
      "loss": 1.6193,
      "step": 12301
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.389344722032547,
      "learning_rate": 0.0005728637382995279,
      "loss": 1.8028,
      "step": 12302
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3767845630645752,
      "learning_rate": 0.0005728593941954764,
      "loss": 1.7117,
      "step": 12303
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37810954451560974,
      "learning_rate": 0.0005728550497602137,
      "loss": 1.7219,
      "step": 12304
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3854057192802429,
      "learning_rate": 0.0005728507049937452,
      "loss": 1.7681,
      "step": 12305
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38594746589660645,
      "learning_rate": 0.0005728463598960762,
      "loss": 1.8054,
      "step": 12306
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3854658007621765,
      "learning_rate": 0.0005728420144672119,
      "loss": 1.6832,
      "step": 12307
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3866846561431885,
      "learning_rate": 0.0005728376687071575,
      "loss": 1.7759,
      "step": 12308
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3823862671852112,
      "learning_rate": 0.0005728333226159184,
      "loss": 1.8129,
      "step": 12309
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39833804965019226,
      "learning_rate": 0.0005728289761934998,
      "loss": 1.8503,
      "step": 12310
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37445011734962463,
      "learning_rate": 0.0005728246294399072,
      "loss": 1.7364,
      "step": 12311
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37443220615386963,
      "learning_rate": 0.0005728202823551456,
      "loss": 1.7495,
      "step": 12312
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3856706917285919,
      "learning_rate": 0.0005728159349392203,
      "loss": 1.7172,
      "step": 12313
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37833860516548157,
      "learning_rate": 0.0005728115871921367,
      "loss": 1.77,
      "step": 12314
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37742069363594055,
      "learning_rate": 0.0005728072391139001,
      "loss": 1.7286,
      "step": 12315
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38776475191116333,
      "learning_rate": 0.0005728028907045156,
      "loss": 1.7797,
      "step": 12316
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5454245805740356,
      "learning_rate": 0.0005727985419639887,
      "loss": 1.6512,
      "step": 12317
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3744455575942993,
      "learning_rate": 0.0005727941928923245,
      "loss": 1.6501,
      "step": 12318
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3803308308124542,
      "learning_rate": 0.0005727898434895283,
      "loss": 1.7633,
      "step": 12319
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38383781909942627,
      "learning_rate": 0.0005727854937556055,
      "loss": 1.7245,
      "step": 12320
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4031837284564972,
      "learning_rate": 0.0005727811436905614,
      "loss": 1.7297,
      "step": 12321
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3759923279285431,
      "learning_rate": 0.000572776793294401,
      "loss": 1.7617,
      "step": 12322
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.36979740858078003,
      "learning_rate": 0.0005727724425671298,
      "loss": 1.7207,
      "step": 12323
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.375075101852417,
      "learning_rate": 0.0005727680915087531,
      "loss": 1.7033,
      "step": 12324
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3984163701534271,
      "learning_rate": 0.0005727637401192761,
      "loss": 1.7287,
      "step": 12325
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40408432483673096,
      "learning_rate": 0.0005727593883987041,
      "loss": 1.7164,
      "step": 12326
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37832096219062805,
      "learning_rate": 0.0005727550363470424,
      "loss": 1.7658,
      "step": 12327
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38107866048812866,
      "learning_rate": 0.0005727506839642963,
      "loss": 1.7272,
      "step": 12328
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3956129848957062,
      "learning_rate": 0.000572746331250471,
      "loss": 1.7797,
      "step": 12329
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3838241994380951,
      "learning_rate": 0.0005727419782055719,
      "loss": 1.7767,
      "step": 12330
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3927033543586731,
      "learning_rate": 0.0005727376248296042,
      "loss": 1.7533,
      "step": 12331
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3850688338279724,
      "learning_rate": 0.0005727332711225733,
      "loss": 1.7157,
      "step": 12332
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3894495964050293,
      "learning_rate": 0.0005727289170844843,
      "loss": 1.8451,
      "step": 12333
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3700338900089264,
      "learning_rate": 0.0005727245627153425,
      "loss": 1.695,
      "step": 12334
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3875262439250946,
      "learning_rate": 0.0005727202080151534,
      "loss": 1.6893,
      "step": 12335
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.370402455329895,
      "learning_rate": 0.0005727158529839221,
      "loss": 1.7274,
      "step": 12336
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5772683024406433,
      "learning_rate": 0.000572711497621654,
      "loss": 1.7601,
      "step": 12337
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37770703434944153,
      "learning_rate": 0.0005727071419283543,
      "loss": 1.7179,
      "step": 12338
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4069531559944153,
      "learning_rate": 0.0005727027859040282,
      "loss": 1.7767,
      "step": 12339
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3972131907939911,
      "learning_rate": 0.0005726984295486812,
      "loss": 1.8334,
      "step": 12340
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37322890758514404,
      "learning_rate": 0.0005726940728623184,
      "loss": 1.7766,
      "step": 12341
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3883581757545471,
      "learning_rate": 0.0005726897158449453,
      "loss": 1.6914,
      "step": 12342
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39179691672325134,
      "learning_rate": 0.0005726853584965669,
      "loss": 1.7335,
      "step": 12343
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38800573348999023,
      "learning_rate": 0.0005726810008171888,
      "loss": 1.7392,
      "step": 12344
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3938235342502594,
      "learning_rate": 0.0005726766428068161,
      "loss": 1.7498,
      "step": 12345
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38239896297454834,
      "learning_rate": 0.0005726722844654541,
      "loss": 1.6676,
      "step": 12346
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39932429790496826,
      "learning_rate": 0.0005726679257931082,
      "loss": 1.7984,
      "step": 12347
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38641557097435,
      "learning_rate": 0.0005726635667897836,
      "loss": 1.7548,
      "step": 12348
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38000112771987915,
      "learning_rate": 0.0005726592074554855,
      "loss": 1.7443,
      "step": 12349
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39052245020866394,
      "learning_rate": 0.0005726548477902193,
      "loss": 1.6697,
      "step": 12350
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38961169123649597,
      "learning_rate": 0.0005726504877939904,
      "loss": 1.7527,
      "step": 12351
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3951885402202606,
      "learning_rate": 0.0005726461274668039,
      "loss": 1.8444,
      "step": 12352
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37909063696861267,
      "learning_rate": 0.0005726417668086653,
      "loss": 1.7238,
      "step": 12353
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.385017454624176,
      "learning_rate": 0.0005726374058195797,
      "loss": 1.7407,
      "step": 12354
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38676193356513977,
      "learning_rate": 0.0005726330444995524,
      "loss": 1.7362,
      "step": 12355
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37804922461509705,
      "learning_rate": 0.0005726286828485888,
      "loss": 1.8335,
      "step": 12356
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38263067603111267,
      "learning_rate": 0.0005726243208666941,
      "loss": 1.7931,
      "step": 12357
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4268186092376709,
      "learning_rate": 0.0005726199585538738,
      "loss": 1.8849,
      "step": 12358
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3738535940647125,
      "learning_rate": 0.0005726155959101328,
      "loss": 1.68,
      "step": 12359
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4074144959449768,
      "learning_rate": 0.0005726112329354768,
      "loss": 1.8008,
      "step": 12360
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4008231461048126,
      "learning_rate": 0.0005726068696299109,
      "loss": 1.6467,
      "step": 12361
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3802691400051117,
      "learning_rate": 0.0005726025059934404,
      "loss": 1.7345,
      "step": 12362
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.386560320854187,
      "learning_rate": 0.0005725981420260707,
      "loss": 1.7217,
      "step": 12363
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.41413506865501404,
      "learning_rate": 0.000572593777727807,
      "loss": 1.6992,
      "step": 12364
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3951296806335449,
      "learning_rate": 0.0005725894130986545,
      "loss": 1.7757,
      "step": 12365
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39063334465026855,
      "learning_rate": 0.0005725850481386187,
      "loss": 1.7566,
      "step": 12366
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4005541503429413,
      "learning_rate": 0.0005725806828477049,
      "loss": 1.7823,
      "step": 12367
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4063442051410675,
      "learning_rate": 0.0005725763172259182,
      "loss": 1.7769,
      "step": 12368
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3972315490245819,
      "learning_rate": 0.000572571951273264,
      "loss": 1.73,
      "step": 12369
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40353307127952576,
      "learning_rate": 0.0005725675849897477,
      "loss": 1.7564,
      "step": 12370
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38784724473953247,
      "learning_rate": 0.0005725632183753744,
      "loss": 1.7289,
      "step": 12371
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3987608551979065,
      "learning_rate": 0.0005725588514301496,
      "loss": 1.7858,
      "step": 12372
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39703381061553955,
      "learning_rate": 0.0005725544841540784,
      "loss": 1.688,
      "step": 12373
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.382162481546402,
      "learning_rate": 0.0005725501165471664,
      "loss": 1.7127,
      "step": 12374
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3822106719017029,
      "learning_rate": 0.0005725457486094186,
      "loss": 1.7701,
      "step": 12375
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39630088210105896,
      "learning_rate": 0.0005725413803408405,
      "loss": 1.7177,
      "step": 12376
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39500510692596436,
      "learning_rate": 0.0005725370117414372,
      "loss": 1.7564,
      "step": 12377
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38027939200401306,
      "learning_rate": 0.0005725326428112141,
      "loss": 1.7014,
      "step": 12378
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37861648201942444,
      "learning_rate": 0.0005725282735501768,
      "loss": 1.7841,
      "step": 12379
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38445526361465454,
      "learning_rate": 0.0005725239039583301,
      "loss": 1.7866,
      "step": 12380
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3850204348564148,
      "learning_rate": 0.0005725195340356796,
      "loss": 1.7712,
      "step": 12381
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3940139710903168,
      "learning_rate": 0.0005725151637822305,
      "loss": 1.7201,
      "step": 12382
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3764358162879944,
      "learning_rate": 0.0005725107931979881,
      "loss": 1.7807,
      "step": 12383
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3782176673412323,
      "learning_rate": 0.0005725064222829578,
      "loss": 1.7605,
      "step": 12384
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3770653307437897,
      "learning_rate": 0.0005725020510371449,
      "loss": 1.7686,
      "step": 12385
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3782367408275604,
      "learning_rate": 0.0005724976794605546,
      "loss": 1.7181,
      "step": 12386
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4131507873535156,
      "learning_rate": 0.0005724933075531924,
      "loss": 1.7621,
      "step": 12387
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37619736790657043,
      "learning_rate": 0.0005724889353150633,
      "loss": 1.7961,
      "step": 12388
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3884928226470947,
      "learning_rate": 0.0005724845627461729,
      "loss": 1.6853,
      "step": 12389
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3935554623603821,
      "learning_rate": 0.0005724801898465263,
      "loss": 1.7416,
      "step": 12390
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38715508580207825,
      "learning_rate": 0.0005724758166161289,
      "loss": 1.6941,
      "step": 12391
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37554848194122314,
      "learning_rate": 0.0005724714430549861,
      "loss": 1.7489,
      "step": 12392
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3926031291484833,
      "learning_rate": 0.0005724670691631031,
      "loss": 1.7904,
      "step": 12393
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.393266499042511,
      "learning_rate": 0.0005724626949404852,
      "loss": 1.7932,
      "step": 12394
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3939802646636963,
      "learning_rate": 0.0005724583203871377,
      "loss": 1.7509,
      "step": 12395
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38246506452560425,
      "learning_rate": 0.000572453945503066,
      "loss": 1.697,
      "step": 12396
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39066970348358154,
      "learning_rate": 0.0005724495702882752,
      "loss": 1.7645,
      "step": 12397
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3992861211299896,
      "learning_rate": 0.0005724451947427709,
      "loss": 1.775,
      "step": 12398
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3873356878757477,
      "learning_rate": 0.0005724408188665583,
      "loss": 1.7352,
      "step": 12399
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3801122009754181,
      "learning_rate": 0.0005724364426596427,
      "loss": 1.676,
      "step": 12400
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3875437378883362,
      "learning_rate": 0.0005724320661220293,
      "loss": 1.8101,
      "step": 12401
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38735732436180115,
      "learning_rate": 0.0005724276892537236,
      "loss": 1.7386,
      "step": 12402
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3874194324016571,
      "learning_rate": 0.0005724233120547308,
      "loss": 1.8005,
      "step": 12403
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4333317279815674,
      "learning_rate": 0.0005724189345250562,
      "loss": 1.8011,
      "step": 12404
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3843707740306854,
      "learning_rate": 0.0005724145566647051,
      "loss": 1.7713,
      "step": 12405
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3832787573337555,
      "learning_rate": 0.0005724101784736831,
      "loss": 1.7659,
      "step": 12406
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3965599238872528,
      "learning_rate": 0.0005724057999519951,
      "loss": 1.7379,
      "step": 12407
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3929208219051361,
      "learning_rate": 0.0005724014210996465,
      "loss": 1.7062,
      "step": 12408
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4060538113117218,
      "learning_rate": 0.0005723970419166429,
      "loss": 1.7218,
      "step": 12409
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4078613519668579,
      "learning_rate": 0.0005723926624029894,
      "loss": 1.7458,
      "step": 12410
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40512099862098694,
      "learning_rate": 0.0005723882825586912,
      "loss": 1.6898,
      "step": 12411
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39921149611473083,
      "learning_rate": 0.000572383902383754,
      "loss": 1.7104,
      "step": 12412
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.388825923204422,
      "learning_rate": 0.0005723795218781827,
      "loss": 1.7342,
      "step": 12413
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3863413333892822,
      "learning_rate": 0.0005723751410419827,
      "loss": 1.7138,
      "step": 12414
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4046761393547058,
      "learning_rate": 0.0005723707598751596,
      "loss": 1.763,
      "step": 12415
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.391278475522995,
      "learning_rate": 0.0005723663783777185,
      "loss": 1.7843,
      "step": 12416
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.36793917417526245,
      "learning_rate": 0.0005723619965496647,
      "loss": 1.7659,
      "step": 12417
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3957836925983429,
      "learning_rate": 0.0005723576143910037,
      "loss": 1.738,
      "step": 12418
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4015234708786011,
      "learning_rate": 0.0005723532319017405,
      "loss": 1.7244,
      "step": 12419
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3943978548049927,
      "learning_rate": 0.0005723488490818807,
      "loss": 1.8075,
      "step": 12420
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38885530829429626,
      "learning_rate": 0.0005723444659314295,
      "loss": 1.7588,
      "step": 12421
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3979686200618744,
      "learning_rate": 0.0005723400824503923,
      "loss": 1.8152,
      "step": 12422
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.380861759185791,
      "learning_rate": 0.0005723356986387743,
      "loss": 1.7255,
      "step": 12423
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38398441672325134,
      "learning_rate": 0.0005723313144965809,
      "loss": 1.7424,
      "step": 12424
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39007771015167236,
      "learning_rate": 0.0005723269300238174,
      "loss": 1.7904,
      "step": 12425
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3944733142852783,
      "learning_rate": 0.0005723225452204892,
      "loss": 1.7684,
      "step": 12426
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3834479749202728,
      "learning_rate": 0.0005723181600866015,
      "loss": 1.7462,
      "step": 12427
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3920480012893677,
      "learning_rate": 0.0005723137746221597,
      "loss": 1.754,
      "step": 12428
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.402625173330307,
      "learning_rate": 0.000572309388827169,
      "loss": 1.8486,
      "step": 12429
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3812914788722992,
      "learning_rate": 0.000572305002701635,
      "loss": 1.7533,
      "step": 12430
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4006713628768921,
      "learning_rate": 0.0005723006162455628,
      "loss": 1.7397,
      "step": 12431
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3938293755054474,
      "learning_rate": 0.0005722962294589577,
      "loss": 1.7802,
      "step": 12432
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3804400861263275,
      "learning_rate": 0.0005722918423418251,
      "loss": 1.6828,
      "step": 12433
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.387443482875824,
      "learning_rate": 0.0005722874548941704,
      "loss": 1.7345,
      "step": 12434
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3892354369163513,
      "learning_rate": 0.0005722830671159988,
      "loss": 1.7153,
      "step": 12435
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3999498784542084,
      "learning_rate": 0.0005722786790073156,
      "loss": 1.8119,
      "step": 12436
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3796216547489166,
      "learning_rate": 0.0005722742905681263,
      "loss": 1.6903,
      "step": 12437
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38642358779907227,
      "learning_rate": 0.0005722699017984362,
      "loss": 1.7577,
      "step": 12438
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3973461091518402,
      "learning_rate": 0.0005722655126982505,
      "loss": 1.7012,
      "step": 12439
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3823062777519226,
      "learning_rate": 0.0005722611232675745,
      "loss": 1.761,
      "step": 12440
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38124582171440125,
      "learning_rate": 0.0005722567335064136,
      "loss": 1.8023,
      "step": 12441
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3774932324886322,
      "learning_rate": 0.0005722523434147733,
      "loss": 1.689,
      "step": 12442
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39620086550712585,
      "learning_rate": 0.0005722479529926586,
      "loss": 1.7332,
      "step": 12443
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3882381021976471,
      "learning_rate": 0.0005722435622400751,
      "loss": 1.7279,
      "step": 12444
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3746393322944641,
      "learning_rate": 0.000572239171157028,
      "loss": 1.6896,
      "step": 12445
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3742792308330536,
      "learning_rate": 0.0005722347797435227,
      "loss": 1.7703,
      "step": 12446
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38130757212638855,
      "learning_rate": 0.0005722303879995644,
      "loss": 1.7156,
      "step": 12447
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.41142916679382324,
      "learning_rate": 0.0005722259959251586,
      "loss": 1.7323,
      "step": 12448
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39344853162765503,
      "learning_rate": 0.0005722216035203105,
      "loss": 1.8122,
      "step": 12449
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3880406320095062,
      "learning_rate": 0.0005722172107850255,
      "loss": 1.7063,
      "step": 12450
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3853215277194977,
      "learning_rate": 0.0005722128177193089,
      "loss": 1.7542,
      "step": 12451
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3878690302371979,
      "learning_rate": 0.0005722084243231661,
      "loss": 1.75,
      "step": 12452
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3800703287124634,
      "learning_rate": 0.0005722040305966024,
      "loss": 1.7325,
      "step": 12453
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39412879943847656,
      "learning_rate": 0.000572199636539623,
      "loss": 1.8396,
      "step": 12454
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3874833285808563,
      "learning_rate": 0.0005721952421522334,
      "loss": 1.7608,
      "step": 12455
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3841661214828491,
      "learning_rate": 0.0005721908474344389,
      "loss": 1.7147,
      "step": 12456
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3891838490962982,
      "learning_rate": 0.0005721864523862448,
      "loss": 1.7169,
      "step": 12457
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40547820925712585,
      "learning_rate": 0.0005721820570076566,
      "loss": 1.6798,
      "step": 12458
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38559553027153015,
      "learning_rate": 0.0005721776612986792,
      "loss": 1.7571,
      "step": 12459
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3833829462528229,
      "learning_rate": 0.0005721732652593185,
      "loss": 1.7382,
      "step": 12460
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38828611373901367,
      "learning_rate": 0.0005721688688895794,
      "loss": 1.755,
      "step": 12461
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3927299380302429,
      "learning_rate": 0.0005721644721894673,
      "loss": 1.7775,
      "step": 12462
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.37092676758766174,
      "learning_rate": 0.0005721600751589878,
      "loss": 1.7392,
      "step": 12463
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.39220309257507324,
      "learning_rate": 0.000572155677798146,
      "loss": 1.7735,
      "step": 12464
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.40713056921958923,
      "learning_rate": 0.0005721512801069474,
      "loss": 1.7474,
      "step": 12465
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3815458416938782,
      "learning_rate": 0.0005721468820853972,
      "loss": 1.7027,
      "step": 12466
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38569629192352295,
      "learning_rate": 0.0005721424837335007,
      "loss": 1.7759,
      "step": 12467
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.44161257147789,
      "learning_rate": 0.0005721380850512635,
      "loss": 1.7662,
      "step": 12468
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38986384868621826,
      "learning_rate": 0.0005721336860386905,
      "loss": 1.7035,
      "step": 12469
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3798843026161194,
      "learning_rate": 0.0005721292866957875,
      "loss": 1.7739,
      "step": 12470
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.38513633608818054,
      "learning_rate": 0.0005721248870225597,
      "loss": 1.6877,
      "step": 12471
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3895099461078644,
      "learning_rate": 0.0005721204870190123,
      "loss": 1.77,
      "step": 12472
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3772844076156616,
      "learning_rate": 0.0005721160866851506,
      "loss": 1.7254,
      "step": 12473
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38932979106903076,
      "learning_rate": 0.0005721116860209802,
      "loss": 1.6544,
      "step": 12474
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3902580738067627,
      "learning_rate": 0.0005721072850265063,
      "loss": 1.6925,
      "step": 12475
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3763323724269867,
      "learning_rate": 0.0005721028837017342,
      "loss": 1.6716,
      "step": 12476
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3814028203487396,
      "learning_rate": 0.0005720984820466693,
      "loss": 1.7615,
      "step": 12477
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3916013240814209,
      "learning_rate": 0.0005720940800613169,
      "loss": 1.7082,
      "step": 12478
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39886757731437683,
      "learning_rate": 0.0005720896777456825,
      "loss": 1.7778,
      "step": 12479
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3971988558769226,
      "learning_rate": 0.0005720852750997713,
      "loss": 1.7481,
      "step": 12480
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3875047564506531,
      "learning_rate": 0.0005720808721235886,
      "loss": 1.7736,
      "step": 12481
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38461536169052124,
      "learning_rate": 0.0005720764688171398,
      "loss": 1.7359,
      "step": 12482
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.380113810300827,
      "learning_rate": 0.0005720720651804302,
      "loss": 1.6984,
      "step": 12483
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39231058955192566,
      "learning_rate": 0.0005720676612134653,
      "loss": 1.7452,
      "step": 12484
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3783234655857086,
      "learning_rate": 0.0005720632569162504,
      "loss": 1.8021,
      "step": 12485
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38429951667785645,
      "learning_rate": 0.0005720588522887907,
      "loss": 1.6766,
      "step": 12486
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37720081210136414,
      "learning_rate": 0.0005720544473310917,
      "loss": 1.7762,
      "step": 12487
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3752729594707489,
      "learning_rate": 0.0005720500420431586,
      "loss": 1.6469,
      "step": 12488
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3914084732532501,
      "learning_rate": 0.0005720456364249969,
      "loss": 1.7524,
      "step": 12489
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39852917194366455,
      "learning_rate": 0.0005720412304766119,
      "loss": 1.7349,
      "step": 12490
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4068874716758728,
      "learning_rate": 0.0005720368241980088,
      "loss": 1.7455,
      "step": 12491
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39434510469436646,
      "learning_rate": 0.0005720324175891932,
      "loss": 1.7636,
      "step": 12492
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37197667360305786,
      "learning_rate": 0.0005720280106501703,
      "loss": 1.6552,
      "step": 12493
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3791857063770294,
      "learning_rate": 0.0005720236033809454,
      "loss": 1.7624,
      "step": 12494
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.41225093603134155,
      "learning_rate": 0.0005720191957815241,
      "loss": 1.6871,
      "step": 12495
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3959793746471405,
      "learning_rate": 0.0005720147878519115,
      "loss": 1.7658,
      "step": 12496
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39662685990333557,
      "learning_rate": 0.000572010379592113,
      "loss": 1.7799,
      "step": 12497
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6658468246459961,
      "learning_rate": 0.000572005971002134,
      "loss": 1.6914,
      "step": 12498
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.381065309047699,
      "learning_rate": 0.0005720015620819797,
      "loss": 1.7898,
      "step": 12499
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3795798420906067,
      "learning_rate": 0.0005719971528316557,
      "loss": 1.7529,
      "step": 12500
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39026957750320435,
      "learning_rate": 0.0005719927432511673,
      "loss": 1.7433,
      "step": 12501
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38397082686424255,
      "learning_rate": 0.0005719883333405197,
      "loss": 1.715,
      "step": 12502
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3704991936683655,
      "learning_rate": 0.0005719839230997184,
      "loss": 1.6911,
      "step": 12503
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3802100419998169,
      "learning_rate": 0.0005719795125287686,
      "loss": 1.6461,
      "step": 12504
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3833718001842499,
      "learning_rate": 0.0005719751016276759,
      "loss": 1.7579,
      "step": 12505
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37535953521728516,
      "learning_rate": 0.0005719706903964453,
      "loss": 1.7065,
      "step": 12506
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39595821499824524,
      "learning_rate": 0.0005719662788350823,
      "loss": 1.7497,
      "step": 12507
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3919324576854706,
      "learning_rate": 0.0005719618669435926,
      "loss": 1.7452,
      "step": 12508
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38793569803237915,
      "learning_rate": 0.0005719574547219811,
      "loss": 1.6966,
      "step": 12509
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37274497747421265,
      "learning_rate": 0.0005719530421702533,
      "loss": 1.7612,
      "step": 12510
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38858771324157715,
      "learning_rate": 0.0005719486292884146,
      "loss": 1.7146,
      "step": 12511
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3964603543281555,
      "learning_rate": 0.0005719442160764704,
      "loss": 1.792,
      "step": 12512
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3920263946056366,
      "learning_rate": 0.000571939802534426,
      "loss": 1.7901,
      "step": 12513
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4030473828315735,
      "learning_rate": 0.0005719353886622866,
      "loss": 1.8539,
      "step": 12514
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3716450333595276,
      "learning_rate": 0.0005719309744600578,
      "loss": 1.7202,
      "step": 12515
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37682032585144043,
      "learning_rate": 0.0005719265599277448,
      "loss": 1.7381,
      "step": 12516
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3805615305900574,
      "learning_rate": 0.0005719221450653532,
      "loss": 1.7346,
      "step": 12517
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3795243501663208,
      "learning_rate": 0.0005719177298728881,
      "loss": 1.7824,
      "step": 12518
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3803360164165497,
      "learning_rate": 0.0005719133143503548,
      "loss": 1.7815,
      "step": 12519
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3769311308860779,
      "learning_rate": 0.0005719088984977589,
      "loss": 1.775,
      "step": 12520
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38148319721221924,
      "learning_rate": 0.0005719044823151057,
      "loss": 1.7049,
      "step": 12521
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3799119293689728,
      "learning_rate": 0.0005719000658024005,
      "loss": 1.7932,
      "step": 12522
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3814064860343933,
      "learning_rate": 0.0005718956489596486,
      "loss": 1.7828,
      "step": 12523
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3958227336406708,
      "learning_rate": 0.0005718912317868556,
      "loss": 1.7921,
      "step": 12524
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.383792906999588,
      "learning_rate": 0.0005718868142840267,
      "loss": 1.7125,
      "step": 12525
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3875894546508789,
      "learning_rate": 0.000571882396451167,
      "loss": 1.7993,
      "step": 12526
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3928114175796509,
      "learning_rate": 0.0005718779782882825,
      "loss": 1.764,
      "step": 12527
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3841029107570648,
      "learning_rate": 0.000571873559795378,
      "loss": 1.7135,
      "step": 12528
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3755917549133301,
      "learning_rate": 0.000571869140972459,
      "loss": 1.7705,
      "step": 12529
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39566659927368164,
      "learning_rate": 0.0005718647218195311,
      "loss": 1.8578,
      "step": 12530
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39557552337646484,
      "learning_rate": 0.0005718603023365993,
      "loss": 1.7587,
      "step": 12531
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3900938630104065,
      "learning_rate": 0.0005718558825236692,
      "loss": 1.7832,
      "step": 12532
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3868798017501831,
      "learning_rate": 0.0005718514623807462,
      "loss": 1.752,
      "step": 12533
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38561204075813293,
      "learning_rate": 0.0005718470419078355,
      "loss": 1.7959,
      "step": 12534
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39525148272514343,
      "learning_rate": 0.0005718426211049426,
      "loss": 1.8028,
      "step": 12535
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39202749729156494,
      "learning_rate": 0.0005718381999720727,
      "loss": 1.7393,
      "step": 12536
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3953620493412018,
      "learning_rate": 0.0005718337785092315,
      "loss": 1.692,
      "step": 12537
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3991214632987976,
      "learning_rate": 0.0005718293567164239,
      "loss": 1.7155,
      "step": 12538
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3768203556537628,
      "learning_rate": 0.0005718249345936556,
      "loss": 1.7131,
      "step": 12539
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39511290192604065,
      "learning_rate": 0.0005718205121409319,
      "loss": 1.7283,
      "step": 12540
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3972524106502533,
      "learning_rate": 0.0005718160893582582,
      "loss": 1.762,
      "step": 12541
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37579813599586487,
      "learning_rate": 0.0005718116662456397,
      "loss": 1.7207,
      "step": 12542
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3886176347732544,
      "learning_rate": 0.0005718072428030819,
      "loss": 1.7759,
      "step": 12543
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37841272354125977,
      "learning_rate": 0.0005718028190305903,
      "loss": 1.6712,
      "step": 12544
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3849399983882904,
      "learning_rate": 0.00057179839492817,
      "loss": 1.7658,
      "step": 12545
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37999531626701355,
      "learning_rate": 0.0005717939704958266,
      "loss": 1.7048,
      "step": 12546
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3741956055164337,
      "learning_rate": 0.0005717895457335653,
      "loss": 1.6766,
      "step": 12547
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3824945390224457,
      "learning_rate": 0.0005717851206413914,
      "loss": 1.7579,
      "step": 12548
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.375396728515625,
      "learning_rate": 0.0005717806952193106,
      "loss": 1.7251,
      "step": 12549
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39240318536758423,
      "learning_rate": 0.000571776269467328,
      "loss": 1.6798,
      "step": 12550
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37860772013664246,
      "learning_rate": 0.0005717718433854492,
      "loss": 1.7417,
      "step": 12551
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3822788894176483,
      "learning_rate": 0.0005717674169736793,
      "loss": 1.7548,
      "step": 12552
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38236308097839355,
      "learning_rate": 0.0005717629902320237,
      "loss": 1.7492,
      "step": 12553
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3656061887741089,
      "learning_rate": 0.000571758563160488,
      "loss": 1.6746,
      "step": 12554
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38992610573768616,
      "learning_rate": 0.0005717541357590774,
      "loss": 1.7453,
      "step": 12555
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39091965556144714,
      "learning_rate": 0.0005717497080277974,
      "loss": 1.7921,
      "step": 12556
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3754327893257141,
      "learning_rate": 0.0005717452799666532,
      "loss": 1.732,
      "step": 12557
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38622793555259705,
      "learning_rate": 0.0005717408515756503,
      "loss": 1.7868,
      "step": 12558
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3943271040916443,
      "learning_rate": 0.0005717364228547941,
      "loss": 1.7797,
      "step": 12559
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40070879459381104,
      "learning_rate": 0.0005717319938040899,
      "loss": 1.7652,
      "step": 12560
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3759588897228241,
      "learning_rate": 0.000571727564423543,
      "loss": 1.7541,
      "step": 12561
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3842327892780304,
      "learning_rate": 0.000571723134713159,
      "loss": 1.7902,
      "step": 12562
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3982153534889221,
      "learning_rate": 0.0005717187046729431,
      "loss": 1.6801,
      "step": 12563
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37324413657188416,
      "learning_rate": 0.0005717142743029007,
      "loss": 1.7499,
      "step": 12564
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3920056223869324,
      "learning_rate": 0.0005717098436030373,
      "loss": 1.7854,
      "step": 12565
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37733474373817444,
      "learning_rate": 0.000571705412573358,
      "loss": 1.6732,
      "step": 12566
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39245229959487915,
      "learning_rate": 0.0005717009812138686,
      "loss": 1.7296,
      "step": 12567
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39052072167396545,
      "learning_rate": 0.0005716965495245741,
      "loss": 1.7944,
      "step": 12568
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3863155245780945,
      "learning_rate": 0.00057169211750548,
      "loss": 1.7872,
      "step": 12569
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39161765575408936,
      "learning_rate": 0.0005716876851565917,
      "loss": 1.7766,
      "step": 12570
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.41421180963516235,
      "learning_rate": 0.0005716832524779146,
      "loss": 1.685,
      "step": 12571
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3877823054790497,
      "learning_rate": 0.0005716788194694542,
      "loss": 1.7186,
      "step": 12572
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.36738359928131104,
      "learning_rate": 0.0005716743861312155,
      "loss": 1.7568,
      "step": 12573
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.401485413312912,
      "learning_rate": 0.0005716699524632044,
      "loss": 1.8183,
      "step": 12574
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3999621570110321,
      "learning_rate": 0.0005716655184654257,
      "loss": 1.7416,
      "step": 12575
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3895217180252075,
      "learning_rate": 0.0005716610841378854,
      "loss": 1.8492,
      "step": 12576
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3818499445915222,
      "learning_rate": 0.0005716566494805884,
      "loss": 1.7488,
      "step": 12577
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39707913994789124,
      "learning_rate": 0.0005716522144935402,
      "loss": 1.7889,
      "step": 12578
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3845894932746887,
      "learning_rate": 0.0005716477791767463,
      "loss": 1.7871,
      "step": 12579
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3908935487270355,
      "learning_rate": 0.000571643343530212,
      "loss": 1.7384,
      "step": 12580
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3746180236339569,
      "learning_rate": 0.0005716389075539428,
      "loss": 1.7452,
      "step": 12581
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38738855719566345,
      "learning_rate": 0.000571634471247944,
      "loss": 1.7391,
      "step": 12582
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3991410732269287,
      "learning_rate": 0.0005716300346122208,
      "loss": 1.7544,
      "step": 12583
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39244499802589417,
      "learning_rate": 0.0005716255976467789,
      "loss": 1.7661,
      "step": 12584
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3848506510257721,
      "learning_rate": 0.0005716211603516235,
      "loss": 1.7971,
      "step": 12585
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4013800024986267,
      "learning_rate": 0.00057161672272676,
      "loss": 1.7285,
      "step": 12586
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40174150466918945,
      "learning_rate": 0.0005716122847721939,
      "loss": 1.6862,
      "step": 12587
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38332033157348633,
      "learning_rate": 0.0005716078464879304,
      "loss": 1.8043,
      "step": 12588
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3837581276893616,
      "learning_rate": 0.0005716034078739751,
      "loss": 1.7705,
      "step": 12589
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39732375741004944,
      "learning_rate": 0.0005715989689303333,
      "loss": 1.7886,
      "step": 12590
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40385839343070984,
      "learning_rate": 0.0005715945296570103,
      "loss": 1.8057,
      "step": 12591
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3881412744522095,
      "learning_rate": 0.0005715900900540116,
      "loss": 1.7504,
      "step": 12592
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38643601536750793,
      "learning_rate": 0.0005715856501213425,
      "loss": 1.7441,
      "step": 12593
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39203229546546936,
      "learning_rate": 0.0005715812098590085,
      "loss": 1.7874,
      "step": 12594
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37903109192848206,
      "learning_rate": 0.0005715767692670149,
      "loss": 1.8265,
      "step": 12595
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38139963150024414,
      "learning_rate": 0.0005715723283453671,
      "loss": 1.7279,
      "step": 12596
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3855568468570709,
      "learning_rate": 0.0005715678870940705,
      "loss": 1.7605,
      "step": 12597
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3955156207084656,
      "learning_rate": 0.0005715634455131305,
      "loss": 1.7177,
      "step": 12598
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3831539452075958,
      "learning_rate": 0.0005715590036025525,
      "loss": 1.7793,
      "step": 12599
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.378306120634079,
      "learning_rate": 0.000571554561362342,
      "loss": 1.727,
      "step": 12600
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39243948459625244,
      "learning_rate": 0.000571550118792504,
      "loss": 1.7747,
      "step": 12601
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4251747727394104,
      "learning_rate": 0.0005715456758930443,
      "loss": 1.7719,
      "step": 12602
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3807881474494934,
      "learning_rate": 0.0005715412326639682,
      "loss": 1.7711,
      "step": 12603
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3881276845932007,
      "learning_rate": 0.0005715367891052811,
      "loss": 1.7863,
      "step": 12604
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3975279927253723,
      "learning_rate": 0.0005715323452169883,
      "loss": 1.7692,
      "step": 12605
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4027293920516968,
      "learning_rate": 0.0005715279009990952,
      "loss": 1.7575,
      "step": 12606
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38701149821281433,
      "learning_rate": 0.0005715234564516072,
      "loss": 1.7425,
      "step": 12607
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3711497187614441,
      "learning_rate": 0.0005715190115745299,
      "loss": 1.7137,
      "step": 12608
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4044387936592102,
      "learning_rate": 0.0005715145663678684,
      "loss": 1.8119,
      "step": 12609
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.390373170375824,
      "learning_rate": 0.0005715101208316282,
      "loss": 1.757,
      "step": 12610
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3806101381778717,
      "learning_rate": 0.0005715056749658147,
      "loss": 1.7975,
      "step": 12611
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40706971287727356,
      "learning_rate": 0.0005715012287704335,
      "loss": 1.823,
      "step": 12612
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3945232927799225,
      "learning_rate": 0.0005714967822454896,
      "loss": 1.7751,
      "step": 12613
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37955427169799805,
      "learning_rate": 0.0005714923353909887,
      "loss": 1.7679,
      "step": 12614
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40131059288978577,
      "learning_rate": 0.0005714878882069361,
      "loss": 1.8207,
      "step": 12615
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3803291320800781,
      "learning_rate": 0.0005714834406933372,
      "loss": 1.7369,
      "step": 12616
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37437134981155396,
      "learning_rate": 0.0005714789928501975,
      "loss": 1.7301,
      "step": 12617
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40055787563323975,
      "learning_rate": 0.0005714745446775221,
      "loss": 1.7911,
      "step": 12618
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39057457447052,
      "learning_rate": 0.0005714700961753168,
      "loss": 1.6921,
      "step": 12619
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3871651887893677,
      "learning_rate": 0.0005714656473435867,
      "loss": 1.7783,
      "step": 12620
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38786032795906067,
      "learning_rate": 0.0005714611981823374,
      "loss": 1.8082,
      "step": 12621
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.393685907125473,
      "learning_rate": 0.000571456748691574,
      "loss": 1.7125,
      "step": 12622
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3855987787246704,
      "learning_rate": 0.0005714522988713022,
      "loss": 1.7538,
      "step": 12623
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3665838837623596,
      "learning_rate": 0.0005714478487215274,
      "loss": 1.6978,
      "step": 12624
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38606277108192444,
      "learning_rate": 0.0005714433982422549,
      "loss": 1.7587,
      "step": 12625
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39358893036842346,
      "learning_rate": 0.0005714389474334901,
      "loss": 1.7583,
      "step": 12626
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3985293507575989,
      "learning_rate": 0.0005714344962952383,
      "loss": 1.753,
      "step": 12627
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3870033323764801,
      "learning_rate": 0.000571430044827505,
      "loss": 1.803,
      "step": 12628
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37891072034835815,
      "learning_rate": 0.0005714255930302957,
      "loss": 1.7094,
      "step": 12629
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40482237935066223,
      "learning_rate": 0.0005714211409036158,
      "loss": 1.8544,
      "step": 12630
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39089930057525635,
      "learning_rate": 0.0005714166884474705,
      "loss": 1.759,
      "step": 12631
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3751431703567505,
      "learning_rate": 0.0005714122356618654,
      "loss": 1.7125,
      "step": 12632
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3771531283855438,
      "learning_rate": 0.0005714077825468058,
      "loss": 1.7264,
      "step": 12633
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37209901213645935,
      "learning_rate": 0.0005714033291022972,
      "loss": 1.7109,
      "step": 12634
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3850346505641937,
      "learning_rate": 0.0005713988753283449,
      "loss": 1.7374,
      "step": 12635
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3912498652935028,
      "learning_rate": 0.0005713944212249544,
      "loss": 1.7474,
      "step": 12636
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3869591951370239,
      "learning_rate": 0.000571389966792131,
      "loss": 1.7509,
      "step": 12637
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3756240904331207,
      "learning_rate": 0.0005713855120298802,
      "loss": 1.7043,
      "step": 12638
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3897697329521179,
      "learning_rate": 0.0005713810569382074,
      "loss": 1.7982,
      "step": 12639
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39007675647735596,
      "learning_rate": 0.000571376601517118,
      "loss": 1.7465,
      "step": 12640
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3752420246601105,
      "learning_rate": 0.0005713721457666173,
      "loss": 1.747,
      "step": 12641
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39143961668014526,
      "learning_rate": 0.0005713676896867109,
      "loss": 1.7648,
      "step": 12642
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3994755148887634,
      "learning_rate": 0.000571363233277404,
      "loss": 1.755,
      "step": 12643
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3820981979370117,
      "learning_rate": 0.0005713587765387022,
      "loss": 1.7469,
      "step": 12644
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37745606899261475,
      "learning_rate": 0.0005713543194706108,
      "loss": 1.7198,
      "step": 12645
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4030270278453827,
      "learning_rate": 0.0005713498620731352,
      "loss": 1.728,
      "step": 12646
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3896844983100891,
      "learning_rate": 0.0005713454043462809,
      "loss": 1.7194,
      "step": 12647
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3853048086166382,
      "learning_rate": 0.0005713409462900532,
      "loss": 1.7056,
      "step": 12648
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.384207159280777,
      "learning_rate": 0.0005713364879044577,
      "loss": 1.7711,
      "step": 12649
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3765728175640106,
      "learning_rate": 0.0005713320291894995,
      "loss": 1.6678,
      "step": 12650
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38441503047943115,
      "learning_rate": 0.0005713275701451844,
      "loss": 1.7909,
      "step": 12651
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4449809193611145,
      "learning_rate": 0.0005713231107715174,
      "loss": 1.7839,
      "step": 12652
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3857060670852661,
      "learning_rate": 0.0005713186510685043,
      "loss": 1.7135,
      "step": 12653
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37848928570747375,
      "learning_rate": 0.0005713141910361503,
      "loss": 1.8047,
      "step": 12654
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3929505944252014,
      "learning_rate": 0.0005713097306744607,
      "loss": 1.7687,
      "step": 12655
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40004152059555054,
      "learning_rate": 0.0005713052699834411,
      "loss": 1.7799,
      "step": 12656
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38303038477897644,
      "learning_rate": 0.000571300808963097,
      "loss": 1.7499,
      "step": 12657
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3753092885017395,
      "learning_rate": 0.0005712963476134337,
      "loss": 1.6447,
      "step": 12658
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37182456254959106,
      "learning_rate": 0.0005712918859344565,
      "loss": 1.6731,
      "step": 12659
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38942331075668335,
      "learning_rate": 0.0005712874239261709,
      "loss": 1.8619,
      "step": 12660
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.386378675699234,
      "learning_rate": 0.0005712829615885824,
      "loss": 1.7102,
      "step": 12661
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3928293287754059,
      "learning_rate": 0.0005712784989216964,
      "loss": 1.7131,
      "step": 12662
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40086472034454346,
      "learning_rate": 0.0005712740359255183,
      "loss": 1.8319,
      "step": 12663
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3722245395183563,
      "learning_rate": 0.0005712695726000534,
      "loss": 1.7304,
      "step": 12664
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38612520694732666,
      "learning_rate": 0.0005712651089453073,
      "loss": 1.8067,
      "step": 12665
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40288010239601135,
      "learning_rate": 0.0005712606449612852,
      "loss": 1.7568,
      "step": 12666
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3915891647338867,
      "learning_rate": 0.0005712561806479927,
      "loss": 1.7411,
      "step": 12667
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3816780149936676,
      "learning_rate": 0.0005712517160054352,
      "loss": 1.7134,
      "step": 12668
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3849647045135498,
      "learning_rate": 0.000571247251033618,
      "loss": 1.709,
      "step": 12669
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4002211093902588,
      "learning_rate": 0.0005712427857325466,
      "loss": 1.7525,
      "step": 12670
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3812456429004669,
      "learning_rate": 0.0005712383201022266,
      "loss": 1.7383,
      "step": 12671
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37996864318847656,
      "learning_rate": 0.0005712338541426632,
      "loss": 1.7827,
      "step": 12672
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40137559175491333,
      "learning_rate": 0.0005712293878538618,
      "loss": 1.7491,
      "step": 12673
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38204076886177063,
      "learning_rate": 0.0005712249212358278,
      "loss": 1.7035,
      "step": 12674
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3839073181152344,
      "learning_rate": 0.0005712204542885668,
      "loss": 1.7267,
      "step": 12675
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39081424474716187,
      "learning_rate": 0.0005712159870120841,
      "loss": 1.6692,
      "step": 12676
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.383392870426178,
      "learning_rate": 0.0005712115194063853,
      "loss": 1.7161,
      "step": 12677
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.391126424074173,
      "learning_rate": 0.0005712070514714754,
      "loss": 1.6947,
      "step": 12678
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.387259304523468,
      "learning_rate": 0.0005712025832073604,
      "loss": 1.7078,
      "step": 12679
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3914182186126709,
      "learning_rate": 0.0005711981146140451,
      "loss": 1.8438,
      "step": 12680
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3825492858886719,
      "learning_rate": 0.0005711936456915355,
      "loss": 1.7287,
      "step": 12681
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3694024384021759,
      "learning_rate": 0.0005711891764398367,
      "loss": 1.6533,
      "step": 12682
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3927897810935974,
      "learning_rate": 0.0005711847068589542,
      "loss": 1.7388,
      "step": 12683
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38456642627716064,
      "learning_rate": 0.0005711802369488934,
      "loss": 1.7372,
      "step": 12684
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38645580410957336,
      "learning_rate": 0.0005711757667096598,
      "loss": 1.7369,
      "step": 12685
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3763231933116913,
      "learning_rate": 0.0005711712961412587,
      "loss": 1.7864,
      "step": 12686
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38604775071144104,
      "learning_rate": 0.0005711668252436957,
      "loss": 1.7924,
      "step": 12687
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38191062211990356,
      "learning_rate": 0.0005711623540169761,
      "loss": 1.6923,
      "step": 12688
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3845253884792328,
      "learning_rate": 0.0005711578824611053,
      "loss": 1.7107,
      "step": 12689
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3686359226703644,
      "learning_rate": 0.0005711534105760888,
      "loss": 1.7051,
      "step": 12690
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38651373982429504,
      "learning_rate": 0.000571148938361932,
      "loss": 1.749,
      "step": 12691
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38743844628334045,
      "learning_rate": 0.0005711444658186404,
      "loss": 1.7505,
      "step": 12692
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37926414608955383,
      "learning_rate": 0.0005711399929462193,
      "loss": 1.6911,
      "step": 12693
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3989703059196472,
      "learning_rate": 0.0005711355197446742,
      "loss": 1.7183,
      "step": 12694
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40131890773773193,
      "learning_rate": 0.0005711310462140106,
      "loss": 1.7384,
      "step": 12695
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38406890630722046,
      "learning_rate": 0.0005711265723542338,
      "loss": 1.7445,
      "step": 12696
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.392483115196228,
      "learning_rate": 0.0005711220981653493,
      "loss": 1.8111,
      "step": 12697
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39520367980003357,
      "learning_rate": 0.0005711176236473626,
      "loss": 1.7543,
      "step": 12698
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38766878843307495,
      "learning_rate": 0.0005711131488002789,
      "loss": 1.7641,
      "step": 12699
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3917680084705353,
      "learning_rate": 0.000571108673624104,
      "loss": 1.76,
      "step": 12700
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3854985237121582,
      "learning_rate": 0.0005711041981188429,
      "loss": 1.8019,
      "step": 12701
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37363502383232117,
      "learning_rate": 0.0005710997222845013,
      "loss": 1.6795,
      "step": 12702
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37855198979377747,
      "learning_rate": 0.0005710952461210846,
      "loss": 1.7361,
      "step": 12703
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3802550435066223,
      "learning_rate": 0.0005710907696285983,
      "loss": 1.7729,
      "step": 12704
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4133969247341156,
      "learning_rate": 0.0005710862928070477,
      "loss": 1.7063,
      "step": 12705
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38089463114738464,
      "learning_rate": 0.0005710818156564382,
      "loss": 1.7424,
      "step": 12706
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38743868470191956,
      "learning_rate": 0.0005710773381767754,
      "loss": 1.678,
      "step": 12707
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37968069314956665,
      "learning_rate": 0.0005710728603680647,
      "loss": 1.7614,
      "step": 12708
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3644813597202301,
      "learning_rate": 0.0005710683822303114,
      "loss": 1.7817,
      "step": 12709
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37436264753341675,
      "learning_rate": 0.0005710639037635211,
      "loss": 1.7479,
      "step": 12710
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3819767236709595,
      "learning_rate": 0.000571059424967699,
      "loss": 1.7868,
      "step": 12711
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.40418943762779236,
      "learning_rate": 0.0005710549458428509,
      "loss": 1.748,
      "step": 12712
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3855569660663605,
      "learning_rate": 0.0005710504663889818,
      "loss": 1.7553,
      "step": 12713
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3991355895996094,
      "learning_rate": 0.0005710459866060976,
      "loss": 1.7554,
      "step": 12714
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3801591694355011,
      "learning_rate": 0.0005710415064942033,
      "loss": 1.7557,
      "step": 12715
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3949391841888428,
      "learning_rate": 0.0005710370260533047,
      "loss": 1.8216,
      "step": 12716
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3876033127307892,
      "learning_rate": 0.0005710325452834071,
      "loss": 1.7985,
      "step": 12717
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3704342842102051,
      "learning_rate": 0.0005710280641845159,
      "loss": 1.688,
      "step": 12718
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38254010677337646,
      "learning_rate": 0.0005710235827566365,
      "loss": 1.7496,
      "step": 12719
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37461262941360474,
      "learning_rate": 0.0005710191009997745,
      "loss": 1.7368,
      "step": 12720
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37539127469062805,
      "learning_rate": 0.0005710146189139352,
      "loss": 1.7345,
      "step": 12721
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3935190439224243,
      "learning_rate": 0.000571010136499124,
      "loss": 1.7479,
      "step": 12722
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38231363892555237,
      "learning_rate": 0.0005710056537553465,
      "loss": 1.7337,
      "step": 12723
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38130757212638855,
      "learning_rate": 0.0005710011706826081,
      "loss": 1.7138,
      "step": 12724
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38636597990989685,
      "learning_rate": 0.0005709966872809142,
      "loss": 1.7461,
      "step": 12725
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37980395555496216,
      "learning_rate": 0.0005709922035502702,
      "loss": 1.7343,
      "step": 12726
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.369844913482666,
      "learning_rate": 0.0005709877194906816,
      "loss": 1.7411,
      "step": 12727
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3857150077819824,
      "learning_rate": 0.0005709832351021538,
      "loss": 1.7198,
      "step": 12728
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3922792971134186,
      "learning_rate": 0.0005709787503846924,
      "loss": 1.7344,
      "step": 12729
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3801116943359375,
      "learning_rate": 0.0005709742653383027,
      "loss": 1.7814,
      "step": 12730
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.379138320684433,
      "learning_rate": 0.0005709697799629901,
      "loss": 1.6978,
      "step": 12731
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38257765769958496,
      "learning_rate": 0.0005709652942587601,
      "loss": 1.716,
      "step": 12732
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38011857867240906,
      "learning_rate": 0.0005709608082256183,
      "loss": 1.7485,
      "step": 12733
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3818248212337494,
      "learning_rate": 0.0005709563218635698,
      "loss": 1.7038,
      "step": 12734
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3795626759529114,
      "learning_rate": 0.0005709518351726204,
      "loss": 1.7821,
      "step": 12735
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3852868676185608,
      "learning_rate": 0.0005709473481527753,
      "loss": 1.6943,
      "step": 12736
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3888707756996155,
      "learning_rate": 0.0005709428608040402,
      "loss": 1.7089,
      "step": 12737
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37179771065711975,
      "learning_rate": 0.0005709383731264202,
      "loss": 1.6671,
      "step": 12738
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6244150996208191,
      "learning_rate": 0.000570933885119921,
      "loss": 1.683,
      "step": 12739
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3913390636444092,
      "learning_rate": 0.000570929396784548,
      "loss": 1.7922,
      "step": 12740
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37837499380111694,
      "learning_rate": 0.0005709249081203066,
      "loss": 1.7125,
      "step": 12741
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3708736002445221,
      "learning_rate": 0.0005709204191272023,
      "loss": 1.7444,
      "step": 12742
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39655601978302,
      "learning_rate": 0.0005709159298052406,
      "loss": 1.7453,
      "step": 12743
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39123380184173584,
      "learning_rate": 0.0005709114401544268,
      "loss": 1.6981,
      "step": 12744
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37757086753845215,
      "learning_rate": 0.0005709069501747664,
      "loss": 1.717,
      "step": 12745
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37587830424308777,
      "learning_rate": 0.0005709024598662649,
      "loss": 1.6302,
      "step": 12746
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38382720947265625,
      "learning_rate": 0.0005708979692289278,
      "loss": 1.7334,
      "step": 12747
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3863314092159271,
      "learning_rate": 0.0005708934782627604,
      "loss": 1.77,
      "step": 12748
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3717023730278015,
      "learning_rate": 0.0005708889869677683,
      "loss": 1.7614,
      "step": 12749
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37027859687805176,
      "learning_rate": 0.0005708844953439568,
      "loss": 1.6878,
      "step": 12750
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3808450996875763,
      "learning_rate": 0.0005708800033913316,
      "loss": 1.7824,
      "step": 12751
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39147835969924927,
      "learning_rate": 0.0005708755111098978,
      "loss": 1.708,
      "step": 12752
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37310823798179626,
      "learning_rate": 0.0005708710184996611,
      "loss": 1.7241,
      "step": 12753
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39674699306488037,
      "learning_rate": 0.0005708665255606269,
      "loss": 1.8074,
      "step": 12754
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37370628118515015,
      "learning_rate": 0.0005708620322928007,
      "loss": 1.7087,
      "step": 12755
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3870297968387604,
      "learning_rate": 0.0005708575386961878,
      "loss": 1.7216,
      "step": 12756
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3939036428928375,
      "learning_rate": 0.0005708530447707938,
      "loss": 1.825,
      "step": 12757
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38538387417793274,
      "learning_rate": 0.0005708485505166241,
      "loss": 1.702,
      "step": 12758
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38343578577041626,
      "learning_rate": 0.0005708440559336842,
      "loss": 1.7112,
      "step": 12759
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3759395182132721,
      "learning_rate": 0.0005708395610219796,
      "loss": 1.7118,
      "step": 12760
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3832511007785797,
      "learning_rate": 0.0005708350657815155,
      "loss": 1.7456,
      "step": 12761
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3853565752506256,
      "learning_rate": 0.0005708305702122977,
      "loss": 1.751,
      "step": 12762
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3794727623462677,
      "learning_rate": 0.0005708260743143315,
      "loss": 1.8007,
      "step": 12763
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39235061407089233,
      "learning_rate": 0.0005708215780876223,
      "loss": 1.7386,
      "step": 12764
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.38273462653160095,
      "learning_rate": 0.0005708170815321755,
      "loss": 1.7518,
      "step": 12765
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.383827805519104,
      "learning_rate": 0.0005708125846479968,
      "loss": 1.7215,
      "step": 12766
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37919285893440247,
      "learning_rate": 0.0005708080874350914,
      "loss": 1.7988,
      "step": 12767
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4033657908439636,
      "learning_rate": 0.000570803589893465,
      "loss": 1.7661,
      "step": 12768
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4380030333995819,
      "learning_rate": 0.0005707990920231228,
      "loss": 1.8018,
      "step": 12769
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.39959126710891724,
      "learning_rate": 0.0005707945938240705,
      "loss": 1.7043,
      "step": 12770
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37974122166633606,
      "learning_rate": 0.0005707900952963135,
      "loss": 1.7713,
      "step": 12771
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37087947130203247,
      "learning_rate": 0.0005707855964398572,
      "loss": 1.6532,
      "step": 12772
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.41163477301597595,
      "learning_rate": 0.000570781097254707,
      "loss": 1.762,
      "step": 12773
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3849220275878906,
      "learning_rate": 0.0005707765977408686,
      "loss": 1.7055,
      "step": 12774
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.42000558972358704,
      "learning_rate": 0.0005707720978983472,
      "loss": 1.8084,
      "step": 12775
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.372764527797699,
      "learning_rate": 0.0005707675977271485,
      "loss": 1.6884,
      "step": 12776
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3862297832965851,
      "learning_rate": 0.0005707630972272777,
      "loss": 1.7229,
      "step": 12777
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3773289620876312,
      "learning_rate": 0.0005707585963987404,
      "loss": 1.7611,
      "step": 12778
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36765697598457336,
      "learning_rate": 0.000570754095241542,
      "loss": 1.7587,
      "step": 12779
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3964236378669739,
      "learning_rate": 0.0005707495937556881,
      "loss": 1.7412,
      "step": 12780
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39447569847106934,
      "learning_rate": 0.0005707450919411842,
      "loss": 1.747,
      "step": 12781
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38572096824645996,
      "learning_rate": 0.0005707405897980354,
      "loss": 1.8818,
      "step": 12782
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38251325488090515,
      "learning_rate": 0.0005707360873262477,
      "loss": 1.7699,
      "step": 12783
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39817070960998535,
      "learning_rate": 0.0005707315845258261,
      "loss": 1.6982,
      "step": 12784
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39371350407600403,
      "learning_rate": 0.0005707270813967763,
      "loss": 1.7193,
      "step": 12785
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3903048038482666,
      "learning_rate": 0.0005707225779391037,
      "loss": 1.8167,
      "step": 12786
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37717798352241516,
      "learning_rate": 0.0005707180741528137,
      "loss": 1.7513,
      "step": 12787
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4114437699317932,
      "learning_rate": 0.000570713570037912,
      "loss": 1.617,
      "step": 12788
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4144819378852844,
      "learning_rate": 0.0005707090655944038,
      "loss": 1.7927,
      "step": 12789
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38728824257850647,
      "learning_rate": 0.0005707045608222947,
      "loss": 1.7294,
      "step": 12790
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38012927770614624,
      "learning_rate": 0.0005707000557215902,
      "loss": 1.7155,
      "step": 12791
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.43265658617019653,
      "learning_rate": 0.0005706955502922956,
      "loss": 1.7175,
      "step": 12792
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37916299700737,
      "learning_rate": 0.0005706910445344166,
      "loss": 1.6666,
      "step": 12793
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3928183913230896,
      "learning_rate": 0.0005706865384479586,
      "loss": 1.7822,
      "step": 12794
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4077396094799042,
      "learning_rate": 0.0005706820320329269,
      "loss": 1.8009,
      "step": 12795
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39850741624832153,
      "learning_rate": 0.0005706775252893272,
      "loss": 1.7142,
      "step": 12796
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3771594166755676,
      "learning_rate": 0.0005706730182171648,
      "loss": 1.7042,
      "step": 12797
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3872258961200714,
      "learning_rate": 0.0005706685108164452,
      "loss": 1.7387,
      "step": 12798
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.395207941532135,
      "learning_rate": 0.000570664003087174,
      "loss": 1.7513,
      "step": 12799
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38474053144454956,
      "learning_rate": 0.0005706594950293565,
      "loss": 1.7462,
      "step": 12800
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3965473771095276,
      "learning_rate": 0.0005706549866429983,
      "loss": 1.767,
      "step": 12801
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38790804147720337,
      "learning_rate": 0.0005706504779281049,
      "loss": 1.7462,
      "step": 12802
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38329455256462097,
      "learning_rate": 0.0005706459688846815,
      "loss": 1.7584,
      "step": 12803
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3815115988254547,
      "learning_rate": 0.000570641459512734,
      "loss": 1.6273,
      "step": 12804
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3922688066959381,
      "learning_rate": 0.0005706369498122675,
      "loss": 1.7511,
      "step": 12805
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37809133529663086,
      "learning_rate": 0.0005706324397832878,
      "loss": 1.8064,
      "step": 12806
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3685019612312317,
      "learning_rate": 0.0005706279294258,
      "loss": 1.7637,
      "step": 12807
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3886243402957916,
      "learning_rate": 0.0005706234187398098,
      "loss": 1.7103,
      "step": 12808
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3835306763648987,
      "learning_rate": 0.0005706189077253226,
      "loss": 1.7752,
      "step": 12809
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3941895663738251,
      "learning_rate": 0.0005706143963823439,
      "loss": 1.7968,
      "step": 12810
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3821778893470764,
      "learning_rate": 0.0005706098847108795,
      "loss": 1.7924,
      "step": 12811
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3776590824127197,
      "learning_rate": 0.0005706053727109342,
      "loss": 1.7269,
      "step": 12812
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38358935713768005,
      "learning_rate": 0.000570600860382514,
      "loss": 1.7256,
      "step": 12813
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.404509037733078,
      "learning_rate": 0.0005705963477256243,
      "loss": 1.7302,
      "step": 12814
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38219699263572693,
      "learning_rate": 0.0005705918347402705,
      "loss": 1.7331,
      "step": 12815
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37257272005081177,
      "learning_rate": 0.0005705873214264579,
      "loss": 1.7809,
      "step": 12816
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40463951230049133,
      "learning_rate": 0.0005705828077841923,
      "loss": 1.7689,
      "step": 12817
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38767901062965393,
      "learning_rate": 0.0005705782938134789,
      "loss": 1.7084,
      "step": 12818
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3860282003879547,
      "learning_rate": 0.0005705737795143235,
      "loss": 1.718,
      "step": 12819
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39106929302215576,
      "learning_rate": 0.0005705692648867314,
      "loss": 1.7099,
      "step": 12820
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37417349219322205,
      "learning_rate": 0.000570564749930708,
      "loss": 1.7311,
      "step": 12821
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40447691082954407,
      "learning_rate": 0.0005705602346462589,
      "loss": 1.7563,
      "step": 12822
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37939539551734924,
      "learning_rate": 0.0005705557190333895,
      "loss": 1.7131,
      "step": 12823
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3773232400417328,
      "learning_rate": 0.0005705512030921053,
      "loss": 1.7278,
      "step": 12824
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36969345808029175,
      "learning_rate": 0.0005705466868224119,
      "loss": 1.7446,
      "step": 12825
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37801027297973633,
      "learning_rate": 0.0005705421702243146,
      "loss": 1.7103,
      "step": 12826
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3825259506702423,
      "learning_rate": 0.000570537653297819,
      "loss": 1.72,
      "step": 12827
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3804946839809418,
      "learning_rate": 0.0005705331360429305,
      "loss": 1.7285,
      "step": 12828
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38296863436698914,
      "learning_rate": 0.0005705286184596547,
      "loss": 1.772,
      "step": 12829
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.375868022441864,
      "learning_rate": 0.000570524100547997,
      "loss": 1.7175,
      "step": 12830
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38812127709388733,
      "learning_rate": 0.0005705195823079629,
      "loss": 1.6942,
      "step": 12831
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38914617896080017,
      "learning_rate": 0.0005705150637395579,
      "loss": 1.7809,
      "step": 12832
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.6214470863342285,
      "learning_rate": 0.0005705105448427874,
      "loss": 1.7251,
      "step": 12833
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37133845686912537,
      "learning_rate": 0.000570506025617657,
      "loss": 1.7479,
      "step": 12834
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38573744893074036,
      "learning_rate": 0.0005705015060641722,
      "loss": 1.8019,
      "step": 12835
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3848350942134857,
      "learning_rate": 0.0005704969861823384,
      "loss": 1.8023,
      "step": 12836
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3926357328891754,
      "learning_rate": 0.0005704924659721611,
      "loss": 1.7024,
      "step": 12837
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39557310938835144,
      "learning_rate": 0.0005704879454336457,
      "loss": 1.8218,
      "step": 12838
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3912345767021179,
      "learning_rate": 0.0005704834245667979,
      "loss": 1.748,
      "step": 12839
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4107173979282379,
      "learning_rate": 0.0005704789033716231,
      "loss": 1.7654,
      "step": 12840
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3759916126728058,
      "learning_rate": 0.0005704743818481266,
      "loss": 1.7414,
      "step": 12841
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38582271337509155,
      "learning_rate": 0.0005704698599963144,
      "loss": 1.7796,
      "step": 12842
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3762831389904022,
      "learning_rate": 0.0005704653378161913,
      "loss": 1.6885,
      "step": 12843
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38891497254371643,
      "learning_rate": 0.0005704608153077633,
      "loss": 1.7262,
      "step": 12844
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40280210971832275,
      "learning_rate": 0.0005704562924710357,
      "loss": 1.8158,
      "step": 12845
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3953411877155304,
      "learning_rate": 0.0005704517693060139,
      "loss": 1.7579,
      "step": 12846
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39841052889823914,
      "learning_rate": 0.0005704472458127036,
      "loss": 1.7849,
      "step": 12847
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.373529314994812,
      "learning_rate": 0.0005704427219911102,
      "loss": 1.7495,
      "step": 12848
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.386991024017334,
      "learning_rate": 0.0005704381978412391,
      "loss": 1.8142,
      "step": 12849
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3774568438529968,
      "learning_rate": 0.000570433673363096,
      "loss": 1.7114,
      "step": 12850
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36677610874176025,
      "learning_rate": 0.0005704291485566862,
      "loss": 1.7837,
      "step": 12851
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3859747052192688,
      "learning_rate": 0.0005704246234220152,
      "loss": 1.782,
      "step": 12852
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37726259231567383,
      "learning_rate": 0.0005704200979590887,
      "loss": 1.7271,
      "step": 12853
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3856584429740906,
      "learning_rate": 0.000570415572167912,
      "loss": 1.7266,
      "step": 12854
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37999773025512695,
      "learning_rate": 0.0005704110460484906,
      "loss": 1.7479,
      "step": 12855
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38645514845848083,
      "learning_rate": 0.00057040651960083,
      "loss": 1.7882,
      "step": 12856
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38671520352363586,
      "learning_rate": 0.0005704019928249358,
      "loss": 1.8101,
      "step": 12857
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3728797435760498,
      "learning_rate": 0.0005703974657208133,
      "loss": 1.7684,
      "step": 12858
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37405115365982056,
      "learning_rate": 0.0005703929382884683,
      "loss": 1.7087,
      "step": 12859
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38558778166770935,
      "learning_rate": 0.000570388410527906,
      "loss": 1.7572,
      "step": 12860
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.42427530884742737,
      "learning_rate": 0.0005703838824391319,
      "loss": 1.786,
      "step": 12861
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38278505206108093,
      "learning_rate": 0.0005703793540221517,
      "loss": 1.7513,
      "step": 12862
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38539329171180725,
      "learning_rate": 0.0005703748252769709,
      "loss": 1.7985,
      "step": 12863
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3782733678817749,
      "learning_rate": 0.0005703702962035948,
      "loss": 1.7355,
      "step": 12864
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39315497875213623,
      "learning_rate": 0.0005703657668020291,
      "loss": 1.7632,
      "step": 12865
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3909713625907898,
      "learning_rate": 0.0005703612370722791,
      "loss": 1.6709,
      "step": 12866
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3798501491546631,
      "learning_rate": 0.0005703567070143504,
      "loss": 1.724,
      "step": 12867
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3841492235660553,
      "learning_rate": 0.0005703521766282485,
      "loss": 1.7673,
      "step": 12868
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.389140248298645,
      "learning_rate": 0.0005703476459139789,
      "loss": 1.7027,
      "step": 12869
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37821489572525024,
      "learning_rate": 0.0005703431148715471,
      "loss": 1.714,
      "step": 12870
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38907304406166077,
      "learning_rate": 0.0005703385835009586,
      "loss": 1.7238,
      "step": 12871
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3970421552658081,
      "learning_rate": 0.0005703340518022189,
      "loss": 1.7744,
      "step": 12872
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4054265320301056,
      "learning_rate": 0.0005703295197753334,
      "loss": 1.7778,
      "step": 12873
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40498846769332886,
      "learning_rate": 0.0005703249874203078,
      "loss": 1.6978,
      "step": 12874
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36762893199920654,
      "learning_rate": 0.0005703204547371475,
      "loss": 1.7426,
      "step": 12875
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4048888385295868,
      "learning_rate": 0.0005703159217258579,
      "loss": 1.762,
      "step": 12876
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3886874318122864,
      "learning_rate": 0.0005703113883864447,
      "loss": 1.7679,
      "step": 12877
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4007701575756073,
      "learning_rate": 0.0005703068547189133,
      "loss": 1.7846,
      "step": 12878
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40817752480506897,
      "learning_rate": 0.0005703023207232692,
      "loss": 1.7459,
      "step": 12879
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37188252806663513,
      "learning_rate": 0.0005702977863995179,
      "loss": 1.724,
      "step": 12880
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40186432003974915,
      "learning_rate": 0.0005702932517476649,
      "loss": 1.7393,
      "step": 12881
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3857852518558502,
      "learning_rate": 0.0005702887167677157,
      "loss": 1.7463,
      "step": 12882
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5067943930625916,
      "learning_rate": 0.0005702841814596757,
      "loss": 1.7667,
      "step": 12883
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3844679892063141,
      "learning_rate": 0.0005702796458235507,
      "loss": 1.8162,
      "step": 12884
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39081713557243347,
      "learning_rate": 0.000570275109859346,
      "loss": 1.7473,
      "step": 12885
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39254051446914673,
      "learning_rate": 0.0005702705735670671,
      "loss": 1.7997,
      "step": 12886
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38118672370910645,
      "learning_rate": 0.0005702660369467196,
      "loss": 1.808,
      "step": 12887
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40236419439315796,
      "learning_rate": 0.000570261499998309,
      "loss": 1.765,
      "step": 12888
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3913450241088867,
      "learning_rate": 0.0005702569627218406,
      "loss": 1.7108,
      "step": 12889
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38393905758857727,
      "learning_rate": 0.0005702524251173203,
      "loss": 1.7178,
      "step": 12890
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3794715106487274,
      "learning_rate": 0.0005702478871847533,
      "loss": 1.766,
      "step": 12891
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3964692950248718,
      "learning_rate": 0.000570243348924145,
      "loss": 1.6913,
      "step": 12892
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40591421723365784,
      "learning_rate": 0.0005702388103355012,
      "loss": 1.7296,
      "step": 12893
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38563013076782227,
      "learning_rate": 0.0005702342714188274,
      "loss": 1.7225,
      "step": 12894
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37084081768989563,
      "learning_rate": 0.0005702297321741288,
      "loss": 1.6664,
      "step": 12895
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38081833720207214,
      "learning_rate": 0.0005702251926014113,
      "loss": 1.739,
      "step": 12896
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39165887236595154,
      "learning_rate": 0.0005702206527006802,
      "loss": 1.6726,
      "step": 12897
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4002464711666107,
      "learning_rate": 0.0005702161124719411,
      "loss": 1.7695,
      "step": 12898
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3828837275505066,
      "learning_rate": 0.0005702115719151993,
      "loss": 1.7069,
      "step": 12899
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37647101283073425,
      "learning_rate": 0.0005702070310304605,
      "loss": 1.719,
      "step": 12900
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39266276359558105,
      "learning_rate": 0.0005702024898177303,
      "loss": 1.7262,
      "step": 12901
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3934296667575836,
      "learning_rate": 0.000570197948277014,
      "loss": 1.7881,
      "step": 12902
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.392405241727829,
      "learning_rate": 0.0005701934064083172,
      "loss": 1.7902,
      "step": 12903
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38401538133621216,
      "learning_rate": 0.0005701888642116454,
      "loss": 1.6899,
      "step": 12904
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39429470896720886,
      "learning_rate": 0.0005701843216870041,
      "loss": 1.7465,
      "step": 12905
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3757963180541992,
      "learning_rate": 0.000570179778834399,
      "loss": 1.7215,
      "step": 12906
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37839531898498535,
      "learning_rate": 0.0005701752356538353,
      "loss": 1.7726,
      "step": 12907
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38538119196891785,
      "learning_rate": 0.0005701706921453188,
      "loss": 1.7391,
      "step": 12908
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37071138620376587,
      "learning_rate": 0.0005701661483088548,
      "loss": 1.6818,
      "step": 12909
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38508132100105286,
      "learning_rate": 0.0005701616041444489,
      "loss": 1.6979,
      "step": 12910
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3911192715167999,
      "learning_rate": 0.0005701570596521068,
      "loss": 1.7885,
      "step": 12911
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38721638917922974,
      "learning_rate": 0.0005701525148318335,
      "loss": 1.7918,
      "step": 12912
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37863022089004517,
      "learning_rate": 0.000570147969683635,
      "loss": 1.7806,
      "step": 12913
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3893700838088989,
      "learning_rate": 0.0005701434242075167,
      "loss": 1.7035,
      "step": 12914
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37794527411460876,
      "learning_rate": 0.0005701388784034842,
      "loss": 1.7656,
      "step": 12915
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.41056308150291443,
      "learning_rate": 0.0005701343322715428,
      "loss": 1.8106,
      "step": 12916
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4037649929523468,
      "learning_rate": 0.0005701297858116981,
      "loss": 1.7588,
      "step": 12917
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3883224129676819,
      "learning_rate": 0.0005701252390239557,
      "loss": 1.7538,
      "step": 12918
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40304985642433167,
      "learning_rate": 0.0005701206919083209,
      "loss": 1.7435,
      "step": 12919
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3979652523994446,
      "learning_rate": 0.0005701161444647996,
      "loss": 1.7871,
      "step": 12920
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40847617387771606,
      "learning_rate": 0.0005701115966933969,
      "loss": 1.7638,
      "step": 12921
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3777857720851898,
      "learning_rate": 0.0005701070485941187,
      "loss": 1.7548,
      "step": 12922
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.42201748490333557,
      "learning_rate": 0.0005701025001669702,
      "loss": 1.762,
      "step": 12923
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3878954350948334,
      "learning_rate": 0.0005700979514119571,
      "loss": 1.7584,
      "step": 12924
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38326162099838257,
      "learning_rate": 0.000570093402329085,
      "loss": 1.8427,
      "step": 12925
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39531275629997253,
      "learning_rate": 0.0005700888529183593,
      "loss": 1.815,
      "step": 12926
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40771597623825073,
      "learning_rate": 0.0005700843031797853,
      "loss": 1.7476,
      "step": 12927
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3755585551261902,
      "learning_rate": 0.0005700797531133689,
      "loss": 1.7924,
      "step": 12928
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38072508573532104,
      "learning_rate": 0.0005700752027191155,
      "loss": 1.7858,
      "step": 12929
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38733264803886414,
      "learning_rate": 0.0005700706519970306,
      "loss": 1.733,
      "step": 12930
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39506232738494873,
      "learning_rate": 0.0005700661009471197,
      "loss": 1.8709,
      "step": 12931
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39282169938087463,
      "learning_rate": 0.0005700615495693883,
      "loss": 1.8015,
      "step": 12932
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39684024453163147,
      "learning_rate": 0.000570056997863842,
      "loss": 1.7792,
      "step": 12933
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3702194094657898,
      "learning_rate": 0.0005700524458304863,
      "loss": 1.7034,
      "step": 12934
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4015476405620575,
      "learning_rate": 0.0005700478934693267,
      "loss": 1.8376,
      "step": 12935
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3832608461380005,
      "learning_rate": 0.0005700433407803688,
      "loss": 1.8167,
      "step": 12936
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3878893554210663,
      "learning_rate": 0.0005700387877636179,
      "loss": 1.6949,
      "step": 12937
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3804391324520111,
      "learning_rate": 0.0005700342344190799,
      "loss": 1.7314,
      "step": 12938
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38666000962257385,
      "learning_rate": 0.0005700296807467602,
      "loss": 1.6981,
      "step": 12939
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40851911902427673,
      "learning_rate": 0.0005700251267466641,
      "loss": 1.7767,
      "step": 12940
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39821043610572815,
      "learning_rate": 0.0005700205724187972,
      "loss": 1.7628,
      "step": 12941
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3755195736885071,
      "learning_rate": 0.0005700160177631652,
      "loss": 1.6379,
      "step": 12942
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3969748318195343,
      "learning_rate": 0.0005700114627797735,
      "loss": 1.6956,
      "step": 12943
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3794581890106201,
      "learning_rate": 0.0005700069074686278,
      "loss": 1.7772,
      "step": 12944
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3846589922904968,
      "learning_rate": 0.0005700023518297334,
      "loss": 1.7807,
      "step": 12945
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3854905068874359,
      "learning_rate": 0.000569997795863096,
      "loss": 1.7398,
      "step": 12946
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3760956823825836,
      "learning_rate": 0.000569993239568721,
      "loss": 1.7511,
      "step": 12947
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38243311643600464,
      "learning_rate": 0.0005699886829466141,
      "loss": 1.7129,
      "step": 12948
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38382166624069214,
      "learning_rate": 0.0005699841259967804,
      "loss": 1.742,
      "step": 12949
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38994115591049194,
      "learning_rate": 0.000569979568719226,
      "loss": 1.7682,
      "step": 12950
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3820136487483978,
      "learning_rate": 0.0005699750111139562,
      "loss": 1.6692,
      "step": 12951
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38272005319595337,
      "learning_rate": 0.0005699704531809765,
      "loss": 1.7002,
      "step": 12952
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3898918926715851,
      "learning_rate": 0.0005699658949202924,
      "loss": 1.7464,
      "step": 12953
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39283087849617004,
      "learning_rate": 0.0005699613363319095,
      "loss": 1.7645,
      "step": 12954
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39876413345336914,
      "learning_rate": 0.0005699567774158334,
      "loss": 1.763,
      "step": 12955
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3788410425186157,
      "learning_rate": 0.0005699522181720694,
      "loss": 1.7437,
      "step": 12956
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3839307725429535,
      "learning_rate": 0.0005699476586006233,
      "loss": 1.8047,
      "step": 12957
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40165600180625916,
      "learning_rate": 0.0005699430987015004,
      "loss": 1.706,
      "step": 12958
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3960866332054138,
      "learning_rate": 0.0005699385384747063,
      "loss": 1.6797,
      "step": 12959
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38675642013549805,
      "learning_rate": 0.0005699339779202468,
      "loss": 1.7761,
      "step": 12960
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3772580325603485,
      "learning_rate": 0.0005699294170381271,
      "loss": 1.7208,
      "step": 12961
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40243449807167053,
      "learning_rate": 0.0005699248558283528,
      "loss": 1.7467,
      "step": 12962
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4091913402080536,
      "learning_rate": 0.0005699202942909296,
      "loss": 1.6967,
      "step": 12963
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3804236352443695,
      "learning_rate": 0.000569915732425863,
      "loss": 1.6936,
      "step": 12964
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37064218521118164,
      "learning_rate": 0.0005699111702331583,
      "loss": 1.6854,
      "step": 12965
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3948083519935608,
      "learning_rate": 0.0005699066077128213,
      "loss": 1.7132,
      "step": 12966
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37662914395332336,
      "learning_rate": 0.0005699020448648575,
      "loss": 1.764,
      "step": 12967
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3965936303138733,
      "learning_rate": 0.0005698974816892722,
      "loss": 1.7891,
      "step": 12968
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38100793957710266,
      "learning_rate": 0.0005698929181860713,
      "loss": 1.7008,
      "step": 12969
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37907707691192627,
      "learning_rate": 0.0005698883543552601,
      "loss": 1.7117,
      "step": 12970
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3859752416610718,
      "learning_rate": 0.0005698837901968442,
      "loss": 1.815,
      "step": 12971
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3804246485233307,
      "learning_rate": 0.0005698792257108292,
      "loss": 1.7491,
      "step": 12972
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38846635818481445,
      "learning_rate": 0.0005698746608972206,
      "loss": 1.6834,
      "step": 12973
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38074788451194763,
      "learning_rate": 0.0005698700957560239,
      "loss": 1.6889,
      "step": 12974
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3727771043777466,
      "learning_rate": 0.0005698655302872446,
      "loss": 1.7417,
      "step": 12975
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3826848566532135,
      "learning_rate": 0.0005698609644908882,
      "loss": 1.7719,
      "step": 12976
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.386626660823822,
      "learning_rate": 0.0005698563983669607,
      "loss": 1.7444,
      "step": 12977
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38401761651039124,
      "learning_rate": 0.0005698518319154671,
      "loss": 1.7856,
      "step": 12978
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3907327950000763,
      "learning_rate": 0.0005698472651364131,
      "loss": 1.7977,
      "step": 12979
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38895249366760254,
      "learning_rate": 0.0005698426980298043,
      "loss": 1.6941,
      "step": 12980
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3994200825691223,
      "learning_rate": 0.0005698381305956462,
      "loss": 1.7311,
      "step": 12981
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3978642225265503,
      "learning_rate": 0.0005698335628339444,
      "loss": 1.8351,
      "step": 12982
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3701454699039459,
      "learning_rate": 0.0005698289947447044,
      "loss": 1.6493,
      "step": 12983
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.384919673204422,
      "learning_rate": 0.0005698244263279317,
      "loss": 1.7364,
      "step": 12984
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3758764863014221,
      "learning_rate": 0.0005698198575836321,
      "loss": 1.712,
      "step": 12985
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36766722798347473,
      "learning_rate": 0.0005698152885118108,
      "loss": 1.7204,
      "step": 12986
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4036986529827118,
      "learning_rate": 0.0005698107191124735,
      "loss": 1.8519,
      "step": 12987
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3830685317516327,
      "learning_rate": 0.0005698061493856258,
      "loss": 1.7287,
      "step": 12988
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38163256645202637,
      "learning_rate": 0.0005698015793312732,
      "loss": 1.7199,
      "step": 12989
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3798239231109619,
      "learning_rate": 0.0005697970089494211,
      "loss": 1.7385,
      "step": 12990
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3894951343536377,
      "learning_rate": 0.0005697924382400754,
      "loss": 1.796,
      "step": 12991
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3764925003051758,
      "learning_rate": 0.0005697878672032412,
      "loss": 1.7558,
      "step": 12992
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3864421546459198,
      "learning_rate": 0.0005697832958389244,
      "loss": 1.7567,
      "step": 12993
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38537365198135376,
      "learning_rate": 0.0005697787241471303,
      "loss": 1.6946,
      "step": 12994
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4050638675689697,
      "learning_rate": 0.0005697741521278648,
      "loss": 1.7943,
      "step": 12995
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3816090226173401,
      "learning_rate": 0.0005697695797811331,
      "loss": 1.7491,
      "step": 12996
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3741271197795868,
      "learning_rate": 0.0005697650071069409,
      "loss": 1.7618,
      "step": 12997
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3893202245235443,
      "learning_rate": 0.0005697604341052937,
      "loss": 1.7581,
      "step": 12998
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38095638155937195,
      "learning_rate": 0.0005697558607761972,
      "loss": 1.7329,
      "step": 12999
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3933841288089752,
      "learning_rate": 0.0005697512871196567,
      "loss": 1.7679,
      "step": 13000
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38664868474006653,
      "learning_rate": 0.0005697467131356779,
      "loss": 1.7061,
      "step": 13001
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.383598655462265,
      "learning_rate": 0.0005697421388242664,
      "loss": 1.7328,
      "step": 13002
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3792881965637207,
      "learning_rate": 0.0005697375641854276,
      "loss": 1.74,
      "step": 13003
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37736570835113525,
      "learning_rate": 0.0005697329892191672,
      "loss": 1.7717,
      "step": 13004
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3787272274494171,
      "learning_rate": 0.0005697284139254907,
      "loss": 1.7681,
      "step": 13005
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3761872947216034,
      "learning_rate": 0.0005697238383044036,
      "loss": 1.7188,
      "step": 13006
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38204750418663025,
      "learning_rate": 0.0005697192623559115,
      "loss": 1.7095,
      "step": 13007
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38375329971313477,
      "learning_rate": 0.0005697146860800201,
      "loss": 1.6897,
      "step": 13008
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38676807284355164,
      "learning_rate": 0.0005697101094767346,
      "loss": 1.7295,
      "step": 13009
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36472752690315247,
      "learning_rate": 0.000569705532546061,
      "loss": 1.7016,
      "step": 13010
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38551631569862366,
      "learning_rate": 0.0005697009552880044,
      "loss": 1.7333,
      "step": 13011
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37585341930389404,
      "learning_rate": 0.0005696963777025707,
      "loss": 1.669,
      "step": 13012
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.727685272693634,
      "learning_rate": 0.0005696917997897652,
      "loss": 1.7501,
      "step": 13013
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37581485509872437,
      "learning_rate": 0.0005696872215495937,
      "loss": 1.7108,
      "step": 13014
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.379799485206604,
      "learning_rate": 0.0005696826429820616,
      "loss": 1.8188,
      "step": 13015
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3831750452518463,
      "learning_rate": 0.0005696780640871747,
      "loss": 1.7188,
      "step": 13016
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39131036400794983,
      "learning_rate": 0.0005696734848649382,
      "loss": 1.7742,
      "step": 13017
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38270652294158936,
      "learning_rate": 0.0005696689053153578,
      "loss": 1.7306,
      "step": 13018
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38727664947509766,
      "learning_rate": 0.0005696643254384391,
      "loss": 1.7378,
      "step": 13019
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38557761907577515,
      "learning_rate": 0.0005696597452341878,
      "loss": 1.7556,
      "step": 13020
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3769787847995758,
      "learning_rate": 0.000569655164702609,
      "loss": 1.748,
      "step": 13021
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3662815988063812,
      "learning_rate": 0.0005696505838437088,
      "loss": 1.7117,
      "step": 13022
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.40191951394081116,
      "learning_rate": 0.0005696460026574925,
      "loss": 1.7655,
      "step": 13023
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3939271569252014,
      "learning_rate": 0.0005696414211439657,
      "loss": 1.7881,
      "step": 13024
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3986062705516815,
      "learning_rate": 0.0005696368393031338,
      "loss": 1.7854,
      "step": 13025
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38120535016059875,
      "learning_rate": 0.0005696322571350026,
      "loss": 1.7812,
      "step": 13026
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38284364342689514,
      "learning_rate": 0.0005696276746395776,
      "loss": 1.687,
      "step": 13027
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39256080985069275,
      "learning_rate": 0.0005696230918168642,
      "loss": 1.7319,
      "step": 13028
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3899156451225281,
      "learning_rate": 0.0005696185086668682,
      "loss": 1.7192,
      "step": 13029
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37017014622688293,
      "learning_rate": 0.0005696139251895951,
      "loss": 1.6814,
      "step": 13030
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3866473138332367,
      "learning_rate": 0.0005696093413850503,
      "loss": 1.7753,
      "step": 13031
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3802404999732971,
      "learning_rate": 0.0005696047572532395,
      "loss": 1.767,
      "step": 13032
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39772188663482666,
      "learning_rate": 0.0005696001727941684,
      "loss": 1.7504,
      "step": 13033
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3862670660018921,
      "learning_rate": 0.0005695955880078423,
      "loss": 1.6548,
      "step": 13034
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38046199083328247,
      "learning_rate": 0.0005695910028942669,
      "loss": 1.7748,
      "step": 13035
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3872251808643341,
      "learning_rate": 0.0005695864174534476,
      "loss": 1.7314,
      "step": 13036
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3826981484889984,
      "learning_rate": 0.0005695818316853904,
      "loss": 1.7781,
      "step": 13037
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3718405067920685,
      "learning_rate": 0.0005695772455901004,
      "loss": 1.7494,
      "step": 13038
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.364738792181015,
      "learning_rate": 0.0005695726591675833,
      "loss": 1.7069,
      "step": 13039
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37930020689964294,
      "learning_rate": 0.0005695680724178448,
      "loss": 1.7379,
      "step": 13040
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3867121934890747,
      "learning_rate": 0.0005695634853408903,
      "loss": 1.7721,
      "step": 13041
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39339181780815125,
      "learning_rate": 0.0005695588979367256,
      "loss": 1.7716,
      "step": 13042
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3828231990337372,
      "learning_rate": 0.000569554310205356,
      "loss": 1.7926,
      "step": 13043
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3709335923194885,
      "learning_rate": 0.0005695497221467872,
      "loss": 1.731,
      "step": 13044
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37772616744041443,
      "learning_rate": 0.0005695451337610247,
      "loss": 1.7323,
      "step": 13045
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3860257863998413,
      "learning_rate": 0.0005695405450480743,
      "loss": 1.693,
      "step": 13046
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37969139218330383,
      "learning_rate": 0.0005695359560079411,
      "loss": 1.6875,
      "step": 13047
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.36801743507385254,
      "learning_rate": 0.0005695313666406312,
      "loss": 1.6373,
      "step": 13048
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3829028606414795,
      "learning_rate": 0.0005695267769461499,
      "loss": 1.7573,
      "step": 13049
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3981390595436096,
      "learning_rate": 0.0005695221869245028,
      "loss": 1.8324,
      "step": 13050
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3752845823764801,
      "learning_rate": 0.0005695175965756954,
      "loss": 1.6836,
      "step": 13051
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37543514370918274,
      "learning_rate": 0.0005695130058997334,
      "loss": 1.7507,
      "step": 13052
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37243518233299255,
      "learning_rate": 0.0005695084148966223,
      "loss": 1.686,
      "step": 13053
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3764511048793793,
      "learning_rate": 0.0005695038235663677,
      "loss": 1.7245,
      "step": 13054
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3799375593662262,
      "learning_rate": 0.0005694992319089752,
      "loss": 1.7791,
      "step": 13055
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38359227776527405,
      "learning_rate": 0.0005694946399244504,
      "loss": 1.7046,
      "step": 13056
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39137300848960876,
      "learning_rate": 0.0005694900476127987,
      "loss": 1.7708,
      "step": 13057
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3820178806781769,
      "learning_rate": 0.0005694854549740258,
      "loss": 1.8076,
      "step": 13058
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3874521553516388,
      "learning_rate": 0.0005694808620081374,
      "loss": 1.7388,
      "step": 13059
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3954017758369446,
      "learning_rate": 0.0005694762687151388,
      "loss": 1.6924,
      "step": 13060
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39333558082580566,
      "learning_rate": 0.0005694716750950358,
      "loss": 1.7008,
      "step": 13061
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39605215191841125,
      "learning_rate": 0.0005694670811478337,
      "loss": 1.7085,
      "step": 13062
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.41528066992759705,
      "learning_rate": 0.0005694624868735385,
      "loss": 1.7524,
      "step": 13063
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.381748765707016,
      "learning_rate": 0.0005694578922721555,
      "loss": 1.6478,
      "step": 13064
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3839470148086548,
      "learning_rate": 0.0005694532973436902,
      "loss": 1.6983,
      "step": 13065
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3852215111255646,
      "learning_rate": 0.0005694487020881484,
      "loss": 1.717,
      "step": 13066
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.39741817116737366,
      "learning_rate": 0.0005694441065055355,
      "loss": 1.6923,
      "step": 13067
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3863902688026428,
      "learning_rate": 0.0005694395105958572,
      "loss": 1.8425,
      "step": 13068
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38900843262672424,
      "learning_rate": 0.0005694349143591191,
      "loss": 1.7546,
      "step": 13069
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.38319531083106995,
      "learning_rate": 0.0005694303177953266,
      "loss": 1.7618,
      "step": 13070
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3797215223312378,
      "learning_rate": 0.0005694257209044854,
      "loss": 1.7813,
      "step": 13071
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3825143575668335,
      "learning_rate": 0.0005694211236866012,
      "loss": 1.7318,
      "step": 13072
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37629154324531555,
      "learning_rate": 0.0005694165261416794,
      "loss": 1.7785,
      "step": 13073
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3907144069671631,
      "learning_rate": 0.0005694119282697255,
      "loss": 1.6826,
      "step": 13074
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.402080774307251,
      "learning_rate": 0.0005694073300707454,
      "loss": 1.7162,
      "step": 13075
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39519429206848145,
      "learning_rate": 0.0005694027315447445,
      "loss": 1.6642,
      "step": 13076
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3835400640964508,
      "learning_rate": 0.0005693981326917282,
      "loss": 1.7659,
      "step": 13077
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3837524354457855,
      "learning_rate": 0.0005693935335117023,
      "loss": 1.8011,
      "step": 13078
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40118399262428284,
      "learning_rate": 0.0005693889340046724,
      "loss": 1.7695,
      "step": 13079
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39008063077926636,
      "learning_rate": 0.0005693843341706441,
      "loss": 1.7236,
      "step": 13080
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37937501072883606,
      "learning_rate": 0.0005693797340096229,
      "loss": 1.7501,
      "step": 13081
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3956994116306305,
      "learning_rate": 0.0005693751335216142,
      "loss": 1.6175,
      "step": 13082
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3966074287891388,
      "learning_rate": 0.000569370532706624,
      "loss": 1.7047,
      "step": 13083
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38300636410713196,
      "learning_rate": 0.0005693659315646576,
      "loss": 1.8144,
      "step": 13084
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3910272717475891,
      "learning_rate": 0.0005693613300957206,
      "loss": 1.783,
      "step": 13085
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38826772570610046,
      "learning_rate": 0.0005693567282998187,
      "loss": 1.7693,
      "step": 13086
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3837229609489441,
      "learning_rate": 0.0005693521261769573,
      "loss": 1.733,
      "step": 13087
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3847063481807709,
      "learning_rate": 0.0005693475237271423,
      "loss": 1.738,
      "step": 13088
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39303281903266907,
      "learning_rate": 0.0005693429209503789,
      "loss": 1.7855,
      "step": 13089
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5754383206367493,
      "learning_rate": 0.000569338317846673,
      "loss": 1.8526,
      "step": 13090
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38082125782966614,
      "learning_rate": 0.00056933371441603,
      "loss": 1.7305,
      "step": 13091
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3819955885410309,
      "learning_rate": 0.0005693291106584555,
      "loss": 1.719,
      "step": 13092
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3809511661529541,
      "learning_rate": 0.0005693245065739553,
      "loss": 1.7141,
      "step": 13093
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4006308913230896,
      "learning_rate": 0.0005693199021625348,
      "loss": 1.7502,
      "step": 13094
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39021268486976624,
      "learning_rate": 0.0005693152974241995,
      "loss": 1.8231,
      "step": 13095
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37937644124031067,
      "learning_rate": 0.0005693106923589552,
      "loss": 1.7159,
      "step": 13096
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40483278036117554,
      "learning_rate": 0.0005693060869668073,
      "loss": 1.7522,
      "step": 13097
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37610888481140137,
      "learning_rate": 0.0005693014812477616,
      "loss": 1.7486,
      "step": 13098
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38056033849716187,
      "learning_rate": 0.0005692968752018236,
      "loss": 1.7566,
      "step": 13099
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37819868326187134,
      "learning_rate": 0.0005692922688289989,
      "loss": 1.7417,
      "step": 13100
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.377772718667984,
      "learning_rate": 0.0005692876621292929,
      "loss": 1.7508,
      "step": 13101
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38745397329330444,
      "learning_rate": 0.0005692830551027115,
      "loss": 1.7969,
      "step": 13102
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39364880323410034,
      "learning_rate": 0.0005692784477492601,
      "loss": 1.674,
      "step": 13103
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.42412182688713074,
      "learning_rate": 0.0005692738400689443,
      "loss": 1.7351,
      "step": 13104
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40035146474838257,
      "learning_rate": 0.0005692692320617698,
      "loss": 1.8065,
      "step": 13105
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3852849304676056,
      "learning_rate": 0.0005692646237277422,
      "loss": 1.7669,
      "step": 13106
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38383200764656067,
      "learning_rate": 0.0005692600150668668,
      "loss": 1.6967,
      "step": 13107
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3679363429546356,
      "learning_rate": 0.0005692554060791496,
      "loss": 1.7036,
      "step": 13108
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37987756729125977,
      "learning_rate": 0.0005692507967645959,
      "loss": 1.8026,
      "step": 13109
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37483394145965576,
      "learning_rate": 0.0005692461871232115,
      "loss": 1.7558,
      "step": 13110
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37513837218284607,
      "learning_rate": 0.0005692415771550018,
      "loss": 1.7597,
      "step": 13111
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3746781349182129,
      "learning_rate": 0.0005692369668599726,
      "loss": 1.7169,
      "step": 13112
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3738209903240204,
      "learning_rate": 0.0005692323562381293,
      "loss": 1.6909,
      "step": 13113
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3902730941772461,
      "learning_rate": 0.0005692277452894777,
      "loss": 1.7223,
      "step": 13114
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38738760352134705,
      "learning_rate": 0.0005692231340140232,
      "loss": 1.8061,
      "step": 13115
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3819071650505066,
      "learning_rate": 0.0005692185224117714,
      "loss": 1.7199,
      "step": 13116
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3804127275943756,
      "learning_rate": 0.0005692139104827281,
      "loss": 1.7947,
      "step": 13117
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39640793204307556,
      "learning_rate": 0.0005692092982268989,
      "loss": 1.7572,
      "step": 13118
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3945823311805725,
      "learning_rate": 0.0005692046856442891,
      "loss": 1.7603,
      "step": 13119
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37694475054740906,
      "learning_rate": 0.0005692000727349044,
      "loss": 1.73,
      "step": 13120
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3765213191509247,
      "learning_rate": 0.0005691954594987507,
      "loss": 1.7328,
      "step": 13121
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3829015791416168,
      "learning_rate": 0.0005691908459358332,
      "loss": 1.6516,
      "step": 13122
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4147838056087494,
      "learning_rate": 0.0005691862320461577,
      "loss": 1.7042,
      "step": 13123
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3909953832626343,
      "learning_rate": 0.00056918161782973,
      "loss": 1.7562,
      "step": 13124
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37540239095687866,
      "learning_rate": 0.0005691770032865552,
      "loss": 1.7239,
      "step": 13125
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39116019010543823,
      "learning_rate": 0.0005691723884166392,
      "loss": 1.7265,
      "step": 13126
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38733038306236267,
      "learning_rate": 0.0005691677732199877,
      "loss": 1.7863,
      "step": 13127
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4226403832435608,
      "learning_rate": 0.0005691631576966061,
      "loss": 1.7195,
      "step": 13128
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.386114239692688,
      "learning_rate": 0.0005691585418465002,
      "loss": 1.7742,
      "step": 13129
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.387565553188324,
      "learning_rate": 0.0005691539256696754,
      "loss": 1.7617,
      "step": 13130
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36661240458488464,
      "learning_rate": 0.0005691493091661375,
      "loss": 1.6942,
      "step": 13131
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38534486293792725,
      "learning_rate": 0.0005691446923358919,
      "loss": 1.7547,
      "step": 13132
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3968711197376251,
      "learning_rate": 0.0005691400751789442,
      "loss": 1.7325,
      "step": 13133
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.411333292722702,
      "learning_rate": 0.0005691354576953003,
      "loss": 1.7513,
      "step": 13134
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3707984387874603,
      "learning_rate": 0.0005691308398849654,
      "loss": 1.7865,
      "step": 13135
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40556982159614563,
      "learning_rate": 0.0005691262217479455,
      "loss": 1.7938,
      "step": 13136
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4377158284187317,
      "learning_rate": 0.0005691216032842459,
      "loss": 1.7774,
      "step": 13137
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.374759703874588,
      "learning_rate": 0.0005691169844938724,
      "loss": 1.6844,
      "step": 13138
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3930901288986206,
      "learning_rate": 0.0005691123653768306,
      "loss": 1.7115,
      "step": 13139
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40878719091415405,
      "learning_rate": 0.0005691077459331259,
      "loss": 1.7701,
      "step": 13140
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4035249650478363,
      "learning_rate": 0.0005691031261627641,
      "loss": 1.7812,
      "step": 13141
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38659533858299255,
      "learning_rate": 0.0005690985060657508,
      "loss": 1.71,
      "step": 13142
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3769058287143707,
      "learning_rate": 0.0005690938856420915,
      "loss": 1.7544,
      "step": 13143
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4039228558540344,
      "learning_rate": 0.0005690892648917919,
      "loss": 1.7506,
      "step": 13144
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40302804112434387,
      "learning_rate": 0.0005690846438148576,
      "loss": 1.758,
      "step": 13145
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4122758209705353,
      "learning_rate": 0.0005690800224112942,
      "loss": 1.7572,
      "step": 13146
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3891933262348175,
      "learning_rate": 0.0005690754006811073,
      "loss": 1.7088,
      "step": 13147
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.43864905834198,
      "learning_rate": 0.0005690707786243024,
      "loss": 1.7395,
      "step": 13148
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38712185621261597,
      "learning_rate": 0.0005690661562408853,
      "loss": 1.788,
      "step": 13149
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39583298563957214,
      "learning_rate": 0.0005690615335308616,
      "loss": 1.7667,
      "step": 13150
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4085000455379486,
      "learning_rate": 0.0005690569104942367,
      "loss": 1.7214,
      "step": 13151
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3985418975353241,
      "learning_rate": 0.0005690522871310165,
      "loss": 1.7214,
      "step": 13152
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3823649287223816,
      "learning_rate": 0.0005690476634412063,
      "loss": 1.634,
      "step": 13153
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3922712206840515,
      "learning_rate": 0.000569043039424812,
      "loss": 1.7878,
      "step": 13154
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3983343839645386,
      "learning_rate": 0.000569038415081839,
      "loss": 1.6952,
      "step": 13155
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37295302748680115,
      "learning_rate": 0.0005690337904122931,
      "loss": 1.6826,
      "step": 13156
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3845607042312622,
      "learning_rate": 0.0005690291654161798,
      "loss": 1.7681,
      "step": 13157
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38378477096557617,
      "learning_rate": 0.0005690245400935048,
      "loss": 1.6888,
      "step": 13158
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40246179699897766,
      "learning_rate": 0.0005690199144442735,
      "loss": 1.7476,
      "step": 13159
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.381900817155838,
      "learning_rate": 0.0005690152884684917,
      "loss": 1.8169,
      "step": 13160
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3861003816127777,
      "learning_rate": 0.000569010662166165,
      "loss": 1.804,
      "step": 13161
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3940228819847107,
      "learning_rate": 0.0005690060355372991,
      "loss": 1.7709,
      "step": 13162
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3831542432308197,
      "learning_rate": 0.0005690014085818993,
      "loss": 1.7136,
      "step": 13163
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3909144401550293,
      "learning_rate": 0.0005689967812999715,
      "loss": 1.7998,
      "step": 13164
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3889212906360626,
      "learning_rate": 0.0005689921536915214,
      "loss": 1.7817,
      "step": 13165
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3857867121696472,
      "learning_rate": 0.0005689875257565543,
      "loss": 1.741,
      "step": 13166
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37879616022109985,
      "learning_rate": 0.000568982897495076,
      "loss": 1.7303,
      "step": 13167
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3943871855735779,
      "learning_rate": 0.0005689782689070921,
      "loss": 1.8276,
      "step": 13168
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3654824495315552,
      "learning_rate": 0.0005689736399926082,
      "loss": 1.7079,
      "step": 13169
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37920552492141724,
      "learning_rate": 0.00056896901075163,
      "loss": 1.7704,
      "step": 13170
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3771386742591858,
      "learning_rate": 0.0005689643811841629,
      "loss": 1.7715,
      "step": 13171
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39269551634788513,
      "learning_rate": 0.0005689597512902128,
      "loss": 1.7946,
      "step": 13172
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36948585510253906,
      "learning_rate": 0.0005689551210697852,
      "loss": 1.7832,
      "step": 13173
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3839872479438782,
      "learning_rate": 0.0005689504905228856,
      "loss": 1.7994,
      "step": 13174
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3797646164894104,
      "learning_rate": 0.0005689458596495199,
      "loss": 1.7683,
      "step": 13175
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36542007327079773,
      "learning_rate": 0.0005689412284496935,
      "loss": 1.6609,
      "step": 13176
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38339513540267944,
      "learning_rate": 0.000568936596923412,
      "loss": 1.7758,
      "step": 13177
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3780340850353241,
      "learning_rate": 0.0005689319650706811,
      "loss": 1.7312,
      "step": 13178
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37913432717323303,
      "learning_rate": 0.0005689273328915065,
      "loss": 1.725,
      "step": 13179
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3812769055366516,
      "learning_rate": 0.0005689227003858936,
      "loss": 1.7599,
      "step": 13180
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5594967603683472,
      "learning_rate": 0.0005689180675538483,
      "loss": 1.7534,
      "step": 13181
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3776992857456207,
      "learning_rate": 0.0005689134343953761,
      "loss": 1.7598,
      "step": 13182
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.370248943567276,
      "learning_rate": 0.0005689088009104826,
      "loss": 1.6869,
      "step": 13183
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3927738666534424,
      "learning_rate": 0.0005689041670991733,
      "loss": 1.7804,
      "step": 13184
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37135690450668335,
      "learning_rate": 0.0005688995329614541,
      "loss": 1.6932,
      "step": 13185
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3799142837524414,
      "learning_rate": 0.0005688948984973306,
      "loss": 1.7177,
      "step": 13186
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38963577151298523,
      "learning_rate": 0.0005688902637068081,
      "loss": 1.7206,
      "step": 13187
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37258201837539673,
      "learning_rate": 0.0005688856285898925,
      "loss": 1.7306,
      "step": 13188
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37968483567237854,
      "learning_rate": 0.0005688809931465894,
      "loss": 1.7436,
      "step": 13189
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38497117161750793,
      "learning_rate": 0.0005688763573769044,
      "loss": 1.7147,
      "step": 13190
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37802448868751526,
      "learning_rate": 0.0005688717212808431,
      "loss": 1.7156,
      "step": 13191
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38455063104629517,
      "learning_rate": 0.000568867084858411,
      "loss": 1.7208,
      "step": 13192
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39003315567970276,
      "learning_rate": 0.000568862448109614,
      "loss": 1.662,
      "step": 13193
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3859054446220398,
      "learning_rate": 0.0005688578110344577,
      "loss": 1.7733,
      "step": 13194
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3888489305973053,
      "learning_rate": 0.0005688531736329475,
      "loss": 1.7337,
      "step": 13195
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3919775187969208,
      "learning_rate": 0.0005688485359050892,
      "loss": 1.7772,
      "step": 13196
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4004800021648407,
      "learning_rate": 0.0005688438978508883,
      "loss": 1.7714,
      "step": 13197
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3904102146625519,
      "learning_rate": 0.0005688392594703507,
      "loss": 1.7717,
      "step": 13198
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4987824559211731,
      "learning_rate": 0.0005688346207634817,
      "loss": 1.7219,
      "step": 13199
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3800729811191559,
      "learning_rate": 0.0005688299817302872,
      "loss": 1.7648,
      "step": 13200
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40293899178504944,
      "learning_rate": 0.0005688253423707726,
      "loss": 1.7665,
      "step": 13201
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39295005798339844,
      "learning_rate": 0.0005688207026849437,
      "loss": 1.7957,
      "step": 13202
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38538268208503723,
      "learning_rate": 0.0005688160626728061,
      "loss": 1.7701,
      "step": 13203
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39673370122909546,
      "learning_rate": 0.0005688114223343654,
      "loss": 1.744,
      "step": 13204
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39959633350372314,
      "learning_rate": 0.0005688067816696273,
      "loss": 1.7431,
      "step": 13205
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37930426001548767,
      "learning_rate": 0.0005688021406785972,
      "loss": 1.686,
      "step": 13206
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40356990694999695,
      "learning_rate": 0.0005687974993612811,
      "loss": 1.7282,
      "step": 13207
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40939876437187195,
      "learning_rate": 0.0005687928577176842,
      "loss": 1.7056,
      "step": 13208
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37353068590164185,
      "learning_rate": 0.0005687882157478126,
      "loss": 1.7216,
      "step": 13209
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3843972086906433,
      "learning_rate": 0.0005687835734516717,
      "loss": 1.7209,
      "step": 13210
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3813459277153015,
      "learning_rate": 0.000568778930829267,
      "loss": 1.7375,
      "step": 13211
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.420089453458786,
      "learning_rate": 0.0005687742878806044,
      "loss": 1.7962,
      "step": 13212
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39424872398376465,
      "learning_rate": 0.0005687696446056894,
      "loss": 1.6505,
      "step": 13213
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37752512097358704,
      "learning_rate": 0.0005687650010045277,
      "loss": 1.6884,
      "step": 13214
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3985627293586731,
      "learning_rate": 0.0005687603570771248,
      "loss": 1.7642,
      "step": 13215
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39500701427459717,
      "learning_rate": 0.0005687557128234863,
      "loss": 1.7975,
      "step": 13216
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38437992334365845,
      "learning_rate": 0.0005687510682436182,
      "loss": 1.7264,
      "step": 13217
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3814208507537842,
      "learning_rate": 0.0005687464233375258,
      "loss": 1.7697,
      "step": 13218
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3860960304737091,
      "learning_rate": 0.0005687417781052148,
      "loss": 1.7085,
      "step": 13219
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38524284958839417,
      "learning_rate": 0.0005687371325466909,
      "loss": 1.7712,
      "step": 13220
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37916964292526245,
      "learning_rate": 0.0005687324866619598,
      "loss": 1.7962,
      "step": 13221
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39059171080589294,
      "learning_rate": 0.000568727840451027,
      "loss": 1.7808,
      "step": 13222
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3837621510028839,
      "learning_rate": 0.0005687231939138982,
      "loss": 1.7251,
      "step": 13223
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3880182206630707,
      "learning_rate": 0.0005687185470505791,
      "loss": 1.7374,
      "step": 13224
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3823177218437195,
      "learning_rate": 0.0005687138998610752,
      "loss": 1.7696,
      "step": 13225
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3841516673564911,
      "learning_rate": 0.0005687092523453922,
      "loss": 1.7442,
      "step": 13226
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.625312864780426,
      "learning_rate": 0.0005687046045035357,
      "loss": 1.74,
      "step": 13227
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3953397870063782,
      "learning_rate": 0.0005686999563355115,
      "loss": 1.7672,
      "step": 13228
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38516417145729065,
      "learning_rate": 0.0005686953078413252,
      "loss": 1.6817,
      "step": 13229
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3869965076446533,
      "learning_rate": 0.0005686906590209823,
      "loss": 1.7418,
      "step": 13230
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39284756779670715,
      "learning_rate": 0.0005686860098744885,
      "loss": 1.7928,
      "step": 13231
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3919956088066101,
      "learning_rate": 0.0005686813604018497,
      "loss": 1.7433,
      "step": 13232
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37840110063552856,
      "learning_rate": 0.0005686767106030711,
      "loss": 1.7351,
      "step": 13233
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3789759576320648,
      "learning_rate": 0.0005686720604781586,
      "loss": 1.7663,
      "step": 13234
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3814200162887573,
      "learning_rate": 0.0005686674100271177,
      "loss": 1.6476,
      "step": 13235
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.44184747338294983,
      "learning_rate": 0.0005686627592499543,
      "loss": 1.6991,
      "step": 13236
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3899976313114166,
      "learning_rate": 0.0005686581081466739,
      "loss": 1.7978,
      "step": 13237
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.374250203371048,
      "learning_rate": 0.0005686534567172821,
      "loss": 1.7258,
      "step": 13238
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38592687249183655,
      "learning_rate": 0.0005686488049617846,
      "loss": 1.7781,
      "step": 13239
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38613200187683105,
      "learning_rate": 0.000568644152880187,
      "loss": 1.7047,
      "step": 13240
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3743450343608856,
      "learning_rate": 0.000568639500472495,
      "loss": 1.7598,
      "step": 13241
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39196592569351196,
      "learning_rate": 0.0005686348477387142,
      "loss": 1.7534,
      "step": 13242
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3849661350250244,
      "learning_rate": 0.0005686301946788504,
      "loss": 1.756,
      "step": 13243
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3864213526248932,
      "learning_rate": 0.000568625541292909,
      "loss": 1.7616,
      "step": 13244
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3730342984199524,
      "learning_rate": 0.0005686208875808958,
      "loss": 1.6604,
      "step": 13245
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3758029341697693,
      "learning_rate": 0.0005686162335428164,
      "loss": 1.7533,
      "step": 13246
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3920682966709137,
      "learning_rate": 0.0005686115791786765,
      "loss": 1.7303,
      "step": 13247
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3710019886493683,
      "learning_rate": 0.0005686069244884818,
      "loss": 1.6608,
      "step": 13248
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3664679229259491,
      "learning_rate": 0.0005686022694722377,
      "loss": 1.6491,
      "step": 13249
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38397079706192017,
      "learning_rate": 0.0005685976141299501,
      "loss": 1.7607,
      "step": 13250
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3960764706134796,
      "learning_rate": 0.0005685929584616247,
      "loss": 1.7288,
      "step": 13251
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37788403034210205,
      "learning_rate": 0.0005685883024672668,
      "loss": 1.78,
      "step": 13252
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39467209577560425,
      "learning_rate": 0.0005685836461468824,
      "loss": 1.8227,
      "step": 13253
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3865247368812561,
      "learning_rate": 0.000568578989500477,
      "loss": 1.8079,
      "step": 13254
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37496647238731384,
      "learning_rate": 0.0005685743325280564,
      "loss": 1.7718,
      "step": 13255
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3874306082725525,
      "learning_rate": 0.000568569675229626,
      "loss": 1.7239,
      "step": 13256
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3787129521369934,
      "learning_rate": 0.0005685650176051915,
      "loss": 1.7439,
      "step": 13257
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38229918479919434,
      "learning_rate": 0.0005685603596547587,
      "loss": 1.7594,
      "step": 13258
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38624638319015503,
      "learning_rate": 0.0005685557013783333,
      "loss": 1.7161,
      "step": 13259
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38543879985809326,
      "learning_rate": 0.0005685510427759209,
      "loss": 1.7096,
      "step": 13260
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37690412998199463,
      "learning_rate": 0.000568546383847527,
      "loss": 1.6771,
      "step": 13261
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40725407004356384,
      "learning_rate": 0.0005685417245931573,
      "loss": 1.7783,
      "step": 13262
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3933432698249817,
      "learning_rate": 0.0005685370650128176,
      "loss": 1.7264,
      "step": 13263
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39833709597587585,
      "learning_rate": 0.0005685324051065134,
      "loss": 1.7401,
      "step": 13264
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3866623342037201,
      "learning_rate": 0.0005685277448742504,
      "loss": 1.718,
      "step": 13265
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36730000376701355,
      "learning_rate": 0.0005685230843160344,
      "loss": 1.75,
      "step": 13266
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3963811695575714,
      "learning_rate": 0.0005685184234318709,
      "loss": 1.8026,
      "step": 13267
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4031718075275421,
      "learning_rate": 0.0005685137622217656,
      "loss": 1.9023,
      "step": 13268
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3761120140552521,
      "learning_rate": 0.0005685091006857242,
      "loss": 1.8424,
      "step": 13269
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3844822347164154,
      "learning_rate": 0.0005685044388237521,
      "loss": 1.7539,
      "step": 13270
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38286900520324707,
      "learning_rate": 0.0005684997766358554,
      "loss": 1.8322,
      "step": 13271
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3898373246192932,
      "learning_rate": 0.0005684951141220394,
      "loss": 1.8347,
      "step": 13272
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36812740564346313,
      "learning_rate": 0.0005684904512823101,
      "loss": 1.6525,
      "step": 13273
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39092686772346497,
      "learning_rate": 0.0005684857881166727,
      "loss": 1.7416,
      "step": 13274
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3784483075141907,
      "learning_rate": 0.0005684811246251333,
      "loss": 1.7591,
      "step": 13275
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37231114506721497,
      "learning_rate": 0.0005684764608076973,
      "loss": 1.6751,
      "step": 13276
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39009296894073486,
      "learning_rate": 0.0005684717966643704,
      "loss": 1.7865,
      "step": 13277
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3751247525215149,
      "learning_rate": 0.0005684671321951583,
      "loss": 1.6464,
      "step": 13278
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38601166009902954,
      "learning_rate": 0.0005684624674000667,
      "loss": 1.7381,
      "step": 13279
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3872639536857605,
      "learning_rate": 0.0005684578022791012,
      "loss": 1.7804,
      "step": 13280
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37175101041793823,
      "learning_rate": 0.0005684531368322675,
      "loss": 1.6984,
      "step": 13281
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37930768728256226,
      "learning_rate": 0.0005684484710595713,
      "loss": 1.6368,
      "step": 13282
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40212538838386536,
      "learning_rate": 0.000568443804961018,
      "loss": 1.7285,
      "step": 13283
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3792794644832611,
      "learning_rate": 0.0005684391385366137,
      "loss": 1.7927,
      "step": 13284
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3834409713745117,
      "learning_rate": 0.0005684344717863638,
      "loss": 1.7415,
      "step": 13285
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39709651470184326,
      "learning_rate": 0.0005684298047102739,
      "loss": 1.6604,
      "step": 13286
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39705634117126465,
      "learning_rate": 0.0005684251373083499,
      "loss": 1.7467,
      "step": 13287
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3801238238811493,
      "learning_rate": 0.0005684204695805972,
      "loss": 1.7379,
      "step": 13288
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3966419994831085,
      "learning_rate": 0.0005684158015270217,
      "loss": 1.7121,
      "step": 13289
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39409372210502625,
      "learning_rate": 0.000568411133147629,
      "loss": 1.7454,
      "step": 13290
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.371620237827301,
      "learning_rate": 0.0005684064644424245,
      "loss": 1.7031,
      "step": 13291
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39652568101882935,
      "learning_rate": 0.0005684017954114143,
      "loss": 1.8234,
      "step": 13292
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3813450336456299,
      "learning_rate": 0.0005683971260546039,
      "loss": 1.7437,
      "step": 13293
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37406280636787415,
      "learning_rate": 0.0005683924563719988,
      "loss": 1.791,
      "step": 13294
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36962389945983887,
      "learning_rate": 0.0005683877863636049,
      "loss": 1.7648,
      "step": 13295
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36585742235183716,
      "learning_rate": 0.0005683831160294278,
      "loss": 1.6976,
      "step": 13296
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3860972225666046,
      "learning_rate": 0.0005683784453694731,
      "loss": 1.6716,
      "step": 13297
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3856440484523773,
      "learning_rate": 0.0005683737743837464,
      "loss": 1.782,
      "step": 13298
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37626972794532776,
      "learning_rate": 0.0005683691030722535,
      "loss": 1.6799,
      "step": 13299
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3885107934474945,
      "learning_rate": 0.0005683644314350003,
      "loss": 1.8098,
      "step": 13300
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3942760229110718,
      "learning_rate": 0.000568359759471992,
      "loss": 1.7756,
      "step": 13301
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38473525643348694,
      "learning_rate": 0.0005683550871832346,
      "loss": 1.7524,
      "step": 13302
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3791414201259613,
      "learning_rate": 0.0005683504145687335,
      "loss": 1.7268,
      "step": 13303
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3814208507537842,
      "learning_rate": 0.0005683457416284947,
      "loss": 1.6696,
      "step": 13304
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3947948217391968,
      "learning_rate": 0.0005683410683625236,
      "loss": 1.7027,
      "step": 13305
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3850623667240143,
      "learning_rate": 0.0005683363947708261,
      "loss": 1.7482,
      "step": 13306
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3871939480304718,
      "learning_rate": 0.0005683317208534077,
      "loss": 1.7389,
      "step": 13307
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39225924015045166,
      "learning_rate": 0.0005683270466102741,
      "loss": 1.6515,
      "step": 13308
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3898826539516449,
      "learning_rate": 0.000568322372041431,
      "loss": 1.7097,
      "step": 13309
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37731415033340454,
      "learning_rate": 0.000568317697146884,
      "loss": 1.7266,
      "step": 13310
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3749317526817322,
      "learning_rate": 0.000568313021926639,
      "loss": 1.7582,
      "step": 13311
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37913477420806885,
      "learning_rate": 0.0005683083463807015,
      "loss": 1.6863,
      "step": 13312
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3849765658378601,
      "learning_rate": 0.0005683036705090772,
      "loss": 1.6669,
      "step": 13313
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3797348141670227,
      "learning_rate": 0.0005682989943117717,
      "loss": 1.6913,
      "step": 13314
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37883949279785156,
      "learning_rate": 0.0005682943177887908,
      "loss": 1.6797,
      "step": 13315
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38585785031318665,
      "learning_rate": 0.0005682896409401401,
      "loss": 1.8881,
      "step": 13316
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3752168118953705,
      "learning_rate": 0.0005682849637658253,
      "loss": 1.6778,
      "step": 13317
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3706122040748596,
      "learning_rate": 0.0005682802862658522,
      "loss": 1.6712,
      "step": 13318
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37084242701530457,
      "learning_rate": 0.0005682756084402263,
      "loss": 1.6625,
      "step": 13319
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3812302052974701,
      "learning_rate": 0.0005682709302889532,
      "loss": 1.6961,
      "step": 13320
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3985525071620941,
      "learning_rate": 0.0005682662518120389,
      "loss": 1.7473,
      "step": 13321
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3883942663669586,
      "learning_rate": 0.0005682615730094888,
      "loss": 1.7018,
      "step": 13322
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37848520278930664,
      "learning_rate": 0.0005682568938813088,
      "loss": 1.713,
      "step": 13323
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.41368380188941956,
      "learning_rate": 0.0005682522144275044,
      "loss": 1.7634,
      "step": 13324
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4058268070220947,
      "learning_rate": 0.0005682475346480813,
      "loss": 1.7388,
      "step": 13325
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38352805376052856,
      "learning_rate": 0.0005682428545430451,
      "loss": 1.7037,
      "step": 13326
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4035331606864929,
      "learning_rate": 0.0005682381741124018,
      "loss": 1.6699,
      "step": 13327
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38981765508651733,
      "learning_rate": 0.0005682334933561568,
      "loss": 1.6909,
      "step": 13328
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3914172053337097,
      "learning_rate": 0.0005682288122743159,
      "loss": 1.7621,
      "step": 13329
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38232654333114624,
      "learning_rate": 0.0005682241308668847,
      "loss": 1.8217,
      "step": 13330
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38802507519721985,
      "learning_rate": 0.0005682194491338689,
      "loss": 1.6485,
      "step": 13331
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3957649767398834,
      "learning_rate": 0.0005682147670752742,
      "loss": 1.6939,
      "step": 13332
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3833867907524109,
      "learning_rate": 0.0005682100846911063,
      "loss": 1.6657,
      "step": 13333
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3769223392009735,
      "learning_rate": 0.0005682054019813709,
      "loss": 1.864,
      "step": 13334
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.383158415555954,
      "learning_rate": 0.0005682007189460737,
      "loss": 1.8156,
      "step": 13335
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.43018442392349243,
      "learning_rate": 0.0005681960355852203,
      "loss": 1.7593,
      "step": 13336
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37997233867645264,
      "learning_rate": 0.0005681913518988165,
      "loss": 1.6873,
      "step": 13337
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3773344159126282,
      "learning_rate": 0.0005681866678868678,
      "loss": 1.6887,
      "step": 13338
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37490320205688477,
      "learning_rate": 0.00056818198354938,
      "loss": 1.7433,
      "step": 13339
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3831186592578888,
      "learning_rate": 0.0005681772988863589,
      "loss": 1.7542,
      "step": 13340
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39680108428001404,
      "learning_rate": 0.00056817261389781,
      "loss": 1.7353,
      "step": 13341
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3784230351448059,
      "learning_rate": 0.0005681679285837392,
      "loss": 1.723,
      "step": 13342
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3724321126937866,
      "learning_rate": 0.0005681632429441519,
      "loss": 1.7251,
      "step": 13343
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39763107895851135,
      "learning_rate": 0.000568158556979054,
      "loss": 1.7689,
      "step": 13344
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3884763717651367,
      "learning_rate": 0.000568153870688451,
      "loss": 1.8302,
      "step": 13345
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39013969898223877,
      "learning_rate": 0.0005681491840723488,
      "loss": 1.7326,
      "step": 13346
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3858260214328766,
      "learning_rate": 0.0005681444971307529,
      "loss": 1.7179,
      "step": 13347
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3801879286766052,
      "learning_rate": 0.0005681398098636693,
      "loss": 1.7112,
      "step": 13348
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38224533200263977,
      "learning_rate": 0.0005681351222711033,
      "loss": 1.7616,
      "step": 13349
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3964853286743164,
      "learning_rate": 0.0005681304343530609,
      "loss": 1.7067,
      "step": 13350
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40076592564582825,
      "learning_rate": 0.0005681257461095477,
      "loss": 1.7809,
      "step": 13351
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38669365644454956,
      "learning_rate": 0.0005681210575405691,
      "loss": 1.6936,
      "step": 13352
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38906383514404297,
      "learning_rate": 0.0005681163686461312,
      "loss": 1.7001,
      "step": 13353
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38520005345344543,
      "learning_rate": 0.0005681116794262396,
      "loss": 1.7132,
      "step": 13354
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3902994990348816,
      "learning_rate": 0.0005681069898808998,
      "loss": 1.7594,
      "step": 13355
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3832145631313324,
      "learning_rate": 0.0005681023000101177,
      "loss": 1.6959,
      "step": 13356
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39135265350341797,
      "learning_rate": 0.0005680976098138989,
      "loss": 1.7584,
      "step": 13357
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37983283400535583,
      "learning_rate": 0.0005680929192922491,
      "loss": 1.6974,
      "step": 13358
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3849506080150604,
      "learning_rate": 0.0005680882284451739,
      "loss": 1.7919,
      "step": 13359
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.369180291891098,
      "learning_rate": 0.0005680835372726792,
      "loss": 1.6463,
      "step": 13360
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3742411434650421,
      "learning_rate": 0.0005680788457747705,
      "loss": 1.6909,
      "step": 13361
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3843291103839874,
      "learning_rate": 0.0005680741539514537,
      "loss": 1.7192,
      "step": 13362
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4843848645687103,
      "learning_rate": 0.0005680694618027342,
      "loss": 1.7213,
      "step": 13363
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3652724325656891,
      "learning_rate": 0.000568064769328618,
      "loss": 1.6944,
      "step": 13364
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38474732637405396,
      "learning_rate": 0.0005680600765291107,
      "loss": 1.7043,
      "step": 13365
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3859553933143616,
      "learning_rate": 0.0005680553834042179,
      "loss": 1.6794,
      "step": 13366
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39060941338539124,
      "learning_rate": 0.0005680506899539454,
      "loss": 1.7655,
      "step": 13367
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38670989871025085,
      "learning_rate": 0.0005680459961782988,
      "loss": 1.7761,
      "step": 13368
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38615188002586365,
      "learning_rate": 0.0005680413020772839,
      "loss": 1.689,
      "step": 13369
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38045504689216614,
      "learning_rate": 0.0005680366076509063,
      "loss": 1.6766,
      "step": 13370
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3868081867694855,
      "learning_rate": 0.0005680319128991718,
      "loss": 1.7475,
      "step": 13371
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3894495666027069,
      "learning_rate": 0.0005680272178220861,
      "loss": 1.7621,
      "step": 13372
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3761941194534302,
      "learning_rate": 0.0005680225224196548,
      "loss": 1.7118,
      "step": 13373
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38112276792526245,
      "learning_rate": 0.0005680178266918837,
      "loss": 1.6846,
      "step": 13374
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.37786322832107544,
      "learning_rate": 0.0005680131306387782,
      "loss": 1.7445,
      "step": 13375
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3864956498146057,
      "learning_rate": 0.0005680084342603445,
      "loss": 1.7396,
      "step": 13376
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3848097026348114,
      "learning_rate": 0.0005680037375565882,
      "loss": 1.78,
      "step": 13377
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39522722363471985,
      "learning_rate": 0.0005679990405275145,
      "loss": 1.7321,
      "step": 13378
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38342657685279846,
      "learning_rate": 0.0005679943431731296,
      "loss": 1.7546,
      "step": 13379
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37563225626945496,
      "learning_rate": 0.000567989645493439,
      "loss": 1.6848,
      "step": 13380
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3933130204677582,
      "learning_rate": 0.0005679849474884485,
      "loss": 1.7675,
      "step": 13381
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38067886233329773,
      "learning_rate": 0.0005679802491581639,
      "loss": 1.7513,
      "step": 13382
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3852829039096832,
      "learning_rate": 0.0005679755505025905,
      "loss": 1.7826,
      "step": 13383
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3781699538230896,
      "learning_rate": 0.0005679708515217344,
      "loss": 1.7604,
      "step": 13384
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38849255442619324,
      "learning_rate": 0.0005679661522156013,
      "loss": 1.7841,
      "step": 13385
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3930567502975464,
      "learning_rate": 0.0005679614525841965,
      "loss": 1.8132,
      "step": 13386
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3849073052406311,
      "learning_rate": 0.0005679567526275262,
      "loss": 1.7656,
      "step": 13387
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37116357684135437,
      "learning_rate": 0.0005679520523455958,
      "loss": 1.7098,
      "step": 13388
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38156723976135254,
      "learning_rate": 0.000567947351738411,
      "loss": 1.7489,
      "step": 13389
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3921091556549072,
      "learning_rate": 0.0005679426508059778,
      "loss": 1.7159,
      "step": 13390
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.381479412317276,
      "learning_rate": 0.0005679379495483016,
      "loss": 1.7436,
      "step": 13391
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4080107808113098,
      "learning_rate": 0.0005679332479653881,
      "loss": 1.8047,
      "step": 13392
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3842167556285858,
      "learning_rate": 0.0005679285460572432,
      "loss": 1.7065,
      "step": 13393
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40030524134635925,
      "learning_rate": 0.0005679238438238726,
      "loss": 1.718,
      "step": 13394
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38193050026893616,
      "learning_rate": 0.0005679191412652819,
      "loss": 1.7695,
      "step": 13395
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39753293991088867,
      "learning_rate": 0.0005679144383814767,
      "loss": 1.8053,
      "step": 13396
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3990628719329834,
      "learning_rate": 0.000567909735172463,
      "loss": 1.8338,
      "step": 13397
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3768848180770874,
      "learning_rate": 0.0005679050316382462,
      "loss": 1.795,
      "step": 13398
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4286282956600189,
      "learning_rate": 0.0005679003277788324,
      "loss": 1.7263,
      "step": 13399
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3904211223125458,
      "learning_rate": 0.0005678956235942269,
      "loss": 1.7314,
      "step": 13400
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.36878448724746704,
      "learning_rate": 0.0005678909190844357,
      "loss": 1.7522,
      "step": 13401
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3786579668521881,
      "learning_rate": 0.0005678862142494643,
      "loss": 1.7384,
      "step": 13402
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.388889878988266,
      "learning_rate": 0.0005678815090893185,
      "loss": 1.8356,
      "step": 13403
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3875727355480194,
      "learning_rate": 0.0005678768036040041,
      "loss": 1.7417,
      "step": 13404
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38400474190711975,
      "learning_rate": 0.0005678720977935266,
      "loss": 1.6872,
      "step": 13405
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37971606850624084,
      "learning_rate": 0.0005678673916578919,
      "loss": 1.7438,
      "step": 13406
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3836938142776489,
      "learning_rate": 0.0005678626851971058,
      "loss": 1.7302,
      "step": 13407
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38228335976600647,
      "learning_rate": 0.0005678579784111736,
      "loss": 1.8119,
      "step": 13408
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39911773800849915,
      "learning_rate": 0.0005678532713001015,
      "loss": 1.7452,
      "step": 13409
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3775337040424347,
      "learning_rate": 0.000567848563863895,
      "loss": 1.762,
      "step": 13410
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38167861104011536,
      "learning_rate": 0.0005678438561025597,
      "loss": 1.8128,
      "step": 13411
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3899189531803131,
      "learning_rate": 0.0005678391480161014,
      "loss": 1.7319,
      "step": 13412
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38621628284454346,
      "learning_rate": 0.000567834439604526,
      "loss": 1.8413,
      "step": 13413
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39116060733795166,
      "learning_rate": 0.0005678297308678389,
      "loss": 1.7639,
      "step": 13414
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3842296004295349,
      "learning_rate": 0.000567825021806046,
      "loss": 1.7552,
      "step": 13415
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3802330493927002,
      "learning_rate": 0.000567820312419153,
      "loss": 1.7518,
      "step": 13416
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3822867274284363,
      "learning_rate": 0.0005678156027071657,
      "loss": 1.7037,
      "step": 13417
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3775533437728882,
      "learning_rate": 0.0005678108926700895,
      "loss": 1.6485,
      "step": 13418
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38862526416778564,
      "learning_rate": 0.0005678061823079305,
      "loss": 1.7666,
      "step": 13419
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37402796745300293,
      "learning_rate": 0.0005678014716206943,
      "loss": 1.744,
      "step": 13420
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.386370986700058,
      "learning_rate": 0.0005677967606083865,
      "loss": 1.8278,
      "step": 13421
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38366517424583435,
      "learning_rate": 0.0005677920492710127,
      "loss": 1.7426,
      "step": 13422
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38498377799987793,
      "learning_rate": 0.000567787337608579,
      "loss": 1.7686,
      "step": 13423
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.383676677942276,
      "learning_rate": 0.000567782625621091,
      "loss": 1.7542,
      "step": 13424
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37967318296432495,
      "learning_rate": 0.0005677779133085542,
      "loss": 1.7227,
      "step": 13425
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.41396012902259827,
      "learning_rate": 0.0005677732006709747,
      "loss": 1.7621,
      "step": 13426
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3792145848274231,
      "learning_rate": 0.0005677684877083577,
      "loss": 1.7589,
      "step": 13427
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38067951798439026,
      "learning_rate": 0.0005677637744207093,
      "loss": 1.69,
      "step": 13428
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3879140019416809,
      "learning_rate": 0.0005677590608080352,
      "loss": 1.7293,
      "step": 13429
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38681766390800476,
      "learning_rate": 0.000567754346870341,
      "loss": 1.7618,
      "step": 13430
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3843455910682678,
      "learning_rate": 0.0005677496326076325,
      "loss": 1.7702,
      "step": 13431
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4026474356651306,
      "learning_rate": 0.0005677449180199154,
      "loss": 1.7653,
      "step": 13432
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3883737325668335,
      "learning_rate": 0.0005677402031071954,
      "loss": 1.7384,
      "step": 13433
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37886908650398254,
      "learning_rate": 0.0005677354878694783,
      "loss": 1.6964,
      "step": 13434
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3734888732433319,
      "learning_rate": 0.0005677307723067697,
      "loss": 1.777,
      "step": 13435
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4043906331062317,
      "learning_rate": 0.0005677260564190753,
      "loss": 1.6617,
      "step": 13436
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3846307396888733,
      "learning_rate": 0.0005677213402064011,
      "loss": 1.8185,
      "step": 13437
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3905484974384308,
      "learning_rate": 0.0005677166236687526,
      "loss": 1.7129,
      "step": 13438
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3879374861717224,
      "learning_rate": 0.0005677119068061355,
      "loss": 1.7188,
      "step": 13439
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4054410755634308,
      "learning_rate": 0.0005677071896185556,
      "loss": 1.8531,
      "step": 13440
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37837982177734375,
      "learning_rate": 0.0005677024721060187,
      "loss": 1.7377,
      "step": 13441
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4026801586151123,
      "learning_rate": 0.0005676977542685304,
      "loss": 1.711,
      "step": 13442
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39586225152015686,
      "learning_rate": 0.0005676930361060964,
      "loss": 1.7087,
      "step": 13443
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3842735290527344,
      "learning_rate": 0.0005676883176187225,
      "loss": 1.7157,
      "step": 13444
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.391996294260025,
      "learning_rate": 0.0005676835988064145,
      "loss": 1.7862,
      "step": 13445
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39100828766822815,
      "learning_rate": 0.0005676788796691781,
      "loss": 1.8139,
      "step": 13446
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.406610369682312,
      "learning_rate": 0.0005676741602070189,
      "loss": 1.8039,
      "step": 13447
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4010121822357178,
      "learning_rate": 0.0005676694404199426,
      "loss": 1.7246,
      "step": 13448
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3806379735469818,
      "learning_rate": 0.0005676647203079553,
      "loss": 1.7408,
      "step": 13449
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3817785382270813,
      "learning_rate": 0.0005676599998710622,
      "loss": 1.8304,
      "step": 13450
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.392203152179718,
      "learning_rate": 0.0005676552791092695,
      "loss": 1.7394,
      "step": 13451
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37798890471458435,
      "learning_rate": 0.0005676505580225826,
      "loss": 1.7173,
      "step": 13452
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37994036078453064,
      "learning_rate": 0.0005676458366110073,
      "loss": 1.7773,
      "step": 13453
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3785388469696045,
      "learning_rate": 0.0005676411148745496,
      "loss": 1.7416,
      "step": 13454
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3739980459213257,
      "learning_rate": 0.000567636392813215,
      "loss": 1.6316,
      "step": 13455
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3768904507160187,
      "learning_rate": 0.0005676316704270091,
      "loss": 1.775,
      "step": 13456
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38897863030433655,
      "learning_rate": 0.0005676269477159378,
      "loss": 1.7733,
      "step": 13457
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3944445550441742,
      "learning_rate": 0.000567622224680007,
      "loss": 1.7553,
      "step": 13458
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40897679328918457,
      "learning_rate": 0.000567617501319222,
      "loss": 1.7391,
      "step": 13459
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3770366907119751,
      "learning_rate": 0.000567612777633589,
      "loss": 1.7357,
      "step": 13460
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38523557782173157,
      "learning_rate": 0.0005676080536231134,
      "loss": 1.7541,
      "step": 13461
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39691856503486633,
      "learning_rate": 0.0005676033292878011,
      "loss": 1.748,
      "step": 13462
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3854236900806427,
      "learning_rate": 0.0005675986046276577,
      "loss": 1.7756,
      "step": 13463
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3893742263317108,
      "learning_rate": 0.0005675938796426891,
      "loss": 1.6914,
      "step": 13464
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38379812240600586,
      "learning_rate": 0.000567589154332901,
      "loss": 1.7287,
      "step": 13465
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3827201724052429,
      "learning_rate": 0.000567584428698299,
      "loss": 1.7529,
      "step": 13466
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3773372173309326,
      "learning_rate": 0.000567579702738889,
      "loss": 1.7596,
      "step": 13467
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39526665210723877,
      "learning_rate": 0.0005675749764546766,
      "loss": 1.7444,
      "step": 13468
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.41215717792510986,
      "learning_rate": 0.0005675702498456677,
      "loss": 1.7256,
      "step": 13469
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.393361359834671,
      "learning_rate": 0.0005675655229118679,
      "loss": 1.7354,
      "step": 13470
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38902297616004944,
      "learning_rate": 0.0005675607956532829,
      "loss": 1.7443,
      "step": 13471
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3761743903160095,
      "learning_rate": 0.0005675560680699186,
      "loss": 1.8013,
      "step": 13472
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3885786831378937,
      "learning_rate": 0.0005675513401617806,
      "loss": 1.7676,
      "step": 13473
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38473740220069885,
      "learning_rate": 0.0005675466119288747,
      "loss": 1.7306,
      "step": 13474
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.41104668378829956,
      "learning_rate": 0.0005675418833712068,
      "loss": 1.7493,
      "step": 13475
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40359053015708923,
      "learning_rate": 0.0005675371544887823,
      "loss": 1.7177,
      "step": 13476
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3804049491882324,
      "learning_rate": 0.0005675324252816072,
      "loss": 1.691,
      "step": 13477
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3962841331958771,
      "learning_rate": 0.000567527695749687,
      "loss": 1.7305,
      "step": 13478
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3879140019416809,
      "learning_rate": 0.0005675229658930278,
      "loss": 1.7088,
      "step": 13479
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3975536525249481,
      "learning_rate": 0.000567518235711635,
      "loss": 1.7258,
      "step": 13480
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3842910826206207,
      "learning_rate": 0.0005675135052055145,
      "loss": 1.7129,
      "step": 13481
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3966448903083801,
      "learning_rate": 0.0005675087743746721,
      "loss": 1.7624,
      "step": 13482
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39483442902565,
      "learning_rate": 0.0005675040432191134,
      "loss": 1.7582,
      "step": 13483
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38616278767585754,
      "learning_rate": 0.0005674993117388442,
      "loss": 1.6864,
      "step": 13484
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3776080012321472,
      "learning_rate": 0.0005674945799338703,
      "loss": 1.7151,
      "step": 13485
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3741361200809479,
      "learning_rate": 0.0005674898478041974,
      "loss": 1.7106,
      "step": 13486
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38917747139930725,
      "learning_rate": 0.0005674851153498311,
      "loss": 1.8516,
      "step": 13487
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38978829979896545,
      "learning_rate": 0.0005674803825707773,
      "loss": 1.7431,
      "step": 13488
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3850419521331787,
      "learning_rate": 0.0005674756494670419,
      "loss": 1.8331,
      "step": 13489
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3866070806980133,
      "learning_rate": 0.0005674709160386304,
      "loss": 1.7561,
      "step": 13490
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38623860478401184,
      "learning_rate": 0.0005674661822855486,
      "loss": 1.7633,
      "step": 13491
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39193210005760193,
      "learning_rate": 0.0005674614482078023,
      "loss": 1.662,
      "step": 13492
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.36150652170181274,
      "learning_rate": 0.0005674567138053971,
      "loss": 1.6398,
      "step": 13493
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4054131805896759,
      "learning_rate": 0.000567451979078339,
      "loss": 1.7652,
      "step": 13494
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38089966773986816,
      "learning_rate": 0.0005674472440266335,
      "loss": 1.6881,
      "step": 13495
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38235828280448914,
      "learning_rate": 0.0005674425086502864,
      "loss": 1.762,
      "step": 13496
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38614630699157715,
      "learning_rate": 0.0005674377729493037,
      "loss": 1.7498,
      "step": 13497
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39401763677597046,
      "learning_rate": 0.0005674330369236908,
      "loss": 1.6822,
      "step": 13498
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40645328164100647,
      "learning_rate": 0.0005674283005734536,
      "loss": 1.6899,
      "step": 13499
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3939186930656433,
      "learning_rate": 0.0005674235638985979,
      "loss": 1.7026,
      "step": 13500
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38491761684417725,
      "learning_rate": 0.0005674188268991293,
      "loss": 1.7483,
      "step": 13501
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39343512058258057,
      "learning_rate": 0.0005674140895750538,
      "loss": 1.7243,
      "step": 13502
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39862844347953796,
      "learning_rate": 0.0005674093519263769,
      "loss": 1.7734,
      "step": 13503
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.376600056886673,
      "learning_rate": 0.0005674046139531045,
      "loss": 1.7535,
      "step": 13504
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4084573984146118,
      "learning_rate": 0.0005673998756552422,
      "loss": 1.7409,
      "step": 13505
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3960360884666443,
      "learning_rate": 0.000567395137032796,
      "loss": 1.7067,
      "step": 13506
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3763872981071472,
      "learning_rate": 0.0005673903980857712,
      "loss": 1.6919,
      "step": 13507
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37355977296829224,
      "learning_rate": 0.0005673856588141742,
      "loss": 1.7403,
      "step": 13508
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40211737155914307,
      "learning_rate": 0.0005673809192180103,
      "loss": 1.7443,
      "step": 13509
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38206127285957336,
      "learning_rate": 0.0005673761792972853,
      "loss": 1.6848,
      "step": 13510
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3771834671497345,
      "learning_rate": 0.000567371439052005,
      "loss": 1.756,
      "step": 13511
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3825734555721283,
      "learning_rate": 0.0005673666984821753,
      "loss": 1.7826,
      "step": 13512
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3698476254940033,
      "learning_rate": 0.0005673619575878018,
      "loss": 1.7252,
      "step": 13513
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3931496739387512,
      "learning_rate": 0.0005673572163688902,
      "loss": 1.7744,
      "step": 13514
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39512479305267334,
      "learning_rate": 0.0005673524748254463,
      "loss": 1.7305,
      "step": 13515
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3875805735588074,
      "learning_rate": 0.000567347732957476,
      "loss": 1.7148,
      "step": 13516
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.36985236406326294,
      "learning_rate": 0.0005673429907649848,
      "loss": 1.7777,
      "step": 13517
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3755243718624115,
      "learning_rate": 0.0005673382482479787,
      "loss": 1.755,
      "step": 13518
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39905276894569397,
      "learning_rate": 0.0005673335054064634,
      "loss": 1.7599,
      "step": 13519
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3902638554573059,
      "learning_rate": 0.0005673287622404445,
      "loss": 1.6968,
      "step": 13520
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38507550954818726,
      "learning_rate": 0.000567324018749928,
      "loss": 1.7113,
      "step": 13521
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3804733157157898,
      "learning_rate": 0.0005673192749349195,
      "loss": 1.717,
      "step": 13522
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3796762228012085,
      "learning_rate": 0.0005673145307954247,
      "loss": 1.6896,
      "step": 13523
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37551817297935486,
      "learning_rate": 0.0005673097863314494,
      "loss": 1.7599,
      "step": 13524
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3935449421405792,
      "learning_rate": 0.0005673050415429996,
      "loss": 1.7543,
      "step": 13525
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39946967363357544,
      "learning_rate": 0.0005673002964300808,
      "loss": 1.7323,
      "step": 13526
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3772803843021393,
      "learning_rate": 0.0005672955509926987,
      "loss": 1.7213,
      "step": 13527
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.381251722574234,
      "learning_rate": 0.0005672908052308593,
      "loss": 1.6833,
      "step": 13528
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3802796006202698,
      "learning_rate": 0.0005672860591445682,
      "loss": 1.7413,
      "step": 13529
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39175474643707275,
      "learning_rate": 0.0005672813127338312,
      "loss": 1.8289,
      "step": 13530
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3898160457611084,
      "learning_rate": 0.0005672765659986541,
      "loss": 1.7088,
      "step": 13531
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3895500898361206,
      "learning_rate": 0.0005672718189390427,
      "loss": 1.8156,
      "step": 13532
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.398278146982193,
      "learning_rate": 0.0005672670715550026,
      "loss": 1.7916,
      "step": 13533
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4152926504611969,
      "learning_rate": 0.0005672623238465397,
      "loss": 1.7266,
      "step": 13534
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4028252363204956,
      "learning_rate": 0.0005672575758136596,
      "loss": 1.6837,
      "step": 13535
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3882412016391754,
      "learning_rate": 0.0005672528274563684,
      "loss": 1.8096,
      "step": 13536
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.41064298152923584,
      "learning_rate": 0.0005672480787746715,
      "loss": 1.7495,
      "step": 13537
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3872252404689789,
      "learning_rate": 0.0005672433297685748,
      "loss": 1.6418,
      "step": 13538
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37156206369400024,
      "learning_rate": 0.0005672385804380841,
      "loss": 1.7054,
      "step": 13539
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3847009539604187,
      "learning_rate": 0.000567233830783205,
      "loss": 1.7383,
      "step": 13540
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3838645815849304,
      "learning_rate": 0.0005672290808039437,
      "loss": 1.7912,
      "step": 13541
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3881963789463043,
      "learning_rate": 0.0005672243305003055,
      "loss": 1.7062,
      "step": 13542
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3788682222366333,
      "learning_rate": 0.0005672195798722963,
      "loss": 1.8198,
      "step": 13543
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3848786950111389,
      "learning_rate": 0.000567214828919922,
      "loss": 1.8103,
      "step": 13544
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39032286405563354,
      "learning_rate": 0.0005672100776431882,
      "loss": 1.7321,
      "step": 13545
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37957340478897095,
      "learning_rate": 0.0005672053260421007,
      "loss": 1.6712,
      "step": 13546
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3864659070968628,
      "learning_rate": 0.0005672005741166655,
      "loss": 1.6849,
      "step": 13547
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3794746994972229,
      "learning_rate": 0.000567195821866888,
      "loss": 1.7621,
      "step": 13548
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38554102182388306,
      "learning_rate": 0.0005671910692927742,
      "loss": 1.8424,
      "step": 13549
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38629579544067383,
      "learning_rate": 0.0005671863163943298,
      "loss": 1.7575,
      "step": 13550
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39251837134361267,
      "learning_rate": 0.0005671815631715605,
      "loss": 1.6519,
      "step": 13551
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3829077482223511,
      "learning_rate": 0.0005671768096244722,
      "loss": 1.7445,
      "step": 13552
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3709738552570343,
      "learning_rate": 0.0005671720557530708,
      "loss": 1.7678,
      "step": 13553
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38681626319885254,
      "learning_rate": 0.0005671673015573616,
      "loss": 1.7721,
      "step": 13554
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37356358766555786,
      "learning_rate": 0.0005671625470373508,
      "loss": 1.6644,
      "step": 13555
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3972005248069763,
      "learning_rate": 0.000567157792193044,
      "loss": 1.781,
      "step": 13556
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3920847773551941,
      "learning_rate": 0.0005671530370244471,
      "loss": 1.7247,
      "step": 13557
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3706786036491394,
      "learning_rate": 0.0005671482815315657,
      "loss": 1.7159,
      "step": 13558
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39237266778945923,
      "learning_rate": 0.0005671435257144057,
      "loss": 1.7036,
      "step": 13559
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4486813545227051,
      "learning_rate": 0.0005671387695729727,
      "loss": 1.7366,
      "step": 13560
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3763541579246521,
      "learning_rate": 0.0005671340131072727,
      "loss": 1.7459,
      "step": 13561
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3895426392555237,
      "learning_rate": 0.0005671292563173113,
      "loss": 1.8241,
      "step": 13562
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3955661952495575,
      "learning_rate": 0.0005671244992030945,
      "loss": 1.7287,
      "step": 13563
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38429489731788635,
      "learning_rate": 0.0005671197417646277,
      "loss": 1.7395,
      "step": 13564
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.45847201347351074,
      "learning_rate": 0.000567114984001917,
      "loss": 1.7871,
      "step": 13565
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3823009431362152,
      "learning_rate": 0.0005671102259149681,
      "loss": 1.8316,
      "step": 13566
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3902105689048767,
      "learning_rate": 0.0005671054675037867,
      "loss": 1.7671,
      "step": 13567
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3813265264034271,
      "learning_rate": 0.0005671007087683786,
      "loss": 1.7002,
      "step": 13568
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37577560544013977,
      "learning_rate": 0.0005670959497087496,
      "loss": 1.7313,
      "step": 13569
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3770909905433655,
      "learning_rate": 0.0005670911903249055,
      "loss": 1.7189,
      "step": 13570
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3634517192840576,
      "learning_rate": 0.000567086430616852,
      "loss": 1.7112,
      "step": 13571
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37165868282318115,
      "learning_rate": 0.000567081670584595,
      "loss": 1.7044,
      "step": 13572
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38868194818496704,
      "learning_rate": 0.0005670769102281402,
      "loss": 1.7488,
      "step": 13573
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.399816632270813,
      "learning_rate": 0.0005670721495474933,
      "loss": 1.7255,
      "step": 13574
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37951186299324036,
      "learning_rate": 0.0005670673885426602,
      "loss": 1.7464,
      "step": 13575
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3824551999568939,
      "learning_rate": 0.0005670626272136467,
      "loss": 1.7367,
      "step": 13576
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38722655177116394,
      "learning_rate": 0.0005670578655604584,
      "loss": 1.7887,
      "step": 13577
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37697282433509827,
      "learning_rate": 0.0005670531035831014,
      "loss": 1.7123,
      "step": 13578
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.42621222138404846,
      "learning_rate": 0.0005670483412815811,
      "loss": 1.7268,
      "step": 13579
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3806079626083374,
      "learning_rate": 0.0005670435786559035,
      "loss": 1.7424,
      "step": 13580
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37994980812072754,
      "learning_rate": 0.0005670388157060744,
      "loss": 1.784,
      "step": 13581
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37582695484161377,
      "learning_rate": 0.0005670340524320994,
      "loss": 1.7218,
      "step": 13582
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3752693235874176,
      "learning_rate": 0.0005670292888339845,
      "loss": 1.7126,
      "step": 13583
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3694182336330414,
      "learning_rate": 0.0005670245249117355,
      "loss": 1.7825,
      "step": 13584
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3723829388618469,
      "learning_rate": 0.0005670197606653578,
      "loss": 1.7541,
      "step": 13585
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3746337890625,
      "learning_rate": 0.0005670149960948577,
      "loss": 1.746,
      "step": 13586
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39567625522613525,
      "learning_rate": 0.0005670102312002407,
      "loss": 1.7192,
      "step": 13587
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3811083734035492,
      "learning_rate": 0.0005670054659815125,
      "loss": 1.7365,
      "step": 13588
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38096538186073303,
      "learning_rate": 0.0005670007004386791,
      "loss": 1.6551,
      "step": 13589
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3827362358570099,
      "learning_rate": 0.0005669959345717461,
      "loss": 1.7868,
      "step": 13590
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37657177448272705,
      "learning_rate": 0.0005669911683807194,
      "loss": 1.6496,
      "step": 13591
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3905373215675354,
      "learning_rate": 0.0005669864018656048,
      "loss": 1.7068,
      "step": 13592
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38600143790245056,
      "learning_rate": 0.000566981635026408,
      "loss": 1.729,
      "step": 13593
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3758665919303894,
      "learning_rate": 0.0005669768678631349,
      "loss": 1.6915,
      "step": 13594
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.36988401412963867,
      "learning_rate": 0.0005669721003757912,
      "loss": 1.6767,
      "step": 13595
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4066486954689026,
      "learning_rate": 0.0005669673325643826,
      "loss": 1.7273,
      "step": 13596
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4887891709804535,
      "learning_rate": 0.0005669625644289152,
      "loss": 1.796,
      "step": 13597
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37660589814186096,
      "learning_rate": 0.0005669577959693945,
      "loss": 1.6935,
      "step": 13598
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3830558955669403,
      "learning_rate": 0.0005669530271858263,
      "loss": 1.7982,
      "step": 13599
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37240493297576904,
      "learning_rate": 0.0005669482580782165,
      "loss": 1.7293,
      "step": 13600
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37767961621284485,
      "learning_rate": 0.0005669434886465708,
      "loss": 1.7281,
      "step": 13601
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3829908072948456,
      "learning_rate": 0.0005669387188908952,
      "loss": 1.7472,
      "step": 13602
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3660441040992737,
      "learning_rate": 0.0005669339488111951,
      "loss": 1.6967,
      "step": 13603
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37536367774009705,
      "learning_rate": 0.0005669291784074767,
      "loss": 1.719,
      "step": 13604
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37419408559799194,
      "learning_rate": 0.0005669244076797455,
      "loss": 1.739,
      "step": 13605
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38827410340309143,
      "learning_rate": 0.0005669196366280075,
      "loss": 1.8254,
      "step": 13606
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3755696713924408,
      "learning_rate": 0.0005669148652522683,
      "loss": 1.6714,
      "step": 13607
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3704240322113037,
      "learning_rate": 0.0005669100935525338,
      "loss": 1.7205,
      "step": 13608
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3876752555370331,
      "learning_rate": 0.0005669053215288097,
      "loss": 1.7307,
      "step": 13609
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40194612741470337,
      "learning_rate": 0.000566900549181102,
      "loss": 1.6961,
      "step": 13610
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3853676915168762,
      "learning_rate": 0.0005668957765094163,
      "loss": 1.7927,
      "step": 13611
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3874131441116333,
      "learning_rate": 0.0005668910035137585,
      "loss": 1.7274,
      "step": 13612
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37957829236984253,
      "learning_rate": 0.0005668862301941343,
      "loss": 1.7666,
      "step": 13613
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38844984769821167,
      "learning_rate": 0.0005668814565505496,
      "loss": 1.7434,
      "step": 13614
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.36883896589279175,
      "learning_rate": 0.0005668766825830101,
      "loss": 1.7607,
      "step": 13615
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3824690282344818,
      "learning_rate": 0.0005668719082915216,
      "loss": 1.7774,
      "step": 13616
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.397531121969223,
      "learning_rate": 0.0005668671336760898,
      "loss": 1.7142,
      "step": 13617
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3784642517566681,
      "learning_rate": 0.0005668623587367209,
      "loss": 1.7605,
      "step": 13618
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3852896988391876,
      "learning_rate": 0.0005668575834734202,
      "loss": 1.7391,
      "step": 13619
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3857572078704834,
      "learning_rate": 0.0005668528078861938,
      "loss": 1.8161,
      "step": 13620
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37752851843833923,
      "learning_rate": 0.0005668480319750474,
      "loss": 1.7745,
      "step": 13621
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3776850700378418,
      "learning_rate": 0.0005668432557399868,
      "loss": 1.7106,
      "step": 13622
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3895252048969269,
      "learning_rate": 0.0005668384791810177,
      "loss": 1.7698,
      "step": 13623
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3967251181602478,
      "learning_rate": 0.0005668337022981463,
      "loss": 1.7456,
      "step": 13624
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38157889246940613,
      "learning_rate": 0.0005668289250913779,
      "loss": 1.7495,
      "step": 13625
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3750438392162323,
      "learning_rate": 0.0005668241475607185,
      "loss": 1.6989,
      "step": 13626
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40346965193748474,
      "learning_rate": 0.0005668193697061739,
      "loss": 1.7222,
      "step": 13627
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3860393762588501,
      "learning_rate": 0.00056681459152775,
      "loss": 1.7739,
      "step": 13628
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3874569833278656,
      "learning_rate": 0.0005668098130254523,
      "loss": 1.7467,
      "step": 13629
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3770473301410675,
      "learning_rate": 0.0005668050341992869,
      "loss": 1.7679,
      "step": 13630
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37810540199279785,
      "learning_rate": 0.0005668002550492596,
      "loss": 1.743,
      "step": 13631
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3951863944530487,
      "learning_rate": 0.000566795475575376,
      "loss": 1.6446,
      "step": 13632
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3727034032344818,
      "learning_rate": 0.000566790695777642,
      "loss": 1.7607,
      "step": 13633
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3727932572364807,
      "learning_rate": 0.0005667859156560634,
      "loss": 1.7242,
      "step": 13634
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3810705840587616,
      "learning_rate": 0.000566781135210646,
      "loss": 1.7406,
      "step": 13635
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3833848237991333,
      "learning_rate": 0.0005667763544413957,
      "loss": 1.7259,
      "step": 13636
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3777168095111847,
      "learning_rate": 0.0005667715733483181,
      "loss": 1.7328,
      "step": 13637
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37810641527175903,
      "learning_rate": 0.0005667667919314191,
      "loss": 1.8058,
      "step": 13638
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3874763250350952,
      "learning_rate": 0.0005667620101907047,
      "loss": 1.6937,
      "step": 13639
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3966544568538666,
      "learning_rate": 0.0005667572281261804,
      "loss": 1.7736,
      "step": 13640
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3776945173740387,
      "learning_rate": 0.0005667524457378522,
      "loss": 1.7169,
      "step": 13641
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3951357305049896,
      "learning_rate": 0.0005667476630257257,
      "loss": 1.7158,
      "step": 13642
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4005025625228882,
      "learning_rate": 0.0005667428799898069,
      "loss": 1.7228,
      "step": 13643
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38732919096946716,
      "learning_rate": 0.0005667380966301016,
      "loss": 1.7535,
      "step": 13644
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3925795555114746,
      "learning_rate": 0.0005667333129466155,
      "loss": 1.7003,
      "step": 13645
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.41225314140319824,
      "learning_rate": 0.0005667285289393545,
      "loss": 1.7873,
      "step": 13646
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39338818192481995,
      "learning_rate": 0.0005667237446083244,
      "loss": 1.7052,
      "step": 13647
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37898290157318115,
      "learning_rate": 0.000566718959953531,
      "loss": 1.7384,
      "step": 13648
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3906499147415161,
      "learning_rate": 0.00056671417497498,
      "loss": 1.8293,
      "step": 13649
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3745587468147278,
      "learning_rate": 0.0005667093896726772,
      "loss": 1.7898,
      "step": 13650
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3788488805294037,
      "learning_rate": 0.0005667046040466286,
      "loss": 1.6933,
      "step": 13651
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38440465927124023,
      "learning_rate": 0.0005666998180968399,
      "loss": 1.6712,
      "step": 13652
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38827383518218994,
      "learning_rate": 0.0005666950318233169,
      "loss": 1.7848,
      "step": 13653
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3927812874317169,
      "learning_rate": 0.0005666902452260654,
      "loss": 1.7576,
      "step": 13654
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3768250644207001,
      "learning_rate": 0.0005666854583050913,
      "loss": 1.7016,
      "step": 13655
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3795709013938904,
      "learning_rate": 0.0005666806710604004,
      "loss": 1.7233,
      "step": 13656
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3840266466140747,
      "learning_rate": 0.0005666758834919983,
      "loss": 1.7677,
      "step": 13657
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3832046389579773,
      "learning_rate": 0.0005666710955998911,
      "loss": 1.738,
      "step": 13658
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3876652419567108,
      "learning_rate": 0.0005666663073840844,
      "loss": 1.7134,
      "step": 13659
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3862765431404114,
      "learning_rate": 0.0005666615188445841,
      "loss": 1.815,
      "step": 13660
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37365660071372986,
      "learning_rate": 0.0005666567299813961,
      "loss": 1.7286,
      "step": 13661
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3975454270839691,
      "learning_rate": 0.0005666519407945261,
      "loss": 1.705,
      "step": 13662
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38439565896987915,
      "learning_rate": 0.0005666471512839799,
      "loss": 1.7713,
      "step": 13663
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4021201431751251,
      "learning_rate": 0.0005666423614497634,
      "loss": 1.722,
      "step": 13664
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39173442125320435,
      "learning_rate": 0.0005666375712918822,
      "loss": 1.72,
      "step": 13665
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3951827883720398,
      "learning_rate": 0.0005666327808103423,
      "loss": 1.7721,
      "step": 13666
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40793395042419434,
      "learning_rate": 0.0005666279900051497,
      "loss": 1.7331,
      "step": 13667
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3698756694793701,
      "learning_rate": 0.0005666231988763099,
      "loss": 1.7168,
      "step": 13668
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39381009340286255,
      "learning_rate": 0.0005666184074238288,
      "loss": 1.7371,
      "step": 13669
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.40601733326911926,
      "learning_rate": 0.0005666136156477122,
      "loss": 1.8014,
      "step": 13670
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3778690695762634,
      "learning_rate": 0.000566608823547966,
      "loss": 1.7466,
      "step": 13671
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.37280985713005066,
      "learning_rate": 0.0005666040311245959,
      "loss": 1.7502,
      "step": 13672
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.38337668776512146,
      "learning_rate": 0.0005665992383776079,
      "loss": 1.7585,
      "step": 13673
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.39950525760650635,
      "learning_rate": 0.0005665944453070076,
      "loss": 1.7684,
      "step": 13674
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.41290873289108276,
      "learning_rate": 0.000566589651912801,
      "loss": 1.6706,
      "step": 13675
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38251185417175293,
      "learning_rate": 0.0005665848581949938,
      "loss": 1.7019,
      "step": 13676
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38487252593040466,
      "learning_rate": 0.000566580064153592,
      "loss": 1.658,
      "step": 13677
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3857300281524658,
      "learning_rate": 0.000566575269788601,
      "loss": 1.756,
      "step": 13678
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3952251374721527,
      "learning_rate": 0.0005665704751000271,
      "loss": 1.8379,
      "step": 13679
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39801540970802307,
      "learning_rate": 0.000566565680087876,
      "loss": 1.7142,
      "step": 13680
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3989734351634979,
      "learning_rate": 0.0005665608847521533,
      "loss": 1.7087,
      "step": 13681
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3772176206111908,
      "learning_rate": 0.000566556089092865,
      "loss": 1.6848,
      "step": 13682
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3851826786994934,
      "learning_rate": 0.0005665512931100167,
      "loss": 1.7191,
      "step": 13683
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3752194344997406,
      "learning_rate": 0.0005665464968036148,
      "loss": 1.716,
      "step": 13684
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3922021985054016,
      "learning_rate": 0.0005665417001736644,
      "loss": 1.8115,
      "step": 13685
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38009026646614075,
      "learning_rate": 0.0005665369032201717,
      "loss": 1.7386,
      "step": 13686
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38024842739105225,
      "learning_rate": 0.0005665321059431425,
      "loss": 1.7348,
      "step": 13687
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3815935254096985,
      "learning_rate": 0.0005665273083425826,
      "loss": 1.7081,
      "step": 13688
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3886386752128601,
      "learning_rate": 0.0005665225104184979,
      "loss": 1.7081,
      "step": 13689
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38742169737815857,
      "learning_rate": 0.0005665177121708942,
      "loss": 1.8119,
      "step": 13690
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36850884556770325,
      "learning_rate": 0.000566512913599777,
      "loss": 1.7236,
      "step": 13691
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3790481388568878,
      "learning_rate": 0.0005665081147051526,
      "loss": 1.6617,
      "step": 13692
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4346383810043335,
      "learning_rate": 0.0005665033154870266,
      "loss": 1.7325,
      "step": 13693
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3872053921222687,
      "learning_rate": 0.0005664985159454047,
      "loss": 1.7754,
      "step": 13694
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38892367482185364,
      "learning_rate": 0.000566493716080293,
      "loss": 1.8148,
      "step": 13695
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3806121349334717,
      "learning_rate": 0.0005664889158916971,
      "loss": 1.6932,
      "step": 13696
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38081419467926025,
      "learning_rate": 0.000566484115379623,
      "loss": 1.724,
      "step": 13697
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3846594989299774,
      "learning_rate": 0.0005664793145440764,
      "loss": 1.7734,
      "step": 13698
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37761709094047546,
      "learning_rate": 0.0005664745133850633,
      "loss": 1.7404,
      "step": 13699
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.42953699827194214,
      "learning_rate": 0.0005664697119025893,
      "loss": 1.7317,
      "step": 13700
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3777204155921936,
      "learning_rate": 0.0005664649100966604,
      "loss": 1.7568,
      "step": 13701
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3698575794696808,
      "learning_rate": 0.0005664601079672822,
      "loss": 1.7117,
      "step": 13702
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39622244238853455,
      "learning_rate": 0.0005664553055144608,
      "loss": 1.7569,
      "step": 13703
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39743533730506897,
      "learning_rate": 0.000566450502738202,
      "loss": 1.7021,
      "step": 13704
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37393492460250854,
      "learning_rate": 0.0005664456996385115,
      "loss": 1.6599,
      "step": 13705
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3863191306591034,
      "learning_rate": 0.0005664408962153951,
      "loss": 1.7091,
      "step": 13706
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37447237968444824,
      "learning_rate": 0.0005664360924688588,
      "loss": 1.6672,
      "step": 13707
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5061196684837341,
      "learning_rate": 0.0005664312883989082,
      "loss": 1.8068,
      "step": 13708
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3881322145462036,
      "learning_rate": 0.0005664264840055494,
      "loss": 1.7881,
      "step": 13709
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39375635981559753,
      "learning_rate": 0.000566421679288788,
      "loss": 1.7668,
      "step": 13710
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3872641324996948,
      "learning_rate": 0.00056641687424863,
      "loss": 1.7376,
      "step": 13711
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37959975004196167,
      "learning_rate": 0.0005664120688850812,
      "loss": 1.7082,
      "step": 13712
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38530614972114563,
      "learning_rate": 0.0005664072631981474,
      "loss": 1.6341,
      "step": 13713
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3827683925628662,
      "learning_rate": 0.0005664024571878344,
      "loss": 1.7954,
      "step": 13714
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3954295516014099,
      "learning_rate": 0.0005663976508541481,
      "loss": 1.7607,
      "step": 13715
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38918745517730713,
      "learning_rate": 0.0005663928441970943,
      "loss": 1.6668,
      "step": 13716
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3837740421295166,
      "learning_rate": 0.0005663880372166788,
      "loss": 1.8205,
      "step": 13717
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37872350215911865,
      "learning_rate": 0.0005663832299129075,
      "loss": 1.7508,
      "step": 13718
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3786085546016693,
      "learning_rate": 0.0005663784222857863,
      "loss": 1.7102,
      "step": 13719
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3724161684513092,
      "learning_rate": 0.0005663736143353208,
      "loss": 1.7084,
      "step": 13720
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3773832619190216,
      "learning_rate": 0.0005663688060615169,
      "loss": 1.6708,
      "step": 13721
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.374978631734848,
      "learning_rate": 0.0005663639974643808,
      "loss": 1.6739,
      "step": 13722
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37920501828193665,
      "learning_rate": 0.0005663591885439179,
      "loss": 1.7579,
      "step": 13723
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37249910831451416,
      "learning_rate": 0.0005663543793001341,
      "loss": 1.7431,
      "step": 13724
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4032168984413147,
      "learning_rate": 0.0005663495697330354,
      "loss": 1.7678,
      "step": 13725
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3834630250930786,
      "learning_rate": 0.0005663447598426276,
      "loss": 1.6536,
      "step": 13726
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39680448174476624,
      "learning_rate": 0.0005663399496289165,
      "loss": 1.7383,
      "step": 13727
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3840641677379608,
      "learning_rate": 0.000566335139091908,
      "loss": 1.8112,
      "step": 13728
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3900686502456665,
      "learning_rate": 0.0005663303282316078,
      "loss": 1.7902,
      "step": 13729
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3842640519142151,
      "learning_rate": 0.0005663255170480218,
      "loss": 1.742,
      "step": 13730
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4050167202949524,
      "learning_rate": 0.0005663207055411559,
      "loss": 1.7973,
      "step": 13731
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3796939253807068,
      "learning_rate": 0.0005663158937110161,
      "loss": 1.6704,
      "step": 13732
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3952779471874237,
      "learning_rate": 0.0005663110815576078,
      "loss": 1.801,
      "step": 13733
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3775332272052765,
      "learning_rate": 0.0005663062690809371,
      "loss": 1.7977,
      "step": 13734
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3922824263572693,
      "learning_rate": 0.0005663014562810099,
      "loss": 1.6662,
      "step": 13735
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.40582409501075745,
      "learning_rate": 0.000566296643157832,
      "loss": 1.7245,
      "step": 13736
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37248995900154114,
      "learning_rate": 0.0005662918297114091,
      "loss": 1.734,
      "step": 13737
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3811453878879547,
      "learning_rate": 0.0005662870159417471,
      "loss": 1.7255,
      "step": 13738
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39523112773895264,
      "learning_rate": 0.0005662822018488521,
      "loss": 1.6958,
      "step": 13739
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38120293617248535,
      "learning_rate": 0.0005662773874327297,
      "loss": 1.6423,
      "step": 13740
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37471434473991394,
      "learning_rate": 0.0005662725726933857,
      "loss": 1.7819,
      "step": 13741
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3704588711261749,
      "learning_rate": 0.0005662677576308261,
      "loss": 1.7342,
      "step": 13742
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3816402852535248,
      "learning_rate": 0.0005662629422450566,
      "loss": 1.7672,
      "step": 13743
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38047149777412415,
      "learning_rate": 0.0005662581265360831,
      "loss": 1.7324,
      "step": 13744
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38316571712493896,
      "learning_rate": 0.0005662533105039115,
      "loss": 1.7938,
      "step": 13745
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.389018177986145,
      "learning_rate": 0.0005662484941485477,
      "loss": 1.768,
      "step": 13746
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4167906641960144,
      "learning_rate": 0.0005662436774699974,
      "loss": 1.8336,
      "step": 13747
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3765895366668701,
      "learning_rate": 0.0005662388604682666,
      "loss": 1.7108,
      "step": 13748
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3887796998023987,
      "learning_rate": 0.0005662340431433609,
      "loss": 1.7198,
      "step": 13749
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3986128270626068,
      "learning_rate": 0.0005662292254952863,
      "loss": 1.7282,
      "step": 13750
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37544313073158264,
      "learning_rate": 0.0005662244075240487,
      "loss": 1.7571,
      "step": 13751
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.396684855222702,
      "learning_rate": 0.000566219589229654,
      "loss": 1.7414,
      "step": 13752
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3975308835506439,
      "learning_rate": 0.0005662147706121078,
      "loss": 1.7752,
      "step": 13753
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3996196985244751,
      "learning_rate": 0.0005662099516714161,
      "loss": 1.7553,
      "step": 13754
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5087236166000366,
      "learning_rate": 0.0005662051324075848,
      "loss": 1.7679,
      "step": 13755
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3904363811016083,
      "learning_rate": 0.0005662003128206197,
      "loss": 1.8801,
      "step": 13756
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38788995146751404,
      "learning_rate": 0.0005661954929105265,
      "loss": 1.7772,
      "step": 13757
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3793400824069977,
      "learning_rate": 0.0005661906726773114,
      "loss": 1.8777,
      "step": 13758
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3970625698566437,
      "learning_rate": 0.0005661858521209799,
      "loss": 1.7191,
      "step": 13759
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39826545119285583,
      "learning_rate": 0.0005661810312415381,
      "loss": 1.758,
      "step": 13760
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4026857018470764,
      "learning_rate": 0.0005661762100389917,
      "loss": 1.7777,
      "step": 13761
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39218416810035706,
      "learning_rate": 0.0005661713885133466,
      "loss": 1.7568,
      "step": 13762
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3792062997817993,
      "learning_rate": 0.0005661665666646086,
      "loss": 1.7026,
      "step": 13763
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38613763451576233,
      "learning_rate": 0.0005661617444927836,
      "loss": 1.7124,
      "step": 13764
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39482614398002625,
      "learning_rate": 0.0005661569219978775,
      "loss": 1.7759,
      "step": 13765
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3885009288787842,
      "learning_rate": 0.0005661520991798962,
      "loss": 1.7382,
      "step": 13766
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3700871467590332,
      "learning_rate": 0.0005661472760388453,
      "loss": 1.7276,
      "step": 13767
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3688639998435974,
      "learning_rate": 0.000566142452574731,
      "loss": 1.7,
      "step": 13768
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38431158661842346,
      "learning_rate": 0.0005661376287875589,
      "loss": 1.7142,
      "step": 13769
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38116690516471863,
      "learning_rate": 0.000566132804677335,
      "loss": 1.7486,
      "step": 13770
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37933871150016785,
      "learning_rate": 0.000566127980244065,
      "loss": 1.7787,
      "step": 13771
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37894880771636963,
      "learning_rate": 0.0005661231554877548,
      "loss": 1.7497,
      "step": 13772
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39001762866973877,
      "learning_rate": 0.0005661183304084104,
      "loss": 1.7163,
      "step": 13773
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3797275722026825,
      "learning_rate": 0.0005661135050060375,
      "loss": 1.7108,
      "step": 13774
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3845710754394531,
      "learning_rate": 0.000566108679280642,
      "loss": 1.7122,
      "step": 13775
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38999664783477783,
      "learning_rate": 0.0005661038532322298,
      "loss": 1.761,
      "step": 13776
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3827143907546997,
      "learning_rate": 0.0005660990268608067,
      "loss": 1.7273,
      "step": 13777
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3810499608516693,
      "learning_rate": 0.0005660942001663786,
      "loss": 1.785,
      "step": 13778
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39260825514793396,
      "learning_rate": 0.0005660893731489514,
      "loss": 1.7037,
      "step": 13779
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3771824836730957,
      "learning_rate": 0.0005660845458085309,
      "loss": 1.7348,
      "step": 13780
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3703228533267975,
      "learning_rate": 0.0005660797181451229,
      "loss": 1.684,
      "step": 13781
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3800773322582245,
      "learning_rate": 0.0005660748901587335,
      "loss": 1.713,
      "step": 13782
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38923245668411255,
      "learning_rate": 0.0005660700618493682,
      "loss": 1.8466,
      "step": 13783
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3811914920806885,
      "learning_rate": 0.0005660652332170332,
      "loss": 1.7019,
      "step": 13784
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.372400164604187,
      "learning_rate": 0.0005660604042617341,
      "loss": 1.7963,
      "step": 13785
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3715551495552063,
      "learning_rate": 0.0005660555749834768,
      "loss": 1.7092,
      "step": 13786
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3917630612850189,
      "learning_rate": 0.0005660507453822673,
      "loss": 1.7291,
      "step": 13787
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3838406205177307,
      "learning_rate": 0.0005660459154581115,
      "loss": 1.7374,
      "step": 13788
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3863014578819275,
      "learning_rate": 0.000566041085211015,
      "loss": 1.7407,
      "step": 13789
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3845756947994232,
      "learning_rate": 0.000566036254640984,
      "loss": 1.7379,
      "step": 13790
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3624613881111145,
      "learning_rate": 0.000566031423748024,
      "loss": 1.734,
      "step": 13791
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37483349442481995,
      "learning_rate": 0.0005660265925321412,
      "loss": 1.7605,
      "step": 13792
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39501792192459106,
      "learning_rate": 0.0005660217609933411,
      "loss": 1.7775,
      "step": 13793
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.381282776594162,
      "learning_rate": 0.0005660169291316301,
      "loss": 1.7754,
      "step": 13794
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3818826377391815,
      "learning_rate": 0.0005660120969470135,
      "loss": 1.7273,
      "step": 13795
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3743514120578766,
      "learning_rate": 0.0005660072644394975,
      "loss": 1.637,
      "step": 13796
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37545517086982727,
      "learning_rate": 0.0005660024316090878,
      "loss": 1.7536,
      "step": 13797
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3668646216392517,
      "learning_rate": 0.0005659975984557905,
      "loss": 1.7559,
      "step": 13798
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38991379737854004,
      "learning_rate": 0.0005659927649796112,
      "loss": 1.7407,
      "step": 13799
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3793462812900543,
      "learning_rate": 0.0005659879311805558,
      "loss": 1.8206,
      "step": 13800
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3705766201019287,
      "learning_rate": 0.0005659830970586303,
      "loss": 1.6779,
      "step": 13801
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3810768127441406,
      "learning_rate": 0.0005659782626138406,
      "loss": 1.745,
      "step": 13802
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3766297399997711,
      "learning_rate": 0.0005659734278461924,
      "loss": 1.6767,
      "step": 13803
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36573389172554016,
      "learning_rate": 0.0005659685927556917,
      "loss": 1.744,
      "step": 13804
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37174326181411743,
      "learning_rate": 0.0005659637573423443,
      "loss": 1.7155,
      "step": 13805
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36711686849594116,
      "learning_rate": 0.0005659589216061561,
      "loss": 1.6987,
      "step": 13806
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3851562738418579,
      "learning_rate": 0.0005659540855471328,
      "loss": 1.7557,
      "step": 13807
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3841497302055359,
      "learning_rate": 0.0005659492491652806,
      "loss": 1.7702,
      "step": 13808
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37178051471710205,
      "learning_rate": 0.0005659444124606051,
      "loss": 1.7477,
      "step": 13809
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3801606595516205,
      "learning_rate": 0.0005659395754331123,
      "loss": 1.7452,
      "step": 13810
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37780675292015076,
      "learning_rate": 0.0005659347380828081,
      "loss": 1.6727,
      "step": 13811
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37660881876945496,
      "learning_rate": 0.0005659299004096983,
      "loss": 1.6906,
      "step": 13812
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3863021433353424,
      "learning_rate": 0.0005659250624137887,
      "loss": 1.7157,
      "step": 13813
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3833633065223694,
      "learning_rate": 0.0005659202240950853,
      "loss": 1.7517,
      "step": 13814
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7535952925682068,
      "learning_rate": 0.0005659153854535939,
      "loss": 1.7022,
      "step": 13815
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3898349702358246,
      "learning_rate": 0.0005659105464893205,
      "loss": 1.7098,
      "step": 13816
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3979410231113434,
      "learning_rate": 0.0005659057072022707,
      "loss": 1.7544,
      "step": 13817
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3845355212688446,
      "learning_rate": 0.0005659008675924508,
      "loss": 1.7752,
      "step": 13818
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3752311170101166,
      "learning_rate": 0.0005658960276598662,
      "loss": 1.7482,
      "step": 13819
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36979272961616516,
      "learning_rate": 0.0005658911874045231,
      "loss": 1.691,
      "step": 13820
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.411338746547699,
      "learning_rate": 0.0005658863468264273,
      "loss": 1.7465,
      "step": 13821
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3841527998447418,
      "learning_rate": 0.0005658815059255846,
      "loss": 1.7193,
      "step": 13822
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37720298767089844,
      "learning_rate": 0.000565876664702001,
      "loss": 1.5991,
      "step": 13823
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39003652334213257,
      "learning_rate": 0.0005658718231556822,
      "loss": 1.7303,
      "step": 13824
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3710465729236603,
      "learning_rate": 0.0005658669812866342,
      "loss": 1.6345,
      "step": 13825
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3880256712436676,
      "learning_rate": 0.000565862139094863,
      "loss": 1.8386,
      "step": 13826
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36956116557121277,
      "learning_rate": 0.0005658572965803742,
      "loss": 1.6428,
      "step": 13827
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3902356028556824,
      "learning_rate": 0.0005658524537431737,
      "loss": 1.7762,
      "step": 13828
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38816624879837036,
      "learning_rate": 0.0005658476105832677,
      "loss": 1.6643,
      "step": 13829
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4140251576900482,
      "learning_rate": 0.0005658427671006618,
      "loss": 1.7256,
      "step": 13830
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37590909004211426,
      "learning_rate": 0.000565837923295362,
      "loss": 1.7348,
      "step": 13831
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38099753856658936,
      "learning_rate": 0.000565833079167374,
      "loss": 1.7609,
      "step": 13832
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3788251578807831,
      "learning_rate": 0.000565828234716704,
      "loss": 1.7677,
      "step": 13833
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.40533798933029175,
      "learning_rate": 0.0005658233899433576,
      "loss": 1.7618,
      "step": 13834
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3983135521411896,
      "learning_rate": 0.0005658185448473407,
      "loss": 1.7526,
      "step": 13835
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38727477192878723,
      "learning_rate": 0.0005658136994286593,
      "loss": 1.7099,
      "step": 13836
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38554850220680237,
      "learning_rate": 0.0005658088536873193,
      "loss": 1.7422,
      "step": 13837
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38033539056777954,
      "learning_rate": 0.0005658040076233265,
      "loss": 1.7888,
      "step": 13838
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39435333013534546,
      "learning_rate": 0.0005657991612366867,
      "loss": 1.77,
      "step": 13839
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6111413240432739,
      "learning_rate": 0.000565794314527406,
      "loss": 1.7384,
      "step": 13840
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4060908257961273,
      "learning_rate": 0.0005657894674954902,
      "loss": 1.8104,
      "step": 13841
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38719642162323,
      "learning_rate": 0.000565784620140945,
      "loss": 1.6692,
      "step": 13842
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3793724775314331,
      "learning_rate": 0.0005657797724637764,
      "loss": 1.7931,
      "step": 13843
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4658864438533783,
      "learning_rate": 0.0005657749244639904,
      "loss": 1.8474,
      "step": 13844
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3969443142414093,
      "learning_rate": 0.0005657700761415929,
      "loss": 1.7508,
      "step": 13845
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38650521636009216,
      "learning_rate": 0.0005657652274965896,
      "loss": 1.726,
      "step": 13846
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38933977484703064,
      "learning_rate": 0.0005657603785289864,
      "loss": 1.7192,
      "step": 13847
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3877352774143219,
      "learning_rate": 0.0005657555292387893,
      "loss": 1.6931,
      "step": 13848
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3923403024673462,
      "learning_rate": 0.0005657506796260042,
      "loss": 1.7872,
      "step": 13849
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.394281804561615,
      "learning_rate": 0.0005657458296906369,
      "loss": 1.7355,
      "step": 13850
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3843861222267151,
      "learning_rate": 0.0005657409794326934,
      "loss": 1.8676,
      "step": 13851
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3835606873035431,
      "learning_rate": 0.0005657361288521793,
      "loss": 1.6742,
      "step": 13852
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3826221823692322,
      "learning_rate": 0.0005657312779491009,
      "loss": 1.6379,
      "step": 13853
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3911319971084595,
      "learning_rate": 0.0005657264267234638,
      "loss": 1.7341,
      "step": 13854
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3986586034297943,
      "learning_rate": 0.000565721575175274,
      "loss": 1.7274,
      "step": 13855
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38156408071517944,
      "learning_rate": 0.0005657167233045373,
      "loss": 1.7228,
      "step": 13856
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38044893741607666,
      "learning_rate": 0.0005657118711112597,
      "loss": 1.7565,
      "step": 13857
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38692083954811096,
      "learning_rate": 0.0005657070185954469,
      "loss": 1.7261,
      "step": 13858
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38811540603637695,
      "learning_rate": 0.0005657021657571052,
      "loss": 1.7395,
      "step": 13859
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38512560725212097,
      "learning_rate": 0.0005656973125962401,
      "loss": 1.7084,
      "step": 13860
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.392750084400177,
      "learning_rate": 0.0005656924591128576,
      "loss": 1.7611,
      "step": 13861
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38146349787712097,
      "learning_rate": 0.0005656876053069636,
      "loss": 1.8288,
      "step": 13862
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3801654577255249,
      "learning_rate": 0.0005656827511785639,
      "loss": 1.7179,
      "step": 13863
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3959837555885315,
      "learning_rate": 0.0005656778967276646,
      "loss": 1.8008,
      "step": 13864
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39200055599212646,
      "learning_rate": 0.0005656730419542714,
      "loss": 1.7714,
      "step": 13865
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3760450482368469,
      "learning_rate": 0.0005656681868583903,
      "loss": 1.6749,
      "step": 13866
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37398532032966614,
      "learning_rate": 0.0005656633314400272,
      "loss": 1.6873,
      "step": 13867
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3772416412830353,
      "learning_rate": 0.000565658475699188,
      "loss": 1.6595,
      "step": 13868
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3755825161933899,
      "learning_rate": 0.0005656536196358785,
      "loss": 1.7173,
      "step": 13869
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38089948892593384,
      "learning_rate": 0.0005656487632501047,
      "loss": 1.7073,
      "step": 13870
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37788113951683044,
      "learning_rate": 0.0005656439065418723,
      "loss": 1.7701,
      "step": 13871
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3790958821773529,
      "learning_rate": 0.0005656390495111874,
      "loss": 1.7624,
      "step": 13872
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3880988657474518,
      "learning_rate": 0.0005656341921580559,
      "loss": 1.7525,
      "step": 13873
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3852521479129791,
      "learning_rate": 0.0005656293344824836,
      "loss": 1.7654,
      "step": 13874
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3829493820667267,
      "learning_rate": 0.0005656244764844765,
      "loss": 1.6813,
      "step": 13875
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38386568427085876,
      "learning_rate": 0.0005656196181640402,
      "loss": 1.6951,
      "step": 13876
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37039440870285034,
      "learning_rate": 0.000565614759521181,
      "loss": 1.7376,
      "step": 13877
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39888817071914673,
      "learning_rate": 0.0005656099005559046,
      "loss": 1.7448,
      "step": 13878
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4208005964756012,
      "learning_rate": 0.0005656050412682169,
      "loss": 1.7577,
      "step": 13879
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3867771029472351,
      "learning_rate": 0.0005656001816581237,
      "loss": 1.791,
      "step": 13880
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3837701082229614,
      "learning_rate": 0.0005655953217256312,
      "loss": 1.7037,
      "step": 13881
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3876863718032837,
      "learning_rate": 0.000565590461470745,
      "loss": 1.7636,
      "step": 13882
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3987042307853699,
      "learning_rate": 0.0005655856008934711,
      "loss": 1.8617,
      "step": 13883
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38420534133911133,
      "learning_rate": 0.0005655807399938156,
      "loss": 1.673,
      "step": 13884
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3901805579662323,
      "learning_rate": 0.0005655758787717841,
      "loss": 1.8335,
      "step": 13885
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38635051250457764,
      "learning_rate": 0.0005655710172273826,
      "loss": 1.7157,
      "step": 13886
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39285948872566223,
      "learning_rate": 0.0005655661553606169,
      "loss": 1.7172,
      "step": 13887
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3974405527114868,
      "learning_rate": 0.0005655612931714932,
      "loss": 1.7634,
      "step": 13888
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3882066011428833,
      "learning_rate": 0.0005655564306600171,
      "loss": 1.648,
      "step": 13889
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39783573150634766,
      "learning_rate": 0.0005655515678261947,
      "loss": 1.7276,
      "step": 13890
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3822398781776428,
      "learning_rate": 0.0005655467046700317,
      "loss": 1.7335,
      "step": 13891
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3788319528102875,
      "learning_rate": 0.0005655418411915343,
      "loss": 1.7163,
      "step": 13892
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3913250267505646,
      "learning_rate": 0.0005655369773907081,
      "loss": 1.7335,
      "step": 13893
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38956692814826965,
      "learning_rate": 0.0005655321132675592,
      "loss": 1.69,
      "step": 13894
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3863988518714905,
      "learning_rate": 0.0005655272488220934,
      "loss": 1.7491,
      "step": 13895
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39082762598991394,
      "learning_rate": 0.0005655223840543166,
      "loss": 1.7928,
      "step": 13896
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38549110293388367,
      "learning_rate": 0.000565517518964235,
      "loss": 1.6961,
      "step": 13897
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37559694051742554,
      "learning_rate": 0.0005655126535518539,
      "loss": 1.7293,
      "step": 13898
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3822724521160126,
      "learning_rate": 0.0005655077878171798,
      "loss": 1.6877,
      "step": 13899
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3789465129375458,
      "learning_rate": 0.0005655029217602182,
      "loss": 1.7067,
      "step": 13900
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39066481590270996,
      "learning_rate": 0.0005654980553809753,
      "loss": 1.7893,
      "step": 13901
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38560783863067627,
      "learning_rate": 0.0005654931886794569,
      "loss": 1.7498,
      "step": 13902
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3926408290863037,
      "learning_rate": 0.0005654883216556688,
      "loss": 1.7167,
      "step": 13903
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3675646185874939,
      "learning_rate": 0.000565483454309617,
      "loss": 1.8168,
      "step": 13904
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37343454360961914,
      "learning_rate": 0.0005654785866413075,
      "loss": 1.7469,
      "step": 13905
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38943856954574585,
      "learning_rate": 0.000565473718650746,
      "loss": 1.77,
      "step": 13906
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.374316543340683,
      "learning_rate": 0.0005654688503379386,
      "loss": 1.7332,
      "step": 13907
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37905994057655334,
      "learning_rate": 0.0005654639817028911,
      "loss": 1.6828,
      "step": 13908
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38116905093193054,
      "learning_rate": 0.0005654591127456094,
      "loss": 1.728,
      "step": 13909
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4079512357711792,
      "learning_rate": 0.0005654542434660995,
      "loss": 1.7157,
      "step": 13910
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3934900462627411,
      "learning_rate": 0.0005654493738643672,
      "loss": 1.7623,
      "step": 13911
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38194116950035095,
      "learning_rate": 0.0005654445039404185,
      "loss": 1.7403,
      "step": 13912
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3973042368888855,
      "learning_rate": 0.0005654396336942593,
      "loss": 1.7478,
      "step": 13913
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.385974645614624,
      "learning_rate": 0.0005654347631258956,
      "loss": 1.694,
      "step": 13914
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36998501420021057,
      "learning_rate": 0.000565429892235333,
      "loss": 1.6744,
      "step": 13915
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39511194825172424,
      "learning_rate": 0.0005654250210225777,
      "loss": 1.7431,
      "step": 13916
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39766454696655273,
      "learning_rate": 0.0005654201494876357,
      "loss": 1.7333,
      "step": 13917
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3953416645526886,
      "learning_rate": 0.0005654152776305125,
      "loss": 1.7579,
      "step": 13918
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38288167119026184,
      "learning_rate": 0.0005654104054512144,
      "loss": 1.7517,
      "step": 13919
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39945757389068604,
      "learning_rate": 0.0005654055329497472,
      "loss": 1.683,
      "step": 13920
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3828914761543274,
      "learning_rate": 0.0005654006601261167,
      "loss": 1.7158,
      "step": 13921
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37284234166145325,
      "learning_rate": 0.0005653957869803289,
      "loss": 1.6981,
      "step": 13922
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39224061369895935,
      "learning_rate": 0.0005653909135123898,
      "loss": 1.8261,
      "step": 13923
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39147526025772095,
      "learning_rate": 0.0005653860397223052,
      "loss": 1.6965,
      "step": 13924
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39978647232055664,
      "learning_rate": 0.000565381165610081,
      "loss": 1.7057,
      "step": 13925
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3854905962944031,
      "learning_rate": 0.0005653762911757231,
      "loss": 1.815,
      "step": 13926
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3913687467575073,
      "learning_rate": 0.0005653714164192377,
      "loss": 1.761,
      "step": 13927
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3869974911212921,
      "learning_rate": 0.0005653665413406304,
      "loss": 1.742,
      "step": 13928
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3910845220088959,
      "learning_rate": 0.0005653616659399072,
      "loss": 1.7576,
      "step": 13929
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3848327398300171,
      "learning_rate": 0.000565356790217074,
      "loss": 1.7157,
      "step": 13930
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38428038358688354,
      "learning_rate": 0.0005653519141721367,
      "loss": 1.8272,
      "step": 13931
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3931349813938141,
      "learning_rate": 0.0005653470378051015,
      "loss": 1.775,
      "step": 13932
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3775594234466553,
      "learning_rate": 0.0005653421611159739,
      "loss": 1.7519,
      "step": 13933
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38878828287124634,
      "learning_rate": 0.0005653372841047602,
      "loss": 1.6967,
      "step": 13934
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37771835923194885,
      "learning_rate": 0.000565332406771466,
      "loss": 1.7362,
      "step": 13935
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37507185339927673,
      "learning_rate": 0.0005653275291160973,
      "loss": 1.7017,
      "step": 13936
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3826209604740143,
      "learning_rate": 0.0005653226511386601,
      "loss": 1.8153,
      "step": 13937
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3848015367984772,
      "learning_rate": 0.0005653177728391605,
      "loss": 1.7634,
      "step": 13938
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3741644620895386,
      "learning_rate": 0.0005653128942176039,
      "loss": 1.7525,
      "step": 13939
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3840310573577881,
      "learning_rate": 0.0005653080152739967,
      "loss": 1.7694,
      "step": 13940
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37273555994033813,
      "learning_rate": 0.0005653031360083446,
      "loss": 1.6894,
      "step": 13941
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3853829801082611,
      "learning_rate": 0.0005652982564206537,
      "loss": 1.7395,
      "step": 13942
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37172648310661316,
      "learning_rate": 0.0005652933765109298,
      "loss": 1.7056,
      "step": 13943
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38775715231895447,
      "learning_rate": 0.0005652884962791786,
      "loss": 1.7724,
      "step": 13944
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3806869685649872,
      "learning_rate": 0.0005652836157254065,
      "loss": 1.6841,
      "step": 13945
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3734891712665558,
      "learning_rate": 0.0005652787348496191,
      "loss": 1.6583,
      "step": 13946
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3826248049736023,
      "learning_rate": 0.0005652738536518224,
      "loss": 1.7689,
      "step": 13947
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3839108943939209,
      "learning_rate": 0.0005652689721320223,
      "loss": 1.7296,
      "step": 13948
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3806224465370178,
      "learning_rate": 0.0005652640902902248,
      "loss": 1.6235,
      "step": 13949
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38717758655548096,
      "learning_rate": 0.0005652592081264358,
      "loss": 1.7394,
      "step": 13950
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37272584438323975,
      "learning_rate": 0.0005652543256406612,
      "loss": 1.7756,
      "step": 13951
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37744051218032837,
      "learning_rate": 0.0005652494428329068,
      "loss": 1.7102,
      "step": 13952
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37937092781066895,
      "learning_rate": 0.0005652445597031788,
      "loss": 1.6853,
      "step": 13953
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36515527963638306,
      "learning_rate": 0.000565239676251483,
      "loss": 1.7126,
      "step": 13954
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38467904925346375,
      "learning_rate": 0.0005652347924778252,
      "loss": 1.618,
      "step": 13955
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3908705413341522,
      "learning_rate": 0.0005652299083822116,
      "loss": 1.8086,
      "step": 13956
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3853841722011566,
      "learning_rate": 0.0005652250239646478,
      "loss": 1.7188,
      "step": 13957
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38111403584480286,
      "learning_rate": 0.00056522013922514,
      "loss": 1.7786,
      "step": 13958
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3769194483757019,
      "learning_rate": 0.000565215254163694,
      "loss": 1.6494,
      "step": 13959
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36803367733955383,
      "learning_rate": 0.0005652103687803158,
      "loss": 1.7856,
      "step": 13960
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37510648369789124,
      "learning_rate": 0.0005652054830750112,
      "loss": 1.676,
      "step": 13961
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3855687379837036,
      "learning_rate": 0.0005652005970477863,
      "loss": 1.8214,
      "step": 13962
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37132740020751953,
      "learning_rate": 0.0005651957106986469,
      "loss": 1.6981,
      "step": 13963
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3959865868091583,
      "learning_rate": 0.000565190824027599,
      "loss": 1.7554,
      "step": 13964
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3843303620815277,
      "learning_rate": 0.0005651859370346485,
      "loss": 1.8087,
      "step": 13965
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3682796061038971,
      "learning_rate": 0.0005651810497198014,
      "loss": 1.6565,
      "step": 13966
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37823382019996643,
      "learning_rate": 0.0005651761620830636,
      "loss": 1.7363,
      "step": 13967
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3682100176811218,
      "learning_rate": 0.0005651712741244409,
      "loss": 1.7391,
      "step": 13968
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37772509455680847,
      "learning_rate": 0.0005651663858439395,
      "loss": 1.7985,
      "step": 13969
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3804658353328705,
      "learning_rate": 0.000565161497241565,
      "loss": 1.6859,
      "step": 13970
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3861386775970459,
      "learning_rate": 0.0005651566083173235,
      "loss": 1.7912,
      "step": 13971
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38816750049591064,
      "learning_rate": 0.0005651517190712211,
      "loss": 1.7643,
      "step": 13972
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.37459835410118103,
      "learning_rate": 0.0005651468295032635,
      "loss": 1.7097,
      "step": 13973
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4201955497264862,
      "learning_rate": 0.0005651419396134567,
      "loss": 1.7463,
      "step": 13974
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3778936564922333,
      "learning_rate": 0.0005651370494018067,
      "loss": 1.731,
      "step": 13975
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.38215363025665283,
      "learning_rate": 0.0005651321588683194,
      "loss": 1.7913,
      "step": 13976
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37782683968544006,
      "learning_rate": 0.0005651272680130007,
      "loss": 1.7929,
      "step": 13977
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3823678195476532,
      "learning_rate": 0.0005651223768358566,
      "loss": 1.718,
      "step": 13978
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3728015422821045,
      "learning_rate": 0.0005651174853368929,
      "loss": 1.7572,
      "step": 13979
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3862861692905426,
      "learning_rate": 0.0005651125935161157,
      "loss": 1.6264,
      "step": 13980
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3748108148574829,
      "learning_rate": 0.0005651077013735308,
      "loss": 1.7553,
      "step": 13981
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3873404264450073,
      "learning_rate": 0.0005651028089091444,
      "loss": 1.7169,
      "step": 13982
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3909027874469757,
      "learning_rate": 0.0005650979161229621,
      "loss": 1.741,
      "step": 13983
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3907068967819214,
      "learning_rate": 0.00056509302301499,
      "loss": 1.7163,
      "step": 13984
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38067400455474854,
      "learning_rate": 0.0005650881295852341,
      "loss": 1.7555,
      "step": 13985
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.385189026594162,
      "learning_rate": 0.0005650832358337001,
      "loss": 1.7273,
      "step": 13986
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37588509917259216,
      "learning_rate": 0.0005650783417603943,
      "loss": 1.7388,
      "step": 13987
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37492239475250244,
      "learning_rate": 0.0005650734473653224,
      "loss": 1.6917,
      "step": 13988
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3822239339351654,
      "learning_rate": 0.0005650685526484904,
      "loss": 1.6758,
      "step": 13989
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3720148801803589,
      "learning_rate": 0.0005650636576099041,
      "loss": 1.7618,
      "step": 13990
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37751322984695435,
      "learning_rate": 0.0005650587622495697,
      "loss": 1.7139,
      "step": 13991
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3670170307159424,
      "learning_rate": 0.0005650538665674929,
      "loss": 1.7458,
      "step": 13992
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3892013132572174,
      "learning_rate": 0.00056504897056368,
      "loss": 1.7139,
      "step": 13993
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3858172297477722,
      "learning_rate": 0.0005650440742381366,
      "loss": 1.7118,
      "step": 13994
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4000864028930664,
      "learning_rate": 0.0005650391775908687,
      "loss": 1.7934,
      "step": 13995
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3747343122959137,
      "learning_rate": 0.0005650342806218822,
      "loss": 1.7224,
      "step": 13996
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3782540261745453,
      "learning_rate": 0.0005650293833311833,
      "loss": 1.684,
      "step": 13997
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3997180461883545,
      "learning_rate": 0.0005650244857187777,
      "loss": 1.7709,
      "step": 13998
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37394484877586365,
      "learning_rate": 0.0005650195877846714,
      "loss": 1.7146,
      "step": 13999
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39389893412590027,
      "learning_rate": 0.0005650146895288704,
      "loss": 1.7624,
      "step": 14000
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38913747668266296,
      "learning_rate": 0.0005650097909513807,
      "loss": 1.7351,
      "step": 14001
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37262633442878723,
      "learning_rate": 0.0005650048920522081,
      "loss": 1.7264,
      "step": 14002
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38510647416114807,
      "learning_rate": 0.0005649999928313585,
      "loss": 1.7816,
      "step": 14003
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3739455044269562,
      "learning_rate": 0.000564995093288838,
      "loss": 1.7437,
      "step": 14004
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38416624069213867,
      "learning_rate": 0.0005649901934246526,
      "loss": 1.7737,
      "step": 14005
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3773224353790283,
      "learning_rate": 0.0005649852932388081,
      "loss": 1.716,
      "step": 14006
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38399481773376465,
      "learning_rate": 0.0005649803927313104,
      "loss": 1.6863,
      "step": 14007
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3788555860519409,
      "learning_rate": 0.0005649754919021657,
      "loss": 1.8013,
      "step": 14008
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38234418630599976,
      "learning_rate": 0.0005649705907513797,
      "loss": 1.731,
      "step": 14009
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.36690449714660645,
      "learning_rate": 0.0005649656892789585,
      "loss": 1.6236,
      "step": 14010
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.381594717502594,
      "learning_rate": 0.000564960787484908,
      "loss": 1.6498,
      "step": 14011
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3800606429576874,
      "learning_rate": 0.0005649558853692341,
      "loss": 1.7523,
      "step": 14012
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38337820768356323,
      "learning_rate": 0.0005649509829319428,
      "loss": 1.7131,
      "step": 14013
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3745745122432709,
      "learning_rate": 0.0005649460801730401,
      "loss": 1.7628,
      "step": 14014
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3851892650127411,
      "learning_rate": 0.0005649411770925318,
      "loss": 1.7827,
      "step": 14015
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38643211126327515,
      "learning_rate": 0.000564936273690424,
      "loss": 1.7443,
      "step": 14016
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37924084067344666,
      "learning_rate": 0.0005649313699667226,
      "loss": 1.788,
      "step": 14017
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4010522961616516,
      "learning_rate": 0.0005649264659214336,
      "loss": 1.8155,
      "step": 14018
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4207945466041565,
      "learning_rate": 0.0005649215615545629,
      "loss": 1.7539,
      "step": 14019
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38871172070503235,
      "learning_rate": 0.0005649166568661163,
      "loss": 1.7657,
      "step": 14020
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37398761510849,
      "learning_rate": 0.0005649117518561,
      "loss": 1.7038,
      "step": 14021
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38079994916915894,
      "learning_rate": 0.00056490684652452,
      "loss": 1.7684,
      "step": 14022
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37814515829086304,
      "learning_rate": 0.0005649019408713819,
      "loss": 1.71,
      "step": 14023
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3883180320262909,
      "learning_rate": 0.0005648970348966921,
      "loss": 1.6925,
      "step": 14024
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3880642056465149,
      "learning_rate": 0.0005648921286004562,
      "loss": 1.7132,
      "step": 14025
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3917846083641052,
      "learning_rate": 0.0005648872219826803,
      "loss": 1.8268,
      "step": 14026
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.40354201197624207,
      "learning_rate": 0.0005648823150433704,
      "loss": 1.8125,
      "step": 14027
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.41292017698287964,
      "learning_rate": 0.0005648774077825323,
      "loss": 1.7893,
      "step": 14028
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3662843406200409,
      "learning_rate": 0.0005648725002001721,
      "loss": 1.7522,
      "step": 14029
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38685134053230286,
      "learning_rate": 0.0005648675922962957,
      "loss": 1.8357,
      "step": 14030
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38198569416999817,
      "learning_rate": 0.000564862684070909,
      "loss": 1.6729,
      "step": 14031
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38594821095466614,
      "learning_rate": 0.0005648577755240183,
      "loss": 1.8016,
      "step": 14032
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38040921092033386,
      "learning_rate": 0.000564852866655629,
      "loss": 1.7654,
      "step": 14033
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38639459013938904,
      "learning_rate": 0.0005648479574657475,
      "loss": 1.6884,
      "step": 14034
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.372660368680954,
      "learning_rate": 0.0005648430479543795,
      "loss": 1.7535,
      "step": 14035
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3815120458602905,
      "learning_rate": 0.000564838138121531,
      "loss": 1.7622,
      "step": 14036
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37806954979896545,
      "learning_rate": 0.0005648332279672082,
      "loss": 1.7382,
      "step": 14037
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3820614814758301,
      "learning_rate": 0.0005648283174914168,
      "loss": 1.7417,
      "step": 14038
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3923434019088745,
      "learning_rate": 0.0005648234066941628,
      "loss": 1.7709,
      "step": 14039
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38062456250190735,
      "learning_rate": 0.0005648184955754523,
      "loss": 1.6308,
      "step": 14040
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37497055530548096,
      "learning_rate": 0.0005648135841352911,
      "loss": 1.7863,
      "step": 14041
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39387044310569763,
      "learning_rate": 0.0005648086723736852,
      "loss": 1.7823,
      "step": 14042
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.378738135099411,
      "learning_rate": 0.0005648037602906408,
      "loss": 1.7632,
      "step": 14043
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37612220644950867,
      "learning_rate": 0.0005647988478861636,
      "loss": 1.7904,
      "step": 14044
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37035050988197327,
      "learning_rate": 0.0005647939351602593,
      "loss": 1.7552,
      "step": 14045
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37066131830215454,
      "learning_rate": 0.0005647890221129344,
      "loss": 1.7351,
      "step": 14046
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3861953914165497,
      "learning_rate": 0.0005647841087441947,
      "loss": 1.6192,
      "step": 14047
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.384175568819046,
      "learning_rate": 0.0005647791950540459,
      "loss": 1.7941,
      "step": 14048
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37772420048713684,
      "learning_rate": 0.0005647742810424944,
      "loss": 1.7794,
      "step": 14049
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3711252808570862,
      "learning_rate": 0.0005647693667095458,
      "loss": 1.675,
      "step": 14050
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3915039002895355,
      "learning_rate": 0.0005647644520552062,
      "loss": 1.7369,
      "step": 14051
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3905714452266693,
      "learning_rate": 0.0005647595370794817,
      "loss": 1.8421,
      "step": 14052
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38432469964027405,
      "learning_rate": 0.0005647546217823781,
      "loss": 1.704,
      "step": 14053
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.380475789308548,
      "learning_rate": 0.0005647497061639012,
      "loss": 1.7147,
      "step": 14054
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.35872840881347656,
      "learning_rate": 0.0005647447902240574,
      "loss": 1.6704,
      "step": 14055
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.40204712748527527,
      "learning_rate": 0.0005647398739628524,
      "loss": 1.7016,
      "step": 14056
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.36898770928382874,
      "learning_rate": 0.000564734957380292,
      "loss": 1.6615,
      "step": 14057
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38327357172966003,
      "learning_rate": 0.0005647300404763826,
      "loss": 1.7573,
      "step": 14058
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3789277970790863,
      "learning_rate": 0.0005647251232511298,
      "loss": 1.7311,
      "step": 14059
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3786442279815674,
      "learning_rate": 0.0005647202057045398,
      "loss": 1.7596,
      "step": 14060
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38984400033950806,
      "learning_rate": 0.0005647152878366184,
      "loss": 1.7083,
      "step": 14061
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3925994038581848,
      "learning_rate": 0.0005647103696473716,
      "loss": 1.7206,
      "step": 14062
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3922004699707031,
      "learning_rate": 0.0005647054511368055,
      "loss": 1.7808,
      "step": 14063
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3733668327331543,
      "learning_rate": 0.000564700532304926,
      "loss": 1.7822,
      "step": 14064
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3770660161972046,
      "learning_rate": 0.000564695613151739,
      "loss": 1.7049,
      "step": 14065
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37738823890686035,
      "learning_rate": 0.0005646906936772506,
      "loss": 1.7215,
      "step": 14066
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3806699514389038,
      "learning_rate": 0.0005646857738814666,
      "loss": 1.7331,
      "step": 14067
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.384190171957016,
      "learning_rate": 0.0005646808537643931,
      "loss": 1.7106,
      "step": 14068
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38420355319976807,
      "learning_rate": 0.0005646759333260361,
      "loss": 1.6835,
      "step": 14069
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3795778155326843,
      "learning_rate": 0.0005646710125664015,
      "loss": 1.6844,
      "step": 14070
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3895705044269562,
      "learning_rate": 0.0005646660914854952,
      "loss": 1.7349,
      "step": 14071
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3897315561771393,
      "learning_rate": 0.0005646611700833233,
      "loss": 1.7296,
      "step": 14072
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3916040062904358,
      "learning_rate": 0.0005646562483598918,
      "loss": 1.7628,
      "step": 14073
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37069016695022583,
      "learning_rate": 0.0005646513263152066,
      "loss": 1.626,
      "step": 14074
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4054526388645172,
      "learning_rate": 0.0005646464039492737,
      "loss": 1.8388,
      "step": 14075
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3761836886405945,
      "learning_rate": 0.0005646414812620989,
      "loss": 1.7502,
      "step": 14076
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3909440040588379,
      "learning_rate": 0.0005646365582536885,
      "loss": 1.6719,
      "step": 14077
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37367895245552063,
      "learning_rate": 0.0005646316349240482,
      "loss": 1.6771,
      "step": 14078
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3809826076030731,
      "learning_rate": 0.0005646267112731842,
      "loss": 1.6591,
      "step": 14079
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38414397835731506,
      "learning_rate": 0.0005646217873011023,
      "loss": 1.7717,
      "step": 14080
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3999393582344055,
      "learning_rate": 0.0005646168630078085,
      "loss": 1.7374,
      "step": 14081
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38507118821144104,
      "learning_rate": 0.0005646119383933089,
      "loss": 1.707,
      "step": 14082
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3789921998977661,
      "learning_rate": 0.0005646070134576094,
      "loss": 1.7212,
      "step": 14083
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.362175315618515,
      "learning_rate": 0.0005646020882007159,
      "loss": 1.7324,
      "step": 14084
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39065536856651306,
      "learning_rate": 0.0005645971626226346,
      "loss": 1.7069,
      "step": 14085
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39568260312080383,
      "learning_rate": 0.0005645922367233711,
      "loss": 1.7744,
      "step": 14086
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3918776214122772,
      "learning_rate": 0.0005645873105029318,
      "loss": 1.7198,
      "step": 14087
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37108445167541504,
      "learning_rate": 0.0005645823839613224,
      "loss": 1.7143,
      "step": 14088
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3835519254207611,
      "learning_rate": 0.000564577457098549,
      "loss": 1.7042,
      "step": 14089
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3875122368335724,
      "learning_rate": 0.0005645725299146176,
      "loss": 1.7447,
      "step": 14090
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3884104788303375,
      "learning_rate": 0.000564567602409534,
      "loss": 1.7778,
      "step": 14091
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3827434480190277,
      "learning_rate": 0.0005645626745833044,
      "loss": 1.6961,
      "step": 14092
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3879339098930359,
      "learning_rate": 0.0005645577464359346,
      "loss": 1.725,
      "step": 14093
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3756563663482666,
      "learning_rate": 0.0005645528179674308,
      "loss": 1.7703,
      "step": 14094
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3956545293331146,
      "learning_rate": 0.0005645478891777989,
      "loss": 1.7451,
      "step": 14095
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39368700981140137,
      "learning_rate": 0.0005645429600670447,
      "loss": 1.7554,
      "step": 14096
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37835532426834106,
      "learning_rate": 0.0005645380306351744,
      "loss": 1.7588,
      "step": 14097
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3872193396091461,
      "learning_rate": 0.0005645331008821939,
      "loss": 1.7239,
      "step": 14098
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39264053106307983,
      "learning_rate": 0.0005645281708081092,
      "loss": 1.7411,
      "step": 14099
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3725835978984833,
      "learning_rate": 0.0005645232404129263,
      "loss": 1.7586,
      "step": 14100
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.370442271232605,
      "learning_rate": 0.000564518309696651,
      "loss": 1.7195,
      "step": 14101
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4045107662677765,
      "learning_rate": 0.0005645133786592896,
      "loss": 1.729,
      "step": 14102
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3825956881046295,
      "learning_rate": 0.0005645084473008479,
      "loss": 1.7537,
      "step": 14103
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37336450815200806,
      "learning_rate": 0.0005645035156213319,
      "loss": 1.6821,
      "step": 14104
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39281952381134033,
      "learning_rate": 0.0005644985836207477,
      "loss": 1.7167,
      "step": 14105
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39906904101371765,
      "learning_rate": 0.000564493651299101,
      "loss": 1.7482,
      "step": 14106
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38470765948295593,
      "learning_rate": 0.0005644887186563982,
      "loss": 1.7575,
      "step": 14107
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3886162340641022,
      "learning_rate": 0.000564483785692645,
      "loss": 1.7481,
      "step": 14108
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4243714511394501,
      "learning_rate": 0.0005644788524078473,
      "loss": 1.8161,
      "step": 14109
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3743040859699249,
      "learning_rate": 0.0005644739188020114,
      "loss": 1.7515,
      "step": 14110
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.414199560880661,
      "learning_rate": 0.0005644689848751431,
      "loss": 1.7715,
      "step": 14111
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3997887372970581,
      "learning_rate": 0.0005644640506272485,
      "loss": 1.7141,
      "step": 14112
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38042381405830383,
      "learning_rate": 0.0005644591160583333,
      "loss": 1.6963,
      "step": 14113
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3814350664615631,
      "learning_rate": 0.0005644541811684039,
      "loss": 1.792,
      "step": 14114
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39843833446502686,
      "learning_rate": 0.0005644492459574659,
      "loss": 1.7589,
      "step": 14115
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3782846927642822,
      "learning_rate": 0.0005644443104255257,
      "loss": 1.6648,
      "step": 14116
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39871343970298767,
      "learning_rate": 0.0005644393745725889,
      "loss": 1.7925,
      "step": 14117
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38006702065467834,
      "learning_rate": 0.0005644344383986617,
      "loss": 1.7556,
      "step": 14118
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38765621185302734,
      "learning_rate": 0.0005644295019037501,
      "loss": 1.7168,
      "step": 14119
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3875269591808319,
      "learning_rate": 0.00056442456508786,
      "loss": 1.8089,
      "step": 14120
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39526310563087463,
      "learning_rate": 0.0005644196279509974,
      "loss": 1.7876,
      "step": 14121
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37962639331817627,
      "learning_rate": 0.0005644146904931685,
      "loss": 1.7212,
      "step": 14122
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.393704891204834,
      "learning_rate": 0.000564409752714379,
      "loss": 1.7321,
      "step": 14123
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4112452268600464,
      "learning_rate": 0.0005644048146146351,
      "loss": 1.8423,
      "step": 14124
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3801153600215912,
      "learning_rate": 0.0005643998761939426,
      "loss": 1.7489,
      "step": 14125
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3969762921333313,
      "learning_rate": 0.0005643949374523077,
      "loss": 1.7086,
      "step": 14126
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3832719027996063,
      "learning_rate": 0.0005643899983897362,
      "loss": 1.7003,
      "step": 14127
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3865874409675598,
      "learning_rate": 0.0005643850590062343,
      "loss": 1.7936,
      "step": 14128
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3709752857685089,
      "learning_rate": 0.0005643801193018079,
      "loss": 1.7739,
      "step": 14129
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3886231482028961,
      "learning_rate": 0.0005643751792764628,
      "loss": 1.6855,
      "step": 14130
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3879830837249756,
      "learning_rate": 0.0005643702389302054,
      "loss": 1.7164,
      "step": 14131
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38390082120895386,
      "learning_rate": 0.0005643652982630415,
      "loss": 1.7511,
      "step": 14132
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38951751589775085,
      "learning_rate": 0.0005643603572749769,
      "loss": 1.7322,
      "step": 14133
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.40310248732566833,
      "learning_rate": 0.0005643554159660179,
      "loss": 1.7095,
      "step": 14134
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.40757888555526733,
      "learning_rate": 0.0005643504743361703,
      "loss": 1.7838,
      "step": 14135
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3753267824649811,
      "learning_rate": 0.0005643455323854403,
      "loss": 1.677,
      "step": 14136
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37725043296813965,
      "learning_rate": 0.0005643405901138336,
      "loss": 1.6762,
      "step": 14137
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38767537474632263,
      "learning_rate": 0.0005643356475213565,
      "loss": 1.7093,
      "step": 14138
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3778300881385803,
      "learning_rate": 0.0005643307046080149,
      "loss": 1.6802,
      "step": 14139
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.36864209175109863,
      "learning_rate": 0.0005643257613738148,
      "loss": 1.7373,
      "step": 14140
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37734106183052063,
      "learning_rate": 0.0005643208178187619,
      "loss": 1.7857,
      "step": 14141
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3763582408428192,
      "learning_rate": 0.0005643158739428628,
      "loss": 1.6767,
      "step": 14142
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38386204838752747,
      "learning_rate": 0.000564310929746123,
      "loss": 1.6687,
      "step": 14143
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.382451593875885,
      "learning_rate": 0.0005643059852285487,
      "loss": 1.7497,
      "step": 14144
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3807409703731537,
      "learning_rate": 0.0005643010403901459,
      "loss": 1.7666,
      "step": 14145
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3855237364768982,
      "learning_rate": 0.0005642960952309205,
      "loss": 1.7606,
      "step": 14146
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.42575258016586304,
      "learning_rate": 0.0005642911497508787,
      "loss": 1.7915,
      "step": 14147
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37878403067588806,
      "learning_rate": 0.0005642862039500262,
      "loss": 1.719,
      "step": 14148
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3891943395137787,
      "learning_rate": 0.0005642812578283695,
      "loss": 1.7024,
      "step": 14149
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3838965892791748,
      "learning_rate": 0.000564276311385914,
      "loss": 1.7682,
      "step": 14150
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3905789256095886,
      "learning_rate": 0.0005642713646226661,
      "loss": 1.7512,
      "step": 14151
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3826931416988373,
      "learning_rate": 0.0005642664175386317,
      "loss": 1.6993,
      "step": 14152
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3894191384315491,
      "learning_rate": 0.0005642614701338168,
      "loss": 1.6741,
      "step": 14153
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3901631236076355,
      "learning_rate": 0.0005642565224082274,
      "loss": 1.7226,
      "step": 14154
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38041144609451294,
      "learning_rate": 0.0005642515743618696,
      "loss": 1.7597,
      "step": 14155
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3803524672985077,
      "learning_rate": 0.0005642466259947493,
      "loss": 1.7905,
      "step": 14156
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38293886184692383,
      "learning_rate": 0.0005642416773068725,
      "loss": 1.7438,
      "step": 14157
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39053767919540405,
      "learning_rate": 0.0005642367282982454,
      "loss": 1.7346,
      "step": 14158
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38313379883766174,
      "learning_rate": 0.0005642317789688736,
      "loss": 1.7749,
      "step": 14159
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3783111274242401,
      "learning_rate": 0.0005642268293187634,
      "loss": 1.7726,
      "step": 14160
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.382807195186615,
      "learning_rate": 0.0005642218793479208,
      "loss": 1.7568,
      "step": 14161
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3787928819656372,
      "learning_rate": 0.0005642169290563519,
      "loss": 1.7419,
      "step": 14162
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3797292113304138,
      "learning_rate": 0.0005642119784440623,
      "loss": 1.7161,
      "step": 14163
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3888145387172699,
      "learning_rate": 0.0005642070275110585,
      "loss": 1.7883,
      "step": 14164
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38450056314468384,
      "learning_rate": 0.0005642020762573462,
      "loss": 1.6837,
      "step": 14165
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3653031289577484,
      "learning_rate": 0.0005641971246829316,
      "loss": 1.6839,
      "step": 14166
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37970924377441406,
      "learning_rate": 0.0005641921727878205,
      "loss": 1.7093,
      "step": 14167
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3884090483188629,
      "learning_rate": 0.0005641872205720192,
      "loss": 1.7906,
      "step": 14168
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3774772882461548,
      "learning_rate": 0.0005641822680355334,
      "loss": 1.7446,
      "step": 14169
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3793279230594635,
      "learning_rate": 0.0005641773151783693,
      "loss": 1.7328,
      "step": 14170
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3891957402229309,
      "learning_rate": 0.0005641723620005328,
      "loss": 1.7288,
      "step": 14171
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.364547461271286,
      "learning_rate": 0.00056416740850203,
      "loss": 1.764,
      "step": 14172
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.373282790184021,
      "learning_rate": 0.000564162454682867,
      "loss": 1.7052,
      "step": 14173
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3820214867591858,
      "learning_rate": 0.0005641575005430495,
      "loss": 1.7544,
      "step": 14174
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39147067070007324,
      "learning_rate": 0.0005641525460825839,
      "loss": 1.804,
      "step": 14175
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37851643562316895,
      "learning_rate": 0.000564147591301476,
      "loss": 1.6962,
      "step": 14176
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3826945722103119,
      "learning_rate": 0.0005641426361997318,
      "loss": 1.7179,
      "step": 14177
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3766586184501648,
      "learning_rate": 0.0005641376807773573,
      "loss": 1.736,
      "step": 14178
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37576860189437866,
      "learning_rate": 0.0005641327250343587,
      "loss": 1.7359,
      "step": 14179
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.378835529088974,
      "learning_rate": 0.0005641277689707418,
      "loss": 1.7357,
      "step": 14180
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.372981995344162,
      "learning_rate": 0.0005641228125865127,
      "loss": 1.7453,
      "step": 14181
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37313202023506165,
      "learning_rate": 0.0005641178558816775,
      "loss": 1.6671,
      "step": 14182
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3765745162963867,
      "learning_rate": 0.0005641128988562421,
      "loss": 1.7622,
      "step": 14183
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38554638624191284,
      "learning_rate": 0.0005641079415102126,
      "loss": 1.8042,
      "step": 14184
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3731904923915863,
      "learning_rate": 0.0005641029838435949,
      "loss": 1.7654,
      "step": 14185
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.36673200130462646,
      "learning_rate": 0.0005640980258563951,
      "loss": 1.7033,
      "step": 14186
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3654378056526184,
      "learning_rate": 0.0005640930675486193,
      "loss": 1.6959,
      "step": 14187
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3773164451122284,
      "learning_rate": 0.0005640881089202733,
      "loss": 1.7782,
      "step": 14188
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37749555706977844,
      "learning_rate": 0.0005640831499713633,
      "loss": 1.7242,
      "step": 14189
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3788234293460846,
      "learning_rate": 0.0005640781907018952,
      "loss": 1.6568,
      "step": 14190
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3890904188156128,
      "learning_rate": 0.0005640732311118752,
      "loss": 1.7277,
      "step": 14191
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39132872223854065,
      "learning_rate": 0.0005640682712013093,
      "loss": 1.807,
      "step": 14192
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3804008662700653,
      "learning_rate": 0.0005640633109702032,
      "loss": 1.6826,
      "step": 14193
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3845607340335846,
      "learning_rate": 0.0005640583504185633,
      "loss": 1.7349,
      "step": 14194
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37464091181755066,
      "learning_rate": 0.0005640533895463954,
      "loss": 1.6413,
      "step": 14195
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3794820010662079,
      "learning_rate": 0.0005640484283537055,
      "loss": 1.7338,
      "step": 14196
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3917105197906494,
      "learning_rate": 0.0005640434668404999,
      "loss": 1.6299,
      "step": 14197
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3920546770095825,
      "learning_rate": 0.0005640385050067843,
      "loss": 1.6491,
      "step": 14198
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37455853819847107,
      "learning_rate": 0.0005640335428525649,
      "loss": 1.7341,
      "step": 14199
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38343310356140137,
      "learning_rate": 0.0005640285803778477,
      "loss": 1.7287,
      "step": 14200
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39000189304351807,
      "learning_rate": 0.0005640236175826387,
      "loss": 1.7589,
      "step": 14201
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4267026484012604,
      "learning_rate": 0.000564018654466944,
      "loss": 1.7895,
      "step": 14202
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.43854835629463196,
      "learning_rate": 0.0005640136910307694,
      "loss": 1.7335,
      "step": 14203
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.40871742367744446,
      "learning_rate": 0.0005640087272741212,
      "loss": 1.7145,
      "step": 14204
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38172927498817444,
      "learning_rate": 0.0005640037631970053,
      "loss": 1.7743,
      "step": 14205
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38565176725387573,
      "learning_rate": 0.0005639987987994277,
      "loss": 1.6921,
      "step": 14206
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3926403224468231,
      "learning_rate": 0.0005639938340813945,
      "loss": 1.7286,
      "step": 14207
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37518948316574097,
      "learning_rate": 0.0005639888690429116,
      "loss": 1.7616,
      "step": 14208
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38119709491729736,
      "learning_rate": 0.0005639839036839852,
      "loss": 1.6844,
      "step": 14209
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3792402148246765,
      "learning_rate": 0.000563978938004621,
      "loss": 1.7118,
      "step": 14210
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38608279824256897,
      "learning_rate": 0.0005639739720048255,
      "loss": 1.7298,
      "step": 14211
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37241753935813904,
      "learning_rate": 0.0005639690056846045,
      "loss": 1.7406,
      "step": 14212
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3699582517147064,
      "learning_rate": 0.000563964039043964,
      "loss": 1.6436,
      "step": 14213
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.385305255651474,
      "learning_rate": 0.00056395907208291,
      "loss": 1.7297,
      "step": 14214
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3886141777038574,
      "learning_rate": 0.0005639541048014486,
      "loss": 1.7725,
      "step": 14215
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3741045296192169,
      "learning_rate": 0.0005639491371995858,
      "loss": 1.725,
      "step": 14216
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38346269726753235,
      "learning_rate": 0.0005639441692773278,
      "loss": 1.8125,
      "step": 14217
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38274243474006653,
      "learning_rate": 0.0005639392010346802,
      "loss": 1.7367,
      "step": 14218
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37191975116729736,
      "learning_rate": 0.0005639342324716494,
      "loss": 1.688,
      "step": 14219
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3847680389881134,
      "learning_rate": 0.0005639292635882413,
      "loss": 1.6968,
      "step": 14220
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3625805675983429,
      "learning_rate": 0.0005639242943844621,
      "loss": 1.7192,
      "step": 14221
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.586966872215271,
      "learning_rate": 0.0005639193248603175,
      "loss": 1.7715,
      "step": 14222
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38728246092796326,
      "learning_rate": 0.0005639143550158138,
      "loss": 1.7006,
      "step": 14223
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3806573450565338,
      "learning_rate": 0.000563909384850957,
      "loss": 1.7612,
      "step": 14224
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3690778315067291,
      "learning_rate": 0.0005639044143657531,
      "loss": 1.6817,
      "step": 14225
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3825114965438843,
      "learning_rate": 0.0005638994435602081,
      "loss": 1.7638,
      "step": 14226
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37916362285614014,
      "learning_rate": 0.0005638944724343281,
      "loss": 1.7606,
      "step": 14227
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3898513913154602,
      "learning_rate": 0.000563889500988119,
      "loss": 1.7499,
      "step": 14228
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3714011013507843,
      "learning_rate": 0.000563884529221587,
      "loss": 1.8102,
      "step": 14229
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37949338555336,
      "learning_rate": 0.000563879557134738,
      "loss": 1.7631,
      "step": 14230
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37365514039993286,
      "learning_rate": 0.0005638745847275782,
      "loss": 1.7382,
      "step": 14231
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38883715867996216,
      "learning_rate": 0.0005638696120001134,
      "loss": 1.7606,
      "step": 14232
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3816618025302887,
      "learning_rate": 0.0005638646389523499,
      "loss": 1.6861,
      "step": 14233
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39188334345817566,
      "learning_rate": 0.0005638596655842935,
      "loss": 1.7731,
      "step": 14234
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38598355650901794,
      "learning_rate": 0.0005638546918959504,
      "loss": 1.7508,
      "step": 14235
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3794451057910919,
      "learning_rate": 0.0005638497178873267,
      "loss": 1.7229,
      "step": 14236
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3994900584220886,
      "learning_rate": 0.0005638447435584281,
      "loss": 1.7461,
      "step": 14237
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38599893450737,
      "learning_rate": 0.000563839768909261,
      "loss": 1.7198,
      "step": 14238
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37111979722976685,
      "learning_rate": 0.0005638347939398312,
      "loss": 1.7244,
      "step": 14239
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3752305507659912,
      "learning_rate": 0.0005638298186501449,
      "loss": 1.6848,
      "step": 14240
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39702239632606506,
      "learning_rate": 0.000563824843040208,
      "loss": 1.731,
      "step": 14241
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3765850365161896,
      "learning_rate": 0.0005638198671100268,
      "loss": 1.6943,
      "step": 14242
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38446682691574097,
      "learning_rate": 0.0005638148908596069,
      "loss": 1.7508,
      "step": 14243
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3887030780315399,
      "learning_rate": 0.0005638099142889548,
      "loss": 1.7274,
      "step": 14244
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3855113685131073,
      "learning_rate": 0.0005638049373980763,
      "loss": 1.6829,
      "step": 14245
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4203087091445923,
      "learning_rate": 0.0005637999601869774,
      "loss": 1.7334,
      "step": 14246
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38601788878440857,
      "learning_rate": 0.0005637949826556643,
      "loss": 1.7546,
      "step": 14247
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38390371203422546,
      "learning_rate": 0.0005637900048041429,
      "loss": 1.6955,
      "step": 14248
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3782861828804016,
      "learning_rate": 0.0005637850266324193,
      "loss": 1.7614,
      "step": 14249
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3778480589389801,
      "learning_rate": 0.0005637800481404996,
      "loss": 1.7162,
      "step": 14250
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38711872696876526,
      "learning_rate": 0.0005637750693283896,
      "loss": 1.7349,
      "step": 14251
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3807288408279419,
      "learning_rate": 0.0005637700901960957,
      "loss": 1.7418,
      "step": 14252
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3935301601886749,
      "learning_rate": 0.0005637651107436237,
      "loss": 1.7546,
      "step": 14253
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3926893174648285,
      "learning_rate": 0.0005637601309709799,
      "loss": 1.7196,
      "step": 14254
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3934706449508667,
      "learning_rate": 0.00056375515087817,
      "loss": 1.7601,
      "step": 14255
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3988238573074341,
      "learning_rate": 0.0005637501704652002,
      "loss": 1.7461,
      "step": 14256
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3854185938835144,
      "learning_rate": 0.0005637451897320766,
      "loss": 1.7317,
      "step": 14257
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3791857659816742,
      "learning_rate": 0.0005637402086788052,
      "loss": 1.6798,
      "step": 14258
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3737366795539856,
      "learning_rate": 0.0005637352273053921,
      "loss": 1.6545,
      "step": 14259
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3737843930721283,
      "learning_rate": 0.0005637302456118432,
      "loss": 1.7408,
      "step": 14260
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3797577917575836,
      "learning_rate": 0.0005637252635981646,
      "loss": 1.7647,
      "step": 14261
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37273257970809937,
      "learning_rate": 0.0005637202812643626,
      "loss": 1.5949,
      "step": 14262
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39812105894088745,
      "learning_rate": 0.0005637152986104428,
      "loss": 1.7674,
      "step": 14263
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3892463445663452,
      "learning_rate": 0.0005637103156364116,
      "loss": 1.7762,
      "step": 14264
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3701789975166321,
      "learning_rate": 0.0005637053323422749,
      "loss": 1.6984,
      "step": 14265
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3971993029117584,
      "learning_rate": 0.0005637003487280388,
      "loss": 1.751,
      "step": 14266
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5485223531723022,
      "learning_rate": 0.0005636953647937093,
      "loss": 1.7376,
      "step": 14267
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3893837332725525,
      "learning_rate": 0.0005636903805392926,
      "loss": 1.7484,
      "step": 14268
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39090004563331604,
      "learning_rate": 0.0005636853959647946,
      "loss": 1.7868,
      "step": 14269
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3762319087982178,
      "learning_rate": 0.0005636804110702213,
      "loss": 1.5872,
      "step": 14270
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3953942656517029,
      "learning_rate": 0.0005636754258555788,
      "loss": 1.7799,
      "step": 14271
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3968423902988434,
      "learning_rate": 0.0005636704403208732,
      "loss": 1.7288,
      "step": 14272
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38666191697120667,
      "learning_rate": 0.0005636654544661106,
      "loss": 1.6806,
      "step": 14273
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.388297438621521,
      "learning_rate": 0.0005636604682912969,
      "loss": 1.745,
      "step": 14274
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.4002147316932678,
      "learning_rate": 0.0005636554817964384,
      "loss": 1.7395,
      "step": 14275
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39406007528305054,
      "learning_rate": 0.0005636504949815408,
      "loss": 1.7359,
      "step": 14276
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.38848599791526794,
      "learning_rate": 0.0005636455078466105,
      "loss": 1.7573,
      "step": 14277
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3952842056751251,
      "learning_rate": 0.0005636405203916533,
      "loss": 1.6457,
      "step": 14278
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3879862427711487,
      "learning_rate": 0.0005636355326166755,
      "loss": 1.7179,
      "step": 14279
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37741929292678833,
      "learning_rate": 0.0005636305445216828,
      "loss": 1.7019,
      "step": 14280
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38519492745399475,
      "learning_rate": 0.0005636255561066816,
      "loss": 1.7558,
      "step": 14281
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36919498443603516,
      "learning_rate": 0.0005636205673716778,
      "loss": 1.6964,
      "step": 14282
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37351006269454956,
      "learning_rate": 0.0005636155783166775,
      "loss": 1.775,
      "step": 14283
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37769997119903564,
      "learning_rate": 0.0005636105889416866,
      "loss": 1.7424,
      "step": 14284
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3719322085380554,
      "learning_rate": 0.0005636055992467114,
      "loss": 1.6866,
      "step": 14285
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3927043080329895,
      "learning_rate": 0.0005636006092317579,
      "loss": 1.7811,
      "step": 14286
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38628435134887695,
      "learning_rate": 0.000563595618896832,
      "loss": 1.7085,
      "step": 14287
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37277862429618835,
      "learning_rate": 0.0005635906282419398,
      "loss": 1.7468,
      "step": 14288
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38240891695022583,
      "learning_rate": 0.0005635856372670875,
      "loss": 1.6926,
      "step": 14289
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3799300491809845,
      "learning_rate": 0.0005635806459722811,
      "loss": 1.7583,
      "step": 14290
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38874995708465576,
      "learning_rate": 0.0005635756543575266,
      "loss": 1.7797,
      "step": 14291
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3971250355243683,
      "learning_rate": 0.0005635706624228301,
      "loss": 1.7539,
      "step": 14292
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3908475339412689,
      "learning_rate": 0.0005635656701681975,
      "loss": 1.7321,
      "step": 14293
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37853512167930603,
      "learning_rate": 0.0005635606775936353,
      "loss": 1.7174,
      "step": 14294
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38505589962005615,
      "learning_rate": 0.000563555684699149,
      "loss": 1.7565,
      "step": 14295
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3788474202156067,
      "learning_rate": 0.0005635506914847451,
      "loss": 1.7702,
      "step": 14296
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3889947831630707,
      "learning_rate": 0.0005635456979504295,
      "loss": 1.6946,
      "step": 14297
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3975972831249237,
      "learning_rate": 0.0005635407040962083,
      "loss": 1.75,
      "step": 14298
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38447973132133484,
      "learning_rate": 0.0005635357099220874,
      "loss": 1.7344,
      "step": 14299
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39827048778533936,
      "learning_rate": 0.0005635307154280729,
      "loss": 1.7465,
      "step": 14300
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38713428378105164,
      "learning_rate": 0.000563525720614171,
      "loss": 1.8219,
      "step": 14301
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3822877109050751,
      "learning_rate": 0.0005635207254803878,
      "loss": 1.7037,
      "step": 14302
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3889296054840088,
      "learning_rate": 0.0005635157300267292,
      "loss": 1.7194,
      "step": 14303
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37787944078445435,
      "learning_rate": 0.0005635107342532013,
      "loss": 1.765,
      "step": 14304
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3875397741794586,
      "learning_rate": 0.0005635057381598102,
      "loss": 1.7573,
      "step": 14305
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3922363817691803,
      "learning_rate": 0.000563500741746562,
      "loss": 1.6949,
      "step": 14306
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38250184059143066,
      "learning_rate": 0.0005634957450134628,
      "loss": 1.7567,
      "step": 14307
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38126933574676514,
      "learning_rate": 0.0005634907479605185,
      "loss": 1.7084,
      "step": 14308
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3868635892868042,
      "learning_rate": 0.0005634857505877353,
      "loss": 1.7356,
      "step": 14309
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38262245059013367,
      "learning_rate": 0.0005634807528951192,
      "loss": 1.7029,
      "step": 14310
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39873942732810974,
      "learning_rate": 0.0005634757548826761,
      "loss": 1.7452,
      "step": 14311
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3809814155101776,
      "learning_rate": 0.0005634707565504125,
      "loss": 1.7026,
      "step": 14312
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38990509510040283,
      "learning_rate": 0.0005634657578983342,
      "loss": 1.7581,
      "step": 14313
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3752623498439789,
      "learning_rate": 0.0005634607589264473,
      "loss": 1.7303,
      "step": 14314
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37399566173553467,
      "learning_rate": 0.0005634557596347577,
      "loss": 1.7056,
      "step": 14315
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40117478370666504,
      "learning_rate": 0.0005634507600232718,
      "loss": 1.7056,
      "step": 14316
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38549429178237915,
      "learning_rate": 0.0005634457600919954,
      "loss": 1.7701,
      "step": 14317
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38453084230422974,
      "learning_rate": 0.0005634407598409347,
      "loss": 1.7594,
      "step": 14318
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3768341541290283,
      "learning_rate": 0.0005634357592700956,
      "loss": 1.6376,
      "step": 14319
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39386308193206787,
      "learning_rate": 0.0005634307583794845,
      "loss": 1.6763,
      "step": 14320
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39045602083206177,
      "learning_rate": 0.0005634257571691071,
      "loss": 1.781,
      "step": 14321
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3847328722476959,
      "learning_rate": 0.0005634207556389698,
      "loss": 1.7464,
      "step": 14322
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37912052869796753,
      "learning_rate": 0.0005634157537890785,
      "loss": 1.6708,
      "step": 14323
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3798547387123108,
      "learning_rate": 0.0005634107516194393,
      "loss": 1.7147,
      "step": 14324
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3834129273891449,
      "learning_rate": 0.0005634057491300581,
      "loss": 1.7052,
      "step": 14325
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38120654225349426,
      "learning_rate": 0.0005634007463209413,
      "loss": 1.7429,
      "step": 14326
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37679481506347656,
      "learning_rate": 0.0005633957431920947,
      "loss": 1.7595,
      "step": 14327
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38977453112602234,
      "learning_rate": 0.0005633907397435245,
      "loss": 1.7193,
      "step": 14328
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3925880193710327,
      "learning_rate": 0.0005633857359752368,
      "loss": 1.6667,
      "step": 14329
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3824538588523865,
      "learning_rate": 0.0005633807318872376,
      "loss": 1.7447,
      "step": 14330
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37177932262420654,
      "learning_rate": 0.000563375727479533,
      "loss": 1.757,
      "step": 14331
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.386676549911499,
      "learning_rate": 0.000563370722752129,
      "loss": 1.7352,
      "step": 14332
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4137422442436218,
      "learning_rate": 0.0005633657177050318,
      "loss": 1.7323,
      "step": 14333
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4124632775783539,
      "learning_rate": 0.0005633607123382475,
      "loss": 1.8374,
      "step": 14334
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37139979004859924,
      "learning_rate": 0.0005633557066517821,
      "loss": 1.7255,
      "step": 14335
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39319294691085815,
      "learning_rate": 0.0005633507006456416,
      "loss": 1.8093,
      "step": 14336
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4045616090297699,
      "learning_rate": 0.0005633456943198321,
      "loss": 1.8003,
      "step": 14337
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38771823048591614,
      "learning_rate": 0.0005633406876743598,
      "loss": 1.6742,
      "step": 14338
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3659377992153168,
      "learning_rate": 0.0005633356807092307,
      "loss": 1.6409,
      "step": 14339
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40460142493247986,
      "learning_rate": 0.0005633306734244509,
      "loss": 1.6788,
      "step": 14340
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3976312279701233,
      "learning_rate": 0.0005633256658200264,
      "loss": 1.6662,
      "step": 14341
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3731858730316162,
      "learning_rate": 0.0005633206578959635,
      "loss": 1.6274,
      "step": 14342
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3722454905509949,
      "learning_rate": 0.000563315649652268,
      "loss": 1.6322,
      "step": 14343
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4061637818813324,
      "learning_rate": 0.000563310641088946,
      "loss": 1.7988,
      "step": 14344
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3908419907093048,
      "learning_rate": 0.0005633056322060039,
      "loss": 1.696,
      "step": 14345
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3909038007259369,
      "learning_rate": 0.0005633006230034473,
      "loss": 1.7395,
      "step": 14346
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37577033042907715,
      "learning_rate": 0.0005632956134812827,
      "loss": 1.7118,
      "step": 14347
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38451534509658813,
      "learning_rate": 0.000563290603639516,
      "loss": 1.7279,
      "step": 14348
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3806804418563843,
      "learning_rate": 0.0005632855934781533,
      "loss": 1.7177,
      "step": 14349
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3861590027809143,
      "learning_rate": 0.0005632805829972007,
      "loss": 1.6985,
      "step": 14350
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4031967222690582,
      "learning_rate": 0.0005632755721966643,
      "loss": 1.7621,
      "step": 14351
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3920871317386627,
      "learning_rate": 0.0005632705610765501,
      "loss": 1.7628,
      "step": 14352
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39224833250045776,
      "learning_rate": 0.0005632655496368642,
      "loss": 1.7803,
      "step": 14353
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3772560656070709,
      "learning_rate": 0.0005632605378776127,
      "loss": 1.6433,
      "step": 14354
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40397241711616516,
      "learning_rate": 0.0005632555257988018,
      "loss": 1.8063,
      "step": 14355
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3952988386154175,
      "learning_rate": 0.0005632505134004375,
      "loss": 1.7405,
      "step": 14356
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3754515051841736,
      "learning_rate": 0.0005632455006825257,
      "loss": 1.7563,
      "step": 14357
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.35797950625419617,
      "learning_rate": 0.0005632404876450728,
      "loss": 1.7159,
      "step": 14358
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39362600445747375,
      "learning_rate": 0.0005632354742880845,
      "loss": 1.726,
      "step": 14359
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4020668864250183,
      "learning_rate": 0.0005632304606115674,
      "loss": 1.8029,
      "step": 14360
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3706224858760834,
      "learning_rate": 0.0005632254466155271,
      "loss": 1.7734,
      "step": 14361
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.377806693315506,
      "learning_rate": 0.0005632204322999701,
      "loss": 1.7039,
      "step": 14362
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.402070552110672,
      "learning_rate": 0.0005632154176649021,
      "loss": 1.7364,
      "step": 14363
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38674962520599365,
      "learning_rate": 0.0005632104027103295,
      "loss": 1.7276,
      "step": 14364
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37402477860450745,
      "learning_rate": 0.0005632053874362582,
      "loss": 1.7975,
      "step": 14365
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3760932683944702,
      "learning_rate": 0.0005632003718426943,
      "loss": 1.7259,
      "step": 14366
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3786945939064026,
      "learning_rate": 0.0005631953559296439,
      "loss": 1.6252,
      "step": 14367
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3873366713523865,
      "learning_rate": 0.0005631903396971132,
      "loss": 1.7547,
      "step": 14368
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4036075472831726,
      "learning_rate": 0.0005631853231451082,
      "loss": 1.6331,
      "step": 14369
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3610990345478058,
      "learning_rate": 0.000563180306273635,
      "loss": 1.7167,
      "step": 14370
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4245017468929291,
      "learning_rate": 0.0005631752890826996,
      "loss": 1.8354,
      "step": 14371
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3848676085472107,
      "learning_rate": 0.0005631702715723083,
      "loss": 1.7586,
      "step": 14372
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4215989410877228,
      "learning_rate": 0.0005631652537424669,
      "loss": 1.7682,
      "step": 14373
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3826727271080017,
      "learning_rate": 0.0005631602355931817,
      "loss": 1.748,
      "step": 14374
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3908752501010895,
      "learning_rate": 0.0005631552171244589,
      "loss": 1.7102,
      "step": 14375
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3807734549045563,
      "learning_rate": 0.0005631501983363044,
      "loss": 1.7173,
      "step": 14376
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37749093770980835,
      "learning_rate": 0.0005631451792287243,
      "loss": 1.7542,
      "step": 14377
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3744942843914032,
      "learning_rate": 0.0005631401598017246,
      "loss": 1.64,
      "step": 14378
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3781871199607849,
      "learning_rate": 0.0005631351400553117,
      "loss": 1.7422,
      "step": 14379
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40685904026031494,
      "learning_rate": 0.0005631301199894914,
      "loss": 1.8566,
      "step": 14380
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37964141368865967,
      "learning_rate": 0.00056312509960427,
      "loss": 1.7612,
      "step": 14381
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.370900958776474,
      "learning_rate": 0.0005631200788996534,
      "loss": 1.6951,
      "step": 14382
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3934516906738281,
      "learning_rate": 0.0005631150578756478,
      "loss": 1.7652,
      "step": 14383
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39330968260765076,
      "learning_rate": 0.0005631100365322593,
      "loss": 1.7264,
      "step": 14384
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3705329895019531,
      "learning_rate": 0.000563105014869494,
      "loss": 1.6805,
      "step": 14385
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3717726469039917,
      "learning_rate": 0.0005630999928873581,
      "loss": 1.6972,
      "step": 14386
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3740048408508301,
      "learning_rate": 0.0005630949705858574,
      "loss": 1.7021,
      "step": 14387
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.383627712726593,
      "learning_rate": 0.0005630899479649983,
      "loss": 1.7797,
      "step": 14388
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40854600071907043,
      "learning_rate": 0.0005630849250247866,
      "loss": 1.7331,
      "step": 14389
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3827821612358093,
      "learning_rate": 0.0005630799017652288,
      "loss": 1.7248,
      "step": 14390
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3754320740699768,
      "learning_rate": 0.0005630748781863306,
      "loss": 1.7312,
      "step": 14391
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.377128005027771,
      "learning_rate": 0.0005630698542880982,
      "loss": 1.7307,
      "step": 14392
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3776979446411133,
      "learning_rate": 0.0005630648300705379,
      "loss": 1.7503,
      "step": 14393
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3897261619567871,
      "learning_rate": 0.0005630598055336555,
      "loss": 1.7814,
      "step": 14394
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40630578994750977,
      "learning_rate": 0.0005630547806774575,
      "loss": 1.7023,
      "step": 14395
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37832510471343994,
      "learning_rate": 0.0005630497555019494,
      "loss": 1.6888,
      "step": 14396
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3749779164791107,
      "learning_rate": 0.000563044730007138,
      "loss": 1.7342,
      "step": 14397
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3875788748264313,
      "learning_rate": 0.000563039704193029,
      "loss": 1.7057,
      "step": 14398
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3924669027328491,
      "learning_rate": 0.0005630346780596284,
      "loss": 1.7406,
      "step": 14399
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38428163528442383,
      "learning_rate": 0.0005630296516069426,
      "loss": 1.7278,
      "step": 14400
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3702671527862549,
      "learning_rate": 0.0005630246248349775,
      "loss": 1.776,
      "step": 14401
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3940782845020294,
      "learning_rate": 0.0005630195977437392,
      "loss": 1.7438,
      "step": 14402
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38702934980392456,
      "learning_rate": 0.0005630145703332339,
      "loss": 1.7963,
      "step": 14403
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3783845603466034,
      "learning_rate": 0.0005630095426034677,
      "loss": 1.7631,
      "step": 14404
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38448366522789,
      "learning_rate": 0.0005630045145544467,
      "loss": 1.7357,
      "step": 14405
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3817422091960907,
      "learning_rate": 0.0005629994861861768,
      "loss": 1.6675,
      "step": 14406
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.378395140171051,
      "learning_rate": 0.0005629944574986644,
      "loss": 1.723,
      "step": 14407
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4087793827056885,
      "learning_rate": 0.0005629894284919155,
      "loss": 1.7536,
      "step": 14408
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3887313902378082,
      "learning_rate": 0.0005629843991659362,
      "loss": 1.756,
      "step": 14409
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3807443082332611,
      "learning_rate": 0.0005629793695207326,
      "loss": 1.7539,
      "step": 14410
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3668693006038666,
      "learning_rate": 0.0005629743395563106,
      "loss": 1.6733,
      "step": 14411
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3907500207424164,
      "learning_rate": 0.0005629693092726768,
      "loss": 1.7872,
      "step": 14412
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3744346499443054,
      "learning_rate": 0.0005629642786698368,
      "loss": 1.7552,
      "step": 14413
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.44839921593666077,
      "learning_rate": 0.000562959247747797,
      "loss": 1.7598,
      "step": 14414
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6814814805984497,
      "learning_rate": 0.0005629542165065634,
      "loss": 1.6877,
      "step": 14415
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3828423023223877,
      "learning_rate": 0.0005629491849461419,
      "loss": 1.7435,
      "step": 14416
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4469115436077118,
      "learning_rate": 0.000562944153066539,
      "loss": 1.7639,
      "step": 14417
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3983681797981262,
      "learning_rate": 0.0005629391208677607,
      "loss": 1.7888,
      "step": 14418
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.398140013217926,
      "learning_rate": 0.0005629340883498131,
      "loss": 1.7676,
      "step": 14419
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3863081634044647,
      "learning_rate": 0.0005629290555127023,
      "loss": 1.736,
      "step": 14420
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36876362562179565,
      "learning_rate": 0.0005629240223564342,
      "loss": 1.7048,
      "step": 14421
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39100080728530884,
      "learning_rate": 0.0005629189888810151,
      "loss": 1.8133,
      "step": 14422
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3803443908691406,
      "learning_rate": 0.0005629139550864511,
      "loss": 1.7067,
      "step": 14423
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39007568359375,
      "learning_rate": 0.0005629089209727482,
      "loss": 1.716,
      "step": 14424
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36675530672073364,
      "learning_rate": 0.0005629038865399129,
      "loss": 1.7768,
      "step": 14425
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40631407499313354,
      "learning_rate": 0.0005628988517879508,
      "loss": 1.7911,
      "step": 14426
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3822951316833496,
      "learning_rate": 0.0005628938167168683,
      "loss": 1.7126,
      "step": 14427
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39991945028305054,
      "learning_rate": 0.0005628887813266713,
      "loss": 1.7073,
      "step": 14428
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38304656744003296,
      "learning_rate": 0.0005628837456173663,
      "loss": 1.7377,
      "step": 14429
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3823908269405365,
      "learning_rate": 0.0005628787095889589,
      "loss": 1.8016,
      "step": 14430
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38654765486717224,
      "learning_rate": 0.0005628736732414556,
      "loss": 1.7274,
      "step": 14431
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.396526962518692,
      "learning_rate": 0.0005628686365748625,
      "loss": 1.7225,
      "step": 14432
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3809737265110016,
      "learning_rate": 0.0005628635995891855,
      "loss": 1.689,
      "step": 14433
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38738787174224854,
      "learning_rate": 0.0005628585622844308,
      "loss": 1.8353,
      "step": 14434
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4090173542499542,
      "learning_rate": 0.0005628535246606046,
      "loss": 1.7038,
      "step": 14435
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38384199142456055,
      "learning_rate": 0.0005628484867177129,
      "loss": 1.6944,
      "step": 14436
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37593874335289,
      "learning_rate": 0.0005628434484557619,
      "loss": 1.6841,
      "step": 14437
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3787578344345093,
      "learning_rate": 0.0005628384098747576,
      "loss": 1.7187,
      "step": 14438
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.35488131642341614,
      "learning_rate": 0.0005628333709747062,
      "loss": 1.6606,
      "step": 14439
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37085291743278503,
      "learning_rate": 0.000562828331755614,
      "loss": 1.7044,
      "step": 14440
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37146949768066406,
      "learning_rate": 0.0005628232922174868,
      "loss": 1.7638,
      "step": 14441
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38383129239082336,
      "learning_rate": 0.0005628182523603309,
      "loss": 1.7562,
      "step": 14442
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3798311948776245,
      "learning_rate": 0.0005628132121841522,
      "loss": 1.7124,
      "step": 14443
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38423237204551697,
      "learning_rate": 0.0005628081716889573,
      "loss": 1.7753,
      "step": 14444
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39359205961227417,
      "learning_rate": 0.0005628031308747517,
      "loss": 1.767,
      "step": 14445
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3727343678474426,
      "learning_rate": 0.000562798089741542,
      "loss": 1.6589,
      "step": 14446
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38356587290763855,
      "learning_rate": 0.000562793048289334,
      "loss": 1.8072,
      "step": 14447
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38340964913368225,
      "learning_rate": 0.0005627880065181341,
      "loss": 1.7023,
      "step": 14448
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38949713110923767,
      "learning_rate": 0.0005627829644279482,
      "loss": 1.7358,
      "step": 14449
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3775040805339813,
      "learning_rate": 0.0005627779220187825,
      "loss": 1.7603,
      "step": 14450
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.375230073928833,
      "learning_rate": 0.0005627728792906431,
      "loss": 1.739,
      "step": 14451
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3763592839241028,
      "learning_rate": 0.0005627678362435363,
      "loss": 1.7518,
      "step": 14452
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37262243032455444,
      "learning_rate": 0.0005627627928774679,
      "loss": 1.6982,
      "step": 14453
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3985709249973297,
      "learning_rate": 0.0005627577491924442,
      "loss": 1.7987,
      "step": 14454
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38069337606430054,
      "learning_rate": 0.0005627527051884713,
      "loss": 1.7954,
      "step": 14455
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3834996819496155,
      "learning_rate": 0.0005627476608655554,
      "loss": 1.6422,
      "step": 14456
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3691694140434265,
      "learning_rate": 0.0005627426162237026,
      "loss": 1.6659,
      "step": 14457
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3893294334411621,
      "learning_rate": 0.0005627375712629188,
      "loss": 1.7345,
      "step": 14458
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3950870633125305,
      "learning_rate": 0.0005627325259832104,
      "loss": 1.8008,
      "step": 14459
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39465227723121643,
      "learning_rate": 0.0005627274803845834,
      "loss": 1.6673,
      "step": 14460
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.42446547746658325,
      "learning_rate": 0.000562722434467044,
      "loss": 1.7493,
      "step": 14461
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.386307030916214,
      "learning_rate": 0.0005627173882305983,
      "loss": 1.7169,
      "step": 14462
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4013460576534271,
      "learning_rate": 0.0005627123416752523,
      "loss": 1.72,
      "step": 14463
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3907359838485718,
      "learning_rate": 0.0005627072948010122,
      "loss": 1.7374,
      "step": 14464
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3842586576938629,
      "learning_rate": 0.0005627022476078843,
      "loss": 1.7664,
      "step": 14465
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3776841163635254,
      "learning_rate": 0.0005626972000958745,
      "loss": 1.7323,
      "step": 14466
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3861682713031769,
      "learning_rate": 0.000562692152264989,
      "loss": 1.8069,
      "step": 14467
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3900402784347534,
      "learning_rate": 0.000562687104115234,
      "loss": 1.7247,
      "step": 14468
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3704920709133148,
      "learning_rate": 0.0005626820556466155,
      "loss": 1.6301,
      "step": 14469
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38017407059669495,
      "learning_rate": 0.0005626770068591397,
      "loss": 1.7323,
      "step": 14470
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3864573836326599,
      "learning_rate": 0.0005626719577528127,
      "loss": 1.668,
      "step": 14471
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38921239972114563,
      "learning_rate": 0.0005626669083276407,
      "loss": 1.7367,
      "step": 14472
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4199172854423523,
      "learning_rate": 0.0005626618585836296,
      "loss": 1.7252,
      "step": 14473
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38595911860466003,
      "learning_rate": 0.0005626568085207859,
      "loss": 1.8074,
      "step": 14474
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3879970610141754,
      "learning_rate": 0.0005626517581391155,
      "loss": 1.8021,
      "step": 14475
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37870925664901733,
      "learning_rate": 0.0005626467074386245,
      "loss": 1.7413,
      "step": 14476
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39067786931991577,
      "learning_rate": 0.0005626416564193191,
      "loss": 1.7529,
      "step": 14477
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3749414086341858,
      "learning_rate": 0.0005626366050812056,
      "loss": 1.6294,
      "step": 14478
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3744274079799652,
      "learning_rate": 0.0005626315534242898,
      "loss": 1.704,
      "step": 14479
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37297239899635315,
      "learning_rate": 0.000562626501448578,
      "loss": 1.7641,
      "step": 14480
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3791567087173462,
      "learning_rate": 0.0005626214491540763,
      "loss": 1.7406,
      "step": 14481
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38763201236724854,
      "learning_rate": 0.0005626163965407909,
      "loss": 1.7458,
      "step": 14482
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3793034255504608,
      "learning_rate": 0.0005626113436087279,
      "loss": 1.7021,
      "step": 14483
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3764682412147522,
      "learning_rate": 0.0005626062903578933,
      "loss": 1.7703,
      "step": 14484
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37567073106765747,
      "learning_rate": 0.0005626012367882935,
      "loss": 1.7754,
      "step": 14485
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3792252838611603,
      "learning_rate": 0.0005625961828999344,
      "loss": 1.7308,
      "step": 14486
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3842249810695648,
      "learning_rate": 0.0005625911286928223,
      "loss": 1.7217,
      "step": 14487
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3765144944190979,
      "learning_rate": 0.0005625860741669633,
      "loss": 1.7598,
      "step": 14488
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3792826533317566,
      "learning_rate": 0.0005625810193223634,
      "loss": 1.7773,
      "step": 14489
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3876287639141083,
      "learning_rate": 0.0005625759641590289,
      "loss": 1.7363,
      "step": 14490
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3790959417819977,
      "learning_rate": 0.0005625709086769658,
      "loss": 1.7985,
      "step": 14491
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3922795057296753,
      "learning_rate": 0.0005625658528761804,
      "loss": 1.6769,
      "step": 14492
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37759843468666077,
      "learning_rate": 0.0005625607967566787,
      "loss": 1.7095,
      "step": 14493
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3656197190284729,
      "learning_rate": 0.0005625557403184669,
      "loss": 1.6273,
      "step": 14494
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.388189435005188,
      "learning_rate": 0.000562550683561551,
      "loss": 1.7269,
      "step": 14495
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37632516026496887,
      "learning_rate": 0.0005625456264859373,
      "loss": 1.6985,
      "step": 14496
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38619065284729004,
      "learning_rate": 0.0005625405690916319,
      "loss": 1.6304,
      "step": 14497
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38167351484298706,
      "learning_rate": 0.000562535511378641,
      "loss": 1.7167,
      "step": 14498
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3751239776611328,
      "learning_rate": 0.0005625304533469706,
      "loss": 1.7292,
      "step": 14499
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.408699631690979,
      "learning_rate": 0.000562525394996627,
      "loss": 1.7274,
      "step": 14500
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39902108907699585,
      "learning_rate": 0.0005625203363276162,
      "loss": 1.7685,
      "step": 14501
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3660614788532257,
      "learning_rate": 0.0005625152773399444,
      "loss": 1.6341,
      "step": 14502
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38722261786460876,
      "learning_rate": 0.0005625102180336178,
      "loss": 1.6925,
      "step": 14503
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4019911289215088,
      "learning_rate": 0.0005625051584086424,
      "loss": 1.727,
      "step": 14504
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38950029015541077,
      "learning_rate": 0.0005625000984650243,
      "loss": 1.7083,
      "step": 14505
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3794737160205841,
      "learning_rate": 0.0005624950382027698,
      "loss": 1.7754,
      "step": 14506
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37173792719841003,
      "learning_rate": 0.0005624899776218851,
      "loss": 1.6208,
      "step": 14507
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3750113546848297,
      "learning_rate": 0.0005624849167223762,
      "loss": 1.6872,
      "step": 14508
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38500505685806274,
      "learning_rate": 0.0005624798555042494,
      "loss": 1.8184,
      "step": 14509
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38697707653045654,
      "learning_rate": 0.0005624747939675105,
      "loss": 1.7895,
      "step": 14510
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37555786967277527,
      "learning_rate": 0.0005624697321121661,
      "loss": 1.7327,
      "step": 14511
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39095982909202576,
      "learning_rate": 0.0005624646699382219,
      "loss": 1.7878,
      "step": 14512
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4628593623638153,
      "learning_rate": 0.0005624596074456845,
      "loss": 1.7888,
      "step": 14513
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.377774715423584,
      "learning_rate": 0.0005624545446345597,
      "loss": 1.6527,
      "step": 14514
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40336573123931885,
      "learning_rate": 0.0005624494815048537,
      "loss": 1.7208,
      "step": 14515
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39046749472618103,
      "learning_rate": 0.0005624444180565728,
      "loss": 1.7416,
      "step": 14516
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3821451961994171,
      "learning_rate": 0.000562439354289723,
      "loss": 1.7577,
      "step": 14517
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39628610014915466,
      "learning_rate": 0.0005624342902043105,
      "loss": 1.7747,
      "step": 14518
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3995881974697113,
      "learning_rate": 0.0005624292258003413,
      "loss": 1.6871,
      "step": 14519
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.40982139110565186,
      "learning_rate": 0.0005624241610778218,
      "loss": 1.7862,
      "step": 14520
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3738548457622528,
      "learning_rate": 0.0005624190960367581,
      "loss": 1.7347,
      "step": 14521
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3980070948600769,
      "learning_rate": 0.0005624140306771562,
      "loss": 1.7467,
      "step": 14522
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38394415378570557,
      "learning_rate": 0.0005624089649990224,
      "loss": 1.7549,
      "step": 14523
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3716059625148773,
      "learning_rate": 0.0005624038990023628,
      "loss": 1.768,
      "step": 14524
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3861074447631836,
      "learning_rate": 0.0005623988326871834,
      "loss": 1.8133,
      "step": 14525
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.36958181858062744,
      "learning_rate": 0.0005623937660534905,
      "loss": 1.7064,
      "step": 14526
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3785509765148163,
      "learning_rate": 0.0005623886991012903,
      "loss": 1.7164,
      "step": 14527
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37221476435661316,
      "learning_rate": 0.0005623836318305889,
      "loss": 1.7597,
      "step": 14528
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3886377215385437,
      "learning_rate": 0.0005623785642413923,
      "loss": 1.7712,
      "step": 14529
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3826204240322113,
      "learning_rate": 0.000562373496333707,
      "loss": 1.6788,
      "step": 14530
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37401387095451355,
      "learning_rate": 0.0005623684281075387,
      "loss": 1.6934,
      "step": 14531
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37428373098373413,
      "learning_rate": 0.000562363359562894,
      "loss": 1.6704,
      "step": 14532
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3740077018737793,
      "learning_rate": 0.0005623582906997787,
      "loss": 1.722,
      "step": 14533
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38716188073158264,
      "learning_rate": 0.0005623532215181992,
      "loss": 1.7412,
      "step": 14534
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38945475220680237,
      "learning_rate": 0.0005623481520181615,
      "loss": 1.7433,
      "step": 14535
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3788214325904846,
      "learning_rate": 0.0005623430821996717,
      "loss": 1.7711,
      "step": 14536
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38190215826034546,
      "learning_rate": 0.0005623380120627361,
      "loss": 1.7395,
      "step": 14537
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3941393792629242,
      "learning_rate": 0.0005623329416073609,
      "loss": 1.7577,
      "step": 14538
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3740971088409424,
      "learning_rate": 0.0005623278708335521,
      "loss": 1.7283,
      "step": 14539
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37689444422721863,
      "learning_rate": 0.0005623227997413158,
      "loss": 1.6981,
      "step": 14540
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3768615126609802,
      "learning_rate": 0.0005623177283306584,
      "loss": 1.6789,
      "step": 14541
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4070742428302765,
      "learning_rate": 0.000562312656601586,
      "loss": 1.756,
      "step": 14542
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3823898732662201,
      "learning_rate": 0.0005623075845541045,
      "loss": 1.6656,
      "step": 14543
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37835589051246643,
      "learning_rate": 0.0005623025121882203,
      "loss": 1.765,
      "step": 14544
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37355539202690125,
      "learning_rate": 0.0005622974395039395,
      "loss": 1.7791,
      "step": 14545
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3879879117012024,
      "learning_rate": 0.0005622923665012684,
      "loss": 1.7738,
      "step": 14546
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3742954134941101,
      "learning_rate": 0.0005622872931802129,
      "loss": 1.6949,
      "step": 14547
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3788241147994995,
      "learning_rate": 0.0005622822195407793,
      "loss": 1.7542,
      "step": 14548
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3767467439174652,
      "learning_rate": 0.0005622771455829737,
      "loss": 1.7818,
      "step": 14549
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37966760993003845,
      "learning_rate": 0.0005622720713068022,
      "loss": 1.751,
      "step": 14550
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39209598302841187,
      "learning_rate": 0.0005622669967122713,
      "loss": 1.7044,
      "step": 14551
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3866672217845917,
      "learning_rate": 0.0005622619217993867,
      "loss": 1.7686,
      "step": 14552
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3766188323497772,
      "learning_rate": 0.0005622568465681548,
      "loss": 1.7145,
      "step": 14553
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3965038061141968,
      "learning_rate": 0.0005622517710185817,
      "loss": 1.6896,
      "step": 14554
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3982571065425873,
      "learning_rate": 0.0005622466951506738,
      "loss": 1.6927,
      "step": 14555
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38799169659614563,
      "learning_rate": 0.0005622416189644368,
      "loss": 1.8021,
      "step": 14556
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37619924545288086,
      "learning_rate": 0.0005622365424598773,
      "loss": 1.6327,
      "step": 14557
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3775681257247925,
      "learning_rate": 0.0005622314656370011,
      "loss": 1.7146,
      "step": 14558
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3824393153190613,
      "learning_rate": 0.0005622263884958146,
      "loss": 1.6833,
      "step": 14559
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39675819873809814,
      "learning_rate": 0.000562221311036324,
      "loss": 1.6904,
      "step": 14560
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37496837973594666,
      "learning_rate": 0.0005622162332585352,
      "loss": 1.7679,
      "step": 14561
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39824143052101135,
      "learning_rate": 0.0005622111551624547,
      "loss": 1.7446,
      "step": 14562
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4387512505054474,
      "learning_rate": 0.0005622060767480885,
      "loss": 1.7426,
      "step": 14563
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37859606742858887,
      "learning_rate": 0.0005622009980154426,
      "loss": 1.6912,
      "step": 14564
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3885937035083771,
      "learning_rate": 0.0005621959189645233,
      "loss": 1.7581,
      "step": 14565
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38403552770614624,
      "learning_rate": 0.000562190839595337,
      "loss": 1.7857,
      "step": 14566
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3993646502494812,
      "learning_rate": 0.0005621857599078895,
      "loss": 1.7767,
      "step": 14567
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37841683626174927,
      "learning_rate": 0.0005621806799021872,
      "loss": 1.7423,
      "step": 14568
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.405102014541626,
      "learning_rate": 0.0005621755995782361,
      "loss": 1.704,
      "step": 14569
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3902561068534851,
      "learning_rate": 0.0005621705189360424,
      "loss": 1.7202,
      "step": 14570
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3841707408428192,
      "learning_rate": 0.0005621654379756125,
      "loss": 1.658,
      "step": 14571
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37108996510505676,
      "learning_rate": 0.0005621603566969523,
      "loss": 1.7785,
      "step": 14572
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.37826451659202576,
      "learning_rate": 0.000562155275100068,
      "loss": 1.7753,
      "step": 14573
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.39065372943878174,
      "learning_rate": 0.0005621501931849659,
      "loss": 1.7695,
      "step": 14574
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3961462080478668,
      "learning_rate": 0.0005621451109516521,
      "loss": 1.7464,
      "step": 14575
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3948286473751068,
      "learning_rate": 0.0005621400284001327,
      "loss": 1.6648,
      "step": 14576
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.38131290674209595,
      "learning_rate": 0.000562134945530414,
      "loss": 1.7424,
      "step": 14577
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3828703463077545,
      "learning_rate": 0.000562129862342502,
      "loss": 1.8166,
      "step": 14578
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3791944086551666,
      "learning_rate": 0.000562124778836403,
      "loss": 1.6399,
      "step": 14579
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38074108958244324,
      "learning_rate": 0.0005621196950121232,
      "loss": 1.7416,
      "step": 14580
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37958860397338867,
      "learning_rate": 0.0005621146108696687,
      "loss": 1.7953,
      "step": 14581
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3901735246181488,
      "learning_rate": 0.0005621095264090456,
      "loss": 1.755,
      "step": 14582
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.45290428400039673,
      "learning_rate": 0.0005621044416302603,
      "loss": 1.7143,
      "step": 14583
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3798810839653015,
      "learning_rate": 0.0005620993565333188,
      "loss": 1.7483,
      "step": 14584
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3742174506187439,
      "learning_rate": 0.0005620942711182271,
      "loss": 1.7618,
      "step": 14585
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36808598041534424,
      "learning_rate": 0.0005620891853849919,
      "loss": 1.7361,
      "step": 14586
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.386083722114563,
      "learning_rate": 0.0005620840993336187,
      "loss": 1.6658,
      "step": 14587
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3682371973991394,
      "learning_rate": 0.0005620790129641142,
      "loss": 1.707,
      "step": 14588
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39351511001586914,
      "learning_rate": 0.0005620739262764844,
      "loss": 1.7391,
      "step": 14589
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3806869685649872,
      "learning_rate": 0.0005620688392707355,
      "loss": 1.7301,
      "step": 14590
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37324613332748413,
      "learning_rate": 0.0005620637519468735,
      "loss": 1.6711,
      "step": 14591
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39560043811798096,
      "learning_rate": 0.0005620586643049048,
      "loss": 1.7777,
      "step": 14592
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3829690217971802,
      "learning_rate": 0.0005620535763448355,
      "loss": 1.6832,
      "step": 14593
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.385384738445282,
      "learning_rate": 0.0005620484880666718,
      "loss": 1.809,
      "step": 14594
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3770767152309418,
      "learning_rate": 0.0005620433994704199,
      "loss": 1.6699,
      "step": 14595
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38648855686187744,
      "learning_rate": 0.0005620383105560858,
      "loss": 1.7456,
      "step": 14596
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3757234513759613,
      "learning_rate": 0.0005620332213236757,
      "loss": 1.6505,
      "step": 14597
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37382346391677856,
      "learning_rate": 0.0005620281317731961,
      "loss": 1.7345,
      "step": 14598
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3830808103084564,
      "learning_rate": 0.0005620230419046529,
      "loss": 1.7328,
      "step": 14599
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3733597993850708,
      "learning_rate": 0.0005620179517180524,
      "loss": 1.6892,
      "step": 14600
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37291088700294495,
      "learning_rate": 0.0005620128612134006,
      "loss": 1.6825,
      "step": 14601
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3888923227787018,
      "learning_rate": 0.0005620077703907037,
      "loss": 1.755,
      "step": 14602
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3841201066970825,
      "learning_rate": 0.0005620026792499682,
      "loss": 1.6894,
      "step": 14603
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3810271918773651,
      "learning_rate": 0.0005619975877911998,
      "loss": 1.7366,
      "step": 14604
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39332589507102966,
      "learning_rate": 0.0005619924960144051,
      "loss": 1.7141,
      "step": 14605
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3818961977958679,
      "learning_rate": 0.0005619874039195901,
      "loss": 1.7486,
      "step": 14606
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3886212110519409,
      "learning_rate": 0.000561982311506761,
      "loss": 1.6943,
      "step": 14607
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37886765599250793,
      "learning_rate": 0.0005619772187759239,
      "loss": 1.7629,
      "step": 14608
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37646904587745667,
      "learning_rate": 0.0005619721257270852,
      "loss": 1.677,
      "step": 14609
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39000213146209717,
      "learning_rate": 0.0005619670323602508,
      "loss": 1.7071,
      "step": 14610
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37290433049201965,
      "learning_rate": 0.000561961938675427,
      "loss": 1.679,
      "step": 14611
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38702014088630676,
      "learning_rate": 0.0005619568446726201,
      "loss": 1.7749,
      "step": 14612
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3874991238117218,
      "learning_rate": 0.0005619517503518362,
      "loss": 1.7283,
      "step": 14613
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39072519540786743,
      "learning_rate": 0.0005619466557130814,
      "loss": 1.7784,
      "step": 14614
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3696643114089966,
      "learning_rate": 0.0005619415607563621,
      "loss": 1.717,
      "step": 14615
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4108906686306,
      "learning_rate": 0.0005619364654816841,
      "loss": 1.8558,
      "step": 14616
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37257617712020874,
      "learning_rate": 0.000561931369889054,
      "loss": 1.7443,
      "step": 14617
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38482561707496643,
      "learning_rate": 0.0005619262739784777,
      "loss": 1.7496,
      "step": 14618
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3929978907108307,
      "learning_rate": 0.0005619211777499616,
      "loss": 1.722,
      "step": 14619
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38536226749420166,
      "learning_rate": 0.0005619160812035118,
      "loss": 1.7284,
      "step": 14620
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39778172969818115,
      "learning_rate": 0.0005619109843391344,
      "loss": 1.7787,
      "step": 14621
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38753190636634827,
      "learning_rate": 0.0005619058871568356,
      "loss": 1.6213,
      "step": 14622
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3796980679035187,
      "learning_rate": 0.0005619007896566218,
      "loss": 1.7124,
      "step": 14623
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38240745663642883,
      "learning_rate": 0.0005618956918384989,
      "loss": 1.6782,
      "step": 14624
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38934189081192017,
      "learning_rate": 0.0005618905937024733,
      "loss": 1.7373,
      "step": 14625
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3902410566806793,
      "learning_rate": 0.000561885495248551,
      "loss": 1.8177,
      "step": 14626
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39608898758888245,
      "learning_rate": 0.0005618803964767384,
      "loss": 1.755,
      "step": 14627
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.378536194562912,
      "learning_rate": 0.0005618752973870415,
      "loss": 1.6792,
      "step": 14628
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4008771479129791,
      "learning_rate": 0.0005618701979794666,
      "loss": 1.7835,
      "step": 14629
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37585464119911194,
      "learning_rate": 0.00056186509825402,
      "loss": 1.7026,
      "step": 14630
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36825957894325256,
      "learning_rate": 0.0005618599982107076,
      "loss": 1.7258,
      "step": 14631
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38953301310539246,
      "learning_rate": 0.0005618548978495358,
      "loss": 1.7474,
      "step": 14632
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4037761688232422,
      "learning_rate": 0.0005618497971705107,
      "loss": 1.7464,
      "step": 14633
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38965773582458496,
      "learning_rate": 0.0005618446961736386,
      "loss": 1.7717,
      "step": 14634
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37636715173721313,
      "learning_rate": 0.0005618395948589256,
      "loss": 1.7551,
      "step": 14635
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38117069005966187,
      "learning_rate": 0.0005618344932263778,
      "loss": 1.7436,
      "step": 14636
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3823303282260895,
      "learning_rate": 0.0005618293912760016,
      "loss": 1.7165,
      "step": 14637
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3802711069583893,
      "learning_rate": 0.0005618242890078031,
      "loss": 1.7382,
      "step": 14638
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37596386671066284,
      "learning_rate": 0.0005618191864217885,
      "loss": 1.7591,
      "step": 14639
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37466496229171753,
      "learning_rate": 0.000561814083517964,
      "loss": 1.7424,
      "step": 14640
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39048099517822266,
      "learning_rate": 0.0005618089802963358,
      "loss": 1.7749,
      "step": 14641
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3686189651489258,
      "learning_rate": 0.00056180387675691,
      "loss": 1.7401,
      "step": 14642
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38479742407798767,
      "learning_rate": 0.0005617987728996928,
      "loss": 1.8132,
      "step": 14643
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3917916715145111,
      "learning_rate": 0.0005617936687246905,
      "loss": 1.735,
      "step": 14644
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3726262152194977,
      "learning_rate": 0.0005617885642319094,
      "loss": 1.7558,
      "step": 14645
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37328681349754333,
      "learning_rate": 0.0005617834594213554,
      "loss": 1.7883,
      "step": 14646
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36926305294036865,
      "learning_rate": 0.0005617783542930349,
      "loss": 1.7379,
      "step": 14647
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3758533000946045,
      "learning_rate": 0.0005617732488469541,
      "loss": 1.6423,
      "step": 14648
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3728410601615906,
      "learning_rate": 0.0005617681430831192,
      "loss": 1.7723,
      "step": 14649
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37273865938186646,
      "learning_rate": 0.0005617630370015361,
      "loss": 1.7867,
      "step": 14650
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3862560987472534,
      "learning_rate": 0.0005617579306022115,
      "loss": 1.7257,
      "step": 14651
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3833239674568176,
      "learning_rate": 0.0005617528238851512,
      "loss": 1.7283,
      "step": 14652
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38417914509773254,
      "learning_rate": 0.0005617477168503615,
      "loss": 1.7401,
      "step": 14653
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3755476474761963,
      "learning_rate": 0.0005617426094978487,
      "loss": 1.6393,
      "step": 14654
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3743498623371124,
      "learning_rate": 0.000561737501827619,
      "loss": 1.7286,
      "step": 14655
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38401705026626587,
      "learning_rate": 0.0005617323938396785,
      "loss": 1.7035,
      "step": 14656
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3815425634384155,
      "learning_rate": 0.0005617272855340335,
      "loss": 1.6879,
      "step": 14657
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38865724205970764,
      "learning_rate": 0.00056172217691069,
      "loss": 1.7572,
      "step": 14658
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37717822194099426,
      "learning_rate": 0.0005617170679696544,
      "loss": 1.7698,
      "step": 14659
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3878728151321411,
      "learning_rate": 0.0005617119587109329,
      "loss": 1.7752,
      "step": 14660
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39161983132362366,
      "learning_rate": 0.0005617068491345316,
      "loss": 1.8159,
      "step": 14661
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37412503361701965,
      "learning_rate": 0.0005617017392404568,
      "loss": 1.7942,
      "step": 14662
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38548266887664795,
      "learning_rate": 0.0005616966290287145,
      "loss": 1.8149,
      "step": 14663
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3858685791492462,
      "learning_rate": 0.0005616915184993112,
      "loss": 1.7286,
      "step": 14664
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3774297535419464,
      "learning_rate": 0.0005616864076522529,
      "loss": 1.7034,
      "step": 14665
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.40475350618362427,
      "learning_rate": 0.0005616812964875459,
      "loss": 1.7365,
      "step": 14666
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3855557143688202,
      "learning_rate": 0.0005616761850051963,
      "loss": 1.7462,
      "step": 14667
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.426448255777359,
      "learning_rate": 0.0005616710732052104,
      "loss": 1.7826,
      "step": 14668
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36785513162612915,
      "learning_rate": 0.0005616659610875942,
      "loss": 1.6906,
      "step": 14669
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37922653555870056,
      "learning_rate": 0.0005616608486523543,
      "loss": 1.7351,
      "step": 14670
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3827630579471588,
      "learning_rate": 0.0005616557358994967,
      "loss": 1.7551,
      "step": 14671
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39388906955718994,
      "learning_rate": 0.0005616506228290274,
      "loss": 1.8254,
      "step": 14672
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37721168994903564,
      "learning_rate": 0.000561645509440953,
      "loss": 1.7488,
      "step": 14673
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3872625529766083,
      "learning_rate": 0.0005616403957352794,
      "loss": 1.8008,
      "step": 14674
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3704710602760315,
      "learning_rate": 0.000561635281712013,
      "loss": 1.7117,
      "step": 14675
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39503762125968933,
      "learning_rate": 0.0005616301673711597,
      "loss": 1.7578,
      "step": 14676
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3684786260128021,
      "learning_rate": 0.0005616250527127262,
      "loss": 1.6804,
      "step": 14677
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3927682936191559,
      "learning_rate": 0.0005616199377367182,
      "loss": 1.7874,
      "step": 14678
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3802717626094818,
      "learning_rate": 0.0005616148224431422,
      "loss": 1.7267,
      "step": 14679
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38161757588386536,
      "learning_rate": 0.0005616097068320044,
      "loss": 1.7736,
      "step": 14680
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3705332577228546,
      "learning_rate": 0.000561604590903311,
      "loss": 1.7343,
      "step": 14681
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37666258215904236,
      "learning_rate": 0.0005615994746570681,
      "loss": 1.7217,
      "step": 14682
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3781706988811493,
      "learning_rate": 0.000561594358093282,
      "loss": 1.7644,
      "step": 14683
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3732435405254364,
      "learning_rate": 0.000561589241211959,
      "loss": 1.669,
      "step": 14684
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39318880438804626,
      "learning_rate": 0.0005615841240131051,
      "loss": 1.7365,
      "step": 14685
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3707874119281769,
      "learning_rate": 0.0005615790064967265,
      "loss": 1.6921,
      "step": 14686
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3691747188568115,
      "learning_rate": 0.0005615738886628297,
      "loss": 1.6838,
      "step": 14687
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38568323850631714,
      "learning_rate": 0.0005615687705114208,
      "loss": 1.7934,
      "step": 14688
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38425755500793457,
      "learning_rate": 0.0005615636520425058,
      "loss": 1.707,
      "step": 14689
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37597936391830444,
      "learning_rate": 0.0005615585332560911,
      "loss": 1.7806,
      "step": 14690
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3812475800514221,
      "learning_rate": 0.0005615534141521828,
      "loss": 1.7501,
      "step": 14691
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37923115491867065,
      "learning_rate": 0.0005615482947307873,
      "loss": 1.7162,
      "step": 14692
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37199458479881287,
      "learning_rate": 0.0005615431749919108,
      "loss": 1.7417,
      "step": 14693
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37518200278282166,
      "learning_rate": 0.0005615380549355592,
      "loss": 1.7303,
      "step": 14694
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3724151849746704,
      "learning_rate": 0.0005615329345617391,
      "loss": 1.772,
      "step": 14695
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38598334789276123,
      "learning_rate": 0.0005615278138704565,
      "loss": 1.7738,
      "step": 14696
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3753562867641449,
      "learning_rate": 0.0005615226928617177,
      "loss": 1.6875,
      "step": 14697
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.388654887676239,
      "learning_rate": 0.0005615175715355288,
      "loss": 1.7329,
      "step": 14698
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37771591544151306,
      "learning_rate": 0.0005615124498918962,
      "loss": 1.7553,
      "step": 14699
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3912130892276764,
      "learning_rate": 0.000561507327930826,
      "loss": 1.7997,
      "step": 14700
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37425532937049866,
      "learning_rate": 0.0005615022056523243,
      "loss": 1.7546,
      "step": 14701
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3869621455669403,
      "learning_rate": 0.0005614970830563977,
      "loss": 1.8276,
      "step": 14702
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.40604281425476074,
      "learning_rate": 0.000561491960143052,
      "loss": 1.7172,
      "step": 14703
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39082565903663635,
      "learning_rate": 0.0005614868369122935,
      "loss": 1.7288,
      "step": 14704
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3754068911075592,
      "learning_rate": 0.0005614817133641288,
      "loss": 1.7246,
      "step": 14705
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3879134953022003,
      "learning_rate": 0.0005614765894985636,
      "loss": 1.7265,
      "step": 14706
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3848179876804352,
      "learning_rate": 0.0005614714653156044,
      "loss": 1.6794,
      "step": 14707
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3738006353378296,
      "learning_rate": 0.0005614663408152574,
      "loss": 1.7292,
      "step": 14708
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38080936670303345,
      "learning_rate": 0.0005614612159975288,
      "loss": 1.7185,
      "step": 14709
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3816664218902588,
      "learning_rate": 0.0005614560908624248,
      "loss": 1.7478,
      "step": 14710
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38743504881858826,
      "learning_rate": 0.0005614509654099515,
      "loss": 1.7438,
      "step": 14711
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3694975674152374,
      "learning_rate": 0.0005614458396401154,
      "loss": 1.7822,
      "step": 14712
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3691653907299042,
      "learning_rate": 0.0005614407135529226,
      "loss": 1.7511,
      "step": 14713
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3852972984313965,
      "learning_rate": 0.0005614355871483792,
      "loss": 1.8112,
      "step": 14714
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3847023844718933,
      "learning_rate": 0.0005614304604264914,
      "loss": 1.7591,
      "step": 14715
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3876236379146576,
      "learning_rate": 0.0005614253333872658,
      "loss": 1.7459,
      "step": 14716
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3749655783176422,
      "learning_rate": 0.0005614202060307082,
      "loss": 1.7419,
      "step": 14717
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3995065689086914,
      "learning_rate": 0.000561415078356825,
      "loss": 1.7032,
      "step": 14718
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37200695276260376,
      "learning_rate": 0.0005614099503656225,
      "loss": 1.7486,
      "step": 14719
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3835565447807312,
      "learning_rate": 0.0005614048220571068,
      "loss": 1.7867,
      "step": 14720
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39316827058792114,
      "learning_rate": 0.000561399693431284,
      "loss": 1.7341,
      "step": 14721
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4001889228820801,
      "learning_rate": 0.0005613945644881607,
      "loss": 1.7217,
      "step": 14722
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3753551244735718,
      "learning_rate": 0.0005613894352277429,
      "loss": 1.7126,
      "step": 14723
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37078431248664856,
      "learning_rate": 0.0005613843056500367,
      "loss": 1.7131,
      "step": 14724
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.387849897146225,
      "learning_rate": 0.0005613791757550486,
      "loss": 1.7483,
      "step": 14725
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38552454113960266,
      "learning_rate": 0.0005613740455427846,
      "loss": 1.7791,
      "step": 14726
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3866642117500305,
      "learning_rate": 0.0005613689150132511,
      "loss": 1.763,
      "step": 14727
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.373663991689682,
      "learning_rate": 0.0005613637841664542,
      "loss": 1.7053,
      "step": 14728
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3916966915130615,
      "learning_rate": 0.0005613586530024002,
      "loss": 1.7547,
      "step": 14729
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.366017609834671,
      "learning_rate": 0.0005613535215210953,
      "loss": 1.7313,
      "step": 14730
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38287580013275146,
      "learning_rate": 0.0005613483897225457,
      "loss": 1.6874,
      "step": 14731
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38086074590682983,
      "learning_rate": 0.0005613432576067577,
      "loss": 1.7648,
      "step": 14732
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3844485580921173,
      "learning_rate": 0.0005613381251737375,
      "loss": 1.6611,
      "step": 14733
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3807888627052307,
      "learning_rate": 0.0005613329924234913,
      "loss": 1.7003,
      "step": 14734
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3905947804450989,
      "learning_rate": 0.0005613278593560254,
      "loss": 1.7386,
      "step": 14735
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37085098028182983,
      "learning_rate": 0.0005613227259713459,
      "loss": 1.7275,
      "step": 14736
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3877548277378082,
      "learning_rate": 0.0005613175922694592,
      "loss": 1.8191,
      "step": 14737
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3789450228214264,
      "learning_rate": 0.0005613124582503714,
      "loss": 1.775,
      "step": 14738
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.390789270401001,
      "learning_rate": 0.0005613073239140887,
      "loss": 1.7286,
      "step": 14739
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38665422797203064,
      "learning_rate": 0.0005613021892606176,
      "loss": 1.7368,
      "step": 14740
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36786749958992004,
      "learning_rate": 0.0005612970542899639,
      "loss": 1.7153,
      "step": 14741
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39760521054267883,
      "learning_rate": 0.0005612919190021343,
      "loss": 1.7133,
      "step": 14742
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36955276131629944,
      "learning_rate": 0.0005612867833971346,
      "loss": 1.6924,
      "step": 14743
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3863452970981598,
      "learning_rate": 0.0005612816474749715,
      "loss": 1.7237,
      "step": 14744
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3940301239490509,
      "learning_rate": 0.0005612765112356508,
      "loss": 1.8043,
      "step": 14745
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3696804940700531,
      "learning_rate": 0.0005612713746791789,
      "loss": 1.689,
      "step": 14746
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37698400020599365,
      "learning_rate": 0.0005612662378055622,
      "loss": 1.7059,
      "step": 14747
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3987741470336914,
      "learning_rate": 0.0005612611006148066,
      "loss": 1.8135,
      "step": 14748
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4059872627258301,
      "learning_rate": 0.0005612559631069186,
      "loss": 1.8305,
      "step": 14749
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3855651319026947,
      "learning_rate": 0.0005612508252819043,
      "loss": 1.7261,
      "step": 14750
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38177937269210815,
      "learning_rate": 0.0005612456871397701,
      "loss": 1.8141,
      "step": 14751
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39133399724960327,
      "learning_rate": 0.0005612405486805221,
      "loss": 1.6908,
      "step": 14752
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3770521879196167,
      "learning_rate": 0.0005612354099041665,
      "loss": 1.7312,
      "step": 14753
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3839670717716217,
      "learning_rate": 0.0005612302708107097,
      "loss": 1.6881,
      "step": 14754
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3716449439525604,
      "learning_rate": 0.0005612251314001578,
      "loss": 1.728,
      "step": 14755
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3754950165748596,
      "learning_rate": 0.0005612199916725171,
      "loss": 1.7987,
      "step": 14756
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3841334581375122,
      "learning_rate": 0.0005612148516277938,
      "loss": 1.7496,
      "step": 14757
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3898775279521942,
      "learning_rate": 0.0005612097112659941,
      "loss": 1.6766,
      "step": 14758
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3820665776729584,
      "learning_rate": 0.0005612045705871244,
      "loss": 1.7458,
      "step": 14759
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37696272134780884,
      "learning_rate": 0.0005611994295911907,
      "loss": 1.732,
      "step": 14760
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37870898842811584,
      "learning_rate": 0.0005611942882781995,
      "loss": 1.738,
      "step": 14761
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38164544105529785,
      "learning_rate": 0.0005611891466481569,
      "loss": 1.7579,
      "step": 14762
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37464895844459534,
      "learning_rate": 0.0005611840047010691,
      "loss": 1.7535,
      "step": 14763
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3750815689563751,
      "learning_rate": 0.0005611788624369425,
      "loss": 1.6122,
      "step": 14764
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3741355836391449,
      "learning_rate": 0.0005611737198557832,
      "loss": 1.7008,
      "step": 14765
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39005351066589355,
      "learning_rate": 0.0005611685769575975,
      "loss": 1.7424,
      "step": 14766
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3759308159351349,
      "learning_rate": 0.0005611634337423914,
      "loss": 1.6983,
      "step": 14767
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5704885125160217,
      "learning_rate": 0.0005611582902101717,
      "loss": 1.796,
      "step": 14768
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3735138475894928,
      "learning_rate": 0.0005611531463609442,
      "loss": 1.7581,
      "step": 14769
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3811397850513458,
      "learning_rate": 0.0005611480021947152,
      "loss": 1.7653,
      "step": 14770
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3797493278980255,
      "learning_rate": 0.0005611428577114911,
      "loss": 1.6861,
      "step": 14771
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.367636501789093,
      "learning_rate": 0.0005611377129112779,
      "loss": 1.7593,
      "step": 14772
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.47053083777427673,
      "learning_rate": 0.0005611325677940823,
      "loss": 1.8117,
      "step": 14773
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38889381289482117,
      "learning_rate": 0.0005611274223599099,
      "loss": 1.7229,
      "step": 14774
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3720344007015228,
      "learning_rate": 0.0005611222766087674,
      "loss": 1.6876,
      "step": 14775
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37295156717300415,
      "learning_rate": 0.0005611171305406609,
      "loss": 1.6763,
      "step": 14776
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37336528301239014,
      "learning_rate": 0.0005611119841555967,
      "loss": 1.758,
      "step": 14777
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.373344361782074,
      "learning_rate": 0.0005611068374535811,
      "loss": 1.7616,
      "step": 14778
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3798428773880005,
      "learning_rate": 0.0005611016904346202,
      "loss": 1.7198,
      "step": 14779
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3868767321109772,
      "learning_rate": 0.0005610965430987204,
      "loss": 1.8439,
      "step": 14780
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4078008532524109,
      "learning_rate": 0.0005610913954458878,
      "loss": 1.8542,
      "step": 14781
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3718680143356323,
      "learning_rate": 0.0005610862474761287,
      "loss": 1.6952,
      "step": 14782
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3798321783542633,
      "learning_rate": 0.0005610810991894495,
      "loss": 1.706,
      "step": 14783
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36370497941970825,
      "learning_rate": 0.0005610759505858561,
      "loss": 1.6859,
      "step": 14784
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37588948011398315,
      "learning_rate": 0.0005610708016653551,
      "loss": 1.6923,
      "step": 14785
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3847889006137848,
      "learning_rate": 0.0005610656524279526,
      "loss": 1.6712,
      "step": 14786
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37570643424987793,
      "learning_rate": 0.0005610605028736549,
      "loss": 1.6999,
      "step": 14787
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3813553750514984,
      "learning_rate": 0.0005610553530024682,
      "loss": 1.75,
      "step": 14788
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38288649916648865,
      "learning_rate": 0.0005610502028143986,
      "loss": 1.7885,
      "step": 14789
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3745274245738983,
      "learning_rate": 0.0005610450523094527,
      "loss": 1.7928,
      "step": 14790
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3795282244682312,
      "learning_rate": 0.0005610399014876364,
      "loss": 1.7504,
      "step": 14791
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38134706020355225,
      "learning_rate": 0.0005610347503489563,
      "loss": 1.735,
      "step": 14792
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3784920573234558,
      "learning_rate": 0.0005610295988934184,
      "loss": 1.777,
      "step": 14793
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3867056965827942,
      "learning_rate": 0.000561024447121029,
      "loss": 1.7305,
      "step": 14794
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38618963956832886,
      "learning_rate": 0.0005610192950317944,
      "loss": 1.7656,
      "step": 14795
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37921974062919617,
      "learning_rate": 0.0005610141426257209,
      "loss": 1.7712,
      "step": 14796
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3873905837535858,
      "learning_rate": 0.0005610089899028147,
      "loss": 1.7567,
      "step": 14797
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39874815940856934,
      "learning_rate": 0.000561003836863082,
      "loss": 1.8168,
      "step": 14798
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38043808937072754,
      "learning_rate": 0.0005609986835065291,
      "loss": 1.5887,
      "step": 14799
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37141549587249756,
      "learning_rate": 0.0005609935298331622,
      "loss": 1.6778,
      "step": 14800
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3945666253566742,
      "learning_rate": 0.0005609883758429876,
      "loss": 1.7599,
      "step": 14801
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.387777715921402,
      "learning_rate": 0.0005609832215360117,
      "loss": 1.7294,
      "step": 14802
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3753085732460022,
      "learning_rate": 0.0005609780669122406,
      "loss": 1.7098,
      "step": 14803
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3711681067943573,
      "learning_rate": 0.0005609729119716803,
      "loss": 1.7363,
      "step": 14804
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38651421666145325,
      "learning_rate": 0.0005609677567143377,
      "loss": 1.7972,
      "step": 14805
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3811611235141754,
      "learning_rate": 0.0005609626011402186,
      "loss": 1.7355,
      "step": 14806
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38185879588127136,
      "learning_rate": 0.0005609574452493292,
      "loss": 1.7699,
      "step": 14807
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37714138627052307,
      "learning_rate": 0.0005609522890416761,
      "loss": 1.7333,
      "step": 14808
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3740304112434387,
      "learning_rate": 0.0005609471325172652,
      "loss": 1.7267,
      "step": 14809
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3903476297855377,
      "learning_rate": 0.0005609419756761031,
      "loss": 1.7167,
      "step": 14810
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38303789496421814,
      "learning_rate": 0.0005609368185181958,
      "loss": 1.7661,
      "step": 14811
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38922879099845886,
      "learning_rate": 0.0005609316610435497,
      "loss": 1.7676,
      "step": 14812
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.40758854150772095,
      "learning_rate": 0.000560926503252171,
      "loss": 1.7498,
      "step": 14813
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38591116666793823,
      "learning_rate": 0.0005609213451440658,
      "loss": 1.7655,
      "step": 14814
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39590659737586975,
      "learning_rate": 0.0005609161867192407,
      "loss": 1.6992,
      "step": 14815
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3796783983707428,
      "learning_rate": 0.0005609110279777018,
      "loss": 1.7114,
      "step": 14816
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3784652054309845,
      "learning_rate": 0.0005609058689194554,
      "loss": 1.6343,
      "step": 14817
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3855464458465576,
      "learning_rate": 0.0005609007095445076,
      "loss": 1.6996,
      "step": 14818
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39151012897491455,
      "learning_rate": 0.0005608955498528648,
      "loss": 1.7193,
      "step": 14819
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3812407851219177,
      "learning_rate": 0.0005608903898445333,
      "loss": 1.7177,
      "step": 14820
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3726431429386139,
      "learning_rate": 0.0005608852295195192,
      "loss": 1.6707,
      "step": 14821
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4009709358215332,
      "learning_rate": 0.0005608800688778289,
      "loss": 1.7849,
      "step": 14822
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.411083847284317,
      "learning_rate": 0.0005608749079194687,
      "loss": 1.7425,
      "step": 14823
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39043715596199036,
      "learning_rate": 0.0005608697466444448,
      "loss": 1.7564,
      "step": 14824
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38581547141075134,
      "learning_rate": 0.0005608645850527635,
      "loss": 1.804,
      "step": 14825
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37520548701286316,
      "learning_rate": 0.000560859423144431,
      "loss": 1.6873,
      "step": 14826
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38902148604393005,
      "learning_rate": 0.0005608542609194534,
      "loss": 1.7348,
      "step": 14827
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37661290168762207,
      "learning_rate": 0.0005608490983778374,
      "loss": 1.6786,
      "step": 14828
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3948277533054352,
      "learning_rate": 0.000560843935519589,
      "loss": 1.6996,
      "step": 14829
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3764534890651703,
      "learning_rate": 0.0005608387723447145,
      "loss": 1.7085,
      "step": 14830
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36422595381736755,
      "learning_rate": 0.0005608336088532201,
      "loss": 1.6989,
      "step": 14831
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3827883005142212,
      "learning_rate": 0.0005608284450451121,
      "loss": 1.7259,
      "step": 14832
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3960774838924408,
      "learning_rate": 0.0005608232809203969,
      "loss": 1.7275,
      "step": 14833
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3817666471004486,
      "learning_rate": 0.0005608181164790805,
      "loss": 1.6825,
      "step": 14834
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3862443268299103,
      "learning_rate": 0.0005608129517211695,
      "loss": 1.7186,
      "step": 14835
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3731374740600586,
      "learning_rate": 0.00056080778664667,
      "loss": 1.756,
      "step": 14836
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37924066185951233,
      "learning_rate": 0.0005608026212555882,
      "loss": 1.7717,
      "step": 14837
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3821580410003662,
      "learning_rate": 0.0005607974555479305,
      "loss": 1.7149,
      "step": 14838
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39109861850738525,
      "learning_rate": 0.0005607922895237031,
      "loss": 1.7776,
      "step": 14839
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.377164363861084,
      "learning_rate": 0.0005607871231829122,
      "loss": 1.7303,
      "step": 14840
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3720189034938812,
      "learning_rate": 0.0005607819565255643,
      "loss": 1.6972,
      "step": 14841
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3762191832065582,
      "learning_rate": 0.0005607767895516654,
      "loss": 1.7124,
      "step": 14842
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.380730539560318,
      "learning_rate": 0.000560771622261222,
      "loss": 1.735,
      "step": 14843
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3800879120826721,
      "learning_rate": 0.0005607664546542402,
      "loss": 1.6322,
      "step": 14844
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.360823392868042,
      "learning_rate": 0.0005607612867307264,
      "loss": 1.7125,
      "step": 14845
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3649037182331085,
      "learning_rate": 0.0005607561184906868,
      "loss": 1.7262,
      "step": 14846
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39546480774879456,
      "learning_rate": 0.0005607509499341277,
      "loss": 1.7503,
      "step": 14847
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37505611777305603,
      "learning_rate": 0.0005607457810610554,
      "loss": 1.6334,
      "step": 14848
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3679271638393402,
      "learning_rate": 0.0005607406118714761,
      "loss": 1.7333,
      "step": 14849
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.36820927262306213,
      "learning_rate": 0.0005607354423653962,
      "loss": 1.7731,
      "step": 14850
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3791916072368622,
      "learning_rate": 0.0005607302725428217,
      "loss": 1.7203,
      "step": 14851
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38455069065093994,
      "learning_rate": 0.0005607251024037593,
      "loss": 1.7328,
      "step": 14852
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37839189171791077,
      "learning_rate": 0.0005607199319482149,
      "loss": 1.7769,
      "step": 14853
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38514599204063416,
      "learning_rate": 0.0005607147611761948,
      "loss": 1.7632,
      "step": 14854
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.373747318983078,
      "learning_rate": 0.0005607095900877055,
      "loss": 1.7943,
      "step": 14855
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39087212085723877,
      "learning_rate": 0.0005607044186827533,
      "loss": 1.7607,
      "step": 14856
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38273563981056213,
      "learning_rate": 0.0005606992469613443,
      "loss": 1.7719,
      "step": 14857
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3924560248851776,
      "learning_rate": 0.0005606940749234848,
      "loss": 1.6105,
      "step": 14858
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38505277037620544,
      "learning_rate": 0.000560688902569181,
      "loss": 1.7665,
      "step": 14859
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.40885698795318604,
      "learning_rate": 0.0005606837298984395,
      "loss": 1.8141,
      "step": 14860
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.396946519613266,
      "learning_rate": 0.0005606785569112661,
      "loss": 1.7934,
      "step": 14861
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38071364164352417,
      "learning_rate": 0.0005606733836076675,
      "loss": 1.6949,
      "step": 14862
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3786999583244324,
      "learning_rate": 0.0005606682099876498,
      "loss": 1.7003,
      "step": 14863
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.40121015906333923,
      "learning_rate": 0.0005606630360512193,
      "loss": 1.7609,
      "step": 14864
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3917103707790375,
      "learning_rate": 0.0005606578617983822,
      "loss": 1.7408,
      "step": 14865
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3920314908027649,
      "learning_rate": 0.000560652687229145,
      "loss": 1.6619,
      "step": 14866
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3877042233943939,
      "learning_rate": 0.0005606475123435138,
      "loss": 1.7199,
      "step": 14867
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3971916735172272,
      "learning_rate": 0.0005606423371414949,
      "loss": 1.7057,
      "step": 14868
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3771999478340149,
      "learning_rate": 0.0005606371616230946,
      "loss": 1.7039,
      "step": 14869
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39055904746055603,
      "learning_rate": 0.0005606319857883192,
      "loss": 1.7965,
      "step": 14870
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39655059576034546,
      "learning_rate": 0.000560626809637175,
      "loss": 1.7873,
      "step": 14871
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3848797082901001,
      "learning_rate": 0.0005606216331696681,
      "loss": 1.7989,
      "step": 14872
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38903945684432983,
      "learning_rate": 0.0005606164563858051,
      "loss": 1.7293,
      "step": 14873
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.38856756687164307,
      "learning_rate": 0.0005606112792855921,
      "loss": 1.7508,
      "step": 14874
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3827230930328369,
      "learning_rate": 0.0005606061018690354,
      "loss": 1.6802,
      "step": 14875
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3970720171928406,
      "learning_rate": 0.0005606009241361413,
      "loss": 1.7438,
      "step": 14876
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4186446964740753,
      "learning_rate": 0.0005605957460869161,
      "loss": 1.7238,
      "step": 14877
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37323227524757385,
      "learning_rate": 0.000560590567721366,
      "loss": 1.6932,
      "step": 14878
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39612579345703125,
      "learning_rate": 0.0005605853890394974,
      "loss": 1.7903,
      "step": 14879
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4149167835712433,
      "learning_rate": 0.0005605802100413165,
      "loss": 1.7699,
      "step": 14880
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38739410042762756,
      "learning_rate": 0.0005605750307268295,
      "loss": 1.7165,
      "step": 14881
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.398591548204422,
      "learning_rate": 0.0005605698510960429,
      "loss": 1.7383,
      "step": 14882
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3843787610530853,
      "learning_rate": 0.000560564671148963,
      "loss": 1.7279,
      "step": 14883
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3739781379699707,
      "learning_rate": 0.0005605594908855959,
      "loss": 1.6967,
      "step": 14884
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.48242267966270447,
      "learning_rate": 0.000560554310305948,
      "loss": 1.7036,
      "step": 14885
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38932177424430847,
      "learning_rate": 0.0005605491294100255,
      "loss": 1.7857,
      "step": 14886
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39415034651756287,
      "learning_rate": 0.0005605439481978347,
      "loss": 1.7163,
      "step": 14887
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37389516830444336,
      "learning_rate": 0.000560538766669382,
      "loss": 1.7473,
      "step": 14888
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3906797766685486,
      "learning_rate": 0.0005605335848246737,
      "loss": 1.7408,
      "step": 14889
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38354378938674927,
      "learning_rate": 0.0005605284026637159,
      "loss": 1.6861,
      "step": 14890
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38910701870918274,
      "learning_rate": 0.0005605232201865151,
      "loss": 1.711,
      "step": 14891
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3773767054080963,
      "learning_rate": 0.0005605180373930774,
      "loss": 1.7261,
      "step": 14892
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38175809383392334,
      "learning_rate": 0.0005605128542834093,
      "loss": 1.6655,
      "step": 14893
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3868505358695984,
      "learning_rate": 0.0005605076708575169,
      "loss": 1.7131,
      "step": 14894
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38290876150131226,
      "learning_rate": 0.0005605024871154065,
      "loss": 1.6902,
      "step": 14895
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3846788704395294,
      "learning_rate": 0.0005604973030570847,
      "loss": 1.8364,
      "step": 14896
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38356873393058777,
      "learning_rate": 0.0005604921186825575,
      "loss": 1.7301,
      "step": 14897
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38985952734947205,
      "learning_rate": 0.000560486933991831,
      "loss": 1.7858,
      "step": 14898
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38486963510513306,
      "learning_rate": 0.000560481748984912,
      "loss": 1.8247,
      "step": 14899
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36492618918418884,
      "learning_rate": 0.0005604765636618064,
      "loss": 1.7056,
      "step": 14900
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37923380732536316,
      "learning_rate": 0.0005604713780225207,
      "loss": 1.7696,
      "step": 14901
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38621950149536133,
      "learning_rate": 0.0005604661920670612,
      "loss": 1.7905,
      "step": 14902
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.551007866859436,
      "learning_rate": 0.000560461005795434,
      "loss": 1.6939,
      "step": 14903
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36720144748687744,
      "learning_rate": 0.0005604558192076455,
      "loss": 1.7052,
      "step": 14904
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3702112138271332,
      "learning_rate": 0.000560450632303702,
      "loss": 1.7763,
      "step": 14905
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37205788493156433,
      "learning_rate": 0.00056044544508361,
      "loss": 1.7764,
      "step": 14906
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3874887228012085,
      "learning_rate": 0.0005604402575473753,
      "loss": 1.65,
      "step": 14907
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3762943148612976,
      "learning_rate": 0.0005604350696950047,
      "loss": 1.6275,
      "step": 14908
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37812647223472595,
      "learning_rate": 0.0005604298815265043,
      "loss": 1.8204,
      "step": 14909
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38802018761634827,
      "learning_rate": 0.0005604246930418804,
      "loss": 1.7065,
      "step": 14910
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3705500066280365,
      "learning_rate": 0.0005604195042411391,
      "loss": 1.7237,
      "step": 14911
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3763553500175476,
      "learning_rate": 0.0005604143151242871,
      "loss": 1.7371,
      "step": 14912
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38303133845329285,
      "learning_rate": 0.0005604091256913305,
      "loss": 1.7107,
      "step": 14913
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4611111879348755,
      "learning_rate": 0.0005604039359422755,
      "loss": 1.6163,
      "step": 14914
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37933778762817383,
      "learning_rate": 0.0005603987458771285,
      "loss": 1.7795,
      "step": 14915
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.383939266204834,
      "learning_rate": 0.0005603935554958958,
      "loss": 1.7569,
      "step": 14916
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38108494877815247,
      "learning_rate": 0.0005603883647985837,
      "loss": 1.7312,
      "step": 14917
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3720850944519043,
      "learning_rate": 0.0005603831737851986,
      "loss": 1.7129,
      "step": 14918
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39825963973999023,
      "learning_rate": 0.0005603779824557466,
      "loss": 1.7553,
      "step": 14919
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3829420506954193,
      "learning_rate": 0.000560372790810234,
      "loss": 1.7056,
      "step": 14920
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3805929720401764,
      "learning_rate": 0.0005603675988486673,
      "loss": 1.7605,
      "step": 14921
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38422447443008423,
      "learning_rate": 0.0005603624065710527,
      "loss": 1.7763,
      "step": 14922
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3788584768772125,
      "learning_rate": 0.0005603572139773964,
      "loss": 1.646,
      "step": 14923
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.40565967559814453,
      "learning_rate": 0.0005603520210677049,
      "loss": 1.8129,
      "step": 14924
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38213321566581726,
      "learning_rate": 0.0005603468278419844,
      "loss": 1.6925,
      "step": 14925
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37743571400642395,
      "learning_rate": 0.0005603416343002412,
      "loss": 1.6911,
      "step": 14926
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3719041645526886,
      "learning_rate": 0.0005603364404424816,
      "loss": 1.6937,
      "step": 14927
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3842867910861969,
      "learning_rate": 0.000560331246268712,
      "loss": 1.675,
      "step": 14928
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39062976837158203,
      "learning_rate": 0.0005603260517789385,
      "loss": 1.7383,
      "step": 14929
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38671210408210754,
      "learning_rate": 0.0005603208569731676,
      "loss": 1.6992,
      "step": 14930
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38725319504737854,
      "learning_rate": 0.0005603156618514055,
      "loss": 1.712,
      "step": 14931
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.379001647233963,
      "learning_rate": 0.0005603104664136586,
      "loss": 1.7411,
      "step": 14932
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3818846046924591,
      "learning_rate": 0.0005603052706599331,
      "loss": 1.7389,
      "step": 14933
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3658467233181,
      "learning_rate": 0.0005603000745902354,
      "loss": 1.6947,
      "step": 14934
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37939536571502686,
      "learning_rate": 0.0005602948782045717,
      "loss": 1.7061,
      "step": 14935
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38763877749443054,
      "learning_rate": 0.0005602896815029484,
      "loss": 1.8567,
      "step": 14936
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37604236602783203,
      "learning_rate": 0.0005602844844853718,
      "loss": 1.7275,
      "step": 14937
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3652511537075043,
      "learning_rate": 0.0005602792871518482,
      "loss": 1.5937,
      "step": 14938
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38145244121551514,
      "learning_rate": 0.0005602740895023838,
      "loss": 1.719,
      "step": 14939
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3862515091896057,
      "learning_rate": 0.0005602688915369851,
      "loss": 1.7308,
      "step": 14940
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3851644694805145,
      "learning_rate": 0.0005602636932556583,
      "loss": 1.8179,
      "step": 14941
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3770860433578491,
      "learning_rate": 0.0005602584946584097,
      "loss": 1.7744,
      "step": 14942
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3908078670501709,
      "learning_rate": 0.0005602532957452456,
      "loss": 1.7823,
      "step": 14943
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37761053442955017,
      "learning_rate": 0.0005602480965161724,
      "loss": 1.689,
      "step": 14944
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3714306056499481,
      "learning_rate": 0.0005602428969711964,
      "loss": 1.7446,
      "step": 14945
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3867497146129608,
      "learning_rate": 0.0005602376971103238,
      "loss": 1.7082,
      "step": 14946
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38433051109313965,
      "learning_rate": 0.000560232496933561,
      "loss": 1.719,
      "step": 14947
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3910166025161743,
      "learning_rate": 0.0005602272964409143,
      "loss": 1.6921,
      "step": 14948
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.377934068441391,
      "learning_rate": 0.00056022209563239,
      "loss": 1.7931,
      "step": 14949
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37148991227149963,
      "learning_rate": 0.0005602168945079944,
      "loss": 1.6256,
      "step": 14950
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3850004971027374,
      "learning_rate": 0.0005602116930677339,
      "loss": 1.7889,
      "step": 14951
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37613528966903687,
      "learning_rate": 0.0005602064913116146,
      "loss": 1.6843,
      "step": 14952
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38573190569877625,
      "learning_rate": 0.0005602012892396431,
      "loss": 1.7775,
      "step": 14953
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37186670303344727,
      "learning_rate": 0.0005601960868518255,
      "loss": 1.7063,
      "step": 14954
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37749817967414856,
      "learning_rate": 0.0005601908841481681,
      "loss": 1.7508,
      "step": 14955
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39082106947898865,
      "learning_rate": 0.0005601856811286775,
      "loss": 1.7566,
      "step": 14956
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3795746862888336,
      "learning_rate": 0.0005601804777933597,
      "loss": 1.7717,
      "step": 14957
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3828980028629303,
      "learning_rate": 0.0005601752741422212,
      "loss": 1.7659,
      "step": 14958
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36903342604637146,
      "learning_rate": 0.0005601700701752682,
      "loss": 1.6581,
      "step": 14959
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3615913391113281,
      "learning_rate": 0.0005601648658925071,
      "loss": 1.6335,
      "step": 14960
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3785530924797058,
      "learning_rate": 0.0005601596612939442,
      "loss": 1.759,
      "step": 14961
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3840712010860443,
      "learning_rate": 0.0005601544563795858,
      "loss": 1.7531,
      "step": 14962
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3750641942024231,
      "learning_rate": 0.0005601492511494382,
      "loss": 1.6642,
      "step": 14963
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3678591847419739,
      "learning_rate": 0.0005601440456035077,
      "loss": 1.7436,
      "step": 14964
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3767184317111969,
      "learning_rate": 0.0005601388397418007,
      "loss": 1.7356,
      "step": 14965
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38213181495666504,
      "learning_rate": 0.0005601336335643234,
      "loss": 1.6625,
      "step": 14966
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39097142219543457,
      "learning_rate": 0.0005601284270710824,
      "loss": 1.7791,
      "step": 14967
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39580875635147095,
      "learning_rate": 0.0005601232202620836,
      "loss": 1.7753,
      "step": 14968
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37024426460266113,
      "learning_rate": 0.0005601180131373336,
      "loss": 1.6811,
      "step": 14969
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3598397672176361,
      "learning_rate": 0.0005601128056968388,
      "loss": 1.7417,
      "step": 14970
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3850122392177582,
      "learning_rate": 0.0005601075979406052,
      "loss": 1.7509,
      "step": 14971
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38569197058677673,
      "learning_rate": 0.0005601023898686394,
      "loss": 1.7507,
      "step": 14972
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39873558282852173,
      "learning_rate": 0.0005600971814809476,
      "loss": 1.7655,
      "step": 14973
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3761613965034485,
      "learning_rate": 0.0005600919727775361,
      "loss": 1.7202,
      "step": 14974
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3961959481239319,
      "learning_rate": 0.0005600867637584113,
      "loss": 1.7325,
      "step": 14975
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3924245238304138,
      "learning_rate": 0.0005600815544235796,
      "loss": 1.7262,
      "step": 14976
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3848295211791992,
      "learning_rate": 0.0005600763447730471,
      "loss": 1.7907,
      "step": 14977
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3668820261955261,
      "learning_rate": 0.0005600711348068202,
      "loss": 1.6758,
      "step": 14978
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4006374478340149,
      "learning_rate": 0.0005600659245249053,
      "loss": 1.741,
      "step": 14979
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3890935182571411,
      "learning_rate": 0.0005600607139273087,
      "loss": 1.7049,
      "step": 14980
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3912329375743866,
      "learning_rate": 0.0005600555030140367,
      "loss": 1.7534,
      "step": 14981
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3783816695213318,
      "learning_rate": 0.0005600502917850957,
      "loss": 1.7205,
      "step": 14982
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3817005455493927,
      "learning_rate": 0.0005600450802404919,
      "loss": 1.6758,
      "step": 14983
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3869408667087555,
      "learning_rate": 0.0005600398683802317,
      "loss": 1.6839,
      "step": 14984
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3944126069545746,
      "learning_rate": 0.0005600346562043214,
      "loss": 1.6681,
      "step": 14985
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39542925357818604,
      "learning_rate": 0.0005600294437127673,
      "loss": 1.7864,
      "step": 14986
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3814970850944519,
      "learning_rate": 0.0005600242309055758,
      "loss": 1.7054,
      "step": 14987
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3995380997657776,
      "learning_rate": 0.0005600190177827533,
      "loss": 1.8035,
      "step": 14988
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3826848864555359,
      "learning_rate": 0.0005600138043443059,
      "loss": 1.7987,
      "step": 14989
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3903239667415619,
      "learning_rate": 0.0005600085905902401,
      "loss": 1.7213,
      "step": 14990
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37945395708084106,
      "learning_rate": 0.0005600033765205621,
      "loss": 1.6527,
      "step": 14991
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3851878345012665,
      "learning_rate": 0.0005599981621352784,
      "loss": 1.8209,
      "step": 14992
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3716050386428833,
      "learning_rate": 0.0005599929474343954,
      "loss": 1.6808,
      "step": 14993
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.379013329744339,
      "learning_rate": 0.000559987732417919,
      "loss": 1.703,
      "step": 14994
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3729408383369446,
      "learning_rate": 0.000559982517085856,
      "loss": 1.7402,
      "step": 14995
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38111865520477295,
      "learning_rate": 0.0005599773014382123,
      "loss": 1.6845,
      "step": 14996
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39216968417167664,
      "learning_rate": 0.0005599720854749946,
      "loss": 1.7916,
      "step": 14997
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3819394111633301,
      "learning_rate": 0.0005599668691962091,
      "loss": 1.6696,
      "step": 14998
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3808361291885376,
      "learning_rate": 0.0005599616526018621,
      "loss": 1.7771,
      "step": 14999
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3959498703479767,
      "learning_rate": 0.0005599564356919601,
      "loss": 1.8155,
      "step": 15000
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37533003091812134,
      "learning_rate": 0.000559951218466509,
      "loss": 1.8102,
      "step": 15001
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3708455562591553,
      "learning_rate": 0.0005599460009255157,
      "loss": 1.694,
      "step": 15002
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39342382550239563,
      "learning_rate": 0.000559940783068986,
      "loss": 1.7917,
      "step": 15003
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6606842279434204,
      "learning_rate": 0.0005599355648969267,
      "loss": 1.737,
      "step": 15004
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3804474472999573,
      "learning_rate": 0.000559930346409344,
      "loss": 1.7821,
      "step": 15005
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3694726228713989,
      "learning_rate": 0.0005599251276062439,
      "loss": 1.6161,
      "step": 15006
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37290918827056885,
      "learning_rate": 0.0005599199084876331,
      "loss": 1.7229,
      "step": 15007
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37851226329803467,
      "learning_rate": 0.0005599146890535178,
      "loss": 1.726,
      "step": 15008
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3821432590484619,
      "learning_rate": 0.0005599094693039045,
      "loss": 1.7487,
      "step": 15009
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3818929195404053,
      "learning_rate": 0.0005599042492387992,
      "loss": 1.7528,
      "step": 15010
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37441393733024597,
      "learning_rate": 0.0005598990288582086,
      "loss": 1.6943,
      "step": 15011
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3762510418891907,
      "learning_rate": 0.0005598938081621388,
      "loss": 1.6757,
      "step": 15012
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37317532300949097,
      "learning_rate": 0.0005598885871505962,
      "loss": 1.7544,
      "step": 15013
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38548141717910767,
      "learning_rate": 0.0005598833658235872,
      "loss": 1.7373,
      "step": 15014
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5192928910255432,
      "learning_rate": 0.000559878144181118,
      "loss": 1.7846,
      "step": 15015
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36946332454681396,
      "learning_rate": 0.000559872922223195,
      "loss": 1.7722,
      "step": 15016
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3842892646789551,
      "learning_rate": 0.0005598676999498247,
      "loss": 1.6813,
      "step": 15017
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4144648015499115,
      "learning_rate": 0.0005598624773610132,
      "loss": 1.7274,
      "step": 15018
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3869112730026245,
      "learning_rate": 0.0005598572544567669,
      "loss": 1.7495,
      "step": 15019
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38319700956344604,
      "learning_rate": 0.0005598520312370923,
      "loss": 1.6123,
      "step": 15020
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38586071133613586,
      "learning_rate": 0.0005598468077019956,
      "loss": 1.7193,
      "step": 15021
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.40163713693618774,
      "learning_rate": 0.0005598415838514832,
      "loss": 1.7362,
      "step": 15022
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4050826132297516,
      "learning_rate": 0.0005598363596855613,
      "loss": 1.7323,
      "step": 15023
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3926018178462982,
      "learning_rate": 0.0005598311352042364,
      "loss": 1.8062,
      "step": 15024
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3788171112537384,
      "learning_rate": 0.0005598259104075147,
      "loss": 1.6953,
      "step": 15025
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36853697896003723,
      "learning_rate": 0.0005598206852954028,
      "loss": 1.6632,
      "step": 15026
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39392226934432983,
      "learning_rate": 0.0005598154598679067,
      "loss": 1.7468,
      "step": 15027
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38889336585998535,
      "learning_rate": 0.000559810234125033,
      "loss": 1.7027,
      "step": 15028
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37828508019447327,
      "learning_rate": 0.000559805008066788,
      "loss": 1.6961,
      "step": 15029
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37707841396331787,
      "learning_rate": 0.000559799781693178,
      "loss": 1.7464,
      "step": 15030
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3847626745700836,
      "learning_rate": 0.0005597945550042092,
      "loss": 1.7035,
      "step": 15031
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3787826597690582,
      "learning_rate": 0.0005597893279998882,
      "loss": 1.7213,
      "step": 15032
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3775024116039276,
      "learning_rate": 0.0005597841006802212,
      "loss": 1.7434,
      "step": 15033
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39181557297706604,
      "learning_rate": 0.0005597788730452146,
      "loss": 1.7508,
      "step": 15034
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3900489807128906,
      "learning_rate": 0.0005597736450948748,
      "loss": 1.7592,
      "step": 15035
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3670136332511902,
      "learning_rate": 0.000559768416829208,
      "loss": 1.646,
      "step": 15036
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37334829568862915,
      "learning_rate": 0.0005597631882482205,
      "loss": 1.7829,
      "step": 15037
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3698209226131439,
      "learning_rate": 0.0005597579593519189,
      "loss": 1.6238,
      "step": 15038
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3777114748954773,
      "learning_rate": 0.0005597527301403094,
      "loss": 1.7384,
      "step": 15039
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37880560755729675,
      "learning_rate": 0.0005597475006133984,
      "loss": 1.7145,
      "step": 15040
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37817245721817017,
      "learning_rate": 0.0005597422707711922,
      "loss": 1.6828,
      "step": 15041
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3878278136253357,
      "learning_rate": 0.000559737040613697,
      "loss": 1.725,
      "step": 15042
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37511274218559265,
      "learning_rate": 0.0005597318101409194,
      "loss": 1.6925,
      "step": 15043
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37337470054626465,
      "learning_rate": 0.0005597265793528657,
      "loss": 1.6308,
      "step": 15044
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3888450860977173,
      "learning_rate": 0.0005597213482495422,
      "loss": 1.7653,
      "step": 15045
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4109332263469696,
      "learning_rate": 0.0005597161168309551,
      "loss": 1.7769,
      "step": 15046
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38082852959632874,
      "learning_rate": 0.000559710885097111,
      "loss": 1.7167,
      "step": 15047
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3835034668445587,
      "learning_rate": 0.0005597056530480162,
      "loss": 1.6895,
      "step": 15048
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37539514899253845,
      "learning_rate": 0.0005597004206836769,
      "loss": 1.7103,
      "step": 15049
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39357879757881165,
      "learning_rate": 0.0005596951880040997,
      "loss": 1.6682,
      "step": 15050
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3871476352214813,
      "learning_rate": 0.0005596899550092907,
      "loss": 1.8426,
      "step": 15051
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3916317820549011,
      "learning_rate": 0.0005596847216992564,
      "loss": 1.7033,
      "step": 15052
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3740001618862152,
      "learning_rate": 0.0005596794880740031,
      "loss": 1.6984,
      "step": 15053
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3788094222545624,
      "learning_rate": 0.0005596742541335372,
      "loss": 1.6629,
      "step": 15054
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37402984499931335,
      "learning_rate": 0.0005596690198778649,
      "loss": 1.7286,
      "step": 15055
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3860792815685272,
      "learning_rate": 0.0005596637853069928,
      "loss": 1.7286,
      "step": 15056
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3714028000831604,
      "learning_rate": 0.0005596585504209271,
      "loss": 1.7121,
      "step": 15057
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3946436643600464,
      "learning_rate": 0.0005596533152196741,
      "loss": 1.6947,
      "step": 15058
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38873448967933655,
      "learning_rate": 0.0005596480797032403,
      "loss": 1.6876,
      "step": 15059
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.383759081363678,
      "learning_rate": 0.0005596428438716319,
      "loss": 1.7426,
      "step": 15060
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37105825543403625,
      "learning_rate": 0.0005596376077248554,
      "loss": 1.7557,
      "step": 15061
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.374673455953598,
      "learning_rate": 0.0005596323712629171,
      "loss": 1.7446,
      "step": 15062
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39323726296424866,
      "learning_rate": 0.0005596271344858235,
      "loss": 1.7064,
      "step": 15063
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.40093767642974854,
      "learning_rate": 0.0005596218973935806,
      "loss": 1.7745,
      "step": 15064
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37565261125564575,
      "learning_rate": 0.0005596166599861951,
      "loss": 1.7049,
      "step": 15065
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3851371109485626,
      "learning_rate": 0.0005596114222636731,
      "loss": 1.6947,
      "step": 15066
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37685438990592957,
      "learning_rate": 0.0005596061842260213,
      "loss": 1.7518,
      "step": 15067
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.41495373845100403,
      "learning_rate": 0.0005596009458732457,
      "loss": 1.779,
      "step": 15068
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38190725445747375,
      "learning_rate": 0.0005595957072053527,
      "loss": 1.7502,
      "step": 15069
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3698694109916687,
      "learning_rate": 0.0005595904682223489,
      "loss": 1.7457,
      "step": 15070
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38896483182907104,
      "learning_rate": 0.0005595852289242405,
      "loss": 1.7068,
      "step": 15071
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39146628975868225,
      "learning_rate": 0.0005595799893110339,
      "loss": 1.7205,
      "step": 15072
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38305792212486267,
      "learning_rate": 0.0005595747493827354,
      "loss": 1.7303,
      "step": 15073
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37539243698120117,
      "learning_rate": 0.0005595695091393514,
      "loss": 1.7589,
      "step": 15074
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3729170560836792,
      "learning_rate": 0.0005595642685808883,
      "loss": 1.7263,
      "step": 15075
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.40395715832710266,
      "learning_rate": 0.0005595590277073524,
      "loss": 1.7667,
      "step": 15076
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3819662928581238,
      "learning_rate": 0.00055955378651875,
      "loss": 1.7562,
      "step": 15077
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3886590898036957,
      "learning_rate": 0.0005595485450150877,
      "loss": 1.7536,
      "step": 15078
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38692712783813477,
      "learning_rate": 0.0005595433031963717,
      "loss": 1.766,
      "step": 15079
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38986483216285706,
      "learning_rate": 0.0005595380610626083,
      "loss": 1.754,
      "step": 15080
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39171305298805237,
      "learning_rate": 0.0005595328186138039,
      "loss": 1.746,
      "step": 15081
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36877426505088806,
      "learning_rate": 0.0005595275758499649,
      "loss": 1.7349,
      "step": 15082
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37435901165008545,
      "learning_rate": 0.0005595223327710978,
      "loss": 1.7705,
      "step": 15083
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3916511833667755,
      "learning_rate": 0.0005595170893772087,
      "loss": 1.6931,
      "step": 15084
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37607839703559875,
      "learning_rate": 0.0005595118456683041,
      "loss": 1.7315,
      "step": 15085
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37513813376426697,
      "learning_rate": 0.0005595066016443904,
      "loss": 1.7342,
      "step": 15086
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37631848454475403,
      "learning_rate": 0.0005595013573054738,
      "loss": 1.7381,
      "step": 15087
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37376198172569275,
      "learning_rate": 0.000559496112651561,
      "loss": 1.7394,
      "step": 15088
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3825245201587677,
      "learning_rate": 0.0005594908676826581,
      "loss": 1.6952,
      "step": 15089
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4373073875904083,
      "learning_rate": 0.0005594856223987714,
      "loss": 1.6784,
      "step": 15090
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37086114287376404,
      "learning_rate": 0.0005594803767999075,
      "loss": 1.7125,
      "step": 15091
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39057138562202454,
      "learning_rate": 0.0005594751308860726,
      "loss": 1.7227,
      "step": 15092
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3794768750667572,
      "learning_rate": 0.0005594698846572732,
      "loss": 1.7434,
      "step": 15093
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38716375827789307,
      "learning_rate": 0.0005594646381135154,
      "loss": 1.7995,
      "step": 15094
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.385932594537735,
      "learning_rate": 0.000559459391254806,
      "loss": 1.7473,
      "step": 15095
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37685513496398926,
      "learning_rate": 0.000559454144081151,
      "loss": 1.7023,
      "step": 15096
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3875475823879242,
      "learning_rate": 0.0005594488965925569,
      "loss": 1.7141,
      "step": 15097
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3847333490848541,
      "learning_rate": 0.0005594436487890301,
      "loss": 1.6938,
      "step": 15098
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36476632952690125,
      "learning_rate": 0.0005594384006705769,
      "loss": 1.7201,
      "step": 15099
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37126436829566956,
      "learning_rate": 0.0005594331522372038,
      "loss": 1.7087,
      "step": 15100
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38668113946914673,
      "learning_rate": 0.000559427903488917,
      "loss": 1.6924,
      "step": 15101
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38478073477745056,
      "learning_rate": 0.0005594226544257229,
      "loss": 1.6677,
      "step": 15102
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38478991389274597,
      "learning_rate": 0.000559417405047628,
      "loss": 1.6912,
      "step": 15103
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37919509410858154,
      "learning_rate": 0.0005594121553546385,
      "loss": 1.7736,
      "step": 15104
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3868303596973419,
      "learning_rate": 0.0005594069053467609,
      "loss": 1.6576,
      "step": 15105
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38935017585754395,
      "learning_rate": 0.0005594016550240016,
      "loss": 1.7456,
      "step": 15106
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39288654923439026,
      "learning_rate": 0.0005593964043863669,
      "loss": 1.7687,
      "step": 15107
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38503772020339966,
      "learning_rate": 0.0005593911534338632,
      "loss": 1.7742,
      "step": 15108
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38087061047554016,
      "learning_rate": 0.0005593859021664968,
      "loss": 1.7324,
      "step": 15109
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3862273097038269,
      "learning_rate": 0.0005593806505842741,
      "loss": 1.7651,
      "step": 15110
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4200472831726074,
      "learning_rate": 0.0005593753986872016,
      "loss": 1.6666,
      "step": 15111
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38515523076057434,
      "learning_rate": 0.0005593701464752856,
      "loss": 1.7258,
      "step": 15112
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3856344223022461,
      "learning_rate": 0.0005593648939485324,
      "loss": 1.7736,
      "step": 15113
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4764198064804077,
      "learning_rate": 0.0005593596411069485,
      "loss": 1.7635,
      "step": 15114
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38028135895729065,
      "learning_rate": 0.00055935438795054,
      "loss": 1.7749,
      "step": 15115
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37984779477119446,
      "learning_rate": 0.0005593491344793138,
      "loss": 1.6864,
      "step": 15116
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3835011422634125,
      "learning_rate": 0.0005593438806932758,
      "loss": 1.784,
      "step": 15117
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38887226581573486,
      "learning_rate": 0.0005593386265924325,
      "loss": 1.7997,
      "step": 15118
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38375934958457947,
      "learning_rate": 0.0005593333721767903,
      "loss": 1.7318,
      "step": 15119
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4031449556350708,
      "learning_rate": 0.0005593281174463558,
      "loss": 1.6979,
      "step": 15120
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3903975784778595,
      "learning_rate": 0.000559322862401135,
      "loss": 1.7379,
      "step": 15121
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37786558270454407,
      "learning_rate": 0.0005593176070411345,
      "loss": 1.7043,
      "step": 15122
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38411909341812134,
      "learning_rate": 0.0005593123513663607,
      "loss": 1.6675,
      "step": 15123
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3803122937679291,
      "learning_rate": 0.0005593070953768198,
      "loss": 1.8007,
      "step": 15124
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38753950595855713,
      "learning_rate": 0.0005593018390725183,
      "loss": 1.7015,
      "step": 15125
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38960719108581543,
      "learning_rate": 0.0005592965824534626,
      "loss": 1.7715,
      "step": 15126
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37970778346061707,
      "learning_rate": 0.000559291325519659,
      "loss": 1.7273,
      "step": 15127
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37336862087249756,
      "learning_rate": 0.000559286068271114,
      "loss": 1.6989,
      "step": 15128
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3977607190608978,
      "learning_rate": 0.000559280810707834,
      "loss": 1.7224,
      "step": 15129
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4034847915172577,
      "learning_rate": 0.0005592755528298252,
      "loss": 1.8041,
      "step": 15130
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4000749886035919,
      "learning_rate": 0.0005592702946370942,
      "loss": 1.6955,
      "step": 15131
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3778490722179413,
      "learning_rate": 0.0005592650361296471,
      "loss": 1.7402,
      "step": 15132
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3997296392917633,
      "learning_rate": 0.0005592597773074905,
      "loss": 1.8208,
      "step": 15133
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39756548404693604,
      "learning_rate": 0.0005592545181706308,
      "loss": 1.7245,
      "step": 15134
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3675176799297333,
      "learning_rate": 0.0005592492587190742,
      "loss": 1.7281,
      "step": 15135
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3842741549015045,
      "learning_rate": 0.0005592439989528272,
      "loss": 1.7083,
      "step": 15136
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4198129177093506,
      "learning_rate": 0.0005592387388718963,
      "loss": 1.6863,
      "step": 15137
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3821658492088318,
      "learning_rate": 0.0005592334784762877,
      "loss": 1.7605,
      "step": 15138
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38203874230384827,
      "learning_rate": 0.0005592282177660079,
      "loss": 1.7356,
      "step": 15139
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3776436150074005,
      "learning_rate": 0.0005592229567410631,
      "loss": 1.6368,
      "step": 15140
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3835097849369049,
      "learning_rate": 0.0005592176954014599,
      "loss": 1.6861,
      "step": 15141
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39678898453712463,
      "learning_rate": 0.0005592124337472047,
      "loss": 1.7159,
      "step": 15142
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36744043231010437,
      "learning_rate": 0.0005592071717783038,
      "loss": 1.6588,
      "step": 15143
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3763628304004669,
      "learning_rate": 0.0005592019094947634,
      "loss": 1.6855,
      "step": 15144
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3896632492542267,
      "learning_rate": 0.0005591966468965902,
      "loss": 1.6777,
      "step": 15145
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3894098699092865,
      "learning_rate": 0.0005591913839837905,
      "loss": 1.6491,
      "step": 15146
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37462422251701355,
      "learning_rate": 0.0005591861207563705,
      "loss": 1.7324,
      "step": 15147
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3823333978652954,
      "learning_rate": 0.0005591808572143369,
      "loss": 1.7123,
      "step": 15148
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39241909980773926,
      "learning_rate": 0.000559175593357696,
      "loss": 1.6857,
      "step": 15149
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37175530195236206,
      "learning_rate": 0.0005591703291864539,
      "loss": 1.7471,
      "step": 15150
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38787350058555603,
      "learning_rate": 0.0005591650647006173,
      "loss": 1.7246,
      "step": 15151
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3895021975040436,
      "learning_rate": 0.0005591597999001925,
      "loss": 1.7266,
      "step": 15152
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4078763425350189,
      "learning_rate": 0.0005591545347851858,
      "loss": 1.701,
      "step": 15153
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38831260800361633,
      "learning_rate": 0.0005591492693556038,
      "loss": 1.7317,
      "step": 15154
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39249569177627563,
      "learning_rate": 0.0005591440036114527,
      "loss": 1.7451,
      "step": 15155
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38335105776786804,
      "learning_rate": 0.0005591387375527391,
      "loss": 1.7627,
      "step": 15156
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3869533836841583,
      "learning_rate": 0.0005591334711794691,
      "loss": 1.6709,
      "step": 15157
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37595486640930176,
      "learning_rate": 0.0005591282044916493,
      "loss": 1.7387,
      "step": 15158
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38764914870262146,
      "learning_rate": 0.000559122937489286,
      "loss": 1.7767,
      "step": 15159
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3956666588783264,
      "learning_rate": 0.0005591176701723857,
      "loss": 1.7109,
      "step": 15160
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38215136528015137,
      "learning_rate": 0.0005591124025409547,
      "loss": 1.7056,
      "step": 15161
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3813406527042389,
      "learning_rate": 0.0005591071345949994,
      "loss": 1.7125,
      "step": 15162
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37869545817375183,
      "learning_rate": 0.0005591018663345263,
      "loss": 1.8059,
      "step": 15163
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3851448893547058,
      "learning_rate": 0.0005590965977595417,
      "loss": 1.7099,
      "step": 15164
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38892224431037903,
      "learning_rate": 0.0005590913288700519,
      "loss": 1.7585,
      "step": 15165
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3828577995300293,
      "learning_rate": 0.0005590860596660634,
      "loss": 1.7084,
      "step": 15166
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.378776490688324,
      "learning_rate": 0.0005590807901475827,
      "loss": 1.7498,
      "step": 15167
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38132816553115845,
      "learning_rate": 0.0005590755203146161,
      "loss": 1.7762,
      "step": 15168
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38087067008018494,
      "learning_rate": 0.0005590702501671698,
      "loss": 1.695,
      "step": 15169
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.38246282935142517,
      "learning_rate": 0.0005590649797052506,
      "loss": 1.7117,
      "step": 15170
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3867846131324768,
      "learning_rate": 0.0005590597089288646,
      "loss": 1.6845,
      "step": 15171
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3818703591823578,
      "learning_rate": 0.0005590544378380182,
      "loss": 1.7776,
      "step": 15172
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5109760761260986,
      "learning_rate": 0.000559049166432718,
      "loss": 1.8086,
      "step": 15173
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3895377814769745,
      "learning_rate": 0.0005590438947129703,
      "loss": 1.7421,
      "step": 15174
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3782444894313812,
      "learning_rate": 0.0005590386226787815,
      "loss": 1.7327,
      "step": 15175
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37211036682128906,
      "learning_rate": 0.0005590333503301578,
      "loss": 1.7458,
      "step": 15176
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.371925413608551,
      "learning_rate": 0.000559028077667106,
      "loss": 1.7121,
      "step": 15177
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37558677792549133,
      "learning_rate": 0.0005590228046896323,
      "loss": 1.6355,
      "step": 15178
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36955973505973816,
      "learning_rate": 0.0005590175313977428,
      "loss": 1.665,
      "step": 15179
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36606565117836,
      "learning_rate": 0.0005590122577914443,
      "loss": 1.7244,
      "step": 15180
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37916263937950134,
      "learning_rate": 0.0005590069838707431,
      "loss": 1.7908,
      "step": 15181
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3829748332500458,
      "learning_rate": 0.0005590017096356457,
      "loss": 1.6389,
      "step": 15182
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3726848363876343,
      "learning_rate": 0.0005589964350861584,
      "loss": 1.7256,
      "step": 15183
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3750483989715576,
      "learning_rate": 0.0005589911602222874,
      "loss": 1.7407,
      "step": 15184
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3786151707172394,
      "learning_rate": 0.0005589858850440394,
      "loss": 1.7159,
      "step": 15185
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37566664814949036,
      "learning_rate": 0.0005589806095514206,
      "loss": 1.698,
      "step": 15186
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3753923177719116,
      "learning_rate": 0.0005589753337444375,
      "loss": 1.637,
      "step": 15187
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3848925828933716,
      "learning_rate": 0.0005589700576230967,
      "loss": 1.7563,
      "step": 15188
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3756043612957001,
      "learning_rate": 0.0005589647811874043,
      "loss": 1.7401,
      "step": 15189
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3867301940917969,
      "learning_rate": 0.0005589595044373667,
      "loss": 1.7845,
      "step": 15190
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3771708309650421,
      "learning_rate": 0.0005589542273729906,
      "loss": 1.7105,
      "step": 15191
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.393058180809021,
      "learning_rate": 0.0005589489499942821,
      "loss": 1.755,
      "step": 15192
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3695696294307709,
      "learning_rate": 0.0005589436723012478,
      "loss": 1.7378,
      "step": 15193
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3826911449432373,
      "learning_rate": 0.000558938394293894,
      "loss": 1.7075,
      "step": 15194
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3800218403339386,
      "learning_rate": 0.0005589331159722271,
      "loss": 1.7432,
      "step": 15195
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3903302848339081,
      "learning_rate": 0.0005589278373362536,
      "loss": 1.661,
      "step": 15196
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3779989182949066,
      "learning_rate": 0.0005589225583859798,
      "loss": 1.7322,
      "step": 15197
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4056812822818756,
      "learning_rate": 0.0005589172791214122,
      "loss": 1.7419,
      "step": 15198
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4130118489265442,
      "learning_rate": 0.0005589119995425573,
      "loss": 1.719,
      "step": 15199
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39965400099754333,
      "learning_rate": 0.0005589067196494213,
      "loss": 1.7421,
      "step": 15200
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4036612808704376,
      "learning_rate": 0.0005589014394420106,
      "loss": 1.7922,
      "step": 15201
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3822845220565796,
      "learning_rate": 0.0005588961589203318,
      "loss": 1.6364,
      "step": 15202
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39773911237716675,
      "learning_rate": 0.000558890878084391,
      "loss": 1.7032,
      "step": 15203
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3743886649608612,
      "learning_rate": 0.0005588855969341951,
      "loss": 1.7399,
      "step": 15204
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3759806156158447,
      "learning_rate": 0.00055888031546975,
      "loss": 1.7058,
      "step": 15205
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39897310733795166,
      "learning_rate": 0.0005588750336910625,
      "loss": 1.6558,
      "step": 15206
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39240413904190063,
      "learning_rate": 0.0005588697515981388,
      "loss": 1.6836,
      "step": 15207
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3823804557323456,
      "learning_rate": 0.0005588644691909854,
      "loss": 1.8264,
      "step": 15208
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4133552014827728,
      "learning_rate": 0.0005588591864696087,
      "loss": 1.7859,
      "step": 15209
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3957221806049347,
      "learning_rate": 0.000558853903434015,
      "loss": 1.7041,
      "step": 15210
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.388093501329422,
      "learning_rate": 0.0005588486200842109,
      "loss": 1.7426,
      "step": 15211
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38478606939315796,
      "learning_rate": 0.0005588433364202026,
      "loss": 1.8228,
      "step": 15212
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4056239128112793,
      "learning_rate": 0.0005588380524419967,
      "loss": 1.6829,
      "step": 15213
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39143773913383484,
      "learning_rate": 0.0005588327681495996,
      "loss": 1.7673,
      "step": 15214
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3702971637248993,
      "learning_rate": 0.0005588274835430175,
      "loss": 1.7071,
      "step": 15215
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37025922536849976,
      "learning_rate": 0.000558822198622257,
      "loss": 1.7092,
      "step": 15216
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3792091906070709,
      "learning_rate": 0.0005588169133873246,
      "loss": 1.6877,
      "step": 15217
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3812464475631714,
      "learning_rate": 0.0005588116278382265,
      "loss": 1.6493,
      "step": 15218
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3876534700393677,
      "learning_rate": 0.0005588063419749693,
      "loss": 1.7645,
      "step": 15219
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3883278965950012,
      "learning_rate": 0.0005588010557975593,
      "loss": 1.7494,
      "step": 15220
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3752792775630951,
      "learning_rate": 0.000558795769306003,
      "loss": 1.7165,
      "step": 15221
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3887527883052826,
      "learning_rate": 0.0005587904825003066,
      "loss": 1.747,
      "step": 15222
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3896760940551758,
      "learning_rate": 0.0005587851953804769,
      "loss": 1.8113,
      "step": 15223
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.366493284702301,
      "learning_rate": 0.00055877990794652,
      "loss": 1.6501,
      "step": 15224
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39293575286865234,
      "learning_rate": 0.0005587746201984424,
      "loss": 1.7409,
      "step": 15225
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3748991787433624,
      "learning_rate": 0.0005587693321362506,
      "loss": 1.7199,
      "step": 15226
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37541061639785767,
      "learning_rate": 0.0005587640437599509,
      "loss": 1.7439,
      "step": 15227
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3771480321884155,
      "learning_rate": 0.0005587587550695498,
      "loss": 1.7636,
      "step": 15228
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38213884830474854,
      "learning_rate": 0.0005587534660650537,
      "loss": 1.7583,
      "step": 15229
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38044536113739014,
      "learning_rate": 0.000558748176746469,
      "loss": 1.6803,
      "step": 15230
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3642705976963043,
      "learning_rate": 0.0005587428871138021,
      "loss": 1.7022,
      "step": 15231
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4574398696422577,
      "learning_rate": 0.0005587375971670595,
      "loss": 1.7322,
      "step": 15232
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38413891196250916,
      "learning_rate": 0.0005587323069062476,
      "loss": 1.7511,
      "step": 15233
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36549726128578186,
      "learning_rate": 0.0005587270163313729,
      "loss": 1.6839,
      "step": 15234
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3817252516746521,
      "learning_rate": 0.0005587217254424416,
      "loss": 1.7324,
      "step": 15235
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3820459246635437,
      "learning_rate": 0.0005587164342394602,
      "loss": 1.7158,
      "step": 15236
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3799189329147339,
      "learning_rate": 0.0005587111427224353,
      "loss": 1.7218,
      "step": 15237
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38571128249168396,
      "learning_rate": 0.000558705850891373,
      "loss": 1.7422,
      "step": 15238
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3929077982902527,
      "learning_rate": 0.0005587005587462801,
      "loss": 1.7276,
      "step": 15239
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3769402801990509,
      "learning_rate": 0.0005586952662871628,
      "loss": 1.7717,
      "step": 15240
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3980332612991333,
      "learning_rate": 0.0005586899735140275,
      "loss": 1.6751,
      "step": 15241
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.392069011926651,
      "learning_rate": 0.0005586846804268807,
      "loss": 1.7119,
      "step": 15242
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39821672439575195,
      "learning_rate": 0.0005586793870257289,
      "loss": 1.7592,
      "step": 15243
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3645898103713989,
      "learning_rate": 0.0005586740933105784,
      "loss": 1.7037,
      "step": 15244
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3920533359050751,
      "learning_rate": 0.0005586687992814356,
      "loss": 1.7246,
      "step": 15245
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38420411944389343,
      "learning_rate": 0.000558663504938307,
      "loss": 1.7062,
      "step": 15246
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37164074182510376,
      "learning_rate": 0.0005586582102811991,
      "loss": 1.7402,
      "step": 15247
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38511693477630615,
      "learning_rate": 0.0005586529153101183,
      "loss": 1.7417,
      "step": 15248
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.389967679977417,
      "learning_rate": 0.0005586476200250708,
      "loss": 1.7183,
      "step": 15249
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39654743671417236,
      "learning_rate": 0.0005586423244260633,
      "loss": 1.7791,
      "step": 15250
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3800755441188812,
      "learning_rate": 0.0005586370285131021,
      "loss": 1.7167,
      "step": 15251
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38177570700645447,
      "learning_rate": 0.0005586317322861936,
      "loss": 1.7412,
      "step": 15252
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38633787631988525,
      "learning_rate": 0.0005586264357453443,
      "loss": 1.7183,
      "step": 15253
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39404532313346863,
      "learning_rate": 0.0005586211388905608,
      "loss": 1.7191,
      "step": 15254
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3865167796611786,
      "learning_rate": 0.0005586158417218491,
      "loss": 1.7448,
      "step": 15255
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3789909780025482,
      "learning_rate": 0.000558610544239216,
      "loss": 1.7253,
      "step": 15256
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39450839161872864,
      "learning_rate": 0.0005586052464426677,
      "loss": 1.6996,
      "step": 15257
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3960719704627991,
      "learning_rate": 0.0005585999483322108,
      "loss": 1.7855,
      "step": 15258
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3922656774520874,
      "learning_rate": 0.0005585946499078517,
      "loss": 1.7581,
      "step": 15259
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3847026526927948,
      "learning_rate": 0.0005585893511695967,
      "loss": 1.7733,
      "step": 15260
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39688020944595337,
      "learning_rate": 0.0005585840521174525,
      "loss": 1.7371,
      "step": 15261
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38015609979629517,
      "learning_rate": 0.0005585787527514253,
      "loss": 1.6892,
      "step": 15262
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38271358609199524,
      "learning_rate": 0.0005585734530715215,
      "loss": 1.6318,
      "step": 15263
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39606475830078125,
      "learning_rate": 0.0005585681530777477,
      "loss": 1.7382,
      "step": 15264
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4029289782047272,
      "learning_rate": 0.0005585628527701102,
      "loss": 1.729,
      "step": 15265
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39101114869117737,
      "learning_rate": 0.0005585575521486156,
      "loss": 1.7366,
      "step": 15266
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3889714181423187,
      "learning_rate": 0.0005585522512132702,
      "loss": 1.7063,
      "step": 15267
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3772686719894409,
      "learning_rate": 0.0005585469499640803,
      "loss": 1.6511,
      "step": 15268
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37728649377822876,
      "learning_rate": 0.0005585416484010528,
      "loss": 1.7278,
      "step": 15269
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37435072660446167,
      "learning_rate": 0.0005585363465241936,
      "loss": 1.7235,
      "step": 15270
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37744465470314026,
      "learning_rate": 0.0005585310443335094,
      "loss": 1.7243,
      "step": 15271
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3983594477176666,
      "learning_rate": 0.0005585257418290067,
      "loss": 1.7259,
      "step": 15272
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39453551173210144,
      "learning_rate": 0.0005585204390106917,
      "loss": 1.7327,
      "step": 15273
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3857020437717438,
      "learning_rate": 0.000558515135878571,
      "loss": 1.7628,
      "step": 15274
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39083176851272583,
      "learning_rate": 0.0005585098324326511,
      "loss": 1.7593,
      "step": 15275
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38192319869995117,
      "learning_rate": 0.0005585045286729384,
      "loss": 1.7138,
      "step": 15276
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38728445768356323,
      "learning_rate": 0.0005584992245994392,
      "loss": 1.7192,
      "step": 15277
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39422130584716797,
      "learning_rate": 0.00055849392021216,
      "loss": 1.6607,
      "step": 15278
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.386585533618927,
      "learning_rate": 0.0005584886155111074,
      "loss": 1.6803,
      "step": 15279
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3984108567237854,
      "learning_rate": 0.0005584833104962875,
      "loss": 1.6763,
      "step": 15280
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39939752221107483,
      "learning_rate": 0.000558478005167707,
      "loss": 1.7235,
      "step": 15281
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.41655391454696655,
      "learning_rate": 0.0005584726995253725,
      "loss": 1.7164,
      "step": 15282
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.42742443084716797,
      "learning_rate": 0.00055846739356929,
      "loss": 1.7874,
      "step": 15283
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38312003016471863,
      "learning_rate": 0.0005584620872994662,
      "loss": 1.75,
      "step": 15284
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4163970947265625,
      "learning_rate": 0.0005584567807159076,
      "loss": 1.7065,
      "step": 15285
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4027385711669922,
      "learning_rate": 0.0005584514738186206,
      "loss": 1.7104,
      "step": 15286
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3748970627784729,
      "learning_rate": 0.0005584461666076114,
      "loss": 1.7099,
      "step": 15287
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3981802761554718,
      "learning_rate": 0.0005584408590828866,
      "loss": 1.6923,
      "step": 15288
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3879922926425934,
      "learning_rate": 0.0005584355512444529,
      "loss": 1.7396,
      "step": 15289
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37833723425865173,
      "learning_rate": 0.0005584302430923165,
      "loss": 1.6586,
      "step": 15290
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3826589286327362,
      "learning_rate": 0.0005584249346264838,
      "loss": 1.7384,
      "step": 15291
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3872550129890442,
      "learning_rate": 0.0005584196258469613,
      "loss": 1.7297,
      "step": 15292
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3798943758010864,
      "learning_rate": 0.0005584143167537554,
      "loss": 1.7214,
      "step": 15293
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.41380172967910767,
      "learning_rate": 0.0005584090073468726,
      "loss": 1.7098,
      "step": 15294
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37291020154953003,
      "learning_rate": 0.0005584036976263194,
      "loss": 1.6471,
      "step": 15295
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39172235131263733,
      "learning_rate": 0.0005583983875921022,
      "loss": 1.6917,
      "step": 15296
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3973802924156189,
      "learning_rate": 0.0005583930772442274,
      "loss": 1.7127,
      "step": 15297
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36990272998809814,
      "learning_rate": 0.0005583877665827014,
      "loss": 1.7567,
      "step": 15298
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37367624044418335,
      "learning_rate": 0.0005583824556075308,
      "loss": 1.6522,
      "step": 15299
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3816501796245575,
      "learning_rate": 0.000558377144318722,
      "loss": 1.7638,
      "step": 15300
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3860611319541931,
      "learning_rate": 0.0005583718327162813,
      "loss": 1.7876,
      "step": 15301
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37944310903549194,
      "learning_rate": 0.0005583665208002154,
      "loss": 1.6819,
      "step": 15302
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37619495391845703,
      "learning_rate": 0.0005583612085705306,
      "loss": 1.7914,
      "step": 15303
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37530624866485596,
      "learning_rate": 0.0005583558960272333,
      "loss": 1.7393,
      "step": 15304
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.382283091545105,
      "learning_rate": 0.00055835058317033,
      "loss": 1.7111,
      "step": 15305
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3783378005027771,
      "learning_rate": 0.0005583452699998272,
      "loss": 1.7069,
      "step": 15306
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38194137811660767,
      "learning_rate": 0.0005583399565157312,
      "loss": 1.7446,
      "step": 15307
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37074652314186096,
      "learning_rate": 0.0005583346427180488,
      "loss": 1.7463,
      "step": 15308
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38234400749206543,
      "learning_rate": 0.000558329328606786,
      "loss": 1.7583,
      "step": 15309
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3773462176322937,
      "learning_rate": 0.0005583240141819495,
      "loss": 1.7371,
      "step": 15310
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37467390298843384,
      "learning_rate": 0.0005583186994435458,
      "loss": 1.7354,
      "step": 15311
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37623152136802673,
      "learning_rate": 0.0005583133843915812,
      "loss": 1.7065,
      "step": 15312
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3826080858707428,
      "learning_rate": 0.0005583080690260621,
      "loss": 1.7834,
      "step": 15313
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39223945140838623,
      "learning_rate": 0.0005583027533469952,
      "loss": 1.7744,
      "step": 15314
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3735910952091217,
      "learning_rate": 0.0005582974373543868,
      "loss": 1.7298,
      "step": 15315
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36828476190567017,
      "learning_rate": 0.0005582921210482434,
      "loss": 1.7627,
      "step": 15316
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3816739022731781,
      "learning_rate": 0.0005582868044285712,
      "loss": 1.7266,
      "step": 15317
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3769146800041199,
      "learning_rate": 0.0005582814874953772,
      "loss": 1.7341,
      "step": 15318
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37755724787712097,
      "learning_rate": 0.0005582761702486674,
      "loss": 1.6199,
      "step": 15319
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3749587833881378,
      "learning_rate": 0.0005582708526884483,
      "loss": 1.6892,
      "step": 15320
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39455270767211914,
      "learning_rate": 0.0005582655348147265,
      "loss": 1.7237,
      "step": 15321
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38551104068756104,
      "learning_rate": 0.0005582602166275085,
      "loss": 1.7805,
      "step": 15322
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3899937570095062,
      "learning_rate": 0.0005582548981268005,
      "loss": 1.7519,
      "step": 15323
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39583641290664673,
      "learning_rate": 0.0005582495793126091,
      "loss": 1.7553,
      "step": 15324
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39587023854255676,
      "learning_rate": 0.0005582442601849408,
      "loss": 1.7492,
      "step": 15325
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38015010952949524,
      "learning_rate": 0.000558238940743802,
      "loss": 1.7851,
      "step": 15326
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.45359838008880615,
      "learning_rate": 0.0005582336209891992,
      "loss": 1.7453,
      "step": 15327
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3918720483779907,
      "learning_rate": 0.0005582283009211388,
      "loss": 1.7262,
      "step": 15328
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3889039158821106,
      "learning_rate": 0.0005582229805396274,
      "loss": 1.6471,
      "step": 15329
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3907586634159088,
      "learning_rate": 0.0005582176598446713,
      "loss": 1.6921,
      "step": 15330
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37600988149642944,
      "learning_rate": 0.0005582123388362771,
      "loss": 1.7561,
      "step": 15331
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3766425848007202,
      "learning_rate": 0.000558207017514451,
      "loss": 1.7266,
      "step": 15332
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3923102021217346,
      "learning_rate": 0.0005582016958791997,
      "loss": 1.7683,
      "step": 15333
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.389785498380661,
      "learning_rate": 0.0005581963739305295,
      "loss": 1.7662,
      "step": 15334
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3862350881099701,
      "learning_rate": 0.000558191051668447,
      "loss": 1.7781,
      "step": 15335
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38837316632270813,
      "learning_rate": 0.0005581857290929586,
      "loss": 1.7736,
      "step": 15336
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3847225606441498,
      "learning_rate": 0.0005581804062040708,
      "loss": 1.7779,
      "step": 15337
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.398864209651947,
      "learning_rate": 0.00055817508300179,
      "loss": 1.7126,
      "step": 15338
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3736199736595154,
      "learning_rate": 0.0005581697594861227,
      "loss": 1.6965,
      "step": 15339
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39599207043647766,
      "learning_rate": 0.0005581644356570754,
      "loss": 1.8108,
      "step": 15340
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.41446825861930847,
      "learning_rate": 0.0005581591115146545,
      "loss": 1.6956,
      "step": 15341
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3763456344604492,
      "learning_rate": 0.0005581537870588664,
      "loss": 1.6743,
      "step": 15342
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4055555760860443,
      "learning_rate": 0.0005581484622897176,
      "loss": 1.7673,
      "step": 15343
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3859892189502716,
      "learning_rate": 0.0005581431372072148,
      "loss": 1.6336,
      "step": 15344
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4055665135383606,
      "learning_rate": 0.0005581378118113641,
      "loss": 1.6672,
      "step": 15345
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38380786776542664,
      "learning_rate": 0.0005581324861021722,
      "loss": 1.7012,
      "step": 15346
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3883664309978485,
      "learning_rate": 0.0005581271600796455,
      "loss": 1.759,
      "step": 15347
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4133610725402832,
      "learning_rate": 0.0005581218337437904,
      "loss": 1.6988,
      "step": 15348
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37688153982162476,
      "learning_rate": 0.0005581165070946135,
      "loss": 1.6974,
      "step": 15349
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37173300981521606,
      "learning_rate": 0.0005581111801321212,
      "loss": 1.7539,
      "step": 15350
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3818906545639038,
      "learning_rate": 0.0005581058528563199,
      "loss": 1.7019,
      "step": 15351
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3845275044441223,
      "learning_rate": 0.0005581005252672161,
      "loss": 1.7447,
      "step": 15352
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37511295080184937,
      "learning_rate": 0.0005580951973648163,
      "loss": 1.6821,
      "step": 15353
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3970078229904175,
      "learning_rate": 0.000558089869149127,
      "loss": 1.6706,
      "step": 15354
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36347657442092896,
      "learning_rate": 0.0005580845406201547,
      "loss": 1.644,
      "step": 15355
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39774972200393677,
      "learning_rate": 0.0005580792117779056,
      "loss": 1.7293,
      "step": 15356
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38977473974227905,
      "learning_rate": 0.0005580738826223865,
      "loss": 1.7507,
      "step": 15357
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3723810315132141,
      "learning_rate": 0.0005580685531536038,
      "loss": 1.6802,
      "step": 15358
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38024020195007324,
      "learning_rate": 0.0005580632233715638,
      "loss": 1.6646,
      "step": 15359
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37870386242866516,
      "learning_rate": 0.0005580578932762731,
      "loss": 1.7212,
      "step": 15360
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37154340744018555,
      "learning_rate": 0.0005580525628677381,
      "loss": 1.7846,
      "step": 15361
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3883453905582428,
      "learning_rate": 0.0005580472321459653,
      "loss": 1.722,
      "step": 15362
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37864306569099426,
      "learning_rate": 0.0005580419011109612,
      "loss": 1.6717,
      "step": 15363
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39026620984077454,
      "learning_rate": 0.0005580365697627323,
      "loss": 1.6744,
      "step": 15364
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3802407681941986,
      "learning_rate": 0.000558031238101285,
      "loss": 1.7023,
      "step": 15365
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3931087553501129,
      "learning_rate": 0.0005580259061266259,
      "loss": 1.7696,
      "step": 15366
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39890092611312866,
      "learning_rate": 0.0005580205738387611,
      "loss": 1.8201,
      "step": 15367
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3851334750652313,
      "learning_rate": 0.0005580152412376975,
      "loss": 1.7327,
      "step": 15368
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36786529421806335,
      "learning_rate": 0.0005580099083234415,
      "loss": 1.7158,
      "step": 15369
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.392463356256485,
      "learning_rate": 0.0005580045750959993,
      "loss": 1.7162,
      "step": 15370
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3769012987613678,
      "learning_rate": 0.0005579992415553777,
      "loss": 1.6512,
      "step": 15371
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38094884157180786,
      "learning_rate": 0.000557993907701583,
      "loss": 1.7237,
      "step": 15372
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3869111239910126,
      "learning_rate": 0.0005579885735346217,
      "loss": 1.7539,
      "step": 15373
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38170573115348816,
      "learning_rate": 0.0005579832390545002,
      "loss": 1.6916,
      "step": 15374
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3784758150577545,
      "learning_rate": 0.0005579779042612252,
      "loss": 1.7567,
      "step": 15375
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3833181858062744,
      "learning_rate": 0.000557972569154803,
      "loss": 1.7385,
      "step": 15376
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37094512581825256,
      "learning_rate": 0.0005579672337352401,
      "loss": 1.6935,
      "step": 15377
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3723384141921997,
      "learning_rate": 0.000557961898002543,
      "loss": 1.6604,
      "step": 15378
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37545689940452576,
      "learning_rate": 0.0005579565619567181,
      "loss": 1.6979,
      "step": 15379
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.372905969619751,
      "learning_rate": 0.000557951225597772,
      "loss": 1.6706,
      "step": 15380
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3829268217086792,
      "learning_rate": 0.0005579458889257112,
      "loss": 1.7096,
      "step": 15381
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39303097128868103,
      "learning_rate": 0.0005579405519405419,
      "loss": 1.7343,
      "step": 15382
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.376460999250412,
      "learning_rate": 0.0005579352146422709,
      "loss": 1.6723,
      "step": 15383
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38071346282958984,
      "learning_rate": 0.0005579298770309046,
      "loss": 1.7107,
      "step": 15384
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39839714765548706,
      "learning_rate": 0.0005579245391064493,
      "loss": 1.7171,
      "step": 15385
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39155223965644836,
      "learning_rate": 0.0005579192008689117,
      "loss": 1.7442,
      "step": 15386
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39466363191604614,
      "learning_rate": 0.0005579138623182982,
      "loss": 1.8009,
      "step": 15387
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3901028335094452,
      "learning_rate": 0.0005579085234546152,
      "loss": 1.7714,
      "step": 15388
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3904471695423126,
      "learning_rate": 0.0005579031842778693,
      "loss": 1.7447,
      "step": 15389
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3892347812652588,
      "learning_rate": 0.000557897844788067,
      "loss": 1.6574,
      "step": 15390
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37973400950431824,
      "learning_rate": 0.0005578925049852146,
      "loss": 1.7243,
      "step": 15391
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3720794916152954,
      "learning_rate": 0.0005578871648693188,
      "loss": 1.7661,
      "step": 15392
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3795583248138428,
      "learning_rate": 0.0005578818244403858,
      "loss": 1.7537,
      "step": 15393
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3784373700618744,
      "learning_rate": 0.0005578764836984225,
      "loss": 1.7293,
      "step": 15394
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3964463770389557,
      "learning_rate": 0.0005578711426434351,
      "loss": 1.722,
      "step": 15395
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37955179810523987,
      "learning_rate": 0.00055786580127543,
      "loss": 1.6947,
      "step": 15396
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37999653816223145,
      "learning_rate": 0.0005578604595944139,
      "loss": 1.7435,
      "step": 15397
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4037872552871704,
      "learning_rate": 0.0005578551176003932,
      "loss": 1.723,
      "step": 15398
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3877270519733429,
      "learning_rate": 0.0005578497752933743,
      "loss": 1.6961,
      "step": 15399
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38009583950042725,
      "learning_rate": 0.0005578444326733639,
      "loss": 1.73,
      "step": 15400
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37038224935531616,
      "learning_rate": 0.0005578390897403682,
      "loss": 1.7428,
      "step": 15401
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3725925385951996,
      "learning_rate": 0.000557833746494394,
      "loss": 1.648,
      "step": 15402
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3985287547111511,
      "learning_rate": 0.0005578284029354474,
      "loss": 1.6632,
      "step": 15403
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3911891579627991,
      "learning_rate": 0.0005578230590635352,
      "loss": 1.7545,
      "step": 15404
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3689804673194885,
      "learning_rate": 0.0005578177148786639,
      "loss": 1.7312,
      "step": 15405
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3668661415576935,
      "learning_rate": 0.0005578123703808398,
      "loss": 1.6906,
      "step": 15406
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3975982367992401,
      "learning_rate": 0.0005578070255700695,
      "loss": 1.6775,
      "step": 15407
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3889666497707367,
      "learning_rate": 0.0005578016804463594,
      "loss": 1.7171,
      "step": 15408
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37401124835014343,
      "learning_rate": 0.0005577963350097161,
      "loss": 1.7792,
      "step": 15409
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37975165247917175,
      "learning_rate": 0.000557790989260146,
      "loss": 1.689,
      "step": 15410
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.386442095041275,
      "learning_rate": 0.0005577856431976556,
      "loss": 1.7874,
      "step": 15411
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.40328383445739746,
      "learning_rate": 0.0005577802968222515,
      "loss": 1.6397,
      "step": 15412
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38198432326316833,
      "learning_rate": 0.0005577749501339401,
      "loss": 1.6964,
      "step": 15413
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37745413184165955,
      "learning_rate": 0.0005577696031327278,
      "loss": 1.7205,
      "step": 15414
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39556849002838135,
      "learning_rate": 0.0005577642558186213,
      "loss": 1.7297,
      "step": 15415
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3852393329143524,
      "learning_rate": 0.0005577589081916268,
      "loss": 1.7211,
      "step": 15416
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37511563301086426,
      "learning_rate": 0.0005577535602517512,
      "loss": 1.679,
      "step": 15417
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3987620770931244,
      "learning_rate": 0.0005577482119990004,
      "loss": 1.6674,
      "step": 15418
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37911927700042725,
      "learning_rate": 0.0005577428634333816,
      "loss": 1.7728,
      "step": 15419
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3731555938720703,
      "learning_rate": 0.0005577375145549008,
      "loss": 1.7931,
      "step": 15420
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3754860460758209,
      "learning_rate": 0.0005577321653635647,
      "loss": 1.7161,
      "step": 15421
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3769599497318268,
      "learning_rate": 0.0005577268158593797,
      "loss": 1.7254,
      "step": 15422
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3794383108615875,
      "learning_rate": 0.0005577214660423522,
      "loss": 1.7263,
      "step": 15423
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36786600947380066,
      "learning_rate": 0.0005577161159124889,
      "loss": 1.5959,
      "step": 15424
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38306424021720886,
      "learning_rate": 0.0005577107654697963,
      "loss": 1.6651,
      "step": 15425
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3917745053768158,
      "learning_rate": 0.0005577054147142806,
      "loss": 1.7277,
      "step": 15426
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.379142701625824,
      "learning_rate": 0.0005577000636459487,
      "loss": 1.7381,
      "step": 15427
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37570029497146606,
      "learning_rate": 0.0005576947122648068,
      "loss": 1.7532,
      "step": 15428
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3797546923160553,
      "learning_rate": 0.0005576893605708615,
      "loss": 1.7367,
      "step": 15429
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37731873989105225,
      "learning_rate": 0.0005576840085641193,
      "loss": 1.6208,
      "step": 15430
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.389087975025177,
      "learning_rate": 0.0005576786562445866,
      "loss": 1.7456,
      "step": 15431
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3696024417877197,
      "learning_rate": 0.00055767330361227,
      "loss": 1.7625,
      "step": 15432
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36652883887290955,
      "learning_rate": 0.000557667950667176,
      "loss": 1.6916,
      "step": 15433
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.386148601770401,
      "learning_rate": 0.0005576625974093111,
      "loss": 1.8322,
      "step": 15434
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38978812098503113,
      "learning_rate": 0.0005576572438386818,
      "loss": 1.7392,
      "step": 15435
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3798568546772003,
      "learning_rate": 0.0005576518899552945,
      "loss": 1.7778,
      "step": 15436
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38524970412254333,
      "learning_rate": 0.0005576465357591559,
      "loss": 1.7336,
      "step": 15437
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37383073568344116,
      "learning_rate": 0.0005576411812502722,
      "loss": 1.7107,
      "step": 15438
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38089340925216675,
      "learning_rate": 0.0005576358264286501,
      "loss": 1.786,
      "step": 15439
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3702612817287445,
      "learning_rate": 0.0005576304712942962,
      "loss": 1.7764,
      "step": 15440
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3862783908843994,
      "learning_rate": 0.0005576251158472167,
      "loss": 1.6767,
      "step": 15441
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3834945261478424,
      "learning_rate": 0.0005576197600874183,
      "loss": 1.7201,
      "step": 15442
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3831956386566162,
      "learning_rate": 0.0005576144040149076,
      "loss": 1.768,
      "step": 15443
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3706516921520233,
      "learning_rate": 0.0005576090476296908,
      "loss": 1.7357,
      "step": 15444
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3744351863861084,
      "learning_rate": 0.0005576036909317747,
      "loss": 1.7208,
      "step": 15445
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3952679932117462,
      "learning_rate": 0.0005575983339211656,
      "loss": 1.6849,
      "step": 15446
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3755035698413849,
      "learning_rate": 0.00055759297659787,
      "loss": 1.7928,
      "step": 15447
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37376493215560913,
      "learning_rate": 0.0005575876189618947,
      "loss": 1.7538,
      "step": 15448
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3755285143852234,
      "learning_rate": 0.0005575822610132459,
      "loss": 1.7251,
      "step": 15449
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3734632134437561,
      "learning_rate": 0.0005575769027519301,
      "loss": 1.6938,
      "step": 15450
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37290725111961365,
      "learning_rate": 0.000557571544177954,
      "loss": 1.6958,
      "step": 15451
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3752928674221039,
      "learning_rate": 0.0005575661852913239,
      "loss": 1.6946,
      "step": 15452
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3827984035015106,
      "learning_rate": 0.0005575608260920465,
      "loss": 1.7845,
      "step": 15453
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.44906991720199585,
      "learning_rate": 0.0005575554665801281,
      "loss": 1.8275,
      "step": 15454
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3603910803794861,
      "learning_rate": 0.0005575501067555754,
      "loss": 1.7159,
      "step": 15455
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3697323203086853,
      "learning_rate": 0.0005575447466183948,
      "loss": 1.6197,
      "step": 15456
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3759593069553375,
      "learning_rate": 0.0005575393861685928,
      "loss": 1.7269,
      "step": 15457
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3818530738353729,
      "learning_rate": 0.0005575340254061759,
      "loss": 1.7547,
      "step": 15458
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3663318455219269,
      "learning_rate": 0.0005575286643311507,
      "loss": 1.652,
      "step": 15459
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3852880299091339,
      "learning_rate": 0.0005575233029435237,
      "loss": 1.7489,
      "step": 15460
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.36983954906463623,
      "learning_rate": 0.0005575179412433013,
      "loss": 1.6745,
      "step": 15461
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3759610056877136,
      "learning_rate": 0.00055751257923049,
      "loss": 1.7006,
      "step": 15462
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37523525953292847,
      "learning_rate": 0.0005575072169050965,
      "loss": 1.5776,
      "step": 15463
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37081053853034973,
      "learning_rate": 0.000557501854267127,
      "loss": 1.7452,
      "step": 15464
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3861141800880432,
      "learning_rate": 0.0005574964913165883,
      "loss": 1.7825,
      "step": 15465
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3790886700153351,
      "learning_rate": 0.0005574911280534868,
      "loss": 1.7053,
      "step": 15466
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37887683510780334,
      "learning_rate": 0.000557485764477829,
      "loss": 1.7967,
      "step": 15467
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3670088052749634,
      "learning_rate": 0.0005574804005896214,
      "loss": 1.6326,
      "step": 15468
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.39067891240119934,
      "learning_rate": 0.0005574750363888705,
      "loss": 1.739,
      "step": 15469
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3878574073314667,
      "learning_rate": 0.0005574696718755829,
      "loss": 1.7645,
      "step": 15470
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3702569305896759,
      "learning_rate": 0.0005574643070497651,
      "loss": 1.6903,
      "step": 15471
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38007473945617676,
      "learning_rate": 0.0005574589419114235,
      "loss": 1.75,
      "step": 15472
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38305991888046265,
      "learning_rate": 0.0005574535764605647,
      "loss": 1.7701,
      "step": 15473
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37683942914009094,
      "learning_rate": 0.0005574482106971951,
      "loss": 1.785,
      "step": 15474
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3839799463748932,
      "learning_rate": 0.0005574428446213215,
      "loss": 1.723,
      "step": 15475
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3882746994495392,
      "learning_rate": 0.0005574374782329501,
      "loss": 1.7057,
      "step": 15476
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3723166882991791,
      "learning_rate": 0.0005574321115320875,
      "loss": 1.7044,
      "step": 15477
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.38814711570739746,
      "learning_rate": 0.0005574267445187404,
      "loss": 1.7208,
      "step": 15478
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.37483882904052734,
      "learning_rate": 0.000557421377192915,
      "loss": 1.6504,
      "step": 15479
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39305564761161804,
      "learning_rate": 0.000557416009554618,
      "loss": 1.7591,
      "step": 15480
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3785012662410736,
      "learning_rate": 0.0005574106416038559,
      "loss": 1.6749,
      "step": 15481
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3745376169681549,
      "learning_rate": 0.0005574052733406352,
      "loss": 1.8238,
      "step": 15482
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39831870794296265,
      "learning_rate": 0.0005573999047649625,
      "loss": 1.7235,
      "step": 15483
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38409122824668884,
      "learning_rate": 0.0005573945358768442,
      "loss": 1.6456,
      "step": 15484
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3641689717769623,
      "learning_rate": 0.0005573891666762869,
      "loss": 1.6488,
      "step": 15485
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3890638053417206,
      "learning_rate": 0.000557383797163297,
      "loss": 1.743,
      "step": 15486
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3684583604335785,
      "learning_rate": 0.0005573784273378812,
      "loss": 1.7002,
      "step": 15487
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37361791729927063,
      "learning_rate": 0.0005573730572000458,
      "loss": 1.754,
      "step": 15488
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3824465870857239,
      "learning_rate": 0.0005573676867497975,
      "loss": 1.6992,
      "step": 15489
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3858609199523926,
      "learning_rate": 0.0005573623159871428,
      "loss": 1.7075,
      "step": 15490
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38081905245780945,
      "learning_rate": 0.000557356944912088,
      "loss": 1.7126,
      "step": 15491
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3793615400791168,
      "learning_rate": 0.0005573515735246399,
      "loss": 1.7304,
      "step": 15492
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37648501992225647,
      "learning_rate": 0.0005573462018248049,
      "loss": 1.7369,
      "step": 15493
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38223588466644287,
      "learning_rate": 0.0005573408298125894,
      "loss": 1.747,
      "step": 15494
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3890199363231659,
      "learning_rate": 0.0005573354574880002,
      "loss": 1.7631,
      "step": 15495
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3762846887111664,
      "learning_rate": 0.0005573300848510437,
      "loss": 1.7417,
      "step": 15496
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37950557470321655,
      "learning_rate": 0.0005573247119017264,
      "loss": 1.7493,
      "step": 15497
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38089385628700256,
      "learning_rate": 0.0005573193386400546,
      "loss": 1.7218,
      "step": 15498
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37222176790237427,
      "learning_rate": 0.0005573139650660353,
      "loss": 1.6745,
      "step": 15499
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.368765264749527,
      "learning_rate": 0.0005573085911796746,
      "loss": 1.7493,
      "step": 15500
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3719604015350342,
      "learning_rate": 0.0005573032169809792,
      "loss": 1.7224,
      "step": 15501
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37802016735076904,
      "learning_rate": 0.0005572978424699557,
      "loss": 1.7305,
      "step": 15502
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3770100772380829,
      "learning_rate": 0.0005572924676466105,
      "loss": 1.708,
      "step": 15503
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38602709770202637,
      "learning_rate": 0.00055728709251095,
      "loss": 1.7406,
      "step": 15504
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3869125545024872,
      "learning_rate": 0.000557281717062981,
      "loss": 1.6476,
      "step": 15505
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3800783157348633,
      "learning_rate": 0.0005572763413027099,
      "loss": 1.6694,
      "step": 15506
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3765931725502014,
      "learning_rate": 0.0005572709652301432,
      "loss": 1.6379,
      "step": 15507
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3815649449825287,
      "learning_rate": 0.0005572655888452875,
      "loss": 1.7289,
      "step": 15508
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39374420046806335,
      "learning_rate": 0.0005572602121481493,
      "loss": 1.7523,
      "step": 15509
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39667919278144836,
      "learning_rate": 0.000557254835138735,
      "loss": 1.8127,
      "step": 15510
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3660101592540741,
      "learning_rate": 0.0005572494578170514,
      "loss": 1.757,
      "step": 15511
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39529821276664734,
      "learning_rate": 0.0005572440801831048,
      "loss": 1.7881,
      "step": 15512
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36827677488327026,
      "learning_rate": 0.0005572387022369017,
      "loss": 1.6739,
      "step": 15513
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3729783594608307,
      "learning_rate": 0.0005572333239784489,
      "loss": 1.6283,
      "step": 15514
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3828236758708954,
      "learning_rate": 0.0005572279454077525,
      "loss": 1.7413,
      "step": 15515
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3751598298549652,
      "learning_rate": 0.0005572225665248195,
      "loss": 1.7833,
      "step": 15516
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3715543746948242,
      "learning_rate": 0.0005572171873296561,
      "loss": 1.6553,
      "step": 15517
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5299765467643738,
      "learning_rate": 0.0005572118078222689,
      "loss": 1.7848,
      "step": 15518
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40534159541130066,
      "learning_rate": 0.0005572064280026645,
      "loss": 1.75,
      "step": 15519
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39099857211112976,
      "learning_rate": 0.0005572010478708493,
      "loss": 1.7071,
      "step": 15520
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39687806367874146,
      "learning_rate": 0.0005571956674268301,
      "loss": 1.7329,
      "step": 15521
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38510066270828247,
      "learning_rate": 0.0005571902866706132,
      "loss": 1.7711,
      "step": 15522
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38207992911338806,
      "learning_rate": 0.0005571849056022052,
      "loss": 1.6989,
      "step": 15523
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36482998728752136,
      "learning_rate": 0.0005571795242216125,
      "loss": 1.6401,
      "step": 15524
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37884142994880676,
      "learning_rate": 0.0005571741425288419,
      "loss": 1.7028,
      "step": 15525
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3851402997970581,
      "learning_rate": 0.0005571687605238996,
      "loss": 1.7084,
      "step": 15526
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39253178238868713,
      "learning_rate": 0.0005571633782067924,
      "loss": 1.785,
      "step": 15527
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39052796363830566,
      "learning_rate": 0.0005571579955775269,
      "loss": 1.7417,
      "step": 15528
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3756801187992096,
      "learning_rate": 0.0005571526126361094,
      "loss": 1.766,
      "step": 15529
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3696281313896179,
      "learning_rate": 0.0005571472293825465,
      "loss": 1.626,
      "step": 15530
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39884915947914124,
      "learning_rate": 0.0005571418458168447,
      "loss": 1.7632,
      "step": 15531
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3746657967567444,
      "learning_rate": 0.0005571364619390107,
      "loss": 1.7035,
      "step": 15532
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3713867962360382,
      "learning_rate": 0.0005571310777490508,
      "loss": 1.7001,
      "step": 15533
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3779427111148834,
      "learning_rate": 0.0005571256932469717,
      "loss": 1.7011,
      "step": 15534
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3760232627391815,
      "learning_rate": 0.0005571203084327799,
      "loss": 1.7259,
      "step": 15535
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38894033432006836,
      "learning_rate": 0.0005571149233064819,
      "loss": 1.7399,
      "step": 15536
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38278162479400635,
      "learning_rate": 0.0005571095378680842,
      "loss": 1.7452,
      "step": 15537
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38376325368881226,
      "learning_rate": 0.0005571041521175936,
      "loss": 1.7401,
      "step": 15538
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3686525225639343,
      "learning_rate": 0.0005570987660550163,
      "loss": 1.7078,
      "step": 15539
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3683241009712219,
      "learning_rate": 0.000557093379680359,
      "loss": 1.6958,
      "step": 15540
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37523096799850464,
      "learning_rate": 0.0005570879929936284,
      "loss": 1.7331,
      "step": 15541
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38173067569732666,
      "learning_rate": 0.0005570826059948306,
      "loss": 1.6653,
      "step": 15542
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.43621620535850525,
      "learning_rate": 0.0005570772186839725,
      "loss": 1.7707,
      "step": 15543
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39127063751220703,
      "learning_rate": 0.0005570718310610605,
      "loss": 1.7615,
      "step": 15544
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38173967599868774,
      "learning_rate": 0.0005570664431261012,
      "loss": 1.7446,
      "step": 15545
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3966164290904999,
      "learning_rate": 0.0005570610548791011,
      "loss": 1.7083,
      "step": 15546
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3899139165878296,
      "learning_rate": 0.0005570556663200668,
      "loss": 1.677,
      "step": 15547
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.41129186749458313,
      "learning_rate": 0.0005570502774490048,
      "loss": 1.6766,
      "step": 15548
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5428875684738159,
      "learning_rate": 0.0005570448882659217,
      "loss": 1.6969,
      "step": 15549
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37895748019218445,
      "learning_rate": 0.0005570394987708237,
      "loss": 1.7062,
      "step": 15550
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39695027470588684,
      "learning_rate": 0.0005570341089637179,
      "loss": 1.793,
      "step": 15551
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3879503607749939,
      "learning_rate": 0.0005570287188446105,
      "loss": 1.7625,
      "step": 15552
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37988725304603577,
      "learning_rate": 0.000557023328413508,
      "loss": 1.7951,
      "step": 15553
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3829766809940338,
      "learning_rate": 0.0005570179376704172,
      "loss": 1.8741,
      "step": 15554
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3969826400279999,
      "learning_rate": 0.0005570125466153444,
      "loss": 1.7673,
      "step": 15555
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39654746651649475,
      "learning_rate": 0.0005570071552482963,
      "loss": 1.7269,
      "step": 15556
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37479618191719055,
      "learning_rate": 0.0005570017635692793,
      "loss": 1.7462,
      "step": 15557
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3732224702835083,
      "learning_rate": 0.0005569963715783002,
      "loss": 1.6261,
      "step": 15558
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3940051794052124,
      "learning_rate": 0.0005569909792753652,
      "loss": 1.7559,
      "step": 15559
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38732582330703735,
      "learning_rate": 0.000556985586660481,
      "loss": 1.7895,
      "step": 15560
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36854052543640137,
      "learning_rate": 0.0005569801937336542,
      "loss": 1.7123,
      "step": 15561
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4075993597507477,
      "learning_rate": 0.0005569748004948914,
      "loss": 1.7788,
      "step": 15562
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39135897159576416,
      "learning_rate": 0.000556969406944199,
      "loss": 1.7537,
      "step": 15563
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3810557425022125,
      "learning_rate": 0.0005569640130815835,
      "loss": 1.697,
      "step": 15564
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37474530935287476,
      "learning_rate": 0.0005569586189070517,
      "loss": 1.6777,
      "step": 15565
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38270479440689087,
      "learning_rate": 0.0005569532244206099,
      "loss": 1.6989,
      "step": 15566
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3815767168998718,
      "learning_rate": 0.0005569478296222648,
      "loss": 1.7417,
      "step": 15567
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37874069809913635,
      "learning_rate": 0.0005569424345120229,
      "loss": 1.7714,
      "step": 15568
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3845464885234833,
      "learning_rate": 0.0005569370390898907,
      "loss": 1.6977,
      "step": 15569
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38109612464904785,
      "learning_rate": 0.0005569316433558749,
      "loss": 1.678,
      "step": 15570
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4035571813583374,
      "learning_rate": 0.0005569262473099818,
      "loss": 1.7896,
      "step": 15571
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39098119735717773,
      "learning_rate": 0.000556920850952218,
      "loss": 1.7149,
      "step": 15572
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38609766960144043,
      "learning_rate": 0.0005569154542825903,
      "loss": 1.7389,
      "step": 15573
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3748660981655121,
      "learning_rate": 0.0005569100573011051,
      "loss": 1.6975,
      "step": 15574
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.400788277387619,
      "learning_rate": 0.000556904660007769,
      "loss": 1.6786,
      "step": 15575
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4036489725112915,
      "learning_rate": 0.0005568992624025884,
      "loss": 1.692,
      "step": 15576
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3806908130645752,
      "learning_rate": 0.00055689386448557,
      "loss": 1.7414,
      "step": 15577
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3843280076980591,
      "learning_rate": 0.0005568884662567203,
      "loss": 1.7325,
      "step": 15578
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3979956805706024,
      "learning_rate": 0.0005568830677160458,
      "loss": 1.8172,
      "step": 15579
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40288665890693665,
      "learning_rate": 0.0005568776688635531,
      "loss": 1.7608,
      "step": 15580
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3931584060192108,
      "learning_rate": 0.0005568722696992488,
      "loss": 1.7031,
      "step": 15581
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37671858072280884,
      "learning_rate": 0.0005568668702231394,
      "loss": 1.7565,
      "step": 15582
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40070539712905884,
      "learning_rate": 0.0005568614704352315,
      "loss": 1.7478,
      "step": 15583
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3961108922958374,
      "learning_rate": 0.0005568560703355316,
      "loss": 1.7619,
      "step": 15584
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38287147879600525,
      "learning_rate": 0.0005568506699240463,
      "loss": 1.6857,
      "step": 15585
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37237969040870667,
      "learning_rate": 0.000556845269200782,
      "loss": 1.725,
      "step": 15586
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3766574263572693,
      "learning_rate": 0.0005568398681657455,
      "loss": 1.6918,
      "step": 15587
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38938671350479126,
      "learning_rate": 0.0005568344668189433,
      "loss": 1.7631,
      "step": 15588
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38375717401504517,
      "learning_rate": 0.0005568290651603818,
      "loss": 1.7203,
      "step": 15589
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39028069376945496,
      "learning_rate": 0.0005568236631900677,
      "loss": 1.7001,
      "step": 15590
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3850925862789154,
      "learning_rate": 0.0005568182609080075,
      "loss": 1.6636,
      "step": 15591
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3715355098247528,
      "learning_rate": 0.0005568128583142077,
      "loss": 1.7693,
      "step": 15592
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4009837508201599,
      "learning_rate": 0.000556807455408675,
      "loss": 1.7307,
      "step": 15593
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3845800757408142,
      "learning_rate": 0.0005568020521914159,
      "loss": 1.737,
      "step": 15594
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39501312375068665,
      "learning_rate": 0.0005567966486624369,
      "loss": 1.702,
      "step": 15595
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38891738653182983,
      "learning_rate": 0.0005567912448217447,
      "loss": 1.8558,
      "step": 15596
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38754695653915405,
      "learning_rate": 0.0005567858406693457,
      "loss": 1.6993,
      "step": 15597
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37606117129325867,
      "learning_rate": 0.0005567804362052465,
      "loss": 1.6269,
      "step": 15598
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4148777425289154,
      "learning_rate": 0.0005567750314294537,
      "loss": 1.7762,
      "step": 15599
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37231650948524475,
      "learning_rate": 0.000556769626341974,
      "loss": 1.7033,
      "step": 15600
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3709442913532257,
      "learning_rate": 0.0005567642209428136,
      "loss": 1.75,
      "step": 15601
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3892294764518738,
      "learning_rate": 0.0005567588152319793,
      "loss": 1.7309,
      "step": 15602
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38618892431259155,
      "learning_rate": 0.0005567534092094776,
      "loss": 1.7135,
      "step": 15603
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38016557693481445,
      "learning_rate": 0.0005567480028753153,
      "loss": 1.7259,
      "step": 15604
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3726152777671814,
      "learning_rate": 0.0005567425962294985,
      "loss": 1.6321,
      "step": 15605
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3849184513092041,
      "learning_rate": 0.0005567371892720342,
      "loss": 1.6935,
      "step": 15606
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3800522983074188,
      "learning_rate": 0.0005567317820029286,
      "loss": 1.7443,
      "step": 15607
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38710975646972656,
      "learning_rate": 0.0005567263744221887,
      "loss": 1.803,
      "step": 15608
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37539151310920715,
      "learning_rate": 0.0005567209665298206,
      "loss": 1.7091,
      "step": 15609
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38786983489990234,
      "learning_rate": 0.0005567155583258312,
      "loss": 1.7358,
      "step": 15610
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3854854702949524,
      "learning_rate": 0.0005567101498102269,
      "loss": 1.7115,
      "step": 15611
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3654331564903259,
      "learning_rate": 0.0005567047409830142,
      "loss": 1.6955,
      "step": 15612
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4768886864185333,
      "learning_rate": 0.0005566993318441999,
      "loss": 1.7014,
      "step": 15613
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3653298318386078,
      "learning_rate": 0.0005566939223937904,
      "loss": 1.7131,
      "step": 15614
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3717402517795563,
      "learning_rate": 0.0005566885126317922,
      "loss": 1.7263,
      "step": 15615
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3972877562046051,
      "learning_rate": 0.0005566831025582121,
      "loss": 1.7176,
      "step": 15616
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3770569860935211,
      "learning_rate": 0.0005566776921730565,
      "loss": 1.7444,
      "step": 15617
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37266549468040466,
      "learning_rate": 0.000556672281476332,
      "loss": 1.6827,
      "step": 15618
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3903585970401764,
      "learning_rate": 0.0005566668704680451,
      "loss": 1.7012,
      "step": 15619
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38289374113082886,
      "learning_rate": 0.0005566614591482025,
      "loss": 1.6866,
      "step": 15620
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3867260813713074,
      "learning_rate": 0.0005566560475168107,
      "loss": 1.7425,
      "step": 15621
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40313205122947693,
      "learning_rate": 0.0005566506355738763,
      "loss": 1.6811,
      "step": 15622
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36857593059539795,
      "learning_rate": 0.0005566452233194058,
      "loss": 1.6772,
      "step": 15623
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3721467852592468,
      "learning_rate": 0.0005566398107534058,
      "loss": 1.6773,
      "step": 15624
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3627215027809143,
      "learning_rate": 0.0005566343978758829,
      "loss": 1.6642,
      "step": 15625
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3778625428676605,
      "learning_rate": 0.0005566289846868437,
      "loss": 1.7318,
      "step": 15626
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3807445764541626,
      "learning_rate": 0.0005566235711862946,
      "loss": 1.7173,
      "step": 15627
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38786426186561584,
      "learning_rate": 0.0005566181573742424,
      "loss": 1.7234,
      "step": 15628
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3905273973941803,
      "learning_rate": 0.0005566127432506936,
      "loss": 1.731,
      "step": 15629
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37170299887657166,
      "learning_rate": 0.0005566073288156547,
      "loss": 1.7113,
      "step": 15630
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3864689767360687,
      "learning_rate": 0.0005566019140691323,
      "loss": 1.7654,
      "step": 15631
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39080047607421875,
      "learning_rate": 0.000556596499011133,
      "loss": 1.7651,
      "step": 15632
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37279829382896423,
      "learning_rate": 0.0005565910836416633,
      "loss": 1.7405,
      "step": 15633
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.371652752161026,
      "learning_rate": 0.0005565856679607299,
      "loss": 1.7177,
      "step": 15634
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38011640310287476,
      "learning_rate": 0.0005565802519683393,
      "loss": 1.8356,
      "step": 15635
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38754233717918396,
      "learning_rate": 0.000556574835664498,
      "loss": 1.7878,
      "step": 15636
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3869965374469757,
      "learning_rate": 0.0005565694190492128,
      "loss": 1.7243,
      "step": 15637
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3671008050441742,
      "learning_rate": 0.0005565640021224901,
      "loss": 1.7176,
      "step": 15638
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3739781081676483,
      "learning_rate": 0.0005565585848843364,
      "loss": 1.6875,
      "step": 15639
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3851340711116791,
      "learning_rate": 0.0005565531673347585,
      "loss": 1.7979,
      "step": 15640
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38064730167388916,
      "learning_rate": 0.0005565477494737628,
      "loss": 1.7224,
      "step": 15641
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37384042143821716,
      "learning_rate": 0.0005565423313013559,
      "loss": 1.7974,
      "step": 15642
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3722926378250122,
      "learning_rate": 0.0005565369128175444,
      "loss": 1.7352,
      "step": 15643
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38520315289497375,
      "learning_rate": 0.000556531494022335,
      "loss": 1.7415,
      "step": 15644
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3878978490829468,
      "learning_rate": 0.000556526074915734,
      "loss": 1.7445,
      "step": 15645
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3847445547580719,
      "learning_rate": 0.0005565206554977482,
      "loss": 1.7734,
      "step": 15646
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38089314103126526,
      "learning_rate": 0.0005565152357683842,
      "loss": 1.722,
      "step": 15647
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38247087597846985,
      "learning_rate": 0.0005565098157276484,
      "loss": 1.754,
      "step": 15648
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3723147213459015,
      "learning_rate": 0.0005565043953755475,
      "loss": 1.7487,
      "step": 15649
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36822739243507385,
      "learning_rate": 0.0005564989747120881,
      "loss": 1.6213,
      "step": 15650
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37203434109687805,
      "learning_rate": 0.0005564935537372768,
      "loss": 1.7286,
      "step": 15651
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37106233835220337,
      "learning_rate": 0.0005564881324511199,
      "loss": 1.6953,
      "step": 15652
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38513660430908203,
      "learning_rate": 0.0005564827108536244,
      "loss": 1.7632,
      "step": 15653
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3715427815914154,
      "learning_rate": 0.0005564772889447966,
      "loss": 1.7282,
      "step": 15654
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36806225776672363,
      "learning_rate": 0.0005564718667246432,
      "loss": 1.672,
      "step": 15655
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37939077615737915,
      "learning_rate": 0.0005564664441931708,
      "loss": 1.7066,
      "step": 15656
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36761000752449036,
      "learning_rate": 0.0005564610213503858,
      "loss": 1.671,
      "step": 15657
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37734124064445496,
      "learning_rate": 0.000556455598196295,
      "loss": 1.7135,
      "step": 15658
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3681773245334625,
      "learning_rate": 0.0005564501747309048,
      "loss": 1.7664,
      "step": 15659
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38678833842277527,
      "learning_rate": 0.0005564447509542219,
      "loss": 1.6713,
      "step": 15660
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3858281970024109,
      "learning_rate": 0.0005564393268662529,
      "loss": 1.6919,
      "step": 15661
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3696349859237671,
      "learning_rate": 0.0005564339024670043,
      "loss": 1.7152,
      "step": 15662
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37096819281578064,
      "learning_rate": 0.0005564284777564828,
      "loss": 1.7146,
      "step": 15663
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3762207329273224,
      "learning_rate": 0.0005564230527346948,
      "loss": 1.695,
      "step": 15664
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37804731726646423,
      "learning_rate": 0.000556417627401647,
      "loss": 1.7145,
      "step": 15665
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38062426447868347,
      "learning_rate": 0.000556412201757346,
      "loss": 1.7036,
      "step": 15666
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3956568241119385,
      "learning_rate": 0.0005564067758017985,
      "loss": 1.7624,
      "step": 15667
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3737037777900696,
      "learning_rate": 0.0005564013495350108,
      "loss": 1.7535,
      "step": 15668
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3740376830101013,
      "learning_rate": 0.0005563959229569898,
      "loss": 1.7078,
      "step": 15669
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38496848940849304,
      "learning_rate": 0.0005563904960677418,
      "loss": 1.7275,
      "step": 15670
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3757079243659973,
      "learning_rate": 0.0005563850688672735,
      "loss": 1.7181,
      "step": 15671
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3912561237812042,
      "learning_rate": 0.0005563796413555915,
      "loss": 1.7116,
      "step": 15672
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3869111239910126,
      "learning_rate": 0.0005563742135327025,
      "loss": 1.7813,
      "step": 15673
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3892379403114319,
      "learning_rate": 0.0005563687853986129,
      "loss": 1.7562,
      "step": 15674
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.383571058511734,
      "learning_rate": 0.0005563633569533295,
      "loss": 1.7439,
      "step": 15675
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3756244480609894,
      "learning_rate": 0.0005563579281968585,
      "loss": 1.7268,
      "step": 15676
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3789795935153961,
      "learning_rate": 0.0005563524991292069,
      "loss": 1.7506,
      "step": 15677
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3895696997642517,
      "learning_rate": 0.0005563470697503811,
      "loss": 1.7433,
      "step": 15678
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.393076628446579,
      "learning_rate": 0.0005563416400603878,
      "loss": 1.767,
      "step": 15679
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4193786084651947,
      "learning_rate": 0.0005563362100592334,
      "loss": 1.7233,
      "step": 15680
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38559815287590027,
      "learning_rate": 0.0005563307797469248,
      "loss": 1.7581,
      "step": 15681
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37010958790779114,
      "learning_rate": 0.0005563253491234683,
      "loss": 1.6625,
      "step": 15682
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.385267049074173,
      "learning_rate": 0.0005563199181888705,
      "loss": 1.6737,
      "step": 15683
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36637189984321594,
      "learning_rate": 0.0005563144869431382,
      "loss": 1.7025,
      "step": 15684
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3747652769088745,
      "learning_rate": 0.0005563090553862779,
      "loss": 1.7468,
      "step": 15685
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3676970303058624,
      "learning_rate": 0.0005563036235182961,
      "loss": 1.6623,
      "step": 15686
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38221123814582825,
      "learning_rate": 0.0005562981913391995,
      "loss": 1.8005,
      "step": 15687
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3810137212276459,
      "learning_rate": 0.0005562927588489946,
      "loss": 1.7138,
      "step": 15688
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36913537979125977,
      "learning_rate": 0.000556287326047688,
      "loss": 1.694,
      "step": 15689
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37869441509246826,
      "learning_rate": 0.0005562818929352865,
      "loss": 1.7715,
      "step": 15690
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3741634786128998,
      "learning_rate": 0.0005562764595117965,
      "loss": 1.6879,
      "step": 15691
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.369463711977005,
      "learning_rate": 0.0005562710257772246,
      "loss": 1.6456,
      "step": 15692
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37147095799446106,
      "learning_rate": 0.0005562655917315775,
      "loss": 1.6857,
      "step": 15693
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3885549008846283,
      "learning_rate": 0.0005562601573748617,
      "loss": 1.7599,
      "step": 15694
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37732720375061035,
      "learning_rate": 0.0005562547227070838,
      "loss": 1.7622,
      "step": 15695
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3698876202106476,
      "learning_rate": 0.0005562492877282505,
      "loss": 1.7712,
      "step": 15696
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3799065351486206,
      "learning_rate": 0.0005562438524383682,
      "loss": 1.7107,
      "step": 15697
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3753736913204193,
      "learning_rate": 0.0005562384168374437,
      "loss": 1.7101,
      "step": 15698
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4005250930786133,
      "learning_rate": 0.0005562329809254835,
      "loss": 1.6723,
      "step": 15699
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3900018632411957,
      "learning_rate": 0.0005562275447024942,
      "loss": 1.7186,
      "step": 15700
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38506877422332764,
      "learning_rate": 0.0005562221081684824,
      "loss": 1.6353,
      "step": 15701
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36670488119125366,
      "learning_rate": 0.0005562166713234547,
      "loss": 1.7249,
      "step": 15702
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37468332052230835,
      "learning_rate": 0.0005562112341674178,
      "loss": 1.6789,
      "step": 15703
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38763824105262756,
      "learning_rate": 0.0005562057967003782,
      "loss": 1.7806,
      "step": 15704
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3880351483821869,
      "learning_rate": 0.0005562003589223424,
      "loss": 1.7523,
      "step": 15705
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3807302415370941,
      "learning_rate": 0.0005561949208333172,
      "loss": 1.6753,
      "step": 15706
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37412890791893005,
      "learning_rate": 0.0005561894824333092,
      "loss": 1.7024,
      "step": 15707
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38332948088645935,
      "learning_rate": 0.0005561840437223248,
      "loss": 1.7723,
      "step": 15708
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37374579906463623,
      "learning_rate": 0.0005561786047003708,
      "loss": 1.6913,
      "step": 15709
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3797968626022339,
      "learning_rate": 0.0005561731653674536,
      "loss": 1.7588,
      "step": 15710
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38216865062713623,
      "learning_rate": 0.00055616772572358,
      "loss": 1.7487,
      "step": 15711
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3906939923763275,
      "learning_rate": 0.0005561622857687566,
      "loss": 1.6882,
      "step": 15712
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39268040657043457,
      "learning_rate": 0.0005561568455029897,
      "loss": 1.78,
      "step": 15713
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3789166808128357,
      "learning_rate": 0.0005561514049262862,
      "loss": 1.8071,
      "step": 15714
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3760366439819336,
      "learning_rate": 0.0005561459640386528,
      "loss": 1.7411,
      "step": 15715
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3762708902359009,
      "learning_rate": 0.0005561405228400959,
      "loss": 1.6615,
      "step": 15716
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38431864976882935,
      "learning_rate": 0.0005561350813306221,
      "loss": 1.7351,
      "step": 15717
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3750517666339874,
      "learning_rate": 0.000556129639510238,
      "loss": 1.6588,
      "step": 15718
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38703951239585876,
      "learning_rate": 0.0005561241973789503,
      "loss": 1.7137,
      "step": 15719
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3828110694885254,
      "learning_rate": 0.0005561187549367656,
      "loss": 1.7784,
      "step": 15720
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37418270111083984,
      "learning_rate": 0.0005561133121836905,
      "loss": 1.7362,
      "step": 15721
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39461982250213623,
      "learning_rate": 0.0005561078691197314,
      "loss": 1.7681,
      "step": 15722
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40049588680267334,
      "learning_rate": 0.0005561024257448952,
      "loss": 1.7633,
      "step": 15723
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38198813796043396,
      "learning_rate": 0.0005560969820591884,
      "loss": 1.7896,
      "step": 15724
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38487088680267334,
      "learning_rate": 0.0005560915380626176,
      "loss": 1.7726,
      "step": 15725
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37423238158226013,
      "learning_rate": 0.0005560860937551894,
      "loss": 1.7555,
      "step": 15726
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3930288851261139,
      "learning_rate": 0.0005560806491369104,
      "loss": 1.7379,
      "step": 15727
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.45287615060806274,
      "learning_rate": 0.0005560752042077871,
      "loss": 1.7251,
      "step": 15728
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3774031102657318,
      "learning_rate": 0.0005560697589678265,
      "loss": 1.6979,
      "step": 15729
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37833425402641296,
      "learning_rate": 0.0005560643134170347,
      "loss": 1.7406,
      "step": 15730
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38347163796424866,
      "learning_rate": 0.0005560588675554187,
      "loss": 1.6649,
      "step": 15731
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38579678535461426,
      "learning_rate": 0.000556053421382985,
      "loss": 1.7345,
      "step": 15732
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3814232349395752,
      "learning_rate": 0.0005560479748997401,
      "loss": 1.7472,
      "step": 15733
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38608402013778687,
      "learning_rate": 0.0005560425281056906,
      "loss": 1.6586,
      "step": 15734
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3743925988674164,
      "learning_rate": 0.0005560370810008433,
      "loss": 1.6308,
      "step": 15735
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40474599599838257,
      "learning_rate": 0.0005560316335852046,
      "loss": 1.7512,
      "step": 15736
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3791343867778778,
      "learning_rate": 0.0005560261858587813,
      "loss": 1.7072,
      "step": 15737
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37686458230018616,
      "learning_rate": 0.0005560207378215799,
      "loss": 1.6715,
      "step": 15738
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3865380585193634,
      "learning_rate": 0.0005560152894736072,
      "loss": 1.7212,
      "step": 15739
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38999736309051514,
      "learning_rate": 0.0005560098408148695,
      "loss": 1.692,
      "step": 15740
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3914910554885864,
      "learning_rate": 0.0005560043918453737,
      "loss": 1.7781,
      "step": 15741
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38758400082588196,
      "learning_rate": 0.0005559989425651262,
      "loss": 1.7974,
      "step": 15742
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3868427276611328,
      "learning_rate": 0.0005559934929741337,
      "loss": 1.7327,
      "step": 15743
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39332133531570435,
      "learning_rate": 0.0005559880430724027,
      "loss": 1.7567,
      "step": 15744
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40629902482032776,
      "learning_rate": 0.0005559825928599402,
      "loss": 1.7514,
      "step": 15745
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3879481256008148,
      "learning_rate": 0.0005559771423367523,
      "loss": 1.7289,
      "step": 15746
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38924580812454224,
      "learning_rate": 0.000555971691502846,
      "loss": 1.7084,
      "step": 15747
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38555651903152466,
      "learning_rate": 0.0005559662403582279,
      "loss": 1.7263,
      "step": 15748
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38381317257881165,
      "learning_rate": 0.0005559607889029042,
      "loss": 1.7647,
      "step": 15749
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3845564126968384,
      "learning_rate": 0.000555955337136882,
      "loss": 1.6959,
      "step": 15750
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3951197564601898,
      "learning_rate": 0.0005559498850601678,
      "loss": 1.704,
      "step": 15751
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3876260221004486,
      "learning_rate": 0.000555944432672768,
      "loss": 1.7636,
      "step": 15752
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3718547821044922,
      "learning_rate": 0.0005559389799746895,
      "loss": 1.6172,
      "step": 15753
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3990580141544342,
      "learning_rate": 0.0005559335269659388,
      "loss": 1.7842,
      "step": 15754
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3765127658843994,
      "learning_rate": 0.0005559280736465223,
      "loss": 1.6791,
      "step": 15755
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3810167908668518,
      "learning_rate": 0.000555922620016447,
      "loss": 1.703,
      "step": 15756
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3758532404899597,
      "learning_rate": 0.0005559171660757193,
      "loss": 1.7413,
      "step": 15757
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3745118975639343,
      "learning_rate": 0.0005559117118243459,
      "loss": 1.7279,
      "step": 15758
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3843342363834381,
      "learning_rate": 0.0005559062572623334,
      "loss": 1.7606,
      "step": 15759
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3838997483253479,
      "learning_rate": 0.0005559008023896883,
      "loss": 1.7256,
      "step": 15760
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38421475887298584,
      "learning_rate": 0.0005558953472064173,
      "loss": 1.6969,
      "step": 15761
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3863757848739624,
      "learning_rate": 0.0005558898917125272,
      "loss": 1.7868,
      "step": 15762
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38862547278404236,
      "learning_rate": 0.0005558844359080245,
      "loss": 1.7813,
      "step": 15763
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.37887972593307495,
      "learning_rate": 0.0005558789797929157,
      "loss": 1.7022,
      "step": 15764
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3680270314216614,
      "learning_rate": 0.0005558735233672076,
      "loss": 1.6741,
      "step": 15765
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3753586411476135,
      "learning_rate": 0.0005558680666309067,
      "loss": 1.6706,
      "step": 15766
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38864338397979736,
      "learning_rate": 0.0005558626095840195,
      "loss": 1.738,
      "step": 15767
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3945053517818451,
      "learning_rate": 0.0005558571522265531,
      "loss": 1.8218,
      "step": 15768
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40795448422431946,
      "learning_rate": 0.0005558516945585136,
      "loss": 1.7935,
      "step": 15769
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3734094202518463,
      "learning_rate": 0.000555846236579908,
      "loss": 1.7144,
      "step": 15770
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.398518830537796,
      "learning_rate": 0.0005558407782907427,
      "loss": 1.7388,
      "step": 15771
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38561519980430603,
      "learning_rate": 0.0005558353196910243,
      "loss": 1.7228,
      "step": 15772
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3850696086883545,
      "learning_rate": 0.0005558298607807596,
      "loss": 1.7045,
      "step": 15773
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38399916887283325,
      "learning_rate": 0.0005558244015599551,
      "loss": 1.6851,
      "step": 15774
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38655611872673035,
      "learning_rate": 0.0005558189420286176,
      "loss": 1.8021,
      "step": 15775
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.39809614419937134,
      "learning_rate": 0.0005558134821867535,
      "loss": 1.8148,
      "step": 15776
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3896549344062805,
      "learning_rate": 0.0005558080220343694,
      "loss": 1.7189,
      "step": 15777
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4071080982685089,
      "learning_rate": 0.0005558025615714721,
      "loss": 1.6919,
      "step": 15778
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.40084877610206604,
      "learning_rate": 0.0005557971007980684,
      "loss": 1.6781,
      "step": 15779
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38941410183906555,
      "learning_rate": 0.0005557916397141645,
      "loss": 1.6364,
      "step": 15780
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39015939831733704,
      "learning_rate": 0.0005557861783197673,
      "loss": 1.7293,
      "step": 15781
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3793744742870331,
      "learning_rate": 0.0005557807166148834,
      "loss": 1.7086,
      "step": 15782
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38920342922210693,
      "learning_rate": 0.0005557752545995193,
      "loss": 1.7169,
      "step": 15783
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38874462246894836,
      "learning_rate": 0.0005557697922736818,
      "loss": 1.7568,
      "step": 15784
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38614198565483093,
      "learning_rate": 0.0005557643296373775,
      "loss": 1.7882,
      "step": 15785
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37550991773605347,
      "learning_rate": 0.000555758866690613,
      "loss": 1.6966,
      "step": 15786
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39099302887916565,
      "learning_rate": 0.0005557534034333948,
      "loss": 1.7354,
      "step": 15787
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38717344403266907,
      "learning_rate": 0.0005557479398657297,
      "loss": 1.7623,
      "step": 15788
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3902999460697174,
      "learning_rate": 0.0005557424759876243,
      "loss": 1.6908,
      "step": 15789
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38149648904800415,
      "learning_rate": 0.0005557370117990853,
      "loss": 1.7746,
      "step": 15790
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39008575677871704,
      "learning_rate": 0.000555731547300119,
      "loss": 1.7739,
      "step": 15791
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3981633186340332,
      "learning_rate": 0.0005557260824907325,
      "loss": 1.6779,
      "step": 15792
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38111111521720886,
      "learning_rate": 0.0005557206173709323,
      "loss": 1.687,
      "step": 15793
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37247925996780396,
      "learning_rate": 0.0005557151519407248,
      "loss": 1.6986,
      "step": 15794
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3838615119457245,
      "learning_rate": 0.0005557096862001167,
      "loss": 1.6997,
      "step": 15795
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.387454092502594,
      "learning_rate": 0.0005557042201491148,
      "loss": 1.7505,
      "step": 15796
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38668951392173767,
      "learning_rate": 0.0005556987537877257,
      "loss": 1.7047,
      "step": 15797
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38528499007225037,
      "learning_rate": 0.0005556932871159559,
      "loss": 1.7312,
      "step": 15798
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37785565853118896,
      "learning_rate": 0.0005556878201338122,
      "loss": 1.6797,
      "step": 15799
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38718220591545105,
      "learning_rate": 0.0005556823528413011,
      "loss": 1.7652,
      "step": 15800
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37615394592285156,
      "learning_rate": 0.0005556768852384294,
      "loss": 1.7057,
      "step": 15801
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4140458405017853,
      "learning_rate": 0.0005556714173252036,
      "loss": 1.7464,
      "step": 15802
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37631291151046753,
      "learning_rate": 0.0005556659491016303,
      "loss": 1.6671,
      "step": 15803
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3888680338859558,
      "learning_rate": 0.0005556604805677163,
      "loss": 1.7341,
      "step": 15804
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38655945658683777,
      "learning_rate": 0.0005556550117234681,
      "loss": 1.7644,
      "step": 15805
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3815472722053528,
      "learning_rate": 0.0005556495425688923,
      "loss": 1.7418,
      "step": 15806
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3798469305038452,
      "learning_rate": 0.0005556440731039957,
      "loss": 1.6712,
      "step": 15807
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3703700304031372,
      "learning_rate": 0.0005556386033287848,
      "loss": 1.6878,
      "step": 15808
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39245566725730896,
      "learning_rate": 0.0005556331332432664,
      "loss": 1.76,
      "step": 15809
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3745015561580658,
      "learning_rate": 0.000555627662847447,
      "loss": 1.7103,
      "step": 15810
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3743188679218292,
      "learning_rate": 0.0005556221921413333,
      "loss": 1.7054,
      "step": 15811
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36096763610839844,
      "learning_rate": 0.0005556167211249319,
      "loss": 1.6951,
      "step": 15812
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3785933256149292,
      "learning_rate": 0.0005556112497982495,
      "loss": 1.7712,
      "step": 15813
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38062983751296997,
      "learning_rate": 0.0005556057781612927,
      "loss": 1.7192,
      "step": 15814
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37598147988319397,
      "learning_rate": 0.0005556003062140682,
      "loss": 1.8153,
      "step": 15815
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3921158015727997,
      "learning_rate": 0.0005555948339565825,
      "loss": 1.6788,
      "step": 15816
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3801186978816986,
      "learning_rate": 0.0005555893613888422,
      "loss": 1.7152,
      "step": 15817
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3721684217453003,
      "learning_rate": 0.0005555838885108543,
      "loss": 1.7189,
      "step": 15818
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.391837477684021,
      "learning_rate": 0.0005555784153226252,
      "loss": 1.6914,
      "step": 15819
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.384938508272171,
      "learning_rate": 0.0005555729418241615,
      "loss": 1.7783,
      "step": 15820
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.371336430311203,
      "learning_rate": 0.0005555674680154699,
      "loss": 1.7641,
      "step": 15821
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3822343647480011,
      "learning_rate": 0.0005555619938965571,
      "loss": 1.7313,
      "step": 15822
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3885425925254822,
      "learning_rate": 0.0005555565194674296,
      "loss": 1.6846,
      "step": 15823
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3914841413497925,
      "learning_rate": 0.0005555510447280942,
      "loss": 1.7726,
      "step": 15824
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3668040633201599,
      "learning_rate": 0.0005555455696785574,
      "loss": 1.6196,
      "step": 15825
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3742014467716217,
      "learning_rate": 0.0005555400943188262,
      "loss": 1.7526,
      "step": 15826
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39861685037612915,
      "learning_rate": 0.0005555346186489066,
      "loss": 1.7599,
      "step": 15827
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4055282473564148,
      "learning_rate": 0.0005555291426688058,
      "loss": 1.6881,
      "step": 15828
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37098389863967896,
      "learning_rate": 0.0005555236663785304,
      "loss": 1.7138,
      "step": 15829
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3737371265888214,
      "learning_rate": 0.0005555181897780868,
      "loss": 1.6965,
      "step": 15830
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38180482387542725,
      "learning_rate": 0.0005555127128674817,
      "loss": 1.6752,
      "step": 15831
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37747111916542053,
      "learning_rate": 0.000555507235646722,
      "loss": 1.779,
      "step": 15832
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3820037543773651,
      "learning_rate": 0.000555501758115814,
      "loss": 1.7634,
      "step": 15833
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4328971207141876,
      "learning_rate": 0.0005554962802747646,
      "loss": 1.7336,
      "step": 15834
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3951689302921295,
      "learning_rate": 0.0005554908021235803,
      "loss": 1.7775,
      "step": 15835
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36656442284584045,
      "learning_rate": 0.0005554853236622678,
      "loss": 1.6861,
      "step": 15836
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37214845418930054,
      "learning_rate": 0.0005554798448908337,
      "loss": 1.7044,
      "step": 15837
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3763637840747833,
      "learning_rate": 0.0005554743658092849,
      "loss": 1.6841,
      "step": 15838
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3860801160335541,
      "learning_rate": 0.0005554688864176277,
      "loss": 1.7959,
      "step": 15839
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3792634904384613,
      "learning_rate": 0.0005554634067158691,
      "loss": 1.7638,
      "step": 15840
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3778984248638153,
      "learning_rate": 0.0005554579267040155,
      "loss": 1.7185,
      "step": 15841
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37057310342788696,
      "learning_rate": 0.0005554524463820735,
      "loss": 1.7407,
      "step": 15842
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36566802859306335,
      "learning_rate": 0.0005554469657500499,
      "loss": 1.6734,
      "step": 15843
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36584123969078064,
      "learning_rate": 0.0005554414848079513,
      "loss": 1.7306,
      "step": 15844
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3732416033744812,
      "learning_rate": 0.0005554360035557844,
      "loss": 1.7309,
      "step": 15845
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3746144771575928,
      "learning_rate": 0.0005554305219935559,
      "loss": 1.7715,
      "step": 15846
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38663002848625183,
      "learning_rate": 0.0005554250401212723,
      "loss": 1.7103,
      "step": 15847
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3826024830341339,
      "learning_rate": 0.0005554195579389404,
      "loss": 1.7359,
      "step": 15848
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38187557458877563,
      "learning_rate": 0.0005554140754465668,
      "loss": 1.7798,
      "step": 15849
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3738005459308624,
      "learning_rate": 0.0005554085926441581,
      "loss": 1.6483,
      "step": 15850
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37774085998535156,
      "learning_rate": 0.0005554031095317209,
      "loss": 1.7784,
      "step": 15851
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3957228362560272,
      "learning_rate": 0.0005553976261092622,
      "loss": 1.7459,
      "step": 15852
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37992849946022034,
      "learning_rate": 0.0005553921423767882,
      "loss": 1.7394,
      "step": 15853
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3698730170726776,
      "learning_rate": 0.000555386658334306,
      "loss": 1.7761,
      "step": 15854
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3671417236328125,
      "learning_rate": 0.0005553811739818219,
      "loss": 1.7639,
      "step": 15855
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3762021064758301,
      "learning_rate": 0.0005553756893193426,
      "loss": 1.7006,
      "step": 15856
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38545456528663635,
      "learning_rate": 0.0005553702043468749,
      "loss": 1.7456,
      "step": 15857
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3901481628417969,
      "learning_rate": 0.0005553647190644253,
      "loss": 1.7064,
      "step": 15858
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37665873765945435,
      "learning_rate": 0.0005553592334720007,
      "loss": 1.7302,
      "step": 15859
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3684448003768921,
      "learning_rate": 0.0005553537475696075,
      "loss": 1.6158,
      "step": 15860
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37315666675567627,
      "learning_rate": 0.0005553482613572527,
      "loss": 1.6997,
      "step": 15861
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3881927728652954,
      "learning_rate": 0.0005553427748349425,
      "loss": 1.715,
      "step": 15862
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7324452996253967,
      "learning_rate": 0.0005553372880026839,
      "loss": 1.8,
      "step": 15863
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3740437626838684,
      "learning_rate": 0.0005553318008604835,
      "loss": 1.7266,
      "step": 15864
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39103275537490845,
      "learning_rate": 0.0005553263134083478,
      "loss": 1.6384,
      "step": 15865
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39087778329849243,
      "learning_rate": 0.0005553208256462836,
      "loss": 1.7169,
      "step": 15866
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38711628317832947,
      "learning_rate": 0.0005553153375742975,
      "loss": 1.742,
      "step": 15867
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3711319863796234,
      "learning_rate": 0.0005553098491923963,
      "loss": 1.7186,
      "step": 15868
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3695792853832245,
      "learning_rate": 0.0005553043605005866,
      "loss": 1.7029,
      "step": 15869
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3735238015651703,
      "learning_rate": 0.0005552988714988749,
      "loss": 1.718,
      "step": 15870
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3889371156692505,
      "learning_rate": 0.000555293382187268,
      "loss": 1.7417,
      "step": 15871
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37801870703697205,
      "learning_rate": 0.0005552878925657726,
      "loss": 1.7359,
      "step": 15872
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3875318467617035,
      "learning_rate": 0.0005552824026343953,
      "loss": 1.7409,
      "step": 15873
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3753948509693146,
      "learning_rate": 0.0005552769123931429,
      "loss": 1.7352,
      "step": 15874
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5778043270111084,
      "learning_rate": 0.0005552714218420217,
      "loss": 1.7465,
      "step": 15875
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.41403692960739136,
      "learning_rate": 0.0005552659309810387,
      "loss": 1.711,
      "step": 15876
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40332484245300293,
      "learning_rate": 0.0005552604398102004,
      "loss": 1.5992,
      "step": 15877
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3872753381729126,
      "learning_rate": 0.0005552549483295138,
      "loss": 1.6407,
      "step": 15878
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.388520210981369,
      "learning_rate": 0.0005552494565389851,
      "loss": 1.7364,
      "step": 15879
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3899565637111664,
      "learning_rate": 0.0005552439644386212,
      "loss": 1.7043,
      "step": 15880
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39787378907203674,
      "learning_rate": 0.0005552384720284287,
      "loss": 1.7228,
      "step": 15881
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37312209606170654,
      "learning_rate": 0.0005552329793084144,
      "loss": 1.7109,
      "step": 15882
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38035377860069275,
      "learning_rate": 0.0005552274862785847,
      "loss": 1.761,
      "step": 15883
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3781086206436157,
      "learning_rate": 0.0005552219929389466,
      "loss": 1.7356,
      "step": 15884
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3768802881240845,
      "learning_rate": 0.0005552164992895066,
      "loss": 1.6865,
      "step": 15885
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39233511686325073,
      "learning_rate": 0.0005552110053302713,
      "loss": 1.7484,
      "step": 15886
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36411353945732117,
      "learning_rate": 0.0005552055110612475,
      "loss": 1.7394,
      "step": 15887
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3857582211494446,
      "learning_rate": 0.0005552000164824418,
      "loss": 1.748,
      "step": 15888
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.415526807308197,
      "learning_rate": 0.0005551945215938608,
      "loss": 1.6939,
      "step": 15889
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3835989832878113,
      "learning_rate": 0.0005551890263955113,
      "loss": 1.6865,
      "step": 15890
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.375387966632843,
      "learning_rate": 0.0005551835308873999,
      "loss": 1.647,
      "step": 15891
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37334609031677246,
      "learning_rate": 0.0005551780350695334,
      "loss": 1.7298,
      "step": 15892
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3780374526977539,
      "learning_rate": 0.0005551725389419183,
      "loss": 1.6927,
      "step": 15893
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3794841766357422,
      "learning_rate": 0.0005551670425045614,
      "loss": 1.7085,
      "step": 15894
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38420864939689636,
      "learning_rate": 0.0005551615457574691,
      "loss": 1.6698,
      "step": 15895
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5779070258140564,
      "learning_rate": 0.0005551560487006486,
      "loss": 1.6955,
      "step": 15896
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37268900871276855,
      "learning_rate": 0.000555150551334106,
      "loss": 1.7236,
      "step": 15897
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3873920738697052,
      "learning_rate": 0.0005551450536578482,
      "loss": 1.7718,
      "step": 15898
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3925859332084656,
      "learning_rate": 0.0005551395556718821,
      "loss": 1.7995,
      "step": 15899
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37715625762939453,
      "learning_rate": 0.000555134057376214,
      "loss": 1.7537,
      "step": 15900
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3891834616661072,
      "learning_rate": 0.0005551285587708508,
      "loss": 1.7481,
      "step": 15901
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3788992166519165,
      "learning_rate": 0.0005551230598557991,
      "loss": 1.7797,
      "step": 15902
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3747671842575073,
      "learning_rate": 0.0005551175606310656,
      "loss": 1.7258,
      "step": 15903
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37755194306373596,
      "learning_rate": 0.0005551120610966571,
      "loss": 1.7313,
      "step": 15904
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39388877153396606,
      "learning_rate": 0.00055510656125258,
      "loss": 1.7079,
      "step": 15905
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39714324474334717,
      "learning_rate": 0.0005551010610988413,
      "loss": 1.6906,
      "step": 15906
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3764537274837494,
      "learning_rate": 0.0005550955606354473,
      "loss": 1.8102,
      "step": 15907
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37180766463279724,
      "learning_rate": 0.0005550900598624049,
      "loss": 1.6691,
      "step": 15908
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40724459290504456,
      "learning_rate": 0.0005550845587797208,
      "loss": 1.7894,
      "step": 15909
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38142889738082886,
      "learning_rate": 0.0005550790573874017,
      "loss": 1.781,
      "step": 15910
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3669067621231079,
      "learning_rate": 0.0005550735556854541,
      "loss": 1.7289,
      "step": 15911
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38425102829933167,
      "learning_rate": 0.0005550680536738848,
      "loss": 1.6796,
      "step": 15912
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4063916802406311,
      "learning_rate": 0.0005550625513527005,
      "loss": 1.6927,
      "step": 15913
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3878292441368103,
      "learning_rate": 0.0005550570487219079,
      "loss": 1.7133,
      "step": 15914
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39366233348846436,
      "learning_rate": 0.0005550515457815135,
      "loss": 1.7511,
      "step": 15915
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38043636083602905,
      "learning_rate": 0.0005550460425315242,
      "loss": 1.7284,
      "step": 15916
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3824091851711273,
      "learning_rate": 0.0005550405389719465,
      "loss": 1.7005,
      "step": 15917
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3802718222141266,
      "learning_rate": 0.0005550350351027873,
      "loss": 1.7162,
      "step": 15918
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38449186086654663,
      "learning_rate": 0.0005550295309240531,
      "loss": 1.6523,
      "step": 15919
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37576189637184143,
      "learning_rate": 0.0005550240264357505,
      "loss": 1.6799,
      "step": 15920
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3696141242980957,
      "learning_rate": 0.0005550185216378864,
      "loss": 1.7053,
      "step": 15921
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37184613943099976,
      "learning_rate": 0.0005550130165304674,
      "loss": 1.7042,
      "step": 15922
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37175363302230835,
      "learning_rate": 0.0005550075111135001,
      "loss": 1.6961,
      "step": 15923
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36718907952308655,
      "learning_rate": 0.0005550020053869913,
      "loss": 1.7089,
      "step": 15924
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38164740800857544,
      "learning_rate": 0.0005549964993509476,
      "loss": 1.6947,
      "step": 15925
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4064885377883911,
      "learning_rate": 0.0005549909930053758,
      "loss": 1.8434,
      "step": 15926
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37685680389404297,
      "learning_rate": 0.0005549854863502824,
      "loss": 1.7666,
      "step": 15927
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3772197961807251,
      "learning_rate": 0.0005549799793856744,
      "loss": 1.6305,
      "step": 15928
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3985540270805359,
      "learning_rate": 0.000554974472111558,
      "loss": 1.8251,
      "step": 15929
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3862352967262268,
      "learning_rate": 0.0005549689645279403,
      "loss": 1.6929,
      "step": 15930
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37955424189567566,
      "learning_rate": 0.0005549634566348279,
      "loss": 1.693,
      "step": 15931
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3759268522262573,
      "learning_rate": 0.0005549579484322274,
      "loss": 1.6915,
      "step": 15932
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38904622197151184,
      "learning_rate": 0.0005549524399201454,
      "loss": 1.7936,
      "step": 15933
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3898499310016632,
      "learning_rate": 0.0005549469310985889,
      "loss": 1.7647,
      "step": 15934
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3812226355075836,
      "learning_rate": 0.0005549414219675642,
      "loss": 1.8069,
      "step": 15935
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3761668801307678,
      "learning_rate": 0.0005549359125270783,
      "loss": 1.7571,
      "step": 15936
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38569560647010803,
      "learning_rate": 0.0005549304027771377,
      "loss": 1.6994,
      "step": 15937
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37850677967071533,
      "learning_rate": 0.0005549248927177492,
      "loss": 1.7625,
      "step": 15938
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3801339566707611,
      "learning_rate": 0.0005549193823489194,
      "loss": 1.6967,
      "step": 15939
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40566006302833557,
      "learning_rate": 0.000554913871670655,
      "loss": 1.7072,
      "step": 15940
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3825172185897827,
      "learning_rate": 0.0005549083606829629,
      "loss": 1.7363,
      "step": 15941
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3771567642688751,
      "learning_rate": 0.0005549028493858494,
      "loss": 1.7041,
      "step": 15942
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38640740513801575,
      "learning_rate": 0.0005548973377793216,
      "loss": 1.7094,
      "step": 15943
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3858813941478729,
      "learning_rate": 0.0005548918258633858,
      "loss": 1.7189,
      "step": 15944
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3738122880458832,
      "learning_rate": 0.0005548863136380489,
      "loss": 1.7434,
      "step": 15945
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.371072918176651,
      "learning_rate": 0.0005548808011033177,
      "loss": 1.6918,
      "step": 15946
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38134291768074036,
      "learning_rate": 0.0005548752882591986,
      "loss": 1.6454,
      "step": 15947
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3761556148529053,
      "learning_rate": 0.0005548697751056986,
      "loss": 1.7522,
      "step": 15948
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3769576847553253,
      "learning_rate": 0.0005548642616428241,
      "loss": 1.6821,
      "step": 15949
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3735315203666687,
      "learning_rate": 0.0005548587478705821,
      "loss": 1.6618,
      "step": 15950
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38044601678848267,
      "learning_rate": 0.0005548532337889791,
      "loss": 1.7157,
      "step": 15951
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3894677460193634,
      "learning_rate": 0.0005548477193980218,
      "loss": 1.7713,
      "step": 15952
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38622885942459106,
      "learning_rate": 0.0005548422046977168,
      "loss": 1.8008,
      "step": 15953
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3989941477775574,
      "learning_rate": 0.000554836689688071,
      "loss": 1.7576,
      "step": 15954
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3692893981933594,
      "learning_rate": 0.000554831174369091,
      "loss": 1.7079,
      "step": 15955
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38349223136901855,
      "learning_rate": 0.0005548256587407836,
      "loss": 1.7415,
      "step": 15956
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37133729457855225,
      "learning_rate": 0.0005548201428031553,
      "loss": 1.6684,
      "step": 15957
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3886880576610565,
      "learning_rate": 0.0005548146265562129,
      "loss": 1.756,
      "step": 15958
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3673115670681,
      "learning_rate": 0.0005548091099999631,
      "loss": 1.6968,
      "step": 15959
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3740115761756897,
      "learning_rate": 0.0005548035931344126,
      "loss": 1.7104,
      "step": 15960
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3770863711833954,
      "learning_rate": 0.0005547980759595681,
      "loss": 1.7242,
      "step": 15961
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3806796669960022,
      "learning_rate": 0.0005547925584754362,
      "loss": 1.7118,
      "step": 15962
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.41989028453826904,
      "learning_rate": 0.0005547870406820237,
      "loss": 1.7042,
      "step": 15963
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37920069694519043,
      "learning_rate": 0.0005547815225793373,
      "loss": 1.7309,
      "step": 15964
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37532418966293335,
      "learning_rate": 0.0005547760041673837,
      "loss": 1.6531,
      "step": 15965
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38132914900779724,
      "learning_rate": 0.0005547704854461695,
      "loss": 1.6861,
      "step": 15966
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37510326504707336,
      "learning_rate": 0.0005547649664157015,
      "loss": 1.7132,
      "step": 15967
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3966634273529053,
      "learning_rate": 0.0005547594470759864,
      "loss": 1.6651,
      "step": 15968
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38869592547416687,
      "learning_rate": 0.0005547539274270308,
      "loss": 1.6992,
      "step": 15969
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37847623229026794,
      "learning_rate": 0.0005547484074688415,
      "loss": 1.6587,
      "step": 15970
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38587167859077454,
      "learning_rate": 0.0005547428872014252,
      "loss": 1.7314,
      "step": 15971
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3719974756240845,
      "learning_rate": 0.0005547373666247885,
      "loss": 1.7069,
      "step": 15972
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3848892152309418,
      "learning_rate": 0.0005547318457389383,
      "loss": 1.6858,
      "step": 15973
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3743467330932617,
      "learning_rate": 0.000554726324543881,
      "loss": 1.717,
      "step": 15974
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37679946422576904,
      "learning_rate": 0.0005547208030396236,
      "loss": 1.6985,
      "step": 15975
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.375995397567749,
      "learning_rate": 0.0005547152812261727,
      "loss": 1.7041,
      "step": 15976
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3903331458568573,
      "learning_rate": 0.0005547097591035349,
      "loss": 1.8113,
      "step": 15977
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3961036205291748,
      "learning_rate": 0.0005547042366717169,
      "loss": 1.7109,
      "step": 15978
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38455861806869507,
      "learning_rate": 0.0005546987139307256,
      "loss": 1.7212,
      "step": 15979
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38527897000312805,
      "learning_rate": 0.0005546931908805676,
      "loss": 1.7522,
      "step": 15980
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38664042949676514,
      "learning_rate": 0.0005546876675212495,
      "loss": 1.7898,
      "step": 15981
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38501453399658203,
      "learning_rate": 0.0005546821438527782,
      "loss": 1.6891,
      "step": 15982
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37769901752471924,
      "learning_rate": 0.0005546766198751604,
      "loss": 1.7193,
      "step": 15983
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37428024411201477,
      "learning_rate": 0.0005546710955884025,
      "loss": 1.7405,
      "step": 15984
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38206470012664795,
      "learning_rate": 0.0005546655709925115,
      "loss": 1.7727,
      "step": 15985
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39333051443099976,
      "learning_rate": 0.000554660046087494,
      "loss": 1.7944,
      "step": 15986
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38980764150619507,
      "learning_rate": 0.0005546545208733567,
      "loss": 1.7339,
      "step": 15987
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3881293833255768,
      "learning_rate": 0.0005546489953501064,
      "loss": 1.7378,
      "step": 15988
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37827709317207336,
      "learning_rate": 0.0005546434695177498,
      "loss": 1.7217,
      "step": 15989
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36973685026168823,
      "learning_rate": 0.0005546379433762934,
      "loss": 1.6803,
      "step": 15990
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3720192611217499,
      "learning_rate": 0.0005546324169257441,
      "loss": 1.6787,
      "step": 15991
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3850698471069336,
      "learning_rate": 0.0005546268901661086,
      "loss": 1.7152,
      "step": 15992
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.43158194422721863,
      "learning_rate": 0.0005546213630973936,
      "loss": 1.7597,
      "step": 15993
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.388243168592453,
      "learning_rate": 0.0005546158357196057,
      "loss": 1.7189,
      "step": 15994
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3745185434818268,
      "learning_rate": 0.0005546103080327516,
      "loss": 1.7234,
      "step": 15995
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38846901059150696,
      "learning_rate": 0.0005546047800368384,
      "loss": 1.7954,
      "step": 15996
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4098946154117584,
      "learning_rate": 0.0005545992517318723,
      "loss": 1.7139,
      "step": 15997
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3829420804977417,
      "learning_rate": 0.0005545937231178602,
      "loss": 1.6284,
      "step": 15998
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.377544641494751,
      "learning_rate": 0.000554588194194809,
      "loss": 1.6476,
      "step": 15999
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3791641592979431,
      "learning_rate": 0.000554582664962725,
      "loss": 1.595,
      "step": 16000
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3928583264350891,
      "learning_rate": 0.0005545771354216154,
      "loss": 1.7741,
      "step": 16001
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38802316784858704,
      "learning_rate": 0.0005545716055714865,
      "loss": 1.6606,
      "step": 16002
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3882867097854614,
      "learning_rate": 0.0005545660754123452,
      "loss": 1.6815,
      "step": 16003
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38692593574523926,
      "learning_rate": 0.0005545605449441983,
      "loss": 1.6992,
      "step": 16004
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39486485719680786,
      "learning_rate": 0.0005545550141670523,
      "loss": 1.6875,
      "step": 16005
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3921344578266144,
      "learning_rate": 0.0005545494830809141,
      "loss": 1.7285,
      "step": 16006
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3797053098678589,
      "learning_rate": 0.0005545439516857904,
      "loss": 1.7081,
      "step": 16007
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4035782814025879,
      "learning_rate": 0.0005545384199816876,
      "loss": 1.7332,
      "step": 16008
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3823874294757843,
      "learning_rate": 0.0005545328879686129,
      "loss": 1.7114,
      "step": 16009
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3733270466327667,
      "learning_rate": 0.0005545273556465727,
      "loss": 1.6729,
      "step": 16010
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3906305730342865,
      "learning_rate": 0.0005545218230155738,
      "loss": 1.7861,
      "step": 16011
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3996927738189697,
      "learning_rate": 0.0005545162900756228,
      "loss": 1.7793,
      "step": 16012
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38105422258377075,
      "learning_rate": 0.0005545107568267265,
      "loss": 1.6647,
      "step": 16013
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3932282030582428,
      "learning_rate": 0.0005545052232688918,
      "loss": 1.7469,
      "step": 16014
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37637102603912354,
      "learning_rate": 0.0005544996894021253,
      "loss": 1.6693,
      "step": 16015
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38937631249427795,
      "learning_rate": 0.0005544941552264336,
      "loss": 1.6999,
      "step": 16016
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3745301067829132,
      "learning_rate": 0.0005544886207418234,
      "loss": 1.7696,
      "step": 16017
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3809847831726074,
      "learning_rate": 0.0005544830859483016,
      "loss": 1.7082,
      "step": 16018
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3772888481616974,
      "learning_rate": 0.0005544775508458748,
      "loss": 1.734,
      "step": 16019
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39142605662345886,
      "learning_rate": 0.0005544720154345498,
      "loss": 1.6901,
      "step": 16020
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37818607687950134,
      "learning_rate": 0.0005544664797143332,
      "loss": 1.7048,
      "step": 16021
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37525343894958496,
      "learning_rate": 0.0005544609436852318,
      "loss": 1.7939,
      "step": 16022
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37191715836524963,
      "learning_rate": 0.0005544554073472524,
      "loss": 1.6731,
      "step": 16023
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37962454557418823,
      "learning_rate": 0.0005544498707004016,
      "loss": 1.7368,
      "step": 16024
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3878060281276703,
      "learning_rate": 0.000554444333744686,
      "loss": 1.7284,
      "step": 16025
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37218961119651794,
      "learning_rate": 0.0005544387964801126,
      "loss": 1.7074,
      "step": 16026
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40410709381103516,
      "learning_rate": 0.000554433258906688,
      "loss": 1.7131,
      "step": 16027
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3753116726875305,
      "learning_rate": 0.0005544277210244189,
      "loss": 1.6424,
      "step": 16028
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3772980570793152,
      "learning_rate": 0.000554422182833312,
      "loss": 1.6394,
      "step": 16029
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38032767176628113,
      "learning_rate": 0.0005544166443333742,
      "loss": 1.7152,
      "step": 16030
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3699994385242462,
      "learning_rate": 0.0005544111055246118,
      "loss": 1.649,
      "step": 16031
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39103949069976807,
      "learning_rate": 0.0005544055664070321,
      "loss": 1.7814,
      "step": 16032
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39679601788520813,
      "learning_rate": 0.0005544000269806413,
      "loss": 1.7737,
      "step": 16033
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39277854561805725,
      "learning_rate": 0.0005543944872454464,
      "loss": 1.728,
      "step": 16034
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39518362283706665,
      "learning_rate": 0.0005543889472014542,
      "loss": 1.6897,
      "step": 16035
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37564778327941895,
      "learning_rate": 0.0005543834068486712,
      "loss": 1.705,
      "step": 16036
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38695332407951355,
      "learning_rate": 0.0005543778661871042,
      "loss": 1.673,
      "step": 16037
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3712111711502075,
      "learning_rate": 0.00055437232521676,
      "loss": 1.6294,
      "step": 16038
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38178884983062744,
      "learning_rate": 0.0005543667839376453,
      "loss": 1.6696,
      "step": 16039
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3896384835243225,
      "learning_rate": 0.0005543612423497667,
      "loss": 1.7473,
      "step": 16040
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3737802803516388,
      "learning_rate": 0.0005543557004531311,
      "loss": 1.7092,
      "step": 16041
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3909240663051605,
      "learning_rate": 0.0005543501582477452,
      "loss": 1.6407,
      "step": 16042
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4698964059352875,
      "learning_rate": 0.0005543446157336156,
      "loss": 1.688,
      "step": 16043
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37437063455581665,
      "learning_rate": 0.0005543390729107492,
      "loss": 1.6991,
      "step": 16044
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36957815289497375,
      "learning_rate": 0.0005543335297791526,
      "loss": 1.6571,
      "step": 16045
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3975342810153961,
      "learning_rate": 0.0005543279863388326,
      "loss": 1.7659,
      "step": 16046
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39687737822532654,
      "learning_rate": 0.0005543224425897959,
      "loss": 1.6921,
      "step": 16047
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4441268742084503,
      "learning_rate": 0.000554316898532049,
      "loss": 1.6938,
      "step": 16048
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3914965093135834,
      "learning_rate": 0.0005543113541655991,
      "loss": 1.8118,
      "step": 16049
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38999441266059875,
      "learning_rate": 0.0005543058094904526,
      "loss": 1.7271,
      "step": 16050
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38636907935142517,
      "learning_rate": 0.0005543002645066163,
      "loss": 1.7817,
      "step": 16051
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3732316195964813,
      "learning_rate": 0.0005542947192140971,
      "loss": 1.6962,
      "step": 16052
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37875592708587646,
      "learning_rate": 0.0005542891736129015,
      "loss": 1.7422,
      "step": 16053
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38269737362861633,
      "learning_rate": 0.0005542836277030363,
      "loss": 1.6826,
      "step": 16054
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37917065620422363,
      "learning_rate": 0.0005542780814845082,
      "loss": 1.7729,
      "step": 16055
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38437655568122864,
      "learning_rate": 0.0005542725349573241,
      "loss": 1.8305,
      "step": 16056
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39607444405555725,
      "learning_rate": 0.0005542669881214904,
      "loss": 1.7536,
      "step": 16057
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37853699922561646,
      "learning_rate": 0.0005542614409770141,
      "loss": 1.7047,
      "step": 16058
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3825468420982361,
      "learning_rate": 0.0005542558935239021,
      "loss": 1.7343,
      "step": 16059
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37637799978256226,
      "learning_rate": 0.0005542503457621607,
      "loss": 1.721,
      "step": 16060
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.37856239080429077,
      "learning_rate": 0.0005542447976917968,
      "loss": 1.7072,
      "step": 16061
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3913808763027191,
      "learning_rate": 0.0005542392493128173,
      "loss": 1.7371,
      "step": 16062
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3859516680240631,
      "learning_rate": 0.0005542337006252287,
      "loss": 1.7187,
      "step": 16063
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3820571005344391,
      "learning_rate": 0.000554228151629038,
      "loss": 1.7581,
      "step": 16064
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3965403735637665,
      "learning_rate": 0.0005542226023242517,
      "loss": 1.6933,
      "step": 16065
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3916851878166199,
      "learning_rate": 0.0005542170527108766,
      "loss": 1.7353,
      "step": 16066
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40203893184661865,
      "learning_rate": 0.0005542115027889195,
      "loss": 1.7006,
      "step": 16067
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.4027036428451538,
      "learning_rate": 0.0005542059525583871,
      "loss": 1.8138,
      "step": 16068
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40493065118789673,
      "learning_rate": 0.000554200402019286,
      "loss": 1.7365,
      "step": 16069
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.396239697933197,
      "learning_rate": 0.0005541948511716232,
      "loss": 1.723,
      "step": 16070
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3807407021522522,
      "learning_rate": 0.0005541893000154053,
      "loss": 1.7035,
      "step": 16071
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.41479024291038513,
      "learning_rate": 0.000554183748550639,
      "loss": 1.6824,
      "step": 16072
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3891024589538574,
      "learning_rate": 0.0005541781967773311,
      "loss": 1.6674,
      "step": 16073
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3889450132846832,
      "learning_rate": 0.0005541726446954883,
      "loss": 1.7009,
      "step": 16074
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3891070485115051,
      "learning_rate": 0.0005541670923051174,
      "loss": 1.826,
      "step": 16075
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.40784624218940735,
      "learning_rate": 0.000554161539606225,
      "loss": 1.7733,
      "step": 16076
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39686137437820435,
      "learning_rate": 0.000554155986598818,
      "loss": 1.8,
      "step": 16077
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.38130107522010803,
      "learning_rate": 0.0005541504332829032,
      "loss": 1.7854,
      "step": 16078
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39721930027008057,
      "learning_rate": 0.0005541448796584871,
      "loss": 1.733,
      "step": 16079
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3997293710708618,
      "learning_rate": 0.0005541393257255765,
      "loss": 1.6916,
      "step": 16080
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3813536763191223,
      "learning_rate": 0.0005541337714841784,
      "loss": 1.706,
      "step": 16081
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38314318656921387,
      "learning_rate": 0.0005541282169342992,
      "loss": 1.7949,
      "step": 16082
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.382428377866745,
      "learning_rate": 0.0005541226620759457,
      "loss": 1.7352,
      "step": 16083
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3990675210952759,
      "learning_rate": 0.0005541171069091249,
      "loss": 1.7261,
      "step": 16084
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3742174804210663,
      "learning_rate": 0.0005541115514338433,
      "loss": 1.7155,
      "step": 16085
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3772669732570648,
      "learning_rate": 0.0005541059956501078,
      "loss": 1.7554,
      "step": 16086
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3913952112197876,
      "learning_rate": 0.000554100439557925,
      "loss": 1.7311,
      "step": 16087
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39178887009620667,
      "learning_rate": 0.0005540948831573016,
      "loss": 1.6878,
      "step": 16088
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3687203824520111,
      "learning_rate": 0.0005540893264482445,
      "loss": 1.6988,
      "step": 16089
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39428842067718506,
      "learning_rate": 0.0005540837694307606,
      "loss": 1.7502,
      "step": 16090
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3910616934299469,
      "learning_rate": 0.0005540782121048563,
      "loss": 1.7139,
      "step": 16091
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3788153827190399,
      "learning_rate": 0.0005540726544705385,
      "loss": 1.7102,
      "step": 16092
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3869090974330902,
      "learning_rate": 0.0005540670965278138,
      "loss": 1.738,
      "step": 16093
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39014333486557007,
      "learning_rate": 0.0005540615382766893,
      "loss": 1.7186,
      "step": 16094
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3973580598831177,
      "learning_rate": 0.0005540559797171713,
      "loss": 1.7368,
      "step": 16095
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4126032590866089,
      "learning_rate": 0.0005540504208492669,
      "loss": 1.7561,
      "step": 16096
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3659469187259674,
      "learning_rate": 0.0005540448616729828,
      "loss": 1.6744,
      "step": 16097
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3755023181438446,
      "learning_rate": 0.0005540393021883256,
      "loss": 1.7298,
      "step": 16098
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3793759047985077,
      "learning_rate": 0.000554033742395302,
      "loss": 1.7496,
      "step": 16099
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.378603458404541,
      "learning_rate": 0.000554028182293919,
      "loss": 1.6341,
      "step": 16100
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38464418053627014,
      "learning_rate": 0.0005540226218841833,
      "loss": 1.7345,
      "step": 16101
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38668549060821533,
      "learning_rate": 0.0005540170611661013,
      "loss": 1.7192,
      "step": 16102
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37676334381103516,
      "learning_rate": 0.0005540115001396802,
      "loss": 1.6582,
      "step": 16103
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3771114945411682,
      "learning_rate": 0.0005540059388049266,
      "loss": 1.6991,
      "step": 16104
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37701162695884705,
      "learning_rate": 0.0005540003771618471,
      "loss": 1.7571,
      "step": 16105
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37128743529319763,
      "learning_rate": 0.0005539948152104487,
      "loss": 1.7079,
      "step": 16106
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3817109167575836,
      "learning_rate": 0.0005539892529507379,
      "loss": 1.7486,
      "step": 16107
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37850087881088257,
      "learning_rate": 0.0005539836903827217,
      "loss": 1.7143,
      "step": 16108
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3719119727611542,
      "learning_rate": 0.0005539781275064066,
      "loss": 1.8021,
      "step": 16109
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38495099544525146,
      "learning_rate": 0.0005539725643217995,
      "loss": 1.7373,
      "step": 16110
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3720981776714325,
      "learning_rate": 0.0005539670008289071,
      "loss": 1.7553,
      "step": 16111
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3927476704120636,
      "learning_rate": 0.0005539614370277362,
      "loss": 1.7018,
      "step": 16112
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3712569773197174,
      "learning_rate": 0.0005539558729182936,
      "loss": 1.7347,
      "step": 16113
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3801023066043854,
      "learning_rate": 0.0005539503085005859,
      "loss": 1.7492,
      "step": 16114
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3642328679561615,
      "learning_rate": 0.00055394474377462,
      "loss": 1.7328,
      "step": 16115
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3836386799812317,
      "learning_rate": 0.0005539391787404026,
      "loss": 1.7217,
      "step": 16116
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3662918210029602,
      "learning_rate": 0.0005539336133979403,
      "loss": 1.7179,
      "step": 16117
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37407782673835754,
      "learning_rate": 0.0005539280477472402,
      "loss": 1.6893,
      "step": 16118
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37222087383270264,
      "learning_rate": 0.0005539224817883088,
      "loss": 1.6788,
      "step": 16119
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38275861740112305,
      "learning_rate": 0.0005539169155211529,
      "loss": 1.784,
      "step": 16120
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3844594955444336,
      "learning_rate": 0.0005539113489457794,
      "loss": 1.7558,
      "step": 16121
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37258392572402954,
      "learning_rate": 0.0005539057820621948,
      "loss": 1.7478,
      "step": 16122
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3843942880630493,
      "learning_rate": 0.000553900214870406,
      "loss": 1.7369,
      "step": 16123
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38915058970451355,
      "learning_rate": 0.0005538946473704198,
      "loss": 1.7316,
      "step": 16124
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3748607337474823,
      "learning_rate": 0.0005538890795622429,
      "loss": 1.6474,
      "step": 16125
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3708111643791199,
      "learning_rate": 0.000553883511445882,
      "loss": 1.7014,
      "step": 16126
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3775526285171509,
      "learning_rate": 0.000553877943021344,
      "loss": 1.7044,
      "step": 16127
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38687899708747864,
      "learning_rate": 0.0005538723742886356,
      "loss": 1.8016,
      "step": 16128
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3839293122291565,
      "learning_rate": 0.0005538668052477635,
      "loss": 1.7163,
      "step": 16129
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3849066197872162,
      "learning_rate": 0.0005538612358987346,
      "loss": 1.729,
      "step": 16130
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36752426624298096,
      "learning_rate": 0.0005538556662415554,
      "loss": 1.7031,
      "step": 16131
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.377472847700119,
      "learning_rate": 0.0005538500962762329,
      "loss": 1.6895,
      "step": 16132
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3893226683139801,
      "learning_rate": 0.0005538445260027737,
      "loss": 1.7252,
      "step": 16133
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37494656443595886,
      "learning_rate": 0.0005538389554211848,
      "loss": 1.6603,
      "step": 16134
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3819276988506317,
      "learning_rate": 0.0005538333845314727,
      "loss": 1.7553,
      "step": 16135
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3832983672618866,
      "learning_rate": 0.0005538278133336444,
      "loss": 1.6801,
      "step": 16136
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39438432455062866,
      "learning_rate": 0.0005538222418277064,
      "loss": 1.7412,
      "step": 16137
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38284504413604736,
      "learning_rate": 0.0005538166700136657,
      "loss": 1.7484,
      "step": 16138
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40239301323890686,
      "learning_rate": 0.000553811097891529,
      "loss": 1.6748,
      "step": 16139
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3840091824531555,
      "learning_rate": 0.0005538055254613028,
      "loss": 1.7172,
      "step": 16140
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3974605202674866,
      "learning_rate": 0.0005537999527229942,
      "loss": 1.7479,
      "step": 16141
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4298837184906006,
      "learning_rate": 0.00055379437967661,
      "loss": 1.763,
      "step": 16142
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.41735032200813293,
      "learning_rate": 0.0005537888063221567,
      "loss": 1.8559,
      "step": 16143
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3916942775249481,
      "learning_rate": 0.0005537832326596411,
      "loss": 1.8495,
      "step": 16144
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.41340088844299316,
      "learning_rate": 0.0005537776586890701,
      "loss": 1.6807,
      "step": 16145
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40608179569244385,
      "learning_rate": 0.0005537720844104504,
      "loss": 1.6867,
      "step": 16146
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40257593989372253,
      "learning_rate": 0.0005537665098237889,
      "loss": 1.7723,
      "step": 16147
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4010382890701294,
      "learning_rate": 0.0005537609349290921,
      "loss": 1.7846,
      "step": 16148
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4582030177116394,
      "learning_rate": 0.000553755359726367,
      "loss": 1.7062,
      "step": 16149
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4036048948764801,
      "learning_rate": 0.0005537497842156203,
      "loss": 1.7156,
      "step": 16150
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4087645709514618,
      "learning_rate": 0.0005537442083968587,
      "loss": 1.764,
      "step": 16151
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38500890135765076,
      "learning_rate": 0.0005537386322700891,
      "loss": 1.718,
      "step": 16152
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.41068583726882935,
      "learning_rate": 0.0005537330558353181,
      "loss": 1.7079,
      "step": 16153
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3980148136615753,
      "learning_rate": 0.0005537274790925525,
      "loss": 1.7345,
      "step": 16154
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.363909512758255,
      "learning_rate": 0.0005537219020417993,
      "loss": 1.6825,
      "step": 16155
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37477636337280273,
      "learning_rate": 0.0005537163246830649,
      "loss": 1.6811,
      "step": 16156
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3958311676979065,
      "learning_rate": 0.0005537107470163564,
      "loss": 1.7507,
      "step": 16157
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39004138112068176,
      "learning_rate": 0.0005537051690416804,
      "loss": 1.6799,
      "step": 16158
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3751184046268463,
      "learning_rate": 0.0005536995907590436,
      "loss": 1.7906,
      "step": 16159
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38906362652778625,
      "learning_rate": 0.0005536940121684531,
      "loss": 1.7394,
      "step": 16160
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39298519492149353,
      "learning_rate": 0.0005536884332699153,
      "loss": 1.6774,
      "step": 16161
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3768656551837921,
      "learning_rate": 0.0005536828540634372,
      "loss": 1.687,
      "step": 16162
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3682674467563629,
      "learning_rate": 0.0005536772745490254,
      "loss": 1.7495,
      "step": 16163
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3775222897529602,
      "learning_rate": 0.0005536716947266868,
      "loss": 1.7099,
      "step": 16164
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38863006234169006,
      "learning_rate": 0.0005536661145964281,
      "loss": 1.6551,
      "step": 16165
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3829796016216278,
      "learning_rate": 0.0005536605341582562,
      "loss": 1.6558,
      "step": 16166
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3849039673805237,
      "learning_rate": 0.0005536549534121779,
      "loss": 1.733,
      "step": 16167
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37515246868133545,
      "learning_rate": 0.0005536493723581996,
      "loss": 1.7831,
      "step": 16168
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40838193893432617,
      "learning_rate": 0.0005536437909963285,
      "loss": 1.6809,
      "step": 16169
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3827371895313263,
      "learning_rate": 0.0005536382093265711,
      "loss": 1.6938,
      "step": 16170
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38440194725990295,
      "learning_rate": 0.0005536326273489344,
      "loss": 1.7339,
      "step": 16171
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3866857886314392,
      "learning_rate": 0.000553627045063425,
      "loss": 1.6925,
      "step": 16172
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3755132853984833,
      "learning_rate": 0.0005536214624700497,
      "loss": 1.7167,
      "step": 16173
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36038219928741455,
      "learning_rate": 0.0005536158795688154,
      "loss": 1.662,
      "step": 16174
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38755300641059875,
      "learning_rate": 0.0005536102963597287,
      "loss": 1.7014,
      "step": 16175
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3650221824645996,
      "learning_rate": 0.0005536047128427966,
      "loss": 1.6664,
      "step": 16176
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4009900689125061,
      "learning_rate": 0.0005535991290180255,
      "loss": 1.7532,
      "step": 16177
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38025978207588196,
      "learning_rate": 0.0005535935448854227,
      "loss": 1.736,
      "step": 16178
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3968411087989807,
      "learning_rate": 0.0005535879604449945,
      "loss": 1.6393,
      "step": 16179
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3773491382598877,
      "learning_rate": 0.000553582375696748,
      "loss": 1.7477,
      "step": 16180
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3677870035171509,
      "learning_rate": 0.0005535767906406898,
      "loss": 1.7727,
      "step": 16181
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3729783296585083,
      "learning_rate": 0.0005535712052768268,
      "loss": 1.7313,
      "step": 16182
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3722990155220032,
      "learning_rate": 0.0005535656196051657,
      "loss": 1.7225,
      "step": 16183
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37193533778190613,
      "learning_rate": 0.0005535600336257132,
      "loss": 1.6867,
      "step": 16184
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39768466353416443,
      "learning_rate": 0.0005535544473384763,
      "loss": 1.7853,
      "step": 16185
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37829360365867615,
      "learning_rate": 0.0005535488607434616,
      "loss": 1.6544,
      "step": 16186
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37622934579849243,
      "learning_rate": 0.000553543273840676,
      "loss": 1.7757,
      "step": 16187
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36977675557136536,
      "learning_rate": 0.0005535376866301262,
      "loss": 1.7265,
      "step": 16188
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3694327473640442,
      "learning_rate": 0.0005535320991118189,
      "loss": 1.689,
      "step": 16189
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36980679631233215,
      "learning_rate": 0.0005535265112857613,
      "loss": 1.6906,
      "step": 16190
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38959765434265137,
      "learning_rate": 0.0005535209231519596,
      "loss": 1.7758,
      "step": 16191
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3707546591758728,
      "learning_rate": 0.0005535153347104208,
      "loss": 1.6721,
      "step": 16192
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.368547260761261,
      "learning_rate": 0.0005535097459611519,
      "loss": 1.6545,
      "step": 16193
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37923872470855713,
      "learning_rate": 0.0005535041569041594,
      "loss": 1.7758,
      "step": 16194
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36787253618240356,
      "learning_rate": 0.0005534985675394504,
      "loss": 1.6797,
      "step": 16195
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37209352850914,
      "learning_rate": 0.0005534929778670313,
      "loss": 1.6729,
      "step": 16196
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3912179172039032,
      "learning_rate": 0.0005534873878869091,
      "loss": 1.6541,
      "step": 16197
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38625743985176086,
      "learning_rate": 0.0005534817975990907,
      "loss": 1.6035,
      "step": 16198
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37518230080604553,
      "learning_rate": 0.0005534762070035826,
      "loss": 1.7179,
      "step": 16199
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.390714168548584,
      "learning_rate": 0.0005534706161003918,
      "loss": 1.8139,
      "step": 16200
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38145706057548523,
      "learning_rate": 0.000553465024889525,
      "loss": 1.7501,
      "step": 16201
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39297518134117126,
      "learning_rate": 0.000553459433370989,
      "loss": 1.6941,
      "step": 16202
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.372143417596817,
      "learning_rate": 0.0005534538415447905,
      "loss": 1.6893,
      "step": 16203
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38252291083335876,
      "learning_rate": 0.0005534482494109365,
      "loss": 1.7134,
      "step": 16204
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4022095799446106,
      "learning_rate": 0.0005534426569694337,
      "loss": 1.6094,
      "step": 16205
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3813856542110443,
      "learning_rate": 0.0005534370642202887,
      "loss": 1.7417,
      "step": 16206
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38205260038375854,
      "learning_rate": 0.0005534314711635086,
      "loss": 1.7262,
      "step": 16207
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3924604654312134,
      "learning_rate": 0.0005534258777991,
      "loss": 1.6406,
      "step": 16208
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.379799485206604,
      "learning_rate": 0.0005534202841270697,
      "loss": 1.6891,
      "step": 16209
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37718963623046875,
      "learning_rate": 0.0005534146901474246,
      "loss": 1.7268,
      "step": 16210
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37820976972579956,
      "learning_rate": 0.0005534090958601712,
      "loss": 1.7575,
      "step": 16211
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4018881022930145,
      "learning_rate": 0.0005534035012653167,
      "loss": 1.7286,
      "step": 16212
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39315083622932434,
      "learning_rate": 0.0005533979063628675,
      "loss": 1.7877,
      "step": 16213
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38548049330711365,
      "learning_rate": 0.0005533923111528308,
      "loss": 1.7167,
      "step": 16214
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3723376989364624,
      "learning_rate": 0.000553386715635213,
      "loss": 1.6381,
      "step": 16215
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3770148754119873,
      "learning_rate": 0.0005533811198100211,
      "loss": 1.7416,
      "step": 16216
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3609033226966858,
      "learning_rate": 0.000553375523677262,
      "loss": 1.6485,
      "step": 16217
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37863144278526306,
      "learning_rate": 0.0005533699272369421,
      "loss": 1.7028,
      "step": 16218
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3746674954891205,
      "learning_rate": 0.0005533643304890686,
      "loss": 1.6553,
      "step": 16219
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3758159279823303,
      "learning_rate": 0.0005533587334336481,
      "loss": 1.7336,
      "step": 16220
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38171809911727905,
      "learning_rate": 0.0005533531360706874,
      "loss": 1.7698,
      "step": 16221
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3751083016395569,
      "learning_rate": 0.0005533475384001934,
      "loss": 1.7364,
      "step": 16222
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3720031976699829,
      "learning_rate": 0.0005533419404221728,
      "loss": 1.7851,
      "step": 16223
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3831380605697632,
      "learning_rate": 0.0005533363421366324,
      "loss": 1.7256,
      "step": 16224
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4066149592399597,
      "learning_rate": 0.0005533307435435789,
      "loss": 1.6684,
      "step": 16225
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37278857827186584,
      "learning_rate": 0.0005533251446430194,
      "loss": 1.7093,
      "step": 16226
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3781582713127136,
      "learning_rate": 0.0005533195454349603,
      "loss": 1.7209,
      "step": 16227
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39156654477119446,
      "learning_rate": 0.0005533139459194086,
      "loss": 1.6998,
      "step": 16228
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3786623179912567,
      "learning_rate": 0.0005533083460963713,
      "loss": 1.7167,
      "step": 16229
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37219882011413574,
      "learning_rate": 0.0005533027459658548,
      "loss": 1.6745,
      "step": 16230
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3773084282875061,
      "learning_rate": 0.0005532971455278662,
      "loss": 1.7419,
      "step": 16231
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37868165969848633,
      "learning_rate": 0.0005532915447824121,
      "loss": 1.726,
      "step": 16232
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.390032023191452,
      "learning_rate": 0.0005532859437294995,
      "loss": 1.8081,
      "step": 16233
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3840336799621582,
      "learning_rate": 0.000553280342369135,
      "loss": 1.6721,
      "step": 16234
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3711416721343994,
      "learning_rate": 0.0005532747407013254,
      "loss": 1.7318,
      "step": 16235
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37282824516296387,
      "learning_rate": 0.0005532691387260778,
      "loss": 1.7527,
      "step": 16236
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37776657938957214,
      "learning_rate": 0.0005532635364433987,
      "loss": 1.7216,
      "step": 16237
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3773494064807892,
      "learning_rate": 0.0005532579338532949,
      "loss": 1.7364,
      "step": 16238
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3845980167388916,
      "learning_rate": 0.0005532523309557733,
      "loss": 1.7486,
      "step": 16239
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3814132809638977,
      "learning_rate": 0.0005532467277508408,
      "loss": 1.7647,
      "step": 16240
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5274755358695984,
      "learning_rate": 0.0005532411242385039,
      "loss": 1.65,
      "step": 16241
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3778547942638397,
      "learning_rate": 0.0005532355204187697,
      "loss": 1.7509,
      "step": 16242
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38760945200920105,
      "learning_rate": 0.0005532299162916449,
      "loss": 1.7298,
      "step": 16243
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37542131543159485,
      "learning_rate": 0.0005532243118571363,
      "loss": 1.7597,
      "step": 16244
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36377382278442383,
      "learning_rate": 0.0005532187071152506,
      "loss": 1.7392,
      "step": 16245
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37541064620018005,
      "learning_rate": 0.0005532131020659949,
      "loss": 1.6605,
      "step": 16246
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3766544461250305,
      "learning_rate": 0.0005532074967093757,
      "loss": 1.7319,
      "step": 16247
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3874700665473938,
      "learning_rate": 0.0005532018910453998,
      "loss": 1.7527,
      "step": 16248
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3726251423358917,
      "learning_rate": 0.0005531962850740742,
      "loss": 1.7212,
      "step": 16249
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3740967810153961,
      "learning_rate": 0.0005531906787954056,
      "loss": 1.6826,
      "step": 16250
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3818973898887634,
      "learning_rate": 0.000553185072209401,
      "loss": 1.7949,
      "step": 16251
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37822598218917847,
      "learning_rate": 0.0005531794653160668,
      "loss": 1.6863,
      "step": 16252
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38243839144706726,
      "learning_rate": 0.00055317385811541,
      "loss": 1.768,
      "step": 16253
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3801023066043854,
      "learning_rate": 0.0005531682506074376,
      "loss": 1.7318,
      "step": 16254
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3840150535106659,
      "learning_rate": 0.0005531626427921561,
      "loss": 1.7418,
      "step": 16255
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36023586988449097,
      "learning_rate": 0.0005531570346695725,
      "loss": 1.7145,
      "step": 16256
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38856208324432373,
      "learning_rate": 0.0005531514262396937,
      "loss": 1.7122,
      "step": 16257
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3892200291156769,
      "learning_rate": 0.0005531458175025263,
      "loss": 1.7738,
      "step": 16258
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3762984871864319,
      "learning_rate": 0.0005531402084580771,
      "loss": 1.7444,
      "step": 16259
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37235376238822937,
      "learning_rate": 0.000553134599106353,
      "loss": 1.6748,
      "step": 16260
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37250280380249023,
      "learning_rate": 0.0005531289894473608,
      "loss": 1.7129,
      "step": 16261
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38001078367233276,
      "learning_rate": 0.0005531233794811074,
      "loss": 1.7201,
      "step": 16262
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38525986671447754,
      "learning_rate": 0.0005531177692075994,
      "loss": 1.7495,
      "step": 16263
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38105058670043945,
      "learning_rate": 0.0005531121586268438,
      "loss": 1.6929,
      "step": 16264
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38796037435531616,
      "learning_rate": 0.0005531065477388473,
      "loss": 1.804,
      "step": 16265
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3762417137622833,
      "learning_rate": 0.0005531009365436167,
      "loss": 1.7436,
      "step": 16266
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40375399589538574,
      "learning_rate": 0.0005530953250411589,
      "loss": 1.6753,
      "step": 16267
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3823157548904419,
      "learning_rate": 0.0005530897132314807,
      "loss": 1.7333,
      "step": 16268
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39576131105422974,
      "learning_rate": 0.0005530841011145888,
      "loss": 1.7639,
      "step": 16269
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3904738128185272,
      "learning_rate": 0.0005530784886904901,
      "loss": 1.6987,
      "step": 16270
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37143269181251526,
      "learning_rate": 0.0005530728759591914,
      "loss": 1.6773,
      "step": 16271
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.378429114818573,
      "learning_rate": 0.0005530672629206996,
      "loss": 1.7322,
      "step": 16272
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39193806052207947,
      "learning_rate": 0.0005530616495750215,
      "loss": 1.7213,
      "step": 16273
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.384385883808136,
      "learning_rate": 0.0005530560359221637,
      "loss": 1.6831,
      "step": 16274
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3855595290660858,
      "learning_rate": 0.0005530504219621331,
      "loss": 1.7336,
      "step": 16275
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3825579285621643,
      "learning_rate": 0.0005530448076949368,
      "loss": 1.6813,
      "step": 16276
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3818390667438507,
      "learning_rate": 0.0005530391931205812,
      "loss": 1.7241,
      "step": 16277
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37425604462623596,
      "learning_rate": 0.0005530335782390734,
      "loss": 1.7092,
      "step": 16278
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3812938928604126,
      "learning_rate": 0.00055302796305042,
      "loss": 1.7382,
      "step": 16279
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3829120993614197,
      "learning_rate": 0.000553022347554628,
      "loss": 1.7191,
      "step": 16280
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3886510133743286,
      "learning_rate": 0.0005530167317517042,
      "loss": 1.7622,
      "step": 16281
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3862016201019287,
      "learning_rate": 0.0005530111156416553,
      "loss": 1.6504,
      "step": 16282
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3844703137874603,
      "learning_rate": 0.0005530054992244882,
      "loss": 1.7832,
      "step": 16283
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3778246343135834,
      "learning_rate": 0.0005529998825002096,
      "loss": 1.7317,
      "step": 16284
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3880367875099182,
      "learning_rate": 0.0005529942654688266,
      "loss": 1.7342,
      "step": 16285
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40015271306037903,
      "learning_rate": 0.0005529886481303458,
      "loss": 1.7145,
      "step": 16286
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3821691870689392,
      "learning_rate": 0.0005529830304847739,
      "loss": 1.7362,
      "step": 16287
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3910667896270752,
      "learning_rate": 0.0005529774125321181,
      "loss": 1.7747,
      "step": 16288
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3715474307537079,
      "learning_rate": 0.0005529717942723849,
      "loss": 1.7574,
      "step": 16289
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37831002473831177,
      "learning_rate": 0.0005529661757055813,
      "loss": 1.74,
      "step": 16290
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37778058648109436,
      "learning_rate": 0.0005529605568317139,
      "loss": 1.6904,
      "step": 16291
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3879106342792511,
      "learning_rate": 0.0005529549376507897,
      "loss": 1.7441,
      "step": 16292
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3907126784324646,
      "learning_rate": 0.0005529493181628155,
      "loss": 1.7596,
      "step": 16293
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3829938769340515,
      "learning_rate": 0.0005529436983677981,
      "loss": 1.6962,
      "step": 16294
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38051533699035645,
      "learning_rate": 0.0005529380782657443,
      "loss": 1.7339,
      "step": 16295
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.385751336812973,
      "learning_rate": 0.0005529324578566609,
      "loss": 1.7528,
      "step": 16296
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3828936219215393,
      "learning_rate": 0.0005529268371405548,
      "loss": 1.6866,
      "step": 16297
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3908413052558899,
      "learning_rate": 0.0005529212161174328,
      "loss": 1.7237,
      "step": 16298
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3799837827682495,
      "learning_rate": 0.0005529155947873017,
      "loss": 1.7172,
      "step": 16299
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3832140266895294,
      "learning_rate": 0.0005529099731501683,
      "loss": 1.7102,
      "step": 16300
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5969997048377991,
      "learning_rate": 0.0005529043512060395,
      "loss": 1.7122,
      "step": 16301
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3868723511695862,
      "learning_rate": 0.0005528987289549222,
      "loss": 1.7271,
      "step": 16302
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4108229875564575,
      "learning_rate": 0.0005528931063968229,
      "loss": 1.6941,
      "step": 16303
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4012298882007599,
      "learning_rate": 0.0005528874835317488,
      "loss": 1.657,
      "step": 16304
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3704545795917511,
      "learning_rate": 0.0005528818603597064,
      "loss": 1.6822,
      "step": 16305
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.40418681502342224,
      "learning_rate": 0.0005528762368807027,
      "loss": 1.8026,
      "step": 16306
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3852592706680298,
      "learning_rate": 0.0005528706130947446,
      "loss": 1.7194,
      "step": 16307
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6281217932701111,
      "learning_rate": 0.0005528649890018388,
      "loss": 1.6955,
      "step": 16308
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37651145458221436,
      "learning_rate": 0.0005528593646019921,
      "loss": 1.7231,
      "step": 16309
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38451114296913147,
      "learning_rate": 0.0005528537398952116,
      "loss": 1.7613,
      "step": 16310
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36940914392471313,
      "learning_rate": 0.0005528481148815036,
      "loss": 1.6207,
      "step": 16311
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3828546702861786,
      "learning_rate": 0.0005528424895608755,
      "loss": 1.7247,
      "step": 16312
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38041356205940247,
      "learning_rate": 0.0005528368639333337,
      "loss": 1.7312,
      "step": 16313
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3810316026210785,
      "learning_rate": 0.0005528312379988853,
      "loss": 1.7597,
      "step": 16314
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3693176209926605,
      "learning_rate": 0.000552825611757537,
      "loss": 1.7523,
      "step": 16315
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3760118782520294,
      "learning_rate": 0.0005528199852092957,
      "loss": 1.6936,
      "step": 16316
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3905200958251953,
      "learning_rate": 0.0005528143583541682,
      "loss": 1.7417,
      "step": 16317
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38507214188575745,
      "learning_rate": 0.0005528087311921612,
      "loss": 1.7347,
      "step": 16318
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.387543648481369,
      "learning_rate": 0.0005528031037232817,
      "loss": 1.6811,
      "step": 16319
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3967500627040863,
      "learning_rate": 0.0005527974759475365,
      "loss": 1.7892,
      "step": 16320
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37708738446235657,
      "learning_rate": 0.0005527918478649324,
      "loss": 1.6884,
      "step": 16321
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37816932797431946,
      "learning_rate": 0.0005527862194754763,
      "loss": 1.7248,
      "step": 16322
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3861352503299713,
      "learning_rate": 0.000552780590779175,
      "loss": 1.7411,
      "step": 16323
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3801429867744446,
      "learning_rate": 0.0005527749617760352,
      "loss": 1.7129,
      "step": 16324
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37338903546333313,
      "learning_rate": 0.000552769332466064,
      "loss": 1.6279,
      "step": 16325
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37527456879615784,
      "learning_rate": 0.0005527637028492678,
      "loss": 1.8058,
      "step": 16326
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36960259079933167,
      "learning_rate": 0.0005527580729256539,
      "loss": 1.7513,
      "step": 16327
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.378616601228714,
      "learning_rate": 0.0005527524426952289,
      "loss": 1.7382,
      "step": 16328
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3724684417247772,
      "learning_rate": 0.0005527468121579997,
      "loss": 1.7469,
      "step": 16329
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3917824923992157,
      "learning_rate": 0.0005527411813139731,
      "loss": 1.632,
      "step": 16330
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3745885193347931,
      "learning_rate": 0.000552735550163156,
      "loss": 1.7655,
      "step": 16331
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3759780526161194,
      "learning_rate": 0.0005527299187055552,
      "loss": 1.7718,
      "step": 16332
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39428532123565674,
      "learning_rate": 0.0005527242869411773,
      "loss": 1.7226,
      "step": 16333
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39724910259246826,
      "learning_rate": 0.0005527186548700295,
      "loss": 1.6985,
      "step": 16334
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38141515851020813,
      "learning_rate": 0.0005527130224921184,
      "loss": 1.7016,
      "step": 16335
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37315309047698975,
      "learning_rate": 0.0005527073898074511,
      "loss": 1.7096,
      "step": 16336
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.379040002822876,
      "learning_rate": 0.0005527017568160342,
      "loss": 1.7485,
      "step": 16337
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38991740345954895,
      "learning_rate": 0.0005526961235178745,
      "loss": 1.729,
      "step": 16338
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36773166060447693,
      "learning_rate": 0.000552690489912979,
      "loss": 1.69,
      "step": 16339
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3805004954338074,
      "learning_rate": 0.0005526848560013546,
      "loss": 1.705,
      "step": 16340
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.376318097114563,
      "learning_rate": 0.0005526792217830079,
      "loss": 1.6977,
      "step": 16341
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37306246161460876,
      "learning_rate": 0.0005526735872579458,
      "loss": 1.7792,
      "step": 16342
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3728853166103363,
      "learning_rate": 0.0005526679524261753,
      "loss": 1.6521,
      "step": 16343
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36773544549942017,
      "learning_rate": 0.000552662317287703,
      "loss": 1.6767,
      "step": 16344
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37994545698165894,
      "learning_rate": 0.000552656681842536,
      "loss": 1.7317,
      "step": 16345
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37581712007522583,
      "learning_rate": 0.000552651046090681,
      "loss": 1.7076,
      "step": 16346
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3831769824028015,
      "learning_rate": 0.0005526454100321449,
      "loss": 1.719,
      "step": 16347
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3751750886440277,
      "learning_rate": 0.0005526397736669344,
      "loss": 1.7523,
      "step": 16348
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3825967013835907,
      "learning_rate": 0.0005526341369950564,
      "loss": 1.7281,
      "step": 16349
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.375191330909729,
      "learning_rate": 0.000552628500016518,
      "loss": 1.683,
      "step": 16350
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3806939423084259,
      "learning_rate": 0.0005526228627313255,
      "loss": 1.6532,
      "step": 16351
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3698107600212097,
      "learning_rate": 0.0005526172251394863,
      "loss": 1.754,
      "step": 16352
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37781813740730286,
      "learning_rate": 0.000552611587241007,
      "loss": 1.6602,
      "step": 16353
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4055282771587372,
      "learning_rate": 0.0005526059490358944,
      "loss": 1.7506,
      "step": 16354
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3881150484085083,
      "learning_rate": 0.0005526003105241554,
      "loss": 1.8294,
      "step": 16355
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38245725631713867,
      "learning_rate": 0.0005525946717057969,
      "loss": 1.733,
      "step": 16356
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3968711197376251,
      "learning_rate": 0.0005525890325808257,
      "loss": 1.6964,
      "step": 16357
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3752042353153229,
      "learning_rate": 0.0005525833931492484,
      "loss": 1.7602,
      "step": 16358
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5446198582649231,
      "learning_rate": 0.0005525777534110723,
      "loss": 1.7437,
      "step": 16359
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38155969977378845,
      "learning_rate": 0.000552572113366304,
      "loss": 1.6446,
      "step": 16360
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3836364150047302,
      "learning_rate": 0.0005525664730149503,
      "loss": 1.7804,
      "step": 16361
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37210556864738464,
      "learning_rate": 0.0005525608323570182,
      "loss": 1.7282,
      "step": 16362
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.35912024974823,
      "learning_rate": 0.0005525551913925144,
      "loss": 1.646,
      "step": 16363
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3802136182785034,
      "learning_rate": 0.0005525495501214458,
      "loss": 1.6845,
      "step": 16364
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37353694438934326,
      "learning_rate": 0.0005525439085438193,
      "loss": 1.7499,
      "step": 16365
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3730771243572235,
      "learning_rate": 0.0005525382666596416,
      "loss": 1.755,
      "step": 16366
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3941675126552582,
      "learning_rate": 0.0005525326244689198,
      "loss": 1.7579,
      "step": 16367
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3722955882549286,
      "learning_rate": 0.0005525269819716606,
      "loss": 1.7375,
      "step": 16368
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3720797598361969,
      "learning_rate": 0.0005525213391678708,
      "loss": 1.6642,
      "step": 16369
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.377855509519577,
      "learning_rate": 0.0005525156960575572,
      "loss": 1.7277,
      "step": 16370
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.39120087027549744,
      "learning_rate": 0.0005525100526407269,
      "loss": 1.7345,
      "step": 16371
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.382272332906723,
      "learning_rate": 0.0005525044089173866,
      "loss": 1.6683,
      "step": 16372
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3780277967453003,
      "learning_rate": 0.0005524987648875432,
      "loss": 1.6939,
      "step": 16373
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3744399845600128,
      "learning_rate": 0.0005524931205512033,
      "loss": 1.7108,
      "step": 16374
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.38215020298957825,
      "learning_rate": 0.0005524874759083741,
      "loss": 1.711,
      "step": 16375
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.35603830218315125,
      "learning_rate": 0.0005524818309590623,
      "loss": 1.7153,
      "step": 16376
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3865159749984741,
      "learning_rate": 0.0005524761857032747,
      "loss": 1.7546,
      "step": 16377
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.36885809898376465,
      "learning_rate": 0.0005524705401410183,
      "loss": 1.7582,
      "step": 16378
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37481755018234253,
      "learning_rate": 0.0005524648942722997,
      "loss": 1.6344,
      "step": 16379
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37806278467178345,
      "learning_rate": 0.000552459248097126,
      "loss": 1.7641,
      "step": 16380
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3795520067214966,
      "learning_rate": 0.000552453601615504,
      "loss": 1.6976,
      "step": 16381
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4048340320587158,
      "learning_rate": 0.0005524479548274405,
      "loss": 1.7269,
      "step": 16382
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3740651607513428,
      "learning_rate": 0.0005524423077329424,
      "loss": 1.74,
      "step": 16383
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37346357107162476,
      "learning_rate": 0.0005524366603320166,
      "loss": 1.6263,
      "step": 16384
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3817397952079773,
      "learning_rate": 0.0005524310126246698,
      "loss": 1.7203,
      "step": 16385
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37615638971328735,
      "learning_rate": 0.000552425364610909,
      "loss": 1.7053,
      "step": 16386
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37948065996170044,
      "learning_rate": 0.0005524197162907409,
      "loss": 1.721,
      "step": 16387
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3715856075286865,
      "learning_rate": 0.0005524140676641725,
      "loss": 1.6785,
      "step": 16388
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3761005401611328,
      "learning_rate": 0.0005524084187312107,
      "loss": 1.7752,
      "step": 16389
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3791744112968445,
      "learning_rate": 0.0005524027694918622,
      "loss": 1.7611,
      "step": 16390
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38220956921577454,
      "learning_rate": 0.0005523971199461339,
      "loss": 1.738,
      "step": 16391
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3827798366546631,
      "learning_rate": 0.0005523914700940327,
      "loss": 1.7981,
      "step": 16392
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4422643184661865,
      "learning_rate": 0.0005523858199355655,
      "loss": 1.6931,
      "step": 16393
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3802870810031891,
      "learning_rate": 0.0005523801694707391,
      "loss": 1.774,
      "step": 16394
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.375370055437088,
      "learning_rate": 0.0005523745186995603,
      "loss": 1.6472,
      "step": 16395
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.400243878364563,
      "learning_rate": 0.000552368867622036,
      "loss": 1.7362,
      "step": 16396
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38154980540275574,
      "learning_rate": 0.0005523632162381731,
      "loss": 1.7875,
      "step": 16397
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38186848163604736,
      "learning_rate": 0.0005523575645479785,
      "loss": 1.7244,
      "step": 16398
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3771498501300812,
      "learning_rate": 0.000552351912551459,
      "loss": 1.6785,
      "step": 16399
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3663100600242615,
      "learning_rate": 0.0005523462602486214,
      "loss": 1.6197,
      "step": 16400
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3819045424461365,
      "learning_rate": 0.0005523406076394726,
      "loss": 1.7284,
      "step": 16401
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38305002450942993,
      "learning_rate": 0.0005523349547240195,
      "loss": 1.7739,
      "step": 16402
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3952758014202118,
      "learning_rate": 0.0005523293015022691,
      "loss": 1.6703,
      "step": 16403
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38122981786727905,
      "learning_rate": 0.000552323647974228,
      "loss": 1.625,
      "step": 16404
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3697124421596527,
      "learning_rate": 0.0005523179941399031,
      "loss": 1.7056,
      "step": 16405
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3837124705314636,
      "learning_rate": 0.0005523123399993013,
      "loss": 1.671,
      "step": 16406
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3857715427875519,
      "learning_rate": 0.0005523066855524295,
      "loss": 1.7572,
      "step": 16407
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3869745433330536,
      "learning_rate": 0.0005523010307992947,
      "loss": 1.7702,
      "step": 16408
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3872120976448059,
      "learning_rate": 0.0005522953757399036,
      "loss": 1.7221,
      "step": 16409
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37790554761886597,
      "learning_rate": 0.000552289720374263,
      "loss": 1.6395,
      "step": 16410
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3737339377403259,
      "learning_rate": 0.00055228406470238,
      "loss": 1.6834,
      "step": 16411
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3843311369419098,
      "learning_rate": 0.0005522784087242612,
      "loss": 1.7476,
      "step": 16412
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3961663246154785,
      "learning_rate": 0.0005522727524399136,
      "loss": 1.7984,
      "step": 16413
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3715324103832245,
      "learning_rate": 0.000552267095849344,
      "loss": 1.7123,
      "step": 16414
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36743032932281494,
      "learning_rate": 0.0005522614389525594,
      "loss": 1.6946,
      "step": 16415
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38238823413848877,
      "learning_rate": 0.0005522557817495665,
      "loss": 1.6654,
      "step": 16416
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37904536724090576,
      "learning_rate": 0.0005522501242403723,
      "loss": 1.692,
      "step": 16417
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3859706223011017,
      "learning_rate": 0.0005522444664249836,
      "loss": 1.7666,
      "step": 16418
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3777301013469696,
      "learning_rate": 0.0005522388083034073,
      "loss": 1.7028,
      "step": 16419
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4973177909851074,
      "learning_rate": 0.0005522331498756503,
      "loss": 1.6955,
      "step": 16420
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3822999894618988,
      "learning_rate": 0.0005522274911417194,
      "loss": 1.6943,
      "step": 16421
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3785504400730133,
      "learning_rate": 0.0005522218321016213,
      "loss": 1.6664,
      "step": 16422
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3768453598022461,
      "learning_rate": 0.0005522161727553633,
      "loss": 1.6858,
      "step": 16423
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.385629266500473,
      "learning_rate": 0.000552210513102952,
      "loss": 1.7422,
      "step": 16424
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38520562648773193,
      "learning_rate": 0.0005522048531443943,
      "loss": 1.7925,
      "step": 16425
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3755132257938385,
      "learning_rate": 0.0005521991928796969,
      "loss": 1.6694,
      "step": 16426
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3928285837173462,
      "learning_rate": 0.000552193532308867,
      "loss": 1.7909,
      "step": 16427
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37183040380477905,
      "learning_rate": 0.0005521878714319112,
      "loss": 1.7632,
      "step": 16428
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3707089126110077,
      "learning_rate": 0.0005521822102488366,
      "loss": 1.7205,
      "step": 16429
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38278988003730774,
      "learning_rate": 0.00055217654875965,
      "loss": 1.6229,
      "step": 16430
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3742825388908386,
      "learning_rate": 0.000552170886964358,
      "loss": 1.7321,
      "step": 16431
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3861505389213562,
      "learning_rate": 0.0005521652248629678,
      "loss": 1.7549,
      "step": 16432
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37575533986091614,
      "learning_rate": 0.0005521595624554862,
      "loss": 1.7641,
      "step": 16433
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3796616792678833,
      "learning_rate": 0.0005521538997419202,
      "loss": 1.7483,
      "step": 16434
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37947821617126465,
      "learning_rate": 0.0005521482367222762,
      "loss": 1.6823,
      "step": 16435
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38367971777915955,
      "learning_rate": 0.0005521425733965616,
      "loss": 1.6614,
      "step": 16436
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37251099944114685,
      "learning_rate": 0.0005521369097647831,
      "loss": 1.652,
      "step": 16437
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36880549788475037,
      "learning_rate": 0.0005521312458269474,
      "loss": 1.6772,
      "step": 16438
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3869633078575134,
      "learning_rate": 0.0005521255815830616,
      "loss": 1.7095,
      "step": 16439
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39603596925735474,
      "learning_rate": 0.0005521199170331325,
      "loss": 1.706,
      "step": 16440
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37979909777641296,
      "learning_rate": 0.0005521142521771669,
      "loss": 1.6526,
      "step": 16441
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3768945634365082,
      "learning_rate": 0.0005521085870151719,
      "loss": 1.7375,
      "step": 16442
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3743128478527069,
      "learning_rate": 0.000552102921547154,
      "loss": 1.7101,
      "step": 16443
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38036802411079407,
      "learning_rate": 0.0005520972557731204,
      "loss": 1.6908,
      "step": 16444
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3725805878639221,
      "learning_rate": 0.0005520915896930779,
      "loss": 1.6225,
      "step": 16445
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39386463165283203,
      "learning_rate": 0.0005520859233070334,
      "loss": 1.6843,
      "step": 16446
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37193557620048523,
      "learning_rate": 0.0005520802566149936,
      "loss": 1.6973,
      "step": 16447
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3790242075920105,
      "learning_rate": 0.0005520745896169657,
      "loss": 1.7375,
      "step": 16448
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40178751945495605,
      "learning_rate": 0.0005520689223129562,
      "loss": 1.7726,
      "step": 16449
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3935439884662628,
      "learning_rate": 0.0005520632547029722,
      "loss": 1.7254,
      "step": 16450
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39394721388816833,
      "learning_rate": 0.0005520575867870206,
      "loss": 1.7529,
      "step": 16451
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3878827691078186,
      "learning_rate": 0.0005520519185651082,
      "loss": 1.6531,
      "step": 16452
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.375622421503067,
      "learning_rate": 0.0005520462500372419,
      "loss": 1.7317,
      "step": 16453
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3786291182041168,
      "learning_rate": 0.0005520405812034287,
      "loss": 1.7239,
      "step": 16454
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3814999759197235,
      "learning_rate": 0.0005520349120636752,
      "loss": 1.6798,
      "step": 16455
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3677946627140045,
      "learning_rate": 0.0005520292426179886,
      "loss": 1.6561,
      "step": 16456
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38363540172576904,
      "learning_rate": 0.0005520235728663755,
      "loss": 1.6974,
      "step": 16457
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37812140583992004,
      "learning_rate": 0.000552017902808843,
      "loss": 1.7669,
      "step": 16458
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39207324385643005,
      "learning_rate": 0.0005520122324453979,
      "loss": 1.8172,
      "step": 16459
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4013696312904358,
      "learning_rate": 0.0005520065617760472,
      "loss": 1.7219,
      "step": 16460
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37617385387420654,
      "learning_rate": 0.0005520008908007975,
      "loss": 1.7402,
      "step": 16461
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3872440755367279,
      "learning_rate": 0.0005519952195196558,
      "loss": 1.6707,
      "step": 16462
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37905070185661316,
      "learning_rate": 0.0005519895479326292,
      "loss": 1.7303,
      "step": 16463
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5133660435676575,
      "learning_rate": 0.0005519838760397243,
      "loss": 1.7531,
      "step": 16464
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3872767686843872,
      "learning_rate": 0.0005519782038409482,
      "loss": 1.8311,
      "step": 16465
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37841057777404785,
      "learning_rate": 0.0005519725313363076,
      "loss": 1.7488,
      "step": 16466
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4022890329360962,
      "learning_rate": 0.0005519668585258095,
      "loss": 1.7731,
      "step": 16467
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3931787610054016,
      "learning_rate": 0.0005519611854094608,
      "loss": 1.7827,
      "step": 16468
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3965276777744293,
      "learning_rate": 0.0005519555119872684,
      "loss": 1.6885,
      "step": 16469
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3773516118526459,
      "learning_rate": 0.000551949838259239,
      "loss": 1.7731,
      "step": 16470
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3838987946510315,
      "learning_rate": 0.0005519441642253796,
      "loss": 1.7437,
      "step": 16471
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38285183906555176,
      "learning_rate": 0.0005519384898856971,
      "loss": 1.7228,
      "step": 16472
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3810010552406311,
      "learning_rate": 0.0005519328152401986,
      "loss": 1.6455,
      "step": 16473
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40978819131851196,
      "learning_rate": 0.0005519271402888907,
      "loss": 1.7503,
      "step": 16474
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3875980079174042,
      "learning_rate": 0.0005519214650317803,
      "loss": 1.7489,
      "step": 16475
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36850786209106445,
      "learning_rate": 0.0005519157894688742,
      "loss": 1.6123,
      "step": 16476
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39394980669021606,
      "learning_rate": 0.0005519101136001797,
      "loss": 1.7731,
      "step": 16477
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3858313262462616,
      "learning_rate": 0.0005519044374257034,
      "loss": 1.7497,
      "step": 16478
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3745397925376892,
      "learning_rate": 0.000551898760945452,
      "loss": 1.7261,
      "step": 16479
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36972978711128235,
      "learning_rate": 0.0005518930841594329,
      "loss": 1.7393,
      "step": 16480
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3902668356895447,
      "learning_rate": 0.0005518874070676526,
      "loss": 1.7451,
      "step": 16481
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3855379819869995,
      "learning_rate": 0.0005518817296701182,
      "loss": 1.7184,
      "step": 16482
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37710779905319214,
      "learning_rate": 0.0005518760519668364,
      "loss": 1.6949,
      "step": 16483
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39753618836402893,
      "learning_rate": 0.0005518703739578141,
      "loss": 1.6867,
      "step": 16484
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38299456238746643,
      "learning_rate": 0.0005518646956430585,
      "loss": 1.6956,
      "step": 16485
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3747616112232208,
      "learning_rate": 0.0005518590170225761,
      "loss": 1.7505,
      "step": 16486
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3855592608451843,
      "learning_rate": 0.0005518533380963741,
      "loss": 1.79,
      "step": 16487
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4620719254016876,
      "learning_rate": 0.0005518476588644591,
      "loss": 1.7323,
      "step": 16488
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39496761560440063,
      "learning_rate": 0.0005518419793268382,
      "loss": 1.7267,
      "step": 16489
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3783121407032013,
      "learning_rate": 0.0005518362994835183,
      "loss": 1.6595,
      "step": 16490
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3695870637893677,
      "learning_rate": 0.0005518306193345062,
      "loss": 1.6838,
      "step": 16491
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3820830285549164,
      "learning_rate": 0.0005518249388798089,
      "loss": 1.7192,
      "step": 16492
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3832225501537323,
      "learning_rate": 0.0005518192581194331,
      "loss": 1.676,
      "step": 16493
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3856974244117737,
      "learning_rate": 0.0005518135770533859,
      "loss": 1.7384,
      "step": 16494
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3696794807910919,
      "learning_rate": 0.0005518078956816741,
      "loss": 1.6183,
      "step": 16495
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38816335797309875,
      "learning_rate": 0.0005518022140043046,
      "loss": 1.6639,
      "step": 16496
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3708498477935791,
      "learning_rate": 0.0005517965320212844,
      "loss": 1.5905,
      "step": 16497
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38799935579299927,
      "learning_rate": 0.0005517908497326202,
      "loss": 1.7462,
      "step": 16498
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37980106472969055,
      "learning_rate": 0.0005517851671383191,
      "loss": 1.6872,
      "step": 16499
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37107643485069275,
      "learning_rate": 0.0005517794842383878,
      "loss": 1.7588,
      "step": 16500
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3830360472202301,
      "learning_rate": 0.0005517738010328335,
      "loss": 1.6209,
      "step": 16501
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3798616826534271,
      "learning_rate": 0.0005517681175216627,
      "loss": 1.7758,
      "step": 16502
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.47691211104393005,
      "learning_rate": 0.0005517624337048826,
      "loss": 1.7396,
      "step": 16503
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3881455957889557,
      "learning_rate": 0.0005517567495825,
      "loss": 1.7134,
      "step": 16504
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38155439496040344,
      "learning_rate": 0.0005517510651545218,
      "loss": 1.6902,
      "step": 16505
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3927173316478729,
      "learning_rate": 0.0005517453804209548,
      "loss": 1.7769,
      "step": 16506
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38298332691192627,
      "learning_rate": 0.000551739695381806,
      "loss": 1.6729,
      "step": 16507
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37939414381980896,
      "learning_rate": 0.0005517340100370825,
      "loss": 1.7125,
      "step": 16508
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38020431995391846,
      "learning_rate": 0.0005517283243867909,
      "loss": 1.7034,
      "step": 16509
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38060253858566284,
      "learning_rate": 0.0005517226384309381,
      "loss": 1.7135,
      "step": 16510
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38871943950653076,
      "learning_rate": 0.0005517169521695313,
      "loss": 1.7544,
      "step": 16511
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39975982904434204,
      "learning_rate": 0.000551711265602577,
      "loss": 1.8398,
      "step": 16512
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38786450028419495,
      "learning_rate": 0.0005517055787300825,
      "loss": 1.7678,
      "step": 16513
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3635655641555786,
      "learning_rate": 0.0005516998915520544,
      "loss": 1.7331,
      "step": 16514
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37899717688560486,
      "learning_rate": 0.0005516942040684998,
      "loss": 1.7514,
      "step": 16515
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40136104822158813,
      "learning_rate": 0.0005516885162794254,
      "loss": 1.7681,
      "step": 16516
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.401645690202713,
      "learning_rate": 0.0005516828281848383,
      "loss": 1.6821,
      "step": 16517
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37835803627967834,
      "learning_rate": 0.0005516771397847453,
      "loss": 1.7299,
      "step": 16518
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3782851994037628,
      "learning_rate": 0.0005516714510791534,
      "loss": 1.7667,
      "step": 16519
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3900517225265503,
      "learning_rate": 0.0005516657620680694,
      "loss": 1.7465,
      "step": 16520
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3876529037952423,
      "learning_rate": 0.0005516600727515003,
      "loss": 1.7298,
      "step": 16521
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37518301606178284,
      "learning_rate": 0.0005516543831294528,
      "loss": 1.7602,
      "step": 16522
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3831667900085449,
      "learning_rate": 0.0005516486932019341,
      "loss": 1.6269,
      "step": 16523
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.403136670589447,
      "learning_rate": 0.0005516430029689509,
      "loss": 1.7095,
      "step": 16524
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38269519805908203,
      "learning_rate": 0.0005516373124305102,
      "loss": 1.6855,
      "step": 16525
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38028767704963684,
      "learning_rate": 0.0005516316215866189,
      "loss": 1.7964,
      "step": 16526
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38323333859443665,
      "learning_rate": 0.0005516259304372838,
      "loss": 1.6737,
      "step": 16527
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4094875454902649,
      "learning_rate": 0.000551620238982512,
      "loss": 1.6902,
      "step": 16528
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38900110125541687,
      "learning_rate": 0.0005516145472223103,
      "loss": 1.6307,
      "step": 16529
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3838055729866028,
      "learning_rate": 0.0005516088551566856,
      "loss": 1.72,
      "step": 16530
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3803117871284485,
      "learning_rate": 0.0005516031627856447,
      "loss": 1.7533,
      "step": 16531
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4162560701370239,
      "learning_rate": 0.0005515974701091947,
      "loss": 1.8234,
      "step": 16532
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39370089769363403,
      "learning_rate": 0.0005515917771273426,
      "loss": 1.7174,
      "step": 16533
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3732270300388336,
      "learning_rate": 0.0005515860838400949,
      "loss": 1.7348,
      "step": 16534
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3814094662666321,
      "learning_rate": 0.000551580390247459,
      "loss": 1.7103,
      "step": 16535
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39196979999542236,
      "learning_rate": 0.0005515746963494413,
      "loss": 1.738,
      "step": 16536
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3742869198322296,
      "learning_rate": 0.0005515690021460492,
      "loss": 1.7168,
      "step": 16537
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3902188539505005,
      "learning_rate": 0.0005515633076372894,
      "loss": 1.6636,
      "step": 16538
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40152543783187866,
      "learning_rate": 0.0005515576128231688,
      "loss": 1.84,
      "step": 16539
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3816583454608917,
      "learning_rate": 0.0005515519177036942,
      "loss": 1.6512,
      "step": 16540
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37928375601768494,
      "learning_rate": 0.0005515462222788728,
      "loss": 1.7124,
      "step": 16541
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3839219808578491,
      "learning_rate": 0.0005515405265487113,
      "loss": 1.6592,
      "step": 16542
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37506842613220215,
      "learning_rate": 0.0005515348305132165,
      "loss": 1.7512,
      "step": 16543
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38993993401527405,
      "learning_rate": 0.0005515291341723957,
      "loss": 1.684,
      "step": 16544
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38085201382637024,
      "learning_rate": 0.0005515234375262555,
      "loss": 1.7408,
      "step": 16545
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36282631754875183,
      "learning_rate": 0.0005515177405748029,
      "loss": 1.6493,
      "step": 16546
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.383945494890213,
      "learning_rate": 0.0005515120433180448,
      "loss": 1.6626,
      "step": 16547
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3723057806491852,
      "learning_rate": 0.0005515063457559882,
      "loss": 1.7093,
      "step": 16548
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39504849910736084,
      "learning_rate": 0.0005515006478886399,
      "loss": 1.8211,
      "step": 16549
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3731310963630676,
      "learning_rate": 0.0005514949497160069,
      "loss": 1.6759,
      "step": 16550
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37557339668273926,
      "learning_rate": 0.000551489251238096,
      "loss": 1.7638,
      "step": 16551
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3782913088798523,
      "learning_rate": 0.0005514835524549144,
      "loss": 1.6615,
      "step": 16552
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3795928955078125,
      "learning_rate": 0.0005514778533664686,
      "loss": 1.8517,
      "step": 16553
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3732238709926605,
      "learning_rate": 0.000551472153972766,
      "loss": 1.6684,
      "step": 16554
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3839108943939209,
      "learning_rate": 0.0005514664542738129,
      "loss": 1.6619,
      "step": 16555
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3849756717681885,
      "learning_rate": 0.0005514607542696169,
      "loss": 1.6313,
      "step": 16556
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37957751750946045,
      "learning_rate": 0.0005514550539601845,
      "loss": 1.6652,
      "step": 16557
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3705577552318573,
      "learning_rate": 0.0005514493533455226,
      "loss": 1.679,
      "step": 16558
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37682873010635376,
      "learning_rate": 0.0005514436524256385,
      "loss": 1.6657,
      "step": 16559
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38107702136039734,
      "learning_rate": 0.0005514379512005386,
      "loss": 1.6568,
      "step": 16560
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3833657503128052,
      "learning_rate": 0.0005514322496702302,
      "loss": 1.7207,
      "step": 16561
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3892951011657715,
      "learning_rate": 0.00055142654783472,
      "loss": 1.6946,
      "step": 16562
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3718128204345703,
      "learning_rate": 0.0005514208456940151,
      "loss": 1.6687,
      "step": 16563
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36987537145614624,
      "learning_rate": 0.0005514151432481222,
      "loss": 1.7827,
      "step": 16564
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3945690095424652,
      "learning_rate": 0.0005514094404970484,
      "loss": 1.624,
      "step": 16565
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3678991496562958,
      "learning_rate": 0.0005514037374408007,
      "loss": 1.7384,
      "step": 16566
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37450164556503296,
      "learning_rate": 0.0005513980340793859,
      "loss": 1.6852,
      "step": 16567
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39265888929367065,
      "learning_rate": 0.0005513923304128109,
      "loss": 1.7265,
      "step": 16568
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3736860752105713,
      "learning_rate": 0.0005513866264410827,
      "loss": 1.692,
      "step": 16569
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3808642327785492,
      "learning_rate": 0.000551380922164208,
      "loss": 1.7906,
      "step": 16570
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3859311044216156,
      "learning_rate": 0.0005513752175821941,
      "loss": 1.8016,
      "step": 16571
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37433695793151855,
      "learning_rate": 0.0005513695126950476,
      "loss": 1.7731,
      "step": 16572
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38096675276756287,
      "learning_rate": 0.0005513638075027756,
      "loss": 1.6928,
      "step": 16573
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3906990885734558,
      "learning_rate": 0.0005513581020053849,
      "loss": 1.7037,
      "step": 16574
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3675152659416199,
      "learning_rate": 0.0005513523962028825,
      "loss": 1.7102,
      "step": 16575
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37949949502944946,
      "learning_rate": 0.0005513466900952755,
      "loss": 1.7385,
      "step": 16576
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37752634286880493,
      "learning_rate": 0.0005513409836825705,
      "loss": 1.7195,
      "step": 16577
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3733333647251129,
      "learning_rate": 0.0005513352769647746,
      "loss": 1.7551,
      "step": 16578
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3808906674385071,
      "learning_rate": 0.0005513295699418947,
      "loss": 1.7218,
      "step": 16579
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38655829429626465,
      "learning_rate": 0.0005513238626139378,
      "loss": 1.6938,
      "step": 16580
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3764127194881439,
      "learning_rate": 0.0005513181549809107,
      "loss": 1.7495,
      "step": 16581
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38190776109695435,
      "learning_rate": 0.0005513124470428204,
      "loss": 1.649,
      "step": 16582
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3826758563518524,
      "learning_rate": 0.0005513067387996739,
      "loss": 1.6896,
      "step": 16583
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3850895166397095,
      "learning_rate": 0.0005513010302514779,
      "loss": 1.6936,
      "step": 16584
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38336578011512756,
      "learning_rate": 0.0005512953213982396,
      "loss": 1.6783,
      "step": 16585
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3778398633003235,
      "learning_rate": 0.0005512896122399657,
      "loss": 1.6464,
      "step": 16586
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36960136890411377,
      "learning_rate": 0.0005512839027766633,
      "loss": 1.6947,
      "step": 16587
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3781675100326538,
      "learning_rate": 0.0005512781930083393,
      "loss": 1.6985,
      "step": 16588
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3831292986869812,
      "learning_rate": 0.0005512724829350005,
      "loss": 1.7699,
      "step": 16589
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39763954281806946,
      "learning_rate": 0.000551266772556654,
      "loss": 1.7559,
      "step": 16590
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36309146881103516,
      "learning_rate": 0.0005512610618733067,
      "loss": 1.7155,
      "step": 16591
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38810259103775024,
      "learning_rate": 0.0005512553508849654,
      "loss": 1.7178,
      "step": 16592
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37787485122680664,
      "learning_rate": 0.0005512496395916372,
      "loss": 1.724,
      "step": 16593
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38283592462539673,
      "learning_rate": 0.0005512439279933289,
      "loss": 1.7608,
      "step": 16594
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37876978516578674,
      "learning_rate": 0.0005512382160900475,
      "loss": 1.7389,
      "step": 16595
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3663085103034973,
      "learning_rate": 0.0005512325038817999,
      "loss": 1.7465,
      "step": 16596
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3765716850757599,
      "learning_rate": 0.0005512267913685931,
      "loss": 1.6509,
      "step": 16597
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37184593081474304,
      "learning_rate": 0.000551221078550434,
      "loss": 1.7118,
      "step": 16598
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37303996086120605,
      "learning_rate": 0.0005512153654273295,
      "loss": 1.7108,
      "step": 16599
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3774878978729248,
      "learning_rate": 0.0005512096519992866,
      "loss": 1.7876,
      "step": 16600
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.657701849937439,
      "learning_rate": 0.0005512039382663121,
      "loss": 1.689,
      "step": 16601
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3731536567211151,
      "learning_rate": 0.0005511982242284131,
      "loss": 1.6922,
      "step": 16602
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3818557858467102,
      "learning_rate": 0.0005511925098855965,
      "loss": 1.7093,
      "step": 16603
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3812292516231537,
      "learning_rate": 0.0005511867952378692,
      "loss": 1.7571,
      "step": 16604
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3938206136226654,
      "learning_rate": 0.0005511810802852381,
      "loss": 1.7252,
      "step": 16605
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3784189522266388,
      "learning_rate": 0.0005511753650277102,
      "loss": 1.73,
      "step": 16606
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3849804401397705,
      "learning_rate": 0.0005511696494652924,
      "loss": 1.6802,
      "step": 16607
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39256522059440613,
      "learning_rate": 0.0005511639335979916,
      "loss": 1.7619,
      "step": 16608
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3750271499156952,
      "learning_rate": 0.0005511582174258149,
      "loss": 1.6517,
      "step": 16609
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3881760835647583,
      "learning_rate": 0.0005511525009487691,
      "loss": 1.6866,
      "step": 16610
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3715270757675171,
      "learning_rate": 0.0005511467841668611,
      "loss": 1.6952,
      "step": 16611
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38451966643333435,
      "learning_rate": 0.000551141067080098,
      "loss": 1.7089,
      "step": 16612
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3869794011116028,
      "learning_rate": 0.0005511353496884866,
      "loss": 1.7483,
      "step": 16613
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37693774700164795,
      "learning_rate": 0.0005511296319920339,
      "loss": 1.7464,
      "step": 16614
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3914007544517517,
      "learning_rate": 0.0005511239139907468,
      "loss": 1.7412,
      "step": 16615
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3815540075302124,
      "learning_rate": 0.0005511181956846323,
      "loss": 1.7533,
      "step": 16616
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3714791238307953,
      "learning_rate": 0.0005511124770736974,
      "loss": 1.6846,
      "step": 16617
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3795081377029419,
      "learning_rate": 0.0005511067581579488,
      "loss": 1.688,
      "step": 16618
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37812867760658264,
      "learning_rate": 0.0005511010389373937,
      "loss": 1.6896,
      "step": 16619
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3820188641548157,
      "learning_rate": 0.0005510953194120388,
      "loss": 1.769,
      "step": 16620
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3790735602378845,
      "learning_rate": 0.0005510895995818913,
      "loss": 1.7596,
      "step": 16621
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.36193472146987915,
      "learning_rate": 0.000551083879446958,
      "loss": 1.7471,
      "step": 16622
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3795568346977234,
      "learning_rate": 0.0005510781590072459,
      "loss": 1.7239,
      "step": 16623
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37849879264831543,
      "learning_rate": 0.0005510724382627618,
      "loss": 1.6787,
      "step": 16624
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.370231956243515,
      "learning_rate": 0.0005510667172135129,
      "loss": 1.6876,
      "step": 16625
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.406161904335022,
      "learning_rate": 0.0005510609958595059,
      "loss": 1.7656,
      "step": 16626
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3863489031791687,
      "learning_rate": 0.0005510552742007478,
      "loss": 1.7214,
      "step": 16627
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38731300830841064,
      "learning_rate": 0.0005510495522372457,
      "loss": 1.7329,
      "step": 16628
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37287506461143494,
      "learning_rate": 0.0005510438299690065,
      "loss": 1.7232,
      "step": 16629
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4011935591697693,
      "learning_rate": 0.0005510381073960368,
      "loss": 1.8207,
      "step": 16630
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37171608209609985,
      "learning_rate": 0.000551032384518344,
      "loss": 1.7452,
      "step": 16631
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3731714189052582,
      "learning_rate": 0.0005510266613359349,
      "loss": 1.6464,
      "step": 16632
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38685739040374756,
      "learning_rate": 0.0005510209378488164,
      "loss": 1.7297,
      "step": 16633
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37342190742492676,
      "learning_rate": 0.0005510152140569954,
      "loss": 1.7155,
      "step": 16634
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38449183106422424,
      "learning_rate": 0.0005510094899604791,
      "loss": 1.7743,
      "step": 16635
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3826709985733032,
      "learning_rate": 0.0005510037655592741,
      "loss": 1.6935,
      "step": 16636
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38092949986457825,
      "learning_rate": 0.0005509980408533874,
      "loss": 1.6908,
      "step": 16637
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39263737201690674,
      "learning_rate": 0.0005509923158428263,
      "loss": 1.7736,
      "step": 16638
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3794679641723633,
      "learning_rate": 0.0005509865905275974,
      "loss": 1.662,
      "step": 16639
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39087286591529846,
      "learning_rate": 0.0005509808649077079,
      "loss": 1.767,
      "step": 16640
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3971081078052521,
      "learning_rate": 0.0005509751389831645,
      "loss": 1.8181,
      "step": 16641
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38710540533065796,
      "learning_rate": 0.0005509694127539741,
      "loss": 1.7258,
      "step": 16642
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3740628957748413,
      "learning_rate": 0.000550963686220144,
      "loss": 1.6776,
      "step": 16643
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.45832139253616333,
      "learning_rate": 0.0005509579593816809,
      "loss": 1.706,
      "step": 16644
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37317290902137756,
      "learning_rate": 0.0005509522322385919,
      "loss": 1.6921,
      "step": 16645
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3768470585346222,
      "learning_rate": 0.0005509465047908839,
      "loss": 1.659,
      "step": 16646
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38357073068618774,
      "learning_rate": 0.0005509407770385637,
      "loss": 1.6664,
      "step": 16647
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37474554777145386,
      "learning_rate": 0.0005509350489816383,
      "loss": 1.7709,
      "step": 16648
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38472384214401245,
      "learning_rate": 0.0005509293206201148,
      "loss": 1.7844,
      "step": 16649
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3810141682624817,
      "learning_rate": 0.0005509235919540002,
      "loss": 1.6895,
      "step": 16650
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3805462718009949,
      "learning_rate": 0.0005509178629833011,
      "loss": 1.7584,
      "step": 16651
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3858382999897003,
      "learning_rate": 0.0005509121337080249,
      "loss": 1.7528,
      "step": 16652
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.386837363243103,
      "learning_rate": 0.0005509064041281782,
      "loss": 1.6264,
      "step": 16653
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3597880005836487,
      "learning_rate": 0.0005509006742437681,
      "loss": 1.6611,
      "step": 16654
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38090813159942627,
      "learning_rate": 0.0005508949440548017,
      "loss": 1.7274,
      "step": 16655
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3786948621273041,
      "learning_rate": 0.0005508892135612857,
      "loss": 1.7698,
      "step": 16656
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37726348638534546,
      "learning_rate": 0.0005508834827632271,
      "loss": 1.6951,
      "step": 16657
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4044725298881531,
      "learning_rate": 0.0005508777516606329,
      "loss": 1.7909,
      "step": 16658
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40052834153175354,
      "learning_rate": 0.0005508720202535102,
      "loss": 1.6915,
      "step": 16659
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.39611345529556274,
      "learning_rate": 0.0005508662885418658,
      "loss": 1.7224,
      "step": 16660
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37162017822265625,
      "learning_rate": 0.0005508605565257067,
      "loss": 1.7122,
      "step": 16661
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3771243989467621,
      "learning_rate": 0.0005508548242050399,
      "loss": 1.7982,
      "step": 16662
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3760746419429779,
      "learning_rate": 0.0005508490915798722,
      "loss": 1.7123,
      "step": 16663
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38049250841140747,
      "learning_rate": 0.0005508433586502106,
      "loss": 1.7765,
      "step": 16664
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3838815689086914,
      "learning_rate": 0.0005508376254160622,
      "loss": 1.7038,
      "step": 16665
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3770506680011749,
      "learning_rate": 0.000550831891877434,
      "loss": 1.6854,
      "step": 16666
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38789254426956177,
      "learning_rate": 0.0005508261580343327,
      "loss": 1.8306,
      "step": 16667
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37397539615631104,
      "learning_rate": 0.0005508204238867655,
      "loss": 1.7214,
      "step": 16668
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38289496302604675,
      "learning_rate": 0.0005508146894347392,
      "loss": 1.72,
      "step": 16669
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3693655729293823,
      "learning_rate": 0.0005508089546782608,
      "loss": 1.6941,
      "step": 16670
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37327200174331665,
      "learning_rate": 0.0005508032196173373,
      "loss": 1.7077,
      "step": 16671
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.360610693693161,
      "learning_rate": 0.0005507974842519757,
      "loss": 1.6704,
      "step": 16672
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3712155222892761,
      "learning_rate": 0.0005507917485821828,
      "loss": 1.6999,
      "step": 16673
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3734124004840851,
      "learning_rate": 0.0005507860126079657,
      "loss": 1.7397,
      "step": 16674
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37274134159088135,
      "learning_rate": 0.0005507802763293314,
      "loss": 1.6424,
      "step": 16675
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.37846797704696655,
      "learning_rate": 0.0005507745397462867,
      "loss": 1.7293,
      "step": 16676
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38841763138771057,
      "learning_rate": 0.0005507688028588387,
      "loss": 1.6577,
      "step": 16677
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3839128613471985,
      "learning_rate": 0.0005507630656669944,
      "loss": 1.6785,
      "step": 16678
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38200634717941284,
      "learning_rate": 0.0005507573281707607,
      "loss": 1.7791,
      "step": 16679
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.38085734844207764,
      "learning_rate": 0.0005507515903701444,
      "loss": 1.7468,
      "step": 16680
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3777317702770233,
      "learning_rate": 0.0005507458522651527,
      "loss": 1.7112,
      "step": 16681
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3801763355731964,
      "learning_rate": 0.0005507401138557924,
      "loss": 1.7367,
      "step": 16682
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37541645765304565,
      "learning_rate": 0.0005507343751420707,
      "loss": 1.6822,
      "step": 16683
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38710975646972656,
      "learning_rate": 0.0005507286361239944,
      "loss": 1.712,
      "step": 16684
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38764914870262146,
      "learning_rate": 0.0005507228968015704,
      "loss": 1.7561,
      "step": 16685
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3826241195201874,
      "learning_rate": 0.0005507171571748058,
      "loss": 1.7559,
      "step": 16686
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3832864761352539,
      "learning_rate": 0.0005507114172437074,
      "loss": 1.7273,
      "step": 16687
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3851936161518097,
      "learning_rate": 0.0005507056770082823,
      "loss": 1.7215,
      "step": 16688
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3786112368106842,
      "learning_rate": 0.0005506999364685376,
      "loss": 1.7569,
      "step": 16689
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38210752606391907,
      "learning_rate": 0.00055069419562448,
      "loss": 1.7231,
      "step": 16690
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4034197926521301,
      "learning_rate": 0.0005506884544761166,
      "loss": 1.6807,
      "step": 16691
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38478440046310425,
      "learning_rate": 0.0005506827130234542,
      "loss": 1.6719,
      "step": 16692
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40111538767814636,
      "learning_rate": 0.0005506769712665002,
      "loss": 1.6835,
      "step": 16693
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4030345380306244,
      "learning_rate": 0.0005506712292052612,
      "loss": 1.7214,
      "step": 16694
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38036638498306274,
      "learning_rate": 0.0005506654868397442,
      "loss": 1.6263,
      "step": 16695
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38037651777267456,
      "learning_rate": 0.0005506597441699562,
      "loss": 1.6423,
      "step": 16696
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37238773703575134,
      "learning_rate": 0.0005506540011959043,
      "loss": 1.638,
      "step": 16697
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37086325883865356,
      "learning_rate": 0.0005506482579175953,
      "loss": 1.7382,
      "step": 16698
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38210195302963257,
      "learning_rate": 0.0005506425143350363,
      "loss": 1.6936,
      "step": 16699
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3838214874267578,
      "learning_rate": 0.0005506367704482343,
      "loss": 1.7055,
      "step": 16700
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.6477628946304321,
      "learning_rate": 0.0005506310262571961,
      "loss": 1.6779,
      "step": 16701
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38384586572647095,
      "learning_rate": 0.0005506252817619287,
      "loss": 1.7161,
      "step": 16702
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38139262795448303,
      "learning_rate": 0.0005506195369624392,
      "loss": 1.727,
      "step": 16703
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3787895143032074,
      "learning_rate": 0.0005506137918587344,
      "loss": 1.6937,
      "step": 16704
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3826140761375427,
      "learning_rate": 0.0005506080464508216,
      "loss": 1.7339,
      "step": 16705
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37439244985580444,
      "learning_rate": 0.0005506023007387075,
      "loss": 1.7464,
      "step": 16706
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37797799706459045,
      "learning_rate": 0.000550596554722399,
      "loss": 1.6755,
      "step": 16707
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3760698735713959,
      "learning_rate": 0.0005505908084019033,
      "loss": 1.6783,
      "step": 16708
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38554248213768005,
      "learning_rate": 0.0005505850617772272,
      "loss": 1.715,
      "step": 16709
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36181244254112244,
      "learning_rate": 0.0005505793148483779,
      "loss": 1.6954,
      "step": 16710
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3656277060508728,
      "learning_rate": 0.0005505735676153621,
      "loss": 1.7625,
      "step": 16711
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3831194341182709,
      "learning_rate": 0.000550567820078187,
      "loss": 1.7323,
      "step": 16712
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37614262104034424,
      "learning_rate": 0.0005505620722368594,
      "loss": 1.6597,
      "step": 16713
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3936709761619568,
      "learning_rate": 0.0005505563240913864,
      "loss": 1.7129,
      "step": 16714
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38431838154792786,
      "learning_rate": 0.0005505505756417749,
      "loss": 1.7698,
      "step": 16715
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3846653401851654,
      "learning_rate": 0.000550544826888032,
      "loss": 1.7167,
      "step": 16716
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3848440647125244,
      "learning_rate": 0.0005505390778301647,
      "loss": 1.755,
      "step": 16717
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37824785709381104,
      "learning_rate": 0.0005505333284681796,
      "loss": 1.6988,
      "step": 16718
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3930552899837494,
      "learning_rate": 0.0005505275788020842,
      "loss": 1.7417,
      "step": 16719
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3972114622592926,
      "learning_rate": 0.0005505218288318851,
      "loss": 1.8096,
      "step": 16720
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38437482714653015,
      "learning_rate": 0.0005505160785575894,
      "loss": 1.6631,
      "step": 16721
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3771064579486847,
      "learning_rate": 0.0005505103279792042,
      "loss": 1.6997,
      "step": 16722
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3793819546699524,
      "learning_rate": 0.0005505045770967362,
      "loss": 1.6569,
      "step": 16723
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38116854429244995,
      "learning_rate": 0.0005504988259101927,
      "loss": 1.6966,
      "step": 16724
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3866533935070038,
      "learning_rate": 0.0005504930744195805,
      "loss": 1.7544,
      "step": 16725
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36668670177459717,
      "learning_rate": 0.0005504873226249066,
      "loss": 1.6985,
      "step": 16726
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3750459849834442,
      "learning_rate": 0.000550481570526178,
      "loss": 1.6989,
      "step": 16727
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39227011799812317,
      "learning_rate": 0.0005504758181234016,
      "loss": 1.73,
      "step": 16728
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37749361991882324,
      "learning_rate": 0.0005504700654165846,
      "loss": 1.6703,
      "step": 16729
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3771471083164215,
      "learning_rate": 0.0005504643124057337,
      "loss": 1.6791,
      "step": 16730
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37508997321128845,
      "learning_rate": 0.0005504585590908562,
      "loss": 1.7324,
      "step": 16731
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3758181929588318,
      "learning_rate": 0.0005504528054719589,
      "loss": 1.6949,
      "step": 16732
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3741607069969177,
      "learning_rate": 0.0005504470515490487,
      "loss": 1.7198,
      "step": 16733
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3765794634819031,
      "learning_rate": 0.0005504412973221328,
      "loss": 1.7326,
      "step": 16734
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38326922059059143,
      "learning_rate": 0.0005504355427912178,
      "loss": 1.6539,
      "step": 16735
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37428906559944153,
      "learning_rate": 0.0005504297879563113,
      "loss": 1.706,
      "step": 16736
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.360691100358963,
      "learning_rate": 0.0005504240328174197,
      "loss": 1.5817,
      "step": 16737
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38591110706329346,
      "learning_rate": 0.0005504182773745503,
      "loss": 1.7589,
      "step": 16738
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37477418780326843,
      "learning_rate": 0.00055041252162771,
      "loss": 1.7158,
      "step": 16739
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3763648271560669,
      "learning_rate": 0.0005504067655769058,
      "loss": 1.6375,
      "step": 16740
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3715093731880188,
      "learning_rate": 0.0005504010092221447,
      "loss": 1.757,
      "step": 16741
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3798852264881134,
      "learning_rate": 0.0005503952525634336,
      "loss": 1.7343,
      "step": 16742
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3752949833869934,
      "learning_rate": 0.0005503894956007796,
      "loss": 1.7336,
      "step": 16743
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3750687539577484,
      "learning_rate": 0.0005503837383341897,
      "loss": 1.7365,
      "step": 16744
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37643834948539734,
      "learning_rate": 0.0005503779807636707,
      "loss": 1.6445,
      "step": 16745
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39699748158454895,
      "learning_rate": 0.0005503722228892299,
      "loss": 1.7702,
      "step": 16746
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3804243803024292,
      "learning_rate": 0.0005503664647108739,
      "loss": 1.7077,
      "step": 16747
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38538938760757446,
      "learning_rate": 0.00055036070622861,
      "loss": 1.7158,
      "step": 16748
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37194809317588806,
      "learning_rate": 0.0005503549474424452,
      "loss": 1.7337,
      "step": 16749
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39345818758010864,
      "learning_rate": 0.0005503491883523862,
      "loss": 1.7391,
      "step": 16750
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3805329203605652,
      "learning_rate": 0.0005503434289584404,
      "loss": 1.7018,
      "step": 16751
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3860461711883545,
      "learning_rate": 0.0005503376692606143,
      "loss": 1.7112,
      "step": 16752
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3759694993495941,
      "learning_rate": 0.0005503319092589154,
      "loss": 1.7813,
      "step": 16753
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38499966263771057,
      "learning_rate": 0.0005503261489533503,
      "loss": 1.6848,
      "step": 16754
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3838540017604828,
      "learning_rate": 0.0005503203883439262,
      "loss": 1.7194,
      "step": 16755
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37121912837028503,
      "learning_rate": 0.00055031462743065,
      "loss": 1.6578,
      "step": 16756
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37841102480888367,
      "learning_rate": 0.0005503088662135286,
      "loss": 1.7576,
      "step": 16757
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3803793787956238,
      "learning_rate": 0.0005503031046925693,
      "loss": 1.6723,
      "step": 16758
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38454726338386536,
      "learning_rate": 0.0005502973428677789,
      "loss": 1.7455,
      "step": 16759
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38299262523651123,
      "learning_rate": 0.0005502915807391643,
      "loss": 1.7804,
      "step": 16760
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36666837334632874,
      "learning_rate": 0.0005502858183067327,
      "loss": 1.6866,
      "step": 16761
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3684888780117035,
      "learning_rate": 0.000550280055570491,
      "loss": 1.6472,
      "step": 16762
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3971395194530487,
      "learning_rate": 0.0005502742925304461,
      "loss": 1.7146,
      "step": 16763
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37621206045150757,
      "learning_rate": 0.000550268529186605,
      "loss": 1.7384,
      "step": 16764
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3837464451789856,
      "learning_rate": 0.000550262765538975,
      "loss": 1.6952,
      "step": 16765
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.375621497631073,
      "learning_rate": 0.0005502570015875628,
      "loss": 1.7025,
      "step": 16766
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36661896109580994,
      "learning_rate": 0.0005502512373323755,
      "loss": 1.7028,
      "step": 16767
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3862910270690918,
      "learning_rate": 0.00055024547277342,
      "loss": 1.7625,
      "step": 16768
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3782191276550293,
      "learning_rate": 0.0005502397079107034,
      "loss": 1.685,
      "step": 16769
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37312573194503784,
      "learning_rate": 0.0005502339427442326,
      "loss": 1.6949,
      "step": 16770
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36942893266677856,
      "learning_rate": 0.0005502281772740148,
      "loss": 1.7522,
      "step": 16771
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.41310688853263855,
      "learning_rate": 0.0005502224115000569,
      "loss": 1.7181,
      "step": 16772
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37763819098472595,
      "learning_rate": 0.0005502166454223656,
      "loss": 1.6941,
      "step": 16773
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37880468368530273,
      "learning_rate": 0.0005502108790409483,
      "loss": 1.6993,
      "step": 16774
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5310930609703064,
      "learning_rate": 0.0005502051123558118,
      "loss": 1.7287,
      "step": 16775
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3733128011226654,
      "learning_rate": 0.0005501993453669633,
      "loss": 1.7162,
      "step": 16776
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3862840533256531,
      "learning_rate": 0.0005501935780744096,
      "loss": 1.7551,
      "step": 16777
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38243016600608826,
      "learning_rate": 0.0005501878104781578,
      "loss": 1.7392,
      "step": 16778
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3941057622432709,
      "learning_rate": 0.0005501820425782148,
      "loss": 1.6938,
      "step": 16779
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39172104001045227,
      "learning_rate": 0.0005501762743745877,
      "loss": 1.7667,
      "step": 16780
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36478984355926514,
      "learning_rate": 0.0005501705058672834,
      "loss": 1.6714,
      "step": 16781
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3777307868003845,
      "learning_rate": 0.000550164737056309,
      "loss": 1.693,
      "step": 16782
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36995604634284973,
      "learning_rate": 0.0005501589679416714,
      "loss": 1.6675,
      "step": 16783
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38897013664245605,
      "learning_rate": 0.0005501531985233778,
      "loss": 1.7884,
      "step": 16784
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3627174198627472,
      "learning_rate": 0.0005501474288014351,
      "loss": 1.675,
      "step": 16785
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36027398705482483,
      "learning_rate": 0.0005501416587758501,
      "loss": 1.6626,
      "step": 16786
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3666202127933502,
      "learning_rate": 0.0005501358884466302,
      "loss": 1.7213,
      "step": 16787
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3797109127044678,
      "learning_rate": 0.000550130117813782,
      "loss": 1.6606,
      "step": 16788
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9325505495071411,
      "learning_rate": 0.0005501243468773127,
      "loss": 1.7413,
      "step": 16789
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3954719007015228,
      "learning_rate": 0.0005501185756372294,
      "loss": 1.8068,
      "step": 16790
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37877947092056274,
      "learning_rate": 0.000550112804093539,
      "loss": 1.7116,
      "step": 16791
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3766603171825409,
      "learning_rate": 0.0005501070322462485,
      "loss": 1.7735,
      "step": 16792
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3852344751358032,
      "learning_rate": 0.0005501012600953648,
      "loss": 1.7756,
      "step": 16793
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4014081656932831,
      "learning_rate": 0.0005500954876408952,
      "loss": 1.6942,
      "step": 16794
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38739654421806335,
      "learning_rate": 0.0005500897148828464,
      "loss": 1.6949,
      "step": 16795
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37982046604156494,
      "learning_rate": 0.0005500839418212255,
      "loss": 1.7501,
      "step": 16796
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4033440053462982,
      "learning_rate": 0.0005500781684560397,
      "loss": 1.8142,
      "step": 16797
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39783862233161926,
      "learning_rate": 0.0005500723947872957,
      "loss": 1.7231,
      "step": 16798
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38986268639564514,
      "learning_rate": 0.0005500666208150007,
      "loss": 1.7821,
      "step": 16799
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3848073482513428,
      "learning_rate": 0.0005500608465391618,
      "loss": 1.7767,
      "step": 16800
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3859676122665405,
      "learning_rate": 0.0005500550719597857,
      "loss": 1.7401,
      "step": 16801
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40384483337402344,
      "learning_rate": 0.0005500492970768796,
      "loss": 1.7795,
      "step": 16802
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3852218687534332,
      "learning_rate": 0.0005500435218904506,
      "loss": 1.6986,
      "step": 16803
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.382291316986084,
      "learning_rate": 0.0005500377464005056,
      "loss": 1.7327,
      "step": 16804
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37831467390060425,
      "learning_rate": 0.0005500319706070516,
      "loss": 1.6946,
      "step": 16805
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3832552433013916,
      "learning_rate": 0.0005500261945100955,
      "loss": 1.7372,
      "step": 16806
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3713952600955963,
      "learning_rate": 0.0005500204181096446,
      "loss": 1.6631,
      "step": 16807
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37255072593688965,
      "learning_rate": 0.0005500146414057057,
      "loss": 1.7219,
      "step": 16808
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3962583839893341,
      "learning_rate": 0.0005500088643982859,
      "loss": 1.7422,
      "step": 16809
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3866535425186157,
      "learning_rate": 0.0005500030870873921,
      "loss": 1.7095,
      "step": 16810
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38369694352149963,
      "learning_rate": 0.0005499973094730315,
      "loss": 1.7678,
      "step": 16811
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37438449263572693,
      "learning_rate": 0.0005499915315552109,
      "loss": 1.6806,
      "step": 16812
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38921618461608887,
      "learning_rate": 0.0005499857533339373,
      "loss": 1.7815,
      "step": 16813
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3780047595500946,
      "learning_rate": 0.000549979974809218,
      "loss": 1.6969,
      "step": 16814
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3841899335384369,
      "learning_rate": 0.0005499741959810599,
      "loss": 1.7217,
      "step": 16815
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37791359424591064,
      "learning_rate": 0.0005499684168494698,
      "loss": 1.6899,
      "step": 16816
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37884169816970825,
      "learning_rate": 0.000549962637414455,
      "loss": 1.6919,
      "step": 16817
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38425734639167786,
      "learning_rate": 0.0005499568576760223,
      "loss": 1.6657,
      "step": 16818
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3873406946659088,
      "learning_rate": 0.0005499510776341788,
      "loss": 1.7279,
      "step": 16819
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3818742632865906,
      "learning_rate": 0.0005499452972889317,
      "loss": 1.8121,
      "step": 16820
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38030722737312317,
      "learning_rate": 0.0005499395166402876,
      "loss": 1.715,
      "step": 16821
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38585513830184937,
      "learning_rate": 0.0005499337356882538,
      "loss": 1.6804,
      "step": 16822
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.380034476518631,
      "learning_rate": 0.0005499279544328373,
      "loss": 1.685,
      "step": 16823
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.377758264541626,
      "learning_rate": 0.000549922172874045,
      "loss": 1.7275,
      "step": 16824
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3746376931667328,
      "learning_rate": 0.0005499163910118842,
      "loss": 1.7775,
      "step": 16825
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3844378888607025,
      "learning_rate": 0.0005499106088463617,
      "loss": 1.6715,
      "step": 16826
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3788878917694092,
      "learning_rate": 0.0005499048263774845,
      "loss": 1.7086,
      "step": 16827
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.379995733499527,
      "learning_rate": 0.0005498990436052596,
      "loss": 1.7005,
      "step": 16828
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36523106694221497,
      "learning_rate": 0.0005498932605296941,
      "loss": 1.685,
      "step": 16829
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3781600594520569,
      "learning_rate": 0.0005498874771507951,
      "loss": 1.7863,
      "step": 16830
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3768097460269928,
      "learning_rate": 0.0005498816934685694,
      "loss": 1.6515,
      "step": 16831
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3671857416629791,
      "learning_rate": 0.0005498759094830242,
      "loss": 1.7408,
      "step": 16832
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3815205693244934,
      "learning_rate": 0.0005498701251941665,
      "loss": 1.7514,
      "step": 16833
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38583624362945557,
      "learning_rate": 0.0005498643406020032,
      "loss": 1.7324,
      "step": 16834
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38641685247421265,
      "learning_rate": 0.0005498585557065414,
      "loss": 1.7025,
      "step": 16835
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38371729850769043,
      "learning_rate": 0.0005498527705077882,
      "loss": 1.7101,
      "step": 16836
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36912932991981506,
      "learning_rate": 0.0005498469850057505,
      "loss": 1.6311,
      "step": 16837
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3808581233024597,
      "learning_rate": 0.0005498411992004354,
      "loss": 1.7432,
      "step": 16838
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3857917785644531,
      "learning_rate": 0.0005498354130918499,
      "loss": 1.7204,
      "step": 16839
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38044750690460205,
      "learning_rate": 0.000549829626680001,
      "loss": 1.7155,
      "step": 16840
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3650660514831543,
      "learning_rate": 0.0005498238399648958,
      "loss": 1.6652,
      "step": 16841
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38803938031196594,
      "learning_rate": 0.0005498180529465412,
      "loss": 1.7368,
      "step": 16842
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3680850565433502,
      "learning_rate": 0.0005498122656249442,
      "loss": 1.6636,
      "step": 16843
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3976568579673767,
      "learning_rate": 0.0005498064780001122,
      "loss": 1.7362,
      "step": 16844
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38154667615890503,
      "learning_rate": 0.0005498006900720517,
      "loss": 1.6963,
      "step": 16845
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37102919816970825,
      "learning_rate": 0.0005497949018407701,
      "loss": 1.6777,
      "step": 16846
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37691769003868103,
      "learning_rate": 0.0005497891133062742,
      "loss": 1.7017,
      "step": 16847
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3736625611782074,
      "learning_rate": 0.0005497833244685712,
      "loss": 1.7374,
      "step": 16848
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37249019742012024,
      "learning_rate": 0.000549777535327668,
      "loss": 1.7655,
      "step": 16849
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40158283710479736,
      "learning_rate": 0.0005497717458835717,
      "loss": 1.6789,
      "step": 16850
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3734685778617859,
      "learning_rate": 0.0005497659561362893,
      "loss": 1.6659,
      "step": 16851
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37685540318489075,
      "learning_rate": 0.0005497601660858278,
      "loss": 1.7211,
      "step": 16852
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3815170228481293,
      "learning_rate": 0.0005497543757321942,
      "loss": 1.6829,
      "step": 16853
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3869416415691376,
      "learning_rate": 0.0005497485850753957,
      "loss": 1.757,
      "step": 16854
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3908308148384094,
      "learning_rate": 0.0005497427941154392,
      "loss": 1.7234,
      "step": 16855
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3743489980697632,
      "learning_rate": 0.0005497370028523317,
      "loss": 1.7388,
      "step": 16856
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3987024128437042,
      "learning_rate": 0.0005497312112860803,
      "loss": 1.6784,
      "step": 16857
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4624689817428589,
      "learning_rate": 0.0005497254194166921,
      "loss": 1.7518,
      "step": 16858
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39013075828552246,
      "learning_rate": 0.0005497196272441739,
      "loss": 1.657,
      "step": 16859
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4013058543205261,
      "learning_rate": 0.0005497138347685329,
      "loss": 1.8467,
      "step": 16860
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38318371772766113,
      "learning_rate": 0.0005497080419897761,
      "loss": 1.6896,
      "step": 16861
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38139474391937256,
      "learning_rate": 0.0005497022489079106,
      "loss": 1.7692,
      "step": 16862
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3838922381401062,
      "learning_rate": 0.0005496964555229433,
      "loss": 1.7097,
      "step": 16863
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37416958808898926,
      "learning_rate": 0.0005496906618348813,
      "loss": 1.7118,
      "step": 16864
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37840190529823303,
      "learning_rate": 0.0005496848678437316,
      "loss": 1.743,
      "step": 16865
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3726040720939636,
      "learning_rate": 0.0005496790735495012,
      "loss": 1.7175,
      "step": 16866
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3745024800300598,
      "learning_rate": 0.0005496732789521974,
      "loss": 1.7028,
      "step": 16867
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3973122537136078,
      "learning_rate": 0.0005496674840518268,
      "loss": 1.6761,
      "step": 16868
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38608595728874207,
      "learning_rate": 0.0005496616888483967,
      "loss": 1.6754,
      "step": 16869
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3866273760795593,
      "learning_rate": 0.0005496558933419142,
      "loss": 1.7014,
      "step": 16870
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40273165702819824,
      "learning_rate": 0.0005496500975323863,
      "loss": 1.6609,
      "step": 16871
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38906800746917725,
      "learning_rate": 0.0005496443014198198,
      "loss": 1.7221,
      "step": 16872
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36974218487739563,
      "learning_rate": 0.0005496385050042219,
      "loss": 1.6887,
      "step": 16873
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4028392732143402,
      "learning_rate": 0.0005496327082855998,
      "loss": 1.7394,
      "step": 16874
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39118942618370056,
      "learning_rate": 0.0005496269112639602,
      "loss": 1.7549,
      "step": 16875
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3787056803703308,
      "learning_rate": 0.0005496211139393104,
      "loss": 1.7613,
      "step": 16876
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38304731249809265,
      "learning_rate": 0.0005496153163116572,
      "loss": 1.6638,
      "step": 16877
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5574809908866882,
      "learning_rate": 0.000549609518381008,
      "loss": 1.7087,
      "step": 16878
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3891046345233917,
      "learning_rate": 0.0005496037201473695,
      "loss": 1.7253,
      "step": 16879
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3775091767311096,
      "learning_rate": 0.000549597921610749,
      "loss": 1.747,
      "step": 16880
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38784265518188477,
      "learning_rate": 0.0005495921227711533,
      "loss": 1.7096,
      "step": 16881
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3763638138771057,
      "learning_rate": 0.0005495863236285894,
      "loss": 1.6449,
      "step": 16882
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39701327681541443,
      "learning_rate": 0.0005495805241830647,
      "loss": 1.7508,
      "step": 16883
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38033029437065125,
      "learning_rate": 0.0005495747244345859,
      "loss": 1.7915,
      "step": 16884
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38778945803642273,
      "learning_rate": 0.0005495689243831602,
      "loss": 1.6667,
      "step": 16885
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3772861361503601,
      "learning_rate": 0.0005495631240287946,
      "loss": 1.7104,
      "step": 16886
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39141425490379333,
      "learning_rate": 0.0005495573233714961,
      "loss": 1.745,
      "step": 16887
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.377214640378952,
      "learning_rate": 0.0005495515224112718,
      "loss": 1.6574,
      "step": 16888
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37025129795074463,
      "learning_rate": 0.0005495457211481288,
      "loss": 1.6775,
      "step": 16889
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3855677843093872,
      "learning_rate": 0.0005495399195820739,
      "loss": 1.6875,
      "step": 16890
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4007425308227539,
      "learning_rate": 0.0005495341177131145,
      "loss": 1.7066,
      "step": 16891
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38401347398757935,
      "learning_rate": 0.0005495283155412573,
      "loss": 1.7017,
      "step": 16892
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.385121613740921,
      "learning_rate": 0.0005495225130665095,
      "loss": 1.7178,
      "step": 16893
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4053371846675873,
      "learning_rate": 0.0005495167102888782,
      "loss": 1.6452,
      "step": 16894
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39695441722869873,
      "learning_rate": 0.0005495109072083703,
      "loss": 1.7466,
      "step": 16895
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39817753434181213,
      "learning_rate": 0.0005495051038249929,
      "loss": 1.7127,
      "step": 16896
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3935695290565491,
      "learning_rate": 0.0005494993001387532,
      "loss": 1.8211,
      "step": 16897
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4039725363254547,
      "learning_rate": 0.000549493496149658,
      "loss": 1.7952,
      "step": 16898
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3918871581554413,
      "learning_rate": 0.0005494876918577145,
      "loss": 1.7215,
      "step": 16899
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3755206763744354,
      "learning_rate": 0.0005494818872629297,
      "loss": 1.6715,
      "step": 16900
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3843209743499756,
      "learning_rate": 0.0005494760823653108,
      "loss": 1.6982,
      "step": 16901
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.401381254196167,
      "learning_rate": 0.0005494702771648646,
      "loss": 1.678,
      "step": 16902
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38437867164611816,
      "learning_rate": 0.0005494644716615982,
      "loss": 1.6995,
      "step": 16903
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3768525719642639,
      "learning_rate": 0.0005494586658555186,
      "loss": 1.7282,
      "step": 16904
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40497586131095886,
      "learning_rate": 0.0005494528597466329,
      "loss": 1.8149,
      "step": 16905
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3982473611831665,
      "learning_rate": 0.0005494470533349483,
      "loss": 1.6349,
      "step": 16906
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3766494393348694,
      "learning_rate": 0.0005494412466204719,
      "loss": 1.7153,
      "step": 16907
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3786928355693817,
      "learning_rate": 0.0005494354396032103,
      "loss": 1.7098,
      "step": 16908
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3711802065372467,
      "learning_rate": 0.000549429632283171,
      "loss": 1.6972,
      "step": 16909
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.392885684967041,
      "learning_rate": 0.0005494238246603608,
      "loss": 1.6534,
      "step": 16910
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37979814410209656,
      "learning_rate": 0.0005494180167347868,
      "loss": 1.708,
      "step": 16911
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3849106431007385,
      "learning_rate": 0.0005494122085064561,
      "loss": 1.7801,
      "step": 16912
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3687545955181122,
      "learning_rate": 0.0005494063999753757,
      "loss": 1.6964,
      "step": 16913
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38876810669898987,
      "learning_rate": 0.0005494005911415528,
      "loss": 1.7431,
      "step": 16914
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3938804864883423,
      "learning_rate": 0.0005493947820049942,
      "loss": 1.7739,
      "step": 16915
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3739309310913086,
      "learning_rate": 0.0005493889725657072,
      "loss": 1.6988,
      "step": 16916
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3748644292354584,
      "learning_rate": 0.0005493831628236987,
      "loss": 1.7283,
      "step": 16917
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37093499302864075,
      "learning_rate": 0.0005493773527789757,
      "loss": 1.7343,
      "step": 16918
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3837258219718933,
      "learning_rate": 0.0005493715424315454,
      "loss": 1.661,
      "step": 16919
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37615934014320374,
      "learning_rate": 0.0005493657317814148,
      "loss": 1.7532,
      "step": 16920
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3884674310684204,
      "learning_rate": 0.0005493599208285909,
      "loss": 1.7277,
      "step": 16921
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3710293471813202,
      "learning_rate": 0.0005493541095730809,
      "loss": 1.6764,
      "step": 16922
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3924642503261566,
      "learning_rate": 0.0005493482980148917,
      "loss": 1.708,
      "step": 16923
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38129281997680664,
      "learning_rate": 0.0005493424861540303,
      "loss": 1.7725,
      "step": 16924
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3699019253253937,
      "learning_rate": 0.000549336673990504,
      "loss": 1.754,
      "step": 16925
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3725886344909668,
      "learning_rate": 0.0005493308615243197,
      "loss": 1.7142,
      "step": 16926
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3769237995147705,
      "learning_rate": 0.0005493250487554844,
      "loss": 1.7587,
      "step": 16927
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3815782964229584,
      "learning_rate": 0.0005493192356840052,
      "loss": 1.7288,
      "step": 16928
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3731923997402191,
      "learning_rate": 0.0005493134223098893,
      "loss": 1.7314,
      "step": 16929
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37633636593818665,
      "learning_rate": 0.0005493076086331435,
      "loss": 1.6788,
      "step": 16930
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38859468698501587,
      "learning_rate": 0.0005493017946537752,
      "loss": 1.7999,
      "step": 16931
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37949007749557495,
      "learning_rate": 0.000549295980371791,
      "loss": 1.6853,
      "step": 16932
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37292250990867615,
      "learning_rate": 0.0005492901657871983,
      "loss": 1.7108,
      "step": 16933
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38281282782554626,
      "learning_rate": 0.0005492843509000042,
      "loss": 1.7532,
      "step": 16934
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36999768018722534,
      "learning_rate": 0.0005492785357102156,
      "loss": 1.6179,
      "step": 16935
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3969748616218567,
      "learning_rate": 0.0005492727202178395,
      "loss": 1.7131,
      "step": 16936
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38107532262802124,
      "learning_rate": 0.0005492669044228831,
      "loss": 1.7476,
      "step": 16937
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37861883640289307,
      "learning_rate": 0.0005492610883253534,
      "loss": 1.7236,
      "step": 16938
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39470213651657104,
      "learning_rate": 0.0005492552719252574,
      "loss": 1.781,
      "step": 16939
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38281309604644775,
      "learning_rate": 0.0005492494552226023,
      "loss": 1.7552,
      "step": 16940
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37409669160842896,
      "learning_rate": 0.000549243638217395,
      "loss": 1.6429,
      "step": 16941
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.41741645336151123,
      "learning_rate": 0.0005492378209096428,
      "loss": 1.698,
      "step": 16942
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38710081577301025,
      "learning_rate": 0.0005492320032993525,
      "loss": 1.7615,
      "step": 16943
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38646557927131653,
      "learning_rate": 0.0005492261853865313,
      "loss": 1.7587,
      "step": 16944
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3815288543701172,
      "learning_rate": 0.0005492203671711863,
      "loss": 1.7276,
      "step": 16945
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3704563081264496,
      "learning_rate": 0.0005492145486533243,
      "loss": 1.7269,
      "step": 16946
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4179871082305908,
      "learning_rate": 0.0005492087298329527,
      "loss": 1.7382,
      "step": 16947
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38095733523368835,
      "learning_rate": 0.0005492029107100784,
      "loss": 1.7671,
      "step": 16948
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.383348673582077,
      "learning_rate": 0.0005491970912847085,
      "loss": 1.6674,
      "step": 16949
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.40639883279800415,
      "learning_rate": 0.00054919127155685,
      "loss": 1.7416,
      "step": 16950
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37566161155700684,
      "learning_rate": 0.0005491854515265101,
      "loss": 1.7868,
      "step": 16951
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.39716652035713196,
      "learning_rate": 0.0005491796311936956,
      "loss": 1.7575,
      "step": 16952
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3756580948829651,
      "learning_rate": 0.0005491738105584139,
      "loss": 1.6751,
      "step": 16953
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37718120217323303,
      "learning_rate": 0.0005491679896206719,
      "loss": 1.6319,
      "step": 16954
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3801340162754059,
      "learning_rate": 0.0005491621683804766,
      "loss": 1.6578,
      "step": 16955
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3785080909729004,
      "learning_rate": 0.0005491563468378352,
      "loss": 1.6371,
      "step": 16956
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37373086810112,
      "learning_rate": 0.0005491505249927547,
      "loss": 1.712,
      "step": 16957
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3918260931968689,
      "learning_rate": 0.0005491447028452422,
      "loss": 1.7085,
      "step": 16958
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3642679750919342,
      "learning_rate": 0.0005491388803953046,
      "loss": 1.6935,
      "step": 16959
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3775860369205475,
      "learning_rate": 0.0005491330576429493,
      "loss": 1.6632,
      "step": 16960
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37954971194267273,
      "learning_rate": 0.000549127234588183,
      "loss": 1.6861,
      "step": 16961
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36957427859306335,
      "learning_rate": 0.0005491214112310131,
      "loss": 1.6498,
      "step": 16962
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36870115995407104,
      "learning_rate": 0.0005491155875714464,
      "loss": 1.6697,
      "step": 16963
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3780594766139984,
      "learning_rate": 0.0005491097636094902,
      "loss": 1.6921,
      "step": 16964
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36972981691360474,
      "learning_rate": 0.0005491039393451514,
      "loss": 1.7018,
      "step": 16965
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37584760785102844,
      "learning_rate": 0.0005490981147784371,
      "loss": 1.7226,
      "step": 16966
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3716839551925659,
      "learning_rate": 0.0005490922899093543,
      "loss": 1.6885,
      "step": 16967
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3736887574195862,
      "learning_rate": 0.0005490864647379103,
      "loss": 1.7445,
      "step": 16968
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.378296434879303,
      "learning_rate": 0.000549080639264112,
      "loss": 1.7265,
      "step": 16969
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3837675452232361,
      "learning_rate": 0.0005490748134879665,
      "loss": 1.7925,
      "step": 16970
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3737099766731262,
      "learning_rate": 0.0005490689874094809,
      "loss": 1.7483,
      "step": 16971
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3828853964805603,
      "learning_rate": 0.0005490631610286621,
      "loss": 1.8114,
      "step": 16972
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37178435921669006,
      "learning_rate": 0.0005490573343455175,
      "loss": 1.7301,
      "step": 16973
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.36826229095458984,
      "learning_rate": 0.000549051507360054,
      "loss": 1.7546,
      "step": 16974
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3666446805000305,
      "learning_rate": 0.0005490456800722785,
      "loss": 1.6633,
      "step": 16975
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.367976576089859,
      "learning_rate": 0.0005490398524821984,
      "loss": 1.6964,
      "step": 16976
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3756328523159027,
      "learning_rate": 0.0005490340245898205,
      "loss": 1.7065,
      "step": 16977
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3724498748779297,
      "learning_rate": 0.000549028196395152,
      "loss": 1.6704,
      "step": 16978
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37435612082481384,
      "learning_rate": 0.0005490223678982,
      "loss": 1.7145,
      "step": 16979
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37824195623397827,
      "learning_rate": 0.0005490165390989716,
      "loss": 1.7642,
      "step": 16980
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3753696084022522,
      "learning_rate": 0.0005490107099974737,
      "loss": 1.7522,
      "step": 16981
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.37556183338165283,
      "learning_rate": 0.0005490048805937136,
      "loss": 1.6923,
      "step": 16982
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3804716169834137,
      "learning_rate": 0.0005489990508876981,
      "loss": 1.7365,
      "step": 16983
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38439539074897766,
      "learning_rate": 0.0005489932208794346,
      "loss": 1.6658,
      "step": 16984
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37815526127815247,
      "learning_rate": 0.00054898739056893,
      "loss": 1.6467,
      "step": 16985
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3972436785697937,
      "learning_rate": 0.0005489815599561913,
      "loss": 1.7532,
      "step": 16986
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3734026253223419,
      "learning_rate": 0.0005489757290412258,
      "loss": 1.6968,
      "step": 16987
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39036375284194946,
      "learning_rate": 0.0005489698978240403,
      "loss": 1.7437,
      "step": 16988
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3885408639907837,
      "learning_rate": 0.0005489640663046421,
      "loss": 1.7391,
      "step": 16989
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3750271797180176,
      "learning_rate": 0.0005489582344830382,
      "loss": 1.7228,
      "step": 16990
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38134443759918213,
      "learning_rate": 0.0005489524023592357,
      "loss": 1.671,
      "step": 16991
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3726712167263031,
      "learning_rate": 0.0005489465699332417,
      "loss": 1.7053,
      "step": 16992
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39542973041534424,
      "learning_rate": 0.0005489407372050632,
      "loss": 1.6693,
      "step": 16993
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3812340199947357,
      "learning_rate": 0.0005489349041747073,
      "loss": 1.7983,
      "step": 16994
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3811713457107544,
      "learning_rate": 0.0005489290708421811,
      "loss": 1.6301,
      "step": 16995
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3983812928199768,
      "learning_rate": 0.0005489232372074918,
      "loss": 1.784,
      "step": 16996
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.381734699010849,
      "learning_rate": 0.0005489174032706463,
      "loss": 1.7703,
      "step": 16997
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3807360529899597,
      "learning_rate": 0.0005489115690316517,
      "loss": 1.7154,
      "step": 16998
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.375955194234848,
      "learning_rate": 0.0005489057344905151,
      "loss": 1.688,
      "step": 16999
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39484161138534546,
      "learning_rate": 0.0005488998996472438,
      "loss": 1.7242,
      "step": 17000
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3830890953540802,
      "learning_rate": 0.0005488940645018445,
      "loss": 1.7482,
      "step": 17001
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3977647125720978,
      "learning_rate": 0.0005488882290543245,
      "loss": 1.7156,
      "step": 17002
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3776397407054901,
      "learning_rate": 0.000548882393304691,
      "loss": 1.7826,
      "step": 17003
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38753703236579895,
      "learning_rate": 0.0005488765572529508,
      "loss": 1.6767,
      "step": 17004
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3786649703979492,
      "learning_rate": 0.0005488707208991112,
      "loss": 1.7782,
      "step": 17005
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37306085228919983,
      "learning_rate": 0.0005488648842431793,
      "loss": 1.6838,
      "step": 17006
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37693554162979126,
      "learning_rate": 0.0005488590472851619,
      "loss": 1.7166,
      "step": 17007
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36889854073524475,
      "learning_rate": 0.0005488532100250664,
      "loss": 1.6832,
      "step": 17008
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36541852355003357,
      "learning_rate": 0.0005488473724628998,
      "loss": 1.6541,
      "step": 17009
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38624852895736694,
      "learning_rate": 0.000548841534598669,
      "loss": 1.6879,
      "step": 17010
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3783036172389984,
      "learning_rate": 0.0005488356964323815,
      "loss": 1.7216,
      "step": 17011
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3736651837825775,
      "learning_rate": 0.0005488298579640439,
      "loss": 1.695,
      "step": 17012
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3761100172996521,
      "learning_rate": 0.0005488240191936636,
      "loss": 1.7003,
      "step": 17013
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3867299556732178,
      "learning_rate": 0.0005488181801212476,
      "loss": 1.6987,
      "step": 17014
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3737650513648987,
      "learning_rate": 0.0005488123407468029,
      "loss": 1.6957,
      "step": 17015
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3864010274410248,
      "learning_rate": 0.0005488065010703369,
      "loss": 1.692,
      "step": 17016
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38319799304008484,
      "learning_rate": 0.0005488006610918563,
      "loss": 1.8026,
      "step": 17017
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38581475615501404,
      "learning_rate": 0.0005487948208113684,
      "loss": 1.6924,
      "step": 17018
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36916160583496094,
      "learning_rate": 0.0005487889802288803,
      "loss": 1.7263,
      "step": 17019
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.35977819561958313,
      "learning_rate": 0.0005487831393443989,
      "loss": 1.659,
      "step": 17020
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3670346438884735,
      "learning_rate": 0.0005487772981579315,
      "loss": 1.7329,
      "step": 17021
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.40112102031707764,
      "learning_rate": 0.0005487714566694851,
      "loss": 1.7261,
      "step": 17022
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37278151512145996,
      "learning_rate": 0.0005487656148790669,
      "loss": 1.6912,
      "step": 17023
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3758351504802704,
      "learning_rate": 0.0005487597727866838,
      "loss": 1.7396,
      "step": 17024
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3755771815776825,
      "learning_rate": 0.0005487539303923429,
      "loss": 1.6757,
      "step": 17025
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38458144664764404,
      "learning_rate": 0.0005487480876960515,
      "loss": 1.7134,
      "step": 17026
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3734346628189087,
      "learning_rate": 0.0005487422446978167,
      "loss": 1.698,
      "step": 17027
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.384708046913147,
      "learning_rate": 0.0005487364013976453,
      "loss": 1.6945,
      "step": 17028
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38936683535575867,
      "learning_rate": 0.0005487305577955447,
      "loss": 1.7403,
      "step": 17029
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38230571150779724,
      "learning_rate": 0.0005487247138915216,
      "loss": 1.7258,
      "step": 17030
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37876927852630615,
      "learning_rate": 0.0005487188696855835,
      "loss": 1.6838,
      "step": 17031
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3827734887599945,
      "learning_rate": 0.0005487130251777373,
      "loss": 1.686,
      "step": 17032
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38429680466651917,
      "learning_rate": 0.0005487071803679902,
      "loss": 1.717,
      "step": 17033
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38857221603393555,
      "learning_rate": 0.0005487013352563491,
      "loss": 1.7545,
      "step": 17034
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39170411229133606,
      "learning_rate": 0.0005486954898428213,
      "loss": 1.6872,
      "step": 17035
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39390793442726135,
      "learning_rate": 0.0005486896441274138,
      "loss": 1.6798,
      "step": 17036
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3982110917568207,
      "learning_rate": 0.0005486837981101339,
      "loss": 1.7835,
      "step": 17037
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36695000529289246,
      "learning_rate": 0.0005486779517909883,
      "loss": 1.6909,
      "step": 17038
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3935135304927826,
      "learning_rate": 0.0005486721051699844,
      "loss": 1.7519,
      "step": 17039
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3856581747531891,
      "learning_rate": 0.0005486662582471291,
      "loss": 1.6078,
      "step": 17040
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3765449523925781,
      "learning_rate": 0.0005486604110224297,
      "loss": 1.713,
      "step": 17041
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3793860375881195,
      "learning_rate": 0.0005486545634958932,
      "loss": 1.7091,
      "step": 17042
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3763982057571411,
      "learning_rate": 0.0005486487156675266,
      "loss": 1.6262,
      "step": 17043
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38504400849342346,
      "learning_rate": 0.0005486428675373372,
      "loss": 1.6753,
      "step": 17044
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5490648746490479,
      "learning_rate": 0.0005486370191053319,
      "loss": 1.7895,
      "step": 17045
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3747999668121338,
      "learning_rate": 0.000548631170371518,
      "loss": 1.6816,
      "step": 17046
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3791486322879791,
      "learning_rate": 0.0005486253213359025,
      "loss": 1.7282,
      "step": 17047
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.377204954624176,
      "learning_rate": 0.0005486194719984923,
      "loss": 1.6689,
      "step": 17048
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.380108505487442,
      "learning_rate": 0.0005486136223592948,
      "loss": 1.6303,
      "step": 17049
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.370913028717041,
      "learning_rate": 0.0005486077724183171,
      "loss": 1.6683,
      "step": 17050
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3805549740791321,
      "learning_rate": 0.0005486019221755662,
      "loss": 1.7773,
      "step": 17051
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3838260769844055,
      "learning_rate": 0.0005485960716310491,
      "loss": 1.8274,
      "step": 17052
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3833375871181488,
      "learning_rate": 0.0005485902207847729,
      "loss": 1.7741,
      "step": 17053
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39234840869903564,
      "learning_rate": 0.000548584369636745,
      "loss": 1.7626,
      "step": 17054
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3705189824104309,
      "learning_rate": 0.0005485785181869722,
      "loss": 1.6963,
      "step": 17055
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3840419054031372,
      "learning_rate": 0.0005485726664354617,
      "loss": 1.691,
      "step": 17056
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37437331676483154,
      "learning_rate": 0.0005485668143822206,
      "loss": 1.692,
      "step": 17057
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38422691822052,
      "learning_rate": 0.0005485609620272561,
      "loss": 1.7745,
      "step": 17058
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.373384952545166,
      "learning_rate": 0.0005485551093705751,
      "loss": 1.7392,
      "step": 17059
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37846845388412476,
      "learning_rate": 0.000548549256412185,
      "loss": 1.7556,
      "step": 17060
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3834614157676697,
      "learning_rate": 0.0005485434031520925,
      "loss": 1.7493,
      "step": 17061
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4000011384487152,
      "learning_rate": 0.000548537549590305,
      "loss": 1.745,
      "step": 17062
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3846554756164551,
      "learning_rate": 0.0005485316957268296,
      "loss": 1.6862,
      "step": 17063
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38245320320129395,
      "learning_rate": 0.0005485258415616733,
      "loss": 1.6696,
      "step": 17064
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38158535957336426,
      "learning_rate": 0.0005485199870948433,
      "loss": 1.6879,
      "step": 17065
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37840792536735535,
      "learning_rate": 0.0005485141323263465,
      "loss": 1.7194,
      "step": 17066
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38499170541763306,
      "learning_rate": 0.0005485082772561904,
      "loss": 1.7319,
      "step": 17067
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37694159150123596,
      "learning_rate": 0.0005485024218843817,
      "loss": 1.7258,
      "step": 17068
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3692692220211029,
      "learning_rate": 0.0005484965662109277,
      "loss": 1.7104,
      "step": 17069
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6997007131576538,
      "learning_rate": 0.0005484907102358354,
      "loss": 1.7726,
      "step": 17070
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3815210163593292,
      "learning_rate": 0.0005484848539591121,
      "loss": 1.6608,
      "step": 17071
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36729034781455994,
      "learning_rate": 0.0005484789973807648,
      "loss": 1.681,
      "step": 17072
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36821112036705017,
      "learning_rate": 0.0005484731405008006,
      "loss": 1.6847,
      "step": 17073
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38088035583496094,
      "learning_rate": 0.0005484672833192267,
      "loss": 1.7396,
      "step": 17074
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3741823732852936,
      "learning_rate": 0.00054846142583605,
      "loss": 1.6046,
      "step": 17075
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4102451503276825,
      "learning_rate": 0.0005484555680512778,
      "loss": 1.7567,
      "step": 17076
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37513917684555054,
      "learning_rate": 0.000548449709964917,
      "loss": 1.745,
      "step": 17077
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36815398931503296,
      "learning_rate": 0.0005484438515769751,
      "loss": 1.6719,
      "step": 17078
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36330553889274597,
      "learning_rate": 0.0005484379928874588,
      "loss": 1.6982,
      "step": 17079
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38000455498695374,
      "learning_rate": 0.0005484321338963754,
      "loss": 1.6736,
      "step": 17080
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38009461760520935,
      "learning_rate": 0.0005484262746037321,
      "loss": 1.7241,
      "step": 17081
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3789449632167816,
      "learning_rate": 0.0005484204150095358,
      "loss": 1.7653,
      "step": 17082
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3621407449245453,
      "learning_rate": 0.0005484145551137938,
      "loss": 1.6966,
      "step": 17083
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37160730361938477,
      "learning_rate": 0.0005484086949165131,
      "loss": 1.7501,
      "step": 17084
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3719651997089386,
      "learning_rate": 0.0005484028344177009,
      "loss": 1.7384,
      "step": 17085
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37395572662353516,
      "learning_rate": 0.0005483969736173641,
      "loss": 1.7053,
      "step": 17086
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38043323159217834,
      "learning_rate": 0.0005483911125155101,
      "loss": 1.7726,
      "step": 17087
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3772848844528198,
      "learning_rate": 0.0005483852511121458,
      "loss": 1.727,
      "step": 17088
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3727356195449829,
      "learning_rate": 0.0005483793894072784,
      "loss": 1.753,
      "step": 17089
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37163394689559937,
      "learning_rate": 0.0005483735274009152,
      "loss": 1.6811,
      "step": 17090
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38285279273986816,
      "learning_rate": 0.000548367665093063,
      "loss": 1.7434,
      "step": 17091
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3810690641403198,
      "learning_rate": 0.000548361802483729,
      "loss": 1.7028,
      "step": 17092
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.378581702709198,
      "learning_rate": 0.0005483559395729204,
      "loss": 1.7374,
      "step": 17093
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3812992572784424,
      "learning_rate": 0.0005483500763606443,
      "loss": 1.7222,
      "step": 17094
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.384005069732666,
      "learning_rate": 0.0005483442128469079,
      "loss": 1.7173,
      "step": 17095
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.370143324136734,
      "learning_rate": 0.0005483383490317181,
      "loss": 1.7032,
      "step": 17096
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3766878545284271,
      "learning_rate": 0.0005483324849150822,
      "loss": 1.6849,
      "step": 17097
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3919845521450043,
      "learning_rate": 0.0005483266204970072,
      "loss": 1.6814,
      "step": 17098
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3923887610435486,
      "learning_rate": 0.0005483207557775002,
      "loss": 1.7148,
      "step": 17099
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38102349638938904,
      "learning_rate": 0.0005483148907565685,
      "loss": 1.7004,
      "step": 17100
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3863184452056885,
      "learning_rate": 0.0005483090254342192,
      "loss": 1.6956,
      "step": 17101
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3743538558483124,
      "learning_rate": 0.0005483031598104592,
      "loss": 1.6377,
      "step": 17102
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38546302914619446,
      "learning_rate": 0.0005482972938852958,
      "loss": 1.6607,
      "step": 17103
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39390408992767334,
      "learning_rate": 0.000548291427658736,
      "loss": 1.7852,
      "step": 17104
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3843849003314972,
      "learning_rate": 0.0005482855611307869,
      "loss": 1.772,
      "step": 17105
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3760073482990265,
      "learning_rate": 0.000548279694301456,
      "loss": 1.7164,
      "step": 17106
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.380069762468338,
      "learning_rate": 0.0005482738271707499,
      "loss": 1.8081,
      "step": 17107
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3997937738895416,
      "learning_rate": 0.0005482679597386761,
      "loss": 1.6899,
      "step": 17108
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.40326666831970215,
      "learning_rate": 0.0005482620920052414,
      "loss": 1.8107,
      "step": 17109
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3656659424304962,
      "learning_rate": 0.0005482562239704533,
      "loss": 1.7031,
      "step": 17110
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38084354996681213,
      "learning_rate": 0.0005482503556343186,
      "loss": 1.6508,
      "step": 17111
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3965036869049072,
      "learning_rate": 0.0005482444869968446,
      "loss": 1.6944,
      "step": 17112
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3884507715702057,
      "learning_rate": 0.0005482386180580383,
      "loss": 1.6938,
      "step": 17113
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3691067695617676,
      "learning_rate": 0.0005482327488179069,
      "loss": 1.7049,
      "step": 17114
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39519423246383667,
      "learning_rate": 0.0005482268792764576,
      "loss": 1.6129,
      "step": 17115
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4077599048614502,
      "learning_rate": 0.0005482210094336974,
      "loss": 1.6678,
      "step": 17116
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38071489334106445,
      "learning_rate": 0.0005482151392896334,
      "loss": 1.698,
      "step": 17117
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37151437997817993,
      "learning_rate": 0.0005482092688442729,
      "loss": 1.6552,
      "step": 17118
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3968043327331543,
      "learning_rate": 0.0005482033980976229,
      "loss": 1.6682,
      "step": 17119
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4035896956920624,
      "learning_rate": 0.0005481975270496906,
      "loss": 1.7145,
      "step": 17120
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38466426730155945,
      "learning_rate": 0.000548191655700483,
      "loss": 1.677,
      "step": 17121
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.385604590177536,
      "learning_rate": 0.0005481857840500073,
      "loss": 1.6271,
      "step": 17122
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3957180976867676,
      "learning_rate": 0.0005481799120982706,
      "loss": 1.7278,
      "step": 17123
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37894341349601746,
      "learning_rate": 0.0005481740398452801,
      "loss": 1.7002,
      "step": 17124
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38079890608787537,
      "learning_rate": 0.0005481681672910429,
      "loss": 1.7099,
      "step": 17125
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3753093481063843,
      "learning_rate": 0.000548162294435566,
      "loss": 1.7453,
      "step": 17126
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38980787992477417,
      "learning_rate": 0.0005481564212788567,
      "loss": 1.6885,
      "step": 17127
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.42715856432914734,
      "learning_rate": 0.000548150547820922,
      "loss": 1.6617,
      "step": 17128
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38211798667907715,
      "learning_rate": 0.0005481446740617693,
      "loss": 1.7511,
      "step": 17129
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38335976004600525,
      "learning_rate": 0.0005481388000014055,
      "loss": 1.6546,
      "step": 17130
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3709610104560852,
      "learning_rate": 0.0005481329256398376,
      "loss": 1.7101,
      "step": 17131
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38200175762176514,
      "learning_rate": 0.000548127050977073,
      "loss": 1.7019,
      "step": 17132
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3794856667518616,
      "learning_rate": 0.0005481211760131185,
      "loss": 1.7479,
      "step": 17133
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3813919126987457,
      "learning_rate": 0.0005481153007479818,
      "loss": 1.6968,
      "step": 17134
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37689945101737976,
      "learning_rate": 0.0005481094251816695,
      "loss": 1.6794,
      "step": 17135
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36417528986930847,
      "learning_rate": 0.0005481035493141888,
      "loss": 1.6629,
      "step": 17136
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3820422887802124,
      "learning_rate": 0.0005480976731455471,
      "loss": 1.8069,
      "step": 17137
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37883666157722473,
      "learning_rate": 0.0005480917966757514,
      "loss": 1.6639,
      "step": 17138
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4399612545967102,
      "learning_rate": 0.0005480859199048087,
      "loss": 1.6935,
      "step": 17139
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37594592571258545,
      "learning_rate": 0.0005480800428327263,
      "loss": 1.7835,
      "step": 17140
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3684092164039612,
      "learning_rate": 0.0005480741654595113,
      "loss": 1.6056,
      "step": 17141
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38150519132614136,
      "learning_rate": 0.0005480682877851709,
      "loss": 1.6811,
      "step": 17142
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37177610397338867,
      "learning_rate": 0.000548062409809712,
      "loss": 1.6442,
      "step": 17143
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3747880756855011,
      "learning_rate": 0.0005480565315331419,
      "loss": 1.6942,
      "step": 17144
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37594395875930786,
      "learning_rate": 0.0005480506529554678,
      "loss": 1.7204,
      "step": 17145
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38444700837135315,
      "learning_rate": 0.0005480447740766968,
      "loss": 1.7923,
      "step": 17146
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3935450613498688,
      "learning_rate": 0.0005480388948968359,
      "loss": 1.7072,
      "step": 17147
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3863060176372528,
      "learning_rate": 0.0005480330154158924,
      "loss": 1.7092,
      "step": 17148
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4053337872028351,
      "learning_rate": 0.0005480271356338731,
      "loss": 1.6965,
      "step": 17149
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38401615619659424,
      "learning_rate": 0.0005480212555507857,
      "loss": 1.7006,
      "step": 17150
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37492355704307556,
      "learning_rate": 0.000548015375166637,
      "loss": 1.6877,
      "step": 17151
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3665670156478882,
      "learning_rate": 0.0005480094944814341,
      "loss": 1.6604,
      "step": 17152
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3780367970466614,
      "learning_rate": 0.0005480036134951843,
      "loss": 1.666,
      "step": 17153
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3910885453224182,
      "learning_rate": 0.0005479977322078945,
      "loss": 1.6709,
      "step": 17154
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38027364015579224,
      "learning_rate": 0.0005479918506195721,
      "loss": 1.7605,
      "step": 17155
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38635826110839844,
      "learning_rate": 0.0005479859687302241,
      "loss": 1.724,
      "step": 17156
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3759957551956177,
      "learning_rate": 0.0005479800865398577,
      "loss": 1.7275,
      "step": 17157
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.402434378862381,
      "learning_rate": 0.00054797420404848,
      "loss": 1.7272,
      "step": 17158
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3908955156803131,
      "learning_rate": 0.0005479683212560982,
      "loss": 1.6929,
      "step": 17159
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3786379396915436,
      "learning_rate": 0.0005479624381627194,
      "loss": 1.698,
      "step": 17160
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3885590434074402,
      "learning_rate": 0.0005479565547683507,
      "loss": 1.7532,
      "step": 17161
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3834178149700165,
      "learning_rate": 0.0005479506710729992,
      "loss": 1.7305,
      "step": 17162
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3861720561981201,
      "learning_rate": 0.0005479447870766723,
      "loss": 1.6788,
      "step": 17163
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.40259310603141785,
      "learning_rate": 0.0005479389027793768,
      "loss": 1.7354,
      "step": 17164
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39135539531707764,
      "learning_rate": 0.00054793301818112,
      "loss": 1.7706,
      "step": 17165
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38387712836265564,
      "learning_rate": 0.0005479271332819091,
      "loss": 1.7088,
      "step": 17166
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.376480370759964,
      "learning_rate": 0.0005479212480817513,
      "loss": 1.7918,
      "step": 17167
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38872233033180237,
      "learning_rate": 0.0005479153625806534,
      "loss": 1.699,
      "step": 17168
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4034430682659149,
      "learning_rate": 0.000547909476778623,
      "loss": 1.5808,
      "step": 17169
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38683533668518066,
      "learning_rate": 0.0005479035906756669,
      "loss": 1.7509,
      "step": 17170
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36368662118911743,
      "learning_rate": 0.0005478977042717925,
      "loss": 1.6897,
      "step": 17171
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39984744787216187,
      "learning_rate": 0.0005478918175670066,
      "loss": 1.7451,
      "step": 17172
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3701171875,
      "learning_rate": 0.0005478859305613167,
      "loss": 1.7481,
      "step": 17173
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4726710021495819,
      "learning_rate": 0.0005478800432547298,
      "loss": 1.7073,
      "step": 17174
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38706910610198975,
      "learning_rate": 0.000547874155647253,
      "loss": 1.7344,
      "step": 17175
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3744924068450928,
      "learning_rate": 0.0005478682677388935,
      "loss": 1.7013,
      "step": 17176
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3933318853378296,
      "learning_rate": 0.0005478623795296584,
      "loss": 1.703,
      "step": 17177
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3909751772880554,
      "learning_rate": 0.000547856491019555,
      "loss": 1.7416,
      "step": 17178
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3774789869785309,
      "learning_rate": 0.0005478506022085904,
      "loss": 1.7035,
      "step": 17179
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37630271911621094,
      "learning_rate": 0.0005478447130967715,
      "loss": 1.7489,
      "step": 17180
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38774704933166504,
      "learning_rate": 0.0005478388236841058,
      "loss": 1.6978,
      "step": 17181
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39282628893852234,
      "learning_rate": 0.0005478329339706001,
      "loss": 1.6892,
      "step": 17182
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.40338537096977234,
      "learning_rate": 0.0005478270439562619,
      "loss": 1.8321,
      "step": 17183
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3756813704967499,
      "learning_rate": 0.0005478211536410981,
      "loss": 1.6967,
      "step": 17184
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38663414120674133,
      "learning_rate": 0.000547815263025116,
      "loss": 1.6339,
      "step": 17185
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.384187787771225,
      "learning_rate": 0.0005478093721083226,
      "loss": 1.7208,
      "step": 17186
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3846147358417511,
      "learning_rate": 0.0005478034808907253,
      "loss": 1.7547,
      "step": 17187
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36566516757011414,
      "learning_rate": 0.0005477975893723309,
      "loss": 1.6757,
      "step": 17188
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37669268250465393,
      "learning_rate": 0.0005477916975531468,
      "loss": 1.6633,
      "step": 17189
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3833736181259155,
      "learning_rate": 0.0005477858054331801,
      "loss": 1.7461,
      "step": 17190
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39934954047203064,
      "learning_rate": 0.0005477799130124379,
      "loss": 1.7279,
      "step": 17191
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37066134810447693,
      "learning_rate": 0.0005477740202909274,
      "loss": 1.6857,
      "step": 17192
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3700140714645386,
      "learning_rate": 0.0005477681272686558,
      "loss": 1.7142,
      "step": 17193
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3870733976364136,
      "learning_rate": 0.0005477622339456302,
      "loss": 1.7738,
      "step": 17194
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3776269555091858,
      "learning_rate": 0.0005477563403218578,
      "loss": 1.6163,
      "step": 17195
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3729321360588074,
      "learning_rate": 0.0005477504463973456,
      "loss": 1.7374,
      "step": 17196
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37712958455085754,
      "learning_rate": 0.0005477445521721009,
      "loss": 1.672,
      "step": 17197
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3693740665912628,
      "learning_rate": 0.0005477386576461308,
      "loss": 1.6729,
      "step": 17198
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6140369176864624,
      "learning_rate": 0.0005477327628194425,
      "loss": 1.7051,
      "step": 17199
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36625415086746216,
      "learning_rate": 0.0005477268676920431,
      "loss": 1.6951,
      "step": 17200
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3796099126338959,
      "learning_rate": 0.0005477209722639398,
      "loss": 1.6765,
      "step": 17201
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3816785216331482,
      "learning_rate": 0.0005477150765351398,
      "loss": 1.6943,
      "step": 17202
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3820559084415436,
      "learning_rate": 0.0005477091805056501,
      "loss": 1.6619,
      "step": 17203
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3804837763309479,
      "learning_rate": 0.0005477032841754779,
      "loss": 1.6322,
      "step": 17204
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3729884922504425,
      "learning_rate": 0.0005476973875446306,
      "loss": 1.7424,
      "step": 17205
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3665858507156372,
      "learning_rate": 0.000547691490613115,
      "loss": 1.6556,
      "step": 17206
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3829817771911621,
      "learning_rate": 0.0005476855933809386,
      "loss": 1.6847,
      "step": 17207
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38851669430732727,
      "learning_rate": 0.0005476796958481082,
      "loss": 1.739,
      "step": 17208
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3854602873325348,
      "learning_rate": 0.0005476737980146312,
      "loss": 1.6765,
      "step": 17209
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39127209782600403,
      "learning_rate": 0.0005476678998805148,
      "loss": 1.6504,
      "step": 17210
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38281941413879395,
      "learning_rate": 0.0005476620014457659,
      "loss": 1.6984,
      "step": 17211
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39810994267463684,
      "learning_rate": 0.0005476561027103919,
      "loss": 1.6786,
      "step": 17212
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3871857523918152,
      "learning_rate": 0.0005476502036743999,
      "loss": 1.7591,
      "step": 17213
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37750712037086487,
      "learning_rate": 0.0005476443043377971,
      "loss": 1.6594,
      "step": 17214
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.391997754573822,
      "learning_rate": 0.0005476384047005905,
      "loss": 1.7327,
      "step": 17215
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37777021527290344,
      "learning_rate": 0.0005476325047627874,
      "loss": 1.7406,
      "step": 17216
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3836667835712433,
      "learning_rate": 0.000547626604524395,
      "loss": 1.6862,
      "step": 17217
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3861343562602997,
      "learning_rate": 0.0005476207039854203,
      "loss": 1.7111,
      "step": 17218
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.377988338470459,
      "learning_rate": 0.0005476148031458705,
      "loss": 1.6259,
      "step": 17219
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38793447613716125,
      "learning_rate": 0.000547608902005753,
      "loss": 1.6661,
      "step": 17220
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37601348757743835,
      "learning_rate": 0.0005476030005650745,
      "loss": 1.6645,
      "step": 17221
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38628649711608887,
      "learning_rate": 0.0005475970988238427,
      "loss": 1.7261,
      "step": 17222
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39083021879196167,
      "learning_rate": 0.0005475911967820643,
      "loss": 1.7055,
      "step": 17223
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38986316323280334,
      "learning_rate": 0.0005475852944397468,
      "loss": 1.6949,
      "step": 17224
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3724556565284729,
      "learning_rate": 0.0005475793917968972,
      "loss": 1.6755,
      "step": 17225
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3735528886318207,
      "learning_rate": 0.0005475734888535226,
      "loss": 1.663,
      "step": 17226
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38480186462402344,
      "learning_rate": 0.0005475675856096304,
      "loss": 1.6705,
      "step": 17227
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38128748536109924,
      "learning_rate": 0.0005475616820652277,
      "loss": 1.6884,
      "step": 17228
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3653240203857422,
      "learning_rate": 0.0005475557782203214,
      "loss": 1.7345,
      "step": 17229
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.380109965801239,
      "learning_rate": 0.000547549874074919,
      "loss": 1.7028,
      "step": 17230
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37768569588661194,
      "learning_rate": 0.0005475439696290275,
      "loss": 1.6405,
      "step": 17231
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3917689621448517,
      "learning_rate": 0.000547538064882654,
      "loss": 1.7996,
      "step": 17232
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3804675340652466,
      "learning_rate": 0.0005475321598358058,
      "loss": 1.7196,
      "step": 17233
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3814306855201721,
      "learning_rate": 0.0005475262544884901,
      "loss": 1.698,
      "step": 17234
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37624067068099976,
      "learning_rate": 0.000547520348840714,
      "loss": 1.6992,
      "step": 17235
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3896029591560364,
      "learning_rate": 0.0005475144428924845,
      "loss": 1.6685,
      "step": 17236
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37103331089019775,
      "learning_rate": 0.0005475085366438092,
      "loss": 1.6406,
      "step": 17237
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3833054006099701,
      "learning_rate": 0.0005475026300946948,
      "loss": 1.6176,
      "step": 17238
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37624993920326233,
      "learning_rate": 0.0005474967232451488,
      "loss": 1.7165,
      "step": 17239
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4142899513244629,
      "learning_rate": 0.0005474908160951782,
      "loss": 1.6958,
      "step": 17240
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39291390776634216,
      "learning_rate": 0.0005474849086447902,
      "loss": 1.701,
      "step": 17241
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3814009428024292,
      "learning_rate": 0.0005474790008939919,
      "loss": 1.7272,
      "step": 17242
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4230457544326782,
      "learning_rate": 0.0005474730928427907,
      "loss": 1.7544,
      "step": 17243
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3970160484313965,
      "learning_rate": 0.0005474671844911935,
      "loss": 1.7311,
      "step": 17244
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3842979371547699,
      "learning_rate": 0.0005474612758392078,
      "loss": 1.7412,
      "step": 17245
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3881015479564667,
      "learning_rate": 0.0005474553668868403,
      "loss": 1.7707,
      "step": 17246
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.381661057472229,
      "learning_rate": 0.0005474494576340987,
      "loss": 1.6385,
      "step": 17247
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3826455771923065,
      "learning_rate": 0.0005474435480809899,
      "loss": 1.7772,
      "step": 17248
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5168710947036743,
      "learning_rate": 0.0005474376382275209,
      "loss": 1.7294,
      "step": 17249
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3878164291381836,
      "learning_rate": 0.0005474317280736991,
      "loss": 1.7235,
      "step": 17250
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38719797134399414,
      "learning_rate": 0.0005474258176195317,
      "loss": 1.607,
      "step": 17251
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3818381130695343,
      "learning_rate": 0.0005474199068650258,
      "loss": 1.6651,
      "step": 17252
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3848549723625183,
      "learning_rate": 0.0005474139958101887,
      "loss": 1.7334,
      "step": 17253
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.42330703139305115,
      "learning_rate": 0.0005474080844550274,
      "loss": 1.6863,
      "step": 17254
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3806794285774231,
      "learning_rate": 0.0005474021727995491,
      "loss": 1.7169,
      "step": 17255
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3770691156387329,
      "learning_rate": 0.000547396260843761,
      "loss": 1.7091,
      "step": 17256
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38206422328948975,
      "learning_rate": 0.0005473903485876703,
      "loss": 1.6939,
      "step": 17257
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3856845200061798,
      "learning_rate": 0.0005473844360312841,
      "loss": 1.7611,
      "step": 17258
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37549999356269836,
      "learning_rate": 0.0005473785231746098,
      "loss": 1.7246,
      "step": 17259
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38406214118003845,
      "learning_rate": 0.0005473726100176544,
      "loss": 1.7436,
      "step": 17260
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37542057037353516,
      "learning_rate": 0.000547366696560425,
      "loss": 1.7611,
      "step": 17261
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38174954056739807,
      "learning_rate": 0.0005473607828029289,
      "loss": 1.6503,
      "step": 17262
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37066736817359924,
      "learning_rate": 0.0005473548687451734,
      "loss": 1.6543,
      "step": 17263
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.394055038690567,
      "learning_rate": 0.0005473489543871653,
      "loss": 1.6893,
      "step": 17264
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38136711716651917,
      "learning_rate": 0.0005473430397289122,
      "loss": 1.6867,
      "step": 17265
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38253819942474365,
      "learning_rate": 0.000547337124770421,
      "loss": 1.6934,
      "step": 17266
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36465317010879517,
      "learning_rate": 0.000547331209511699,
      "loss": 1.7203,
      "step": 17267
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38888874650001526,
      "learning_rate": 0.0005473252939527534,
      "loss": 1.6881,
      "step": 17268
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.39551639556884766,
      "learning_rate": 0.0005473193780935914,
      "loss": 1.7542,
      "step": 17269
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3728233277797699,
      "learning_rate": 0.0005473134619342199,
      "loss": 1.7418,
      "step": 17270
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3667280972003937,
      "learning_rate": 0.0005473075454746465,
      "loss": 1.7032,
      "step": 17271
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.38441577553749084,
      "learning_rate": 0.000547301628714878,
      "loss": 1.7964,
      "step": 17272
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37366026639938354,
      "learning_rate": 0.0005472957116549219,
      "loss": 1.679,
      "step": 17273
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36436179280281067,
      "learning_rate": 0.0005472897942947852,
      "loss": 1.7149,
      "step": 17274
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3817480504512787,
      "learning_rate": 0.000547283876634475,
      "loss": 1.7223,
      "step": 17275
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.36759138107299805,
      "learning_rate": 0.0005472779586739988,
      "loss": 1.714,
      "step": 17276
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37105104327201843,
      "learning_rate": 0.0005472720404133635,
      "loss": 1.7273,
      "step": 17277
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37142351269721985,
      "learning_rate": 0.0005472661218525765,
      "loss": 1.683,
      "step": 17278
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37056538462638855,
      "learning_rate": 0.0005472602029916447,
      "loss": 1.5845,
      "step": 17279
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3841935694217682,
      "learning_rate": 0.0005472542838305754,
      "loss": 1.7028,
      "step": 17280
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3861088156700134,
      "learning_rate": 0.000547248364369376,
      "loss": 1.795,
      "step": 17281
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3873855471611023,
      "learning_rate": 0.0005472424446080535,
      "loss": 1.7199,
      "step": 17282
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38375070691108704,
      "learning_rate": 0.000547236524546615,
      "loss": 1.7376,
      "step": 17283
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3889907896518707,
      "learning_rate": 0.0005472306041850679,
      "loss": 1.7449,
      "step": 17284
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38342997431755066,
      "learning_rate": 0.0005472246835234192,
      "loss": 1.6787,
      "step": 17285
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5776455402374268,
      "learning_rate": 0.0005472187625616762,
      "loss": 1.677,
      "step": 17286
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3937501609325409,
      "learning_rate": 0.000547212841299846,
      "loss": 1.6903,
      "step": 17287
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4077068269252777,
      "learning_rate": 0.0005472069197379358,
      "loss": 1.7004,
      "step": 17288
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39086946845054626,
      "learning_rate": 0.000547200997875953,
      "loss": 1.7651,
      "step": 17289
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3814862072467804,
      "learning_rate": 0.0005471950757139044,
      "loss": 1.6944,
      "step": 17290
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.405828058719635,
      "learning_rate": 0.0005471891532517974,
      "loss": 1.749,
      "step": 17291
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38474366068840027,
      "learning_rate": 0.0005471832304896394,
      "loss": 1.6834,
      "step": 17292
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3896280825138092,
      "learning_rate": 0.0005471773074274373,
      "loss": 1.7314,
      "step": 17293
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37267863750457764,
      "learning_rate": 0.0005471713840651983,
      "loss": 1.6699,
      "step": 17294
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3832244873046875,
      "learning_rate": 0.0005471654604029297,
      "loss": 1.6548,
      "step": 17295
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3844558000564575,
      "learning_rate": 0.0005471595364406386,
      "loss": 1.7094,
      "step": 17296
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3761604428291321,
      "learning_rate": 0.0005471536121783323,
      "loss": 1.7178,
      "step": 17297
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3790064752101898,
      "learning_rate": 0.0005471476876160179,
      "loss": 1.7387,
      "step": 17298
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3758871853351593,
      "learning_rate": 0.0005471417627537027,
      "loss": 1.6999,
      "step": 17299
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36887791752815247,
      "learning_rate": 0.0005471358375913937,
      "loss": 1.7016,
      "step": 17300
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3720325231552124,
      "learning_rate": 0.0005471299121290982,
      "loss": 1.7205,
      "step": 17301
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3990274667739868,
      "learning_rate": 0.0005471239863668235,
      "loss": 1.7288,
      "step": 17302
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.7698434591293335,
      "learning_rate": 0.0005471180603045767,
      "loss": 1.7299,
      "step": 17303
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37452372908592224,
      "learning_rate": 0.0005471121339423649,
      "loss": 1.687,
      "step": 17304
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4068380892276764,
      "learning_rate": 0.0005471062072801954,
      "loss": 1.729,
      "step": 17305
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3747495710849762,
      "learning_rate": 0.0005471002803180753,
      "loss": 1.6881,
      "step": 17306
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.374956876039505,
      "learning_rate": 0.0005470943530560121,
      "loss": 1.7858,
      "step": 17307
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37593451142311096,
      "learning_rate": 0.0005470884254940126,
      "loss": 1.6581,
      "step": 17308
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3812115788459778,
      "learning_rate": 0.0005470824976320841,
      "loss": 1.7232,
      "step": 17309
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3710283041000366,
      "learning_rate": 0.000547076569470234,
      "loss": 1.7011,
      "step": 17310
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3756106197834015,
      "learning_rate": 0.0005470706410084693,
      "loss": 1.656,
      "step": 17311
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3670196235179901,
      "learning_rate": 0.0005470647122467971,
      "loss": 1.7503,
      "step": 17312
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3602602481842041,
      "learning_rate": 0.000547058783185225,
      "loss": 1.6671,
      "step": 17313
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37946632504463196,
      "learning_rate": 0.0005470528538237597,
      "loss": 1.7487,
      "step": 17314
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3675342798233032,
      "learning_rate": 0.0005470469241624089,
      "loss": 1.6858,
      "step": 17315
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3683681786060333,
      "learning_rate": 0.0005470409942011793,
      "loss": 1.7559,
      "step": 17316
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3768455684185028,
      "learning_rate": 0.0005470350639400784,
      "loss": 1.6956,
      "step": 17317
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38174742460250854,
      "learning_rate": 0.0005470291333791133,
      "loss": 1.7453,
      "step": 17318
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3796866536140442,
      "learning_rate": 0.0005470232025182913,
      "loss": 1.7132,
      "step": 17319
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38407814502716064,
      "learning_rate": 0.0005470172713576194,
      "loss": 1.727,
      "step": 17320
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3850267827510834,
      "learning_rate": 0.0005470113398971052,
      "loss": 1.7059,
      "step": 17321
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3709886372089386,
      "learning_rate": 0.0005470054081367554,
      "loss": 1.6917,
      "step": 17322
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3729981482028961,
      "learning_rate": 0.0005469994760765775,
      "loss": 1.7139,
      "step": 17323
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38375192880630493,
      "learning_rate": 0.0005469935437165786,
      "loss": 1.7565,
      "step": 17324
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3776066303253174,
      "learning_rate": 0.0005469876110567659,
      "loss": 1.7133,
      "step": 17325
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3822934329509735,
      "learning_rate": 0.0005469816780971468,
      "loss": 1.7482,
      "step": 17326
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3743206262588501,
      "learning_rate": 0.0005469757448377282,
      "loss": 1.6557,
      "step": 17327
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.380032479763031,
      "learning_rate": 0.0005469698112785175,
      "loss": 1.7175,
      "step": 17328
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3917281925678253,
      "learning_rate": 0.0005469638774195216,
      "loss": 1.7541,
      "step": 17329
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3753499984741211,
      "learning_rate": 0.0005469579432607482,
      "loss": 1.7291,
      "step": 17330
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3619992136955261,
      "learning_rate": 0.0005469520088022042,
      "loss": 1.6353,
      "step": 17331
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3961186707019806,
      "learning_rate": 0.0005469460740438969,
      "loss": 1.7424,
      "step": 17332
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3726613223552704,
      "learning_rate": 0.0005469401389858334,
      "loss": 1.728,
      "step": 17333
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39240655303001404,
      "learning_rate": 0.0005469342036280209,
      "loss": 1.7092,
      "step": 17334
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38601598143577576,
      "learning_rate": 0.0005469282679704666,
      "loss": 1.7738,
      "step": 17335
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3842712640762329,
      "learning_rate": 0.0005469223320131779,
      "loss": 1.7184,
      "step": 17336
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38405123353004456,
      "learning_rate": 0.0005469163957561618,
      "loss": 1.7398,
      "step": 17337
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3776845932006836,
      "learning_rate": 0.0005469104591994256,
      "loss": 1.7247,
      "step": 17338
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.389957070350647,
      "learning_rate": 0.0005469045223429765,
      "loss": 1.7587,
      "step": 17339
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37785932421684265,
      "learning_rate": 0.0005468985851868217,
      "loss": 1.7534,
      "step": 17340
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3917461037635803,
      "learning_rate": 0.0005468926477309684,
      "loss": 1.761,
      "step": 17341
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3705950081348419,
      "learning_rate": 0.0005468867099754237,
      "loss": 1.7964,
      "step": 17342
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3813529312610626,
      "learning_rate": 0.000546880771920195,
      "loss": 1.7884,
      "step": 17343
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38152849674224854,
      "learning_rate": 0.0005468748335652895,
      "loss": 1.7349,
      "step": 17344
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37562593817710876,
      "learning_rate": 0.0005468688949107142,
      "loss": 1.691,
      "step": 17345
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37982484698295593,
      "learning_rate": 0.0005468629559564765,
      "loss": 1.771,
      "step": 17346
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36649253964424133,
      "learning_rate": 0.0005468570167025835,
      "loss": 1.6617,
      "step": 17347
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3953090310096741,
      "learning_rate": 0.0005468510771490425,
      "loss": 1.8043,
      "step": 17348
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3792068362236023,
      "learning_rate": 0.0005468451372958607,
      "loss": 1.7559,
      "step": 17349
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3688907027244568,
      "learning_rate": 0.0005468391971430452,
      "loss": 1.713,
      "step": 17350
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.367977112531662,
      "learning_rate": 0.0005468332566906032,
      "loss": 1.7035,
      "step": 17351
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38037368655204773,
      "learning_rate": 0.0005468273159385421,
      "loss": 1.6873,
      "step": 17352
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39022427797317505,
      "learning_rate": 0.000546821374886869,
      "loss": 1.7388,
      "step": 17353
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38120749592781067,
      "learning_rate": 0.0005468154335355911,
      "loss": 1.7454,
      "step": 17354
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38563209772109985,
      "learning_rate": 0.0005468094918847157,
      "loss": 1.7854,
      "step": 17355
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38220301270484924,
      "learning_rate": 0.0005468035499342498,
      "loss": 1.8041,
      "step": 17356
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37087738513946533,
      "learning_rate": 0.0005467976076842009,
      "loss": 1.7469,
      "step": 17357
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.374309241771698,
      "learning_rate": 0.0005467916651345759,
      "loss": 1.7542,
      "step": 17358
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3938336670398712,
      "learning_rate": 0.0005467857222853824,
      "loss": 1.6783,
      "step": 17359
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3912956118583679,
      "learning_rate": 0.0005467797791366273,
      "loss": 1.7799,
      "step": 17360
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3799706697463989,
      "learning_rate": 0.0005467738356883179,
      "loss": 1.7825,
      "step": 17361
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.371861070394516,
      "learning_rate": 0.0005467678919404615,
      "loss": 1.731,
      "step": 17362
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3739517629146576,
      "learning_rate": 0.000546761947893065,
      "loss": 1.74,
      "step": 17363
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39623573422431946,
      "learning_rate": 0.0005467560035461361,
      "loss": 1.7597,
      "step": 17364
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3897785246372223,
      "learning_rate": 0.0005467500588996817,
      "loss": 1.749,
      "step": 17365
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3808765113353729,
      "learning_rate": 0.000546744113953709,
      "loss": 1.6838,
      "step": 17366
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3882712125778198,
      "learning_rate": 0.0005467381687082254,
      "loss": 1.7361,
      "step": 17367
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3938925564289093,
      "learning_rate": 0.000546732223163238,
      "loss": 1.7239,
      "step": 17368
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39873623847961426,
      "learning_rate": 0.000546726277318754,
      "loss": 1.7192,
      "step": 17369
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38690266013145447,
      "learning_rate": 0.0005467203311747807,
      "loss": 1.7534,
      "step": 17370
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39069926738739014,
      "learning_rate": 0.0005467143847313253,
      "loss": 1.6642,
      "step": 17371
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3939202129840851,
      "learning_rate": 0.0005467084379883949,
      "loss": 1.6596,
      "step": 17372
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37246015667915344,
      "learning_rate": 0.0005467024909459968,
      "loss": 1.6681,
      "step": 17373
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3761870861053467,
      "learning_rate": 0.0005466965436041383,
      "loss": 1.7064,
      "step": 17374
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3806721568107605,
      "learning_rate": 0.0005466905959628265,
      "loss": 1.7398,
      "step": 17375
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3893650770187378,
      "learning_rate": 0.0005466846480220687,
      "loss": 1.7444,
      "step": 17376
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38174256682395935,
      "learning_rate": 0.0005466786997818721,
      "loss": 1.7077,
      "step": 17377
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3680708110332489,
      "learning_rate": 0.0005466727512422439,
      "loss": 1.6796,
      "step": 17378
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3673529028892517,
      "learning_rate": 0.0005466668024031912,
      "loss": 1.6641,
      "step": 17379
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3878157138824463,
      "learning_rate": 0.0005466608532647215,
      "loss": 1.7909,
      "step": 17380
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38601386547088623,
      "learning_rate": 0.0005466549038268419,
      "loss": 1.7281,
      "step": 17381
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36493441462516785,
      "learning_rate": 0.0005466489540895594,
      "loss": 1.6696,
      "step": 17382
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3705116808414459,
      "learning_rate": 0.0005466430040528815,
      "loss": 1.713,
      "step": 17383
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3676615357398987,
      "learning_rate": 0.0005466370537168154,
      "loss": 1.7136,
      "step": 17384
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37976837158203125,
      "learning_rate": 0.0005466311030813681,
      "loss": 1.6529,
      "step": 17385
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3714377284049988,
      "learning_rate": 0.0005466251521465471,
      "loss": 1.7447,
      "step": 17386
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3730871081352234,
      "learning_rate": 0.0005466192009123595,
      "loss": 1.6635,
      "step": 17387
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3785446584224701,
      "learning_rate": 0.0005466132493788126,
      "loss": 1.6887,
      "step": 17388
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.457499235868454,
      "learning_rate": 0.0005466072975459134,
      "loss": 1.7351,
      "step": 17389
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37618938088417053,
      "learning_rate": 0.0005466013454136694,
      "loss": 1.6292,
      "step": 17390
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38071519136428833,
      "learning_rate": 0.0005465953929820876,
      "loss": 1.6894,
      "step": 17391
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36500126123428345,
      "learning_rate": 0.0005465894402511754,
      "loss": 1.6286,
      "step": 17392
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3750521242618561,
      "learning_rate": 0.0005465834872209398,
      "loss": 1.6811,
      "step": 17393
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3754303753376007,
      "learning_rate": 0.0005465775338913884,
      "loss": 1.7914,
      "step": 17394
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3740220069885254,
      "learning_rate": 0.0005465715802625281,
      "loss": 1.7065,
      "step": 17395
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37742751836776733,
      "learning_rate": 0.0005465656263343663,
      "loss": 1.7,
      "step": 17396
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3729790151119232,
      "learning_rate": 0.00054655967210691,
      "loss": 1.7183,
      "step": 17397
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3795463442802429,
      "learning_rate": 0.0005465537175801667,
      "loss": 1.7049,
      "step": 17398
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38303181529045105,
      "learning_rate": 0.0005465477627541435,
      "loss": 1.6871,
      "step": 17399
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36757805943489075,
      "learning_rate": 0.0005465418076288477,
      "loss": 1.7121,
      "step": 17400
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3852577209472656,
      "learning_rate": 0.0005465358522042864,
      "loss": 1.705,
      "step": 17401
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38770103454589844,
      "learning_rate": 0.0005465298964804669,
      "loss": 1.7238,
      "step": 17402
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3771485388278961,
      "learning_rate": 0.0005465239404573965,
      "loss": 1.6715,
      "step": 17403
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38286328315734863,
      "learning_rate": 0.0005465179841350823,
      "loss": 1.67,
      "step": 17404
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4014148712158203,
      "learning_rate": 0.0005465120275135316,
      "loss": 1.7241,
      "step": 17405
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3902437686920166,
      "learning_rate": 0.0005465060705927516,
      "loss": 1.6932,
      "step": 17406
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37747713923454285,
      "learning_rate": 0.0005465001133727496,
      "loss": 1.6302,
      "step": 17407
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37827813625335693,
      "learning_rate": 0.0005464941558535327,
      "loss": 1.6711,
      "step": 17408
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3818511366844177,
      "learning_rate": 0.0005464881980351083,
      "loss": 1.713,
      "step": 17409
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38995862007141113,
      "learning_rate": 0.0005464822399174835,
      "loss": 1.6699,
      "step": 17410
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37245386838912964,
      "learning_rate": 0.0005464762815006655,
      "loss": 1.7439,
      "step": 17411
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3716592490673065,
      "learning_rate": 0.0005464703227846618,
      "loss": 1.7644,
      "step": 17412
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3739827573299408,
      "learning_rate": 0.0005464643637694794,
      "loss": 1.7221,
      "step": 17413
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36610764265060425,
      "learning_rate": 0.0005464584044551254,
      "loss": 1.7959,
      "step": 17414
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37328997254371643,
      "learning_rate": 0.0005464524448416073,
      "loss": 1.6986,
      "step": 17415
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37426090240478516,
      "learning_rate": 0.0005464464849289324,
      "loss": 1.7049,
      "step": 17416
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3710603713989258,
      "learning_rate": 0.0005464405247171076,
      "loss": 1.6723,
      "step": 17417
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3724084496498108,
      "learning_rate": 0.0005464345642061404,
      "loss": 1.7407,
      "step": 17418
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3915298581123352,
      "learning_rate": 0.0005464286033960378,
      "loss": 1.6877,
      "step": 17419
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3919728100299835,
      "learning_rate": 0.0005464226422868074,
      "loss": 1.6695,
      "step": 17420
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3837852478027344,
      "learning_rate": 0.0005464166808784561,
      "loss": 1.7542,
      "step": 17421
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3758494257926941,
      "learning_rate": 0.0005464107191709913,
      "loss": 1.7174,
      "step": 17422
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3774859309196472,
      "learning_rate": 0.0005464047571644201,
      "loss": 1.6224,
      "step": 17423
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37629079818725586,
      "learning_rate": 0.00054639879485875,
      "loss": 1.7342,
      "step": 17424
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3804689943790436,
      "learning_rate": 0.000546392832253988,
      "loss": 1.7034,
      "step": 17425
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3807070255279541,
      "learning_rate": 0.0005463868693501414,
      "loss": 1.7398,
      "step": 17426
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3915784955024719,
      "learning_rate": 0.0005463809061472174,
      "loss": 1.7852,
      "step": 17427
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38061198592185974,
      "learning_rate": 0.0005463749426452234,
      "loss": 1.6861,
      "step": 17428
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39681464433670044,
      "learning_rate": 0.0005463689788441663,
      "loss": 1.7223,
      "step": 17429
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36463892459869385,
      "learning_rate": 0.0005463630147440538,
      "loss": 1.6869,
      "step": 17430
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40358883142471313,
      "learning_rate": 0.0005463570503448927,
      "loss": 1.6815,
      "step": 17431
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3862530291080475,
      "learning_rate": 0.0005463510856466905,
      "loss": 1.7287,
      "step": 17432
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3675018548965454,
      "learning_rate": 0.0005463451206494545,
      "loss": 1.6897,
      "step": 17433
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3865276277065277,
      "learning_rate": 0.0005463391553531916,
      "loss": 1.7157,
      "step": 17434
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3749232292175293,
      "learning_rate": 0.0005463331897579094,
      "loss": 1.6653,
      "step": 17435
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3806564509868622,
      "learning_rate": 0.0005463272238636151,
      "loss": 1.6349,
      "step": 17436
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3831647038459778,
      "learning_rate": 0.0005463212576703158,
      "loss": 1.6701,
      "step": 17437
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3906610608100891,
      "learning_rate": 0.0005463152911780186,
      "loss": 1.7211,
      "step": 17438
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3823620080947876,
      "learning_rate": 0.0005463093243867312,
      "loss": 1.7216,
      "step": 17439
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3914772570133209,
      "learning_rate": 0.0005463033572964603,
      "loss": 1.7275,
      "step": 17440
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3886488676071167,
      "learning_rate": 0.0005462973899072136,
      "loss": 1.7493,
      "step": 17441
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3874058127403259,
      "learning_rate": 0.0005462914222189981,
      "loss": 1.7054,
      "step": 17442
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3783937692642212,
      "learning_rate": 0.0005462854542318211,
      "loss": 1.7336,
      "step": 17443
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3837135136127472,
      "learning_rate": 0.0005462794859456898,
      "loss": 1.6599,
      "step": 17444
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40431028604507446,
      "learning_rate": 0.0005462735173606116,
      "loss": 1.8069,
      "step": 17445
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39582639932632446,
      "learning_rate": 0.0005462675484765935,
      "loss": 1.7017,
      "step": 17446
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38470011949539185,
      "learning_rate": 0.000546261579293643,
      "loss": 1.7143,
      "step": 17447
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38607773184776306,
      "learning_rate": 0.0005462556098117672,
      "loss": 1.7017,
      "step": 17448
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3796016275882721,
      "learning_rate": 0.0005462496400309734,
      "loss": 1.6835,
      "step": 17449
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38935473561286926,
      "learning_rate": 0.0005462436699512688,
      "loss": 1.7719,
      "step": 17450
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38918182253837585,
      "learning_rate": 0.0005462376995726606,
      "loss": 1.714,
      "step": 17451
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37214359641075134,
      "learning_rate": 0.0005462317288951561,
      "loss": 1.6861,
      "step": 17452
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38129329681396484,
      "learning_rate": 0.0005462257579187627,
      "loss": 1.7117,
      "step": 17453
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.383740097284317,
      "learning_rate": 0.0005462197866434875,
      "loss": 1.7045,
      "step": 17454
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37647637724876404,
      "learning_rate": 0.0005462138150693377,
      "loss": 1.7356,
      "step": 17455
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37566742300987244,
      "learning_rate": 0.0005462078431963205,
      "loss": 1.6519,
      "step": 17456
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3900298476219177,
      "learning_rate": 0.0005462018710244434,
      "loss": 1.6455,
      "step": 17457
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38125452399253845,
      "learning_rate": 0.0005461958985537135,
      "loss": 1.724,
      "step": 17458
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3801617920398712,
      "learning_rate": 0.0005461899257841379,
      "loss": 1.6591,
      "step": 17459
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3814448118209839,
      "learning_rate": 0.0005461839527157242,
      "loss": 1.732,
      "step": 17460
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37771177291870117,
      "learning_rate": 0.0005461779793484794,
      "loss": 1.707,
      "step": 17461
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3999019265174866,
      "learning_rate": 0.0005461720056824107,
      "loss": 1.6777,
      "step": 17462
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4024430811405182,
      "learning_rate": 0.0005461660317175256,
      "loss": 1.8253,
      "step": 17463
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3726156949996948,
      "learning_rate": 0.0005461600574538312,
      "loss": 1.7268,
      "step": 17464
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40134087204933167,
      "learning_rate": 0.0005461540828913347,
      "loss": 1.6807,
      "step": 17465
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4075462818145752,
      "learning_rate": 0.0005461481080300433,
      "loss": 1.6844,
      "step": 17466
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.378064900636673,
      "learning_rate": 0.0005461421328699646,
      "loss": 1.7314,
      "step": 17467
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3743361830711365,
      "learning_rate": 0.0005461361574111054,
      "loss": 1.7289,
      "step": 17468
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3751566410064697,
      "learning_rate": 0.0005461301816534733,
      "loss": 1.6693,
      "step": 17469
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37948861718177795,
      "learning_rate": 0.0005461242055970754,
      "loss": 1.7254,
      "step": 17470
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37276795506477356,
      "learning_rate": 0.000546118229241919,
      "loss": 1.6608,
      "step": 17471
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3855080008506775,
      "learning_rate": 0.0005461122525880115,
      "loss": 1.6281,
      "step": 17472
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38180506229400635,
      "learning_rate": 0.0005461062756353597,
      "loss": 1.7002,
      "step": 17473
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39486587047576904,
      "learning_rate": 0.0005461002983839712,
      "loss": 1.7137,
      "step": 17474
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3813442289829254,
      "learning_rate": 0.0005460943208338532,
      "loss": 1.7469,
      "step": 17475
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3799637258052826,
      "learning_rate": 0.000546088342985013,
      "loss": 1.7196,
      "step": 17476
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38538050651550293,
      "learning_rate": 0.0005460823648374579,
      "loss": 1.762,
      "step": 17477
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3816191554069519,
      "learning_rate": 0.0005460763863911949,
      "loss": 1.678,
      "step": 17478
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3912222683429718,
      "learning_rate": 0.0005460704076462315,
      "loss": 1.7215,
      "step": 17479
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38267484307289124,
      "learning_rate": 0.000546064428602575,
      "loss": 1.7686,
      "step": 17480
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39068838953971863,
      "learning_rate": 0.0005460584492602324,
      "loss": 1.765,
      "step": 17481
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3782760202884674,
      "learning_rate": 0.0005460524696192111,
      "loss": 1.6074,
      "step": 17482
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38424402475357056,
      "learning_rate": 0.0005460464896795183,
      "loss": 1.726,
      "step": 17483
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3882710635662079,
      "learning_rate": 0.0005460405094411614,
      "loss": 1.7856,
      "step": 17484
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39522430300712585,
      "learning_rate": 0.0005460345289041475,
      "loss": 1.6836,
      "step": 17485
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3697800934314728,
      "learning_rate": 0.0005460285480684841,
      "loss": 1.6383,
      "step": 17486
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3692331910133362,
      "learning_rate": 0.0005460225669341782,
      "loss": 1.6681,
      "step": 17487
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37253835797309875,
      "learning_rate": 0.0005460165855012371,
      "loss": 1.712,
      "step": 17488
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3956350088119507,
      "learning_rate": 0.0005460106037696681,
      "loss": 1.7069,
      "step": 17489
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3937738537788391,
      "learning_rate": 0.0005460046217394786,
      "loss": 1.6482,
      "step": 17490
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3807353675365448,
      "learning_rate": 0.0005459986394106757,
      "loss": 1.7432,
      "step": 17491
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.35817939043045044,
      "learning_rate": 0.0005459926567832667,
      "loss": 1.6716,
      "step": 17492
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3793220520019531,
      "learning_rate": 0.0005459866738572588,
      "loss": 1.7293,
      "step": 17493
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3886650800704956,
      "learning_rate": 0.0005459806906326593,
      "loss": 1.6697,
      "step": 17494
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37146061658859253,
      "learning_rate": 0.0005459747071094755,
      "loss": 1.587,
      "step": 17495
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37303146719932556,
      "learning_rate": 0.0005459687232877147,
      "loss": 1.6853,
      "step": 17496
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3856906294822693,
      "learning_rate": 0.0005459627391673842,
      "loss": 1.6906,
      "step": 17497
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37659069895744324,
      "learning_rate": 0.000545956754748491,
      "loss": 1.6274,
      "step": 17498
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37125837802886963,
      "learning_rate": 0.0005459507700310426,
      "loss": 1.7076,
      "step": 17499
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36770179867744446,
      "learning_rate": 0.0005459447850150463,
      "loss": 1.6776,
      "step": 17500
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37817808985710144,
      "learning_rate": 0.0005459387997005091,
      "loss": 1.6948,
      "step": 17501
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3750675916671753,
      "learning_rate": 0.0005459328140874385,
      "loss": 1.746,
      "step": 17502
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3711339831352234,
      "learning_rate": 0.0005459268281758417,
      "loss": 1.7003,
      "step": 17503
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3937646448612213,
      "learning_rate": 0.0005459208419657261,
      "loss": 1.7067,
      "step": 17504
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38345867395401,
      "learning_rate": 0.0005459148554570986,
      "loss": 1.7747,
      "step": 17505
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38068294525146484,
      "learning_rate": 0.0005459088686499668,
      "loss": 1.7123,
      "step": 17506
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3848560154438019,
      "learning_rate": 0.000545902881544338,
      "loss": 1.7319,
      "step": 17507
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3931756317615509,
      "learning_rate": 0.0005458968941402193,
      "loss": 1.7013,
      "step": 17508
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3883554935455322,
      "learning_rate": 0.0005458909064376177,
      "loss": 1.7289,
      "step": 17509
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.417998343706131,
      "learning_rate": 0.0005458849184365411,
      "loss": 1.7345,
      "step": 17510
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37742605805397034,
      "learning_rate": 0.0005458789301369964,
      "loss": 1.7733,
      "step": 17511
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38086873292922974,
      "learning_rate": 0.0005458729415389907,
      "loss": 1.7157,
      "step": 17512
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3810294270515442,
      "learning_rate": 0.0005458669526425317,
      "loss": 1.6958,
      "step": 17513
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3719969689846039,
      "learning_rate": 0.0005458609634476264,
      "loss": 1.7117,
      "step": 17514
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3669208586215973,
      "learning_rate": 0.000545854973954282,
      "loss": 1.6196,
      "step": 17515
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37507641315460205,
      "learning_rate": 0.000545848984162506,
      "loss": 1.6492,
      "step": 17516
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37201499938964844,
      "learning_rate": 0.0005458429940723054,
      "loss": 1.7,
      "step": 17517
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3893543779850006,
      "learning_rate": 0.0005458370036836878,
      "loss": 1.8219,
      "step": 17518
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3830314576625824,
      "learning_rate": 0.0005458310129966603,
      "loss": 1.6515,
      "step": 17519
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3802708089351654,
      "learning_rate": 0.0005458250220112301,
      "loss": 1.7096,
      "step": 17520
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3904094696044922,
      "learning_rate": 0.0005458190307274046,
      "loss": 1.7352,
      "step": 17521
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38975316286087036,
      "learning_rate": 0.0005458130391451909,
      "loss": 1.7518,
      "step": 17522
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.36975374817848206,
      "learning_rate": 0.0005458070472645965,
      "loss": 1.6015,
      "step": 17523
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3726300299167633,
      "learning_rate": 0.0005458010550856285,
      "loss": 1.6251,
      "step": 17524
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3769565224647522,
      "learning_rate": 0.0005457950626082943,
      "loss": 1.7006,
      "step": 17525
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37755781412124634,
      "learning_rate": 0.000545789069832601,
      "loss": 1.6745,
      "step": 17526
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38183847069740295,
      "learning_rate": 0.0005457830767585561,
      "loss": 1.7343,
      "step": 17527
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.382366806268692,
      "learning_rate": 0.0005457770833861668,
      "loss": 1.7063,
      "step": 17528
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3738557994365692,
      "learning_rate": 0.0005457710897154402,
      "loss": 1.6736,
      "step": 17529
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3908403515815735,
      "learning_rate": 0.0005457650957463838,
      "loss": 1.7644,
      "step": 17530
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37863633036613464,
      "learning_rate": 0.0005457591014790047,
      "loss": 1.748,
      "step": 17531
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3720780909061432,
      "learning_rate": 0.0005457531069133104,
      "loss": 1.6557,
      "step": 17532
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37631651759147644,
      "learning_rate": 0.0005457471120493078,
      "loss": 1.7523,
      "step": 17533
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3873673677444458,
      "learning_rate": 0.0005457411168870047,
      "loss": 1.7143,
      "step": 17534
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3802366256713867,
      "learning_rate": 0.0005457351214264079,
      "loss": 1.5864,
      "step": 17535
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3673677146434784,
      "learning_rate": 0.0005457291256675249,
      "loss": 1.6287,
      "step": 17536
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3898988664150238,
      "learning_rate": 0.000545723129610363,
      "loss": 1.784,
      "step": 17537
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.41649550199508667,
      "learning_rate": 0.0005457171332549294,
      "loss": 1.7198,
      "step": 17538
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38423702120780945,
      "learning_rate": 0.0005457111366012314,
      "loss": 1.7139,
      "step": 17539
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3811812400817871,
      "learning_rate": 0.0005457051396492764,
      "loss": 1.7134,
      "step": 17540
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37669578194618225,
      "learning_rate": 0.0005456991423990715,
      "loss": 1.7112,
      "step": 17541
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38919293880462646,
      "learning_rate": 0.0005456931448506239,
      "loss": 1.7205,
      "step": 17542
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37012380361557007,
      "learning_rate": 0.0005456871470039411,
      "loss": 1.6888,
      "step": 17543
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3760392963886261,
      "learning_rate": 0.0005456811488590304,
      "loss": 1.6899,
      "step": 17544
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3657534718513489,
      "learning_rate": 0.0005456751504158988,
      "loss": 1.6354,
      "step": 17545
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38999900221824646,
      "learning_rate": 0.0005456691516745538,
      "loss": 1.7469,
      "step": 17546
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3793703317642212,
      "learning_rate": 0.0005456631526350029,
      "loss": 1.7275,
      "step": 17547
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38835054636001587,
      "learning_rate": 0.0005456571532972529,
      "loss": 1.7092,
      "step": 17548
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3713313639163971,
      "learning_rate": 0.0005456511536613113,
      "loss": 1.6899,
      "step": 17549
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39909467101097107,
      "learning_rate": 0.0005456451537271855,
      "loss": 1.7363,
      "step": 17550
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.39872977137565613,
      "learning_rate": 0.0005456391534948826,
      "loss": 1.7188,
      "step": 17551
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38855937123298645,
      "learning_rate": 0.00054563315296441,
      "loss": 1.7231,
      "step": 17552
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3863597810268402,
      "learning_rate": 0.0005456271521357749,
      "loss": 1.6937,
      "step": 17553
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3996534049510956,
      "learning_rate": 0.0005456211510089848,
      "loss": 1.6918,
      "step": 17554
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37871038913726807,
      "learning_rate": 0.0005456151495840467,
      "loss": 1.7178,
      "step": 17555
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38053572177886963,
      "learning_rate": 0.0005456091478609679,
      "loss": 1.7073,
      "step": 17556
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3779856264591217,
      "learning_rate": 0.0005456031458397558,
      "loss": 1.7789,
      "step": 17557
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3875565826892853,
      "learning_rate": 0.0005455971435204178,
      "loss": 1.6867,
      "step": 17558
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37840163707733154,
      "learning_rate": 0.000545591140902961,
      "loss": 1.7718,
      "step": 17559
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37528330087661743,
      "learning_rate": 0.0005455851379873927,
      "loss": 1.6933,
      "step": 17560
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37816253304481506,
      "learning_rate": 0.0005455791347737202,
      "loss": 1.678,
      "step": 17561
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38625311851501465,
      "learning_rate": 0.0005455731312619509,
      "loss": 1.7421,
      "step": 17562
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3765298128128052,
      "learning_rate": 0.000545567127452092,
      "loss": 1.6834,
      "step": 17563
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3751746118068695,
      "learning_rate": 0.0005455611233441508,
      "loss": 1.6955,
      "step": 17564
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3762173354625702,
      "learning_rate": 0.0005455551189381345,
      "loss": 1.7704,
      "step": 17565
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37627488374710083,
      "learning_rate": 0.0005455491142340505,
      "loss": 1.7367,
      "step": 17566
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38427433371543884,
      "learning_rate": 0.0005455431092319061,
      "loss": 1.7493,
      "step": 17567
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3913061320781708,
      "learning_rate": 0.0005455371039317085,
      "loss": 1.6462,
      "step": 17568
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3765169680118561,
      "learning_rate": 0.0005455310983334651,
      "loss": 1.6956,
      "step": 17569
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38003554940223694,
      "learning_rate": 0.0005455250924371831,
      "loss": 1.7008,
      "step": 17570
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3803090453147888,
      "learning_rate": 0.0005455190862428697,
      "loss": 1.6776,
      "step": 17571
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3950200080871582,
      "learning_rate": 0.0005455130797505323,
      "loss": 1.7153,
      "step": 17572
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3820807635784149,
      "learning_rate": 0.0005455070729601784,
      "loss": 1.7463,
      "step": 17573
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37989184260368347,
      "learning_rate": 0.0005455010658718149,
      "loss": 1.5748,
      "step": 17574
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40960997343063354,
      "learning_rate": 0.0005454950584854493,
      "loss": 1.7109,
      "step": 17575
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.41678643226623535,
      "learning_rate": 0.0005454890508010889,
      "loss": 1.6439,
      "step": 17576
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38453760743141174,
      "learning_rate": 0.0005454830428187411,
      "loss": 1.7082,
      "step": 17577
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3957090973854065,
      "learning_rate": 0.000545477034538413,
      "loss": 1.7305,
      "step": 17578
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.41282954812049866,
      "learning_rate": 0.0005454710259601118,
      "loss": 1.7574,
      "step": 17579
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3919437527656555,
      "learning_rate": 0.000545465017083845,
      "loss": 1.6309,
      "step": 17580
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.38530272245407104,
      "learning_rate": 0.0005454590079096199,
      "loss": 1.7494,
      "step": 17581
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3855966329574585,
      "learning_rate": 0.0005454529984374437,
      "loss": 1.7428,
      "step": 17582
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.40009480714797974,
      "learning_rate": 0.0005454469886673238,
      "loss": 1.6806,
      "step": 17583
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3892993628978729,
      "learning_rate": 0.0005454409785992673,
      "loss": 1.7102,
      "step": 17584
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3735654056072235,
      "learning_rate": 0.0005454349682332817,
      "loss": 1.6943,
      "step": 17585
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38614752888679504,
      "learning_rate": 0.0005454289575693741,
      "loss": 1.6548,
      "step": 17586
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3853905498981476,
      "learning_rate": 0.0005454229466075519,
      "loss": 1.7406,
      "step": 17587
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3832675516605377,
      "learning_rate": 0.0005454169353478226,
      "loss": 1.72,
      "step": 17588
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3919830620288849,
      "learning_rate": 0.0005454109237901932,
      "loss": 1.7672,
      "step": 17589
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38230976462364197,
      "learning_rate": 0.000545404911934671,
      "loss": 1.7754,
      "step": 17590
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3686159551143646,
      "learning_rate": 0.0005453988997812635,
      "loss": 1.6902,
      "step": 17591
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3661075532436371,
      "learning_rate": 0.0005453928873299778,
      "loss": 1.7139,
      "step": 17592
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38070616126060486,
      "learning_rate": 0.0005453868745808215,
      "loss": 1.7026,
      "step": 17593
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3925442397594452,
      "learning_rate": 0.0005453808615338015,
      "loss": 1.7287,
      "step": 17594
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37300968170166016,
      "learning_rate": 0.0005453748481889254,
      "loss": 1.6446,
      "step": 17595
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38229265809059143,
      "learning_rate": 0.0005453688345462003,
      "loss": 1.6512,
      "step": 17596
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36618560552597046,
      "learning_rate": 0.0005453628206056337,
      "loss": 1.7023,
      "step": 17597
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3685016632080078,
      "learning_rate": 0.0005453568063672326,
      "loss": 1.7783,
      "step": 17598
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39553987979888916,
      "learning_rate": 0.0005453507918310046,
      "loss": 1.6996,
      "step": 17599
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3865618407726288,
      "learning_rate": 0.0005453447769969569,
      "loss": 1.6398,
      "step": 17600
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3742641508579254,
      "learning_rate": 0.0005453387618650968,
      "loss": 1.6877,
      "step": 17601
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3907895088195801,
      "learning_rate": 0.0005453327464354315,
      "loss": 1.648,
      "step": 17602
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3714509904384613,
      "learning_rate": 0.0005453267307079686,
      "loss": 1.6631,
      "step": 17603
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3895563781261444,
      "learning_rate": 0.000545320714682715,
      "loss": 1.695,
      "step": 17604
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36617785692214966,
      "learning_rate": 0.0005453146983596783,
      "loss": 1.6006,
      "step": 17605
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3818756937980652,
      "learning_rate": 0.0005453086817388655,
      "loss": 1.6277,
      "step": 17606
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38775938749313354,
      "learning_rate": 0.0005453026648202843,
      "loss": 1.7514,
      "step": 17607
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3774654269218445,
      "learning_rate": 0.0005452966476039418,
      "loss": 1.7474,
      "step": 17608
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3778930604457855,
      "learning_rate": 0.0005452906300898452,
      "loss": 1.7169,
      "step": 17609
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3753431737422943,
      "learning_rate": 0.0005452846122780022,
      "loss": 1.6891,
      "step": 17610
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37778547406196594,
      "learning_rate": 0.0005452785941684195,
      "loss": 1.691,
      "step": 17611
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.370283842086792,
      "learning_rate": 0.0005452725757611049,
      "loss": 1.7107,
      "step": 17612
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3706069886684418,
      "learning_rate": 0.0005452665570560655,
      "loss": 1.696,
      "step": 17613
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3695884346961975,
      "learning_rate": 0.0005452605380533086,
      "loss": 1.6718,
      "step": 17614
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3743734359741211,
      "learning_rate": 0.0005452545187528416,
      "loss": 1.7047,
      "step": 17615
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3826582729816437,
      "learning_rate": 0.0005452484991546717,
      "loss": 1.7167,
      "step": 17616
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3724745810031891,
      "learning_rate": 0.0005452424792588063,
      "loss": 1.6558,
      "step": 17617
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3821875751018524,
      "learning_rate": 0.0005452364590652525,
      "loss": 1.769,
      "step": 17618
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37770596146583557,
      "learning_rate": 0.000545230438574018,
      "loss": 1.746,
      "step": 17619
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3933235704898834,
      "learning_rate": 0.0005452244177851099,
      "loss": 1.6759,
      "step": 17620
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.387698233127594,
      "learning_rate": 0.0005452183966985353,
      "loss": 1.7186,
      "step": 17621
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39980822801589966,
      "learning_rate": 0.0005452123753143018,
      "loss": 1.7355,
      "step": 17622
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38296735286712646,
      "learning_rate": 0.0005452063536324165,
      "loss": 1.7407,
      "step": 17623
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3887331485748291,
      "learning_rate": 0.000545200331652887,
      "loss": 1.7103,
      "step": 17624
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39645132422447205,
      "learning_rate": 0.0005451943093757203,
      "loss": 1.7643,
      "step": 17625
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3912840187549591,
      "learning_rate": 0.0005451882868009239,
      "loss": 1.754,
      "step": 17626
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38166239857673645,
      "learning_rate": 0.0005451822639285049,
      "loss": 1.744,
      "step": 17627
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3922259211540222,
      "learning_rate": 0.000545176240758471,
      "loss": 1.7197,
      "step": 17628
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3775441348552704,
      "learning_rate": 0.0005451702172908291,
      "loss": 1.7266,
      "step": 17629
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4052746295928955,
      "learning_rate": 0.0005451641935255867,
      "loss": 1.6676,
      "step": 17630
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3951287269592285,
      "learning_rate": 0.0005451581694627511,
      "loss": 1.7908,
      "step": 17631
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3830738067626953,
      "learning_rate": 0.0005451521451023296,
      "loss": 1.6965,
      "step": 17632
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3803821802139282,
      "learning_rate": 0.0005451461204443296,
      "loss": 1.7537,
      "step": 17633
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3795054256916046,
      "learning_rate": 0.0005451400954887582,
      "loss": 1.7533,
      "step": 17634
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3838191032409668,
      "learning_rate": 0.0005451340702356228,
      "loss": 1.8034,
      "step": 17635
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39156824350357056,
      "learning_rate": 0.000545128044684931,
      "loss": 1.722,
      "step": 17636
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38791361451148987,
      "learning_rate": 0.0005451220188366897,
      "loss": 1.6714,
      "step": 17637
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3802235722541809,
      "learning_rate": 0.0005451159926909065,
      "loss": 1.6993,
      "step": 17638
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38286644220352173,
      "learning_rate": 0.0005451099662475885,
      "loss": 1.7193,
      "step": 17639
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38952499628067017,
      "learning_rate": 0.0005451039395067431,
      "loss": 1.6975,
      "step": 17640
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39272168278694153,
      "learning_rate": 0.0005450979124683777,
      "loss": 1.7329,
      "step": 17641
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3801931142807007,
      "learning_rate": 0.0005450918851324995,
      "loss": 1.737,
      "step": 17642
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.40038058161735535,
      "learning_rate": 0.0005450858574991159,
      "loss": 1.7743,
      "step": 17643
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3919563591480255,
      "learning_rate": 0.0005450798295682341,
      "loss": 1.7935,
      "step": 17644
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3895478844642639,
      "learning_rate": 0.0005450738013398616,
      "loss": 1.6878,
      "step": 17645
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3845618963241577,
      "learning_rate": 0.0005450677728140056,
      "loss": 1.7139,
      "step": 17646
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.581848680973053,
      "learning_rate": 0.0005450617439906733,
      "loss": 1.759,
      "step": 17647
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38623669743537903,
      "learning_rate": 0.0005450557148698723,
      "loss": 1.7699,
      "step": 17648
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38737374544143677,
      "learning_rate": 0.0005450496854516098,
      "loss": 1.8,
      "step": 17649
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3838086426258087,
      "learning_rate": 0.0005450436557358929,
      "loss": 1.7167,
      "step": 17650
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37488582730293274,
      "learning_rate": 0.0005450376257227293,
      "loss": 1.7082,
      "step": 17651
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37516823410987854,
      "learning_rate": 0.000545031595412126,
      "loss": 1.655,
      "step": 17652
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38277778029441833,
      "learning_rate": 0.0005450255648040905,
      "loss": 1.671,
      "step": 17653
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3736516535282135,
      "learning_rate": 0.0005450195338986302,
      "loss": 1.773,
      "step": 17654
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3908022344112396,
      "learning_rate": 0.0005450135026957521,
      "loss": 1.7684,
      "step": 17655
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3701217770576477,
      "learning_rate": 0.0005450074711954637,
      "loss": 1.7367,
      "step": 17656
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3685431480407715,
      "learning_rate": 0.0005450014393977724,
      "loss": 1.7116,
      "step": 17657
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3723302185535431,
      "learning_rate": 0.0005449954073026854,
      "loss": 1.734,
      "step": 17658
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.370252400636673,
      "learning_rate": 0.0005449893749102101,
      "loss": 1.6444,
      "step": 17659
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3860659599304199,
      "learning_rate": 0.0005449833422203539,
      "loss": 1.7936,
      "step": 17660
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38448548316955566,
      "learning_rate": 0.0005449773092331239,
      "loss": 1.7019,
      "step": 17661
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3863658010959625,
      "learning_rate": 0.0005449712759485276,
      "loss": 1.7176,
      "step": 17662
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.379856675863266,
      "learning_rate": 0.0005449652423665722,
      "loss": 1.6451,
      "step": 17663
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3856070637702942,
      "learning_rate": 0.0005449592084872652,
      "loss": 1.7976,
      "step": 17664
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3765088617801666,
      "learning_rate": 0.0005449531743106138,
      "loss": 1.7065,
      "step": 17665
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3951590359210968,
      "learning_rate": 0.0005449471398366252,
      "loss": 1.6866,
      "step": 17666
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39988723397254944,
      "learning_rate": 0.000544941105065307,
      "loss": 1.8183,
      "step": 17667
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3829067349433899,
      "learning_rate": 0.0005449350699966663,
      "loss": 1.7093,
      "step": 17668
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39492106437683105,
      "learning_rate": 0.0005449290346307106,
      "loss": 1.6174,
      "step": 17669
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3998908996582031,
      "learning_rate": 0.000544922998967447,
      "loss": 1.753,
      "step": 17670
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4189095199108124,
      "learning_rate": 0.0005449169630068831,
      "loss": 1.8698,
      "step": 17671
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36042308807373047,
      "learning_rate": 0.0005449109267490261,
      "loss": 1.6578,
      "step": 17672
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38378626108169556,
      "learning_rate": 0.0005449048901938832,
      "loss": 1.6555,
      "step": 17673
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38620448112487793,
      "learning_rate": 0.0005448988533414619,
      "loss": 1.7405,
      "step": 17674
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3802153766155243,
      "learning_rate": 0.0005448928161917696,
      "loss": 1.6613,
      "step": 17675
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38198965787887573,
      "learning_rate": 0.0005448867787448134,
      "loss": 1.7702,
      "step": 17676
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3858923017978668,
      "learning_rate": 0.0005448807410006006,
      "loss": 1.7016,
      "step": 17677
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3907544016838074,
      "learning_rate": 0.0005448747029591389,
      "loss": 1.7502,
      "step": 17678
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38927850127220154,
      "learning_rate": 0.0005448686646204353,
      "loss": 1.7748,
      "step": 17679
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38810455799102783,
      "learning_rate": 0.0005448626259844972,
      "loss": 1.6702,
      "step": 17680
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3959423303604126,
      "learning_rate": 0.000544856587051332,
      "loss": 1.7056,
      "step": 17681
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36924999952316284,
      "learning_rate": 0.0005448505478209469,
      "loss": 1.6881,
      "step": 17682
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38006797432899475,
      "learning_rate": 0.0005448445082933493,
      "loss": 1.7913,
      "step": 17683
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38726067543029785,
      "learning_rate": 0.0005448384684685467,
      "loss": 1.7591,
      "step": 17684
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3921000361442566,
      "learning_rate": 0.000544832428346546,
      "loss": 1.706,
      "step": 17685
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.391040176153183,
      "learning_rate": 0.0005448263879273552,
      "loss": 1.7537,
      "step": 17686
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36664050817489624,
      "learning_rate": 0.0005448203472109809,
      "loss": 1.6614,
      "step": 17687
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37679359316825867,
      "learning_rate": 0.0005448143061974308,
      "loss": 1.6628,
      "step": 17688
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.414336621761322,
      "learning_rate": 0.0005448082648867124,
      "loss": 1.7134,
      "step": 17689
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4074251651763916,
      "learning_rate": 0.0005448022232788326,
      "loss": 1.6701,
      "step": 17690
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3813231289386749,
      "learning_rate": 0.0005447961813737992,
      "loss": 1.6718,
      "step": 17691
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4144129157066345,
      "learning_rate": 0.0005447901391716192,
      "loss": 1.6896,
      "step": 17692
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.48413363099098206,
      "learning_rate": 0.0005447840966723,
      "loss": 1.7274,
      "step": 17693
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39353564381599426,
      "learning_rate": 0.000544778053875849,
      "loss": 1.6477,
      "step": 17694
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37360259890556335,
      "learning_rate": 0.0005447720107822736,
      "loss": 1.6434,
      "step": 17695
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5479609370231628,
      "learning_rate": 0.0005447659673915809,
      "loss": 1.768,
      "step": 17696
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.41376110911369324,
      "learning_rate": 0.0005447599237037785,
      "loss": 1.734,
      "step": 17697
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3779267370700836,
      "learning_rate": 0.0005447538797188736,
      "loss": 1.6991,
      "step": 17698
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3917837142944336,
      "learning_rate": 0.0005447478354368735,
      "loss": 1.6771,
      "step": 17699
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38221755623817444,
      "learning_rate": 0.0005447417908577856,
      "loss": 1.7339,
      "step": 17700
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38133955001831055,
      "learning_rate": 0.0005447357459816173,
      "loss": 1.6039,
      "step": 17701
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39230698347091675,
      "learning_rate": 0.0005447297008083757,
      "loss": 1.7623,
      "step": 17702
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3808475136756897,
      "learning_rate": 0.0005447236553380684,
      "loss": 1.7434,
      "step": 17703
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3787173628807068,
      "learning_rate": 0.0005447176095707026,
      "loss": 1.7427,
      "step": 17704
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37699276208877563,
      "learning_rate": 0.0005447115635062857,
      "loss": 1.6756,
      "step": 17705
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3815433979034424,
      "learning_rate": 0.0005447055171448252,
      "loss": 1.639,
      "step": 17706
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3827928602695465,
      "learning_rate": 0.0005446994704863281,
      "loss": 1.673,
      "step": 17707
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3977716863155365,
      "learning_rate": 0.0005446934235308019,
      "loss": 1.7032,
      "step": 17708
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3802929222583771,
      "learning_rate": 0.0005446873762782539,
      "loss": 1.7044,
      "step": 17709
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38141027092933655,
      "learning_rate": 0.0005446813287286915,
      "loss": 1.7197,
      "step": 17710
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4405946135520935,
      "learning_rate": 0.000544675280882122,
      "loss": 1.6757,
      "step": 17711
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38246679306030273,
      "learning_rate": 0.0005446692327385528,
      "loss": 1.6575,
      "step": 17712
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.373318612575531,
      "learning_rate": 0.0005446631842979912,
      "loss": 1.7525,
      "step": 17713
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3719756305217743,
      "learning_rate": 0.0005446571355604445,
      "loss": 1.7844,
      "step": 17714
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3927648663520813,
      "learning_rate": 0.0005446510865259202,
      "loss": 1.7101,
      "step": 17715
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37366563081741333,
      "learning_rate": 0.0005446450371944255,
      "loss": 1.7947,
      "step": 17716
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3706422448158264,
      "learning_rate": 0.0005446389875659677,
      "loss": 1.6579,
      "step": 17717
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3783464729785919,
      "learning_rate": 0.0005446329376405541,
      "loss": 1.7253,
      "step": 17718
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.381203293800354,
      "learning_rate": 0.0005446268874181924,
      "loss": 1.8074,
      "step": 17719
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3782791793346405,
      "learning_rate": 0.0005446208368988896,
      "loss": 1.7258,
      "step": 17720
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3773594796657562,
      "learning_rate": 0.0005446147860826531,
      "loss": 1.6609,
      "step": 17721
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.391729474067688,
      "learning_rate": 0.0005446087349694904,
      "loss": 1.6453,
      "step": 17722
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3895553648471832,
      "learning_rate": 0.0005446026835594087,
      "loss": 1.675,
      "step": 17723
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38292887806892395,
      "learning_rate": 0.0005445966318524153,
      "loss": 1.7199,
      "step": 17724
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3871985971927643,
      "learning_rate": 0.0005445905798485177,
      "loss": 1.7511,
      "step": 17725
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3970833420753479,
      "learning_rate": 0.0005445845275477231,
      "loss": 1.6912,
      "step": 17726
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3915642201900482,
      "learning_rate": 0.000544578474950039,
      "loss": 1.6905,
      "step": 17727
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3788222372531891,
      "learning_rate": 0.0005445724220554726,
      "loss": 1.72,
      "step": 17728
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3822084963321686,
      "learning_rate": 0.0005445663688640315,
      "loss": 1.6853,
      "step": 17729
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3779856562614441,
      "learning_rate": 0.0005445603153757226,
      "loss": 1.7874,
      "step": 17730
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3808152675628662,
      "learning_rate": 0.0005445542615905537,
      "loss": 1.7057,
      "step": 17731
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3753691017627716,
      "learning_rate": 0.0005445482075085319,
      "loss": 1.7548,
      "step": 17732
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3839177191257477,
      "learning_rate": 0.0005445421531296646,
      "loss": 1.6653,
      "step": 17733
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3868615925312042,
      "learning_rate": 0.0005445360984539592,
      "loss": 1.6872,
      "step": 17734
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38369059562683105,
      "learning_rate": 0.000544530043481423,
      "loss": 1.7411,
      "step": 17735
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3875987231731415,
      "learning_rate": 0.0005445239882120634,
      "loss": 1.6567,
      "step": 17736
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38813620805740356,
      "learning_rate": 0.0005445179326458876,
      "loss": 1.6761,
      "step": 17737
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3758525252342224,
      "learning_rate": 0.0005445118767829031,
      "loss": 1.7448,
      "step": 17738
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3979260325431824,
      "learning_rate": 0.0005445058206231171,
      "loss": 1.6887,
      "step": 17739
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3845965266227722,
      "learning_rate": 0.0005444997641665372,
      "loss": 1.7116,
      "step": 17740
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38776057958602905,
      "learning_rate": 0.0005444937074131706,
      "loss": 1.675,
      "step": 17741
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3799424469470978,
      "learning_rate": 0.0005444876503630246,
      "loss": 1.7295,
      "step": 17742
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39692172408103943,
      "learning_rate": 0.0005444815930161067,
      "loss": 1.7779,
      "step": 17743
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37766680121421814,
      "learning_rate": 0.0005444755353724241,
      "loss": 1.6638,
      "step": 17744
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.35958755016326904,
      "learning_rate": 0.0005444694774319843,
      "loss": 1.6967,
      "step": 17745
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.56003737449646,
      "learning_rate": 0.0005444634191947945,
      "loss": 1.6686,
      "step": 17746
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38290756940841675,
      "learning_rate": 0.0005444573606608622,
      "loss": 1.7903,
      "step": 17747
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4076356589794159,
      "learning_rate": 0.0005444513018301946,
      "loss": 1.6379,
      "step": 17748
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36647817492485046,
      "learning_rate": 0.0005444452427027992,
      "loss": 1.636,
      "step": 17749
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3903208374977112,
      "learning_rate": 0.0005444391832786832,
      "loss": 1.7418,
      "step": 17750
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38758957386016846,
      "learning_rate": 0.0005444331235578541,
      "loss": 1.6784,
      "step": 17751
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37867945432662964,
      "learning_rate": 0.0005444270635403193,
      "loss": 1.6564,
      "step": 17752
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3773636519908905,
      "learning_rate": 0.0005444210032260859,
      "loss": 1.6162,
      "step": 17753
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38014253973960876,
      "learning_rate": 0.0005444149426151616,
      "loss": 1.7244,
      "step": 17754
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39135968685150146,
      "learning_rate": 0.0005444088817075533,
      "loss": 1.7593,
      "step": 17755
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3718841075897217,
      "learning_rate": 0.0005444028205032689,
      "loss": 1.712,
      "step": 17756
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38388529419898987,
      "learning_rate": 0.0005443967590023154,
      "loss": 1.6968,
      "step": 17757
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38819223642349243,
      "learning_rate": 0.0005443906972047002,
      "loss": 1.7246,
      "step": 17758
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39042362570762634,
      "learning_rate": 0.0005443846351104307,
      "loss": 1.6734,
      "step": 17759
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3793255686759949,
      "learning_rate": 0.0005443785727195143,
      "loss": 1.6659,
      "step": 17760
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39243534207344055,
      "learning_rate": 0.0005443725100319583,
      "loss": 1.7601,
      "step": 17761
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38511982560157776,
      "learning_rate": 0.0005443664470477701,
      "loss": 1.675,
      "step": 17762
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37888607382774353,
      "learning_rate": 0.000544360383766957,
      "loss": 1.667,
      "step": 17763
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3788743019104004,
      "learning_rate": 0.0005443543201895265,
      "loss": 1.6804,
      "step": 17764
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3922577500343323,
      "learning_rate": 0.0005443482563154858,
      "loss": 1.6719,
      "step": 17765
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38400325179100037,
      "learning_rate": 0.0005443421921448423,
      "loss": 1.6467,
      "step": 17766
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3844199478626251,
      "learning_rate": 0.0005443361276776034,
      "loss": 1.6967,
      "step": 17767
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3734651505947113,
      "learning_rate": 0.0005443300629137764,
      "loss": 1.7265,
      "step": 17768
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.49056026339530945,
      "learning_rate": 0.0005443239978533687,
      "loss": 1.8092,
      "step": 17769
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37104615569114685,
      "learning_rate": 0.0005443179324963877,
      "loss": 1.6566,
      "step": 17770
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.391816109418869,
      "learning_rate": 0.0005443118668428407,
      "loss": 1.7197,
      "step": 17771
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3960636854171753,
      "learning_rate": 0.0005443058008927352,
      "loss": 1.6867,
      "step": 17772
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38580673933029175,
      "learning_rate": 0.0005442997346460783,
      "loss": 1.7173,
      "step": 17773
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38727664947509766,
      "learning_rate": 0.0005442936681028775,
      "loss": 1.6975,
      "step": 17774
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3875431418418884,
      "learning_rate": 0.0005442876012631404,
      "loss": 1.6622,
      "step": 17775
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38822755217552185,
      "learning_rate": 0.000544281534126874,
      "loss": 1.7987,
      "step": 17776
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3729156255722046,
      "learning_rate": 0.0005442754666940858,
      "loss": 1.7174,
      "step": 17777
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3869258165359497,
      "learning_rate": 0.0005442693989647832,
      "loss": 1.6585,
      "step": 17778
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38027307391166687,
      "learning_rate": 0.0005442633309389736,
      "loss": 1.6727,
      "step": 17779
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3747830092906952,
      "learning_rate": 0.0005442572626166642,
      "loss": 1.6384,
      "step": 17780
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3717736005783081,
      "learning_rate": 0.0005442511939978626,
      "loss": 1.7499,
      "step": 17781
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3941799998283386,
      "learning_rate": 0.000544245125082576,
      "loss": 1.7828,
      "step": 17782
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38812336325645447,
      "learning_rate": 0.0005442390558708117,
      "loss": 1.7144,
      "step": 17783
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4007548689842224,
      "learning_rate": 0.0005442329863625773,
      "loss": 1.7789,
      "step": 17784
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3771151900291443,
      "learning_rate": 0.00054422691655788,
      "loss": 1.7297,
      "step": 17785
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3863034248352051,
      "learning_rate": 0.0005442208464567272,
      "loss": 1.6951,
      "step": 17786
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4027264714241028,
      "learning_rate": 0.0005442147760591263,
      "loss": 1.6644,
      "step": 17787
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39976954460144043,
      "learning_rate": 0.0005442087053650846,
      "loss": 1.7166,
      "step": 17788
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3720462918281555,
      "learning_rate": 0.0005442026343746095,
      "loss": 1.7202,
      "step": 17789
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39481332898139954,
      "learning_rate": 0.0005441965630877085,
      "loss": 1.7626,
      "step": 17790
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3872302174568176,
      "learning_rate": 0.0005441904915043887,
      "loss": 1.7179,
      "step": 17791
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3879668414592743,
      "learning_rate": 0.0005441844196246577,
      "loss": 1.7087,
      "step": 17792
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3786572813987732,
      "learning_rate": 0.0005441783474485227,
      "loss": 1.6867,
      "step": 17793
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36731600761413574,
      "learning_rate": 0.0005441722749759913,
      "loss": 1.6814,
      "step": 17794
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3927294611930847,
      "learning_rate": 0.0005441662022070706,
      "loss": 1.7396,
      "step": 17795
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3995615839958191,
      "learning_rate": 0.0005441601291417684,
      "loss": 1.7833,
      "step": 17796
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.46009939908981323,
      "learning_rate": 0.0005441540557800914,
      "loss": 1.7258,
      "step": 17797
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38547617197036743,
      "learning_rate": 0.0005441479821220476,
      "loss": 1.7219,
      "step": 17798
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.389078289270401,
      "learning_rate": 0.000544141908167644,
      "loss": 1.6655,
      "step": 17799
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3739238977432251,
      "learning_rate": 0.0005441358339168882,
      "loss": 1.6755,
      "step": 17800
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.370256632566452,
      "learning_rate": 0.0005441297593697874,
      "loss": 1.6912,
      "step": 17801
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37653642892837524,
      "learning_rate": 0.0005441236845263491,
      "loss": 1.8011,
      "step": 17802
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3683421015739441,
      "learning_rate": 0.0005441176093865805,
      "loss": 1.6853,
      "step": 17803
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3723505139350891,
      "learning_rate": 0.0005441115339504892,
      "loss": 1.7446,
      "step": 17804
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3660898208618164,
      "learning_rate": 0.0005441054582180823,
      "loss": 1.6703,
      "step": 17805
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5114355087280273,
      "learning_rate": 0.0005440993821893675,
      "loss": 1.6637,
      "step": 17806
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3807298541069031,
      "learning_rate": 0.000544093305864352,
      "loss": 1.7088,
      "step": 17807
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3886927664279938,
      "learning_rate": 0.0005440872292430432,
      "loss": 1.7303,
      "step": 17808
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38087835907936096,
      "learning_rate": 0.0005440811523254484,
      "loss": 1.7263,
      "step": 17809
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3749660551548004,
      "learning_rate": 0.0005440750751115751,
      "loss": 1.7288,
      "step": 17810
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3743620812892914,
      "learning_rate": 0.0005440689976014306,
      "loss": 1.6902,
      "step": 17811
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38807031512260437,
      "learning_rate": 0.0005440629197950224,
      "loss": 1.7352,
      "step": 17812
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37762337923049927,
      "learning_rate": 0.0005440568416923576,
      "loss": 1.8192,
      "step": 17813
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37825965881347656,
      "learning_rate": 0.0005440507632934439,
      "loss": 1.7814,
      "step": 17814
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3722052276134491,
      "learning_rate": 0.0005440446845982885,
      "loss": 1.7137,
      "step": 17815
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36860671639442444,
      "learning_rate": 0.0005440386056068988,
      "loss": 1.7456,
      "step": 17816
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3746602535247803,
      "learning_rate": 0.0005440325263192821,
      "loss": 1.7199,
      "step": 17817
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3692350387573242,
      "learning_rate": 0.0005440264467354459,
      "loss": 1.7856,
      "step": 17818
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3816280663013458,
      "learning_rate": 0.0005440203668553976,
      "loss": 1.7782,
      "step": 17819
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38383492827415466,
      "learning_rate": 0.0005440142866791445,
      "loss": 1.6898,
      "step": 17820
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38588857650756836,
      "learning_rate": 0.000544008206206694,
      "loss": 1.6994,
      "step": 17821
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37462979555130005,
      "learning_rate": 0.0005440021254380536,
      "loss": 1.6879,
      "step": 17822
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3832353353500366,
      "learning_rate": 0.0005439960443732305,
      "loss": 1.7156,
      "step": 17823
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3836636245250702,
      "learning_rate": 0.0005439899630122322,
      "loss": 1.7074,
      "step": 17824
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3852182924747467,
      "learning_rate": 0.0005439838813550659,
      "loss": 1.676,
      "step": 17825
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3964572846889496,
      "learning_rate": 0.0005439777994017392,
      "loss": 1.6561,
      "step": 17826
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3883473873138428,
      "learning_rate": 0.0005439717171522594,
      "loss": 1.6776,
      "step": 17827
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3804296553134918,
      "learning_rate": 0.0005439656346066339,
      "loss": 1.6843,
      "step": 17828
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3709564208984375,
      "learning_rate": 0.00054395955176487,
      "loss": 1.7156,
      "step": 17829
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3740122318267822,
      "learning_rate": 0.0005439534686269752,
      "loss": 1.6813,
      "step": 17830
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3841412365436554,
      "learning_rate": 0.0005439473851929569,
      "loss": 1.6876,
      "step": 17831
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.387387216091156,
      "learning_rate": 0.0005439413014628223,
      "loss": 1.685,
      "step": 17832
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37712299823760986,
      "learning_rate": 0.000543935217436579,
      "loss": 1.7413,
      "step": 17833
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.42229610681533813,
      "learning_rate": 0.0005439291331142342,
      "loss": 1.7297,
      "step": 17834
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3845275342464447,
      "learning_rate": 0.0005439230484957954,
      "loss": 1.7179,
      "step": 17835
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3832700550556183,
      "learning_rate": 0.00054391696358127,
      "loss": 1.668,
      "step": 17836
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38508152961730957,
      "learning_rate": 0.0005439108783706654,
      "loss": 1.7432,
      "step": 17837
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3862268328666687,
      "learning_rate": 0.0005439047928639888,
      "loss": 1.644,
      "step": 17838
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.402721643447876,
      "learning_rate": 0.0005438987070612478,
      "loss": 1.7515,
      "step": 17839
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4053006172180176,
      "learning_rate": 0.0005438926209624497,
      "loss": 1.7935,
      "step": 17840
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3797056972980499,
      "learning_rate": 0.0005438865345676018,
      "loss": 1.6732,
      "step": 17841
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.405333548784256,
      "learning_rate": 0.0005438804478767117,
      "loss": 1.7217,
      "step": 17842
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38269490003585815,
      "learning_rate": 0.0005438743608897867,
      "loss": 1.6614,
      "step": 17843
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37822502851486206,
      "learning_rate": 0.000543868273606834,
      "loss": 1.7427,
      "step": 17844
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3731570541858673,
      "learning_rate": 0.0005438621860278612,
      "loss": 1.6607,
      "step": 17845
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36175161600112915,
      "learning_rate": 0.0005438560981528757,
      "loss": 1.6554,
      "step": 17846
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38459914922714233,
      "learning_rate": 0.0005438500099818848,
      "loss": 1.664,
      "step": 17847
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3932684063911438,
      "learning_rate": 0.0005438439215148959,
      "loss": 1.6734,
      "step": 17848
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3955531716346741,
      "learning_rate": 0.0005438378327519165,
      "loss": 1.699,
      "step": 17849
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3916088342666626,
      "learning_rate": 0.0005438317436929537,
      "loss": 1.7742,
      "step": 17850
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3827393054962158,
      "learning_rate": 0.0005438256543380153,
      "loss": 1.7325,
      "step": 17851
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3922790288925171,
      "learning_rate": 0.0005438195646871083,
      "loss": 1.6644,
      "step": 17852
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3806837499141693,
      "learning_rate": 0.0005438134747402404,
      "loss": 1.7139,
      "step": 17853
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37402963638305664,
      "learning_rate": 0.0005438073844974189,
      "loss": 1.6851,
      "step": 17854
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38498738408088684,
      "learning_rate": 0.000543801293958651,
      "loss": 1.7355,
      "step": 17855
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3752714693546295,
      "learning_rate": 0.0005437952031239443,
      "loss": 1.7424,
      "step": 17856
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39589303731918335,
      "learning_rate": 0.0005437891119933063,
      "loss": 1.7534,
      "step": 17857
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3662809133529663,
      "learning_rate": 0.0005437830205667441,
      "loss": 1.7577,
      "step": 17858
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3846367597579956,
      "learning_rate": 0.0005437769288442652,
      "loss": 1.6771,
      "step": 17859
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38280701637268066,
      "learning_rate": 0.0005437708368258771,
      "loss": 1.7442,
      "step": 17860
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37734609842300415,
      "learning_rate": 0.0005437647445115871,
      "loss": 1.7453,
      "step": 17861
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3866875469684601,
      "learning_rate": 0.0005437586519014027,
      "loss": 1.6831,
      "step": 17862
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36790668964385986,
      "learning_rate": 0.0005437525589953311,
      "loss": 1.7348,
      "step": 17863
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3805885910987854,
      "learning_rate": 0.0005437464657933799,
      "loss": 1.695,
      "step": 17864
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.36980924010276794,
      "learning_rate": 0.0005437403722955563,
      "loss": 1.682,
      "step": 17865
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.380153626203537,
      "learning_rate": 0.0005437342785018679,
      "loss": 1.7521,
      "step": 17866
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3980625867843628,
      "learning_rate": 0.0005437281844123218,
      "loss": 1.7003,
      "step": 17867
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3914116322994232,
      "learning_rate": 0.0005437220900269259,
      "loss": 1.7365,
      "step": 17868
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39058104157447815,
      "learning_rate": 0.000543715995345687,
      "loss": 1.6477,
      "step": 17869
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3825991749763489,
      "learning_rate": 0.0005437099003686131,
      "loss": 1.6831,
      "step": 17870
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3959226608276367,
      "learning_rate": 0.0005437038050957111,
      "loss": 1.7699,
      "step": 17871
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37616264820098877,
      "learning_rate": 0.0005436977095269886,
      "loss": 1.7455,
      "step": 17872
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.372863233089447,
      "learning_rate": 0.000543691613662453,
      "loss": 1.6965,
      "step": 17873
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37549716234207153,
      "learning_rate": 0.0005436855175021116,
      "loss": 1.6639,
      "step": 17874
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38463732600212097,
      "learning_rate": 0.000543679421045972,
      "loss": 1.6545,
      "step": 17875
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4418148994445801,
      "learning_rate": 0.0005436733242940414,
      "loss": 1.792,
      "step": 17876
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3727754056453705,
      "learning_rate": 0.0005436672272463274,
      "loss": 1.7638,
      "step": 17877
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3902048170566559,
      "learning_rate": 0.0005436611299028374,
      "loss": 1.7338,
      "step": 17878
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3736811876296997,
      "learning_rate": 0.0005436550322635785,
      "loss": 1.7608,
      "step": 17879
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.5558862686157227,
      "learning_rate": 0.0005436489343285582,
      "loss": 1.7282,
      "step": 17880
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.39347043633461,
      "learning_rate": 0.0005436428360977841,
      "loss": 1.6321,
      "step": 17881
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3746095895767212,
      "learning_rate": 0.0005436367375712635,
      "loss": 1.7803,
      "step": 17882
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37523767352104187,
      "learning_rate": 0.0005436306387490038,
      "loss": 1.6536,
      "step": 17883
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38339903950691223,
      "learning_rate": 0.0005436245396310124,
      "loss": 1.7062,
      "step": 17884
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3816809058189392,
      "learning_rate": 0.0005436184402172968,
      "loss": 1.7673,
      "step": 17885
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37713438272476196,
      "learning_rate": 0.0005436123405078643,
      "loss": 1.6787,
      "step": 17886
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3713695704936981,
      "learning_rate": 0.0005436062405027221,
      "loss": 1.6104,
      "step": 17887
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3762708902359009,
      "learning_rate": 0.000543600140201878,
      "loss": 1.6733,
      "step": 17888
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3783067762851715,
      "learning_rate": 0.0005435940396053392,
      "loss": 1.7317,
      "step": 17889
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3706309199333191,
      "learning_rate": 0.0005435879387131131,
      "loss": 1.7124,
      "step": 17890
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.376639723777771,
      "learning_rate": 0.0005435818375252071,
      "loss": 1.6646,
      "step": 17891
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3824306130409241,
      "learning_rate": 0.0005435757360416287,
      "loss": 1.7747,
      "step": 17892
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3779493272304535,
      "learning_rate": 0.0005435696342623853,
      "loss": 1.7179,
      "step": 17893
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3982542157173157,
      "learning_rate": 0.0005435635321874841,
      "loss": 1.7117,
      "step": 17894
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38326358795166016,
      "learning_rate": 0.0005435574298169328,
      "loss": 1.7105,
      "step": 17895
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3853085935115814,
      "learning_rate": 0.0005435513271507385,
      "loss": 1.7044,
      "step": 17896
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38765254616737366,
      "learning_rate": 0.000543545224188909,
      "loss": 1.7657,
      "step": 17897
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3819769322872162,
      "learning_rate": 0.0005435391209314513,
      "loss": 1.7299,
      "step": 17898
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3875367343425751,
      "learning_rate": 0.000543533017378373,
      "loss": 1.7394,
      "step": 17899
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38326287269592285,
      "learning_rate": 0.0005435269135296816,
      "loss": 1.6883,
      "step": 17900
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39416563510894775,
      "learning_rate": 0.0005435208093853844,
      "loss": 1.7372,
      "step": 17901
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39048171043395996,
      "learning_rate": 0.0005435147049454887,
      "loss": 1.7262,
      "step": 17902
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3922659754753113,
      "learning_rate": 0.0005435086002100021,
      "loss": 1.6861,
      "step": 17903
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38123050332069397,
      "learning_rate": 0.000543502495178932,
      "loss": 1.6641,
      "step": 17904
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3914903402328491,
      "learning_rate": 0.0005434963898522856,
      "loss": 1.7483,
      "step": 17905
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3961746394634247,
      "learning_rate": 0.0005434902842300706,
      "loss": 1.6984,
      "step": 17906
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3984244763851166,
      "learning_rate": 0.0005434841783122942,
      "loss": 1.6581,
      "step": 17907
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3765876591205597,
      "learning_rate": 0.0005434780720989639,
      "loss": 1.7124,
      "step": 17908
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3816531300544739,
      "learning_rate": 0.0005434719655900872,
      "loss": 1.6422,
      "step": 17909
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3795735836029053,
      "learning_rate": 0.0005434658587856713,
      "loss": 1.7342,
      "step": 17910
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38436904549598694,
      "learning_rate": 0.0005434597516857237,
      "loss": 1.7179,
      "step": 17911
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3853757977485657,
      "learning_rate": 0.0005434536442902518,
      "loss": 1.7316,
      "step": 17912
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3740912675857544,
      "learning_rate": 0.0005434475365992631,
      "loss": 1.7453,
      "step": 17913
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.397310733795166,
      "learning_rate": 0.000543441428612765,
      "loss": 1.7367,
      "step": 17914
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3896709382534027,
      "learning_rate": 0.0005434353203307648,
      "loss": 1.7405,
      "step": 17915
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.379611074924469,
      "learning_rate": 0.0005434292117532701,
      "loss": 1.7004,
      "step": 17916
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38735517859458923,
      "learning_rate": 0.0005434231028802882,
      "loss": 1.6765,
      "step": 17917
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.40691879391670227,
      "learning_rate": 0.0005434169937118265,
      "loss": 1.7009,
      "step": 17918
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38441988825798035,
      "learning_rate": 0.0005434108842478924,
      "loss": 1.7032,
      "step": 17919
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37543225288391113,
      "learning_rate": 0.0005434047744884932,
      "loss": 1.732,
      "step": 17920
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38309246301651,
      "learning_rate": 0.0005433986644336366,
      "loss": 1.7333,
      "step": 17921
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39400312304496765,
      "learning_rate": 0.0005433925540833301,
      "loss": 1.6805,
      "step": 17922
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3915572166442871,
      "learning_rate": 0.0005433864434375806,
      "loss": 1.8188,
      "step": 17923
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4026976525783539,
      "learning_rate": 0.000543380332496396,
      "loss": 1.8005,
      "step": 17924
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36980319023132324,
      "learning_rate": 0.0005433742212597834,
      "loss": 1.702,
      "step": 17925
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3915126621723175,
      "learning_rate": 0.0005433681097277505,
      "loss": 1.7618,
      "step": 17926
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37492966651916504,
      "learning_rate": 0.0005433619979003044,
      "loss": 1.6588,
      "step": 17927
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3786175549030304,
      "learning_rate": 0.0005433558857774527,
      "loss": 1.7301,
      "step": 17928
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37665289640426636,
      "learning_rate": 0.0005433497733592029,
      "loss": 1.7507,
      "step": 17929
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.7182941436767578,
      "learning_rate": 0.0005433436606455623,
      "loss": 1.6917,
      "step": 17930
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38827088475227356,
      "learning_rate": 0.0005433375476365384,
      "loss": 1.7581,
      "step": 17931
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3648531138896942,
      "learning_rate": 0.0005433314343321387,
      "loss": 1.667,
      "step": 17932
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3759922683238983,
      "learning_rate": 0.0005433253207323702,
      "loss": 1.7127,
      "step": 17933
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3806487023830414,
      "learning_rate": 0.0005433192068372408,
      "loss": 1.8107,
      "step": 17934
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37491121888160706,
      "learning_rate": 0.0005433130926467577,
      "loss": 1.7484,
      "step": 17935
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38246193528175354,
      "learning_rate": 0.0005433069781609284,
      "loss": 1.7266,
      "step": 17936
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38234513998031616,
      "learning_rate": 0.0005433008633797602,
      "loss": 1.7413,
      "step": 17937
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3733047544956207,
      "learning_rate": 0.0005432947483032605,
      "loss": 1.6686,
      "step": 17938
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3753957748413086,
      "learning_rate": 0.000543288632931437,
      "loss": 1.6566,
      "step": 17939
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37020179629325867,
      "learning_rate": 0.0005432825172642969,
      "loss": 1.738,
      "step": 17940
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3762504756450653,
      "learning_rate": 0.0005432764013018476,
      "loss": 1.6956,
      "step": 17941
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36979737877845764,
      "learning_rate": 0.0005432702850440967,
      "loss": 1.7156,
      "step": 17942
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39033243060112,
      "learning_rate": 0.0005432641684910515,
      "loss": 1.7456,
      "step": 17943
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3970843553543091,
      "learning_rate": 0.0005432580516427193,
      "loss": 1.7547,
      "step": 17944
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3767104744911194,
      "learning_rate": 0.0005432519344991079,
      "loss": 1.6848,
      "step": 17945
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3839101493358612,
      "learning_rate": 0.0005432458170602243,
      "loss": 1.6885,
      "step": 17946
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3760106563568115,
      "learning_rate": 0.0005432396993260762,
      "loss": 1.6665,
      "step": 17947
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3686111569404602,
      "learning_rate": 0.0005432335812966709,
      "loss": 1.6903,
      "step": 17948
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3786947429180145,
      "learning_rate": 0.0005432274629720159,
      "loss": 1.7551,
      "step": 17949
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3792436718940735,
      "learning_rate": 0.0005432213443521186,
      "loss": 1.6887,
      "step": 17950
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3896231949329376,
      "learning_rate": 0.0005432152254369866,
      "loss": 1.7416,
      "step": 17951
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38389092683792114,
      "learning_rate": 0.0005432091062266269,
      "loss": 1.6892,
      "step": 17952
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37699005007743835,
      "learning_rate": 0.0005432029867210472,
      "loss": 1.6727,
      "step": 17953
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3857366144657135,
      "learning_rate": 0.000543196866920255,
      "loss": 1.7118,
      "step": 17954
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3827512860298157,
      "learning_rate": 0.0005431907468242576,
      "loss": 1.6849,
      "step": 17955
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3911639153957367,
      "learning_rate": 0.0005431846264330625,
      "loss": 1.714,
      "step": 17956
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37833163142204285,
      "learning_rate": 0.000543178505746677,
      "loss": 1.737,
      "step": 17957
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3865864872932434,
      "learning_rate": 0.0005431723847651087,
      "loss": 1.7267,
      "step": 17958
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38219040632247925,
      "learning_rate": 0.000543166263488365,
      "loss": 1.7768,
      "step": 17959
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3881347179412842,
      "learning_rate": 0.0005431601419164533,
      "loss": 1.6704,
      "step": 17960
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39534953236579895,
      "learning_rate": 0.0005431540200493809,
      "loss": 1.6726,
      "step": 17961
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37006157636642456,
      "learning_rate": 0.0005431478978871555,
      "loss": 1.6494,
      "step": 17962
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39763984084129333,
      "learning_rate": 0.0005431417754297842,
      "loss": 1.7947,
      "step": 17963
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39331957697868347,
      "learning_rate": 0.0005431356526772747,
      "loss": 1.788,
      "step": 17964
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3773399293422699,
      "learning_rate": 0.0005431295296296343,
      "loss": 1.7398,
      "step": 17965
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3845263123512268,
      "learning_rate": 0.0005431234062868705,
      "loss": 1.6153,
      "step": 17966
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37845760583877563,
      "learning_rate": 0.0005431172826489907,
      "loss": 1.737,
      "step": 17967
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3737674653530121,
      "learning_rate": 0.0005431111587160023,
      "loss": 1.6608,
      "step": 17968
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3703175187110901,
      "learning_rate": 0.000543105034487913,
      "loss": 1.7368,
      "step": 17969
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38226622343063354,
      "learning_rate": 0.0005430989099647298,
      "loss": 1.6744,
      "step": 17970
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38510826230049133,
      "learning_rate": 0.0005430927851464603,
      "loss": 1.7896,
      "step": 17971
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3793152868747711,
      "learning_rate": 0.0005430866600331121,
      "loss": 1.7566,
      "step": 17972
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3813348114490509,
      "learning_rate": 0.0005430805346246923,
      "loss": 1.7262,
      "step": 17973
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3804541528224945,
      "learning_rate": 0.0005430744089212088,
      "loss": 1.6891,
      "step": 17974
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3890548050403595,
      "learning_rate": 0.0005430682829226688,
      "loss": 1.7077,
      "step": 17975
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4687497615814209,
      "learning_rate": 0.0005430621566290796,
      "loss": 1.7052,
      "step": 17976
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38184383511543274,
      "learning_rate": 0.0005430560300404486,
      "loss": 1.7784,
      "step": 17977
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3912214934825897,
      "learning_rate": 0.0005430499031567836,
      "loss": 1.7389,
      "step": 17978
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37870752811431885,
      "learning_rate": 0.0005430437759780918,
      "loss": 1.6166,
      "step": 17979
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36959290504455566,
      "learning_rate": 0.0005430376485043806,
      "loss": 1.7086,
      "step": 17980
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37494033575057983,
      "learning_rate": 0.0005430315207356576,
      "loss": 1.6627,
      "step": 17981
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39021241664886475,
      "learning_rate": 0.0005430253926719302,
      "loss": 1.6731,
      "step": 17982
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.385170042514801,
      "learning_rate": 0.0005430192643132056,
      "loss": 1.7226,
      "step": 17983
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.386078417301178,
      "learning_rate": 0.0005430131356594915,
      "loss": 1.6939,
      "step": 17984
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.42065051198005676,
      "learning_rate": 0.0005430070067107953,
      "loss": 1.7827,
      "step": 17985
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3842649459838867,
      "learning_rate": 0.0005430008774671243,
      "loss": 1.7366,
      "step": 17986
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3865578770637512,
      "learning_rate": 0.0005429947479284862,
      "loss": 1.6719,
      "step": 17987
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37940916419029236,
      "learning_rate": 0.0005429886180948881,
      "loss": 1.6938,
      "step": 17988
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.429695725440979,
      "learning_rate": 0.0005429824879663377,
      "loss": 1.7012,
      "step": 17989
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37395498156547546,
      "learning_rate": 0.0005429763575428424,
      "loss": 1.7088,
      "step": 17990
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37466150522232056,
      "learning_rate": 0.0005429702268244096,
      "loss": 1.6911,
      "step": 17991
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3890034556388855,
      "learning_rate": 0.0005429640958110467,
      "loss": 1.7215,
      "step": 17992
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.377899169921875,
      "learning_rate": 0.0005429579645027611,
      "loss": 1.6615,
      "step": 17993
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3988751173019409,
      "learning_rate": 0.0005429518328995605,
      "loss": 1.7397,
      "step": 17994
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38379397988319397,
      "learning_rate": 0.0005429457010014521,
      "loss": 1.7659,
      "step": 17995
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.40171852707862854,
      "learning_rate": 0.0005429395688084434,
      "loss": 1.7882,
      "step": 17996
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39324480295181274,
      "learning_rate": 0.0005429334363205419,
      "loss": 1.7627,
      "step": 17997
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38936370611190796,
      "learning_rate": 0.000542927303537755,
      "loss": 1.7016,
      "step": 17998
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37704506516456604,
      "learning_rate": 0.00054292117046009,
      "loss": 1.6646,
      "step": 17999
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38254180550575256,
      "learning_rate": 0.0005429150370875547,
      "loss": 1.7003,
      "step": 18000
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3956177234649658,
      "learning_rate": 0.0005429089034201562,
      "loss": 1.624,
      "step": 18001
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3941130042076111,
      "learning_rate": 0.0005429027694579022,
      "loss": 1.716,
      "step": 18002
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4051567614078522,
      "learning_rate": 0.0005428966352007999,
      "loss": 1.7791,
      "step": 18003
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3746194839477539,
      "learning_rate": 0.000542890500648857,
      "loss": 1.7046,
      "step": 18004
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4079360365867615,
      "learning_rate": 0.0005428843658020808,
      "loss": 1.7561,
      "step": 18005
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3793487846851349,
      "learning_rate": 0.0005428782306604787,
      "loss": 1.6941,
      "step": 18006
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3721170425415039,
      "learning_rate": 0.0005428720952240581,
      "loss": 1.7326,
      "step": 18007
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39932432770729065,
      "learning_rate": 0.0005428659594928268,
      "loss": 1.6899,
      "step": 18008
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37159422039985657,
      "learning_rate": 0.000542859823466792,
      "loss": 1.719,
      "step": 18009
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3779778778553009,
      "learning_rate": 0.000542853687145961,
      "loss": 1.7142,
      "step": 18010
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3880997896194458,
      "learning_rate": 0.0005428475505303415,
      "loss": 1.7416,
      "step": 18011
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38951486349105835,
      "learning_rate": 0.0005428414136199408,
      "loss": 1.7785,
      "step": 18012
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37177035212516785,
      "learning_rate": 0.0005428352764147664,
      "loss": 1.6939,
      "step": 18013
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.386713445186615,
      "learning_rate": 0.0005428291389148258,
      "loss": 1.7052,
      "step": 18014
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3797593414783478,
      "learning_rate": 0.0005428230011201263,
      "loss": 1.6713,
      "step": 18015
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36643165349960327,
      "learning_rate": 0.0005428168630306757,
      "loss": 1.6853,
      "step": 18016
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3800695538520813,
      "learning_rate": 0.000542810724646481,
      "loss": 1.7295,
      "step": 18017
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37891507148742676,
      "learning_rate": 0.00054280458596755,
      "loss": 1.7278,
      "step": 18018
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39360716938972473,
      "learning_rate": 0.0005427984469938899,
      "loss": 1.7746,
      "step": 18019
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3790583908557892,
      "learning_rate": 0.0005427923077255082,
      "loss": 1.6938,
      "step": 18020
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3750154674053192,
      "learning_rate": 0.0005427861681624126,
      "loss": 1.713,
      "step": 18021
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3675163686275482,
      "learning_rate": 0.0005427800283046102,
      "loss": 1.6634,
      "step": 18022
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36375585198402405,
      "learning_rate": 0.0005427738881521086,
      "loss": 1.6119,
      "step": 18023
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3820100426673889,
      "learning_rate": 0.0005427677477049153,
      "loss": 1.7316,
      "step": 18024
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3684805631637573,
      "learning_rate": 0.0005427616069630379,
      "loss": 1.6747,
      "step": 18025
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39117375016212463,
      "learning_rate": 0.0005427554659264835,
      "loss": 1.7285,
      "step": 18026
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3744255304336548,
      "learning_rate": 0.0005427493245952598,
      "loss": 1.6756,
      "step": 18027
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37691983580589294,
      "learning_rate": 0.0005427431829693742,
      "loss": 1.725,
      "step": 18028
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37824690341949463,
      "learning_rate": 0.0005427370410488341,
      "loss": 1.7457,
      "step": 18029
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3777252733707428,
      "learning_rate": 0.000542730898833647,
      "loss": 1.6622,
      "step": 18030
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3784559369087219,
      "learning_rate": 0.0005427247563238204,
      "loss": 1.7353,
      "step": 18031
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3875924348831177,
      "learning_rate": 0.0005427186135193616,
      "loss": 1.6843,
      "step": 18032
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3701660931110382,
      "learning_rate": 0.0005427124704202782,
      "loss": 1.6687,
      "step": 18033
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3727085590362549,
      "learning_rate": 0.0005427063270265777,
      "loss": 1.6736,
      "step": 18034
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4885094463825226,
      "learning_rate": 0.0005427001833382674,
      "loss": 1.7383,
      "step": 18035
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3853739798069,
      "learning_rate": 0.0005426940393553549,
      "loss": 1.8055,
      "step": 18036
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3808540999889374,
      "learning_rate": 0.0005426878950778476,
      "loss": 1.6216,
      "step": 18037
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3645066022872925,
      "learning_rate": 0.0005426817505057529,
      "loss": 1.6933,
      "step": 18038
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3758292496204376,
      "learning_rate": 0.0005426756056390783,
      "loss": 1.7344,
      "step": 18039
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3713676631450653,
      "learning_rate": 0.0005426694604778314,
      "loss": 1.7179,
      "step": 18040
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37498947978019714,
      "learning_rate": 0.0005426633150220194,
      "loss": 1.694,
      "step": 18041
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3803807497024536,
      "learning_rate": 0.00054265716927165,
      "loss": 1.6543,
      "step": 18042
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37354469299316406,
      "learning_rate": 0.0005426510232267304,
      "loss": 1.7527,
      "step": 18043
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37629231810569763,
      "learning_rate": 0.0005426448768872683,
      "loss": 1.6834,
      "step": 18044
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38075169920921326,
      "learning_rate": 0.0005426387302532711,
      "loss": 1.7737,
      "step": 18045
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37371519207954407,
      "learning_rate": 0.0005426325833247462,
      "loss": 1.7179,
      "step": 18046
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4419279098510742,
      "learning_rate": 0.000542626436101701,
      "loss": 1.6417,
      "step": 18047
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.386674702167511,
      "learning_rate": 0.0005426202885841432,
      "loss": 1.6602,
      "step": 18048
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3830637037754059,
      "learning_rate": 0.00054261414077208,
      "loss": 1.6891,
      "step": 18049
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38733547925949097,
      "learning_rate": 0.0005426079926655192,
      "loss": 1.6172,
      "step": 18050
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3831767737865448,
      "learning_rate": 0.0005426018442644678,
      "loss": 1.7567,
      "step": 18051
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3961534798145294,
      "learning_rate": 0.0005425956955689336,
      "loss": 1.7178,
      "step": 18052
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38877347111701965,
      "learning_rate": 0.0005425895465789239,
      "loss": 1.7523,
      "step": 18053
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38292911648750305,
      "learning_rate": 0.0005425833972944464,
      "loss": 1.7453,
      "step": 18054
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38326820731163025,
      "learning_rate": 0.0005425772477155082,
      "loss": 1.69,
      "step": 18055
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.504759669303894,
      "learning_rate": 0.0005425710978421172,
      "loss": 1.6508,
      "step": 18056
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36941367387771606,
      "learning_rate": 0.0005425649476742805,
      "loss": 1.6783,
      "step": 18057
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36944302916526794,
      "learning_rate": 0.0005425587972120056,
      "loss": 1.7362,
      "step": 18058
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39554929733276367,
      "learning_rate": 0.0005425526464553002,
      "loss": 1.739,
      "step": 18059
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3670552372932434,
      "learning_rate": 0.0005425464954041714,
      "loss": 1.6923,
      "step": 18060
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3643459379673004,
      "learning_rate": 0.0005425403440586272,
      "loss": 1.7554,
      "step": 18061
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3878564238548279,
      "learning_rate": 0.0005425341924186745,
      "loss": 1.7458,
      "step": 18062
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3763064742088318,
      "learning_rate": 0.0005425280404843213,
      "loss": 1.6949,
      "step": 18063
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3868258595466614,
      "learning_rate": 0.0005425218882555746,
      "loss": 1.7341,
      "step": 18064
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38017359375953674,
      "learning_rate": 0.0005425157357324421,
      "loss": 1.6876,
      "step": 18065
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3770804703235626,
      "learning_rate": 0.0005425095829149312,
      "loss": 1.6961,
      "step": 18066
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37850579619407654,
      "learning_rate": 0.0005425034298030494,
      "loss": 1.7164,
      "step": 18067
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3777295649051666,
      "learning_rate": 0.0005424972763968043,
      "loss": 1.7044,
      "step": 18068
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38624340295791626,
      "learning_rate": 0.0005424911226962031,
      "loss": 1.6641,
      "step": 18069
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3919607102870941,
      "learning_rate": 0.0005424849687012534,
      "loss": 1.6142,
      "step": 18070
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3672814667224884,
      "learning_rate": 0.0005424788144119628,
      "loss": 1.6985,
      "step": 18071
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38828137516975403,
      "learning_rate": 0.0005424726598283385,
      "loss": 1.7499,
      "step": 18072
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3736506402492523,
      "learning_rate": 0.0005424665049503883,
      "loss": 1.7131,
      "step": 18073
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38105708360671997,
      "learning_rate": 0.0005424603497781193,
      "loss": 1.7095,
      "step": 18074
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37449222803115845,
      "learning_rate": 0.0005424541943115392,
      "loss": 1.6695,
      "step": 18075
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3663686513900757,
      "learning_rate": 0.0005424480385506555,
      "loss": 1.6769,
      "step": 18076
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3784230351448059,
      "learning_rate": 0.0005424418824954755,
      "loss": 1.7355,
      "step": 18077
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38786351680755615,
      "learning_rate": 0.0005424357261460069,
      "loss": 1.69,
      "step": 18078
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3763580322265625,
      "learning_rate": 0.000542429569502257,
      "loss": 1.6705,
      "step": 18079
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3717523515224457,
      "learning_rate": 0.0005424234125642333,
      "loss": 1.6358,
      "step": 18080
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3834586441516876,
      "learning_rate": 0.0005424172553319433,
      "loss": 1.7252,
      "step": 18081
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36529290676116943,
      "learning_rate": 0.0005424110978053944,
      "loss": 1.6728,
      "step": 18082
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39498743414878845,
      "learning_rate": 0.0005424049399845943,
      "loss": 1.7455,
      "step": 18083
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3869152069091797,
      "learning_rate": 0.0005423987818695503,
      "loss": 1.6836,
      "step": 18084
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5081777572631836,
      "learning_rate": 0.0005423926234602698,
      "loss": 1.6984,
      "step": 18085
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3822149634361267,
      "learning_rate": 0.0005423864647567604,
      "loss": 1.7465,
      "step": 18086
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39001116156578064,
      "learning_rate": 0.0005423803057590296,
      "loss": 1.7467,
      "step": 18087
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38200467824935913,
      "learning_rate": 0.0005423741464670848,
      "loss": 1.6945,
      "step": 18088
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3801671266555786,
      "learning_rate": 0.0005423679868809335,
      "loss": 1.8001,
      "step": 18089
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38222771883010864,
      "learning_rate": 0.0005423618270005831,
      "loss": 1.6841,
      "step": 18090
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3824184834957123,
      "learning_rate": 0.0005423556668260412,
      "loss": 1.6486,
      "step": 18091
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3708847463130951,
      "learning_rate": 0.0005423495063573153,
      "loss": 1.6068,
      "step": 18092
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3726867139339447,
      "learning_rate": 0.0005423433455944127,
      "loss": 1.6579,
      "step": 18093
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3763466477394104,
      "learning_rate": 0.0005423371845373411,
      "loss": 1.6674,
      "step": 18094
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3760164976119995,
      "learning_rate": 0.0005423310231861077,
      "loss": 1.7594,
      "step": 18095
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.378154993057251,
      "learning_rate": 0.0005423248615407203,
      "loss": 1.6551,
      "step": 18096
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.40688517689704895,
      "learning_rate": 0.0005423186996011862,
      "loss": 1.7437,
      "step": 18097
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3849441111087799,
      "learning_rate": 0.0005423125373675128,
      "loss": 1.6924,
      "step": 18098
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39202576875686646,
      "learning_rate": 0.0005423063748397078,
      "loss": 1.7432,
      "step": 18099
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3710360527038574,
      "learning_rate": 0.0005423002120177785,
      "loss": 1.7425,
      "step": 18100
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36707553267478943,
      "learning_rate": 0.0005422940489017324,
      "loss": 1.6282,
      "step": 18101
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3768537938594818,
      "learning_rate": 0.0005422878854915771,
      "loss": 1.7068,
      "step": 18102
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3786959946155548,
      "learning_rate": 0.0005422817217873199,
      "loss": 1.695,
      "step": 18103
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37425023317337036,
      "learning_rate": 0.0005422755577889685,
      "loss": 1.7268,
      "step": 18104
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37773042917251587,
      "learning_rate": 0.0005422693934965302,
      "loss": 1.7138,
      "step": 18105
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.43831977248191833,
      "learning_rate": 0.0005422632289100127,
      "loss": 1.7264,
      "step": 18106
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3658294081687927,
      "learning_rate": 0.0005422570640294232,
      "loss": 1.6601,
      "step": 18107
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37321552634239197,
      "learning_rate": 0.0005422508988547694,
      "loss": 1.7686,
      "step": 18108
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3657981753349304,
      "learning_rate": 0.0005422447333860586,
      "loss": 1.6345,
      "step": 18109
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37090152502059937,
      "learning_rate": 0.0005422385676232984,
      "loss": 1.6845,
      "step": 18110
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3730534315109253,
      "learning_rate": 0.0005422324015664964,
      "loss": 1.6935,
      "step": 18111
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3696483373641968,
      "learning_rate": 0.0005422262352156598,
      "loss": 1.6976,
      "step": 18112
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36857327818870544,
      "learning_rate": 0.0005422200685707963,
      "loss": 1.7381,
      "step": 18113
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3706001937389374,
      "learning_rate": 0.0005422139016319134,
      "loss": 1.6637,
      "step": 18114
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37734150886535645,
      "learning_rate": 0.0005422077343990184,
      "loss": 1.7402,
      "step": 18115
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3776077330112457,
      "learning_rate": 0.000542201566872119,
      "loss": 1.7136,
      "step": 18116
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3874751627445221,
      "learning_rate": 0.0005421953990512225,
      "loss": 1.7656,
      "step": 18117
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37467822432518005,
      "learning_rate": 0.0005421892309363365,
      "loss": 1.7508,
      "step": 18118
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.41347336769104004,
      "learning_rate": 0.0005421830625274685,
      "loss": 1.7262,
      "step": 18119
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3860364258289337,
      "learning_rate": 0.0005421768938246259,
      "loss": 1.7312,
      "step": 18120
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3835039436817169,
      "learning_rate": 0.0005421707248278163,
      "loss": 1.7363,
      "step": 18121
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3821853697299957,
      "learning_rate": 0.000542164555537047,
      "loss": 1.6795,
      "step": 18122
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3803599774837494,
      "learning_rate": 0.0005421583859523256,
      "loss": 1.693,
      "step": 18123
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3867567479610443,
      "learning_rate": 0.0005421522160736598,
      "loss": 1.6702,
      "step": 18124
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.491141140460968,
      "learning_rate": 0.0005421460459010567,
      "loss": 1.714,
      "step": 18125
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3897732198238373,
      "learning_rate": 0.000542139875434524,
      "loss": 1.6751,
      "step": 18126
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3968020975589752,
      "learning_rate": 0.0005421337046740693,
      "loss": 1.6747,
      "step": 18127
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39158764481544495,
      "learning_rate": 0.0005421275336196999,
      "loss": 1.7394,
      "step": 18128
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37814196944236755,
      "learning_rate": 0.0005421213622714232,
      "loss": 1.6736,
      "step": 18129
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3769155442714691,
      "learning_rate": 0.000542115190629247,
      "loss": 1.7289,
      "step": 18130
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37769994139671326,
      "learning_rate": 0.0005421090186931786,
      "loss": 1.7802,
      "step": 18131
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3858102858066559,
      "learning_rate": 0.0005421028464632255,
      "loss": 1.7119,
      "step": 18132
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3765445053577423,
      "learning_rate": 0.0005420966739393952,
      "loss": 1.7032,
      "step": 18133
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39587265253067017,
      "learning_rate": 0.0005420905011216953,
      "loss": 1.6708,
      "step": 18134
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39289185404777527,
      "learning_rate": 0.0005420843280101331,
      "loss": 1.6539,
      "step": 18135
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37910354137420654,
      "learning_rate": 0.0005420781546047163,
      "loss": 1.7502,
      "step": 18136
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3763631284236908,
      "learning_rate": 0.0005420719809054522,
      "loss": 1.6974,
      "step": 18137
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3761470913887024,
      "learning_rate": 0.0005420658069123483,
      "loss": 1.6484,
      "step": 18138
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3763786852359772,
      "learning_rate": 0.0005420596326254124,
      "loss": 1.6343,
      "step": 18139
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38032278418540955,
      "learning_rate": 0.0005420534580446517,
      "loss": 1.7197,
      "step": 18140
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3783878684043884,
      "learning_rate": 0.0005420472831700737,
      "loss": 1.6587,
      "step": 18141
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37874552607536316,
      "learning_rate": 0.000542041108001686,
      "loss": 1.8017,
      "step": 18142
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3921387791633606,
      "learning_rate": 0.0005420349325394961,
      "loss": 1.6984,
      "step": 18143
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3743307888507843,
      "learning_rate": 0.0005420287567835114,
      "loss": 1.7188,
      "step": 18144
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37726661562919617,
      "learning_rate": 0.0005420225807337394,
      "loss": 1.7032,
      "step": 18145
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37767261266708374,
      "learning_rate": 0.0005420164043901877,
      "loss": 1.7553,
      "step": 18146
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3820574879646301,
      "learning_rate": 0.0005420102277528638,
      "loss": 1.7357,
      "step": 18147
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37206706404685974,
      "learning_rate": 0.0005420040508217751,
      "loss": 1.7506,
      "step": 18148
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38637709617614746,
      "learning_rate": 0.000541997873596929,
      "loss": 1.8026,
      "step": 18149
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3790799677371979,
      "learning_rate": 0.0005419916960783332,
      "loss": 1.7085,
      "step": 18150
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3643442988395691,
      "learning_rate": 0.0005419855182659953,
      "loss": 1.7701,
      "step": 18151
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37842071056365967,
      "learning_rate": 0.0005419793401599225,
      "loss": 1.6928,
      "step": 18152
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38136544823646545,
      "learning_rate": 0.0005419731617601225,
      "loss": 1.7137,
      "step": 18153
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37456822395324707,
      "learning_rate": 0.0005419669830666027,
      "loss": 1.7274,
      "step": 18154
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3927616477012634,
      "learning_rate": 0.0005419608040793707,
      "loss": 1.697,
      "step": 18155
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3729984164237976,
      "learning_rate": 0.0005419546247984338,
      "loss": 1.6457,
      "step": 18156
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5472245216369629,
      "learning_rate": 0.0005419484452237998,
      "loss": 1.6865,
      "step": 18157
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3766993284225464,
      "learning_rate": 0.0005419422653554759,
      "loss": 1.6729,
      "step": 18158
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38817769289016724,
      "learning_rate": 0.0005419360851934698,
      "loss": 1.7968,
      "step": 18159
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38938823342323303,
      "learning_rate": 0.0005419299047377889,
      "loss": 1.6947,
      "step": 18160
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3799092769622803,
      "learning_rate": 0.0005419237239884407,
      "loss": 1.7296,
      "step": 18161
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3782106935977936,
      "learning_rate": 0.0005419175429454329,
      "loss": 1.7446,
      "step": 18162
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3858602046966553,
      "learning_rate": 0.0005419113616087727,
      "loss": 1.77,
      "step": 18163
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3997557461261749,
      "learning_rate": 0.0005419051799784679,
      "loss": 1.7139,
      "step": 18164
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39841359853744507,
      "learning_rate": 0.0005418989980545258,
      "loss": 1.7659,
      "step": 18165
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4035065174102783,
      "learning_rate": 0.0005418928158369539,
      "loss": 1.6757,
      "step": 18166
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3867494463920593,
      "learning_rate": 0.0005418866333257598,
      "loss": 1.7467,
      "step": 18167
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3702780306339264,
      "learning_rate": 0.0005418804505209508,
      "loss": 1.7024,
      "step": 18168
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3839711546897888,
      "learning_rate": 0.0005418742674225349,
      "loss": 1.7035,
      "step": 18169
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.382153183221817,
      "learning_rate": 0.0005418680840305191,
      "loss": 1.6928,
      "step": 18170
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37324079871177673,
      "learning_rate": 0.000541861900344911,
      "loss": 1.627,
      "step": 18171
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38311758637428284,
      "learning_rate": 0.0005418557163657183,
      "loss": 1.5891,
      "step": 18172
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38349974155426025,
      "learning_rate": 0.0005418495320929484,
      "loss": 1.7038,
      "step": 18173
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.38541486859321594,
      "learning_rate": 0.0005418433475266088,
      "loss": 1.706,
      "step": 18174
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3805297017097473,
      "learning_rate": 0.000541837162666707,
      "loss": 1.7059,
      "step": 18175
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3814089894294739,
      "learning_rate": 0.0005418309775132506,
      "loss": 1.6608,
      "step": 18176
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36976906657218933,
      "learning_rate": 0.0005418247920662469,
      "loss": 1.6344,
      "step": 18177
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39080488681793213,
      "learning_rate": 0.0005418186063257034,
      "loss": 1.6495,
      "step": 18178
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3800171911716461,
      "learning_rate": 0.0005418124202916279,
      "loss": 1.7336,
      "step": 18179
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37651801109313965,
      "learning_rate": 0.0005418062339640279,
      "loss": 1.7276,
      "step": 18180
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3839239478111267,
      "learning_rate": 0.0005418000473429106,
      "loss": 1.6918,
      "step": 18181
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.37365734577178955,
      "learning_rate": 0.0005417938604282837,
      "loss": 1.646,
      "step": 18182
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3651956617832184,
      "learning_rate": 0.0005417876732201546,
      "loss": 1.6914,
      "step": 18183
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3806048333644867,
      "learning_rate": 0.000541781485718531,
      "loss": 1.7325,
      "step": 18184
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3745276927947998,
      "learning_rate": 0.0005417752979234203,
      "loss": 1.6492,
      "step": 18185
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38150352239608765,
      "learning_rate": 0.0005417691098348299,
      "loss": 1.7588,
      "step": 18186
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3794604241847992,
      "learning_rate": 0.0005417629214527675,
      "loss": 1.7551,
      "step": 18187
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38260823488235474,
      "learning_rate": 0.0005417567327772406,
      "loss": 1.7413,
      "step": 18188
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40206530690193176,
      "learning_rate": 0.0005417505438082566,
      "loss": 1.7583,
      "step": 18189
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39677101373672485,
      "learning_rate": 0.000541744354545823,
      "loss": 1.6845,
      "step": 18190
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4036082327365875,
      "learning_rate": 0.0005417381649899474,
      "loss": 1.7225,
      "step": 18191
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38019299507141113,
      "learning_rate": 0.0005417319751406373,
      "loss": 1.7692,
      "step": 18192
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37642282247543335,
      "learning_rate": 0.0005417257849979002,
      "loss": 1.6868,
      "step": 18193
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3898729979991913,
      "learning_rate": 0.0005417195945617436,
      "loss": 1.6683,
      "step": 18194
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3790401518344879,
      "learning_rate": 0.0005417134038321751,
      "loss": 1.6945,
      "step": 18195
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3821958601474762,
      "learning_rate": 0.000541707212809202,
      "loss": 1.7119,
      "step": 18196
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38515666127204895,
      "learning_rate": 0.000541701021492832,
      "loss": 1.7369,
      "step": 18197
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3924822509288788,
      "learning_rate": 0.0005416948298830728,
      "loss": 1.6658,
      "step": 18198
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3991844952106476,
      "learning_rate": 0.0005416886379799315,
      "loss": 1.7306,
      "step": 18199
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3739359378814697,
      "learning_rate": 0.0005416824457834158,
      "loss": 1.6844,
      "step": 18200
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3758500814437866,
      "learning_rate": 0.0005416762532935331,
      "loss": 1.6957,
      "step": 18201
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37563708424568176,
      "learning_rate": 0.0005416700605102912,
      "loss": 1.6211,
      "step": 18202
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3838375210762024,
      "learning_rate": 0.0005416638674336974,
      "loss": 1.7593,
      "step": 18203
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38197973370552063,
      "learning_rate": 0.0005416576740637593,
      "loss": 1.7003,
      "step": 18204
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3819921314716339,
      "learning_rate": 0.0005416514804004843,
      "loss": 1.7565,
      "step": 18205
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3794940710067749,
      "learning_rate": 0.0005416452864438802,
      "loss": 1.7919,
      "step": 18206
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3808622360229492,
      "learning_rate": 0.0005416390921939542,
      "loss": 1.749,
      "step": 18207
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3899978697299957,
      "learning_rate": 0.000541632897650714,
      "loss": 1.7668,
      "step": 18208
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37713658809661865,
      "learning_rate": 0.000541626702814167,
      "loss": 1.7515,
      "step": 18209
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3692362904548645,
      "learning_rate": 0.0005416205076843208,
      "loss": 1.7191,
      "step": 18210
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3768482804298401,
      "learning_rate": 0.0005416143122611829,
      "loss": 1.7001,
      "step": 18211
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37825649976730347,
      "learning_rate": 0.0005416081165447609,
      "loss": 1.6811,
      "step": 18212
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37555691599845886,
      "learning_rate": 0.0005416019205350622,
      "loss": 1.7289,
      "step": 18213
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3648821711540222,
      "learning_rate": 0.0005415957242320944,
      "loss": 1.7582,
      "step": 18214
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3897411525249481,
      "learning_rate": 0.0005415895276358649,
      "loss": 1.7073,
      "step": 18215
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3831421732902527,
      "learning_rate": 0.0005415833307463813,
      "loss": 1.7093,
      "step": 18216
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3863743245601654,
      "learning_rate": 0.0005415771335636511,
      "loss": 1.7251,
      "step": 18217
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3687783479690552,
      "learning_rate": 0.0005415709360876821,
      "loss": 1.623,
      "step": 18218
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38899990916252136,
      "learning_rate": 0.0005415647383184815,
      "loss": 1.7568,
      "step": 18219
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3817414939403534,
      "learning_rate": 0.0005415585402560567,
      "loss": 1.7304,
      "step": 18220
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3765031099319458,
      "learning_rate": 0.0005415523419004155,
      "loss": 1.6964,
      "step": 18221
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3785797357559204,
      "learning_rate": 0.0005415461432515654,
      "loss": 1.7141,
      "step": 18222
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40087494254112244,
      "learning_rate": 0.0005415399443095139,
      "loss": 1.7109,
      "step": 18223
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40837088227272034,
      "learning_rate": 0.0005415337450742685,
      "loss": 1.7663,
      "step": 18224
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38070085644721985,
      "learning_rate": 0.0005415275455458367,
      "loss": 1.6995,
      "step": 18225
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38352638483047485,
      "learning_rate": 0.0005415213457242259,
      "loss": 1.7038,
      "step": 18226
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4064764082431793,
      "learning_rate": 0.000541515145609444,
      "loss": 1.7387,
      "step": 18227
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3820767104625702,
      "learning_rate": 0.0005415089452014982,
      "loss": 1.703,
      "step": 18228
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3829782009124756,
      "learning_rate": 0.0005415027445003961,
      "loss": 1.71,
      "step": 18229
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3840568959712982,
      "learning_rate": 0.0005414965435061453,
      "loss": 1.7608,
      "step": 18230
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3707422912120819,
      "learning_rate": 0.0005414903422187533,
      "loss": 1.7046,
      "step": 18231
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37678849697113037,
      "learning_rate": 0.0005414841406382275,
      "loss": 1.6657,
      "step": 18232
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3866238296031952,
      "learning_rate": 0.0005414779387645757,
      "loss": 1.6907,
      "step": 18233
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3791753351688385,
      "learning_rate": 0.0005414717365978051,
      "loss": 1.7311,
      "step": 18234
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3941798508167267,
      "learning_rate": 0.0005414655341379234,
      "loss": 1.6926,
      "step": 18235
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38464879989624023,
      "learning_rate": 0.0005414593313849383,
      "loss": 1.6581,
      "step": 18236
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36536046862602234,
      "learning_rate": 0.000541453128338857,
      "loss": 1.7173,
      "step": 18237
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37665143609046936,
      "learning_rate": 0.0005414469249996872,
      "loss": 1.7634,
      "step": 18238
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37752455472946167,
      "learning_rate": 0.0005414407213674363,
      "loss": 1.685,
      "step": 18239
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3827034831047058,
      "learning_rate": 0.0005414345174421121,
      "loss": 1.7407,
      "step": 18240
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3834344744682312,
      "learning_rate": 0.000541428313223722,
      "loss": 1.746,
      "step": 18241
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3821960389614105,
      "learning_rate": 0.0005414221087122733,
      "loss": 1.8362,
      "step": 18242
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39063361287117004,
      "learning_rate": 0.0005414159039077739,
      "loss": 1.7025,
      "step": 18243
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38485726714134216,
      "learning_rate": 0.0005414096988102311,
      "loss": 1.7171,
      "step": 18244
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.375528484582901,
      "learning_rate": 0.0005414034934196524,
      "loss": 1.706,
      "step": 18245
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3821452856063843,
      "learning_rate": 0.0005413972877360456,
      "loss": 1.6683,
      "step": 18246
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36482661962509155,
      "learning_rate": 0.000541391081759418,
      "loss": 1.695,
      "step": 18247
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39107853174209595,
      "learning_rate": 0.0005413848754897773,
      "loss": 1.7452,
      "step": 18248
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3885768949985504,
      "learning_rate": 0.0005413786689271307,
      "loss": 1.6614,
      "step": 18249
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38851839303970337,
      "learning_rate": 0.0005413724620714861,
      "loss": 1.7017,
      "step": 18250
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3932552635669708,
      "learning_rate": 0.0005413662549228509,
      "loss": 1.7417,
      "step": 18251
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37362709641456604,
      "learning_rate": 0.0005413600474812327,
      "loss": 1.6378,
      "step": 18252
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37158966064453125,
      "learning_rate": 0.0005413538397466388,
      "loss": 1.6839,
      "step": 18253
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38369035720825195,
      "learning_rate": 0.000541347631719077,
      "loss": 1.7872,
      "step": 18254
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3806855082511902,
      "learning_rate": 0.0005413414233985547,
      "loss": 1.6832,
      "step": 18255
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3912000358104706,
      "learning_rate": 0.0005413352147850795,
      "loss": 1.7646,
      "step": 18256
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3916289210319519,
      "learning_rate": 0.0005413290058786588,
      "loss": 1.7122,
      "step": 18257
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39344334602355957,
      "learning_rate": 0.0005413227966793003,
      "loss": 1.7183,
      "step": 18258
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.374724805355072,
      "learning_rate": 0.0005413165871870116,
      "loss": 1.7432,
      "step": 18259
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36742082238197327,
      "learning_rate": 0.0005413103774018001,
      "loss": 1.6979,
      "step": 18260
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3780972957611084,
      "learning_rate": 0.0005413041673236732,
      "loss": 1.5928,
      "step": 18261
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38195130228996277,
      "learning_rate": 0.0005412979569526387,
      "loss": 1.7125,
      "step": 18262
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38890036940574646,
      "learning_rate": 0.000541291746288704,
      "loss": 1.6995,
      "step": 18263
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.370990127325058,
      "learning_rate": 0.0005412855353318768,
      "loss": 1.7497,
      "step": 18264
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37827348709106445,
      "learning_rate": 0.0005412793240821643,
      "loss": 1.7377,
      "step": 18265
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38110771775245667,
      "learning_rate": 0.0005412731125395744,
      "loss": 1.6924,
      "step": 18266
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3794431686401367,
      "learning_rate": 0.0005412669007041145,
      "loss": 1.7491,
      "step": 18267
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36839139461517334,
      "learning_rate": 0.000541260688575792,
      "loss": 1.7392,
      "step": 18268
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.383169025182724,
      "learning_rate": 0.0005412544761546147,
      "loss": 1.7998,
      "step": 18269
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3685254156589508,
      "learning_rate": 0.0005412482634405899,
      "loss": 1.6743,
      "step": 18270
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3691757917404175,
      "learning_rate": 0.0005412420504337254,
      "loss": 1.671,
      "step": 18271
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3777576684951782,
      "learning_rate": 0.0005412358371340285,
      "loss": 1.7267,
      "step": 18272
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38196754455566406,
      "learning_rate": 0.0005412296235415068,
      "loss": 1.676,
      "step": 18273
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3867906332015991,
      "learning_rate": 0.000541223409656168,
      "loss": 1.7701,
      "step": 18274
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38088855147361755,
      "learning_rate": 0.0005412171954780194,
      "loss": 1.6567,
      "step": 18275
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37497541308403015,
      "learning_rate": 0.0005412109810070687,
      "loss": 1.6924,
      "step": 18276
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40023982524871826,
      "learning_rate": 0.0005412047662433236,
      "loss": 1.7366,
      "step": 18277
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3709084689617157,
      "learning_rate": 0.0005411985511867912,
      "loss": 1.7118,
      "step": 18278
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3730846643447876,
      "learning_rate": 0.0005411923358374794,
      "loss": 1.7641,
      "step": 18279
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39296066761016846,
      "learning_rate": 0.0005411861201953956,
      "loss": 1.7395,
      "step": 18280
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3865194618701935,
      "learning_rate": 0.0005411799042605474,
      "loss": 1.7419,
      "step": 18281
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3743893504142761,
      "learning_rate": 0.0005411736880329423,
      "loss": 1.7395,
      "step": 18282
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37919026613235474,
      "learning_rate": 0.000541167471512588,
      "loss": 1.6312,
      "step": 18283
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3781138062477112,
      "learning_rate": 0.0005411612546994918,
      "loss": 1.7122,
      "step": 18284
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3923700451850891,
      "learning_rate": 0.0005411550375936615,
      "loss": 1.7443,
      "step": 18285
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3850342929363251,
      "learning_rate": 0.0005411488201951044,
      "loss": 1.7289,
      "step": 18286
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38144350051879883,
      "learning_rate": 0.0005411426025038282,
      "loss": 1.7798,
      "step": 18287
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.41501712799072266,
      "learning_rate": 0.0005411363845198403,
      "loss": 1.7246,
      "step": 18288
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3683452904224396,
      "learning_rate": 0.0005411301662431486,
      "loss": 1.6286,
      "step": 18289
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3710126280784607,
      "learning_rate": 0.0005411239476737602,
      "loss": 1.7519,
      "step": 18290
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3753598928451538,
      "learning_rate": 0.000541117728811683,
      "loss": 1.6698,
      "step": 18291
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3871189057826996,
      "learning_rate": 0.0005411115096569243,
      "loss": 1.7704,
      "step": 18292
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3693109452724457,
      "learning_rate": 0.0005411052902094918,
      "loss": 1.7449,
      "step": 18293
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37778615951538086,
      "learning_rate": 0.000541099070469393,
      "loss": 1.6251,
      "step": 18294
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3710055947303772,
      "learning_rate": 0.0005410928504366355,
      "loss": 1.7891,
      "step": 18295
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3780425786972046,
      "learning_rate": 0.0005410866301112267,
      "loss": 1.6777,
      "step": 18296
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3783504068851471,
      "learning_rate": 0.0005410804094931744,
      "loss": 1.7175,
      "step": 18297
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37873002886772156,
      "learning_rate": 0.0005410741885824858,
      "loss": 1.7929,
      "step": 18298
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37993568181991577,
      "learning_rate": 0.0005410679673791689,
      "loss": 1.6721,
      "step": 18299
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3819240927696228,
      "learning_rate": 0.0005410617458832307,
      "loss": 1.7288,
      "step": 18300
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36879879236221313,
      "learning_rate": 0.0005410555240946793,
      "loss": 1.6283,
      "step": 18301
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38220521807670593,
      "learning_rate": 0.0005410493020135219,
      "loss": 1.7155,
      "step": 18302
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3925171494483948,
      "learning_rate": 0.0005410430796397662,
      "loss": 1.6963,
      "step": 18303
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3779829740524292,
      "learning_rate": 0.0005410368569734197,
      "loss": 1.7762,
      "step": 18304
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3887748718261719,
      "learning_rate": 0.0005410306340144901,
      "loss": 1.7613,
      "step": 18305
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38073763251304626,
      "learning_rate": 0.0005410244107629847,
      "loss": 1.7436,
      "step": 18306
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4151461720466614,
      "learning_rate": 0.0005410181872189113,
      "loss": 1.7033,
      "step": 18307
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3667604625225067,
      "learning_rate": 0.0005410119633822772,
      "loss": 1.7082,
      "step": 18308
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38401445746421814,
      "learning_rate": 0.0005410057392530901,
      "loss": 1.7363,
      "step": 18309
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3771235942840576,
      "learning_rate": 0.0005409995148313575,
      "loss": 1.7213,
      "step": 18310
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.381900429725647,
      "learning_rate": 0.0005409932901170871,
      "loss": 1.6741,
      "step": 18311
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3722119927406311,
      "learning_rate": 0.0005409870651102862,
      "loss": 1.7264,
      "step": 18312
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.55373615026474,
      "learning_rate": 0.0005409808398109627,
      "loss": 1.8047,
      "step": 18313
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39013317227363586,
      "learning_rate": 0.0005409746142191239,
      "loss": 1.7871,
      "step": 18314
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3706546127796173,
      "learning_rate": 0.0005409683883347774,
      "loss": 1.7144,
      "step": 18315
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38756299018859863,
      "learning_rate": 0.0005409621621579307,
      "loss": 1.7502,
      "step": 18316
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37992170453071594,
      "learning_rate": 0.0005409559356885917,
      "loss": 1.7405,
      "step": 18317
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3826941251754761,
      "learning_rate": 0.0005409497089267674,
      "loss": 1.7338,
      "step": 18318
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3776135742664337,
      "learning_rate": 0.0005409434818724659,
      "loss": 1.6995,
      "step": 18319
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37983134388923645,
      "learning_rate": 0.0005409372545256944,
      "loss": 1.6986,
      "step": 18320
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3816929757595062,
      "learning_rate": 0.0005409310268864605,
      "loss": 1.7065,
      "step": 18321
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39661088585853577,
      "learning_rate": 0.0005409247989547719,
      "loss": 1.6531,
      "step": 18322
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3819397985935211,
      "learning_rate": 0.0005409185707306362,
      "loss": 1.7392,
      "step": 18323
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37567082047462463,
      "learning_rate": 0.0005409123422140607,
      "loss": 1.7265,
      "step": 18324
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3628156781196594,
      "learning_rate": 0.0005409061134050532,
      "loss": 1.6479,
      "step": 18325
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38477468490600586,
      "learning_rate": 0.0005408998843036212,
      "loss": 1.7032,
      "step": 18326
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38920465111732483,
      "learning_rate": 0.0005408936549097721,
      "loss": 1.659,
      "step": 18327
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37988728284835815,
      "learning_rate": 0.0005408874252235137,
      "loss": 1.6573,
      "step": 18328
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36763903498649597,
      "learning_rate": 0.0005408811952448534,
      "loss": 1.7086,
      "step": 18329
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3809390068054199,
      "learning_rate": 0.0005408749649737989,
      "loss": 1.7398,
      "step": 18330
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37184467911720276,
      "learning_rate": 0.0005408687344103576,
      "loss": 1.6991,
      "step": 18331
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37795087695121765,
      "learning_rate": 0.0005408625035545372,
      "loss": 1.6398,
      "step": 18332
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3774641752243042,
      "learning_rate": 0.0005408562724063452,
      "loss": 1.6777,
      "step": 18333
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3783787488937378,
      "learning_rate": 0.0005408500409657892,
      "loss": 1.7485,
      "step": 18334
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3840293884277344,
      "learning_rate": 0.0005408438092328766,
      "loss": 1.7009,
      "step": 18335
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3736238181591034,
      "learning_rate": 0.0005408375772076153,
      "loss": 1.6923,
      "step": 18336
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3722653388977051,
      "learning_rate": 0.0005408313448900126,
      "loss": 1.6885,
      "step": 18337
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38459306955337524,
      "learning_rate": 0.0005408251122800761,
      "loss": 1.746,
      "step": 18338
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.371559739112854,
      "learning_rate": 0.0005408188793778134,
      "loss": 1.6467,
      "step": 18339
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3865969777107239,
      "learning_rate": 0.000540812646183232,
      "loss": 1.789,
      "step": 18340
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39286142587661743,
      "learning_rate": 0.0005408064126963396,
      "loss": 1.764,
      "step": 18341
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39232155680656433,
      "learning_rate": 0.0005408001789171437,
      "loss": 1.6769,
      "step": 18342
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.372163325548172,
      "learning_rate": 0.0005407939448456518,
      "loss": 1.6614,
      "step": 18343
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3881233334541321,
      "learning_rate": 0.0005407877104818717,
      "loss": 1.7221,
      "step": 18344
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38101544976234436,
      "learning_rate": 0.0005407814758258107,
      "loss": 1.702,
      "step": 18345
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3845556676387787,
      "learning_rate": 0.0005407752408774765,
      "loss": 1.7715,
      "step": 18346
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37602609395980835,
      "learning_rate": 0.0005407690056368766,
      "loss": 1.7498,
      "step": 18347
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37675678730010986,
      "learning_rate": 0.0005407627701040185,
      "loss": 1.7563,
      "step": 18348
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3796134889125824,
      "learning_rate": 0.0005407565342789099,
      "loss": 1.6972,
      "step": 18349
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3847320079803467,
      "learning_rate": 0.0005407502981615585,
      "loss": 1.7311,
      "step": 18350
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3804195821285248,
      "learning_rate": 0.0005407440617519716,
      "loss": 1.8768,
      "step": 18351
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38203155994415283,
      "learning_rate": 0.0005407378250501569,
      "loss": 1.7531,
      "step": 18352
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3764216899871826,
      "learning_rate": 0.0005407315880561219,
      "loss": 1.6962,
      "step": 18353
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3814837336540222,
      "learning_rate": 0.0005407253507698743,
      "loss": 1.7245,
      "step": 18354
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3759564757347107,
      "learning_rate": 0.0005407191131914216,
      "loss": 1.6841,
      "step": 18355
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3791925311088562,
      "learning_rate": 0.0005407128753207713,
      "loss": 1.7065,
      "step": 18356
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3913456201553345,
      "learning_rate": 0.0005407066371579311,
      "loss": 1.7289,
      "step": 18357
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3849674463272095,
      "learning_rate": 0.0005407003987029084,
      "loss": 1.7086,
      "step": 18358
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38112905621528625,
      "learning_rate": 0.000540694159955711,
      "loss": 1.7398,
      "step": 18359
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38003700971603394,
      "learning_rate": 0.0005406879209163462,
      "loss": 1.6366,
      "step": 18360
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3697372376918793,
      "learning_rate": 0.000540681681584822,
      "loss": 1.7623,
      "step": 18361
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38377484679222107,
      "learning_rate": 0.0005406754419611454,
      "loss": 1.7189,
      "step": 18362
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3694165050983429,
      "learning_rate": 0.0005406692020453245,
      "loss": 1.7388,
      "step": 18363
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38665083050727844,
      "learning_rate": 0.0005406629618373665,
      "loss": 1.746,
      "step": 18364
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.368099182844162,
      "learning_rate": 0.0005406567213372792,
      "loss": 1.6657,
      "step": 18365
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3823396861553192,
      "learning_rate": 0.0005406504805450701,
      "loss": 1.6938,
      "step": 18366
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3711307644844055,
      "learning_rate": 0.0005406442394607469,
      "loss": 1.7252,
      "step": 18367
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38132429122924805,
      "learning_rate": 0.0005406379980843168,
      "loss": 1.7295,
      "step": 18368
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3762265741825104,
      "learning_rate": 0.0005406317564157878,
      "loss": 1.6883,
      "step": 18369
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37218523025512695,
      "learning_rate": 0.0005406255144551672,
      "loss": 1.7688,
      "step": 18370
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39301973581314087,
      "learning_rate": 0.0005406192722024627,
      "loss": 1.7242,
      "step": 18371
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38817861676216125,
      "learning_rate": 0.0005406130296576819,
      "loss": 1.6403,
      "step": 18372
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36334913969039917,
      "learning_rate": 0.0005406067868208323,
      "loss": 1.6614,
      "step": 18373
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5667651891708374,
      "learning_rate": 0.0005406005436919215,
      "loss": 1.8063,
      "step": 18374
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3862728178501129,
      "learning_rate": 0.0005405943002709571,
      "loss": 1.7258,
      "step": 18375
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3843076229095459,
      "learning_rate": 0.0005405880565579467,
      "loss": 1.7137,
      "step": 18376
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3684789538383484,
      "learning_rate": 0.0005405818125528978,
      "loss": 1.6959,
      "step": 18377
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.365102082490921,
      "learning_rate": 0.0005405755682558181,
      "loss": 1.6974,
      "step": 18378
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3838390111923218,
      "learning_rate": 0.0005405693236667151,
      "loss": 1.7609,
      "step": 18379
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38113129138946533,
      "learning_rate": 0.0005405630787855964,
      "loss": 1.7514,
      "step": 18380
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3773806095123291,
      "learning_rate": 0.0005405568336124695,
      "loss": 1.6739,
      "step": 18381
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38218164443969727,
      "learning_rate": 0.000540550588147342,
      "loss": 1.6263,
      "step": 18382
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3659808933734894,
      "learning_rate": 0.0005405443423902217,
      "loss": 1.7571,
      "step": 18383
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3714178204536438,
      "learning_rate": 0.0005405380963411159,
      "loss": 1.6924,
      "step": 18384
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3900206983089447,
      "learning_rate": 0.0005405318500000323,
      "loss": 1.6539,
      "step": 18385
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3854048252105713,
      "learning_rate": 0.0005405256033669785,
      "loss": 1.7062,
      "step": 18386
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39161357283592224,
      "learning_rate": 0.000540519356441962,
      "loss": 1.7035,
      "step": 18387
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38480058312416077,
      "learning_rate": 0.0005405131092249904,
      "loss": 1.691,
      "step": 18388
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38457533717155457,
      "learning_rate": 0.0005405068617160715,
      "loss": 1.6759,
      "step": 18389
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3802240192890167,
      "learning_rate": 0.0005405006139152126,
      "loss": 1.6512,
      "step": 18390
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3750822842121124,
      "learning_rate": 0.0005404943658224214,
      "loss": 1.7189,
      "step": 18391
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.366593599319458,
      "learning_rate": 0.0005404881174377055,
      "loss": 1.6297,
      "step": 18392
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.35973531007766724,
      "learning_rate": 0.0005404818687610724,
      "loss": 1.6844,
      "step": 18393
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3746407628059387,
      "learning_rate": 0.0005404756197925298,
      "loss": 1.6808,
      "step": 18394
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3668147027492523,
      "learning_rate": 0.0005404693705320852,
      "loss": 1.7178,
      "step": 18395
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3822691738605499,
      "learning_rate": 0.0005404631209797462,
      "loss": 1.7401,
      "step": 18396
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3769896924495697,
      "learning_rate": 0.0005404568711355205,
      "loss": 1.7172,
      "step": 18397
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37329408526420593,
      "learning_rate": 0.0005404506209994155,
      "loss": 1.745,
      "step": 18398
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3826574981212616,
      "learning_rate": 0.0005404443705714388,
      "loss": 1.7673,
      "step": 18399
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3694741129875183,
      "learning_rate": 0.0005404381198515982,
      "loss": 1.7672,
      "step": 18400
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37758028507232666,
      "learning_rate": 0.0005404318688399011,
      "loss": 1.6218,
      "step": 18401
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3695546090602875,
      "learning_rate": 0.0005404256175363551,
      "loss": 1.7298,
      "step": 18402
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3722846508026123,
      "learning_rate": 0.000540419365940968,
      "loss": 1.7153,
      "step": 18403
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37831705808639526,
      "learning_rate": 0.000540413114053747,
      "loss": 1.7126,
      "step": 18404
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37495192885398865,
      "learning_rate": 0.0005404068618747,
      "loss": 1.7445,
      "step": 18405
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37763386964797974,
      "learning_rate": 0.0005404006094038345,
      "loss": 1.739,
      "step": 18406
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3747164011001587,
      "learning_rate": 0.000540394356641158,
      "loss": 1.6964,
      "step": 18407
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37476304173469543,
      "learning_rate": 0.0005403881035866782,
      "loss": 1.7432,
      "step": 18408
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3771962523460388,
      "learning_rate": 0.0005403818502404028,
      "loss": 1.7056,
      "step": 18409
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3885881006717682,
      "learning_rate": 0.0005403755966023391,
      "loss": 1.69,
      "step": 18410
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3768032491207123,
      "learning_rate": 0.0005403693426724948,
      "loss": 1.6127,
      "step": 18411
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4143081605434418,
      "learning_rate": 0.0005403630884508777,
      "loss": 1.7753,
      "step": 18412
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3788798749446869,
      "learning_rate": 0.0005403568339374951,
      "loss": 1.7176,
      "step": 18413
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37838828563690186,
      "learning_rate": 0.0005403505791323547,
      "loss": 1.6788,
      "step": 18414
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3926292061805725,
      "learning_rate": 0.0005403443240354643,
      "loss": 1.6187,
      "step": 18415
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38375934958457947,
      "learning_rate": 0.0005403380686468312,
      "loss": 1.7432,
      "step": 18416
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37227463722229004,
      "learning_rate": 0.000540331812966463,
      "loss": 1.6862,
      "step": 18417
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37235400080680847,
      "learning_rate": 0.0005403255569943674,
      "loss": 1.7158,
      "step": 18418
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37937068939208984,
      "learning_rate": 0.000540319300730552,
      "loss": 1.7747,
      "step": 18419
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3940078914165497,
      "learning_rate": 0.0005403130441750245,
      "loss": 1.6343,
      "step": 18420
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3864571750164032,
      "learning_rate": 0.0005403067873277923,
      "loss": 1.7365,
      "step": 18421
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37907835841178894,
      "learning_rate": 0.000540300530188863,
      "loss": 1.6071,
      "step": 18422
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3722173869609833,
      "learning_rate": 0.0005402942727582445,
      "loss": 1.6199,
      "step": 18423
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3844057023525238,
      "learning_rate": 0.0005402880150359438,
      "loss": 1.7391,
      "step": 18424
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3894929587841034,
      "learning_rate": 0.0005402817570219691,
      "loss": 1.7272,
      "step": 18425
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3718469440937042,
      "learning_rate": 0.0005402754987163278,
      "loss": 1.6345,
      "step": 18426
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3884935677051544,
      "learning_rate": 0.0005402692401190272,
      "loss": 1.7018,
      "step": 18427
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3778240382671356,
      "learning_rate": 0.0005402629812300754,
      "loss": 1.7079,
      "step": 18428
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40741896629333496,
      "learning_rate": 0.0005402567220494796,
      "loss": 1.7273,
      "step": 18429
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40208959579467773,
      "learning_rate": 0.0005402504625772475,
      "loss": 1.683,
      "step": 18430
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3706035315990448,
      "learning_rate": 0.0005402442028133869,
      "loss": 1.7053,
      "step": 18431
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4105013310909271,
      "learning_rate": 0.0005402379427579051,
      "loss": 1.6544,
      "step": 18432
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37247225642204285,
      "learning_rate": 0.0005402316824108099,
      "loss": 1.6674,
      "step": 18433
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37519824504852295,
      "learning_rate": 0.0005402254217721087,
      "loss": 1.7085,
      "step": 18434
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3773905038833618,
      "learning_rate": 0.0005402191608418095,
      "loss": 1.6915,
      "step": 18435
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3693799376487732,
      "learning_rate": 0.0005402128996199194,
      "loss": 1.6946,
      "step": 18436
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39331457018852234,
      "learning_rate": 0.0005402066381064464,
      "loss": 1.7189,
      "step": 18437
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3861308693885803,
      "learning_rate": 0.0005402003763013978,
      "loss": 1.7148,
      "step": 18438
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39154744148254395,
      "learning_rate": 0.0005401941142047813,
      "loss": 1.7602,
      "step": 18439
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37347498536109924,
      "learning_rate": 0.0005401878518166047,
      "loss": 1.6992,
      "step": 18440
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3768210709095001,
      "learning_rate": 0.0005401815891368753,
      "loss": 1.6271,
      "step": 18441
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3804493844509125,
      "learning_rate": 0.0005401753261656009,
      "loss": 1.7293,
      "step": 18442
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.36937516927719116,
      "learning_rate": 0.0005401690629027891,
      "loss": 1.7408,
      "step": 18443
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3765387237071991,
      "learning_rate": 0.0005401627993484473,
      "loss": 1.7607,
      "step": 18444
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3772227466106415,
      "learning_rate": 0.0005401565355025833,
      "loss": 1.7362,
      "step": 18445
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.401034414768219,
      "learning_rate": 0.0005401502713652047,
      "loss": 1.7097,
      "step": 18446
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3909781873226166,
      "learning_rate": 0.000540144006936319,
      "loss": 1.6918,
      "step": 18447
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3961803913116455,
      "learning_rate": 0.000540137742215934,
      "loss": 1.7654,
      "step": 18448
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38617414236068726,
      "learning_rate": 0.000540131477204057,
      "loss": 1.7609,
      "step": 18449
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37810030579566956,
      "learning_rate": 0.0005401252119006958,
      "loss": 1.6821,
      "step": 18450
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37564370036125183,
      "learning_rate": 0.0005401189463058581,
      "loss": 1.7096,
      "step": 18451
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39182350039482117,
      "learning_rate": 0.0005401126804195513,
      "loss": 1.6713,
      "step": 18452
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3790632486343384,
      "learning_rate": 0.000540106414241783,
      "loss": 1.6977,
      "step": 18453
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38413113355636597,
      "learning_rate": 0.000540100147772561,
      "loss": 1.6526,
      "step": 18454
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39822763204574585,
      "learning_rate": 0.0005400938810118927,
      "loss": 1.6942,
      "step": 18455
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37479302287101746,
      "learning_rate": 0.0005400876139597859,
      "loss": 1.6136,
      "step": 18456
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3759835660457611,
      "learning_rate": 0.0005400813466162481,
      "loss": 1.6807,
      "step": 18457
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38734328746795654,
      "learning_rate": 0.0005400750789812868,
      "loss": 1.7035,
      "step": 18458
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3929232358932495,
      "learning_rate": 0.0005400688110549099,
      "loss": 1.7309,
      "step": 18459
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3708711564540863,
      "learning_rate": 0.0005400625428371247,
      "loss": 1.7173,
      "step": 18460
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3649745583534241,
      "learning_rate": 0.000540056274327939,
      "loss": 1.6742,
      "step": 18461
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37870991230010986,
      "learning_rate": 0.0005400500055273603,
      "loss": 1.7144,
      "step": 18462
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.381002813577652,
      "learning_rate": 0.0005400437364353963,
      "loss": 1.6584,
      "step": 18463
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39055052399635315,
      "learning_rate": 0.0005400374670520546,
      "loss": 1.7072,
      "step": 18464
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3736914396286011,
      "learning_rate": 0.0005400311973773428,
      "loss": 1.726,
      "step": 18465
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.38150516152381897,
      "learning_rate": 0.0005400249274112685,
      "loss": 1.685,
      "step": 18466
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37790220975875854,
      "learning_rate": 0.0005400186571538392,
      "loss": 1.7251,
      "step": 18467
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3874416649341583,
      "learning_rate": 0.0005400123866050627,
      "loss": 1.7159,
      "step": 18468
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3872457444667816,
      "learning_rate": 0.0005400061157649465,
      "loss": 1.7119,
      "step": 18469
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39176517724990845,
      "learning_rate": 0.0005399998446334982,
      "loss": 1.8148,
      "step": 18470
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37891125679016113,
      "learning_rate": 0.0005399935732107255,
      "loss": 1.7289,
      "step": 18471
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3882876932621002,
      "learning_rate": 0.000539987301496636,
      "loss": 1.7404,
      "step": 18472
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.41450464725494385,
      "learning_rate": 0.0005399810294912372,
      "loss": 1.6681,
      "step": 18473
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37035226821899414,
      "learning_rate": 0.0005399747571945369,
      "loss": 1.6532,
      "step": 18474
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3784785866737366,
      "learning_rate": 0.0005399684846065425,
      "loss": 1.7069,
      "step": 18475
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37498271465301514,
      "learning_rate": 0.0005399622117272618,
      "loss": 1.7174,
      "step": 18476
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3922528624534607,
      "learning_rate": 0.0005399559385567022,
      "loss": 1.6472,
      "step": 18477
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3797876238822937,
      "learning_rate": 0.0005399496650948715,
      "loss": 1.7826,
      "step": 18478
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37139880657196045,
      "learning_rate": 0.0005399433913417774,
      "loss": 1.7103,
      "step": 18479
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3682882487773895,
      "learning_rate": 0.0005399371172974273,
      "loss": 1.6423,
      "step": 18480
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.379914790391922,
      "learning_rate": 0.0005399308429618288,
      "loss": 1.7133,
      "step": 18481
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3659215271472931,
      "learning_rate": 0.0005399245683349896,
      "loss": 1.6462,
      "step": 18482
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3782519996166229,
      "learning_rate": 0.0005399182934169174,
      "loss": 1.6401,
      "step": 18483
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3790508806705475,
      "learning_rate": 0.0005399120182076198,
      "loss": 1.6899,
      "step": 18484
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.37435752153396606,
      "learning_rate": 0.0005399057427071043,
      "loss": 1.6536,
      "step": 18485
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3847160041332245,
      "learning_rate": 0.0005398994669153786,
      "loss": 1.7321,
      "step": 18486
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37498778104782104,
      "learning_rate": 0.0005398931908324503,
      "loss": 1.6809,
      "step": 18487
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3840523064136505,
      "learning_rate": 0.0005398869144583269,
      "loss": 1.7446,
      "step": 18488
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3727823793888092,
      "learning_rate": 0.0005398806377930162,
      "loss": 1.6821,
      "step": 18489
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38821548223495483,
      "learning_rate": 0.0005398743608365258,
      "loss": 1.6747,
      "step": 18490
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38940566778182983,
      "learning_rate": 0.0005398680835888631,
      "loss": 1.6904,
      "step": 18491
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38596588373184204,
      "learning_rate": 0.0005398618060500361,
      "loss": 1.6961,
      "step": 18492
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3847137987613678,
      "learning_rate": 0.0005398555282200521,
      "loss": 1.7719,
      "step": 18493
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5311424732208252,
      "learning_rate": 0.0005398492500989189,
      "loss": 1.6906,
      "step": 18494
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37135228514671326,
      "learning_rate": 0.000539842971686644,
      "loss": 1.7376,
      "step": 18495
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3754361569881439,
      "learning_rate": 0.0005398366929832351,
      "loss": 1.6979,
      "step": 18496
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39669230580329895,
      "learning_rate": 0.0005398304139886997,
      "loss": 1.7658,
      "step": 18497
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3917166292667389,
      "learning_rate": 0.0005398241347030456,
      "loss": 1.6696,
      "step": 18498
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3891367018222809,
      "learning_rate": 0.0005398178551262804,
      "loss": 1.7505,
      "step": 18499
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39181217551231384,
      "learning_rate": 0.0005398115752584116,
      "loss": 1.6707,
      "step": 18500
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3929041624069214,
      "learning_rate": 0.0005398052950994468,
      "loss": 1.7183,
      "step": 18501
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37476497888565063,
      "learning_rate": 0.0005397990146493938,
      "loss": 1.6897,
      "step": 18502
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3777379095554352,
      "learning_rate": 0.0005397927339082601,
      "loss": 1.781,
      "step": 18503
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3946819305419922,
      "learning_rate": 0.0005397864528760534,
      "loss": 1.748,
      "step": 18504
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39140036702156067,
      "learning_rate": 0.0005397801715527812,
      "loss": 1.6959,
      "step": 18505
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3750474452972412,
      "learning_rate": 0.0005397738899384512,
      "loss": 1.7477,
      "step": 18506
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3793720304965973,
      "learning_rate": 0.0005397676080330711,
      "loss": 1.6976,
      "step": 18507
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38621965050697327,
      "learning_rate": 0.0005397613258366484,
      "loss": 1.7148,
      "step": 18508
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3686007261276245,
      "learning_rate": 0.0005397550433491908,
      "loss": 1.7042,
      "step": 18509
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37338772416114807,
      "learning_rate": 0.0005397487605707059,
      "loss": 1.6657,
      "step": 18510
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3905331790447235,
      "learning_rate": 0.0005397424775012013,
      "loss": 1.7243,
      "step": 18511
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37327679991722107,
      "learning_rate": 0.0005397361941406846,
      "loss": 1.732,
      "step": 18512
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.42148441076278687,
      "learning_rate": 0.0005397299104891636,
      "loss": 1.7443,
      "step": 18513
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37562233209609985,
      "learning_rate": 0.0005397236265466458,
      "loss": 1.692,
      "step": 18514
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36909210681915283,
      "learning_rate": 0.0005397173423131388,
      "loss": 1.7189,
      "step": 18515
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3799667954444885,
      "learning_rate": 0.0005397110577886503,
      "loss": 1.7944,
      "step": 18516
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3810250163078308,
      "learning_rate": 0.0005397047729731879,
      "loss": 1.7066,
      "step": 18517
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38376715779304504,
      "learning_rate": 0.0005396984878667592,
      "loss": 1.6871,
      "step": 18518
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38358715176582336,
      "learning_rate": 0.0005396922024693718,
      "loss": 1.7883,
      "step": 18519
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.49592337012290955,
      "learning_rate": 0.0005396859167810335,
      "loss": 1.7171,
      "step": 18520
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38588598370552063,
      "learning_rate": 0.0005396796308017517,
      "loss": 1.6634,
      "step": 18521
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3805209994316101,
      "learning_rate": 0.0005396733445315342,
      "loss": 1.7152,
      "step": 18522
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38502010703086853,
      "learning_rate": 0.0005396670579703887,
      "loss": 1.7262,
      "step": 18523
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38015469908714294,
      "learning_rate": 0.0005396607711183225,
      "loss": 1.7473,
      "step": 18524
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38679903745651245,
      "learning_rate": 0.0005396544839753434,
      "loss": 1.6855,
      "step": 18525
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.41236910223960876,
      "learning_rate": 0.0005396481965414592,
      "loss": 1.7597,
      "step": 18526
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3901122212409973,
      "learning_rate": 0.0005396419088166774,
      "loss": 1.6911,
      "step": 18527
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.389949768781662,
      "learning_rate": 0.0005396356208010056,
      "loss": 1.7418,
      "step": 18528
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3893794119358063,
      "learning_rate": 0.0005396293324944515,
      "loss": 1.6759,
      "step": 18529
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37507885694503784,
      "learning_rate": 0.0005396230438970227,
      "loss": 1.6605,
      "step": 18530
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.380319744348526,
      "learning_rate": 0.0005396167550087268,
      "loss": 1.762,
      "step": 18531
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3711749017238617,
      "learning_rate": 0.0005396104658295715,
      "loss": 1.676,
      "step": 18532
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3864712119102478,
      "learning_rate": 0.0005396041763595643,
      "loss": 1.7132,
      "step": 18533
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39101576805114746,
      "learning_rate": 0.000539597886598713,
      "loss": 1.7354,
      "step": 18534
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3901107907295227,
      "learning_rate": 0.0005395915965470252,
      "loss": 1.7229,
      "step": 18535
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3763526678085327,
      "learning_rate": 0.0005395853062045083,
      "loss": 1.6946,
      "step": 18536
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38209545612335205,
      "learning_rate": 0.0005395790155711704,
      "loss": 1.696,
      "step": 18537
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37923216819763184,
      "learning_rate": 0.0005395727246470188,
      "loss": 1.748,
      "step": 18538
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3823571503162384,
      "learning_rate": 0.0005395664334320612,
      "loss": 1.7245,
      "step": 18539
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37583428621292114,
      "learning_rate": 0.0005395601419263054,
      "loss": 1.7524,
      "step": 18540
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3882160782814026,
      "learning_rate": 0.0005395538501297586,
      "loss": 1.636,
      "step": 18541
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37740540504455566,
      "learning_rate": 0.0005395475580424289,
      "loss": 1.5823,
      "step": 18542
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38457944989204407,
      "learning_rate": 0.0005395412656643237,
      "loss": 1.6993,
      "step": 18543
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3716312646865845,
      "learning_rate": 0.0005395349729954507,
      "loss": 1.6665,
      "step": 18544
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3875601589679718,
      "learning_rate": 0.0005395286800358175,
      "loss": 1.7933,
      "step": 18545
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38377779722213745,
      "learning_rate": 0.0005395223867854319,
      "loss": 1.703,
      "step": 18546
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37776094675064087,
      "learning_rate": 0.0005395160932443014,
      "loss": 1.7812,
      "step": 18547
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3884566128253937,
      "learning_rate": 0.0005395097994124336,
      "loss": 1.6979,
      "step": 18548
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37546205520629883,
      "learning_rate": 0.0005395035052898361,
      "loss": 1.7532,
      "step": 18549
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.363766610622406,
      "learning_rate": 0.0005394972108765167,
      "loss": 1.6413,
      "step": 18550
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3838229477405548,
      "learning_rate": 0.000539490916172483,
      "loss": 1.6894,
      "step": 18551
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37869346141815186,
      "learning_rate": 0.0005394846211777427,
      "loss": 1.6919,
      "step": 18552
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3861719071865082,
      "learning_rate": 0.0005394783258923032,
      "loss": 1.6922,
      "step": 18553
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3747185170650482,
      "learning_rate": 0.0005394720303161724,
      "loss": 1.6828,
      "step": 18554
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37935808300971985,
      "learning_rate": 0.0005394657344493578,
      "loss": 1.6041,
      "step": 18555
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3922504484653473,
      "learning_rate": 0.000539459438291867,
      "loss": 1.7806,
      "step": 18556
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3804114758968353,
      "learning_rate": 0.0005394531418437079,
      "loss": 1.7116,
      "step": 18557
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37690022587776184,
      "learning_rate": 0.0005394468451048878,
      "loss": 1.7127,
      "step": 18558
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3765656054019928,
      "learning_rate": 0.0005394405480754147,
      "loss": 1.6846,
      "step": 18559
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38528868556022644,
      "learning_rate": 0.000539434250755296,
      "loss": 1.7681,
      "step": 18560
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3944580554962158,
      "learning_rate": 0.0005394279531445393,
      "loss": 1.8016,
      "step": 18561
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3838784992694855,
      "learning_rate": 0.0005394216552431524,
      "loss": 1.7193,
      "step": 18562
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37781721353530884,
      "learning_rate": 0.0005394153570511429,
      "loss": 1.6856,
      "step": 18563
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37568002939224243,
      "learning_rate": 0.0005394090585685183,
      "loss": 1.7733,
      "step": 18564
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3810105323791504,
      "learning_rate": 0.0005394027597952865,
      "loss": 1.664,
      "step": 18565
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39621198177337646,
      "learning_rate": 0.0005393964607314551,
      "loss": 1.6564,
      "step": 18566
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39036697149276733,
      "learning_rate": 0.0005393901613770315,
      "loss": 1.6152,
      "step": 18567
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3732300102710724,
      "learning_rate": 0.0005393838617320236,
      "loss": 1.765,
      "step": 18568
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3806232511997223,
      "learning_rate": 0.000539377561796439,
      "loss": 1.7835,
      "step": 18569
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3782862424850464,
      "learning_rate": 0.0005393712615702853,
      "loss": 1.6996,
      "step": 18570
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4109221398830414,
      "learning_rate": 0.00053936496105357,
      "loss": 1.6644,
      "step": 18571
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36699435114860535,
      "learning_rate": 0.0005393586602463011,
      "loss": 1.6499,
      "step": 18572
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39142537117004395,
      "learning_rate": 0.0005393523591484859,
      "loss": 1.6831,
      "step": 18573
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38628706336021423,
      "learning_rate": 0.0005393460577601324,
      "loss": 1.7439,
      "step": 18574
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4121394157409668,
      "learning_rate": 0.000539339756081248,
      "loss": 1.6554,
      "step": 18575
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4031093716621399,
      "learning_rate": 0.0005393334541118403,
      "loss": 1.6834,
      "step": 18576
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3783257305622101,
      "learning_rate": 0.000539327151851917,
      "loss": 1.6856,
      "step": 18577
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4030935764312744,
      "learning_rate": 0.0005393208493014859,
      "loss": 1.7557,
      "step": 18578
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4099126160144806,
      "learning_rate": 0.0005393145464605546,
      "loss": 1.6743,
      "step": 18579
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3774162828922272,
      "learning_rate": 0.0005393082433291306,
      "loss": 1.7006,
      "step": 18580
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3882312774658203,
      "learning_rate": 0.0005393019399072218,
      "loss": 1.6611,
      "step": 18581
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3949851393699646,
      "learning_rate": 0.0005392956361948356,
      "loss": 1.7073,
      "step": 18582
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3777099847793579,
      "learning_rate": 0.0005392893321919797,
      "loss": 1.7083,
      "step": 18583
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37183502316474915,
      "learning_rate": 0.0005392830278986619,
      "loss": 1.6569,
      "step": 18584
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38373178243637085,
      "learning_rate": 0.0005392767233148897,
      "loss": 1.795,
      "step": 18585
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38448792695999146,
      "learning_rate": 0.0005392704184406708,
      "loss": 1.6791,
      "step": 18586
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40248098969459534,
      "learning_rate": 0.0005392641132760129,
      "loss": 1.6514,
      "step": 18587
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36736398935317993,
      "learning_rate": 0.0005392578078209237,
      "loss": 1.6229,
      "step": 18588
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40034958720207214,
      "learning_rate": 0.0005392515020754108,
      "loss": 1.7463,
      "step": 18589
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3779451251029968,
      "learning_rate": 0.0005392451960394817,
      "loss": 1.5917,
      "step": 18590
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3894469141960144,
      "learning_rate": 0.0005392388897131442,
      "loss": 1.7178,
      "step": 18591
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38511642813682556,
      "learning_rate": 0.000539232583096406,
      "loss": 1.7393,
      "step": 18592
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4222457706928253,
      "learning_rate": 0.0005392262761892745,
      "loss": 1.7794,
      "step": 18593
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39126497507095337,
      "learning_rate": 0.0005392199689917578,
      "loss": 1.6578,
      "step": 18594
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38470008969306946,
      "learning_rate": 0.0005392136615038633,
      "loss": 1.7018,
      "step": 18595
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3826284408569336,
      "learning_rate": 0.0005392073537255985,
      "loss": 1.7373,
      "step": 18596
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3866842985153198,
      "learning_rate": 0.0005392010456569713,
      "loss": 1.6915,
      "step": 18597
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39165282249450684,
      "learning_rate": 0.0005391947372979892,
      "loss": 1.8256,
      "step": 18598
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3801514804363251,
      "learning_rate": 0.00053918842864866,
      "loss": 1.6435,
      "step": 18599
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3957560062408447,
      "learning_rate": 0.0005391821197089912,
      "loss": 1.7657,
      "step": 18600
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37413927912712097,
      "learning_rate": 0.0005391758104789907,
      "loss": 1.7199,
      "step": 18601
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3897254168987274,
      "learning_rate": 0.000539169500958666,
      "loss": 1.7678,
      "step": 18602
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39172083139419556,
      "learning_rate": 0.0005391631911480247,
      "loss": 1.7464,
      "step": 18603
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38607969880104065,
      "learning_rate": 0.0005391568810470744,
      "loss": 1.7869,
      "step": 18604
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38743504881858826,
      "learning_rate": 0.0005391505706558231,
      "loss": 1.7278,
      "step": 18605
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38720250129699707,
      "learning_rate": 0.0005391442599742781,
      "loss": 1.7341,
      "step": 18606
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3900975286960602,
      "learning_rate": 0.0005391379490024473,
      "loss": 1.6718,
      "step": 18607
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3851185441017151,
      "learning_rate": 0.0005391316377403382,
      "loss": 1.7189,
      "step": 18608
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37764233350753784,
      "learning_rate": 0.0005391253261879586,
      "loss": 1.6297,
      "step": 18609
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3790951669216156,
      "learning_rate": 0.0005391190143453161,
      "loss": 1.6969,
      "step": 18610
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5348765254020691,
      "learning_rate": 0.0005391127022124182,
      "loss": 1.7145,
      "step": 18611
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3885357975959778,
      "learning_rate": 0.0005391063897892729,
      "loss": 1.7556,
      "step": 18612
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40409499406814575,
      "learning_rate": 0.0005391000770758875,
      "loss": 1.7417,
      "step": 18613
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3828590214252472,
      "learning_rate": 0.0005390937640722699,
      "loss": 1.6545,
      "step": 18614
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3839546740055084,
      "learning_rate": 0.0005390874507784277,
      "loss": 1.7168,
      "step": 18615
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38377198576927185,
      "learning_rate": 0.0005390811371943686,
      "loss": 1.6926,
      "step": 18616
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37676987051963806,
      "learning_rate": 0.0005390748233201002,
      "loss": 1.7494,
      "step": 18617
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3888537883758545,
      "learning_rate": 0.0005390685091556302,
      "loss": 1.7337,
      "step": 18618
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3748656213283539,
      "learning_rate": 0.0005390621947009663,
      "loss": 1.6633,
      "step": 18619
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37883397936820984,
      "learning_rate": 0.0005390558799561161,
      "loss": 1.7542,
      "step": 18620
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38811028003692627,
      "learning_rate": 0.0005390495649210872,
      "loss": 1.7422,
      "step": 18621
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38470542430877686,
      "learning_rate": 0.0005390432495958874,
      "loss": 1.6302,
      "step": 18622
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6524910926818848,
      "learning_rate": 0.0005390369339805242,
      "loss": 1.7182,
      "step": 18623
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3744020164012909,
      "learning_rate": 0.0005390306180750056,
      "loss": 1.6813,
      "step": 18624
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3896721601486206,
      "learning_rate": 0.0005390243018793389,
      "loss": 1.6628,
      "step": 18625
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3828979730606079,
      "learning_rate": 0.000539017985393532,
      "loss": 1.6525,
      "step": 18626
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38206949830055237,
      "learning_rate": 0.0005390116686175924,
      "loss": 1.7197,
      "step": 18627
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39297065138816833,
      "learning_rate": 0.000539005351551528,
      "loss": 1.7781,
      "step": 18628
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3773760199546814,
      "learning_rate": 0.0005389990341953462,
      "loss": 1.7098,
      "step": 18629
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3780582845211029,
      "learning_rate": 0.0005389927165490548,
      "loss": 1.6917,
      "step": 18630
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3890824317932129,
      "learning_rate": 0.0005389863986126614,
      "loss": 1.748,
      "step": 18631
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.49180126190185547,
      "learning_rate": 0.0005389800803861738,
      "loss": 1.6574,
      "step": 18632
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39539775252342224,
      "learning_rate": 0.0005389737618695996,
      "loss": 1.6639,
      "step": 18633
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3915151357650757,
      "learning_rate": 0.0005389674430629464,
      "loss": 1.6533,
      "step": 18634
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.380752831697464,
      "learning_rate": 0.000538961123966222,
      "loss": 1.7487,
      "step": 18635
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37101316452026367,
      "learning_rate": 0.000538954804579434,
      "loss": 1.7209,
      "step": 18636
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3979440927505493,
      "learning_rate": 0.00053894848490259,
      "loss": 1.7451,
      "step": 18637
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3896651566028595,
      "learning_rate": 0.0005389421649356978,
      "loss": 1.6785,
      "step": 18638
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38328492641448975,
      "learning_rate": 0.000538935844678765,
      "loss": 1.7073,
      "step": 18639
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3902536630630493,
      "learning_rate": 0.0005389295241317993,
      "loss": 1.7645,
      "step": 18640
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3612022399902344,
      "learning_rate": 0.0005389232032948085,
      "loss": 1.6916,
      "step": 18641
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3870866298675537,
      "learning_rate": 0.0005389168821678,
      "loss": 1.6644,
      "step": 18642
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3814334273338318,
      "learning_rate": 0.0005389105607507816,
      "loss": 1.6802,
      "step": 18643
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38591939210891724,
      "learning_rate": 0.000538904239043761,
      "loss": 1.6224,
      "step": 18644
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3877737820148468,
      "learning_rate": 0.0005388979170467459,
      "loss": 1.7077,
      "step": 18645
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39895617961883545,
      "learning_rate": 0.0005388915947597438,
      "loss": 1.7029,
      "step": 18646
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3755263090133667,
      "learning_rate": 0.0005388852721827627,
      "loss": 1.6479,
      "step": 18647
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.41902846097946167,
      "learning_rate": 0.0005388789493158099,
      "loss": 1.7029,
      "step": 18648
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3783144950866699,
      "learning_rate": 0.0005388726261588933,
      "loss": 1.6937,
      "step": 18649
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4119497835636139,
      "learning_rate": 0.0005388663027120205,
      "loss": 1.6938,
      "step": 18650
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3954955041408539,
      "learning_rate": 0.0005388599789751993,
      "loss": 1.6997,
      "step": 18651
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3708834946155548,
      "learning_rate": 0.0005388536549484372,
      "loss": 1.6898,
      "step": 18652
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3808998465538025,
      "learning_rate": 0.0005388473306317421,
      "loss": 1.7394,
      "step": 18653
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4071385860443115,
      "learning_rate": 0.0005388410060251213,
      "loss": 1.7437,
      "step": 18654
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3821832537651062,
      "learning_rate": 0.0005388346811285829,
      "loss": 1.6533,
      "step": 18655
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3876398801803589,
      "learning_rate": 0.0005388283559421344,
      "loss": 1.6602,
      "step": 18656
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38943278789520264,
      "learning_rate": 0.0005388220304657833,
      "loss": 1.7197,
      "step": 18657
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.390669047832489,
      "learning_rate": 0.0005388157046995375,
      "loss": 1.6931,
      "step": 18658
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.374121755361557,
      "learning_rate": 0.0005388093786434046,
      "loss": 1.7346,
      "step": 18659
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3767862915992737,
      "learning_rate": 0.0005388030522973924,
      "loss": 1.7017,
      "step": 18660
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3837628960609436,
      "learning_rate": 0.0005387967256615084,
      "loss": 1.6952,
      "step": 18661
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.377883642911911,
      "learning_rate": 0.0005387903987357605,
      "loss": 1.7323,
      "step": 18662
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3894754946231842,
      "learning_rate": 0.0005387840715201561,
      "loss": 1.7624,
      "step": 18663
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37101665139198303,
      "learning_rate": 0.000538777744014703,
      "loss": 1.6416,
      "step": 18664
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3735521137714386,
      "learning_rate": 0.0005387714162194089,
      "loss": 1.6803,
      "step": 18665
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3848930299282074,
      "learning_rate": 0.0005387650881342816,
      "loss": 1.6757,
      "step": 18666
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37548747658729553,
      "learning_rate": 0.0005387587597593287,
      "loss": 1.6914,
      "step": 18667
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39824342727661133,
      "learning_rate": 0.0005387524310945576,
      "loss": 1.6413,
      "step": 18668
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3850661516189575,
      "learning_rate": 0.0005387461021399764,
      "loss": 1.7092,
      "step": 18669
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3832954168319702,
      "learning_rate": 0.0005387397728955926,
      "loss": 1.6818,
      "step": 18670
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3864293396472931,
      "learning_rate": 0.0005387334433614139,
      "loss": 1.7132,
      "step": 18671
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38530728220939636,
      "learning_rate": 0.0005387271135374479,
      "loss": 1.7066,
      "step": 18672
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38419556617736816,
      "learning_rate": 0.0005387207834237023,
      "loss": 1.7103,
      "step": 18673
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38526976108551025,
      "learning_rate": 0.0005387144530201851,
      "loss": 1.7324,
      "step": 18674
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40706026554107666,
      "learning_rate": 0.0005387081223269035,
      "loss": 1.7366,
      "step": 18675
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3802770674228668,
      "learning_rate": 0.0005387017913438656,
      "loss": 1.71,
      "step": 18676
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3752884268760681,
      "learning_rate": 0.0005386954600710787,
      "loss": 1.6672,
      "step": 18677
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3801535964012146,
      "learning_rate": 0.0005386891285085508,
      "loss": 1.6851,
      "step": 18678
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4783152639865875,
      "learning_rate": 0.0005386827966562894,
      "loss": 1.7701,
      "step": 18679
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3791750967502594,
      "learning_rate": 0.0005386764645143022,
      "loss": 1.6793,
      "step": 18680
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38992640376091003,
      "learning_rate": 0.0005386701320825971,
      "loss": 1.595,
      "step": 18681
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3802470266819,
      "learning_rate": 0.0005386637993611816,
      "loss": 1.6739,
      "step": 18682
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3611026108264923,
      "learning_rate": 0.0005386574663500633,
      "loss": 1.691,
      "step": 18683
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3853389620780945,
      "learning_rate": 0.0005386511330492501,
      "loss": 1.7466,
      "step": 18684
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37156036496162415,
      "learning_rate": 0.0005386447994587495,
      "loss": 1.7681,
      "step": 18685
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.375198096036911,
      "learning_rate": 0.0005386384655785693,
      "loss": 1.7041,
      "step": 18686
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3728047013282776,
      "learning_rate": 0.0005386321314087173,
      "loss": 1.7239,
      "step": 18687
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3822706639766693,
      "learning_rate": 0.0005386257969492009,
      "loss": 1.7968,
      "step": 18688
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3799346387386322,
      "learning_rate": 0.000538619462200028,
      "loss": 1.7371,
      "step": 18689
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37054798007011414,
      "learning_rate": 0.0005386131271612062,
      "loss": 1.6965,
      "step": 18690
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3829583525657654,
      "learning_rate": 0.0005386067918327432,
      "loss": 1.7672,
      "step": 18691
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3864693343639374,
      "learning_rate": 0.0005386004562146468,
      "loss": 1.738,
      "step": 18692
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3929307162761688,
      "learning_rate": 0.0005385941203069246,
      "loss": 1.7386,
      "step": 18693
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38135451078414917,
      "learning_rate": 0.0005385877841095842,
      "loss": 1.7037,
      "step": 18694
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36864909529685974,
      "learning_rate": 0.0005385814476226334,
      "loss": 1.6824,
      "step": 18695
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37014439702033997,
      "learning_rate": 0.0005385751108460799,
      "loss": 1.7284,
      "step": 18696
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37197497487068176,
      "learning_rate": 0.0005385687737799314,
      "loss": 1.6899,
      "step": 18697
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38247960805892944,
      "learning_rate": 0.0005385624364241956,
      "loss": 1.6543,
      "step": 18698
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40022197365760803,
      "learning_rate": 0.0005385560987788801,
      "loss": 1.7204,
      "step": 18699
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.376460999250412,
      "learning_rate": 0.0005385497608439926,
      "loss": 1.6969,
      "step": 18700
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37405723333358765,
      "learning_rate": 0.0005385434226195409,
      "loss": 1.6662,
      "step": 18701
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38139763474464417,
      "learning_rate": 0.0005385370841055326,
      "loss": 1.6771,
      "step": 18702
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3810797333717346,
      "learning_rate": 0.0005385307453019755,
      "loss": 1.6175,
      "step": 18703
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3871360123157501,
      "learning_rate": 0.000538524406208877,
      "loss": 1.6705,
      "step": 18704
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39109501242637634,
      "learning_rate": 0.0005385180668262453,
      "loss": 1.774,
      "step": 18705
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.536702573299408,
      "learning_rate": 0.0005385117271540876,
      "loss": 1.6937,
      "step": 18706
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38237661123275757,
      "learning_rate": 0.0005385053871924119,
      "loss": 1.7055,
      "step": 18707
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3753413259983063,
      "learning_rate": 0.0005384990469412258,
      "loss": 1.6917,
      "step": 18708
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38206925988197327,
      "learning_rate": 0.000538492706400537,
      "loss": 1.7963,
      "step": 18709
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3936510980129242,
      "learning_rate": 0.0005384863655703532,
      "loss": 1.7177,
      "step": 18710
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3898974359035492,
      "learning_rate": 0.0005384800244506821,
      "loss": 1.7238,
      "step": 18711
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3802317678928375,
      "learning_rate": 0.0005384736830415314,
      "loss": 1.6666,
      "step": 18712
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3760696351528168,
      "learning_rate": 0.0005384673413429087,
      "loss": 1.7424,
      "step": 18713
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39525139331817627,
      "learning_rate": 0.0005384609993548218,
      "loss": 1.6854,
      "step": 18714
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39957308769226074,
      "learning_rate": 0.0005384546570772784,
      "loss": 1.7257,
      "step": 18715
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37524935603141785,
      "learning_rate": 0.0005384483145102862,
      "loss": 1.695,
      "step": 18716
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.40203794836997986,
      "learning_rate": 0.0005384419716538529,
      "loss": 1.7883,
      "step": 18717
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39578208327293396,
      "learning_rate": 0.0005384356285079861,
      "loss": 1.6624,
      "step": 18718
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38792410492897034,
      "learning_rate": 0.0005384292850726937,
      "loss": 1.7377,
      "step": 18719
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3843494951725006,
      "learning_rate": 0.0005384229413479832,
      "loss": 1.6576,
      "step": 18720
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3776087164878845,
      "learning_rate": 0.0005384165973338624,
      "loss": 1.721,
      "step": 18721
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3980574607849121,
      "learning_rate": 0.000538410253030339,
      "loss": 1.6817,
      "step": 18722
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37251412868499756,
      "learning_rate": 0.0005384039084374206,
      "loss": 1.7234,
      "step": 18723
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3692958652973175,
      "learning_rate": 0.000538397563555115,
      "loss": 1.6274,
      "step": 18724
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3893527686595917,
      "learning_rate": 0.00053839121838343,
      "loss": 1.7331,
      "step": 18725
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37694844603538513,
      "learning_rate": 0.000538384872922373,
      "loss": 1.6359,
      "step": 18726
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38154396414756775,
      "learning_rate": 0.000538378527171952,
      "loss": 1.7115,
      "step": 18727
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37387776374816895,
      "learning_rate": 0.0005383721811321746,
      "loss": 1.6688,
      "step": 18728
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3740890324115753,
      "learning_rate": 0.0005383658348030486,
      "loss": 1.7426,
      "step": 18729
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3732694983482361,
      "learning_rate": 0.0005383594881845814,
      "loss": 1.7305,
      "step": 18730
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3740401268005371,
      "learning_rate": 0.000538353141276781,
      "loss": 1.647,
      "step": 18731
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3707130253314972,
      "learning_rate": 0.000538346794079655,
      "loss": 1.7457,
      "step": 18732
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3880256116390228,
      "learning_rate": 0.0005383404465932111,
      "loss": 1.682,
      "step": 18733
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37854689359664917,
      "learning_rate": 0.0005383340988174569,
      "loss": 1.6221,
      "step": 18734
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3811889886856079,
      "learning_rate": 0.0005383277507524004,
      "loss": 1.6724,
      "step": 18735
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3721061646938324,
      "learning_rate": 0.0005383214023980492,
      "loss": 1.6972,
      "step": 18736
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39155158400535583,
      "learning_rate": 0.0005383150537544107,
      "loss": 1.7358,
      "step": 18737
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4092567265033722,
      "learning_rate": 0.0005383087048214929,
      "loss": 1.6949,
      "step": 18738
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37868621945381165,
      "learning_rate": 0.0005383023555993035,
      "loss": 1.6996,
      "step": 18739
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37489208579063416,
      "learning_rate": 0.0005382960060878501,
      "loss": 1.6896,
      "step": 18740
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3822643756866455,
      "learning_rate": 0.0005382896562871405,
      "loss": 1.6917,
      "step": 18741
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37606197595596313,
      "learning_rate": 0.0005382833061971824,
      "loss": 1.7281,
      "step": 18742
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37624093890190125,
      "learning_rate": 0.0005382769558179833,
      "loss": 1.6905,
      "step": 18743
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38220489025115967,
      "learning_rate": 0.0005382706051495513,
      "loss": 1.7408,
      "step": 18744
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38189229369163513,
      "learning_rate": 0.0005382642541918938,
      "loss": 1.8085,
      "step": 18745
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37372031807899475,
      "learning_rate": 0.0005382579029450187,
      "loss": 1.6628,
      "step": 18746
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3798961043357849,
      "learning_rate": 0.0005382515514089335,
      "loss": 1.6896,
      "step": 18747
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3833942711353302,
      "learning_rate": 0.000538245199583646,
      "loss": 1.7491,
      "step": 18748
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3774015009403229,
      "learning_rate": 0.000538238847469164,
      "loss": 1.6392,
      "step": 18749
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39689093828201294,
      "learning_rate": 0.0005382324950654951,
      "loss": 1.7617,
      "step": 18750
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3809172511100769,
      "learning_rate": 0.000538226142372647,
      "loss": 1.6292,
      "step": 18751
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36494767665863037,
      "learning_rate": 0.0005382197893906277,
      "loss": 1.6622,
      "step": 18752
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3772846758365631,
      "learning_rate": 0.0005382134361194444,
      "loss": 1.6465,
      "step": 18753
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3850366473197937,
      "learning_rate": 0.0005382070825591052,
      "loss": 1.6645,
      "step": 18754
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38803941011428833,
      "learning_rate": 0.0005382007287096177,
      "loss": 1.7194,
      "step": 18755
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3928682506084442,
      "learning_rate": 0.0005381943745709897,
      "loss": 1.7031,
      "step": 18756
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3705461621284485,
      "learning_rate": 0.0005381880201432287,
      "loss": 1.675,
      "step": 18757
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.36630779504776,
      "learning_rate": 0.0005381816654263425,
      "loss": 1.6884,
      "step": 18758
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38590484857559204,
      "learning_rate": 0.000538175310420339,
      "loss": 1.7058,
      "step": 18759
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38293129205703735,
      "learning_rate": 0.0005381689551252257,
      "loss": 1.6867,
      "step": 18760
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3829076290130615,
      "learning_rate": 0.0005381625995410104,
      "loss": 1.6848,
      "step": 18761
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38004615902900696,
      "learning_rate": 0.0005381562436677007,
      "loss": 1.6862,
      "step": 18762
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38099056482315063,
      "learning_rate": 0.0005381498875053045,
      "loss": 1.7382,
      "step": 18763
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3825913667678833,
      "learning_rate": 0.0005381435310538294,
      "loss": 1.7247,
      "step": 18764
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38677072525024414,
      "learning_rate": 0.0005381371743132832,
      "loss": 1.7341,
      "step": 18765
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38114553689956665,
      "learning_rate": 0.0005381308172836734,
      "loss": 1.6963,
      "step": 18766
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3797434866428375,
      "learning_rate": 0.0005381244599650081,
      "loss": 1.6759,
      "step": 18767
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.38904353976249695,
      "learning_rate": 0.0005381181023572946,
      "loss": 1.7187,
      "step": 18768
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37777021527290344,
      "learning_rate": 0.0005381117444605409,
      "loss": 1.7257,
      "step": 18769
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39372923970222473,
      "learning_rate": 0.0005381053862747546,
      "loss": 1.6775,
      "step": 18770
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3810117840766907,
      "learning_rate": 0.0005380990277999436,
      "loss": 1.7557,
      "step": 18771
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.378652960062027,
      "learning_rate": 0.0005380926690361152,
      "loss": 1.6623,
      "step": 18772
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37796273827552795,
      "learning_rate": 0.0005380863099832774,
      "loss": 1.6976,
      "step": 18773
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3750391900539398,
      "learning_rate": 0.0005380799506414381,
      "loss": 1.7072,
      "step": 18774
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3868387043476105,
      "learning_rate": 0.0005380735910106047,
      "loss": 1.6492,
      "step": 18775
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39033347368240356,
      "learning_rate": 0.0005380672310907851,
      "loss": 1.6796,
      "step": 18776
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.392800897359848,
      "learning_rate": 0.0005380608708819869,
      "loss": 1.7352,
      "step": 18777
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3945769965648651,
      "learning_rate": 0.0005380545103842179,
      "loss": 1.6711,
      "step": 18778
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39638280868530273,
      "learning_rate": 0.0005380481495974857,
      "loss": 1.7366,
      "step": 18779
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3901817202568054,
      "learning_rate": 0.0005380417885217983,
      "loss": 1.6647,
      "step": 18780
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37520137429237366,
      "learning_rate": 0.0005380354271571632,
      "loss": 1.6955,
      "step": 18781
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3826657235622406,
      "learning_rate": 0.0005380290655035881,
      "loss": 1.7656,
      "step": 18782
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3869476616382599,
      "learning_rate": 0.0005380227035610808,
      "loss": 1.6798,
      "step": 18783
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.46732911467552185,
      "learning_rate": 0.000538016341329649,
      "loss": 1.6696,
      "step": 18784
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.37510064244270325,
      "learning_rate": 0.0005380099788093004,
      "loss": 1.7012,
      "step": 18785
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3679370880126953,
      "learning_rate": 0.0005380036160000429,
      "loss": 1.6124,
      "step": 18786
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4282703697681427,
      "learning_rate": 0.0005379972529018839,
      "loss": 1.6845,
      "step": 18787
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6866644024848938,
      "learning_rate": 0.0005379908895148315,
      "loss": 1.7851,
      "step": 18788
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3855120837688446,
      "learning_rate": 0.0005379845258388931,
      "loss": 1.7103,
      "step": 18789
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3830307722091675,
      "learning_rate": 0.0005379781618740765,
      "loss": 1.702,
      "step": 18790
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3801141381263733,
      "learning_rate": 0.0005379717976203895,
      "loss": 1.7662,
      "step": 18791
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3929555118083954,
      "learning_rate": 0.0005379654330778399,
      "loss": 1.6905,
      "step": 18792
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3841729462146759,
      "learning_rate": 0.0005379590682464353,
      "loss": 1.7495,
      "step": 18793
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38707947731018066,
      "learning_rate": 0.0005379527031261833,
      "loss": 1.6748,
      "step": 18794
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3895140290260315,
      "learning_rate": 0.000537946337717092,
      "loss": 1.7057,
      "step": 18795
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3813116252422333,
      "learning_rate": 0.0005379399720191687,
      "loss": 1.7284,
      "step": 18796
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37799155712127686,
      "learning_rate": 0.0005379336060324215,
      "loss": 1.6731,
      "step": 18797
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.35668811202049255,
      "learning_rate": 0.0005379272397568579,
      "loss": 1.6407,
      "step": 18798
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37623125314712524,
      "learning_rate": 0.0005379208731924858,
      "loss": 1.653,
      "step": 18799
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38755008578300476,
      "learning_rate": 0.0005379145063393126,
      "loss": 1.7306,
      "step": 18800
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36831873655319214,
      "learning_rate": 0.0005379081391973464,
      "loss": 1.67,
      "step": 18801
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38645726442337036,
      "learning_rate": 0.0005379017717665947,
      "loss": 1.6771,
      "step": 18802
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38252702355384827,
      "learning_rate": 0.0005378954040470653,
      "loss": 1.7114,
      "step": 18803
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37728452682495117,
      "learning_rate": 0.000537889036038766,
      "loss": 1.7167,
      "step": 18804
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37331488728523254,
      "learning_rate": 0.0005378826677417043,
      "loss": 1.7419,
      "step": 18805
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3702046573162079,
      "learning_rate": 0.0005378762991558883,
      "loss": 1.7303,
      "step": 18806
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3735925257205963,
      "learning_rate": 0.0005378699302813253,
      "loss": 1.6767,
      "step": 18807
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39055100083351135,
      "learning_rate": 0.0005378635611180235,
      "loss": 1.6836,
      "step": 18808
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3940935432910919,
      "learning_rate": 0.0005378571916659902,
      "loss": 1.6456,
      "step": 18809
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3786579668521881,
      "learning_rate": 0.0005378508219252334,
      "loss": 1.6751,
      "step": 18810
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38608336448669434,
      "learning_rate": 0.0005378444518957607,
      "loss": 1.7324,
      "step": 18811
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37755656242370605,
      "learning_rate": 0.00053783808157758,
      "loss": 1.7157,
      "step": 18812
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38287457823753357,
      "learning_rate": 0.0005378317109706988,
      "loss": 1.6747,
      "step": 18813
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3969736397266388,
      "learning_rate": 0.000537825340075125,
      "loss": 1.6598,
      "step": 18814
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3928961455821991,
      "learning_rate": 0.0005378189688908662,
      "loss": 1.7506,
      "step": 18815
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3739992082118988,
      "learning_rate": 0.0005378125974179303,
      "loss": 1.6653,
      "step": 18816
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37785327434539795,
      "learning_rate": 0.0005378062256563248,
      "loss": 1.6448,
      "step": 18817
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37997639179229736,
      "learning_rate": 0.0005377998536060577,
      "loss": 1.6427,
      "step": 18818
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40555500984191895,
      "learning_rate": 0.0005377934812671367,
      "loss": 1.7078,
      "step": 18819
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3712274134159088,
      "learning_rate": 0.0005377871086395693,
      "loss": 1.6671,
      "step": 18820
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3761243224143982,
      "learning_rate": 0.0005377807357233635,
      "loss": 1.6816,
      "step": 18821
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6958688497543335,
      "learning_rate": 0.0005377743625185268,
      "loss": 1.6795,
      "step": 18822
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38327205181121826,
      "learning_rate": 0.0005377679890250672,
      "loss": 1.6843,
      "step": 18823
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.378359317779541,
      "learning_rate": 0.0005377616152429922,
      "loss": 1.7125,
      "step": 18824
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.379964679479599,
      "learning_rate": 0.0005377552411723097,
      "loss": 1.7057,
      "step": 18825
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38194048404693604,
      "learning_rate": 0.0005377488668130272,
      "loss": 1.696,
      "step": 18826
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3809809982776642,
      "learning_rate": 0.0005377424921651528,
      "loss": 1.7096,
      "step": 18827
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3766114115715027,
      "learning_rate": 0.0005377361172286939,
      "loss": 1.626,
      "step": 18828
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3796280026435852,
      "learning_rate": 0.0005377297420036584,
      "loss": 1.7476,
      "step": 18829
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.375640869140625,
      "learning_rate": 0.0005377233664900542,
      "loss": 1.6606,
      "step": 18830
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3921367824077606,
      "learning_rate": 0.0005377169906878886,
      "loss": 1.712,
      "step": 18831
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3734775185585022,
      "learning_rate": 0.0005377106145971698,
      "loss": 1.6716,
      "step": 18832
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4092009961605072,
      "learning_rate": 0.0005377042382179053,
      "loss": 1.637,
      "step": 18833
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37569230794906616,
      "learning_rate": 0.0005376978615501028,
      "loss": 1.6478,
      "step": 18834
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3830556273460388,
      "learning_rate": 0.0005376914845937702,
      "loss": 1.6899,
      "step": 18835
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3979528844356537,
      "learning_rate": 0.0005376851073489151,
      "loss": 1.7146,
      "step": 18836
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3745490312576294,
      "learning_rate": 0.0005376787298155453,
      "loss": 1.6974,
      "step": 18837
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3815138041973114,
      "learning_rate": 0.0005376723519936686,
      "loss": 1.6775,
      "step": 18838
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38557982444763184,
      "learning_rate": 0.0005376659738832927,
      "loss": 1.6417,
      "step": 18839
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3794347047805786,
      "learning_rate": 0.0005376595954844252,
      "loss": 1.6829,
      "step": 18840
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37973010540008545,
      "learning_rate": 0.0005376532167970741,
      "loss": 1.7372,
      "step": 18841
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39560040831565857,
      "learning_rate": 0.000537646837821247,
      "loss": 1.775,
      "step": 18842
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3777172267436981,
      "learning_rate": 0.0005376404585569516,
      "loss": 1.6657,
      "step": 18843
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37864139676094055,
      "learning_rate": 0.0005376340790041957,
      "loss": 1.6826,
      "step": 18844
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3832707107067108,
      "learning_rate": 0.000537627699162987,
      "loss": 1.68,
      "step": 18845
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38734063506126404,
      "learning_rate": 0.0005376213190333333,
      "loss": 1.6159,
      "step": 18846
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.380903422832489,
      "learning_rate": 0.0005376149386152424,
      "loss": 1.7288,
      "step": 18847
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.389212965965271,
      "learning_rate": 0.000537608557908722,
      "loss": 1.6893,
      "step": 18848
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38369110226631165,
      "learning_rate": 0.0005376021769137798,
      "loss": 1.6724,
      "step": 18849
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38004282116889954,
      "learning_rate": 0.0005375957956304235,
      "loss": 1.7421,
      "step": 18850
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38025936484336853,
      "learning_rate": 0.0005375894140586609,
      "loss": 1.6968,
      "step": 18851
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3832404315471649,
      "learning_rate": 0.0005375830321984998,
      "loss": 1.6804,
      "step": 18852
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3950389623641968,
      "learning_rate": 0.000537576650049948,
      "loss": 1.7154,
      "step": 18853
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38013243675231934,
      "learning_rate": 0.000537570267613013,
      "loss": 1.7304,
      "step": 18854
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37076297402381897,
      "learning_rate": 0.0005375638848877028,
      "loss": 1.6338,
      "step": 18855
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3876061737537384,
      "learning_rate": 0.000537557501874025,
      "loss": 1.7141,
      "step": 18856
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3768755793571472,
      "learning_rate": 0.0005375511185719875,
      "loss": 1.684,
      "step": 18857
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38320234417915344,
      "learning_rate": 0.0005375447349815978,
      "loss": 1.7173,
      "step": 18858
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3863164484500885,
      "learning_rate": 0.0005375383511028639,
      "loss": 1.7399,
      "step": 18859
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3677115738391876,
      "learning_rate": 0.0005375319669357933,
      "loss": 1.6898,
      "step": 18860
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37692734599113464,
      "learning_rate": 0.000537525582480394,
      "loss": 1.7225,
      "step": 18861
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36424720287323,
      "learning_rate": 0.0005375191977366736,
      "loss": 1.6565,
      "step": 18862
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38533011078834534,
      "learning_rate": 0.0005375128127046399,
      "loss": 1.6569,
      "step": 18863
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37457820773124695,
      "learning_rate": 0.0005375064273843007,
      "loss": 1.6258,
      "step": 18864
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3750731945037842,
      "learning_rate": 0.0005375000417756635,
      "loss": 1.7242,
      "step": 18865
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38735532760620117,
      "learning_rate": 0.0005374936558787364,
      "loss": 1.7332,
      "step": 18866
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38806775212287903,
      "learning_rate": 0.000537487269693527,
      "loss": 1.6536,
      "step": 18867
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3843114972114563,
      "learning_rate": 0.000537480883220043,
      "loss": 1.6671,
      "step": 18868
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38571351766586304,
      "learning_rate": 0.0005374744964582923,
      "loss": 1.7199,
      "step": 18869
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37721553444862366,
      "learning_rate": 0.0005374681094082824,
      "loss": 1.6406,
      "step": 18870
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38647159934043884,
      "learning_rate": 0.0005374617220700213,
      "loss": 1.7142,
      "step": 18871
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3825449049472809,
      "learning_rate": 0.0005374553344435167,
      "loss": 1.6427,
      "step": 18872
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3791349530220032,
      "learning_rate": 0.0005374489465287762,
      "loss": 1.795,
      "step": 18873
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3836059868335724,
      "learning_rate": 0.0005374425583258077,
      "loss": 1.6856,
      "step": 18874
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37570956349372864,
      "learning_rate": 0.0005374361698346189,
      "loss": 1.7478,
      "step": 18875
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37183716893196106,
      "learning_rate": 0.0005374297810552176,
      "loss": 1.666,
      "step": 18876
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4045599699020386,
      "learning_rate": 0.0005374233919876116,
      "loss": 1.6464,
      "step": 18877
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3998793959617615,
      "learning_rate": 0.0005374170026318085,
      "loss": 1.7781,
      "step": 18878
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3684271275997162,
      "learning_rate": 0.0005374106129878162,
      "loss": 1.6399,
      "step": 18879
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.391316682100296,
      "learning_rate": 0.0005374042230556423,
      "loss": 1.716,
      "step": 18880
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3722176253795624,
      "learning_rate": 0.0005373978328352948,
      "loss": 1.665,
      "step": 18881
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3893657922744751,
      "learning_rate": 0.0005373914423267811,
      "loss": 1.7214,
      "step": 18882
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39678138494491577,
      "learning_rate": 0.0005373850515301093,
      "loss": 1.7191,
      "step": 18883
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3727467656135559,
      "learning_rate": 0.000537378660445287,
      "loss": 1.7024,
      "step": 18884
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3860437572002411,
      "learning_rate": 0.000537372269072322,
      "loss": 1.7361,
      "step": 18885
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38348835706710815,
      "learning_rate": 0.0005373658774112221,
      "loss": 1.7457,
      "step": 18886
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38914090394973755,
      "learning_rate": 0.0005373594854619949,
      "loss": 1.7198,
      "step": 18887
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37983566522598267,
      "learning_rate": 0.0005373530932246482,
      "loss": 1.6722,
      "step": 18888
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3805968761444092,
      "learning_rate": 0.0005373467006991899,
      "loss": 1.7548,
      "step": 18889
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38465481996536255,
      "learning_rate": 0.0005373403078856278,
      "loss": 1.7631,
      "step": 18890
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3750498592853546,
      "learning_rate": 0.0005373339147839694,
      "loss": 1.7116,
      "step": 18891
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3840040862560272,
      "learning_rate": 0.0005373275213942226,
      "loss": 1.7232,
      "step": 18892
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37757521867752075,
      "learning_rate": 0.0005373211277163952,
      "loss": 1.7174,
      "step": 18893
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36618462204933167,
      "learning_rate": 0.0005373147337504949,
      "loss": 1.6544,
      "step": 18894
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37913113832473755,
      "learning_rate": 0.0005373083394965294,
      "loss": 1.6766,
      "step": 18895
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3787435293197632,
      "learning_rate": 0.0005373019449545067,
      "loss": 1.6696,
      "step": 18896
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3784550726413727,
      "learning_rate": 0.0005372955501244343,
      "loss": 1.724,
      "step": 18897
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3857952356338501,
      "learning_rate": 0.00053728915500632,
      "loss": 1.7439,
      "step": 18898
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3758406937122345,
      "learning_rate": 0.0005372827596001718,
      "loss": 1.7286,
      "step": 18899
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3736582398414612,
      "learning_rate": 0.0005372763639059973,
      "loss": 1.7122,
      "step": 18900
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37570756673812866,
      "learning_rate": 0.000537269967923804,
      "loss": 1.6947,
      "step": 18901
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3730291426181793,
      "learning_rate": 0.0005372635716536002,
      "loss": 1.7381,
      "step": 18902
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37568047642707825,
      "learning_rate": 0.0005372571750953931,
      "loss": 1.7362,
      "step": 18903
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37274688482284546,
      "learning_rate": 0.000537250778249191,
      "loss": 1.7299,
      "step": 18904
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3789340853691101,
      "learning_rate": 0.0005372443811150014,
      "loss": 1.7005,
      "step": 18905
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3729060888290405,
      "learning_rate": 0.0005372379836928319,
      "loss": 1.7666,
      "step": 18906
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3775337338447571,
      "learning_rate": 0.0005372315859826905,
      "loss": 1.7036,
      "step": 18907
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37290072441101074,
      "learning_rate": 0.000537225187984585,
      "loss": 1.7035,
      "step": 18908
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39137130975723267,
      "learning_rate": 0.000537218789698523,
      "loss": 1.6785,
      "step": 18909
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38964274525642395,
      "learning_rate": 0.0005372123911245125,
      "loss": 1.7309,
      "step": 18910
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37354663014411926,
      "learning_rate": 0.0005372059922625609,
      "loss": 1.6928,
      "step": 18911
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3869437575340271,
      "learning_rate": 0.0005371995931126762,
      "loss": 1.7054,
      "step": 18912
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3881256878376007,
      "learning_rate": 0.0005371931936748663,
      "loss": 1.6995,
      "step": 18913
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4332691729068756,
      "learning_rate": 0.0005371867939491387,
      "loss": 1.7092,
      "step": 18914
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38702648878097534,
      "learning_rate": 0.0005371803939355012,
      "loss": 1.7256,
      "step": 18915
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3945331871509552,
      "learning_rate": 0.0005371739936339618,
      "loss": 1.8087,
      "step": 18916
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5989643931388855,
      "learning_rate": 0.000537167593044528,
      "loss": 1.7842,
      "step": 18917
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40493446588516235,
      "learning_rate": 0.0005371611921672078,
      "loss": 1.6935,
      "step": 18918
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3817451596260071,
      "learning_rate": 0.0005371547910020088,
      "loss": 1.7211,
      "step": 18919
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37129709124565125,
      "learning_rate": 0.0005371483895489389,
      "loss": 1.7221,
      "step": 18920
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3669445812702179,
      "learning_rate": 0.0005371419878080057,
      "loss": 1.697,
      "step": 18921
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3802240788936615,
      "learning_rate": 0.000537135585779217,
      "loss": 1.6938,
      "step": 18922
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3900008499622345,
      "learning_rate": 0.0005371291834625808,
      "loss": 1.6683,
      "step": 18923
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38531580567359924,
      "learning_rate": 0.0005371227808581046,
      "loss": 1.7131,
      "step": 18924
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.372117817401886,
      "learning_rate": 0.0005371163779657964,
      "loss": 1.579,
      "step": 18925
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3657631278038025,
      "learning_rate": 0.0005371099747856638,
      "loss": 1.6351,
      "step": 18926
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37325796484947205,
      "learning_rate": 0.0005371035713177145,
      "loss": 1.7245,
      "step": 18927
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3777569532394409,
      "learning_rate": 0.0005370971675619565,
      "loss": 1.6715,
      "step": 18928
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3840179443359375,
      "learning_rate": 0.0005370907635183975,
      "loss": 1.7248,
      "step": 18929
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.392149418592453,
      "learning_rate": 0.0005370843591870453,
      "loss": 1.6719,
      "step": 18930
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3789095878601074,
      "learning_rate": 0.0005370779545679075,
      "loss": 1.7384,
      "step": 18931
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3800393342971802,
      "learning_rate": 0.000537071549660992,
      "loss": 1.6807,
      "step": 18932
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37314584851264954,
      "learning_rate": 0.0005370651444663066,
      "loss": 1.6689,
      "step": 18933
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40794965624809265,
      "learning_rate": 0.0005370587389838591,
      "loss": 1.6753,
      "step": 18934
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39147689938545227,
      "learning_rate": 0.0005370523332136573,
      "loss": 1.7358,
      "step": 18935
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38134273886680603,
      "learning_rate": 0.0005370459271557086,
      "loss": 1.7525,
      "step": 18936
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.399973064661026,
      "learning_rate": 0.0005370395208100213,
      "loss": 1.7308,
      "step": 18937
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38167479634284973,
      "learning_rate": 0.0005370331141766029,
      "loss": 1.6552,
      "step": 18938
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3932497203350067,
      "learning_rate": 0.0005370267072554612,
      "loss": 1.7243,
      "step": 18939
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4031134843826294,
      "learning_rate": 0.000537020300046604,
      "loss": 1.8084,
      "step": 18940
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38995566964149475,
      "learning_rate": 0.0005370138925500391,
      "loss": 1.6751,
      "step": 18941
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3911985456943512,
      "learning_rate": 0.0005370074847657743,
      "loss": 1.6605,
      "step": 18942
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3867601156234741,
      "learning_rate": 0.0005370010766938173,
      "loss": 1.6446,
      "step": 18943
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3733489215373993,
      "learning_rate": 0.0005369946683341759,
      "loss": 1.683,
      "step": 18944
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38978317379951477,
      "learning_rate": 0.0005369882596868579,
      "loss": 1.7958,
      "step": 18945
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3965965509414673,
      "learning_rate": 0.000536981850751871,
      "loss": 1.6966,
      "step": 18946
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40025845170021057,
      "learning_rate": 0.0005369754415292232,
      "loss": 1.7366,
      "step": 18947
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39178138971328735,
      "learning_rate": 0.000536969032018922,
      "loss": 1.746,
      "step": 18948
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38646236062049866,
      "learning_rate": 0.0005369626222209754,
      "loss": 1.6946,
      "step": 18949
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3800877034664154,
      "learning_rate": 0.0005369562121353911,
      "loss": 1.7214,
      "step": 18950
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38621288537979126,
      "learning_rate": 0.0005369498017621767,
      "loss": 1.7272,
      "step": 18951
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38497236371040344,
      "learning_rate": 0.0005369433911013403,
      "loss": 1.6843,
      "step": 18952
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3696426749229431,
      "learning_rate": 0.0005369369801528895,
      "loss": 1.6562,
      "step": 18953
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3935607075691223,
      "learning_rate": 0.0005369305689168322,
      "loss": 1.6994,
      "step": 18954
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4092837870121002,
      "learning_rate": 0.000536924157393176,
      "loss": 1.6914,
      "step": 18955
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3903156816959381,
      "learning_rate": 0.0005369177455819288,
      "loss": 1.6192,
      "step": 18956
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3746460974216461,
      "learning_rate": 0.0005369113334830984,
      "loss": 1.7202,
      "step": 18957
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3858219385147095,
      "learning_rate": 0.0005369049210966926,
      "loss": 1.7638,
      "step": 18958
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3936794400215149,
      "learning_rate": 0.0005368985084227189,
      "loss": 1.6304,
      "step": 18959
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38846656680107117,
      "learning_rate": 0.0005368920954611856,
      "loss": 1.7488,
      "step": 18960
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37923964858055115,
      "learning_rate": 0.0005368856822121,
      "loss": 1.6644,
      "step": 18961
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40770384669303894,
      "learning_rate": 0.0005368792686754701,
      "loss": 1.7435,
      "step": 18962
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.384693443775177,
      "learning_rate": 0.0005368728548513038,
      "loss": 1.7188,
      "step": 18963
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3869674801826477,
      "learning_rate": 0.0005368664407396086,
      "loss": 1.7096,
      "step": 18964
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3833581805229187,
      "learning_rate": 0.0005368600263403925,
      "loss": 1.7497,
      "step": 18965
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.41081374883651733,
      "learning_rate": 0.0005368536116536633,
      "loss": 1.624,
      "step": 18966
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3820915222167969,
      "learning_rate": 0.0005368471966794287,
      "loss": 1.6921,
      "step": 18967
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3832448124885559,
      "learning_rate": 0.0005368407814176965,
      "loss": 1.7608,
      "step": 18968
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3726450800895691,
      "learning_rate": 0.0005368343658684744,
      "loss": 1.781,
      "step": 18969
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38456371426582336,
      "learning_rate": 0.0005368279500317703,
      "loss": 1.6831,
      "step": 18970
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39092954993247986,
      "learning_rate": 0.000536821533907592,
      "loss": 1.749,
      "step": 18971
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3849252760410309,
      "learning_rate": 0.0005368151174959473,
      "loss": 1.7228,
      "step": 18972
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3733927309513092,
      "learning_rate": 0.0005368087007968439,
      "loss": 1.7293,
      "step": 18973
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.379347562789917,
      "learning_rate": 0.0005368022838102896,
      "loss": 1.7068,
      "step": 18974
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3893446624279022,
      "learning_rate": 0.0005367958665362922,
      "loss": 1.7507,
      "step": 18975
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4003640413284302,
      "learning_rate": 0.0005367894489748597,
      "loss": 1.7739,
      "step": 18976
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3975072205066681,
      "learning_rate": 0.0005367830311259993,
      "loss": 1.6923,
      "step": 18977
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3926405608654022,
      "learning_rate": 0.0005367766129897195,
      "loss": 1.6812,
      "step": 18978
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3668292462825775,
      "learning_rate": 0.0005367701945660278,
      "loss": 1.652,
      "step": 18979
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38572579622268677,
      "learning_rate": 0.0005367637758549317,
      "loss": 1.7083,
      "step": 18980
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37732598185539246,
      "learning_rate": 0.0005367573568564396,
      "loss": 1.7116,
      "step": 18981
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3907102942466736,
      "learning_rate": 0.0005367509375705587,
      "loss": 1.6817,
      "step": 18982
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.44534656405448914,
      "learning_rate": 0.0005367445179972972,
      "loss": 1.7071,
      "step": 18983
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3855147361755371,
      "learning_rate": 0.0005367380981366627,
      "loss": 1.7012,
      "step": 18984
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3762040138244629,
      "learning_rate": 0.000536731677988663,
      "loss": 1.6479,
      "step": 18985
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3776659369468689,
      "learning_rate": 0.0005367252575533059,
      "loss": 1.6996,
      "step": 18986
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38368064165115356,
      "learning_rate": 0.0005367188368305992,
      "loss": 1.69,
      "step": 18987
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.978053867816925,
      "learning_rate": 0.0005367124158205509,
      "loss": 1.7779,
      "step": 18988
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3795841336250305,
      "learning_rate": 0.0005367059945231684,
      "loss": 1.775,
      "step": 18989
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3870180547237396,
      "learning_rate": 0.0005366995729384598,
      "loss": 1.6364,
      "step": 18990
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3743757903575897,
      "learning_rate": 0.0005366931510664327,
      "loss": 1.7234,
      "step": 18991
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3881141245365143,
      "learning_rate": 0.000536686728907095,
      "loss": 1.6679,
      "step": 18992
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39079901576042175,
      "learning_rate": 0.0005366803064604547,
      "loss": 1.7735,
      "step": 18993
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3935413658618927,
      "learning_rate": 0.0005366738837265191,
      "loss": 1.7515,
      "step": 18994
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3775255084037781,
      "learning_rate": 0.0005366674607052964,
      "loss": 1.6952,
      "step": 18995
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38258007168769836,
      "learning_rate": 0.0005366610373967942,
      "loss": 1.6857,
      "step": 18996
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3797813355922699,
      "learning_rate": 0.0005366546138010206,
      "loss": 1.7171,
      "step": 18997
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3847324550151825,
      "learning_rate": 0.0005366481899179828,
      "loss": 1.7226,
      "step": 18998
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3587927222251892,
      "learning_rate": 0.0005366417657476892,
      "loss": 1.6509,
      "step": 18999
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38073989748954773,
      "learning_rate": 0.0005366353412901474,
      "loss": 1.8044,
      "step": 19000
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38708433508872986,
      "learning_rate": 0.0005366289165453651,
      "loss": 1.6438,
      "step": 19001
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39446792006492615,
      "learning_rate": 0.0005366224915133501,
      "loss": 1.7356,
      "step": 19002
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3753294050693512,
      "learning_rate": 0.0005366160661941105,
      "loss": 1.6555,
      "step": 19003
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40561026334762573,
      "learning_rate": 0.0005366096405876536,
      "loss": 1.7169,
      "step": 19004
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.41175153851509094,
      "learning_rate": 0.0005366032146939876,
      "loss": 1.7451,
      "step": 19005
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39707913994789124,
      "learning_rate": 0.00053659678851312,
      "loss": 1.6537,
      "step": 19006
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3926248550415039,
      "learning_rate": 0.0005365903620450588,
      "loss": 1.7045,
      "step": 19007
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39592838287353516,
      "learning_rate": 0.0005365839352898119,
      "loss": 1.7042,
      "step": 19008
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40127113461494446,
      "learning_rate": 0.0005365775082473869,
      "loss": 1.7,
      "step": 19009
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3813202381134033,
      "learning_rate": 0.0005365710809177916,
      "loss": 1.6687,
      "step": 19010
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3851427137851715,
      "learning_rate": 0.0005365646533010339,
      "loss": 1.7037,
      "step": 19011
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3811063766479492,
      "learning_rate": 0.0005365582253971217,
      "loss": 1.7221,
      "step": 19012
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38775548338890076,
      "learning_rate": 0.0005365517972060625,
      "loss": 1.7196,
      "step": 19013
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37365826964378357,
      "learning_rate": 0.0005365453687278642,
      "loss": 1.6558,
      "step": 19014
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38513219356536865,
      "learning_rate": 0.0005365389399625348,
      "loss": 1.6632,
      "step": 19015
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.40142661333084106,
      "learning_rate": 0.000536532510910082,
      "loss": 1.7577,
      "step": 19016
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3762337565422058,
      "learning_rate": 0.0005365260815705135,
      "loss": 1.643,
      "step": 19017
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3790075182914734,
      "learning_rate": 0.0005365196519438373,
      "loss": 1.6717,
      "step": 19018
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3723998963832855,
      "learning_rate": 0.0005365132220300611,
      "loss": 1.6734,
      "step": 19019
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4067641496658325,
      "learning_rate": 0.0005365067918291926,
      "loss": 1.766,
      "step": 19020
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4029328525066376,
      "learning_rate": 0.0005365003613412398,
      "loss": 1.674,
      "step": 19021
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37584948539733887,
      "learning_rate": 0.0005364939305662102,
      "loss": 1.7141,
      "step": 19022
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37861382961273193,
      "learning_rate": 0.000536487499504112,
      "loss": 1.7368,
      "step": 19023
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3829909563064575,
      "learning_rate": 0.0005364810681549528,
      "loss": 1.7034,
      "step": 19024
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3911278247833252,
      "learning_rate": 0.0005364746365187404,
      "loss": 1.7317,
      "step": 19025
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3876495659351349,
      "learning_rate": 0.0005364682045954826,
      "loss": 1.6891,
      "step": 19026
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37331873178482056,
      "learning_rate": 0.0005364617723851873,
      "loss": 1.7101,
      "step": 19027
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39638784527778625,
      "learning_rate": 0.0005364553398878622,
      "loss": 1.6635,
      "step": 19028
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37739643454551697,
      "learning_rate": 0.0005364489071035152,
      "loss": 1.733,
      "step": 19029
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3862699568271637,
      "learning_rate": 0.0005364424740321541,
      "loss": 1.7409,
      "step": 19030
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37839704751968384,
      "learning_rate": 0.0005364360406737865,
      "loss": 1.6281,
      "step": 19031
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3827187418937683,
      "learning_rate": 0.0005364296070284205,
      "loss": 1.7499,
      "step": 19032
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38877689838409424,
      "learning_rate": 0.0005364231730960639,
      "loss": 1.7325,
      "step": 19033
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38924577832221985,
      "learning_rate": 0.0005364167388767243,
      "loss": 1.6908,
      "step": 19034
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3977125287055969,
      "learning_rate": 0.0005364103043704096,
      "loss": 1.7573,
      "step": 19035
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3929717242717743,
      "learning_rate": 0.0005364038695771276,
      "loss": 1.7297,
      "step": 19036
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38537874817848206,
      "learning_rate": 0.0005363974344968863,
      "loss": 1.7795,
      "step": 19037
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38087111711502075,
      "learning_rate": 0.0005363909991296931,
      "loss": 1.6944,
      "step": 19038
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39050474762916565,
      "learning_rate": 0.0005363845634755562,
      "loss": 1.6629,
      "step": 19039
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3745633065700531,
      "learning_rate": 0.0005363781275344833,
      "loss": 1.7587,
      "step": 19040
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39458292722702026,
      "learning_rate": 0.0005363716913064821,
      "loss": 1.7225,
      "step": 19041
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36483389139175415,
      "learning_rate": 0.0005363652547915606,
      "loss": 1.6665,
      "step": 19042
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3773384988307953,
      "learning_rate": 0.0005363588179897264,
      "loss": 1.7433,
      "step": 19043
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39187315106391907,
      "learning_rate": 0.0005363523809009874,
      "loss": 1.7275,
      "step": 19044
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37169283628463745,
      "learning_rate": 0.0005363459435253515,
      "loss": 1.7275,
      "step": 19045
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37764742970466614,
      "learning_rate": 0.0005363395058628265,
      "loss": 1.6519,
      "step": 19046
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38198378682136536,
      "learning_rate": 0.0005363330679134201,
      "loss": 1.7326,
      "step": 19047
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4255901277065277,
      "learning_rate": 0.0005363266296771401,
      "loss": 1.7646,
      "step": 19048
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38039472699165344,
      "learning_rate": 0.0005363201911539945,
      "loss": 1.7043,
      "step": 19049
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3877078890800476,
      "learning_rate": 0.000536313752343991,
      "loss": 1.648,
      "step": 19050
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3825502097606659,
      "learning_rate": 0.0005363073132471374,
      "loss": 1.7521,
      "step": 19051
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4704853296279907,
      "learning_rate": 0.0005363008738634415,
      "loss": 1.7411,
      "step": 19052
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3721825182437897,
      "learning_rate": 0.0005362944341929112,
      "loss": 1.6757,
      "step": 19053
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3739811182022095,
      "learning_rate": 0.0005362879942355543,
      "loss": 1.6821,
      "step": 19054
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38781625032424927,
      "learning_rate": 0.0005362815539913786,
      "loss": 1.7051,
      "step": 19055
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3776085376739502,
      "learning_rate": 0.0005362751134603918,
      "loss": 1.6367,
      "step": 19056
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3884880542755127,
      "learning_rate": 0.000536268672642602,
      "loss": 1.7402,
      "step": 19057
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38204771280288696,
      "learning_rate": 0.0005362622315380166,
      "loss": 1.6723,
      "step": 19058
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3703329563140869,
      "learning_rate": 0.0005362557901466439,
      "loss": 1.662,
      "step": 19059
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38900405168533325,
      "learning_rate": 0.0005362493484684914,
      "loss": 1.6831,
      "step": 19060
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3882838785648346,
      "learning_rate": 0.0005362429065035669,
      "loss": 1.7568,
      "step": 19061
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3848474621772766,
      "learning_rate": 0.0005362364642518784,
      "loss": 1.7227,
      "step": 19062
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.382804811000824,
      "learning_rate": 0.0005362300217134337,
      "loss": 1.7031,
      "step": 19063
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38332557678222656,
      "learning_rate": 0.0005362235788882405,
      "loss": 1.7347,
      "step": 19064
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37979182600975037,
      "learning_rate": 0.0005362171357763067,
      "loss": 1.6461,
      "step": 19065
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3799702227115631,
      "learning_rate": 0.0005362106923776401,
      "loss": 1.7391,
      "step": 19066
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38961175084114075,
      "learning_rate": 0.0005362042486922485,
      "loss": 1.6419,
      "step": 19067
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3924359083175659,
      "learning_rate": 0.0005361978047201398,
      "loss": 1.6906,
      "step": 19068
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3896060287952423,
      "learning_rate": 0.0005361913604613217,
      "loss": 1.6386,
      "step": 19069
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3847862780094147,
      "learning_rate": 0.0005361849159158021,
      "loss": 1.746,
      "step": 19070
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39044737815856934,
      "learning_rate": 0.0005361784710835888,
      "loss": 1.7612,
      "step": 19071
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.382575124502182,
      "learning_rate": 0.0005361720259646897,
      "loss": 1.7395,
      "step": 19072
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38623514771461487,
      "learning_rate": 0.0005361655805591125,
      "loss": 1.6511,
      "step": 19073
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39001786708831787,
      "learning_rate": 0.0005361591348668651,
      "loss": 1.7243,
      "step": 19074
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.37351709604263306,
      "learning_rate": 0.0005361526888879554,
      "loss": 1.734,
      "step": 19075
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3927454948425293,
      "learning_rate": 0.000536146242622391,
      "loss": 1.7565,
      "step": 19076
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38635772466659546,
      "learning_rate": 0.0005361397960701799,
      "loss": 1.7215,
      "step": 19077
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36660531163215637,
      "learning_rate": 0.0005361333492313299,
      "loss": 1.6947,
      "step": 19078
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3864130675792694,
      "learning_rate": 0.0005361269021058487,
      "loss": 1.6909,
      "step": 19079
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3861829340457916,
      "learning_rate": 0.0005361204546937443,
      "loss": 1.7387,
      "step": 19080
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3732224702835083,
      "learning_rate": 0.0005361140069950245,
      "loss": 1.7056,
      "step": 19081
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3881571888923645,
      "learning_rate": 0.0005361075590096971,
      "loss": 1.7249,
      "step": 19082
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.39657482504844666,
      "learning_rate": 0.0005361011107377698,
      "loss": 1.7299,
      "step": 19083
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.38510942459106445,
      "learning_rate": 0.0005360946621792506,
      "loss": 1.6986,
      "step": 19084
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3772904872894287,
      "learning_rate": 0.0005360882133341474,
      "loss": 1.6642,
      "step": 19085
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3746107518672943,
      "learning_rate": 0.0005360817642024677,
      "loss": 1.6655,
      "step": 19086
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38829195499420166,
      "learning_rate": 0.0005360753147842196,
      "loss": 1.6786,
      "step": 19087
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37920433282852173,
      "learning_rate": 0.0005360688650794109,
      "loss": 1.6952,
      "step": 19088
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38185375928878784,
      "learning_rate": 0.0005360624150880493,
      "loss": 1.671,
      "step": 19089
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3785845637321472,
      "learning_rate": 0.0005360559648101427,
      "loss": 1.6019,
      "step": 19090
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37757638096809387,
      "learning_rate": 0.000536049514245699,
      "loss": 1.6592,
      "step": 19091
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38218700885772705,
      "learning_rate": 0.0005360430633947259,
      "loss": 1.6699,
      "step": 19092
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37403276562690735,
      "learning_rate": 0.0005360366122572315,
      "loss": 1.7505,
      "step": 19093
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38363656401634216,
      "learning_rate": 0.0005360301608332232,
      "loss": 1.6621,
      "step": 19094
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3694469928741455,
      "learning_rate": 0.0005360237091227092,
      "loss": 1.7469,
      "step": 19095
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39102810621261597,
      "learning_rate": 0.0005360172571256971,
      "loss": 1.7214,
      "step": 19096
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3805469572544098,
      "learning_rate": 0.0005360108048421949,
      "loss": 1.6735,
      "step": 19097
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37704625725746155,
      "learning_rate": 0.0005360043522722103,
      "loss": 1.7243,
      "step": 19098
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37628403306007385,
      "learning_rate": 0.0005359978994157513,
      "loss": 1.6852,
      "step": 19099
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3814088702201843,
      "learning_rate": 0.0005359914462728254,
      "loss": 1.702,
      "step": 19100
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3853033185005188,
      "learning_rate": 0.0005359849928434408,
      "loss": 1.6746,
      "step": 19101
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.381169855594635,
      "learning_rate": 0.0005359785391276052,
      "loss": 1.7256,
      "step": 19102
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3801521956920624,
      "learning_rate": 0.0005359720851253264,
      "loss": 1.6864,
      "step": 19103
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3734525740146637,
      "learning_rate": 0.0005359656308366122,
      "loss": 1.6447,
      "step": 19104
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3821061849594116,
      "learning_rate": 0.0005359591762614707,
      "loss": 1.7366,
      "step": 19105
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37031832337379456,
      "learning_rate": 0.0005359527213999093,
      "loss": 1.72,
      "step": 19106
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3827912211418152,
      "learning_rate": 0.0005359462662519361,
      "loss": 1.7478,
      "step": 19107
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38162970542907715,
      "learning_rate": 0.0005359398108175591,
      "loss": 1.7109,
      "step": 19108
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3869009017944336,
      "learning_rate": 0.0005359333550967857,
      "loss": 1.8143,
      "step": 19109
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3845382332801819,
      "learning_rate": 0.000535926899089624,
      "loss": 1.6747,
      "step": 19110
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3727046251296997,
      "learning_rate": 0.0005359204427960819,
      "loss": 1.7771,
      "step": 19111
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39080411195755005,
      "learning_rate": 0.0005359139862161671,
      "loss": 1.6381,
      "step": 19112
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3829122483730316,
      "learning_rate": 0.0005359075293498875,
      "loss": 1.7364,
      "step": 19113
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3868393301963806,
      "learning_rate": 0.0005359010721972508,
      "loss": 1.7001,
      "step": 19114
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3745648264884949,
      "learning_rate": 0.0005358946147582651,
      "loss": 1.6717,
      "step": 19115
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3778843581676483,
      "learning_rate": 0.000535888157032938,
      "loss": 1.7833,
      "step": 19116
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3816855549812317,
      "learning_rate": 0.0005358816990212775,
      "loss": 1.7646,
      "step": 19117
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37752893567085266,
      "learning_rate": 0.0005358752407232913,
      "loss": 1.684,
      "step": 19118
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37811654806137085,
      "learning_rate": 0.0005358687821389875,
      "loss": 1.6794,
      "step": 19119
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3776957392692566,
      "learning_rate": 0.0005358623232683735,
      "loss": 1.7123,
      "step": 19120
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36961567401885986,
      "learning_rate": 0.0005358558641114575,
      "loss": 1.6672,
      "step": 19121
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39957937598228455,
      "learning_rate": 0.0005358494046682473,
      "loss": 1.6384,
      "step": 19122
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4540632963180542,
      "learning_rate": 0.0005358429449387506,
      "loss": 1.6677,
      "step": 19123
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38434144854545593,
      "learning_rate": 0.0005358364849229753,
      "loss": 1.6858,
      "step": 19124
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38618046045303345,
      "learning_rate": 0.0005358300246209294,
      "loss": 1.6779,
      "step": 19125
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.395596444606781,
      "learning_rate": 0.0005358235640326205,
      "loss": 1.6828,
      "step": 19126
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38927119970321655,
      "learning_rate": 0.0005358171031580565,
      "loss": 1.674,
      "step": 19127
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3833414316177368,
      "learning_rate": 0.0005358106419972452,
      "loss": 1.6407,
      "step": 19128
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3870590627193451,
      "learning_rate": 0.0005358041805501947,
      "loss": 1.7117,
      "step": 19129
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3727215528488159,
      "learning_rate": 0.0005357977188169126,
      "loss": 1.7286,
      "step": 19130
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40053340792655945,
      "learning_rate": 0.0005357912567974068,
      "loss": 1.716,
      "step": 19131
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38388878107070923,
      "learning_rate": 0.0005357847944916852,
      "loss": 1.7157,
      "step": 19132
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4161210060119629,
      "learning_rate": 0.0005357783318997555,
      "loss": 1.7351,
      "step": 19133
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3683835566043854,
      "learning_rate": 0.0005357718690216258,
      "loss": 1.6506,
      "step": 19134
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3862476348876953,
      "learning_rate": 0.0005357654058573036,
      "loss": 1.6869,
      "step": 19135
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3754767179489136,
      "learning_rate": 0.0005357589424067971,
      "loss": 1.7132,
      "step": 19136
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37875035405158997,
      "learning_rate": 0.000535752478670114,
      "loss": 1.7555,
      "step": 19137
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3770592212677002,
      "learning_rate": 0.000535746014647262,
      "loss": 1.6883,
      "step": 19138
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3717673718929291,
      "learning_rate": 0.0005357395503382491,
      "loss": 1.7146,
      "step": 19139
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40641385316848755,
      "learning_rate": 0.0005357330857430831,
      "loss": 1.7241,
      "step": 19140
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3801155090332031,
      "learning_rate": 0.000535726620861772,
      "loss": 1.6879,
      "step": 19141
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4581237733364105,
      "learning_rate": 0.0005357201556943234,
      "loss": 1.7855,
      "step": 19142
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3756071627140045,
      "learning_rate": 0.0005357136902407453,
      "loss": 1.6499,
      "step": 19143
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39208874106407166,
      "learning_rate": 0.0005357072245010455,
      "loss": 1.7918,
      "step": 19144
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3783383071422577,
      "learning_rate": 0.0005357007584752319,
      "loss": 1.5794,
      "step": 19145
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3728841543197632,
      "learning_rate": 0.0005356942921633122,
      "loss": 1.7178,
      "step": 19146
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38394269347190857,
      "learning_rate": 0.0005356878255652944,
      "loss": 1.7392,
      "step": 19147
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37784120440483093,
      "learning_rate": 0.0005356813586811863,
      "loss": 1.6702,
      "step": 19148
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3814835250377655,
      "learning_rate": 0.0005356748915109959,
      "loss": 1.6564,
      "step": 19149
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3917331397533417,
      "learning_rate": 0.0005356684240547308,
      "loss": 1.6789,
      "step": 19150
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3843412697315216,
      "learning_rate": 0.000535661956312399,
      "loss": 1.7215,
      "step": 19151
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4143975079059601,
      "learning_rate": 0.0005356554882840083,
      "loss": 1.7209,
      "step": 19152
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.402177095413208,
      "learning_rate": 0.0005356490199695664,
      "loss": 1.7798,
      "step": 19153
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37521252036094666,
      "learning_rate": 0.0005356425513690815,
      "loss": 1.6837,
      "step": 19154
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3796307444572449,
      "learning_rate": 0.0005356360824825612,
      "loss": 1.7285,
      "step": 19155
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3868655860424042,
      "learning_rate": 0.0005356296133100134,
      "loss": 1.6495,
      "step": 19156
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37857475876808167,
      "learning_rate": 0.000535623143851446,
      "loss": 1.7465,
      "step": 19157
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3831871747970581,
      "learning_rate": 0.0005356166741068667,
      "loss": 1.7075,
      "step": 19158
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3823646605014801,
      "learning_rate": 0.0005356102040762837,
      "loss": 1.6444,
      "step": 19159
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38025322556495667,
      "learning_rate": 0.0005356037337597044,
      "loss": 1.6917,
      "step": 19160
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38319212198257446,
      "learning_rate": 0.000535597263157137,
      "loss": 1.7081,
      "step": 19161
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38308951258659363,
      "learning_rate": 0.0005355907922685892,
      "loss": 1.6606,
      "step": 19162
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38287287950515747,
      "learning_rate": 0.000535584321094069,
      "loss": 1.6863,
      "step": 19163
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3772701323032379,
      "learning_rate": 0.0005355778496335839,
      "loss": 1.7086,
      "step": 19164
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3735944628715515,
      "learning_rate": 0.0005355713778871422,
      "loss": 1.6806,
      "step": 19165
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.371913343667984,
      "learning_rate": 0.0005355649058547515,
      "loss": 1.6506,
      "step": 19166
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3798135817050934,
      "learning_rate": 0.0005355584335364198,
      "loss": 1.6872,
      "step": 19167
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39134958386421204,
      "learning_rate": 0.0005355519609321548,
      "loss": 1.7209,
      "step": 19168
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3848229646682739,
      "learning_rate": 0.0005355454880419644,
      "loss": 1.7285,
      "step": 19169
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37404298782348633,
      "learning_rate": 0.0005355390148658565,
      "loss": 1.7346,
      "step": 19170
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39551910758018494,
      "learning_rate": 0.000535532541403839,
      "loss": 1.6831,
      "step": 19171
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40011173486709595,
      "learning_rate": 0.0005355260676559195,
      "loss": 1.7301,
      "step": 19172
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40737512707710266,
      "learning_rate": 0.0005355195936221064,
      "loss": 1.8392,
      "step": 19173
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3716670870780945,
      "learning_rate": 0.000535513119302407,
      "loss": 1.6746,
      "step": 19174
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37546974420547485,
      "learning_rate": 0.0005355066446968293,
      "loss": 1.657,
      "step": 19175
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3928500711917877,
      "learning_rate": 0.0005355001698053814,
      "loss": 1.736,
      "step": 19176
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37220680713653564,
      "learning_rate": 0.0005354936946280708,
      "loss": 1.6895,
      "step": 19177
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39774808287620544,
      "learning_rate": 0.0005354872191649057,
      "loss": 1.7351,
      "step": 19178
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37662994861602783,
      "learning_rate": 0.0005354807434158938,
      "loss": 1.7236,
      "step": 19179
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39362242817878723,
      "learning_rate": 0.000535474267381043,
      "loss": 1.7782,
      "step": 19180
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37767305970191956,
      "learning_rate": 0.0005354677910603612,
      "loss": 1.7668,
      "step": 19181
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38629794120788574,
      "learning_rate": 0.0005354613144538561,
      "loss": 1.7562,
      "step": 19182
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38768985867500305,
      "learning_rate": 0.0005354548375615355,
      "loss": 1.7371,
      "step": 19183
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37641850113868713,
      "learning_rate": 0.0005354483603834076,
      "loss": 1.6761,
      "step": 19184
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38745763897895813,
      "learning_rate": 0.00053544188291948,
      "loss": 1.7446,
      "step": 19185
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36703255772590637,
      "learning_rate": 0.0005354354051697608,
      "loss": 1.7322,
      "step": 19186
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37633654475212097,
      "learning_rate": 0.0005354289271342575,
      "loss": 1.686,
      "step": 19187
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3687762916088104,
      "learning_rate": 0.0005354224488129783,
      "loss": 1.6577,
      "step": 19188
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3776744604110718,
      "learning_rate": 0.0005354159702059309,
      "loss": 1.6636,
      "step": 19189
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3736438453197479,
      "learning_rate": 0.0005354094913131234,
      "loss": 1.6934,
      "step": 19190
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38262054324150085,
      "learning_rate": 0.0005354030121345632,
      "loss": 1.6876,
      "step": 19191
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3784143924713135,
      "learning_rate": 0.0005353965326702584,
      "loss": 1.7409,
      "step": 19192
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36947768926620483,
      "learning_rate": 0.000535390052920217,
      "loss": 1.698,
      "step": 19193
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3817856013774872,
      "learning_rate": 0.0005353835728844468,
      "loss": 1.7557,
      "step": 19194
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39198511838912964,
      "learning_rate": 0.0005353770925629555,
      "loss": 1.7429,
      "step": 19195
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3768996298313141,
      "learning_rate": 0.0005353706119557512,
      "loss": 1.707,
      "step": 19196
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38471880555152893,
      "learning_rate": 0.0005353641310628417,
      "loss": 1.7143,
      "step": 19197
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3879692554473877,
      "learning_rate": 0.0005353576498842347,
      "loss": 1.7296,
      "step": 19198
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38957205414772034,
      "learning_rate": 0.0005353511684199383,
      "loss": 1.803,
      "step": 19199
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.397503525018692,
      "learning_rate": 0.0005353446866699601,
      "loss": 1.6777,
      "step": 19200
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37594980001449585,
      "learning_rate": 0.0005353382046343083,
      "loss": 1.7847,
      "step": 19201
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3837449848651886,
      "learning_rate": 0.0005353317223129905,
      "loss": 1.6662,
      "step": 19202
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38354727625846863,
      "learning_rate": 0.0005353252397060147,
      "loss": 1.7518,
      "step": 19203
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37853679060935974,
      "learning_rate": 0.0005353187568133888,
      "loss": 1.7273,
      "step": 19204
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3728691339492798,
      "learning_rate": 0.0005353122736351204,
      "loss": 1.7624,
      "step": 19205
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3776145279407501,
      "learning_rate": 0.0005353057901712177,
      "loss": 1.7401,
      "step": 19206
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3717122972011566,
      "learning_rate": 0.0005352993064216884,
      "loss": 1.6491,
      "step": 19207
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37707820534706116,
      "learning_rate": 0.0005352928223865405,
      "loss": 1.6962,
      "step": 19208
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38345906138420105,
      "learning_rate": 0.0005352863380657817,
      "loss": 1.6799,
      "step": 19209
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3849191665649414,
      "learning_rate": 0.00053527985345942,
      "loss": 1.7534,
      "step": 19210
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40019044280052185,
      "learning_rate": 0.0005352733685674632,
      "loss": 1.742,
      "step": 19211
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37870508432388306,
      "learning_rate": 0.0005352668833899193,
      "loss": 1.6585,
      "step": 19212
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3808119595050812,
      "learning_rate": 0.000535260397926796,
      "loss": 1.7682,
      "step": 19213
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37284940481185913,
      "learning_rate": 0.0005352539121781011,
      "loss": 1.7196,
      "step": 19214
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.383751779794693,
      "learning_rate": 0.0005352474261438427,
      "loss": 1.7004,
      "step": 19215
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3686772882938385,
      "learning_rate": 0.0005352409398240286,
      "loss": 1.7155,
      "step": 19216
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37449637055397034,
      "learning_rate": 0.0005352344532186667,
      "loss": 1.6427,
      "step": 19217
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3780921399593353,
      "learning_rate": 0.0005352279663277648,
      "loss": 1.6548,
      "step": 19218
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38677549362182617,
      "learning_rate": 0.0005352214791513308,
      "loss": 1.7083,
      "step": 19219
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3911866247653961,
      "learning_rate": 0.0005352149916893727,
      "loss": 1.7242,
      "step": 19220
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38338276743888855,
      "learning_rate": 0.0005352085039418982,
      "loss": 1.6938,
      "step": 19221
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36918243765830994,
      "learning_rate": 0.0005352020159089151,
      "loss": 1.669,
      "step": 19222
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3895348608493805,
      "learning_rate": 0.0005351955275904314,
      "loss": 1.7289,
      "step": 19223
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37563347816467285,
      "learning_rate": 0.0005351890389864552,
      "loss": 1.6963,
      "step": 19224
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39011022448539734,
      "learning_rate": 0.000535182550096994,
      "loss": 1.7008,
      "step": 19225
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3779021203517914,
      "learning_rate": 0.0005351760609220559,
      "loss": 1.7179,
      "step": 19226
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3890603184700012,
      "learning_rate": 0.0005351695714616487,
      "loss": 1.6935,
      "step": 19227
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3970195949077606,
      "learning_rate": 0.0005351630817157803,
      "loss": 1.7254,
      "step": 19228
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37782856822013855,
      "learning_rate": 0.0005351565916844585,
      "loss": 1.7377,
      "step": 19229
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3878040611743927,
      "learning_rate": 0.0005351501013676912,
      "loss": 1.7217,
      "step": 19230
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3923540711402893,
      "learning_rate": 0.0005351436107654865,
      "loss": 1.6795,
      "step": 19231
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3881029784679413,
      "learning_rate": 0.0005351371198778521,
      "loss": 1.6058,
      "step": 19232
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3911531865596771,
      "learning_rate": 0.0005351306287047958,
      "loss": 1.681,
      "step": 19233
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40058764815330505,
      "learning_rate": 0.0005351241372463255,
      "loss": 1.7539,
      "step": 19234
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3809751570224762,
      "learning_rate": 0.0005351176455024492,
      "loss": 1.7116,
      "step": 19235
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.364310085773468,
      "learning_rate": 0.0005351111534731748,
      "loss": 1.7726,
      "step": 19236
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3642166554927826,
      "learning_rate": 0.00053510466115851,
      "loss": 1.6613,
      "step": 19237
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3802950978279114,
      "learning_rate": 0.0005350981685584628,
      "loss": 1.7201,
      "step": 19238
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38899120688438416,
      "learning_rate": 0.0005350916756730411,
      "loss": 1.7,
      "step": 19239
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37307578325271606,
      "learning_rate": 0.0005350851825022527,
      "loss": 1.7084,
      "step": 19240
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37635311484336853,
      "learning_rate": 0.0005350786890461056,
      "loss": 1.7841,
      "step": 19241
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37942367792129517,
      "learning_rate": 0.0005350721953046075,
      "loss": 1.7261,
      "step": 19242
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38286709785461426,
      "learning_rate": 0.0005350657012777665,
      "loss": 1.7213,
      "step": 19243
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3954620063304901,
      "learning_rate": 0.0005350592069655903,
      "loss": 1.7272,
      "step": 19244
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40888163447380066,
      "learning_rate": 0.0005350527123680869,
      "loss": 1.7751,
      "step": 19245
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37375205755233765,
      "learning_rate": 0.0005350462174852641,
      "loss": 1.6657,
      "step": 19246
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3833695352077484,
      "learning_rate": 0.0005350397223171299,
      "loss": 1.6811,
      "step": 19247
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37655049562454224,
      "learning_rate": 0.000535033226863692,
      "loss": 1.716,
      "step": 19248
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3787313997745514,
      "learning_rate": 0.0005350267311249584,
      "loss": 1.7196,
      "step": 19249
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4028599262237549,
      "learning_rate": 0.0005350202351009371,
      "loss": 1.7187,
      "step": 19250
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39825090765953064,
      "learning_rate": 0.0005350137387916357,
      "loss": 1.71,
      "step": 19251
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.381454735994339,
      "learning_rate": 0.0005350072421970624,
      "loss": 1.694,
      "step": 19252
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3977358341217041,
      "learning_rate": 0.0005350007453172248,
      "loss": 1.7055,
      "step": 19253
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.392751544713974,
      "learning_rate": 0.000534994248152131,
      "loss": 1.7334,
      "step": 19254
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3845648169517517,
      "learning_rate": 0.0005349877507017888,
      "loss": 1.736,
      "step": 19255
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3771287202835083,
      "learning_rate": 0.0005349812529662062,
      "loss": 1.7184,
      "step": 19256
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38644498586654663,
      "learning_rate": 0.0005349747549453908,
      "loss": 1.6555,
      "step": 19257
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38210758566856384,
      "learning_rate": 0.0005349682566393508,
      "loss": 1.6656,
      "step": 19258
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37144795060157776,
      "learning_rate": 0.0005349617580480938,
      "loss": 1.6625,
      "step": 19259
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3746049404144287,
      "learning_rate": 0.000534955259171628,
      "loss": 1.7033,
      "step": 19260
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38023659586906433,
      "learning_rate": 0.000534948760009961,
      "loss": 1.6486,
      "step": 19261
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3767191469669342,
      "learning_rate": 0.000534942260563101,
      "loss": 1.7202,
      "step": 19262
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37760236859321594,
      "learning_rate": 0.0005349357608310557,
      "loss": 1.8067,
      "step": 19263
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3793037533760071,
      "learning_rate": 0.0005349292608138328,
      "loss": 1.7115,
      "step": 19264
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38207411766052246,
      "learning_rate": 0.0005349227605114406,
      "loss": 1.7416,
      "step": 19265
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3761909306049347,
      "learning_rate": 0.0005349162599238866,
      "loss": 1.691,
      "step": 19266
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38075682520866394,
      "learning_rate": 0.000534909759051179,
      "loss": 1.7358,
      "step": 19267
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38205263018608093,
      "learning_rate": 0.0005349032578933256,
      "loss": 1.7056,
      "step": 19268
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38269704580307007,
      "learning_rate": 0.0005348967564503341,
      "loss": 1.7661,
      "step": 19269
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3880278766155243,
      "learning_rate": 0.0005348902547222126,
      "loss": 1.6848,
      "step": 19270
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38430771231651306,
      "learning_rate": 0.0005348837527089692,
      "loss": 1.7273,
      "step": 19271
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37666407227516174,
      "learning_rate": 0.0005348772504106112,
      "loss": 1.7199,
      "step": 19272
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38487565517425537,
      "learning_rate": 0.0005348707478271469,
      "loss": 1.7473,
      "step": 19273
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37911251187324524,
      "learning_rate": 0.0005348642449585841,
      "loss": 1.65,
      "step": 19274
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3882719874382019,
      "learning_rate": 0.0005348577418049309,
      "loss": 1.6561,
      "step": 19275
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36598366498947144,
      "learning_rate": 0.0005348512383661949,
      "loss": 1.694,
      "step": 19276
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3984242379665375,
      "learning_rate": 0.0005348447346423841,
      "loss": 1.7145,
      "step": 19277
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.43887075781822205,
      "learning_rate": 0.0005348382306335063,
      "loss": 1.6622,
      "step": 19278
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39000236988067627,
      "learning_rate": 0.0005348317263395696,
      "loss": 1.738,
      "step": 19279
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3830263614654541,
      "learning_rate": 0.0005348252217605816,
      "loss": 1.6575,
      "step": 19280
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3791449964046478,
      "learning_rate": 0.0005348187168965505,
      "loss": 1.708,
      "step": 19281
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38780659437179565,
      "learning_rate": 0.0005348122117474842,
      "loss": 1.7259,
      "step": 19282
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3789941668510437,
      "learning_rate": 0.0005348057063133904,
      "loss": 1.7446,
      "step": 19283
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38374391198158264,
      "learning_rate": 0.0005347992005942771,
      "loss": 1.7074,
      "step": 19284
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39153143763542175,
      "learning_rate": 0.0005347926945901521,
      "loss": 1.6577,
      "step": 19285
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.385709285736084,
      "learning_rate": 0.0005347861883010233,
      "loss": 1.7234,
      "step": 19286
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3763108253479004,
      "learning_rate": 0.0005347796817268988,
      "loss": 1.6978,
      "step": 19287
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38667312264442444,
      "learning_rate": 0.0005347731748677863,
      "loss": 1.6709,
      "step": 19288
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3875202536582947,
      "learning_rate": 0.0005347666677236937,
      "loss": 1.7094,
      "step": 19289
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3877718150615692,
      "learning_rate": 0.000534760160294629,
      "loss": 1.7555,
      "step": 19290
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4925803542137146,
      "learning_rate": 0.0005347536525806001,
      "loss": 1.7452,
      "step": 19291
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3872360587120056,
      "learning_rate": 0.0005347471445816148,
      "loss": 1.6175,
      "step": 19292
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38730502128601074,
      "learning_rate": 0.0005347406362976811,
      "loss": 1.6827,
      "step": 19293
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38252606987953186,
      "learning_rate": 0.0005347341277288068,
      "loss": 1.66,
      "step": 19294
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3839804232120514,
      "learning_rate": 0.0005347276188749999,
      "loss": 1.6288,
      "step": 19295
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4011325240135193,
      "learning_rate": 0.0005347211097362683,
      "loss": 1.6874,
      "step": 19296
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.387748658657074,
      "learning_rate": 0.0005347146003126198,
      "loss": 1.6874,
      "step": 19297
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38022199273109436,
      "learning_rate": 0.0005347080906040623,
      "loss": 1.661,
      "step": 19298
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38229748606681824,
      "learning_rate": 0.0005347015806106038,
      "loss": 1.6637,
      "step": 19299
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36389419436454773,
      "learning_rate": 0.0005346950703322522,
      "loss": 1.7042,
      "step": 19300
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3896743655204773,
      "learning_rate": 0.0005346885597690154,
      "loss": 1.6937,
      "step": 19301
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.40751633048057556,
      "learning_rate": 0.0005346820489209012,
      "loss": 1.7467,
      "step": 19302
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4127906262874603,
      "learning_rate": 0.0005346755377879176,
      "loss": 1.6212,
      "step": 19303
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3757627606391907,
      "learning_rate": 0.0005346690263700725,
      "loss": 1.6612,
      "step": 19304
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38413548469543457,
      "learning_rate": 0.0005346625146673737,
      "loss": 1.7399,
      "step": 19305
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3713344931602478,
      "learning_rate": 0.0005346560026798292,
      "loss": 1.672,
      "step": 19306
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3886297345161438,
      "learning_rate": 0.000534649490407447,
      "loss": 1.7555,
      "step": 19307
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36831679940223694,
      "learning_rate": 0.0005346429778502348,
      "loss": 1.702,
      "step": 19308
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36979711055755615,
      "learning_rate": 0.0005346364650082006,
      "loss": 1.729,
      "step": 19309
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37674111127853394,
      "learning_rate": 0.0005346299518813522,
      "loss": 1.6514,
      "step": 19310
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3786129653453827,
      "learning_rate": 0.0005346234384696977,
      "loss": 1.7546,
      "step": 19311
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3810090720653534,
      "learning_rate": 0.000534616924773245,
      "loss": 1.7047,
      "step": 19312
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3890322744846344,
      "learning_rate": 0.0005346104107920018,
      "loss": 1.6417,
      "step": 19313
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38390621542930603,
      "learning_rate": 0.0005346038965259762,
      "loss": 1.6103,
      "step": 19314
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3809261620044708,
      "learning_rate": 0.0005345973819751761,
      "loss": 1.701,
      "step": 19315
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36906182765960693,
      "learning_rate": 0.0005345908671396092,
      "loss": 1.7004,
      "step": 19316
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37412843108177185,
      "learning_rate": 0.0005345843520192837,
      "loss": 1.7485,
      "step": 19317
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37467023730278015,
      "learning_rate": 0.0005345778366142072,
      "loss": 1.7471,
      "step": 19318
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3647182583808899,
      "learning_rate": 0.0005345713209243879,
      "loss": 1.6783,
      "step": 19319
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3788112699985504,
      "learning_rate": 0.0005345648049498334,
      "loss": 1.7995,
      "step": 19320
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3797535300254822,
      "learning_rate": 0.000534558288690552,
      "loss": 1.6909,
      "step": 19321
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38536015152931213,
      "learning_rate": 0.0005345517721465513,
      "loss": 1.6665,
      "step": 19322
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39012959599494934,
      "learning_rate": 0.0005345452553178393,
      "loss": 1.6978,
      "step": 19323
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37579941749572754,
      "learning_rate": 0.0005345387382044239,
      "loss": 1.6772,
      "step": 19324
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36744627356529236,
      "learning_rate": 0.0005345322208063131,
      "loss": 1.6161,
      "step": 19325
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37011536955833435,
      "learning_rate": 0.0005345257031235147,
      "loss": 1.7618,
      "step": 19326
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3810948431491852,
      "learning_rate": 0.0005345191851560368,
      "loss": 1.737,
      "step": 19327
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38414907455444336,
      "learning_rate": 0.0005345126669038869,
      "loss": 1.6895,
      "step": 19328
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37524688243865967,
      "learning_rate": 0.0005345061483670734,
      "loss": 1.652,
      "step": 19329
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38671666383743286,
      "learning_rate": 0.0005344996295456039,
      "loss": 1.7228,
      "step": 19330
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3794863820075989,
      "learning_rate": 0.0005344931104394864,
      "loss": 1.7365,
      "step": 19331
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39997580647468567,
      "learning_rate": 0.0005344865910487288,
      "loss": 1.7798,
      "step": 19332
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38072073459625244,
      "learning_rate": 0.000534480071373339,
      "loss": 1.6598,
      "step": 19333
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3790712058544159,
      "learning_rate": 0.0005344735514133249,
      "loss": 1.7102,
      "step": 19334
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3841060996055603,
      "learning_rate": 0.0005344670311686945,
      "loss": 1.7512,
      "step": 19335
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3902103006839752,
      "learning_rate": 0.0005344605106394558,
      "loss": 1.6858,
      "step": 19336
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39011111855506897,
      "learning_rate": 0.0005344539898256165,
      "loss": 1.6749,
      "step": 19337
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.398626446723938,
      "learning_rate": 0.0005344474687271846,
      "loss": 1.7519,
      "step": 19338
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37938350439071655,
      "learning_rate": 0.000534440947344168,
      "loss": 1.6723,
      "step": 19339
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38002094626426697,
      "learning_rate": 0.0005344344256765747,
      "loss": 1.6952,
      "step": 19340
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3861626386642456,
      "learning_rate": 0.0005344279037244124,
      "loss": 1.7318,
      "step": 19341
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39112919569015503,
      "learning_rate": 0.0005344213814876893,
      "loss": 1.6773,
      "step": 19342
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3878781199455261,
      "learning_rate": 0.0005344148589664132,
      "loss": 1.6721,
      "step": 19343
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38261234760284424,
      "learning_rate": 0.000534408336160592,
      "loss": 1.7484,
      "step": 19344
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3789066970348358,
      "learning_rate": 0.0005344018130702335,
      "loss": 1.7509,
      "step": 19345
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37748539447784424,
      "learning_rate": 0.0005343952896953458,
      "loss": 1.6492,
      "step": 19346
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3725668787956238,
      "learning_rate": 0.0005343887660359367,
      "loss": 1.6679,
      "step": 19347
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38903483748435974,
      "learning_rate": 0.0005343822420920143,
      "loss": 1.6409,
      "step": 19348
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3766174912452698,
      "learning_rate": 0.0005343757178635863,
      "loss": 1.6795,
      "step": 19349
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37161049246788025,
      "learning_rate": 0.0005343691933506607,
      "loss": 1.7083,
      "step": 19350
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3795163333415985,
      "learning_rate": 0.0005343626685532455,
      "loss": 1.6225,
      "step": 19351
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38622644543647766,
      "learning_rate": 0.0005343561434713485,
      "loss": 1.6456,
      "step": 19352
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.376549631357193,
      "learning_rate": 0.0005343496181049777,
      "loss": 1.6872,
      "step": 19353
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39005059003829956,
      "learning_rate": 0.000534343092454141,
      "loss": 1.7298,
      "step": 19354
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3942786753177643,
      "learning_rate": 0.0005343365665188462,
      "loss": 1.739,
      "step": 19355
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4046589136123657,
      "learning_rate": 0.0005343300402991015,
      "loss": 1.6908,
      "step": 19356
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38774585723876953,
      "learning_rate": 0.0005343235137949147,
      "loss": 1.7927,
      "step": 19357
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39131954312324524,
      "learning_rate": 0.0005343169870062935,
      "loss": 1.7542,
      "step": 19358
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37933915853500366,
      "learning_rate": 0.0005343104599332461,
      "loss": 1.7535,
      "step": 19359
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3841656744480133,
      "learning_rate": 0.0005343039325757802,
      "loss": 1.6872,
      "step": 19360
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38570094108581543,
      "learning_rate": 0.000534297404933904,
      "loss": 1.6818,
      "step": 19361
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3790731132030487,
      "learning_rate": 0.0005342908770076252,
      "loss": 1.6884,
      "step": 19362
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3833523690700531,
      "learning_rate": 0.0005342843487969519,
      "loss": 1.653,
      "step": 19363
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38381141424179077,
      "learning_rate": 0.0005342778203018918,
      "loss": 1.6965,
      "step": 19364
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38211801648139954,
      "learning_rate": 0.0005342712915224529,
      "loss": 1.7132,
      "step": 19365
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3943654000759125,
      "learning_rate": 0.0005342647624586433,
      "loss": 1.7494,
      "step": 19366
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3833264708518982,
      "learning_rate": 0.0005342582331104707,
      "loss": 1.7238,
      "step": 19367
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39843451976776123,
      "learning_rate": 0.0005342517034779432,
      "loss": 1.7354,
      "step": 19368
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37700170278549194,
      "learning_rate": 0.0005342451735610687,
      "loss": 1.6413,
      "step": 19369
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39332467317581177,
      "learning_rate": 0.000534238643359855,
      "loss": 1.7397,
      "step": 19370
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3816721737384796,
      "learning_rate": 0.0005342321128743101,
      "loss": 1.6873,
      "step": 19371
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38194313645362854,
      "learning_rate": 0.0005342255821044418,
      "loss": 1.6859,
      "step": 19372
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3844420611858368,
      "learning_rate": 0.0005342190510502584,
      "loss": 1.7154,
      "step": 19373
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.38435548543930054,
      "learning_rate": 0.0005342125197117675,
      "loss": 1.713,
      "step": 19374
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36790531873703003,
      "learning_rate": 0.0005342059880889769,
      "loss": 1.6662,
      "step": 19375
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3801855444908142,
      "learning_rate": 0.000534199456181895,
      "loss": 1.6859,
      "step": 19376
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37668827176094055,
      "learning_rate": 0.0005341929239905293,
      "loss": 1.6883,
      "step": 19377
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37056827545166016,
      "learning_rate": 0.000534186391514888,
      "loss": 1.6975,
      "step": 19378
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37642982602119446,
      "learning_rate": 0.0005341798587549789,
      "loss": 1.6482,
      "step": 19379
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3812151849269867,
      "learning_rate": 0.00053417332571081,
      "loss": 1.6738,
      "step": 19380
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39681166410446167,
      "learning_rate": 0.0005341667923823891,
      "loss": 1.7122,
      "step": 19381
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3775961101055145,
      "learning_rate": 0.0005341602587697243,
      "loss": 1.7399,
      "step": 19382
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3869650959968567,
      "learning_rate": 0.0005341537248728234,
      "loss": 1.6576,
      "step": 19383
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39557522535324097,
      "learning_rate": 0.0005341471906916943,
      "loss": 1.7033,
      "step": 19384
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.39227381348609924,
      "learning_rate": 0.0005341406562263452,
      "loss": 1.7201,
      "step": 19385
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3677360713481903,
      "learning_rate": 0.0005341341214767836,
      "loss": 1.6922,
      "step": 19386
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38287827372550964,
      "learning_rate": 0.000534127586443018,
      "loss": 1.6585,
      "step": 19387
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3996184170246124,
      "learning_rate": 0.0005341210511250557,
      "loss": 1.7249,
      "step": 19388
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3810691237449646,
      "learning_rate": 0.0005341145155229051,
      "loss": 1.6646,
      "step": 19389
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39388588070869446,
      "learning_rate": 0.0005341079796365739,
      "loss": 1.7197,
      "step": 19390
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3842203617095947,
      "learning_rate": 0.0005341014434660701,
      "loss": 1.795,
      "step": 19391
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4006345868110657,
      "learning_rate": 0.0005340949070114018,
      "loss": 1.7942,
      "step": 19392
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38197553157806396,
      "learning_rate": 0.0005340883702725767,
      "loss": 1.7007,
      "step": 19393
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3777306377887726,
      "learning_rate": 0.0005340818332496027,
      "loss": 1.774,
      "step": 19394
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38058239221572876,
      "learning_rate": 0.0005340752959424879,
      "loss": 1.7166,
      "step": 19395
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3902563154697418,
      "learning_rate": 0.0005340687583512402,
      "loss": 1.6343,
      "step": 19396
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3746142089366913,
      "learning_rate": 0.0005340622204758675,
      "loss": 1.621,
      "step": 19397
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37273555994033813,
      "learning_rate": 0.0005340556823163777,
      "loss": 1.7214,
      "step": 19398
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3698391318321228,
      "learning_rate": 0.0005340491438727788,
      "loss": 1.7156,
      "step": 19399
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3788655996322632,
      "learning_rate": 0.0005340426051450789,
      "loss": 1.7129,
      "step": 19400
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39449378848075867,
      "learning_rate": 0.0005340360661332857,
      "loss": 1.733,
      "step": 19401
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37237977981567383,
      "learning_rate": 0.000534029526837407,
      "loss": 1.6825,
      "step": 19402
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3783971965312958,
      "learning_rate": 0.0005340229872574511,
      "loss": 1.6847,
      "step": 19403
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3831155002117157,
      "learning_rate": 0.0005340164473934258,
      "loss": 1.6868,
      "step": 19404
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38589513301849365,
      "learning_rate": 0.000534009907245339,
      "loss": 1.7078,
      "step": 19405
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3749021887779236,
      "learning_rate": 0.0005340033668131985,
      "loss": 1.6858,
      "step": 19406
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3731347918510437,
      "learning_rate": 0.0005339968260970125,
      "loss": 1.683,
      "step": 19407
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38210776448249817,
      "learning_rate": 0.0005339902850967889,
      "loss": 1.5898,
      "step": 19408
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37741076946258545,
      "learning_rate": 0.0005339837438125355,
      "loss": 1.6448,
      "step": 19409
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38989558815956116,
      "learning_rate": 0.0005339772022442603,
      "loss": 1.7277,
      "step": 19410
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3817920982837677,
      "learning_rate": 0.0005339706603919712,
      "loss": 1.784,
      "step": 19411
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3994927406311035,
      "learning_rate": 0.0005339641182556762,
      "loss": 1.7223,
      "step": 19412
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36421674489974976,
      "learning_rate": 0.0005339575758353834,
      "loss": 1.6858,
      "step": 19413
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38268500566482544,
      "learning_rate": 0.0005339510331311005,
      "loss": 1.7223,
      "step": 19414
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.42044782638549805,
      "learning_rate": 0.0005339444901428355,
      "loss": 1.7281,
      "step": 19415
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3808160126209259,
      "learning_rate": 0.0005339379468705963,
      "loss": 1.7633,
      "step": 19416
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3747228682041168,
      "learning_rate": 0.000533931403314391,
      "loss": 1.7214,
      "step": 19417
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3945888578891754,
      "learning_rate": 0.0005339248594742273,
      "loss": 1.8128,
      "step": 19418
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37176796793937683,
      "learning_rate": 0.0005339183153501134,
      "loss": 1.6874,
      "step": 19419
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3857972025871277,
      "learning_rate": 0.0005339117709420571,
      "loss": 1.691,
      "step": 19420
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3815166652202606,
      "learning_rate": 0.0005339052262500663,
      "loss": 1.6496,
      "step": 19421
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37283387780189514,
      "learning_rate": 0.0005338986812741492,
      "loss": 1.7825,
      "step": 19422
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39425063133239746,
      "learning_rate": 0.0005338921360143134,
      "loss": 1.7276,
      "step": 19423
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3891366124153137,
      "learning_rate": 0.0005338855904705672,
      "loss": 1.6812,
      "step": 19424
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3809264004230499,
      "learning_rate": 0.0005338790446429182,
      "loss": 1.7575,
      "step": 19425
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3721142113208771,
      "learning_rate": 0.0005338724985313745,
      "loss": 1.6469,
      "step": 19426
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38089719414711,
      "learning_rate": 0.000533865952135944,
      "loss": 1.678,
      "step": 19427
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3788003921508789,
      "learning_rate": 0.0005338594054566349,
      "loss": 1.6829,
      "step": 19428
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.391121506690979,
      "learning_rate": 0.0005338528584934547,
      "loss": 1.6926,
      "step": 19429
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37821322679519653,
      "learning_rate": 0.0005338463112464118,
      "loss": 1.6436,
      "step": 19430
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.411259263753891,
      "learning_rate": 0.0005338397637155138,
      "loss": 1.6775,
      "step": 19431
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38147467374801636,
      "learning_rate": 0.0005338332159007688,
      "loss": 1.6825,
      "step": 19432
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3784310519695282,
      "learning_rate": 0.0005338266678021847,
      "loss": 1.6758,
      "step": 19433
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3786211311817169,
      "learning_rate": 0.0005338201194197696,
      "loss": 1.7144,
      "step": 19434
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3816964328289032,
      "learning_rate": 0.0005338135707535312,
      "loss": 1.6899,
      "step": 19435
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3788875937461853,
      "learning_rate": 0.0005338070218034776,
      "loss": 1.6535,
      "step": 19436
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3962121605873108,
      "learning_rate": 0.0005338004725696168,
      "loss": 1.7101,
      "step": 19437
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3750613033771515,
      "learning_rate": 0.0005337939230519566,
      "loss": 1.6973,
      "step": 19438
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37217795848846436,
      "learning_rate": 0.000533787373250505,
      "loss": 1.6756,
      "step": 19439
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38745829463005066,
      "learning_rate": 0.0005337808231652701,
      "loss": 1.7267,
      "step": 19440
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3951658010482788,
      "learning_rate": 0.0005337742727962596,
      "loss": 1.5931,
      "step": 19441
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37438008189201355,
      "learning_rate": 0.0005337677221434816,
      "loss": 1.5925,
      "step": 19442
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3970278203487396,
      "learning_rate": 0.0005337611712069441,
      "loss": 1.6818,
      "step": 19443
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3885929584503174,
      "learning_rate": 0.000533754619986655,
      "loss": 1.7162,
      "step": 19444
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38221514225006104,
      "learning_rate": 0.000533748068482622,
      "loss": 1.6886,
      "step": 19445
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38309308886528015,
      "learning_rate": 0.0005337415166948536,
      "loss": 1.6923,
      "step": 19446
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3870154321193695,
      "learning_rate": 0.0005337349646233572,
      "loss": 1.6538,
      "step": 19447
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39266717433929443,
      "learning_rate": 0.0005337284122681412,
      "loss": 1.7405,
      "step": 19448
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4044586718082428,
      "learning_rate": 0.0005337218596292132,
      "loss": 1.7463,
      "step": 19449
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4055723249912262,
      "learning_rate": 0.0005337153067065814,
      "loss": 1.7431,
      "step": 19450
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3916517496109009,
      "learning_rate": 0.0005337087535002535,
      "loss": 1.6942,
      "step": 19451
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38701850175857544,
      "learning_rate": 0.0005337022000102377,
      "loss": 1.7227,
      "step": 19452
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3896186947822571,
      "learning_rate": 0.0005336956462365419,
      "loss": 1.6767,
      "step": 19453
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3846950829029083,
      "learning_rate": 0.000533689092179174,
      "loss": 1.722,
      "step": 19454
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3893123269081116,
      "learning_rate": 0.0005336825378381419,
      "loss": 1.6785,
      "step": 19455
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3880497217178345,
      "learning_rate": 0.0005336759832134537,
      "loss": 1.7056,
      "step": 19456
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40891504287719727,
      "learning_rate": 0.0005336694283051172,
      "loss": 1.799,
      "step": 19457
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38083603978157043,
      "learning_rate": 0.0005336628731131406,
      "loss": 1.6298,
      "step": 19458
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3921925127506256,
      "learning_rate": 0.0005336563176375317,
      "loss": 1.7901,
      "step": 19459
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5593625903129578,
      "learning_rate": 0.0005336497618782983,
      "loss": 1.7038,
      "step": 19460
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3876681327819824,
      "learning_rate": 0.0005336432058354486,
      "loss": 1.7619,
      "step": 19461
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3903467357158661,
      "learning_rate": 0.0005336366495089904,
      "loss": 1.691,
      "step": 19462
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38586390018463135,
      "learning_rate": 0.0005336300928989318,
      "loss": 1.6979,
      "step": 19463
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.372406005859375,
      "learning_rate": 0.0005336235360052807,
      "loss": 1.7006,
      "step": 19464
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39044153690338135,
      "learning_rate": 0.0005336169788280451,
      "loss": 1.7433,
      "step": 19465
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38785070180892944,
      "learning_rate": 0.0005336104213672329,
      "loss": 1.6649,
      "step": 19466
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3779512643814087,
      "learning_rate": 0.000533603863622852,
      "loss": 1.7201,
      "step": 19467
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3828642964363098,
      "learning_rate": 0.0005335973055949104,
      "loss": 1.793,
      "step": 19468
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3769901692867279,
      "learning_rate": 0.000533590747283416,
      "loss": 1.6742,
      "step": 19469
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38344627618789673,
      "learning_rate": 0.0005335841886883771,
      "loss": 1.6475,
      "step": 19470
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3813013434410095,
      "learning_rate": 0.0005335776298098013,
      "loss": 1.6581,
      "step": 19471
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37004777789115906,
      "learning_rate": 0.0005335710706476966,
      "loss": 1.6039,
      "step": 19472
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3822949230670929,
      "learning_rate": 0.0005335645112020712,
      "loss": 1.8189,
      "step": 19473
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3723771274089813,
      "learning_rate": 0.0005335579514729328,
      "loss": 1.6487,
      "step": 19474
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3776523172855377,
      "learning_rate": 0.0005335513914602894,
      "loss": 1.7133,
      "step": 19475
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3709718883037567,
      "learning_rate": 0.0005335448311641491,
      "loss": 1.6881,
      "step": 19476
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38281136751174927,
      "learning_rate": 0.0005335382705845198,
      "loss": 1.7208,
      "step": 19477
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38231465220451355,
      "learning_rate": 0.0005335317097214094,
      "loss": 1.6983,
      "step": 19478
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3932885527610779,
      "learning_rate": 0.000533525148574826,
      "loss": 1.7337,
      "step": 19479
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3688924312591553,
      "learning_rate": 0.0005335185871447774,
      "loss": 1.6773,
      "step": 19480
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3684546947479248,
      "learning_rate": 0.0005335120254312717,
      "loss": 1.7239,
      "step": 19481
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38156792521476746,
      "learning_rate": 0.0005335054634343167,
      "loss": 1.6331,
      "step": 19482
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38912951946258545,
      "learning_rate": 0.0005334989011539205,
      "loss": 1.6937,
      "step": 19483
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3851582407951355,
      "learning_rate": 0.0005334923385900912,
      "loss": 1.6602,
      "step": 19484
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3845546841621399,
      "learning_rate": 0.0005334857757428364,
      "loss": 1.7441,
      "step": 19485
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.369426965713501,
      "learning_rate": 0.0005334792126121643,
      "loss": 1.6361,
      "step": 19486
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3808493912220001,
      "learning_rate": 0.0005334726491980829,
      "loss": 1.7027,
      "step": 19487
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39762887358665466,
      "learning_rate": 0.0005334660855006001,
      "loss": 1.6514,
      "step": 19488
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37454816699028015,
      "learning_rate": 0.0005334595215197239,
      "loss": 1.6514,
      "step": 19489
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36488717794418335,
      "learning_rate": 0.0005334529572554622,
      "loss": 1.6919,
      "step": 19490
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.393376886844635,
      "learning_rate": 0.0005334463927078231,
      "loss": 1.6631,
      "step": 19491
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39788898825645447,
      "learning_rate": 0.0005334398278768142,
      "loss": 1.7136,
      "step": 19492
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3925013542175293,
      "learning_rate": 0.000533433262762444,
      "loss": 1.704,
      "step": 19493
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3756396174430847,
      "learning_rate": 0.0005334266973647203,
      "loss": 1.6945,
      "step": 19494
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37568870186805725,
      "learning_rate": 0.0005334201316836507,
      "loss": 1.6367,
      "step": 19495
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5929535627365112,
      "learning_rate": 0.0005334135657192436,
      "loss": 1.6955,
      "step": 19496
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3926672339439392,
      "learning_rate": 0.0005334069994715068,
      "loss": 1.7148,
      "step": 19497
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37771761417388916,
      "learning_rate": 0.0005334004329404482,
      "loss": 1.7552,
      "step": 19498
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3772658705711365,
      "learning_rate": 0.0005333938661260761,
      "loss": 1.7186,
      "step": 19499
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3806377053260803,
      "learning_rate": 0.000533387299028398,
      "loss": 1.6987,
      "step": 19500
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40251103043556213,
      "learning_rate": 0.0005333807316474223,
      "loss": 1.7312,
      "step": 19501
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3778879642486572,
      "learning_rate": 0.0005333741639831567,
      "loss": 1.6597,
      "step": 19502
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38661104440689087,
      "learning_rate": 0.0005333675960356092,
      "loss": 1.8053,
      "step": 19503
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4078522026538849,
      "learning_rate": 0.0005333610278047879,
      "loss": 1.695,
      "step": 19504
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38020753860473633,
      "learning_rate": 0.0005333544592907006,
      "loss": 1.69,
      "step": 19505
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3907609283924103,
      "learning_rate": 0.0005333478904933555,
      "loss": 1.6721,
      "step": 19506
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3899712562561035,
      "learning_rate": 0.0005333413214127603,
      "loss": 1.7141,
      "step": 19507
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40262943506240845,
      "learning_rate": 0.0005333347520489232,
      "loss": 1.7309,
      "step": 19508
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38838016986846924,
      "learning_rate": 0.000533328182401852,
      "loss": 1.7622,
      "step": 19509
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39400461316108704,
      "learning_rate": 0.0005333216124715549,
      "loss": 1.5906,
      "step": 19510
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39578282833099365,
      "learning_rate": 0.0005333150422580396,
      "loss": 1.673,
      "step": 19511
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3932037949562073,
      "learning_rate": 0.0005333084717613144,
      "loss": 1.7043,
      "step": 19512
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3744387626647949,
      "learning_rate": 0.000533301900981387,
      "loss": 1.6261,
      "step": 19513
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4455074667930603,
      "learning_rate": 0.0005332953299182655,
      "loss": 1.6796,
      "step": 19514
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3838635981082916,
      "learning_rate": 0.0005332887585719578,
      "loss": 1.7541,
      "step": 19515
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39270031452178955,
      "learning_rate": 0.0005332821869424719,
      "loss": 1.6732,
      "step": 19516
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39236125349998474,
      "learning_rate": 0.0005332756150298159,
      "loss": 1.717,
      "step": 19517
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4158594310283661,
      "learning_rate": 0.0005332690428339975,
      "loss": 1.7485,
      "step": 19518
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4004348814487457,
      "learning_rate": 0.000533262470355025,
      "loss": 1.7089,
      "step": 19519
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3886122405529022,
      "learning_rate": 0.0005332558975929061,
      "loss": 1.7346,
      "step": 19520
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40374794602394104,
      "learning_rate": 0.000533249324547649,
      "loss": 1.6837,
      "step": 19521
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3640076518058777,
      "learning_rate": 0.0005332427512192616,
      "loss": 1.7172,
      "step": 19522
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39133626222610474,
      "learning_rate": 0.0005332361776077518,
      "loss": 1.7764,
      "step": 19523
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39668649435043335,
      "learning_rate": 0.0005332296037131277,
      "loss": 1.6444,
      "step": 19524
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3781317472457886,
      "learning_rate": 0.0005332230295353972,
      "loss": 1.8219,
      "step": 19525
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3808855414390564,
      "learning_rate": 0.0005332164550745684,
      "loss": 1.7132,
      "step": 19526
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3920678496360779,
      "learning_rate": 0.0005332098803306491,
      "loss": 1.7198,
      "step": 19527
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.382779598236084,
      "learning_rate": 0.0005332033053036473,
      "loss": 1.6842,
      "step": 19528
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37010085582733154,
      "learning_rate": 0.0005331967299935711,
      "loss": 1.7753,
      "step": 19529
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39544370770454407,
      "learning_rate": 0.0005331901544004285,
      "loss": 1.6939,
      "step": 19530
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38156139850616455,
      "learning_rate": 0.0005331835785242273,
      "loss": 1.7075,
      "step": 19531
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3838760554790497,
      "learning_rate": 0.0005331770023649757,
      "loss": 1.6702,
      "step": 19532
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38605016469955444,
      "learning_rate": 0.0005331704259226816,
      "loss": 1.6486,
      "step": 19533
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3974321484565735,
      "learning_rate": 0.0005331638491973529,
      "loss": 1.6645,
      "step": 19534
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.388319730758667,
      "learning_rate": 0.0005331572721889976,
      "loss": 1.6965,
      "step": 19535
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3881165385246277,
      "learning_rate": 0.0005331506948976237,
      "loss": 1.7714,
      "step": 19536
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40434205532073975,
      "learning_rate": 0.0005331441173232394,
      "loss": 1.6361,
      "step": 19537
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39001449942588806,
      "learning_rate": 0.0005331375394658522,
      "loss": 1.6912,
      "step": 19538
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37877216935157776,
      "learning_rate": 0.0005331309613254707,
      "loss": 1.7336,
      "step": 19539
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3914545476436615,
      "learning_rate": 0.0005331243829021023,
      "loss": 1.7249,
      "step": 19540
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40733692049980164,
      "learning_rate": 0.0005331178041957554,
      "loss": 1.698,
      "step": 19541
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39218124747276306,
      "learning_rate": 0.0005331112252064379,
      "loss": 1.7057,
      "step": 19542
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3768618106842041,
      "learning_rate": 0.0005331046459341575,
      "loss": 1.7199,
      "step": 19543
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3858579099178314,
      "learning_rate": 0.0005330980663789225,
      "loss": 1.6903,
      "step": 19544
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38118505477905273,
      "learning_rate": 0.0005330914865407408,
      "loss": 1.6454,
      "step": 19545
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3866969645023346,
      "learning_rate": 0.0005330849064196204,
      "loss": 1.6335,
      "step": 19546
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3819495737552643,
      "learning_rate": 0.0005330783260155692,
      "loss": 1.7108,
      "step": 19547
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38553881645202637,
      "learning_rate": 0.0005330717453285954,
      "loss": 1.6681,
      "step": 19548
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37956833839416504,
      "learning_rate": 0.0005330651643587067,
      "loss": 1.683,
      "step": 19549
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39013391733169556,
      "learning_rate": 0.0005330585831059113,
      "loss": 1.7798,
      "step": 19550
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37987884879112244,
      "learning_rate": 0.000533052001570217,
      "loss": 1.74,
      "step": 19551
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38860267400741577,
      "learning_rate": 0.0005330454197516321,
      "loss": 1.6854,
      "step": 19552
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37977805733680725,
      "learning_rate": 0.0005330388376501643,
      "loss": 1.7196,
      "step": 19553
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38554057478904724,
      "learning_rate": 0.0005330322552658217,
      "loss": 1.6882,
      "step": 19554
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.382344514131546,
      "learning_rate": 0.0005330256725986123,
      "loss": 1.697,
      "step": 19555
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40376099944114685,
      "learning_rate": 0.000533019089648544,
      "loss": 1.6581,
      "step": 19556
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.379954069852829,
      "learning_rate": 0.000533012506415625,
      "loss": 1.7181,
      "step": 19557
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3768402636051178,
      "learning_rate": 0.000533005922899863,
      "loss": 1.6685,
      "step": 19558
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3861706256866455,
      "learning_rate": 0.0005329993391012661,
      "loss": 1.7361,
      "step": 19559
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38978880643844604,
      "learning_rate": 0.0005329927550198425,
      "loss": 1.7142,
      "step": 19560
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3913770914077759,
      "learning_rate": 0.0005329861706555999,
      "loss": 1.7317,
      "step": 19561
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3942354917526245,
      "learning_rate": 0.0005329795860085465,
      "loss": 1.7187,
      "step": 19562
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3906864523887634,
      "learning_rate": 0.0005329730010786902,
      "loss": 1.6851,
      "step": 19563
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37340080738067627,
      "learning_rate": 0.000532966415866039,
      "loss": 1.7267,
      "step": 19564
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3685903549194336,
      "learning_rate": 0.0005329598303706009,
      "loss": 1.6805,
      "step": 19565
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37855878472328186,
      "learning_rate": 0.0005329532445923839,
      "loss": 1.6828,
      "step": 19566
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3987048268318176,
      "learning_rate": 0.0005329466585313958,
      "loss": 1.7698,
      "step": 19567
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37829405069351196,
      "learning_rate": 0.000532940072187645,
      "loss": 1.7615,
      "step": 19568
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3976167142391205,
      "learning_rate": 0.0005329334855611392,
      "loss": 1.7152,
      "step": 19569
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3782695531845093,
      "learning_rate": 0.0005329268986518865,
      "loss": 1.6964,
      "step": 19570
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.380261093378067,
      "learning_rate": 0.0005329203114598949,
      "loss": 1.7275,
      "step": 19571
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3792687654495239,
      "learning_rate": 0.0005329137239851724,
      "loss": 1.658,
      "step": 19572
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3813015818595886,
      "learning_rate": 0.0005329071362277268,
      "loss": 1.7055,
      "step": 19573
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.378072053194046,
      "learning_rate": 0.0005329005481875662,
      "loss": 1.6742,
      "step": 19574
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38145720958709717,
      "learning_rate": 0.0005328939598646988,
      "loss": 1.6898,
      "step": 19575
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.373208224773407,
      "learning_rate": 0.0005328873712591324,
      "loss": 1.7124,
      "step": 19576
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.382012277841568,
      "learning_rate": 0.000532880782370875,
      "loss": 1.7244,
      "step": 19577
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3956405818462372,
      "learning_rate": 0.0005328741931999348,
      "loss": 1.7689,
      "step": 19578
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.383363276720047,
      "learning_rate": 0.0005328676037463196,
      "loss": 1.6778,
      "step": 19579
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37552914023399353,
      "learning_rate": 0.0005328610140100373,
      "loss": 1.6669,
      "step": 19580
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3990432918071747,
      "learning_rate": 0.0005328544239910962,
      "loss": 1.6627,
      "step": 19581
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38882094621658325,
      "learning_rate": 0.0005328478336895041,
      "loss": 1.6886,
      "step": 19582
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3781687319278717,
      "learning_rate": 0.0005328412431052689,
      "loss": 1.7056,
      "step": 19583
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.43027928471565247,
      "learning_rate": 0.0005328346522383989,
      "loss": 1.6923,
      "step": 19584
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3946988582611084,
      "learning_rate": 0.0005328280610889018,
      "loss": 1.6547,
      "step": 19585
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3811923861503601,
      "learning_rate": 0.0005328214696567858,
      "loss": 1.732,
      "step": 19586
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3836899995803833,
      "learning_rate": 0.000532814877942059,
      "loss": 1.6851,
      "step": 19587
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38663917779922485,
      "learning_rate": 0.000532808285944729,
      "loss": 1.7097,
      "step": 19588
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.381582111120224,
      "learning_rate": 0.0005328016936648042,
      "loss": 1.6957,
      "step": 19589
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.384127140045166,
      "learning_rate": 0.0005327951011022924,
      "loss": 1.6831,
      "step": 19590
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37484005093574524,
      "learning_rate": 0.0005327885082572016,
      "loss": 1.6416,
      "step": 19591
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38350778818130493,
      "learning_rate": 0.0005327819151295399,
      "loss": 1.7132,
      "step": 19592
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3921341598033905,
      "learning_rate": 0.0005327753217193152,
      "loss": 1.778,
      "step": 19593
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3827093243598938,
      "learning_rate": 0.0005327687280265356,
      "loss": 1.7473,
      "step": 19594
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3749019205570221,
      "learning_rate": 0.0005327621340512091,
      "loss": 1.6828,
      "step": 19595
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3817923367023468,
      "learning_rate": 0.0005327555397933436,
      "loss": 1.6585,
      "step": 19596
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3835327923297882,
      "learning_rate": 0.0005327489452529472,
      "loss": 1.6959,
      "step": 19597
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4026266932487488,
      "learning_rate": 0.0005327423504300279,
      "loss": 1.7652,
      "step": 19598
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38025030493736267,
      "learning_rate": 0.0005327357553245937,
      "loss": 1.6773,
      "step": 19599
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3968498706817627,
      "learning_rate": 0.0005327291599366525,
      "loss": 1.6569,
      "step": 19600
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38978493213653564,
      "learning_rate": 0.0005327225642662124,
      "loss": 1.7644,
      "step": 19601
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3958284556865692,
      "learning_rate": 0.0005327159683132815,
      "loss": 1.7583,
      "step": 19602
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38532957434654236,
      "learning_rate": 0.0005327093720778676,
      "loss": 1.7004,
      "step": 19603
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39294278621673584,
      "learning_rate": 0.0005327027755599788,
      "loss": 1.6622,
      "step": 19604
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37143439054489136,
      "learning_rate": 0.0005326961787596231,
      "loss": 1.6654,
      "step": 19605
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37088558077812195,
      "learning_rate": 0.0005326895816768086,
      "loss": 1.7041,
      "step": 19606
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38871073722839355,
      "learning_rate": 0.0005326829843115432,
      "loss": 1.6949,
      "step": 19607
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3897049129009247,
      "learning_rate": 0.000532676386663835,
      "loss": 1.7113,
      "step": 19608
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4202413260936737,
      "learning_rate": 0.0005326697887336919,
      "loss": 1.7544,
      "step": 19609
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39971232414245605,
      "learning_rate": 0.000532663190521122,
      "loss": 1.6972,
      "step": 19610
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3855540454387665,
      "learning_rate": 0.0005326565920261333,
      "loss": 1.7148,
      "step": 19611
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38748830556869507,
      "learning_rate": 0.0005326499932487336,
      "loss": 1.8056,
      "step": 19612
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3847411572933197,
      "learning_rate": 0.0005326433941889312,
      "loss": 1.6714,
      "step": 19613
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.382525235414505,
      "learning_rate": 0.0005326367948467341,
      "loss": 1.7505,
      "step": 19614
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3853660523891449,
      "learning_rate": 0.00053263019522215,
      "loss": 1.8058,
      "step": 19615
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39540570974349976,
      "learning_rate": 0.0005326235953151872,
      "loss": 1.6704,
      "step": 19616
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37727591395378113,
      "learning_rate": 0.0005326169951258538,
      "loss": 1.7564,
      "step": 19617
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3852170705795288,
      "learning_rate": 0.0005326103946541574,
      "loss": 1.7796,
      "step": 19618
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37831997871398926,
      "learning_rate": 0.0005326037939001063,
      "loss": 1.7232,
      "step": 19619
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38231614232063293,
      "learning_rate": 0.0005325971928637086,
      "loss": 1.7118,
      "step": 19620
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37007975578308105,
      "learning_rate": 0.0005325905915449721,
      "loss": 1.6701,
      "step": 19621
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3663206696510315,
      "learning_rate": 0.0005325839899439048,
      "loss": 1.645,
      "step": 19622
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38446497917175293,
      "learning_rate": 0.0005325773880605149,
      "loss": 1.673,
      "step": 19623
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36832645535469055,
      "learning_rate": 0.0005325707858948104,
      "loss": 1.6288,
      "step": 19624
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3736289143562317,
      "learning_rate": 0.0005325641834467991,
      "loss": 1.7043,
      "step": 19625
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37748056650161743,
      "learning_rate": 0.0005325575807164892,
      "loss": 1.7014,
      "step": 19626
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39330869913101196,
      "learning_rate": 0.0005325509777038887,
      "loss": 1.7228,
      "step": 19627
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3881191611289978,
      "learning_rate": 0.0005325443744090055,
      "loss": 1.7126,
      "step": 19628
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3855730891227722,
      "learning_rate": 0.0005325377708318477,
      "loss": 1.761,
      "step": 19629
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38513413071632385,
      "learning_rate": 0.0005325311669724233,
      "loss": 1.7041,
      "step": 19630
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3797086775302887,
      "learning_rate": 0.0005325245628307404,
      "loss": 1.7306,
      "step": 19631
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.372951865196228,
      "learning_rate": 0.000532517958406807,
      "loss": 1.6447,
      "step": 19632
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4723740518093109,
      "learning_rate": 0.0005325113537006309,
      "loss": 1.6506,
      "step": 19633
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3791458010673523,
      "learning_rate": 0.0005325047487122204,
      "loss": 1.7069,
      "step": 19634
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3963432013988495,
      "learning_rate": 0.0005324981434415833,
      "loss": 1.7023,
      "step": 19635
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3849198520183563,
      "learning_rate": 0.0005324915378887277,
      "loss": 1.7023,
      "step": 19636
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37291327118873596,
      "learning_rate": 0.0005324849320536616,
      "loss": 1.7132,
      "step": 19637
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38168802857398987,
      "learning_rate": 0.0005324783259363933,
      "loss": 1.693,
      "step": 19638
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3975275456905365,
      "learning_rate": 0.0005324717195369303,
      "loss": 1.7231,
      "step": 19639
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3875918686389923,
      "learning_rate": 0.000532465112855281,
      "loss": 1.7964,
      "step": 19640
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38406819105148315,
      "learning_rate": 0.0005324585058914533,
      "loss": 1.6933,
      "step": 19641
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39888373017311096,
      "learning_rate": 0.0005324518986454552,
      "loss": 1.7868,
      "step": 19642
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.387344092130661,
      "learning_rate": 0.0005324452911172948,
      "loss": 1.7231,
      "step": 19643
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39273181557655334,
      "learning_rate": 0.00053243868330698,
      "loss": 1.7034,
      "step": 19644
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38275113701820374,
      "learning_rate": 0.0005324320752145189,
      "loss": 1.7149,
      "step": 19645
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3881802260875702,
      "learning_rate": 0.0005324254668399195,
      "loss": 1.7485,
      "step": 19646
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4106002151966095,
      "learning_rate": 0.0005324188581831898,
      "loss": 1.7495,
      "step": 19647
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40518179535865784,
      "learning_rate": 0.0005324122492443379,
      "loss": 1.7207,
      "step": 19648
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38393425941467285,
      "learning_rate": 0.0005324056400233718,
      "loss": 1.6443,
      "step": 19649
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3848690986633301,
      "learning_rate": 0.0005323990305202994,
      "loss": 1.7384,
      "step": 19650
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3844638466835022,
      "learning_rate": 0.0005323924207351289,
      "loss": 1.6105,
      "step": 19651
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3939741849899292,
      "learning_rate": 0.0005323858106678682,
      "loss": 1.6643,
      "step": 19652
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39051467180252075,
      "learning_rate": 0.0005323792003185255,
      "loss": 1.7008,
      "step": 19653
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3836495578289032,
      "learning_rate": 0.0005323725896871085,
      "loss": 1.692,
      "step": 19654
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.40155377984046936,
      "learning_rate": 0.0005323659787736254,
      "loss": 1.7354,
      "step": 19655
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39663487672805786,
      "learning_rate": 0.0005323593675780843,
      "loss": 1.6921,
      "step": 19656
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38400155305862427,
      "learning_rate": 0.0005323527561004933,
      "loss": 1.7253,
      "step": 19657
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3849150538444519,
      "learning_rate": 0.0005323461443408602,
      "loss": 1.6998,
      "step": 19658
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3924531936645508,
      "learning_rate": 0.0005323395322991931,
      "loss": 1.699,
      "step": 19659
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3852997422218323,
      "learning_rate": 0.0005323329199755,
      "loss": 1.6539,
      "step": 19660
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3729480803012848,
      "learning_rate": 0.000532326307369789,
      "loss": 1.6825,
      "step": 19661
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39926403760910034,
      "learning_rate": 0.0005323196944820682,
      "loss": 1.6872,
      "step": 19662
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3994268476963043,
      "learning_rate": 0.0005323130813123454,
      "loss": 1.7558,
      "step": 19663
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37341704964637756,
      "learning_rate": 0.0005323064678606288,
      "loss": 1.6713,
      "step": 19664
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38008907437324524,
      "learning_rate": 0.0005322998541269264,
      "loss": 1.6418,
      "step": 19665
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39448538422584534,
      "learning_rate": 0.0005322932401112461,
      "loss": 1.687,
      "step": 19666
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3894776701927185,
      "learning_rate": 0.000532286625813596,
      "loss": 1.7622,
      "step": 19667
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3758944571018219,
      "learning_rate": 0.0005322800112339843,
      "loss": 1.713,
      "step": 19668
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3940396010875702,
      "learning_rate": 0.0005322733963724188,
      "loss": 1.7138,
      "step": 19669
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3713541626930237,
      "learning_rate": 0.0005322667812289077,
      "loss": 1.7509,
      "step": 19670
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3881855905056,
      "learning_rate": 0.000532260165803459,
      "loss": 1.6076,
      "step": 19671
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38052627444267273,
      "learning_rate": 0.0005322535500960805,
      "loss": 1.6875,
      "step": 19672
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3798215091228485,
      "learning_rate": 0.0005322469341067805,
      "loss": 1.7077,
      "step": 19673
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39271628856658936,
      "learning_rate": 0.0005322403178355669,
      "loss": 1.7,
      "step": 19674
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38355952501296997,
      "learning_rate": 0.0005322337012824479,
      "loss": 1.6263,
      "step": 19675
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39359378814697266,
      "learning_rate": 0.0005322270844474313,
      "loss": 1.7672,
      "step": 19676
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3700312674045563,
      "learning_rate": 0.0005322204673305253,
      "loss": 1.6303,
      "step": 19677
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38554641604423523,
      "learning_rate": 0.0005322138499317379,
      "loss": 1.6836,
      "step": 19678
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38676920533180237,
      "learning_rate": 0.0005322072322510769,
      "loss": 1.7322,
      "step": 19679
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38354676961898804,
      "learning_rate": 0.0005322006142885506,
      "loss": 1.6731,
      "step": 19680
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3781231641769409,
      "learning_rate": 0.0005321939960441672,
      "loss": 1.6754,
      "step": 19681
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.39668816328048706,
      "learning_rate": 0.0005321873775179343,
      "loss": 1.6941,
      "step": 19682
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3771355152130127,
      "learning_rate": 0.0005321807587098602,
      "loss": 1.6862,
      "step": 19683
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.38038426637649536,
      "learning_rate": 0.0005321741396199528,
      "loss": 1.702,
      "step": 19684
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4064951539039612,
      "learning_rate": 0.0005321675202482202,
      "loss": 1.7454,
      "step": 19685
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37356388568878174,
      "learning_rate": 0.0005321609005946705,
      "loss": 1.6405,
      "step": 19686
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3692823648452759,
      "learning_rate": 0.0005321542806593117,
      "loss": 1.7413,
      "step": 19687
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39513102173805237,
      "learning_rate": 0.0005321476604421518,
      "loss": 1.6795,
      "step": 19688
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38661015033721924,
      "learning_rate": 0.0005321410399431987,
      "loss": 1.7299,
      "step": 19689
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38384297490119934,
      "learning_rate": 0.0005321344191624608,
      "loss": 1.7361,
      "step": 19690
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38906723260879517,
      "learning_rate": 0.0005321277980999457,
      "loss": 1.6593,
      "step": 19691
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3873268961906433,
      "learning_rate": 0.0005321211767556618,
      "loss": 1.7494,
      "step": 19692
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3916515111923218,
      "learning_rate": 0.000532114555129617,
      "loss": 1.7415,
      "step": 19693
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3854464292526245,
      "learning_rate": 0.0005321079332218194,
      "loss": 1.6891,
      "step": 19694
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3670142590999603,
      "learning_rate": 0.0005321013110322768,
      "loss": 1.7298,
      "step": 19695
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3902052044868469,
      "learning_rate": 0.0005320946885609974,
      "loss": 1.695,
      "step": 19696
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38656020164489746,
      "learning_rate": 0.0005320880658079894,
      "loss": 1.702,
      "step": 19697
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38912391662597656,
      "learning_rate": 0.0005320814427732606,
      "loss": 1.7253,
      "step": 19698
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3778102993965149,
      "learning_rate": 0.000532074819456819,
      "loss": 1.7111,
      "step": 19699
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38327354192733765,
      "learning_rate": 0.0005320681958586729,
      "loss": 1.7442,
      "step": 19700
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3999674618244171,
      "learning_rate": 0.0005320615719788302,
      "loss": 1.7,
      "step": 19701
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3910398483276367,
      "learning_rate": 0.0005320549478172989,
      "loss": 1.7125,
      "step": 19702
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38105785846710205,
      "learning_rate": 0.0005320483233740872,
      "loss": 1.7041,
      "step": 19703
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.401736855506897,
      "learning_rate": 0.0005320416986492029,
      "loss": 1.812,
      "step": 19704
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38026130199432373,
      "learning_rate": 0.0005320350736426542,
      "loss": 1.6201,
      "step": 19705
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4028233289718628,
      "learning_rate": 0.0005320284483544491,
      "loss": 1.6782,
      "step": 19706
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38783758878707886,
      "learning_rate": 0.0005320218227845957,
      "loss": 1.7554,
      "step": 19707
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38258570432662964,
      "learning_rate": 0.0005320151969331019,
      "loss": 1.6884,
      "step": 19708
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3820734918117523,
      "learning_rate": 0.000532008570799976,
      "loss": 1.6661,
      "step": 19709
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.390615314245224,
      "learning_rate": 0.0005320019443852258,
      "loss": 1.7125,
      "step": 19710
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.378019779920578,
      "learning_rate": 0.0005319953176888593,
      "loss": 1.7124,
      "step": 19711
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3887876272201538,
      "learning_rate": 0.0005319886907108848,
      "loss": 1.7092,
      "step": 19712
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3810858428478241,
      "learning_rate": 0.0005319820634513102,
      "loss": 1.7319,
      "step": 19713
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.381625235080719,
      "learning_rate": 0.0005319754359101436,
      "loss": 1.6995,
      "step": 19714
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3787005841732025,
      "learning_rate": 0.0005319688080873929,
      "loss": 1.7585,
      "step": 19715
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3676486909389496,
      "learning_rate": 0.0005319621799830663,
      "loss": 1.6485,
      "step": 19716
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3763652741909027,
      "learning_rate": 0.0005319555515971718,
      "loss": 1.6731,
      "step": 19717
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3875209391117096,
      "learning_rate": 0.0005319489229297173,
      "loss": 1.7101,
      "step": 19718
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39145201444625854,
      "learning_rate": 0.0005319422939807112,
      "loss": 1.7511,
      "step": 19719
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39542797207832336,
      "learning_rate": 0.0005319356647501613,
      "loss": 1.737,
      "step": 19720
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3880594074726105,
      "learning_rate": 0.0005319290352380756,
      "loss": 1.6578,
      "step": 19721
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3770741820335388,
      "learning_rate": 0.0005319224054444622,
      "loss": 1.6318,
      "step": 19722
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3791777789592743,
      "learning_rate": 0.0005319157753693292,
      "loss": 1.681,
      "step": 19723
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3767460584640503,
      "learning_rate": 0.0005319091450126846,
      "loss": 1.6916,
      "step": 19724
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3927898406982422,
      "learning_rate": 0.0005319025143745365,
      "loss": 1.6992,
      "step": 19725
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39399924874305725,
      "learning_rate": 0.0005318958834548929,
      "loss": 1.6613,
      "step": 19726
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3865504860877991,
      "learning_rate": 0.0005318892522537618,
      "loss": 1.6857,
      "step": 19727
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38871148228645325,
      "learning_rate": 0.0005318826207711514,
      "loss": 1.7688,
      "step": 19728
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3885079026222229,
      "learning_rate": 0.0005318759890070697,
      "loss": 1.7779,
      "step": 19729
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38175639510154724,
      "learning_rate": 0.0005318693569615247,
      "loss": 1.6196,
      "step": 19730
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3884681165218353,
      "learning_rate": 0.0005318627246345244,
      "loss": 1.7168,
      "step": 19731
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3769840896129608,
      "learning_rate": 0.0005318560920260769,
      "loss": 1.7943,
      "step": 19732
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.386542409658432,
      "learning_rate": 0.0005318494591361904,
      "loss": 1.7302,
      "step": 19733
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38992321491241455,
      "learning_rate": 0.0005318428259648727,
      "loss": 1.6979,
      "step": 19734
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37915295362472534,
      "learning_rate": 0.000531836192512132,
      "loss": 1.6858,
      "step": 19735
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3900205194950104,
      "learning_rate": 0.0005318295587779763,
      "loss": 1.6729,
      "step": 19736
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3904527723789215,
      "learning_rate": 0.0005318229247624137,
      "loss": 1.7463,
      "step": 19737
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4001538157463074,
      "learning_rate": 0.0005318162904654523,
      "loss": 1.761,
      "step": 19738
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38498780131340027,
      "learning_rate": 0.0005318096558871,
      "loss": 1.7068,
      "step": 19739
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38816210627555847,
      "learning_rate": 0.0005318030210273649,
      "loss": 1.7622,
      "step": 19740
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3916165232658386,
      "learning_rate": 0.0005317963858862551,
      "loss": 1.7128,
      "step": 19741
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3733074367046356,
      "learning_rate": 0.0005317897504637786,
      "loss": 1.6414,
      "step": 19742
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3789985477924347,
      "learning_rate": 0.0005317831147599437,
      "loss": 1.6965,
      "step": 19743
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38716962933540344,
      "learning_rate": 0.0005317764787747581,
      "loss": 1.7989,
      "step": 19744
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3976828157901764,
      "learning_rate": 0.00053176984250823,
      "loss": 1.713,
      "step": 19745
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3869205713272095,
      "learning_rate": 0.0005317632059603675,
      "loss": 1.7059,
      "step": 19746
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37997159361839294,
      "learning_rate": 0.0005317565691311786,
      "loss": 1.7425,
      "step": 19747
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.40321144461631775,
      "learning_rate": 0.0005317499320206713,
      "loss": 1.653,
      "step": 19748
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37267670035362244,
      "learning_rate": 0.0005317432946288539,
      "loss": 1.6539,
      "step": 19749
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3785356879234314,
      "learning_rate": 0.0005317366569557342,
      "loss": 1.6103,
      "step": 19750
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39756160974502563,
      "learning_rate": 0.0005317300190013203,
      "loss": 1.7754,
      "step": 19751
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39343971014022827,
      "learning_rate": 0.0005317233807656203,
      "loss": 1.7675,
      "step": 19752
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3796233832836151,
      "learning_rate": 0.0005317167422486422,
      "loss": 1.675,
      "step": 19753
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39794430136680603,
      "learning_rate": 0.0005317101034503943,
      "loss": 1.7627,
      "step": 19754
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39150089025497437,
      "learning_rate": 0.0005317034643708843,
      "loss": 1.7272,
      "step": 19755
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3790353834629059,
      "learning_rate": 0.0005316968250101206,
      "loss": 1.603,
      "step": 19756
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3897044062614441,
      "learning_rate": 0.000531690185368111,
      "loss": 1.6241,
      "step": 19757
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3779814839363098,
      "learning_rate": 0.0005316835454448637,
      "loss": 1.6884,
      "step": 19758
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3964911699295044,
      "learning_rate": 0.0005316769052403867,
      "loss": 1.7501,
      "step": 19759
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3835209906101227,
      "learning_rate": 0.0005316702647546879,
      "loss": 1.7905,
      "step": 19760
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6809403300285339,
      "learning_rate": 0.0005316636239877758,
      "loss": 1.8159,
      "step": 19761
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.383189857006073,
      "learning_rate": 0.000531656982939658,
      "loss": 1.7049,
      "step": 19762
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38207781314849854,
      "learning_rate": 0.0005316503416103428,
      "loss": 1.7491,
      "step": 19763
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.390359491109848,
      "learning_rate": 0.0005316436999998383,
      "loss": 1.6927,
      "step": 19764
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38945668935775757,
      "learning_rate": 0.0005316370581081525,
      "loss": 1.7359,
      "step": 19765
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37094831466674805,
      "learning_rate": 0.0005316304159352932,
      "loss": 1.6932,
      "step": 19766
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37992310523986816,
      "learning_rate": 0.0005316237734812689,
      "loss": 1.7262,
      "step": 19767
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3839249610900879,
      "learning_rate": 0.0005316171307460875,
      "loss": 1.6562,
      "step": 19768
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38431182503700256,
      "learning_rate": 0.0005316104877297569,
      "loss": 1.67,
      "step": 19769
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3838958740234375,
      "learning_rate": 0.0005316038444322854,
      "loss": 1.7251,
      "step": 19770
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38691553473472595,
      "learning_rate": 0.000531597200853681,
      "loss": 1.6312,
      "step": 19771
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38677331805229187,
      "learning_rate": 0.0005315905569939516,
      "loss": 1.7208,
      "step": 19772
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37738510966300964,
      "learning_rate": 0.0005315839128531055,
      "loss": 1.7036,
      "step": 19773
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38359954953193665,
      "learning_rate": 0.0005315772684311506,
      "loss": 1.7098,
      "step": 19774
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37656012177467346,
      "learning_rate": 0.000531570623728095,
      "loss": 1.6301,
      "step": 19775
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3827075660228729,
      "learning_rate": 0.0005315639787439468,
      "loss": 1.668,
      "step": 19776
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37420085072517395,
      "learning_rate": 0.0005315573334787139,
      "loss": 1.7456,
      "step": 19777
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37725651264190674,
      "learning_rate": 0.0005315506879324047,
      "loss": 1.6673,
      "step": 19778
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3816480338573456,
      "learning_rate": 0.000531544042105027,
      "loss": 1.6152,
      "step": 19779
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3776351511478424,
      "learning_rate": 0.000531537395996589,
      "loss": 1.6095,
      "step": 19780
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3785249888896942,
      "learning_rate": 0.0005315307496070987,
      "loss": 1.6485,
      "step": 19781
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3770524859428406,
      "learning_rate": 0.0005315241029365641,
      "loss": 1.6886,
      "step": 19782
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.386104553937912,
      "learning_rate": 0.0005315174559849935,
      "loss": 1.7522,
      "step": 19783
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39084383845329285,
      "learning_rate": 0.0005315108087523947,
      "loss": 1.6385,
      "step": 19784
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3882860839366913,
      "learning_rate": 0.000531504161238776,
      "loss": 1.7876,
      "step": 19785
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39080798625946045,
      "learning_rate": 0.0005314975134441453,
      "loss": 1.725,
      "step": 19786
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3854765295982361,
      "learning_rate": 0.0005314908653685107,
      "loss": 1.7148,
      "step": 19787
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36690086126327515,
      "learning_rate": 0.0005314842170118804,
      "loss": 1.6127,
      "step": 19788
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3819408118724823,
      "learning_rate": 0.0005314775683742623,
      "loss": 1.8312,
      "step": 19789
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39529427886009216,
      "learning_rate": 0.0005314709194556645,
      "loss": 1.6999,
      "step": 19790
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39755287766456604,
      "learning_rate": 0.0005314642702560952,
      "loss": 1.727,
      "step": 19791
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3972248136997223,
      "learning_rate": 0.0005314576207755623,
      "loss": 1.7759,
      "step": 19792
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37734508514404297,
      "learning_rate": 0.0005314509710140739,
      "loss": 1.7028,
      "step": 19793
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3824397623538971,
      "learning_rate": 0.0005314443209716383,
      "loss": 1.6706,
      "step": 19794
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3950157165527344,
      "learning_rate": 0.0005314376706482632,
      "loss": 1.6982,
      "step": 19795
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36930397152900696,
      "learning_rate": 0.000531431020043957,
      "loss": 1.6689,
      "step": 19796
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38384732604026794,
      "learning_rate": 0.0005314243691587276,
      "loss": 1.6944,
      "step": 19797
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.384190171957016,
      "learning_rate": 0.0005314177179925831,
      "loss": 1.6763,
      "step": 19798
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3747180104255676,
      "learning_rate": 0.0005314110665455316,
      "loss": 1.7289,
      "step": 19799
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38660910725593567,
      "learning_rate": 0.0005314044148175813,
      "loss": 1.7189,
      "step": 19800
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3949408233165741,
      "learning_rate": 0.00053139776280874,
      "loss": 1.6707,
      "step": 19801
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3944014608860016,
      "learning_rate": 0.0005313911105190159,
      "loss": 1.7185,
      "step": 19802
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3803710639476776,
      "learning_rate": 0.000531384457948417,
      "loss": 1.6503,
      "step": 19803
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3844061493873596,
      "learning_rate": 0.0005313778050969516,
      "loss": 1.6959,
      "step": 19804
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3718424439430237,
      "learning_rate": 0.0005313711519646277,
      "loss": 1.6784,
      "step": 19805
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3858472406864166,
      "learning_rate": 0.0005313644985514531,
      "loss": 1.7027,
      "step": 19806
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37870335578918457,
      "learning_rate": 0.0005313578448574363,
      "loss": 1.6927,
      "step": 19807
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36741751432418823,
      "learning_rate": 0.000531351190882585,
      "loss": 1.6622,
      "step": 19808
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3816729784011841,
      "learning_rate": 0.0005313445366269075,
      "loss": 1.7036,
      "step": 19809
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36580637097358704,
      "learning_rate": 0.0005313378820904119,
      "loss": 1.6585,
      "step": 19810
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39110133051872253,
      "learning_rate": 0.0005313312272731061,
      "loss": 1.7462,
      "step": 19811
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3699944019317627,
      "learning_rate": 0.0005313245721749983,
      "loss": 1.7138,
      "step": 19812
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37759777903556824,
      "learning_rate": 0.0005313179167960965,
      "loss": 1.7192,
      "step": 19813
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3839040696620941,
      "learning_rate": 0.000531311261136409,
      "loss": 1.6866,
      "step": 19814
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3802301287651062,
      "learning_rate": 0.0005313046051959436,
      "loss": 1.6062,
      "step": 19815
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3895294964313507,
      "learning_rate": 0.0005312979489747084,
      "loss": 1.7505,
      "step": 19816
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.381346195936203,
      "learning_rate": 0.0005312912924727117,
      "loss": 1.7203,
      "step": 19817
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38548362255096436,
      "learning_rate": 0.0005312846356899614,
      "loss": 1.6848,
      "step": 19818
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.40565797686576843,
      "learning_rate": 0.0005312779786264656,
      "loss": 1.7648,
      "step": 19819
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39629411697387695,
      "learning_rate": 0.0005312713212822325,
      "loss": 1.7044,
      "step": 19820
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.384615957736969,
      "learning_rate": 0.0005312646636572701,
      "loss": 1.7213,
      "step": 19821
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.40142807364463806,
      "learning_rate": 0.0005312580057515864,
      "loss": 1.6606,
      "step": 19822
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3961311876773834,
      "learning_rate": 0.0005312513475651896,
      "loss": 1.6655,
      "step": 19823
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3941836357116699,
      "learning_rate": 0.0005312446890980876,
      "loss": 1.709,
      "step": 19824
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3843153715133667,
      "learning_rate": 0.0005312380303502888,
      "loss": 1.6576,
      "step": 19825
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39458000659942627,
      "learning_rate": 0.0005312313713218011,
      "loss": 1.7655,
      "step": 19826
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3859449625015259,
      "learning_rate": 0.0005312247120126324,
      "loss": 1.7047,
      "step": 19827
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3907725214958191,
      "learning_rate": 0.0005312180524227911,
      "loss": 1.745,
      "step": 19828
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5379032492637634,
      "learning_rate": 0.0005312113925522852,
      "loss": 1.712,
      "step": 19829
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4082621932029724,
      "learning_rate": 0.0005312047324011227,
      "loss": 1.6675,
      "step": 19830
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38135552406311035,
      "learning_rate": 0.0005311980719693117,
      "loss": 1.7536,
      "step": 19831
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3712732791900635,
      "learning_rate": 0.0005311914112568604,
      "loss": 1.6406,
      "step": 19832
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4065794050693512,
      "learning_rate": 0.0005311847502637765,
      "loss": 1.7358,
      "step": 19833
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39691469073295593,
      "learning_rate": 0.0005311780889900686,
      "loss": 1.674,
      "step": 19834
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4047999978065491,
      "learning_rate": 0.0005311714274357446,
      "loss": 1.6404,
      "step": 19835
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3718704879283905,
      "learning_rate": 0.0005311647656008124,
      "loss": 1.7042,
      "step": 19836
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39822348952293396,
      "learning_rate": 0.0005311581034852805,
      "loss": 1.8009,
      "step": 19837
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.40911611914634705,
      "learning_rate": 0.0005311514410891564,
      "loss": 1.7597,
      "step": 19838
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3979323208332062,
      "learning_rate": 0.0005311447784124486,
      "loss": 1.7169,
      "step": 19839
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37979450821876526,
      "learning_rate": 0.0005311381154551652,
      "loss": 1.7666,
      "step": 19840
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3951323926448822,
      "learning_rate": 0.0005311314522173142,
      "loss": 1.6677,
      "step": 19841
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3974025547504425,
      "learning_rate": 0.0005311247886989036,
      "loss": 1.7076,
      "step": 19842
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39703458547592163,
      "learning_rate": 0.0005311181248999415,
      "loss": 1.6777,
      "step": 19843
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3767346739768982,
      "learning_rate": 0.0005311114608204361,
      "loss": 1.6142,
      "step": 19844
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3838719427585602,
      "learning_rate": 0.0005311047964603955,
      "loss": 1.7118,
      "step": 19845
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3792671859264374,
      "learning_rate": 0.0005310981318198277,
      "loss": 1.685,
      "step": 19846
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39610594511032104,
      "learning_rate": 0.0005310914668987407,
      "loss": 1.7549,
      "step": 19847
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4042624235153198,
      "learning_rate": 0.0005310848016971429,
      "loss": 1.7046,
      "step": 19848
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37649857997894287,
      "learning_rate": 0.0005310781362150421,
      "loss": 1.6257,
      "step": 19849
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.386081337928772,
      "learning_rate": 0.0005310714704524465,
      "loss": 1.6677,
      "step": 19850
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.387638658285141,
      "learning_rate": 0.0005310648044093641,
      "loss": 1.6406,
      "step": 19851
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4044491648674011,
      "learning_rate": 0.0005310581380858032,
      "loss": 1.7962,
      "step": 19852
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36995452642440796,
      "learning_rate": 0.0005310514714817718,
      "loss": 1.7211,
      "step": 19853
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3639894723892212,
      "learning_rate": 0.0005310448045972778,
      "loss": 1.7164,
      "step": 19854
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3814142048358917,
      "learning_rate": 0.0005310381374323296,
      "loss": 1.6653,
      "step": 19855
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39329415559768677,
      "learning_rate": 0.000531031469986935,
      "loss": 1.7427,
      "step": 19856
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38394004106521606,
      "learning_rate": 0.0005310248022611023,
      "loss": 1.7588,
      "step": 19857
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39058905839920044,
      "learning_rate": 0.0005310181342548396,
      "loss": 1.7107,
      "step": 19858
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3832065463066101,
      "learning_rate": 0.0005310114659681549,
      "loss": 1.6917,
      "step": 19859
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3800197243690491,
      "learning_rate": 0.0005310047974010563,
      "loss": 1.7135,
      "step": 19860
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36971133947372437,
      "learning_rate": 0.0005309981285535518,
      "loss": 1.7052,
      "step": 19861
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37173739075660706,
      "learning_rate": 0.0005309914594256497,
      "loss": 1.7179,
      "step": 19862
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37002021074295044,
      "learning_rate": 0.000530984790017358,
      "loss": 1.6642,
      "step": 19863
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3711506724357605,
      "learning_rate": 0.0005309781203286848,
      "loss": 1.7288,
      "step": 19864
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3678118884563446,
      "learning_rate": 0.0005309714503596382,
      "loss": 1.6993,
      "step": 19865
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3760775029659271,
      "learning_rate": 0.0005309647801102263,
      "loss": 1.7094,
      "step": 19866
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3745761215686798,
      "learning_rate": 0.0005309581095804572,
      "loss": 1.7084,
      "step": 19867
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3666000962257385,
      "learning_rate": 0.0005309514387703388,
      "loss": 1.7076,
      "step": 19868
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38980019092559814,
      "learning_rate": 0.0005309447676798796,
      "loss": 1.7318,
      "step": 19869
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.389367014169693,
      "learning_rate": 0.0005309380963090876,
      "loss": 1.6715,
      "step": 19870
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3813062608242035,
      "learning_rate": 0.0005309314246579705,
      "loss": 1.6506,
      "step": 19871
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38567259907722473,
      "learning_rate": 0.0005309247527265368,
      "loss": 1.7079,
      "step": 19872
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.47605574131011963,
      "learning_rate": 0.0005309180805147944,
      "loss": 1.7573,
      "step": 19873
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3860427141189575,
      "learning_rate": 0.0005309114080227516,
      "loss": 1.6903,
      "step": 19874
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37504342198371887,
      "learning_rate": 0.0005309047352504162,
      "loss": 1.7194,
      "step": 19875
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37539318203926086,
      "learning_rate": 0.0005308980621977966,
      "loss": 1.7055,
      "step": 19876
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39060139656066895,
      "learning_rate": 0.0005308913888649008,
      "loss": 1.6988,
      "step": 19877
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37604373693466187,
      "learning_rate": 0.0005308847152517369,
      "loss": 1.7391,
      "step": 19878
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3802989423274994,
      "learning_rate": 0.0005308780413583128,
      "loss": 1.7155,
      "step": 19879
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37997716665267944,
      "learning_rate": 0.0005308713671846369,
      "loss": 1.6115,
      "step": 19880
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36657923460006714,
      "learning_rate": 0.0005308646927307172,
      "loss": 1.6647,
      "step": 19881
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36980152130126953,
      "learning_rate": 0.0005308580179965616,
      "loss": 1.7045,
      "step": 19882
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37614962458610535,
      "learning_rate": 0.0005308513429821786,
      "loss": 1.7241,
      "step": 19883
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3624890148639679,
      "learning_rate": 0.0005308446676875761,
      "loss": 1.6612,
      "step": 19884
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38425207138061523,
      "learning_rate": 0.000530837992112762,
      "loss": 1.7235,
      "step": 19885
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3944648802280426,
      "learning_rate": 0.0005308313162577447,
      "loss": 1.725,
      "step": 19886
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3867006301879883,
      "learning_rate": 0.0005308246401225321,
      "loss": 1.7304,
      "step": 19887
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38707831501960754,
      "learning_rate": 0.0005308179637071325,
      "loss": 1.7104,
      "step": 19888
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3890615999698639,
      "learning_rate": 0.0005308112870115538,
      "loss": 1.6827,
      "step": 19889
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38213056325912476,
      "learning_rate": 0.0005308046100358043,
      "loss": 1.7282,
      "step": 19890
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3804185390472412,
      "learning_rate": 0.000530797932779892,
      "loss": 1.6372,
      "step": 19891
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3954693078994751,
      "learning_rate": 0.0005307912552438251,
      "loss": 1.6976,
      "step": 19892
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.388018399477005,
      "learning_rate": 0.0005307845774276114,
      "loss": 1.7169,
      "step": 19893
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37962672114372253,
      "learning_rate": 0.0005307778993312594,
      "loss": 1.7474,
      "step": 19894
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3945983648300171,
      "learning_rate": 0.0005307712209547769,
      "loss": 1.6934,
      "step": 19895
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3919471502304077,
      "learning_rate": 0.0005307645422981723,
      "loss": 1.6565,
      "step": 19896
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3867519199848175,
      "learning_rate": 0.0005307578633614535,
      "loss": 1.7355,
      "step": 19897
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39176639914512634,
      "learning_rate": 0.0005307511841446286,
      "loss": 1.6871,
      "step": 19898
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3768446445465088,
      "learning_rate": 0.0005307445046477058,
      "loss": 1.6396,
      "step": 19899
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3699433207511902,
      "learning_rate": 0.0005307378248706931,
      "loss": 1.698,
      "step": 19900
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39523765444755554,
      "learning_rate": 0.0005307311448135988,
      "loss": 1.6047,
      "step": 19901
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37736567854881287,
      "learning_rate": 0.0005307244644764308,
      "loss": 1.7899,
      "step": 19902
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38863107562065125,
      "learning_rate": 0.0005307177838591973,
      "loss": 1.7437,
      "step": 19903
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37719687819480896,
      "learning_rate": 0.0005307111029619064,
      "loss": 1.734,
      "step": 19904
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3868596851825714,
      "learning_rate": 0.0005307044217845663,
      "loss": 1.693,
      "step": 19905
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39390426874160767,
      "learning_rate": 0.000530697740327185,
      "loss": 1.6994,
      "step": 19906
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38179001212120056,
      "learning_rate": 0.0005306910585897705,
      "loss": 1.7234,
      "step": 19907
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3791208863258362,
      "learning_rate": 0.0005306843765723312,
      "loss": 1.7352,
      "step": 19908
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3715769648551941,
      "learning_rate": 0.000530677694274875,
      "loss": 1.6576,
      "step": 19909
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38502439856529236,
      "learning_rate": 0.00053067101169741,
      "loss": 1.7187,
      "step": 19910
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38334277272224426,
      "learning_rate": 0.0005306643288399445,
      "loss": 1.6569,
      "step": 19911
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3717783987522125,
      "learning_rate": 0.0005306576457024864,
      "loss": 1.6291,
      "step": 19912
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37149250507354736,
      "learning_rate": 0.000530650962285044,
      "loss": 1.7383,
      "step": 19913
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3978859484195709,
      "learning_rate": 0.0005306442785876252,
      "loss": 1.7536,
      "step": 19914
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37166476249694824,
      "learning_rate": 0.0005306375946102383,
      "loss": 1.6981,
      "step": 19915
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38505181670188904,
      "learning_rate": 0.0005306309103528913,
      "loss": 1.7183,
      "step": 19916
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3841526210308075,
      "learning_rate": 0.0005306242258155924,
      "loss": 1.7449,
      "step": 19917
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39276283979415894,
      "learning_rate": 0.0005306175409983497,
      "loss": 1.6876,
      "step": 19918
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38713544607162476,
      "learning_rate": 0.0005306108559011712,
      "loss": 1.6863,
      "step": 19919
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3879338204860687,
      "learning_rate": 0.0005306041705240652,
      "loss": 1.7197,
      "step": 19920
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3819374740123749,
      "learning_rate": 0.0005305974848670396,
      "loss": 1.6752,
      "step": 19921
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39630061388015747,
      "learning_rate": 0.0005305907989301027,
      "loss": 1.6411,
      "step": 19922
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38656333088874817,
      "learning_rate": 0.0005305841127132625,
      "loss": 1.7309,
      "step": 19923
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3810023069381714,
      "learning_rate": 0.0005305774262165273,
      "loss": 1.6735,
      "step": 19924
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.386926531791687,
      "learning_rate": 0.0005305707394399049,
      "loss": 1.8007,
      "step": 19925
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3948364853858948,
      "learning_rate": 0.0005305640523834037,
      "loss": 1.7458,
      "step": 19926
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3923376500606537,
      "learning_rate": 0.0005305573650470316,
      "loss": 1.6958,
      "step": 19927
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3718392848968506,
      "learning_rate": 0.000530550677430797,
      "loss": 1.6629,
      "step": 19928
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37550997734069824,
      "learning_rate": 0.0005305439895347077,
      "loss": 1.7421,
      "step": 19929
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38726672530174255,
      "learning_rate": 0.000530537301358772,
      "loss": 1.6832,
      "step": 19930
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3815574645996094,
      "learning_rate": 0.0005305306129029981,
      "loss": 1.6887,
      "step": 19931
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3836597800254822,
      "learning_rate": 0.000530523924167394,
      "loss": 1.6792,
      "step": 19932
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3904965817928314,
      "learning_rate": 0.0005305172351519677,
      "loss": 1.7163,
      "step": 19933
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4004957377910614,
      "learning_rate": 0.0005305105458567273,
      "loss": 1.6928,
      "step": 19934
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3803236782550812,
      "learning_rate": 0.0005305038562816813,
      "loss": 1.6576,
      "step": 19935
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3695283830165863,
      "learning_rate": 0.0005304971664268376,
      "loss": 1.6435,
      "step": 19936
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3999210596084595,
      "learning_rate": 0.0005304904762922041,
      "loss": 1.7231,
      "step": 19937
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.386444628238678,
      "learning_rate": 0.0005304837858777894,
      "loss": 1.7734,
      "step": 19938
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3847573399543762,
      "learning_rate": 0.0005304770951836011,
      "loss": 1.6734,
      "step": 19939
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3769243359565735,
      "learning_rate": 0.0005304704042096477,
      "loss": 1.7306,
      "step": 19940
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3826541304588318,
      "learning_rate": 0.0005304637129559371,
      "loss": 1.6359,
      "step": 19941
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37882569432258606,
      "learning_rate": 0.0005304570214224776,
      "loss": 1.7005,
      "step": 19942
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3859602212905884,
      "learning_rate": 0.0005304503296092772,
      "loss": 1.7513,
      "step": 19943
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3824384808540344,
      "learning_rate": 0.000530443637516344,
      "loss": 1.6109,
      "step": 19944
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4005589485168457,
      "learning_rate": 0.0005304369451436862,
      "loss": 1.7009,
      "step": 19945
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3862382471561432,
      "learning_rate": 0.000530430252491312,
      "loss": 1.7201,
      "step": 19946
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39179539680480957,
      "learning_rate": 0.0005304235595592293,
      "loss": 1.6598,
      "step": 19947
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3973204791545868,
      "learning_rate": 0.0005304168663474465,
      "loss": 1.6882,
      "step": 19948
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4023576080799103,
      "learning_rate": 0.0005304101728559713,
      "loss": 1.6896,
      "step": 19949
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39168164134025574,
      "learning_rate": 0.0005304034790848123,
      "loss": 1.7043,
      "step": 19950
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3920704126358032,
      "learning_rate": 0.0005303967850339774,
      "loss": 1.6461,
      "step": 19951
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3775545060634613,
      "learning_rate": 0.0005303900907034748,
      "loss": 1.7475,
      "step": 19952
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3870095908641815,
      "learning_rate": 0.0005303833960933125,
      "loss": 1.6997,
      "step": 19953
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3786507844924927,
      "learning_rate": 0.0005303767012034987,
      "loss": 1.7177,
      "step": 19954
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37752723693847656,
      "learning_rate": 0.0005303700060340416,
      "loss": 1.5978,
      "step": 19955
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38567522168159485,
      "learning_rate": 0.0005303633105849491,
      "loss": 1.7279,
      "step": 19956
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37446996569633484,
      "learning_rate": 0.0005303566148562297,
      "loss": 1.6954,
      "step": 19957
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39171817898750305,
      "learning_rate": 0.0005303499188478912,
      "loss": 1.6795,
      "step": 19958
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38911449909210205,
      "learning_rate": 0.0005303432225599419,
      "loss": 1.7735,
      "step": 19959
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37887850403785706,
      "learning_rate": 0.0005303365259923897,
      "loss": 1.6861,
      "step": 19960
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39370936155319214,
      "learning_rate": 0.0005303298291452431,
      "loss": 1.6994,
      "step": 19961
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38195839524269104,
      "learning_rate": 0.0005303231320185099,
      "loss": 1.6779,
      "step": 19962
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.392281711101532,
      "learning_rate": 0.0005303164346121984,
      "loss": 1.7588,
      "step": 19963
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3856276273727417,
      "learning_rate": 0.0005303097369263166,
      "loss": 1.7509,
      "step": 19964
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37696829438209534,
      "learning_rate": 0.0005303030389608728,
      "loss": 1.7004,
      "step": 19965
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3843788206577301,
      "learning_rate": 0.000530296340715875,
      "loss": 1.7269,
      "step": 19966
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3770178556442261,
      "learning_rate": 0.0005302896421913314,
      "loss": 1.6714,
      "step": 19967
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39205852150917053,
      "learning_rate": 0.0005302829433872501,
      "loss": 1.7434,
      "step": 19968
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38907790184020996,
      "learning_rate": 0.0005302762443036394,
      "loss": 1.7047,
      "step": 19969
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3971203863620758,
      "learning_rate": 0.000530269544940507,
      "loss": 1.7789,
      "step": 19970
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3931858539581299,
      "learning_rate": 0.0005302628452978614,
      "loss": 1.7646,
      "step": 19971
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3768727779388428,
      "learning_rate": 0.0005302561453757107,
      "loss": 1.7307,
      "step": 19972
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39060094952583313,
      "learning_rate": 0.0005302494451740629,
      "loss": 1.7012,
      "step": 19973
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3848998248577118,
      "learning_rate": 0.0005302427446929261,
      "loss": 1.739,
      "step": 19974
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.37596145272254944,
      "learning_rate": 0.0005302360439323088,
      "loss": 1.6898,
      "step": 19975
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38750290870666504,
      "learning_rate": 0.0005302293428922186,
      "loss": 1.7403,
      "step": 19976
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4142332673072815,
      "learning_rate": 0.0005302226415726641,
      "loss": 1.7038,
      "step": 19977
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3742094933986664,
      "learning_rate": 0.0005302159399736532,
      "loss": 1.6214,
      "step": 19978
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39996954798698425,
      "learning_rate": 0.000530209238095194,
      "loss": 1.7159,
      "step": 19979
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3933069109916687,
      "learning_rate": 0.0005302025359372947,
      "loss": 1.7455,
      "step": 19980
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3794275224208832,
      "learning_rate": 0.0005301958334999635,
      "loss": 1.7048,
      "step": 19981
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.38652804493904114,
      "learning_rate": 0.0005301891307832084,
      "loss": 1.7963,
      "step": 19982
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.39808207750320435,
      "learning_rate": 0.0005301824277870376,
      "loss": 1.6499,
      "step": 19983
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3786429166793823,
      "learning_rate": 0.0005301757245114593,
      "loss": 1.7516,
      "step": 19984
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4027099311351776,
      "learning_rate": 0.0005301690209564816,
      "loss": 1.6969,
      "step": 19985
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3745650351047516,
      "learning_rate": 0.0005301623171221127,
      "loss": 1.6648,
      "step": 19986
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.36764290928840637,
      "learning_rate": 0.0005301556130083605,
      "loss": 1.602,
      "step": 19987
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3912496864795685,
      "learning_rate": 0.0005301489086152333,
      "loss": 1.6762,
      "step": 19988
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38594695925712585,
      "learning_rate": 0.0005301422039427393,
      "loss": 1.7611,
      "step": 19989
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3828931748867035,
      "learning_rate": 0.0005301354989908866,
      "loss": 1.7322,
      "step": 19990
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39319905638694763,
      "learning_rate": 0.0005301287937596832,
      "loss": 1.7401,
      "step": 19991
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3798077404499054,
      "learning_rate": 0.0005301220882491375,
      "loss": 1.6962,
      "step": 19992
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37845709919929504,
      "learning_rate": 0.0005301153824592575,
      "loss": 1.6944,
      "step": 19993
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37285324931144714,
      "learning_rate": 0.0005301086763900512,
      "loss": 1.6598,
      "step": 19994
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38026776909828186,
      "learning_rate": 0.000530101970041527,
      "loss": 1.6984,
      "step": 19995
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38987210392951965,
      "learning_rate": 0.0005300952634136928,
      "loss": 1.7561,
      "step": 19996
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3961399495601654,
      "learning_rate": 0.0005300885565065569,
      "loss": 1.6875,
      "step": 19997
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3786271810531616,
      "learning_rate": 0.0005300818493201274,
      "loss": 1.7295,
      "step": 19998
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3790361285209656,
      "learning_rate": 0.0005300751418544124,
      "loss": 1.6649,
      "step": 19999
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38162726163864136,
      "learning_rate": 0.0005300684341094201,
      "loss": 1.71,
      "step": 20000
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3766580820083618,
      "learning_rate": 0.0005300617260851588,
      "loss": 1.706,
      "step": 20001
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37558460235595703,
      "learning_rate": 0.0005300550177816362,
      "loss": 1.7024,
      "step": 20002
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3823692798614502,
      "learning_rate": 0.0005300483091988607,
      "loss": 1.7339,
      "step": 20003
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37230920791625977,
      "learning_rate": 0.0005300416003368405,
      "loss": 1.6706,
      "step": 20004
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37938639521598816,
      "learning_rate": 0.0005300348911955839,
      "loss": 1.7391,
      "step": 20005
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3816535174846649,
      "learning_rate": 0.0005300281817750987,
      "loss": 1.669,
      "step": 20006
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3820889890193939,
      "learning_rate": 0.0005300214720753931,
      "loss": 1.6675,
      "step": 20007
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3941095173358917,
      "learning_rate": 0.0005300147620964753,
      "loss": 1.6557,
      "step": 20008
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3653958737850189,
      "learning_rate": 0.0005300080518383536,
      "loss": 1.7299,
      "step": 20009
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38144537806510925,
      "learning_rate": 0.0005300013413010359,
      "loss": 1.6922,
      "step": 20010
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3802991211414337,
      "learning_rate": 0.0005299946304845306,
      "loss": 1.6311,
      "step": 20011
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.371269166469574,
      "learning_rate": 0.0005299879193888456,
      "loss": 1.689,
      "step": 20012
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5189314484596252,
      "learning_rate": 0.0005299812080139892,
      "loss": 1.6831,
      "step": 20013
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38766714930534363,
      "learning_rate": 0.0005299744963599695,
      "loss": 1.7219,
      "step": 20014
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3778887093067169,
      "learning_rate": 0.0005299677844267947,
      "loss": 1.6947,
      "step": 20015
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.399203896522522,
      "learning_rate": 0.0005299610722144727,
      "loss": 1.6798,
      "step": 20016
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3849634528160095,
      "learning_rate": 0.000529954359723012,
      "loss": 1.7208,
      "step": 20017
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39566460251808167,
      "learning_rate": 0.0005299476469524206,
      "loss": 1.7148,
      "step": 20018
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38780146837234497,
      "learning_rate": 0.0005299409339027066,
      "loss": 1.7287,
      "step": 20019
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37568438053131104,
      "learning_rate": 0.0005299342205738781,
      "loss": 1.6566,
      "step": 20020
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38023144006729126,
      "learning_rate": 0.0005299275069659435,
      "loss": 1.7599,
      "step": 20021
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37269243597984314,
      "learning_rate": 0.0005299207930789106,
      "loss": 1.7474,
      "step": 20022
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3741244673728943,
      "learning_rate": 0.0005299140789127879,
      "loss": 1.6414,
      "step": 20023
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37853172421455383,
      "learning_rate": 0.0005299073644675833,
      "loss": 1.711,
      "step": 20024
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3706779479980469,
      "learning_rate": 0.0005299006497433051,
      "loss": 1.7268,
      "step": 20025
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37336739897727966,
      "learning_rate": 0.0005298939347399614,
      "loss": 1.647,
      "step": 20026
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3683698773384094,
      "learning_rate": 0.0005298872194575601,
      "loss": 1.6661,
      "step": 20027
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3646930158138275,
      "learning_rate": 0.0005298805038961099,
      "loss": 1.6549,
      "step": 20028
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37358391284942627,
      "learning_rate": 0.0005298737880556184,
      "loss": 1.6849,
      "step": 20029
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3819831311702728,
      "learning_rate": 0.0005298670719360942,
      "loss": 1.6703,
      "step": 20030
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3673427402973175,
      "learning_rate": 0.0005298603555375451,
      "loss": 1.7956,
      "step": 20031
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37311550974845886,
      "learning_rate": 0.0005298536388599794,
      "loss": 1.7659,
      "step": 20032
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3815666735172272,
      "learning_rate": 0.0005298469219034053,
      "loss": 1.6675,
      "step": 20033
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39489099383354187,
      "learning_rate": 0.0005298402046678309,
      "loss": 1.7641,
      "step": 20034
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3804629445075989,
      "learning_rate": 0.0005298334871532643,
      "loss": 1.7369,
      "step": 20035
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3916468322277069,
      "learning_rate": 0.0005298267693597138,
      "loss": 1.7161,
      "step": 20036
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37202438712120056,
      "learning_rate": 0.0005298200512871874,
      "loss": 1.6696,
      "step": 20037
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3749408423900604,
      "learning_rate": 0.0005298133329356933,
      "loss": 1.71,
      "step": 20038
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37939709424972534,
      "learning_rate": 0.0005298066143052398,
      "loss": 1.7082,
      "step": 20039
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38235223293304443,
      "learning_rate": 0.0005297998953958348,
      "loss": 1.7182,
      "step": 20040
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3918028175830841,
      "learning_rate": 0.0005297931762074866,
      "loss": 1.7786,
      "step": 20041
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4608757197856903,
      "learning_rate": 0.0005297864567402034,
      "loss": 1.6806,
      "step": 20042
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38143327832221985,
      "learning_rate": 0.0005297797369939934,
      "loss": 1.6378,
      "step": 20043
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3814919590950012,
      "learning_rate": 0.0005297730169688644,
      "loss": 1.6728,
      "step": 20044
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38420215249061584,
      "learning_rate": 0.000529766296664825,
      "loss": 1.7279,
      "step": 20045
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3776625394821167,
      "learning_rate": 0.0005297595760818831,
      "loss": 1.6682,
      "step": 20046
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.36460721492767334,
      "learning_rate": 0.000529752855220047,
      "loss": 1.6161,
      "step": 20047
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4007863700389862,
      "learning_rate": 0.0005297461340793247,
      "loss": 1.7055,
      "step": 20048
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38819876313209534,
      "learning_rate": 0.0005297394126597245,
      "loss": 1.6908,
      "step": 20049
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37875378131866455,
      "learning_rate": 0.0005297326909612543,
      "loss": 1.6677,
      "step": 20050
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38721123337745667,
      "learning_rate": 0.0005297259689839228,
      "loss": 1.6931,
      "step": 20051
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38496387004852295,
      "learning_rate": 0.0005297192467277376,
      "loss": 1.6444,
      "step": 20052
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3892386555671692,
      "learning_rate": 0.0005297125241927071,
      "loss": 1.7029,
      "step": 20053
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37774932384490967,
      "learning_rate": 0.0005297058013788396,
      "loss": 1.7236,
      "step": 20054
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3858977258205414,
      "learning_rate": 0.0005296990782861429,
      "loss": 1.7993,
      "step": 20055
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37173333764076233,
      "learning_rate": 0.0005296923549146255,
      "loss": 1.6805,
      "step": 20056
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.40805473923683167,
      "learning_rate": 0.0005296856312642954,
      "loss": 1.718,
      "step": 20057
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3743097186088562,
      "learning_rate": 0.0005296789073351607,
      "loss": 1.739,
      "step": 20058
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37913620471954346,
      "learning_rate": 0.0005296721831272298,
      "loss": 1.7538,
      "step": 20059
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3695147633552551,
      "learning_rate": 0.0005296654586405106,
      "loss": 1.6302,
      "step": 20060
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3755166828632355,
      "learning_rate": 0.0005296587338750113,
      "loss": 1.7062,
      "step": 20061
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39206773042678833,
      "learning_rate": 0.0005296520088307403,
      "loss": 1.7497,
      "step": 20062
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3883604109287262,
      "learning_rate": 0.0005296452835077055,
      "loss": 1.7333,
      "step": 20063
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3946133852005005,
      "learning_rate": 0.0005296385579059152,
      "loss": 1.704,
      "step": 20064
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3865877091884613,
      "learning_rate": 0.0005296318320253775,
      "loss": 1.6804,
      "step": 20065
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3823302686214447,
      "learning_rate": 0.0005296251058661006,
      "loss": 1.6677,
      "step": 20066
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3850611746311188,
      "learning_rate": 0.0005296183794280927,
      "loss": 1.7203,
      "step": 20067
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3762817084789276,
      "learning_rate": 0.0005296116527113619,
      "loss": 1.7223,
      "step": 20068
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37303686141967773,
      "learning_rate": 0.0005296049257159163,
      "loss": 1.6204,
      "step": 20069
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37541183829307556,
      "learning_rate": 0.0005295981984417644,
      "loss": 1.6862,
      "step": 20070
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38538840413093567,
      "learning_rate": 0.0005295914708889138,
      "loss": 1.7827,
      "step": 20071
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3856532573699951,
      "learning_rate": 0.0005295847430573731,
      "loss": 1.6873,
      "step": 20072
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38131678104400635,
      "learning_rate": 0.0005295780149471505,
      "loss": 1.7446,
      "step": 20073
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3748745620250702,
      "learning_rate": 0.0005295712865582539,
      "loss": 1.6424,
      "step": 20074
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4906851053237915,
      "learning_rate": 0.0005295645578906915,
      "loss": 1.7371,
      "step": 20075
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3933482766151428,
      "learning_rate": 0.0005295578289444716,
      "loss": 1.6854,
      "step": 20076
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3833484351634979,
      "learning_rate": 0.0005295510997196023,
      "loss": 1.7199,
      "step": 20077
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3668968379497528,
      "learning_rate": 0.0005295443702160919,
      "loss": 1.6711,
      "step": 20078
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38638994097709656,
      "learning_rate": 0.0005295376404339483,
      "loss": 1.7104,
      "step": 20079
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38468030095100403,
      "learning_rate": 0.00052953091037318,
      "loss": 1.6685,
      "step": 20080
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3813360631465912,
      "learning_rate": 0.0005295241800337948,
      "loss": 1.7689,
      "step": 20081
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3739662766456604,
      "learning_rate": 0.0005295174494158012,
      "loss": 1.6773,
      "step": 20082
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3792281150817871,
      "learning_rate": 0.0005295107185192072,
      "loss": 1.6828,
      "step": 20083
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3770107328891754,
      "learning_rate": 0.0005295039873440211,
      "loss": 1.6833,
      "step": 20084
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3647887706756592,
      "learning_rate": 0.0005294972558902508,
      "loss": 1.674,
      "step": 20085
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.375826895236969,
      "learning_rate": 0.0005294905241579048,
      "loss": 1.7057,
      "step": 20086
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39372336864471436,
      "learning_rate": 0.000529483792146991,
      "loss": 1.6487,
      "step": 20087
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37799587845802307,
      "learning_rate": 0.0005294770598575177,
      "loss": 1.719,
      "step": 20088
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3817169666290283,
      "learning_rate": 0.0005294703272894931,
      "loss": 1.6807,
      "step": 20089
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3788962960243225,
      "learning_rate": 0.0005294635944429253,
      "loss": 1.6529,
      "step": 20090
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37831538915634155,
      "learning_rate": 0.0005294568613178226,
      "loss": 1.7502,
      "step": 20091
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38459575176239014,
      "learning_rate": 0.000529450127914193,
      "loss": 1.7319,
      "step": 20092
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38153260946273804,
      "learning_rate": 0.0005294433942320448,
      "loss": 1.7732,
      "step": 20093
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38400915265083313,
      "learning_rate": 0.0005294366602713861,
      "loss": 1.6977,
      "step": 20094
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38933250308036804,
      "learning_rate": 0.0005294299260322251,
      "loss": 1.7104,
      "step": 20095
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3818517327308655,
      "learning_rate": 0.0005294231915145699,
      "loss": 1.6792,
      "step": 20096
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39162173867225647,
      "learning_rate": 0.0005294164567184289,
      "loss": 1.6237,
      "step": 20097
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3679440915584564,
      "learning_rate": 0.0005294097216438099,
      "loss": 1.6643,
      "step": 20098
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3856860101222992,
      "learning_rate": 0.0005294029862907216,
      "loss": 1.7267,
      "step": 20099
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4126075208187103,
      "learning_rate": 0.0005293962506591717,
      "loss": 1.7743,
      "step": 20100
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38648349046707153,
      "learning_rate": 0.0005293895147491685,
      "loss": 1.7191,
      "step": 20101
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3693618178367615,
      "learning_rate": 0.0005293827785607204,
      "loss": 1.6749,
      "step": 20102
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3894234001636505,
      "learning_rate": 0.0005293760420938353,
      "loss": 1.6426,
      "step": 20103
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3899032473564148,
      "learning_rate": 0.0005293693053485214,
      "loss": 1.761,
      "step": 20104
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3773309886455536,
      "learning_rate": 0.0005293625683247871,
      "loss": 1.6701,
      "step": 20105
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38939252495765686,
      "learning_rate": 0.0005293558310226404,
      "loss": 1.6693,
      "step": 20106
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37499740719795227,
      "learning_rate": 0.0005293490934420895,
      "loss": 1.7297,
      "step": 20107
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3997107744216919,
      "learning_rate": 0.0005293423555831426,
      "loss": 1.6749,
      "step": 20108
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5241097807884216,
      "learning_rate": 0.0005293356174458078,
      "loss": 1.6961,
      "step": 20109
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39328527450561523,
      "learning_rate": 0.0005293288790300934,
      "loss": 1.7346,
      "step": 20110
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3941788971424103,
      "learning_rate": 0.0005293221403360076,
      "loss": 1.7533,
      "step": 20111
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3894982933998108,
      "learning_rate": 0.0005293154013635584,
      "loss": 1.7175,
      "step": 20112
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38954901695251465,
      "learning_rate": 0.0005293086621127542,
      "loss": 1.7423,
      "step": 20113
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3776721656322479,
      "learning_rate": 0.000529301922583603,
      "loss": 1.6709,
      "step": 20114
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38257044553756714,
      "learning_rate": 0.000529295182776113,
      "loss": 1.6625,
      "step": 20115
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39369696378707886,
      "learning_rate": 0.0005292884426902926,
      "loss": 1.7411,
      "step": 20116
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3917599320411682,
      "learning_rate": 0.0005292817023261496,
      "loss": 1.7709,
      "step": 20117
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3720835745334625,
      "learning_rate": 0.0005292749616836926,
      "loss": 1.6509,
      "step": 20118
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37816759943962097,
      "learning_rate": 0.0005292682207629295,
      "loss": 1.6444,
      "step": 20119
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4044951796531677,
      "learning_rate": 0.0005292614795638685,
      "loss": 1.6478,
      "step": 20120
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38262179493904114,
      "learning_rate": 0.000529254738086518,
      "loss": 1.7217,
      "step": 20121
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37303662300109863,
      "learning_rate": 0.0005292479963308859,
      "loss": 1.7456,
      "step": 20122
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38992273807525635,
      "learning_rate": 0.0005292412542969805,
      "loss": 1.6782,
      "step": 20123
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4065701961517334,
      "learning_rate": 0.00052923451198481,
      "loss": 1.6994,
      "step": 20124
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3779557943344116,
      "learning_rate": 0.0005292277693943827,
      "loss": 1.6514,
      "step": 20125
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37657493352890015,
      "learning_rate": 0.0005292210265257065,
      "loss": 1.6598,
      "step": 20126
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3844914138317108,
      "learning_rate": 0.0005292142833787899,
      "loss": 1.769,
      "step": 20127
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3756506145000458,
      "learning_rate": 0.0005292075399536408,
      "loss": 1.7087,
      "step": 20128
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37526601552963257,
      "learning_rate": 0.0005292007962502675,
      "loss": 1.6382,
      "step": 20129
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38216766715049744,
      "learning_rate": 0.0005291940522686783,
      "loss": 1.7047,
      "step": 20130
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3887886106967926,
      "learning_rate": 0.0005291873080088813,
      "loss": 1.7163,
      "step": 20131
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.45091748237609863,
      "learning_rate": 0.0005291805634708846,
      "loss": 1.6923,
      "step": 20132
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.484135240316391,
      "learning_rate": 0.0005291738186546965,
      "loss": 1.6661,
      "step": 20133
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3682002127170563,
      "learning_rate": 0.0005291670735603252,
      "loss": 1.623,
      "step": 20134
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3869689106941223,
      "learning_rate": 0.0005291603281877788,
      "loss": 1.6595,
      "step": 20135
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39103245735168457,
      "learning_rate": 0.0005291535825370655,
      "loss": 1.7052,
      "step": 20136
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.41552451252937317,
      "learning_rate": 0.0005291468366081936,
      "loss": 1.7077,
      "step": 20137
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4019896686077118,
      "learning_rate": 0.0005291400904011711,
      "loss": 1.7321,
      "step": 20138
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3889055848121643,
      "learning_rate": 0.0005291333439160063,
      "loss": 1.7427,
      "step": 20139
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3784950375556946,
      "learning_rate": 0.0005291265971527075,
      "loss": 1.8339,
      "step": 20140
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38940855860710144,
      "learning_rate": 0.0005291198501112827,
      "loss": 1.6264,
      "step": 20141
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4009586572647095,
      "learning_rate": 0.0005291131027917401,
      "loss": 1.7433,
      "step": 20142
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.381337970495224,
      "learning_rate": 0.000529106355194088,
      "loss": 1.7297,
      "step": 20143
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3785276710987091,
      "learning_rate": 0.0005290996073183346,
      "loss": 1.7216,
      "step": 20144
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37855264544487,
      "learning_rate": 0.0005290928591644879,
      "loss": 1.6175,
      "step": 20145
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.36942118406295776,
      "learning_rate": 0.0005290861107325564,
      "loss": 1.6112,
      "step": 20146
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37945225834846497,
      "learning_rate": 0.000529079362022548,
      "loss": 1.6652,
      "step": 20147
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3814718425273895,
      "learning_rate": 0.000529072613034471,
      "loss": 1.6366,
      "step": 20148
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37734702229499817,
      "learning_rate": 0.0005290658637683336,
      "loss": 1.7963,
      "step": 20149
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3886528015136719,
      "learning_rate": 0.000529059114224144,
      "loss": 1.7043,
      "step": 20150
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.391407310962677,
      "learning_rate": 0.0005290523644019105,
      "loss": 1.7337,
      "step": 20151
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3740766942501068,
      "learning_rate": 0.0005290456143016409,
      "loss": 1.6973,
      "step": 20152
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39960363507270813,
      "learning_rate": 0.000529038863923344,
      "loss": 1.7052,
      "step": 20153
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3793535530567169,
      "learning_rate": 0.0005290321132670275,
      "loss": 1.6914,
      "step": 20154
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37410271167755127,
      "learning_rate": 0.0005290253623326998,
      "loss": 1.7183,
      "step": 20155
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3789635896682739,
      "learning_rate": 0.000529018611120369,
      "loss": 1.7333,
      "step": 20156
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3858076333999634,
      "learning_rate": 0.0005290118596300434,
      "loss": 1.7506,
      "step": 20157
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3832687735557556,
      "learning_rate": 0.0005290051078617311,
      "loss": 1.666,
      "step": 20158
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3670327365398407,
      "learning_rate": 0.0005289983558154403,
      "loss": 1.6647,
      "step": 20159
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3805808126926422,
      "learning_rate": 0.0005289916034911794,
      "loss": 1.7024,
      "step": 20160
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39011985063552856,
      "learning_rate": 0.0005289848508889563,
      "loss": 1.7426,
      "step": 20161
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.36169809103012085,
      "learning_rate": 0.0005289780980087794,
      "loss": 1.6528,
      "step": 20162
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.376556932926178,
      "learning_rate": 0.0005289713448506569,
      "loss": 1.7132,
      "step": 20163
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3798019289970398,
      "learning_rate": 0.0005289645914145967,
      "loss": 1.6113,
      "step": 20164
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3745705783367157,
      "learning_rate": 0.0005289578377006075,
      "loss": 1.7089,
      "step": 20165
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.384529709815979,
      "learning_rate": 0.0005289510837086969,
      "loss": 1.6999,
      "step": 20166
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38424357771873474,
      "learning_rate": 0.0005289443294388737,
      "loss": 1.6958,
      "step": 20167
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3918400704860687,
      "learning_rate": 0.0005289375748911457,
      "loss": 1.7389,
      "step": 20168
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38378217816352844,
      "learning_rate": 0.0005289308200655212,
      "loss": 1.6933,
      "step": 20169
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38148853182792664,
      "learning_rate": 0.0005289240649620084,
      "loss": 1.684,
      "step": 20170
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3766985535621643,
      "learning_rate": 0.0005289173095806155,
      "loss": 1.7796,
      "step": 20171
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3938312828540802,
      "learning_rate": 0.0005289105539213508,
      "loss": 1.6696,
      "step": 20172
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37487471103668213,
      "learning_rate": 0.0005289037979842225,
      "loss": 1.6488,
      "step": 20173
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3853248357772827,
      "learning_rate": 0.0005288970417692385,
      "loss": 1.5873,
      "step": 20174
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3789457380771637,
      "learning_rate": 0.0005288902852764074,
      "loss": 1.7065,
      "step": 20175
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3775680661201477,
      "learning_rate": 0.0005288835285057371,
      "loss": 1.7065,
      "step": 20176
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39264801144599915,
      "learning_rate": 0.0005288767714572359,
      "loss": 1.6891,
      "step": 20177
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3969382047653198,
      "learning_rate": 0.0005288700141309121,
      "loss": 1.7399,
      "step": 20178
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3943861722946167,
      "learning_rate": 0.0005288632565267739,
      "loss": 1.7357,
      "step": 20179
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39859235286712646,
      "learning_rate": 0.0005288564986448293,
      "loss": 1.6514,
      "step": 20180
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39020559191703796,
      "learning_rate": 0.0005288497404850867,
      "loss": 1.6806,
      "step": 20181
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37541669607162476,
      "learning_rate": 0.0005288429820475541,
      "loss": 1.7018,
      "step": 20182
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.396112859249115,
      "learning_rate": 0.00052883622333224,
      "loss": 1.7745,
      "step": 20183
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.391716867685318,
      "learning_rate": 0.0005288294643391523,
      "loss": 1.7243,
      "step": 20184
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3766170144081116,
      "learning_rate": 0.0005288227050682995,
      "loss": 1.7116,
      "step": 20185
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3799271285533905,
      "learning_rate": 0.0005288159455196895,
      "loss": 1.7649,
      "step": 20186
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4051657021045685,
      "learning_rate": 0.0005288091856933308,
      "loss": 1.718,
      "step": 20187
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37060946226119995,
      "learning_rate": 0.0005288024255892314,
      "loss": 1.741,
      "step": 20188
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3856794536113739,
      "learning_rate": 0.0005287956652073996,
      "loss": 1.6897,
      "step": 20189
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3851439952850342,
      "learning_rate": 0.0005287889045478435,
      "loss": 1.7241,
      "step": 20190
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.382033109664917,
      "learning_rate": 0.0005287821436105715,
      "loss": 1.6642,
      "step": 20191
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3802596926689148,
      "learning_rate": 0.0005287753823955915,
      "loss": 1.6815,
      "step": 20192
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3915421962738037,
      "learning_rate": 0.000528768620902912,
      "loss": 1.6333,
      "step": 20193
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.381984680891037,
      "learning_rate": 0.0005287618591325411,
      "loss": 1.7402,
      "step": 20194
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38251715898513794,
      "learning_rate": 0.000528755097084487,
      "loss": 1.6678,
      "step": 20195
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37167665362358093,
      "learning_rate": 0.000528748334758758,
      "loss": 1.7854,
      "step": 20196
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3818875849246979,
      "learning_rate": 0.0005287415721553621,
      "loss": 1.6832,
      "step": 20197
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3751285970211029,
      "learning_rate": 0.0005287348092743077,
      "loss": 1.6514,
      "step": 20198
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39291203022003174,
      "learning_rate": 0.000528728046115603,
      "loss": 1.6928,
      "step": 20199
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3821360468864441,
      "learning_rate": 0.0005287212826792561,
      "loss": 1.7135,
      "step": 20200
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3915049135684967,
      "learning_rate": 0.0005287145189652752,
      "loss": 1.7942,
      "step": 20201
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3748329281806946,
      "learning_rate": 0.0005287077549736687,
      "loss": 1.6468,
      "step": 20202
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38386422395706177,
      "learning_rate": 0.0005287009907044446,
      "loss": 1.6957,
      "step": 20203
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3890094459056854,
      "learning_rate": 0.0005286942261576112,
      "loss": 1.7377,
      "step": 20204
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3867296576499939,
      "learning_rate": 0.0005286874613331768,
      "loss": 1.7121,
      "step": 20205
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3827534019947052,
      "learning_rate": 0.0005286806962311494,
      "loss": 1.7266,
      "step": 20206
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3870500326156616,
      "learning_rate": 0.0005286739308515372,
      "loss": 1.6703,
      "step": 20207
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38393470644950867,
      "learning_rate": 0.0005286671651943487,
      "loss": 1.6447,
      "step": 20208
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.472217857837677,
      "learning_rate": 0.000528660399259592,
      "loss": 1.7883,
      "step": 20209
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3884960412979126,
      "learning_rate": 0.0005286536330472752,
      "loss": 1.7878,
      "step": 20210
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3930336833000183,
      "learning_rate": 0.0005286468665574066,
      "loss": 1.66,
      "step": 20211
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3725932836532593,
      "learning_rate": 0.0005286400997899944,
      "loss": 1.6763,
      "step": 20212
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3774019181728363,
      "learning_rate": 0.0005286333327450469,
      "loss": 1.6586,
      "step": 20213
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3960430920124054,
      "learning_rate": 0.0005286265654225721,
      "loss": 1.7117,
      "step": 20214
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3831920027732849,
      "learning_rate": 0.0005286197978225783,
      "loss": 1.7014,
      "step": 20215
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3695749342441559,
      "learning_rate": 0.0005286130299450738,
      "loss": 1.6682,
      "step": 20216
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37161096930503845,
      "learning_rate": 0.0005286062617900668,
      "loss": 1.6819,
      "step": 20217
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39570969343185425,
      "learning_rate": 0.0005285994933575655,
      "loss": 1.7455,
      "step": 20218
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37974023818969727,
      "learning_rate": 0.0005285927246475781,
      "loss": 1.6652,
      "step": 20219
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38278186321258545,
      "learning_rate": 0.0005285859556601127,
      "loss": 1.6922,
      "step": 20220
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.394826203584671,
      "learning_rate": 0.0005285791863951777,
      "loss": 1.7069,
      "step": 20221
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39000633358955383,
      "learning_rate": 0.0005285724168527813,
      "loss": 1.6604,
      "step": 20222
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3869740962982178,
      "learning_rate": 0.0005285656470329315,
      "loss": 1.7131,
      "step": 20223
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39254996180534363,
      "learning_rate": 0.0005285588769356369,
      "loss": 1.6864,
      "step": 20224
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3804338574409485,
      "learning_rate": 0.0005285521065609053,
      "loss": 1.7228,
      "step": 20225
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3841768205165863,
      "learning_rate": 0.0005285453359087452,
      "loss": 1.6135,
      "step": 20226
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.384306401014328,
      "learning_rate": 0.0005285385649791649,
      "loss": 1.7425,
      "step": 20227
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3855881094932556,
      "learning_rate": 0.0005285317937721722,
      "loss": 1.6844,
      "step": 20228
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.407463014125824,
      "learning_rate": 0.0005285250222877756,
      "loss": 1.7181,
      "step": 20229
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3821917474269867,
      "learning_rate": 0.0005285182505259835,
      "loss": 1.6886,
      "step": 20230
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3951095938682556,
      "learning_rate": 0.0005285114784868037,
      "loss": 1.6903,
      "step": 20231
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3726445138454437,
      "learning_rate": 0.0005285047061702448,
      "loss": 1.7417,
      "step": 20232
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3866250813007355,
      "learning_rate": 0.0005284979335763147,
      "loss": 1.677,
      "step": 20233
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38781869411468506,
      "learning_rate": 0.0005284911607050218,
      "loss": 1.7192,
      "step": 20234
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3986207842826843,
      "learning_rate": 0.0005284843875563744,
      "loss": 1.655,
      "step": 20235
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38752609491348267,
      "learning_rate": 0.0005284776141303806,
      "loss": 1.6892,
      "step": 20236
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3938533365726471,
      "learning_rate": 0.0005284708404270487,
      "loss": 1.7501,
      "step": 20237
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3848375082015991,
      "learning_rate": 0.0005284640664463868,
      "loss": 1.7832,
      "step": 20238
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37822869420051575,
      "learning_rate": 0.000528457292188403,
      "loss": 1.6441,
      "step": 20239
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3739810585975647,
      "learning_rate": 0.0005284505176531059,
      "loss": 1.6481,
      "step": 20240
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3817656338214874,
      "learning_rate": 0.0005284437428405035,
      "loss": 1.681,
      "step": 20241
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3751610517501831,
      "learning_rate": 0.0005284369677506041,
      "loss": 1.6389,
      "step": 20242
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38772785663604736,
      "learning_rate": 0.0005284301923834158,
      "loss": 1.7499,
      "step": 20243
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3940295875072479,
      "learning_rate": 0.0005284234167389469,
      "loss": 1.6829,
      "step": 20244
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3857634961605072,
      "learning_rate": 0.0005284166408172058,
      "loss": 1.7221,
      "step": 20245
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38045385479927063,
      "learning_rate": 0.0005284098646182004,
      "loss": 1.7177,
      "step": 20246
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3699289560317993,
      "learning_rate": 0.000528403088141939,
      "loss": 1.646,
      "step": 20247
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3744548261165619,
      "learning_rate": 0.0005283963113884301,
      "loss": 1.6337,
      "step": 20248
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39390912652015686,
      "learning_rate": 0.0005283895343576816,
      "loss": 1.7313,
      "step": 20249
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38511526584625244,
      "learning_rate": 0.0005283827570497019,
      "loss": 1.6705,
      "step": 20250
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38036876916885376,
      "learning_rate": 0.0005283759794644992,
      "loss": 1.6667,
      "step": 20251
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38180777430534363,
      "learning_rate": 0.0005283692016020817,
      "loss": 1.7581,
      "step": 20252
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3975769281387329,
      "learning_rate": 0.0005283624234624576,
      "loss": 1.6929,
      "step": 20253
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38966915011405945,
      "learning_rate": 0.0005283556450456353,
      "loss": 1.7443,
      "step": 20254
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3877076804637909,
      "learning_rate": 0.0005283488663516227,
      "loss": 1.6818,
      "step": 20255
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37725627422332764,
      "learning_rate": 0.0005283420873804283,
      "loss": 1.6833,
      "step": 20256
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37844863533973694,
      "learning_rate": 0.0005283353081320602,
      "loss": 1.6792,
      "step": 20257
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3643587529659271,
      "learning_rate": 0.0005283285286065268,
      "loss": 1.649,
      "step": 20258
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3904182016849518,
      "learning_rate": 0.0005283217488038361,
      "loss": 1.7293,
      "step": 20259
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.388286292552948,
      "learning_rate": 0.0005283149687239965,
      "loss": 1.7156,
      "step": 20260
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3767464756965637,
      "learning_rate": 0.0005283081883670161,
      "loss": 1.7009,
      "step": 20261
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37305712699890137,
      "learning_rate": 0.0005283014077329033,
      "loss": 1.6333,
      "step": 20262
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3733241558074951,
      "learning_rate": 0.0005282946268216663,
      "loss": 1.6887,
      "step": 20263
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3885413706302643,
      "learning_rate": 0.000528287845633313,
      "loss": 1.7629,
      "step": 20264
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39175650477409363,
      "learning_rate": 0.0005282810641678521,
      "loss": 1.7107,
      "step": 20265
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3808060586452484,
      "learning_rate": 0.0005282742824252916,
      "loss": 1.6529,
      "step": 20266
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.36917659640312195,
      "learning_rate": 0.0005282675004056397,
      "loss": 1.6641,
      "step": 20267
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38185015320777893,
      "learning_rate": 0.0005282607181089047,
      "loss": 1.6578,
      "step": 20268
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38233843445777893,
      "learning_rate": 0.0005282539355350948,
      "loss": 1.7781,
      "step": 20269
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.387757271528244,
      "learning_rate": 0.0005282471526842183,
      "loss": 1.7471,
      "step": 20270
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37160491943359375,
      "learning_rate": 0.0005282403695562833,
      "loss": 1.6875,
      "step": 20271
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38854140043258667,
      "learning_rate": 0.0005282335861512982,
      "loss": 1.6539,
      "step": 20272
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39639872312545776,
      "learning_rate": 0.0005282268024692712,
      "loss": 1.7642,
      "step": 20273
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3874950408935547,
      "learning_rate": 0.0005282200185102104,
      "loss": 1.6504,
      "step": 20274
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.39601531624794006,
      "learning_rate": 0.0005282132342741242,
      "loss": 1.6657,
      "step": 20275
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38862520456314087,
      "learning_rate": 0.0005282064497610207,
      "loss": 1.6977,
      "step": 20276
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37993112206459045,
      "learning_rate": 0.0005281996649709082,
      "loss": 1.6725,
      "step": 20277
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3863356411457062,
      "learning_rate": 0.0005281928799037949,
      "loss": 1.7475,
      "step": 20278
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37764281034469604,
      "learning_rate": 0.0005281860945596891,
      "loss": 1.6821,
      "step": 20279
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38372308015823364,
      "learning_rate": 0.000528179308938599,
      "loss": 1.6333,
      "step": 20280
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3930562138557434,
      "learning_rate": 0.0005281725230405329,
      "loss": 1.7482,
      "step": 20281
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3816944658756256,
      "learning_rate": 0.0005281657368654989,
      "loss": 1.6405,
      "step": 20282
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4068153202533722,
      "learning_rate": 0.0005281589504135053,
      "loss": 1.6353,
      "step": 20283
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3920007050037384,
      "learning_rate": 0.0005281521636845604,
      "loss": 1.7406,
      "step": 20284
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.44781357049942017,
      "learning_rate": 0.0005281453766786725,
      "loss": 1.6288,
      "step": 20285
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38375115394592285,
      "learning_rate": 0.0005281385893958496,
      "loss": 1.6806,
      "step": 20286
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3998451828956604,
      "learning_rate": 0.0005281318018361,
      "loss": 1.7263,
      "step": 20287
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.38040465116500854,
      "learning_rate": 0.0005281250139994321,
      "loss": 1.7204,
      "step": 20288
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38554278016090393,
      "learning_rate": 0.000528118225885854,
      "loss": 1.7171,
      "step": 20289
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38429921865463257,
      "learning_rate": 0.000528111437495374,
      "loss": 1.7521,
      "step": 20290
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.373125284910202,
      "learning_rate": 0.0005281046488280004,
      "loss": 1.7105,
      "step": 20291
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37925735116004944,
      "learning_rate": 0.0005280978598837413,
      "loss": 1.7141,
      "step": 20292
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38334155082702637,
      "learning_rate": 0.000528091070662605,
      "loss": 1.7614,
      "step": 20293
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3914836645126343,
      "learning_rate": 0.0005280842811645998,
      "loss": 1.7191,
      "step": 20294
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38086897134780884,
      "learning_rate": 0.0005280774913897339,
      "loss": 1.7374,
      "step": 20295
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3813316226005554,
      "learning_rate": 0.0005280707013380154,
      "loss": 1.6107,
      "step": 20296
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4080949127674103,
      "learning_rate": 0.0005280639110094527,
      "loss": 1.6985,
      "step": 20297
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38949087262153625,
      "learning_rate": 0.0005280571204040541,
      "loss": 1.7106,
      "step": 20298
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38061022758483887,
      "learning_rate": 0.0005280503295218278,
      "loss": 1.7866,
      "step": 20299
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.40101712942123413,
      "learning_rate": 0.0005280435383627818,
      "loss": 1.7148,
      "step": 20300
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37673524022102356,
      "learning_rate": 0.0005280367469269247,
      "loss": 1.6854,
      "step": 20301
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37477993965148926,
      "learning_rate": 0.0005280299552142645,
      "loss": 1.7328,
      "step": 20302
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4001767933368683,
      "learning_rate": 0.0005280231632248097,
      "loss": 1.6757,
      "step": 20303
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3779422342777252,
      "learning_rate": 0.0005280163709585683,
      "loss": 1.6126,
      "step": 20304
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.5010620951652527,
      "learning_rate": 0.0005280095784155486,
      "loss": 1.6911,
      "step": 20305
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.40772682428359985,
      "learning_rate": 0.0005280027855957588,
      "loss": 1.7124,
      "step": 20306
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39215025305747986,
      "learning_rate": 0.0005279959924992073,
      "loss": 1.6989,
      "step": 20307
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3972780108451843,
      "learning_rate": 0.0005279891991259023,
      "loss": 1.7343,
      "step": 20308
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.390216588973999,
      "learning_rate": 0.0005279824054758519,
      "loss": 1.6578,
      "step": 20309
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3907862603664398,
      "learning_rate": 0.0005279756115490644,
      "loss": 1.6694,
      "step": 20310
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3802705705165863,
      "learning_rate": 0.0005279688173455483,
      "loss": 1.6785,
      "step": 20311
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3767848312854767,
      "learning_rate": 0.0005279620228653115,
      "loss": 1.6838,
      "step": 20312
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7124425172805786,
      "learning_rate": 0.0005279552281083625,
      "loss": 1.7677,
      "step": 20313
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38675180077552795,
      "learning_rate": 0.0005279484330747093,
      "loss": 1.7376,
      "step": 20314
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3957696557044983,
      "learning_rate": 0.0005279416377643604,
      "loss": 1.7145,
      "step": 20315
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38305768370628357,
      "learning_rate": 0.0005279348421773238,
      "loss": 1.7157,
      "step": 20316
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3734453618526459,
      "learning_rate": 0.000527928046313608,
      "loss": 1.6977,
      "step": 20317
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39456143975257874,
      "learning_rate": 0.0005279212501732211,
      "loss": 1.746,
      "step": 20318
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38736793398857117,
      "learning_rate": 0.0005279144537561714,
      "loss": 1.7377,
      "step": 20319
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37091177701950073,
      "learning_rate": 0.0005279076570624671,
      "loss": 1.7446,
      "step": 20320
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39553794264793396,
      "learning_rate": 0.0005279008600921167,
      "loss": 1.6597,
      "step": 20321
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3991076648235321,
      "learning_rate": 0.0005278940628451279,
      "loss": 1.7497,
      "step": 20322
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3856376111507416,
      "learning_rate": 0.0005278872653215096,
      "loss": 1.664,
      "step": 20323
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3779083788394928,
      "learning_rate": 0.0005278804675212694,
      "loss": 1.6248,
      "step": 20324
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37836381793022156,
      "learning_rate": 0.0005278736694444161,
      "loss": 1.6423,
      "step": 20325
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4011955261230469,
      "learning_rate": 0.0005278668710909577,
      "loss": 1.6945,
      "step": 20326
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38063961267471313,
      "learning_rate": 0.0005278600724609025,
      "loss": 1.8455,
      "step": 20327
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38829305768013,
      "learning_rate": 0.0005278532735542588,
      "loss": 1.6787,
      "step": 20328
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3737403154373169,
      "learning_rate": 0.0005278464743710348,
      "loss": 1.6859,
      "step": 20329
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3765973150730133,
      "learning_rate": 0.0005278396749112387,
      "loss": 1.7361,
      "step": 20330
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39443087577819824,
      "learning_rate": 0.0005278328751748787,
      "loss": 1.7122,
      "step": 20331
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3919917941093445,
      "learning_rate": 0.0005278260751619633,
      "loss": 1.7812,
      "step": 20332
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3902286887168884,
      "learning_rate": 0.0005278192748725006,
      "loss": 1.7155,
      "step": 20333
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.392098993062973,
      "learning_rate": 0.0005278124743064988,
      "loss": 1.6813,
      "step": 20334
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38261041045188904,
      "learning_rate": 0.0005278056734639662,
      "loss": 1.6881,
      "step": 20335
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3855186998844147,
      "learning_rate": 0.0005277988723449113,
      "loss": 1.6834,
      "step": 20336
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3756289482116699,
      "learning_rate": 0.0005277920709493419,
      "loss": 1.7167,
      "step": 20337
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.382776141166687,
      "learning_rate": 0.0005277852692772665,
      "loss": 1.7282,
      "step": 20338
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37311699986457825,
      "learning_rate": 0.0005277784673286936,
      "loss": 1.6671,
      "step": 20339
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38038575649261475,
      "learning_rate": 0.0005277716651036309,
      "loss": 1.6329,
      "step": 20340
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38857802748680115,
      "learning_rate": 0.0005277648626020871,
      "loss": 1.7548,
      "step": 20341
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37988755106925964,
      "learning_rate": 0.0005277580598240703,
      "loss": 1.7674,
      "step": 20342
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38029447197914124,
      "learning_rate": 0.0005277512567695888,
      "loss": 1.6385,
      "step": 20343
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3714417815208435,
      "learning_rate": 0.0005277444534386507,
      "loss": 1.619,
      "step": 20344
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.36820846796035767,
      "learning_rate": 0.0005277376498312646,
      "loss": 1.6439,
      "step": 20345
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3652762770652771,
      "learning_rate": 0.0005277308459474383,
      "loss": 1.639,
      "step": 20346
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3829296827316284,
      "learning_rate": 0.0005277240417871805,
      "loss": 1.7542,
      "step": 20347
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39184316992759705,
      "learning_rate": 0.0005277172373504993,
      "loss": 1.6787,
      "step": 20348
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3783104419708252,
      "learning_rate": 0.0005277104326374027,
      "loss": 1.6817,
      "step": 20349
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38459792733192444,
      "learning_rate": 0.0005277036276478994,
      "loss": 1.6949,
      "step": 20350
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3829682171344757,
      "learning_rate": 0.0005276968223819974,
      "loss": 1.6318,
      "step": 20351
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38280153274536133,
      "learning_rate": 0.0005276900168397049,
      "loss": 1.7211,
      "step": 20352
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39325687289237976,
      "learning_rate": 0.0005276832110210304,
      "loss": 1.7049,
      "step": 20353
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3877544403076172,
      "learning_rate": 0.000527676404925982,
      "loss": 1.677,
      "step": 20354
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37299373745918274,
      "learning_rate": 0.0005276695985545679,
      "loss": 1.7174,
      "step": 20355
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3842479884624481,
      "learning_rate": 0.0005276627919067966,
      "loss": 1.6558,
      "step": 20356
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37482544779777527,
      "learning_rate": 0.0005276559849826761,
      "loss": 1.682,
      "step": 20357
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39046990871429443,
      "learning_rate": 0.0005276491777822148,
      "loss": 1.7725,
      "step": 20358
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38657712936401367,
      "learning_rate": 0.0005276423703054209,
      "loss": 1.7417,
      "step": 20359
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6917004585266113,
      "learning_rate": 0.0005276355625523027,
      "loss": 1.7223,
      "step": 20360
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39673957228660583,
      "learning_rate": 0.0005276287545228686,
      "loss": 1.7414,
      "step": 20361
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3761535584926605,
      "learning_rate": 0.0005276219462171266,
      "loss": 1.6612,
      "step": 20362
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39121028780937195,
      "learning_rate": 0.0005276151376350852,
      "loss": 1.7652,
      "step": 20363
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3818269371986389,
      "learning_rate": 0.0005276083287767525,
      "loss": 1.5989,
      "step": 20364
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.36555320024490356,
      "learning_rate": 0.0005276015196421369,
      "loss": 1.643,
      "step": 20365
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3846040666103363,
      "learning_rate": 0.0005275947102312465,
      "loss": 1.7418,
      "step": 20366
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.370378315448761,
      "learning_rate": 0.0005275879005440896,
      "loss": 1.6833,
      "step": 20367
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38157811760902405,
      "learning_rate": 0.0005275810905806747,
      "loss": 1.6625,
      "step": 20368
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37341517210006714,
      "learning_rate": 0.0005275742803410098,
      "loss": 1.7057,
      "step": 20369
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3969547748565674,
      "learning_rate": 0.0005275674698251032,
      "loss": 1.6437,
      "step": 20370
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37911009788513184,
      "learning_rate": 0.0005275606590329633,
      "loss": 1.7025,
      "step": 20371
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37246033549308777,
      "learning_rate": 0.0005275538479645983,
      "loss": 1.6612,
      "step": 20372
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3783892095088959,
      "learning_rate": 0.0005275470366200163,
      "loss": 1.7372,
      "step": 20373
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38531920313835144,
      "learning_rate": 0.0005275402249992259,
      "loss": 1.6879,
      "step": 20374
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3899146616458893,
      "learning_rate": 0.0005275334131022351,
      "loss": 1.6608,
      "step": 20375
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3861809968948364,
      "learning_rate": 0.0005275266009290523,
      "loss": 1.6994,
      "step": 20376
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37393802404403687,
      "learning_rate": 0.0005275197884796858,
      "loss": 1.7108,
      "step": 20377
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4036758840084076,
      "learning_rate": 0.0005275129757541437,
      "loss": 1.7268,
      "step": 20378
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3779808282852173,
      "learning_rate": 0.0005275061627524344,
      "loss": 1.6933,
      "step": 20379
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39031749963760376,
      "learning_rate": 0.0005274993494745661,
      "loss": 1.6751,
      "step": 20380
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38818398118019104,
      "learning_rate": 0.0005274925359205472,
      "loss": 1.7237,
      "step": 20381
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.378025084733963,
      "learning_rate": 0.0005274857220903858,
      "loss": 1.7016,
      "step": 20382
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3815080523490906,
      "learning_rate": 0.0005274789079840903,
      "loss": 1.7131,
      "step": 20383
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3765488862991333,
      "learning_rate": 0.000527472093601669,
      "loss": 1.7063,
      "step": 20384
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3729846775531769,
      "learning_rate": 0.00052746527894313,
      "loss": 1.6179,
      "step": 20385
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37765806913375854,
      "learning_rate": 0.0005274584640084816,
      "loss": 1.7735,
      "step": 20386
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37572258710861206,
      "learning_rate": 0.0005274516487977322,
      "loss": 1.6654,
      "step": 20387
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3813827335834503,
      "learning_rate": 0.00052744483331089,
      "loss": 1.7089,
      "step": 20388
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3916226029396057,
      "learning_rate": 0.0005274380175479633,
      "loss": 1.6948,
      "step": 20389
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37211692333221436,
      "learning_rate": 0.0005274312015089603,
      "loss": 1.6615,
      "step": 20390
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37263232469558716,
      "learning_rate": 0.0005274243851938895,
      "loss": 1.6264,
      "step": 20391
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38109108805656433,
      "learning_rate": 0.0005274175686027589,
      "loss": 1.7155,
      "step": 20392
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3909854292869568,
      "learning_rate": 0.0005274107517355769,
      "loss": 1.7715,
      "step": 20393
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4204655587673187,
      "learning_rate": 0.0005274039345923517,
      "loss": 1.6745,
      "step": 20394
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38548779487609863,
      "learning_rate": 0.0005273971171730917,
      "loss": 1.711,
      "step": 20395
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3801361322402954,
      "learning_rate": 0.0005273902994778049,
      "loss": 1.6992,
      "step": 20396
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39852192997932434,
      "learning_rate": 0.0005273834815065,
      "loss": 1.7497,
      "step": 20397
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3834725022315979,
      "learning_rate": 0.0005273766632591851,
      "loss": 1.6952,
      "step": 20398
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3865005671977997,
      "learning_rate": 0.0005273698447358684,
      "loss": 1.7443,
      "step": 20399
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3639378845691681,
      "learning_rate": 0.0005273630259365581,
      "loss": 1.6429,
      "step": 20400
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3890301287174225,
      "learning_rate": 0.0005273562068612626,
      "loss": 1.6997,
      "step": 20401
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3763616681098938,
      "learning_rate": 0.0005273493875099902,
      "loss": 1.6198,
      "step": 20402
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37795591354370117,
      "learning_rate": 0.0005273425678827492,
      "loss": 1.7258,
      "step": 20403
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3821263313293457,
      "learning_rate": 0.0005273357479795477,
      "loss": 1.7665,
      "step": 20404
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3826661705970764,
      "learning_rate": 0.0005273289278003941,
      "loss": 1.6727,
      "step": 20405
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3748743236064911,
      "learning_rate": 0.0005273221073452968,
      "loss": 1.7115,
      "step": 20406
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39123284816741943,
      "learning_rate": 0.0005273152866142639,
      "loss": 1.733,
      "step": 20407
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3853608965873718,
      "learning_rate": 0.0005273084656073038,
      "loss": 1.7275,
      "step": 20408
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3830159902572632,
      "learning_rate": 0.0005273016443244246,
      "loss": 1.7059,
      "step": 20409
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37469974160194397,
      "learning_rate": 0.0005272948227656348,
      "loss": 1.6167,
      "step": 20410
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37181591987609863,
      "learning_rate": 0.0005272880009309424,
      "loss": 1.7124,
      "step": 20411
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39064133167266846,
      "learning_rate": 0.000527281178820356,
      "loss": 1.6843,
      "step": 20412
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37483617663383484,
      "learning_rate": 0.0005272743564338837,
      "loss": 1.7094,
      "step": 20413
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3774503767490387,
      "learning_rate": 0.0005272675337715338,
      "loss": 1.6118,
      "step": 20414
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38685429096221924,
      "learning_rate": 0.0005272607108333147,
      "loss": 1.7346,
      "step": 20415
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3809228837490082,
      "learning_rate": 0.0005272538876192344,
      "loss": 1.695,
      "step": 20416
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3797629475593567,
      "learning_rate": 0.0005272470641293016,
      "loss": 1.7178,
      "step": 20417
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3881162106990814,
      "learning_rate": 0.0005272402403635241,
      "loss": 1.7082,
      "step": 20418
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3794039189815521,
      "learning_rate": 0.0005272334163219106,
      "loss": 1.6983,
      "step": 20419
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38131263852119446,
      "learning_rate": 0.0005272265920044692,
      "loss": 1.6356,
      "step": 20420
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38553595542907715,
      "learning_rate": 0.0005272197674112081,
      "loss": 1.7271,
      "step": 20421
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3819650113582611,
      "learning_rate": 0.0005272129425421358,
      "loss": 1.7253,
      "step": 20422
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3976326286792755,
      "learning_rate": 0.0005272061173972604,
      "loss": 1.7235,
      "step": 20423
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3745177984237671,
      "learning_rate": 0.0005271992919765903,
      "loss": 1.6582,
      "step": 20424
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38612115383148193,
      "learning_rate": 0.0005271924662801336,
      "loss": 1.6696,
      "step": 20425
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38381871581077576,
      "learning_rate": 0.0005271856403078988,
      "loss": 1.7294,
      "step": 20426
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.390001505613327,
      "learning_rate": 0.0005271788140598941,
      "loss": 1.7071,
      "step": 20427
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3922627568244934,
      "learning_rate": 0.000527171987536128,
      "loss": 1.6578,
      "step": 20428
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38860011100769043,
      "learning_rate": 0.0005271651607366083,
      "loss": 1.6707,
      "step": 20429
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37483522295951843,
      "learning_rate": 0.0005271583336613437,
      "loss": 1.6483,
      "step": 20430
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3895803689956665,
      "learning_rate": 0.0005271515063103423,
      "loss": 1.6717,
      "step": 20431
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39042264223098755,
      "learning_rate": 0.0005271446786836125,
      "loss": 1.6467,
      "step": 20432
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38219359517097473,
      "learning_rate": 0.0005271378507811624,
      "loss": 1.7024,
      "step": 20433
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38457947969436646,
      "learning_rate": 0.0005271310226030005,
      "loss": 1.7158,
      "step": 20434
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38809770345687866,
      "learning_rate": 0.000527124194149135,
      "loss": 1.7144,
      "step": 20435
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38300323486328125,
      "learning_rate": 0.0005271173654195743,
      "loss": 1.7036,
      "step": 20436
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3729567527770996,
      "learning_rate": 0.0005271105364143264,
      "loss": 1.663,
      "step": 20437
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3781999349594116,
      "learning_rate": 0.0005271037071333999,
      "loss": 1.6854,
      "step": 20438
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3834165930747986,
      "learning_rate": 0.0005270968775768029,
      "loss": 1.6679,
      "step": 20439
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38159072399139404,
      "learning_rate": 0.0005270900477445438,
      "loss": 1.8155,
      "step": 20440
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.390512079000473,
      "learning_rate": 0.0005270832176366307,
      "loss": 1.7037,
      "step": 20441
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37713220715522766,
      "learning_rate": 0.0005270763872530723,
      "loss": 1.7478,
      "step": 20442
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3786344528198242,
      "learning_rate": 0.0005270695565938764,
      "loss": 1.7336,
      "step": 20443
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3930850625038147,
      "learning_rate": 0.0005270627256590515,
      "loss": 1.6646,
      "step": 20444
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38657352328300476,
      "learning_rate": 0.0005270558944486061,
      "loss": 1.5898,
      "step": 20445
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39153149724006653,
      "learning_rate": 0.0005270490629625482,
      "loss": 1.7405,
      "step": 20446
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39060384035110474,
      "learning_rate": 0.0005270422312008862,
      "loss": 1.7115,
      "step": 20447
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37754786014556885,
      "learning_rate": 0.0005270353991636283,
      "loss": 1.7747,
      "step": 20448
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39503809809684753,
      "learning_rate": 0.0005270285668507829,
      "loss": 1.7129,
      "step": 20449
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38226887583732605,
      "learning_rate": 0.0005270217342623584,
      "loss": 1.6768,
      "step": 20450
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38859570026397705,
      "learning_rate": 0.0005270149013983629,
      "loss": 1.6145,
      "step": 20451
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37138083577156067,
      "learning_rate": 0.0005270080682588047,
      "loss": 1.6867,
      "step": 20452
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3780537545681,
      "learning_rate": 0.0005270012348436922,
      "loss": 1.658,
      "step": 20453
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38853105902671814,
      "learning_rate": 0.0005269944011530336,
      "loss": 1.7421,
      "step": 20454
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37341606616973877,
      "learning_rate": 0.0005269875671868372,
      "loss": 1.7255,
      "step": 20455
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37671783566474915,
      "learning_rate": 0.0005269807329451115,
      "loss": 1.7542,
      "step": 20456
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3965833783149719,
      "learning_rate": 0.0005269738984278646,
      "loss": 1.6752,
      "step": 20457
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3778802752494812,
      "learning_rate": 0.0005269670636351047,
      "loss": 1.729,
      "step": 20458
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3800300359725952,
      "learning_rate": 0.0005269602285668404,
      "loss": 1.6379,
      "step": 20459
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3727665841579437,
      "learning_rate": 0.0005269533932230797,
      "loss": 1.6572,
      "step": 20460
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38554126024246216,
      "learning_rate": 0.000526946557603831,
      "loss": 1.7007,
      "step": 20461
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3776624798774719,
      "learning_rate": 0.0005269397217091028,
      "loss": 1.7004,
      "step": 20462
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39657822251319885,
      "learning_rate": 0.000526932885538903,
      "loss": 1.6712,
      "step": 20463
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38721439242362976,
      "learning_rate": 0.0005269260490932402,
      "loss": 1.7301,
      "step": 20464
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37871214747428894,
      "learning_rate": 0.0005269192123721226,
      "loss": 1.603,
      "step": 20465
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38379350304603577,
      "learning_rate": 0.0005269123753755586,
      "loss": 1.7404,
      "step": 20466
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3749118149280548,
      "learning_rate": 0.0005269055381035563,
      "loss": 1.6809,
      "step": 20467
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38354334235191345,
      "learning_rate": 0.0005268987005561242,
      "loss": 1.7015,
      "step": 20468
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38512933254241943,
      "learning_rate": 0.0005268918627332704,
      "loss": 1.7004,
      "step": 20469
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37789320945739746,
      "learning_rate": 0.0005268850246350034,
      "loss": 1.6749,
      "step": 20470
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3874562978744507,
      "learning_rate": 0.0005268781862613314,
      "loss": 1.6891,
      "step": 20471
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39871326088905334,
      "learning_rate": 0.0005268713476122627,
      "loss": 1.7303,
      "step": 20472
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3800300061702728,
      "learning_rate": 0.0005268645086878056,
      "loss": 1.6197,
      "step": 20473
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38094624876976013,
      "learning_rate": 0.0005268576694879684,
      "loss": 1.6741,
      "step": 20474
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3785088360309601,
      "learning_rate": 0.0005268508300127594,
      "loss": 1.7189,
      "step": 20475
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3973484933376312,
      "learning_rate": 0.000526843990262187,
      "loss": 1.6167,
      "step": 20476
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4018060863018036,
      "learning_rate": 0.0005268371502362592,
      "loss": 1.6769,
      "step": 20477
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3925052285194397,
      "learning_rate": 0.0005268303099349847,
      "loss": 1.7321,
      "step": 20478
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37811535596847534,
      "learning_rate": 0.0005268234693583717,
      "loss": 1.7139,
      "step": 20479
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.40306970477104187,
      "learning_rate": 0.0005268166285064283,
      "loss": 1.6619,
      "step": 20480
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3901885449886322,
      "learning_rate": 0.000526809787379163,
      "loss": 1.7288,
      "step": 20481
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38599079847335815,
      "learning_rate": 0.000526802945976584,
      "loss": 1.7016,
      "step": 20482
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3905443251132965,
      "learning_rate": 0.0005267961042986997,
      "loss": 1.7344,
      "step": 20483
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3925900161266327,
      "learning_rate": 0.0005267892623455183,
      "loss": 1.7394,
      "step": 20484
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3994702994823456,
      "learning_rate": 0.0005267824201170481,
      "loss": 1.7135,
      "step": 20485
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3953147530555725,
      "learning_rate": 0.0005267755776132975,
      "loss": 1.6554,
      "step": 20486
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39388197660446167,
      "learning_rate": 0.0005267687348342748,
      "loss": 1.7408,
      "step": 20487
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39127102494239807,
      "learning_rate": 0.0005267618917799882,
      "loss": 1.8005,
      "step": 20488
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39422789216041565,
      "learning_rate": 0.0005267550484504461,
      "loss": 1.7389,
      "step": 20489
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38927823305130005,
      "learning_rate": 0.0005267482048456568,
      "loss": 1.6036,
      "step": 20490
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3933984637260437,
      "learning_rate": 0.0005267413609656286,
      "loss": 1.7629,
      "step": 20491
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38068675994873047,
      "learning_rate": 0.0005267345168103698,
      "loss": 1.6859,
      "step": 20492
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37260687351226807,
      "learning_rate": 0.0005267276723798887,
      "loss": 1.7186,
      "step": 20493
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38729196786880493,
      "learning_rate": 0.0005267208276741937,
      "loss": 1.766,
      "step": 20494
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3752879798412323,
      "learning_rate": 0.0005267139826932928,
      "loss": 1.6383,
      "step": 20495
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3848915994167328,
      "learning_rate": 0.0005267071374371946,
      "loss": 1.7128,
      "step": 20496
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38633227348327637,
      "learning_rate": 0.0005267002919059075,
      "loss": 1.7882,
      "step": 20497
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3705938756465912,
      "learning_rate": 0.0005266934460994395,
      "loss": 1.7246,
      "step": 20498
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3759916126728058,
      "learning_rate": 0.0005266866000177991,
      "loss": 1.7227,
      "step": 20499
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39614632725715637,
      "learning_rate": 0.0005266797536609946,
      "loss": 1.7301,
      "step": 20500
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3741634786128998,
      "learning_rate": 0.0005266729070290342,
      "loss": 1.5997,
      "step": 20501
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3827313780784607,
      "learning_rate": 0.0005266660601219263,
      "loss": 1.7166,
      "step": 20502
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3897637128829956,
      "learning_rate": 0.0005266592129396793,
      "loss": 1.6535,
      "step": 20503
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39696165919303894,
      "learning_rate": 0.0005266523654823013,
      "loss": 1.6796,
      "step": 20504
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38856396079063416,
      "learning_rate": 0.0005266455177498007,
      "loss": 1.6532,
      "step": 20505
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3848704397678375,
      "learning_rate": 0.0005266386697421859,
      "loss": 1.7242,
      "step": 20506
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3796672821044922,
      "learning_rate": 0.0005266318214594652,
      "loss": 1.7142,
      "step": 20507
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37491732835769653,
      "learning_rate": 0.0005266249729016468,
      "loss": 1.703,
      "step": 20508
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3958866000175476,
      "learning_rate": 0.0005266181240687391,
      "loss": 1.7373,
      "step": 20509
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.42027154564857483,
      "learning_rate": 0.0005266112749607504,
      "loss": 1.6668,
      "step": 20510
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3825247585773468,
      "learning_rate": 0.0005266044255776889,
      "loss": 1.7498,
      "step": 20511
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3770708739757538,
      "learning_rate": 0.0005265975759195631,
      "loss": 1.6802,
      "step": 20512
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39362481236457825,
      "learning_rate": 0.0005265907259863812,
      "loss": 1.6094,
      "step": 20513
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39988237619400024,
      "learning_rate": 0.0005265838757781517,
      "loss": 1.7145,
      "step": 20514
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3831383287906647,
      "learning_rate": 0.0005265770252948826,
      "loss": 1.7429,
      "step": 20515
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38340985774993896,
      "learning_rate": 0.0005265701745365824,
      "loss": 1.7183,
      "step": 20516
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38257700204849243,
      "learning_rate": 0.0005265633235032594,
      "loss": 1.694,
      "step": 20517
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3785952627658844,
      "learning_rate": 0.0005265564721949218,
      "loss": 1.7141,
      "step": 20518
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38266828656196594,
      "learning_rate": 0.0005265496206115783,
      "loss": 1.6856,
      "step": 20519
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38305383920669556,
      "learning_rate": 0.0005265427687532367,
      "loss": 1.6501,
      "step": 20520
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38872969150543213,
      "learning_rate": 0.0005265359166199056,
      "loss": 1.724,
      "step": 20521
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39726945757865906,
      "learning_rate": 0.0005265290642115934,
      "loss": 1.6809,
      "step": 20522
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3817580044269562,
      "learning_rate": 0.0005265222115283082,
      "loss": 1.6845,
      "step": 20523
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38638168573379517,
      "learning_rate": 0.0005265153585700584,
      "loss": 1.6464,
      "step": 20524
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38326141238212585,
      "learning_rate": 0.0005265085053368523,
      "loss": 1.6741,
      "step": 20525
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38837340474128723,
      "learning_rate": 0.0005265016518286983,
      "loss": 1.7345,
      "step": 20526
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3963859975337982,
      "learning_rate": 0.0005264947980456046,
      "loss": 1.7053,
      "step": 20527
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3890863358974457,
      "learning_rate": 0.0005264879439875797,
      "loss": 1.6373,
      "step": 20528
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3835471570491791,
      "learning_rate": 0.0005264810896546317,
      "loss": 1.7102,
      "step": 20529
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.379111647605896,
      "learning_rate": 0.000526474235046769,
      "loss": 1.706,
      "step": 20530
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37924423813819885,
      "learning_rate": 0.0005264673801640001,
      "loss": 1.6953,
      "step": 20531
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37576502561569214,
      "learning_rate": 0.0005264605250063331,
      "loss": 1.7338,
      "step": 20532
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3843706548213959,
      "learning_rate": 0.0005264536695737764,
      "loss": 1.7436,
      "step": 20533
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38944023847579956,
      "learning_rate": 0.0005264468138663383,
      "loss": 1.7384,
      "step": 20534
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.381168395280838,
      "learning_rate": 0.000526439957884027,
      "loss": 1.7118,
      "step": 20535
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39604616165161133,
      "learning_rate": 0.0005264331016268512,
      "loss": 1.7404,
      "step": 20536
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39704447984695435,
      "learning_rate": 0.0005264262450948189,
      "loss": 1.7427,
      "step": 20537
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4008466303348541,
      "learning_rate": 0.0005264193882879383,
      "loss": 1.7564,
      "step": 20538
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3863773047924042,
      "learning_rate": 0.0005264125312062182,
      "loss": 1.7573,
      "step": 20539
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38531339168548584,
      "learning_rate": 0.0005264056738496666,
      "loss": 1.765,
      "step": 20540
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37914252281188965,
      "learning_rate": 0.0005263988162182918,
      "loss": 1.7203,
      "step": 20541
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3871370851993561,
      "learning_rate": 0.0005263919583121022,
      "loss": 1.7164,
      "step": 20542
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38407212495803833,
      "learning_rate": 0.0005263851001311061,
      "loss": 1.7176,
      "step": 20543
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3804081976413727,
      "learning_rate": 0.0005263782416753118,
      "loss": 1.6532,
      "step": 20544
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3874412775039673,
      "learning_rate": 0.0005263713829447278,
      "loss": 1.6488,
      "step": 20545
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37871354818344116,
      "learning_rate": 0.0005263645239393623,
      "loss": 1.7428,
      "step": 20546
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3864172399044037,
      "learning_rate": 0.0005263576646592235,
      "loss": 1.6285,
      "step": 20547
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37886255979537964,
      "learning_rate": 0.0005263508051043199,
      "loss": 1.7012,
      "step": 20548
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3899970054626465,
      "learning_rate": 0.0005263439452746597,
      "loss": 1.6728,
      "step": 20549
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3828425705432892,
      "learning_rate": 0.0005263370851702515,
      "loss": 1.7309,
      "step": 20550
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38389334082603455,
      "learning_rate": 0.0005263302247911032,
      "loss": 1.6655,
      "step": 20551
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3815968632698059,
      "learning_rate": 0.0005263233641372235,
      "loss": 1.6863,
      "step": 20552
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39569011330604553,
      "learning_rate": 0.0005263165032086206,
      "loss": 1.6916,
      "step": 20553
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3867844045162201,
      "learning_rate": 0.0005263096420053026,
      "loss": 1.6532,
      "step": 20554
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3785594403743744,
      "learning_rate": 0.0005263027805272783,
      "loss": 1.6991,
      "step": 20555
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39871302247047424,
      "learning_rate": 0.0005262959187745557,
      "loss": 1.7123,
      "step": 20556
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37667226791381836,
      "learning_rate": 0.0005262890567471431,
      "loss": 1.7295,
      "step": 20557
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3766467869281769,
      "learning_rate": 0.000526282194445049,
      "loss": 1.6379,
      "step": 20558
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39025595784187317,
      "learning_rate": 0.0005262753318682818,
      "loss": 1.7078,
      "step": 20559
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37444719672203064,
      "learning_rate": 0.0005262684690168493,
      "loss": 1.6779,
      "step": 20560
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3921068608760834,
      "learning_rate": 0.0005262616058907605,
      "loss": 1.7408,
      "step": 20561
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38280990719795227,
      "learning_rate": 0.0005262547424900234,
      "loss": 1.7517,
      "step": 20562
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3801526725292206,
      "learning_rate": 0.0005262478788146464,
      "loss": 1.759,
      "step": 20563
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39996713399887085,
      "learning_rate": 0.0005262410148646378,
      "loss": 1.681,
      "step": 20564
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37874382734298706,
      "learning_rate": 0.000526234150640006,
      "loss": 1.6945,
      "step": 20565
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39029213786125183,
      "learning_rate": 0.0005262272861407592,
      "loss": 1.7146,
      "step": 20566
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3762575387954712,
      "learning_rate": 0.0005262204213669058,
      "loss": 1.7016,
      "step": 20567
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38502201437950134,
      "learning_rate": 0.0005262135563184542,
      "loss": 1.6605,
      "step": 20568
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39436161518096924,
      "learning_rate": 0.0005262066909954126,
      "loss": 1.6207,
      "step": 20569
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38640737533569336,
      "learning_rate": 0.0005261998253977894,
      "loss": 1.758,
      "step": 20570
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3805559277534485,
      "learning_rate": 0.000526192959525593,
      "loss": 1.6861,
      "step": 20571
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3820450007915497,
      "learning_rate": 0.0005261860933788316,
      "loss": 1.7024,
      "step": 20572
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.39640793204307556,
      "learning_rate": 0.0005261792269575136,
      "loss": 1.6838,
      "step": 20573
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38787999749183655,
      "learning_rate": 0.0005261723602616474,
      "loss": 1.6496,
      "step": 20574
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3803904950618744,
      "learning_rate": 0.0005261654932912413,
      "loss": 1.7221,
      "step": 20575
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3836601674556732,
      "learning_rate": 0.0005261586260463037,
      "loss": 1.6881,
      "step": 20576
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3871781527996063,
      "learning_rate": 0.0005261517585268427,
      "loss": 1.7102,
      "step": 20577
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4225456714630127,
      "learning_rate": 0.0005261448907328669,
      "loss": 1.7385,
      "step": 20578
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.40409159660339355,
      "learning_rate": 0.0005261380226643845,
      "loss": 1.7032,
      "step": 20579
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3858385384082794,
      "learning_rate": 0.0005261311543214037,
      "loss": 1.6465,
      "step": 20580
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38022515177726746,
      "learning_rate": 0.0005261242857039332,
      "loss": 1.7232,
      "step": 20581
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3845634162425995,
      "learning_rate": 0.000526117416811981,
      "loss": 1.668,
      "step": 20582
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3986310660839081,
      "learning_rate": 0.0005261105476455556,
      "loss": 1.6718,
      "step": 20583
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3699372708797455,
      "learning_rate": 0.0005261036782046654,
      "loss": 1.6654,
      "step": 20584
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37989717721939087,
      "learning_rate": 0.0005260968084893186,
      "loss": 1.6422,
      "step": 20585
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.42447569966316223,
      "learning_rate": 0.0005260899384995236,
      "loss": 1.6979,
      "step": 20586
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.4152798652648926,
      "learning_rate": 0.0005260830682352887,
      "loss": 1.7176,
      "step": 20587
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3791419267654419,
      "learning_rate": 0.0005260761976966222,
      "loss": 1.7592,
      "step": 20588
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.38676390051841736,
      "learning_rate": 0.0005260693268835326,
      "loss": 1.7275,
      "step": 20589
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40832021832466125,
      "learning_rate": 0.0005260624557960281,
      "loss": 1.6602,
      "step": 20590
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3939131498336792,
      "learning_rate": 0.0005260555844341172,
      "loss": 1.7652,
      "step": 20591
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37505069375038147,
      "learning_rate": 0.000526048712797808,
      "loss": 1.7082,
      "step": 20592
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40780630707740784,
      "learning_rate": 0.000526041840887109,
      "loss": 1.6638,
      "step": 20593
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.42988133430480957,
      "learning_rate": 0.0005260349687020285,
      "loss": 1.7169,
      "step": 20594
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3905482292175293,
      "learning_rate": 0.0005260280962425749,
      "loss": 1.7143,
      "step": 20595
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3885599970817566,
      "learning_rate": 0.0005260212235087564,
      "loss": 1.715,
      "step": 20596
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40067166090011597,
      "learning_rate": 0.0005260143505005816,
      "loss": 1.734,
      "step": 20597
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4139034152030945,
      "learning_rate": 0.0005260074772180586,
      "loss": 1.7004,
      "step": 20598
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3861720561981201,
      "learning_rate": 0.0005260006036611958,
      "loss": 1.7437,
      "step": 20599
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3828863203525543,
      "learning_rate": 0.0005259937298300015,
      "loss": 1.7221,
      "step": 20600
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.41379374265670776,
      "learning_rate": 0.0005259868557244842,
      "loss": 1.7555,
      "step": 20601
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7365962862968445,
      "learning_rate": 0.0005259799813446522,
      "loss": 1.811,
      "step": 20602
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3863341212272644,
      "learning_rate": 0.0005259731066905137,
      "loss": 1.6516,
      "step": 20603
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3918747007846832,
      "learning_rate": 0.0005259662317620772,
      "loss": 1.7143,
      "step": 20604
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3827274739742279,
      "learning_rate": 0.0005259593565593509,
      "loss": 1.7128,
      "step": 20605
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.41224920749664307,
      "learning_rate": 0.0005259524810823433,
      "loss": 1.6158,
      "step": 20606
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38138535618782043,
      "learning_rate": 0.0005259456053310627,
      "loss": 1.7454,
      "step": 20607
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.389424592256546,
      "learning_rate": 0.0005259387293055174,
      "loss": 1.6919,
      "step": 20608
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3926713466644287,
      "learning_rate": 0.0005259318530057159,
      "loss": 1.6164,
      "step": 20609
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39714565873146057,
      "learning_rate": 0.0005259249764316663,
      "loss": 1.65,
      "step": 20610
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.383065789937973,
      "learning_rate": 0.000525918099583377,
      "loss": 1.6345,
      "step": 20611
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3880717158317566,
      "learning_rate": 0.0005259112224608565,
      "loss": 1.6579,
      "step": 20612
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39084237813949585,
      "learning_rate": 0.000525904345064113,
      "loss": 1.6663,
      "step": 20613
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40237921476364136,
      "learning_rate": 0.0005258974673931551,
      "loss": 1.6901,
      "step": 20614
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3826804459095001,
      "learning_rate": 0.0005258905894479907,
      "loss": 1.6569,
      "step": 20615
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3868354260921478,
      "learning_rate": 0.0005258837112286285,
      "loss": 1.6663,
      "step": 20616
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3919215798377991,
      "learning_rate": 0.0005258768327350768,
      "loss": 1.6794,
      "step": 20617
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3809833526611328,
      "learning_rate": 0.000525869953967344,
      "loss": 1.7079,
      "step": 20618
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37204310297966003,
      "learning_rate": 0.0005258630749254383,
      "loss": 1.689,
      "step": 20619
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3792291283607483,
      "learning_rate": 0.000525856195609368,
      "loss": 1.6534,
      "step": 20620
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3965379595756531,
      "learning_rate": 0.0005258493160191416,
      "loss": 1.6212,
      "step": 20621
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3742499053478241,
      "learning_rate": 0.0005258424361547674,
      "loss": 1.7539,
      "step": 20622
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4279772937297821,
      "learning_rate": 0.0005258355560162538,
      "loss": 1.7403,
      "step": 20623
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3844520151615143,
      "learning_rate": 0.0005258286756036091,
      "loss": 1.7143,
      "step": 20624
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37769976258277893,
      "learning_rate": 0.0005258217949168417,
      "loss": 1.6358,
      "step": 20625
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3837025761604309,
      "learning_rate": 0.0005258149139559598,
      "loss": 1.6502,
      "step": 20626
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3871278166770935,
      "learning_rate": 0.0005258080327209719,
      "loss": 1.7282,
      "step": 20627
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3843340575695038,
      "learning_rate": 0.0005258011512118863,
      "loss": 1.7222,
      "step": 20628
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3679317533969879,
      "learning_rate": 0.0005257942694287115,
      "loss": 1.6245,
      "step": 20629
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3943456709384918,
      "learning_rate": 0.0005257873873714557,
      "loss": 1.7399,
      "step": 20630
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39464032649993896,
      "learning_rate": 0.0005257805050401272,
      "loss": 1.6878,
      "step": 20631
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38743019104003906,
      "learning_rate": 0.0005257736224347344,
      "loss": 1.6464,
      "step": 20632
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3792790472507477,
      "learning_rate": 0.0005257667395552858,
      "loss": 1.7745,
      "step": 20633
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3719956576824188,
      "learning_rate": 0.0005257598564017896,
      "loss": 1.648,
      "step": 20634
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3711656332015991,
      "learning_rate": 0.0005257529729742542,
      "loss": 1.7008,
      "step": 20635
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38771751523017883,
      "learning_rate": 0.000525746089272688,
      "loss": 1.6663,
      "step": 20636
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3874082565307617,
      "learning_rate": 0.0005257392052970992,
      "loss": 1.6977,
      "step": 20637
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3700975477695465,
      "learning_rate": 0.0005257323210474963,
      "loss": 1.6311,
      "step": 20638
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3858962953090668,
      "learning_rate": 0.0005257254365238877,
      "loss": 1.7362,
      "step": 20639
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3786639869213104,
      "learning_rate": 0.0005257185517262816,
      "loss": 1.6468,
      "step": 20640
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37480825185775757,
      "learning_rate": 0.0005257116666546864,
      "loss": 1.6442,
      "step": 20641
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38434913754463196,
      "learning_rate": 0.0005257047813091106,
      "loss": 1.7088,
      "step": 20642
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3990607261657715,
      "learning_rate": 0.0005256978956895624,
      "loss": 1.7272,
      "step": 20643
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37602052092552185,
      "learning_rate": 0.0005256910097960503,
      "loss": 1.6487,
      "step": 20644
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3892463445663452,
      "learning_rate": 0.0005256841236285824,
      "loss": 1.7562,
      "step": 20645
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3786570429801941,
      "learning_rate": 0.0005256772371871674,
      "loss": 1.6618,
      "step": 20646
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39486759901046753,
      "learning_rate": 0.0005256703504718134,
      "loss": 1.7004,
      "step": 20647
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.388337641954422,
      "learning_rate": 0.0005256634634825288,
      "loss": 1.7481,
      "step": 20648
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36931154131889343,
      "learning_rate": 0.000525656576219322,
      "loss": 1.6949,
      "step": 20649
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38670530915260315,
      "learning_rate": 0.0005256496886822014,
      "loss": 1.7288,
      "step": 20650
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37090280652046204,
      "learning_rate": 0.0005256428008711754,
      "loss": 1.6586,
      "step": 20651
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3729959726333618,
      "learning_rate": 0.0005256359127862522,
      "loss": 1.7359,
      "step": 20652
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3805474638938904,
      "learning_rate": 0.0005256290244274403,
      "loss": 1.8143,
      "step": 20653
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3945696949958801,
      "learning_rate": 0.0005256221357947481,
      "loss": 1.6709,
      "step": 20654
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3838518261909485,
      "learning_rate": 0.0005256152468881836,
      "loss": 1.7136,
      "step": 20655
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3838762640953064,
      "learning_rate": 0.0005256083577077557,
      "loss": 1.7834,
      "step": 20656
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3763938248157501,
      "learning_rate": 0.0005256014682534723,
      "loss": 1.7517,
      "step": 20657
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3894331157207489,
      "learning_rate": 0.000525594578525342,
      "loss": 1.705,
      "step": 20658
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4070974886417389,
      "learning_rate": 0.0005255876885233732,
      "loss": 1.721,
      "step": 20659
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4004998505115509,
      "learning_rate": 0.0005255807982475742,
      "loss": 1.7664,
      "step": 20660
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4010153114795685,
      "learning_rate": 0.0005255739076979532,
      "loss": 1.6866,
      "step": 20661
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38339170813560486,
      "learning_rate": 0.0005255670168745188,
      "loss": 1.6832,
      "step": 20662
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3947151005268097,
      "learning_rate": 0.0005255601257772793,
      "loss": 1.6414,
      "step": 20663
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3773946464061737,
      "learning_rate": 0.0005255532344062431,
      "loss": 1.706,
      "step": 20664
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3736892342567444,
      "learning_rate": 0.0005255463427614184,
      "loss": 1.6607,
      "step": 20665
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3774206340312958,
      "learning_rate": 0.0005255394508428138,
      "loss": 1.6792,
      "step": 20666
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3849240243434906,
      "learning_rate": 0.0005255325586504373,
      "loss": 1.6832,
      "step": 20667
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38222411274909973,
      "learning_rate": 0.0005255256661842977,
      "loss": 1.7492,
      "step": 20668
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3874017000198364,
      "learning_rate": 0.0005255187734444031,
      "loss": 1.6971,
      "step": 20669
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39136219024658203,
      "learning_rate": 0.000525511880430762,
      "loss": 1.6506,
      "step": 20670
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3820011019706726,
      "learning_rate": 0.0005255049871433826,
      "loss": 1.6343,
      "step": 20671
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3915618658065796,
      "learning_rate": 0.0005254980935822736,
      "loss": 1.7012,
      "step": 20672
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38094788789749146,
      "learning_rate": 0.0005254911997474429,
      "loss": 1.7018,
      "step": 20673
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4002978205680847,
      "learning_rate": 0.0005254843056388992,
      "loss": 1.7058,
      "step": 20674
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3826139271259308,
      "learning_rate": 0.0005254774112566508,
      "loss": 1.7092,
      "step": 20675
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37811478972435,
      "learning_rate": 0.0005254705166007059,
      "loss": 1.7455,
      "step": 20676
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39433830976486206,
      "learning_rate": 0.0005254636216710731,
      "loss": 1.6365,
      "step": 20677
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39805272221565247,
      "learning_rate": 0.0005254567264677607,
      "loss": 1.6498,
      "step": 20678
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3768218755722046,
      "learning_rate": 0.000525449830990777,
      "loss": 1.6948,
      "step": 20679
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39379915595054626,
      "learning_rate": 0.0005254429352401306,
      "loss": 1.7118,
      "step": 20680
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3779430091381073,
      "learning_rate": 0.0005254360392158296,
      "loss": 1.5975,
      "step": 20681
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3847426474094391,
      "learning_rate": 0.0005254291429178824,
      "loss": 1.5942,
      "step": 20682
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3865523934364319,
      "learning_rate": 0.0005254222463462975,
      "loss": 1.6689,
      "step": 20683
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3905041813850403,
      "learning_rate": 0.0005254153495010832,
      "loss": 1.6969,
      "step": 20684
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38275426626205444,
      "learning_rate": 0.0005254084523822479,
      "loss": 1.6785,
      "step": 20685
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3906959593296051,
      "learning_rate": 0.0005254015549897999,
      "loss": 1.6999,
      "step": 20686
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3841959834098816,
      "learning_rate": 0.0005253946573237476,
      "loss": 1.7041,
      "step": 20687
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38987013697624207,
      "learning_rate": 0.0005253877593840994,
      "loss": 1.692,
      "step": 20688
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38760003447532654,
      "learning_rate": 0.0005253808611708638,
      "loss": 1.6685,
      "step": 20689
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3900546729564667,
      "learning_rate": 0.0005253739626840489,
      "loss": 1.7226,
      "step": 20690
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3800762891769409,
      "learning_rate": 0.0005253670639236632,
      "loss": 1.689,
      "step": 20691
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38506263494491577,
      "learning_rate": 0.0005253601648897152,
      "loss": 1.7199,
      "step": 20692
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3827522397041321,
      "learning_rate": 0.0005253532655822131,
      "loss": 1.697,
      "step": 20693
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37290385365486145,
      "learning_rate": 0.0005253463660011654,
      "loss": 1.672,
      "step": 20694
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38409623503685,
      "learning_rate": 0.0005253394661465804,
      "loss": 1.6596,
      "step": 20695
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3891945481300354,
      "learning_rate": 0.0005253325660184665,
      "loss": 1.7068,
      "step": 20696
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3961499035358429,
      "learning_rate": 0.000525325665616832,
      "loss": 1.7242,
      "step": 20697
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39691993594169617,
      "learning_rate": 0.0005253187649416854,
      "loss": 1.7435,
      "step": 20698
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3752135634422302,
      "learning_rate": 0.000525311863993035,
      "loss": 1.7424,
      "step": 20699
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3834487497806549,
      "learning_rate": 0.0005253049627708891,
      "loss": 1.7085,
      "step": 20700
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38128674030303955,
      "learning_rate": 0.0005252980612752562,
      "loss": 1.6728,
      "step": 20701
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3976157307624817,
      "learning_rate": 0.0005252911595061448,
      "loss": 1.7213,
      "step": 20702
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3987060785293579,
      "learning_rate": 0.000525284257463563,
      "loss": 1.7648,
      "step": 20703
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38073965907096863,
      "learning_rate": 0.0005252773551475195,
      "loss": 1.6574,
      "step": 20704
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38876616954803467,
      "learning_rate": 0.0005252704525580223,
      "loss": 1.7082,
      "step": 20705
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3788282871246338,
      "learning_rate": 0.0005252635496950799,
      "loss": 1.6849,
      "step": 20706
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38288798928260803,
      "learning_rate": 0.0005252566465587008,
      "loss": 1.6447,
      "step": 20707
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3874238431453705,
      "learning_rate": 0.0005252497431488933,
      "loss": 1.606,
      "step": 20708
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36713603138923645,
      "learning_rate": 0.0005252428394656659,
      "loss": 1.6588,
      "step": 20709
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39008939266204834,
      "learning_rate": 0.0005252359355090268,
      "loss": 1.6982,
      "step": 20710
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38691240549087524,
      "learning_rate": 0.0005252290312789846,
      "loss": 1.6835,
      "step": 20711
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38162821531295776,
      "learning_rate": 0.0005252221267755473,
      "loss": 1.6275,
      "step": 20712
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37585917115211487,
      "learning_rate": 0.0005252152219987236,
      "loss": 1.6819,
      "step": 20713
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3868548274040222,
      "learning_rate": 0.000525208316948522,
      "loss": 1.6972,
      "step": 20714
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3977687656879425,
      "learning_rate": 0.0005252014116249506,
      "loss": 1.6963,
      "step": 20715
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4262023866176605,
      "learning_rate": 0.0005251945060280178,
      "loss": 1.6864,
      "step": 20716
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3801524043083191,
      "learning_rate": 0.000525187600157732,
      "loss": 1.6853,
      "step": 20717
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3926622271537781,
      "learning_rate": 0.0005251806940141017,
      "loss": 1.6634,
      "step": 20718
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39141973853111267,
      "learning_rate": 0.0005251737875971353,
      "loss": 1.675,
      "step": 20719
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3772648572921753,
      "learning_rate": 0.0005251668809068409,
      "loss": 1.6768,
      "step": 20720
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.41151583194732666,
      "learning_rate": 0.0005251599739432273,
      "loss": 1.6419,
      "step": 20721
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38401466608047485,
      "learning_rate": 0.0005251530667063025,
      "loss": 1.6003,
      "step": 20722
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3901595175266266,
      "learning_rate": 0.0005251461591960751,
      "loss": 1.7097,
      "step": 20723
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38446715474128723,
      "learning_rate": 0.0005251392514125535,
      "loss": 1.6644,
      "step": 20724
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3793317973613739,
      "learning_rate": 0.000525132343355746,
      "loss": 1.7021,
      "step": 20725
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3874996304512024,
      "learning_rate": 0.000525125435025661,
      "loss": 1.7108,
      "step": 20726
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3789573013782501,
      "learning_rate": 0.0005251185264223069,
      "loss": 1.6562,
      "step": 20727
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39616942405700684,
      "learning_rate": 0.000525111617545692,
      "loss": 1.7741,
      "step": 20728
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3817335069179535,
      "learning_rate": 0.0005251047083958248,
      "loss": 1.7195,
      "step": 20729
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38308292627334595,
      "learning_rate": 0.0005250977989727137,
      "loss": 1.6907,
      "step": 20730
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38576212525367737,
      "learning_rate": 0.000525090889276367,
      "loss": 1.7189,
      "step": 20731
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3788752257823944,
      "learning_rate": 0.0005250839793067932,
      "loss": 1.6417,
      "step": 20732
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3918485641479492,
      "learning_rate": 0.0005250770690640005,
      "loss": 1.721,
      "step": 20733
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3930843770503998,
      "learning_rate": 0.0005250701585479974,
      "loss": 1.682,
      "step": 20734
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38167744874954224,
      "learning_rate": 0.0005250632477587924,
      "loss": 1.7354,
      "step": 20735
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36943569779396057,
      "learning_rate": 0.0005250563366963937,
      "loss": 1.6119,
      "step": 20736
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3775486350059509,
      "learning_rate": 0.0005250494253608098,
      "loss": 1.5951,
      "step": 20737
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39800402522087097,
      "learning_rate": 0.000525042513752049,
      "loss": 1.6856,
      "step": 20738
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3757683336734772,
      "learning_rate": 0.0005250356018701198,
      "loss": 1.6469,
      "step": 20739
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3948824107646942,
      "learning_rate": 0.0005250286897150305,
      "loss": 1.7263,
      "step": 20740
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39432549476623535,
      "learning_rate": 0.0005250217772867896,
      "loss": 1.6664,
      "step": 20741
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3881985545158386,
      "learning_rate": 0.0005250148645854054,
      "loss": 1.6435,
      "step": 20742
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3775072991847992,
      "learning_rate": 0.0005250079516108863,
      "loss": 1.7076,
      "step": 20743
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3725679814815521,
      "learning_rate": 0.0005250010383632406,
      "loss": 1.6226,
      "step": 20744
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3772287964820862,
      "learning_rate": 0.0005249941248424769,
      "loss": 1.6954,
      "step": 20745
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38184472918510437,
      "learning_rate": 0.0005249872110486035,
      "loss": 1.6922,
      "step": 20746
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38003242015838623,
      "learning_rate": 0.0005249802969816287,
      "loss": 1.6613,
      "step": 20747
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37719106674194336,
      "learning_rate": 0.000524973382641561,
      "loss": 1.6889,
      "step": 20748
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39353418350219727,
      "learning_rate": 0.0005249664680284089,
      "loss": 1.7539,
      "step": 20749
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3769787549972534,
      "learning_rate": 0.0005249595531421804,
      "loss": 1.5448,
      "step": 20750
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3881385624408722,
      "learning_rate": 0.0005249526379828843,
      "loss": 1.7267,
      "step": 20751
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37944844365119934,
      "learning_rate": 0.0005249457225505288,
      "loss": 1.6721,
      "step": 20752
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3891027271747589,
      "learning_rate": 0.0005249388068451224,
      "loss": 1.7403,
      "step": 20753
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3988434374332428,
      "learning_rate": 0.0005249318908666734,
      "loss": 1.6928,
      "step": 20754
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39033636450767517,
      "learning_rate": 0.0005249249746151902,
      "loss": 1.7465,
      "step": 20755
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40574780106544495,
      "learning_rate": 0.0005249180580906811,
      "loss": 1.6894,
      "step": 20756
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3969075679779053,
      "learning_rate": 0.0005249111412931548,
      "loss": 1.6957,
      "step": 20757
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3845224380493164,
      "learning_rate": 0.0005249042242226195,
      "loss": 1.5943,
      "step": 20758
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38366612792015076,
      "learning_rate": 0.0005248973068790835,
      "loss": 1.7458,
      "step": 20759
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4058900773525238,
      "learning_rate": 0.0005248903892625554,
      "loss": 1.658,
      "step": 20760
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39873993396759033,
      "learning_rate": 0.0005248834713730435,
      "loss": 1.775,
      "step": 20761
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38881152868270874,
      "learning_rate": 0.0005248765532105562,
      "loss": 1.6149,
      "step": 20762
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3751537799835205,
      "learning_rate": 0.0005248696347751018,
      "loss": 1.6673,
      "step": 20763
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3835408687591553,
      "learning_rate": 0.000524862716066689,
      "loss": 1.623,
      "step": 20764
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3821983337402344,
      "learning_rate": 0.0005248557970853258,
      "loss": 1.691,
      "step": 20765
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3900543749332428,
      "learning_rate": 0.0005248488778310209,
      "loss": 1.7187,
      "step": 20766
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3791605830192566,
      "learning_rate": 0.0005248419583037825,
      "loss": 1.6149,
      "step": 20767
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3868960738182068,
      "learning_rate": 0.0005248350385036192,
      "loss": 1.6752,
      "step": 20768
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37009432911872864,
      "learning_rate": 0.0005248281184305392,
      "loss": 1.6711,
      "step": 20769
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3804013133049011,
      "learning_rate": 0.0005248211980845511,
      "loss": 1.619,
      "step": 20770
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39315786957740784,
      "learning_rate": 0.000524814277465663,
      "loss": 1.7461,
      "step": 20771
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3795126676559448,
      "learning_rate": 0.0005248073565738837,
      "loss": 1.7029,
      "step": 20772
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3812900483608246,
      "learning_rate": 0.0005248004354092213,
      "loss": 1.6582,
      "step": 20773
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.383805513381958,
      "learning_rate": 0.0005247935139716843,
      "loss": 1.6717,
      "step": 20774
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3975633978843689,
      "learning_rate": 0.0005247865922612811,
      "loss": 1.7183,
      "step": 20775
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39936667680740356,
      "learning_rate": 0.0005247796702780201,
      "loss": 1.8149,
      "step": 20776
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3831920325756073,
      "learning_rate": 0.0005247727480219097,
      "loss": 1.723,
      "step": 20777
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3868998885154724,
      "learning_rate": 0.0005247658254929582,
      "loss": 1.6742,
      "step": 20778
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37431731820106506,
      "learning_rate": 0.0005247589026911743,
      "loss": 1.7558,
      "step": 20779
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3842552900314331,
      "learning_rate": 0.0005247519796165661,
      "loss": 1.6606,
      "step": 20780
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38605496287345886,
      "learning_rate": 0.0005247450562691422,
      "loss": 1.7105,
      "step": 20781
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3968390226364136,
      "learning_rate": 0.0005247381326489108,
      "loss": 1.7912,
      "step": 20782
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3803549110889435,
      "learning_rate": 0.0005247312087558804,
      "loss": 1.7249,
      "step": 20783
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37553706765174866,
      "learning_rate": 0.0005247242845900595,
      "loss": 1.6678,
      "step": 20784
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.376767098903656,
      "learning_rate": 0.0005247173601514565,
      "loss": 1.6606,
      "step": 20785
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37806132435798645,
      "learning_rate": 0.0005247104354400796,
      "loss": 1.669,
      "step": 20786
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3749992549419403,
      "learning_rate": 0.0005247035104559373,
      "loss": 1.6458,
      "step": 20787
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36880558729171753,
      "learning_rate": 0.0005246965851990382,
      "loss": 1.7077,
      "step": 20788
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3778265416622162,
      "learning_rate": 0.0005246896596693905,
      "loss": 1.7357,
      "step": 20789
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39573726058006287,
      "learning_rate": 0.0005246827338670026,
      "loss": 1.6718,
      "step": 20790
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3980778157711029,
      "learning_rate": 0.000524675807791883,
      "loss": 1.633,
      "step": 20791
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3704783618450165,
      "learning_rate": 0.0005246688814440402,
      "loss": 1.6123,
      "step": 20792
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3914501368999481,
      "learning_rate": 0.0005246619548234823,
      "loss": 1.6663,
      "step": 20793
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38572707772254944,
      "learning_rate": 0.000524655027930218,
      "loss": 1.7243,
      "step": 20794
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4047842025756836,
      "learning_rate": 0.0005246481007642555,
      "loss": 1.6479,
      "step": 20795
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37711572647094727,
      "learning_rate": 0.0005246411733256034,
      "loss": 1.7286,
      "step": 20796
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3900485634803772,
      "learning_rate": 0.00052463424561427,
      "loss": 1.7212,
      "step": 20797
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37131771445274353,
      "learning_rate": 0.0005246273176302637,
      "loss": 1.6664,
      "step": 20798
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3904677629470825,
      "learning_rate": 0.000524620389373593,
      "loss": 1.6787,
      "step": 20799
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3818719685077667,
      "learning_rate": 0.0005246134608442661,
      "loss": 1.6715,
      "step": 20800
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40512558817863464,
      "learning_rate": 0.0005246065320422917,
      "loss": 1.6204,
      "step": 20801
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38429901003837585,
      "learning_rate": 0.0005245996029676779,
      "loss": 1.6951,
      "step": 20802
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3950815200805664,
      "learning_rate": 0.0005245926736204334,
      "loss": 1.6896,
      "step": 20803
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.43013978004455566,
      "learning_rate": 0.0005245857440005665,
      "loss": 1.7162,
      "step": 20804
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.42599645256996155,
      "learning_rate": 0.0005245788141080856,
      "loss": 1.6599,
      "step": 20805
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.43147042393684387,
      "learning_rate": 0.000524571883942999,
      "loss": 1.7379,
      "step": 20806
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38953736424446106,
      "learning_rate": 0.0005245649535053152,
      "loss": 1.7576,
      "step": 20807
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38640230894088745,
      "learning_rate": 0.0005245580227950428,
      "loss": 1.6881,
      "step": 20808
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39980778098106384,
      "learning_rate": 0.00052455109181219,
      "loss": 1.7537,
      "step": 20809
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3820327818393707,
      "learning_rate": 0.0005245441605567652,
      "loss": 1.6752,
      "step": 20810
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.41073593497276306,
      "learning_rate": 0.000524537229028777,
      "loss": 1.7236,
      "step": 20811
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.393324613571167,
      "learning_rate": 0.0005245302972282336,
      "loss": 1.6982,
      "step": 20812
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3957694172859192,
      "learning_rate": 0.0005245233651551435,
      "loss": 1.6769,
      "step": 20813
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4395243525505066,
      "learning_rate": 0.000524516432809515,
      "loss": 1.7225,
      "step": 20814
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3805689513683319,
      "learning_rate": 0.0005245095001913568,
      "loss": 1.6387,
      "step": 20815
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39086344838142395,
      "learning_rate": 0.0005245025673006771,
      "loss": 1.7178,
      "step": 20816
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3934055268764496,
      "learning_rate": 0.0005244956341374843,
      "loss": 1.7265,
      "step": 20817
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3931291401386261,
      "learning_rate": 0.000524488700701787,
      "loss": 1.771,
      "step": 20818
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40501201152801514,
      "learning_rate": 0.0005244817669935933,
      "loss": 1.639,
      "step": 20819
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3736889362335205,
      "learning_rate": 0.000524474833012912,
      "loss": 1.6688,
      "step": 20820
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3942745327949524,
      "learning_rate": 0.0005244678987597513,
      "loss": 1.753,
      "step": 20821
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39371994137763977,
      "learning_rate": 0.0005244609642341197,
      "loss": 1.7343,
      "step": 20822
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39478328824043274,
      "learning_rate": 0.0005244540294360254,
      "loss": 1.6805,
      "step": 20823
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3952646851539612,
      "learning_rate": 0.0005244470943654771,
      "loss": 1.6549,
      "step": 20824
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37880346179008484,
      "learning_rate": 0.000524440159022483,
      "loss": 1.6743,
      "step": 20825
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39466550946235657,
      "learning_rate": 0.0005244332234070516,
      "loss": 1.686,
      "step": 20826
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3785986304283142,
      "learning_rate": 0.0005244262875191914,
      "loss": 1.6547,
      "step": 20827
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4034234583377838,
      "learning_rate": 0.0005244193513589109,
      "loss": 1.7245,
      "step": 20828
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37249892950057983,
      "learning_rate": 0.0005244124149262182,
      "loss": 1.69,
      "step": 20829
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38251572847366333,
      "learning_rate": 0.0005244054782211219,
      "loss": 1.6057,
      "step": 20830
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5305575728416443,
      "learning_rate": 0.0005243985412436305,
      "loss": 1.7603,
      "step": 20831
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3964403569698334,
      "learning_rate": 0.0005243916039937522,
      "loss": 1.7125,
      "step": 20832
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38554486632347107,
      "learning_rate": 0.0005243846664714956,
      "loss": 1.6803,
      "step": 20833
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38098210096359253,
      "learning_rate": 0.0005243777286768691,
      "loss": 1.6481,
      "step": 20834
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3893752992153168,
      "learning_rate": 0.0005243707906098811,
      "loss": 1.7216,
      "step": 20835
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40273863077163696,
      "learning_rate": 0.0005243638522705401,
      "loss": 1.6291,
      "step": 20836
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40008074045181274,
      "learning_rate": 0.0005243569136588543,
      "loss": 1.6223,
      "step": 20837
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38278311491012573,
      "learning_rate": 0.0005243499747748324,
      "loss": 1.6773,
      "step": 20838
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3848975896835327,
      "learning_rate": 0.0005243430356184826,
      "loss": 1.6401,
      "step": 20839
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38352829217910767,
      "learning_rate": 0.0005243360961898134,
      "loss": 1.7544,
      "step": 20840
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.384136825799942,
      "learning_rate": 0.0005243291564888332,
      "loss": 1.7631,
      "step": 20841
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38415834307670593,
      "learning_rate": 0.0005243222165155506,
      "loss": 1.612,
      "step": 20842
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40705960988998413,
      "learning_rate": 0.0005243152762699737,
      "loss": 1.6528,
      "step": 20843
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3931989073753357,
      "learning_rate": 0.0005243083357521112,
      "loss": 1.66,
      "step": 20844
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.386886864900589,
      "learning_rate": 0.0005243013949619715,
      "loss": 1.6596,
      "step": 20845
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39374297857284546,
      "learning_rate": 0.0005242944538995628,
      "loss": 1.6809,
      "step": 20846
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3835674524307251,
      "learning_rate": 0.0005242875125648939,
      "loss": 1.6891,
      "step": 20847
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40585607290267944,
      "learning_rate": 0.0005242805709579729,
      "loss": 1.7252,
      "step": 20848
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37258070707321167,
      "learning_rate": 0.0005242736290788083,
      "loss": 1.6784,
      "step": 20849
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4016953706741333,
      "learning_rate": 0.0005242666869274085,
      "loss": 1.7361,
      "step": 20850
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3944062888622284,
      "learning_rate": 0.0005242597445037821,
      "loss": 1.7189,
      "step": 20851
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38605883717536926,
      "learning_rate": 0.0005242528018079373,
      "loss": 1.7226,
      "step": 20852
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3900175988674164,
      "learning_rate": 0.0005242458588398828,
      "loss": 1.6436,
      "step": 20853
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39351338148117065,
      "learning_rate": 0.0005242389155996268,
      "loss": 1.6657,
      "step": 20854
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3968556225299835,
      "learning_rate": 0.0005242319720871777,
      "loss": 1.653,
      "step": 20855
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.372656911611557,
      "learning_rate": 0.0005242250283025441,
      "loss": 1.6717,
      "step": 20856
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.379661500453949,
      "learning_rate": 0.0005242180842457344,
      "loss": 1.6564,
      "step": 20857
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3907855749130249,
      "learning_rate": 0.000524211139916757,
      "loss": 1.6512,
      "step": 20858
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3955382704734802,
      "learning_rate": 0.0005242041953156201,
      "loss": 1.707,
      "step": 20859
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37772443890571594,
      "learning_rate": 0.0005241972504423326,
      "loss": 1.6831,
      "step": 20860
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38199561834335327,
      "learning_rate": 0.0005241903052969026,
      "loss": 1.733,
      "step": 20861
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37460917234420776,
      "learning_rate": 0.0005241833598793386,
      "loss": 1.6362,
      "step": 20862
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.396989107131958,
      "learning_rate": 0.0005241764141896488,
      "loss": 1.6522,
      "step": 20863
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37090128660202026,
      "learning_rate": 0.0005241694682278422,
      "loss": 1.7119,
      "step": 20864
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38859349489212036,
      "learning_rate": 0.0005241625219939267,
      "loss": 1.7337,
      "step": 20865
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38095822930336,
      "learning_rate": 0.000524155575487911,
      "loss": 1.6426,
      "step": 20866
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38937312364578247,
      "learning_rate": 0.0005241486287098034,
      "loss": 1.6956,
      "step": 20867
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38882678747177124,
      "learning_rate": 0.0005241416816596125,
      "loss": 1.7394,
      "step": 20868
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37299856543540955,
      "learning_rate": 0.0005241347343373466,
      "loss": 1.6754,
      "step": 20869
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3758675754070282,
      "learning_rate": 0.000524127786743014,
      "loss": 1.629,
      "step": 20870
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3789386451244354,
      "learning_rate": 0.0005241208388766235,
      "loss": 1.6428,
      "step": 20871
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37089839577674866,
      "learning_rate": 0.0005241138907381832,
      "loss": 1.6906,
      "step": 20872
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4013087749481201,
      "learning_rate": 0.0005241069423277017,
      "loss": 1.6961,
      "step": 20873
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3794839084148407,
      "learning_rate": 0.0005240999936451874,
      "loss": 1.7055,
      "step": 20874
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38591644167900085,
      "learning_rate": 0.0005240930446906486,
      "loss": 1.6915,
      "step": 20875
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38250285387039185,
      "learning_rate": 0.0005240860954640941,
      "loss": 1.6847,
      "step": 20876
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.43278074264526367,
      "learning_rate": 0.000524079145965532,
      "loss": 1.7838,
      "step": 20877
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8323981761932373,
      "learning_rate": 0.0005240721961949707,
      "loss": 1.6884,
      "step": 20878
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3835870027542114,
      "learning_rate": 0.000524065246152419,
      "loss": 1.7715,
      "step": 20879
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37819841504096985,
      "learning_rate": 0.0005240582958378849,
      "loss": 1.6588,
      "step": 20880
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39050617814064026,
      "learning_rate": 0.0005240513452513771,
      "loss": 1.768,
      "step": 20881
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37565892934799194,
      "learning_rate": 0.0005240443943929041,
      "loss": 1.6254,
      "step": 20882
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38775044679641724,
      "learning_rate": 0.0005240374432624741,
      "loss": 1.767,
      "step": 20883
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38611385226249695,
      "learning_rate": 0.0005240304918600956,
      "loss": 1.6521,
      "step": 20884
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3844214379787445,
      "learning_rate": 0.0005240235401857772,
      "loss": 1.717,
      "step": 20885
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3946676552295685,
      "learning_rate": 0.0005240165882395272,
      "loss": 1.6422,
      "step": 20886
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4041028320789337,
      "learning_rate": 0.000524009636021354,
      "loss": 1.8021,
      "step": 20887
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.38110649585723877,
      "learning_rate": 0.0005240026835312662,
      "loss": 1.701,
      "step": 20888
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37973734736442566,
      "learning_rate": 0.0005239957307692721,
      "loss": 1.7113,
      "step": 20889
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39679229259490967,
      "learning_rate": 0.0005239887777353802,
      "loss": 1.6948,
      "step": 20890
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.385390043258667,
      "learning_rate": 0.0005239818244295989,
      "loss": 1.6412,
      "step": 20891
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.388510525226593,
      "learning_rate": 0.0005239748708519368,
      "loss": 1.6523,
      "step": 20892
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.376204252243042,
      "learning_rate": 0.000523967917002402,
      "loss": 1.6728,
      "step": 20893
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.389369398355484,
      "learning_rate": 0.0005239609628810033,
      "loss": 1.7521,
      "step": 20894
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3902967870235443,
      "learning_rate": 0.0005239540084877489,
      "loss": 1.6954,
      "step": 20895
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3833876848220825,
      "learning_rate": 0.0005239470538226474,
      "loss": 1.6268,
      "step": 20896
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3842739164829254,
      "learning_rate": 0.0005239400988857072,
      "loss": 1.696,
      "step": 20897
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39292779564857483,
      "learning_rate": 0.0005239331436769366,
      "loss": 1.7077,
      "step": 20898
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3892019987106323,
      "learning_rate": 0.0005239261881963443,
      "loss": 1.6871,
      "step": 20899
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38208699226379395,
      "learning_rate": 0.0005239192324439385,
      "loss": 1.6856,
      "step": 20900
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39655107259750366,
      "learning_rate": 0.0005239122764197278,
      "loss": 1.6109,
      "step": 20901
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4003097414970398,
      "learning_rate": 0.0005239053201237206,
      "loss": 1.7113,
      "step": 20902
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3838282823562622,
      "learning_rate": 0.0005238983635559253,
      "loss": 1.652,
      "step": 20903
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38691115379333496,
      "learning_rate": 0.0005238914067163503,
      "loss": 1.6613,
      "step": 20904
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37373796105384827,
      "learning_rate": 0.0005238844496050042,
      "loss": 1.7672,
      "step": 20905
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3741374909877777,
      "learning_rate": 0.0005238774922218954,
      "loss": 1.6974,
      "step": 20906
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3709072470664978,
      "learning_rate": 0.0005238705345670322,
      "loss": 1.6891,
      "step": 20907
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3811938166618347,
      "learning_rate": 0.0005238635766404232,
      "loss": 1.6695,
      "step": 20908
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38175010681152344,
      "learning_rate": 0.0005238566184420769,
      "loss": 1.6968,
      "step": 20909
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3695681095123291,
      "learning_rate": 0.0005238496599720016,
      "loss": 1.7051,
      "step": 20910
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38951805233955383,
      "learning_rate": 0.0005238427012302057,
      "loss": 1.699,
      "step": 20911
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37132737040519714,
      "learning_rate": 0.0005238357422166979,
      "loss": 1.5331,
      "step": 20912
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3862478733062744,
      "learning_rate": 0.0005238287829314864,
      "loss": 1.6709,
      "step": 20913
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3761264979839325,
      "learning_rate": 0.0005238218233745797,
      "loss": 1.5705,
      "step": 20914
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38543739914894104,
      "learning_rate": 0.0005238148635459864,
      "loss": 1.7007,
      "step": 20915
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3638249933719635,
      "learning_rate": 0.0005238079034457147,
      "loss": 1.6702,
      "step": 20916
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38205891847610474,
      "learning_rate": 0.0005238009430737732,
      "loss": 1.7664,
      "step": 20917
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38104724884033203,
      "learning_rate": 0.0005237939824301705,
      "loss": 1.651,
      "step": 20918
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38157743215560913,
      "learning_rate": 0.0005237870215149147,
      "loss": 1.6935,
      "step": 20919
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3783939778804779,
      "learning_rate": 0.0005237800603280145,
      "loss": 1.6553,
      "step": 20920
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37410327792167664,
      "learning_rate": 0.0005237730988694782,
      "loss": 1.7268,
      "step": 20921
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5325406193733215,
      "learning_rate": 0.0005237661371393144,
      "loss": 1.7478,
      "step": 20922
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37255996465682983,
      "learning_rate": 0.0005237591751375315,
      "loss": 1.6644,
      "step": 20923
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37070706486701965,
      "learning_rate": 0.0005237522128641379,
      "loss": 1.7392,
      "step": 20924
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38339337706565857,
      "learning_rate": 0.0005237452503191421,
      "loss": 1.6275,
      "step": 20925
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38195064663887024,
      "learning_rate": 0.0005237382875025525,
      "loss": 1.7018,
      "step": 20926
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3674958050251007,
      "learning_rate": 0.0005237313244143776,
      "loss": 1.6309,
      "step": 20927
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3779575526714325,
      "learning_rate": 0.0005237243610546258,
      "loss": 1.6679,
      "step": 20928
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38618209958076477,
      "learning_rate": 0.0005237173974233057,
      "loss": 1.743,
      "step": 20929
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3872997760772705,
      "learning_rate": 0.0005237104335204255,
      "loss": 1.6683,
      "step": 20930
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3930240869522095,
      "learning_rate": 0.000523703469345994,
      "loss": 1.7058,
      "step": 20931
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3965640068054199,
      "learning_rate": 0.0005236965049000192,
      "loss": 1.6885,
      "step": 20932
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3903365135192871,
      "learning_rate": 0.00052368954018251,
      "loss": 1.7555,
      "step": 20933
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38064709305763245,
      "learning_rate": 0.0005236825751934745,
      "loss": 1.7438,
      "step": 20934
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3738018870353699,
      "learning_rate": 0.0005236756099329215,
      "loss": 1.7447,
      "step": 20935
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3793257772922516,
      "learning_rate": 0.000523668644400859,
      "loss": 1.7238,
      "step": 20936
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37876415252685547,
      "learning_rate": 0.0005236616785972959,
      "loss": 1.6607,
      "step": 20937
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5882770419120789,
      "learning_rate": 0.0005236547125222405,
      "loss": 1.6561,
      "step": 20938
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3912563621997833,
      "learning_rate": 0.0005236477461757012,
      "loss": 1.7053,
      "step": 20939
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3799929916858673,
      "learning_rate": 0.0005236407795576864,
      "loss": 1.6745,
      "step": 20940
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3784143328666687,
      "learning_rate": 0.0005236338126682048,
      "loss": 1.6578,
      "step": 20941
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3944183886051178,
      "learning_rate": 0.0005236268455072646,
      "loss": 1.7469,
      "step": 20942
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3848649859428406,
      "learning_rate": 0.0005236198780748743,
      "loss": 1.6702,
      "step": 20943
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3790874481201172,
      "learning_rate": 0.0005236129103710426,
      "loss": 1.6795,
      "step": 20944
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3839944005012512,
      "learning_rate": 0.0005236059423957776,
      "loss": 1.7268,
      "step": 20945
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.683125376701355,
      "learning_rate": 0.000523598974149088,
      "loss": 1.6714,
      "step": 20946
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3821995258331299,
      "learning_rate": 0.0005235920056309823,
      "loss": 1.6856,
      "step": 20947
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3882846534252167,
      "learning_rate": 0.0005235850368414687,
      "loss": 1.6433,
      "step": 20948
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.381388396024704,
      "learning_rate": 0.0005235780677805558,
      "loss": 1.6838,
      "step": 20949
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37914079427719116,
      "learning_rate": 0.0005235710984482522,
      "loss": 1.6306,
      "step": 20950
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3808102309703827,
      "learning_rate": 0.0005235641288445661,
      "loss": 1.7047,
      "step": 20951
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38863497972488403,
      "learning_rate": 0.0005235571589695062,
      "loss": 1.7468,
      "step": 20952
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3790706694126129,
      "learning_rate": 0.0005235501888230808,
      "loss": 1.6152,
      "step": 20953
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.392167329788208,
      "learning_rate": 0.0005235432184052984,
      "loss": 1.7115,
      "step": 20954
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37245291471481323,
      "learning_rate": 0.0005235362477161675,
      "loss": 1.6787,
      "step": 20955
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3793374300003052,
      "learning_rate": 0.0005235292767556965,
      "loss": 1.6444,
      "step": 20956
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38587358593940735,
      "learning_rate": 0.0005235223055238938,
      "loss": 1.7426,
      "step": 20957
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3798663020133972,
      "learning_rate": 0.0005235153340207681,
      "loss": 1.7,
      "step": 20958
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3771287500858307,
      "learning_rate": 0.0005235083622463277,
      "loss": 1.6518,
      "step": 20959
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3806735575199127,
      "learning_rate": 0.000523501390200581,
      "loss": 1.7354,
      "step": 20960
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39534586668014526,
      "learning_rate": 0.0005234944178835367,
      "loss": 1.7056,
      "step": 20961
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40387701988220215,
      "learning_rate": 0.0005234874452952029,
      "loss": 1.7364,
      "step": 20962
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3947470486164093,
      "learning_rate": 0.0005234804724355885,
      "loss": 1.7133,
      "step": 20963
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3766493797302246,
      "learning_rate": 0.0005234734993047015,
      "loss": 1.6611,
      "step": 20964
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40025171637535095,
      "learning_rate": 0.0005234665259025508,
      "loss": 1.6423,
      "step": 20965
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38844138383865356,
      "learning_rate": 0.0005234595522291446,
      "loss": 1.7579,
      "step": 20966
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3874824643135071,
      "learning_rate": 0.0005234525782844912,
      "loss": 1.7618,
      "step": 20967
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3784385025501251,
      "learning_rate": 0.0005234456040685996,
      "loss": 1.6669,
      "step": 20968
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38563430309295654,
      "learning_rate": 0.0005234386295814779,
      "loss": 1.6827,
      "step": 20969
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39811643958091736,
      "learning_rate": 0.0005234316548231345,
      "loss": 1.7502,
      "step": 20970
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3933742344379425,
      "learning_rate": 0.0005234246797935781,
      "loss": 1.6748,
      "step": 20971
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3776949644088745,
      "learning_rate": 0.000523417704492817,
      "loss": 1.6643,
      "step": 20972
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38149869441986084,
      "learning_rate": 0.0005234107289208597,
      "loss": 1.7073,
      "step": 20973
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39770030975341797,
      "learning_rate": 0.0005234037530777149,
      "loss": 1.6824,
      "step": 20974
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38605546951293945,
      "learning_rate": 0.0005233967769633906,
      "loss": 1.5951,
      "step": 20975
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3869727849960327,
      "learning_rate": 0.0005233898005778956,
      "loss": 1.7529,
      "step": 20976
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3699718117713928,
      "learning_rate": 0.0005233828239212385,
      "loss": 1.574,
      "step": 20977
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40674999356269836,
      "learning_rate": 0.0005233758469934273,
      "loss": 1.7565,
      "step": 20978
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3861119747161865,
      "learning_rate": 0.0005233688697944708,
      "loss": 1.6797,
      "step": 20979
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37793591618537903,
      "learning_rate": 0.0005233618923243774,
      "loss": 1.6802,
      "step": 20980
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3794584572315216,
      "learning_rate": 0.0005233549145831557,
      "loss": 1.7324,
      "step": 20981
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37814608216285706,
      "learning_rate": 0.0005233479365708139,
      "loss": 1.6771,
      "step": 20982
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37699541449546814,
      "learning_rate": 0.0005233409582873608,
      "loss": 1.7215,
      "step": 20983
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38571685552597046,
      "learning_rate": 0.0005233339797328044,
      "loss": 1.7222,
      "step": 20984
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.369732528924942,
      "learning_rate": 0.0005233270009071538,
      "loss": 1.6476,
      "step": 20985
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3780039846897125,
      "learning_rate": 0.0005233200218104168,
      "loss": 1.7112,
      "step": 20986
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37780386209487915,
      "learning_rate": 0.0005233130424426024,
      "loss": 1.6755,
      "step": 20987
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3840157985687256,
      "learning_rate": 0.0005233060628037188,
      "loss": 1.6652,
      "step": 20988
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38056185841560364,
      "learning_rate": 0.0005232990828937745,
      "loss": 1.6334,
      "step": 20989
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39027509093284607,
      "learning_rate": 0.0005232921027127781,
      "loss": 1.8082,
      "step": 20990
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38760462403297424,
      "learning_rate": 0.000523285122260738,
      "loss": 1.7062,
      "step": 20991
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.381682813167572,
      "learning_rate": 0.0005232781415376625,
      "loss": 1.6767,
      "step": 20992
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38022249937057495,
      "learning_rate": 0.0005232711605435604,
      "loss": 1.7461,
      "step": 20993
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38319435715675354,
      "learning_rate": 0.0005232641792784399,
      "loss": 1.6064,
      "step": 20994
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39014312624931335,
      "learning_rate": 0.0005232571977423097,
      "loss": 1.7423,
      "step": 20995
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3951352834701538,
      "learning_rate": 0.0005232502159351781,
      "loss": 1.7077,
      "step": 20996
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37143465876579285,
      "learning_rate": 0.0005232432338570536,
      "loss": 1.6472,
      "step": 20997
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3724423050880432,
      "learning_rate": 0.0005232362515079447,
      "loss": 1.6648,
      "step": 20998
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3894751965999603,
      "learning_rate": 0.00052322926888786,
      "loss": 1.6756,
      "step": 20999
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3834097683429718,
      "learning_rate": 0.0005232222859968078,
      "loss": 1.7072,
      "step": 21000
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3790784180164337,
      "learning_rate": 0.0005232153028347966,
      "loss": 1.6156,
      "step": 21001
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3888722062110901,
      "learning_rate": 0.0005232083194018349,
      "loss": 1.6683,
      "step": 21002
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38140591979026794,
      "learning_rate": 0.0005232013356979312,
      "loss": 1.6725,
      "step": 21003
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37955838441848755,
      "learning_rate": 0.000523194351723094,
      "loss": 1.6503,
      "step": 21004
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3831634521484375,
      "learning_rate": 0.0005231873674773317,
      "loss": 1.76,
      "step": 21005
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37879982590675354,
      "learning_rate": 0.0005231803829606528,
      "loss": 1.6917,
      "step": 21006
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37863701581954956,
      "learning_rate": 0.0005231733981730658,
      "loss": 1.6656,
      "step": 21007
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3909001052379608,
      "learning_rate": 0.0005231664131145793,
      "loss": 1.6653,
      "step": 21008
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38940945267677307,
      "learning_rate": 0.0005231594277852015,
      "loss": 1.7091,
      "step": 21009
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3751314878463745,
      "learning_rate": 0.0005231524421849412,
      "loss": 1.6455,
      "step": 21010
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38190409541130066,
      "learning_rate": 0.0005231454563138065,
      "loss": 1.6323,
      "step": 21011
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38169220089912415,
      "learning_rate": 0.0005231384701718063,
      "loss": 1.7094,
      "step": 21012
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3871307969093323,
      "learning_rate": 0.0005231314837589487,
      "loss": 1.6174,
      "step": 21013
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3949835002422333,
      "learning_rate": 0.0005231244970752425,
      "loss": 1.7293,
      "step": 21014
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37157824635505676,
      "learning_rate": 0.000523117510120696,
      "loss": 1.658,
      "step": 21015
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3851017951965332,
      "learning_rate": 0.0005231105228953178,
      "loss": 1.7158,
      "step": 21016
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40244513750076294,
      "learning_rate": 0.0005231035353991161,
      "loss": 1.6227,
      "step": 21017
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3803936839103699,
      "learning_rate": 0.0005230965476320996,
      "loss": 1.7355,
      "step": 21018
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38801994919776917,
      "learning_rate": 0.000523089559594277,
      "loss": 1.7747,
      "step": 21019
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38055574893951416,
      "learning_rate": 0.0005230825712856564,
      "loss": 1.7427,
      "step": 21020
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3751533627510071,
      "learning_rate": 0.0005230755827062463,
      "loss": 1.6761,
      "step": 21021
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37966471910476685,
      "learning_rate": 0.0005230685938560555,
      "loss": 1.6962,
      "step": 21022
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38809674978256226,
      "learning_rate": 0.0005230616047350922,
      "loss": 1.7336,
      "step": 21023
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39441147446632385,
      "learning_rate": 0.000523054615343365,
      "loss": 1.6701,
      "step": 21024
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37500765919685364,
      "learning_rate": 0.0005230476256808824,
      "loss": 1.6058,
      "step": 21025
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38856998085975647,
      "learning_rate": 0.0005230406357476529,
      "loss": 1.7177,
      "step": 21026
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3814374804496765,
      "learning_rate": 0.0005230336455436848,
      "loss": 1.6934,
      "step": 21027
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4420895576477051,
      "learning_rate": 0.0005230266550689867,
      "loss": 1.7773,
      "step": 21028
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3803446590900421,
      "learning_rate": 0.0005230196643235672,
      "loss": 1.6459,
      "step": 21029
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38402193784713745,
      "learning_rate": 0.0005230126733074347,
      "loss": 1.687,
      "step": 21030
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3875753581523895,
      "learning_rate": 0.0005230056820205977,
      "loss": 1.6101,
      "step": 21031
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3821040987968445,
      "learning_rate": 0.0005229986904630644,
      "loss": 1.6884,
      "step": 21032
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4042894244194031,
      "learning_rate": 0.0005229916986348439,
      "loss": 1.7194,
      "step": 21033
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39815661311149597,
      "learning_rate": 0.0005229847065359441,
      "loss": 1.7067,
      "step": 21034
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38817331194877625,
      "learning_rate": 0.0005229777141663738,
      "loss": 1.6892,
      "step": 21035
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3836710453033447,
      "learning_rate": 0.0005229707215261413,
      "loss": 1.7318,
      "step": 21036
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3957023322582245,
      "learning_rate": 0.0005229637286152554,
      "loss": 1.7031,
      "step": 21037
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3909159004688263,
      "learning_rate": 0.0005229567354337242,
      "loss": 1.6353,
      "step": 21038
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37712937593460083,
      "learning_rate": 0.0005229497419815565,
      "loss": 1.6684,
      "step": 21039
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3849349617958069,
      "learning_rate": 0.0005229427482587606,
      "loss": 1.7544,
      "step": 21040
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38861367106437683,
      "learning_rate": 0.0005229357542653451,
      "loss": 1.6832,
      "step": 21041
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3888879418373108,
      "learning_rate": 0.0005229287600013184,
      "loss": 1.722,
      "step": 21042
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39840832352638245,
      "learning_rate": 0.000522921765466689,
      "loss": 1.7134,
      "step": 21043
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4240315556526184,
      "learning_rate": 0.0005229147706614655,
      "loss": 1.6523,
      "step": 21044
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3787965178489685,
      "learning_rate": 0.0005229077755856563,
      "loss": 1.6427,
      "step": 21045
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3881252706050873,
      "learning_rate": 0.0005229007802392699,
      "loss": 1.6864,
      "step": 21046
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3642100989818573,
      "learning_rate": 0.0005228937846223148,
      "loss": 1.6405,
      "step": 21047
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38980886340141296,
      "learning_rate": 0.0005228867887347994,
      "loss": 1.7568,
      "step": 21048
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3866667151451111,
      "learning_rate": 0.0005228797925767324,
      "loss": 1.6504,
      "step": 21049
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37771835923194885,
      "learning_rate": 0.0005228727961481221,
      "loss": 1.7121,
      "step": 21050
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.381093829870224,
      "learning_rate": 0.0005228657994489771,
      "loss": 1.6723,
      "step": 21051
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3881963789463043,
      "learning_rate": 0.0005228588024793058,
      "loss": 1.6927,
      "step": 21052
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37516099214553833,
      "learning_rate": 0.0005228518052391169,
      "loss": 1.7472,
      "step": 21053
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3905748128890991,
      "learning_rate": 0.0005228448077284186,
      "loss": 1.7636,
      "step": 21054
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4061795175075531,
      "learning_rate": 0.0005228378099472196,
      "loss": 1.7204,
      "step": 21055
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38303524255752563,
      "learning_rate": 0.0005228308118955283,
      "loss": 1.5775,
      "step": 21056
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3731146454811096,
      "learning_rate": 0.0005228238135733532,
      "loss": 1.7078,
      "step": 21057
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38402557373046875,
      "learning_rate": 0.0005228168149807028,
      "loss": 1.6906,
      "step": 21058
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3826667368412018,
      "learning_rate": 0.0005228098161175858,
      "loss": 1.7372,
      "step": 21059
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38853827118873596,
      "learning_rate": 0.0005228028169840103,
      "loss": 1.7089,
      "step": 21060
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3936852812767029,
      "learning_rate": 0.0005227958175799851,
      "loss": 1.697,
      "step": 21061
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3691219389438629,
      "learning_rate": 0.0005227888179055186,
      "loss": 1.6302,
      "step": 21062
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37780389189720154,
      "learning_rate": 0.0005227818179606193,
      "loss": 1.6715,
      "step": 21063
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.383344829082489,
      "learning_rate": 0.0005227748177452957,
      "loss": 1.7044,
      "step": 21064
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3704346716403961,
      "learning_rate": 0.0005227678172595563,
      "loss": 1.6029,
      "step": 21065
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38648271560668945,
      "learning_rate": 0.0005227608165034096,
      "loss": 1.7115,
      "step": 21066
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3906540274620056,
      "learning_rate": 0.000522753815476864,
      "loss": 1.6824,
      "step": 21067
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39697906374931335,
      "learning_rate": 0.0005227468141799283,
      "loss": 1.6504,
      "step": 21068
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3981587886810303,
      "learning_rate": 0.0005227398126126106,
      "loss": 1.7934,
      "step": 21069
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37648874521255493,
      "learning_rate": 0.0005227328107749196,
      "loss": 1.7422,
      "step": 21070
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38379132747650146,
      "learning_rate": 0.0005227258086668639,
      "loss": 1.6326,
      "step": 21071
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37451398372650146,
      "learning_rate": 0.0005227188062884518,
      "loss": 1.7046,
      "step": 21072
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39870208501815796,
      "learning_rate": 0.0005227118036396918,
      "loss": 1.7477,
      "step": 21073
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39508795738220215,
      "learning_rate": 0.0005227048007205926,
      "loss": 1.6967,
      "step": 21074
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3736739456653595,
      "learning_rate": 0.0005226977975311627,
      "loss": 1.6501,
      "step": 21075
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3762809634208679,
      "learning_rate": 0.0005226907940714103,
      "loss": 1.697,
      "step": 21076
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3783731162548065,
      "learning_rate": 0.0005226837903413442,
      "loss": 1.7227,
      "step": 21077
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5261409878730774,
      "learning_rate": 0.0005226767863409727,
      "loss": 1.7088,
      "step": 21078
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3871959447860718,
      "learning_rate": 0.0005226697820703044,
      "loss": 1.6906,
      "step": 21079
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38796281814575195,
      "learning_rate": 0.0005226627775293479,
      "loss": 1.7365,
      "step": 21080
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3845769762992859,
      "learning_rate": 0.0005226557727181115,
      "loss": 1.79,
      "step": 21081
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3861524164676666,
      "learning_rate": 0.0005226487676366037,
      "loss": 1.6342,
      "step": 21082
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3879568874835968,
      "learning_rate": 0.0005226417622848333,
      "loss": 1.6691,
      "step": 21083
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3742327094078064,
      "learning_rate": 0.0005226347566628085,
      "loss": 1.6996,
      "step": 21084
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.398267924785614,
      "learning_rate": 0.000522627750770538,
      "loss": 1.6872,
      "step": 21085
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3762699067592621,
      "learning_rate": 0.0005226207446080301,
      "loss": 1.6917,
      "step": 21086
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3845122158527374,
      "learning_rate": 0.0005226137381752935,
      "loss": 1.7083,
      "step": 21087
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3901776671409607,
      "learning_rate": 0.0005226067314723366,
      "loss": 1.6875,
      "step": 21088
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37183794379234314,
      "learning_rate": 0.0005225997244991678,
      "loss": 1.6785,
      "step": 21089
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3868848979473114,
      "learning_rate": 0.0005225927172557959,
      "loss": 1.7374,
      "step": 21090
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39023417234420776,
      "learning_rate": 0.0005225857097422292,
      "loss": 1.635,
      "step": 21091
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37458014488220215,
      "learning_rate": 0.0005225787019584763,
      "loss": 1.6315,
      "step": 21092
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3859900236129761,
      "learning_rate": 0.0005225716939045455,
      "loss": 1.735,
      "step": 21093
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37995073199272156,
      "learning_rate": 0.0005225646855804455,
      "loss": 1.7307,
      "step": 21094
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3890475332736969,
      "learning_rate": 0.0005225576769861848,
      "loss": 1.652,
      "step": 21095
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3946191370487213,
      "learning_rate": 0.000522550668121772,
      "loss": 1.6856,
      "step": 21096
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38585329055786133,
      "learning_rate": 0.0005225436589872153,
      "loss": 1.634,
      "step": 21097
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38770002126693726,
      "learning_rate": 0.0005225366495825234,
      "loss": 1.6246,
      "step": 21098
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39034292101860046,
      "learning_rate": 0.0005225296399077048,
      "loss": 1.6531,
      "step": 21099
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4086240530014038,
      "learning_rate": 0.000522522629962768,
      "loss": 1.6681,
      "step": 21100
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5435121059417725,
      "learning_rate": 0.0005225156197477217,
      "loss": 1.7387,
      "step": 21101
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37004774808883667,
      "learning_rate": 0.000522508609262574,
      "loss": 1.6477,
      "step": 21102
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3794437646865845,
      "learning_rate": 0.0005225015985073338,
      "loss": 1.7156,
      "step": 21103
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38476383686065674,
      "learning_rate": 0.0005224945874820094,
      "loss": 1.6898,
      "step": 21104
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38919973373413086,
      "learning_rate": 0.0005224875761866092,
      "loss": 1.6891,
      "step": 21105
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.399412602186203,
      "learning_rate": 0.000522480564621142,
      "loss": 1.6734,
      "step": 21106
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37946292757987976,
      "learning_rate": 0.0005224735527856162,
      "loss": 1.6226,
      "step": 21107
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3897459805011749,
      "learning_rate": 0.0005224665406800402,
      "loss": 1.7382,
      "step": 21108
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39341211318969727,
      "learning_rate": 0.0005224595283044227,
      "loss": 1.6677,
      "step": 21109
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4103487432003021,
      "learning_rate": 0.000522452515658772,
      "loss": 1.7138,
      "step": 21110
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3934638500213623,
      "learning_rate": 0.0005224455027430968,
      "loss": 1.6759,
      "step": 21111
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38455936312675476,
      "learning_rate": 0.0005224384895574055,
      "loss": 1.7205,
      "step": 21112
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3855069875717163,
      "learning_rate": 0.0005224314761017066,
      "loss": 1.6943,
      "step": 21113
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3887762427330017,
      "learning_rate": 0.0005224244623760087,
      "loss": 1.6763,
      "step": 21114
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3842843770980835,
      "learning_rate": 0.0005224174483803202,
      "loss": 1.6074,
      "step": 21115
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39051809906959534,
      "learning_rate": 0.0005224104341146499,
      "loss": 1.696,
      "step": 21116
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3828628957271576,
      "learning_rate": 0.000522403419579006,
      "loss": 1.7272,
      "step": 21117
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39023885130882263,
      "learning_rate": 0.0005223964047733972,
      "loss": 1.6815,
      "step": 21118
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38861504197120667,
      "learning_rate": 0.0005223893896978318,
      "loss": 1.627,
      "step": 21119
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4148273169994354,
      "learning_rate": 0.0005223823743523185,
      "loss": 1.6779,
      "step": 21120
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.42756572365760803,
      "learning_rate": 0.0005223753587368658,
      "loss": 1.7861,
      "step": 21121
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3966490626335144,
      "learning_rate": 0.0005223683428514821,
      "loss": 1.7117,
      "step": 21122
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3756352961063385,
      "learning_rate": 0.0005223613266961759,
      "loss": 1.6952,
      "step": 21123
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39120858907699585,
      "learning_rate": 0.0005223543102709561,
      "loss": 1.7908,
      "step": 21124
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3845917880535126,
      "learning_rate": 0.0005223472935758307,
      "loss": 1.6887,
      "step": 21125
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.42157694697380066,
      "learning_rate": 0.0005223402766108085,
      "loss": 1.7372,
      "step": 21126
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3831319510936737,
      "learning_rate": 0.0005223332593758981,
      "loss": 1.7786,
      "step": 21127
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3887748122215271,
      "learning_rate": 0.0005223262418711077,
      "loss": 1.6953,
      "step": 21128
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40641406178474426,
      "learning_rate": 0.0005223192240964461,
      "loss": 1.7349,
      "step": 21129
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4010776877403259,
      "learning_rate": 0.0005223122060519215,
      "loss": 1.7163,
      "step": 21130
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3949976861476898,
      "learning_rate": 0.0005223051877375429,
      "loss": 1.696,
      "step": 21131
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3760160803794861,
      "learning_rate": 0.0005222981691533186,
      "loss": 1.7368,
      "step": 21132
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38563641905784607,
      "learning_rate": 0.0005222911502992568,
      "loss": 1.7863,
      "step": 21133
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39837145805358887,
      "learning_rate": 0.0005222841311753665,
      "loss": 1.6918,
      "step": 21134
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39103034138679504,
      "learning_rate": 0.000522277111781656,
      "loss": 1.7041,
      "step": 21135
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3974367082118988,
      "learning_rate": 0.0005222700921181338,
      "loss": 1.7626,
      "step": 21136
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37988343834877014,
      "learning_rate": 0.0005222630721848084,
      "loss": 1.6281,
      "step": 21137
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3672526776790619,
      "learning_rate": 0.0005222560519816885,
      "loss": 1.7162,
      "step": 21138
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37997642159461975,
      "learning_rate": 0.0005222490315087825,
      "loss": 1.6723,
      "step": 21139
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39371246099472046,
      "learning_rate": 0.0005222420107660989,
      "loss": 1.672,
      "step": 21140
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.36987537145614624,
      "learning_rate": 0.0005222349897536461,
      "loss": 1.6919,
      "step": 21141
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3943559527397156,
      "learning_rate": 0.0005222279684714329,
      "loss": 1.6767,
      "step": 21142
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37360599637031555,
      "learning_rate": 0.0005222209469194676,
      "loss": 1.6199,
      "step": 21143
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39297986030578613,
      "learning_rate": 0.0005222139250977589,
      "loss": 1.7391,
      "step": 21144
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39262545108795166,
      "learning_rate": 0.0005222069030063152,
      "loss": 1.7604,
      "step": 21145
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3863510489463806,
      "learning_rate": 0.0005221998806451452,
      "loss": 1.7201,
      "step": 21146
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38974729180336,
      "learning_rate": 0.0005221928580142571,
      "loss": 1.718,
      "step": 21147
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3723759353160858,
      "learning_rate": 0.0005221858351136597,
      "loss": 1.7323,
      "step": 21148
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3862272799015045,
      "learning_rate": 0.0005221788119433614,
      "loss": 1.7031,
      "step": 21149
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.392119437456131,
      "learning_rate": 0.0005221717885033708,
      "loss": 1.7215,
      "step": 21150
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3731305003166199,
      "learning_rate": 0.0005221647647936962,
      "loss": 1.7106,
      "step": 21151
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.36539170145988464,
      "learning_rate": 0.0005221577408143466,
      "loss": 1.6512,
      "step": 21152
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38557618856430054,
      "learning_rate": 0.0005221507165653301,
      "loss": 1.6897,
      "step": 21153
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3848520815372467,
      "learning_rate": 0.0005221436920466553,
      "loss": 1.6364,
      "step": 21154
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3759254813194275,
      "learning_rate": 0.0005221366672583308,
      "loss": 1.7094,
      "step": 21155
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.371094286441803,
      "learning_rate": 0.0005221296422003652,
      "loss": 1.6867,
      "step": 21156
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3805319368839264,
      "learning_rate": 0.0005221226168727669,
      "loss": 1.7962,
      "step": 21157
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4024648666381836,
      "learning_rate": 0.0005221155912755444,
      "loss": 1.7312,
      "step": 21158
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40304282307624817,
      "learning_rate": 0.0005221085654087065,
      "loss": 1.6732,
      "step": 21159
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3815435469150543,
      "learning_rate": 0.0005221015392722614,
      "loss": 1.6501,
      "step": 21160
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3939199447631836,
      "learning_rate": 0.0005220945128662178,
      "loss": 1.73,
      "step": 21161
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3816138505935669,
      "learning_rate": 0.0005220874861905841,
      "loss": 1.7833,
      "step": 21162
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39233237504959106,
      "learning_rate": 0.0005220804592453689,
      "loss": 1.6946,
      "step": 21163
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39795032143592834,
      "learning_rate": 0.0005220734320305809,
      "loss": 1.7475,
      "step": 21164
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3969573676586151,
      "learning_rate": 0.0005220664045462284,
      "loss": 1.7585,
      "step": 21165
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38360241055488586,
      "learning_rate": 0.00052205937679232,
      "loss": 1.6663,
      "step": 21166
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4471718370914459,
      "learning_rate": 0.0005220523487688641,
      "loss": 1.7174,
      "step": 21167
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3837505578994751,
      "learning_rate": 0.0005220453204758695,
      "loss": 1.6661,
      "step": 21168
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3860335052013397,
      "learning_rate": 0.0005220382919133447,
      "loss": 1.7516,
      "step": 21169
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3879224359989166,
      "learning_rate": 0.0005220312630812979,
      "loss": 1.7539,
      "step": 21170
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39065319299697876,
      "learning_rate": 0.000522024233979738,
      "loss": 1.6724,
      "step": 21171
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.40463173389434814,
      "learning_rate": 0.0005220172046086735,
      "loss": 1.7231,
      "step": 21172
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38545602560043335,
      "learning_rate": 0.0005220101749681126,
      "loss": 1.6936,
      "step": 21173
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38002684712409973,
      "learning_rate": 0.0005220031450580641,
      "loss": 1.6928,
      "step": 21174
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37707531452178955,
      "learning_rate": 0.0005219961148785366,
      "loss": 1.6599,
      "step": 21175
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39816224575042725,
      "learning_rate": 0.0005219890844295385,
      "loss": 1.7591,
      "step": 21176
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3948405385017395,
      "learning_rate": 0.0005219820537110783,
      "loss": 1.7192,
      "step": 21177
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39531391859054565,
      "learning_rate": 0.0005219750227231646,
      "loss": 1.6853,
      "step": 21178
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38034048676490784,
      "learning_rate": 0.0005219679914658061,
      "loss": 1.7237,
      "step": 21179
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38401734828948975,
      "learning_rate": 0.000521960959939011,
      "loss": 1.7085,
      "step": 21180
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3918117880821228,
      "learning_rate": 0.0005219539281427879,
      "loss": 1.6262,
      "step": 21181
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39376890659332275,
      "learning_rate": 0.0005219468960771457,
      "loss": 1.7183,
      "step": 21182
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4009133577346802,
      "learning_rate": 0.0005219398637420924,
      "loss": 1.75,
      "step": 21183
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3983122408390045,
      "learning_rate": 0.0005219328311376369,
      "loss": 1.7262,
      "step": 21184
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38376978039741516,
      "learning_rate": 0.0005219257982637878,
      "loss": 1.7634,
      "step": 21185
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.391653448343277,
      "learning_rate": 0.0005219187651205533,
      "loss": 1.7488,
      "step": 21186
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.37129804491996765,
      "learning_rate": 0.0005219117317079422,
      "loss": 1.6526,
      "step": 21187
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3991149365901947,
      "learning_rate": 0.000521904698025963,
      "loss": 1.724,
      "step": 21188
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3820732831954956,
      "learning_rate": 0.0005218976640746241,
      "loss": 1.6206,
      "step": 21189
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3891487717628479,
      "learning_rate": 0.000521890629853934,
      "loss": 1.7466,
      "step": 21190
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3954123556613922,
      "learning_rate": 0.0005218835953639015,
      "loss": 1.6884,
      "step": 21191
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38922879099845886,
      "learning_rate": 0.0005218765606045351,
      "loss": 1.7128,
      "step": 21192
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36919713020324707,
      "learning_rate": 0.0005218695255758432,
      "loss": 1.7077,
      "step": 21193
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40112072229385376,
      "learning_rate": 0.0005218624902778344,
      "loss": 1.6823,
      "step": 21194
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4036611020565033,
      "learning_rate": 0.0005218554547105172,
      "loss": 1.6629,
      "step": 21195
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3877774477005005,
      "learning_rate": 0.0005218484188739001,
      "loss": 1.7193,
      "step": 21196
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38443833589553833,
      "learning_rate": 0.0005218413827679918,
      "loss": 1.6857,
      "step": 21197
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3989432454109192,
      "learning_rate": 0.0005218343463928007,
      "loss": 1.7161,
      "step": 21198
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3743557035923004,
      "learning_rate": 0.0005218273097483354,
      "loss": 1.6892,
      "step": 21199
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39799243211746216,
      "learning_rate": 0.0005218202728346044,
      "loss": 1.7173,
      "step": 21200
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.385743111371994,
      "learning_rate": 0.0005218132356516164,
      "loss": 1.7049,
      "step": 21201
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3868412375450134,
      "learning_rate": 0.0005218061981993796,
      "loss": 1.6759,
      "step": 21202
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37901633977890015,
      "learning_rate": 0.000521799160477903,
      "loss": 1.7849,
      "step": 21203
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3741772174835205,
      "learning_rate": 0.0005217921224871947,
      "loss": 1.6776,
      "step": 21204
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3689795136451721,
      "learning_rate": 0.0005217850842272635,
      "loss": 1.6678,
      "step": 21205
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36261501908302307,
      "learning_rate": 0.0005217780456981179,
      "loss": 1.6248,
      "step": 21206
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.381727010011673,
      "learning_rate": 0.0005217710068997664,
      "loss": 1.6365,
      "step": 21207
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3776668310165405,
      "learning_rate": 0.0005217639678322176,
      "loss": 1.6408,
      "step": 21208
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3866220712661743,
      "learning_rate": 0.0005217569284954801,
      "loss": 1.6849,
      "step": 21209
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38403773307800293,
      "learning_rate": 0.0005217498888895623,
      "loss": 1.734,
      "step": 21210
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37280556559562683,
      "learning_rate": 0.0005217428490144728,
      "loss": 1.6419,
      "step": 21211
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37774768471717834,
      "learning_rate": 0.0005217358088702201,
      "loss": 1.6827,
      "step": 21212
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3899266719818115,
      "learning_rate": 0.000521728768456813,
      "loss": 1.7113,
      "step": 21213
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38906949758529663,
      "learning_rate": 0.0005217217277742595,
      "loss": 1.7144,
      "step": 21214
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37999919056892395,
      "learning_rate": 0.0005217146868225688,
      "loss": 1.6363,
      "step": 21215
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38359391689300537,
      "learning_rate": 0.000521707645601749,
      "loss": 1.7267,
      "step": 21216
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.382305383682251,
      "learning_rate": 0.0005217006041118088,
      "loss": 1.6685,
      "step": 21217
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3805452585220337,
      "learning_rate": 0.0005216935623527567,
      "loss": 1.7231,
      "step": 21218
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36686381697654724,
      "learning_rate": 0.0005216865203246014,
      "loss": 1.74,
      "step": 21219
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39301005005836487,
      "learning_rate": 0.0005216794780273513,
      "loss": 1.6442,
      "step": 21220
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3805460035800934,
      "learning_rate": 0.0005216724354610148,
      "loss": 1.6949,
      "step": 21221
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3798086941242218,
      "learning_rate": 0.0005216653926256008,
      "loss": 1.6936,
      "step": 21222
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37957489490509033,
      "learning_rate": 0.0005216583495211177,
      "loss": 1.6913,
      "step": 21223
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.42396101355552673,
      "learning_rate": 0.0005216513061475739,
      "loss": 1.6845,
      "step": 21224
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3919278681278229,
      "learning_rate": 0.0005216442625049781,
      "loss": 1.7373,
      "step": 21225
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40947774052619934,
      "learning_rate": 0.0005216372185933389,
      "loss": 1.658,
      "step": 21226
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39063769578933716,
      "learning_rate": 0.0005216301744126647,
      "loss": 1.6258,
      "step": 21227
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.389564573764801,
      "learning_rate": 0.0005216231299629642,
      "loss": 1.67,
      "step": 21228
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3964170813560486,
      "learning_rate": 0.0005216160852442458,
      "loss": 1.6558,
      "step": 21229
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3724997043609619,
      "learning_rate": 0.0005216090402565181,
      "loss": 1.6447,
      "step": 21230
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39236369729042053,
      "learning_rate": 0.0005216019949997897,
      "loss": 1.7498,
      "step": 21231
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3875941336154938,
      "learning_rate": 0.0005215949494740693,
      "loss": 1.6935,
      "step": 21232
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3822445273399353,
      "learning_rate": 0.0005215879036793651,
      "loss": 1.6258,
      "step": 21233
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37018752098083496,
      "learning_rate": 0.0005215808576156858,
      "loss": 1.666,
      "step": 21234
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39971038699150085,
      "learning_rate": 0.0005215738112830401,
      "loss": 1.7519,
      "step": 21235
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38377049565315247,
      "learning_rate": 0.0005215667646814364,
      "loss": 1.7091,
      "step": 21236
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38532572984695435,
      "learning_rate": 0.0005215597178108833,
      "loss": 1.7667,
      "step": 21237
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39242762327194214,
      "learning_rate": 0.0005215526706713894,
      "loss": 1.7574,
      "step": 21238
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3952796459197998,
      "learning_rate": 0.000521545623262963,
      "loss": 1.7192,
      "step": 21239
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38843870162963867,
      "learning_rate": 0.0005215385755856131,
      "loss": 1.6071,
      "step": 21240
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3831034302711487,
      "learning_rate": 0.0005215315276393479,
      "loss": 1.7148,
      "step": 21241
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38148850202560425,
      "learning_rate": 0.000521524479424176,
      "loss": 1.6979,
      "step": 21242
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38856765627861023,
      "learning_rate": 0.0005215174309401062,
      "loss": 1.635,
      "step": 21243
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3797248303890228,
      "learning_rate": 0.0005215103821871467,
      "loss": 1.6664,
      "step": 21244
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3778524696826935,
      "learning_rate": 0.0005215033331653064,
      "loss": 1.7108,
      "step": 21245
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3755050599575043,
      "learning_rate": 0.0005214962838745935,
      "loss": 1.724,
      "step": 21246
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3888566493988037,
      "learning_rate": 0.0005214892343150168,
      "loss": 1.7233,
      "step": 21247
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38748109340667725,
      "learning_rate": 0.000521482184486585,
      "loss": 1.7086,
      "step": 21248
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37266314029693604,
      "learning_rate": 0.0005214751343893063,
      "loss": 1.6341,
      "step": 21249
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3863697052001953,
      "learning_rate": 0.0005214680840231894,
      "loss": 1.6744,
      "step": 21250
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36029052734375,
      "learning_rate": 0.0005214610333882429,
      "loss": 1.6363,
      "step": 21251
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3766908049583435,
      "learning_rate": 0.0005214539824844755,
      "loss": 1.6854,
      "step": 21252
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3804118037223816,
      "learning_rate": 0.0005214469313118953,
      "loss": 1.7085,
      "step": 21253
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3906795382499695,
      "learning_rate": 0.0005214398798705114,
      "loss": 1.7062,
      "step": 21254
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3712286651134491,
      "learning_rate": 0.0005214328281603319,
      "loss": 1.6384,
      "step": 21255
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3926476240158081,
      "learning_rate": 0.0005214257761813657,
      "loss": 1.829,
      "step": 21256
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37849190831184387,
      "learning_rate": 0.0005214187239336212,
      "loss": 1.7005,
      "step": 21257
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39261341094970703,
      "learning_rate": 0.0005214116714171071,
      "loss": 1.6877,
      "step": 21258
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3843854069709778,
      "learning_rate": 0.0005214046186318317,
      "loss": 1.7228,
      "step": 21259
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3845154643058777,
      "learning_rate": 0.0005213975655778038,
      "loss": 1.6852,
      "step": 21260
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3880590498447418,
      "learning_rate": 0.0005213905122550318,
      "loss": 1.7068,
      "step": 21261
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37855198979377747,
      "learning_rate": 0.0005213834586635244,
      "loss": 1.7102,
      "step": 21262
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37890538573265076,
      "learning_rate": 0.0005213764048032901,
      "loss": 1.6733,
      "step": 21263
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36514219641685486,
      "learning_rate": 0.0005213693506743375,
      "loss": 1.5917,
      "step": 21264
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37080296874046326,
      "learning_rate": 0.0005213622962766751,
      "loss": 1.6618,
      "step": 21265
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38547518849372864,
      "learning_rate": 0.0005213552416103114,
      "loss": 1.6572,
      "step": 21266
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3834308385848999,
      "learning_rate": 0.0005213481866752552,
      "loss": 1.7377,
      "step": 21267
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4449208974838257,
      "learning_rate": 0.0005213411314715148,
      "loss": 1.6873,
      "step": 21268
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3757433295249939,
      "learning_rate": 0.000521334075999099,
      "loss": 1.6582,
      "step": 21269
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3862270414829254,
      "learning_rate": 0.0005213270202580161,
      "loss": 1.7477,
      "step": 21270
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37877246737480164,
      "learning_rate": 0.0005213199642482749,
      "loss": 1.7084,
      "step": 21271
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3757452964782715,
      "learning_rate": 0.0005213129079698839,
      "loss": 1.6438,
      "step": 21272
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40137985348701477,
      "learning_rate": 0.0005213058514228515,
      "loss": 1.6225,
      "step": 21273
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38562247157096863,
      "learning_rate": 0.0005212987946071865,
      "loss": 1.6477,
      "step": 21274
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38255783915519714,
      "learning_rate": 0.0005212917375228974,
      "loss": 1.6874,
      "step": 21275
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38814011216163635,
      "learning_rate": 0.0005212846801699927,
      "loss": 1.7086,
      "step": 21276
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37939417362213135,
      "learning_rate": 0.000521277622548481,
      "loss": 1.6649,
      "step": 21277
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36915192008018494,
      "learning_rate": 0.0005212705646583708,
      "loss": 1.6892,
      "step": 21278
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36968815326690674,
      "learning_rate": 0.0005212635064996709,
      "loss": 1.6816,
      "step": 21279
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38694751262664795,
      "learning_rate": 0.0005212564480723895,
      "loss": 1.7371,
      "step": 21280
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3781265616416931,
      "learning_rate": 0.0005212493893765356,
      "loss": 1.6747,
      "step": 21281
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37919479608535767,
      "learning_rate": 0.0005212423304121174,
      "loss": 1.624,
      "step": 21282
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39367783069610596,
      "learning_rate": 0.0005212352711791436,
      "loss": 1.7266,
      "step": 21283
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3712993264198303,
      "learning_rate": 0.0005212282116776229,
      "loss": 1.6557,
      "step": 21284
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39081019163131714,
      "learning_rate": 0.0005212211519075636,
      "loss": 1.6915,
      "step": 21285
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3881220817565918,
      "learning_rate": 0.0005212140918689745,
      "loss": 1.6621,
      "step": 21286
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4036889374256134,
      "learning_rate": 0.000521207031561864,
      "loss": 1.7822,
      "step": 21287
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39089855551719666,
      "learning_rate": 0.0005211999709862408,
      "loss": 1.7382,
      "step": 21288
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3937128782272339,
      "learning_rate": 0.0005211929101421136,
      "loss": 1.6868,
      "step": 21289
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4067504107952118,
      "learning_rate": 0.0005211858490294906,
      "loss": 1.7208,
      "step": 21290
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3870234489440918,
      "learning_rate": 0.0005211787876483806,
      "loss": 1.7102,
      "step": 21291
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3757879137992859,
      "learning_rate": 0.0005211717259987922,
      "loss": 1.7045,
      "step": 21292
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37313613295555115,
      "learning_rate": 0.0005211646640807337,
      "loss": 1.6502,
      "step": 21293
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39948612451553345,
      "learning_rate": 0.0005211576018942141,
      "loss": 1.735,
      "step": 21294
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39161011576652527,
      "learning_rate": 0.0005211505394392417,
      "loss": 1.641,
      "step": 21295
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38484618067741394,
      "learning_rate": 0.0005211434767158252,
      "loss": 1.6891,
      "step": 21296
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3915368616580963,
      "learning_rate": 0.000521136413723973,
      "loss": 1.7231,
      "step": 21297
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3954533040523529,
      "learning_rate": 0.0005211293504636938,
      "loss": 1.7258,
      "step": 21298
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3801453709602356,
      "learning_rate": 0.0005211222869349963,
      "loss": 1.7535,
      "step": 21299
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3848385810852051,
      "learning_rate": 0.0005211152231378888,
      "loss": 1.6925,
      "step": 21300
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39002755284309387,
      "learning_rate": 0.00052110815907238,
      "loss": 1.698,
      "step": 21301
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3797188401222229,
      "learning_rate": 0.0005211010947384784,
      "loss": 1.6521,
      "step": 21302
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3845573365688324,
      "learning_rate": 0.0005210940301361926,
      "loss": 1.6986,
      "step": 21303
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3871091604232788,
      "learning_rate": 0.0005210869652655315,
      "loss": 1.6996,
      "step": 21304
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37642616033554077,
      "learning_rate": 0.0005210799001265032,
      "loss": 1.766,
      "step": 21305
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40480709075927734,
      "learning_rate": 0.0005210728347191166,
      "loss": 1.6279,
      "step": 21306
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3935762047767639,
      "learning_rate": 0.00052106576904338,
      "loss": 1.6444,
      "step": 21307
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40164363384246826,
      "learning_rate": 0.0005210587030993022,
      "loss": 1.7447,
      "step": 21308
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3829592168331146,
      "learning_rate": 0.0005210516368868917,
      "loss": 1.6772,
      "step": 21309
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3886048495769501,
      "learning_rate": 0.0005210445704061571,
      "loss": 1.6863,
      "step": 21310
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3844488561153412,
      "learning_rate": 0.0005210375036571069,
      "loss": 1.6777,
      "step": 21311
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3869956135749817,
      "learning_rate": 0.0005210304366397499,
      "loss": 1.7173,
      "step": 21312
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3943571448326111,
      "learning_rate": 0.0005210233693540944,
      "loss": 1.7429,
      "step": 21313
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3902572989463806,
      "learning_rate": 0.0005210163018001491,
      "loss": 1.6928,
      "step": 21314
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39515018463134766,
      "learning_rate": 0.0005210092339779226,
      "loss": 1.6699,
      "step": 21315
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37458619475364685,
      "learning_rate": 0.0005210021658874234,
      "loss": 1.6973,
      "step": 21316
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4083571135997772,
      "learning_rate": 0.0005209950975286601,
      "loss": 1.6967,
      "step": 21317
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4113001823425293,
      "learning_rate": 0.0005209880289016414,
      "loss": 1.6997,
      "step": 21318
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3956775367259979,
      "learning_rate": 0.0005209809600063757,
      "loss": 1.7072,
      "step": 21319
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3928966522216797,
      "learning_rate": 0.0005209738908428718,
      "loss": 1.644,
      "step": 21320
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3948930501937866,
      "learning_rate": 0.0005209668214111381,
      "loss": 1.7054,
      "step": 21321
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39363381266593933,
      "learning_rate": 0.0005209597517111833,
      "loss": 1.6646,
      "step": 21322
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38775983452796936,
      "learning_rate": 0.0005209526817430159,
      "loss": 1.6704,
      "step": 21323
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38399365544319153,
      "learning_rate": 0.0005209456115066445,
      "loss": 1.6704,
      "step": 21324
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4086720943450928,
      "learning_rate": 0.0005209385410020775,
      "loss": 1.7104,
      "step": 21325
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3959869146347046,
      "learning_rate": 0.0005209314702293238,
      "loss": 1.7429,
      "step": 21326
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3762640357017517,
      "learning_rate": 0.0005209243991883918,
      "loss": 1.743,
      "step": 21327
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5615241527557373,
      "learning_rate": 0.0005209173278792902,
      "loss": 1.7826,
      "step": 21328
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39125189185142517,
      "learning_rate": 0.0005209102563020275,
      "loss": 1.709,
      "step": 21329
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38266366720199585,
      "learning_rate": 0.0005209031844566124,
      "loss": 1.6769,
      "step": 21330
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40280279517173767,
      "learning_rate": 0.0005208961123430532,
      "loss": 1.7377,
      "step": 21331
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3959231972694397,
      "learning_rate": 0.0005208890399613587,
      "loss": 1.6686,
      "step": 21332
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38688671588897705,
      "learning_rate": 0.0005208819673115376,
      "loss": 1.6619,
      "step": 21333
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39898964762687683,
      "learning_rate": 0.0005208748943935982,
      "loss": 1.802,
      "step": 21334
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40368229150772095,
      "learning_rate": 0.0005208678212075492,
      "loss": 1.7204,
      "step": 21335
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3864571750164032,
      "learning_rate": 0.0005208607477533993,
      "loss": 1.6444,
      "step": 21336
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3991101384162903,
      "learning_rate": 0.000520853674031157,
      "loss": 1.6912,
      "step": 21337
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40108057856559753,
      "learning_rate": 0.0005208466000408308,
      "loss": 1.7493,
      "step": 21338
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3762698471546173,
      "learning_rate": 0.0005208395257824295,
      "loss": 1.7466,
      "step": 21339
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.42021340131759644,
      "learning_rate": 0.0005208324512559615,
      "loss": 1.6849,
      "step": 21340
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39459124207496643,
      "learning_rate": 0.0005208253764614353,
      "loss": 1.7585,
      "step": 21341
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3763049840927124,
      "learning_rate": 0.0005208183013988597,
      "loss": 1.7342,
      "step": 21342
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3838667869567871,
      "learning_rate": 0.0005208112260682433,
      "loss": 1.7039,
      "step": 21343
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36780065298080444,
      "learning_rate": 0.0005208041504695946,
      "loss": 1.6673,
      "step": 21344
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3823939263820648,
      "learning_rate": 0.0005207970746029221,
      "loss": 1.6446,
      "step": 21345
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3896593451499939,
      "learning_rate": 0.0005207899984682345,
      "loss": 1.7608,
      "step": 21346
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3799005150794983,
      "learning_rate": 0.0005207829220655405,
      "loss": 1.6655,
      "step": 21347
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38009628653526306,
      "learning_rate": 0.0005207758453948484,
      "loss": 1.7,
      "step": 21348
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37977132201194763,
      "learning_rate": 0.0005207687684561671,
      "loss": 1.6019,
      "step": 21349
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38937288522720337,
      "learning_rate": 0.000520761691249505,
      "loss": 1.7233,
      "step": 21350
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3744663596153259,
      "learning_rate": 0.0005207546137748707,
      "loss": 1.6647,
      "step": 21351
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39783045649528503,
      "learning_rate": 0.0005207475360322728,
      "loss": 1.7289,
      "step": 21352
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3912060558795929,
      "learning_rate": 0.00052074045802172,
      "loss": 1.7954,
      "step": 21353
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3788607120513916,
      "learning_rate": 0.0005207333797432207,
      "loss": 1.6178,
      "step": 21354
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38047635555267334,
      "learning_rate": 0.0005207263011967837,
      "loss": 1.6834,
      "step": 21355
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37497466802597046,
      "learning_rate": 0.0005207192223824174,
      "loss": 1.7083,
      "step": 21356
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3854930102825165,
      "learning_rate": 0.0005207121433001305,
      "loss": 1.6181,
      "step": 21357
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3902120590209961,
      "learning_rate": 0.0005207050639499317,
      "loss": 1.7625,
      "step": 21358
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37827709317207336,
      "learning_rate": 0.0005206979843318293,
      "loss": 1.6271,
      "step": 21359
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.42159122228622437,
      "learning_rate": 0.0005206909044458323,
      "loss": 1.745,
      "step": 21360
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3813972771167755,
      "learning_rate": 0.0005206838242919489,
      "loss": 1.6661,
      "step": 21361
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3847213685512543,
      "learning_rate": 0.0005206767438701879,
      "loss": 1.8015,
      "step": 21362
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3761853277683258,
      "learning_rate": 0.0005206696631805577,
      "loss": 1.6632,
      "step": 21363
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.41790473461151123,
      "learning_rate": 0.0005206625822230673,
      "loss": 1.6648,
      "step": 21364
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39472678303718567,
      "learning_rate": 0.0005206555009977248,
      "loss": 1.651,
      "step": 21365
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3822408616542816,
      "learning_rate": 0.0005206484195045391,
      "loss": 1.684,
      "step": 21366
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40000489354133606,
      "learning_rate": 0.0005206413377435188,
      "loss": 1.6745,
      "step": 21367
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3775724470615387,
      "learning_rate": 0.0005206342557146724,
      "loss": 1.6205,
      "step": 21368
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3956250548362732,
      "learning_rate": 0.0005206271734180085,
      "loss": 1.7166,
      "step": 21369
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38830530643463135,
      "learning_rate": 0.0005206200908535358,
      "loss": 1.709,
      "step": 21370
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40534862875938416,
      "learning_rate": 0.0005206130080212628,
      "loss": 1.7785,
      "step": 21371
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38882574439048767,
      "learning_rate": 0.000520605924921198,
      "loss": 1.7523,
      "step": 21372
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38609451055526733,
      "learning_rate": 0.0005205988415533501,
      "loss": 1.7012,
      "step": 21373
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37614232301712036,
      "learning_rate": 0.0005205917579177278,
      "loss": 1.6818,
      "step": 21374
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38018232583999634,
      "learning_rate": 0.0005205846740143396,
      "loss": 1.6911,
      "step": 21375
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3918335437774658,
      "learning_rate": 0.0005205775898431941,
      "loss": 1.659,
      "step": 21376
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3845449686050415,
      "learning_rate": 0.0005205705054042998,
      "loss": 1.7279,
      "step": 21377
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3715756833553314,
      "learning_rate": 0.0005205634206976655,
      "loss": 1.6561,
      "step": 21378
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38475966453552246,
      "learning_rate": 0.0005205563357232999,
      "loss": 1.6995,
      "step": 21379
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37449294328689575,
      "learning_rate": 0.0005205492504812111,
      "loss": 1.6328,
      "step": 21380
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3922305405139923,
      "learning_rate": 0.0005205421649714082,
      "loss": 1.7203,
      "step": 21381
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40474486351013184,
      "learning_rate": 0.0005205350791938995,
      "loss": 1.6995,
      "step": 21382
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3898628354072571,
      "learning_rate": 0.0005205279931486938,
      "loss": 1.718,
      "step": 21383
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39311859011650085,
      "learning_rate": 0.0005205209068357995,
      "loss": 1.6136,
      "step": 21384
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3853684961795807,
      "learning_rate": 0.0005205138202552253,
      "loss": 1.6518,
      "step": 21385
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3852747082710266,
      "learning_rate": 0.00052050673340698,
      "loss": 1.6702,
      "step": 21386
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38189852237701416,
      "learning_rate": 0.0005204996462910719,
      "loss": 1.6367,
      "step": 21387
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3812538683414459,
      "learning_rate": 0.0005204925589075096,
      "loss": 1.7162,
      "step": 21388
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3997783660888672,
      "learning_rate": 0.0005204854712563019,
      "loss": 1.6401,
      "step": 21389
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.566376805305481,
      "learning_rate": 0.0005204783833374574,
      "loss": 1.6956,
      "step": 21390
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5054925084114075,
      "learning_rate": 0.0005204712951509846,
      "loss": 1.728,
      "step": 21391
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4098636507987976,
      "learning_rate": 0.0005204642066968921,
      "loss": 1.7039,
      "step": 21392
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3824971914291382,
      "learning_rate": 0.0005204571179751886,
      "loss": 1.7278,
      "step": 21393
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3806023597717285,
      "learning_rate": 0.0005204500289858826,
      "loss": 1.6681,
      "step": 21394
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3873920440673828,
      "learning_rate": 0.0005204429397289826,
      "loss": 1.6359,
      "step": 21395
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3970532715320587,
      "learning_rate": 0.0005204358502044976,
      "loss": 1.6482,
      "step": 21396
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3795303404331207,
      "learning_rate": 0.0005204287604124359,
      "loss": 1.6082,
      "step": 21397
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37352994084358215,
      "learning_rate": 0.0005204216703528061,
      "loss": 1.7088,
      "step": 21398
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40380018949508667,
      "learning_rate": 0.0005204145800256169,
      "loss": 1.6807,
      "step": 21399
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3995244801044464,
      "learning_rate": 0.0005204074894308769,
      "loss": 1.7485,
      "step": 21400
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3849792778491974,
      "learning_rate": 0.0005204003985685945,
      "loss": 1.5534,
      "step": 21401
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39139455556869507,
      "learning_rate": 0.0005203933074387788,
      "loss": 1.7259,
      "step": 21402
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3714597225189209,
      "learning_rate": 0.000520386216041438,
      "loss": 1.6421,
      "step": 21403
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3921649754047394,
      "learning_rate": 0.0005203791243765806,
      "loss": 1.7754,
      "step": 21404
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38257408142089844,
      "learning_rate": 0.0005203720324442156,
      "loss": 1.6809,
      "step": 21405
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38565593957901,
      "learning_rate": 0.0005203649402443514,
      "loss": 1.6181,
      "step": 21406
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3820115923881531,
      "learning_rate": 0.0005203578477769967,
      "loss": 1.6902,
      "step": 21407
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3911423087120056,
      "learning_rate": 0.0005203507550421599,
      "loss": 1.6972,
      "step": 21408
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3890637755393982,
      "learning_rate": 0.0005203436620398497,
      "loss": 1.681,
      "step": 21409
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38511157035827637,
      "learning_rate": 0.0005203365687700749,
      "loss": 1.7417,
      "step": 21410
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3850559890270233,
      "learning_rate": 0.0005203294752328439,
      "loss": 1.6792,
      "step": 21411
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3894004821777344,
      "learning_rate": 0.0005203223814281655,
      "loss": 1.6909,
      "step": 21412
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39631539583206177,
      "learning_rate": 0.0005203152873560481,
      "loss": 1.7887,
      "step": 21413
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3853243887424469,
      "learning_rate": 0.0005203081930165004,
      "loss": 1.7162,
      "step": 21414
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3865938186645508,
      "learning_rate": 0.000520301098409531,
      "loss": 1.7205,
      "step": 21415
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3777097165584564,
      "learning_rate": 0.0005202940035351487,
      "loss": 1.6152,
      "step": 21416
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.402386337518692,
      "learning_rate": 0.0005202869083933616,
      "loss": 1.7137,
      "step": 21417
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.385066419839859,
      "learning_rate": 0.0005202798129841788,
      "loss": 1.6701,
      "step": 21418
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.383184552192688,
      "learning_rate": 0.0005202727173076089,
      "loss": 1.7083,
      "step": 21419
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3653597831726074,
      "learning_rate": 0.0005202656213636602,
      "loss": 1.6195,
      "step": 21420
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3856496512889862,
      "learning_rate": 0.0005202585251523416,
      "loss": 1.7244,
      "step": 21421
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.43196699023246765,
      "learning_rate": 0.0005202514286736617,
      "loss": 1.7158,
      "step": 21422
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3789524435997009,
      "learning_rate": 0.0005202443319276288,
      "loss": 1.7202,
      "step": 21423
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3753790259361267,
      "learning_rate": 0.0005202372349142519,
      "loss": 1.6643,
      "step": 21424
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.36199378967285156,
      "learning_rate": 0.0005202301376335393,
      "loss": 1.6785,
      "step": 21425
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38417375087738037,
      "learning_rate": 0.0005202230400854998,
      "loss": 1.7076,
      "step": 21426
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38943397998809814,
      "learning_rate": 0.0005202159422701421,
      "loss": 1.6851,
      "step": 21427
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.377369225025177,
      "learning_rate": 0.0005202088441874746,
      "loss": 1.7045,
      "step": 21428
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37500283122062683,
      "learning_rate": 0.000520201745837506,
      "loss": 1.6239,
      "step": 21429
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.387536883354187,
      "learning_rate": 0.0005201946472202449,
      "loss": 1.7743,
      "step": 21430
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3849112391471863,
      "learning_rate": 0.0005201875483357001,
      "loss": 1.6893,
      "step": 21431
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37454739212989807,
      "learning_rate": 0.00052018044918388,
      "loss": 1.7153,
      "step": 21432
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38848060369491577,
      "learning_rate": 0.000520173349764793,
      "loss": 1.6791,
      "step": 21433
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3826703131198883,
      "learning_rate": 0.0005201662500784483,
      "loss": 1.7527,
      "step": 21434
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3826180100440979,
      "learning_rate": 0.0005201591501248541,
      "loss": 1.6678,
      "step": 21435
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3759134113788605,
      "learning_rate": 0.0005201520499040192,
      "loss": 1.6349,
      "step": 21436
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40308910608291626,
      "learning_rate": 0.0005201449494159522,
      "loss": 1.713,
      "step": 21437
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39364859461784363,
      "learning_rate": 0.0005201378486606614,
      "loss": 1.7088,
      "step": 21438
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38809123635292053,
      "learning_rate": 0.000520130747638156,
      "loss": 1.78,
      "step": 21439
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39155954122543335,
      "learning_rate": 0.0005201236463484441,
      "loss": 1.7088,
      "step": 21440
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3721711039543152,
      "learning_rate": 0.0005201165447915346,
      "loss": 1.6273,
      "step": 21441
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3932734727859497,
      "learning_rate": 0.0005201094429674361,
      "loss": 1.6822,
      "step": 21442
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39883512258529663,
      "learning_rate": 0.000520102340876157,
      "loss": 1.7044,
      "step": 21443
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3801834285259247,
      "learning_rate": 0.0005200952385177063,
      "loss": 1.6819,
      "step": 21444
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38405147194862366,
      "learning_rate": 0.0005200881358920922,
      "loss": 1.5745,
      "step": 21445
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38916265964508057,
      "learning_rate": 0.0005200810329993238,
      "loss": 1.6604,
      "step": 21446
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39645621180534363,
      "learning_rate": 0.0005200739298394093,
      "loss": 1.7106,
      "step": 21447
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3901274502277374,
      "learning_rate": 0.0005200668264123574,
      "loss": 1.708,
      "step": 21448
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3906806409358978,
      "learning_rate": 0.0005200597227181769,
      "loss": 1.6965,
      "step": 21449
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3846600651741028,
      "learning_rate": 0.0005200526187568762,
      "loss": 1.7107,
      "step": 21450
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3916589021682739,
      "learning_rate": 0.0005200455145284641,
      "loss": 1.7715,
      "step": 21451
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39702075719833374,
      "learning_rate": 0.0005200384100329492,
      "loss": 1.7254,
      "step": 21452
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3860185742378235,
      "learning_rate": 0.0005200313052703402,
      "loss": 1.6593,
      "step": 21453
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3850891888141632,
      "learning_rate": 0.0005200242002406456,
      "loss": 1.6826,
      "step": 21454
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37961119413375854,
      "learning_rate": 0.0005200170949438737,
      "loss": 1.7049,
      "step": 21455
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3789682984352112,
      "learning_rate": 0.0005200099893800338,
      "loss": 1.6606,
      "step": 21456
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37947705388069153,
      "learning_rate": 0.0005200028835491341,
      "loss": 1.6385,
      "step": 21457
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38208335638046265,
      "learning_rate": 0.0005199957774511834,
      "loss": 1.7035,
      "step": 21458
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3880093991756439,
      "learning_rate": 0.0005199886710861901,
      "loss": 1.6583,
      "step": 21459
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39187467098236084,
      "learning_rate": 0.0005199815644541631,
      "loss": 1.6969,
      "step": 21460
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.40165650844573975,
      "learning_rate": 0.0005199744575551107,
      "loss": 1.7102,
      "step": 21461
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3925429582595825,
      "learning_rate": 0.000519967350389042,
      "loss": 1.7095,
      "step": 21462
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3913640081882477,
      "learning_rate": 0.0005199602429559651,
      "loss": 1.6953,
      "step": 21463
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39244890213012695,
      "learning_rate": 0.0005199531352558889,
      "loss": 1.7131,
      "step": 21464
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.42151594161987305,
      "learning_rate": 0.0005199460272888221,
      "loss": 1.6621,
      "step": 21465
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3953041136264801,
      "learning_rate": 0.0005199389190547732,
      "loss": 1.7502,
      "step": 21466
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3946596682071686,
      "learning_rate": 0.0005199318105537508,
      "loss": 1.7012,
      "step": 21467
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3805924654006958,
      "learning_rate": 0.0005199247017857638,
      "loss": 1.6633,
      "step": 21468
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39754366874694824,
      "learning_rate": 0.0005199175927508204,
      "loss": 1.6125,
      "step": 21469
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.42354854941368103,
      "learning_rate": 0.0005199104834489295,
      "loss": 1.6341,
      "step": 21470
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3892535865306854,
      "learning_rate": 0.0005199033738800997,
      "loss": 1.6504,
      "step": 21471
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3993363678455353,
      "learning_rate": 0.0005198962640443395,
      "loss": 1.6941,
      "step": 21472
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38712313771247864,
      "learning_rate": 0.0005198891539416578,
      "loss": 1.6546,
      "step": 21473
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3989301025867462,
      "learning_rate": 0.000519882043572063,
      "loss": 1.6831,
      "step": 21474
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3692414164543152,
      "learning_rate": 0.0005198749329355637,
      "loss": 1.6851,
      "step": 21475
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.378797709941864,
      "learning_rate": 0.0005198678220321688,
      "loss": 1.7191,
      "step": 21476
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.37482210993766785,
      "learning_rate": 0.0005198607108618866,
      "loss": 1.6128,
      "step": 21477
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38404127955436707,
      "learning_rate": 0.000519853599424726,
      "loss": 1.7039,
      "step": 21478
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.39611074328422546,
      "learning_rate": 0.0005198464877206955,
      "loss": 1.681,
      "step": 21479
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5465573668479919,
      "learning_rate": 0.0005198393757498037,
      "loss": 1.7885,
      "step": 21480
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3868712782859802,
      "learning_rate": 0.0005198322635120593,
      "loss": 1.7039,
      "step": 21481
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4333663582801819,
      "learning_rate": 0.000519825151007471,
      "loss": 1.789,
      "step": 21482
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38162365555763245,
      "learning_rate": 0.0005198180382360473,
      "loss": 1.6435,
      "step": 21483
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3780997693538666,
      "learning_rate": 0.000519810925197797,
      "loss": 1.6715,
      "step": 21484
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4098646640777588,
      "learning_rate": 0.0005198038118927285,
      "loss": 1.6731,
      "step": 21485
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3780567944049835,
      "learning_rate": 0.0005197966983208506,
      "loss": 1.6733,
      "step": 21486
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.387790709733963,
      "learning_rate": 0.0005197895844821717,
      "loss": 1.6968,
      "step": 21487
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38429394364356995,
      "learning_rate": 0.0005197824703767009,
      "loss": 1.6891,
      "step": 21488
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.38149264454841614,
      "learning_rate": 0.0005197753560044465,
      "loss": 1.7514,
      "step": 21489
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3875125050544739,
      "learning_rate": 0.0005197682413654172,
      "loss": 1.7247,
      "step": 21490
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3887409269809723,
      "learning_rate": 0.0005197611264596216,
      "loss": 1.7936,
      "step": 21491
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37373825907707214,
      "learning_rate": 0.0005197540112870685,
      "loss": 1.7115,
      "step": 21492
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3774423599243164,
      "learning_rate": 0.0005197468958477662,
      "loss": 1.6471,
      "step": 21493
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38910186290740967,
      "learning_rate": 0.0005197397801417236,
      "loss": 1.6944,
      "step": 21494
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37943941354751587,
      "learning_rate": 0.0005197326641689493,
      "loss": 1.7142,
      "step": 21495
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3804456889629364,
      "learning_rate": 0.000519725547929452,
      "loss": 1.6819,
      "step": 21496
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37824875116348267,
      "learning_rate": 0.0005197184314232402,
      "loss": 1.7301,
      "step": 21497
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.411866694688797,
      "learning_rate": 0.0005197113146503226,
      "loss": 1.7115,
      "step": 21498
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.36807066202163696,
      "learning_rate": 0.0005197041976107078,
      "loss": 1.6151,
      "step": 21499
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3807857036590576,
      "learning_rate": 0.0005196970803044046,
      "loss": 1.7432,
      "step": 21500
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3884459435939789,
      "learning_rate": 0.0005196899627314214,
      "loss": 1.6578,
      "step": 21501
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3867535889148712,
      "learning_rate": 0.0005196828448917669,
      "loss": 1.6723,
      "step": 21502
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3841225504875183,
      "learning_rate": 0.0005196757267854499,
      "loss": 1.7406,
      "step": 21503
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3787567615509033,
      "learning_rate": 0.000519668608412479,
      "loss": 1.7419,
      "step": 21504
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.386608749628067,
      "learning_rate": 0.0005196614897728627,
      "loss": 1.6671,
      "step": 21505
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3814677894115448,
      "learning_rate": 0.0005196543708666097,
      "loss": 1.6498,
      "step": 21506
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37381651997566223,
      "learning_rate": 0.0005196472516937286,
      "loss": 1.6469,
      "step": 21507
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38891881704330444,
      "learning_rate": 0.0005196401322542282,
      "loss": 1.6934,
      "step": 21508
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40907299518585205,
      "learning_rate": 0.0005196330125481171,
      "loss": 1.7555,
      "step": 21509
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37568771839141846,
      "learning_rate": 0.0005196258925754037,
      "loss": 1.6816,
      "step": 21510
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3878505229949951,
      "learning_rate": 0.000519618772336097,
      "loss": 1.6377,
      "step": 21511
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3820827305316925,
      "learning_rate": 0.0005196116518302053,
      "loss": 1.7239,
      "step": 21512
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3806726336479187,
      "learning_rate": 0.0005196045310577376,
      "loss": 1.7041,
      "step": 21513
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3855472207069397,
      "learning_rate": 0.0005195974100187022,
      "loss": 1.6947,
      "step": 21514
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37423592805862427,
      "learning_rate": 0.000519590288713108,
      "loss": 1.7824,
      "step": 21515
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3946467638015747,
      "learning_rate": 0.0005195831671409635,
      "loss": 1.6229,
      "step": 21516
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38290005922317505,
      "learning_rate": 0.0005195760453022773,
      "loss": 1.6926,
      "step": 21517
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3772386312484741,
      "learning_rate": 0.0005195689231970584,
      "loss": 1.6803,
      "step": 21518
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3908880949020386,
      "learning_rate": 0.0005195618008253149,
      "loss": 1.6794,
      "step": 21519
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38673096895217896,
      "learning_rate": 0.0005195546781870559,
      "loss": 1.6574,
      "step": 21520
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3905572295188904,
      "learning_rate": 0.0005195475552822896,
      "loss": 1.7434,
      "step": 21521
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3901096284389496,
      "learning_rate": 0.0005195404321110252,
      "loss": 1.7142,
      "step": 21522
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37002524733543396,
      "learning_rate": 0.000519533308673271,
      "loss": 1.5999,
      "step": 21523
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3951510190963745,
      "learning_rate": 0.0005195261849690357,
      "loss": 1.6339,
      "step": 21524
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3789336383342743,
      "learning_rate": 0.000519519060998328,
      "loss": 1.641,
      "step": 21525
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3926980197429657,
      "learning_rate": 0.0005195119367611564,
      "loss": 1.675,
      "step": 21526
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38882797956466675,
      "learning_rate": 0.0005195048122575297,
      "loss": 1.7169,
      "step": 21527
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3893579840660095,
      "learning_rate": 0.0005194976874874566,
      "loss": 1.7172,
      "step": 21528
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.392943799495697,
      "learning_rate": 0.0005194905624509455,
      "loss": 1.6981,
      "step": 21529
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3914296329021454,
      "learning_rate": 0.0005194834371480053,
      "loss": 1.7156,
      "step": 21530
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3792470097541809,
      "learning_rate": 0.0005194763115786444,
      "loss": 1.6585,
      "step": 21531
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38024869561195374,
      "learning_rate": 0.0005194691857428717,
      "loss": 1.7083,
      "step": 21532
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7950593829154968,
      "learning_rate": 0.0005194620596406959,
      "loss": 1.7656,
      "step": 21533
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40555980801582336,
      "learning_rate": 0.0005194549332721252,
      "loss": 1.689,
      "step": 21534
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40117940306663513,
      "learning_rate": 0.0005194478066371688,
      "loss": 1.7103,
      "step": 21535
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4049123227596283,
      "learning_rate": 0.0005194406797358348,
      "loss": 1.7471,
      "step": 21536
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39032888412475586,
      "learning_rate": 0.0005194335525681324,
      "loss": 1.7178,
      "step": 21537
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4148077964782715,
      "learning_rate": 0.00051942642513407,
      "loss": 1.6905,
      "step": 21538
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3751128017902374,
      "learning_rate": 0.0005194192974336562,
      "loss": 1.7121,
      "step": 21539
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3914841413497925,
      "learning_rate": 0.0005194121694668996,
      "loss": 1.6621,
      "step": 21540
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3861158788204193,
      "learning_rate": 0.0005194050412338091,
      "loss": 1.7283,
      "step": 21541
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40394148230552673,
      "learning_rate": 0.0005193979127343932,
      "loss": 1.6935,
      "step": 21542
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38422515988349915,
      "learning_rate": 0.0005193907839686604,
      "loss": 1.6118,
      "step": 21543
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3757422864437103,
      "learning_rate": 0.0005193836549366197,
      "loss": 1.6892,
      "step": 21544
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37084659934043884,
      "learning_rate": 0.0005193765256382794,
      "loss": 1.6864,
      "step": 21545
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37761104106903076,
      "learning_rate": 0.0005193693960736485,
      "loss": 1.6887,
      "step": 21546
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3878624737262726,
      "learning_rate": 0.0005193622662427353,
      "loss": 1.7234,
      "step": 21547
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3778901994228363,
      "learning_rate": 0.0005193551361455487,
      "loss": 1.6297,
      "step": 21548
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39021962881088257,
      "learning_rate": 0.0005193480057820973,
      "loss": 1.7305,
      "step": 21549
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38518026471138,
      "learning_rate": 0.0005193408751523898,
      "loss": 1.699,
      "step": 21550
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38661444187164307,
      "learning_rate": 0.0005193337442564348,
      "loss": 1.7487,
      "step": 21551
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.378081351518631,
      "learning_rate": 0.0005193266130942408,
      "loss": 1.6482,
      "step": 21552
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.405387282371521,
      "learning_rate": 0.0005193194816658168,
      "loss": 1.7031,
      "step": 21553
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3939479887485504,
      "learning_rate": 0.0005193123499711711,
      "loss": 1.6834,
      "step": 21554
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39072656631469727,
      "learning_rate": 0.0005193052180103126,
      "loss": 1.6911,
      "step": 21555
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38555091619491577,
      "learning_rate": 0.0005192980857832498,
      "loss": 1.7401,
      "step": 21556
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.376919686794281,
      "learning_rate": 0.0005192909532899915,
      "loss": 1.7442,
      "step": 21557
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37998324632644653,
      "learning_rate": 0.0005192838205305462,
      "loss": 1.7005,
      "step": 21558
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3802780508995056,
      "learning_rate": 0.0005192766875049228,
      "loss": 1.6751,
      "step": 21559
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37650877237319946,
      "learning_rate": 0.0005192695542131298,
      "loss": 1.6802,
      "step": 21560
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38656148314476013,
      "learning_rate": 0.0005192624206551758,
      "loss": 1.6195,
      "step": 21561
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3789093494415283,
      "learning_rate": 0.0005192552868310696,
      "loss": 1.7286,
      "step": 21562
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3909394443035126,
      "learning_rate": 0.0005192481527408197,
      "loss": 1.6754,
      "step": 21563
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.396128386259079,
      "learning_rate": 0.0005192410183844349,
      "loss": 1.698,
      "step": 21564
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3844197690486908,
      "learning_rate": 0.0005192338837619238,
      "loss": 1.6781,
      "step": 21565
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3972514271736145,
      "learning_rate": 0.000519226748873295,
      "loss": 1.7078,
      "step": 21566
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38034355640411377,
      "learning_rate": 0.0005192196137185573,
      "loss": 1.7093,
      "step": 21567
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37573590874671936,
      "learning_rate": 0.0005192124782977193,
      "loss": 1.6503,
      "step": 21568
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37941375374794006,
      "learning_rate": 0.0005192053426107896,
      "loss": 1.7105,
      "step": 21569
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37291938066482544,
      "learning_rate": 0.000519198206657777,
      "loss": 1.646,
      "step": 21570
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3961639106273651,
      "learning_rate": 0.0005191910704386899,
      "loss": 1.7116,
      "step": 21571
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3958418667316437,
      "learning_rate": 0.0005191839339535373,
      "loss": 1.6203,
      "step": 21572
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38247066736221313,
      "learning_rate": 0.0005191767972023277,
      "loss": 1.7264,
      "step": 21573
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37918221950531006,
      "learning_rate": 0.0005191696601850697,
      "loss": 1.7213,
      "step": 21574
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3921451270580292,
      "learning_rate": 0.000519162522901772,
      "loss": 1.7123,
      "step": 21575
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37521353363990784,
      "learning_rate": 0.0005191553853524433,
      "loss": 1.7639,
      "step": 21576
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38755378127098083,
      "learning_rate": 0.0005191482475370924,
      "loss": 1.7094,
      "step": 21577
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4043329656124115,
      "learning_rate": 0.0005191411094557277,
      "loss": 1.6987,
      "step": 21578
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3768078088760376,
      "learning_rate": 0.0005191339711083579,
      "loss": 1.6877,
      "step": 21579
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3984183669090271,
      "learning_rate": 0.0005191268324949919,
      "loss": 1.758,
      "step": 21580
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40470975637435913,
      "learning_rate": 0.0005191196936156381,
      "loss": 1.7124,
      "step": 21581
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38098567724227905,
      "learning_rate": 0.0005191125544703052,
      "loss": 1.6919,
      "step": 21582
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3767455816268921,
      "learning_rate": 0.0005191054150590021,
      "loss": 1.7147,
      "step": 21583
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.386009156703949,
      "learning_rate": 0.0005190982753817373,
      "loss": 1.6418,
      "step": 21584
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4046841859817505,
      "learning_rate": 0.0005190911354385195,
      "loss": 1.676,
      "step": 21585
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.36985859274864197,
      "learning_rate": 0.0005190839952293573,
      "loss": 1.7381,
      "step": 21586
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37525880336761475,
      "learning_rate": 0.0005190768547542594,
      "loss": 1.6946,
      "step": 21587
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39198195934295654,
      "learning_rate": 0.0005190697140132344,
      "loss": 1.6411,
      "step": 21588
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40814465284347534,
      "learning_rate": 0.0005190625730062912,
      "loss": 1.6679,
      "step": 21589
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3743429481983185,
      "learning_rate": 0.0005190554317334382,
      "loss": 1.7015,
      "step": 21590
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39354822039604187,
      "learning_rate": 0.0005190482901946843,
      "loss": 1.7023,
      "step": 21591
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3895624577999115,
      "learning_rate": 0.0005190411483900379,
      "loss": 1.6781,
      "step": 21592
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38641518354415894,
      "learning_rate": 0.0005190340063195079,
      "loss": 1.6366,
      "step": 21593
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37309104204177856,
      "learning_rate": 0.000519026863983103,
      "loss": 1.6708,
      "step": 21594
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3777911961078644,
      "learning_rate": 0.0005190197213808315,
      "loss": 1.7045,
      "step": 21595
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37714502215385437,
      "learning_rate": 0.0005190125785127025,
      "loss": 1.6924,
      "step": 21596
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3876536786556244,
      "learning_rate": 0.0005190054353787244,
      "loss": 1.6752,
      "step": 21597
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3787657916545868,
      "learning_rate": 0.000518998291978906,
      "loss": 1.7074,
      "step": 21598
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3776422142982483,
      "learning_rate": 0.0005189911483132561,
      "loss": 1.7098,
      "step": 21599
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3699716031551361,
      "learning_rate": 0.000518984004381783,
      "loss": 1.6987,
      "step": 21600
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3743950128555298,
      "learning_rate": 0.0005189768601844958,
      "loss": 1.6594,
      "step": 21601
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3796461224555969,
      "learning_rate": 0.0005189697157214028,
      "loss": 1.7683,
      "step": 21602
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3811718821525574,
      "learning_rate": 0.0005189625709925128,
      "loss": 1.6673,
      "step": 21603
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38379964232444763,
      "learning_rate": 0.0005189554259978346,
      "loss": 1.7245,
      "step": 21604
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3841976821422577,
      "learning_rate": 0.0005189482807373768,
      "loss": 1.6592,
      "step": 21605
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37720751762390137,
      "learning_rate": 0.000518941135211148,
      "loss": 1.6708,
      "step": 21606
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3819272220134735,
      "learning_rate": 0.0005189339894191568,
      "loss": 1.7479,
      "step": 21607
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4000970125198364,
      "learning_rate": 0.0005189268433614121,
      "loss": 1.7477,
      "step": 21608
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38050076365470886,
      "learning_rate": 0.0005189196970379226,
      "loss": 1.6604,
      "step": 21609
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.396483838558197,
      "learning_rate": 0.0005189125504486967,
      "loss": 1.6831,
      "step": 21610
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3790281116962433,
      "learning_rate": 0.0005189054035937432,
      "loss": 1.6081,
      "step": 21611
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39539361000061035,
      "learning_rate": 0.0005188982564730708,
      "loss": 1.7212,
      "step": 21612
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38890746235847473,
      "learning_rate": 0.0005188911090866882,
      "loss": 1.6915,
      "step": 21613
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3995836675167084,
      "learning_rate": 0.0005188839614346041,
      "loss": 1.6855,
      "step": 21614
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37751898169517517,
      "learning_rate": 0.0005188768135168271,
      "loss": 1.7429,
      "step": 21615
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3812895715236664,
      "learning_rate": 0.0005188696653333658,
      "loss": 1.6964,
      "step": 21616
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.390438437461853,
      "learning_rate": 0.000518862516884229,
      "loss": 1.7189,
      "step": 21617
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3916516602039337,
      "learning_rate": 0.0005188553681694254,
      "loss": 1.6777,
      "step": 21618
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3861907720565796,
      "learning_rate": 0.0005188482191889637,
      "loss": 1.6309,
      "step": 21619
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3873049318790436,
      "learning_rate": 0.0005188410699428524,
      "loss": 1.6966,
      "step": 21620
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3818260729312897,
      "learning_rate": 0.0005188339204311003,
      "loss": 1.6766,
      "step": 21621
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41107597947120667,
      "learning_rate": 0.0005188267706537161,
      "loss": 1.684,
      "step": 21622
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3800792098045349,
      "learning_rate": 0.0005188196206107083,
      "loss": 1.6839,
      "step": 21623
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38079991936683655,
      "learning_rate": 0.000518812470302086,
      "loss": 1.614,
      "step": 21624
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37314528226852417,
      "learning_rate": 0.0005188053197278574,
      "loss": 1.6415,
      "step": 21625
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39528360962867737,
      "learning_rate": 0.0005187981688880314,
      "loss": 1.6445,
      "step": 21626
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3874303698539734,
      "learning_rate": 0.0005187910177826167,
      "loss": 1.7148,
      "step": 21627
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37703683972358704,
      "learning_rate": 0.0005187838664116219,
      "loss": 1.7196,
      "step": 21628
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3935072124004364,
      "learning_rate": 0.0005187767147750559,
      "loss": 1.736,
      "step": 21629
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38756272196769714,
      "learning_rate": 0.000518769562872927,
      "loss": 1.7582,
      "step": 21630
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37442949414253235,
      "learning_rate": 0.0005187624107052441,
      "loss": 1.65,
      "step": 21631
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3915487825870514,
      "learning_rate": 0.0005187552582720159,
      "loss": 1.6839,
      "step": 21632
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39264872670173645,
      "learning_rate": 0.0005187481055732511,
      "loss": 1.7191,
      "step": 21633
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41059446334838867,
      "learning_rate": 0.0005187409526089583,
      "loss": 1.645,
      "step": 21634
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41390475630760193,
      "learning_rate": 0.0005187337993791462,
      "loss": 1.8194,
      "step": 21635
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38121992349624634,
      "learning_rate": 0.0005187266458838235,
      "loss": 1.6715,
      "step": 21636
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38588184118270874,
      "learning_rate": 0.0005187194921229989,
      "loss": 1.6975,
      "step": 21637
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38493654131889343,
      "learning_rate": 0.000518712338096681,
      "loss": 1.6838,
      "step": 21638
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38822051882743835,
      "learning_rate": 0.0005187051838048785,
      "loss": 1.6988,
      "step": 21639
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3968912363052368,
      "learning_rate": 0.0005186980292476003,
      "loss": 1.7293,
      "step": 21640
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3918347656726837,
      "learning_rate": 0.0005186908744248548,
      "loss": 1.7244,
      "step": 21641
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39287880063056946,
      "learning_rate": 0.0005186837193366509,
      "loss": 1.6656,
      "step": 21642
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39272233843803406,
      "learning_rate": 0.0005186765639829971,
      "loss": 1.7332,
      "step": 21643
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3754173219203949,
      "learning_rate": 0.0005186694083639022,
      "loss": 1.605,
      "step": 21644
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3893333971500397,
      "learning_rate": 0.0005186622524793749,
      "loss": 1.6887,
      "step": 21645
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3885904550552368,
      "learning_rate": 0.0005186550963294237,
      "loss": 1.744,
      "step": 21646
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3868686854839325,
      "learning_rate": 0.0005186479399140575,
      "loss": 1.5692,
      "step": 21647
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.392526239156723,
      "learning_rate": 0.000518640783233285,
      "loss": 1.6116,
      "step": 21648
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39743512868881226,
      "learning_rate": 0.0005186336262871147,
      "loss": 1.7519,
      "step": 21649
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3802911639213562,
      "learning_rate": 0.0005186264690755555,
      "loss": 1.698,
      "step": 21650
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40455693006515503,
      "learning_rate": 0.0005186193115986159,
      "loss": 1.7606,
      "step": 21651
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.393777072429657,
      "learning_rate": 0.0005186121538563047,
      "loss": 1.6416,
      "step": 21652
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.390901654958725,
      "learning_rate": 0.0005186049958486305,
      "loss": 1.7518,
      "step": 21653
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38897475600242615,
      "learning_rate": 0.0005185978375756022,
      "loss": 1.7376,
      "step": 21654
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3889670968055725,
      "learning_rate": 0.0005185906790372282,
      "loss": 1.6947,
      "step": 21655
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38484159111976624,
      "learning_rate": 0.0005185835202335174,
      "loss": 1.715,
      "step": 21656
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3948436975479126,
      "learning_rate": 0.0005185763611644783,
      "loss": 1.7721,
      "step": 21657
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38143977522850037,
      "learning_rate": 0.0005185692018301198,
      "loss": 1.6197,
      "step": 21658
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3788834512233734,
      "learning_rate": 0.0005185620422304503,
      "loss": 1.6506,
      "step": 21659
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3724078834056854,
      "learning_rate": 0.0005185548823654789,
      "loss": 1.6876,
      "step": 21660
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38666868209838867,
      "learning_rate": 0.0005185477222352141,
      "loss": 1.6935,
      "step": 21661
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38541606068611145,
      "learning_rate": 0.0005185405618396644,
      "loss": 1.7089,
      "step": 21662
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.36240458488464355,
      "learning_rate": 0.0005185334011788388,
      "loss": 1.7454,
      "step": 21663
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3858077824115753,
      "learning_rate": 0.0005185262402527457,
      "loss": 1.7028,
      "step": 21664
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4084543287754059,
      "learning_rate": 0.0005185190790613941,
      "loss": 1.6501,
      "step": 21665
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39227837324142456,
      "learning_rate": 0.0005185119176047925,
      "loss": 1.6684,
      "step": 21666
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38915976881980896,
      "learning_rate": 0.0005185047558829496,
      "loss": 1.6849,
      "step": 21667
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.43380439281463623,
      "learning_rate": 0.000518497593895874,
      "loss": 1.7142,
      "step": 21668
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41577157378196716,
      "learning_rate": 0.0005184904316435746,
      "loss": 1.7592,
      "step": 21669
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39381930232048035,
      "learning_rate": 0.0005184832691260602,
      "loss": 1.738,
      "step": 21670
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3858878016471863,
      "learning_rate": 0.0005184761063433392,
      "loss": 1.7204,
      "step": 21671
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40556588768959045,
      "learning_rate": 0.0005184689432954203,
      "loss": 1.6197,
      "step": 21672
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38876181840896606,
      "learning_rate": 0.0005184617799823124,
      "loss": 1.6582,
      "step": 21673
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3834399878978729,
      "learning_rate": 0.000518454616404024,
      "loss": 1.7082,
      "step": 21674
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3971836566925049,
      "learning_rate": 0.0005184474525605639,
      "loss": 1.6866,
      "step": 21675
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3932804763317108,
      "learning_rate": 0.0005184402884519407,
      "loss": 1.6563,
      "step": 21676
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41143113374710083,
      "learning_rate": 0.0005184331240781633,
      "loss": 1.7417,
      "step": 21677
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37573570013046265,
      "learning_rate": 0.0005184259594392403,
      "loss": 1.6676,
      "step": 21678
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39226335287094116,
      "learning_rate": 0.0005184187945351803,
      "loss": 1.7172,
      "step": 21679
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39801308512687683,
      "learning_rate": 0.000518411629365992,
      "loss": 1.7033,
      "step": 21680
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3888278305530548,
      "learning_rate": 0.0005184044639316843,
      "loss": 1.6928,
      "step": 21681
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.401850163936615,
      "learning_rate": 0.0005183972982322657,
      "loss": 1.6266,
      "step": 21682
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37778759002685547,
      "learning_rate": 0.0005183901322677449,
      "loss": 1.7322,
      "step": 21683
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37755846977233887,
      "learning_rate": 0.0005183829660381307,
      "loss": 1.5985,
      "step": 21684
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3926246166229248,
      "learning_rate": 0.0005183757995434319,
      "loss": 1.6742,
      "step": 21685
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3921014070510864,
      "learning_rate": 0.0005183686327836568,
      "loss": 1.6483,
      "step": 21686
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39734330773353577,
      "learning_rate": 0.0005183614657588145,
      "loss": 1.6624,
      "step": 21687
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40353870391845703,
      "learning_rate": 0.0005183542984689136,
      "loss": 1.6502,
      "step": 21688
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3743879497051239,
      "learning_rate": 0.0005183471309139627,
      "loss": 1.6003,
      "step": 21689
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.412852019071579,
      "learning_rate": 0.0005183399630939705,
      "loss": 1.7551,
      "step": 21690
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4024708867073059,
      "learning_rate": 0.0005183327950089458,
      "loss": 1.7523,
      "step": 21691
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39450663328170776,
      "learning_rate": 0.0005183256266588972,
      "loss": 1.6585,
      "step": 21692
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40105804800987244,
      "learning_rate": 0.0005183184580438336,
      "loss": 1.7219,
      "step": 21693
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39925992488861084,
      "learning_rate": 0.0005183112891637634,
      "loss": 1.7286,
      "step": 21694
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.43210044503211975,
      "learning_rate": 0.0005183041200186955,
      "loss": 1.6867,
      "step": 21695
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4039243459701538,
      "learning_rate": 0.0005182969506086387,
      "loss": 1.7457,
      "step": 21696
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3813263177871704,
      "learning_rate": 0.0005182897809336014,
      "loss": 1.669,
      "step": 21697
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38473308086395264,
      "learning_rate": 0.0005182826109935925,
      "loss": 1.695,
      "step": 21698
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3981304466724396,
      "learning_rate": 0.0005182754407886208,
      "loss": 1.7352,
      "step": 21699
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3948407471179962,
      "learning_rate": 0.0005182682703186947,
      "loss": 1.7506,
      "step": 21700
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3739812672138214,
      "learning_rate": 0.0005182610995838232,
      "loss": 1.7419,
      "step": 21701
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39155828952789307,
      "learning_rate": 0.0005182539285840149,
      "loss": 1.7375,
      "step": 21702
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38104620575904846,
      "learning_rate": 0.0005182467573192785,
      "loss": 1.7109,
      "step": 21703
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38722503185272217,
      "learning_rate": 0.0005182395857896225,
      "loss": 1.6913,
      "step": 21704
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3795279264450073,
      "learning_rate": 0.000518232413995056,
      "loss": 1.6854,
      "step": 21705
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37612655758857727,
      "learning_rate": 0.0005182252419355873,
      "loss": 1.6252,
      "step": 21706
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3835420608520508,
      "learning_rate": 0.0005182180696112255,
      "loss": 1.6811,
      "step": 21707
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3878723382949829,
      "learning_rate": 0.0005182108970219791,
      "loss": 1.7387,
      "step": 21708
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3840239346027374,
      "learning_rate": 0.0005182037241678568,
      "loss": 1.6612,
      "step": 21709
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.387247771024704,
      "learning_rate": 0.0005181965510488673,
      "loss": 1.6882,
      "step": 21710
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3733879029750824,
      "learning_rate": 0.0005181893776650193,
      "loss": 1.6902,
      "step": 21711
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38766077160835266,
      "learning_rate": 0.0005181822040163216,
      "loss": 1.6547,
      "step": 21712
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39204245805740356,
      "learning_rate": 0.000518175030102783,
      "loss": 1.7327,
      "step": 21713
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3927026093006134,
      "learning_rate": 0.0005181678559244118,
      "loss": 1.7314,
      "step": 21714
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3883433938026428,
      "learning_rate": 0.0005181606814812171,
      "loss": 1.6585,
      "step": 21715
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41528210043907166,
      "learning_rate": 0.0005181535067732074,
      "loss": 1.709,
      "step": 21716
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4058600664138794,
      "learning_rate": 0.0005181463318003916,
      "loss": 1.67,
      "step": 21717
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39035141468048096,
      "learning_rate": 0.0005181391565627783,
      "loss": 1.6771,
      "step": 21718
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4004950523376465,
      "learning_rate": 0.0005181319810603761,
      "loss": 1.6674,
      "step": 21719
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39656540751457214,
      "learning_rate": 0.0005181248052931938,
      "loss": 1.7851,
      "step": 21720
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38371530175209045,
      "learning_rate": 0.0005181176292612402,
      "loss": 1.678,
      "step": 21721
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40111207962036133,
      "learning_rate": 0.0005181104529645239,
      "loss": 1.6714,
      "step": 21722
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40322160720825195,
      "learning_rate": 0.0005181032764030537,
      "loss": 1.7033,
      "step": 21723
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3801090121269226,
      "learning_rate": 0.0005180960995768381,
      "loss": 1.6784,
      "step": 21724
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38644832372665405,
      "learning_rate": 0.0005180889224858862,
      "loss": 1.7487,
      "step": 21725
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38463160395622253,
      "learning_rate": 0.0005180817451302064,
      "loss": 1.6889,
      "step": 21726
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3724639415740967,
      "learning_rate": 0.0005180745675098075,
      "loss": 1.634,
      "step": 21727
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3886636197566986,
      "learning_rate": 0.000518067389624698,
      "loss": 1.6288,
      "step": 21728
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3923351764678955,
      "learning_rate": 0.0005180602114748872,
      "loss": 1.5981,
      "step": 21729
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37856921553611755,
      "learning_rate": 0.0005180530330603831,
      "loss": 1.6231,
      "step": 21730
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39195019006729126,
      "learning_rate": 0.000518045854381195,
      "loss": 1.7109,
      "step": 21731
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38531494140625,
      "learning_rate": 0.0005180386754373311,
      "loss": 1.6282,
      "step": 21732
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38558775186538696,
      "learning_rate": 0.0005180314962288006,
      "loss": 1.6173,
      "step": 21733
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39898642897605896,
      "learning_rate": 0.0005180243167556118,
      "loss": 1.742,
      "step": 21734
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4057886004447937,
      "learning_rate": 0.0005180171370177737,
      "loss": 1.7202,
      "step": 21735
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37979280948638916,
      "learning_rate": 0.000518009957015295,
      "loss": 1.6695,
      "step": 21736
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3829578757286072,
      "learning_rate": 0.0005180027767481843,
      "loss": 1.647,
      "step": 21737
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3997446596622467,
      "learning_rate": 0.0005179955962164503,
      "loss": 1.6267,
      "step": 21738
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3852388262748718,
      "learning_rate": 0.0005179884154201017,
      "loss": 1.6558,
      "step": 21739
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3945409655570984,
      "learning_rate": 0.0005179812343591474,
      "loss": 1.7059,
      "step": 21740
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40025484561920166,
      "learning_rate": 0.0005179740530335959,
      "loss": 1.7329,
      "step": 21741
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3814372718334198,
      "learning_rate": 0.000517966871443456,
      "loss": 1.6821,
      "step": 21742
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3813873827457428,
      "learning_rate": 0.0005179596895887366,
      "loss": 1.738,
      "step": 21743
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38939037919044495,
      "learning_rate": 0.0005179525074694461,
      "loss": 1.679,
      "step": 21744
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.41114211082458496,
      "learning_rate": 0.0005179453250855934,
      "loss": 1.682,
      "step": 21745
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3821624517440796,
      "learning_rate": 0.0005179381424371873,
      "loss": 1.7019,
      "step": 21746
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39702942967414856,
      "learning_rate": 0.0005179309595242363,
      "loss": 1.6632,
      "step": 21747
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3981741964817047,
      "learning_rate": 0.0005179237763467493,
      "loss": 1.6614,
      "step": 21748
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38356173038482666,
      "learning_rate": 0.0005179165929047348,
      "loss": 1.6747,
      "step": 21749
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3789917826652527,
      "learning_rate": 0.0005179094091982019,
      "loss": 1.6821,
      "step": 21750
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3866771161556244,
      "learning_rate": 0.0005179022252271589,
      "loss": 1.6545,
      "step": 21751
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39825084805488586,
      "learning_rate": 0.0005178950409916147,
      "loss": 1.654,
      "step": 21752
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3755118250846863,
      "learning_rate": 0.000517887856491578,
      "loss": 1.6366,
      "step": 21753
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3786613643169403,
      "learning_rate": 0.0005178806717270576,
      "loss": 1.6524,
      "step": 21754
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3774319887161255,
      "learning_rate": 0.0005178734866980622,
      "loss": 1.6334,
      "step": 21755
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40062376856803894,
      "learning_rate": 0.0005178663014046006,
      "loss": 1.6416,
      "step": 21756
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37799108028411865,
      "learning_rate": 0.0005178591158466813,
      "loss": 1.7296,
      "step": 21757
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37661978602409363,
      "learning_rate": 0.000517851930024313,
      "loss": 1.6992,
      "step": 21758
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40990203619003296,
      "learning_rate": 0.0005178447439375047,
      "loss": 1.7437,
      "step": 21759
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3749104142189026,
      "learning_rate": 0.000517837557586265,
      "loss": 1.6719,
      "step": 21760
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3871753215789795,
      "learning_rate": 0.0005178303709706025,
      "loss": 1.7348,
      "step": 21761
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.374639630317688,
      "learning_rate": 0.0005178231840905261,
      "loss": 1.6422,
      "step": 21762
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3743474781513214,
      "learning_rate": 0.0005178159969460444,
      "loss": 1.6622,
      "step": 21763
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38224461674690247,
      "learning_rate": 0.0005178088095371663,
      "loss": 1.7062,
      "step": 21764
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4034866392612457,
      "learning_rate": 0.0005178016218639002,
      "loss": 1.7968,
      "step": 21765
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3951597809791565,
      "learning_rate": 0.0005177944339262552,
      "loss": 1.6898,
      "step": 21766
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.40147900581359863,
      "learning_rate": 0.0005177872457242398,
      "loss": 1.7412,
      "step": 21767
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3809603750705719,
      "learning_rate": 0.0005177800572578626,
      "loss": 1.7842,
      "step": 21768
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.397111177444458,
      "learning_rate": 0.0005177728685271328,
      "loss": 1.7871,
      "step": 21769
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3803851008415222,
      "learning_rate": 0.0005177656795320587,
      "loss": 1.7116,
      "step": 21770
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38591259717941284,
      "learning_rate": 0.000517758490272649,
      "loss": 1.6938,
      "step": 21771
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39311763644218445,
      "learning_rate": 0.0005177513007489127,
      "loss": 1.6791,
      "step": 21772
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3760383725166321,
      "learning_rate": 0.0005177441109608584,
      "loss": 1.6145,
      "step": 21773
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38670265674591064,
      "learning_rate": 0.0005177369209084948,
      "loss": 1.7538,
      "step": 21774
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.388363242149353,
      "learning_rate": 0.0005177297305918308,
      "loss": 1.6683,
      "step": 21775
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38270509243011475,
      "learning_rate": 0.0005177225400108749,
      "loss": 1.6813,
      "step": 21776
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39118897914886475,
      "learning_rate": 0.0005177153491656358,
      "loss": 1.6424,
      "step": 21777
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3924209475517273,
      "learning_rate": 0.0005177081580561225,
      "loss": 1.7521,
      "step": 21778
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3763001561164856,
      "learning_rate": 0.0005177009666823435,
      "loss": 1.6138,
      "step": 21779
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5095137357711792,
      "learning_rate": 0.0005176937750443078,
      "loss": 1.7306,
      "step": 21780
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3883735239505768,
      "learning_rate": 0.0005176865831420236,
      "loss": 1.6842,
      "step": 21781
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3749885559082031,
      "learning_rate": 0.0005176793909755002,
      "loss": 1.6474,
      "step": 21782
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3848739266395569,
      "learning_rate": 0.0005176721985447459,
      "loss": 1.7042,
      "step": 21783
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3810224235057831,
      "learning_rate": 0.0005176650058497698,
      "loss": 1.7421,
      "step": 21784
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37898075580596924,
      "learning_rate": 0.0005176578128905804,
      "loss": 1.6934,
      "step": 21785
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.38494864106178284,
      "learning_rate": 0.0005176506196671864,
      "loss": 1.7358,
      "step": 21786
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3787432909011841,
      "learning_rate": 0.0005176434261795967,
      "loss": 1.6394,
      "step": 21787
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3893180787563324,
      "learning_rate": 0.00051763623242782,
      "loss": 1.7412,
      "step": 21788
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.37154847383499146,
      "learning_rate": 0.0005176290384118649,
      "loss": 1.6435,
      "step": 21789
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3895949423313141,
      "learning_rate": 0.0005176218441317402,
      "loss": 1.7177,
      "step": 21790
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4034954607486725,
      "learning_rate": 0.0005176146495874547,
      "loss": 1.7,
      "step": 21791
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3943650424480438,
      "learning_rate": 0.0005176074547790171,
      "loss": 1.6891,
      "step": 21792
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38323351740837097,
      "learning_rate": 0.000517600259706436,
      "loss": 1.7132,
      "step": 21793
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37941381335258484,
      "learning_rate": 0.0005175930643697204,
      "loss": 1.6943,
      "step": 21794
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38728395104408264,
      "learning_rate": 0.0005175858687688788,
      "loss": 1.6588,
      "step": 21795
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38056841492652893,
      "learning_rate": 0.00051757867290392,
      "loss": 1.6962,
      "step": 21796
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4244087338447571,
      "learning_rate": 0.0005175714767748528,
      "loss": 1.7366,
      "step": 21797
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.41227951645851135,
      "learning_rate": 0.0005175642803816858,
      "loss": 1.7365,
      "step": 21798
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3881484568119049,
      "learning_rate": 0.0005175570837244279,
      "loss": 1.7098,
      "step": 21799
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3806556463241577,
      "learning_rate": 0.0005175498868030876,
      "loss": 1.6812,
      "step": 21800
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3859459161758423,
      "learning_rate": 0.000517542689617674,
      "loss": 1.6648,
      "step": 21801
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3892677426338196,
      "learning_rate": 0.0005175354921681956,
      "loss": 1.6539,
      "step": 21802
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3821602165699005,
      "learning_rate": 0.0005175282944546611,
      "loss": 1.6694,
      "step": 21803
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3843100965023041,
      "learning_rate": 0.0005175210964770793,
      "loss": 1.625,
      "step": 21804
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37303370237350464,
      "learning_rate": 0.0005175138982354589,
      "loss": 1.7587,
      "step": 21805
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3827238082885742,
      "learning_rate": 0.0005175066997298088,
      "loss": 1.6881,
      "step": 21806
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38102731108665466,
      "learning_rate": 0.0005174995009601376,
      "loss": 1.6417,
      "step": 21807
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4022265672683716,
      "learning_rate": 0.0005174923019264539,
      "loss": 1.7354,
      "step": 21808
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3746599853038788,
      "learning_rate": 0.0005174851026287667,
      "loss": 1.689,
      "step": 21809
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3761935234069824,
      "learning_rate": 0.0005174779030670847,
      "loss": 1.7045,
      "step": 21810
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3878956139087677,
      "learning_rate": 0.0005174707032414164,
      "loss": 1.6328,
      "step": 21811
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3920367956161499,
      "learning_rate": 0.0005174635031517708,
      "loss": 1.6893,
      "step": 21812
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38741210103034973,
      "learning_rate": 0.0005174563027981566,
      "loss": 1.6943,
      "step": 21813
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3774796426296234,
      "learning_rate": 0.0005174491021805825,
      "loss": 1.7414,
      "step": 21814
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.372482031583786,
      "learning_rate": 0.0005174419012990571,
      "loss": 1.6067,
      "step": 21815
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3777570426464081,
      "learning_rate": 0.0005174347001535893,
      "loss": 1.6576,
      "step": 21816
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38219118118286133,
      "learning_rate": 0.0005174274987441879,
      "loss": 1.6687,
      "step": 21817
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3815928101539612,
      "learning_rate": 0.0005174202970708615,
      "loss": 1.7147,
      "step": 21818
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37921246886253357,
      "learning_rate": 0.0005174130951336187,
      "loss": 1.6449,
      "step": 21819
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3840978145599365,
      "learning_rate": 0.0005174058929324688,
      "loss": 1.6986,
      "step": 21820
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38980385661125183,
      "learning_rate": 0.00051739869046742,
      "loss": 1.6556,
      "step": 21821
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39126500487327576,
      "learning_rate": 0.0005173914877384812,
      "loss": 1.6603,
      "step": 21822
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3736755847930908,
      "learning_rate": 0.0005173842847456612,
      "loss": 1.644,
      "step": 21823
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3857656717300415,
      "learning_rate": 0.0005173770814889687,
      "loss": 1.6933,
      "step": 21824
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3980366885662079,
      "learning_rate": 0.0005173698779684125,
      "loss": 1.7938,
      "step": 21825
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37779471278190613,
      "learning_rate": 0.0005173626741840012,
      "loss": 1.6762,
      "step": 21826
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37410882115364075,
      "learning_rate": 0.0005173554701357438,
      "loss": 1.6786,
      "step": 21827
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3746447265148163,
      "learning_rate": 0.0005173482658236487,
      "loss": 1.7541,
      "step": 21828
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3740417957305908,
      "learning_rate": 0.0005173410612477249,
      "loss": 1.6849,
      "step": 21829
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.36854493618011475,
      "learning_rate": 0.0005173338564079811,
      "loss": 1.6291,
      "step": 21830
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3906451165676117,
      "learning_rate": 0.000517326651304426,
      "loss": 1.6998,
      "step": 21831
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3786962330341339,
      "learning_rate": 0.0005173194459370683,
      "loss": 1.7109,
      "step": 21832
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.391719251871109,
      "learning_rate": 0.000517312240305917,
      "loss": 1.7735,
      "step": 21833
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38101696968078613,
      "learning_rate": 0.0005173050344109805,
      "loss": 1.5731,
      "step": 21834
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38735219836235046,
      "learning_rate": 0.0005172978282522678,
      "loss": 1.6827,
      "step": 21835
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38700810074806213,
      "learning_rate": 0.0005172906218297874,
      "loss": 1.656,
      "step": 21836
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3775038719177246,
      "learning_rate": 0.0005172834151435483,
      "loss": 1.6738,
      "step": 21837
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39030003547668457,
      "learning_rate": 0.0005172762081935593,
      "loss": 1.7741,
      "step": 21838
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3938317596912384,
      "learning_rate": 0.0005172690009798288,
      "loss": 1.7274,
      "step": 21839
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38239866495132446,
      "learning_rate": 0.0005172617935023658,
      "loss": 1.6816,
      "step": 21840
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3924921452999115,
      "learning_rate": 0.000517254585761179,
      "loss": 1.6548,
      "step": 21841
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3859935402870178,
      "learning_rate": 0.0005172473777562771,
      "loss": 1.6632,
      "step": 21842
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37489256262779236,
      "learning_rate": 0.000517240169487669,
      "loss": 1.7004,
      "step": 21843
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3925435543060303,
      "learning_rate": 0.0005172329609553632,
      "loss": 1.7418,
      "step": 21844
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3795597553253174,
      "learning_rate": 0.0005172257521593687,
      "loss": 1.6434,
      "step": 21845
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37851643562316895,
      "learning_rate": 0.0005172185430996942,
      "loss": 1.6959,
      "step": 21846
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38847556710243225,
      "learning_rate": 0.0005172113337763482,
      "loss": 1.7247,
      "step": 21847
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38362056016921997,
      "learning_rate": 0.0005172041241893398,
      "loss": 1.6971,
      "step": 21848
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8193994760513306,
      "learning_rate": 0.0005171969143386775,
      "loss": 1.6877,
      "step": 21849
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3739861249923706,
      "learning_rate": 0.0005171897042243703,
      "loss": 1.6927,
      "step": 21850
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40807977318763733,
      "learning_rate": 0.0005171824938464267,
      "loss": 1.765,
      "step": 21851
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3964011073112488,
      "learning_rate": 0.0005171752832048554,
      "loss": 1.6918,
      "step": 21852
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37057194113731384,
      "learning_rate": 0.0005171680722996655,
      "loss": 1.679,
      "step": 21853
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38021308183670044,
      "learning_rate": 0.0005171608611308655,
      "loss": 1.7246,
      "step": 21854
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38424748182296753,
      "learning_rate": 0.0005171536496984643,
      "loss": 1.6875,
      "step": 21855
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40001627802848816,
      "learning_rate": 0.0005171464380024705,
      "loss": 1.7061,
      "step": 21856
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38897544145584106,
      "learning_rate": 0.0005171392260428929,
      "loss": 1.6826,
      "step": 21857
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3669694662094116,
      "learning_rate": 0.0005171320138197403,
      "loss": 1.6871,
      "step": 21858
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3793834149837494,
      "learning_rate": 0.0005171248013330214,
      "loss": 1.6232,
      "step": 21859
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37739214301109314,
      "learning_rate": 0.0005171175885827449,
      "loss": 1.6207,
      "step": 21860
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3970835506916046,
      "learning_rate": 0.0005171103755689198,
      "loss": 1.6271,
      "step": 21861
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40225812792778015,
      "learning_rate": 0.0005171031622915546,
      "loss": 1.6639,
      "step": 21862
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.41121259331703186,
      "learning_rate": 0.0005170959487506582,
      "loss": 1.6591,
      "step": 21863
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3679827153682709,
      "learning_rate": 0.0005170887349462392,
      "loss": 1.7308,
      "step": 21864
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39892786741256714,
      "learning_rate": 0.0005170815208783067,
      "loss": 1.6689,
      "step": 21865
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.373449444770813,
      "learning_rate": 0.000517074306546869,
      "loss": 1.6291,
      "step": 21866
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3910243809223175,
      "learning_rate": 0.0005170670919519352,
      "loss": 1.7059,
      "step": 21867
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3914905786514282,
      "learning_rate": 0.0005170598770935139,
      "loss": 1.5789,
      "step": 21868
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3838261365890503,
      "learning_rate": 0.0005170526619716138,
      "loss": 1.6787,
      "step": 21869
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4153788983821869,
      "learning_rate": 0.0005170454465862438,
      "loss": 1.6559,
      "step": 21870
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.41362249851226807,
      "learning_rate": 0.0005170382309374126,
      "loss": 1.6148,
      "step": 21871
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.382060170173645,
      "learning_rate": 0.000517031015025129,
      "loss": 1.7094,
      "step": 21872
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40462997555732727,
      "learning_rate": 0.0005170237988494018,
      "loss": 1.7118,
      "step": 21873
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38204535841941833,
      "learning_rate": 0.0005170165824102395,
      "loss": 1.7403,
      "step": 21874
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39401060342788696,
      "learning_rate": 0.0005170093657076511,
      "loss": 1.7437,
      "step": 21875
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39108189940452576,
      "learning_rate": 0.0005170021487416454,
      "loss": 1.6072,
      "step": 21876
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37888103723526,
      "learning_rate": 0.0005169949315122311,
      "loss": 1.7189,
      "step": 21877
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3882964253425598,
      "learning_rate": 0.0005169877140194167,
      "loss": 1.6683,
      "step": 21878
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3921970725059509,
      "learning_rate": 0.0005169804962632114,
      "loss": 1.6844,
      "step": 21879
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3831217288970947,
      "learning_rate": 0.0005169732782436238,
      "loss": 1.6392,
      "step": 21880
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3711002767086029,
      "learning_rate": 0.0005169660599606624,
      "loss": 1.6613,
      "step": 21881
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40357446670532227,
      "learning_rate": 0.0005169588414143362,
      "loss": 1.7704,
      "step": 21882
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40935391187667847,
      "learning_rate": 0.000516951622604654,
      "loss": 1.6976,
      "step": 21883
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39322951436042786,
      "learning_rate": 0.0005169444035316245,
      "loss": 1.6487,
      "step": 21884
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4056813716888428,
      "learning_rate": 0.0005169371841952565,
      "loss": 1.6787,
      "step": 21885
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4002993106842041,
      "learning_rate": 0.0005169299645955585,
      "loss": 1.6921,
      "step": 21886
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38861578702926636,
      "learning_rate": 0.0005169227447325398,
      "loss": 1.6866,
      "step": 21887
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38906463980674744,
      "learning_rate": 0.0005169155246062087,
      "loss": 1.6702,
      "step": 21888
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3712840974330902,
      "learning_rate": 0.0005169083042165741,
      "loss": 1.6454,
      "step": 21889
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3798389434814453,
      "learning_rate": 0.0005169010835636449,
      "loss": 1.7192,
      "step": 21890
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3876568675041199,
      "learning_rate": 0.0005168938626474295,
      "loss": 1.728,
      "step": 21891
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39282462000846863,
      "learning_rate": 0.0005168866414679371,
      "loss": 1.7045,
      "step": 21892
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.36795294284820557,
      "learning_rate": 0.0005168794200251762,
      "loss": 1.6548,
      "step": 21893
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3900274336338043,
      "learning_rate": 0.0005168721983191557,
      "loss": 1.6508,
      "step": 21894
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3732149600982666,
      "learning_rate": 0.0005168649763498842,
      "loss": 1.7159,
      "step": 21895
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38976359367370605,
      "learning_rate": 0.0005168577541173707,
      "loss": 1.6067,
      "step": 21896
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3915596604347229,
      "learning_rate": 0.0005168505316216238,
      "loss": 1.6638,
      "step": 21897
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3947773575782776,
      "learning_rate": 0.0005168433088626524,
      "loss": 1.6684,
      "step": 21898
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39732012152671814,
      "learning_rate": 0.000516836085840465,
      "loss": 1.7066,
      "step": 21899
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37886562943458557,
      "learning_rate": 0.0005168288625550705,
      "loss": 1.6813,
      "step": 21900
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38619622588157654,
      "learning_rate": 0.0005168216390064778,
      "loss": 1.7196,
      "step": 21901
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3909689486026764,
      "learning_rate": 0.0005168144151946957,
      "loss": 1.7273,
      "step": 21902
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37930458784103394,
      "learning_rate": 0.0005168071911197327,
      "loss": 1.7939,
      "step": 21903
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.41853150725364685,
      "learning_rate": 0.0005167999667815978,
      "loss": 1.715,
      "step": 21904
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3809254467487335,
      "learning_rate": 0.0005167927421802996,
      "loss": 1.6585,
      "step": 21905
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40260523557662964,
      "learning_rate": 0.0005167855173158469,
      "loss": 1.7019,
      "step": 21906
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39590299129486084,
      "learning_rate": 0.0005167782921882487,
      "loss": 1.785,
      "step": 21907
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3868277072906494,
      "learning_rate": 0.0005167710667975134,
      "loss": 1.7239,
      "step": 21908
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40265342593193054,
      "learning_rate": 0.0005167638411436501,
      "loss": 1.7101,
      "step": 21909
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40068405866622925,
      "learning_rate": 0.0005167566152266674,
      "loss": 1.6763,
      "step": 21910
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3792351484298706,
      "learning_rate": 0.0005167493890465742,
      "loss": 1.7138,
      "step": 21911
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39036673307418823,
      "learning_rate": 0.000516742162603379,
      "loss": 1.6418,
      "step": 21912
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3974202275276184,
      "learning_rate": 0.0005167349358970909,
      "loss": 1.6318,
      "step": 21913
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3938068747520447,
      "learning_rate": 0.0005167277089277185,
      "loss": 1.6696,
      "step": 21914
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3981863260269165,
      "learning_rate": 0.0005167204816952705,
      "loss": 1.6755,
      "step": 21915
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37935325503349304,
      "learning_rate": 0.0005167132541997558,
      "loss": 1.7061,
      "step": 21916
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37320029735565186,
      "learning_rate": 0.0005167060264411833,
      "loss": 1.6404,
      "step": 21917
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3839799165725708,
      "learning_rate": 0.0005166987984195614,
      "loss": 1.6826,
      "step": 21918
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3780328035354614,
      "learning_rate": 0.0005166915701348991,
      "loss": 1.6509,
      "step": 21919
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37517857551574707,
      "learning_rate": 0.0005166843415872052,
      "loss": 1.7391,
      "step": 21920
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38163599371910095,
      "learning_rate": 0.0005166771127764886,
      "loss": 1.655,
      "step": 21921
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3983202278614044,
      "learning_rate": 0.0005166698837027578,
      "loss": 1.646,
      "step": 21922
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39658883213996887,
      "learning_rate": 0.0005166626543660216,
      "loss": 1.7312,
      "step": 21923
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4031889736652374,
      "learning_rate": 0.000516655424766289,
      "loss": 1.6989,
      "step": 21924
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3897203803062439,
      "learning_rate": 0.0005166481949035685,
      "loss": 1.6601,
      "step": 21925
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3974537253379822,
      "learning_rate": 0.000516640964777869,
      "loss": 1.7086,
      "step": 21926
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3823077380657196,
      "learning_rate": 0.0005166337343891994,
      "loss": 1.6296,
      "step": 21927
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3924749493598938,
      "learning_rate": 0.0005166265037375683,
      "loss": 1.6568,
      "step": 21928
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3903055191040039,
      "learning_rate": 0.0005166192728229846,
      "loss": 1.707,
      "step": 21929
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3859185576438904,
      "learning_rate": 0.000516612041645457,
      "loss": 1.7013,
      "step": 21930
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38604873418807983,
      "learning_rate": 0.0005166048102049943,
      "loss": 1.7542,
      "step": 21931
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38638877868652344,
      "learning_rate": 0.0005165975785016053,
      "loss": 1.693,
      "step": 21932
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40419718623161316,
      "learning_rate": 0.0005165903465352987,
      "loss": 1.7268,
      "step": 21933
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38591188192367554,
      "learning_rate": 0.0005165831143060834,
      "loss": 1.6575,
      "step": 21934
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3766799569129944,
      "learning_rate": 0.000516575881813968,
      "loss": 1.6575,
      "step": 21935
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3827863931655884,
      "learning_rate": 0.0005165686490589614,
      "loss": 1.6646,
      "step": 21936
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3918982446193695,
      "learning_rate": 0.0005165614160410725,
      "loss": 1.6446,
      "step": 21937
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3943571150302887,
      "learning_rate": 0.0005165541827603098,
      "loss": 1.705,
      "step": 21938
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38283392786979675,
      "learning_rate": 0.0005165469492166824,
      "loss": 1.6375,
      "step": 21939
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38032329082489014,
      "learning_rate": 0.0005165397154101987,
      "loss": 1.6722,
      "step": 21940
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38109251856803894,
      "learning_rate": 0.0005165324813408679,
      "loss": 1.6639,
      "step": 21941
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38491716980934143,
      "learning_rate": 0.0005165252470086984,
      "loss": 1.6569,
      "step": 21942
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3901737928390503,
      "learning_rate": 0.0005165180124136993,
      "loss": 1.6419,
      "step": 21943
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39611324667930603,
      "learning_rate": 0.0005165107775558791,
      "loss": 1.6412,
      "step": 21944
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3723616600036621,
      "learning_rate": 0.0005165035424352469,
      "loss": 1.6154,
      "step": 21945
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3903222382068634,
      "learning_rate": 0.0005164963070518111,
      "loss": 1.6526,
      "step": 21946
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3785884380340576,
      "learning_rate": 0.0005164890714055809,
      "loss": 1.7115,
      "step": 21947
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4219975173473358,
      "learning_rate": 0.0005164818354965646,
      "loss": 1.8083,
      "step": 21948
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38726162910461426,
      "learning_rate": 0.0005164745993247714,
      "loss": 1.7114,
      "step": 21949
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39016619324684143,
      "learning_rate": 0.0005164673628902099,
      "loss": 1.7329,
      "step": 21950
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39958491921424866,
      "learning_rate": 0.0005164601261928889,
      "loss": 1.706,
      "step": 21951
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3812611401081085,
      "learning_rate": 0.0005164528892328173,
      "loss": 1.6759,
      "step": 21952
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3890984356403351,
      "learning_rate": 0.0005164456520100037,
      "loss": 1.6969,
      "step": 21953
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38322359323501587,
      "learning_rate": 0.000516438414524457,
      "loss": 1.7056,
      "step": 21954
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4154479503631592,
      "learning_rate": 0.000516431176776186,
      "loss": 1.6961,
      "step": 21955
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3858257830142975,
      "learning_rate": 0.0005164239387651993,
      "loss": 1.6922,
      "step": 21956
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38496699929237366,
      "learning_rate": 0.000516416700491506,
      "loss": 1.712,
      "step": 21957
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39047205448150635,
      "learning_rate": 0.0005164094619551145,
      "loss": 1.7131,
      "step": 21958
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37706485390663147,
      "learning_rate": 0.0005164022231560339,
      "loss": 1.6376,
      "step": 21959
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3898750841617584,
      "learning_rate": 0.000516394984094273,
      "loss": 1.6464,
      "step": 21960
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38809430599212646,
      "learning_rate": 0.0005163877447698403,
      "loss": 1.6965,
      "step": 21961
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37692496180534363,
      "learning_rate": 0.0005163805051827449,
      "loss": 1.7071,
      "step": 21962
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3800264000892639,
      "learning_rate": 0.0005163732653329954,
      "loss": 1.5997,
      "step": 21963
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38212850689888,
      "learning_rate": 0.0005163660252206005,
      "loss": 1.6645,
      "step": 21964
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3911076486110687,
      "learning_rate": 0.0005163587848455694,
      "loss": 1.8025,
      "step": 21965
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.381404846906662,
      "learning_rate": 0.0005163515442079104,
      "loss": 1.7007,
      "step": 21966
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38086289167404175,
      "learning_rate": 0.0005163443033076327,
      "loss": 1.6763,
      "step": 21967
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40743908286094666,
      "learning_rate": 0.0005163370621447446,
      "loss": 1.7144,
      "step": 21968
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37213122844696045,
      "learning_rate": 0.0005163298207192554,
      "loss": 1.703,
      "step": 21969
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38278403878211975,
      "learning_rate": 0.0005163225790311736,
      "loss": 1.7111,
      "step": 21970
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38769957423210144,
      "learning_rate": 0.0005163153370805081,
      "loss": 1.7082,
      "step": 21971
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38839471340179443,
      "learning_rate": 0.0005163080948672676,
      "loss": 1.6888,
      "step": 21972
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38616177439689636,
      "learning_rate": 0.000516300852391461,
      "loss": 1.6594,
      "step": 21973
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40460625290870667,
      "learning_rate": 0.000516293609653097,
      "loss": 1.768,
      "step": 21974
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4258715808391571,
      "learning_rate": 0.0005162863666521845,
      "loss": 1.7277,
      "step": 21975
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38923847675323486,
      "learning_rate": 0.0005162791233887321,
      "loss": 1.7357,
      "step": 21976
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3950609564781189,
      "learning_rate": 0.0005162718798627489,
      "loss": 1.681,
      "step": 21977
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3671607971191406,
      "learning_rate": 0.0005162646360742433,
      "loss": 1.6388,
      "step": 21978
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4001675844192505,
      "learning_rate": 0.0005162573920232244,
      "loss": 1.7082,
      "step": 21979
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4157327711582184,
      "learning_rate": 0.0005162501477097008,
      "loss": 1.6267,
      "step": 21980
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3851609230041504,
      "learning_rate": 0.0005162429031336814,
      "loss": 1.7366,
      "step": 21981
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3908243477344513,
      "learning_rate": 0.0005162356582951751,
      "loss": 1.7471,
      "step": 21982
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4033447802066803,
      "learning_rate": 0.0005162284131941905,
      "loss": 1.7061,
      "step": 21983
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.391337513923645,
      "learning_rate": 0.0005162211678307365,
      "loss": 1.687,
      "step": 21984
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.395978718996048,
      "learning_rate": 0.0005162139222048218,
      "loss": 1.6933,
      "step": 21985
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3831174075603485,
      "learning_rate": 0.0005162066763164553,
      "loss": 1.6842,
      "step": 21986
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4077790677547455,
      "learning_rate": 0.0005161994301656457,
      "loss": 1.7204,
      "step": 21987
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39020249247550964,
      "learning_rate": 0.0005161921837524019,
      "loss": 1.6846,
      "step": 21988
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3755885660648346,
      "learning_rate": 0.0005161849370767326,
      "loss": 1.6654,
      "step": 21989
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37179940938949585,
      "learning_rate": 0.0005161776901386466,
      "loss": 1.6493,
      "step": 21990
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3843998312950134,
      "learning_rate": 0.0005161704429381529,
      "loss": 1.7447,
      "step": 21991
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3861699402332306,
      "learning_rate": 0.00051616319547526,
      "loss": 1.6333,
      "step": 21992
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3988848030567169,
      "learning_rate": 0.0005161559477499768,
      "loss": 1.6782,
      "step": 21993
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3727830648422241,
      "learning_rate": 0.0005161486997623122,
      "loss": 1.6297,
      "step": 21994
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37088125944137573,
      "learning_rate": 0.000516141451512275,
      "loss": 1.6666,
      "step": 21995
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3749074339866638,
      "learning_rate": 0.0005161342029998738,
      "loss": 1.6858,
      "step": 21996
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3851557672023773,
      "learning_rate": 0.0005161269542251175,
      "loss": 1.7411,
      "step": 21997
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3906114101409912,
      "learning_rate": 0.0005161197051880151,
      "loss": 1.6724,
      "step": 21998
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3836108446121216,
      "learning_rate": 0.0005161124558885751,
      "loss": 1.6748,
      "step": 21999
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37549054622650146,
      "learning_rate": 0.0005161052063268063,
      "loss": 1.6632,
      "step": 22000
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3744625151157379,
      "learning_rate": 0.0005160979565027178,
      "loss": 1.6805,
      "step": 22001
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39195582270622253,
      "learning_rate": 0.0005160907064163182,
      "loss": 1.755,
      "step": 22002
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3875540494918823,
      "learning_rate": 0.0005160834560676163,
      "loss": 1.7018,
      "step": 22003
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3738918900489807,
      "learning_rate": 0.0005160762054566209,
      "loss": 1.6767,
      "step": 22004
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38968539237976074,
      "learning_rate": 0.0005160689545833408,
      "loss": 1.7397,
      "step": 22005
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38447117805480957,
      "learning_rate": 0.000516061703447785,
      "loss": 1.7885,
      "step": 22006
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3805009722709656,
      "learning_rate": 0.000516054452049962,
      "loss": 1.6484,
      "step": 22007
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38446545600891113,
      "learning_rate": 0.0005160472003898806,
      "loss": 1.72,
      "step": 22008
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3814336061477661,
      "learning_rate": 0.0005160399484675499,
      "loss": 1.7658,
      "step": 22009
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37420156598091125,
      "learning_rate": 0.0005160326962829785,
      "loss": 1.6545,
      "step": 22010
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38659676909446716,
      "learning_rate": 0.0005160254438361752,
      "loss": 1.6636,
      "step": 22011
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38138347864151,
      "learning_rate": 0.0005160181911271489,
      "loss": 1.6259,
      "step": 22012
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38445430994033813,
      "learning_rate": 0.0005160109381559083,
      "loss": 1.7524,
      "step": 22013
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38233548402786255,
      "learning_rate": 0.0005160036849224623,
      "loss": 1.6402,
      "step": 22014
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40205302834510803,
      "learning_rate": 0.0005159964314268196,
      "loss": 1.729,
      "step": 22015
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39170628786087036,
      "learning_rate": 0.000515989177668989,
      "loss": 1.679,
      "step": 22016
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3893120288848877,
      "learning_rate": 0.0005159819236489794,
      "loss": 1.6879,
      "step": 22017
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3929249048233032,
      "learning_rate": 0.0005159746693667997,
      "loss": 1.7077,
      "step": 22018
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3840356171131134,
      "learning_rate": 0.0005159674148224585,
      "loss": 1.6892,
      "step": 22019
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3936220109462738,
      "learning_rate": 0.0005159601600159647,
      "loss": 1.7546,
      "step": 22020
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38661378622055054,
      "learning_rate": 0.000515952904947327,
      "loss": 1.6532,
      "step": 22021
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3799682855606079,
      "learning_rate": 0.0005159456496165543,
      "loss": 1.6742,
      "step": 22022
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3848678469657898,
      "learning_rate": 0.0005159383940236555,
      "loss": 1.6712,
      "step": 22023
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38911476731300354,
      "learning_rate": 0.0005159311381686391,
      "loss": 1.6833,
      "step": 22024
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3835448920726776,
      "learning_rate": 0.0005159238820515143,
      "loss": 1.6291,
      "step": 22025
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6998889446258545,
      "learning_rate": 0.0005159166256722897,
      "loss": 1.6961,
      "step": 22026
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39750832319259644,
      "learning_rate": 0.0005159093690309741,
      "loss": 1.6541,
      "step": 22027
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4025740921497345,
      "learning_rate": 0.0005159021121275764,
      "loss": 1.7142,
      "step": 22028
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39038413763046265,
      "learning_rate": 0.0005158948549621053,
      "loss": 1.7116,
      "step": 22029
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3872106969356537,
      "learning_rate": 0.0005158875975345696,
      "loss": 1.618,
      "step": 22030
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4000285863876343,
      "learning_rate": 0.0005158803398449782,
      "loss": 1.7324,
      "step": 22031
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3816533386707306,
      "learning_rate": 0.00051587308189334,
      "loss": 1.6561,
      "step": 22032
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38969358801841736,
      "learning_rate": 0.0005158658236796635,
      "loss": 1.6979,
      "step": 22033
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3926808536052704,
      "learning_rate": 0.0005158585652039578,
      "loss": 1.6901,
      "step": 22034
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40163302421569824,
      "learning_rate": 0.0005158513064662315,
      "loss": 1.703,
      "step": 22035
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.41444677114486694,
      "learning_rate": 0.0005158440474664937,
      "loss": 1.764,
      "step": 22036
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3904213607311249,
      "learning_rate": 0.000515836788204753,
      "loss": 1.7061,
      "step": 22037
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40710797905921936,
      "learning_rate": 0.0005158295286810181,
      "loss": 1.6947,
      "step": 22038
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3775528371334076,
      "learning_rate": 0.000515822268895298,
      "loss": 1.7013,
      "step": 22039
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3914863169193268,
      "learning_rate": 0.0005158150088476015,
      "loss": 1.7605,
      "step": 22040
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38940539956092834,
      "learning_rate": 0.0005158077485379374,
      "loss": 1.6753,
      "step": 22041
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39291152358055115,
      "learning_rate": 0.0005158004879663145,
      "loss": 1.7724,
      "step": 22042
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38971444964408875,
      "learning_rate": 0.0005157932271327415,
      "loss": 1.6747,
      "step": 22043
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3893059492111206,
      "learning_rate": 0.0005157859660372274,
      "loss": 1.7445,
      "step": 22044
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39336973428726196,
      "learning_rate": 0.0005157787046797809,
      "loss": 1.5699,
      "step": 22045
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39093416929244995,
      "learning_rate": 0.0005157714430604109,
      "loss": 1.6491,
      "step": 22046
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3765137791633606,
      "learning_rate": 0.0005157641811791261,
      "loss": 1.6616,
      "step": 22047
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3861062228679657,
      "learning_rate": 0.0005157569190359354,
      "loss": 1.6861,
      "step": 22048
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4210050106048584,
      "learning_rate": 0.0005157496566308475,
      "loss": 1.6926,
      "step": 22049
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3742053508758545,
      "learning_rate": 0.0005157423939638714,
      "loss": 1.7255,
      "step": 22050
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3936336040496826,
      "learning_rate": 0.0005157351310350159,
      "loss": 1.6965,
      "step": 22051
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38699325919151306,
      "learning_rate": 0.0005157278678442896,
      "loss": 1.7723,
      "step": 22052
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4035992920398712,
      "learning_rate": 0.0005157206043917015,
      "loss": 1.7646,
      "step": 22053
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3873771131038666,
      "learning_rate": 0.0005157133406772604,
      "loss": 1.6831,
      "step": 22054
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3877142667770386,
      "learning_rate": 0.0005157060767009751,
      "loss": 1.7199,
      "step": 22055
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4175570011138916,
      "learning_rate": 0.0005156988124628544,
      "loss": 1.7443,
      "step": 22056
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3988283574581146,
      "learning_rate": 0.000515691547962907,
      "loss": 1.7586,
      "step": 22057
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38190609216690063,
      "learning_rate": 0.000515684283201142,
      "loss": 1.6475,
      "step": 22058
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39173826575279236,
      "learning_rate": 0.0005156770181775679,
      "loss": 1.6406,
      "step": 22059
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3829686641693115,
      "learning_rate": 0.0005156697528921939,
      "loss": 1.6015,
      "step": 22060
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3925172686576843,
      "learning_rate": 0.0005156624873450284,
      "loss": 1.7292,
      "step": 22061
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3932366967201233,
      "learning_rate": 0.0005156552215360806,
      "loss": 1.7016,
      "step": 22062
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3855043351650238,
      "learning_rate": 0.0005156479554653589,
      "loss": 1.7094,
      "step": 22063
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3862079083919525,
      "learning_rate": 0.0005156406891328726,
      "loss": 1.6832,
      "step": 22064
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3980286121368408,
      "learning_rate": 0.0005156334225386301,
      "loss": 1.6877,
      "step": 22065
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3981707692146301,
      "learning_rate": 0.0005156261556826404,
      "loss": 1.7717,
      "step": 22066
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37930119037628174,
      "learning_rate": 0.0005156188885649123,
      "loss": 1.7697,
      "step": 22067
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37476301193237305,
      "learning_rate": 0.0005156116211854548,
      "loss": 1.7261,
      "step": 22068
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3970343768596649,
      "learning_rate": 0.0005156043535442764,
      "loss": 1.5983,
      "step": 22069
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3900322914123535,
      "learning_rate": 0.0005155970856413863,
      "loss": 1.7335,
      "step": 22070
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3843771517276764,
      "learning_rate": 0.000515589817476793,
      "loss": 1.701,
      "step": 22071
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3966444134712219,
      "learning_rate": 0.0005155825490505053,
      "loss": 1.6812,
      "step": 22072
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6748765707015991,
      "learning_rate": 0.0005155752803625322,
      "loss": 1.7301,
      "step": 22073
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37730592489242554,
      "learning_rate": 0.0005155680114128826,
      "loss": 1.7156,
      "step": 22074
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.40620654821395874,
      "learning_rate": 0.000515560742201565,
      "loss": 1.6997,
      "step": 22075
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3976840674877167,
      "learning_rate": 0.0005155534727285886,
      "loss": 1.7346,
      "step": 22076
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.388200581073761,
      "learning_rate": 0.0005155462029939619,
      "loss": 1.7451,
      "step": 22077
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.38495728373527527,
      "learning_rate": 0.000515538932997694,
      "loss": 1.6928,
      "step": 22078
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.4039735496044159,
      "learning_rate": 0.0005155316627397936,
      "loss": 1.7812,
      "step": 22079
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3885561227798462,
      "learning_rate": 0.0005155243922202695,
      "loss": 1.7294,
      "step": 22080
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3763227164745331,
      "learning_rate": 0.0005155171214391304,
      "loss": 1.6833,
      "step": 22081
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39243102073669434,
      "learning_rate": 0.0005155098503963854,
      "loss": 1.6673,
      "step": 22082
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3817286789417267,
      "learning_rate": 0.000515502579092043,
      "loss": 1.6361,
      "step": 22083
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3796505630016327,
      "learning_rate": 0.0005154953075261125,
      "loss": 1.6814,
      "step": 22084
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3746024966239929,
      "learning_rate": 0.0005154880356986023,
      "loss": 1.6997,
      "step": 22085
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3995026648044586,
      "learning_rate": 0.0005154807636095214,
      "loss": 1.7428,
      "step": 22086
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3808444142341614,
      "learning_rate": 0.0005154734912588786,
      "loss": 1.6554,
      "step": 22087
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39610472321510315,
      "learning_rate": 0.0005154662186466828,
      "loss": 1.7064,
      "step": 22088
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.39487358927726746,
      "learning_rate": 0.0005154589457729427,
      "loss": 1.7394,
      "step": 22089
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.37661370635032654,
      "learning_rate": 0.0005154516726376671,
      "loss": 1.7012,
      "step": 22090
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.389823853969574,
      "learning_rate": 0.0005154443992408651,
      "loss": 1.6799,
      "step": 22091
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38589736819267273,
      "learning_rate": 0.0005154371255825452,
      "loss": 1.6944,
      "step": 22092
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5195690393447876,
      "learning_rate": 0.0005154298516627165,
      "loss": 1.6995,
      "step": 22093
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3776746690273285,
      "learning_rate": 0.0005154225774813876,
      "loss": 1.7262,
      "step": 22094
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3976382911205292,
      "learning_rate": 0.0005154153030385674,
      "loss": 1.6402,
      "step": 22095
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3892439007759094,
      "learning_rate": 0.0005154080283342648,
      "loss": 1.6755,
      "step": 22096
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3928638696670532,
      "learning_rate": 0.0005154007533684886,
      "loss": 1.6887,
      "step": 22097
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37746140360832214,
      "learning_rate": 0.0005153934781412477,
      "loss": 1.6389,
      "step": 22098
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3816148638725281,
      "learning_rate": 0.0005153862026525507,
      "loss": 1.6582,
      "step": 22099
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3859512209892273,
      "learning_rate": 0.0005153789269024066,
      "loss": 1.666,
      "step": 22100
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38152560591697693,
      "learning_rate": 0.0005153716508908243,
      "loss": 1.7015,
      "step": 22101
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38309168815612793,
      "learning_rate": 0.0005153643746178126,
      "loss": 1.7072,
      "step": 22102
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3793870806694031,
      "learning_rate": 0.0005153570980833803,
      "loss": 1.6755,
      "step": 22103
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38299062848091125,
      "learning_rate": 0.000515349821287536,
      "loss": 1.7217,
      "step": 22104
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38660934567451477,
      "learning_rate": 0.0005153425442302889,
      "loss": 1.6549,
      "step": 22105
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3753357231616974,
      "learning_rate": 0.0005153352669116477,
      "loss": 1.7181,
      "step": 22106
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37966594099998474,
      "learning_rate": 0.0005153279893316212,
      "loss": 1.7069,
      "step": 22107
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3838162124156952,
      "learning_rate": 0.0005153207114902182,
      "loss": 1.7091,
      "step": 22108
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38689908385276794,
      "learning_rate": 0.0005153134333874476,
      "loss": 1.6908,
      "step": 22109
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37906327843666077,
      "learning_rate": 0.0005153061550233182,
      "loss": 1.6459,
      "step": 22110
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3939255177974701,
      "learning_rate": 0.0005152988763978389,
      "loss": 1.6081,
      "step": 22111
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38368943333625793,
      "learning_rate": 0.0005152915975110184,
      "loss": 1.5795,
      "step": 22112
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.36819395422935486,
      "learning_rate": 0.0005152843183628658,
      "loss": 1.6101,
      "step": 22113
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3884534239768982,
      "learning_rate": 0.0005152770389533895,
      "loss": 1.699,
      "step": 22114
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4060611128807068,
      "learning_rate": 0.0005152697592825988,
      "loss": 1.7597,
      "step": 22115
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3659107983112335,
      "learning_rate": 0.0005152624793505023,
      "loss": 1.6712,
      "step": 22116
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3824104964733124,
      "learning_rate": 0.0005152551991571088,
      "loss": 1.7059,
      "step": 22117
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3802797794342041,
      "learning_rate": 0.0005152479187024272,
      "loss": 1.6895,
      "step": 22118
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3869054317474365,
      "learning_rate": 0.0005152406379864664,
      "loss": 1.7467,
      "step": 22119
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38468727469444275,
      "learning_rate": 0.0005152333570092351,
      "loss": 1.6348,
      "step": 22120
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3767688572406769,
      "learning_rate": 0.0005152260757707424,
      "loss": 1.6828,
      "step": 22121
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39909735321998596,
      "learning_rate": 0.0005152187942709968,
      "loss": 1.7231,
      "step": 22122
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37628504633903503,
      "learning_rate": 0.0005152115125100073,
      "loss": 1.7114,
      "step": 22123
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3872031271457672,
      "learning_rate": 0.0005152042304877828,
      "loss": 1.7365,
      "step": 22124
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38150444626808167,
      "learning_rate": 0.000515196948204332,
      "loss": 1.6176,
      "step": 22125
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40019792318344116,
      "learning_rate": 0.0005151896656596638,
      "loss": 1.6698,
      "step": 22126
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3791343867778778,
      "learning_rate": 0.0005151823828537871,
      "loss": 1.6479,
      "step": 22127
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38036081194877625,
      "learning_rate": 0.0005151750997867107,
      "loss": 1.6801,
      "step": 22128
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3866729438304901,
      "learning_rate": 0.0005151678164584435,
      "loss": 1.7129,
      "step": 22129
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4099678695201874,
      "learning_rate": 0.0005151605328689941,
      "loss": 1.7501,
      "step": 22130
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5687596797943115,
      "learning_rate": 0.0005151532490183718,
      "loss": 1.7416,
      "step": 22131
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38729938864707947,
      "learning_rate": 0.0005151459649065848,
      "loss": 1.7252,
      "step": 22132
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38552767038345337,
      "learning_rate": 0.0005151386805336425,
      "loss": 1.6566,
      "step": 22133
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38243991136550903,
      "learning_rate": 0.0005151313958995535,
      "loss": 1.6792,
      "step": 22134
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39439913630485535,
      "learning_rate": 0.0005151241110043268,
      "loss": 1.7239,
      "step": 22135
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3925537168979645,
      "learning_rate": 0.0005151168258479709,
      "loss": 1.6795,
      "step": 22136
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3813380002975464,
      "learning_rate": 0.0005151095404304951,
      "loss": 1.6412,
      "step": 22137
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38998943567276,
      "learning_rate": 0.0005151022547519079,
      "loss": 1.6632,
      "step": 22138
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3798462450504303,
      "learning_rate": 0.0005150949688122182,
      "loss": 1.6997,
      "step": 22139
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38517940044403076,
      "learning_rate": 0.000515087682611435,
      "loss": 1.6437,
      "step": 22140
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38255277276039124,
      "learning_rate": 0.000515080396149567,
      "loss": 1.6462,
      "step": 22141
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4229563772678375,
      "learning_rate": 0.000515073109426623,
      "loss": 1.7029,
      "step": 22142
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3887435793876648,
      "learning_rate": 0.000515065822442612,
      "loss": 1.7809,
      "step": 22143
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3821963965892792,
      "learning_rate": 0.000515058535197543,
      "loss": 1.6811,
      "step": 22144
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38216158747673035,
      "learning_rate": 0.0005150512476914243,
      "loss": 1.7732,
      "step": 22145
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3728570342063904,
      "learning_rate": 0.0005150439599242653,
      "loss": 1.7261,
      "step": 22146
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3872445821762085,
      "learning_rate": 0.0005150366718960744,
      "loss": 1.6916,
      "step": 22147
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39624765515327454,
      "learning_rate": 0.0005150293836068609,
      "loss": 1.7375,
      "step": 22148
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3955764174461365,
      "learning_rate": 0.0005150220950566332,
      "loss": 1.6204,
      "step": 22149
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3859328329563141,
      "learning_rate": 0.0005150148062454006,
      "loss": 1.7092,
      "step": 22150
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3907627761363983,
      "learning_rate": 0.0005150075171731714,
      "loss": 1.723,
      "step": 22151
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39970412850379944,
      "learning_rate": 0.0005150002278399551,
      "loss": 1.7082,
      "step": 22152
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3695410192012787,
      "learning_rate": 0.00051499293824576,
      "loss": 1.663,
      "step": 22153
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38878968358039856,
      "learning_rate": 0.0005149856483905952,
      "loss": 1.7566,
      "step": 22154
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38650235533714294,
      "learning_rate": 0.0005149783582744694,
      "loss": 1.6587,
      "step": 22155
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5159919857978821,
      "learning_rate": 0.0005149710678973916,
      "loss": 1.6952,
      "step": 22156
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38448163866996765,
      "learning_rate": 0.0005149637772593706,
      "loss": 1.7188,
      "step": 22157
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4052615463733673,
      "learning_rate": 0.0005149564863604153,
      "loss": 1.6727,
      "step": 22158
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3859998881816864,
      "learning_rate": 0.0005149491952005345,
      "loss": 1.717,
      "step": 22159
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39638349413871765,
      "learning_rate": 0.0005149419037797369,
      "loss": 1.7007,
      "step": 22160
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.41095834970474243,
      "learning_rate": 0.0005149346120980316,
      "loss": 1.7284,
      "step": 22161
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3814431130886078,
      "learning_rate": 0.0005149273201554274,
      "loss": 1.7081,
      "step": 22162
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3817313313484192,
      "learning_rate": 0.0005149200279519331,
      "loss": 1.6358,
      "step": 22163
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3810635805130005,
      "learning_rate": 0.0005149127354875574,
      "loss": 1.6357,
      "step": 22164
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3735002875328064,
      "learning_rate": 0.0005149054427623095,
      "loss": 1.6894,
      "step": 22165
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3819466233253479,
      "learning_rate": 0.0005148981497761979,
      "loss": 1.6832,
      "step": 22166
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.387386679649353,
      "learning_rate": 0.0005148908565292317,
      "loss": 1.7028,
      "step": 22167
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3875868022441864,
      "learning_rate": 0.0005148835630214198,
      "loss": 1.7067,
      "step": 22168
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3886883556842804,
      "learning_rate": 0.0005148762692527707,
      "loss": 1.6392,
      "step": 22169
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4029856026172638,
      "learning_rate": 0.0005148689752232935,
      "loss": 1.7087,
      "step": 22170
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3868596851825714,
      "learning_rate": 0.0005148616809329971,
      "loss": 1.7355,
      "step": 22171
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3936281204223633,
      "learning_rate": 0.0005148543863818903,
      "loss": 1.6541,
      "step": 22172
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.369253009557724,
      "learning_rate": 0.0005148470915699818,
      "loss": 1.688,
      "step": 22173
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3804813027381897,
      "learning_rate": 0.0005148397964972807,
      "loss": 1.7057,
      "step": 22174
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38674306869506836,
      "learning_rate": 0.0005148325011637957,
      "loss": 1.6734,
      "step": 22175
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38600680232048035,
      "learning_rate": 0.0005148252055695357,
      "loss": 1.6326,
      "step": 22176
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39762282371520996,
      "learning_rate": 0.0005148179097145095,
      "loss": 1.7258,
      "step": 22177
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37468889355659485,
      "learning_rate": 0.0005148106135987261,
      "loss": 1.698,
      "step": 22178
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.396913081407547,
      "learning_rate": 0.0005148033172221942,
      "loss": 1.6561,
      "step": 22179
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.41320154070854187,
      "learning_rate": 0.0005147960205849227,
      "loss": 1.7702,
      "step": 22180
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39476820826530457,
      "learning_rate": 0.0005147887236869206,
      "loss": 1.7641,
      "step": 22181
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3837120532989502,
      "learning_rate": 0.0005147814265281965,
      "loss": 1.716,
      "step": 22182
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38922595977783203,
      "learning_rate": 0.0005147741291087596,
      "loss": 1.7698,
      "step": 22183
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38536861538887024,
      "learning_rate": 0.0005147668314286184,
      "loss": 1.7207,
      "step": 22184
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39049556851387024,
      "learning_rate": 0.0005147595334877818,
      "loss": 1.7775,
      "step": 22185
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3920494019985199,
      "learning_rate": 0.000514752235286259,
      "loss": 1.7071,
      "step": 22186
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3937934637069702,
      "learning_rate": 0.0005147449368240585,
      "loss": 1.7276,
      "step": 22187
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.394075483083725,
      "learning_rate": 0.0005147376381011893,
      "loss": 1.6693,
      "step": 22188
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39053604006767273,
      "learning_rate": 0.0005147303391176602,
      "loss": 1.7154,
      "step": 22189
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3777846097946167,
      "learning_rate": 0.0005147230398734802,
      "loss": 1.6711,
      "step": 22190
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3818400800228119,
      "learning_rate": 0.000514715740368658,
      "loss": 1.6973,
      "step": 22191
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39214253425598145,
      "learning_rate": 0.0005147084406032026,
      "loss": 1.7303,
      "step": 22192
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37816309928894043,
      "learning_rate": 0.0005147011405771228,
      "loss": 1.6104,
      "step": 22193
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.374737024307251,
      "learning_rate": 0.0005146938402904274,
      "loss": 1.6028,
      "step": 22194
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3762398660182953,
      "learning_rate": 0.0005146865397431253,
      "loss": 1.6283,
      "step": 22195
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38025084137916565,
      "learning_rate": 0.0005146792389352253,
      "loss": 1.6966,
      "step": 22196
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.36664119362831116,
      "learning_rate": 0.0005146719378667365,
      "loss": 1.6817,
      "step": 22197
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38221341371536255,
      "learning_rate": 0.0005146646365376675,
      "loss": 1.6688,
      "step": 22198
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39029690623283386,
      "learning_rate": 0.0005146573349480273,
      "loss": 1.7146,
      "step": 22199
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.367055743932724,
      "learning_rate": 0.0005146500330978247,
      "loss": 1.6189,
      "step": 22200
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3907337486743927,
      "learning_rate": 0.0005146427309870686,
      "loss": 1.7511,
      "step": 22201
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3942994177341461,
      "learning_rate": 0.0005146354286157678,
      "loss": 1.6298,
      "step": 22202
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3806541860103607,
      "learning_rate": 0.0005146281259839312,
      "loss": 1.7116,
      "step": 22203
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3927110731601715,
      "learning_rate": 0.0005146208230915678,
      "loss": 1.7147,
      "step": 22204
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38796767592430115,
      "learning_rate": 0.0005146135199386862,
      "loss": 1.6142,
      "step": 22205
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4027087688446045,
      "learning_rate": 0.0005146062165252955,
      "loss": 1.7587,
      "step": 22206
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3850226402282715,
      "learning_rate": 0.0005145989128514045,
      "loss": 1.6573,
      "step": 22207
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3744300901889801,
      "learning_rate": 0.000514591608917022,
      "loss": 1.7286,
      "step": 22208
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4001557528972626,
      "learning_rate": 0.0005145843047221569,
      "loss": 1.7262,
      "step": 22209
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3884170353412628,
      "learning_rate": 0.0005145770002668181,
      "loss": 1.6647,
      "step": 22210
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37974968552589417,
      "learning_rate": 0.0005145696955510144,
      "loss": 1.6997,
      "step": 22211
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3803901672363281,
      "learning_rate": 0.0005145623905747547,
      "loss": 1.6346,
      "step": 22212
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3816598951816559,
      "learning_rate": 0.0005145550853380479,
      "loss": 1.6318,
      "step": 22213
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3902469277381897,
      "learning_rate": 0.0005145477798409029,
      "loss": 1.7247,
      "step": 22214
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3789118826389313,
      "learning_rate": 0.0005145404740833283,
      "loss": 1.5996,
      "step": 22215
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38764306902885437,
      "learning_rate": 0.0005145331680653334,
      "loss": 1.7663,
      "step": 22216
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3757542073726654,
      "learning_rate": 0.0005145258617869268,
      "loss": 1.6579,
      "step": 22217
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3835316300392151,
      "learning_rate": 0.0005145185552481174,
      "loss": 1.7299,
      "step": 22218
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38970664143562317,
      "learning_rate": 0.0005145112484489139,
      "loss": 1.7138,
      "step": 22219
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38604244589805603,
      "learning_rate": 0.0005145039413893256,
      "loss": 1.7075,
      "step": 22220
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38896745443344116,
      "learning_rate": 0.0005144966340693611,
      "loss": 1.6482,
      "step": 22221
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3875180780887604,
      "learning_rate": 0.0005144893264890291,
      "loss": 1.6669,
      "step": 22222
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3793472945690155,
      "learning_rate": 0.0005144820186483388,
      "loss": 1.6426,
      "step": 22223
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3917364776134491,
      "learning_rate": 0.0005144747105472988,
      "loss": 1.6708,
      "step": 22224
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3892875015735626,
      "learning_rate": 0.0005144674021859184,
      "loss": 1.6612,
      "step": 22225
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3732850253582001,
      "learning_rate": 0.0005144600935642059,
      "loss": 1.678,
      "step": 22226
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.375744491815567,
      "learning_rate": 0.0005144527846821706,
      "loss": 1.6454,
      "step": 22227
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37481966614723206,
      "learning_rate": 0.000514445475539821,
      "loss": 1.731,
      "step": 22228
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3841972351074219,
      "learning_rate": 0.0005144381661371665,
      "loss": 1.6799,
      "step": 22229
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3860064744949341,
      "learning_rate": 0.0005144308564742154,
      "loss": 1.7579,
      "step": 22230
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3993324935436249,
      "learning_rate": 0.000514423546550977,
      "loss": 1.5755,
      "step": 22231
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40119701623916626,
      "learning_rate": 0.0005144162363674599,
      "loss": 1.6695,
      "step": 22232
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3952324688434601,
      "learning_rate": 0.0005144089259236732,
      "loss": 1.6631,
      "step": 22233
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37897711992263794,
      "learning_rate": 0.0005144016152196256,
      "loss": 1.6362,
      "step": 22234
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37618425488471985,
      "learning_rate": 0.000514394304255326,
      "loss": 1.6953,
      "step": 22235
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4150533378124237,
      "learning_rate": 0.0005143869930307833,
      "loss": 1.7037,
      "step": 22236
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4055189788341522,
      "learning_rate": 0.0005143796815460064,
      "loss": 1.7591,
      "step": 22237
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3673587143421173,
      "learning_rate": 0.0005143723698010041,
      "loss": 1.6779,
      "step": 22238
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3792571723461151,
      "learning_rate": 0.0005143650577957853,
      "loss": 1.6682,
      "step": 22239
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39131322503089905,
      "learning_rate": 0.000514357745530359,
      "loss": 1.7118,
      "step": 22240
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.380473256111145,
      "learning_rate": 0.0005143504330047341,
      "loss": 1.6628,
      "step": 22241
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38034534454345703,
      "learning_rate": 0.0005143431202189191,
      "loss": 1.6043,
      "step": 22242
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37559932470321655,
      "learning_rate": 0.0005143358071729232,
      "loss": 1.657,
      "step": 22243
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39958035945892334,
      "learning_rate": 0.0005143284938667553,
      "loss": 1.6616,
      "step": 22244
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38139352202415466,
      "learning_rate": 0.0005143211803004242,
      "loss": 1.7034,
      "step": 22245
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3871747553348541,
      "learning_rate": 0.0005143138664739388,
      "loss": 1.6502,
      "step": 22246
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.373904824256897,
      "learning_rate": 0.0005143065523873077,
      "loss": 1.649,
      "step": 22247
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38196516036987305,
      "learning_rate": 0.0005142992380405403,
      "loss": 1.7036,
      "step": 22248
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3790198564529419,
      "learning_rate": 0.000514291923433645,
      "loss": 1.6874,
      "step": 22249
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40029218792915344,
      "learning_rate": 0.0005142846085666311,
      "loss": 1.6478,
      "step": 22250
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3861728608608246,
      "learning_rate": 0.000514277293439507,
      "loss": 1.7061,
      "step": 22251
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3755905032157898,
      "learning_rate": 0.000514269978052282,
      "loss": 1.5893,
      "step": 22252
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3821166157722473,
      "learning_rate": 0.0005142626624049648,
      "loss": 1.657,
      "step": 22253
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.394514262676239,
      "learning_rate": 0.0005142553464975643,
      "loss": 1.6535,
      "step": 22254
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3891848921775818,
      "learning_rate": 0.0005142480303300894,
      "loss": 1.71,
      "step": 22255
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38020357489585876,
      "learning_rate": 0.0005142407139025488,
      "loss": 1.6957,
      "step": 22256
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3868592381477356,
      "learning_rate": 0.0005142333972149517,
      "loss": 1.6816,
      "step": 22257
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3801115155220032,
      "learning_rate": 0.0005142260802673068,
      "loss": 1.7287,
      "step": 22258
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39243561029434204,
      "learning_rate": 0.000514218763059623,
      "loss": 1.676,
      "step": 22259
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39315295219421387,
      "learning_rate": 0.0005142114455919092,
      "loss": 1.6998,
      "step": 22260
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3802419602870941,
      "learning_rate": 0.0005142041278641742,
      "loss": 1.6398,
      "step": 22261
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39251378178596497,
      "learning_rate": 0.000514196809876427,
      "loss": 1.7343,
      "step": 22262
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37876373529434204,
      "learning_rate": 0.0005141894916286763,
      "loss": 1.6761,
      "step": 22263
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3907321095466614,
      "learning_rate": 0.0005141821731209313,
      "loss": 1.7267,
      "step": 22264
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3847476541996002,
      "learning_rate": 0.0005141748543532007,
      "loss": 1.7117,
      "step": 22265
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3874993920326233,
      "learning_rate": 0.0005141675353254933,
      "loss": 1.7371,
      "step": 22266
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3853549361228943,
      "learning_rate": 0.000514160216037818,
      "loss": 1.6657,
      "step": 22267
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38696128129959106,
      "learning_rate": 0.0005141528964901839,
      "loss": 1.7246,
      "step": 22268
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3870099186897278,
      "learning_rate": 0.0005141455766825997,
      "loss": 1.7339,
      "step": 22269
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39129260182380676,
      "learning_rate": 0.0005141382566150742,
      "loss": 1.6891,
      "step": 22270
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3896813690662384,
      "learning_rate": 0.0005141309362876166,
      "loss": 1.7627,
      "step": 22271
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3866554796695709,
      "learning_rate": 0.0005141236157002355,
      "loss": 1.6446,
      "step": 22272
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37489986419677734,
      "learning_rate": 0.0005141162948529398,
      "loss": 1.5808,
      "step": 22273
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3920057713985443,
      "learning_rate": 0.0005141089737457385,
      "loss": 1.7537,
      "step": 22274
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38873016834259033,
      "learning_rate": 0.0005141016523786406,
      "loss": 1.6902,
      "step": 22275
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38039782643318176,
      "learning_rate": 0.0005140943307516547,
      "loss": 1.6198,
      "step": 22276
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39939579367637634,
      "learning_rate": 0.0005140870088647899,
      "loss": 1.6946,
      "step": 22277
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3841104507446289,
      "learning_rate": 0.000514079686718055,
      "loss": 1.5791,
      "step": 22278
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3794041872024536,
      "learning_rate": 0.0005140723643114589,
      "loss": 1.6435,
      "step": 22279
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38317760825157166,
      "learning_rate": 0.0005140650416450104,
      "loss": 1.7122,
      "step": 22280
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40624314546585083,
      "learning_rate": 0.0005140577187187186,
      "loss": 1.6573,
      "step": 22281
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37796342372894287,
      "learning_rate": 0.0005140503955325922,
      "loss": 1.7005,
      "step": 22282
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3936867117881775,
      "learning_rate": 0.0005140430720866402,
      "loss": 1.6716,
      "step": 22283
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3714314103126526,
      "learning_rate": 0.0005140357483808715,
      "loss": 1.6533,
      "step": 22284
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3841797709465027,
      "learning_rate": 0.0005140284244152948,
      "loss": 1.7739,
      "step": 22285
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3968317210674286,
      "learning_rate": 0.0005140211001899192,
      "loss": 1.6873,
      "step": 22286
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40516769886016846,
      "learning_rate": 0.0005140137757047536,
      "loss": 1.6712,
      "step": 22287
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3734947443008423,
      "learning_rate": 0.0005140064509598067,
      "loss": 1.726,
      "step": 22288
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3755212724208832,
      "learning_rate": 0.0005139991259550875,
      "loss": 1.675,
      "step": 22289
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4108603298664093,
      "learning_rate": 0.000513991800690605,
      "loss": 1.6745,
      "step": 22290
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3880673050880432,
      "learning_rate": 0.0005139844751663678,
      "loss": 1.7449,
      "step": 22291
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37899497151374817,
      "learning_rate": 0.0005139771493823851,
      "loss": 1.6536,
      "step": 22292
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39168959856033325,
      "learning_rate": 0.0005139698233386657,
      "loss": 1.6911,
      "step": 22293
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39472320675849915,
      "learning_rate": 0.0005139624970352184,
      "loss": 1.6771,
      "step": 22294
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38363224267959595,
      "learning_rate": 0.0005139551704720521,
      "loss": 1.6773,
      "step": 22295
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3959524929523468,
      "learning_rate": 0.000513947843649176,
      "loss": 1.6996,
      "step": 22296
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.386622816324234,
      "learning_rate": 0.0005139405165665985,
      "loss": 1.7057,
      "step": 22297
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3972330391407013,
      "learning_rate": 0.0005139331892243288,
      "loss": 1.7069,
      "step": 22298
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38434287905693054,
      "learning_rate": 0.0005139258616223757,
      "loss": 1.702,
      "step": 22299
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39640432596206665,
      "learning_rate": 0.0005139185337607482,
      "loss": 1.7201,
      "step": 22300
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40496405959129333,
      "learning_rate": 0.0005139112056394549,
      "loss": 1.7055,
      "step": 22301
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3959052562713623,
      "learning_rate": 0.0005139038772585052,
      "loss": 1.7056,
      "step": 22302
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4046657085418701,
      "learning_rate": 0.0005138965486179076,
      "loss": 1.7033,
      "step": 22303
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3859449326992035,
      "learning_rate": 0.000513889219717671,
      "loss": 1.6868,
      "step": 22304
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3784821629524231,
      "learning_rate": 0.0005138818905578046,
      "loss": 1.6677,
      "step": 22305
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38635239005088806,
      "learning_rate": 0.000513874561138317,
      "loss": 1.709,
      "step": 22306
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3784792721271515,
      "learning_rate": 0.0005138672314592171,
      "loss": 1.7152,
      "step": 22307
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40518662333488464,
      "learning_rate": 0.000513859901520514,
      "loss": 1.7798,
      "step": 22308
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3902117609977722,
      "learning_rate": 0.0005138525713222165,
      "loss": 1.6574,
      "step": 22309
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.383682519197464,
      "learning_rate": 0.0005138452408643335,
      "loss": 1.6242,
      "step": 22310
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38592055439949036,
      "learning_rate": 0.0005138379101468739,
      "loss": 1.6488,
      "step": 22311
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3912149667739868,
      "learning_rate": 0.0005138305791698466,
      "loss": 1.727,
      "step": 22312
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3973323702812195,
      "learning_rate": 0.0005138232479332604,
      "loss": 1.6814,
      "step": 22313
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38756445050239563,
      "learning_rate": 0.0005138159164371243,
      "loss": 1.6527,
      "step": 22314
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38949349522590637,
      "learning_rate": 0.0005138085846814472,
      "loss": 1.7056,
      "step": 22315
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40824830532073975,
      "learning_rate": 0.0005138012526662379,
      "loss": 1.7145,
      "step": 22316
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3970928490161896,
      "learning_rate": 0.0005137939203915054,
      "loss": 1.7159,
      "step": 22317
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3748135268688202,
      "learning_rate": 0.0005137865878572587,
      "loss": 1.6008,
      "step": 22318
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4047478139400482,
      "learning_rate": 0.0005137792550635065,
      "loss": 1.7239,
      "step": 22319
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3778030574321747,
      "learning_rate": 0.0005137719220102579,
      "loss": 1.6646,
      "step": 22320
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38086384534835815,
      "learning_rate": 0.0005137645886975215,
      "loss": 1.7389,
      "step": 22321
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3908325433731079,
      "learning_rate": 0.0005137572551253065,
      "loss": 1.7,
      "step": 22322
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39624112844467163,
      "learning_rate": 0.0005137499212936216,
      "loss": 1.7506,
      "step": 22323
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3872401714324951,
      "learning_rate": 0.0005137425872024759,
      "loss": 1.7062,
      "step": 22324
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3825352191925049,
      "learning_rate": 0.0005137352528518781,
      "loss": 1.7206,
      "step": 22325
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40723758935928345,
      "learning_rate": 0.0005137279182418372,
      "loss": 1.7206,
      "step": 22326
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40118056535720825,
      "learning_rate": 0.0005137205833723622,
      "loss": 1.6922,
      "step": 22327
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3874576985836029,
      "learning_rate": 0.0005137132482434618,
      "loss": 1.7522,
      "step": 22328
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38676172494888306,
      "learning_rate": 0.000513705912855145,
      "loss": 1.6603,
      "step": 22329
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.383868008852005,
      "learning_rate": 0.0005136985772074208,
      "loss": 1.6465,
      "step": 22330
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3858333230018616,
      "learning_rate": 0.0005136912413002979,
      "loss": 1.675,
      "step": 22331
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39141467213630676,
      "learning_rate": 0.0005136839051337854,
      "loss": 1.6844,
      "step": 22332
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3891448676586151,
      "learning_rate": 0.0005136765687078921,
      "loss": 1.6308,
      "step": 22333
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38899222016334534,
      "learning_rate": 0.0005136692320226269,
      "loss": 1.712,
      "step": 22334
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40515953302383423,
      "learning_rate": 0.0005136618950779989,
      "loss": 1.7112,
      "step": 22335
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3938964307308197,
      "learning_rate": 0.0005136545578740167,
      "loss": 1.7737,
      "step": 22336
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39018020033836365,
      "learning_rate": 0.0005136472204106894,
      "loss": 1.6679,
      "step": 22337
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4305877387523651,
      "learning_rate": 0.0005136398826880257,
      "loss": 1.6592,
      "step": 22338
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38550499081611633,
      "learning_rate": 0.0005136325447060348,
      "loss": 1.6966,
      "step": 22339
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.43562793731689453,
      "learning_rate": 0.0005136252064647255,
      "loss": 1.6569,
      "step": 22340
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3847893178462982,
      "learning_rate": 0.0005136178679641066,
      "loss": 1.7188,
      "step": 22341
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40523195266723633,
      "learning_rate": 0.000513610529204187,
      "loss": 1.6579,
      "step": 22342
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39474859833717346,
      "learning_rate": 0.0005136031901849759,
      "loss": 1.7181,
      "step": 22343
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4017576277256012,
      "learning_rate": 0.0005135958509064818,
      "loss": 1.7242,
      "step": 22344
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3915649652481079,
      "learning_rate": 0.000513588511368714,
      "loss": 1.7136,
      "step": 22345
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40478283166885376,
      "learning_rate": 0.0005135811715716811,
      "loss": 1.6665,
      "step": 22346
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39497843384742737,
      "learning_rate": 0.0005135738315153922,
      "loss": 1.6348,
      "step": 22347
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3841449022293091,
      "learning_rate": 0.0005135664911998561,
      "loss": 1.7653,
      "step": 22348
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3827556371688843,
      "learning_rate": 0.0005135591506250817,
      "loss": 1.7227,
      "step": 22349
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3873366713523865,
      "learning_rate": 0.000513551809791078,
      "loss": 1.6772,
      "step": 22350
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3854813575744629,
      "learning_rate": 0.0005135444686978538,
      "loss": 1.7359,
      "step": 22351
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38064250349998474,
      "learning_rate": 0.0005135371273454182,
      "loss": 1.7162,
      "step": 22352
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3937031328678131,
      "learning_rate": 0.0005135297857337799,
      "loss": 1.6988,
      "step": 22353
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38752245903015137,
      "learning_rate": 0.0005135224438629479,
      "loss": 1.6582,
      "step": 22354
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3768872618675232,
      "learning_rate": 0.0005135151017329311,
      "loss": 1.6394,
      "step": 22355
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3824843466281891,
      "learning_rate": 0.0005135077593437385,
      "loss": 1.6538,
      "step": 22356
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3814671039581299,
      "learning_rate": 0.0005135004166953789,
      "loss": 1.6942,
      "step": 22357
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39499351382255554,
      "learning_rate": 0.0005134930737878613,
      "loss": 1.6122,
      "step": 22358
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.41090360283851624,
      "learning_rate": 0.0005134857306211946,
      "loss": 1.6883,
      "step": 22359
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4431058466434479,
      "learning_rate": 0.0005134783871953875,
      "loss": 1.6949,
      "step": 22360
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3858276903629303,
      "learning_rate": 0.0005134710435104492,
      "loss": 1.6749,
      "step": 22361
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3966183662414551,
      "learning_rate": 0.0005134636995663886,
      "loss": 1.7665,
      "step": 22362
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.388532429933548,
      "learning_rate": 0.0005134563553632144,
      "loss": 1.6265,
      "step": 22363
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4051668047904968,
      "learning_rate": 0.0005134490109009356,
      "loss": 1.6603,
      "step": 22364
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.47685253620147705,
      "learning_rate": 0.0005134416661795612,
      "loss": 1.7413,
      "step": 22365
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3995312750339508,
      "learning_rate": 0.0005134343211991001,
      "loss": 1.5821,
      "step": 22366
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40798118710517883,
      "learning_rate": 0.0005134269759595612,
      "loss": 1.8271,
      "step": 22367
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40779149532318115,
      "learning_rate": 0.0005134196304609533,
      "loss": 1.7049,
      "step": 22368
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39977696537971497,
      "learning_rate": 0.0005134122847032855,
      "loss": 1.7281,
      "step": 22369
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39329761266708374,
      "learning_rate": 0.0005134049386865666,
      "loss": 1.7251,
      "step": 22370
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3777875006198883,
      "learning_rate": 0.0005133975924108055,
      "loss": 1.706,
      "step": 22371
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3883626163005829,
      "learning_rate": 0.0005133902458760112,
      "loss": 1.7312,
      "step": 22372
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40289512276649475,
      "learning_rate": 0.0005133828990821926,
      "loss": 1.687,
      "step": 22373
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5827379822731018,
      "learning_rate": 0.0005133755520293587,
      "loss": 1.7567,
      "step": 22374
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3862641751766205,
      "learning_rate": 0.0005133682047175183,
      "loss": 1.7205,
      "step": 22375
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40051013231277466,
      "learning_rate": 0.0005133608571466802,
      "loss": 1.6134,
      "step": 22376
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.393078088760376,
      "learning_rate": 0.0005133535093168535,
      "loss": 1.6824,
      "step": 22377
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3939724266529083,
      "learning_rate": 0.0005133461612280471,
      "loss": 1.6179,
      "step": 22378
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4017684757709503,
      "learning_rate": 0.0005133388128802698,
      "loss": 1.7671,
      "step": 22379
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39052915573120117,
      "learning_rate": 0.0005133314642735308,
      "loss": 1.7228,
      "step": 22380
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3778650462627411,
      "learning_rate": 0.0005133241154078387,
      "loss": 1.6122,
      "step": 22381
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3798627555370331,
      "learning_rate": 0.0005133167662832027,
      "loss": 1.6436,
      "step": 22382
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39347851276397705,
      "learning_rate": 0.0005133094168996313,
      "loss": 1.7109,
      "step": 22383
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.398051381111145,
      "learning_rate": 0.0005133020672571339,
      "loss": 1.6621,
      "step": 22384
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3875030279159546,
      "learning_rate": 0.0005132947173557193,
      "loss": 1.6415,
      "step": 22385
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37907254695892334,
      "learning_rate": 0.0005132873671953961,
      "loss": 1.6264,
      "step": 22386
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3841857314109802,
      "learning_rate": 0.0005132800167761736,
      "loss": 1.7186,
      "step": 22387
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3846541941165924,
      "learning_rate": 0.0005132726660980606,
      "loss": 1.6877,
      "step": 22388
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3844962418079376,
      "learning_rate": 0.000513265315161066,
      "loss": 1.6685,
      "step": 22389
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.38965848088264465,
      "learning_rate": 0.0005132579639651987,
      "loss": 1.6411,
      "step": 22390
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37708598375320435,
      "learning_rate": 0.0005132506125104676,
      "loss": 1.7571,
      "step": 22391
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.39501580595970154,
      "learning_rate": 0.0005132432607968818,
      "loss": 1.728,
      "step": 22392
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39172372221946716,
      "learning_rate": 0.0005132359088244501,
      "loss": 1.6842,
      "step": 22393
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3901916444301605,
      "learning_rate": 0.0005132285565931813,
      "loss": 1.7152,
      "step": 22394
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39306536316871643,
      "learning_rate": 0.0005132212041030845,
      "loss": 1.7039,
      "step": 22395
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4005259871482849,
      "learning_rate": 0.0005132138513541687,
      "loss": 1.7444,
      "step": 22396
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3897000551223755,
      "learning_rate": 0.0005132064983464426,
      "loss": 1.749,
      "step": 22397
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3833468556404114,
      "learning_rate": 0.0005131991450799152,
      "loss": 1.7129,
      "step": 22398
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3887571394443512,
      "learning_rate": 0.0005131917915545955,
      "loss": 1.698,
      "step": 22399
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4015088975429535,
      "learning_rate": 0.0005131844377704922,
      "loss": 1.6468,
      "step": 22400
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.398314505815506,
      "learning_rate": 0.0005131770837276147,
      "loss": 1.6213,
      "step": 22401
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40096354484558105,
      "learning_rate": 0.0005131697294259715,
      "loss": 1.7454,
      "step": 22402
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38975584506988525,
      "learning_rate": 0.0005131623748655716,
      "loss": 1.7286,
      "step": 22403
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.383099228143692,
      "learning_rate": 0.000513155020046424,
      "loss": 1.694,
      "step": 22404
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4020267724990845,
      "learning_rate": 0.0005131476649685376,
      "loss": 1.7723,
      "step": 22405
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3878995180130005,
      "learning_rate": 0.0005131403096319215,
      "loss": 1.7453,
      "step": 22406
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4279797375202179,
      "learning_rate": 0.0005131329540365842,
      "loss": 1.6493,
      "step": 22407
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38796091079711914,
      "learning_rate": 0.0005131255981825351,
      "loss": 1.6618,
      "step": 22408
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4571484327316284,
      "learning_rate": 0.000513118242069783,
      "loss": 1.6375,
      "step": 22409
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38642698526382446,
      "learning_rate": 0.0005131108856983365,
      "loss": 1.5578,
      "step": 22410
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37859854102134705,
      "learning_rate": 0.0005131035290682049,
      "loss": 1.6706,
      "step": 22411
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3926254212856293,
      "learning_rate": 0.000513096172179397,
      "loss": 1.6179,
      "step": 22412
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38559505343437195,
      "learning_rate": 0.0005130888150319218,
      "loss": 1.6992,
      "step": 22413
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.388774037361145,
      "learning_rate": 0.0005130814576257883,
      "loss": 1.7725,
      "step": 22414
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38083600997924805,
      "learning_rate": 0.000513074099961005,
      "loss": 1.6272,
      "step": 22415
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3854765295982361,
      "learning_rate": 0.0005130667420375814,
      "loss": 1.6629,
      "step": 22416
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39681363105773926,
      "learning_rate": 0.000513059383855526,
      "loss": 1.7804,
      "step": 22417
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39181745052337646,
      "learning_rate": 0.000513052025414848,
      "loss": 1.6872,
      "step": 22418
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3823681175708771,
      "learning_rate": 0.0005130446667155562,
      "loss": 1.6589,
      "step": 22419
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3733067810535431,
      "learning_rate": 0.0005130373077576596,
      "loss": 1.6308,
      "step": 22420
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.36948472261428833,
      "learning_rate": 0.000513029948541167,
      "loss": 1.6799,
      "step": 22421
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39090511202812195,
      "learning_rate": 0.0005130225890660875,
      "loss": 1.6487,
      "step": 22422
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39871764183044434,
      "learning_rate": 0.0005130152293324299,
      "loss": 1.7689,
      "step": 22423
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3844236731529236,
      "learning_rate": 0.0005130078693402032,
      "loss": 1.7187,
      "step": 22424
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38562458753585815,
      "learning_rate": 0.0005130005090894165,
      "loss": 1.6326,
      "step": 22425
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40559712052345276,
      "learning_rate": 0.0005129931485800784,
      "loss": 1.736,
      "step": 22426
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.373294860124588,
      "learning_rate": 0.0005129857878121982,
      "loss": 1.6219,
      "step": 22427
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3693425953388214,
      "learning_rate": 0.0005129784267857844,
      "loss": 1.6453,
      "step": 22428
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37918365001678467,
      "learning_rate": 0.0005129710655008463,
      "loss": 1.7096,
      "step": 22429
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5773820281028748,
      "learning_rate": 0.0005129637039573927,
      "loss": 1.7185,
      "step": 22430
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5660441517829895,
      "learning_rate": 0.0005129563421554324,
      "loss": 1.7698,
      "step": 22431
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40100473165512085,
      "learning_rate": 0.0005129489800949746,
      "loss": 1.7048,
      "step": 22432
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3744767904281616,
      "learning_rate": 0.0005129416177760281,
      "loss": 1.6619,
      "step": 22433
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3748408257961273,
      "learning_rate": 0.0005129342551986019,
      "loss": 1.6657,
      "step": 22434
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39986762404441833,
      "learning_rate": 0.0005129268923627048,
      "loss": 1.6465,
      "step": 22435
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4056178629398346,
      "learning_rate": 0.0005129195292683459,
      "loss": 1.7328,
      "step": 22436
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38275110721588135,
      "learning_rate": 0.0005129121659155339,
      "loss": 1.7333,
      "step": 22437
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3781403601169586,
      "learning_rate": 0.000512904802304278,
      "loss": 1.6271,
      "step": 22438
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39019766449928284,
      "learning_rate": 0.0005128974384345871,
      "loss": 1.6905,
      "step": 22439
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3924321234226227,
      "learning_rate": 0.00051289007430647,
      "loss": 1.6364,
      "step": 22440
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38054439425468445,
      "learning_rate": 0.0005128827099199359,
      "loss": 1.6418,
      "step": 22441
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3884287178516388,
      "learning_rate": 0.0005128753452749934,
      "loss": 1.7277,
      "step": 22442
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39999374747276306,
      "learning_rate": 0.0005128679803716516,
      "loss": 1.7036,
      "step": 22443
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37822672724723816,
      "learning_rate": 0.0005128606152099195,
      "loss": 1.6712,
      "step": 22444
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3798615336418152,
      "learning_rate": 0.000512853249789806,
      "loss": 1.6698,
      "step": 22445
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38785263895988464,
      "learning_rate": 0.0005128458841113199,
      "loss": 1.6389,
      "step": 22446
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39002636075019836,
      "learning_rate": 0.0005128385181744703,
      "loss": 1.6707,
      "step": 22447
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38353803753852844,
      "learning_rate": 0.0005128311519792661,
      "loss": 1.5954,
      "step": 22448
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37560123205184937,
      "learning_rate": 0.0005128237855257162,
      "loss": 1.6435,
      "step": 22449
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3792729675769806,
      "learning_rate": 0.0005128164188138297,
      "loss": 1.5741,
      "step": 22450
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40890565514564514,
      "learning_rate": 0.0005128090518436153,
      "loss": 1.7041,
      "step": 22451
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40287742018699646,
      "learning_rate": 0.0005128016846150822,
      "loss": 1.6639,
      "step": 22452
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3907791078090668,
      "learning_rate": 0.000512794317128239,
      "loss": 1.6183,
      "step": 22453
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3893379867076874,
      "learning_rate": 0.000512786949383095,
      "loss": 1.6556,
      "step": 22454
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4009486436843872,
      "learning_rate": 0.000512779581379659,
      "loss": 1.6488,
      "step": 22455
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3760640323162079,
      "learning_rate": 0.0005127722131179401,
      "loss": 1.6657,
      "step": 22456
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3772028088569641,
      "learning_rate": 0.0005127648445979468,
      "loss": 1.5782,
      "step": 22457
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39081844687461853,
      "learning_rate": 0.0005127574758196884,
      "loss": 1.6872,
      "step": 22458
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38279789686203003,
      "learning_rate": 0.0005127501067831739,
      "loss": 1.6846,
      "step": 22459
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39275863766670227,
      "learning_rate": 0.000512742737488412,
      "loss": 1.7176,
      "step": 22460
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3793039619922638,
      "learning_rate": 0.0005127353679354118,
      "loss": 1.674,
      "step": 22461
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4053432047367096,
      "learning_rate": 0.0005127279981241821,
      "loss": 1.7577,
      "step": 22462
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3847215473651886,
      "learning_rate": 0.0005127206280547321,
      "loss": 1.6147,
      "step": 22463
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39846041798591614,
      "learning_rate": 0.0005127132577270705,
      "loss": 1.8031,
      "step": 22464
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3808731436729431,
      "learning_rate": 0.0005127058871412064,
      "loss": 1.6555,
      "step": 22465
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5675157904624939,
      "learning_rate": 0.0005126985162971487,
      "loss": 1.6835,
      "step": 22466
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3945308327674866,
      "learning_rate": 0.0005126911451949064,
      "loss": 1.6851,
      "step": 22467
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39888569712638855,
      "learning_rate": 0.0005126837738344882,
      "loss": 1.6197,
      "step": 22468
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3967913091182709,
      "learning_rate": 0.0005126764022159035,
      "loss": 1.7004,
      "step": 22469
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3913523554801941,
      "learning_rate": 0.0005126690303391608,
      "loss": 1.6337,
      "step": 22470
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40331748127937317,
      "learning_rate": 0.0005126616582042692,
      "loss": 1.6971,
      "step": 22471
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39132052659988403,
      "learning_rate": 0.0005126542858112378,
      "loss": 1.6972,
      "step": 22472
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3888692557811737,
      "learning_rate": 0.0005126469131600754,
      "loss": 1.7,
      "step": 22473
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4081246554851532,
      "learning_rate": 0.000512639540250791,
      "loss": 1.6931,
      "step": 22474
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40011438727378845,
      "learning_rate": 0.0005126321670833934,
      "loss": 1.6519,
      "step": 22475
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38839292526245117,
      "learning_rate": 0.0005126247936578918,
      "loss": 1.6249,
      "step": 22476
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37842002511024475,
      "learning_rate": 0.0005126174199742951,
      "loss": 1.5909,
      "step": 22477
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40944141149520874,
      "learning_rate": 0.000512610046032612,
      "loss": 1.6667,
      "step": 22478
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40148064494132996,
      "learning_rate": 0.0005126026718328517,
      "loss": 1.6848,
      "step": 22479
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.403298944234848,
      "learning_rate": 0.0005125952973750231,
      "loss": 1.7167,
      "step": 22480
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.387908935546875,
      "learning_rate": 0.0005125879226591351,
      "loss": 1.6704,
      "step": 22481
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.42825236916542053,
      "learning_rate": 0.0005125805476851968,
      "loss": 1.701,
      "step": 22482
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3982665240764618,
      "learning_rate": 0.0005125731724532169,
      "loss": 1.7082,
      "step": 22483
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3839658498764038,
      "learning_rate": 0.0005125657969632045,
      "loss": 1.751,
      "step": 22484
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3758734166622162,
      "learning_rate": 0.0005125584212151686,
      "loss": 1.6362,
      "step": 22485
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39371001720428467,
      "learning_rate": 0.0005125510452091181,
      "loss": 1.7295,
      "step": 22486
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4101453125476837,
      "learning_rate": 0.0005125436689450618,
      "loss": 1.7287,
      "step": 22487
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39831024408340454,
      "learning_rate": 0.0005125362924230089,
      "loss": 1.7086,
      "step": 22488
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4029333293437958,
      "learning_rate": 0.0005125289156429684,
      "loss": 1.6631,
      "step": 22489
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4007757008075714,
      "learning_rate": 0.000512521538604949,
      "loss": 1.6803,
      "step": 22490
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.41479218006134033,
      "learning_rate": 0.0005125141613089597,
      "loss": 1.6922,
      "step": 22491
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37942740321159363,
      "learning_rate": 0.0005125067837550097,
      "loss": 1.6681,
      "step": 22492
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3904912769794464,
      "learning_rate": 0.0005124994059431076,
      "loss": 1.6556,
      "step": 22493
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38687869906425476,
      "learning_rate": 0.0005124920278732625,
      "loss": 1.6329,
      "step": 22494
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4001047909259796,
      "learning_rate": 0.0005124846495454836,
      "loss": 1.7134,
      "step": 22495
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38336876034736633,
      "learning_rate": 0.0005124772709597796,
      "loss": 1.7017,
      "step": 22496
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3950263261795044,
      "learning_rate": 0.0005124698921161594,
      "loss": 1.6716,
      "step": 22497
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.44719892740249634,
      "learning_rate": 0.000512462513014632,
      "loss": 1.7453,
      "step": 22498
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38605377078056335,
      "learning_rate": 0.0005124551336552066,
      "loss": 1.7202,
      "step": 22499
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38544756174087524,
      "learning_rate": 0.0005124477540378918,
      "loss": 1.6354,
      "step": 22500
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38660842180252075,
      "learning_rate": 0.0005124403741626968,
      "loss": 1.695,
      "step": 22501
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39825794100761414,
      "learning_rate": 0.0005124329940296305,
      "loss": 1.7452,
      "step": 22502
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38128402829170227,
      "learning_rate": 0.0005124256136387018,
      "loss": 1.6854,
      "step": 22503
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37352654337882996,
      "learning_rate": 0.0005124182329899197,
      "loss": 1.6988,
      "step": 22504
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37987226247787476,
      "learning_rate": 0.0005124108520832932,
      "loss": 1.7066,
      "step": 22505
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39826667308807373,
      "learning_rate": 0.0005124034709188312,
      "loss": 1.7178,
      "step": 22506
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39242202043533325,
      "learning_rate": 0.0005123960894965427,
      "loss": 1.7544,
      "step": 22507
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38537973165512085,
      "learning_rate": 0.0005123887078164367,
      "loss": 1.7094,
      "step": 22508
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39183250069618225,
      "learning_rate": 0.0005123813258785221,
      "loss": 1.7991,
      "step": 22509
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39502426981925964,
      "learning_rate": 0.0005123739436828078,
      "loss": 1.7104,
      "step": 22510
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39945510029792786,
      "learning_rate": 0.0005123665612293027,
      "loss": 1.6485,
      "step": 22511
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3730389177799225,
      "learning_rate": 0.0005123591785180161,
      "loss": 1.6631,
      "step": 22512
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39432135224342346,
      "learning_rate": 0.0005123517955489567,
      "loss": 1.781,
      "step": 22513
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3936217129230499,
      "learning_rate": 0.0005123444123221334,
      "loss": 1.7143,
      "step": 22514
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38555020093917847,
      "learning_rate": 0.0005123370288375554,
      "loss": 1.7663,
      "step": 22515
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38785403966903687,
      "learning_rate": 0.0005123296450952314,
      "loss": 1.7025,
      "step": 22516
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38254809379577637,
      "learning_rate": 0.0005123222610951706,
      "loss": 1.6706,
      "step": 22517
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3951856195926666,
      "learning_rate": 0.0005123148768373819,
      "loss": 1.7549,
      "step": 22518
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3777850270271301,
      "learning_rate": 0.0005123074923218742,
      "loss": 1.7225,
      "step": 22519
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38631755113601685,
      "learning_rate": 0.0005123001075486563,
      "loss": 1.6893,
      "step": 22520
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.381328821182251,
      "learning_rate": 0.0005122927225177375,
      "loss": 1.7206,
      "step": 22521
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.380282998085022,
      "learning_rate": 0.0005122853372291267,
      "loss": 1.7461,
      "step": 22522
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3886861801147461,
      "learning_rate": 0.0005122779516828327,
      "loss": 1.6819,
      "step": 22523
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3907870054244995,
      "learning_rate": 0.0005122705658788645,
      "loss": 1.7896,
      "step": 22524
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37198135256767273,
      "learning_rate": 0.0005122631798172312,
      "loss": 1.6325,
      "step": 22525
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.36964309215545654,
      "learning_rate": 0.0005122557934979415,
      "loss": 1.6775,
      "step": 22526
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.393045574426651,
      "learning_rate": 0.0005122484069210047,
      "loss": 1.7052,
      "step": 22527
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37788575887680054,
      "learning_rate": 0.0005122410200864295,
      "loss": 1.7153,
      "step": 22528
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3942859470844269,
      "learning_rate": 0.0005122336329942251,
      "loss": 1.7434,
      "step": 22529
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3889007568359375,
      "learning_rate": 0.0005122262456444003,
      "loss": 1.6998,
      "step": 22530
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.402699738740921,
      "learning_rate": 0.000512218858036964,
      "loss": 1.7457,
      "step": 22531
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3938959836959839,
      "learning_rate": 0.0005122114701719254,
      "loss": 1.7772,
      "step": 22532
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3949689567089081,
      "learning_rate": 0.0005122040820492933,
      "loss": 1.7421,
      "step": 22533
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3822188079357147,
      "learning_rate": 0.0005121966936690767,
      "loss": 1.7886,
      "step": 22534
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.377488911151886,
      "learning_rate": 0.0005121893050312845,
      "loss": 1.694,
      "step": 22535
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3814955949783325,
      "learning_rate": 0.0005121819161359259,
      "loss": 1.6812,
      "step": 22536
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38655945658683777,
      "learning_rate": 0.0005121745269830098,
      "loss": 1.6912,
      "step": 22537
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3906210660934448,
      "learning_rate": 0.0005121671375725449,
      "loss": 1.644,
      "step": 22538
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39623233675956726,
      "learning_rate": 0.0005121597479045405,
      "loss": 1.7668,
      "step": 22539
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39117613434791565,
      "learning_rate": 0.0005121523579790053,
      "loss": 1.7332,
      "step": 22540
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3877895176410675,
      "learning_rate": 0.0005121449677959484,
      "loss": 1.6674,
      "step": 22541
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.401183545589447,
      "learning_rate": 0.0005121375773553787,
      "loss": 1.7251,
      "step": 22542
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39955413341522217,
      "learning_rate": 0.0005121301866573054,
      "loss": 1.7579,
      "step": 22543
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3847201466560364,
      "learning_rate": 0.0005121227957017372,
      "loss": 1.6921,
      "step": 22544
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4000771939754486,
      "learning_rate": 0.0005121154044886833,
      "loss": 1.6658,
      "step": 22545
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3958674669265747,
      "learning_rate": 0.0005121080130181524,
      "loss": 1.6279,
      "step": 22546
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40294793248176575,
      "learning_rate": 0.0005121006212901538,
      "loss": 1.7103,
      "step": 22547
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37642019987106323,
      "learning_rate": 0.0005120932293046961,
      "loss": 1.6556,
      "step": 22548
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38017168641090393,
      "learning_rate": 0.0005120858370617886,
      "loss": 1.6513,
      "step": 22549
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3972746729850769,
      "learning_rate": 0.0005120784445614401,
      "loss": 1.6794,
      "step": 22550
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3949703276157379,
      "learning_rate": 0.0005120710518036596,
      "loss": 1.6994,
      "step": 22551
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.401955783367157,
      "learning_rate": 0.0005120636587884561,
      "loss": 1.6541,
      "step": 22552
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38237708806991577,
      "learning_rate": 0.0005120562655158387,
      "loss": 1.6275,
      "step": 22553
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38316264748573303,
      "learning_rate": 0.0005120488719858161,
      "loss": 1.6221,
      "step": 22554
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4167705774307251,
      "learning_rate": 0.0005120414781983974,
      "loss": 1.717,
      "step": 22555
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39875274896621704,
      "learning_rate": 0.0005120340841535916,
      "loss": 1.6726,
      "step": 22556
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39212578535079956,
      "learning_rate": 0.0005120266898514077,
      "loss": 1.7758,
      "step": 22557
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3775486350059509,
      "learning_rate": 0.0005120192952918546,
      "loss": 1.7202,
      "step": 22558
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37953487038612366,
      "learning_rate": 0.0005120119004749414,
      "loss": 1.6106,
      "step": 22559
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.397137314081192,
      "learning_rate": 0.000512004505400677,
      "loss": 1.6948,
      "step": 22560
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4075971841812134,
      "learning_rate": 0.0005119971100690701,
      "loss": 1.6555,
      "step": 22561
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.386866956949234,
      "learning_rate": 0.0005119897144801302,
      "loss": 1.6404,
      "step": 22562
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39533179998397827,
      "learning_rate": 0.0005119823186338661,
      "loss": 1.6604,
      "step": 22563
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4187763035297394,
      "learning_rate": 0.0005119749225302864,
      "loss": 1.7153,
      "step": 22564
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39994117617607117,
      "learning_rate": 0.0005119675261694007,
      "loss": 1.6648,
      "step": 22565
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39199841022491455,
      "learning_rate": 0.0005119601295512174,
      "loss": 1.7154,
      "step": 22566
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4020615816116333,
      "learning_rate": 0.0005119527326757458,
      "loss": 1.6914,
      "step": 22567
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3845948278903961,
      "learning_rate": 0.000511945335542995,
      "loss": 1.6626,
      "step": 22568
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40166014432907104,
      "learning_rate": 0.0005119379381529736,
      "loss": 1.7393,
      "step": 22569
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.389600932598114,
      "learning_rate": 0.0005119305405056907,
      "loss": 1.6981,
      "step": 22570
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4097664952278137,
      "learning_rate": 0.0005119231426011555,
      "loss": 1.7095,
      "step": 22571
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40100497007369995,
      "learning_rate": 0.0005119157444393768,
      "loss": 1.6685,
      "step": 22572
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39598149061203003,
      "learning_rate": 0.0005119083460203637,
      "loss": 1.7986,
      "step": 22573
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38354960083961487,
      "learning_rate": 0.0005119009473441248,
      "loss": 1.738,
      "step": 22574
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3928709030151367,
      "learning_rate": 0.0005118935484106697,
      "loss": 1.7382,
      "step": 22575
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3998780846595764,
      "learning_rate": 0.0005118861492200068,
      "loss": 1.6175,
      "step": 22576
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40453147888183594,
      "learning_rate": 0.0005118787497721455,
      "loss": 1.6551,
      "step": 22577
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3880580961704254,
      "learning_rate": 0.0005118713500670946,
      "loss": 1.7256,
      "step": 22578
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3836601674556732,
      "learning_rate": 0.000511863950104863,
      "loss": 1.6719,
      "step": 22579
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4058559834957123,
      "learning_rate": 0.0005118565498854599,
      "loss": 1.7403,
      "step": 22580
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3922693729400635,
      "learning_rate": 0.0005118491494088941,
      "loss": 1.6754,
      "step": 22581
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3866574466228485,
      "learning_rate": 0.0005118417486751746,
      "loss": 1.6196,
      "step": 22582
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4418763518333435,
      "learning_rate": 0.0005118343476843106,
      "loss": 1.6084,
      "step": 22583
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3808247447013855,
      "learning_rate": 0.0005118269464363108,
      "loss": 1.6573,
      "step": 22584
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3782963454723358,
      "learning_rate": 0.0005118195449311842,
      "loss": 1.7104,
      "step": 22585
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3831276595592499,
      "learning_rate": 0.0005118121431689401,
      "loss": 1.7332,
      "step": 22586
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3907955586910248,
      "learning_rate": 0.000511804741149587,
      "loss": 1.6931,
      "step": 22587
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3902862071990967,
      "learning_rate": 0.0005117973388731344,
      "loss": 1.6369,
      "step": 22588
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38455793261528015,
      "learning_rate": 0.000511789936339591,
      "loss": 1.7327,
      "step": 22589
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38058656454086304,
      "learning_rate": 0.0005117825335489657,
      "loss": 1.6551,
      "step": 22590
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38967829942703247,
      "learning_rate": 0.0005117751305012677,
      "loss": 1.6992,
      "step": 22591
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39122942090034485,
      "learning_rate": 0.0005117677271965058,
      "loss": 1.6863,
      "step": 22592
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3954896330833435,
      "learning_rate": 0.0005117603236346892,
      "loss": 1.6747,
      "step": 22593
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39605075120925903,
      "learning_rate": 0.0005117529198158267,
      "loss": 1.7108,
      "step": 22594
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3836570680141449,
      "learning_rate": 0.0005117455157399274,
      "loss": 1.654,
      "step": 22595
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39395084977149963,
      "learning_rate": 0.0005117381114070001,
      "loss": 1.6574,
      "step": 22596
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3877318501472473,
      "learning_rate": 0.0005117307068170541,
      "loss": 1.7007,
      "step": 22597
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37687888741493225,
      "learning_rate": 0.0005117233019700982,
      "loss": 1.6599,
      "step": 22598
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38559675216674805,
      "learning_rate": 0.0005117158968661414,
      "loss": 1.7077,
      "step": 22599
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3944947123527527,
      "learning_rate": 0.0005117084915051926,
      "loss": 1.6691,
      "step": 22600
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.36856579780578613,
      "learning_rate": 0.000511701085887261,
      "loss": 1.7055,
      "step": 22601
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3741464912891388,
      "learning_rate": 0.0005116936800123554,
      "loss": 1.6826,
      "step": 22602
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37550923228263855,
      "learning_rate": 0.0005116862738804849,
      "loss": 1.6564,
      "step": 22603
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38071388006210327,
      "learning_rate": 0.0005116788674916585,
      "loss": 1.6838,
      "step": 22604
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3796164095401764,
      "learning_rate": 0.0005116714608458851,
      "loss": 1.698,
      "step": 22605
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3930737376213074,
      "learning_rate": 0.0005116640539431736,
      "loss": 1.7149,
      "step": 22606
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37908419966697693,
      "learning_rate": 0.0005116566467835333,
      "loss": 1.6369,
      "step": 22607
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39660412073135376,
      "learning_rate": 0.0005116492393669729,
      "loss": 1.7522,
      "step": 22608
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37181928753852844,
      "learning_rate": 0.0005116418316935017,
      "loss": 1.6613,
      "step": 22609
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38136425614356995,
      "learning_rate": 0.0005116344237631284,
      "loss": 1.6991,
      "step": 22610
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3896716237068176,
      "learning_rate": 0.000511627015575862,
      "loss": 1.6934,
      "step": 22611
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3930343985557556,
      "learning_rate": 0.0005116196071317117,
      "loss": 1.5831,
      "step": 22612
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37942156195640564,
      "learning_rate": 0.0005116121984306863,
      "loss": 1.6499,
      "step": 22613
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39523589611053467,
      "learning_rate": 0.0005116047894727949,
      "loss": 1.675,
      "step": 22614
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40931564569473267,
      "learning_rate": 0.0005115973802580464,
      "loss": 1.7656,
      "step": 22615
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.387630820274353,
      "learning_rate": 0.0005115899707864499,
      "loss": 1.7209,
      "step": 22616
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38690903782844543,
      "learning_rate": 0.0005115825610580144,
      "loss": 1.6948,
      "step": 22617
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3932618200778961,
      "learning_rate": 0.0005115751510727489,
      "loss": 1.6903,
      "step": 22618
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38017570972442627,
      "learning_rate": 0.0005115677408306622,
      "loss": 1.7877,
      "step": 22619
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3817346394062042,
      "learning_rate": 0.0005115603303317636,
      "loss": 1.6496,
      "step": 22620
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4057321548461914,
      "learning_rate": 0.0005115529195760618,
      "loss": 1.7115,
      "step": 22621
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3855612874031067,
      "learning_rate": 0.0005115455085635659,
      "loss": 1.7153,
      "step": 22622
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3914734721183777,
      "learning_rate": 0.000511538097294285,
      "loss": 1.6879,
      "step": 22623
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40421634912490845,
      "learning_rate": 0.000511530685768228,
      "loss": 1.6652,
      "step": 22624
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.388182133436203,
      "learning_rate": 0.000511523273985404,
      "loss": 1.7244,
      "step": 22625
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38865745067596436,
      "learning_rate": 0.0005115158619458217,
      "loss": 1.6706,
      "step": 22626
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3975329101085663,
      "learning_rate": 0.0005115084496494904,
      "loss": 1.6712,
      "step": 22627
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38418418169021606,
      "learning_rate": 0.0005115010370964191,
      "loss": 1.6698,
      "step": 22628
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3762418031692505,
      "learning_rate": 0.0005114936242866166,
      "loss": 1.6839,
      "step": 22629
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38480693101882935,
      "learning_rate": 0.0005114862112200921,
      "loss": 1.7474,
      "step": 22630
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39220130443573,
      "learning_rate": 0.0005114787978968544,
      "loss": 1.666,
      "step": 22631
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3726052939891815,
      "learning_rate": 0.0005114713843169127,
      "loss": 1.631,
      "step": 22632
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38682517409324646,
      "learning_rate": 0.0005114639704802759,
      "loss": 1.6013,
      "step": 22633
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.382332980632782,
      "learning_rate": 0.0005114565563869529,
      "loss": 1.6719,
      "step": 22634
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38608649373054504,
      "learning_rate": 0.0005114491420369528,
      "loss": 1.7027,
      "step": 22635
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3820248544216156,
      "learning_rate": 0.0005114417274302847,
      "loss": 1.6519,
      "step": 22636
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3830879032611847,
      "learning_rate": 0.0005114343125669574,
      "loss": 1.6598,
      "step": 22637
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.368740439414978,
      "learning_rate": 0.0005114268974469801,
      "loss": 1.6262,
      "step": 22638
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3864936828613281,
      "learning_rate": 0.0005114194820703616,
      "loss": 1.6742,
      "step": 22639
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39539816975593567,
      "learning_rate": 0.0005114120664371111,
      "loss": 1.7044,
      "step": 22640
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3888339400291443,
      "learning_rate": 0.0005114046505472373,
      "loss": 1.6792,
      "step": 22641
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38448166847229004,
      "learning_rate": 0.0005113972344007496,
      "loss": 1.7349,
      "step": 22642
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3901515305042267,
      "learning_rate": 0.0005113898179976567,
      "loss": 1.7521,
      "step": 22643
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38483914732933044,
      "learning_rate": 0.0005113824013379677,
      "loss": 1.7051,
      "step": 22644
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.381619393825531,
      "learning_rate": 0.0005113749844216917,
      "loss": 1.6357,
      "step": 22645
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.391839861869812,
      "learning_rate": 0.0005113675672488375,
      "loss": 1.6357,
      "step": 22646
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3837583363056183,
      "learning_rate": 0.0005113601498194143,
      "loss": 1.7673,
      "step": 22647
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.378031849861145,
      "learning_rate": 0.000511352732133431,
      "loss": 1.7036,
      "step": 22648
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37712788581848145,
      "learning_rate": 0.0005113453141908967,
      "loss": 1.7651,
      "step": 22649
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4025065004825592,
      "learning_rate": 0.0005113378959918203,
      "loss": 1.6496,
      "step": 22650
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3923872709274292,
      "learning_rate": 0.0005113304775362108,
      "loss": 1.5884,
      "step": 22651
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39741235971450806,
      "learning_rate": 0.0005113230588240773,
      "loss": 1.6633,
      "step": 22652
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38399070501327515,
      "learning_rate": 0.0005113156398554287,
      "loss": 1.6493,
      "step": 22653
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3843347132205963,
      "learning_rate": 0.0005113082206302738,
      "loss": 1.7404,
      "step": 22654
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38359612226486206,
      "learning_rate": 0.0005113008011486222,
      "loss": 1.7064,
      "step": 22655
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4009256958961487,
      "learning_rate": 0.0005112933814104824,
      "loss": 1.6938,
      "step": 22656
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3976479470729828,
      "learning_rate": 0.0005112859614158636,
      "loss": 1.6379,
      "step": 22657
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37981295585632324,
      "learning_rate": 0.0005112785411647749,
      "loss": 1.6992,
      "step": 22658
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3785598874092102,
      "learning_rate": 0.000511271120657225,
      "loss": 1.6745,
      "step": 22659
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3797062933444977,
      "learning_rate": 0.0005112636998932231,
      "loss": 1.649,
      "step": 22660
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.7184112071990967,
      "learning_rate": 0.0005112562788727784,
      "loss": 1.8703,
      "step": 22661
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40274348855018616,
      "learning_rate": 0.0005112488575958994,
      "loss": 1.7674,
      "step": 22662
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40008169412612915,
      "learning_rate": 0.0005112414360625956,
      "loss": 1.6774,
      "step": 22663
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3871895670890808,
      "learning_rate": 0.0005112340142728758,
      "loss": 1.7254,
      "step": 22664
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3989450931549072,
      "learning_rate": 0.000511226592226749,
      "loss": 1.6828,
      "step": 22665
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3958805501461029,
      "learning_rate": 0.0005112191699242243,
      "loss": 1.7119,
      "step": 22666
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.378676176071167,
      "learning_rate": 0.0005112117473653106,
      "loss": 1.6425,
      "step": 22667
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3736555576324463,
      "learning_rate": 0.000511204324550017,
      "loss": 1.6558,
      "step": 22668
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38914015889167786,
      "learning_rate": 0.0005111969014783524,
      "loss": 1.7305,
      "step": 22669
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38506659865379333,
      "learning_rate": 0.000511189478150326,
      "loss": 1.6818,
      "step": 22670
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3912788927555084,
      "learning_rate": 0.0005111820545659466,
      "loss": 1.717,
      "step": 22671
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38693779706954956,
      "learning_rate": 0.0005111746307252233,
      "loss": 1.6672,
      "step": 22672
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37661364674568176,
      "learning_rate": 0.0005111672066281651,
      "loss": 1.6801,
      "step": 22673
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3902817964553833,
      "learning_rate": 0.000511159782274781,
      "loss": 1.6532,
      "step": 22674
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38526368141174316,
      "learning_rate": 0.0005111523576650801,
      "loss": 1.6982,
      "step": 22675
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38997912406921387,
      "learning_rate": 0.0005111449327990713,
      "loss": 1.6878,
      "step": 22676
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.41273027658462524,
      "learning_rate": 0.0005111375076767637,
      "loss": 1.6755,
      "step": 22677
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4199327230453491,
      "learning_rate": 0.0005111300822981664,
      "loss": 1.7336,
      "step": 22678
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3925856649875641,
      "learning_rate": 0.0005111226566632881,
      "loss": 1.6633,
      "step": 22679
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38900837302207947,
      "learning_rate": 0.0005111152307721381,
      "loss": 1.6172,
      "step": 22680
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4129047095775604,
      "learning_rate": 0.0005111078046247253,
      "loss": 1.6894,
      "step": 22681
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40009912848472595,
      "learning_rate": 0.0005111003782210586,
      "loss": 1.6935,
      "step": 22682
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.386670857667923,
      "learning_rate": 0.0005110929515611474,
      "loss": 1.6832,
      "step": 22683
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39336061477661133,
      "learning_rate": 0.0005110855246450003,
      "loss": 1.6987,
      "step": 22684
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4005873501300812,
      "learning_rate": 0.0005110780974726264,
      "loss": 1.6971,
      "step": 22685
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3915781080722809,
      "learning_rate": 0.000511070670044035,
      "loss": 1.6373,
      "step": 22686
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3922228515148163,
      "learning_rate": 0.0005110632423592348,
      "loss": 1.6959,
      "step": 22687
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.36301571130752563,
      "learning_rate": 0.0005110558144182348,
      "loss": 1.6549,
      "step": 22688
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.38122740387916565,
      "learning_rate": 0.0005110483862210442,
      "loss": 1.6867,
      "step": 22689
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3933205306529999,
      "learning_rate": 0.0005110409577676722,
      "loss": 1.644,
      "step": 22690
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3750368058681488,
      "learning_rate": 0.0005110335290581273,
      "loss": 1.6307,
      "step": 22691
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4611305594444275,
      "learning_rate": 0.0005110261000924189,
      "loss": 1.6513,
      "step": 22692
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.39348429441452026,
      "learning_rate": 0.0005110186708705557,
      "loss": 1.7622,
      "step": 22693
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3917681872844696,
      "learning_rate": 0.0005110112413925472,
      "loss": 1.7174,
      "step": 22694
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37232494354248047,
      "learning_rate": 0.0005110038116584022,
      "loss": 1.6541,
      "step": 22695
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3783705234527588,
      "learning_rate": 0.0005109963816681294,
      "loss": 1.6775,
      "step": 22696
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4021856486797333,
      "learning_rate": 0.0005109889514217381,
      "loss": 1.6492,
      "step": 22697
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40461134910583496,
      "learning_rate": 0.0005109815209192374,
      "loss": 1.702,
      "step": 22698
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3836526870727539,
      "learning_rate": 0.0005109740901606363,
      "loss": 1.6776,
      "step": 22699
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38626784086227417,
      "learning_rate": 0.0005109666591459436,
      "loss": 1.7342,
      "step": 22700
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.44341474771499634,
      "learning_rate": 0.0005109592278751686,
      "loss": 1.7693,
      "step": 22701
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3760738968849182,
      "learning_rate": 0.00051095179634832,
      "loss": 1.7447,
      "step": 22702
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.383678674697876,
      "learning_rate": 0.0005109443645654071,
      "loss": 1.7043,
      "step": 22703
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39546844363212585,
      "learning_rate": 0.0005109369325264389,
      "loss": 1.6438,
      "step": 22704
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4058149456977844,
      "learning_rate": 0.0005109295002314242,
      "loss": 1.6999,
      "step": 22705
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3790472447872162,
      "learning_rate": 0.0005109220676803722,
      "loss": 1.7122,
      "step": 22706
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3873744308948517,
      "learning_rate": 0.000510914634873292,
      "loss": 1.7205,
      "step": 22707
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3686521053314209,
      "learning_rate": 0.0005109072018101924,
      "loss": 1.6103,
      "step": 22708
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3875042498111725,
      "learning_rate": 0.0005108997684910825,
      "loss": 1.7645,
      "step": 22709
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39039188623428345,
      "learning_rate": 0.0005108923349159715,
      "loss": 1.6698,
      "step": 22710
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39941850304603577,
      "learning_rate": 0.0005108849010848681,
      "loss": 1.7091,
      "step": 22711
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3834100663661957,
      "learning_rate": 0.0005108774669977817,
      "loss": 1.6763,
      "step": 22712
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3806056082248688,
      "learning_rate": 0.0005108700326547209,
      "loss": 1.755,
      "step": 22713
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3819086253643036,
      "learning_rate": 0.0005108625980556952,
      "loss": 1.6153,
      "step": 22714
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4214564561843872,
      "learning_rate": 0.0005108551632007132,
      "loss": 1.661,
      "step": 22715
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3996608555316925,
      "learning_rate": 0.0005108477280897841,
      "loss": 1.6828,
      "step": 22716
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39149054884910583,
      "learning_rate": 0.000510840292722917,
      "loss": 1.7431,
      "step": 22717
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4074694514274597,
      "learning_rate": 0.0005108328571001208,
      "loss": 1.773,
      "step": 22718
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3894365429878235,
      "learning_rate": 0.0005108254212214047,
      "loss": 1.6802,
      "step": 22719
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39129459857940674,
      "learning_rate": 0.0005108179850867774,
      "loss": 1.7241,
      "step": 22720
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3881809115409851,
      "learning_rate": 0.0005108105486962483,
      "loss": 1.6527,
      "step": 22721
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3839857578277588,
      "learning_rate": 0.0005108031120498261,
      "loss": 1.718,
      "step": 22722
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.41719987988471985,
      "learning_rate": 0.0005107956751475201,
      "loss": 1.6466,
      "step": 22723
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40123751759529114,
      "learning_rate": 0.0005107882379893391,
      "loss": 1.6601,
      "step": 22724
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39207926392555237,
      "learning_rate": 0.0005107808005752924,
      "loss": 1.7429,
      "step": 22725
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3813370168209076,
      "learning_rate": 0.0005107733629053889,
      "loss": 1.6692,
      "step": 22726
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37746867537498474,
      "learning_rate": 0.0005107659249796374,
      "loss": 1.6334,
      "step": 22727
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4049791395664215,
      "learning_rate": 0.0005107584867980471,
      "loss": 1.6647,
      "step": 22728
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39931297302246094,
      "learning_rate": 0.0005107510483606273,
      "loss": 1.689,
      "step": 22729
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37174713611602783,
      "learning_rate": 0.0005107436096673865,
      "loss": 1.6452,
      "step": 22730
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.41409894824028015,
      "learning_rate": 0.0005107361707183341,
      "loss": 1.6712,
      "step": 22731
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38684940338134766,
      "learning_rate": 0.0005107287315134791,
      "loss": 1.697,
      "step": 22732
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3801993429660797,
      "learning_rate": 0.0005107212920528305,
      "loss": 1.5896,
      "step": 22733
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3920324146747589,
      "learning_rate": 0.0005107138523363972,
      "loss": 1.6612,
      "step": 22734
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.393189400434494,
      "learning_rate": 0.0005107064123641885,
      "loss": 1.7087,
      "step": 22735
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3827991187572479,
      "learning_rate": 0.0005106989721362131,
      "loss": 1.694,
      "step": 22736
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37244823575019836,
      "learning_rate": 0.0005106915316524801,
      "loss": 1.6577,
      "step": 22737
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3864450752735138,
      "learning_rate": 0.0005106840909129988,
      "loss": 1.6783,
      "step": 22738
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3908855617046356,
      "learning_rate": 0.0005106766499177781,
      "loss": 1.7115,
      "step": 22739
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3926919400691986,
      "learning_rate": 0.0005106692086668269,
      "loss": 1.6754,
      "step": 22740
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38063663244247437,
      "learning_rate": 0.0005106617671601542,
      "loss": 1.7026,
      "step": 22741
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3793198764324188,
      "learning_rate": 0.0005106543253977693,
      "loss": 1.773,
      "step": 22742
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3876629173755646,
      "learning_rate": 0.0005106468833796812,
      "loss": 1.6774,
      "step": 22743
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37877050042152405,
      "learning_rate": 0.0005106394411058986,
      "loss": 1.7083,
      "step": 22744
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38544905185699463,
      "learning_rate": 0.0005106319985764309,
      "loss": 1.6808,
      "step": 22745
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38874971866607666,
      "learning_rate": 0.0005106245557912868,
      "loss": 1.6986,
      "step": 22746
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3761475086212158,
      "learning_rate": 0.0005106171127504757,
      "loss": 1.6161,
      "step": 22747
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3762921988964081,
      "learning_rate": 0.0005106096694540063,
      "loss": 1.678,
      "step": 22748
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37026599049568176,
      "learning_rate": 0.000510602225901888,
      "loss": 1.5578,
      "step": 22749
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3821638822555542,
      "learning_rate": 0.0005105947820941295,
      "loss": 1.7472,
      "step": 22750
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3859465718269348,
      "learning_rate": 0.0005105873380307401,
      "loss": 1.6452,
      "step": 22751
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38645297288894653,
      "learning_rate": 0.0005105798937117286,
      "loss": 1.7219,
      "step": 22752
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.391674667596817,
      "learning_rate": 0.0005105724491371041,
      "loss": 1.7085,
      "step": 22753
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.380022794008255,
      "learning_rate": 0.0005105650043068756,
      "loss": 1.6655,
      "step": 22754
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.22171151638031,
      "learning_rate": 0.0005105575592210524,
      "loss": 1.7178,
      "step": 22755
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3810774087905884,
      "learning_rate": 0.0005105501138796432,
      "loss": 1.6665,
      "step": 22756
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3963080644607544,
      "learning_rate": 0.0005105426682826573,
      "loss": 1.6804,
      "step": 22757
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38060611486434937,
      "learning_rate": 0.0005105352224301035,
      "loss": 1.6815,
      "step": 22758
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.395738422870636,
      "learning_rate": 0.000510527776321991,
      "loss": 1.661,
      "step": 22759
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3871288597583771,
      "learning_rate": 0.0005105203299583289,
      "loss": 1.6679,
      "step": 22760
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.393633633852005,
      "learning_rate": 0.000510512883339126,
      "loss": 1.6882,
      "step": 22761
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3901854157447815,
      "learning_rate": 0.0005105054364643916,
      "loss": 1.6276,
      "step": 22762
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3677719235420227,
      "learning_rate": 0.0005104979893341345,
      "loss": 1.6414,
      "step": 22763
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3653016984462738,
      "learning_rate": 0.0005104905419483641,
      "loss": 1.6847,
      "step": 22764
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3907977342605591,
      "learning_rate": 0.0005104830943070889,
      "loss": 1.7159,
      "step": 22765
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4002748429775238,
      "learning_rate": 0.0005104756464103184,
      "loss": 1.7729,
      "step": 22766
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3744214177131653,
      "learning_rate": 0.0005104681982580615,
      "loss": 1.7011,
      "step": 22767
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38528844714164734,
      "learning_rate": 0.000510460749850327,
      "loss": 1.6226,
      "step": 22768
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37314197421073914,
      "learning_rate": 0.0005104533011871243,
      "loss": 1.7021,
      "step": 22769
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3878324329853058,
      "learning_rate": 0.0005104458522684623,
      "loss": 1.7281,
      "step": 22770
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3849904239177704,
      "learning_rate": 0.0005104384030943501,
      "loss": 1.6919,
      "step": 22771
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4048222601413727,
      "learning_rate": 0.0005104309536647966,
      "loss": 1.7316,
      "step": 22772
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3908461928367615,
      "learning_rate": 0.000510423503979811,
      "loss": 1.745,
      "step": 22773
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39277565479278564,
      "learning_rate": 0.0005104160540394023,
      "loss": 1.6253,
      "step": 22774
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37590110301971436,
      "learning_rate": 0.0005104086038435794,
      "loss": 1.7301,
      "step": 22775
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38506418466567993,
      "learning_rate": 0.0005104011533923515,
      "loss": 1.6754,
      "step": 22776
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38900086283683777,
      "learning_rate": 0.0005103937026857276,
      "loss": 1.6251,
      "step": 22777
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3824538290500641,
      "learning_rate": 0.0005103862517237168,
      "loss": 1.6317,
      "step": 22778
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3925231695175171,
      "learning_rate": 0.000510378800506328,
      "loss": 1.6376,
      "step": 22779
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40203386545181274,
      "learning_rate": 0.0005103713490335704,
      "loss": 1.7039,
      "step": 22780
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.41201984882354736,
      "learning_rate": 0.0005103638973054528,
      "loss": 1.6752,
      "step": 22781
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38133716583251953,
      "learning_rate": 0.0005103564453219847,
      "loss": 1.6631,
      "step": 22782
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38448721170425415,
      "learning_rate": 0.0005103489930831747,
      "loss": 1.7061,
      "step": 22783
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3811390995979309,
      "learning_rate": 0.0005103415405890321,
      "loss": 1.663,
      "step": 22784
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39667072892189026,
      "learning_rate": 0.0005103340878395658,
      "loss": 1.6715,
      "step": 22785
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3822070062160492,
      "learning_rate": 0.0005103266348347849,
      "loss": 1.7732,
      "step": 22786
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.36923947930336,
      "learning_rate": 0.0005103191815746986,
      "loss": 1.7185,
      "step": 22787
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3948749601840973,
      "learning_rate": 0.0005103117280593156,
      "loss": 1.6892,
      "step": 22788
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3949504494667053,
      "learning_rate": 0.0005103042742886452,
      "loss": 1.7188,
      "step": 22789
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4132228493690491,
      "learning_rate": 0.0005102968202626966,
      "loss": 1.7378,
      "step": 22790
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38123542070388794,
      "learning_rate": 0.0005102893659814783,
      "loss": 1.7004,
      "step": 22791
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4092150926589966,
      "learning_rate": 0.000510281911445,
      "loss": 1.6616,
      "step": 22792
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3836915194988251,
      "learning_rate": 0.0005102744566532702,
      "loss": 1.673,
      "step": 22793
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3855069875717163,
      "learning_rate": 0.0005102670016062984,
      "loss": 1.6678,
      "step": 22794
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3951232135295868,
      "learning_rate": 0.0005102595463040934,
      "loss": 1.6949,
      "step": 22795
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3817541301250458,
      "learning_rate": 0.0005102520907466642,
      "loss": 1.6298,
      "step": 22796
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4089139997959137,
      "learning_rate": 0.00051024463493402,
      "loss": 1.6719,
      "step": 22797
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39485999941825867,
      "learning_rate": 0.0005102371788661698,
      "loss": 1.6357,
      "step": 22798
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3995155692100525,
      "learning_rate": 0.0005102297225431226,
      "loss": 1.6365,
      "step": 22799
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38187336921691895,
      "learning_rate": 0.0005102222659648875,
      "loss": 1.6252,
      "step": 22800
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38355544209480286,
      "learning_rate": 0.0005102148091314736,
      "loss": 1.6394,
      "step": 22801
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3972652554512024,
      "learning_rate": 0.0005102073520428898,
      "loss": 1.6787,
      "step": 22802
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40248504281044006,
      "learning_rate": 0.0005101998946991453,
      "loss": 1.6955,
      "step": 22803
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38092342019081116,
      "learning_rate": 0.0005101924371002491,
      "loss": 1.647,
      "step": 22804
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3755614757537842,
      "learning_rate": 0.0005101849792462103,
      "loss": 1.7439,
      "step": 22805
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4142875075340271,
      "learning_rate": 0.0005101775211370379,
      "loss": 1.6843,
      "step": 22806
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37595778703689575,
      "learning_rate": 0.0005101700627727409,
      "loss": 1.6779,
      "step": 22807
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3707222044467926,
      "learning_rate": 0.0005101626041533284,
      "loss": 1.6863,
      "step": 22808
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40860533714294434,
      "learning_rate": 0.0005101551452788095,
      "loss": 1.6836,
      "step": 22809
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3931594789028168,
      "learning_rate": 0.0005101476861491932,
      "loss": 1.6353,
      "step": 22810
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3896070718765259,
      "learning_rate": 0.0005101402267644886,
      "loss": 1.711,
      "step": 22811
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3784113824367523,
      "learning_rate": 0.0005101327671247047,
      "loss": 1.6595,
      "step": 22812
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4040208160877228,
      "learning_rate": 0.0005101253072298506,
      "loss": 1.7063,
      "step": 22813
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4010189175605774,
      "learning_rate": 0.0005101178470799353,
      "loss": 1.7151,
      "step": 22814
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37480705976486206,
      "learning_rate": 0.0005101103866749679,
      "loss": 1.6162,
      "step": 22815
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37529057264328003,
      "learning_rate": 0.0005101029260149575,
      "loss": 1.6754,
      "step": 22816
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3842225968837738,
      "learning_rate": 0.0005100954650999131,
      "loss": 1.7075,
      "step": 22817
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39856743812561035,
      "learning_rate": 0.0005100880039298437,
      "loss": 1.7267,
      "step": 22818
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38319405913352966,
      "learning_rate": 0.0005100805425047585,
      "loss": 1.6287,
      "step": 22819
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37543925642967224,
      "learning_rate": 0.0005100730808246664,
      "loss": 1.6789,
      "step": 22820
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39235541224479675,
      "learning_rate": 0.0005100656188895766,
      "loss": 1.6876,
      "step": 22821
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3897629380226135,
      "learning_rate": 0.0005100581566994981,
      "loss": 1.7071,
      "step": 22822
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.41896942257881165,
      "learning_rate": 0.0005100506942544398,
      "loss": 1.7411,
      "step": 22823
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3933388590812683,
      "learning_rate": 0.000510043231554411,
      "loss": 1.6814,
      "step": 22824
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38514143228530884,
      "learning_rate": 0.0005100357685994207,
      "loss": 1.6584,
      "step": 22825
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4185373783111572,
      "learning_rate": 0.0005100283053894779,
      "loss": 1.7026,
      "step": 22826
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3971978425979614,
      "learning_rate": 0.0005100208419245917,
      "loss": 1.6925,
      "step": 22827
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3790014982223511,
      "learning_rate": 0.000510013378204771,
      "loss": 1.7189,
      "step": 22828
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38480982184410095,
      "learning_rate": 0.0005100059142300252,
      "loss": 1.6299,
      "step": 22829
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39775124192237854,
      "learning_rate": 0.0005099984500003631,
      "loss": 1.6936,
      "step": 22830
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3916497826576233,
      "learning_rate": 0.0005099909855157939,
      "loss": 1.7243,
      "step": 22831
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3811047673225403,
      "learning_rate": 0.0005099835207763265,
      "loss": 1.612,
      "step": 22832
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38408195972442627,
      "learning_rate": 0.00050997605578197,
      "loss": 1.6512,
      "step": 22833
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3919551372528076,
      "learning_rate": 0.0005099685905327335,
      "loss": 1.7203,
      "step": 22834
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38724762201309204,
      "learning_rate": 0.0005099611250286261,
      "loss": 1.6676,
      "step": 22835
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.379453182220459,
      "learning_rate": 0.0005099536592696569,
      "loss": 1.6485,
      "step": 22836
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38498279452323914,
      "learning_rate": 0.0005099461932558349,
      "loss": 1.7264,
      "step": 22837
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5503617525100708,
      "learning_rate": 0.000509938726987169,
      "loss": 1.7285,
      "step": 22838
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39335039258003235,
      "learning_rate": 0.0005099312604636686,
      "loss": 1.6919,
      "step": 22839
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3971858322620392,
      "learning_rate": 0.0005099237936853424,
      "loss": 1.6962,
      "step": 22840
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38041695952415466,
      "learning_rate": 0.0005099163266521998,
      "loss": 1.7008,
      "step": 22841
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40120846033096313,
      "learning_rate": 0.0005099088593642497,
      "loss": 1.7124,
      "step": 22842
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37923312187194824,
      "learning_rate": 0.000509901391821501,
      "loss": 1.6892,
      "step": 22843
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3822172284126282,
      "learning_rate": 0.0005098939240239632,
      "loss": 1.7213,
      "step": 22844
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38798120617866516,
      "learning_rate": 0.0005098864559716449,
      "loss": 1.7455,
      "step": 22845
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39495351910591125,
      "learning_rate": 0.0005098789876645555,
      "loss": 1.7565,
      "step": 22846
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37830281257629395,
      "learning_rate": 0.0005098715191027038,
      "loss": 1.6892,
      "step": 22847
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3690570294857025,
      "learning_rate": 0.000509864050286099,
      "loss": 1.7824,
      "step": 22848
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37616926431655884,
      "learning_rate": 0.0005098565812147503,
      "loss": 1.6346,
      "step": 22849
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3991085886955261,
      "learning_rate": 0.0005098491118886666,
      "loss": 1.7343,
      "step": 22850
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3987398147583008,
      "learning_rate": 0.0005098416423078569,
      "loss": 1.7674,
      "step": 22851
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3750794529914856,
      "learning_rate": 0.0005098341724723305,
      "loss": 1.6809,
      "step": 22852
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.42814284563064575,
      "learning_rate": 0.0005098267023820962,
      "loss": 1.7775,
      "step": 22853
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38995110988616943,
      "learning_rate": 0.0005098192320371633,
      "loss": 1.6895,
      "step": 22854
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38590773940086365,
      "learning_rate": 0.0005098117614375407,
      "loss": 1.6634,
      "step": 22855
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37939319014549255,
      "learning_rate": 0.0005098042905832376,
      "loss": 1.6715,
      "step": 22856
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3850667476654053,
      "learning_rate": 0.0005097968194742629,
      "loss": 1.7726,
      "step": 22857
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3805404007434845,
      "learning_rate": 0.0005097893481106259,
      "loss": 1.6629,
      "step": 22858
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39721471071243286,
      "learning_rate": 0.0005097818764923355,
      "loss": 1.7279,
      "step": 22859
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3813028633594513,
      "learning_rate": 0.0005097744046194008,
      "loss": 1.6989,
      "step": 22860
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.42126166820526123,
      "learning_rate": 0.0005097669324918309,
      "loss": 1.6567,
      "step": 22861
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3821066617965698,
      "learning_rate": 0.0005097594601096348,
      "loss": 1.6667,
      "step": 22862
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3730139136314392,
      "learning_rate": 0.0005097519874728216,
      "loss": 1.7259,
      "step": 22863
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3759772777557373,
      "learning_rate": 0.0005097445145814005,
      "loss": 1.6313,
      "step": 22864
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3868068754673004,
      "learning_rate": 0.0005097370414353803,
      "loss": 1.6934,
      "step": 22865
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39934515953063965,
      "learning_rate": 0.0005097295680347704,
      "loss": 1.6671,
      "step": 22866
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37900856137275696,
      "learning_rate": 0.0005097220943795797,
      "loss": 1.6968,
      "step": 22867
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.393086701631546,
      "learning_rate": 0.0005097146204698171,
      "loss": 1.6689,
      "step": 22868
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3912743031978607,
      "learning_rate": 0.0005097071463054921,
      "loss": 1.6729,
      "step": 22869
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3973716199398041,
      "learning_rate": 0.0005096996718866134,
      "loss": 1.7091,
      "step": 22870
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3820655941963196,
      "learning_rate": 0.0005096921972131902,
      "loss": 1.6877,
      "step": 22871
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37716326117515564,
      "learning_rate": 0.0005096847222852315,
      "loss": 1.6671,
      "step": 22872
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4034152626991272,
      "learning_rate": 0.0005096772471027465,
      "loss": 1.6527,
      "step": 22873
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39924299716949463,
      "learning_rate": 0.0005096697716657442,
      "loss": 1.7066,
      "step": 22874
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.391076922416687,
      "learning_rate": 0.0005096622959742338,
      "loss": 1.6161,
      "step": 22875
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3802327513694763,
      "learning_rate": 0.0005096548200282242,
      "loss": 1.6253,
      "step": 22876
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3758893311023712,
      "learning_rate": 0.0005096473438277244,
      "loss": 1.6473,
      "step": 22877
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38449856638908386,
      "learning_rate": 0.0005096398673727438,
      "loss": 1.7419,
      "step": 22878
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3798004984855652,
      "learning_rate": 0.0005096323906632912,
      "loss": 1.734,
      "step": 22879
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3844195008277893,
      "learning_rate": 0.0005096249136993758,
      "loss": 1.7342,
      "step": 22880
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3761168420314789,
      "learning_rate": 0.0005096174364810067,
      "loss": 1.6305,
      "step": 22881
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38390499353408813,
      "learning_rate": 0.0005096099590081927,
      "loss": 1.6198,
      "step": 22882
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37713423371315,
      "learning_rate": 0.0005096024812809433,
      "loss": 1.7251,
      "step": 22883
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38086697459220886,
      "learning_rate": 0.0005095950032992674,
      "loss": 1.7373,
      "step": 22884
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3936844766139984,
      "learning_rate": 0.0005095875250631739,
      "loss": 1.7014,
      "step": 22885
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3767032325267792,
      "learning_rate": 0.0005095800465726721,
      "loss": 1.6824,
      "step": 22886
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38033249974250793,
      "learning_rate": 0.0005095725678277709,
      "loss": 1.6536,
      "step": 22887
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37817656993865967,
      "learning_rate": 0.0005095650888284796,
      "loss": 1.7741,
      "step": 22888
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3818007707595825,
      "learning_rate": 0.0005095576095748072,
      "loss": 1.6387,
      "step": 22889
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38407567143440247,
      "learning_rate": 0.0005095501300667627,
      "loss": 1.6734,
      "step": 22890
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3869902193546295,
      "learning_rate": 0.000509542650304355,
      "loss": 1.7354,
      "step": 22891
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39624443650245667,
      "learning_rate": 0.0005095351702875937,
      "loss": 1.6855,
      "step": 22892
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3851196765899658,
      "learning_rate": 0.0005095276900164875,
      "loss": 1.7275,
      "step": 22893
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3990640342235565,
      "learning_rate": 0.0005095202094910455,
      "loss": 1.752,
      "step": 22894
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38492658734321594,
      "learning_rate": 0.0005095127287112768,
      "loss": 1.6851,
      "step": 22895
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40145936608314514,
      "learning_rate": 0.0005095052476771907,
      "loss": 1.6566,
      "step": 22896
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39128628373146057,
      "learning_rate": 0.000509497766388796,
      "loss": 1.6971,
      "step": 22897
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3898177444934845,
      "learning_rate": 0.0005094902848461018,
      "loss": 1.7448,
      "step": 22898
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38929876685142517,
      "learning_rate": 0.0005094828030491172,
      "loss": 1.7106,
      "step": 22899
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39564764499664307,
      "learning_rate": 0.0005094753209978516,
      "loss": 1.6673,
      "step": 22900
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38883787393569946,
      "learning_rate": 0.0005094678386923136,
      "loss": 1.6704,
      "step": 22901
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38681334257125854,
      "learning_rate": 0.0005094603561325126,
      "loss": 1.696,
      "step": 22902
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39207392930984497,
      "learning_rate": 0.0005094528733184576,
      "loss": 1.7442,
      "step": 22903
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40252408385276794,
      "learning_rate": 0.0005094453902501576,
      "loss": 1.5964,
      "step": 22904
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4016760587692261,
      "learning_rate": 0.0005094379069276218,
      "loss": 1.6843,
      "step": 22905
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38207894563674927,
      "learning_rate": 0.0005094304233508593,
      "loss": 1.6777,
      "step": 22906
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40385979413986206,
      "learning_rate": 0.000509422939519879,
      "loss": 1.6892,
      "step": 22907
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38335683941841125,
      "learning_rate": 0.0005094154554346902,
      "loss": 1.7002,
      "step": 22908
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3997403681278229,
      "learning_rate": 0.000509407971095302,
      "loss": 1.6763,
      "step": 22909
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3769221007823944,
      "learning_rate": 0.0005094004865017232,
      "loss": 1.6865,
      "step": 22910
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39133957028388977,
      "learning_rate": 0.0005093930016539631,
      "loss": 1.6589,
      "step": 22911
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3885025978088379,
      "learning_rate": 0.0005093855165520308,
      "loss": 1.7074,
      "step": 22912
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40579330921173096,
      "learning_rate": 0.0005093780311959353,
      "loss": 1.6618,
      "step": 22913
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38047879934310913,
      "learning_rate": 0.0005093705455856857,
      "loss": 1.7582,
      "step": 22914
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3858218193054199,
      "learning_rate": 0.0005093630597212912,
      "loss": 1.6771,
      "step": 22915
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4001151919364929,
      "learning_rate": 0.0005093555736027606,
      "loss": 1.7298,
      "step": 22916
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39366474747657776,
      "learning_rate": 0.0005093480872301033,
      "loss": 1.6683,
      "step": 22917
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3878924250602722,
      "learning_rate": 0.0005093406006033283,
      "loss": 1.7006,
      "step": 22918
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39530420303344727,
      "learning_rate": 0.0005093331137224447,
      "loss": 1.7132,
      "step": 22919
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3917965292930603,
      "learning_rate": 0.0005093256265874614,
      "loss": 1.6755,
      "step": 22920
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40487876534461975,
      "learning_rate": 0.0005093181391983878,
      "loss": 1.703,
      "step": 22921
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3873383402824402,
      "learning_rate": 0.0005093106515552326,
      "loss": 1.6903,
      "step": 22922
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3889412581920624,
      "learning_rate": 0.0005093031636580052,
      "loss": 1.6379,
      "step": 22923
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39083996415138245,
      "learning_rate": 0.0005092956755067148,
      "loss": 1.6922,
      "step": 22924
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.40266886353492737,
      "learning_rate": 0.00050928818710137,
      "loss": 1.6478,
      "step": 22925
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3822293281555176,
      "learning_rate": 0.0005092806984419803,
      "loss": 1.7093,
      "step": 22926
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39725273847579956,
      "learning_rate": 0.0005092732095285546,
      "loss": 1.6983,
      "step": 22927
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3914061188697815,
      "learning_rate": 0.0005092657203611022,
      "loss": 1.6521,
      "step": 22928
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38238459825515747,
      "learning_rate": 0.0005092582309396321,
      "loss": 1.5928,
      "step": 22929
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38457241654396057,
      "learning_rate": 0.0005092507412641532,
      "loss": 1.634,
      "step": 22930
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38525184988975525,
      "learning_rate": 0.0005092432513346747,
      "loss": 1.6333,
      "step": 22931
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3911477029323578,
      "learning_rate": 0.0005092357611512057,
      "loss": 1.7108,
      "step": 22932
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38978034257888794,
      "learning_rate": 0.0005092282707137555,
      "loss": 1.6591,
      "step": 22933
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37780624628067017,
      "learning_rate": 0.0005092207800223329,
      "loss": 1.726,
      "step": 22934
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37868767976760864,
      "learning_rate": 0.000509213289076947,
      "loss": 1.6784,
      "step": 22935
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.402445524930954,
      "learning_rate": 0.0005092057978776071,
      "loss": 1.6452,
      "step": 22936
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39061838388442993,
      "learning_rate": 0.0005091983064243221,
      "loss": 1.6879,
      "step": 22937
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.43480384349823,
      "learning_rate": 0.0005091908147171013,
      "loss": 1.6895,
      "step": 22938
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38088393211364746,
      "learning_rate": 0.0005091833227559537,
      "loss": 1.7453,
      "step": 22939
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3900691866874695,
      "learning_rate": 0.0005091758305408883,
      "loss": 1.6833,
      "step": 22940
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3804360330104828,
      "learning_rate": 0.0005091683380719143,
      "loss": 1.7171,
      "step": 22941
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38938865065574646,
      "learning_rate": 0.0005091608453490406,
      "loss": 1.7534,
      "step": 22942
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39570897817611694,
      "learning_rate": 0.0005091533523722766,
      "loss": 1.6412,
      "step": 22943
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37783515453338623,
      "learning_rate": 0.0005091458591416311,
      "loss": 1.6807,
      "step": 22944
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38981735706329346,
      "learning_rate": 0.0005091383656571135,
      "loss": 1.715,
      "step": 22945
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39798927307128906,
      "learning_rate": 0.0005091308719187327,
      "loss": 1.7346,
      "step": 22946
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3946024179458618,
      "learning_rate": 0.0005091233779264978,
      "loss": 1.742,
      "step": 22947
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38587504625320435,
      "learning_rate": 0.000509115883680418,
      "loss": 1.6697,
      "step": 22948
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4025452136993408,
      "learning_rate": 0.0005091083891805024,
      "loss": 1.7167,
      "step": 22949
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37834632396698,
      "learning_rate": 0.0005091008944267598,
      "loss": 1.7047,
      "step": 22950
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3869573771953583,
      "learning_rate": 0.0005090933994191996,
      "loss": 1.6938,
      "step": 22951
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3916028141975403,
      "learning_rate": 0.0005090859041578309,
      "loss": 1.6661,
      "step": 22952
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3835902214050293,
      "learning_rate": 0.0005090784086426627,
      "loss": 1.7104,
      "step": 22953
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4019692838191986,
      "learning_rate": 0.0005090709128737042,
      "loss": 1.6739,
      "step": 22954
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39460620284080505,
      "learning_rate": 0.0005090634168509643,
      "loss": 1.7305,
      "step": 22955
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.43688616156578064,
      "learning_rate": 0.0005090559205744522,
      "loss": 1.639,
      "step": 22956
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38212478160858154,
      "learning_rate": 0.0005090484240441771,
      "loss": 1.6906,
      "step": 22957
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3876814842224121,
      "learning_rate": 0.0005090409272601479,
      "loss": 1.72,
      "step": 22958
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3929443657398224,
      "learning_rate": 0.0005090334302223739,
      "loss": 1.7466,
      "step": 22959
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3897233009338379,
      "learning_rate": 0.000509025932930864,
      "loss": 1.671,
      "step": 22960
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38504713773727417,
      "learning_rate": 0.0005090184353856276,
      "loss": 1.6626,
      "step": 22961
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3839665949344635,
      "learning_rate": 0.0005090109375866735,
      "loss": 1.6553,
      "step": 22962
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37717798352241516,
      "learning_rate": 0.0005090034395340109,
      "loss": 1.668,
      "step": 22963
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3975556194782257,
      "learning_rate": 0.000508995941227649,
      "loss": 1.7199,
      "step": 22964
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3747997581958771,
      "learning_rate": 0.0005089884426675967,
      "loss": 1.595,
      "step": 22965
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.4096030294895172,
      "learning_rate": 0.0005089809438538635,
      "loss": 1.7434,
      "step": 22966
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3862382173538208,
      "learning_rate": 0.0005089734447864579,
      "loss": 1.6883,
      "step": 22967
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38550788164138794,
      "learning_rate": 0.0005089659454653896,
      "loss": 1.698,
      "step": 22968
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3878684341907501,
      "learning_rate": 0.0005089584458906673,
      "loss": 1.718,
      "step": 22969
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39783719182014465,
      "learning_rate": 0.0005089509460623002,
      "loss": 1.7706,
      "step": 22970
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37824365496635437,
      "learning_rate": 0.0005089434459802975,
      "loss": 1.7099,
      "step": 22971
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39368078112602234,
      "learning_rate": 0.0005089359456446681,
      "loss": 1.666,
      "step": 22972
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38086214661598206,
      "learning_rate": 0.0005089284450554214,
      "loss": 1.6457,
      "step": 22973
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3816656768321991,
      "learning_rate": 0.0005089209442125664,
      "loss": 1.7052,
      "step": 22974
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38031792640686035,
      "learning_rate": 0.000508913443116112,
      "loss": 1.7017,
      "step": 22975
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3784756660461426,
      "learning_rate": 0.0005089059417660675,
      "loss": 1.7122,
      "step": 22976
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3880668878555298,
      "learning_rate": 0.0005088984401624419,
      "loss": 1.677,
      "step": 22977
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3832683265209198,
      "learning_rate": 0.0005088909383052446,
      "loss": 1.6023,
      "step": 22978
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38003411889076233,
      "learning_rate": 0.0005088834361944843,
      "loss": 1.6685,
      "step": 22979
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38364139199256897,
      "learning_rate": 0.0005088759338301703,
      "loss": 1.7563,
      "step": 22980
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3816094398498535,
      "learning_rate": 0.0005088684312123117,
      "loss": 1.6709,
      "step": 22981
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39397794008255005,
      "learning_rate": 0.0005088609283409178,
      "loss": 1.7618,
      "step": 22982
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3817107081413269,
      "learning_rate": 0.0005088534252159973,
      "loss": 1.6784,
      "step": 22983
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.393480122089386,
      "learning_rate": 0.0005088459218375595,
      "loss": 1.6862,
      "step": 22984
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.37922903895378113,
      "learning_rate": 0.0005088384182056136,
      "loss": 1.6773,
      "step": 22985
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.46151721477508545,
      "learning_rate": 0.0005088309143201686,
      "loss": 1.6548,
      "step": 22986
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39000552892684937,
      "learning_rate": 0.0005088234101812336,
      "loss": 1.6581,
      "step": 22987
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38468894362449646,
      "learning_rate": 0.0005088159057888179,
      "loss": 1.6365,
      "step": 22988
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3927944302558899,
      "learning_rate": 0.0005088084011429303,
      "loss": 1.6781,
      "step": 22989
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3928646743297577,
      "learning_rate": 0.0005088008962435801,
      "loss": 1.6602,
      "step": 22990
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3833843469619751,
      "learning_rate": 0.0005087933910907764,
      "loss": 1.6862,
      "step": 22991
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.38212835788726807,
      "learning_rate": 0.0005087858856845283,
      "loss": 1.6008,
      "step": 22992
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39439457654953003,
      "learning_rate": 0.0005087783800248449,
      "loss": 1.7204,
      "step": 22993
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38407936692237854,
      "learning_rate": 0.0005087708741117353,
      "loss": 1.6026,
      "step": 22994
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3908996880054474,
      "learning_rate": 0.0005087633679452086,
      "loss": 1.6889,
      "step": 22995
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3900662362575531,
      "learning_rate": 0.0005087558615252739,
      "loss": 1.6716,
      "step": 22996
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38445422053337097,
      "learning_rate": 0.0005087483548519404,
      "loss": 1.6222,
      "step": 22997
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39759084582328796,
      "learning_rate": 0.0005087408479252172,
      "loss": 1.62,
      "step": 22998
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4018641710281372,
      "learning_rate": 0.0005087333407451133,
      "loss": 1.6643,
      "step": 22999
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38701575994491577,
      "learning_rate": 0.0005087258333116379,
      "loss": 1.711,
      "step": 23000
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3969871699810028,
      "learning_rate": 0.0005087183256248,
      "loss": 1.7469,
      "step": 23001
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3870343863964081,
      "learning_rate": 0.0005087108176846089,
      "loss": 1.6181,
      "step": 23002
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39295274019241333,
      "learning_rate": 0.0005087033094910736,
      "loss": 1.7056,
      "step": 23003
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40106233954429626,
      "learning_rate": 0.0005086958010442033,
      "loss": 1.6822,
      "step": 23004
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39154353737831116,
      "learning_rate": 0.0005086882923440069,
      "loss": 1.7296,
      "step": 23005
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3727809488773346,
      "learning_rate": 0.0005086807833904938,
      "loss": 1.5841,
      "step": 23006
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40180546045303345,
      "learning_rate": 0.0005086732741836729,
      "loss": 1.721,
      "step": 23007
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39911365509033203,
      "learning_rate": 0.0005086657647235535,
      "loss": 1.6105,
      "step": 23008
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3919702172279358,
      "learning_rate": 0.0005086582550101445,
      "loss": 1.67,
      "step": 23009
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3860778212547302,
      "learning_rate": 0.0005086507450434551,
      "loss": 1.6617,
      "step": 23010
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3984493911266327,
      "learning_rate": 0.0005086432348234946,
      "loss": 1.6654,
      "step": 23011
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3964981436729431,
      "learning_rate": 0.0005086357243502717,
      "loss": 1.7251,
      "step": 23012
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3970121443271637,
      "learning_rate": 0.000508628213623796,
      "loss": 1.7111,
      "step": 23013
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3889676332473755,
      "learning_rate": 0.0005086207026440763,
      "loss": 1.6943,
      "step": 23014
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38752248883247375,
      "learning_rate": 0.0005086131914111218,
      "loss": 1.7391,
      "step": 23015
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.41048213839530945,
      "learning_rate": 0.0005086056799249416,
      "loss": 1.7432,
      "step": 23016
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.41348323225975037,
      "learning_rate": 0.0005085981681855449,
      "loss": 1.7489,
      "step": 23017
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38761863112449646,
      "learning_rate": 0.0005085906561929408,
      "loss": 1.7269,
      "step": 23018
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40101704001426697,
      "learning_rate": 0.0005085831439471382,
      "loss": 1.7008,
      "step": 23019
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37925881147384644,
      "learning_rate": 0.0005085756314481465,
      "loss": 1.6514,
      "step": 23020
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39904090762138367,
      "learning_rate": 0.0005085681186959747,
      "loss": 1.7598,
      "step": 23021
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.387185662984848,
      "learning_rate": 0.000508560605690632,
      "loss": 1.5968,
      "step": 23022
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3848113417625427,
      "learning_rate": 0.0005085530924321274,
      "loss": 1.7059,
      "step": 23023
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39089852571487427,
      "learning_rate": 0.00050854557892047,
      "loss": 1.7322,
      "step": 23024
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3853720426559448,
      "learning_rate": 0.0005085380651556692,
      "loss": 1.7312,
      "step": 23025
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38046643137931824,
      "learning_rate": 0.0005085305511377339,
      "loss": 1.649,
      "step": 23026
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38812077045440674,
      "learning_rate": 0.000508523036866673,
      "loss": 1.7101,
      "step": 23027
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3926750421524048,
      "learning_rate": 0.000508515522342496,
      "loss": 1.7301,
      "step": 23028
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3845362961292267,
      "learning_rate": 0.0005085080075652119,
      "loss": 1.6241,
      "step": 23029
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.390404611825943,
      "learning_rate": 0.0005085004925348298,
      "loss": 1.5869,
      "step": 23030
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.390103816986084,
      "learning_rate": 0.0005084929772513588,
      "loss": 1.6961,
      "step": 23031
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38615456223487854,
      "learning_rate": 0.0005084854617148079,
      "loss": 1.6896,
      "step": 23032
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39578714966773987,
      "learning_rate": 0.0005084779459251866,
      "loss": 1.7229,
      "step": 23033
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3871372640132904,
      "learning_rate": 0.0005084704298825036,
      "loss": 1.6495,
      "step": 23034
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4022040367126465,
      "learning_rate": 0.0005084629135867684,
      "loss": 1.7304,
      "step": 23035
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3867160975933075,
      "learning_rate": 0.0005084553970379898,
      "loss": 1.6496,
      "step": 23036
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3979189097881317,
      "learning_rate": 0.0005084478802361771,
      "loss": 1.6952,
      "step": 23037
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3897090256214142,
      "learning_rate": 0.0005084403631813395,
      "loss": 1.6341,
      "step": 23038
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3813912868499756,
      "learning_rate": 0.0005084328458734858,
      "loss": 1.7176,
      "step": 23039
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3879704177379608,
      "learning_rate": 0.0005084253283126255,
      "loss": 1.6455,
      "step": 23040
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39290153980255127,
      "learning_rate": 0.0005084178104987675,
      "loss": 1.6981,
      "step": 23041
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39574915170669556,
      "learning_rate": 0.000508410292431921,
      "loss": 1.7149,
      "step": 23042
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3889184296131134,
      "learning_rate": 0.0005084027741120952,
      "loss": 1.7505,
      "step": 23043
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38399749994277954,
      "learning_rate": 0.000508395255539299,
      "loss": 1.7648,
      "step": 23044
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39476239681243896,
      "learning_rate": 0.0005083877367135417,
      "loss": 1.7324,
      "step": 23045
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38400202989578247,
      "learning_rate": 0.0005083802176348324,
      "loss": 1.7521,
      "step": 23046
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3806542754173279,
      "learning_rate": 0.0005083726983031802,
      "loss": 1.6686,
      "step": 23047
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.54188472032547,
      "learning_rate": 0.0005083651787185943,
      "loss": 1.7604,
      "step": 23048
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3861866593360901,
      "learning_rate": 0.0005083576588810838,
      "loss": 1.7402,
      "step": 23049
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4576954245567322,
      "learning_rate": 0.0005083501387906576,
      "loss": 1.7921,
      "step": 23050
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3845146596431732,
      "learning_rate": 0.0005083426184473253,
      "loss": 1.7264,
      "step": 23051
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38349226117134094,
      "learning_rate": 0.0005083350978510956,
      "loss": 1.6727,
      "step": 23052
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3860833942890167,
      "learning_rate": 0.0005083275770019778,
      "loss": 1.6625,
      "step": 23053
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38086986541748047,
      "learning_rate": 0.0005083200558999811,
      "loss": 1.6415,
      "step": 23054
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3710516095161438,
      "learning_rate": 0.0005083125345451145,
      "loss": 1.6431,
      "step": 23055
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39930012822151184,
      "learning_rate": 0.0005083050129373871,
      "loss": 1.6975,
      "step": 23056
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39019736647605896,
      "learning_rate": 0.0005082974910768082,
      "loss": 1.7122,
      "step": 23057
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37314754724502563,
      "learning_rate": 0.0005082899689633868,
      "loss": 1.6401,
      "step": 23058
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38229498267173767,
      "learning_rate": 0.0005082824465971321,
      "loss": 1.6989,
      "step": 23059
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38659152388572693,
      "learning_rate": 0.0005082749239780532,
      "loss": 1.7295,
      "step": 23060
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40790632367134094,
      "learning_rate": 0.0005082674011061592,
      "loss": 1.6041,
      "step": 23061
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.376988023519516,
      "learning_rate": 0.0005082598779814592,
      "loss": 1.6666,
      "step": 23062
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39426544308662415,
      "learning_rate": 0.0005082523546039625,
      "loss": 1.716,
      "step": 23063
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3942810893058777,
      "learning_rate": 0.0005082448309736781,
      "loss": 1.6828,
      "step": 23064
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38957738876342773,
      "learning_rate": 0.0005082373070906151,
      "loss": 1.6468,
      "step": 23065
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38145947456359863,
      "learning_rate": 0.0005082297829547827,
      "loss": 1.645,
      "step": 23066
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38497042655944824,
      "learning_rate": 0.0005082222585661902,
      "loss": 1.5636,
      "step": 23067
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39411115646362305,
      "learning_rate": 0.0005082147339248463,
      "loss": 1.6956,
      "step": 23068
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3897083103656769,
      "learning_rate": 0.0005082072090307606,
      "loss": 1.6844,
      "step": 23069
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38588935136795044,
      "learning_rate": 0.000508199683883942,
      "loss": 1.6554,
      "step": 23070
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3801615238189697,
      "learning_rate": 0.0005081921584843995,
      "loss": 1.7197,
      "step": 23071
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39386236667633057,
      "learning_rate": 0.0005081846328321425,
      "loss": 1.6266,
      "step": 23072
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3802565932273865,
      "learning_rate": 0.0005081771069271801,
      "loss": 1.6427,
      "step": 23073
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38219591975212097,
      "learning_rate": 0.0005081695807695212,
      "loss": 1.6851,
      "step": 23074
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38805899024009705,
      "learning_rate": 0.0005081620543591752,
      "loss": 1.561,
      "step": 23075
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38305234909057617,
      "learning_rate": 0.0005081545276961511,
      "loss": 1.6478,
      "step": 23076
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39455676078796387,
      "learning_rate": 0.0005081470007804581,
      "loss": 1.7567,
      "step": 23077
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4055297076702118,
      "learning_rate": 0.0005081394736121054,
      "loss": 1.7127,
      "step": 23078
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3768797814846039,
      "learning_rate": 0.0005081319461911019,
      "loss": 1.6812,
      "step": 23079
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3922761082649231,
      "learning_rate": 0.0005081244185174569,
      "loss": 1.7208,
      "step": 23080
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3885011374950409,
      "learning_rate": 0.0005081168905911797,
      "loss": 1.6849,
      "step": 23081
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3783866763114929,
      "learning_rate": 0.000508109362412279,
      "loss": 1.6466,
      "step": 23082
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3962504267692566,
      "learning_rate": 0.0005081018339807644,
      "loss": 1.6867,
      "step": 23083
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3748343884944916,
      "learning_rate": 0.0005080943052966447,
      "loss": 1.7005,
      "step": 23084
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37309834361076355,
      "learning_rate": 0.0005080867763599293,
      "loss": 1.6347,
      "step": 23085
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4014880955219269,
      "learning_rate": 0.0005080792471706271,
      "loss": 1.7407,
      "step": 23086
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38074052333831787,
      "learning_rate": 0.0005080717177287474,
      "loss": 1.7056,
      "step": 23087
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39603662490844727,
      "learning_rate": 0.0005080641880342993,
      "loss": 1.7459,
      "step": 23088
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4002556800842285,
      "learning_rate": 0.0005080566580872919,
      "loss": 1.71,
      "step": 23089
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37981295585632324,
      "learning_rate": 0.0005080491278877344,
      "loss": 1.6324,
      "step": 23090
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3729764223098755,
      "learning_rate": 0.0005080415974356359,
      "loss": 1.7214,
      "step": 23091
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4199124574661255,
      "learning_rate": 0.0005080340667310056,
      "loss": 1.7109,
      "step": 23092
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4136180877685547,
      "learning_rate": 0.0005080265357738527,
      "loss": 1.6614,
      "step": 23093
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3913276791572571,
      "learning_rate": 0.0005080190045641859,
      "loss": 1.6797,
      "step": 23094
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39452633261680603,
      "learning_rate": 0.000508011473102015,
      "loss": 1.691,
      "step": 23095
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6598502993583679,
      "learning_rate": 0.0005080039413873486,
      "loss": 1.6945,
      "step": 23096
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38803166151046753,
      "learning_rate": 0.0005079964094201962,
      "loss": 1.6527,
      "step": 23097
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.36259186267852783,
      "learning_rate": 0.0005079888772005668,
      "loss": 1.6657,
      "step": 23098
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38735058903694153,
      "learning_rate": 0.0005079813447284695,
      "loss": 1.6944,
      "step": 23099
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3945375084877014,
      "learning_rate": 0.0005079738120039135,
      "loss": 1.6479,
      "step": 23100
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3974311351776123,
      "learning_rate": 0.000507966279026908,
      "loss": 1.696,
      "step": 23101
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3818639814853668,
      "learning_rate": 0.000507958745797462,
      "loss": 1.754,
      "step": 23102
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39732053875923157,
      "learning_rate": 0.0005079512123155847,
      "loss": 1.6418,
      "step": 23103
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38029617071151733,
      "learning_rate": 0.0005079436785812853,
      "loss": 1.6968,
      "step": 23104
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.41063451766967773,
      "learning_rate": 0.0005079361445945729,
      "loss": 1.6484,
      "step": 23105
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39414650201797485,
      "learning_rate": 0.0005079286103554568,
      "loss": 1.6984,
      "step": 23106
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3897388279438019,
      "learning_rate": 0.0005079210758639458,
      "loss": 1.6877,
      "step": 23107
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38644179701805115,
      "learning_rate": 0.0005079135411200494,
      "loss": 1.6832,
      "step": 23108
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3825550675392151,
      "learning_rate": 0.0005079060061237764,
      "loss": 1.6877,
      "step": 23109
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3929566740989685,
      "learning_rate": 0.0005078984708751363,
      "loss": 1.7568,
      "step": 23110
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37510064244270325,
      "learning_rate": 0.0005078909353741382,
      "loss": 1.7062,
      "step": 23111
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3869355320930481,
      "learning_rate": 0.0005078833996207909,
      "loss": 1.7299,
      "step": 23112
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.393096923828125,
      "learning_rate": 0.0005078758636151039,
      "loss": 1.7036,
      "step": 23113
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3869837522506714,
      "learning_rate": 0.0005078683273570862,
      "loss": 1.6251,
      "step": 23114
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39101123809814453,
      "learning_rate": 0.000507860790846747,
      "loss": 1.7204,
      "step": 23115
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38994309306144714,
      "learning_rate": 0.0005078532540840954,
      "loss": 1.7752,
      "step": 23116
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3706725537776947,
      "learning_rate": 0.0005078457170691407,
      "loss": 1.68,
      "step": 23117
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37490007281303406,
      "learning_rate": 0.0005078381798018917,
      "loss": 1.6289,
      "step": 23118
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38765406608581543,
      "learning_rate": 0.0005078306422823579,
      "loss": 1.7086,
      "step": 23119
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38785433769226074,
      "learning_rate": 0.0005078231045105483,
      "loss": 1.6613,
      "step": 23120
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3715520203113556,
      "learning_rate": 0.0005078155664864721,
      "loss": 1.686,
      "step": 23121
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38393452763557434,
      "learning_rate": 0.0005078080282101384,
      "loss": 1.7097,
      "step": 23122
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3862302303314209,
      "learning_rate": 0.0005078004896815565,
      "loss": 1.6533,
      "step": 23123
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38658708333969116,
      "learning_rate": 0.0005077929509007353,
      "loss": 1.6775,
      "step": 23124
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37689346075057983,
      "learning_rate": 0.000507785411867684,
      "loss": 1.5726,
      "step": 23125
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3908334970474243,
      "learning_rate": 0.0005077778725824119,
      "loss": 1.6851,
      "step": 23126
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3883652985095978,
      "learning_rate": 0.0005077703330449281,
      "loss": 1.7473,
      "step": 23127
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40141749382019043,
      "learning_rate": 0.0005077627932552418,
      "loss": 1.6886,
      "step": 23128
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39724841713905334,
      "learning_rate": 0.0005077552532133619,
      "loss": 1.6621,
      "step": 23129
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39619261026382446,
      "learning_rate": 0.0005077477129192979,
      "loss": 1.637,
      "step": 23130
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3848901689052582,
      "learning_rate": 0.0005077401723730587,
      "loss": 1.6416,
      "step": 23131
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39382287859916687,
      "learning_rate": 0.0005077326315746535,
      "loss": 1.7369,
      "step": 23132
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.386888712644577,
      "learning_rate": 0.0005077250905240916,
      "loss": 1.6995,
      "step": 23133
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40350988507270813,
      "learning_rate": 0.000507717549221382,
      "loss": 1.751,
      "step": 23134
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3893794119358063,
      "learning_rate": 0.0005077100076665338,
      "loss": 1.671,
      "step": 23135
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3724161684513092,
      "learning_rate": 0.0005077024658595564,
      "loss": 1.6294,
      "step": 23136
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37383636832237244,
      "learning_rate": 0.0005076949238004587,
      "loss": 1.6839,
      "step": 23137
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3860889971256256,
      "learning_rate": 0.0005076873814892501,
      "loss": 1.7404,
      "step": 23138
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38982006907463074,
      "learning_rate": 0.0005076798389259395,
      "loss": 1.7099,
      "step": 23139
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38799774646759033,
      "learning_rate": 0.0005076722961105363,
      "loss": 1.6576,
      "step": 23140
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3974146246910095,
      "learning_rate": 0.0005076647530430494,
      "loss": 1.6805,
      "step": 23141
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3859628140926361,
      "learning_rate": 0.0005076572097234882,
      "loss": 1.7148,
      "step": 23142
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37579146027565,
      "learning_rate": 0.0005076496661518616,
      "loss": 1.5998,
      "step": 23143
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4063214659690857,
      "learning_rate": 0.000507642122328179,
      "loss": 1.7516,
      "step": 23144
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37584158778190613,
      "learning_rate": 0.0005076345782524495,
      "loss": 1.6917,
      "step": 23145
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4320453107357025,
      "learning_rate": 0.0005076270339246822,
      "loss": 1.692,
      "step": 23146
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3808865249156952,
      "learning_rate": 0.0005076194893448862,
      "loss": 1.7079,
      "step": 23147
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4066592752933502,
      "learning_rate": 0.0005076119445130708,
      "loss": 1.6801,
      "step": 23148
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3943224549293518,
      "learning_rate": 0.000507604399429245,
      "loss": 1.7805,
      "step": 23149
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39202508330345154,
      "learning_rate": 0.0005075968540934181,
      "loss": 1.6978,
      "step": 23150
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40547794103622437,
      "learning_rate": 0.0005075893085055992,
      "loss": 1.6721,
      "step": 23151
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38802552223205566,
      "learning_rate": 0.0005075817626657975,
      "loss": 1.666,
      "step": 23152
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3820021450519562,
      "learning_rate": 0.0005075742165740222,
      "loss": 1.7168,
      "step": 23153
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39939600229263306,
      "learning_rate": 0.0005075666702302822,
      "loss": 1.7011,
      "step": 23154
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.399991899728775,
      "learning_rate": 0.0005075591236345869,
      "loss": 1.6549,
      "step": 23155
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4068419635295868,
      "learning_rate": 0.0005075515767869455,
      "loss": 1.6775,
      "step": 23156
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38231733441352844,
      "learning_rate": 0.000507544029687367,
      "loss": 1.7171,
      "step": 23157
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39226192235946655,
      "learning_rate": 0.0005075364823358607,
      "loss": 1.6348,
      "step": 23158
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38037237524986267,
      "learning_rate": 0.0005075289347324355,
      "loss": 1.7079,
      "step": 23159
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40257883071899414,
      "learning_rate": 0.0005075213868771009,
      "loss": 1.7064,
      "step": 23160
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4132964313030243,
      "learning_rate": 0.000507513838769866,
      "loss": 1.7314,
      "step": 23161
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3814491927623749,
      "learning_rate": 0.0005075062904107396,
      "loss": 1.6788,
      "step": 23162
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39087995886802673,
      "learning_rate": 0.0005074987417997313,
      "loss": 1.7147,
      "step": 23163
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4032615125179291,
      "learning_rate": 0.0005074911929368502,
      "loss": 1.754,
      "step": 23164
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3776159882545471,
      "learning_rate": 0.0005074836438221053,
      "loss": 1.6213,
      "step": 23165
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37918636202812195,
      "learning_rate": 0.0005074760944555057,
      "loss": 1.673,
      "step": 23166
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40426647663116455,
      "learning_rate": 0.0005074685448370608,
      "loss": 1.751,
      "step": 23167
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3977455198764801,
      "learning_rate": 0.0005074609949667797,
      "loss": 1.7101,
      "step": 23168
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3937276005744934,
      "learning_rate": 0.0005074534448446715,
      "loss": 1.737,
      "step": 23169
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3758084177970886,
      "learning_rate": 0.0005074458944707452,
      "loss": 1.6197,
      "step": 23170
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39871636033058167,
      "learning_rate": 0.0005074383438450103,
      "loss": 1.6533,
      "step": 23171
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39765486121177673,
      "learning_rate": 0.0005074307929674759,
      "loss": 1.7174,
      "step": 23172
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38507816195487976,
      "learning_rate": 0.000507423241838151,
      "loss": 1.7204,
      "step": 23173
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39330995082855225,
      "learning_rate": 0.0005074156904570448,
      "loss": 1.6745,
      "step": 23174
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3996874988079071,
      "learning_rate": 0.0005074081388241666,
      "loss": 1.6238,
      "step": 23175
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39084377884864807,
      "learning_rate": 0.0005074005869395254,
      "loss": 1.7162,
      "step": 23176
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38953450322151184,
      "learning_rate": 0.0005073930348031305,
      "loss": 1.7396,
      "step": 23177
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3932504951953888,
      "learning_rate": 0.0005073854824149909,
      "loss": 1.6719,
      "step": 23178
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4334201216697693,
      "learning_rate": 0.0005073779297751161,
      "loss": 1.7094,
      "step": 23179
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4039115309715271,
      "learning_rate": 0.0005073703768835149,
      "loss": 1.7195,
      "step": 23180
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4016087055206299,
      "learning_rate": 0.0005073628237401966,
      "loss": 1.6378,
      "step": 23181
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40567293763160706,
      "learning_rate": 0.0005073552703451704,
      "loss": 1.6678,
      "step": 23182
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37806516885757446,
      "learning_rate": 0.0005073477166984455,
      "loss": 1.6457,
      "step": 23183
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38288626074790955,
      "learning_rate": 0.0005073401628000311,
      "loss": 1.6719,
      "step": 23184
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.381727933883667,
      "learning_rate": 0.0005073326086499362,
      "loss": 1.6575,
      "step": 23185
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3943116068840027,
      "learning_rate": 0.0005073250542481701,
      "loss": 1.7279,
      "step": 23186
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.384652316570282,
      "learning_rate": 0.0005073174995947418,
      "loss": 1.6687,
      "step": 23187
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39366614818573,
      "learning_rate": 0.0005073099446896608,
      "loss": 1.6491,
      "step": 23188
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3910057544708252,
      "learning_rate": 0.0005073023895329358,
      "loss": 1.7124,
      "step": 23189
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3921539783477783,
      "learning_rate": 0.0005072948341245765,
      "loss": 1.6202,
      "step": 23190
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40447282791137695,
      "learning_rate": 0.0005072872784645916,
      "loss": 1.6698,
      "step": 23191
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3816339671611786,
      "learning_rate": 0.0005072797225529907,
      "loss": 1.6909,
      "step": 23192
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3911747634410858,
      "learning_rate": 0.0005072721663897827,
      "loss": 1.6549,
      "step": 23193
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38601982593536377,
      "learning_rate": 0.0005072646099749768,
      "loss": 1.6692,
      "step": 23194
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3928340971469879,
      "learning_rate": 0.0005072570533085822,
      "loss": 1.6526,
      "step": 23195
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3822248578071594,
      "learning_rate": 0.0005072494963906081,
      "loss": 1.632,
      "step": 23196
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38974565267562866,
      "learning_rate": 0.0005072419392210635,
      "loss": 1.6731,
      "step": 23197
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3874663710594177,
      "learning_rate": 0.0005072343817999579,
      "loss": 1.695,
      "step": 23198
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3864436149597168,
      "learning_rate": 0.0005072268241273002,
      "loss": 1.6757,
      "step": 23199
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3849540948867798,
      "learning_rate": 0.0005072192662030998,
      "loss": 1.6725,
      "step": 23200
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39354854822158813,
      "learning_rate": 0.0005072117080273656,
      "loss": 1.6876,
      "step": 23201
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39556944370269775,
      "learning_rate": 0.000507204149600107,
      "loss": 1.6787,
      "step": 23202
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4057190418243408,
      "learning_rate": 0.000507196590921333,
      "loss": 1.7529,
      "step": 23203
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38972827792167664,
      "learning_rate": 0.0005071890319910529,
      "loss": 1.6323,
      "step": 23204
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39182040095329285,
      "learning_rate": 0.0005071814728092759,
      "loss": 1.5856,
      "step": 23205
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3925606310367584,
      "learning_rate": 0.0005071739133760111,
      "loss": 1.6116,
      "step": 23206
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38562339544296265,
      "learning_rate": 0.0005071663536912677,
      "loss": 1.5958,
      "step": 23207
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3834860622882843,
      "learning_rate": 0.0005071587937550549,
      "loss": 1.6391,
      "step": 23208
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4015451669692993,
      "learning_rate": 0.0005071512335673818,
      "loss": 1.717,
      "step": 23209
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39836385846138,
      "learning_rate": 0.0005071436731282576,
      "loss": 1.7542,
      "step": 23210
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3883601129055023,
      "learning_rate": 0.0005071361124376915,
      "loss": 1.6543,
      "step": 23211
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3806796669960022,
      "learning_rate": 0.0005071285514956928,
      "loss": 1.6623,
      "step": 23212
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38846415281295776,
      "learning_rate": 0.0005071209903022704,
      "loss": 1.6716,
      "step": 23213
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.400087833404541,
      "learning_rate": 0.0005071134288574337,
      "loss": 1.7143,
      "step": 23214
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3783336877822876,
      "learning_rate": 0.0005071058671611919,
      "loss": 1.7217,
      "step": 23215
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38908642530441284,
      "learning_rate": 0.000507098305213554,
      "loss": 1.7067,
      "step": 23216
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38760584592819214,
      "learning_rate": 0.0005070907430145292,
      "loss": 1.6611,
      "step": 23217
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3974720537662506,
      "learning_rate": 0.000507083180564127,
      "loss": 1.6876,
      "step": 23218
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3988179564476013,
      "learning_rate": 0.0005070756178623561,
      "loss": 1.6694,
      "step": 23219
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39738893508911133,
      "learning_rate": 0.000507068054909226,
      "loss": 1.6475,
      "step": 23220
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3845410645008087,
      "learning_rate": 0.0005070604917047456,
      "loss": 1.6842,
      "step": 23221
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3897375762462616,
      "learning_rate": 0.0005070529282489246,
      "loss": 1.7199,
      "step": 23222
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3911778926849365,
      "learning_rate": 0.0005070453645417717,
      "loss": 1.6927,
      "step": 23223
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39041760563850403,
      "learning_rate": 0.0005070378005832962,
      "loss": 1.6318,
      "step": 23224
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3920595347881317,
      "learning_rate": 0.0005070302363735072,
      "loss": 1.6422,
      "step": 23225
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3948768079280853,
      "learning_rate": 0.0005070226719124141,
      "loss": 1.6736,
      "step": 23226
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4257521629333496,
      "learning_rate": 0.0005070151072000262,
      "loss": 1.7374,
      "step": 23227
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6406069993972778,
      "learning_rate": 0.0005070075422363522,
      "loss": 1.7639,
      "step": 23228
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3804638981819153,
      "learning_rate": 0.0005069999770214017,
      "loss": 1.6483,
      "step": 23229
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38884785771369934,
      "learning_rate": 0.0005069924115551837,
      "loss": 1.6591,
      "step": 23230
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3778204917907715,
      "learning_rate": 0.0005069848458377073,
      "loss": 1.6497,
      "step": 23231
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39394617080688477,
      "learning_rate": 0.0005069772798689819,
      "loss": 1.7495,
      "step": 23232
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39642077684402466,
      "learning_rate": 0.0005069697136490165,
      "loss": 1.6521,
      "step": 23233
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39673760533332825,
      "learning_rate": 0.0005069621471778204,
      "loss": 1.6423,
      "step": 23234
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37680700421333313,
      "learning_rate": 0.0005069545804554028,
      "loss": 1.6653,
      "step": 23235
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39007511734962463,
      "learning_rate": 0.0005069470134817728,
      "loss": 1.6805,
      "step": 23236
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38511741161346436,
      "learning_rate": 0.0005069394462569396,
      "loss": 1.649,
      "step": 23237
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39663049578666687,
      "learning_rate": 0.0005069318787809124,
      "loss": 1.7012,
      "step": 23238
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38624611496925354,
      "learning_rate": 0.0005069243110537003,
      "loss": 1.6499,
      "step": 23239
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3949352502822876,
      "learning_rate": 0.0005069167430753127,
      "loss": 1.7478,
      "step": 23240
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39763474464416504,
      "learning_rate": 0.0005069091748457587,
      "loss": 1.6592,
      "step": 23241
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3941401541233063,
      "learning_rate": 0.0005069016063650473,
      "loss": 1.7194,
      "step": 23242
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39860183000564575,
      "learning_rate": 0.0005068940376331879,
      "loss": 1.7735,
      "step": 23243
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38797903060913086,
      "learning_rate": 0.0005068864686501897,
      "loss": 1.7246,
      "step": 23244
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3932413160800934,
      "learning_rate": 0.0005068788994160617,
      "loss": 1.6901,
      "step": 23245
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39338263869285583,
      "learning_rate": 0.0005068713299308132,
      "loss": 1.5695,
      "step": 23246
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3751930296421051,
      "learning_rate": 0.0005068637601944535,
      "loss": 1.6605,
      "step": 23247
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38542434573173523,
      "learning_rate": 0.0005068561902069916,
      "loss": 1.6551,
      "step": 23248
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3856963813304901,
      "learning_rate": 0.0005068486199684368,
      "loss": 1.6693,
      "step": 23249
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3954642713069916,
      "learning_rate": 0.0005068410494787982,
      "loss": 1.6926,
      "step": 23250
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4337540566921234,
      "learning_rate": 0.0005068334787380851,
      "loss": 1.6602,
      "step": 23251
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3821277320384979,
      "learning_rate": 0.0005068259077463065,
      "loss": 1.6587,
      "step": 23252
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.384065717458725,
      "learning_rate": 0.0005068183365034718,
      "loss": 1.6772,
      "step": 23253
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37702229619026184,
      "learning_rate": 0.0005068107650095902,
      "loss": 1.6886,
      "step": 23254
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39685624837875366,
      "learning_rate": 0.0005068031932646708,
      "loss": 1.5741,
      "step": 23255
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3977336287498474,
      "learning_rate": 0.0005067956212687228,
      "loss": 1.6742,
      "step": 23256
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3980266749858856,
      "learning_rate": 0.0005067880490217552,
      "loss": 1.6635,
      "step": 23257
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37909629940986633,
      "learning_rate": 0.0005067804765237774,
      "loss": 1.6904,
      "step": 23258
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4024944603443146,
      "learning_rate": 0.0005067729037747988,
      "loss": 1.7542,
      "step": 23259
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39120975136756897,
      "learning_rate": 0.0005067653307748282,
      "loss": 1.6069,
      "step": 23260
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3756626844406128,
      "learning_rate": 0.0005067577575238749,
      "loss": 1.6775,
      "step": 23261
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3806755840778351,
      "learning_rate": 0.0005067501840219483,
      "loss": 1.6481,
      "step": 23262
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3959730565547943,
      "learning_rate": 0.0005067426102690574,
      "loss": 1.6845,
      "step": 23263
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38125157356262207,
      "learning_rate": 0.0005067350362652114,
      "loss": 1.6781,
      "step": 23264
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.407382994890213,
      "learning_rate": 0.0005067274620104195,
      "loss": 1.6539,
      "step": 23265
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38168108463287354,
      "learning_rate": 0.0005067198875046909,
      "loss": 1.7026,
      "step": 23266
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.395717591047287,
      "learning_rate": 0.000506712312748035,
      "loss": 1.7661,
      "step": 23267
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3799467980861664,
      "learning_rate": 0.0005067047377404606,
      "loss": 1.7014,
      "step": 23268
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3845071494579315,
      "learning_rate": 0.0005066971624819772,
      "loss": 1.6635,
      "step": 23269
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3944278955459595,
      "learning_rate": 0.0005066895869725938,
      "loss": 1.6833,
      "step": 23270
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4253549873828888,
      "learning_rate": 0.0005066820112123199,
      "loss": 1.7606,
      "step": 23271
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3811565041542053,
      "learning_rate": 0.0005066744352011644,
      "loss": 1.6897,
      "step": 23272
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39582040905952454,
      "learning_rate": 0.0005066668589391364,
      "loss": 1.6553,
      "step": 23273
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3844674229621887,
      "learning_rate": 0.0005066592824262455,
      "loss": 1.654,
      "step": 23274
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39519843459129333,
      "learning_rate": 0.0005066517056625007,
      "loss": 1.655,
      "step": 23275
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3884345293045044,
      "learning_rate": 0.000506644128647911,
      "loss": 1.6401,
      "step": 23276
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.407667875289917,
      "learning_rate": 0.0005066365513824859,
      "loss": 1.6914,
      "step": 23277
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.394048273563385,
      "learning_rate": 0.0005066289738662345,
      "loss": 1.7007,
      "step": 23278
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38318994641304016,
      "learning_rate": 0.0005066213960991659,
      "loss": 1.6637,
      "step": 23279
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38347694277763367,
      "learning_rate": 0.0005066138180812893,
      "loss": 1.6747,
      "step": 23280
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3804227411746979,
      "learning_rate": 0.000506606239812614,
      "loss": 1.6632,
      "step": 23281
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.40487247705459595,
      "learning_rate": 0.0005065986612931493,
      "loss": 1.7559,
      "step": 23282
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3863378167152405,
      "learning_rate": 0.0005065910825229041,
      "loss": 1.6493,
      "step": 23283
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3965534567832947,
      "learning_rate": 0.0005065835035018879,
      "loss": 1.7262,
      "step": 23284
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39465299248695374,
      "learning_rate": 0.0005065759242301098,
      "loss": 1.6749,
      "step": 23285
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3919254541397095,
      "learning_rate": 0.0005065683447075789,
      "loss": 1.667,
      "step": 23286
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.38687172532081604,
      "learning_rate": 0.0005065607649343045,
      "loss": 1.7226,
      "step": 23287
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4068889617919922,
      "learning_rate": 0.0005065531849102956,
      "loss": 1.6547,
      "step": 23288
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3944670259952545,
      "learning_rate": 0.0005065456046355617,
      "loss": 1.6845,
      "step": 23289
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.39416804909706116,
      "learning_rate": 0.0005065380241101119,
      "loss": 1.7452,
      "step": 23290
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3949245810508728,
      "learning_rate": 0.0005065304433339553,
      "loss": 1.7262,
      "step": 23291
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3891705274581909,
      "learning_rate": 0.0005065228623071012,
      "loss": 1.6286,
      "step": 23292
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3972925543785095,
      "learning_rate": 0.0005065152810295588,
      "loss": 1.6885,
      "step": 23293
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4008311927318573,
      "learning_rate": 0.0005065076995013372,
      "loss": 1.6639,
      "step": 23294
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38226518034935,
      "learning_rate": 0.0005065001177224457,
      "loss": 1.6866,
      "step": 23295
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.402884840965271,
      "learning_rate": 0.0005064925356928936,
      "loss": 1.6374,
      "step": 23296
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38346853852272034,
      "learning_rate": 0.0005064849534126899,
      "loss": 1.7011,
      "step": 23297
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38176611065864563,
      "learning_rate": 0.0005064773708818438,
      "loss": 1.6496,
      "step": 23298
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3961504101753235,
      "learning_rate": 0.0005064697881003647,
      "loss": 1.6307,
      "step": 23299
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3981257975101471,
      "learning_rate": 0.0005064622050682617,
      "loss": 1.6683,
      "step": 23300
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39350050687789917,
      "learning_rate": 0.000506454621785544,
      "loss": 1.6732,
      "step": 23301
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3850415349006653,
      "learning_rate": 0.0005064470382522208,
      "loss": 1.6875,
      "step": 23302
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38187649846076965,
      "learning_rate": 0.0005064394544683012,
      "loss": 1.6254,
      "step": 23303
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38835400342941284,
      "learning_rate": 0.0005064318704337947,
      "loss": 1.7417,
      "step": 23304
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3778497874736786,
      "learning_rate": 0.0005064242861487103,
      "loss": 1.6493,
      "step": 23305
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3805864155292511,
      "learning_rate": 0.0005064167016130571,
      "loss": 1.7092,
      "step": 23306
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3728143572807312,
      "learning_rate": 0.0005064091168268446,
      "loss": 1.6552,
      "step": 23307
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3726995587348938,
      "learning_rate": 0.0005064015317900817,
      "loss": 1.6388,
      "step": 23308
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3943955600261688,
      "learning_rate": 0.0005063939465027778,
      "loss": 1.6859,
      "step": 23309
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3912133276462555,
      "learning_rate": 0.0005063863609649421,
      "loss": 1.5808,
      "step": 23310
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40427353978157043,
      "learning_rate": 0.0005063787751765839,
      "loss": 1.7694,
      "step": 23311
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37655550241470337,
      "learning_rate": 0.000506371189137712,
      "loss": 1.7104,
      "step": 23312
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3699676990509033,
      "learning_rate": 0.000506363602848336,
      "loss": 1.6422,
      "step": 23313
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4025411903858185,
      "learning_rate": 0.000506356016308465,
      "loss": 1.679,
      "step": 23314
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39025840163230896,
      "learning_rate": 0.0005063484295181083,
      "loss": 1.6798,
      "step": 23315
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3859618008136749,
      "learning_rate": 0.0005063408424772749,
      "loss": 1.6433,
      "step": 23316
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39020058512687683,
      "learning_rate": 0.000506333255185974,
      "loss": 1.668,
      "step": 23317
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.385993093252182,
      "learning_rate": 0.0005063256676442152,
      "loss": 1.7224,
      "step": 23318
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4149092435836792,
      "learning_rate": 0.0005063180798520072,
      "loss": 1.6645,
      "step": 23319
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37770187854766846,
      "learning_rate": 0.0005063104918093596,
      "loss": 1.7016,
      "step": 23320
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37201595306396484,
      "learning_rate": 0.0005063029035162815,
      "loss": 1.6451,
      "step": 23321
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3804500997066498,
      "learning_rate": 0.0005062953149727819,
      "loss": 1.7185,
      "step": 23322
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38268613815307617,
      "learning_rate": 0.0005062877261788703,
      "loss": 1.7391,
      "step": 23323
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38116657733917236,
      "learning_rate": 0.0005062801371345558,
      "loss": 1.7227,
      "step": 23324
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3861005902290344,
      "learning_rate": 0.0005062725478398476,
      "loss": 1.7097,
      "step": 23325
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3860595226287842,
      "learning_rate": 0.0005062649582947548,
      "loss": 1.722,
      "step": 23326
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38541901111602783,
      "learning_rate": 0.0005062573684992868,
      "loss": 1.7243,
      "step": 23327
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3848647475242615,
      "learning_rate": 0.0005062497784534528,
      "loss": 1.769,
      "step": 23328
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4030858278274536,
      "learning_rate": 0.000506242188157262,
      "loss": 1.6253,
      "step": 23329
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3756616711616516,
      "learning_rate": 0.0005062345976107234,
      "loss": 1.661,
      "step": 23330
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3816979229450226,
      "learning_rate": 0.0005062270068138465,
      "loss": 1.6301,
      "step": 23331
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38459283113479614,
      "learning_rate": 0.0005062194157666404,
      "loss": 1.6137,
      "step": 23332
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3924603760242462,
      "learning_rate": 0.0005062118244691143,
      "loss": 1.6318,
      "step": 23333
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39031916856765747,
      "learning_rate": 0.0005062042329212775,
      "loss": 1.6978,
      "step": 23334
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38816484808921814,
      "learning_rate": 0.0005061966411231392,
      "loss": 1.6534,
      "step": 23335
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3891836702823639,
      "learning_rate": 0.0005061890490747083,
      "loss": 1.687,
      "step": 23336
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3845272362232208,
      "learning_rate": 0.0005061814567759944,
      "loss": 1.6844,
      "step": 23337
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39793869853019714,
      "learning_rate": 0.0005061738642270066,
      "loss": 1.6355,
      "step": 23338
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3883858323097229,
      "learning_rate": 0.000506166271427754,
      "loss": 1.5481,
      "step": 23339
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39009761810302734,
      "learning_rate": 0.0005061586783782461,
      "loss": 1.7017,
      "step": 23340
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3827935755252838,
      "learning_rate": 0.0005061510850784919,
      "loss": 1.6474,
      "step": 23341
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.41775020956993103,
      "learning_rate": 0.0005061434915285006,
      "loss": 1.6751,
      "step": 23342
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3853814899921417,
      "learning_rate": 0.0005061358977282815,
      "loss": 1.6779,
      "step": 23343
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39124149084091187,
      "learning_rate": 0.0005061283036778438,
      "loss": 1.696,
      "step": 23344
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38332489132881165,
      "learning_rate": 0.0005061207093771967,
      "loss": 1.7266,
      "step": 23345
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.394317090511322,
      "learning_rate": 0.0005061131148263495,
      "loss": 1.69,
      "step": 23346
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38946959376335144,
      "learning_rate": 0.0005061055200253113,
      "loss": 1.6403,
      "step": 23347
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38112521171569824,
      "learning_rate": 0.0005060979249740913,
      "loss": 1.6895,
      "step": 23348
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39260151982307434,
      "learning_rate": 0.0005060903296726988,
      "loss": 1.6899,
      "step": 23349
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40090376138687134,
      "learning_rate": 0.0005060827341211431,
      "loss": 1.7532,
      "step": 23350
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3960535526275635,
      "learning_rate": 0.0005060751383194332,
      "loss": 1.7156,
      "step": 23351
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3874398171901703,
      "learning_rate": 0.0005060675422675786,
      "loss": 1.6381,
      "step": 23352
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38600027561187744,
      "learning_rate": 0.0005060599459655882,
      "loss": 1.7179,
      "step": 23353
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3881324231624603,
      "learning_rate": 0.0005060523494134716,
      "loss": 1.6513,
      "step": 23354
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3944215774536133,
      "learning_rate": 0.0005060447526112376,
      "loss": 1.6681,
      "step": 23355
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.379972904920578,
      "learning_rate": 0.0005060371555588956,
      "loss": 1.653,
      "step": 23356
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37120309472084045,
      "learning_rate": 0.000506029558256455,
      "loss": 1.6784,
      "step": 23357
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3912070393562317,
      "learning_rate": 0.0005060219607039249,
      "loss": 1.7511,
      "step": 23358
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40099063515663147,
      "learning_rate": 0.0005060143629013145,
      "loss": 1.683,
      "step": 23359
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3976936638355255,
      "learning_rate": 0.0005060067648486329,
      "loss": 1.6655,
      "step": 23360
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4167352020740509,
      "learning_rate": 0.0005059991665458894,
      "loss": 1.6463,
      "step": 23361
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3895247280597687,
      "learning_rate": 0.0005059915679930934,
      "loss": 1.6958,
      "step": 23362
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40269482135772705,
      "learning_rate": 0.0005059839691902539,
      "loss": 1.5727,
      "step": 23363
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3925684094429016,
      "learning_rate": 0.0005059763701373803,
      "loss": 1.6262,
      "step": 23364
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37117165327072144,
      "learning_rate": 0.0005059687708344817,
      "loss": 1.6661,
      "step": 23365
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40223801136016846,
      "learning_rate": 0.0005059611712815674,
      "loss": 1.647,
      "step": 23366
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38403478264808655,
      "learning_rate": 0.0005059535714786465,
      "loss": 1.6389,
      "step": 23367
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38405823707580566,
      "learning_rate": 0.0005059459714257283,
      "loss": 1.6261,
      "step": 23368
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3868321478366852,
      "learning_rate": 0.0005059383711228221,
      "loss": 1.688,
      "step": 23369
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37927427887916565,
      "learning_rate": 0.0005059307705699371,
      "loss": 1.7021,
      "step": 23370
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39528292417526245,
      "learning_rate": 0.0005059231697670824,
      "loss": 1.6855,
      "step": 23371
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3949446976184845,
      "learning_rate": 0.0005059155687142673,
      "loss": 1.7549,
      "step": 23372
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39100784063339233,
      "learning_rate": 0.000505907967411501,
      "loss": 1.7134,
      "step": 23373
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3896760046482086,
      "learning_rate": 0.0005059003658587929,
      "loss": 1.6678,
      "step": 23374
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39647144079208374,
      "learning_rate": 0.000505892764056152,
      "loss": 1.7022,
      "step": 23375
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3924247920513153,
      "learning_rate": 0.0005058851620035877,
      "loss": 1.6852,
      "step": 23376
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38180041313171387,
      "learning_rate": 0.0005058775597011091,
      "loss": 1.6906,
      "step": 23377
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39894095063209534,
      "learning_rate": 0.0005058699571487254,
      "loss": 1.6815,
      "step": 23378
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3870839774608612,
      "learning_rate": 0.0005058623543464461,
      "loss": 1.7078,
      "step": 23379
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4084048569202423,
      "learning_rate": 0.0005058547512942802,
      "loss": 1.6495,
      "step": 23380
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.507559597492218,
      "learning_rate": 0.0005058471479922369,
      "loss": 1.7184,
      "step": 23381
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3733745515346527,
      "learning_rate": 0.0005058395444403254,
      "loss": 1.6522,
      "step": 23382
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38876083493232727,
      "learning_rate": 0.0005058319406385551,
      "loss": 1.6391,
      "step": 23383
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39072901010513306,
      "learning_rate": 0.0005058243365869352,
      "loss": 1.7,
      "step": 23384
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40946176648139954,
      "learning_rate": 0.0005058167322854747,
      "loss": 1.7147,
      "step": 23385
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3837977647781372,
      "learning_rate": 0.0005058091277341832,
      "loss": 1.6188,
      "step": 23386
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38708171248435974,
      "learning_rate": 0.0005058015229330697,
      "loss": 1.6764,
      "step": 23387
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4048328697681427,
      "learning_rate": 0.0005057939178821435,
      "loss": 1.7347,
      "step": 23388
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38605624437332153,
      "learning_rate": 0.0005057863125814138,
      "loss": 1.6927,
      "step": 23389
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3963465988636017,
      "learning_rate": 0.0005057787070308898,
      "loss": 1.7216,
      "step": 23390
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38621681928634644,
      "learning_rate": 0.0005057711012305807,
      "loss": 1.5933,
      "step": 23391
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4055285155773163,
      "learning_rate": 0.000505763495180496,
      "loss": 1.7647,
      "step": 23392
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39116278290748596,
      "learning_rate": 0.0005057558888806446,
      "loss": 1.5874,
      "step": 23393
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3825637102127075,
      "learning_rate": 0.0005057482823310359,
      "loss": 1.711,
      "step": 23394
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38194510340690613,
      "learning_rate": 0.0005057406755316791,
      "loss": 1.679,
      "step": 23395
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38127633929252625,
      "learning_rate": 0.0005057330684825834,
      "loss": 1.7273,
      "step": 23396
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4068882465362549,
      "learning_rate": 0.0005057254611837581,
      "loss": 1.5625,
      "step": 23397
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38041621446609497,
      "learning_rate": 0.0005057178536352124,
      "loss": 1.5842,
      "step": 23398
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3855955898761749,
      "learning_rate": 0.0005057102458369554,
      "loss": 1.7198,
      "step": 23399
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5527067184448242,
      "learning_rate": 0.0005057026377889967,
      "loss": 1.7671,
      "step": 23400
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4939444959163666,
      "learning_rate": 0.0005056950294913451,
      "loss": 1.7196,
      "step": 23401
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3872685134410858,
      "learning_rate": 0.0005056874209440102,
      "loss": 1.6557,
      "step": 23402
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3832814693450928,
      "learning_rate": 0.0005056798121470011,
      "loss": 1.6774,
      "step": 23403
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3872755169868469,
      "learning_rate": 0.0005056722031003269,
      "loss": 1.6919,
      "step": 23404
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38632988929748535,
      "learning_rate": 0.000505664593803997,
      "loss": 1.7197,
      "step": 23405
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39329200983047485,
      "learning_rate": 0.0005056569842580206,
      "loss": 1.6925,
      "step": 23406
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38552671670913696,
      "learning_rate": 0.0005056493744624069,
      "loss": 1.7473,
      "step": 23407
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3866751194000244,
      "learning_rate": 0.0005056417644171651,
      "loss": 1.7238,
      "step": 23408
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4082947075366974,
      "learning_rate": 0.0005056341541223046,
      "loss": 1.6656,
      "step": 23409
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3762112259864807,
      "learning_rate": 0.0005056265435778345,
      "loss": 1.6045,
      "step": 23410
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3909536600112915,
      "learning_rate": 0.0005056189327837641,
      "loss": 1.6661,
      "step": 23411
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39248910546302795,
      "learning_rate": 0.0005056113217401025,
      "loss": 1.6934,
      "step": 23412
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3955981731414795,
      "learning_rate": 0.0005056037104468592,
      "loss": 1.713,
      "step": 23413
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4006519615650177,
      "learning_rate": 0.0005055960989040432,
      "loss": 1.658,
      "step": 23414
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40439313650131226,
      "learning_rate": 0.0005055884871116638,
      "loss": 1.7197,
      "step": 23415
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3845604360103607,
      "learning_rate": 0.0005055808750697304,
      "loss": 1.7103,
      "step": 23416
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.430780291557312,
      "learning_rate": 0.000505573262778252,
      "loss": 1.7007,
      "step": 23417
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39127403497695923,
      "learning_rate": 0.0005055656502372379,
      "loss": 1.6132,
      "step": 23418
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3840680718421936,
      "learning_rate": 0.0005055580374466976,
      "loss": 1.7365,
      "step": 23419
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3860565423965454,
      "learning_rate": 0.0005055504244066399,
      "loss": 1.7334,
      "step": 23420
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38822007179260254,
      "learning_rate": 0.0005055428111170744,
      "loss": 1.6994,
      "step": 23421
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38529425859451294,
      "learning_rate": 0.0005055351975780101,
      "loss": 1.7645,
      "step": 23422
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3877372145652771,
      "learning_rate": 0.0005055275837894565,
      "loss": 1.5654,
      "step": 23423
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38213685154914856,
      "learning_rate": 0.0005055199697514226,
      "loss": 1.6662,
      "step": 23424
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38369470834732056,
      "learning_rate": 0.0005055123554639178,
      "loss": 1.7154,
      "step": 23425
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3922989070415497,
      "learning_rate": 0.0005055047409269512,
      "loss": 1.7166,
      "step": 23426
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3904340863227844,
      "learning_rate": 0.0005054971261405322,
      "loss": 1.6464,
      "step": 23427
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39603209495544434,
      "learning_rate": 0.00050548951110467,
      "loss": 1.7284,
      "step": 23428
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3910760283470154,
      "learning_rate": 0.0005054818958193738,
      "loss": 1.7261,
      "step": 23429
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3879640996456146,
      "learning_rate": 0.0005054742802846528,
      "loss": 1.7252,
      "step": 23430
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3893396854400635,
      "learning_rate": 0.0005054666645005162,
      "loss": 1.6703,
      "step": 23431
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.392289936542511,
      "learning_rate": 0.0005054590484669735,
      "loss": 1.6862,
      "step": 23432
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38581350445747375,
      "learning_rate": 0.0005054514321840336,
      "loss": 1.5989,
      "step": 23433
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3872559666633606,
      "learning_rate": 0.0005054438156517062,
      "loss": 1.6725,
      "step": 23434
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3907945156097412,
      "learning_rate": 0.0005054361988700002,
      "loss": 1.628,
      "step": 23435
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3841579556465149,
      "learning_rate": 0.0005054285818389248,
      "loss": 1.6474,
      "step": 23436
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4123849868774414,
      "learning_rate": 0.0005054209645584894,
      "loss": 1.7414,
      "step": 23437
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37894198298454285,
      "learning_rate": 0.0005054133470287033,
      "loss": 1.6813,
      "step": 23438
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39316117763519287,
      "learning_rate": 0.0005054057292495757,
      "loss": 1.7028,
      "step": 23439
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3872782289981842,
      "learning_rate": 0.0005053981112211157,
      "loss": 1.7021,
      "step": 23440
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39097273349761963,
      "learning_rate": 0.0005053904929433326,
      "loss": 1.6913,
      "step": 23441
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38737741112709045,
      "learning_rate": 0.0005053828744162358,
      "loss": 1.6811,
      "step": 23442
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3837699890136719,
      "learning_rate": 0.0005053752556398345,
      "loss": 1.7089,
      "step": 23443
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37368786334991455,
      "learning_rate": 0.0005053676366141379,
      "loss": 1.6508,
      "step": 23444
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39578887820243835,
      "learning_rate": 0.0005053600173391551,
      "loss": 1.672,
      "step": 23445
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38068294525146484,
      "learning_rate": 0.0005053523978148956,
      "loss": 1.7084,
      "step": 23446
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3929186463356018,
      "learning_rate": 0.0005053447780413685,
      "loss": 1.7179,
      "step": 23447
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39883607625961304,
      "learning_rate": 0.0005053371580185832,
      "loss": 1.6723,
      "step": 23448
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40768203139305115,
      "learning_rate": 0.0005053295377465488,
      "loss": 1.8019,
      "step": 23449
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39267629384994507,
      "learning_rate": 0.0005053219172252746,
      "loss": 1.7271,
      "step": 23450
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39670971035957336,
      "learning_rate": 0.0005053142964547698,
      "loss": 1.7265,
      "step": 23451
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40190473198890686,
      "learning_rate": 0.0005053066754350437,
      "loss": 1.6621,
      "step": 23452
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3952263593673706,
      "learning_rate": 0.0005052990541661056,
      "loss": 1.6518,
      "step": 23453
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3807643949985504,
      "learning_rate": 0.0005052914326479646,
      "loss": 1.6624,
      "step": 23454
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3759952485561371,
      "learning_rate": 0.0005052838108806301,
      "loss": 1.6294,
      "step": 23455
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3821260929107666,
      "learning_rate": 0.0005052761888641113,
      "loss": 1.6587,
      "step": 23456
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4027364253997803,
      "learning_rate": 0.0005052685665984175,
      "loss": 1.7047,
      "step": 23457
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3771117329597473,
      "learning_rate": 0.0005052609440835579,
      "loss": 1.6732,
      "step": 23458
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39529749751091003,
      "learning_rate": 0.0005052533213195417,
      "loss": 1.6971,
      "step": 23459
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.42262133955955505,
      "learning_rate": 0.0005052456983063782,
      "loss": 1.7436,
      "step": 23460
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39108583331108093,
      "learning_rate": 0.0005052380750440767,
      "loss": 1.6913,
      "step": 23461
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37562859058380127,
      "learning_rate": 0.0005052304515326464,
      "loss": 1.7228,
      "step": 23462
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39893820881843567,
      "learning_rate": 0.0005052228277720966,
      "loss": 1.7264,
      "step": 23463
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38393861055374146,
      "learning_rate": 0.0005052152037624364,
      "loss": 1.7453,
      "step": 23464
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39952489733695984,
      "learning_rate": 0.0005052075795036754,
      "loss": 1.7241,
      "step": 23465
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38342511653900146,
      "learning_rate": 0.0005051999549958226,
      "loss": 1.6591,
      "step": 23466
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3929179012775421,
      "learning_rate": 0.0005051923302388871,
      "loss": 1.7247,
      "step": 23467
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3978910744190216,
      "learning_rate": 0.0005051847052328785,
      "loss": 1.7149,
      "step": 23468
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39533939957618713,
      "learning_rate": 0.0005051770799778059,
      "loss": 1.6294,
      "step": 23469
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4003811776638031,
      "learning_rate": 0.0005051694544736785,
      "loss": 1.6438,
      "step": 23470
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3887813985347748,
      "learning_rate": 0.0005051618287205056,
      "loss": 1.632,
      "step": 23471
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4101228713989258,
      "learning_rate": 0.0005051542027182965,
      "loss": 1.8029,
      "step": 23472
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3947465419769287,
      "learning_rate": 0.0005051465764670604,
      "loss": 1.7133,
      "step": 23473
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39452260732650757,
      "learning_rate": 0.0005051389499668066,
      "loss": 1.6447,
      "step": 23474
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.405468225479126,
      "learning_rate": 0.0005051313232175444,
      "loss": 1.6774,
      "step": 23475
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3884671628475189,
      "learning_rate": 0.000505123696219283,
      "loss": 1.662,
      "step": 23476
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3857046961784363,
      "learning_rate": 0.0005051160689720317,
      "loss": 1.6633,
      "step": 23477
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4017534554004669,
      "learning_rate": 0.0005051084414757995,
      "loss": 1.7638,
      "step": 23478
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39024925231933594,
      "learning_rate": 0.000505100813730596,
      "loss": 1.6599,
      "step": 23479
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39886200428009033,
      "learning_rate": 0.0005050931857364302,
      "loss": 1.6158,
      "step": 23480
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4102572500705719,
      "learning_rate": 0.0005050855574933117,
      "loss": 1.7661,
      "step": 23481
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40987628698349,
      "learning_rate": 0.0005050779290012496,
      "loss": 1.6306,
      "step": 23482
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3931920528411865,
      "learning_rate": 0.0005050703002602529,
      "loss": 1.7228,
      "step": 23483
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40869656205177307,
      "learning_rate": 0.0005050626712703311,
      "loss": 1.687,
      "step": 23484
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37887877225875854,
      "learning_rate": 0.0005050550420314934,
      "loss": 1.6441,
      "step": 23485
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3866908550262451,
      "learning_rate": 0.0005050474125437493,
      "loss": 1.6455,
      "step": 23486
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38351336121559143,
      "learning_rate": 0.0005050397828071076,
      "loss": 1.6554,
      "step": 23487
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4886997938156128,
      "learning_rate": 0.0005050321528215781,
      "loss": 1.7314,
      "step": 23488
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38559243083000183,
      "learning_rate": 0.0005050245225871696,
      "loss": 1.7387,
      "step": 23489
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4013698697090149,
      "learning_rate": 0.0005050168921038916,
      "loss": 1.7154,
      "step": 23490
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3791503608226776,
      "learning_rate": 0.0005050092613717532,
      "loss": 1.6622,
      "step": 23491
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39152857661247253,
      "learning_rate": 0.0005050016303907637,
      "loss": 1.707,
      "step": 23492
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3908567428588867,
      "learning_rate": 0.0005049939991609326,
      "loss": 1.694,
      "step": 23493
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38915684819221497,
      "learning_rate": 0.000504986367682269,
      "loss": 1.7058,
      "step": 23494
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3887769877910614,
      "learning_rate": 0.000504978735954782,
      "loss": 1.6102,
      "step": 23495
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38260746002197266,
      "learning_rate": 0.0005049711039784811,
      "loss": 1.682,
      "step": 23496
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3927518129348755,
      "learning_rate": 0.0005049634717533755,
      "loss": 1.6627,
      "step": 23497
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3962973654270172,
      "learning_rate": 0.0005049558392794744,
      "loss": 1.6153,
      "step": 23498
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39117342233657837,
      "learning_rate": 0.0005049482065567873,
      "loss": 1.7032,
      "step": 23499
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4007662534713745,
      "learning_rate": 0.000504940573585323,
      "loss": 1.6227,
      "step": 23500
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38514167070388794,
      "learning_rate": 0.0005049329403650913,
      "loss": 1.7068,
      "step": 23501
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3950503468513489,
      "learning_rate": 0.0005049253068961009,
      "loss": 1.7182,
      "step": 23502
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3865090310573578,
      "learning_rate": 0.0005049176731783616,
      "loss": 1.7008,
      "step": 23503
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37087318301200867,
      "learning_rate": 0.0005049100392118823,
      "loss": 1.6561,
      "step": 23504
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3852885365486145,
      "learning_rate": 0.0005049024049966725,
      "loss": 1.7257,
      "step": 23505
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38379812240600586,
      "learning_rate": 0.0005048947705327414,
      "loss": 1.7155,
      "step": 23506
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3938159644603729,
      "learning_rate": 0.0005048871358200982,
      "loss": 1.6904,
      "step": 23507
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38746386766433716,
      "learning_rate": 0.0005048795008587522,
      "loss": 1.7605,
      "step": 23508
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39315009117126465,
      "learning_rate": 0.0005048718656487127,
      "loss": 1.6055,
      "step": 23509
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40025654435157776,
      "learning_rate": 0.0005048642301899889,
      "loss": 1.7017,
      "step": 23510
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38364315032958984,
      "learning_rate": 0.0005048565944825901,
      "loss": 1.6515,
      "step": 23511
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38668400049209595,
      "learning_rate": 0.0005048489585265255,
      "loss": 1.6984,
      "step": 23512
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38467806577682495,
      "learning_rate": 0.0005048413223218047,
      "loss": 1.6243,
      "step": 23513
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38826990127563477,
      "learning_rate": 0.0005048336858684365,
      "loss": 1.6905,
      "step": 23514
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3752332925796509,
      "learning_rate": 0.0005048260491664304,
      "loss": 1.7051,
      "step": 23515
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38839003443717957,
      "learning_rate": 0.0005048184122157958,
      "loss": 1.6605,
      "step": 23516
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38845521211624146,
      "learning_rate": 0.0005048107750165416,
      "loss": 1.6821,
      "step": 23517
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39874693751335144,
      "learning_rate": 0.0005048031375686774,
      "loss": 1.6766,
      "step": 23518
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39545339345932007,
      "learning_rate": 0.0005047954998722125,
      "loss": 1.7123,
      "step": 23519
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3782005310058594,
      "learning_rate": 0.0005047878619271559,
      "loss": 1.6739,
      "step": 23520
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39477983117103577,
      "learning_rate": 0.0005047802237335171,
      "loss": 1.6147,
      "step": 23521
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3971545398235321,
      "learning_rate": 0.0005047725852913051,
      "loss": 1.6419,
      "step": 23522
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3701172173023224,
      "learning_rate": 0.0005047649466005295,
      "loss": 1.6569,
      "step": 23523
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.401859313249588,
      "learning_rate": 0.0005047573076611995,
      "loss": 1.654,
      "step": 23524
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37508055567741394,
      "learning_rate": 0.0005047496684733242,
      "loss": 1.6191,
      "step": 23525
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39674779772758484,
      "learning_rate": 0.0005047420290369129,
      "loss": 1.6335,
      "step": 23526
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3912886083126068,
      "learning_rate": 0.000504734389351975,
      "loss": 1.6176,
      "step": 23527
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38409262895584106,
      "learning_rate": 0.0005047267494185197,
      "loss": 1.6773,
      "step": 23528
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3898809254169464,
      "learning_rate": 0.0005047191092365564,
      "loss": 1.727,
      "step": 23529
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37935763597488403,
      "learning_rate": 0.0005047114688060941,
      "loss": 1.6498,
      "step": 23530
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38643234968185425,
      "learning_rate": 0.0005047038281271424,
      "loss": 1.6812,
      "step": 23531
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3910159170627594,
      "learning_rate": 0.0005046961871997103,
      "loss": 1.664,
      "step": 23532
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3913583755493164,
      "learning_rate": 0.0005046885460238072,
      "loss": 1.6483,
      "step": 23533
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39206352829933167,
      "learning_rate": 0.0005046809045994425,
      "loss": 1.6364,
      "step": 23534
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3869449198246002,
      "learning_rate": 0.0005046732629266251,
      "loss": 1.715,
      "step": 23535
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38765573501586914,
      "learning_rate": 0.0005046656210053648,
      "loss": 1.6801,
      "step": 23536
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3919289708137512,
      "learning_rate": 0.0005046579788356704,
      "loss": 1.7054,
      "step": 23537
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3728711009025574,
      "learning_rate": 0.0005046503364175514,
      "loss": 1.6586,
      "step": 23538
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3946925401687622,
      "learning_rate": 0.0005046426937510172,
      "loss": 1.6679,
      "step": 23539
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39585623145103455,
      "learning_rate": 0.0005046350508360767,
      "loss": 1.6311,
      "step": 23540
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38602763414382935,
      "learning_rate": 0.0005046274076727394,
      "loss": 1.684,
      "step": 23541
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39381447434425354,
      "learning_rate": 0.0005046197642610147,
      "loss": 1.7849,
      "step": 23542
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3874412775039673,
      "learning_rate": 0.0005046121206009116,
      "loss": 1.7873,
      "step": 23543
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3738938271999359,
      "learning_rate": 0.0005046044766924397,
      "loss": 1.6116,
      "step": 23544
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3935830891132355,
      "learning_rate": 0.0005045968325356081,
      "loss": 1.7782,
      "step": 23545
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39202508330345154,
      "learning_rate": 0.000504589188130426,
      "loss": 1.6853,
      "step": 23546
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40264394879341125,
      "learning_rate": 0.0005045815434769028,
      "loss": 1.7208,
      "step": 23547
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37714970111846924,
      "learning_rate": 0.0005045738985750478,
      "loss": 1.6979,
      "step": 23548
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3848596215248108,
      "learning_rate": 0.0005045662534248703,
      "loss": 1.6641,
      "step": 23549
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39466431736946106,
      "learning_rate": 0.0005045586080263794,
      "loss": 1.7411,
      "step": 23550
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38597390055656433,
      "learning_rate": 0.0005045509623795844,
      "loss": 1.6648,
      "step": 23551
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3851225972175598,
      "learning_rate": 0.0005045433164844948,
      "loss": 1.6078,
      "step": 23552
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3867143392562866,
      "learning_rate": 0.0005045356703411197,
      "loss": 1.6609,
      "step": 23553
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.381123811006546,
      "learning_rate": 0.0005045280239494686,
      "loss": 1.6791,
      "step": 23554
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3934190273284912,
      "learning_rate": 0.0005045203773095503,
      "loss": 1.7068,
      "step": 23555
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3907591998577118,
      "learning_rate": 0.0005045127304213746,
      "loss": 1.6818,
      "step": 23556
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3855316638946533,
      "learning_rate": 0.0005045050832849506,
      "loss": 1.6804,
      "step": 23557
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3834828734397888,
      "learning_rate": 0.0005044974359002876,
      "loss": 1.6897,
      "step": 23558
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.47974899411201477,
      "learning_rate": 0.0005044897882673947,
      "loss": 1.6886,
      "step": 23559
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3889141082763672,
      "learning_rate": 0.0005044821403862814,
      "loss": 1.6909,
      "step": 23560
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38336971402168274,
      "learning_rate": 0.0005044744922569569,
      "loss": 1.6577,
      "step": 23561
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4014894664287567,
      "learning_rate": 0.0005044668438794304,
      "loss": 1.6506,
      "step": 23562
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38356083631515503,
      "learning_rate": 0.0005044591952537114,
      "loss": 1.676,
      "step": 23563
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39803987741470337,
      "learning_rate": 0.0005044515463798091,
      "loss": 1.7015,
      "step": 23564
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38988617062568665,
      "learning_rate": 0.0005044438972577326,
      "loss": 1.7166,
      "step": 23565
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3888891637325287,
      "learning_rate": 0.0005044362478874914,
      "loss": 1.7217,
      "step": 23566
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3945227265357971,
      "learning_rate": 0.0005044285982690947,
      "loss": 1.666,
      "step": 23567
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39066189527511597,
      "learning_rate": 0.0005044209484025518,
      "loss": 1.7119,
      "step": 23568
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37964168190956116,
      "learning_rate": 0.000504413298287872,
      "loss": 1.6814,
      "step": 23569
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3970099687576294,
      "learning_rate": 0.0005044056479250647,
      "loss": 1.7191,
      "step": 23570
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.375968337059021,
      "learning_rate": 0.0005043979973141389,
      "loss": 1.7121,
      "step": 23571
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3885217607021332,
      "learning_rate": 0.0005043903464551041,
      "loss": 1.665,
      "step": 23572
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3845597207546234,
      "learning_rate": 0.0005043826953479695,
      "loss": 1.6827,
      "step": 23573
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3855486512184143,
      "learning_rate": 0.0005043750439927444,
      "loss": 1.6061,
      "step": 23574
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3907243609428406,
      "learning_rate": 0.0005043673923894382,
      "loss": 1.72,
      "step": 23575
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40124234557151794,
      "learning_rate": 0.0005043597405380601,
      "loss": 1.736,
      "step": 23576
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4050637185573578,
      "learning_rate": 0.0005043520884386193,
      "loss": 1.7018,
      "step": 23577
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38387876749038696,
      "learning_rate": 0.0005043444360911252,
      "loss": 1.6598,
      "step": 23578
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.37275177240371704,
      "learning_rate": 0.0005043367834955872,
      "loss": 1.6541,
      "step": 23579
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4065565764904022,
      "learning_rate": 0.0005043291306520142,
      "loss": 1.6871,
      "step": 23580
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3968803882598877,
      "learning_rate": 0.000504321477560416,
      "loss": 1.6937,
      "step": 23581
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39100271463394165,
      "learning_rate": 0.0005043138242208015,
      "loss": 1.6683,
      "step": 23582
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39390242099761963,
      "learning_rate": 0.0005043061706331802,
      "loss": 1.7082,
      "step": 23583
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3949612081050873,
      "learning_rate": 0.0005042985167975612,
      "loss": 1.7316,
      "step": 23584
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3964083790779114,
      "learning_rate": 0.0005042908627139539,
      "loss": 1.7098,
      "step": 23585
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38656750321388245,
      "learning_rate": 0.0005042832083823676,
      "loss": 1.6562,
      "step": 23586
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38083258271217346,
      "learning_rate": 0.0005042755538028117,
      "loss": 1.5463,
      "step": 23587
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4008401334285736,
      "learning_rate": 0.0005042678989752953,
      "loss": 1.6383,
      "step": 23588
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4024520218372345,
      "learning_rate": 0.0005042602438998278,
      "loss": 1.6886,
      "step": 23589
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3133310079574585,
      "learning_rate": 0.0005042525885764184,
      "loss": 1.6787,
      "step": 23590
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3825271725654602,
      "learning_rate": 0.0005042449330050763,
      "loss": 1.7095,
      "step": 23591
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3850761651992798,
      "learning_rate": 0.0005042372771858112,
      "loss": 1.6945,
      "step": 23592
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.39054977893829346,
      "learning_rate": 0.0005042296211186321,
      "loss": 1.6375,
      "step": 23593
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.38661298155784607,
      "learning_rate": 0.0005042219648035484,
      "loss": 1.748,
      "step": 23594
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38374361395835876,
      "learning_rate": 0.0005042143082405691,
      "loss": 1.6788,
      "step": 23595
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38297221064567566,
      "learning_rate": 0.0005042066514297039,
      "loss": 1.718,
      "step": 23596
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4001176655292511,
      "learning_rate": 0.0005041989943709618,
      "loss": 1.7041,
      "step": 23597
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3855661451816559,
      "learning_rate": 0.0005041913370643523,
      "loss": 1.7026,
      "step": 23598
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3933451473712921,
      "learning_rate": 0.0005041836795098846,
      "loss": 1.635,
      "step": 23599
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3894294798374176,
      "learning_rate": 0.000504176021707568,
      "loss": 1.6796,
      "step": 23600
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38967564702033997,
      "learning_rate": 0.0005041683636574117,
      "loss": 1.7385,
      "step": 23601
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38363462686538696,
      "learning_rate": 0.0005041607053594251,
      "loss": 1.6452,
      "step": 23602
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38496893644332886,
      "learning_rate": 0.0005041530468136176,
      "loss": 1.7389,
      "step": 23603
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38005852699279785,
      "learning_rate": 0.0005041453880199983,
      "loss": 1.6681,
      "step": 23604
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3719158172607422,
      "learning_rate": 0.0005041377289785766,
      "loss": 1.6292,
      "step": 23605
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39343351125717163,
      "learning_rate": 0.0005041300696893618,
      "loss": 1.627,
      "step": 23606
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39219793677330017,
      "learning_rate": 0.0005041224101523631,
      "loss": 1.7187,
      "step": 23607
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37895214557647705,
      "learning_rate": 0.00050411475036759,
      "loss": 1.6936,
      "step": 23608
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40229159593582153,
      "learning_rate": 0.0005041070903350515,
      "loss": 1.6493,
      "step": 23609
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3856537342071533,
      "learning_rate": 0.0005040994300547571,
      "loss": 1.7116,
      "step": 23610
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4144275486469269,
      "learning_rate": 0.0005040917695267162,
      "loss": 1.7411,
      "step": 23611
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3928557336330414,
      "learning_rate": 0.0005040841087509379,
      "loss": 1.6575,
      "step": 23612
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3757181465625763,
      "learning_rate": 0.0005040764477274315,
      "loss": 1.7201,
      "step": 23613
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3819974958896637,
      "learning_rate": 0.0005040687864562064,
      "loss": 1.6434,
      "step": 23614
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3898099660873413,
      "learning_rate": 0.0005040611249372719,
      "loss": 1.693,
      "step": 23615
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39801478385925293,
      "learning_rate": 0.0005040534631706372,
      "loss": 1.6786,
      "step": 23616
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3941565752029419,
      "learning_rate": 0.0005040458011563117,
      "loss": 1.6794,
      "step": 23617
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3915089964866638,
      "learning_rate": 0.0005040381388943045,
      "loss": 1.6696,
      "step": 23618
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38593587279319763,
      "learning_rate": 0.0005040304763846253,
      "loss": 1.7418,
      "step": 23619
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4025518298149109,
      "learning_rate": 0.0005040228136272831,
      "loss": 1.6743,
      "step": 23620
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3726210594177246,
      "learning_rate": 0.0005040151506222872,
      "loss": 1.6868,
      "step": 23621
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38500165939331055,
      "learning_rate": 0.000504007487369647,
      "loss": 1.632,
      "step": 23622
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40546485781669617,
      "learning_rate": 0.0005039998238693718,
      "loss": 1.7236,
      "step": 23623
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38988494873046875,
      "learning_rate": 0.0005039921601214709,
      "loss": 1.6583,
      "step": 23624
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3777535855770111,
      "learning_rate": 0.0005039844961259534,
      "loss": 1.695,
      "step": 23625
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3888717591762543,
      "learning_rate": 0.000503976831882829,
      "loss": 1.6444,
      "step": 23626
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40086081624031067,
      "learning_rate": 0.0005039691673921066,
      "loss": 1.6718,
      "step": 23627
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3861711323261261,
      "learning_rate": 0.0005039615026537958,
      "loss": 1.6605,
      "step": 23628
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4009511470794678,
      "learning_rate": 0.0005039538376679058,
      "loss": 1.6735,
      "step": 23629
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3890388607978821,
      "learning_rate": 0.0005039461724344459,
      "loss": 1.6713,
      "step": 23630
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37483564019203186,
      "learning_rate": 0.0005039385069534252,
      "loss": 1.6575,
      "step": 23631
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39505159854888916,
      "learning_rate": 0.0005039308412248534,
      "loss": 1.6356,
      "step": 23632
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3826450705528259,
      "learning_rate": 0.0005039231752487395,
      "loss": 1.6697,
      "step": 23633
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38337740302085876,
      "learning_rate": 0.000503915509025093,
      "loss": 1.7041,
      "step": 23634
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39355218410491943,
      "learning_rate": 0.0005039078425539231,
      "loss": 1.692,
      "step": 23635
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3937532603740692,
      "learning_rate": 0.000503900175835239,
      "loss": 1.6796,
      "step": 23636
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39178621768951416,
      "learning_rate": 0.0005038925088690503,
      "loss": 1.6628,
      "step": 23637
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38577234745025635,
      "learning_rate": 0.0005038848416553661,
      "loss": 1.6836,
      "step": 23638
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3826455771923065,
      "learning_rate": 0.0005038771741941956,
      "loss": 1.7139,
      "step": 23639
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3794141411781311,
      "learning_rate": 0.0005038695064855485,
      "loss": 1.662,
      "step": 23640
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3920895755290985,
      "learning_rate": 0.0005038618385294337,
      "loss": 1.7219,
      "step": 23641
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.374288409948349,
      "learning_rate": 0.0005038541703258606,
      "loss": 1.6657,
      "step": 23642
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38884878158569336,
      "learning_rate": 0.0005038465018748386,
      "loss": 1.738,
      "step": 23643
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4229406714439392,
      "learning_rate": 0.0005038388331763771,
      "loss": 1.6418,
      "step": 23644
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38504892587661743,
      "learning_rate": 0.0005038311642304853,
      "loss": 1.633,
      "step": 23645
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40196526050567627,
      "learning_rate": 0.0005038234950371724,
      "loss": 1.6575,
      "step": 23646
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3804534673690796,
      "learning_rate": 0.0005038158255964479,
      "loss": 1.6799,
      "step": 23647
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38079196214675903,
      "learning_rate": 0.0005038081559083209,
      "loss": 1.6391,
      "step": 23648
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39346417784690857,
      "learning_rate": 0.0005038004859728008,
      "loss": 1.6798,
      "step": 23649
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.41227906942367554,
      "learning_rate": 0.0005037928157898971,
      "loss": 1.6559,
      "step": 23650
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3907870948314667,
      "learning_rate": 0.000503785145359619,
      "loss": 1.7756,
      "step": 23651
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3887968063354492,
      "learning_rate": 0.0005037774746819755,
      "loss": 1.6662,
      "step": 23652
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.396434485912323,
      "learning_rate": 0.0005037698037569763,
      "loss": 1.6606,
      "step": 23653
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39106205105781555,
      "learning_rate": 0.0005037621325846306,
      "loss": 1.613,
      "step": 23654
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39664798974990845,
      "learning_rate": 0.0005037544611649477,
      "loss": 1.7017,
      "step": 23655
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.45478197932243347,
      "learning_rate": 0.000503746789497937,
      "loss": 1.6981,
      "step": 23656
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39297181367874146,
      "learning_rate": 0.0005037391175836076,
      "loss": 1.7026,
      "step": 23657
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39834678173065186,
      "learning_rate": 0.0005037314454219688,
      "loss": 1.7222,
      "step": 23658
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4033122658729553,
      "learning_rate": 0.0005037237730130302,
      "loss": 1.6458,
      "step": 23659
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3849634528160095,
      "learning_rate": 0.000503716100356801,
      "loss": 1.6818,
      "step": 23660
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3960884213447571,
      "learning_rate": 0.0005037084274532904,
      "loss": 1.7096,
      "step": 23661
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39328473806381226,
      "learning_rate": 0.0005037007543025078,
      "loss": 1.7682,
      "step": 23662
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40976691246032715,
      "learning_rate": 0.0005036930809044624,
      "loss": 1.6788,
      "step": 23663
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38677090406417847,
      "learning_rate": 0.0005036854072591637,
      "loss": 1.6394,
      "step": 23664
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3961581885814667,
      "learning_rate": 0.000503677733366621,
      "loss": 1.6463,
      "step": 23665
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38795605301856995,
      "learning_rate": 0.0005036700592268435,
      "loss": 1.6628,
      "step": 23666
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3809359073638916,
      "learning_rate": 0.0005036623848398404,
      "loss": 1.7492,
      "step": 23667
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4038011431694031,
      "learning_rate": 0.0005036547102056214,
      "loss": 1.6799,
      "step": 23668
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37533777952194214,
      "learning_rate": 0.0005036470353241955,
      "loss": 1.6378,
      "step": 23669
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3845047950744629,
      "learning_rate": 0.0005036393601955721,
      "loss": 1.6603,
      "step": 23670
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3998905420303345,
      "learning_rate": 0.0005036316848197605,
      "loss": 1.6183,
      "step": 23671
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39667001366615295,
      "learning_rate": 0.0005036240091967701,
      "loss": 1.8223,
      "step": 23672
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3845936357975006,
      "learning_rate": 0.00050361633332661,
      "loss": 1.6387,
      "step": 23673
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3875465393066406,
      "learning_rate": 0.0005036086572092898,
      "loss": 1.77,
      "step": 23674
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38966286182403564,
      "learning_rate": 0.0005036009808448188,
      "loss": 1.6743,
      "step": 23675
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4038262367248535,
      "learning_rate": 0.000503593304233206,
      "loss": 1.6412,
      "step": 23676
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38905906677246094,
      "learning_rate": 0.000503585627374461,
      "loss": 1.6059,
      "step": 23677
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39071786403656006,
      "learning_rate": 0.0005035779502685932,
      "loss": 1.6447,
      "step": 23678
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3872053623199463,
      "learning_rate": 0.0005035702729156115,
      "loss": 1.7027,
      "step": 23679
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3844512701034546,
      "learning_rate": 0.0005035625953155256,
      "loss": 1.652,
      "step": 23680
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3831333518028259,
      "learning_rate": 0.0005035549174683448,
      "loss": 1.5438,
      "step": 23681
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3942512571811676,
      "learning_rate": 0.0005035472393740781,
      "loss": 1.6452,
      "step": 23682
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38765084743499756,
      "learning_rate": 0.0005035395610327352,
      "loss": 1.6107,
      "step": 23683
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38581353425979614,
      "learning_rate": 0.0005035318824443252,
      "loss": 1.6967,
      "step": 23684
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.375864177942276,
      "learning_rate": 0.0005035242036088576,
      "loss": 1.6544,
      "step": 23685
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3829669952392578,
      "learning_rate": 0.0005035165245263415,
      "loss": 1.6781,
      "step": 23686
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3832124173641205,
      "learning_rate": 0.0005035088451967863,
      "loss": 1.727,
      "step": 23687
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4005233645439148,
      "learning_rate": 0.0005035011656202015,
      "loss": 1.6649,
      "step": 23688
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38695383071899414,
      "learning_rate": 0.000503493485796596,
      "loss": 1.6782,
      "step": 23689
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3815937042236328,
      "learning_rate": 0.0005034858057259797,
      "loss": 1.5943,
      "step": 23690
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39826086163520813,
      "learning_rate": 0.0005034781254083615,
      "loss": 1.7525,
      "step": 23691
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3819426894187927,
      "learning_rate": 0.0005034704448437508,
      "loss": 1.7006,
      "step": 23692
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39615508913993835,
      "learning_rate": 0.000503462764032157,
      "loss": 1.695,
      "step": 23693
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4063420295715332,
      "learning_rate": 0.0005034550829735892,
      "loss": 1.7443,
      "step": 23694
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.383793443441391,
      "learning_rate": 0.0005034474016680572,
      "loss": 1.682,
      "step": 23695
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.402033269405365,
      "learning_rate": 0.0005034397201155699,
      "loss": 1.7293,
      "step": 23696
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3942118287086487,
      "learning_rate": 0.0005034320383161367,
      "loss": 1.7107,
      "step": 23697
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38559865951538086,
      "learning_rate": 0.000503424356269767,
      "loss": 1.6451,
      "step": 23698
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3864321708679199,
      "learning_rate": 0.0005034166739764701,
      "loss": 1.7191,
      "step": 23699
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.36979976296424866,
      "learning_rate": 0.0005034089914362554,
      "loss": 1.7015,
      "step": 23700
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3980522155761719,
      "learning_rate": 0.0005034013086491321,
      "loss": 1.6958,
      "step": 23701
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4052560329437256,
      "learning_rate": 0.0005033936256151096,
      "loss": 1.7394,
      "step": 23702
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3977690041065216,
      "learning_rate": 0.0005033859423341972,
      "loss": 1.7304,
      "step": 23703
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3988056480884552,
      "learning_rate": 0.0005033782588064042,
      "loss": 1.6893,
      "step": 23704
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38538864254951477,
      "learning_rate": 0.0005033705750317399,
      "loss": 1.6837,
      "step": 23705
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3941917419433594,
      "learning_rate": 0.0005033628910102139,
      "loss": 1.7822,
      "step": 23706
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3913595676422119,
      "learning_rate": 0.0005033552067418352,
      "loss": 1.6916,
      "step": 23707
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37948477268218994,
      "learning_rate": 0.0005033475222266132,
      "loss": 1.6424,
      "step": 23708
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.41849201917648315,
      "learning_rate": 0.0005033398374645573,
      "loss": 1.6971,
      "step": 23709
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.41423532366752625,
      "learning_rate": 0.0005033321524556769,
      "loss": 1.6715,
      "step": 23710
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38275977969169617,
      "learning_rate": 0.000503324467199981,
      "loss": 1.6783,
      "step": 23711
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39458808302879333,
      "learning_rate": 0.0005033167816974793,
      "loss": 1.7285,
      "step": 23712
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4043663740158081,
      "learning_rate": 0.000503309095948181,
      "loss": 1.7146,
      "step": 23713
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38896259665489197,
      "learning_rate": 0.0005033014099520954,
      "loss": 1.6681,
      "step": 23714
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3857908546924591,
      "learning_rate": 0.0005032937237092318,
      "loss": 1.6849,
      "step": 23715
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39421990513801575,
      "learning_rate": 0.0005032860372195996,
      "loss": 1.6414,
      "step": 23716
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4127553701400757,
      "learning_rate": 0.0005032783504832081,
      "loss": 1.7135,
      "step": 23717
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39767512679100037,
      "learning_rate": 0.0005032706635000667,
      "loss": 1.6891,
      "step": 23718
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3783831298351288,
      "learning_rate": 0.0005032629762701846,
      "loss": 1.5992,
      "step": 23719
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4150296449661255,
      "learning_rate": 0.0005032552887935713,
      "loss": 1.7102,
      "step": 23720
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40083006024360657,
      "learning_rate": 0.0005032476010702359,
      "loss": 1.6596,
      "step": 23721
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39789584279060364,
      "learning_rate": 0.0005032399131001879,
      "loss": 1.7066,
      "step": 23722
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4065912365913391,
      "learning_rate": 0.0005032322248834366,
      "loss": 1.5792,
      "step": 23723
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3897145092487335,
      "learning_rate": 0.0005032245364199912,
      "loss": 1.7264,
      "step": 23724
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39978209137916565,
      "learning_rate": 0.0005032168477098613,
      "loss": 1.7147,
      "step": 23725
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.396571546792984,
      "learning_rate": 0.0005032091587530561,
      "loss": 1.6832,
      "step": 23726
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40946105122566223,
      "learning_rate": 0.0005032014695495848,
      "loss": 1.7044,
      "step": 23727
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.398886114358902,
      "learning_rate": 0.0005031937800994569,
      "loss": 1.713,
      "step": 23728
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5036793947219849,
      "learning_rate": 0.0005031860904026817,
      "loss": 1.6706,
      "step": 23729
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39755693078041077,
      "learning_rate": 0.0005031784004592687,
      "loss": 1.6351,
      "step": 23730
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40386930108070374,
      "learning_rate": 0.0005031707102692268,
      "loss": 1.6983,
      "step": 23731
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4000808596611023,
      "learning_rate": 0.0005031630198325658,
      "loss": 1.6396,
      "step": 23732
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3834761381149292,
      "learning_rate": 0.0005031553291492947,
      "loss": 1.6635,
      "step": 23733
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3933059573173523,
      "learning_rate": 0.000503147638219423,
      "loss": 1.6713,
      "step": 23734
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4096601605415344,
      "learning_rate": 0.0005031399470429599,
      "loss": 1.6966,
      "step": 23735
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3940683901309967,
      "learning_rate": 0.0005031322556199149,
      "loss": 1.6514,
      "step": 23736
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4024035930633545,
      "learning_rate": 0.0005031245639502974,
      "loss": 1.6525,
      "step": 23737
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.42487362027168274,
      "learning_rate": 0.0005031168720341164,
      "loss": 1.7068,
      "step": 23738
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39486536383628845,
      "learning_rate": 0.0005031091798713815,
      "loss": 1.6619,
      "step": 23739
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3832079768180847,
      "learning_rate": 0.0005031014874621021,
      "loss": 1.616,
      "step": 23740
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38188087940216064,
      "learning_rate": 0.0005030937948062873,
      "loss": 1.6466,
      "step": 23741
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39001354575157166,
      "learning_rate": 0.0005030861019039467,
      "loss": 1.7145,
      "step": 23742
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3918350040912628,
      "learning_rate": 0.0005030784087550894,
      "loss": 1.7277,
      "step": 23743
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40839883685112,
      "learning_rate": 0.0005030707153597248,
      "loss": 1.7369,
      "step": 23744
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4057980477809906,
      "learning_rate": 0.0005030630217178624,
      "loss": 1.6954,
      "step": 23745
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38224494457244873,
      "learning_rate": 0.0005030553278295112,
      "loss": 1.6224,
      "step": 23746
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39162880182266235,
      "learning_rate": 0.000503047633694681,
      "loss": 1.6663,
      "step": 23747
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38757047057151794,
      "learning_rate": 0.0005030399393133808,
      "loss": 1.6667,
      "step": 23748
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.391603022813797,
      "learning_rate": 0.0005030322446856199,
      "loss": 1.7015,
      "step": 23749
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39573848247528076,
      "learning_rate": 0.0005030245498114079,
      "loss": 1.625,
      "step": 23750
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3792295753955841,
      "learning_rate": 0.0005030168546907539,
      "loss": 1.6068,
      "step": 23751
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40775883197784424,
      "learning_rate": 0.0005030091593236675,
      "loss": 1.6899,
      "step": 23752
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40397074818611145,
      "learning_rate": 0.0005030014637101578,
      "loss": 1.7152,
      "step": 23753
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3912030756473541,
      "learning_rate": 0.0005029937678502342,
      "loss": 1.6645,
      "step": 23754
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3741680979728699,
      "learning_rate": 0.0005029860717439061,
      "loss": 1.5909,
      "step": 23755
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40058374404907227,
      "learning_rate": 0.0005029783753911829,
      "loss": 1.7383,
      "step": 23756
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38892361521720886,
      "learning_rate": 0.0005029706787920738,
      "loss": 1.7487,
      "step": 23757
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3778398633003235,
      "learning_rate": 0.0005029629819465883,
      "loss": 1.7247,
      "step": 23758
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3921586573123932,
      "learning_rate": 0.0005029552848547355,
      "loss": 1.7158,
      "step": 23759
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39099806547164917,
      "learning_rate": 0.0005029475875165249,
      "loss": 1.7046,
      "step": 23760
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38552016019821167,
      "learning_rate": 0.000502939889931966,
      "loss": 1.6686,
      "step": 23761
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5017867684364319,
      "learning_rate": 0.0005029321921010678,
      "loss": 1.69,
      "step": 23762
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38095930218696594,
      "learning_rate": 0.0005029244940238398,
      "loss": 1.6915,
      "step": 23763
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40345969796180725,
      "learning_rate": 0.0005029167957002915,
      "loss": 1.6928,
      "step": 23764
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4091455638408661,
      "learning_rate": 0.000502909097130432,
      "loss": 1.6642,
      "step": 23765
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4104674160480499,
      "learning_rate": 0.0005029013983142707,
      "loss": 1.7415,
      "step": 23766
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3809826374053955,
      "learning_rate": 0.0005028936992518172,
      "loss": 1.705,
      "step": 23767
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38843879103660583,
      "learning_rate": 0.0005028859999430806,
      "loss": 1.6198,
      "step": 23768
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3937368392944336,
      "learning_rate": 0.0005028783003880701,
      "loss": 1.7964,
      "step": 23769
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3911770284175873,
      "learning_rate": 0.0005028706005867955,
      "loss": 1.7268,
      "step": 23770
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3888069987297058,
      "learning_rate": 0.0005028629005392657,
      "loss": 1.6801,
      "step": 23771
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3778766691684723,
      "learning_rate": 0.0005028552002454903,
      "loss": 1.6844,
      "step": 23772
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3914140462875366,
      "learning_rate": 0.0005028474997054786,
      "loss": 1.7141,
      "step": 23773
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3995489180088043,
      "learning_rate": 0.0005028397989192398,
      "loss": 1.7349,
      "step": 23774
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.386370450258255,
      "learning_rate": 0.0005028320978867835,
      "loss": 1.7435,
      "step": 23775
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3908982574939728,
      "learning_rate": 0.0005028243966081188,
      "loss": 1.6915,
      "step": 23776
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3757792115211487,
      "learning_rate": 0.0005028166950832552,
      "loss": 1.6997,
      "step": 23777
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3930114805698395,
      "learning_rate": 0.0005028089933122021,
      "loss": 1.7121,
      "step": 23778
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38629138469696045,
      "learning_rate": 0.0005028012912949687,
      "loss": 1.6889,
      "step": 23779
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4014652371406555,
      "learning_rate": 0.0005027935890315644,
      "loss": 1.6648,
      "step": 23780
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3983575403690338,
      "learning_rate": 0.0005027858865219986,
      "loss": 1.675,
      "step": 23781
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4061753451824188,
      "learning_rate": 0.0005027781837662806,
      "loss": 1.6345,
      "step": 23782
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3915102779865265,
      "learning_rate": 0.0005027704807644199,
      "loss": 1.6311,
      "step": 23783
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39148420095443726,
      "learning_rate": 0.0005027627775164254,
      "loss": 1.6735,
      "step": 23784
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3952091932296753,
      "learning_rate": 0.000502755074022307,
      "loss": 1.6563,
      "step": 23785
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39176124334335327,
      "learning_rate": 0.0005027473702820738,
      "loss": 1.6801,
      "step": 23786
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4061791002750397,
      "learning_rate": 0.0005027396662957352,
      "loss": 1.6308,
      "step": 23787
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3988155722618103,
      "learning_rate": 0.0005027319620633003,
      "loss": 1.6315,
      "step": 23788
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39214450120925903,
      "learning_rate": 0.0005027242575847788,
      "loss": 1.7025,
      "step": 23789
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37814125418663025,
      "learning_rate": 0.00050271655286018,
      "loss": 1.6527,
      "step": 23790
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3915442228317261,
      "learning_rate": 0.0005027088478895131,
      "loss": 1.716,
      "step": 23791
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39557433128356934,
      "learning_rate": 0.0005027011426727875,
      "loss": 1.665,
      "step": 23792
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39501968026161194,
      "learning_rate": 0.0005026934372100127,
      "loss": 1.7034,
      "step": 23793
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39526721835136414,
      "learning_rate": 0.0005026857315011978,
      "loss": 1.6491,
      "step": 23794
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3821081519126892,
      "learning_rate": 0.0005026780255463523,
      "loss": 1.6873,
      "step": 23795
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3753473460674286,
      "learning_rate": 0.0005026703193454856,
      "loss": 1.6877,
      "step": 23796
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3814436197280884,
      "learning_rate": 0.0005026626128986069,
      "loss": 1.6485,
      "step": 23797
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38780227303504944,
      "learning_rate": 0.0005026549062057258,
      "loss": 1.7449,
      "step": 23798
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4080844819545746,
      "learning_rate": 0.0005026471992668513,
      "loss": 1.7234,
      "step": 23799
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38431450724601746,
      "learning_rate": 0.0005026394920819931,
      "loss": 1.6873,
      "step": 23800
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3814148008823395,
      "learning_rate": 0.0005026317846511604,
      "loss": 1.6464,
      "step": 23801
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38913872838020325,
      "learning_rate": 0.0005026240769743626,
      "loss": 1.6436,
      "step": 23802
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3845219910144806,
      "learning_rate": 0.000502616369051609,
      "loss": 1.7146,
      "step": 23803
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3877789080142975,
      "learning_rate": 0.0005026086608829089,
      "loss": 1.6993,
      "step": 23804
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37858712673187256,
      "learning_rate": 0.0005026009524682719,
      "loss": 1.675,
      "step": 23805
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39775678515434265,
      "learning_rate": 0.000502593243807707,
      "loss": 1.7044,
      "step": 23806
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.385513573884964,
      "learning_rate": 0.000502585534901224,
      "loss": 1.6672,
      "step": 23807
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39163845777511597,
      "learning_rate": 0.0005025778257488318,
      "loss": 1.652,
      "step": 23808
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.42109447717666626,
      "learning_rate": 0.0005025701163505399,
      "loss": 1.6737,
      "step": 23809
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3820626139640808,
      "learning_rate": 0.000502562406706358,
      "loss": 1.6376,
      "step": 23810
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3966113030910492,
      "learning_rate": 0.000502554696816295,
      "loss": 1.7216,
      "step": 23811
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3798048496246338,
      "learning_rate": 0.0005025469866803604,
      "loss": 1.6258,
      "step": 23812
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4030511677265167,
      "learning_rate": 0.0005025392762985638,
      "loss": 1.6236,
      "step": 23813
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3938959836959839,
      "learning_rate": 0.0005025315656709143,
      "loss": 1.6877,
      "step": 23814
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39561569690704346,
      "learning_rate": 0.0005025238547974212,
      "loss": 1.6786,
      "step": 23815
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39302751421928406,
      "learning_rate": 0.000502516143678094,
      "loss": 1.7233,
      "step": 23816
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4231678247451782,
      "learning_rate": 0.0005025084323129421,
      "loss": 1.6885,
      "step": 23817
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.397113174200058,
      "learning_rate": 0.0005025007207019748,
      "loss": 1.6786,
      "step": 23818
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39544737339019775,
      "learning_rate": 0.0005024930088452015,
      "loss": 1.6179,
      "step": 23819
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3937036693096161,
      "learning_rate": 0.0005024852967426314,
      "loss": 1.6957,
      "step": 23820
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38266313076019287,
      "learning_rate": 0.0005024775843942741,
      "loss": 1.694,
      "step": 23821
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37352675199508667,
      "learning_rate": 0.0005024698718001389,
      "loss": 1.6598,
      "step": 23822
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3819546103477478,
      "learning_rate": 0.0005024621589602349,
      "loss": 1.6169,
      "step": 23823
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39332178235054016,
      "learning_rate": 0.0005024544458745718,
      "loss": 1.6827,
      "step": 23824
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4003409743309021,
      "learning_rate": 0.0005024467325431589,
      "loss": 1.6135,
      "step": 23825
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40608227252960205,
      "learning_rate": 0.0005024390189660053,
      "loss": 1.74,
      "step": 23826
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39192429184913635,
      "learning_rate": 0.0005024313051431207,
      "loss": 1.676,
      "step": 23827
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.42011284828186035,
      "learning_rate": 0.0005024235910745143,
      "loss": 1.6833,
      "step": 23828
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38657689094543457,
      "learning_rate": 0.0005024158767601956,
      "loss": 1.641,
      "step": 23829
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4071066081523895,
      "learning_rate": 0.0005024081622001736,
      "loss": 1.7131,
      "step": 23830
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38605061173439026,
      "learning_rate": 0.000502400447394458,
      "loss": 1.6638,
      "step": 23831
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4324457347393036,
      "learning_rate": 0.0005023927323430582,
      "loss": 1.6716,
      "step": 23832
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39250612258911133,
      "learning_rate": 0.0005023850170459834,
      "loss": 1.7042,
      "step": 23833
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3914627432823181,
      "learning_rate": 0.000502377301503243,
      "loss": 1.6939,
      "step": 23834
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39352190494537354,
      "learning_rate": 0.0005023695857148463,
      "loss": 1.6718,
      "step": 23835
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40593376755714417,
      "learning_rate": 0.0005023618696808028,
      "loss": 1.7189,
      "step": 23836
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3975358009338379,
      "learning_rate": 0.0005023541534011218,
      "loss": 1.702,
      "step": 23837
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3756282329559326,
      "learning_rate": 0.0005023464368758127,
      "loss": 1.6419,
      "step": 23838
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3986800014972687,
      "learning_rate": 0.0005023387201048849,
      "loss": 1.6716,
      "step": 23839
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3724774122238159,
      "learning_rate": 0.0005023310030883476,
      "loss": 1.6818,
      "step": 23840
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38704025745391846,
      "learning_rate": 0.0005023232858262102,
      "loss": 1.6294,
      "step": 23841
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39332664012908936,
      "learning_rate": 0.0005023155683184823,
      "loss": 1.6688,
      "step": 23842
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3944021761417389,
      "learning_rate": 0.0005023078505651731,
      "loss": 1.6585,
      "step": 23843
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3886866867542267,
      "learning_rate": 0.0005023001325662918,
      "loss": 1.6737,
      "step": 23844
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38847360014915466,
      "learning_rate": 0.0005022924143218482,
      "loss": 1.5797,
      "step": 23845
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3821682035923004,
      "learning_rate": 0.0005022846958318512,
      "loss": 1.6575,
      "step": 23846
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3768780827522278,
      "learning_rate": 0.0005022769770963106,
      "loss": 1.6704,
      "step": 23847
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38879457116127014,
      "learning_rate": 0.0005022692581152353,
      "loss": 1.6795,
      "step": 23848
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3957649767398834,
      "learning_rate": 0.0005022615388886352,
      "loss": 1.6105,
      "step": 23849
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3919793367385864,
      "learning_rate": 0.0005022538194165192,
      "loss": 1.6287,
      "step": 23850
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40002256631851196,
      "learning_rate": 0.0005022460996988968,
      "loss": 1.6486,
      "step": 23851
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.384529709815979,
      "learning_rate": 0.0005022383797357776,
      "loss": 1.663,
      "step": 23852
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.396898090839386,
      "learning_rate": 0.0005022306595271707,
      "loss": 1.6489,
      "step": 23853
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3961743712425232,
      "learning_rate": 0.0005022229390730857,
      "loss": 1.6799,
      "step": 23854
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.41324925422668457,
      "learning_rate": 0.0005022152183735318,
      "loss": 1.6649,
      "step": 23855
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3823612928390503,
      "learning_rate": 0.0005022074974285184,
      "loss": 1.7347,
      "step": 23856
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38828420639038086,
      "learning_rate": 0.0005021997762380548,
      "loss": 1.705,
      "step": 23857
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.41746729612350464,
      "learning_rate": 0.0005021920548021506,
      "loss": 1.7172,
      "step": 23858
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3864673376083374,
      "learning_rate": 0.000502184333120815,
      "loss": 1.6612,
      "step": 23859
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.372081995010376,
      "learning_rate": 0.0005021766111940574,
      "loss": 1.6197,
      "step": 23860
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3950519859790802,
      "learning_rate": 0.0005021688890218871,
      "loss": 1.6869,
      "step": 23861
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4009189307689667,
      "learning_rate": 0.0005021611666043137,
      "loss": 1.6619,
      "step": 23862
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.399191677570343,
      "learning_rate": 0.0005021534439413463,
      "loss": 1.6217,
      "step": 23863
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38216260075569153,
      "learning_rate": 0.0005021457210329946,
      "loss": 1.6402,
      "step": 23864
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4051154553890228,
      "learning_rate": 0.0005021379978792677,
      "loss": 1.7099,
      "step": 23865
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3885394334793091,
      "learning_rate": 0.0005021302744801749,
      "loss": 1.7424,
      "step": 23866
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3987598121166229,
      "learning_rate": 0.0005021225508357259,
      "loss": 1.6989,
      "step": 23867
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39191314578056335,
      "learning_rate": 0.0005021148269459298,
      "loss": 1.6353,
      "step": 23868
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3912835419178009,
      "learning_rate": 0.0005021071028107961,
      "loss": 1.7011,
      "step": 23869
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.382041335105896,
      "learning_rate": 0.0005020993784303343,
      "loss": 1.7214,
      "step": 23870
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3845745027065277,
      "learning_rate": 0.0005020916538045534,
      "loss": 1.6814,
      "step": 23871
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3891763389110565,
      "learning_rate": 0.0005020839289334631,
      "loss": 1.6847,
      "step": 23872
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3763302266597748,
      "learning_rate": 0.0005020762038170728,
      "loss": 1.5712,
      "step": 23873
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3836074471473694,
      "learning_rate": 0.0005020684784553916,
      "loss": 1.7203,
      "step": 23874
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38112348318099976,
      "learning_rate": 0.0005020607528484291,
      "loss": 1.6966,
      "step": 23875
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3806791305541992,
      "learning_rate": 0.0005020530269961947,
      "loss": 1.6939,
      "step": 23876
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3813317120075226,
      "learning_rate": 0.0005020453008986976,
      "loss": 1.6901,
      "step": 23877
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39629268646240234,
      "learning_rate": 0.0005020375745559473,
      "loss": 1.7358,
      "step": 23878
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3942655622959137,
      "learning_rate": 0.0005020298479679531,
      "loss": 1.7581,
      "step": 23879
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4216234087944031,
      "learning_rate": 0.0005020221211347245,
      "loss": 1.6865,
      "step": 23880
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39267343282699585,
      "learning_rate": 0.0005020143940562707,
      "loss": 1.7356,
      "step": 23881
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38573724031448364,
      "learning_rate": 0.0005020066667326014,
      "loss": 1.656,
      "step": 23882
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4148765206336975,
      "learning_rate": 0.0005019989391637257,
      "loss": 1.72,
      "step": 23883
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4047256112098694,
      "learning_rate": 0.000501991211349653,
      "loss": 1.6289,
      "step": 23884
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38913488388061523,
      "learning_rate": 0.0005019834832903926,
      "loss": 1.6791,
      "step": 23885
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3878611922264099,
      "learning_rate": 0.0005019757549859542,
      "loss": 1.6698,
      "step": 23886
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.40430304408073425,
      "learning_rate": 0.000501968026436347,
      "loss": 1.616,
      "step": 23887
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38584208488464355,
      "learning_rate": 0.0005019602976415803,
      "loss": 1.6622,
      "step": 23888
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38986852765083313,
      "learning_rate": 0.0005019525686016636,
      "loss": 1.6659,
      "step": 23889
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.388339638710022,
      "learning_rate": 0.0005019448393166062,
      "loss": 1.6803,
      "step": 23890
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.39663970470428467,
      "learning_rate": 0.0005019371097864175,
      "loss": 1.6926,
      "step": 23891
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.402198851108551,
      "learning_rate": 0.000501929380011107,
      "loss": 1.7214,
      "step": 23892
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.37627172470092773,
      "learning_rate": 0.0005019216499906839,
      "loss": 1.6355,
      "step": 23893
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3891996443271637,
      "learning_rate": 0.0005019139197251577,
      "loss": 1.6707,
      "step": 23894
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4037742614746094,
      "learning_rate": 0.0005019061892145378,
      "loss": 1.6191,
      "step": 23895
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3955855369567871,
      "learning_rate": 0.0005018984584588334,
      "loss": 1.6312,
      "step": 23896
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37196704745292664,
      "learning_rate": 0.0005018907274580541,
      "loss": 1.617,
      "step": 23897
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3945067226886749,
      "learning_rate": 0.0005018829962122092,
      "loss": 1.627,
      "step": 23898
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3979077935218811,
      "learning_rate": 0.0005018752647213082,
      "loss": 1.7371,
      "step": 23899
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40657562017440796,
      "learning_rate": 0.0005018675329853602,
      "loss": 1.751,
      "step": 23900
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39007848501205444,
      "learning_rate": 0.0005018598010043748,
      "loss": 1.6039,
      "step": 23901
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4036673605442047,
      "learning_rate": 0.0005018520687783614,
      "loss": 1.6992,
      "step": 23902
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40082189440727234,
      "learning_rate": 0.0005018443363073293,
      "loss": 1.7503,
      "step": 23903
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3848816752433777,
      "learning_rate": 0.0005018366035912879,
      "loss": 1.6987,
      "step": 23904
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.400227814912796,
      "learning_rate": 0.0005018288706302466,
      "loss": 1.7096,
      "step": 23905
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.393195241689682,
      "learning_rate": 0.0005018211374242148,
      "loss": 1.7014,
      "step": 23906
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.640396237373352,
      "learning_rate": 0.0005018134039732019,
      "loss": 1.6595,
      "step": 23907
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40213289856910706,
      "learning_rate": 0.0005018056702772172,
      "loss": 1.6388,
      "step": 23908
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.46333208680152893,
      "learning_rate": 0.0005017979363362702,
      "loss": 1.6825,
      "step": 23909
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37762030959129333,
      "learning_rate": 0.0005017902021503702,
      "loss": 1.6447,
      "step": 23910
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40344080328941345,
      "learning_rate": 0.0005017824677195267,
      "loss": 1.7213,
      "step": 23911
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3868774175643921,
      "learning_rate": 0.0005017747330437489,
      "loss": 1.7222,
      "step": 23912
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3853317201137543,
      "learning_rate": 0.0005017669981230465,
      "loss": 1.6899,
      "step": 23913
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3875274360179901,
      "learning_rate": 0.0005017592629574286,
      "loss": 1.7083,
      "step": 23914
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3870261609554291,
      "learning_rate": 0.0005017515275469046,
      "loss": 1.6733,
      "step": 23915
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3810855746269226,
      "learning_rate": 0.0005017437918914839,
      "loss": 1.6625,
      "step": 23916
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4054674804210663,
      "learning_rate": 0.0005017360559911762,
      "loss": 1.6904,
      "step": 23917
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39400529861450195,
      "learning_rate": 0.0005017283198459905,
      "loss": 1.6188,
      "step": 23918
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3831854462623596,
      "learning_rate": 0.0005017205834559364,
      "loss": 1.6823,
      "step": 23919
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3936592638492584,
      "learning_rate": 0.0005017128468210233,
      "loss": 1.6757,
      "step": 23920
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3773472011089325,
      "learning_rate": 0.0005017051099412605,
      "loss": 1.62,
      "step": 23921
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39168819785118103,
      "learning_rate": 0.0005016973728166573,
      "loss": 1.7524,
      "step": 23922
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38465437293052673,
      "learning_rate": 0.0005016896354472233,
      "loss": 1.5878,
      "step": 23923
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39701125025749207,
      "learning_rate": 0.0005016818978329677,
      "loss": 1.6442,
      "step": 23924
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.520789384841919,
      "learning_rate": 0.0005016741599739,
      "loss": 1.708,
      "step": 23925
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39651355147361755,
      "learning_rate": 0.0005016664218700297,
      "loss": 1.6707,
      "step": 23926
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40182772278785706,
      "learning_rate": 0.0005016586835213661,
      "loss": 1.6593,
      "step": 23927
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37484151124954224,
      "learning_rate": 0.0005016509449279185,
      "loss": 1.6839,
      "step": 23928
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37671029567718506,
      "learning_rate": 0.0005016432060896964,
      "loss": 1.6493,
      "step": 23929
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38355201482772827,
      "learning_rate": 0.0005016354670067092,
      "loss": 1.6434,
      "step": 23930
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4077148139476776,
      "learning_rate": 0.0005016277276789661,
      "loss": 1.6274,
      "step": 23931
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38671210408210754,
      "learning_rate": 0.0005016199881064767,
      "loss": 1.766,
      "step": 23932
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38002583384513855,
      "learning_rate": 0.0005016122482892503,
      "loss": 1.7186,
      "step": 23933
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3992929756641388,
      "learning_rate": 0.0005016045082272964,
      "loss": 1.6544,
      "step": 23934
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3962596356868744,
      "learning_rate": 0.0005015967679206244,
      "loss": 1.7162,
      "step": 23935
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39626049995422363,
      "learning_rate": 0.0005015890273692435,
      "loss": 1.7097,
      "step": 23936
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3863559663295746,
      "learning_rate": 0.0005015812865731634,
      "loss": 1.6569,
      "step": 23937
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40245816111564636,
      "learning_rate": 0.0005015735455323931,
      "loss": 1.7009,
      "step": 23938
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.386708527803421,
      "learning_rate": 0.0005015658042469423,
      "loss": 1.6303,
      "step": 23939
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39031362533569336,
      "learning_rate": 0.0005015580627168204,
      "loss": 1.7251,
      "step": 23940
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39676862955093384,
      "learning_rate": 0.0005015503209420366,
      "loss": 1.731,
      "step": 23941
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4112108647823334,
      "learning_rate": 0.0005015425789226004,
      "loss": 1.648,
      "step": 23942
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.41309985518455505,
      "learning_rate": 0.0005015348366585213,
      "loss": 1.6617,
      "step": 23943
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3874882757663727,
      "learning_rate": 0.0005015270941498086,
      "loss": 1.6461,
      "step": 23944
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3804000914096832,
      "learning_rate": 0.0005015193513964717,
      "loss": 1.7068,
      "step": 23945
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39171621203422546,
      "learning_rate": 0.0005015116083985199,
      "loss": 1.5968,
      "step": 23946
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39628955721855164,
      "learning_rate": 0.0005015038651559628,
      "loss": 1.5841,
      "step": 23947
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38690486550331116,
      "learning_rate": 0.0005014961216688095,
      "loss": 1.6646,
      "step": 23948
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37938880920410156,
      "learning_rate": 0.0005014883779370698,
      "loss": 1.6167,
      "step": 23949
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3865777254104614,
      "learning_rate": 0.0005014806339607529,
      "loss": 1.6797,
      "step": 23950
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38238710165023804,
      "learning_rate": 0.0005014728897398681,
      "loss": 1.6735,
      "step": 23951
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38401657342910767,
      "learning_rate": 0.000501465145274425,
      "loss": 1.7153,
      "step": 23952
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3863430619239807,
      "learning_rate": 0.0005014574005644328,
      "loss": 1.7006,
      "step": 23953
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39336100220680237,
      "learning_rate": 0.0005014496556099011,
      "loss": 1.6379,
      "step": 23954
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37072739005088806,
      "learning_rate": 0.0005014419104108391,
      "loss": 1.6327,
      "step": 23955
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3788066506385803,
      "learning_rate": 0.0005014341649672564,
      "loss": 1.6469,
      "step": 23956
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39007121324539185,
      "learning_rate": 0.0005014264192791622,
      "loss": 1.7264,
      "step": 23957
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3890115022659302,
      "learning_rate": 0.000501418673346566,
      "loss": 1.6781,
      "step": 23958
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3775901794433594,
      "learning_rate": 0.0005014109271694772,
      "loss": 1.647,
      "step": 23959
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38944536447525024,
      "learning_rate": 0.0005014031807479054,
      "loss": 1.6215,
      "step": 23960
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3931080996990204,
      "learning_rate": 0.0005013954340818596,
      "loss": 1.7225,
      "step": 23961
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3965052664279938,
      "learning_rate": 0.0005013876871713496,
      "loss": 1.6402,
      "step": 23962
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3881218135356903,
      "learning_rate": 0.0005013799400163844,
      "loss": 1.7233,
      "step": 23963
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.379645973443985,
      "learning_rate": 0.0005013721926169738,
      "loss": 1.6925,
      "step": 23964
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3799602687358856,
      "learning_rate": 0.000501364444973127,
      "loss": 1.6706,
      "step": 23965
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3938276469707489,
      "learning_rate": 0.0005013566970848535,
      "loss": 1.685,
      "step": 23966
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38820162415504456,
      "learning_rate": 0.0005013489489521625,
      "loss": 1.6789,
      "step": 23967
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39258286356925964,
      "learning_rate": 0.0005013412005750635,
      "loss": 1.6666,
      "step": 23968
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3834906220436096,
      "learning_rate": 0.0005013334519535661,
      "loss": 1.6889,
      "step": 23969
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3713521361351013,
      "learning_rate": 0.0005013257030876795,
      "loss": 1.6881,
      "step": 23970
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3886081874370575,
      "learning_rate": 0.0005013179539774132,
      "loss": 1.6998,
      "step": 23971
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38117843866348267,
      "learning_rate": 0.0005013102046227764,
      "loss": 1.6781,
      "step": 23972
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3823812007904053,
      "learning_rate": 0.0005013024550237789,
      "loss": 1.6516,
      "step": 23973
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39471086859703064,
      "learning_rate": 0.0005012947051804298,
      "loss": 1.748,
      "step": 23974
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38506054878234863,
      "learning_rate": 0.0005012869550927385,
      "loss": 1.6663,
      "step": 23975
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38578319549560547,
      "learning_rate": 0.0005012792047607146,
      "loss": 1.7457,
      "step": 23976
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3809116780757904,
      "learning_rate": 0.0005012714541843674,
      "loss": 1.5974,
      "step": 23977
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38120582699775696,
      "learning_rate": 0.0005012637033637062,
      "loss": 1.71,
      "step": 23978
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38796481490135193,
      "learning_rate": 0.0005012559522987406,
      "loss": 1.645,
      "step": 23979
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3786306381225586,
      "learning_rate": 0.00050124820098948,
      "loss": 1.6763,
      "step": 23980
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39847642183303833,
      "learning_rate": 0.0005012404494359336,
      "loss": 1.6725,
      "step": 23981
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3928893804550171,
      "learning_rate": 0.000501232697638111,
      "loss": 1.7377,
      "step": 23982
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3995175361633301,
      "learning_rate": 0.0005012249455960216,
      "loss": 1.6045,
      "step": 23983
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3861193358898163,
      "learning_rate": 0.0005012171933096747,
      "loss": 1.6476,
      "step": 23984
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38975316286087036,
      "learning_rate": 0.0005012094407790798,
      "loss": 1.6798,
      "step": 23985
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39023756980895996,
      "learning_rate": 0.0005012016880042462,
      "loss": 1.7139,
      "step": 23986
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39634209871292114,
      "learning_rate": 0.0005011939349851835,
      "loss": 1.7175,
      "step": 23987
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39080244302749634,
      "learning_rate": 0.000501186181721901,
      "loss": 1.5949,
      "step": 23988
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40293940901756287,
      "learning_rate": 0.0005011784282144081,
      "loss": 1.6717,
      "step": 23989
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3925747573375702,
      "learning_rate": 0.0005011706744627142,
      "loss": 1.7032,
      "step": 23990
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.397615522146225,
      "learning_rate": 0.0005011629204668288,
      "loss": 1.6437,
      "step": 23991
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37901854515075684,
      "learning_rate": 0.0005011551662267613,
      "loss": 1.632,
      "step": 23992
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39507055282592773,
      "learning_rate": 0.000501147411742521,
      "loss": 1.6548,
      "step": 23993
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40338197350502014,
      "learning_rate": 0.0005011396570141173,
      "loss": 1.777,
      "step": 23994
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3772621154785156,
      "learning_rate": 0.0005011319020415599,
      "loss": 1.6769,
      "step": 23995
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40297481417655945,
      "learning_rate": 0.0005011241468248578,
      "loss": 1.6668,
      "step": 23996
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3886326849460602,
      "learning_rate": 0.0005011163913640206,
      "loss": 1.7149,
      "step": 23997
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38331839442253113,
      "learning_rate": 0.0005011086356590579,
      "loss": 1.6269,
      "step": 23998
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.387628436088562,
      "learning_rate": 0.0005011008797099789,
      "loss": 1.6813,
      "step": 23999
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3824116587638855,
      "learning_rate": 0.000501093123516793,
      "loss": 1.5373,
      "step": 24000
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38717198371887207,
      "learning_rate": 0.0005010853670795098,
      "loss": 1.648,
      "step": 24001
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37707775831222534,
      "learning_rate": 0.0005010776103981384,
      "loss": 1.6866,
      "step": 24002
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39609575271606445,
      "learning_rate": 0.0005010698534726886,
      "loss": 1.6144,
      "step": 24003
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4040306806564331,
      "learning_rate": 0.0005010620963031695,
      "loss": 1.7138,
      "step": 24004
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4008094072341919,
      "learning_rate": 0.0005010543388895907,
      "loss": 1.7247,
      "step": 24005
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3852337598800659,
      "learning_rate": 0.0005010465812319616,
      "loss": 1.6742,
      "step": 24006
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38607290387153625,
      "learning_rate": 0.0005010388233302915,
      "loss": 1.7181,
      "step": 24007
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38597771525382996,
      "learning_rate": 0.0005010310651845899,
      "loss": 1.7397,
      "step": 24008
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37921154499053955,
      "learning_rate": 0.0005010233067948662,
      "loss": 1.6849,
      "step": 24009
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4023865759372711,
      "learning_rate": 0.0005010155481611298,
      "loss": 1.7051,
      "step": 24010
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.374941349029541,
      "learning_rate": 0.0005010077892833902,
      "loss": 1.6924,
      "step": 24011
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3734206557273865,
      "learning_rate": 0.0005010000301616567,
      "loss": 1.6406,
      "step": 24012
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37526220083236694,
      "learning_rate": 0.0005009922707959389,
      "loss": 1.6811,
      "step": 24013
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38030657172203064,
      "learning_rate": 0.000500984511186246,
      "loss": 1.6546,
      "step": 24014
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3915250301361084,
      "learning_rate": 0.0005009767513325875,
      "loss": 1.6819,
      "step": 24015
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39499005675315857,
      "learning_rate": 0.0005009689912349729,
      "loss": 1.6725,
      "step": 24016
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3994692862033844,
      "learning_rate": 0.0005009612308934116,
      "loss": 1.7384,
      "step": 24017
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3932085931301117,
      "learning_rate": 0.0005009534703079129,
      "loss": 1.752,
      "step": 24018
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3943282961845398,
      "learning_rate": 0.0005009457094784862,
      "loss": 1.6735,
      "step": 24019
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4009285867214203,
      "learning_rate": 0.0005009379484051411,
      "loss": 1.7343,
      "step": 24020
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3954889476299286,
      "learning_rate": 0.0005009301870878871,
      "loss": 1.6144,
      "step": 24021
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38711270689964294,
      "learning_rate": 0.0005009224255267333,
      "loss": 1.5532,
      "step": 24022
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38230374455451965,
      "learning_rate": 0.0005009146637216892,
      "loss": 1.6578,
      "step": 24023
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3916737139225006,
      "learning_rate": 0.0005009069016727644,
      "loss": 1.7493,
      "step": 24024
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37940362095832825,
      "learning_rate": 0.0005008991393799682,
      "loss": 1.6175,
      "step": 24025
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39699721336364746,
      "learning_rate": 0.0005008913768433101,
      "loss": 1.688,
      "step": 24026
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3920135200023651,
      "learning_rate": 0.0005008836140627995,
      "loss": 1.6684,
      "step": 24027
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39220234751701355,
      "learning_rate": 0.0005008758510384457,
      "loss": 1.7201,
      "step": 24028
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3900949954986572,
      "learning_rate": 0.0005008680877702583,
      "loss": 1.5764,
      "step": 24029
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.395183801651001,
      "learning_rate": 0.0005008603242582464,
      "loss": 1.7259,
      "step": 24030
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4184839427471161,
      "learning_rate": 0.00050085256050242,
      "loss": 1.6307,
      "step": 24031
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39225608110427856,
      "learning_rate": 0.000500844796502788,
      "loss": 1.7029,
      "step": 24032
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3799002766609192,
      "learning_rate": 0.00050083703225936,
      "loss": 1.6355,
      "step": 24033
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4078187644481659,
      "learning_rate": 0.0005008292677721454,
      "loss": 1.6039,
      "step": 24034
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4004932940006256,
      "learning_rate": 0.0005008215030411538,
      "loss": 1.7078,
      "step": 24035
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38593292236328125,
      "learning_rate": 0.0005008137380663945,
      "loss": 1.5968,
      "step": 24036
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3785471022129059,
      "learning_rate": 0.0005008059728478768,
      "loss": 1.6285,
      "step": 24037
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3930644392967224,
      "learning_rate": 0.0005007982073856102,
      "loss": 1.6537,
      "step": 24038
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4253353178501129,
      "learning_rate": 0.0005007904416796042,
      "loss": 1.6821,
      "step": 24039
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38678956031799316,
      "learning_rate": 0.0005007826757298682,
      "loss": 1.6723,
      "step": 24040
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.393924742937088,
      "learning_rate": 0.0005007749095364116,
      "loss": 1.708,
      "step": 24041
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40974563360214233,
      "learning_rate": 0.0005007671430992439,
      "loss": 1.6654,
      "step": 24042
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3991766571998596,
      "learning_rate": 0.0005007593764183745,
      "loss": 1.6182,
      "step": 24043
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38084039092063904,
      "learning_rate": 0.0005007516094938126,
      "loss": 1.6709,
      "step": 24044
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3927074372768402,
      "learning_rate": 0.0005007438423255681,
      "loss": 1.629,
      "step": 24045
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40694013237953186,
      "learning_rate": 0.00050073607491365,
      "loss": 1.6919,
      "step": 24046
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39071959257125854,
      "learning_rate": 0.0005007283072580679,
      "loss": 1.638,
      "step": 24047
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3784426152706146,
      "learning_rate": 0.0005007205393588312,
      "loss": 1.6921,
      "step": 24048
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3814196288585663,
      "learning_rate": 0.0005007127712159493,
      "loss": 1.6493,
      "step": 24049
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39317652583122253,
      "learning_rate": 0.0005007050028294317,
      "loss": 1.683,
      "step": 24050
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.391131728887558,
      "learning_rate": 0.0005006972341992879,
      "loss": 1.6711,
      "step": 24051
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3711990714073181,
      "learning_rate": 0.0005006894653255272,
      "loss": 1.68,
      "step": 24052
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39346373081207275,
      "learning_rate": 0.0005006816962081589,
      "loss": 1.6786,
      "step": 24053
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.41801920533180237,
      "learning_rate": 0.0005006739268471928,
      "loss": 1.694,
      "step": 24054
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37736988067626953,
      "learning_rate": 0.0005006661572426379,
      "loss": 1.6844,
      "step": 24055
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3796709477901459,
      "learning_rate": 0.000500658387394504,
      "loss": 1.7581,
      "step": 24056
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3774070739746094,
      "learning_rate": 0.0005006506173028004,
      "loss": 1.6891,
      "step": 24057
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39160043001174927,
      "learning_rate": 0.0005006428469675364,
      "loss": 1.6924,
      "step": 24058
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39526820182800293,
      "learning_rate": 0.0005006350763887217,
      "loss": 1.6912,
      "step": 24059
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38673338294029236,
      "learning_rate": 0.0005006273055663654,
      "loss": 1.6827,
      "step": 24060
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39581677317619324,
      "learning_rate": 0.0005006195345004773,
      "loss": 1.6945,
      "step": 24061
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3852957487106323,
      "learning_rate": 0.0005006117631910665,
      "loss": 1.7013,
      "step": 24062
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40810060501098633,
      "learning_rate": 0.0005006039916381427,
      "loss": 1.7183,
      "step": 24063
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3858773410320282,
      "learning_rate": 0.000500596219841715,
      "loss": 1.6592,
      "step": 24064
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4013715982437134,
      "learning_rate": 0.0005005884478017933,
      "loss": 1.6883,
      "step": 24065
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38236141204833984,
      "learning_rate": 0.0005005806755183867,
      "loss": 1.6515,
      "step": 24066
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3952215015888214,
      "learning_rate": 0.0005005729029915046,
      "loss": 1.6942,
      "step": 24067
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3755531907081604,
      "learning_rate": 0.0005005651302211567,
      "loss": 1.7187,
      "step": 24068
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4253939986228943,
      "learning_rate": 0.0005005573572073522,
      "loss": 1.6454,
      "step": 24069
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38257116079330444,
      "learning_rate": 0.0005005495839501006,
      "loss": 1.5992,
      "step": 24070
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40320107340812683,
      "learning_rate": 0.0005005418104494113,
      "loss": 1.6637,
      "step": 24071
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.383105605840683,
      "learning_rate": 0.0005005340367052939,
      "loss": 1.6846,
      "step": 24072
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4060480296611786,
      "learning_rate": 0.0005005262627177578,
      "loss": 1.7416,
      "step": 24073
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3820379972457886,
      "learning_rate": 0.0005005184884868122,
      "loss": 1.6266,
      "step": 24074
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3920711278915405,
      "learning_rate": 0.0005005107140124668,
      "loss": 1.6231,
      "step": 24075
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39217761158943176,
      "learning_rate": 0.000500502939294731,
      "loss": 1.71,
      "step": 24076
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3999941945075989,
      "learning_rate": 0.000500495164333614,
      "loss": 1.6497,
      "step": 24077
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3903353810310364,
      "learning_rate": 0.0005004873891291255,
      "loss": 1.6092,
      "step": 24078
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.49531641602516174,
      "learning_rate": 0.0005004796136812748,
      "loss": 1.7119,
      "step": 24079
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3931332230567932,
      "learning_rate": 0.0005004718379900714,
      "loss": 1.7357,
      "step": 24080
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3764357566833496,
      "learning_rate": 0.0005004640620555248,
      "loss": 1.7007,
      "step": 24081
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37955278158187866,
      "learning_rate": 0.0005004562858776443,
      "loss": 1.6837,
      "step": 24082
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38879698514938354,
      "learning_rate": 0.0005004485094564395,
      "loss": 1.7212,
      "step": 24083
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4045056998729706,
      "learning_rate": 0.0005004407327919197,
      "loss": 1.6534,
      "step": 24084
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38365280628204346,
      "learning_rate": 0.0005004329558840943,
      "loss": 1.6991,
      "step": 24085
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39723193645477295,
      "learning_rate": 0.0005004251787329728,
      "loss": 1.7638,
      "step": 24086
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3832281529903412,
      "learning_rate": 0.0005004174013385648,
      "loss": 1.706,
      "step": 24087
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3979390263557434,
      "learning_rate": 0.0005004096237008795,
      "loss": 1.7125,
      "step": 24088
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3915776312351227,
      "learning_rate": 0.0005004018458199266,
      "loss": 1.7039,
      "step": 24089
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4009642004966736,
      "learning_rate": 0.0005003940676957153,
      "loss": 1.6836,
      "step": 24090
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3873653709888458,
      "learning_rate": 0.0005003862893282551,
      "loss": 1.681,
      "step": 24091
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3903375267982483,
      "learning_rate": 0.0005003785107175555,
      "loss": 1.7325,
      "step": 24092
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3883616030216217,
      "learning_rate": 0.0005003707318636258,
      "loss": 1.734,
      "step": 24093
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3998633623123169,
      "learning_rate": 0.0005003629527664757,
      "loss": 1.728,
      "step": 24094
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3867906928062439,
      "learning_rate": 0.0005003551734261144,
      "loss": 1.6517,
      "step": 24095
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3876906931400299,
      "learning_rate": 0.0005003473938425515,
      "loss": 1.6564,
      "step": 24096
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3924800455570221,
      "learning_rate": 0.0005003396140157964,
      "loss": 1.6202,
      "step": 24097
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3968104124069214,
      "learning_rate": 0.0005003318339458585,
      "loss": 1.7497,
      "step": 24098
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40380311012268066,
      "learning_rate": 0.0005003240536327472,
      "loss": 1.6988,
      "step": 24099
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.382050484418869,
      "learning_rate": 0.0005003162730764721,
      "loss": 1.7024,
      "step": 24100
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4150893986225128,
      "learning_rate": 0.0005003084922770426,
      "loss": 1.6947,
      "step": 24101
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3959086835384369,
      "learning_rate": 0.000500300711234468,
      "loss": 1.6876,
      "step": 24102
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3924340605735779,
      "learning_rate": 0.0005002929299487579,
      "loss": 1.6839,
      "step": 24103
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40499186515808105,
      "learning_rate": 0.0005002851484199217,
      "loss": 1.7174,
      "step": 24104
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3988384008407593,
      "learning_rate": 0.0005002773666479687,
      "loss": 1.6754,
      "step": 24105
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3762887120246887,
      "learning_rate": 0.0005002695846329087,
      "loss": 1.7121,
      "step": 24106
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3808191418647766,
      "learning_rate": 0.0005002618023747508,
      "loss": 1.6177,
      "step": 24107
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38990601897239685,
      "learning_rate": 0.0005002540198735046,
      "loss": 1.6066,
      "step": 24108
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3930518627166748,
      "learning_rate": 0.0005002462371291797,
      "loss": 1.6844,
      "step": 24109
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40529125928878784,
      "learning_rate": 0.0005002384541417852,
      "loss": 1.6892,
      "step": 24110
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.37935250997543335,
      "learning_rate": 0.0005002306709113307,
      "loss": 1.7098,
      "step": 24111
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40264493227005005,
      "learning_rate": 0.0005002228874378258,
      "loss": 1.6842,
      "step": 24112
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3940503001213074,
      "learning_rate": 0.0005002151037212796,
      "loss": 1.6893,
      "step": 24113
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4008350670337677,
      "learning_rate": 0.0005002073197617019,
      "loss": 1.6614,
      "step": 24114
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38795456290245056,
      "learning_rate": 0.0005001995355591021,
      "loss": 1.7066,
      "step": 24115
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3835865557193756,
      "learning_rate": 0.0005001917511134895,
      "loss": 1.6623,
      "step": 24116
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38771387934684753,
      "learning_rate": 0.0005001839664248735,
      "loss": 1.6172,
      "step": 24117
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39770153164863586,
      "learning_rate": 0.0005001761814932637,
      "loss": 1.6761,
      "step": 24118
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4073110818862915,
      "learning_rate": 0.0005001683963186697,
      "loss": 1.695,
      "step": 24119
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3867650628089905,
      "learning_rate": 0.0005001606109011006,
      "loss": 1.7404,
      "step": 24120
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4061211943626404,
      "learning_rate": 0.000500152825240566,
      "loss": 1.6435,
      "step": 24121
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4035589396953583,
      "learning_rate": 0.0005001450393370754,
      "loss": 1.6982,
      "step": 24122
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40333518385887146,
      "learning_rate": 0.0005001372531906382,
      "loss": 1.6597,
      "step": 24123
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40058284997940063,
      "learning_rate": 0.0005001294668012639,
      "loss": 1.7635,
      "step": 24124
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3792590796947479,
      "learning_rate": 0.0005001216801689618,
      "loss": 1.6561,
      "step": 24125
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3901880085468292,
      "learning_rate": 0.0005001138932937415,
      "loss": 1.6922,
      "step": 24126
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4008599519729614,
      "learning_rate": 0.0005001061061756125,
      "loss": 1.6002,
      "step": 24127
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38901856541633606,
      "learning_rate": 0.0005000983188145841,
      "loss": 1.6671,
      "step": 24128
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3963034749031067,
      "learning_rate": 0.000500090531210666,
      "loss": 1.7257,
      "step": 24129
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.388164758682251,
      "learning_rate": 0.0005000827433638672,
      "loss": 1.7028,
      "step": 24130
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3823339343070984,
      "learning_rate": 0.0005000749552741976,
      "loss": 1.6327,
      "step": 24131
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3980141580104828,
      "learning_rate": 0.0005000671669416664,
      "loss": 1.745,
      "step": 24132
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3714175522327423,
      "learning_rate": 0.0005000593783662833,
      "loss": 1.6756,
      "step": 24133
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.378689169883728,
      "learning_rate": 0.0005000515895480575,
      "loss": 1.6714,
      "step": 24134
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3718640208244324,
      "learning_rate": 0.0005000438004869984,
      "loss": 1.5945,
      "step": 24135
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3844259977340698,
      "learning_rate": 0.0005000360111831158,
      "loss": 1.7433,
      "step": 24136
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3858376145362854,
      "learning_rate": 0.0005000282216364189,
      "loss": 1.6714,
      "step": 24137
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40186887979507446,
      "learning_rate": 0.0005000204318469172,
      "loss": 1.7077,
      "step": 24138
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3812480866909027,
      "learning_rate": 0.0005000126418146201,
      "loss": 1.632,
      "step": 24139
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38972312211990356,
      "learning_rate": 0.0005000048515395372,
      "loss": 1.6895,
      "step": 24140
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38838765025138855,
      "learning_rate": 0.0004999970610216779,
      "loss": 1.6666,
      "step": 24141
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39672359824180603,
      "learning_rate": 0.0004999892702610515,
      "loss": 1.6843,
      "step": 24142
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4020259380340576,
      "learning_rate": 0.0004999814792576678,
      "loss": 1.6624,
      "step": 24143
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39404919743537903,
      "learning_rate": 0.0004999736880115359,
      "loss": 1.7344,
      "step": 24144
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4161342978477478,
      "learning_rate": 0.0004999658965226655,
      "loss": 1.7882,
      "step": 24145
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40122532844543457,
      "learning_rate": 0.0004999581047910659,
      "loss": 1.6692,
      "step": 24146
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40497398376464844,
      "learning_rate": 0.0004999503128167467,
      "loss": 1.6822,
      "step": 24147
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3866594135761261,
      "learning_rate": 0.0004999425205997172,
      "loss": 1.7029,
      "step": 24148
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4079766869544983,
      "learning_rate": 0.0004999347281399869,
      "loss": 1.7771,
      "step": 24149
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39719805121421814,
      "learning_rate": 0.0004999269354375653,
      "loss": 1.6792,
      "step": 24150
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39980781078338623,
      "learning_rate": 0.000499919142492462,
      "loss": 1.6963,
      "step": 24151
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40797513723373413,
      "learning_rate": 0.0004999113493046862,
      "loss": 1.6902,
      "step": 24152
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.41087964177131653,
      "learning_rate": 0.0004999035558742475,
      "loss": 1.6514,
      "step": 24153
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40681958198547363,
      "learning_rate": 0.0004998957622011554,
      "loss": 1.707,
      "step": 24154
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4117039442062378,
      "learning_rate": 0.0004998879682854193,
      "loss": 1.6175,
      "step": 24155
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4107561409473419,
      "learning_rate": 0.0004998801741270486,
      "loss": 1.6833,
      "step": 24156
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39146339893341064,
      "learning_rate": 0.0004998723797260527,
      "loss": 1.68,
      "step": 24157
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3908865749835968,
      "learning_rate": 0.0004998645850824414,
      "loss": 1.6155,
      "step": 24158
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39628565311431885,
      "learning_rate": 0.0004998567901962238,
      "loss": 1.6581,
      "step": 24159
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40296265482902527,
      "learning_rate": 0.0004998489950674095,
      "loss": 1.6816,
      "step": 24160
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4194178283214569,
      "learning_rate": 0.0004998411996960081,
      "loss": 1.705,
      "step": 24161
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.41367197036743164,
      "learning_rate": 0.0004998334040820289,
      "loss": 1.6641,
      "step": 24162
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.41923996806144714,
      "learning_rate": 0.0004998256082254812,
      "loss": 1.6724,
      "step": 24163
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4105125367641449,
      "learning_rate": 0.0004998178121263749,
      "loss": 1.6775,
      "step": 24164
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4030718505382538,
      "learning_rate": 0.0004998100157847192,
      "loss": 1.7449,
      "step": 24165
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39426547288894653,
      "learning_rate": 0.0004998022192005234,
      "loss": 1.6862,
      "step": 24166
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.403802752494812,
      "learning_rate": 0.0004997944223737973,
      "loss": 1.7041,
      "step": 24167
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4076237380504608,
      "learning_rate": 0.0004997866253045501,
      "loss": 1.6565,
      "step": 24168
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6992166638374329,
      "learning_rate": 0.0004997788279927915,
      "loss": 1.7844,
      "step": 24169
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4273999035358429,
      "learning_rate": 0.0004997710304385307,
      "loss": 1.7238,
      "step": 24170
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4117946922779083,
      "learning_rate": 0.0004997632326417774,
      "loss": 1.6986,
      "step": 24171
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3935851454734802,
      "learning_rate": 0.000499755434602541,
      "loss": 1.6373,
      "step": 24172
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38903236389160156,
      "learning_rate": 0.0004997476363208308,
      "loss": 1.7901,
      "step": 24173
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40302392840385437,
      "learning_rate": 0.0004997398377966564,
      "loss": 1.638,
      "step": 24174
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.41248229146003723,
      "learning_rate": 0.0004997320390300274,
      "loss": 1.6744,
      "step": 24175
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3889887034893036,
      "learning_rate": 0.0004997242400209531,
      "loss": 1.7446,
      "step": 24176
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3996897041797638,
      "learning_rate": 0.000499716440769443,
      "loss": 1.693,
      "step": 24177
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4019329249858856,
      "learning_rate": 0.0004997086412755065,
      "loss": 1.6918,
      "step": 24178
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4069932699203491,
      "learning_rate": 0.0004997008415391532,
      "loss": 1.6304,
      "step": 24179
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3904488980770111,
      "learning_rate": 0.0004996930415603924,
      "loss": 1.6906,
      "step": 24180
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39137694239616394,
      "learning_rate": 0.0004996852413392338,
      "loss": 1.7358,
      "step": 24181
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3802109658718109,
      "learning_rate": 0.0004996774408756867,
      "loss": 1.7389,
      "step": 24182
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.40068578720092773,
      "learning_rate": 0.0004996696401697605,
      "loss": 1.6503,
      "step": 24183
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39125722646713257,
      "learning_rate": 0.000499661839221465,
      "loss": 1.6343,
      "step": 24184
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3886123597621918,
      "learning_rate": 0.0004996540380308093,
      "loss": 1.6579,
      "step": 24185
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39587369561195374,
      "learning_rate": 0.0004996462365978031,
      "loss": 1.6537,
      "step": 24186
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.44320788979530334,
      "learning_rate": 0.0004996384349224556,
      "loss": 1.7319,
      "step": 24187
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38317790627479553,
      "learning_rate": 0.0004996306330047766,
      "loss": 1.7094,
      "step": 24188
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3964807689189911,
      "learning_rate": 0.0004996228308447755,
      "loss": 1.7096,
      "step": 24189
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.393616259098053,
      "learning_rate": 0.0004996150284424615,
      "loss": 1.6978,
      "step": 24190
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.38733959197998047,
      "learning_rate": 0.0004996072257978444,
      "loss": 1.7375,
      "step": 24191
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39810094237327576,
      "learning_rate": 0.0004995994229109335,
      "loss": 1.6024,
      "step": 24192
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4185813367366791,
      "learning_rate": 0.0004995916197817384,
      "loss": 1.7021,
      "step": 24193
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.392194539308548,
      "learning_rate": 0.0004995838164102683,
      "loss": 1.5929,
      "step": 24194
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3915194272994995,
      "learning_rate": 0.000499576012796533,
      "loss": 1.6743,
      "step": 24195
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3844759166240692,
      "learning_rate": 0.0004995682089405418,
      "loss": 1.6973,
      "step": 24196
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39459511637687683,
      "learning_rate": 0.000499560404842304,
      "loss": 1.6604,
      "step": 24197
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38516268134117126,
      "learning_rate": 0.0004995526005018296,
      "loss": 1.6471,
      "step": 24198
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3879297971725464,
      "learning_rate": 0.0004995447959191276,
      "loss": 1.7291,
      "step": 24199
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3965221345424652,
      "learning_rate": 0.0004995369910942075,
      "loss": 1.6381,
      "step": 24200
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38236984610557556,
      "learning_rate": 0.0004995291860270791,
      "loss": 1.6494,
      "step": 24201
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38381290435791016,
      "learning_rate": 0.0004995213807177515,
      "loss": 1.6592,
      "step": 24202
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3745410144329071,
      "learning_rate": 0.0004995135751662345,
      "loss": 1.703,
      "step": 24203
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38691285252571106,
      "learning_rate": 0.0004995057693725373,
      "loss": 1.7061,
      "step": 24204
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3879105746746063,
      "learning_rate": 0.0004994979633366696,
      "loss": 1.6841,
      "step": 24205
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.386202335357666,
      "learning_rate": 0.0004994901570586406,
      "loss": 1.6606,
      "step": 24206
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.36716240644454956,
      "learning_rate": 0.0004994823505384601,
      "loss": 1.6078,
      "step": 24207
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37977778911590576,
      "learning_rate": 0.0004994745437761374,
      "loss": 1.6227,
      "step": 24208
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4037679433822632,
      "learning_rate": 0.0004994667367716819,
      "loss": 1.7123,
      "step": 24209
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3854013979434967,
      "learning_rate": 0.0004994589295251032,
      "loss": 1.6607,
      "step": 24210
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3808170258998871,
      "learning_rate": 0.0004994511220364107,
      "loss": 1.6745,
      "step": 24211
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3799815773963928,
      "learning_rate": 0.0004994433143056141,
      "loss": 1.6354,
      "step": 24212
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4028112292289734,
      "learning_rate": 0.0004994355063327226,
      "loss": 1.6879,
      "step": 24213
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3812854290008545,
      "learning_rate": 0.0004994276981177458,
      "loss": 1.5897,
      "step": 24214
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5047851204872131,
      "learning_rate": 0.0004994198896606931,
      "loss": 1.6278,
      "step": 24215
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39319121837615967,
      "learning_rate": 0.000499412080961574,
      "loss": 1.7059,
      "step": 24216
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40898486971855164,
      "learning_rate": 0.0004994042720203981,
      "loss": 1.6808,
      "step": 24217
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3868708610534668,
      "learning_rate": 0.0004993964628371748,
      "loss": 1.621,
      "step": 24218
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3872464895248413,
      "learning_rate": 0.0004993886534119136,
      "loss": 1.7275,
      "step": 24219
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3872074484825134,
      "learning_rate": 0.0004993808437446239,
      "loss": 1.6519,
      "step": 24220
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39222252368927,
      "learning_rate": 0.0004993730338353153,
      "loss": 1.7354,
      "step": 24221
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3865249752998352,
      "learning_rate": 0.0004993652236839971,
      "loss": 1.6607,
      "step": 24222
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3909429609775543,
      "learning_rate": 0.000499357413290679,
      "loss": 1.705,
      "step": 24223
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39025363326072693,
      "learning_rate": 0.0004993496026553702,
      "loss": 1.5835,
      "step": 24224
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3906404972076416,
      "learning_rate": 0.0004993417917780805,
      "loss": 1.6418,
      "step": 24225
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3816247582435608,
      "learning_rate": 0.0004993339806588193,
      "loss": 1.6386,
      "step": 24226
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3894597887992859,
      "learning_rate": 0.0004993261692975959,
      "loss": 1.6818,
      "step": 24227
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39790797233581543,
      "learning_rate": 0.0004993183576944199,
      "loss": 1.6303,
      "step": 24228
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40328189730644226,
      "learning_rate": 0.0004993105458493009,
      "loss": 1.6339,
      "step": 24229
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3870425522327423,
      "learning_rate": 0.0004993027337622482,
      "loss": 1.6971,
      "step": 24230
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3812447488307953,
      "learning_rate": 0.0004992949214332712,
      "loss": 1.6661,
      "step": 24231
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3951835632324219,
      "learning_rate": 0.0004992871088623798,
      "loss": 1.6639,
      "step": 24232
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3992179334163666,
      "learning_rate": 0.000499279296049583,
      "loss": 1.6569,
      "step": 24233
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3869680166244507,
      "learning_rate": 0.0004992714829948905,
      "loss": 1.6255,
      "step": 24234
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39417001605033875,
      "learning_rate": 0.0004992636696983119,
      "loss": 1.6614,
      "step": 24235
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39284831285476685,
      "learning_rate": 0.0004992558561598565,
      "loss": 1.7443,
      "step": 24236
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3865315616130829,
      "learning_rate": 0.0004992480423795339,
      "loss": 1.6656,
      "step": 24237
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3886694312095642,
      "learning_rate": 0.0004992402283573535,
      "loss": 1.6283,
      "step": 24238
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3891589939594269,
      "learning_rate": 0.0004992324140933248,
      "loss": 1.6559,
      "step": 24239
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39071252942085266,
      "learning_rate": 0.0004992245995874574,
      "loss": 1.7145,
      "step": 24240
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4083273112773895,
      "learning_rate": 0.0004992167848397606,
      "loss": 1.7942,
      "step": 24241
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38607579469680786,
      "learning_rate": 0.000499208969850244,
      "loss": 1.6728,
      "step": 24242
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3863792419433594,
      "learning_rate": 0.000499201154618917,
      "loss": 1.6776,
      "step": 24243
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38970133662223816,
      "learning_rate": 0.0004991933391457892,
      "loss": 1.7305,
      "step": 24244
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3913818597793579,
      "learning_rate": 0.00049918552343087,
      "loss": 1.6676,
      "step": 24245
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.376315712928772,
      "learning_rate": 0.000499177707474169,
      "loss": 1.628,
      "step": 24246
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39393994212150574,
      "learning_rate": 0.0004991698912756955,
      "loss": 1.6165,
      "step": 24247
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3940533995628357,
      "learning_rate": 0.0004991620748354593,
      "loss": 1.7733,
      "step": 24248
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3884356915950775,
      "learning_rate": 0.0004991542581534695,
      "loss": 1.6798,
      "step": 24249
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3858170211315155,
      "learning_rate": 0.0004991464412297358,
      "loss": 1.668,
      "step": 24250
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3881698548793793,
      "learning_rate": 0.0004991386240642677,
      "loss": 1.736,
      "step": 24251
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39799296855926514,
      "learning_rate": 0.0004991308066570747,
      "loss": 1.663,
      "step": 24252
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4029732048511505,
      "learning_rate": 0.0004991229890081662,
      "loss": 1.6546,
      "step": 24253
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38205626606941223,
      "learning_rate": 0.0004991151711175517,
      "loss": 1.6829,
      "step": 24254
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4044494330883026,
      "learning_rate": 0.0004991073529852408,
      "loss": 1.6439,
      "step": 24255
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4023275375366211,
      "learning_rate": 0.0004990995346112428,
      "loss": 1.7549,
      "step": 24256
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40017709136009216,
      "learning_rate": 0.0004990917159955673,
      "loss": 1.6967,
      "step": 24257
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38492366671562195,
      "learning_rate": 0.0004990838971382238,
      "loss": 1.695,
      "step": 24258
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4052586257457733,
      "learning_rate": 0.0004990760780392219,
      "loss": 1.7654,
      "step": 24259
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.398779034614563,
      "learning_rate": 0.0004990682586985709,
      "loss": 1.6456,
      "step": 24260
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41238293051719666,
      "learning_rate": 0.0004990604391162804,
      "loss": 1.6125,
      "step": 24261
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4166198670864105,
      "learning_rate": 0.0004990526192923597,
      "loss": 1.6777,
      "step": 24262
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3815816640853882,
      "learning_rate": 0.0004990447992268187,
      "loss": 1.6338,
      "step": 24263
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.392793208360672,
      "learning_rate": 0.0004990369789196665,
      "loss": 1.6955,
      "step": 24264
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3974028527736664,
      "learning_rate": 0.0004990291583709127,
      "loss": 1.7581,
      "step": 24265
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4017714858055115,
      "learning_rate": 0.0004990213375805669,
      "loss": 1.7294,
      "step": 24266
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4022483825683594,
      "learning_rate": 0.0004990135165486385,
      "loss": 1.745,
      "step": 24267
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4756734073162079,
      "learning_rate": 0.000499005695275137,
      "loss": 1.7049,
      "step": 24268
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3825927674770355,
      "learning_rate": 0.0004989978737600719,
      "loss": 1.6272,
      "step": 24269
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39090773463249207,
      "learning_rate": 0.0004989900520034527,
      "loss": 1.7412,
      "step": 24270
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4105027914047241,
      "learning_rate": 0.0004989822300052889,
      "loss": 1.7297,
      "step": 24271
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39033207297325134,
      "learning_rate": 0.0004989744077655901,
      "loss": 1.7194,
      "step": 24272
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4015018045902252,
      "learning_rate": 0.0004989665852843656,
      "loss": 1.6707,
      "step": 24273
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39612945914268494,
      "learning_rate": 0.0004989587625616249,
      "loss": 1.595,
      "step": 24274
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39053094387054443,
      "learning_rate": 0.0004989509395973776,
      "loss": 1.692,
      "step": 24275
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3883800506591797,
      "learning_rate": 0.0004989431163916333,
      "loss": 1.6884,
      "step": 24276
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3949495553970337,
      "learning_rate": 0.0004989352929444013,
      "loss": 1.6725,
      "step": 24277
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3910113573074341,
      "learning_rate": 0.0004989274692556912,
      "loss": 1.686,
      "step": 24278
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3763280510902405,
      "learning_rate": 0.0004989196453255123,
      "loss": 1.6958,
      "step": 24279
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40697386860847473,
      "learning_rate": 0.0004989118211538745,
      "loss": 1.674,
      "step": 24280
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3924652934074402,
      "learning_rate": 0.0004989039967407869,
      "loss": 1.6626,
      "step": 24281
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3827909529209137,
      "learning_rate": 0.0004988961720862593,
      "loss": 1.6432,
      "step": 24282
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38323065638542175,
      "learning_rate": 0.0004988883471903009,
      "loss": 1.6548,
      "step": 24283
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.386301189661026,
      "learning_rate": 0.0004988805220529213,
      "loss": 1.7007,
      "step": 24284
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39450880885124207,
      "learning_rate": 0.0004988726966741302,
      "loss": 1.6727,
      "step": 24285
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39302733540534973,
      "learning_rate": 0.0004988648710539369,
      "loss": 1.6795,
      "step": 24286
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39758408069610596,
      "learning_rate": 0.000498857045192351,
      "loss": 1.6515,
      "step": 24287
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3951632082462311,
      "learning_rate": 0.0004988492190893818,
      "loss": 1.6903,
      "step": 24288
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3891902565956116,
      "learning_rate": 0.000498841392745039,
      "loss": 1.7944,
      "step": 24289
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3906055688858032,
      "learning_rate": 0.0004988335661593322,
      "loss": 1.6825,
      "step": 24290
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3911995589733124,
      "learning_rate": 0.0004988257393322707,
      "loss": 1.6828,
      "step": 24291
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38354790210723877,
      "learning_rate": 0.000498817912263864,
      "loss": 1.7011,
      "step": 24292
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3854306936264038,
      "learning_rate": 0.0004988100849541216,
      "loss": 1.6519,
      "step": 24293
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37789076566696167,
      "learning_rate": 0.0004988022574030531,
      "loss": 1.7045,
      "step": 24294
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39340248703956604,
      "learning_rate": 0.0004987944296106679,
      "loss": 1.6405,
      "step": 24295
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.380526065826416,
      "learning_rate": 0.0004987866015769756,
      "loss": 1.7067,
      "step": 24296
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38684263825416565,
      "learning_rate": 0.0004987787733019857,
      "loss": 1.6251,
      "step": 24297
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40185627341270447,
      "learning_rate": 0.0004987709447857075,
      "loss": 1.6952,
      "step": 24298
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3832034468650818,
      "learning_rate": 0.0004987631160281508,
      "loss": 1.6789,
      "step": 24299
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3869946300983429,
      "learning_rate": 0.0004987552870293248,
      "loss": 1.6668,
      "step": 24300
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3890795111656189,
      "learning_rate": 0.0004987474577892394,
      "loss": 1.7113,
      "step": 24301
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3725156784057617,
      "learning_rate": 0.0004987396283079037,
      "loss": 1.6296,
      "step": 24302
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39226219058036804,
      "learning_rate": 0.0004987317985853275,
      "loss": 1.6793,
      "step": 24303
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3937542736530304,
      "learning_rate": 0.0004987239686215201,
      "loss": 1.6663,
      "step": 24304
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38311755657196045,
      "learning_rate": 0.0004987161384164911,
      "loss": 1.6412,
      "step": 24305
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3764302432537079,
      "learning_rate": 0.00049870830797025,
      "loss": 1.6745,
      "step": 24306
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39710402488708496,
      "learning_rate": 0.0004987004772828063,
      "loss": 1.6965,
      "step": 24307
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37482568621635437,
      "learning_rate": 0.0004986926463541694,
      "loss": 1.7317,
      "step": 24308
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3897756040096283,
      "learning_rate": 0.0004986848151843491,
      "loss": 1.7134,
      "step": 24309
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39255401492118835,
      "learning_rate": 0.0004986769837733545,
      "loss": 1.7061,
      "step": 24310
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3899705111980438,
      "learning_rate": 0.0004986691521211955,
      "loss": 1.6352,
      "step": 24311
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.380066454410553,
      "learning_rate": 0.0004986613202278812,
      "loss": 1.6903,
      "step": 24312
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39017215371131897,
      "learning_rate": 0.0004986534880934215,
      "loss": 1.6556,
      "step": 24313
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38324421644210815,
      "learning_rate": 0.0004986456557178257,
      "loss": 1.6283,
      "step": 24314
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3930068910121918,
      "learning_rate": 0.0004986378231011034,
      "loss": 1.6921,
      "step": 24315
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41144534945487976,
      "learning_rate": 0.0004986299902432639,
      "loss": 1.7443,
      "step": 24316
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38346391916275024,
      "learning_rate": 0.000498622157144317,
      "loss": 1.6618,
      "step": 24317
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3824382722377777,
      "learning_rate": 0.000498614323804272,
      "loss": 1.7384,
      "step": 24318
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38432109355926514,
      "learning_rate": 0.0004986064902231384,
      "loss": 1.6294,
      "step": 24319
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3746080994606018,
      "learning_rate": 0.000498598656400926,
      "loss": 1.6989,
      "step": 24320
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38674771785736084,
      "learning_rate": 0.0004985908223376439,
      "loss": 1.7138,
      "step": 24321
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39443477988243103,
      "learning_rate": 0.0004985829880333018,
      "loss": 1.6317,
      "step": 24322
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3898266553878784,
      "learning_rate": 0.0004985751534879094,
      "loss": 1.7141,
      "step": 24323
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4039264917373657,
      "learning_rate": 0.0004985673187014759,
      "loss": 1.7042,
      "step": 24324
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38205042481422424,
      "learning_rate": 0.0004985594836740109,
      "loss": 1.6738,
      "step": 24325
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3985658884048462,
      "learning_rate": 0.0004985516484055239,
      "loss": 1.7808,
      "step": 24326
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3925424814224243,
      "learning_rate": 0.0004985438128960246,
      "loss": 1.6196,
      "step": 24327
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38604360818862915,
      "learning_rate": 0.0004985359771455223,
      "loss": 1.6638,
      "step": 24328
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39792346954345703,
      "learning_rate": 0.0004985281411540264,
      "loss": 1.7962,
      "step": 24329
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3910523056983948,
      "learning_rate": 0.0004985203049215469,
      "loss": 1.6694,
      "step": 24330
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39628538489341736,
      "learning_rate": 0.0004985124684480929,
      "loss": 1.7073,
      "step": 24331
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3885846436023712,
      "learning_rate": 0.0004985046317336739,
      "loss": 1.7697,
      "step": 24332
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.385623961687088,
      "learning_rate": 0.0004984967947782997,
      "loss": 1.6404,
      "step": 24333
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38536685705184937,
      "learning_rate": 0.0004984889575819795,
      "loss": 1.6796,
      "step": 24334
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39769986271858215,
      "learning_rate": 0.0004984811201447229,
      "loss": 1.6715,
      "step": 24335
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3987506031990051,
      "learning_rate": 0.0004984732824665396,
      "loss": 1.6857,
      "step": 24336
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39350512623786926,
      "learning_rate": 0.0004984654445474389,
      "loss": 1.6929,
      "step": 24337
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4059711992740631,
      "learning_rate": 0.0004984576063874305,
      "loss": 1.7203,
      "step": 24338
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39262205362319946,
      "learning_rate": 0.0004984497679865238,
      "loss": 1.694,
      "step": 24339
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40794986486434937,
      "learning_rate": 0.0004984419293447281,
      "loss": 1.6784,
      "step": 24340
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3985710144042969,
      "learning_rate": 0.0004984340904620534,
      "loss": 1.7123,
      "step": 24341
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4029046893119812,
      "learning_rate": 0.0004984262513385088,
      "loss": 1.6928,
      "step": 24342
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3979891836643219,
      "learning_rate": 0.000498418411974104,
      "loss": 1.6109,
      "step": 24343
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41469696164131165,
      "learning_rate": 0.0004984105723688485,
      "loss": 1.7185,
      "step": 24344
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9287121891975403,
      "learning_rate": 0.0004984027325227518,
      "loss": 1.7473,
      "step": 24345
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3960488736629486,
      "learning_rate": 0.0004983948924358234,
      "loss": 1.6379,
      "step": 24346
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39147037267684937,
      "learning_rate": 0.0004983870521080728,
      "loss": 1.634,
      "step": 24347
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.412826269865036,
      "learning_rate": 0.0004983792115395096,
      "loss": 1.6636,
      "step": 24348
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41764914989471436,
      "learning_rate": 0.0004983713707301433,
      "loss": 1.6627,
      "step": 24349
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37480512261390686,
      "learning_rate": 0.0004983635296799833,
      "loss": 1.6582,
      "step": 24350
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40834084153175354,
      "learning_rate": 0.0004983556883890393,
      "loss": 1.7071,
      "step": 24351
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3932541608810425,
      "learning_rate": 0.0004983478468573206,
      "loss": 1.6678,
      "step": 24352
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4087643325328827,
      "learning_rate": 0.000498340005084837,
      "loss": 1.7167,
      "step": 24353
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3868841826915741,
      "learning_rate": 0.0004983321630715977,
      "loss": 1.7274,
      "step": 24354
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38828977942466736,
      "learning_rate": 0.0004983243208176125,
      "loss": 1.6665,
      "step": 24355
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4111909568309784,
      "learning_rate": 0.0004983164783228907,
      "loss": 1.6344,
      "step": 24356
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3892359733581543,
      "learning_rate": 0.0004983086355874419,
      "loss": 1.7008,
      "step": 24357
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4015277326107025,
      "learning_rate": 0.0004983007926112758,
      "loss": 1.725,
      "step": 24358
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39097893238067627,
      "learning_rate": 0.0004982929493944015,
      "loss": 1.6478,
      "step": 24359
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41226720809936523,
      "learning_rate": 0.000498285105936829,
      "loss": 1.7272,
      "step": 24360
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.403881698846817,
      "learning_rate": 0.0004982772622385674,
      "loss": 1.7085,
      "step": 24361
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39059630036354065,
      "learning_rate": 0.0004982694182996267,
      "loss": 1.6224,
      "step": 24362
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41718557476997375,
      "learning_rate": 0.0004982615741200159,
      "loss": 1.6843,
      "step": 24363
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38965198397636414,
      "learning_rate": 0.0004982537296997448,
      "loss": 1.696,
      "step": 24364
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3877590000629425,
      "learning_rate": 0.000498245885038823,
      "loss": 1.6132,
      "step": 24365
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3738250732421875,
      "learning_rate": 0.0004982380401372597,
      "loss": 1.6802,
      "step": 24366
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38911929726600647,
      "learning_rate": 0.0004982301949950648,
      "loss": 1.6384,
      "step": 24367
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4118291139602661,
      "learning_rate": 0.0004982223496122477,
      "loss": 1.6585,
      "step": 24368
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41231998801231384,
      "learning_rate": 0.0004982145039888177,
      "loss": 1.6686,
      "step": 24369
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38440051674842834,
      "learning_rate": 0.0004982066581247847,
      "loss": 1.6713,
      "step": 24370
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3975418508052826,
      "learning_rate": 0.0004981988120201579,
      "loss": 1.7348,
      "step": 24371
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4042506217956543,
      "learning_rate": 0.0004981909656749468,
      "loss": 1.6977,
      "step": 24372
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3972744047641754,
      "learning_rate": 0.0004981831190891613,
      "loss": 1.7131,
      "step": 24373
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39425599575042725,
      "learning_rate": 0.0004981752722628106,
      "loss": 1.7162,
      "step": 24374
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39829158782958984,
      "learning_rate": 0.0004981674251959043,
      "loss": 1.6759,
      "step": 24375
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4012637734413147,
      "learning_rate": 0.000498159577888452,
      "loss": 1.6558,
      "step": 24376
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39296287298202515,
      "learning_rate": 0.0004981517303404631,
      "loss": 1.6656,
      "step": 24377
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3814116418361664,
      "learning_rate": 0.0004981438825519473,
      "loss": 1.627,
      "step": 24378
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38876089453697205,
      "learning_rate": 0.000498136034522914,
      "loss": 1.6655,
      "step": 24379
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4108025133609772,
      "learning_rate": 0.0004981281862533727,
      "loss": 1.7137,
      "step": 24380
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3960025906562805,
      "learning_rate": 0.0004981203377433329,
      "loss": 1.6371,
      "step": 24381
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38250288367271423,
      "learning_rate": 0.0004981124889928044,
      "loss": 1.6855,
      "step": 24382
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3914582431316376,
      "learning_rate": 0.0004981046400017963,
      "loss": 1.7061,
      "step": 24383
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4157527983188629,
      "learning_rate": 0.0004980967907703184,
      "loss": 1.6871,
      "step": 24384
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38053715229034424,
      "learning_rate": 0.0004980889412983803,
      "loss": 1.7062,
      "step": 24385
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37989503145217896,
      "learning_rate": 0.0004980810915859914,
      "loss": 1.695,
      "step": 24386
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3776654601097107,
      "learning_rate": 0.0004980732416331612,
      "loss": 1.6892,
      "step": 24387
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38852986693382263,
      "learning_rate": 0.0004980653914398993,
      "loss": 1.6514,
      "step": 24388
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38109704852104187,
      "learning_rate": 0.0004980575410062151,
      "loss": 1.6945,
      "step": 24389
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3839634656906128,
      "learning_rate": 0.0004980496903321184,
      "loss": 1.6102,
      "step": 24390
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40157318115234375,
      "learning_rate": 0.0004980418394176184,
      "loss": 1.6529,
      "step": 24391
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4052926301956177,
      "learning_rate": 0.0004980339882627248,
      "loss": 1.7144,
      "step": 24392
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38266268372535706,
      "learning_rate": 0.0004980261368674473,
      "loss": 1.6696,
      "step": 24393
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38825103640556335,
      "learning_rate": 0.000498018285231795,
      "loss": 1.7283,
      "step": 24394
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38435980677604675,
      "learning_rate": 0.0004980104333557778,
      "loss": 1.6936,
      "step": 24395
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39106690883636475,
      "learning_rate": 0.0004980025812394051,
      "loss": 1.7019,
      "step": 24396
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.377279669046402,
      "learning_rate": 0.0004979947288826864,
      "loss": 1.6781,
      "step": 24397
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3932825028896332,
      "learning_rate": 0.0004979868762856315,
      "loss": 1.6022,
      "step": 24398
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40579983592033386,
      "learning_rate": 0.0004979790234482494,
      "loss": 1.6313,
      "step": 24399
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40422821044921875,
      "learning_rate": 0.00049797117037055,
      "loss": 1.6444,
      "step": 24400
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40475162863731384,
      "learning_rate": 0.0004979633170525429,
      "loss": 1.7159,
      "step": 24401
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40242740511894226,
      "learning_rate": 0.0004979554634942374,
      "loss": 1.6963,
      "step": 24402
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.410062700510025,
      "learning_rate": 0.0004979476096956431,
      "loss": 1.6761,
      "step": 24403
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3943672776222229,
      "learning_rate": 0.0004979397556567697,
      "loss": 1.6864,
      "step": 24404
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39193108677864075,
      "learning_rate": 0.0004979319013776265,
      "loss": 1.6374,
      "step": 24405
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39363354444503784,
      "learning_rate": 0.0004979240468582232,
      "loss": 1.6683,
      "step": 24406
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41685813665390015,
      "learning_rate": 0.0004979161920985692,
      "loss": 1.7292,
      "step": 24407
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3764753043651581,
      "learning_rate": 0.0004979083370986742,
      "loss": 1.6617,
      "step": 24408
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3874533176422119,
      "learning_rate": 0.0004979004818585474,
      "loss": 1.5951,
      "step": 24409
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39739683270454407,
      "learning_rate": 0.0004978926263781989,
      "loss": 1.6698,
      "step": 24410
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39617305994033813,
      "learning_rate": 0.0004978847706576377,
      "loss": 1.6735,
      "step": 24411
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39876338839530945,
      "learning_rate": 0.0004978769146968737,
      "loss": 1.763,
      "step": 24412
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4170365333557129,
      "learning_rate": 0.0004978690584959162,
      "loss": 1.689,
      "step": 24413
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4109123647212982,
      "learning_rate": 0.0004978612020547748,
      "loss": 1.6881,
      "step": 24414
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37826207280158997,
      "learning_rate": 0.000497853345373459,
      "loss": 1.6632,
      "step": 24415
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38820087909698486,
      "learning_rate": 0.0004978454884519784,
      "loss": 1.6965,
      "step": 24416
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39339280128479004,
      "learning_rate": 0.0004978376312903426,
      "loss": 1.6291,
      "step": 24417
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3973468244075775,
      "learning_rate": 0.0004978297738885611,
      "loss": 1.6682,
      "step": 24418
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38509994745254517,
      "learning_rate": 0.0004978219162466433,
      "loss": 1.6185,
      "step": 24419
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38395553827285767,
      "learning_rate": 0.0004978140583645988,
      "loss": 1.571,
      "step": 24420
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3955221176147461,
      "learning_rate": 0.0004978062002424374,
      "loss": 1.6988,
      "step": 24421
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39214131236076355,
      "learning_rate": 0.0004977983418801682,
      "loss": 1.6135,
      "step": 24422
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3976721465587616,
      "learning_rate": 0.000497790483277801,
      "loss": 1.7775,
      "step": 24423
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3964534103870392,
      "learning_rate": 0.0004977826244353454,
      "loss": 1.6216,
      "step": 24424
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4115675985813141,
      "learning_rate": 0.0004977747653528108,
      "loss": 1.7132,
      "step": 24425
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40292826294898987,
      "learning_rate": 0.0004977669060302068,
      "loss": 1.6746,
      "step": 24426
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3790968656539917,
      "learning_rate": 0.0004977590464675429,
      "loss": 1.618,
      "step": 24427
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39481255412101746,
      "learning_rate": 0.0004977511866648286,
      "loss": 1.7202,
      "step": 24428
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39973944425582886,
      "learning_rate": 0.0004977433266220734,
      "loss": 1.5945,
      "step": 24429
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40232133865356445,
      "learning_rate": 0.0004977354663392872,
      "loss": 1.6661,
      "step": 24430
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3901009261608124,
      "learning_rate": 0.000497727605816479,
      "loss": 1.6515,
      "step": 24431
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38947808742523193,
      "learning_rate": 0.0004977197450536588,
      "loss": 1.6578,
      "step": 24432
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4106467366218567,
      "learning_rate": 0.000497711884050836,
      "loss": 1.6495,
      "step": 24433
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3806866705417633,
      "learning_rate": 0.00049770402280802,
      "loss": 1.7376,
      "step": 24434
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4054541289806366,
      "learning_rate": 0.0004976961613252205,
      "loss": 1.7019,
      "step": 24435
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3781737685203552,
      "learning_rate": 0.0004976882996024468,
      "loss": 1.6403,
      "step": 24436
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39958396553993225,
      "learning_rate": 0.0004976804376397089,
      "loss": 1.7479,
      "step": 24437
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4150274693965912,
      "learning_rate": 0.0004976725754370161,
      "loss": 1.7231,
      "step": 24438
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3906118869781494,
      "learning_rate": 0.0004976647129943776,
      "loss": 1.6743,
      "step": 24439
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39260485768318176,
      "learning_rate": 0.0004976568503118035,
      "loss": 1.6894,
      "step": 24440
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39904433488845825,
      "learning_rate": 0.0004976489873893031,
      "loss": 1.6916,
      "step": 24441
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40503326058387756,
      "learning_rate": 0.0004976411242268859,
      "loss": 1.7358,
      "step": 24442
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40951570868492126,
      "learning_rate": 0.0004976332608245614,
      "loss": 1.6589,
      "step": 24443
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3935818672180176,
      "learning_rate": 0.0004976253971823393,
      "loss": 1.737,
      "step": 24444
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3852768540382385,
      "learning_rate": 0.0004976175333002292,
      "loss": 1.6804,
      "step": 24445
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.404437392950058,
      "learning_rate": 0.0004976096691782405,
      "loss": 1.7679,
      "step": 24446
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.407316118478775,
      "learning_rate": 0.0004976018048163827,
      "loss": 1.6809,
      "step": 24447
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39072364568710327,
      "learning_rate": 0.0004975939402146655,
      "loss": 1.6456,
      "step": 24448
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38391488790512085,
      "learning_rate": 0.0004975860753730983,
      "loss": 1.5884,
      "step": 24449
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39853179454803467,
      "learning_rate": 0.0004975782102916908,
      "loss": 1.6085,
      "step": 24450
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4172445833683014,
      "learning_rate": 0.0004975703449704524,
      "loss": 1.8111,
      "step": 24451
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4068635404109955,
      "learning_rate": 0.0004975624794093928,
      "loss": 1.7431,
      "step": 24452
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3868076801300049,
      "learning_rate": 0.0004975546136085213,
      "loss": 1.6683,
      "step": 24453
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39543354511260986,
      "learning_rate": 0.0004975467475678478,
      "loss": 1.7555,
      "step": 24454
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39443835616111755,
      "learning_rate": 0.0004975388812873815,
      "loss": 1.7338,
      "step": 24455
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4107647240161896,
      "learning_rate": 0.0004975310147671321,
      "loss": 1.6891,
      "step": 24456
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3858748972415924,
      "learning_rate": 0.0004975231480071092,
      "loss": 1.6384,
      "step": 24457
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3878324329853058,
      "learning_rate": 0.0004975152810073224,
      "loss": 1.7395,
      "step": 24458
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41021567583084106,
      "learning_rate": 0.000497507413767781,
      "loss": 1.6168,
      "step": 24459
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39497193694114685,
      "learning_rate": 0.0004974995462884948,
      "loss": 1.7059,
      "step": 24460
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3908732831478119,
      "learning_rate": 0.0004974916785694732,
      "loss": 1.7034,
      "step": 24461
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3885219395160675,
      "learning_rate": 0.0004974838106107258,
      "loss": 1.6955,
      "step": 24462
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40608036518096924,
      "learning_rate": 0.0004974759424122621,
      "loss": 1.6187,
      "step": 24463
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3954385817050934,
      "learning_rate": 0.0004974680739740919,
      "loss": 1.6982,
      "step": 24464
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3948751986026764,
      "learning_rate": 0.0004974602052962244,
      "loss": 1.7046,
      "step": 24465
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3977088928222656,
      "learning_rate": 0.0004974523363786693,
      "loss": 1.7732,
      "step": 24466
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3847406804561615,
      "learning_rate": 0.0004974444672214361,
      "loss": 1.709,
      "step": 24467
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3870268166065216,
      "learning_rate": 0.0004974365978245345,
      "loss": 1.6648,
      "step": 24468
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38904881477355957,
      "learning_rate": 0.0004974287281879741,
      "loss": 1.719,
      "step": 24469
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3884260058403015,
      "learning_rate": 0.0004974208583117642,
      "loss": 1.6833,
      "step": 24470
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3843120336532593,
      "learning_rate": 0.0004974129881959143,
      "loss": 1.6627,
      "step": 24471
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40016135573387146,
      "learning_rate": 0.0004974051178404343,
      "loss": 1.6436,
      "step": 24472
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38863810896873474,
      "learning_rate": 0.0004973972472453335,
      "loss": 1.67,
      "step": 24473
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39832624793052673,
      "learning_rate": 0.0004973893764106216,
      "loss": 1.6472,
      "step": 24474
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3885815441608429,
      "learning_rate": 0.000497381505336308,
      "loss": 1.6882,
      "step": 24475
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37097522616386414,
      "learning_rate": 0.0004973736340224024,
      "loss": 1.6549,
      "step": 24476
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4008663296699524,
      "learning_rate": 0.0004973657624689142,
      "loss": 1.7048,
      "step": 24477
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4011043310165405,
      "learning_rate": 0.0004973578906758531,
      "loss": 1.6713,
      "step": 24478
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3910383880138397,
      "learning_rate": 0.0004973500186432287,
      "loss": 1.6685,
      "step": 24479
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40517568588256836,
      "learning_rate": 0.0004973421463710504,
      "loss": 1.6703,
      "step": 24480
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.390844464302063,
      "learning_rate": 0.0004973342738593277,
      "loss": 1.6805,
      "step": 24481
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3881527781486511,
      "learning_rate": 0.0004973264011080703,
      "loss": 1.6618,
      "step": 24482
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4108169972896576,
      "learning_rate": 0.0004973185281172878,
      "loss": 1.6376,
      "step": 24483
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38465532660484314,
      "learning_rate": 0.0004973106548869897,
      "loss": 1.6714,
      "step": 24484
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3933090269565582,
      "learning_rate": 0.0004973027814171854,
      "loss": 1.6389,
      "step": 24485
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3877485394477844,
      "learning_rate": 0.0004972949077078848,
      "loss": 1.5913,
      "step": 24486
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.39137017726898193,
      "learning_rate": 0.0004972870337590971,
      "loss": 1.6764,
      "step": 24487
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40293267369270325,
      "learning_rate": 0.000497279159570832,
      "loss": 1.6135,
      "step": 24488
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.42517390847206116,
      "learning_rate": 0.0004972712851430991,
      "loss": 1.7384,
      "step": 24489
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.41174739599227905,
      "learning_rate": 0.000497263410475908,
      "loss": 1.6884,
      "step": 24490
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3917742967605591,
      "learning_rate": 0.000497255535569268,
      "loss": 1.5954,
      "step": 24491
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.403919517993927,
      "learning_rate": 0.000497247660423189,
      "loss": 1.6385,
      "step": 24492
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.40734899044036865,
      "learning_rate": 0.0004972397850376804,
      "loss": 1.6897,
      "step": 24493
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3947316110134125,
      "learning_rate": 0.0004972319094127517,
      "loss": 1.6347,
      "step": 24494
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3994377851486206,
      "learning_rate": 0.0004972240335484125,
      "loss": 1.5702,
      "step": 24495
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3820618689060211,
      "learning_rate": 0.0004972161574446725,
      "loss": 1.6856,
      "step": 24496
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38954758644104004,
      "learning_rate": 0.0004972082811015411,
      "loss": 1.664,
      "step": 24497
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4080980122089386,
      "learning_rate": 0.0004972004045190278,
      "loss": 1.7092,
      "step": 24498
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4041503369808197,
      "learning_rate": 0.0004971925276971424,
      "loss": 1.6864,
      "step": 24499
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38225752115249634,
      "learning_rate": 0.0004971846506358944,
      "loss": 1.6958,
      "step": 24500
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3864209055900574,
      "learning_rate": 0.000497176773335293,
      "loss": 1.6102,
      "step": 24501
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4036884009838104,
      "learning_rate": 0.0004971688957953484,
      "loss": 1.7524,
      "step": 24502
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3941378891468048,
      "learning_rate": 0.0004971610180160695,
      "loss": 1.6891,
      "step": 24503
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3921023905277252,
      "learning_rate": 0.0004971531399974664,
      "loss": 1.6931,
      "step": 24504
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37902969121932983,
      "learning_rate": 0.0004971452617395483,
      "loss": 1.7289,
      "step": 24505
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39809662103652954,
      "learning_rate": 0.0004971373832423248,
      "loss": 1.7665,
      "step": 24506
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38410431146621704,
      "learning_rate": 0.0004971295045058059,
      "loss": 1.5864,
      "step": 24507
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38187915086746216,
      "learning_rate": 0.0004971216255300004,
      "loss": 1.7059,
      "step": 24508
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3791990280151367,
      "learning_rate": 0.0004971137463149186,
      "loss": 1.6931,
      "step": 24509
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4056088328361511,
      "learning_rate": 0.0004971058668605697,
      "loss": 1.6951,
      "step": 24510
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39925557374954224,
      "learning_rate": 0.0004970979871669634,
      "loss": 1.6969,
      "step": 24511
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39338088035583496,
      "learning_rate": 0.0004970901072341089,
      "loss": 1.7123,
      "step": 24512
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.380230188369751,
      "learning_rate": 0.0004970822270620163,
      "loss": 1.6106,
      "step": 24513
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39960286021232605,
      "learning_rate": 0.0004970743466506949,
      "loss": 1.6253,
      "step": 24514
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38425004482269287,
      "learning_rate": 0.0004970664660001542,
      "loss": 1.6616,
      "step": 24515
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39054054021835327,
      "learning_rate": 0.0004970585851104038,
      "loss": 1.6908,
      "step": 24516
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3811853528022766,
      "learning_rate": 0.0004970507039814534,
      "loss": 1.6825,
      "step": 24517
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3927009403705597,
      "learning_rate": 0.0004970428226133125,
      "loss": 1.7639,
      "step": 24518
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38678431510925293,
      "learning_rate": 0.0004970349410059905,
      "loss": 1.5562,
      "step": 24519
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4150000512599945,
      "learning_rate": 0.0004970270591594973,
      "loss": 1.7471,
      "step": 24520
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4488495886325836,
      "learning_rate": 0.0004970191770738423,
      "loss": 1.7111,
      "step": 24521
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39277759194374084,
      "learning_rate": 0.0004970112947490349,
      "loss": 1.6308,
      "step": 24522
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39827844500541687,
      "learning_rate": 0.0004970034121850848,
      "loss": 1.5856,
      "step": 24523
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3999216854572296,
      "learning_rate": 0.0004969955293820016,
      "loss": 1.7047,
      "step": 24524
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3832515776157379,
      "learning_rate": 0.000496987646339795,
      "loss": 1.6683,
      "step": 24525
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4018796384334564,
      "learning_rate": 0.0004969797630584742,
      "loss": 1.6901,
      "step": 24526
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4073373079299927,
      "learning_rate": 0.0004969718795380493,
      "loss": 1.7021,
      "step": 24527
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3997299075126648,
      "learning_rate": 0.0004969639957785293,
      "loss": 1.645,
      "step": 24528
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39475128054618835,
      "learning_rate": 0.0004969561117799241,
      "loss": 1.6921,
      "step": 24529
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4122660756111145,
      "learning_rate": 0.0004969482275422432,
      "loss": 1.7132,
      "step": 24530
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39700350165367126,
      "learning_rate": 0.0004969403430654962,
      "loss": 1.7025,
      "step": 24531
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38661301136016846,
      "learning_rate": 0.0004969324583496927,
      "loss": 1.6885,
      "step": 24532
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40228569507598877,
      "learning_rate": 0.0004969245733948421,
      "loss": 1.7131,
      "step": 24533
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39440253376960754,
      "learning_rate": 0.000496916688200954,
      "loss": 1.6717,
      "step": 24534
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.42292582988739014,
      "learning_rate": 0.0004969088027680382,
      "loss": 1.7836,
      "step": 24535
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3908420205116272,
      "learning_rate": 0.0004969009170961041,
      "loss": 1.7318,
      "step": 24536
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.391189843416214,
      "learning_rate": 0.0004968930311851613,
      "loss": 1.6482,
      "step": 24537
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3801116347312927,
      "learning_rate": 0.0004968851450352194,
      "loss": 1.6927,
      "step": 24538
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38879337906837463,
      "learning_rate": 0.0004968772586462879,
      "loss": 1.7081,
      "step": 24539
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4094364643096924,
      "learning_rate": 0.0004968693720183764,
      "loss": 1.6721,
      "step": 24540
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.41181209683418274,
      "learning_rate": 0.0004968614851514945,
      "loss": 1.6534,
      "step": 24541
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3926878571510315,
      "learning_rate": 0.0004968535980456519,
      "loss": 1.6398,
      "step": 24542
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39638155698776245,
      "learning_rate": 0.0004968457107008579,
      "loss": 1.6294,
      "step": 24543
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3909868001937866,
      "learning_rate": 0.0004968378231171222,
      "loss": 1.662,
      "step": 24544
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4027878940105438,
      "learning_rate": 0.0004968299352944545,
      "loss": 1.6185,
      "step": 24545
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3922957181930542,
      "learning_rate": 0.0004968220472328641,
      "loss": 1.6502,
      "step": 24546
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4084821939468384,
      "learning_rate": 0.0004968141589323608,
      "loss": 1.7379,
      "step": 24547
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40730977058410645,
      "learning_rate": 0.000496806270392954,
      "loss": 1.6942,
      "step": 24548
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4037986993789673,
      "learning_rate": 0.0004967983816146536,
      "loss": 1.6122,
      "step": 24549
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.381340354681015,
      "learning_rate": 0.0004967904925974689,
      "loss": 1.6574,
      "step": 24550
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.41193872690200806,
      "learning_rate": 0.0004967826033414095,
      "loss": 1.7178,
      "step": 24551
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.41633227467536926,
      "learning_rate": 0.0004967747138464851,
      "loss": 1.6349,
      "step": 24552
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39479348063468933,
      "learning_rate": 0.0004967668241127051,
      "loss": 1.6523,
      "step": 24553
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3870326280593872,
      "learning_rate": 0.0004967589341400791,
      "loss": 1.7043,
      "step": 24554
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3891259729862213,
      "learning_rate": 0.0004967510439286168,
      "loss": 1.6376,
      "step": 24555
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.581293523311615,
      "learning_rate": 0.0004967431534783278,
      "loss": 1.7536,
      "step": 24556
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3974374830722809,
      "learning_rate": 0.0004967352627892216,
      "loss": 1.7235,
      "step": 24557
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4036364257335663,
      "learning_rate": 0.0004967273718613077,
      "loss": 1.6934,
      "step": 24558
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3941889703273773,
      "learning_rate": 0.0004967194806945957,
      "loss": 1.6931,
      "step": 24559
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38492879271507263,
      "learning_rate": 0.0004967115892890953,
      "loss": 1.7185,
      "step": 24560
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3902546763420105,
      "learning_rate": 0.0004967036976448161,
      "loss": 1.6437,
      "step": 24561
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39127016067504883,
      "learning_rate": 0.0004966958057617675,
      "loss": 1.6746,
      "step": 24562
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38416191935539246,
      "learning_rate": 0.0004966879136399593,
      "loss": 1.6367,
      "step": 24563
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38700562715530396,
      "learning_rate": 0.0004966800212794008,
      "loss": 1.7146,
      "step": 24564
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3968184292316437,
      "learning_rate": 0.0004966721286801017,
      "loss": 1.7259,
      "step": 24565
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3884127736091614,
      "learning_rate": 0.0004966642358420717,
      "loss": 1.7079,
      "step": 24566
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3909657299518585,
      "learning_rate": 0.0004966563427653204,
      "loss": 1.6645,
      "step": 24567
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37842559814453125,
      "learning_rate": 0.0004966484494498571,
      "loss": 1.6656,
      "step": 24568
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38529887795448303,
      "learning_rate": 0.0004966405558956916,
      "loss": 1.6639,
      "step": 24569
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4083471894264221,
      "learning_rate": 0.0004966326621028335,
      "loss": 1.651,
      "step": 24570
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5680141448974609,
      "learning_rate": 0.0004966247680712923,
      "loss": 1.6379,
      "step": 24571
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38309523463249207,
      "learning_rate": 0.0004966168738010776,
      "loss": 1.607,
      "step": 24572
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4059852659702301,
      "learning_rate": 0.000496608979292199,
      "loss": 1.6678,
      "step": 24573
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38771891593933105,
      "learning_rate": 0.0004966010845446659,
      "loss": 1.6691,
      "step": 24574
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4028359055519104,
      "learning_rate": 0.0004965931895584883,
      "loss": 1.6819,
      "step": 24575
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40610891580581665,
      "learning_rate": 0.0004965852943336754,
      "loss": 1.7354,
      "step": 24576
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39376839995384216,
      "learning_rate": 0.000496577398870237,
      "loss": 1.613,
      "step": 24577
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38548794388771057,
      "learning_rate": 0.0004965695031681826,
      "loss": 1.7551,
      "step": 24578
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40655556321144104,
      "learning_rate": 0.0004965616072275216,
      "loss": 1.6945,
      "step": 24579
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37920182943344116,
      "learning_rate": 0.0004965537110482639,
      "loss": 1.654,
      "step": 24580
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.382846474647522,
      "learning_rate": 0.000496545814630419,
      "loss": 1.7351,
      "step": 24581
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3922937512397766,
      "learning_rate": 0.0004965379179739964,
      "loss": 1.676,
      "step": 24582
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3871922194957733,
      "learning_rate": 0.0004965300210790057,
      "loss": 1.7075,
      "step": 24583
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40345075726509094,
      "learning_rate": 0.0004965221239454567,
      "loss": 1.7545,
      "step": 24584
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38709911704063416,
      "learning_rate": 0.0004965142265733586,
      "loss": 1.6557,
      "step": 24585
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3947009742259979,
      "learning_rate": 0.0004965063289627212,
      "loss": 1.671,
      "step": 24586
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3822475075721741,
      "learning_rate": 0.0004964984311135541,
      "loss": 1.7002,
      "step": 24587
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.381782591342926,
      "learning_rate": 0.0004964905330258668,
      "loss": 1.6438,
      "step": 24588
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3984558582305908,
      "learning_rate": 0.000496482634699669,
      "loss": 1.6706,
      "step": 24589
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4174538254737854,
      "learning_rate": 0.0004964747361349703,
      "loss": 1.6684,
      "step": 24590
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40888530015945435,
      "learning_rate": 0.0004964668373317801,
      "loss": 1.7165,
      "step": 24591
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3916761875152588,
      "learning_rate": 0.0004964589382901081,
      "loss": 1.668,
      "step": 24592
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40732163190841675,
      "learning_rate": 0.000496451039009964,
      "loss": 1.6737,
      "step": 24593
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3844991624355316,
      "learning_rate": 0.0004964431394913572,
      "loss": 1.6584,
      "step": 24594
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38969606161117554,
      "learning_rate": 0.0004964352397342974,
      "loss": 1.7293,
      "step": 24595
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39379197359085083,
      "learning_rate": 0.0004964273397387942,
      "loss": 1.692,
      "step": 24596
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3994975984096527,
      "learning_rate": 0.0004964194395048571,
      "loss": 1.6569,
      "step": 24597
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39631104469299316,
      "learning_rate": 0.0004964115390324958,
      "loss": 1.6415,
      "step": 24598
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38947758078575134,
      "learning_rate": 0.0004964036383217198,
      "loss": 1.6746,
      "step": 24599
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3903746008872986,
      "learning_rate": 0.0004963957373725386,
      "loss": 1.6573,
      "step": 24600
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39178672432899475,
      "learning_rate": 0.0004963878361849621,
      "loss": 1.7231,
      "step": 24601
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38979506492614746,
      "learning_rate": 0.0004963799347589997,
      "loss": 1.72,
      "step": 24602
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4019019603729248,
      "learning_rate": 0.0004963720330946608,
      "loss": 1.7487,
      "step": 24603
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38675200939178467,
      "learning_rate": 0.0004963641311919554,
      "loss": 1.6513,
      "step": 24604
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40935471653938293,
      "learning_rate": 0.0004963562290508928,
      "loss": 1.6758,
      "step": 24605
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3909480571746826,
      "learning_rate": 0.0004963483266714826,
      "loss": 1.6993,
      "step": 24606
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3996873199939728,
      "learning_rate": 0.0004963404240537346,
      "loss": 1.6997,
      "step": 24607
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40146932005882263,
      "learning_rate": 0.0004963325211976581,
      "loss": 1.6234,
      "step": 24608
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4050006866455078,
      "learning_rate": 0.0004963246181032629,
      "loss": 1.6804,
      "step": 24609
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3966391086578369,
      "learning_rate": 0.0004963167147705586,
      "loss": 1.7445,
      "step": 24610
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3898252248764038,
      "learning_rate": 0.0004963088111995547,
      "loss": 1.6707,
      "step": 24611
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39316749572753906,
      "learning_rate": 0.0004963009073902609,
      "loss": 1.6557,
      "step": 24612
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3938198387622833,
      "learning_rate": 0.0004962930033426866,
      "loss": 1.6429,
      "step": 24613
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3987632095813751,
      "learning_rate": 0.0004962850990568416,
      "loss": 1.6809,
      "step": 24614
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39112117886543274,
      "learning_rate": 0.0004962771945327352,
      "loss": 1.5996,
      "step": 24615
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3978843092918396,
      "learning_rate": 0.0004962692897703775,
      "loss": 1.6359,
      "step": 24616
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40051743388175964,
      "learning_rate": 0.0004962613847697777,
      "loss": 1.6467,
      "step": 24617
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3908167779445648,
      "learning_rate": 0.0004962534795309455,
      "loss": 1.6036,
      "step": 24618
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3747707009315491,
      "learning_rate": 0.0004962455740538906,
      "loss": 1.6791,
      "step": 24619
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40865978598594666,
      "learning_rate": 0.0004962376683386223,
      "loss": 1.6895,
      "step": 24620
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40889889001846313,
      "learning_rate": 0.0004962297623851504,
      "loss": 1.6952,
      "step": 24621
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3825817108154297,
      "learning_rate": 0.0004962218561934845,
      "loss": 1.6294,
      "step": 24622
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38515588641166687,
      "learning_rate": 0.0004962139497636342,
      "loss": 1.6187,
      "step": 24623
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.41404297947883606,
      "learning_rate": 0.0004962060430956091,
      "loss": 1.7228,
      "step": 24624
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38727492094039917,
      "learning_rate": 0.0004961981361894187,
      "loss": 1.6113,
      "step": 24625
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39023223519325256,
      "learning_rate": 0.0004961902290450728,
      "loss": 1.6589,
      "step": 24626
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4137961268424988,
      "learning_rate": 0.0004961823216625808,
      "loss": 1.6751,
      "step": 24627
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3985109031200409,
      "learning_rate": 0.0004961744140419524,
      "loss": 1.7155,
      "step": 24628
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3879097104072571,
      "learning_rate": 0.0004961665061831971,
      "loss": 1.6387,
      "step": 24629
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40318503975868225,
      "learning_rate": 0.0004961585980863245,
      "loss": 1.7079,
      "step": 24630
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38124752044677734,
      "learning_rate": 0.0004961506897513445,
      "loss": 1.651,
      "step": 24631
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4126778542995453,
      "learning_rate": 0.0004961427811782663,
      "loss": 1.7087,
      "step": 24632
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4122674763202667,
      "learning_rate": 0.0004961348723670996,
      "loss": 1.6649,
      "step": 24633
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38956189155578613,
      "learning_rate": 0.0004961269633178541,
      "loss": 1.6225,
      "step": 24634
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.386268675327301,
      "learning_rate": 0.0004961190540305394,
      "loss": 1.6004,
      "step": 24635
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38289904594421387,
      "learning_rate": 0.0004961111445051651,
      "loss": 1.7144,
      "step": 24636
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38770636916160583,
      "learning_rate": 0.0004961032347417408,
      "loss": 1.7294,
      "step": 24637
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3920126259326935,
      "learning_rate": 0.000496095324740276,
      "loss": 1.7178,
      "step": 24638
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40823909640312195,
      "learning_rate": 0.0004960874145007805,
      "loss": 1.6368,
      "step": 24639
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4098573625087738,
      "learning_rate": 0.0004960795040232635,
      "loss": 1.6893,
      "step": 24640
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3983675241470337,
      "learning_rate": 0.0004960715933077351,
      "loss": 1.7325,
      "step": 24641
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38849788904190063,
      "learning_rate": 0.0004960636823542045,
      "loss": 1.693,
      "step": 24642
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4043017625808716,
      "learning_rate": 0.0004960557711626816,
      "loss": 1.7197,
      "step": 24643
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4000155031681061,
      "learning_rate": 0.0004960478597331759,
      "loss": 1.6873,
      "step": 24644
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39664503931999207,
      "learning_rate": 0.000496039948065697,
      "loss": 1.6624,
      "step": 24645
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3915274441242218,
      "learning_rate": 0.0004960320361602545,
      "loss": 1.667,
      "step": 24646
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4036252498626709,
      "learning_rate": 0.0004960241240168578,
      "loss": 1.6652,
      "step": 24647
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3887079954147339,
      "learning_rate": 0.0004960162116355169,
      "loss": 1.638,
      "step": 24648
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3968595862388611,
      "learning_rate": 0.0004960082990162411,
      "loss": 1.6605,
      "step": 24649
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3891156017780304,
      "learning_rate": 0.0004960003861590401,
      "loss": 1.7899,
      "step": 24650
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40776434540748596,
      "learning_rate": 0.0004959924730639235,
      "loss": 1.7138,
      "step": 24651
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39412206411361694,
      "learning_rate": 0.000495984559730901,
      "loss": 1.6861,
      "step": 24652
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40209975838661194,
      "learning_rate": 0.0004959766461599822,
      "loss": 1.6919,
      "step": 24653
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3881075084209442,
      "learning_rate": 0.0004959687323511764,
      "loss": 1.6872,
      "step": 24654
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.41310474276542664,
      "learning_rate": 0.0004959608183044935,
      "loss": 1.71,
      "step": 24655
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3965431749820709,
      "learning_rate": 0.000495952904019943,
      "loss": 1.7327,
      "step": 24656
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3850696086883545,
      "learning_rate": 0.0004959449894975348,
      "loss": 1.7045,
      "step": 24657
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40359631180763245,
      "learning_rate": 0.000495937074737278,
      "loss": 1.6293,
      "step": 24658
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38896188139915466,
      "learning_rate": 0.0004959291597391826,
      "loss": 1.6885,
      "step": 24659
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4222853481769562,
      "learning_rate": 0.000495921244503258,
      "loss": 1.7263,
      "step": 24660
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40300416946411133,
      "learning_rate": 0.0004959133290295138,
      "loss": 1.7034,
      "step": 24661
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38490015268325806,
      "learning_rate": 0.0004959054133179599,
      "loss": 1.634,
      "step": 24662
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.389804869890213,
      "learning_rate": 0.0004958974973686054,
      "loss": 1.6927,
      "step": 24663
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4193502962589264,
      "learning_rate": 0.0004958895811814605,
      "loss": 1.6752,
      "step": 24664
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3839424252510071,
      "learning_rate": 0.0004958816647565343,
      "loss": 1.6955,
      "step": 24665
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3942170739173889,
      "learning_rate": 0.0004958737480938367,
      "loss": 1.7224,
      "step": 24666
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38318324089050293,
      "learning_rate": 0.0004958658311933772,
      "loss": 1.659,
      "step": 24667
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3926791846752167,
      "learning_rate": 0.0004958579140551655,
      "loss": 1.6216,
      "step": 24668
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3816172182559967,
      "learning_rate": 0.0004958499966792112,
      "loss": 1.68,
      "step": 24669
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39422908425331116,
      "learning_rate": 0.0004958420790655237,
      "loss": 1.6929,
      "step": 24670
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40170931816101074,
      "learning_rate": 0.0004958341612141129,
      "loss": 1.6539,
      "step": 24671
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38479334115982056,
      "learning_rate": 0.0004958262431249882,
      "loss": 1.6081,
      "step": 24672
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3987021744251251,
      "learning_rate": 0.0004958183247981594,
      "loss": 1.7115,
      "step": 24673
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.391899973154068,
      "learning_rate": 0.0004958104062336359,
      "loss": 1.706,
      "step": 24674
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39838001132011414,
      "learning_rate": 0.0004958024874314275,
      "loss": 1.6557,
      "step": 24675
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3945014178752899,
      "learning_rate": 0.0004957945683915436,
      "loss": 1.654,
      "step": 24676
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3828927278518677,
      "learning_rate": 0.000495786649113994,
      "loss": 1.6957,
      "step": 24677
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3883730471134186,
      "learning_rate": 0.0004957787295987884,
      "loss": 1.6686,
      "step": 24678
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.565163254737854,
      "learning_rate": 0.0004957708098459361,
      "loss": 1.7051,
      "step": 24679
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38993093371391296,
      "learning_rate": 0.0004957628898554469,
      "loss": 1.6848,
      "step": 24680
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3919987976551056,
      "learning_rate": 0.0004957549696273305,
      "loss": 1.6628,
      "step": 24681
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4006540775299072,
      "learning_rate": 0.0004957470491615963,
      "loss": 1.697,
      "step": 24682
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3985742926597595,
      "learning_rate": 0.000495739128458254,
      "loss": 1.7089,
      "step": 24683
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4122261106967926,
      "learning_rate": 0.0004957312075173134,
      "loss": 1.7056,
      "step": 24684
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37545454502105713,
      "learning_rate": 0.0004957232863387838,
      "loss": 1.7285,
      "step": 24685
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4001375734806061,
      "learning_rate": 0.0004957153649226751,
      "loss": 1.7135,
      "step": 24686
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39696335792541504,
      "learning_rate": 0.0004957074432689968,
      "loss": 1.7885,
      "step": 24687
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40576088428497314,
      "learning_rate": 0.0004956995213777583,
      "loss": 1.7717,
      "step": 24688
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3893072307109833,
      "learning_rate": 0.0004956915992489696,
      "loss": 1.7205,
      "step": 24689
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3966370224952698,
      "learning_rate": 0.0004956836768826399,
      "loss": 1.7709,
      "step": 24690
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39348769187927246,
      "learning_rate": 0.0004956757542787793,
      "loss": 1.6951,
      "step": 24691
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.404958575963974,
      "learning_rate": 0.0004956678314373971,
      "loss": 1.7107,
      "step": 24692
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39389580488204956,
      "learning_rate": 0.000495659908358503,
      "loss": 1.6463,
      "step": 24693
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38652047514915466,
      "learning_rate": 0.0004956519850421065,
      "loss": 1.6444,
      "step": 24694
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3907117247581482,
      "learning_rate": 0.0004956440614882173,
      "loss": 1.6264,
      "step": 24695
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39234665036201477,
      "learning_rate": 0.0004956361376968452,
      "loss": 1.6709,
      "step": 24696
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4078667163848877,
      "learning_rate": 0.0004956282136679994,
      "loss": 1.6945,
      "step": 24697
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40439873933792114,
      "learning_rate": 0.0004956202894016901,
      "loss": 1.6481,
      "step": 24698
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4253915250301361,
      "learning_rate": 0.0004956123648979264,
      "loss": 1.7267,
      "step": 24699
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3845817446708679,
      "learning_rate": 0.0004956044401567181,
      "loss": 1.7653,
      "step": 24700
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3956468999385834,
      "learning_rate": 0.000495596515178075,
      "loss": 1.61,
      "step": 24701
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.41130682826042175,
      "learning_rate": 0.0004955885899620064,
      "loss": 1.6871,
      "step": 24702
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3996514678001404,
      "learning_rate": 0.0004955806645085221,
      "loss": 1.7338,
      "step": 24703
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38012784719467163,
      "learning_rate": 0.0004955727388176316,
      "loss": 1.6116,
      "step": 24704
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38421711325645447,
      "learning_rate": 0.0004955648128893447,
      "loss": 1.6988,
      "step": 24705
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8798888921737671,
      "learning_rate": 0.000495556886723671,
      "loss": 1.7164,
      "step": 24706
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.398589164018631,
      "learning_rate": 0.0004955489603206199,
      "loss": 1.6573,
      "step": 24707
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39421960711479187,
      "learning_rate": 0.0004955410336802013,
      "loss": 1.6921,
      "step": 24708
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4046356976032257,
      "learning_rate": 0.0004955331068024247,
      "loss": 1.6999,
      "step": 24709
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38521307706832886,
      "learning_rate": 0.0004955251796872996,
      "loss": 1.6306,
      "step": 24710
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3831033706665039,
      "learning_rate": 0.0004955172523348359,
      "loss": 1.6982,
      "step": 24711
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39616337418556213,
      "learning_rate": 0.0004955093247450429,
      "loss": 1.7277,
      "step": 24712
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3950546383857727,
      "learning_rate": 0.0004955013969179305,
      "loss": 1.6645,
      "step": 24713
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3896748125553131,
      "learning_rate": 0.0004954934688535082,
      "loss": 1.6441,
      "step": 24714
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37939193844795227,
      "learning_rate": 0.0004954855405517856,
      "loss": 1.7315,
      "step": 24715
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39429736137390137,
      "learning_rate": 0.0004954776120127723,
      "loss": 1.7009,
      "step": 24716
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39073359966278076,
      "learning_rate": 0.000495469683236478,
      "loss": 1.6996,
      "step": 24717
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39893415570259094,
      "learning_rate": 0.0004954617542229124,
      "loss": 1.7231,
      "step": 24718
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39394015073776245,
      "learning_rate": 0.000495453824972085,
      "loss": 1.6993,
      "step": 24719
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38247039914131165,
      "learning_rate": 0.0004954458954840054,
      "loss": 1.6733,
      "step": 24720
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3927175998687744,
      "learning_rate": 0.0004954379657586834,
      "loss": 1.6654,
      "step": 24721
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39529651403427124,
      "learning_rate": 0.0004954300357961284,
      "loss": 1.6123,
      "step": 24722
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3992938995361328,
      "learning_rate": 0.0004954221055963502,
      "loss": 1.6531,
      "step": 24723
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3937039077281952,
      "learning_rate": 0.0004954141751593584,
      "loss": 1.6487,
      "step": 24724
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39621636271476746,
      "learning_rate": 0.0004954062444851624,
      "loss": 1.7224,
      "step": 24725
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4026327133178711,
      "learning_rate": 0.0004953983135737721,
      "loss": 1.7224,
      "step": 24726
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3880344033241272,
      "learning_rate": 0.000495390382425197,
      "loss": 1.6255,
      "step": 24727
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3821879029273987,
      "learning_rate": 0.0004953824510394468,
      "loss": 1.6593,
      "step": 24728
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3960929214954376,
      "learning_rate": 0.0004953745194165311,
      "loss": 1.6578,
      "step": 24729
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3967609405517578,
      "learning_rate": 0.0004953665875564596,
      "loss": 1.6551,
      "step": 24730
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5518319606781006,
      "learning_rate": 0.0004953586554592418,
      "loss": 1.7755,
      "step": 24731
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3862963914871216,
      "learning_rate": 0.0004953507231248873,
      "loss": 1.6591,
      "step": 24732
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4173756539821625,
      "learning_rate": 0.0004953427905534058,
      "loss": 1.6938,
      "step": 24733
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4025576412677765,
      "learning_rate": 0.000495334857744807,
      "loss": 1.6708,
      "step": 24734
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3906368613243103,
      "learning_rate": 0.0004953269246991004,
      "loss": 1.6362,
      "step": 24735
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40227431058883667,
      "learning_rate": 0.0004953189914162959,
      "loss": 1.7743,
      "step": 24736
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40405330061912537,
      "learning_rate": 0.0004953110578964027,
      "loss": 1.6762,
      "step": 24737
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38757601380348206,
      "learning_rate": 0.0004953031241394308,
      "loss": 1.736,
      "step": 24738
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.400885671377182,
      "learning_rate": 0.0004952951901453895,
      "loss": 1.6766,
      "step": 24739
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4198692739009857,
      "learning_rate": 0.0004952872559142887,
      "loss": 1.7294,
      "step": 24740
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4118580222129822,
      "learning_rate": 0.000495279321446138,
      "loss": 1.6421,
      "step": 24741
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4142507016658783,
      "learning_rate": 0.0004952713867409469,
      "loss": 1.6891,
      "step": 24742
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.388262003660202,
      "learning_rate": 0.0004952634517987252,
      "loss": 1.6643,
      "step": 24743
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3985252380371094,
      "learning_rate": 0.0004952555166194824,
      "loss": 1.6615,
      "step": 24744
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3916240632534027,
      "learning_rate": 0.0004952475812032282,
      "loss": 1.6507,
      "step": 24745
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40971413254737854,
      "learning_rate": 0.0004952396455499722,
      "loss": 1.6329,
      "step": 24746
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4084269106388092,
      "learning_rate": 0.0004952317096597239,
      "loss": 1.651,
      "step": 24747
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39474087953567505,
      "learning_rate": 0.0004952237735324932,
      "loss": 1.6737,
      "step": 24748
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39044642448425293,
      "learning_rate": 0.0004952158371682897,
      "loss": 1.7063,
      "step": 24749
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3929753303527832,
      "learning_rate": 0.0004952079005671227,
      "loss": 1.7287,
      "step": 24750
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.4044329524040222,
      "learning_rate": 0.0004951999637290022,
      "loss": 1.6485,
      "step": 24751
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3910972476005554,
      "learning_rate": 0.0004951920266539377,
      "loss": 1.6679,
      "step": 24752
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.378877192735672,
      "learning_rate": 0.0004951840893419389,
      "loss": 1.6849,
      "step": 24753
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3845099210739136,
      "learning_rate": 0.0004951761517930153,
      "loss": 1.6576,
      "step": 24754
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3897404968738556,
      "learning_rate": 0.0004951682140071766,
      "loss": 1.6647,
      "step": 24755
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3899060785770416,
      "learning_rate": 0.0004951602759844326,
      "loss": 1.7118,
      "step": 24756
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3852706849575043,
      "learning_rate": 0.0004951523377247925,
      "loss": 1.7101,
      "step": 24757
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.40729865431785583,
      "learning_rate": 0.0004951443992282664,
      "loss": 1.7033,
      "step": 24758
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38661453127861023,
      "learning_rate": 0.0004951364604948638,
      "loss": 1.6338,
      "step": 24759
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3967699408531189,
      "learning_rate": 0.0004951285215245942,
      "loss": 1.6644,
      "step": 24760
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39844658970832825,
      "learning_rate": 0.0004951205823174672,
      "loss": 1.6877,
      "step": 24761
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38416922092437744,
      "learning_rate": 0.0004951126428734927,
      "loss": 1.6554,
      "step": 24762
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.43995681405067444,
      "learning_rate": 0.0004951047031926803,
      "loss": 1.6868,
      "step": 24763
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3915938436985016,
      "learning_rate": 0.0004950967632750394,
      "loss": 1.6731,
      "step": 24764
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39538249373435974,
      "learning_rate": 0.0004950888231205798,
      "loss": 1.8058,
      "step": 24765
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39260175824165344,
      "learning_rate": 0.0004950808827293112,
      "loss": 1.6047,
      "step": 24766
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3986034393310547,
      "learning_rate": 0.000495072942101243,
      "loss": 1.7378,
      "step": 24767
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.391918420791626,
      "learning_rate": 0.0004950650012363851,
      "loss": 1.7289,
      "step": 24768
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3790937662124634,
      "learning_rate": 0.0004950570601347469,
      "loss": 1.6883,
      "step": 24769
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3919280171394348,
      "learning_rate": 0.0004950491187963383,
      "loss": 1.7172,
      "step": 24770
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.394467830657959,
      "learning_rate": 0.0004950411772211687,
      "loss": 1.6758,
      "step": 24771
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3935728371143341,
      "learning_rate": 0.000495033235409248,
      "loss": 1.6837,
      "step": 24772
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3916383683681488,
      "learning_rate": 0.0004950252933605856,
      "loss": 1.7017,
      "step": 24773
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.396224707365036,
      "learning_rate": 0.0004950173510751912,
      "loss": 1.7068,
      "step": 24774
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8552327156066895,
      "learning_rate": 0.0004950094085530745,
      "loss": 1.67,
      "step": 24775
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3796914517879486,
      "learning_rate": 0.0004950014657942452,
      "loss": 1.7043,
      "step": 24776
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3956119120121002,
      "learning_rate": 0.0004949935227987127,
      "loss": 1.6718,
      "step": 24777
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38511648774147034,
      "learning_rate": 0.0004949855795664869,
      "loss": 1.6528,
      "step": 24778
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37935149669647217,
      "learning_rate": 0.0004949776360975773,
      "loss": 1.6881,
      "step": 24779
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39010947942733765,
      "learning_rate": 0.0004949696923919936,
      "loss": 1.5648,
      "step": 24780
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37892478704452515,
      "learning_rate": 0.0004949617484497455,
      "loss": 1.729,
      "step": 24781
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.43172839283943176,
      "learning_rate": 0.0004949538042708423,
      "loss": 1.7366,
      "step": 24782
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3948901295661926,
      "learning_rate": 0.0004949458598552942,
      "loss": 1.6624,
      "step": 24783
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3960111141204834,
      "learning_rate": 0.0004949379152031104,
      "loss": 1.6169,
      "step": 24784
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.387999564409256,
      "learning_rate": 0.0004949299703143007,
      "loss": 1.6208,
      "step": 24785
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39470988512039185,
      "learning_rate": 0.0004949220251888748,
      "loss": 1.6426,
      "step": 24786
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3882197439670563,
      "learning_rate": 0.0004949140798268421,
      "loss": 1.721,
      "step": 24787
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38327255845069885,
      "learning_rate": 0.0004949061342282127,
      "loss": 1.6423,
      "step": 24788
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3851833939552307,
      "learning_rate": 0.0004948981883929958,
      "loss": 1.7606,
      "step": 24789
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38500210642814636,
      "learning_rate": 0.0004948902423212013,
      "loss": 1.6704,
      "step": 24790
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.38377198576927185,
      "learning_rate": 0.0004948822960128386,
      "loss": 1.6149,
      "step": 24791
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3956754803657532,
      "learning_rate": 0.0004948743494679177,
      "loss": 1.7222,
      "step": 24792
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.37669482827186584,
      "learning_rate": 0.0004948664026864479,
      "loss": 1.719,
      "step": 24793
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3912656903266907,
      "learning_rate": 0.0004948584556684391,
      "loss": 1.7064,
      "step": 24794
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3875029981136322,
      "learning_rate": 0.0004948505084139008,
      "loss": 1.6373,
      "step": 24795
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3761332035064697,
      "learning_rate": 0.0004948425609228427,
      "loss": 1.6963,
      "step": 24796
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39504194259643555,
      "learning_rate": 0.0004948346131952745,
      "loss": 1.6128,
      "step": 24797
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38390782475471497,
      "learning_rate": 0.0004948266652312057,
      "loss": 1.5875,
      "step": 24798
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3860664665699005,
      "learning_rate": 0.0004948187170306462,
      "loss": 1.6944,
      "step": 24799
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3923184275627136,
      "learning_rate": 0.0004948107685936053,
      "loss": 1.6298,
      "step": 24800
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.391622930765152,
      "learning_rate": 0.0004948028199200929,
      "loss": 1.6828,
      "step": 24801
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3913514018058777,
      "learning_rate": 0.0004947948710101185,
      "loss": 1.6969,
      "step": 24802
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.390397846698761,
      "learning_rate": 0.0004947869218636919,
      "loss": 1.6426,
      "step": 24803
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4050685465335846,
      "learning_rate": 0.0004947789724808227,
      "loss": 1.6697,
      "step": 24804
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.45005881786346436,
      "learning_rate": 0.0004947710228615205,
      "loss": 1.651,
      "step": 24805
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.392314076423645,
      "learning_rate": 0.0004947630730057949,
      "loss": 1.7433,
      "step": 24806
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4159919023513794,
      "learning_rate": 0.0004947551229136558,
      "loss": 1.7093,
      "step": 24807
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3865078091621399,
      "learning_rate": 0.0004947471725851125,
      "loss": 1.6823,
      "step": 24808
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39336350560188293,
      "learning_rate": 0.0004947392220201748,
      "loss": 1.714,
      "step": 24809
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39692962169647217,
      "learning_rate": 0.0004947312712188526,
      "loss": 1.6184,
      "step": 24810
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4006808400154114,
      "learning_rate": 0.0004947233201811552,
      "loss": 1.6762,
      "step": 24811
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39975014328956604,
      "learning_rate": 0.0004947153689070924,
      "loss": 1.6667,
      "step": 24812
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39311113953590393,
      "learning_rate": 0.0004947074173966738,
      "loss": 1.7207,
      "step": 24813
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38733991980552673,
      "learning_rate": 0.0004946994656499091,
      "loss": 1.6912,
      "step": 24814
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3982989192008972,
      "learning_rate": 0.0004946915136668079,
      "loss": 1.7038,
      "step": 24815
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39901626110076904,
      "learning_rate": 0.00049468356144738,
      "loss": 1.669,
      "step": 24816
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4136194586753845,
      "learning_rate": 0.0004946756089916349,
      "loss": 1.6152,
      "step": 24817
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3853897154331207,
      "learning_rate": 0.0004946676562995822,
      "loss": 1.671,
      "step": 24818
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38857752084732056,
      "learning_rate": 0.0004946597033712318,
      "loss": 1.7231,
      "step": 24819
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3913783133029938,
      "learning_rate": 0.0004946517502065931,
      "loss": 1.6541,
      "step": 24820
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3914414346218109,
      "learning_rate": 0.0004946437968056758,
      "loss": 1.7538,
      "step": 24821
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38402822613716125,
      "learning_rate": 0.0004946358431684897,
      "loss": 1.6527,
      "step": 24822
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3863966763019562,
      "learning_rate": 0.0004946278892950444,
      "loss": 1.6403,
      "step": 24823
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38651973009109497,
      "learning_rate": 0.0004946199351853494,
      "loss": 1.7184,
      "step": 24824
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3977496325969696,
      "learning_rate": 0.0004946119808394146,
      "loss": 1.7138,
      "step": 24825
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37973496317863464,
      "learning_rate": 0.0004946040262572495,
      "loss": 1.7813,
      "step": 24826
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3780946135520935,
      "learning_rate": 0.0004945960714388638,
      "loss": 1.6318,
      "step": 24827
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3813902735710144,
      "learning_rate": 0.000494588116384267,
      "loss": 1.6223,
      "step": 24828
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4048346281051636,
      "learning_rate": 0.000494580161093469,
      "loss": 1.6713,
      "step": 24829
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3850173354148865,
      "learning_rate": 0.0004945722055664794,
      "loss": 1.586,
      "step": 24830
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4035649299621582,
      "learning_rate": 0.0004945642498033078,
      "loss": 1.7003,
      "step": 24831
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4124448895454407,
      "learning_rate": 0.0004945562938039637,
      "loss": 1.6688,
      "step": 24832
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3907615840435028,
      "learning_rate": 0.0004945483375684572,
      "loss": 1.7285,
      "step": 24833
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39582449197769165,
      "learning_rate": 0.0004945403810967975,
      "loss": 1.6107,
      "step": 24834
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39941805601119995,
      "learning_rate": 0.0004945324243889944,
      "loss": 1.6036,
      "step": 24835
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40138405561447144,
      "learning_rate": 0.0004945244674450577,
      "loss": 1.7621,
      "step": 24836
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4131869077682495,
      "learning_rate": 0.000494516510264997,
      "loss": 1.696,
      "step": 24837
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39329445362091064,
      "learning_rate": 0.0004945085528488218,
      "loss": 1.5978,
      "step": 24838
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40583232045173645,
      "learning_rate": 0.0004945005951965419,
      "loss": 1.6516,
      "step": 24839
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3958855867385864,
      "learning_rate": 0.0004944926373081671,
      "loss": 1.6564,
      "step": 24840
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3756136894226074,
      "learning_rate": 0.0004944846791837068,
      "loss": 1.6832,
      "step": 24841
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37967532873153687,
      "learning_rate": 0.0004944767208231707,
      "loss": 1.643,
      "step": 24842
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3793776035308838,
      "learning_rate": 0.0004944687622265684,
      "loss": 1.6358,
      "step": 24843
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.42349156737327576,
      "learning_rate": 0.0004944608033939098,
      "loss": 1.6743,
      "step": 24844
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3860005736351013,
      "learning_rate": 0.0004944528443252045,
      "loss": 1.5971,
      "step": 24845
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39662283658981323,
      "learning_rate": 0.0004944448850204621,
      "loss": 1.6331,
      "step": 24846
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40587371587753296,
      "learning_rate": 0.0004944369254796921,
      "loss": 1.7114,
      "step": 24847
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40125399827957153,
      "learning_rate": 0.0004944289657029046,
      "loss": 1.667,
      "step": 24848
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38515111804008484,
      "learning_rate": 0.0004944210056901087,
      "loss": 1.6549,
      "step": 24849
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37659144401550293,
      "learning_rate": 0.0004944130454413145,
      "loss": 1.6697,
      "step": 24850
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40388861298561096,
      "learning_rate": 0.0004944050849565315,
      "loss": 1.6815,
      "step": 24851
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37998461723327637,
      "learning_rate": 0.0004943971242357693,
      "loss": 1.7328,
      "step": 24852
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38684380054473877,
      "learning_rate": 0.0004943891632790377,
      "loss": 1.6526,
      "step": 24853
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3882228136062622,
      "learning_rate": 0.0004943812020863463,
      "loss": 1.6161,
      "step": 24854
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38554447889328003,
      "learning_rate": 0.0004943732406577047,
      "loss": 1.6733,
      "step": 24855
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3939548432826996,
      "learning_rate": 0.0004943652789931226,
      "loss": 1.6963,
      "step": 24856
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38368216156959534,
      "learning_rate": 0.0004943573170926097,
      "loss": 1.6303,
      "step": 24857
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38189104199409485,
      "learning_rate": 0.0004943493549561758,
      "loss": 1.6116,
      "step": 24858
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.388902485370636,
      "learning_rate": 0.0004943413925838303,
      "loss": 1.6541,
      "step": 24859
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3954041600227356,
      "learning_rate": 0.000494333429975583,
      "loss": 1.6481,
      "step": 24860
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39527252316474915,
      "learning_rate": 0.0004943254671314435,
      "loss": 1.7147,
      "step": 24861
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3874353766441345,
      "learning_rate": 0.0004943175040514217,
      "loss": 1.5519,
      "step": 24862
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3835817575454712,
      "learning_rate": 0.0004943095407355268,
      "loss": 1.6743,
      "step": 24863
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3929137587547302,
      "learning_rate": 0.000494301577183769,
      "loss": 1.6846,
      "step": 24864
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3992009162902832,
      "learning_rate": 0.0004942936133961576,
      "loss": 1.6354,
      "step": 24865
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.391781210899353,
      "learning_rate": 0.0004942856493727024,
      "loss": 1.6243,
      "step": 24866
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37811988592147827,
      "learning_rate": 0.000494277685113413,
      "loss": 1.6132,
      "step": 24867
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38603049516677856,
      "learning_rate": 0.0004942697206182993,
      "loss": 1.6616,
      "step": 24868
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3909509479999542,
      "learning_rate": 0.0004942617558873706,
      "loss": 1.6324,
      "step": 24869
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3776497542858124,
      "learning_rate": 0.0004942537909206368,
      "loss": 1.6669,
      "step": 24870
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3970756232738495,
      "learning_rate": 0.0004942458257181074,
      "loss": 1.6302,
      "step": 24871
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39200735092163086,
      "learning_rate": 0.0004942378602797923,
      "loss": 1.6219,
      "step": 24872
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4002128839492798,
      "learning_rate": 0.0004942298946057012,
      "loss": 1.6613,
      "step": 24873
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3834965229034424,
      "learning_rate": 0.0004942219286958434,
      "loss": 1.6599,
      "step": 24874
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38541892170906067,
      "learning_rate": 0.0004942139625502289,
      "loss": 1.6913,
      "step": 24875
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3783735930919647,
      "learning_rate": 0.0004942059961688673,
      "loss": 1.7414,
      "step": 24876
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3879625201225281,
      "learning_rate": 0.0004941980295517681,
      "loss": 1.7342,
      "step": 24877
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39117905497550964,
      "learning_rate": 0.0004941900626989412,
      "loss": 1.6292,
      "step": 24878
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.42603498697280884,
      "learning_rate": 0.0004941820956103961,
      "loss": 1.6678,
      "step": 24879
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3890780806541443,
      "learning_rate": 0.0004941741282861427,
      "loss": 1.6497,
      "step": 24880
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3957464396953583,
      "learning_rate": 0.0004941661607261904,
      "loss": 1.7416,
      "step": 24881
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3947584927082062,
      "learning_rate": 0.000494158192930549,
      "loss": 1.6849,
      "step": 24882
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39481237530708313,
      "learning_rate": 0.0004941502248992283,
      "loss": 1.5861,
      "step": 24883
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41787829995155334,
      "learning_rate": 0.0004941422566322376,
      "loss": 1.7113,
      "step": 24884
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41704273223876953,
      "learning_rate": 0.0004941342881295869,
      "loss": 1.7259,
      "step": 24885
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3913903832435608,
      "learning_rate": 0.0004941263193912859,
      "loss": 1.6418,
      "step": 24886
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4132717251777649,
      "learning_rate": 0.000494118350417344,
      "loss": 1.7144,
      "step": 24887
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40320196747779846,
      "learning_rate": 0.0004941103812077712,
      "loss": 1.6604,
      "step": 24888
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39148738980293274,
      "learning_rate": 0.0004941024117625768,
      "loss": 1.6468,
      "step": 24889
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.400473028421402,
      "learning_rate": 0.0004940944420817708,
      "loss": 1.6397,
      "step": 24890
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38445794582366943,
      "learning_rate": 0.0004940864721653626,
      "loss": 1.6543,
      "step": 24891
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.395022988319397,
      "learning_rate": 0.0004940785020133621,
      "loss": 1.7337,
      "step": 24892
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3964521586894989,
      "learning_rate": 0.000494070531625779,
      "loss": 1.7351,
      "step": 24893
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.404166042804718,
      "learning_rate": 0.0004940625610026227,
      "loss": 1.7406,
      "step": 24894
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3865295946598053,
      "learning_rate": 0.0004940545901439031,
      "loss": 1.6735,
      "step": 24895
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39219406247138977,
      "learning_rate": 0.0004940466190496299,
      "loss": 1.7101,
      "step": 24896
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.396903932094574,
      "learning_rate": 0.0004940386477198126,
      "loss": 1.7079,
      "step": 24897
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38983607292175293,
      "learning_rate": 0.0004940306761544611,
      "loss": 1.6162,
      "step": 24898
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39798423647880554,
      "learning_rate": 0.0004940227043535847,
      "loss": 1.6596,
      "step": 24899
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39511266350746155,
      "learning_rate": 0.0004940147323171935,
      "loss": 1.7107,
      "step": 24900
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3793771266937256,
      "learning_rate": 0.0004940067600452971,
      "loss": 1.6521,
      "step": 24901
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38999390602111816,
      "learning_rate": 0.000493998787537905,
      "loss": 1.7325,
      "step": 24902
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39367246627807617,
      "learning_rate": 0.0004939908147950268,
      "loss": 1.6529,
      "step": 24903
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6951476335525513,
      "learning_rate": 0.0004939828418166724,
      "loss": 1.7385,
      "step": 24904
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38218313455581665,
      "learning_rate": 0.0004939748686028515,
      "loss": 1.6853,
      "step": 24905
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4024741053581238,
      "learning_rate": 0.0004939668951535737,
      "loss": 1.6604,
      "step": 24906
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41654831171035767,
      "learning_rate": 0.0004939589214688486,
      "loss": 1.6533,
      "step": 24907
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38359829783439636,
      "learning_rate": 0.000493950947548686,
      "loss": 1.6806,
      "step": 24908
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39570513367652893,
      "learning_rate": 0.0004939429733930955,
      "loss": 1.6611,
      "step": 24909
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.396229088306427,
      "learning_rate": 0.0004939349990020868,
      "loss": 1.6884,
      "step": 24910
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4210568368434906,
      "learning_rate": 0.0004939270243756696,
      "loss": 1.7055,
      "step": 24911
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3885660171508789,
      "learning_rate": 0.0004939190495138535,
      "loss": 1.6685,
      "step": 24912
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39783576130867004,
      "learning_rate": 0.0004939110744166484,
      "loss": 1.8274,
      "step": 24913
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38942399621009827,
      "learning_rate": 0.0004939030990840637,
      "loss": 1.6411,
      "step": 24914
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3795333206653595,
      "learning_rate": 0.0004938951235161092,
      "loss": 1.675,
      "step": 24915
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4018295407295227,
      "learning_rate": 0.0004938871477127946,
      "loss": 1.618,
      "step": 24916
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4003905653953552,
      "learning_rate": 0.0004938791716741296,
      "loss": 1.6103,
      "step": 24917
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4063141345977783,
      "learning_rate": 0.0004938711954001239,
      "loss": 1.6061,
      "step": 24918
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40914419293403625,
      "learning_rate": 0.000493863218890787,
      "loss": 1.7217,
      "step": 24919
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41052526235580444,
      "learning_rate": 0.0004938552421461289,
      "loss": 1.6821,
      "step": 24920
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3947134017944336,
      "learning_rate": 0.000493847265166159,
      "loss": 1.6777,
      "step": 24921
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4006969630718231,
      "learning_rate": 0.000493839287950887,
      "loss": 1.6642,
      "step": 24922
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4012628495693207,
      "learning_rate": 0.0004938313105003227,
      "loss": 1.6504,
      "step": 24923
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39765095710754395,
      "learning_rate": 0.000493823332814476,
      "loss": 1.7121,
      "step": 24924
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39721187949180603,
      "learning_rate": 0.000493815354893356,
      "loss": 1.7666,
      "step": 24925
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39325347542762756,
      "learning_rate": 0.000493807376736973,
      "loss": 1.6925,
      "step": 24926
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39493995904922485,
      "learning_rate": 0.000493799398345336,
      "loss": 1.7057,
      "step": 24927
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4173389971256256,
      "learning_rate": 0.0004937914197184555,
      "loss": 1.6458,
      "step": 24928
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4099731147289276,
      "learning_rate": 0.0004937834408563406,
      "loss": 1.6226,
      "step": 24929
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38852277398109436,
      "learning_rate": 0.0004937754617590012,
      "loss": 1.7217,
      "step": 24930
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41046497225761414,
      "learning_rate": 0.0004937674824264469,
      "loss": 1.6494,
      "step": 24931
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39526495337486267,
      "learning_rate": 0.0004937595028586874,
      "loss": 1.6642,
      "step": 24932
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38952672481536865,
      "learning_rate": 0.0004937515230557324,
      "loss": 1.7027,
      "step": 24933
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3955623507499695,
      "learning_rate": 0.0004937435430175917,
      "loss": 1.7319,
      "step": 24934
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39416903257369995,
      "learning_rate": 0.0004937355627442748,
      "loss": 1.7113,
      "step": 24935
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3887159526348114,
      "learning_rate": 0.0004937275822357915,
      "loss": 1.6709,
      "step": 24936
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.389182984828949,
      "learning_rate": 0.0004937196014921514,
      "loss": 1.6842,
      "step": 24937
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3968963921070099,
      "learning_rate": 0.0004937116205133643,
      "loss": 1.6813,
      "step": 24938
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3966798186302185,
      "learning_rate": 0.0004937036392994398,
      "loss": 1.6951,
      "step": 24939
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40682291984558105,
      "learning_rate": 0.0004936956578503877,
      "loss": 1.5837,
      "step": 24940
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4031631648540497,
      "learning_rate": 0.0004936876761662176,
      "loss": 1.6273,
      "step": 24941
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39413684606552124,
      "learning_rate": 0.0004936796942469392,
      "loss": 1.6861,
      "step": 24942
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4074743092060089,
      "learning_rate": 0.0004936717120925621,
      "loss": 1.7057,
      "step": 24943
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39203864336013794,
      "learning_rate": 0.0004936637297030962,
      "loss": 1.6502,
      "step": 24944
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38958901166915894,
      "learning_rate": 0.0004936557470785509,
      "loss": 1.6395,
      "step": 24945
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39866897463798523,
      "learning_rate": 0.0004936477642189362,
      "loss": 1.7089,
      "step": 24946
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4112184941768646,
      "learning_rate": 0.0004936397811242617,
      "loss": 1.6764,
      "step": 24947
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39996954798698425,
      "learning_rate": 0.0004936317977945368,
      "loss": 1.696,
      "step": 24948
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39337021112442017,
      "learning_rate": 0.0004936238142297716,
      "loss": 1.6521,
      "step": 24949
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3924495577812195,
      "learning_rate": 0.0004936158304299756,
      "loss": 1.7508,
      "step": 24950
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3883880376815796,
      "learning_rate": 0.0004936078463951585,
      "loss": 1.6776,
      "step": 24951
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4019152820110321,
      "learning_rate": 0.0004935998621253301,
      "loss": 1.7041,
      "step": 24952
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41024383902549744,
      "learning_rate": 0.0004935918776204999,
      "loss": 1.6218,
      "step": 24953
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39685171842575073,
      "learning_rate": 0.0004935838928806776,
      "loss": 1.6087,
      "step": 24954
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4074442982673645,
      "learning_rate": 0.0004935759079058731,
      "loss": 1.6758,
      "step": 24955
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4139341115951538,
      "learning_rate": 0.000493567922696096,
      "loss": 1.6522,
      "step": 24956
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3888377547264099,
      "learning_rate": 0.0004935599372513558,
      "loss": 1.6452,
      "step": 24957
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38580745458602905,
      "learning_rate": 0.0004935519515716625,
      "loss": 1.7006,
      "step": 24958
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4100785255432129,
      "learning_rate": 0.0004935439656570255,
      "loss": 1.7018,
      "step": 24959
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.414071649312973,
      "learning_rate": 0.0004935359795074548,
      "loss": 1.7081,
      "step": 24960
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39026445150375366,
      "learning_rate": 0.0004935279931229599,
      "loss": 1.6176,
      "step": 24961
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40049347281455994,
      "learning_rate": 0.0004935200065035504,
      "loss": 1.634,
      "step": 24962
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.42942214012145996,
      "learning_rate": 0.0004935120196492363,
      "loss": 1.6702,
      "step": 24963
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3936254680156708,
      "learning_rate": 0.000493504032560027,
      "loss": 1.6825,
      "step": 24964
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3806803226470947,
      "learning_rate": 0.0004934960452359325,
      "loss": 1.6754,
      "step": 24965
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41656240820884705,
      "learning_rate": 0.0004934880576769621,
      "loss": 1.7049,
      "step": 24966
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3828510344028473,
      "learning_rate": 0.0004934800698831258,
      "loss": 1.6652,
      "step": 24967
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4086901545524597,
      "learning_rate": 0.0004934720818544332,
      "loss": 1.6999,
      "step": 24968
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39865413308143616,
      "learning_rate": 0.0004934640935908939,
      "loss": 1.6272,
      "step": 24969
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4031374752521515,
      "learning_rate": 0.0004934561050925179,
      "loss": 1.6753,
      "step": 24970
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38079705834388733,
      "learning_rate": 0.0004934481163593146,
      "loss": 1.6561,
      "step": 24971
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3836807906627655,
      "learning_rate": 0.0004934401273912937,
      "loss": 1.6679,
      "step": 24972
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3829248249530792,
      "learning_rate": 0.0004934321381884651,
      "loss": 1.6567,
      "step": 24973
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39549484848976135,
      "learning_rate": 0.0004934241487508383,
      "loss": 1.6589,
      "step": 24974
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40378478169441223,
      "learning_rate": 0.0004934161590784232,
      "loss": 1.7552,
      "step": 24975
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3902038633823395,
      "learning_rate": 0.0004934081691712293,
      "loss": 1.6497,
      "step": 24976
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3887191116809845,
      "learning_rate": 0.0004934001790292663,
      "loss": 1.6726,
      "step": 24977
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4138319790363312,
      "learning_rate": 0.0004933921886525442,
      "loss": 1.6503,
      "step": 24978
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4053970277309418,
      "learning_rate": 0.0004933841980410722,
      "loss": 1.6135,
      "step": 24979
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.419012188911438,
      "learning_rate": 0.0004933762071948605,
      "loss": 1.6698,
      "step": 24980
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3915502727031708,
      "learning_rate": 0.0004933682161139184,
      "loss": 1.6898,
      "step": 24981
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38547584414482117,
      "learning_rate": 0.0004933602247982559,
      "loss": 1.6523,
      "step": 24982
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.47448110580444336,
      "learning_rate": 0.0004933522332478827,
      "loss": 1.6983,
      "step": 24983
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3840687572956085,
      "learning_rate": 0.0004933442414628081,
      "loss": 1.6604,
      "step": 24984
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3894383907318115,
      "learning_rate": 0.0004933362494430423,
      "loss": 1.636,
      "step": 24985
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39744746685028076,
      "learning_rate": 0.0004933282571885945,
      "loss": 1.7031,
      "step": 24986
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3969733417034149,
      "learning_rate": 0.000493320264699475,
      "loss": 1.687,
      "step": 24987
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4039657413959503,
      "learning_rate": 0.0004933122719756931,
      "loss": 1.6422,
      "step": 24988
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38455790281295776,
      "learning_rate": 0.0004933042790172585,
      "loss": 1.7195,
      "step": 24989
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38098227977752686,
      "learning_rate": 0.0004932962858241811,
      "loss": 1.6815,
      "step": 24990
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4038868546485901,
      "learning_rate": 0.0004932882923964704,
      "loss": 1.7097,
      "step": 24991
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3887554109096527,
      "learning_rate": 0.0004932802987341362,
      "loss": 1.6986,
      "step": 24992
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38831251859664917,
      "learning_rate": 0.0004932723048371883,
      "loss": 1.6914,
      "step": 24993
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4210589826107025,
      "learning_rate": 0.000493264310705636,
      "loss": 1.7139,
      "step": 24994
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3992951512336731,
      "learning_rate": 0.0004932563163394896,
      "loss": 1.7192,
      "step": 24995
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38732898235321045,
      "learning_rate": 0.0004932483217387583,
      "loss": 1.743,
      "step": 24996
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3982061445713043,
      "learning_rate": 0.0004932403269034523,
      "loss": 1.689,
      "step": 24997
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3905978798866272,
      "learning_rate": 0.0004932323318335808,
      "loss": 1.6236,
      "step": 24998
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3972090780735016,
      "learning_rate": 0.0004932243365291537,
      "loss": 1.7626,
      "step": 24999
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38792985677719116,
      "learning_rate": 0.0004932163409901809,
      "loss": 1.6982,
      "step": 25000
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0147100687026978,
      "learning_rate": 0.0004932083452166717,
      "loss": 1.6926,
      "step": 25001
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3922187387943268,
      "learning_rate": 0.0004932003492086361,
      "loss": 1.7063,
      "step": 25002
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39022064208984375,
      "learning_rate": 0.0004931923529660839,
      "loss": 1.7387,
      "step": 25003
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3989276885986328,
      "learning_rate": 0.0004931843564890245,
      "loss": 1.6557,
      "step": 25004
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3905704915523529,
      "learning_rate": 0.0004931763597774678,
      "loss": 1.7325,
      "step": 25005
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3997597396373749,
      "learning_rate": 0.0004931683628314235,
      "loss": 1.6681,
      "step": 25006
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38897761702537537,
      "learning_rate": 0.0004931603656509012,
      "loss": 1.6819,
      "step": 25007
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39103665947914124,
      "learning_rate": 0.0004931523682359108,
      "loss": 1.694,
      "step": 25008
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40511080622673035,
      "learning_rate": 0.0004931443705864616,
      "loss": 1.612,
      "step": 25009
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39612841606140137,
      "learning_rate": 0.0004931363727025639,
      "loss": 1.7287,
      "step": 25010
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38591456413269043,
      "learning_rate": 0.000493128374584227,
      "loss": 1.7096,
      "step": 25011
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3931359350681305,
      "learning_rate": 0.0004931203762314607,
      "loss": 1.635,
      "step": 25012
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38460734486579895,
      "learning_rate": 0.0004931123776442748,
      "loss": 1.6814,
      "step": 25013
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3840816915035248,
      "learning_rate": 0.0004931043788226788,
      "loss": 1.6849,
      "step": 25014
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3891318142414093,
      "learning_rate": 0.0004930963797666826,
      "loss": 1.6757,
      "step": 25015
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3853882849216461,
      "learning_rate": 0.0004930883804762957,
      "loss": 1.6383,
      "step": 25016
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39754244685173035,
      "learning_rate": 0.0004930803809515282,
      "loss": 1.666,
      "step": 25017
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38751575350761414,
      "learning_rate": 0.0004930723811923895,
      "loss": 1.7184,
      "step": 25018
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4012261927127838,
      "learning_rate": 0.0004930643811988893,
      "loss": 1.6696,
      "step": 25019
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38764429092407227,
      "learning_rate": 0.0004930563809710373,
      "loss": 1.7297,
      "step": 25020
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39118048548698425,
      "learning_rate": 0.0004930483805088435,
      "loss": 1.7114,
      "step": 25021
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39335697889328003,
      "learning_rate": 0.0004930403798123174,
      "loss": 1.7507,
      "step": 25022
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.407640278339386,
      "learning_rate": 0.0004930323788814685,
      "loss": 1.6552,
      "step": 25023
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40470266342163086,
      "learning_rate": 0.0004930243777163069,
      "loss": 1.6771,
      "step": 25024
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39581823348999023,
      "learning_rate": 0.0004930163763168423,
      "loss": 1.6427,
      "step": 25025
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.42666685581207275,
      "learning_rate": 0.000493008374683084,
      "loss": 1.6438,
      "step": 25026
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39149704575538635,
      "learning_rate": 0.000493000372815042,
      "loss": 1.6714,
      "step": 25027
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40154018998146057,
      "learning_rate": 0.0004929923707127261,
      "loss": 1.6379,
      "step": 25028
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3914249539375305,
      "learning_rate": 0.0004929843683761458,
      "loss": 1.731,
      "step": 25029
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3959499001502991,
      "learning_rate": 0.000492976365805311,
      "loss": 1.7115,
      "step": 25030
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40089961886405945,
      "learning_rate": 0.0004929683630002312,
      "loss": 1.7114,
      "step": 25031
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40229329466819763,
      "learning_rate": 0.0004929603599609164,
      "loss": 1.6589,
      "step": 25032
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4004025161266327,
      "learning_rate": 0.000492952356687376,
      "loss": 1.7053,
      "step": 25033
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38617414236068726,
      "learning_rate": 0.0004929443531796199,
      "loss": 1.6667,
      "step": 25034
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3820802867412567,
      "learning_rate": 0.0004929363494376579,
      "loss": 1.6575,
      "step": 25035
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38888514041900635,
      "learning_rate": 0.0004929283454614995,
      "loss": 1.7136,
      "step": 25036
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40131691098213196,
      "learning_rate": 0.0004929203412511546,
      "loss": 1.7004,
      "step": 25037
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3806670904159546,
      "learning_rate": 0.0004929123368066328,
      "loss": 1.6191,
      "step": 25038
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3881184160709381,
      "learning_rate": 0.0004929043321279437,
      "loss": 1.6942,
      "step": 25039
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3931821286678314,
      "learning_rate": 0.0004928963272150974,
      "loss": 1.6148,
      "step": 25040
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3932902216911316,
      "learning_rate": 0.0004928883220681032,
      "loss": 1.6604,
      "step": 25041
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41787394881248474,
      "learning_rate": 0.000492880316686971,
      "loss": 1.7062,
      "step": 25042
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3871994912624359,
      "learning_rate": 0.0004928723110717106,
      "loss": 1.622,
      "step": 25043
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3942645490169525,
      "learning_rate": 0.0004928643052223317,
      "loss": 1.681,
      "step": 25044
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38679760694503784,
      "learning_rate": 0.0004928562991388439,
      "loss": 1.6428,
      "step": 25045
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3971010446548462,
      "learning_rate": 0.0004928482928212568,
      "loss": 1.6466,
      "step": 25046
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.398006796836853,
      "learning_rate": 0.0004928402862695804,
      "loss": 1.6286,
      "step": 25047
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39105311036109924,
      "learning_rate": 0.0004928322794838244,
      "loss": 1.6503,
      "step": 25048
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3859311640262604,
      "learning_rate": 0.0004928242724639983,
      "loss": 1.5949,
      "step": 25049
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3929458558559418,
      "learning_rate": 0.000492816265210112,
      "loss": 1.6522,
      "step": 25050
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3990647792816162,
      "learning_rate": 0.0004928082577221752,
      "loss": 1.6557,
      "step": 25051
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6136360764503479,
      "learning_rate": 0.0004928002500001975,
      "loss": 1.6553,
      "step": 25052
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38882747292518616,
      "learning_rate": 0.0004927922420441888,
      "loss": 1.7656,
      "step": 25053
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.41670700907707214,
      "learning_rate": 0.0004927842338541586,
      "loss": 1.7217,
      "step": 25054
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39865419268608093,
      "learning_rate": 0.0004927762254301168,
      "loss": 1.6512,
      "step": 25055
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3913809359073639,
      "learning_rate": 0.000492768216772073,
      "loss": 1.7235,
      "step": 25056
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4003712236881256,
      "learning_rate": 0.0004927602078800373,
      "loss": 1.6869,
      "step": 25057
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39770716428756714,
      "learning_rate": 0.0004927521987540187,
      "loss": 1.7187,
      "step": 25058
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5046703815460205,
      "learning_rate": 0.0004927441893940276,
      "loss": 1.7001,
      "step": 25059
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40047386288642883,
      "learning_rate": 0.0004927361798000734,
      "loss": 1.7193,
      "step": 25060
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39863380789756775,
      "learning_rate": 0.0004927281699721658,
      "loss": 1.6688,
      "step": 25061
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4011266827583313,
      "learning_rate": 0.0004927201599103147,
      "loss": 1.6071,
      "step": 25062
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7323954105377197,
      "learning_rate": 0.0004927121496145296,
      "loss": 1.7069,
      "step": 25063
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38170158863067627,
      "learning_rate": 0.0004927041390848204,
      "loss": 1.6587,
      "step": 25064
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3928527534008026,
      "learning_rate": 0.0004926961283211968,
      "loss": 1.6823,
      "step": 25065
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4038061499595642,
      "learning_rate": 0.0004926881173236684,
      "loss": 1.6939,
      "step": 25066
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4034535586833954,
      "learning_rate": 0.0004926801060922451,
      "loss": 1.6799,
      "step": 25067
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3994235396385193,
      "learning_rate": 0.0004926720946269366,
      "loss": 1.6343,
      "step": 25068
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3939819037914276,
      "learning_rate": 0.0004926640829277525,
      "loss": 1.6842,
      "step": 25069
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3930925726890564,
      "learning_rate": 0.0004926560709947026,
      "loss": 1.7159,
      "step": 25070
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40328752994537354,
      "learning_rate": 0.0004926480588277965,
      "loss": 1.6608,
      "step": 25071
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4115179479122162,
      "learning_rate": 0.0004926400464270441,
      "loss": 1.5911,
      "step": 25072
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39603203535079956,
      "learning_rate": 0.0004926320337924552,
      "loss": 1.6502,
      "step": 25073
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38206151127815247,
      "learning_rate": 0.0004926240209240393,
      "loss": 1.7645,
      "step": 25074
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39683714509010315,
      "learning_rate": 0.0004926160078218062,
      "loss": 1.6937,
      "step": 25075
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3954165577888489,
      "learning_rate": 0.0004926079944857656,
      "loss": 1.6592,
      "step": 25076
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.4059271812438965,
      "learning_rate": 0.0004925999809159274,
      "loss": 1.6772,
      "step": 25077
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3960947096347809,
      "learning_rate": 0.0004925919671123012,
      "loss": 1.6455,
      "step": 25078
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.388039231300354,
      "learning_rate": 0.0004925839530748967,
      "loss": 1.6944,
      "step": 25079
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.413837194442749,
      "learning_rate": 0.0004925759388037235,
      "loss": 1.7561,
      "step": 25080
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3909481167793274,
      "learning_rate": 0.0004925679242987917,
      "loss": 1.7511,
      "step": 25081
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38621291518211365,
      "learning_rate": 0.0004925599095601108,
      "loss": 1.6719,
      "step": 25082
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38599443435668945,
      "learning_rate": 0.0004925518945876903,
      "loss": 1.6318,
      "step": 25083
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.396765798330307,
      "learning_rate": 0.0004925438793815405,
      "loss": 1.7899,
      "step": 25084
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3888973593711853,
      "learning_rate": 0.0004925358639416706,
      "loss": 1.657,
      "step": 25085
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39439043402671814,
      "learning_rate": 0.0004925278482680905,
      "loss": 1.6532,
      "step": 25086
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3863968551158905,
      "learning_rate": 0.0004925198323608101,
      "loss": 1.6581,
      "step": 25087
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.40282154083251953,
      "learning_rate": 0.000492511816219839,
      "loss": 1.6615,
      "step": 25088
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.385564386844635,
      "learning_rate": 0.0004925037998451868,
      "loss": 1.6618,
      "step": 25089
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39205998182296753,
      "learning_rate": 0.0004924957832368633,
      "loss": 1.6609,
      "step": 25090
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38220861554145813,
      "learning_rate": 0.0004924877663948784,
      "loss": 1.6096,
      "step": 25091
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39296072721481323,
      "learning_rate": 0.0004924797493192417,
      "loss": 1.6709,
      "step": 25092
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38155093789100647,
      "learning_rate": 0.0004924717320099629,
      "loss": 1.6738,
      "step": 25093
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.39597928524017334,
      "learning_rate": 0.0004924637144670519,
      "loss": 1.6819,
      "step": 25094
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5646992921829224,
      "learning_rate": 0.0004924556966905181,
      "loss": 1.718,
      "step": 25095
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.37934619188308716,
      "learning_rate": 0.0004924476786803716,
      "loss": 1.6785,
      "step": 25096
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3915310204029083,
      "learning_rate": 0.000492439660436622,
      "loss": 1.6763,
      "step": 25097
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3984214961528778,
      "learning_rate": 0.0004924316419592789,
      "loss": 1.697,
      "step": 25098
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38658303022384644,
      "learning_rate": 0.0004924236232483522,
      "loss": 1.6469,
      "step": 25099
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38902780413627625,
      "learning_rate": 0.0004924156043038515,
      "loss": 1.6971,
      "step": 25100
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3988630771636963,
      "learning_rate": 0.0004924075851257867,
      "loss": 1.6978,
      "step": 25101
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39689525961875916,
      "learning_rate": 0.0004923995657141675,
      "loss": 1.5825,
      "step": 25102
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38968366384506226,
      "learning_rate": 0.0004923915460690034,
      "loss": 1.6878,
      "step": 25103
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40539026260375977,
      "learning_rate": 0.0004923835261903043,
      "loss": 1.6909,
      "step": 25104
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4048882722854614,
      "learning_rate": 0.0004923755060780801,
      "loss": 1.7018,
      "step": 25105
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38745030760765076,
      "learning_rate": 0.0004923674857323404,
      "loss": 1.6744,
      "step": 25106
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3882521390914917,
      "learning_rate": 0.0004923594651530948,
      "loss": 1.6302,
      "step": 25107
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3788835108280182,
      "learning_rate": 0.0004923514443403532,
      "loss": 1.6197,
      "step": 25108
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38556647300720215,
      "learning_rate": 0.0004923434232941252,
      "loss": 1.6106,
      "step": 25109
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4040263593196869,
      "learning_rate": 0.0004923354020144208,
      "loss": 1.6705,
      "step": 25110
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3912019729614258,
      "learning_rate": 0.0004923273805012494,
      "loss": 1.6633,
      "step": 25111
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39654120802879333,
      "learning_rate": 0.000492319358754621,
      "loss": 1.6841,
      "step": 25112
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.410288006067276,
      "learning_rate": 0.0004923113367745453,
      "loss": 1.7668,
      "step": 25113
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4036009907722473,
      "learning_rate": 0.0004923033145610318,
      "loss": 1.706,
      "step": 25114
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39656803011894226,
      "learning_rate": 0.0004922952921140904,
      "loss": 1.614,
      "step": 25115
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3911912143230438,
      "learning_rate": 0.000492287269433731,
      "loss": 1.6773,
      "step": 25116
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40812259912490845,
      "learning_rate": 0.0004922792465199631,
      "loss": 1.6722,
      "step": 25117
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38716745376586914,
      "learning_rate": 0.0004922712233727965,
      "loss": 1.6598,
      "step": 25118
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3920925259590149,
      "learning_rate": 0.000492263199992241,
      "loss": 1.6176,
      "step": 25119
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4026227295398712,
      "learning_rate": 0.0004922551763783063,
      "loss": 1.6978,
      "step": 25120
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3960745334625244,
      "learning_rate": 0.0004922471525310022,
      "loss": 1.6813,
      "step": 25121
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3844730854034424,
      "learning_rate": 0.0004922391284503384,
      "loss": 1.619,
      "step": 25122
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4083716869354248,
      "learning_rate": 0.0004922311041363244,
      "loss": 1.6359,
      "step": 25123
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4010618329048157,
      "learning_rate": 0.0004922230795889704,
      "loss": 1.6847,
      "step": 25124
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4005454480648041,
      "learning_rate": 0.0004922150548082859,
      "loss": 1.7193,
      "step": 25125
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39008378982543945,
      "learning_rate": 0.0004922070297942806,
      "loss": 1.7987,
      "step": 25126
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38771718740463257,
      "learning_rate": 0.0004921990045469642,
      "loss": 1.7008,
      "step": 25127
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.390920490026474,
      "learning_rate": 0.0004921909790663465,
      "loss": 1.737,
      "step": 25128
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40508589148521423,
      "learning_rate": 0.0004921829533524373,
      "loss": 1.6719,
      "step": 25129
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3911047577857971,
      "learning_rate": 0.0004921749274052465,
      "loss": 1.7197,
      "step": 25130
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38384631276130676,
      "learning_rate": 0.0004921669012247834,
      "loss": 1.6802,
      "step": 25131
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.383037269115448,
      "learning_rate": 0.0004921588748110583,
      "loss": 1.6969,
      "step": 25132
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3940839469432831,
      "learning_rate": 0.0004921508481640803,
      "loss": 1.6983,
      "step": 25133
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41645365953445435,
      "learning_rate": 0.0004921428212838597,
      "loss": 1.6916,
      "step": 25134
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4059109091758728,
      "learning_rate": 0.000492134794170406,
      "loss": 1.683,
      "step": 25135
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38185182213783264,
      "learning_rate": 0.0004921267668237289,
      "loss": 1.6589,
      "step": 25136
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39324063062667847,
      "learning_rate": 0.0004921187392438383,
      "loss": 1.6958,
      "step": 25137
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3986206352710724,
      "learning_rate": 0.0004921107114307437,
      "loss": 1.6773,
      "step": 25138
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4168998599052429,
      "learning_rate": 0.0004921026833844552,
      "loss": 1.7037,
      "step": 25139
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38751909136772156,
      "learning_rate": 0.0004920946551049822,
      "loss": 1.7141,
      "step": 25140
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.423868328332901,
      "learning_rate": 0.0004920866265923346,
      "loss": 1.6392,
      "step": 25141
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39176344871520996,
      "learning_rate": 0.0004920785978465222,
      "loss": 1.7212,
      "step": 25142
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39607471227645874,
      "learning_rate": 0.0004920705688675547,
      "loss": 1.5772,
      "step": 25143
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39174604415893555,
      "learning_rate": 0.0004920625396554418,
      "loss": 1.7353,
      "step": 25144
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40189364552497864,
      "learning_rate": 0.0004920545102101932,
      "loss": 1.6076,
      "step": 25145
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38755306601524353,
      "learning_rate": 0.0004920464805318189,
      "loss": 1.6956,
      "step": 25146
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39920639991760254,
      "learning_rate": 0.0004920384506203284,
      "loss": 1.6488,
      "step": 25147
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3913637697696686,
      "learning_rate": 0.0004920304204757313,
      "loss": 1.672,
      "step": 25148
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38862305879592896,
      "learning_rate": 0.0004920223900980379,
      "loss": 1.6129,
      "step": 25149
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4000474214553833,
      "learning_rate": 0.0004920143594872575,
      "loss": 1.721,
      "step": 25150
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40347838401794434,
      "learning_rate": 0.0004920063286433998,
      "loss": 1.6986,
      "step": 25151
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4072062075138092,
      "learning_rate": 0.0004919982975664749,
      "loss": 1.6725,
      "step": 25152
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39422598481178284,
      "learning_rate": 0.0004919902662564922,
      "loss": 1.6813,
      "step": 25153
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.42623645067214966,
      "learning_rate": 0.0004919822347134617,
      "loss": 1.6472,
      "step": 25154
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39639732241630554,
      "learning_rate": 0.0004919742029373931,
      "loss": 1.6298,
      "step": 25155
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39300772547721863,
      "learning_rate": 0.000491966170928296,
      "loss": 1.7304,
      "step": 25156
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38500821590423584,
      "learning_rate": 0.0004919581386861803,
      "loss": 1.7017,
      "step": 25157
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4068833291530609,
      "learning_rate": 0.0004919501062110558,
      "loss": 1.784,
      "step": 25158
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39520156383514404,
      "learning_rate": 0.000491942073502932,
      "loss": 1.6997,
      "step": 25159
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3849930167198181,
      "learning_rate": 0.0004919340405618188,
      "loss": 1.6663,
      "step": 25160
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3764793872833252,
      "learning_rate": 0.0004919260073877261,
      "loss": 1.6844,
      "step": 25161
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5013070106506348,
      "learning_rate": 0.0004919179739806634,
      "loss": 1.7421,
      "step": 25162
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.406692236661911,
      "learning_rate": 0.0004919099403406405,
      "loss": 1.6821,
      "step": 25163
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3946893513202667,
      "learning_rate": 0.0004919019064676673,
      "loss": 1.5981,
      "step": 25164
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.403524249792099,
      "learning_rate": 0.0004918938723617536,
      "loss": 1.6473,
      "step": 25165
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3850635886192322,
      "learning_rate": 0.0004918858380229087,
      "loss": 1.6212,
      "step": 25166
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.381046861410141,
      "learning_rate": 0.0004918778034511429,
      "loss": 1.6845,
      "step": 25167
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3802757263183594,
      "learning_rate": 0.0004918697686464656,
      "loss": 1.6034,
      "step": 25168
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3924962282180786,
      "learning_rate": 0.0004918617336088868,
      "loss": 1.6711,
      "step": 25169
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38285067677497864,
      "learning_rate": 0.000491853698338416,
      "loss": 1.68,
      "step": 25170
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3924638628959656,
      "learning_rate": 0.0004918456628350632,
      "loss": 1.7116,
      "step": 25171
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4061557352542877,
      "learning_rate": 0.0004918376270988379,
      "loss": 1.8266,
      "step": 25172
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3878600001335144,
      "learning_rate": 0.00049182959112975,
      "loss": 1.7293,
      "step": 25173
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4065248668193817,
      "learning_rate": 0.0004918215549278094,
      "loss": 1.6215,
      "step": 25174
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3942207098007202,
      "learning_rate": 0.0004918135184930254,
      "loss": 1.6197,
      "step": 25175
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38776323199272156,
      "learning_rate": 0.0004918054818254082,
      "loss": 1.7263,
      "step": 25176
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3853754997253418,
      "learning_rate": 0.0004917974449249675,
      "loss": 1.7587,
      "step": 25177
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3950382173061371,
      "learning_rate": 0.0004917894077917129,
      "loss": 1.6867,
      "step": 25178
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41887030005455017,
      "learning_rate": 0.0004917813704256543,
      "loss": 1.6855,
      "step": 25179
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39708957076072693,
      "learning_rate": 0.0004917733328268012,
      "loss": 1.6496,
      "step": 25180
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3951660096645355,
      "learning_rate": 0.0004917652949951636,
      "loss": 1.6382,
      "step": 25181
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39331427216529846,
      "learning_rate": 0.0004917572569307512,
      "loss": 1.619,
      "step": 25182
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39601901173591614,
      "learning_rate": 0.0004917492186335738,
      "loss": 1.617,
      "step": 25183
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5335248112678528,
      "learning_rate": 0.0004917411801036411,
      "loss": 1.7687,
      "step": 25184
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39970993995666504,
      "learning_rate": 0.0004917331413409628,
      "loss": 1.6861,
      "step": 25185
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39458781480789185,
      "learning_rate": 0.0004917251023455486,
      "loss": 1.6952,
      "step": 25186
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37973859906196594,
      "learning_rate": 0.0004917170631174087,
      "loss": 1.6265,
      "step": 25187
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3900477886199951,
      "learning_rate": 0.0004917090236565522,
      "loss": 1.7117,
      "step": 25188
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3767549693584442,
      "learning_rate": 0.0004917009839629894,
      "loss": 1.6631,
      "step": 25189
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3827214539051056,
      "learning_rate": 0.0004916929440367297,
      "loss": 1.6572,
      "step": 25190
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3868154287338257,
      "learning_rate": 0.0004916849038777831,
      "loss": 1.6877,
      "step": 25191
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38485395908355713,
      "learning_rate": 0.0004916768634861592,
      "loss": 1.6441,
      "step": 25192
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3884420692920685,
      "learning_rate": 0.000491668822861868,
      "loss": 1.6587,
      "step": 25193
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39584362506866455,
      "learning_rate": 0.000491660782004919,
      "loss": 1.6295,
      "step": 25194
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3987484872341156,
      "learning_rate": 0.0004916527409153219,
      "loss": 1.7109,
      "step": 25195
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41005194187164307,
      "learning_rate": 0.0004916446995930868,
      "loss": 1.6707,
      "step": 25196
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3830743134021759,
      "learning_rate": 0.0004916366580382232,
      "loss": 1.6039,
      "step": 25197
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4015539884567261,
      "learning_rate": 0.0004916286162507409,
      "loss": 1.6981,
      "step": 25198
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3864787220954895,
      "learning_rate": 0.0004916205742306499,
      "loss": 1.6337,
      "step": 25199
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.395109623670578,
      "learning_rate": 0.0004916125319779595,
      "loss": 1.6617,
      "step": 25200
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4019373655319214,
      "learning_rate": 0.0004916044894926798,
      "loss": 1.7127,
      "step": 25201
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39855480194091797,
      "learning_rate": 0.0004915964467748206,
      "loss": 1.667,
      "step": 25202
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3817029297351837,
      "learning_rate": 0.0004915884038243914,
      "loss": 1.6203,
      "step": 25203
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3909231126308441,
      "learning_rate": 0.0004915803606414021,
      "loss": 1.6968,
      "step": 25204
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39275264739990234,
      "learning_rate": 0.0004915723172258625,
      "loss": 1.6722,
      "step": 25205
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38041847944259644,
      "learning_rate": 0.0004915642735777824,
      "loss": 1.6837,
      "step": 25206
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3912995159626007,
      "learning_rate": 0.0004915562296971714,
      "loss": 1.6671,
      "step": 25207
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39331695437431335,
      "learning_rate": 0.0004915481855840394,
      "loss": 1.6845,
      "step": 25208
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3842718303203583,
      "learning_rate": 0.0004915401412383962,
      "loss": 1.6723,
      "step": 25209
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3907836377620697,
      "learning_rate": 0.0004915320966602513,
      "loss": 1.7537,
      "step": 25210
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3891574442386627,
      "learning_rate": 0.0004915240518496149,
      "loss": 1.761,
      "step": 25211
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3787071406841278,
      "learning_rate": 0.0004915160068064964,
      "loss": 1.611,
      "step": 25212
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3851340711116791,
      "learning_rate": 0.0004915079615309056,
      "loss": 1.6164,
      "step": 25213
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.390731543302536,
      "learning_rate": 0.0004914999160228526,
      "loss": 1.7132,
      "step": 25214
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39830389618873596,
      "learning_rate": 0.0004914918702823467,
      "loss": 1.6998,
      "step": 25215
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4012751281261444,
      "learning_rate": 0.000491483824309398,
      "loss": 1.653,
      "step": 25216
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3913264572620392,
      "learning_rate": 0.0004914757781040161,
      "loss": 1.5778,
      "step": 25217
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38322708010673523,
      "learning_rate": 0.0004914677316662108,
      "loss": 1.6564,
      "step": 25218
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38543811440467834,
      "learning_rate": 0.0004914596849959919,
      "loss": 1.7962,
      "step": 25219
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.398117333650589,
      "learning_rate": 0.0004914516380933691,
      "loss": 1.7201,
      "step": 25220
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4003226161003113,
      "learning_rate": 0.0004914435909583523,
      "loss": 1.6404,
      "step": 25221
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39387303590774536,
      "learning_rate": 0.0004914355435909513,
      "loss": 1.6424,
      "step": 25222
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37376120686531067,
      "learning_rate": 0.0004914274959911755,
      "loss": 1.6783,
      "step": 25223
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3936465382575989,
      "learning_rate": 0.000491419448159035,
      "loss": 1.7259,
      "step": 25224
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.385185182094574,
      "learning_rate": 0.0004914114000945396,
      "loss": 1.6202,
      "step": 25225
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39250510931015015,
      "learning_rate": 0.0004914033517976989,
      "loss": 1.7069,
      "step": 25226
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3911195695400238,
      "learning_rate": 0.0004913953032685228,
      "loss": 1.6662,
      "step": 25227
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3948409855365753,
      "learning_rate": 0.0004913872545070208,
      "loss": 1.742,
      "step": 25228
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39586764574050903,
      "learning_rate": 0.000491379205513203,
      "loss": 1.5813,
      "step": 25229
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3953033983707428,
      "learning_rate": 0.0004913711562870792,
      "loss": 1.6933,
      "step": 25230
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3843390643596649,
      "learning_rate": 0.0004913631068286589,
      "loss": 1.6666,
      "step": 25231
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3921171724796295,
      "learning_rate": 0.0004913550571379519,
      "loss": 1.6685,
      "step": 25232
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41616198420524597,
      "learning_rate": 0.000491347007214968,
      "loss": 1.7038,
      "step": 25233
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39886507391929626,
      "learning_rate": 0.0004913389570597172,
      "loss": 1.6507,
      "step": 25234
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3906419277191162,
      "learning_rate": 0.0004913309066722091,
      "loss": 1.6099,
      "step": 25235
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3960672914981842,
      "learning_rate": 0.0004913228560524533,
      "loss": 1.6737,
      "step": 25236
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3906604051589966,
      "learning_rate": 0.00049131480520046,
      "loss": 1.6927,
      "step": 25237
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40530845522880554,
      "learning_rate": 0.0004913067541162385,
      "loss": 1.7756,
      "step": 25238
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40909817814826965,
      "learning_rate": 0.0004912987027997989,
      "loss": 1.7624,
      "step": 25239
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40204089879989624,
      "learning_rate": 0.0004912906512511507,
      "loss": 1.6068,
      "step": 25240
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3979421555995941,
      "learning_rate": 0.0004912825994703039,
      "loss": 1.7188,
      "step": 25241
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3807259500026703,
      "learning_rate": 0.0004912745474572683,
      "loss": 1.7285,
      "step": 25242
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4150322675704956,
      "learning_rate": 0.0004912664952120535,
      "loss": 1.685,
      "step": 25243
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7085844874382019,
      "learning_rate": 0.0004912584427346694,
      "loss": 1.649,
      "step": 25244
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4146363139152527,
      "learning_rate": 0.0004912503900251258,
      "loss": 1.7267,
      "step": 25245
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41350337862968445,
      "learning_rate": 0.0004912423370834324,
      "loss": 1.7212,
      "step": 25246
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40522757172584534,
      "learning_rate": 0.0004912342839095989,
      "loss": 1.7358,
      "step": 25247
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38754957914352417,
      "learning_rate": 0.000491226230503635,
      "loss": 1.6617,
      "step": 25248
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38376936316490173,
      "learning_rate": 0.0004912181768655508,
      "loss": 1.7025,
      "step": 25249
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.386695921421051,
      "learning_rate": 0.0004912101229953559,
      "loss": 1.7295,
      "step": 25250
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3877101242542267,
      "learning_rate": 0.0004912020688930601,
      "loss": 1.7033,
      "step": 25251
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39148804545402527,
      "learning_rate": 0.0004911940145586732,
      "loss": 1.583,
      "step": 25252
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4037906229496002,
      "learning_rate": 0.0004911859599922049,
      "loss": 1.7331,
      "step": 25253
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3906441032886505,
      "learning_rate": 0.000491177905193665,
      "loss": 1.6506,
      "step": 25254
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3872407376766205,
      "learning_rate": 0.0004911698501630633,
      "loss": 1.6455,
      "step": 25255
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4009891748428345,
      "learning_rate": 0.0004911617949004095,
      "loss": 1.6806,
      "step": 25256
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3993856608867645,
      "learning_rate": 0.0004911537394057137,
      "loss": 1.6884,
      "step": 25257
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39805153012275696,
      "learning_rate": 0.0004911456836789852,
      "loss": 1.7734,
      "step": 25258
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3915019929409027,
      "learning_rate": 0.000491137627720234,
      "loss": 1.6772,
      "step": 25259
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40739667415618896,
      "learning_rate": 0.0004911295715294699,
      "loss": 1.7754,
      "step": 25260
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3984539210796356,
      "learning_rate": 0.0004911215151067027,
      "loss": 1.6921,
      "step": 25261
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3894445300102234,
      "learning_rate": 0.0004911134584519422,
      "loss": 1.6968,
      "step": 25262
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39443764090538025,
      "learning_rate": 0.000491105401565198,
      "loss": 1.6677,
      "step": 25263
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40360745787620544,
      "learning_rate": 0.00049109734444648,
      "loss": 1.7038,
      "step": 25264
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3775425851345062,
      "learning_rate": 0.000491089287095798,
      "loss": 1.6672,
      "step": 25265
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4042004942893982,
      "learning_rate": 0.0004910812295131618,
      "loss": 1.6856,
      "step": 25266
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.43077701330184937,
      "learning_rate": 0.0004910731716985812,
      "loss": 1.6803,
      "step": 25267
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4040311872959137,
      "learning_rate": 0.0004910651136520658,
      "loss": 1.6028,
      "step": 25268
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41361546516418457,
      "learning_rate": 0.0004910570553736256,
      "loss": 1.7301,
      "step": 25269
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4021430015563965,
      "learning_rate": 0.0004910489968632702,
      "loss": 1.6061,
      "step": 25270
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3903602957725525,
      "learning_rate": 0.0004910409381210096,
      "loss": 1.6663,
      "step": 25271
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3951433300971985,
      "learning_rate": 0.0004910328791468534,
      "loss": 1.6727,
      "step": 25272
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.402875155210495,
      "learning_rate": 0.0004910248199408113,
      "loss": 1.6279,
      "step": 25273
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4051399528980255,
      "learning_rate": 0.0004910167605028933,
      "loss": 1.6956,
      "step": 25274
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3972780704498291,
      "learning_rate": 0.0004910087008331091,
      "loss": 1.6107,
      "step": 25275
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3868919909000397,
      "learning_rate": 0.0004910006409314685,
      "loss": 1.6743,
      "step": 25276
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39668482542037964,
      "learning_rate": 0.0004909925807979813,
      "loss": 1.6129,
      "step": 25277
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3812577724456787,
      "learning_rate": 0.0004909845204326572,
      "loss": 1.6494,
      "step": 25278
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40189698338508606,
      "learning_rate": 0.000490976459835506,
      "loss": 1.6239,
      "step": 25279
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38178953528404236,
      "learning_rate": 0.0004909683990065376,
      "loss": 1.6239,
      "step": 25280
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39064279198646545,
      "learning_rate": 0.0004909603379457616,
      "loss": 1.7224,
      "step": 25281
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3919464349746704,
      "learning_rate": 0.000490952276653188,
      "loss": 1.6281,
      "step": 25282
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3836052119731903,
      "learning_rate": 0.0004909442151288263,
      "loss": 1.6248,
      "step": 25283
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.375098317861557,
      "learning_rate": 0.0004909361533726866,
      "loss": 1.6167,
      "step": 25284
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4004264175891876,
      "learning_rate": 0.0004909280913847786,
      "loss": 1.6839,
      "step": 25285
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3924511671066284,
      "learning_rate": 0.0004909200291651119,
      "loss": 1.6277,
      "step": 25286
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38878151774406433,
      "learning_rate": 0.0004909119667136965,
      "loss": 1.6903,
      "step": 25287
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3768838942050934,
      "learning_rate": 0.000490903904030542,
      "loss": 1.7113,
      "step": 25288
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3863716423511505,
      "learning_rate": 0.0004908958411156584,
      "loss": 1.7291,
      "step": 25289
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38986724615097046,
      "learning_rate": 0.0004908877779690552,
      "loss": 1.6424,
      "step": 25290
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38154396414756775,
      "learning_rate": 0.0004908797145907425,
      "loss": 1.6682,
      "step": 25291
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3740416467189789,
      "learning_rate": 0.0004908716509807301,
      "loss": 1.6579,
      "step": 25292
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3967074751853943,
      "learning_rate": 0.0004908635871390274,
      "loss": 1.6329,
      "step": 25293
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38663503527641296,
      "learning_rate": 0.0004908555230656445,
      "loss": 1.6769,
      "step": 25294
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3960353136062622,
      "learning_rate": 0.0004908474587605911,
      "loss": 1.7192,
      "step": 25295
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39196261763572693,
      "learning_rate": 0.000490839394223877,
      "loss": 1.6207,
      "step": 25296
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39249688386917114,
      "learning_rate": 0.0004908313294555121,
      "loss": 1.6242,
      "step": 25297
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4025587737560272,
      "learning_rate": 0.0004908232644555059,
      "loss": 1.6633,
      "step": 25298
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38774019479751587,
      "learning_rate": 0.0004908151992238685,
      "loss": 1.6967,
      "step": 25299
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38428547978401184,
      "learning_rate": 0.0004908071337606096,
      "loss": 1.6314,
      "step": 25300
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4017368257045746,
      "learning_rate": 0.0004907990680657389,
      "loss": 1.5907,
      "step": 25301
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38711827993392944,
      "learning_rate": 0.0004907910021392663,
      "loss": 1.6134,
      "step": 25302
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39785081148147583,
      "learning_rate": 0.0004907829359812013,
      "loss": 1.7184,
      "step": 25303
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41304874420166016,
      "learning_rate": 0.0004907748695915542,
      "loss": 1.6644,
      "step": 25304
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39861732721328735,
      "learning_rate": 0.0004907668029703344,
      "loss": 1.6964,
      "step": 25305
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3991623818874359,
      "learning_rate": 0.0004907587361175518,
      "loss": 1.5462,
      "step": 25306
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6066490411758423,
      "learning_rate": 0.0004907506690332162,
      "loss": 1.6849,
      "step": 25307
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3894933760166168,
      "learning_rate": 0.0004907426017173375,
      "loss": 1.6333,
      "step": 25308
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39844048023223877,
      "learning_rate": 0.0004907345341699254,
      "loss": 1.666,
      "step": 25309
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39587825536727905,
      "learning_rate": 0.0004907264663909894,
      "loss": 1.7523,
      "step": 25310
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39277341961860657,
      "learning_rate": 0.0004907183983805398,
      "loss": 1.6395,
      "step": 25311
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40389588475227356,
      "learning_rate": 0.0004907103301385862,
      "loss": 1.6628,
      "step": 25312
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3961513936519623,
      "learning_rate": 0.0004907022616651382,
      "loss": 1.6538,
      "step": 25313
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4087288975715637,
      "learning_rate": 0.0004906941929602059,
      "loss": 1.7001,
      "step": 25314
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3972497582435608,
      "learning_rate": 0.0004906861240237989,
      "loss": 1.6279,
      "step": 25315
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3939392566680908,
      "learning_rate": 0.000490678054855927,
      "loss": 1.6412,
      "step": 25316
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5908023715019226,
      "learning_rate": 0.0004906699854566,
      "loss": 1.6517,
      "step": 25317
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40902337431907654,
      "learning_rate": 0.0004906619158258278,
      "loss": 1.7285,
      "step": 25318
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39605996012687683,
      "learning_rate": 0.0004906538459636202,
      "loss": 1.7027,
      "step": 25319
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40227362513542175,
      "learning_rate": 0.0004906457758699868,
      "loss": 1.7429,
      "step": 25320
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3857920169830322,
      "learning_rate": 0.0004906377055449375,
      "loss": 1.579,
      "step": 25321
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39395126700401306,
      "learning_rate": 0.0004906296349884823,
      "loss": 1.6843,
      "step": 25322
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3946826159954071,
      "learning_rate": 0.0004906215642006307,
      "loss": 1.7388,
      "step": 25323
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3816223442554474,
      "learning_rate": 0.0004906134931813925,
      "loss": 1.6054,
      "step": 25324
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37914279103279114,
      "learning_rate": 0.0004906054219307777,
      "loss": 1.6763,
      "step": 25325
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3831271827220917,
      "learning_rate": 0.000490597350448796,
      "loss": 1.6386,
      "step": 25326
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38266798853874207,
      "learning_rate": 0.0004905892787354572,
      "loss": 1.6541,
      "step": 25327
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38948798179626465,
      "learning_rate": 0.0004905812067907711,
      "loss": 1.6373,
      "step": 25328
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3964506685733795,
      "learning_rate": 0.0004905731346147475,
      "loss": 1.6155,
      "step": 25329
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39092203974723816,
      "learning_rate": 0.0004905650622073962,
      "loss": 1.7014,
      "step": 25330
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39714986085891724,
      "learning_rate": 0.0004905569895687269,
      "loss": 1.695,
      "step": 25331
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4025493264198303,
      "learning_rate": 0.0004905489166987496,
      "loss": 1.7502,
      "step": 25332
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.46925216913223267,
      "learning_rate": 0.000490540843597474,
      "loss": 1.7362,
      "step": 25333
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38864144682884216,
      "learning_rate": 0.0004905327702649099,
      "loss": 1.7426,
      "step": 25334
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37982168793678284,
      "learning_rate": 0.0004905246967010671,
      "loss": 1.6867,
      "step": 25335
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3906059265136719,
      "learning_rate": 0.0004905166229059552,
      "loss": 1.617,
      "step": 25336
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4040178954601288,
      "learning_rate": 0.0004905085488795844,
      "loss": 1.7761,
      "step": 25337
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39361923933029175,
      "learning_rate": 0.0004905004746219642,
      "loss": 1.6435,
      "step": 25338
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5410414338111877,
      "learning_rate": 0.0004904924001331045,
      "loss": 1.7115,
      "step": 25339
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3902134299278259,
      "learning_rate": 0.0004904843254130151,
      "loss": 1.6542,
      "step": 25340
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3865567147731781,
      "learning_rate": 0.0004904762504617058,
      "loss": 1.6672,
      "step": 25341
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38102197647094727,
      "learning_rate": 0.0004904681752791864,
      "loss": 1.5788,
      "step": 25342
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.42100271582603455,
      "learning_rate": 0.0004904600998654668,
      "loss": 1.6754,
      "step": 25343
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37929752469062805,
      "learning_rate": 0.0004904520242205565,
      "loss": 1.5736,
      "step": 25344
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39410731196403503,
      "learning_rate": 0.0004904439483444656,
      "loss": 1.6651,
      "step": 25345
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39280927181243896,
      "learning_rate": 0.0004904358722372038,
      "loss": 1.6885,
      "step": 25346
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.42152243852615356,
      "learning_rate": 0.000490427795898781,
      "loss": 1.6679,
      "step": 25347
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3839338421821594,
      "learning_rate": 0.0004904197193292067,
      "loss": 1.6876,
      "step": 25348
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39197272062301636,
      "learning_rate": 0.0004904116425284912,
      "loss": 1.6737,
      "step": 25349
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38882747292518616,
      "learning_rate": 0.0004904035654966438,
      "loss": 1.6506,
      "step": 25350
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38193246722221375,
      "learning_rate": 0.0004903954882336746,
      "loss": 1.5971,
      "step": 25351
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4033986032009125,
      "learning_rate": 0.0004903874107395934,
      "loss": 1.6577,
      "step": 25352
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38711607456207275,
      "learning_rate": 0.0004903793330144098,
      "loss": 1.6398,
      "step": 25353
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3945888876914978,
      "learning_rate": 0.0004903712550581339,
      "loss": 1.5433,
      "step": 25354
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.397426038980484,
      "learning_rate": 0.0004903631768707751,
      "loss": 1.6346,
      "step": 25355
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3856600224971771,
      "learning_rate": 0.0004903550984523438,
      "loss": 1.6576,
      "step": 25356
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3946402072906494,
      "learning_rate": 0.0004903470198028492,
      "loss": 1.697,
      "step": 25357
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3957253694534302,
      "learning_rate": 0.0004903389409223014,
      "loss": 1.6429,
      "step": 25358
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39048388600349426,
      "learning_rate": 0.0004903308618107102,
      "loss": 1.6941,
      "step": 25359
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39029186964035034,
      "learning_rate": 0.0004903227824680854,
      "loss": 1.6588,
      "step": 25360
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3813522756099701,
      "learning_rate": 0.0004903147028944368,
      "loss": 1.5657,
      "step": 25361
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37569373846054077,
      "learning_rate": 0.0004903066230897741,
      "loss": 1.6184,
      "step": 25362
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3781687319278717,
      "learning_rate": 0.0004902985430541073,
      "loss": 1.6701,
      "step": 25363
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38572317361831665,
      "learning_rate": 0.0004902904627874461,
      "loss": 1.6531,
      "step": 25364
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3906329870223999,
      "learning_rate": 0.0004902823822898002,
      "loss": 1.7026,
      "step": 25365
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.37986835837364197,
      "learning_rate": 0.0004902743015611796,
      "loss": 1.6239,
      "step": 25366
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39434942603111267,
      "learning_rate": 0.000490266220601594,
      "loss": 1.679,
      "step": 25367
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41091522574424744,
      "learning_rate": 0.0004902581394110533,
      "loss": 1.7588,
      "step": 25368
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39340850710868835,
      "learning_rate": 0.0004902500579895673,
      "loss": 1.7546,
      "step": 25369
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4062328040599823,
      "learning_rate": 0.0004902419763371457,
      "loss": 1.5816,
      "step": 25370
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3908601701259613,
      "learning_rate": 0.0004902338944537983,
      "loss": 1.7198,
      "step": 25371
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3828165829181671,
      "learning_rate": 0.0004902258123395351,
      "loss": 1.5772,
      "step": 25372
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38650524616241455,
      "learning_rate": 0.0004902177299943658,
      "loss": 1.7386,
      "step": 25373
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39256468415260315,
      "learning_rate": 0.0004902096474183,
      "loss": 1.6564,
      "step": 25374
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.410667359828949,
      "learning_rate": 0.0004902015646113479,
      "loss": 1.7296,
      "step": 25375
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3935685157775879,
      "learning_rate": 0.0004901934815735191,
      "loss": 1.688,
      "step": 25376
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3936300575733185,
      "learning_rate": 0.0004901853983048234,
      "loss": 1.6931,
      "step": 25377
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3786652982234955,
      "learning_rate": 0.0004901773148052707,
      "loss": 1.6472,
      "step": 25378
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39916855096817017,
      "learning_rate": 0.0004901692310748707,
      "loss": 1.6626,
      "step": 25379
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38303840160369873,
      "learning_rate": 0.0004901611471136334,
      "loss": 1.6223,
      "step": 25380
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3881074786186218,
      "learning_rate": 0.0004901530629215684,
      "loss": 1.6485,
      "step": 25381
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.41134053468704224,
      "learning_rate": 0.0004901449784986855,
      "loss": 1.6819,
      "step": 25382
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39523205161094666,
      "learning_rate": 0.0004901368938449947,
      "loss": 1.6542,
      "step": 25383
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38349708914756775,
      "learning_rate": 0.0004901288089605057,
      "loss": 1.5573,
      "step": 25384
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3816900849342346,
      "learning_rate": 0.0004901207238452284,
      "loss": 1.7117,
      "step": 25385
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3931618630886078,
      "learning_rate": 0.0004901126384991725,
      "loss": 1.6836,
      "step": 25386
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3967183530330658,
      "learning_rate": 0.0004901045529223479,
      "loss": 1.7245,
      "step": 25387
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39874890446662903,
      "learning_rate": 0.0004900964671147644,
      "loss": 1.6856,
      "step": 25388
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3892436623573303,
      "learning_rate": 0.0004900883810764318,
      "loss": 1.7489,
      "step": 25389
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.40207552909851074,
      "learning_rate": 0.0004900802948073598,
      "loss": 1.74,
      "step": 25390
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4098770022392273,
      "learning_rate": 0.0004900722083075584,
      "loss": 1.7154,
      "step": 25391
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3889923393726349,
      "learning_rate": 0.0004900641215770373,
      "loss": 1.631,
      "step": 25392
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39635688066482544,
      "learning_rate": 0.0004900560346158065,
      "loss": 1.6374,
      "step": 25393
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39210543036460876,
      "learning_rate": 0.0004900479474238756,
      "loss": 1.6684,
      "step": 25394
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4156332314014435,
      "learning_rate": 0.0004900398600012545,
      "loss": 1.6327,
      "step": 25395
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.39128100872039795,
      "learning_rate": 0.0004900317723479531,
      "loss": 1.6461,
      "step": 25396
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.49199044704437256,
      "learning_rate": 0.000490023684463981,
      "loss": 1.7746,
      "step": 25397
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.38785189390182495,
      "learning_rate": 0.000490015596349348,
      "loss": 1.6884,
      "step": 25398
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38937899470329285,
      "learning_rate": 0.0004900075080040644,
      "loss": 1.7336,
      "step": 25399
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.42304742336273193,
      "learning_rate": 0.0004899994194281395,
      "loss": 1.6487,
      "step": 25400
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3967922627925873,
      "learning_rate": 0.0004899913306215833,
      "loss": 1.6555,
      "step": 25401
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4057305157184601,
      "learning_rate": 0.0004899832415844056,
      "loss": 1.7532,
      "step": 25402
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3946281969547272,
      "learning_rate": 0.0004899751523166163,
      "loss": 1.6264,
      "step": 25403
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40008506178855896,
      "learning_rate": 0.0004899670628182251,
      "loss": 1.7032,
      "step": 25404
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39773112535476685,
      "learning_rate": 0.000489958973089242,
      "loss": 1.662,
      "step": 25405
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39931991696357727,
      "learning_rate": 0.0004899508831296767,
      "loss": 1.6769,
      "step": 25406
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3975938856601715,
      "learning_rate": 0.0004899427929395388,
      "loss": 1.7045,
      "step": 25407
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39408913254737854,
      "learning_rate": 0.0004899347025188385,
      "loss": 1.6927,
      "step": 25408
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3970528542995453,
      "learning_rate": 0.0004899266118675854,
      "loss": 1.6733,
      "step": 25409
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3911469876766205,
      "learning_rate": 0.0004899185209857893,
      "loss": 1.7071,
      "step": 25410
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40247777104377747,
      "learning_rate": 0.0004899104298734604,
      "loss": 1.6307,
      "step": 25411
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38459086418151855,
      "learning_rate": 0.0004899023385306079,
      "loss": 1.6468,
      "step": 25412
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39018043875694275,
      "learning_rate": 0.000489894246957242,
      "loss": 1.6959,
      "step": 25413
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38833191990852356,
      "learning_rate": 0.0004898861551533726,
      "loss": 1.6819,
      "step": 25414
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39959898591041565,
      "learning_rate": 0.0004898780631190093,
      "loss": 1.7236,
      "step": 25415
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41426271200180054,
      "learning_rate": 0.000489869970854162,
      "loss": 1.7576,
      "step": 25416
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3896481394767761,
      "learning_rate": 0.0004898618783588405,
      "loss": 1.6248,
      "step": 25417
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3984610140323639,
      "learning_rate": 0.0004898537856330548,
      "loss": 1.6774,
      "step": 25418
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3886229991912842,
      "learning_rate": 0.0004898456926768145,
      "loss": 1.6522,
      "step": 25419
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3823838233947754,
      "learning_rate": 0.0004898375994901293,
      "loss": 1.6397,
      "step": 25420
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4030741751194,
      "learning_rate": 0.0004898295060730096,
      "loss": 1.7008,
      "step": 25421
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3870328664779663,
      "learning_rate": 0.0004898214124254645,
      "loss": 1.59,
      "step": 25422
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4039321839809418,
      "learning_rate": 0.0004898133185475043,
      "loss": 1.6583,
      "step": 25423
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3875443637371063,
      "learning_rate": 0.0004898052244391388,
      "loss": 1.7153,
      "step": 25424
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.379952073097229,
      "learning_rate": 0.0004897971301003777,
      "loss": 1.6518,
      "step": 25425
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40252962708473206,
      "learning_rate": 0.0004897890355312308,
      "loss": 1.6506,
      "step": 25426
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39862215518951416,
      "learning_rate": 0.0004897809407317079,
      "loss": 1.6494,
      "step": 25427
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37683501839637756,
      "learning_rate": 0.000489772845701819,
      "loss": 1.6142,
      "step": 25428
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3887994885444641,
      "learning_rate": 0.0004897647504415737,
      "loss": 1.6906,
      "step": 25429
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3835534155368805,
      "learning_rate": 0.0004897566549509822,
      "loss": 1.6557,
      "step": 25430
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4195535182952881,
      "learning_rate": 0.0004897485592300539,
      "loss": 1.6625,
      "step": 25431
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39652204513549805,
      "learning_rate": 0.0004897404632787988,
      "loss": 1.6945,
      "step": 25432
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39516693353652954,
      "learning_rate": 0.0004897323670972268,
      "loss": 1.7202,
      "step": 25433
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40427476167678833,
      "learning_rate": 0.0004897242706853476,
      "loss": 1.7164,
      "step": 25434
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4137507379055023,
      "learning_rate": 0.0004897161740431711,
      "loss": 1.6463,
      "step": 25435
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39293500781059265,
      "learning_rate": 0.0004897080771707072,
      "loss": 1.6713,
      "step": 25436
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3926424980163574,
      "learning_rate": 0.0004896999800679656,
      "loss": 1.7307,
      "step": 25437
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37914708256721497,
      "learning_rate": 0.0004896918827349562,
      "loss": 1.7066,
      "step": 25438
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38724952936172485,
      "learning_rate": 0.0004896837851716887,
      "loss": 1.6653,
      "step": 25439
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3787176012992859,
      "learning_rate": 0.0004896756873781731,
      "loss": 1.7105,
      "step": 25440
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3949143588542938,
      "learning_rate": 0.0004896675893544193,
      "loss": 1.6977,
      "step": 25441
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3807854950428009,
      "learning_rate": 0.0004896594911004367,
      "loss": 1.6091,
      "step": 25442
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38545435667037964,
      "learning_rate": 0.0004896513926162358,
      "loss": 1.5964,
      "step": 25443
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3923870921134949,
      "learning_rate": 0.0004896432939018257,
      "loss": 1.6247,
      "step": 25444
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40181881189346313,
      "learning_rate": 0.0004896351949572167,
      "loss": 1.7161,
      "step": 25445
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3996802270412445,
      "learning_rate": 0.0004896270957824185,
      "loss": 1.7171,
      "step": 25446
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39218491315841675,
      "learning_rate": 0.0004896189963774411,
      "loss": 1.6786,
      "step": 25447
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3965059220790863,
      "learning_rate": 0.000489610896742294,
      "loss": 1.737,
      "step": 25448
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41270318627357483,
      "learning_rate": 0.0004896027968769873,
      "loss": 1.7091,
      "step": 25449
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4033645689487457,
      "learning_rate": 0.0004895946967815307,
      "loss": 1.6551,
      "step": 25450
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39120352268218994,
      "learning_rate": 0.0004895865964559341,
      "loss": 1.7079,
      "step": 25451
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3896009027957916,
      "learning_rate": 0.0004895784959002072,
      "loss": 1.6808,
      "step": 25452
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3962377905845642,
      "learning_rate": 0.0004895703951143601,
      "loss": 1.6772,
      "step": 25453
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.42695748805999756,
      "learning_rate": 0.0004895622940984023,
      "loss": 1.7693,
      "step": 25454
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4077126979827881,
      "learning_rate": 0.000489554192852344,
      "loss": 1.7122,
      "step": 25455
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.382620245218277,
      "learning_rate": 0.0004895460913761948,
      "loss": 1.6652,
      "step": 25456
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38898956775665283,
      "learning_rate": 0.0004895379896699645,
      "loss": 1.7255,
      "step": 25457
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3958302140235901,
      "learning_rate": 0.000489529887733663,
      "loss": 1.7158,
      "step": 25458
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39254024624824524,
      "learning_rate": 0.0004895217855673002,
      "loss": 1.6998,
      "step": 25459
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40445101261138916,
      "learning_rate": 0.0004895136831708859,
      "loss": 1.664,
      "step": 25460
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3985571563243866,
      "learning_rate": 0.0004895055805444298,
      "loss": 1.597,
      "step": 25461
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4094012677669525,
      "learning_rate": 0.0004894974776879418,
      "loss": 1.6888,
      "step": 25462
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4279695749282837,
      "learning_rate": 0.000489489374601432,
      "loss": 1.6483,
      "step": 25463
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39120572805404663,
      "learning_rate": 0.0004894812712849098,
      "loss": 1.7092,
      "step": 25464
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3918846547603607,
      "learning_rate": 0.0004894731677383855,
      "loss": 1.7565,
      "step": 25465
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41109973192214966,
      "learning_rate": 0.0004894650639618685,
      "loss": 1.6586,
      "step": 25466
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.44043904542922974,
      "learning_rate": 0.0004894569599553689,
      "loss": 1.7464,
      "step": 25467
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4013480246067047,
      "learning_rate": 0.0004894488557188964,
      "loss": 1.6348,
      "step": 25468
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40520137548446655,
      "learning_rate": 0.000489440751252461,
      "loss": 1.6542,
      "step": 25469
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.402847558259964,
      "learning_rate": 0.0004894326465560724,
      "loss": 1.6763,
      "step": 25470
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39722201228141785,
      "learning_rate": 0.0004894245416297404,
      "loss": 1.6309,
      "step": 25471
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3741722106933594,
      "learning_rate": 0.0004894164364734751,
      "loss": 1.6396,
      "step": 25472
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3937776982784271,
      "learning_rate": 0.000489408331087286,
      "loss": 1.6866,
      "step": 25473
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3914777338504791,
      "learning_rate": 0.0004894002254711831,
      "loss": 1.6663,
      "step": 25474
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3978519141674042,
      "learning_rate": 0.0004893921196251764,
      "loss": 1.7062,
      "step": 25475
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3709731996059418,
      "learning_rate": 0.0004893840135492754,
      "loss": 1.6619,
      "step": 25476
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3999471962451935,
      "learning_rate": 0.0004893759072434901,
      "loss": 1.6606,
      "step": 25477
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39866122603416443,
      "learning_rate": 0.0004893678007078304,
      "loss": 1.6701,
      "step": 25478
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3877663314342499,
      "learning_rate": 0.0004893596939423062,
      "loss": 1.6786,
      "step": 25479
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.382852166891098,
      "learning_rate": 0.0004893515869469271,
      "loss": 1.6421,
      "step": 25480
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.396518737077713,
      "learning_rate": 0.0004893434797217031,
      "loss": 1.7012,
      "step": 25481
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40295639634132385,
      "learning_rate": 0.0004893353722666441,
      "loss": 1.6678,
      "step": 25482
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3968932330608368,
      "learning_rate": 0.0004893272645817596,
      "loss": 1.6824,
      "step": 25483
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38940271735191345,
      "learning_rate": 0.0004893191566670599,
      "loss": 1.5887,
      "step": 25484
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4122060239315033,
      "learning_rate": 0.0004893110485225547,
      "loss": 1.6342,
      "step": 25485
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4044879376888275,
      "learning_rate": 0.0004893029401482537,
      "loss": 1.7335,
      "step": 25486
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3876747786998749,
      "learning_rate": 0.0004892948315441668,
      "loss": 1.6661,
      "step": 25487
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3798789083957672,
      "learning_rate": 0.0004892867227103038,
      "loss": 1.5506,
      "step": 25488
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4260813593864441,
      "learning_rate": 0.0004892786136466747,
      "loss": 1.6778,
      "step": 25489
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3942165672779083,
      "learning_rate": 0.0004892705043532893,
      "loss": 1.6703,
      "step": 25490
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37641477584838867,
      "learning_rate": 0.0004892623948301574,
      "loss": 1.6531,
      "step": 25491
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3935055434703827,
      "learning_rate": 0.0004892542850772887,
      "loss": 1.6952,
      "step": 25492
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4449123442173004,
      "learning_rate": 0.0004892461750946932,
      "loss": 1.6214,
      "step": 25493
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4150107204914093,
      "learning_rate": 0.0004892380648823808,
      "loss": 1.7,
      "step": 25494
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3927766978740692,
      "learning_rate": 0.0004892299544403613,
      "loss": 1.651,
      "step": 25495
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.44459080696105957,
      "learning_rate": 0.0004892218437686444,
      "loss": 1.7117,
      "step": 25496
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4178174138069153,
      "learning_rate": 0.0004892137328672403,
      "loss": 1.7265,
      "step": 25497
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4258188307285309,
      "learning_rate": 0.0004892056217361584,
      "loss": 1.7815,
      "step": 25498
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3942689001560211,
      "learning_rate": 0.0004891975103754087,
      "loss": 1.6413,
      "step": 25499
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3914497196674347,
      "learning_rate": 0.0004891893987850012,
      "loss": 1.6519,
      "step": 25500
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4021172821521759,
      "learning_rate": 0.0004891812869649457,
      "loss": 1.6406,
      "step": 25501
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39629554748535156,
      "learning_rate": 0.000489173174915252,
      "loss": 1.6557,
      "step": 25502
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40247324109077454,
      "learning_rate": 0.0004891650626359298,
      "loss": 1.6935,
      "step": 25503
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39075079560279846,
      "learning_rate": 0.0004891569501269892,
      "loss": 1.6777,
      "step": 25504
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39953312277793884,
      "learning_rate": 0.0004891488373884399,
      "loss": 1.6581,
      "step": 25505
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40066057443618774,
      "learning_rate": 0.0004891407244202918,
      "loss": 1.7238,
      "step": 25506
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38266074657440186,
      "learning_rate": 0.0004891326112225546,
      "loss": 1.6552,
      "step": 25507
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3950265944004059,
      "learning_rate": 0.0004891244977952385,
      "loss": 1.644,
      "step": 25508
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39046865701675415,
      "learning_rate": 0.0004891163841383529,
      "loss": 1.5986,
      "step": 25509
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40484747290611267,
      "learning_rate": 0.000489108270251908,
      "loss": 1.5802,
      "step": 25510
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3853526711463928,
      "learning_rate": 0.0004891001561359136,
      "loss": 1.6114,
      "step": 25511
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40173396468162537,
      "learning_rate": 0.0004890920417903793,
      "loss": 1.6602,
      "step": 25512
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4035734534263611,
      "learning_rate": 0.0004890839272153152,
      "loss": 1.6783,
      "step": 25513
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38466542959213257,
      "learning_rate": 0.0004890758124107311,
      "loss": 1.6607,
      "step": 25514
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.388950914144516,
      "learning_rate": 0.0004890676973766368,
      "loss": 1.6792,
      "step": 25515
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3943229913711548,
      "learning_rate": 0.0004890595821130423,
      "loss": 1.6482,
      "step": 25516
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3853994905948639,
      "learning_rate": 0.0004890514666199571,
      "loss": 1.6651,
      "step": 25517
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3930414915084839,
      "learning_rate": 0.0004890433508973913,
      "loss": 1.7021,
      "step": 25518
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39824622869491577,
      "learning_rate": 0.0004890352349453548,
      "loss": 1.6933,
      "step": 25519
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38673219084739685,
      "learning_rate": 0.0004890271187638574,
      "loss": 1.6507,
      "step": 25520
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38758039474487305,
      "learning_rate": 0.000489019002352909,
      "loss": 1.6719,
      "step": 25521
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38354048132896423,
      "learning_rate": 0.0004890108857125192,
      "loss": 1.7138,
      "step": 25522
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39542344212532043,
      "learning_rate": 0.0004890027688426982,
      "loss": 1.6647,
      "step": 25523
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3985974192619324,
      "learning_rate": 0.0004889946517434555,
      "loss": 1.6617,
      "step": 25524
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3910731375217438,
      "learning_rate": 0.0004889865344148013,
      "loss": 1.6735,
      "step": 25525
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3995196223258972,
      "learning_rate": 0.0004889784168567452,
      "loss": 1.7333,
      "step": 25526
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39034783840179443,
      "learning_rate": 0.0004889702990692972,
      "loss": 1.6292,
      "step": 25527
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3919927775859833,
      "learning_rate": 0.0004889621810524671,
      "loss": 1.7538,
      "step": 25528
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4053376019001007,
      "learning_rate": 0.0004889540628062647,
      "loss": 1.7538,
      "step": 25529
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39781099557876587,
      "learning_rate": 0.0004889459443307,
      "loss": 1.7174,
      "step": 25530
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38352707028388977,
      "learning_rate": 0.0004889378256257827,
      "loss": 1.7162,
      "step": 25531
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3792526423931122,
      "learning_rate": 0.0004889297066915227,
      "loss": 1.6683,
      "step": 25532
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4178290367126465,
      "learning_rate": 0.00048892158752793,
      "loss": 1.6571,
      "step": 25533
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3887542486190796,
      "learning_rate": 0.0004889134681350142,
      "loss": 1.7025,
      "step": 25534
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3994161784648895,
      "learning_rate": 0.0004889053485127852,
      "loss": 1.6632,
      "step": 25535
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40286877751350403,
      "learning_rate": 0.0004888972286612532,
      "loss": 1.6258,
      "step": 25536
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4041788578033447,
      "learning_rate": 0.0004888891085804276,
      "loss": 1.6314,
      "step": 25537
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3899100720882416,
      "learning_rate": 0.0004888809882703186,
      "loss": 1.6503,
      "step": 25538
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3874949812889099,
      "learning_rate": 0.0004888728677309357,
      "loss": 1.645,
      "step": 25539
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39213234186172485,
      "learning_rate": 0.0004888647469622891,
      "loss": 1.7032,
      "step": 25540
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3921481668949127,
      "learning_rate": 0.0004888566259643886,
      "loss": 1.677,
      "step": 25541
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39183706045150757,
      "learning_rate": 0.0004888485047372438,
      "loss": 1.6682,
      "step": 25542
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3881654739379883,
      "learning_rate": 0.0004888403832808649,
      "loss": 1.7054,
      "step": 25543
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4051678478717804,
      "learning_rate": 0.0004888322615952614,
      "loss": 1.7776,
      "step": 25544
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3986496329307556,
      "learning_rate": 0.0004888241396804435,
      "loss": 1.6526,
      "step": 25545
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41583359241485596,
      "learning_rate": 0.000488816017536421,
      "loss": 1.7328,
      "step": 25546
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39442598819732666,
      "learning_rate": 0.0004888078951632036,
      "loss": 1.6004,
      "step": 25547
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39230653643608093,
      "learning_rate": 0.0004887997725608013,
      "loss": 1.6351,
      "step": 25548
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38794219493865967,
      "learning_rate": 0.0004887916497292238,
      "loss": 1.6484,
      "step": 25549
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5413166880607605,
      "learning_rate": 0.0004887835266684811,
      "loss": 1.6914,
      "step": 25550
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3984200358390808,
      "learning_rate": 0.0004887754033785828,
      "loss": 1.6342,
      "step": 25551
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38211366534233093,
      "learning_rate": 0.0004887672798595393,
      "loss": 1.618,
      "step": 25552
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.398183673620224,
      "learning_rate": 0.00048875915611136,
      "loss": 1.6955,
      "step": 25553
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3843761682510376,
      "learning_rate": 0.0004887510321340548,
      "loss": 1.6347,
      "step": 25554
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40390992164611816,
      "learning_rate": 0.0004887429079276338,
      "loss": 1.7682,
      "step": 25555
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39624708890914917,
      "learning_rate": 0.0004887347834921067,
      "loss": 1.7051,
      "step": 25556
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4083821475505829,
      "learning_rate": 0.0004887266588274833,
      "loss": 1.5803,
      "step": 25557
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39785847067832947,
      "learning_rate": 0.0004887185339337737,
      "loss": 1.809,
      "step": 25558
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3910259008407593,
      "learning_rate": 0.0004887104088109874,
      "loss": 1.725,
      "step": 25559
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38487568497657776,
      "learning_rate": 0.0004887022834591346,
      "loss": 1.6359,
      "step": 25560
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38912880420684814,
      "learning_rate": 0.0004886941578782249,
      "loss": 1.659,
      "step": 25561
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41300639510154724,
      "learning_rate": 0.0004886860320682685,
      "loss": 1.7388,
      "step": 25562
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.390363484621048,
      "learning_rate": 0.000488677906029275,
      "loss": 1.6787,
      "step": 25563
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38677603006362915,
      "learning_rate": 0.0004886697797612542,
      "loss": 1.6449,
      "step": 25564
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.376991868019104,
      "learning_rate": 0.0004886616532642162,
      "loss": 1.6498,
      "step": 25565
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38403844833374023,
      "learning_rate": 0.0004886535265381707,
      "loss": 1.5712,
      "step": 25566
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4149496257305145,
      "learning_rate": 0.0004886453995831277,
      "loss": 1.6771,
      "step": 25567
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3934023976325989,
      "learning_rate": 0.0004886372723990969,
      "loss": 1.6631,
      "step": 25568
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3822820484638214,
      "learning_rate": 0.0004886291449860882,
      "loss": 1.6454,
      "step": 25569
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.392208993434906,
      "learning_rate": 0.0004886210173441116,
      "loss": 1.5961,
      "step": 25570
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.389598548412323,
      "learning_rate": 0.0004886128894731768,
      "loss": 1.5888,
      "step": 25571
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3741666078567505,
      "learning_rate": 0.0004886047613732939,
      "loss": 1.6513,
      "step": 25572
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39123469591140747,
      "learning_rate": 0.0004885966330444724,
      "loss": 1.6192,
      "step": 25573
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39799633622169495,
      "learning_rate": 0.0004885885044867224,
      "loss": 1.6628,
      "step": 25574
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40509316325187683,
      "learning_rate": 0.0004885803757000539,
      "loss": 1.6803,
      "step": 25575
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40904441475868225,
      "learning_rate": 0.0004885722466844765,
      "loss": 1.6994,
      "step": 25576
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37303146719932556,
      "learning_rate": 0.0004885641174400002,
      "loss": 1.6753,
      "step": 25577
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3940492868423462,
      "learning_rate": 0.0004885559879666349,
      "loss": 1.6888,
      "step": 25578
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.390701025724411,
      "learning_rate": 0.0004885478582643904,
      "loss": 1.6599,
      "step": 25579
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3957495093345642,
      "learning_rate": 0.0004885397283332765,
      "loss": 1.6906,
      "step": 25580
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4010377824306488,
      "learning_rate": 0.0004885315981733032,
      "loss": 1.6429,
      "step": 25581
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3945966362953186,
      "learning_rate": 0.0004885234677844804,
      "loss": 1.6583,
      "step": 25582
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3899059295654297,
      "learning_rate": 0.0004885153371668177,
      "loss": 1.6746,
      "step": 25583
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38552579283714294,
      "learning_rate": 0.0004885072063203253,
      "loss": 1.6623,
      "step": 25584
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38145768642425537,
      "learning_rate": 0.0004884990752450129,
      "loss": 1.6519,
      "step": 25585
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3846154808998108,
      "learning_rate": 0.0004884909439408902,
      "loss": 1.6139,
      "step": 25586
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3907278776168823,
      "learning_rate": 0.0004884828124079675,
      "loss": 1.5571,
      "step": 25587
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3911040127277374,
      "learning_rate": 0.0004884746806462546,
      "loss": 1.5911,
      "step": 25588
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39712074398994446,
      "learning_rate": 0.0004884665486557608,
      "loss": 1.6984,
      "step": 25589
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3896182179450989,
      "learning_rate": 0.0004884584164364966,
      "loss": 1.6904,
      "step": 25590
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.37898626923561096,
      "learning_rate": 0.0004884502839884716,
      "loss": 1.6932,
      "step": 25591
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3882710635662079,
      "learning_rate": 0.0004884421513116959,
      "loss": 1.6616,
      "step": 25592
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39156293869018555,
      "learning_rate": 0.000488434018406179,
      "loss": 1.6759,
      "step": 25593
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3857553005218506,
      "learning_rate": 0.000488425885271931,
      "loss": 1.7292,
      "step": 25594
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38727691769599915,
      "learning_rate": 0.0004884177519089617,
      "loss": 1.7316,
      "step": 25595
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38640761375427246,
      "learning_rate": 0.000488409618317281,
      "loss": 1.6951,
      "step": 25596
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4031645655632019,
      "learning_rate": 0.0004884014844968988,
      "loss": 1.6102,
      "step": 25597
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3963887095451355,
      "learning_rate": 0.0004883933504478251,
      "loss": 1.7073,
      "step": 25598
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3911695182323456,
      "learning_rate": 0.0004883852161700695,
      "loss": 1.702,
      "step": 25599
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4566344916820526,
      "learning_rate": 0.0004883770816636421,
      "loss": 1.7071,
      "step": 25600
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39850980043411255,
      "learning_rate": 0.0004883689469285526,
      "loss": 1.7326,
      "step": 25601
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3966948688030243,
      "learning_rate": 0.0004883608119648109,
      "loss": 1.7042,
      "step": 25602
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39461565017700195,
      "learning_rate": 0.000488352676772427,
      "loss": 1.6746,
      "step": 25603
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38463354110717773,
      "learning_rate": 0.0004883445413514107,
      "loss": 1.639,
      "step": 25604
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5625384449958801,
      "learning_rate": 0.0004883364057017719,
      "loss": 1.6102,
      "step": 25605
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3943221867084503,
      "learning_rate": 0.0004883282698235204,
      "loss": 1.6727,
      "step": 25606
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38976967334747314,
      "learning_rate": 0.0004883201337166661,
      "loss": 1.6726,
      "step": 25607
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38611552119255066,
      "learning_rate": 0.000488311997381219,
      "loss": 1.5959,
      "step": 25608
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4055807292461395,
      "learning_rate": 0.0004883038608171888,
      "loss": 1.6687,
      "step": 25609
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3866818845272064,
      "learning_rate": 0.0004882957240245855,
      "loss": 1.6276,
      "step": 25610
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4040926992893219,
      "learning_rate": 0.000488287587003419,
      "loss": 1.6604,
      "step": 25611
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4088144898414612,
      "learning_rate": 0.000488279449753699,
      "loss": 1.6758,
      "step": 25612
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3965822756290436,
      "learning_rate": 0.0004882713122754356,
      "loss": 1.6852,
      "step": 25613
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39023128151893616,
      "learning_rate": 0.0004882631745686385,
      "loss": 1.6584,
      "step": 25614
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.386771559715271,
      "learning_rate": 0.0004882550366333177,
      "loss": 1.6795,
      "step": 25615
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4126969277858734,
      "learning_rate": 0.00048824689846948285,
      "loss": 1.6369,
      "step": 25616
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40926724672317505,
      "learning_rate": 0.0004882387600771442,
      "loss": 1.6487,
      "step": 25617
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41003772616386414,
      "learning_rate": 0.00048823062145631136,
      "loss": 1.6665,
      "step": 25618
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3936113119125366,
      "learning_rate": 0.00048822248260699426,
      "loss": 1.6679,
      "step": 25619
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4026840925216675,
      "learning_rate": 0.0004882143435292028,
      "loss": 1.7063,
      "step": 25620
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4164394438266754,
      "learning_rate": 0.00048820620422294686,
      "loss": 1.7377,
      "step": 25621
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4129997789859772,
      "learning_rate": 0.0004881980646882364,
      "loss": 1.6158,
      "step": 25622
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40569859743118286,
      "learning_rate": 0.0004881899249250811,
      "loss": 1.6761,
      "step": 25623
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3898700177669525,
      "learning_rate": 0.000488181784933491,
      "loss": 1.6597,
      "step": 25624
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39865222573280334,
      "learning_rate": 0.000488173644713476,
      "loss": 1.6959,
      "step": 25625
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39663952589035034,
      "learning_rate": 0.00048816550426504583,
      "loss": 1.6661,
      "step": 25626
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38758233189582825,
      "learning_rate": 0.00048815736358821056,
      "loss": 1.6192,
      "step": 25627
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39096835255622864,
      "learning_rate": 0.0004881492226829799,
      "loss": 1.6991,
      "step": 25628
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40408414602279663,
      "learning_rate": 0.0004881410815493638,
      "loss": 1.7253,
      "step": 25629
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39789092540740967,
      "learning_rate": 0.0004881329401873722,
      "loss": 1.7234,
      "step": 25630
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3829585611820221,
      "learning_rate": 0.0004881247985970149,
      "loss": 1.6387,
      "step": 25631
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39757102727890015,
      "learning_rate": 0.00048811665677830186,
      "loss": 1.657,
      "step": 25632
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4067789316177368,
      "learning_rate": 0.0004881085147312429,
      "loss": 1.6972,
      "step": 25633
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41249099373817444,
      "learning_rate": 0.00048810037245584784,
      "loss": 1.655,
      "step": 25634
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3777880072593689,
      "learning_rate": 0.0004880922299521267,
      "loss": 1.6857,
      "step": 25635
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39643019437789917,
      "learning_rate": 0.00048808408722008934,
      "loss": 1.6643,
      "step": 25636
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3888944089412689,
      "learning_rate": 0.00048807594425974557,
      "loss": 1.6426,
      "step": 25637
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3920206129550934,
      "learning_rate": 0.0004880678010711054,
      "loss": 1.6397,
      "step": 25638
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39419662952423096,
      "learning_rate": 0.00048805965765417845,
      "loss": 1.6162,
      "step": 25639
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4166784882545471,
      "learning_rate": 0.00048805151400897496,
      "loss": 1.6528,
      "step": 25640
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.42011958360671997,
      "learning_rate": 0.0004880433701355045,
      "loss": 1.739,
      "step": 25641
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39193519949913025,
      "learning_rate": 0.00048803522603377714,
      "loss": 1.7319,
      "step": 25642
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3972296714782715,
      "learning_rate": 0.0004880270817038028,
      "loss": 1.7105,
      "step": 25643
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3964528739452362,
      "learning_rate": 0.0004880189371455912,
      "loss": 1.5914,
      "step": 25644
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41170474886894226,
      "learning_rate": 0.0004880107923591524,
      "loss": 1.7877,
      "step": 25645
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.401492178440094,
      "learning_rate": 0.00048800264734449606,
      "loss": 1.6405,
      "step": 25646
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39902710914611816,
      "learning_rate": 0.0004879945021016324,
      "loss": 1.7344,
      "step": 25647
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.42422398924827576,
      "learning_rate": 0.00048798635663057104,
      "loss": 1.7014,
      "step": 25648
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3838122487068176,
      "learning_rate": 0.00048797821093132175,
      "loss": 1.6851,
      "step": 25649
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3956090807914734,
      "learning_rate": 0.00048797006500389485,
      "loss": 1.6889,
      "step": 25650
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39277929067611694,
      "learning_rate": 0.0004879619188482999,
      "loss": 1.62,
      "step": 25651
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3939130902290344,
      "learning_rate": 0.00048795377246454687,
      "loss": 1.6216,
      "step": 25652
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3933359980583191,
      "learning_rate": 0.00048794562585264574,
      "loss": 1.6449,
      "step": 25653
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.378680944442749,
      "learning_rate": 0.00048793747901260614,
      "loss": 1.7449,
      "step": 25654
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4694361090660095,
      "learning_rate": 0.0004879293319444383,
      "loss": 1.6491,
      "step": 25655
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.391949325799942,
      "learning_rate": 0.0004879211846481518,
      "loss": 1.6459,
      "step": 25656
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4087649881839752,
      "learning_rate": 0.00048791303712375673,
      "loss": 1.733,
      "step": 25657
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38917598128318787,
      "learning_rate": 0.000487904889371263,
      "loss": 1.712,
      "step": 25658
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39814919233322144,
      "learning_rate": 0.0004878967413906803,
      "loss": 1.6897,
      "step": 25659
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39204472303390503,
      "learning_rate": 0.00048788859318201876,
      "loss": 1.618,
      "step": 25660
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38680848479270935,
      "learning_rate": 0.00048788044474528807,
      "loss": 1.6439,
      "step": 25661
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4000488519668579,
      "learning_rate": 0.00048787229608049826,
      "loss": 1.6231,
      "step": 25662
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3843149244785309,
      "learning_rate": 0.00048786414718765905,
      "loss": 1.6934,
      "step": 25663
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3986908793449402,
      "learning_rate": 0.0004878559980667805,
      "loss": 1.6253,
      "step": 25664
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.42988795042037964,
      "learning_rate": 0.0004878478487178725,
      "loss": 1.6755,
      "step": 25665
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3924388587474823,
      "learning_rate": 0.00048783969914094485,
      "loss": 1.6697,
      "step": 25666
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3984323740005493,
      "learning_rate": 0.0004878315493360075,
      "loss": 1.6158,
      "step": 25667
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40035176277160645,
      "learning_rate": 0.0004878233993030703,
      "loss": 1.7737,
      "step": 25668
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3868991434574127,
      "learning_rate": 0.0004878152490421432,
      "loss": 1.626,
      "step": 25669
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3879019320011139,
      "learning_rate": 0.0004878070985532361,
      "loss": 1.7066,
      "step": 25670
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39048120379447937,
      "learning_rate": 0.0004877989478363587,
      "loss": 1.7026,
      "step": 25671
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4040469229221344,
      "learning_rate": 0.0004877907968915212,
      "loss": 1.6837,
      "step": 25672
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4007803201675415,
      "learning_rate": 0.00048778264571873323,
      "loss": 1.7402,
      "step": 25673
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39308062195777893,
      "learning_rate": 0.00048777449431800483,
      "loss": 1.6673,
      "step": 25674
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.385943740606308,
      "learning_rate": 0.0004877663426893459,
      "loss": 1.6718,
      "step": 25675
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3857392370700836,
      "learning_rate": 0.0004877581908327663,
      "loss": 1.6156,
      "step": 25676
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40149444341659546,
      "learning_rate": 0.0004877500387482759,
      "loss": 1.673,
      "step": 25677
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3909931480884552,
      "learning_rate": 0.00048774188643588463,
      "loss": 1.6366,
      "step": 25678
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3847670257091522,
      "learning_rate": 0.0004877337338956023,
      "loss": 1.7274,
      "step": 25679
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4101410508155823,
      "learning_rate": 0.000487725581127439,
      "loss": 1.639,
      "step": 25680
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38560009002685547,
      "learning_rate": 0.0004877174281314044,
      "loss": 1.6974,
      "step": 25681
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38584354519844055,
      "learning_rate": 0.0004877092749075086,
      "loss": 1.7244,
      "step": 25682
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3969726860523224,
      "learning_rate": 0.0004877011214557613,
      "loss": 1.7142,
      "step": 25683
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4147440791130066,
      "learning_rate": 0.00048769296777617253,
      "loss": 1.6023,
      "step": 25684
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3929271697998047,
      "learning_rate": 0.00048768481386875223,
      "loss": 1.6731,
      "step": 25685
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3965725302696228,
      "learning_rate": 0.00048767665973351016,
      "loss": 1.6159,
      "step": 25686
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3919816017150879,
      "learning_rate": 0.0004876685053704563,
      "loss": 1.6911,
      "step": 25687
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3991549015045166,
      "learning_rate": 0.00048766035077960036,
      "loss": 1.7117,
      "step": 25688
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39641842246055603,
      "learning_rate": 0.00048765219596095253,
      "loss": 1.6852,
      "step": 25689
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3907555937767029,
      "learning_rate": 0.00048764404091452266,
      "loss": 1.6548,
      "step": 25690
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3922743797302246,
      "learning_rate": 0.00048763588564032046,
      "loss": 1.6446,
      "step": 25691
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.40423715114593506,
      "learning_rate": 0.00048762773013835605,
      "loss": 1.6264,
      "step": 25692
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39258524775505066,
      "learning_rate": 0.00048761957440863915,
      "loss": 1.6887,
      "step": 25693
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.44529786705970764,
      "learning_rate": 0.00048761141845117973,
      "loss": 1.6502,
      "step": 25694
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3876205086708069,
      "learning_rate": 0.0004876032622659877,
      "loss": 1.6828,
      "step": 25695
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4010463356971741,
      "learning_rate": 0.0004875951058530729,
      "loss": 1.7155,
      "step": 25696
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39923304319381714,
      "learning_rate": 0.0004875869492124454,
      "loss": 1.7264,
      "step": 25697
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39659583568573,
      "learning_rate": 0.0004875787923441149,
      "loss": 1.7101,
      "step": 25698
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.400418758392334,
      "learning_rate": 0.00048757063524809143,
      "loss": 1.7045,
      "step": 25699
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39322760701179504,
      "learning_rate": 0.00048756247792438483,
      "loss": 1.7124,
      "step": 25700
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39246636629104614,
      "learning_rate": 0.000487554320373005,
      "loss": 1.6341,
      "step": 25701
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3900854289531708,
      "learning_rate": 0.00048754616259396184,
      "loss": 1.5696,
      "step": 25702
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39268434047698975,
      "learning_rate": 0.0004875380045872652,
      "loss": 1.703,
      "step": 25703
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3974423408508301,
      "learning_rate": 0.00048752984635292524,
      "loss": 1.703,
      "step": 25704
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38987618684768677,
      "learning_rate": 0.00048752168789095165,
      "loss": 1.6563,
      "step": 25705
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3910371661186218,
      "learning_rate": 0.00048751352920135425,
      "loss": 1.6348,
      "step": 25706
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3932402729988098,
      "learning_rate": 0.0004875053702841431,
      "loss": 1.655,
      "step": 25707
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39549878239631653,
      "learning_rate": 0.000487497211139328,
      "loss": 1.6786,
      "step": 25708
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3885098695755005,
      "learning_rate": 0.00048748905176691906,
      "loss": 1.5982,
      "step": 25709
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39283132553100586,
      "learning_rate": 0.0004874808921669259,
      "loss": 1.6836,
      "step": 25710
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38533279299736023,
      "learning_rate": 0.00048747273233935867,
      "loss": 1.6575,
      "step": 25711
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39626821875572205,
      "learning_rate": 0.00048746457228422707,
      "loss": 1.6744,
      "step": 25712
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39395102858543396,
      "learning_rate": 0.0004874564120015411,
      "loss": 1.6946,
      "step": 25713
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4007555842399597,
      "learning_rate": 0.0004874482514913107,
      "loss": 1.6991,
      "step": 25714
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3990205228328705,
      "learning_rate": 0.00048744009075354585,
      "loss": 1.6543,
      "step": 25715
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38716214895248413,
      "learning_rate": 0.0004874319297882562,
      "loss": 1.6756,
      "step": 25716
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39614641666412354,
      "learning_rate": 0.0004874237685954518,
      "loss": 1.5881,
      "step": 25717
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3898155689239502,
      "learning_rate": 0.0004874156071751426,
      "loss": 1.7326,
      "step": 25718
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3921423554420471,
      "learning_rate": 0.0004874074455273385,
      "loss": 1.6341,
      "step": 25719
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39684849977493286,
      "learning_rate": 0.0004873992836520494,
      "loss": 1.6132,
      "step": 25720
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3964480757713318,
      "learning_rate": 0.00048739112154928506,
      "loss": 1.759,
      "step": 25721
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3889687657356262,
      "learning_rate": 0.00048738295921905566,
      "loss": 1.6308,
      "step": 25722
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38638514280319214,
      "learning_rate": 0.0004873747966613708,
      "loss": 1.7172,
      "step": 25723
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40190479159355164,
      "learning_rate": 0.0004873666338762407,
      "loss": 1.639,
      "step": 25724
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3856443166732788,
      "learning_rate": 0.00048735847086367505,
      "loss": 1.7173,
      "step": 25725
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.37800097465515137,
      "learning_rate": 0.00048735030762368374,
      "loss": 1.5854,
      "step": 25726
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3958544433116913,
      "learning_rate": 0.0004873421441562769,
      "loss": 1.6481,
      "step": 25727
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3919731378555298,
      "learning_rate": 0.0004873339804614642,
      "loss": 1.6635,
      "step": 25728
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40983280539512634,
      "learning_rate": 0.0004873258165392557,
      "loss": 1.7,
      "step": 25729
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38924065232276917,
      "learning_rate": 0.0004873176523896612,
      "loss": 1.6135,
      "step": 25730
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38374966382980347,
      "learning_rate": 0.0004873094880126907,
      "loss": 1.7278,
      "step": 25731
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3994297981262207,
      "learning_rate": 0.0004873013234083542,
      "loss": 1.6408,
      "step": 25732
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39319777488708496,
      "learning_rate": 0.0004872931585766613,
      "loss": 1.7033,
      "step": 25733
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3982372283935547,
      "learning_rate": 0.00048728499351762217,
      "loss": 1.6398,
      "step": 25734
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7402180433273315,
      "learning_rate": 0.00048727682823124674,
      "loss": 1.7914,
      "step": 25735
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4022478759288788,
      "learning_rate": 0.00048726866271754475,
      "loss": 1.6693,
      "step": 25736
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3849935531616211,
      "learning_rate": 0.00048726049697652617,
      "loss": 1.7071,
      "step": 25737
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3903803825378418,
      "learning_rate": 0.00048725233100820097,
      "loss": 1.7074,
      "step": 25738
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3941725194454193,
      "learning_rate": 0.00048724416481257907,
      "loss": 1.681,
      "step": 25739
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4046332836151123,
      "learning_rate": 0.00048723599838967034,
      "loss": 1.7156,
      "step": 25740
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3960755467414856,
      "learning_rate": 0.00048722783173948465,
      "loss": 1.649,
      "step": 25741
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39033591747283936,
      "learning_rate": 0.00048721966486203196,
      "loss": 1.6915,
      "step": 25742
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3997769057750702,
      "learning_rate": 0.00048721149775732216,
      "loss": 1.7189,
      "step": 25743
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3928789794445038,
      "learning_rate": 0.0004872033304253652,
      "loss": 1.6671,
      "step": 25744
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3902490735054016,
      "learning_rate": 0.000487195162866171,
      "loss": 1.6914,
      "step": 25745
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38926008343696594,
      "learning_rate": 0.0004871869950797495,
      "loss": 1.6137,
      "step": 25746
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4011385440826416,
      "learning_rate": 0.00048717882706611053,
      "loss": 1.6998,
      "step": 25747
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3809599280357361,
      "learning_rate": 0.000487170658825264,
      "loss": 1.6513,
      "step": 25748
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3904385566711426,
      "learning_rate": 0.00048716249035721997,
      "loss": 1.6921,
      "step": 25749
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39505237340927124,
      "learning_rate": 0.0004871543216619882,
      "loss": 1.6133,
      "step": 25750
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3793371021747589,
      "learning_rate": 0.0004871461527395786,
      "loss": 1.6292,
      "step": 25751
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40239980816841125,
      "learning_rate": 0.00048713798359000123,
      "loss": 1.6868,
      "step": 25752
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39957574009895325,
      "learning_rate": 0.0004871298142132659,
      "loss": 1.6797,
      "step": 25753
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3813389539718628,
      "learning_rate": 0.00048712164460938256,
      "loss": 1.6554,
      "step": 25754
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38628047704696655,
      "learning_rate": 0.0004871134747783611,
      "loss": 1.6572,
      "step": 25755
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3859824240207672,
      "learning_rate": 0.00048710530472021135,
      "loss": 1.643,
      "step": 25756
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39385083317756653,
      "learning_rate": 0.0004870971344349435,
      "loss": 1.6648,
      "step": 25757
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4092922508716583,
      "learning_rate": 0.00048708896392256714,
      "loss": 1.6488,
      "step": 25758
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39798417687416077,
      "learning_rate": 0.0004870807931830925,
      "loss": 1.6694,
      "step": 25759
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38881516456604004,
      "learning_rate": 0.00048707262221652924,
      "loss": 1.6294,
      "step": 25760
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3858744204044342,
      "learning_rate": 0.0004870644510228874,
      "loss": 1.631,
      "step": 25761
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40905824303627014,
      "learning_rate": 0.00048705627960217695,
      "loss": 1.6553,
      "step": 25762
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3887539207935333,
      "learning_rate": 0.0004870481079544076,
      "loss": 1.6942,
      "step": 25763
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39871418476104736,
      "learning_rate": 0.0004870399360795894,
      "loss": 1.6759,
      "step": 25764
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.41402897238731384,
      "learning_rate": 0.0004870317639777325,
      "loss": 1.6478,
      "step": 25765
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3932390809059143,
      "learning_rate": 0.00048702359164884635,
      "loss": 1.688,
      "step": 25766
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3900968134403229,
      "learning_rate": 0.00048701541909294127,
      "loss": 1.6398,
      "step": 25767
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0976784229278564,
      "learning_rate": 0.000487007246310027,
      "loss": 1.6755,
      "step": 25768
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40416979789733887,
      "learning_rate": 0.00048699907330011343,
      "loss": 1.6004,
      "step": 25769
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38929739594459534,
      "learning_rate": 0.00048699090006321057,
      "loss": 1.6704,
      "step": 25770
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39933010935783386,
      "learning_rate": 0.00048698272659932835,
      "loss": 1.6885,
      "step": 25771
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3880894184112549,
      "learning_rate": 0.0004869745529084766,
      "loss": 1.5938,
      "step": 25772
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3831401765346527,
      "learning_rate": 0.00048696637899066527,
      "loss": 1.6455,
      "step": 25773
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3846554756164551,
      "learning_rate": 0.00048695820484590435,
      "loss": 1.6173,
      "step": 25774
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4943629503250122,
      "learning_rate": 0.0004869500304742037,
      "loss": 1.6486,
      "step": 25775
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39459481835365295,
      "learning_rate": 0.0004869418558755732,
      "loss": 1.6474,
      "step": 25776
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5204946398735046,
      "learning_rate": 0.000486933681050023,
      "loss": 1.709,
      "step": 25777
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4007459282875061,
      "learning_rate": 0.00048692550599756273,
      "loss": 1.7142,
      "step": 25778
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4101025462150574,
      "learning_rate": 0.0004869173307182024,
      "loss": 1.7073,
      "step": 25779
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39629942178726196,
      "learning_rate": 0.00048690915521195207,
      "loss": 1.6604,
      "step": 25780
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.383767306804657,
      "learning_rate": 0.00048690097947882147,
      "loss": 1.6585,
      "step": 25781
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3869439661502838,
      "learning_rate": 0.0004868928035188207,
      "loss": 1.6664,
      "step": 25782
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3956383764743805,
      "learning_rate": 0.0004868846273319596,
      "loss": 1.723,
      "step": 25783
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3933638334274292,
      "learning_rate": 0.00048687645091824807,
      "loss": 1.6746,
      "step": 25784
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3937135636806488,
      "learning_rate": 0.00048686827427769604,
      "loss": 1.7146,
      "step": 25785
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3913939595222473,
      "learning_rate": 0.00048686009741031347,
      "loss": 1.6521,
      "step": 25786
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38015881180763245,
      "learning_rate": 0.0004868519203161104,
      "loss": 1.6428,
      "step": 25787
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38824862241744995,
      "learning_rate": 0.0004868437429950964,
      "loss": 1.6383,
      "step": 25788
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40338441729545593,
      "learning_rate": 0.0004868355654472818,
      "loss": 1.6658,
      "step": 25789
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39384132623672485,
      "learning_rate": 0.0004868273876726763,
      "loss": 1.6472,
      "step": 25790
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40196311473846436,
      "learning_rate": 0.0004868192096712898,
      "loss": 1.6298,
      "step": 25791
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39580368995666504,
      "learning_rate": 0.00048681103144313247,
      "loss": 1.6663,
      "step": 25792
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4056260287761688,
      "learning_rate": 0.00048680285298821396,
      "loss": 1.6646,
      "step": 25793
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4140027165412903,
      "learning_rate": 0.00048679467430654433,
      "loss": 1.7094,
      "step": 25794
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38942286372184753,
      "learning_rate": 0.00048678649539813355,
      "loss": 1.6554,
      "step": 25795
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40946441888809204,
      "learning_rate": 0.00048677831626299143,
      "loss": 1.7162,
      "step": 25796
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.41095083951950073,
      "learning_rate": 0.00048677013690112794,
      "loss": 1.6943,
      "step": 25797
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4344504475593567,
      "learning_rate": 0.000486761957312553,
      "loss": 1.6915,
      "step": 25798
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39799973368644714,
      "learning_rate": 0.0004867537774972766,
      "loss": 1.648,
      "step": 25799
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4290768504142761,
      "learning_rate": 0.00048674559745530866,
      "loss": 1.6185,
      "step": 25800
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39760342240333557,
      "learning_rate": 0.000486737417186659,
      "loss": 1.582,
      "step": 25801
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4026595652103424,
      "learning_rate": 0.0004867292366913377,
      "loss": 1.6296,
      "step": 25802
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4024340808391571,
      "learning_rate": 0.0004867210559693546,
      "loss": 1.6656,
      "step": 25803
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40924036502838135,
      "learning_rate": 0.00048671287502071966,
      "loss": 1.6854,
      "step": 25804
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4155074656009674,
      "learning_rate": 0.00048670469384544276,
      "loss": 1.714,
      "step": 25805
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4120851159095764,
      "learning_rate": 0.00048669651244353395,
      "loss": 1.6203,
      "step": 25806
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3962594270706177,
      "learning_rate": 0.0004866883308150031,
      "loss": 1.6826,
      "step": 25807
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4122132956981659,
      "learning_rate": 0.00048668014895986,
      "loss": 1.6809,
      "step": 25808
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3883135914802551,
      "learning_rate": 0.0004866719668781148,
      "loss": 1.6446,
      "step": 25809
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40264150500297546,
      "learning_rate": 0.00048666378456977723,
      "loss": 1.6903,
      "step": 25810
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3876595199108124,
      "learning_rate": 0.00048665560203485747,
      "loss": 1.6536,
      "step": 25811
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3998698890209198,
      "learning_rate": 0.00048664741927336526,
      "loss": 1.7288,
      "step": 25812
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4102422297000885,
      "learning_rate": 0.00048663923628531057,
      "loss": 1.6878,
      "step": 25813
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4007953107357025,
      "learning_rate": 0.0004866310530707033,
      "loss": 1.6464,
      "step": 25814
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38474011421203613,
      "learning_rate": 0.0004866228696295535,
      "loss": 1.5667,
      "step": 25815
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.391217976808548,
      "learning_rate": 0.000486614685961871,
      "loss": 1.7042,
      "step": 25816
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38840678334236145,
      "learning_rate": 0.0004866065020676658,
      "loss": 1.5449,
      "step": 25817
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39427080750465393,
      "learning_rate": 0.0004865983179469477,
      "loss": 1.6647,
      "step": 25818
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40695720911026,
      "learning_rate": 0.0004865901335997269,
      "loss": 1.7301,
      "step": 25819
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.41504624485969543,
      "learning_rate": 0.00048658194902601303,
      "loss": 1.684,
      "step": 25820
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4027663469314575,
      "learning_rate": 0.0004865737642258162,
      "loss": 1.6675,
      "step": 25821
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4167814552783966,
      "learning_rate": 0.00048656557919914633,
      "loss": 1.6879,
      "step": 25822
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4035523533821106,
      "learning_rate": 0.0004865573939460134,
      "loss": 1.6518,
      "step": 25823
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.391447514295578,
      "learning_rate": 0.0004865492084664272,
      "loss": 1.7169,
      "step": 25824
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4021066427230835,
      "learning_rate": 0.0004865410227603978,
      "loss": 1.6854,
      "step": 25825
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3932972252368927,
      "learning_rate": 0.00048653283682793504,
      "loss": 1.7377,
      "step": 25826
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3988582193851471,
      "learning_rate": 0.00048652465066904887,
      "loss": 1.6522,
      "step": 25827
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.395282119512558,
      "learning_rate": 0.00048651646428374935,
      "loss": 1.6384,
      "step": 25828
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3976752758026123,
      "learning_rate": 0.0004865082776720463,
      "loss": 1.661,
      "step": 25829
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40901532769203186,
      "learning_rate": 0.00048650009083394964,
      "loss": 1.7057,
      "step": 25830
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4067971408367157,
      "learning_rate": 0.00048649190376946934,
      "loss": 1.7535,
      "step": 25831
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40731436014175415,
      "learning_rate": 0.0004864837164786154,
      "loss": 1.5592,
      "step": 25832
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3873399794101715,
      "learning_rate": 0.0004864755289613977,
      "loss": 1.7285,
      "step": 25833
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39737534523010254,
      "learning_rate": 0.0004864673412178261,
      "loss": 1.7088,
      "step": 25834
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3984812796115875,
      "learning_rate": 0.0004864591532479107,
      "loss": 1.5768,
      "step": 25835
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3966708481311798,
      "learning_rate": 0.00048645096505166134,
      "loss": 1.6305,
      "step": 25836
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3947198688983917,
      "learning_rate": 0.00048644277662908793,
      "loss": 1.6755,
      "step": 25837
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4103778302669525,
      "learning_rate": 0.00048643458798020055,
      "loss": 1.7489,
      "step": 25838
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3912235498428345,
      "learning_rate": 0.000486426399105009,
      "loss": 1.745,
      "step": 25839
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39808475971221924,
      "learning_rate": 0.0004864182100035233,
      "loss": 1.654,
      "step": 25840
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39553582668304443,
      "learning_rate": 0.00048641002067575337,
      "loss": 1.6968,
      "step": 25841
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.409274160861969,
      "learning_rate": 0.00048640183112170913,
      "loss": 1.7224,
      "step": 25842
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3992139995098114,
      "learning_rate": 0.0004863936413414004,
      "loss": 1.7025,
      "step": 25843
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3978463113307953,
      "learning_rate": 0.0004863854513348375,
      "loss": 1.7263,
      "step": 25844
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3950468897819519,
      "learning_rate": 0.00048637726110202994,
      "loss": 1.6586,
      "step": 25845
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3821582794189453,
      "learning_rate": 0.0004863690706429879,
      "loss": 1.6645,
      "step": 25846
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.392686128616333,
      "learning_rate": 0.0004863608799577213,
      "loss": 1.6737,
      "step": 25847
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3895821273326874,
      "learning_rate": 0.00048635268904623994,
      "loss": 1.6355,
      "step": 25848
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39665257930755615,
      "learning_rate": 0.00048634449790855406,
      "loss": 1.7066,
      "step": 25849
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40136492252349854,
      "learning_rate": 0.00048633630654467324,
      "loss": 1.5334,
      "step": 25850
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4051940441131592,
      "learning_rate": 0.0004863281149546077,
      "loss": 1.78,
      "step": 25851
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39585939049720764,
      "learning_rate": 0.0004863199231383673,
      "loss": 1.7829,
      "step": 25852
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3878018260002136,
      "learning_rate": 0.0004863117310959619,
      "loss": 1.7254,
      "step": 25853
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38330355286598206,
      "learning_rate": 0.0004863035388274015,
      "loss": 1.6551,
      "step": 25854
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38462960720062256,
      "learning_rate": 0.00048629534633269606,
      "loss": 1.6658,
      "step": 25855
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.397100567817688,
      "learning_rate": 0.00048628715361185556,
      "loss": 1.7628,
      "step": 25856
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39380529522895813,
      "learning_rate": 0.0004862789606648899,
      "loss": 1.6309,
      "step": 25857
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4104599058628082,
      "learning_rate": 0.000486270767491809,
      "loss": 1.5796,
      "step": 25858
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38892316818237305,
      "learning_rate": 0.0004862625740926229,
      "loss": 1.6449,
      "step": 25859
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38907483220100403,
      "learning_rate": 0.00048625438046734137,
      "loss": 1.6375,
      "step": 25860
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40348100662231445,
      "learning_rate": 0.00048624618661597454,
      "loss": 1.6361,
      "step": 25861
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3929044306278229,
      "learning_rate": 0.00048623799253853225,
      "loss": 1.688,
      "step": 25862
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38454198837280273,
      "learning_rate": 0.0004862297982350245,
      "loss": 1.5851,
      "step": 25863
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39019638299942017,
      "learning_rate": 0.00048622160370546117,
      "loss": 1.6967,
      "step": 25864
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3908635675907135,
      "learning_rate": 0.0004862134089498523,
      "loss": 1.6854,
      "step": 25865
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3853437900543213,
      "learning_rate": 0.0004862052139682078,
      "loss": 1.6334,
      "step": 25866
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40293776988983154,
      "learning_rate": 0.0004861970187605376,
      "loss": 1.6448,
      "step": 25867
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4052529036998749,
      "learning_rate": 0.00048618882332685166,
      "loss": 1.7574,
      "step": 25868
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38570690155029297,
      "learning_rate": 0.0004861806276671599,
      "loss": 1.6001,
      "step": 25869
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40695348381996155,
      "learning_rate": 0.0004861724317814722,
      "loss": 1.6185,
      "step": 25870
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4034101665019989,
      "learning_rate": 0.00048616423566979876,
      "loss": 1.6517,
      "step": 25871
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3996809720993042,
      "learning_rate": 0.00048615603933214937,
      "loss": 1.6836,
      "step": 25872
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4139098823070526,
      "learning_rate": 0.00048614784276853376,
      "loss": 1.6893,
      "step": 25873
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3932932913303375,
      "learning_rate": 0.0004861396459789623,
      "loss": 1.6526,
      "step": 25874
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39806604385375977,
      "learning_rate": 0.00048613144896344465,
      "loss": 1.6898,
      "step": 25875
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40222468972206116,
      "learning_rate": 0.0004861232517219909,
      "loss": 1.6587,
      "step": 25876
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.392984002828598,
      "learning_rate": 0.00048611505425461097,
      "loss": 1.691,
      "step": 25877
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.44971373677253723,
      "learning_rate": 0.0004861068565613147,
      "loss": 1.7526,
      "step": 25878
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.37889188528060913,
      "learning_rate": 0.00048609865864211217,
      "loss": 1.5675,
      "step": 25879
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4105059504508972,
      "learning_rate": 0.00048609046049701325,
      "loss": 1.6861,
      "step": 25880
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39219120144844055,
      "learning_rate": 0.000486082262126028,
      "loss": 1.6614,
      "step": 25881
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3973506689071655,
      "learning_rate": 0.00048607406352916627,
      "loss": 1.7484,
      "step": 25882
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3907760679721832,
      "learning_rate": 0.00048606586470643806,
      "loss": 1.6602,
      "step": 25883
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.41321250796318054,
      "learning_rate": 0.00048605766565785325,
      "loss": 1.6631,
      "step": 25884
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4082593619823456,
      "learning_rate": 0.0004860494663834219,
      "loss": 1.6474,
      "step": 25885
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3914058804512024,
      "learning_rate": 0.0004860412668831539,
      "loss": 1.6723,
      "step": 25886
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3935492932796478,
      "learning_rate": 0.0004860330671570592,
      "loss": 1.6689,
      "step": 25887
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39220353960990906,
      "learning_rate": 0.00048602486720514775,
      "loss": 1.7106,
      "step": 25888
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3987548351287842,
      "learning_rate": 0.0004860166670274296,
      "loss": 1.5601,
      "step": 25889
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39531010389328003,
      "learning_rate": 0.0004860084666239145,
      "loss": 1.6551,
      "step": 25890
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4029446244239807,
      "learning_rate": 0.0004860002659946126,
      "loss": 1.7513,
      "step": 25891
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3931570053100586,
      "learning_rate": 0.00048599206513953383,
      "loss": 1.6608,
      "step": 25892
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39433252811431885,
      "learning_rate": 0.0004859838640586881,
      "loss": 1.6818,
      "step": 25893
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4101126790046692,
      "learning_rate": 0.0004859756627520853,
      "loss": 1.7102,
      "step": 25894
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39666327834129333,
      "learning_rate": 0.0004859674612197354,
      "loss": 1.6667,
      "step": 25895
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38359910249710083,
      "learning_rate": 0.0004859592594616485,
      "loss": 1.6833,
      "step": 25896
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3922286927700043,
      "learning_rate": 0.00048595105747783443,
      "loss": 1.6912,
      "step": 25897
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3884136974811554,
      "learning_rate": 0.0004859428552683031,
      "loss": 1.697,
      "step": 25898
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4004316031932831,
      "learning_rate": 0.0004859346528330646,
      "loss": 1.652,
      "step": 25899
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39389097690582275,
      "learning_rate": 0.00048592645017212887,
      "loss": 1.6915,
      "step": 25900
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38354647159576416,
      "learning_rate": 0.00048591824728550577,
      "loss": 1.6763,
      "step": 25901
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3880329728126526,
      "learning_rate": 0.00048591004417320534,
      "loss": 1.6647,
      "step": 25902
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3822415769100189,
      "learning_rate": 0.0004859018408352375,
      "loss": 1.6436,
      "step": 25903
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38523662090301514,
      "learning_rate": 0.00048589363727161226,
      "loss": 1.6903,
      "step": 25904
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3872721493244171,
      "learning_rate": 0.00048588543348233946,
      "loss": 1.6935,
      "step": 25905
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39302709698677063,
      "learning_rate": 0.00048587722946742917,
      "loss": 1.7696,
      "step": 25906
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39198896288871765,
      "learning_rate": 0.0004858690252268913,
      "loss": 1.6881,
      "step": 25907
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3871980309486389,
      "learning_rate": 0.00048586082076073576,
      "loss": 1.6032,
      "step": 25908
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3859705328941345,
      "learning_rate": 0.00048585261606897274,
      "loss": 1.7812,
      "step": 25909
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39149466156959534,
      "learning_rate": 0.00048584441115161187,
      "loss": 1.607,
      "step": 25910
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40046072006225586,
      "learning_rate": 0.0004858362060086633,
      "loss": 1.6676,
      "step": 25911
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39065486192703247,
      "learning_rate": 0.0004858280006401369,
      "loss": 1.6948,
      "step": 25912
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39042556285858154,
      "learning_rate": 0.00048581979504604285,
      "loss": 1.7286,
      "step": 25913
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38942664861679077,
      "learning_rate": 0.0004858115892263909,
      "loss": 1.7068,
      "step": 25914
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39630353450775146,
      "learning_rate": 0.0004858033831811909,
      "loss": 1.6524,
      "step": 25915
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3877008557319641,
      "learning_rate": 0.0004857951769104532,
      "loss": 1.6503,
      "step": 25916
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39454391598701477,
      "learning_rate": 0.00048578697041418747,
      "loss": 1.6972,
      "step": 25917
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40191128849983215,
      "learning_rate": 0.00048577876369240366,
      "loss": 1.7372,
      "step": 25918
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38479742407798767,
      "learning_rate": 0.0004857705567451118,
      "loss": 1.6886,
      "step": 25919
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4011223316192627,
      "learning_rate": 0.0004857623495723219,
      "loss": 1.654,
      "step": 25920
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40640127658843994,
      "learning_rate": 0.00048575414217404383,
      "loss": 1.6925,
      "step": 25921
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39052799344062805,
      "learning_rate": 0.0004857459345502876,
      "loss": 1.6462,
      "step": 25922
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3899177610874176,
      "learning_rate": 0.00048573772670106323,
      "loss": 1.6819,
      "step": 25923
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5077587962150574,
      "learning_rate": 0.0004857295186263807,
      "loss": 1.642,
      "step": 25924
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39802008867263794,
      "learning_rate": 0.00048572131032624977,
      "loss": 1.6176,
      "step": 25925
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3903242349624634,
      "learning_rate": 0.00048571310180068055,
      "loss": 1.6836,
      "step": 25926
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3977442979812622,
      "learning_rate": 0.000485704893049683,
      "loss": 1.6153,
      "step": 25927
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.41981083154678345,
      "learning_rate": 0.0004856966840732671,
      "loss": 1.7097,
      "step": 25928
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40526843070983887,
      "learning_rate": 0.0004856884748714428,
      "loss": 1.7393,
      "step": 25929
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.41165366768836975,
      "learning_rate": 0.00048568026544422,
      "loss": 1.6746,
      "step": 25930
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38856661319732666,
      "learning_rate": 0.0004856720557916087,
      "loss": 1.7419,
      "step": 25931
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40245065093040466,
      "learning_rate": 0.00048566384591361894,
      "loss": 1.6077,
      "step": 25932
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3952370285987854,
      "learning_rate": 0.00048565563581026054,
      "loss": 1.7049,
      "step": 25933
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40123528242111206,
      "learning_rate": 0.0004856474254815437,
      "loss": 1.6921,
      "step": 25934
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3968413770198822,
      "learning_rate": 0.0004856392149274781,
      "loss": 1.6077,
      "step": 25935
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39653280377388,
      "learning_rate": 0.0004856310041480739,
      "loss": 1.6972,
      "step": 25936
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3916800320148468,
      "learning_rate": 0.00048562279314334105,
      "loss": 1.7631,
      "step": 25937
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3904336988925934,
      "learning_rate": 0.0004856145819132894,
      "loss": 1.6685,
      "step": 25938
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3808441460132599,
      "learning_rate": 0.00048560637045792906,
      "loss": 1.5955,
      "step": 25939
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4300888478755951,
      "learning_rate": 0.0004855981587772699,
      "loss": 1.7001,
      "step": 25940
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3950749635696411,
      "learning_rate": 0.000485589946871322,
      "loss": 1.6687,
      "step": 25941
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40034615993499756,
      "learning_rate": 0.00048558173474009506,
      "loss": 1.731,
      "step": 25942
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3943597376346588,
      "learning_rate": 0.0004855735223835994,
      "loss": 1.6983,
      "step": 25943
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3911099135875702,
      "learning_rate": 0.00048556530980184485,
      "loss": 1.7199,
      "step": 25944
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4028300642967224,
      "learning_rate": 0.00048555709699484126,
      "loss": 1.6254,
      "step": 25945
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4033806622028351,
      "learning_rate": 0.00048554888396259874,
      "loss": 1.6852,
      "step": 25946
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3984161913394928,
      "learning_rate": 0.0004855406707051272,
      "loss": 1.6682,
      "step": 25947
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3959212303161621,
      "learning_rate": 0.0004855324572224367,
      "loss": 1.642,
      "step": 25948
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4099593162536621,
      "learning_rate": 0.000485524243514537,
      "loss": 1.701,
      "step": 25949
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3895514905452728,
      "learning_rate": 0.00048551602958143823,
      "loss": 1.7013,
      "step": 25950
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3970150947570801,
      "learning_rate": 0.00048550781542315043,
      "loss": 1.6285,
      "step": 25951
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38544753193855286,
      "learning_rate": 0.0004854996010396834,
      "loss": 1.5978,
      "step": 25952
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38887614011764526,
      "learning_rate": 0.0004854913864310472,
      "loss": 1.6332,
      "step": 25953
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39489656686782837,
      "learning_rate": 0.0004854831715972518,
      "loss": 1.6793,
      "step": 25954
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.396358460187912,
      "learning_rate": 0.0004854749565383072,
      "loss": 1.6696,
      "step": 25955
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3981665074825287,
      "learning_rate": 0.00048546674125422325,
      "loss": 1.6117,
      "step": 25956
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4589119553565979,
      "learning_rate": 0.00048545852574500995,
      "loss": 1.709,
      "step": 25957
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3799033761024475,
      "learning_rate": 0.0004854503100106775,
      "loss": 1.6911,
      "step": 25958
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39370256662368774,
      "learning_rate": 0.0004854420940512356,
      "loss": 1.5942,
      "step": 25959
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39542582631111145,
      "learning_rate": 0.0004854338778666943,
      "loss": 1.6684,
      "step": 25960
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39127424359321594,
      "learning_rate": 0.0004854256614570636,
      "loss": 1.6877,
      "step": 25961
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38715681433677673,
      "learning_rate": 0.0004854174448223535,
      "loss": 1.6403,
      "step": 25962
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3933485746383667,
      "learning_rate": 0.000485409227962574,
      "loss": 1.678,
      "step": 25963
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3906572759151459,
      "learning_rate": 0.0004854010108777349,
      "loss": 1.6754,
      "step": 25964
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3900117576122284,
      "learning_rate": 0.0004853927935678464,
      "loss": 1.6319,
      "step": 25965
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.390330970287323,
      "learning_rate": 0.00048538457603291825,
      "loss": 1.7159,
      "step": 25966
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3953312933444977,
      "learning_rate": 0.0004853763582729606,
      "loss": 1.6931,
      "step": 25967
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3978864848613739,
      "learning_rate": 0.00048536814028798334,
      "loss": 1.6415,
      "step": 25968
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40398678183555603,
      "learning_rate": 0.00048535992207799657,
      "loss": 1.6712,
      "step": 25969
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40145131945610046,
      "learning_rate": 0.00048535170364301,
      "loss": 1.622,
      "step": 25970
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3872154653072357,
      "learning_rate": 0.00048534348498303393,
      "loss": 1.6994,
      "step": 25971
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39956918358802795,
      "learning_rate": 0.00048533526609807813,
      "loss": 1.701,
      "step": 25972
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40651652216911316,
      "learning_rate": 0.00048532704698815254,
      "loss": 1.699,
      "step": 25973
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39959704875946045,
      "learning_rate": 0.0004853188276532673,
      "loss": 1.6147,
      "step": 25974
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3834804892539978,
      "learning_rate": 0.0004853106080934323,
      "loss": 1.6838,
      "step": 25975
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40725624561309814,
      "learning_rate": 0.0004853023883086576,
      "loss": 1.7262,
      "step": 25976
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.399740606546402,
      "learning_rate": 0.00048529416829895295,
      "loss": 1.6831,
      "step": 25977
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3863237202167511,
      "learning_rate": 0.00048528594806432855,
      "loss": 1.6222,
      "step": 25978
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39360907673835754,
      "learning_rate": 0.00048527772760479434,
      "loss": 1.6683,
      "step": 25979
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38464176654815674,
      "learning_rate": 0.0004852695069203602,
      "loss": 1.6844,
      "step": 25980
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3802916705608368,
      "learning_rate": 0.00048526128601103627,
      "loss": 1.6922,
      "step": 25981
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38160252571105957,
      "learning_rate": 0.0004852530648768323,
      "loss": 1.69,
      "step": 25982
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4047822058200836,
      "learning_rate": 0.00048524484351775854,
      "loss": 1.682,
      "step": 25983
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40288102626800537,
      "learning_rate": 0.0004852366219338248,
      "loss": 1.7292,
      "step": 25984
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39092305302619934,
      "learning_rate": 0.0004852284001250411,
      "loss": 1.6498,
      "step": 25985
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39565715193748474,
      "learning_rate": 0.00048522017809141734,
      "loss": 1.6235,
      "step": 25986
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4110608696937561,
      "learning_rate": 0.00048521195583296365,
      "loss": 1.7691,
      "step": 25987
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4104507565498352,
      "learning_rate": 0.0004852037333496899,
      "loss": 1.6894,
      "step": 25988
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4096011519432068,
      "learning_rate": 0.00048519551064160615,
      "loss": 1.6545,
      "step": 25989
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3876488506793976,
      "learning_rate": 0.0004851872877087223,
      "loss": 1.763,
      "step": 25990
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4148838222026825,
      "learning_rate": 0.0004851790645510484,
      "loss": 1.6351,
      "step": 25991
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4045432209968567,
      "learning_rate": 0.00048517084116859435,
      "loss": 1.6987,
      "step": 25992
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.40271133184432983,
      "learning_rate": 0.0004851626175613702,
      "loss": 1.646,
      "step": 25993
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39028221368789673,
      "learning_rate": 0.0004851543937293859,
      "loss": 1.6211,
      "step": 25994
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.38936910033226013,
      "learning_rate": 0.0004851461696726515,
      "loss": 1.6067,
      "step": 25995
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4076441824436188,
      "learning_rate": 0.00048513794539117687,
      "loss": 1.7016,
      "step": 25996
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4129296541213989,
      "learning_rate": 0.00048512972088497216,
      "loss": 1.7143,
      "step": 25997
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4026356339454651,
      "learning_rate": 0.00048512149615404713,
      "loss": 1.6967,
      "step": 25998
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.4087667763233185,
      "learning_rate": 0.0004851132711984119,
      "loss": 1.6045,
      "step": 25999
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4070000946521759,
      "learning_rate": 0.00048510504601807645,
      "loss": 1.6339,
      "step": 26000
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4152880609035492,
      "learning_rate": 0.0004850968206130508,
      "loss": 1.6263,
      "step": 26001
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4034390449523926,
      "learning_rate": 0.0004850885949833448,
      "loss": 1.6392,
      "step": 26002
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3882395625114441,
      "learning_rate": 0.00048508036912896853,
      "loss": 1.6243,
      "step": 26003
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3968746066093445,
      "learning_rate": 0.00048507214304993205,
      "loss": 1.685,
      "step": 26004
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3815527558326721,
      "learning_rate": 0.00048506391674624515,
      "loss": 1.6831,
      "step": 26005
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4033852517604828,
      "learning_rate": 0.00048505569021791795,
      "loss": 1.7134,
      "step": 26006
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39537617564201355,
      "learning_rate": 0.0004850474634649604,
      "loss": 1.6777,
      "step": 26007
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41033822298049927,
      "learning_rate": 0.00048503923648738256,
      "loss": 1.646,
      "step": 26008
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3992902934551239,
      "learning_rate": 0.00048503100928519433,
      "loss": 1.6985,
      "step": 26009
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40140587091445923,
      "learning_rate": 0.00048502278185840576,
      "loss": 1.6379,
      "step": 26010
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39644908905029297,
      "learning_rate": 0.00048501455420702665,
      "loss": 1.6938,
      "step": 26011
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38796016573905945,
      "learning_rate": 0.0004850063263310672,
      "loss": 1.6878,
      "step": 26012
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3767426908016205,
      "learning_rate": 0.0004849980982305374,
      "loss": 1.6296,
      "step": 26013
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3892425000667572,
      "learning_rate": 0.0004849898699054471,
      "loss": 1.6361,
      "step": 26014
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4036644697189331,
      "learning_rate": 0.0004849816413558063,
      "loss": 1.6778,
      "step": 26015
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39223384857177734,
      "learning_rate": 0.0004849734125816252,
      "loss": 1.6566,
      "step": 26016
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39352115988731384,
      "learning_rate": 0.0004849651835829135,
      "loss": 1.6658,
      "step": 26017
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39647921919822693,
      "learning_rate": 0.0004849569543596814,
      "loss": 1.7132,
      "step": 26018
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3934846818447113,
      "learning_rate": 0.0004849487249119387,
      "loss": 1.7456,
      "step": 26019
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4184986352920532,
      "learning_rate": 0.0004849404952396956,
      "loss": 1.7413,
      "step": 26020
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39703646302223206,
      "learning_rate": 0.00048493226534296194,
      "loss": 1.6991,
      "step": 26021
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4249863922595978,
      "learning_rate": 0.0004849240352217478,
      "loss": 1.7147,
      "step": 26022
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3888603150844574,
      "learning_rate": 0.0004849158048760631,
      "loss": 1.7013,
      "step": 26023
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39826250076293945,
      "learning_rate": 0.00048490757430591784,
      "loss": 1.71,
      "step": 26024
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38980725407600403,
      "learning_rate": 0.00048489934351132204,
      "loss": 1.6109,
      "step": 26025
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40054851770401,
      "learning_rate": 0.00048489111249228566,
      "loss": 1.6632,
      "step": 26026
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40282535552978516,
      "learning_rate": 0.0004848828812488188,
      "loss": 1.6412,
      "step": 26027
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38895946741104126,
      "learning_rate": 0.00048487464978093126,
      "loss": 1.7024,
      "step": 26028
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39651229977607727,
      "learning_rate": 0.0004848664180886332,
      "loss": 1.6723,
      "step": 26029
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3985534906387329,
      "learning_rate": 0.0004848581861719345,
      "loss": 1.6883,
      "step": 26030
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4153212010860443,
      "learning_rate": 0.0004848499540308453,
      "loss": 1.6301,
      "step": 26031
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41949987411499023,
      "learning_rate": 0.00048484172166537537,
      "loss": 1.6957,
      "step": 26032
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40271109342575073,
      "learning_rate": 0.00048483348907553495,
      "loss": 1.6917,
      "step": 26033
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38312751054763794,
      "learning_rate": 0.00048482525626133375,
      "loss": 1.5938,
      "step": 26034
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39578965306282043,
      "learning_rate": 0.00048481702322278206,
      "loss": 1.7084,
      "step": 26035
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4266727566719055,
      "learning_rate": 0.0004848087899598897,
      "loss": 1.6578,
      "step": 26036
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3920346200466156,
      "learning_rate": 0.0004848005564726666,
      "loss": 1.6159,
      "step": 26037
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3949068486690521,
      "learning_rate": 0.00048479232276112295,
      "loss": 1.6767,
      "step": 26038
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4106799364089966,
      "learning_rate": 0.00048478408882526863,
      "loss": 1.7093,
      "step": 26039
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40396326780319214,
      "learning_rate": 0.0004847758546651137,
      "loss": 1.6226,
      "step": 26040
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38954252004623413,
      "learning_rate": 0.00048476762028066807,
      "loss": 1.7131,
      "step": 26041
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3822048604488373,
      "learning_rate": 0.0004847593856719418,
      "loss": 1.6042,
      "step": 26042
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3935098648071289,
      "learning_rate": 0.0004847511508389448,
      "loss": 1.6393,
      "step": 26043
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3758235275745392,
      "learning_rate": 0.00048474291578168717,
      "loss": 1.6306,
      "step": 26044
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3960872292518616,
      "learning_rate": 0.00048473468050017884,
      "loss": 1.69,
      "step": 26045
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40915966033935547,
      "learning_rate": 0.0004847264449944298,
      "loss": 1.753,
      "step": 26046
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4116802513599396,
      "learning_rate": 0.0004847182092644501,
      "loss": 1.796,
      "step": 26047
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3937651813030243,
      "learning_rate": 0.0004847099733102497,
      "loss": 1.7322,
      "step": 26048
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39329472184181213,
      "learning_rate": 0.0004847017371318386,
      "loss": 1.5792,
      "step": 26049
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40610870718955994,
      "learning_rate": 0.0004846935007292268,
      "loss": 1.6353,
      "step": 26050
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3914394676685333,
      "learning_rate": 0.00048468526410242444,
      "loss": 1.6795,
      "step": 26051
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3862902522087097,
      "learning_rate": 0.0004846770272514412,
      "loss": 1.6752,
      "step": 26052
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3961333632469177,
      "learning_rate": 0.0004846687901762874,
      "loss": 1.6271,
      "step": 26053
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39942172169685364,
      "learning_rate": 0.00048466055287697276,
      "loss": 1.7512,
      "step": 26054
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39568576216697693,
      "learning_rate": 0.00048465231535350754,
      "loss": 1.6247,
      "step": 26055
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3866310715675354,
      "learning_rate": 0.0004846440776059015,
      "loss": 1.6699,
      "step": 26056
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39271730184555054,
      "learning_rate": 0.00048463583963416485,
      "loss": 1.6351,
      "step": 26057
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3886594772338867,
      "learning_rate": 0.0004846276014383075,
      "loss": 1.6984,
      "step": 26058
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40197595953941345,
      "learning_rate": 0.0004846193630183394,
      "loss": 1.6667,
      "step": 26059
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38563746213912964,
      "learning_rate": 0.00048461112437427057,
      "loss": 1.6642,
      "step": 26060
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3927789330482483,
      "learning_rate": 0.00048460288550611114,
      "loss": 1.6144,
      "step": 26061
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.394552618265152,
      "learning_rate": 0.00048459464641387087,
      "loss": 1.6729,
      "step": 26062
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39420104026794434,
      "learning_rate": 0.00048458640709756,
      "loss": 1.7286,
      "step": 26063
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40981799364089966,
      "learning_rate": 0.0004845781675571884,
      "loss": 1.6918,
      "step": 26064
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3983932137489319,
      "learning_rate": 0.0004845699277927661,
      "loss": 1.6214,
      "step": 26065
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4108886122703552,
      "learning_rate": 0.00048456168780430315,
      "loss": 1.7119,
      "step": 26066
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3939075767993927,
      "learning_rate": 0.0004845534475918094,
      "loss": 1.6462,
      "step": 26067
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41237980127334595,
      "learning_rate": 0.00048454520715529505,
      "loss": 1.6791,
      "step": 26068
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39451926946640015,
      "learning_rate": 0.00048453696649476994,
      "loss": 1.6106,
      "step": 26069
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.400024950504303,
      "learning_rate": 0.00048452872561024417,
      "loss": 1.5726,
      "step": 26070
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3991297781467438,
      "learning_rate": 0.0004845204845017277,
      "loss": 1.7067,
      "step": 26071
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40330833196640015,
      "learning_rate": 0.00048451224316923056,
      "loss": 1.7028,
      "step": 26072
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40103715658187866,
      "learning_rate": 0.0004845040016127628,
      "loss": 1.7103,
      "step": 26073
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.419466108083725,
      "learning_rate": 0.0004844957598323343,
      "loss": 1.6291,
      "step": 26074
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3890741467475891,
      "learning_rate": 0.00048448751782795513,
      "loss": 1.6552,
      "step": 26075
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4082488715648651,
      "learning_rate": 0.0004844792755996354,
      "loss": 1.7233,
      "step": 26076
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40135249495506287,
      "learning_rate": 0.0004844710331473849,
      "loss": 1.5988,
      "step": 26077
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39119818806648254,
      "learning_rate": 0.0004844627904712137,
      "loss": 1.6463,
      "step": 26078
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38581201434135437,
      "learning_rate": 0.00048445454757113204,
      "loss": 1.6087,
      "step": 26079
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3726414144039154,
      "learning_rate": 0.00048444630444714954,
      "loss": 1.672,
      "step": 26080
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39325857162475586,
      "learning_rate": 0.00048443806109927653,
      "loss": 1.6292,
      "step": 26081
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.37832528352737427,
      "learning_rate": 0.0004844298175275228,
      "loss": 1.5945,
      "step": 26082
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38903993368148804,
      "learning_rate": 0.00048442157373189854,
      "loss": 1.6849,
      "step": 26083
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3848525285720825,
      "learning_rate": 0.0004844133297124136,
      "loss": 1.6676,
      "step": 26084
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.386323481798172,
      "learning_rate": 0.0004844050854690781,
      "loss": 1.5775,
      "step": 26085
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3827846348285675,
      "learning_rate": 0.000484396841001902,
      "loss": 1.6699,
      "step": 26086
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.417791485786438,
      "learning_rate": 0.00048438859631089523,
      "loss": 1.7638,
      "step": 26087
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3789755702018738,
      "learning_rate": 0.00048438035139606786,
      "loss": 1.6844,
      "step": 26088
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38937073945999146,
      "learning_rate": 0.00048437210625743005,
      "loss": 1.7026,
      "step": 26089
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3928932249546051,
      "learning_rate": 0.00048436386089499155,
      "loss": 1.6993,
      "step": 26090
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4181188642978668,
      "learning_rate": 0.00048435561530876255,
      "loss": 1.7143,
      "step": 26091
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4030556082725525,
      "learning_rate": 0.0004843473694987529,
      "loss": 1.6456,
      "step": 26092
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3876250386238098,
      "learning_rate": 0.0004843391234649728,
      "loss": 1.6502,
      "step": 26093
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39744919538497925,
      "learning_rate": 0.0004843308772074321,
      "loss": 1.6752,
      "step": 26094
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4033593535423279,
      "learning_rate": 0.000484322630726141,
      "loss": 1.6187,
      "step": 26095
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3998856544494629,
      "learning_rate": 0.00048431438402110925,
      "loss": 1.579,
      "step": 26096
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3961188495159149,
      "learning_rate": 0.000484306137092347,
      "loss": 1.6388,
      "step": 26097
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.393931120634079,
      "learning_rate": 0.0004842978899398644,
      "loss": 1.6608,
      "step": 26098
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39480340480804443,
      "learning_rate": 0.00048428964256367116,
      "loss": 1.7373,
      "step": 26099
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4011498987674713,
      "learning_rate": 0.0004842813949637775,
      "loss": 1.6868,
      "step": 26100
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4029175043106079,
      "learning_rate": 0.0004842731471401934,
      "loss": 1.7085,
      "step": 26101
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38878771662712097,
      "learning_rate": 0.0004842648990929288,
      "loss": 1.6275,
      "step": 26102
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3930850625038147,
      "learning_rate": 0.0004842566508219938,
      "loss": 1.6495,
      "step": 26103
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3967265784740448,
      "learning_rate": 0.00048424840232739834,
      "loss": 1.6292,
      "step": 26104
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3914903998374939,
      "learning_rate": 0.0004842401536091525,
      "loss": 1.6605,
      "step": 26105
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3991752862930298,
      "learning_rate": 0.0004842319046672663,
      "loss": 1.7002,
      "step": 26106
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3957410752773285,
      "learning_rate": 0.0004842236555017496,
      "loss": 1.6422,
      "step": 26107
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38989824056625366,
      "learning_rate": 0.00048421540611261264,
      "loss": 1.619,
      "step": 26108
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4062662422657013,
      "learning_rate": 0.0004842071564998653,
      "loss": 1.5865,
      "step": 26109
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4004192054271698,
      "learning_rate": 0.00048419890666351757,
      "loss": 1.6489,
      "step": 26110
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38630667328834534,
      "learning_rate": 0.00048419065660357957,
      "loss": 1.6617,
      "step": 26111
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40124204754829407,
      "learning_rate": 0.00048418240632006114,
      "loss": 1.7174,
      "step": 26112
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3879911005496979,
      "learning_rate": 0.0004841741558129725,
      "loss": 1.6184,
      "step": 26113
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4117558002471924,
      "learning_rate": 0.0004841659050823236,
      "loss": 1.6675,
      "step": 26114
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40175148844718933,
      "learning_rate": 0.00048415765412812437,
      "loss": 1.6552,
      "step": 26115
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4160076975822449,
      "learning_rate": 0.00048414940295038493,
      "loss": 1.6512,
      "step": 26116
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4080142080783844,
      "learning_rate": 0.0004841411515491151,
      "loss": 1.6606,
      "step": 26117
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39007773995399475,
      "learning_rate": 0.0004841328999243252,
      "loss": 1.6819,
      "step": 26118
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4146461486816406,
      "learning_rate": 0.000484124648076025,
      "loss": 1.6296,
      "step": 26119
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3885636627674103,
      "learning_rate": 0.0004841163960042247,
      "loss": 1.6508,
      "step": 26120
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39838355779647827,
      "learning_rate": 0.0004841081437089342,
      "loss": 1.7178,
      "step": 26121
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39320623874664307,
      "learning_rate": 0.0004840998911901635,
      "loss": 1.5999,
      "step": 26122
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40489399433135986,
      "learning_rate": 0.00048409163844792265,
      "loss": 1.7222,
      "step": 26123
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3982894718647003,
      "learning_rate": 0.0004840833854822216,
      "loss": 1.6656,
      "step": 26124
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39065638184547424,
      "learning_rate": 0.0004840751322930706,
      "loss": 1.6454,
      "step": 26125
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3971017599105835,
      "learning_rate": 0.0004840668788804794,
      "loss": 1.6386,
      "step": 26126
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40005600452423096,
      "learning_rate": 0.00048405862524445825,
      "loss": 1.5779,
      "step": 26127
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3985154926776886,
      "learning_rate": 0.00048405037138501695,
      "loss": 1.6816,
      "step": 26128
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39844995737075806,
      "learning_rate": 0.00048404211730216566,
      "loss": 1.5597,
      "step": 26129
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3970024883747101,
      "learning_rate": 0.00048403386299591435,
      "loss": 1.6452,
      "step": 26130
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41290441155433655,
      "learning_rate": 0.0004840256084662731,
      "loss": 1.6323,
      "step": 26131
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4030757546424866,
      "learning_rate": 0.00048401735371325167,
      "loss": 1.729,
      "step": 26132
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39013832807540894,
      "learning_rate": 0.00048400909873686046,
      "loss": 1.6699,
      "step": 26133
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3944508135318756,
      "learning_rate": 0.0004840008435371093,
      "loss": 1.6802,
      "step": 26134
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3917301595211029,
      "learning_rate": 0.00048399258811400816,
      "loss": 1.6662,
      "step": 26135
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3892041742801666,
      "learning_rate": 0.0004839843324675672,
      "loss": 1.6985,
      "step": 26136
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.42106518149375916,
      "learning_rate": 0.0004839760765977964,
      "loss": 1.6873,
      "step": 26137
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38458603620529175,
      "learning_rate": 0.00048396782050470576,
      "loss": 1.6897,
      "step": 26138
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4102208912372589,
      "learning_rate": 0.00048395956418830513,
      "loss": 1.6688,
      "step": 26139
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4036344289779663,
      "learning_rate": 0.0004839513076486049,
      "loss": 1.7179,
      "step": 26140
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41857218742370605,
      "learning_rate": 0.00048394305088561476,
      "loss": 1.7258,
      "step": 26141
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3904467225074768,
      "learning_rate": 0.00048393479389934486,
      "loss": 1.6651,
      "step": 26142
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41193005442619324,
      "learning_rate": 0.00048392653668980526,
      "loss": 1.5803,
      "step": 26143
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3981685936450958,
      "learning_rate": 0.00048391827925700593,
      "loss": 1.6353,
      "step": 26144
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38231444358825684,
      "learning_rate": 0.0004839100216009569,
      "loss": 1.6336,
      "step": 26145
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3917337656021118,
      "learning_rate": 0.0004839017637216683,
      "loss": 1.6997,
      "step": 26146
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39224907755851746,
      "learning_rate": 0.00048389350561914984,
      "loss": 1.6602,
      "step": 26147
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4027927815914154,
      "learning_rate": 0.00048388524729341196,
      "loss": 1.6811,
      "step": 26148
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.393195778131485,
      "learning_rate": 0.00048387698874446434,
      "loss": 1.7021,
      "step": 26149
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39174461364746094,
      "learning_rate": 0.0004838687299723173,
      "loss": 1.7024,
      "step": 26150
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3901194632053375,
      "learning_rate": 0.0004838604709769806,
      "loss": 1.6699,
      "step": 26151
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39352867007255554,
      "learning_rate": 0.0004838522117584644,
      "loss": 1.669,
      "step": 26152
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3926522433757782,
      "learning_rate": 0.00048384395231677873,
      "loss": 1.6335,
      "step": 26153
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4056341052055359,
      "learning_rate": 0.00048383569265193354,
      "loss": 1.6663,
      "step": 26154
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3838047385215759,
      "learning_rate": 0.000483827432763939,
      "loss": 1.6126,
      "step": 26155
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4096476435661316,
      "learning_rate": 0.00048381917265280495,
      "loss": 1.7003,
      "step": 26156
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4011324346065521,
      "learning_rate": 0.00048381091231854156,
      "loss": 1.6518,
      "step": 26157
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40638092160224915,
      "learning_rate": 0.00048380265176115874,
      "loss": 1.6996,
      "step": 26158
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3905751705169678,
      "learning_rate": 0.00048379439098066664,
      "loss": 1.6501,
      "step": 26159
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39056429266929626,
      "learning_rate": 0.00048378612997707526,
      "loss": 1.6138,
      "step": 26160
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40175655484199524,
      "learning_rate": 0.0004837778687503945,
      "loss": 1.6634,
      "step": 26161
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40990063548088074,
      "learning_rate": 0.00048376960730063464,
      "loss": 1.6843,
      "step": 26162
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3968883156776428,
      "learning_rate": 0.00048376134562780543,
      "loss": 1.7118,
      "step": 26163
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6432026028633118,
      "learning_rate": 0.000483753083731917,
      "loss": 1.7184,
      "step": 26164
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39178466796875,
      "learning_rate": 0.00048374482161297946,
      "loss": 1.6371,
      "step": 26165
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3979680836200714,
      "learning_rate": 0.0004837365592710028,
      "loss": 1.6499,
      "step": 26166
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40737834572792053,
      "learning_rate": 0.000483728296705997,
      "loss": 1.6614,
      "step": 26167
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4025513231754303,
      "learning_rate": 0.00048372003391797215,
      "loss": 1.6572,
      "step": 26168
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3942066729068756,
      "learning_rate": 0.0004837117709069382,
      "loss": 1.6288,
      "step": 26169
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3838798701763153,
      "learning_rate": 0.00048370350767290517,
      "loss": 1.663,
      "step": 26170
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38435670733451843,
      "learning_rate": 0.00048369524421588327,
      "loss": 1.7043,
      "step": 26171
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3869796693325043,
      "learning_rate": 0.00048368698053588235,
      "loss": 1.6586,
      "step": 26172
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3783632218837738,
      "learning_rate": 0.0004836787166329126,
      "loss": 1.6365,
      "step": 26173
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39567774534225464,
      "learning_rate": 0.00048367045250698377,
      "loss": 1.7057,
      "step": 26174
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4060094356536865,
      "learning_rate": 0.0004836621881581062,
      "loss": 1.6403,
      "step": 26175
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3903018832206726,
      "learning_rate": 0.00048365392358628976,
      "loss": 1.6368,
      "step": 26176
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39160478115081787,
      "learning_rate": 0.00048364565879154453,
      "loss": 1.6371,
      "step": 26177
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3907926082611084,
      "learning_rate": 0.00048363739377388056,
      "loss": 1.6661,
      "step": 26178
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3882564902305603,
      "learning_rate": 0.00048362912853330776,
      "loss": 1.6499,
      "step": 26179
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4004172086715698,
      "learning_rate": 0.0004836208630698364,
      "loss": 1.6206,
      "step": 26180
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40959563851356506,
      "learning_rate": 0.0004836125973834762,
      "loss": 1.613,
      "step": 26181
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40708330273628235,
      "learning_rate": 0.0004836043314742375,
      "loss": 1.6832,
      "step": 26182
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3960627317428589,
      "learning_rate": 0.00048359606534213007,
      "loss": 1.597,
      "step": 26183
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39802542328834534,
      "learning_rate": 0.00048358779898716414,
      "loss": 1.7439,
      "step": 26184
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4031093716621399,
      "learning_rate": 0.00048357953240934967,
      "loss": 1.7027,
      "step": 26185
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40309426188468933,
      "learning_rate": 0.0004835712656086967,
      "loss": 1.6818,
      "step": 26186
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39822661876678467,
      "learning_rate": 0.0004835629985852152,
      "loss": 1.6548,
      "step": 26187
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4026283919811249,
      "learning_rate": 0.0004835547313389154,
      "loss": 1.6373,
      "step": 26188
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.42856359481811523,
      "learning_rate": 0.00048354646386980705,
      "loss": 1.6709,
      "step": 26189
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4113748073577881,
      "learning_rate": 0.0004835381961779004,
      "loss": 1.645,
      "step": 26190
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3884884715080261,
      "learning_rate": 0.0004835299282632054,
      "loss": 1.6849,
      "step": 26191
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3791932761669159,
      "learning_rate": 0.00048352166012573223,
      "loss": 1.6124,
      "step": 26192
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40628963708877563,
      "learning_rate": 0.0004835133917654907,
      "loss": 1.693,
      "step": 26193
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3945086896419525,
      "learning_rate": 0.0004835051231824909,
      "loss": 1.7253,
      "step": 26194
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38196325302124023,
      "learning_rate": 0.00048349685437674305,
      "loss": 1.6606,
      "step": 26195
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4238646626472473,
      "learning_rate": 0.00048348858534825697,
      "loss": 1.7072,
      "step": 26196
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38862451910972595,
      "learning_rate": 0.0004834803160970428,
      "loss": 1.6612,
      "step": 26197
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4016371965408325,
      "learning_rate": 0.0004834720466231106,
      "loss": 1.664,
      "step": 26198
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39407411217689514,
      "learning_rate": 0.0004834637769264703,
      "loss": 1.6455,
      "step": 26199
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38876670598983765,
      "learning_rate": 0.00048345550700713206,
      "loss": 1.6695,
      "step": 26200
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3962330222129822,
      "learning_rate": 0.00048344723686510584,
      "loss": 1.6617,
      "step": 26201
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40844225883483887,
      "learning_rate": 0.0004834389665004017,
      "loss": 1.6568,
      "step": 26202
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3857930898666382,
      "learning_rate": 0.0004834306959130297,
      "loss": 1.6278,
      "step": 26203
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39170944690704346,
      "learning_rate": 0.00048342242510299985,
      "loss": 1.6422,
      "step": 26204
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3769829571247101,
      "learning_rate": 0.0004834141540703222,
      "loss": 1.659,
      "step": 26205
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40931767225265503,
      "learning_rate": 0.0004834058828150068,
      "loss": 1.7258,
      "step": 26206
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40237677097320557,
      "learning_rate": 0.0004833976113370637,
      "loss": 1.5841,
      "step": 26207
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40728408098220825,
      "learning_rate": 0.0004833893396365029,
      "loss": 1.6912,
      "step": 26208
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3973558247089386,
      "learning_rate": 0.0004833810677133344,
      "loss": 1.6785,
      "step": 26209
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39855676889419556,
      "learning_rate": 0.00048337279556756845,
      "loss": 1.6524,
      "step": 26210
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.418907105922699,
      "learning_rate": 0.0004833645231992148,
      "loss": 1.6954,
      "step": 26211
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.403077632188797,
      "learning_rate": 0.0004833562506082837,
      "loss": 1.729,
      "step": 26212
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39972829818725586,
      "learning_rate": 0.0004833479777947852,
      "loss": 1.6557,
      "step": 26213
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39539241790771484,
      "learning_rate": 0.00048333970475872913,
      "loss": 1.5979,
      "step": 26214
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4031117856502533,
      "learning_rate": 0.00048333143150012576,
      "loss": 1.5853,
      "step": 26215
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4098449647426605,
      "learning_rate": 0.000483323158018985,
      "loss": 1.6628,
      "step": 26216
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41468721628189087,
      "learning_rate": 0.000483314884315317,
      "loss": 1.7149,
      "step": 26217
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41599979996681213,
      "learning_rate": 0.0004833066103891317,
      "loss": 1.6876,
      "step": 26218
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38983309268951416,
      "learning_rate": 0.00048329833624043914,
      "loss": 1.6392,
      "step": 26219
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41323477029800415,
      "learning_rate": 0.00048329006186924957,
      "loss": 1.6543,
      "step": 26220
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39154618978500366,
      "learning_rate": 0.0004832817872755727,
      "loss": 1.7066,
      "step": 26221
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4054371416568756,
      "learning_rate": 0.0004832735124594188,
      "loss": 1.6725,
      "step": 26222
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41014978289604187,
      "learning_rate": 0.0004832652374207979,
      "loss": 1.6474,
      "step": 26223
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40081891417503357,
      "learning_rate": 0.0004832569621597199,
      "loss": 1.7126,
      "step": 26224
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4202672243118286,
      "learning_rate": 0.00048324868667619505,
      "loss": 1.734,
      "step": 26225
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3861064910888672,
      "learning_rate": 0.00048324041097023323,
      "loss": 1.6686,
      "step": 26226
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3977889120578766,
      "learning_rate": 0.0004832321350418446,
      "loss": 1.7308,
      "step": 26227
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41847658157348633,
      "learning_rate": 0.00048322385889103915,
      "loss": 1.6905,
      "step": 26228
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3990892469882965,
      "learning_rate": 0.0004832155825178269,
      "loss": 1.5717,
      "step": 26229
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40449440479278564,
      "learning_rate": 0.000483207305922218,
      "loss": 1.6694,
      "step": 26230
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3966637849807739,
      "learning_rate": 0.0004831990291042223,
      "loss": 1.7198,
      "step": 26231
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39799320697784424,
      "learning_rate": 0.0004831907520638501,
      "loss": 1.6897,
      "step": 26232
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3949483633041382,
      "learning_rate": 0.00048318247480111127,
      "loss": 1.6358,
      "step": 26233
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.397617906332016,
      "learning_rate": 0.00048317419731601585,
      "loss": 1.6505,
      "step": 26234
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3966258466243744,
      "learning_rate": 0.00048316591960857405,
      "loss": 1.6549,
      "step": 26235
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.384003609418869,
      "learning_rate": 0.0004831576416787957,
      "loss": 1.6062,
      "step": 26236
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38067519664764404,
      "learning_rate": 0.00048314936352669105,
      "loss": 1.6186,
      "step": 26237
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3952866494655609,
      "learning_rate": 0.0004831410851522701,
      "loss": 1.6605,
      "step": 26238
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38898953795433044,
      "learning_rate": 0.00048313280655554267,
      "loss": 1.6472,
      "step": 26239
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4174799919128418,
      "learning_rate": 0.00048312452773651907,
      "loss": 1.6828,
      "step": 26240
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3987478017807007,
      "learning_rate": 0.00048311624869520935,
      "loss": 1.6599,
      "step": 26241
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3975619673728943,
      "learning_rate": 0.00048310796943162344,
      "loss": 1.6769,
      "step": 26242
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41330575942993164,
      "learning_rate": 0.0004830996899457715,
      "loss": 1.7875,
      "step": 26243
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40301313996315,
      "learning_rate": 0.00048309141023766345,
      "loss": 1.6307,
      "step": 26244
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3953157067298889,
      "learning_rate": 0.0004830831303073094,
      "loss": 1.638,
      "step": 26245
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39438098669052124,
      "learning_rate": 0.0004830748501547194,
      "loss": 1.7277,
      "step": 26246
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3904227912425995,
      "learning_rate": 0.00048306656977990353,
      "loss": 1.6377,
      "step": 26247
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3974165916442871,
      "learning_rate": 0.0004830582891828718,
      "loss": 1.6741,
      "step": 26248
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.37935373187065125,
      "learning_rate": 0.0004830500083636343,
      "loss": 1.7344,
      "step": 26249
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3999817967414856,
      "learning_rate": 0.0004830417273222011,
      "loss": 1.7191,
      "step": 26250
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3908466100692749,
      "learning_rate": 0.00048303344605858206,
      "loss": 1.685,
      "step": 26251
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39284396171569824,
      "learning_rate": 0.00048302516457278757,
      "loss": 1.7055,
      "step": 26252
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39405933022499084,
      "learning_rate": 0.0004830168828648274,
      "loss": 1.6955,
      "step": 26253
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3924785256385803,
      "learning_rate": 0.0004830086009347117,
      "loss": 1.6503,
      "step": 26254
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38274338841438293,
      "learning_rate": 0.0004830003187824506,
      "loss": 1.7274,
      "step": 26255
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3890291750431061,
      "learning_rate": 0.000482992036408054,
      "loss": 1.6999,
      "step": 26256
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.432616263628006,
      "learning_rate": 0.00048298375381153206,
      "loss": 1.5973,
      "step": 26257
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39072108268737793,
      "learning_rate": 0.00048297547099289477,
      "loss": 1.6591,
      "step": 26258
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39084142446517944,
      "learning_rate": 0.0004829671879521522,
      "loss": 1.6259,
      "step": 26259
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41593948006629944,
      "learning_rate": 0.00048295890468931453,
      "loss": 1.6416,
      "step": 26260
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4087721109390259,
      "learning_rate": 0.00048295062120439164,
      "loss": 1.647,
      "step": 26261
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39356836676597595,
      "learning_rate": 0.0004829423374973936,
      "loss": 1.6792,
      "step": 26262
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4011838138103485,
      "learning_rate": 0.00048293405356833057,
      "loss": 1.6503,
      "step": 26263
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.47522613406181335,
      "learning_rate": 0.00048292576941721255,
      "loss": 1.6676,
      "step": 26264
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3981941342353821,
      "learning_rate": 0.00048291748504404966,
      "loss": 1.6603,
      "step": 26265
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4301842749118805,
      "learning_rate": 0.00048290920044885175,
      "loss": 1.7077,
      "step": 26266
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3939601480960846,
      "learning_rate": 0.0004829009156316292,
      "loss": 1.6896,
      "step": 26267
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3982618451118469,
      "learning_rate": 0.0004828926305923918,
      "loss": 1.656,
      "step": 26268
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.42252424359321594,
      "learning_rate": 0.0004828843453311497,
      "loss": 1.7142,
      "step": 26269
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4163070321083069,
      "learning_rate": 0.00048287605984791295,
      "loss": 1.6792,
      "step": 26270
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.389983594417572,
      "learning_rate": 0.0004828677741426915,
      "loss": 1.6874,
      "step": 26271
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40609797835350037,
      "learning_rate": 0.0004828594882154957,
      "loss": 1.6368,
      "step": 26272
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4011158347129822,
      "learning_rate": 0.0004828512020663354,
      "loss": 1.659,
      "step": 26273
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6485329270362854,
      "learning_rate": 0.00048284291569522053,
      "loss": 1.66,
      "step": 26274
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4094789922237396,
      "learning_rate": 0.00048283462910216144,
      "loss": 1.6465,
      "step": 26275
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40986281633377075,
      "learning_rate": 0.000482826342287168,
      "loss": 1.6413,
      "step": 26276
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41668593883514404,
      "learning_rate": 0.0004828180552502503,
      "loss": 1.6959,
      "step": 26277
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.42251530289649963,
      "learning_rate": 0.00048280976799141846,
      "loss": 1.6002,
      "step": 26278
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4167942702770233,
      "learning_rate": 0.0004828014805106825,
      "loss": 1.7044,
      "step": 26279
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40138518810272217,
      "learning_rate": 0.0004827931928080525,
      "loss": 1.6374,
      "step": 26280
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.41359636187553406,
      "learning_rate": 0.0004827849048835384,
      "loss": 1.7295,
      "step": 26281
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39901480078697205,
      "learning_rate": 0.00048277661673715047,
      "loss": 1.7243,
      "step": 26282
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.447440505027771,
      "learning_rate": 0.00048276832836889854,
      "loss": 1.6306,
      "step": 26283
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4096459150314331,
      "learning_rate": 0.0004827600397787929,
      "loss": 1.6576,
      "step": 26284
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39904630184173584,
      "learning_rate": 0.0004827517509668434,
      "loss": 1.7101,
      "step": 26285
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4099275767803192,
      "learning_rate": 0.0004827434619330603,
      "loss": 1.6346,
      "step": 26286
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4045703113079071,
      "learning_rate": 0.0004827351726774535,
      "loss": 1.6681,
      "step": 26287
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.405658096075058,
      "learning_rate": 0.00048272688320003307,
      "loss": 1.5916,
      "step": 26288
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.40459275245666504,
      "learning_rate": 0.00048271859350080924,
      "loss": 1.7388,
      "step": 26289
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4227142035961151,
      "learning_rate": 0.0004827103035797919,
      "loss": 1.7029,
      "step": 26290
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4183824956417084,
      "learning_rate": 0.0004827020134369912,
      "loss": 1.7228,
      "step": 26291
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39549916982650757,
      "learning_rate": 0.0004826937230724172,
      "loss": 1.7121,
      "step": 26292
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38632020354270935,
      "learning_rate": 0.0004826854324860799,
      "loss": 1.7596,
      "step": 26293
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4103460907936096,
      "learning_rate": 0.0004826771416779894,
      "loss": 1.6612,
      "step": 26294
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3946819603443146,
      "learning_rate": 0.0004826688506481558,
      "loss": 1.5901,
      "step": 26295
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39590728282928467,
      "learning_rate": 0.0004826605593965891,
      "loss": 1.707,
      "step": 26296
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3859183192253113,
      "learning_rate": 0.0004826522679232994,
      "loss": 1.6819,
      "step": 26297
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39025887846946716,
      "learning_rate": 0.0004826439762282967,
      "loss": 1.6504,
      "step": 26298
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3885027766227722,
      "learning_rate": 0.0004826356843115912,
      "loss": 1.6023,
      "step": 26299
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39140692353248596,
      "learning_rate": 0.00048262739217319286,
      "loss": 1.6867,
      "step": 26300
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3893820345401764,
      "learning_rate": 0.0004826190998131118,
      "loss": 1.7039,
      "step": 26301
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4099286198616028,
      "learning_rate": 0.00048261080723135805,
      "loss": 1.7344,
      "step": 26302
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39429810643196106,
      "learning_rate": 0.0004826025144279417,
      "loss": 1.6083,
      "step": 26303
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3980506360530853,
      "learning_rate": 0.00048259422140287274,
      "loss": 1.646,
      "step": 26304
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.375600129365921,
      "learning_rate": 0.0004825859281561614,
      "loss": 1.6932,
      "step": 26305
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4010118842124939,
      "learning_rate": 0.0004825776346878176,
      "loss": 1.76,
      "step": 26306
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39248690009117126,
      "learning_rate": 0.00048256934099785145,
      "loss": 1.7184,
      "step": 26307
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4007118046283722,
      "learning_rate": 0.000482561047086273,
      "loss": 1.6843,
      "step": 26308
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3870839774608612,
      "learning_rate": 0.0004825527529530923,
      "loss": 1.7122,
      "step": 26309
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3993397057056427,
      "learning_rate": 0.0004825444585983196,
      "loss": 1.6405,
      "step": 26310
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3991119861602783,
      "learning_rate": 0.0004825361640219646,
      "loss": 1.5667,
      "step": 26311
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3952772319316864,
      "learning_rate": 0.0004825278692240378,
      "loss": 1.7191,
      "step": 26312
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38443416357040405,
      "learning_rate": 0.0004825195742045489,
      "loss": 1.681,
      "step": 26313
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.411053329706192,
      "learning_rate": 0.0004825112789635083,
      "loss": 1.6187,
      "step": 26314
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.393375962972641,
      "learning_rate": 0.0004825029835009258,
      "loss": 1.618,
      "step": 26315
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38493990898132324,
      "learning_rate": 0.00048249468781681157,
      "loss": 1.6575,
      "step": 26316
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3993273377418518,
      "learning_rate": 0.00048248639191117573,
      "loss": 1.6281,
      "step": 26317
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39153939485549927,
      "learning_rate": 0.0004824780957840282,
      "loss": 1.6596,
      "step": 26318
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39409321546554565,
      "learning_rate": 0.00048246979943537924,
      "loss": 1.7409,
      "step": 26319
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3779914677143097,
      "learning_rate": 0.0004824615028652388,
      "loss": 1.6975,
      "step": 26320
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3853106200695038,
      "learning_rate": 0.000482453206073617,
      "loss": 1.7157,
      "step": 26321
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4001549482345581,
      "learning_rate": 0.0004824449090605238,
      "loss": 1.7381,
      "step": 26322
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39497649669647217,
      "learning_rate": 0.00048243661182596943,
      "loss": 1.6063,
      "step": 26323
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38549381494522095,
      "learning_rate": 0.00048242831436996395,
      "loss": 1.6199,
      "step": 26324
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38724467158317566,
      "learning_rate": 0.00048242001669251733,
      "loss": 1.6517,
      "step": 26325
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3848876655101776,
      "learning_rate": 0.00048241171879363965,
      "loss": 1.6116,
      "step": 26326
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3921336531639099,
      "learning_rate": 0.0004824034206733411,
      "loss": 1.6408,
      "step": 26327
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4101528823375702,
      "learning_rate": 0.0004823951223316316,
      "loss": 1.6729,
      "step": 26328
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4024370610713959,
      "learning_rate": 0.0004823868237685213,
      "loss": 1.7001,
      "step": 26329
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4008522927761078,
      "learning_rate": 0.0004823785249840203,
      "loss": 1.7507,
      "step": 26330
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4091692268848419,
      "learning_rate": 0.00048237022597813863,
      "loss": 1.6956,
      "step": 26331
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39460626244544983,
      "learning_rate": 0.0004823619267508864,
      "loss": 1.6501,
      "step": 26332
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3991491198539734,
      "learning_rate": 0.0004823536273022736,
      "loss": 1.6879,
      "step": 26333
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.391252726316452,
      "learning_rate": 0.00048234532763231035,
      "loss": 1.7189,
      "step": 26334
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4389934539794922,
      "learning_rate": 0.00048233702774100687,
      "loss": 1.6404,
      "step": 26335
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40630894899368286,
      "learning_rate": 0.000482328727628373,
      "loss": 1.7435,
      "step": 26336
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40211525559425354,
      "learning_rate": 0.0004823204272944189,
      "loss": 1.6338,
      "step": 26337
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3904765546321869,
      "learning_rate": 0.0004823121267391547,
      "loss": 1.7306,
      "step": 26338
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39302757382392883,
      "learning_rate": 0.00048230382596259054,
      "loss": 1.7471,
      "step": 26339
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39358341693878174,
      "learning_rate": 0.00048229552496473633,
      "loss": 1.7435,
      "step": 26340
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39544981718063354,
      "learning_rate": 0.0004822872237456021,
      "loss": 1.7079,
      "step": 26341
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.393389493227005,
      "learning_rate": 0.0004822789223051982,
      "loss": 1.7326,
      "step": 26342
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39174124598503113,
      "learning_rate": 0.0004822706206435344,
      "loss": 1.6947,
      "step": 26343
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3902989625930786,
      "learning_rate": 0.00048226231876062105,
      "loss": 1.7236,
      "step": 26344
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4011164605617523,
      "learning_rate": 0.00048225401665646803,
      "loss": 1.6228,
      "step": 26345
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39799314737319946,
      "learning_rate": 0.0004822457143310855,
      "loss": 1.6357,
      "step": 26346
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.394422322511673,
      "learning_rate": 0.00048223741178448357,
      "loss": 1.6854,
      "step": 26347
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40104714035987854,
      "learning_rate": 0.00048222910901667224,
      "loss": 1.7205,
      "step": 26348
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38412636518478394,
      "learning_rate": 0.0004822208060276616,
      "loss": 1.6469,
      "step": 26349
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38752469420433044,
      "learning_rate": 0.00048221250281746175,
      "loss": 1.6285,
      "step": 26350
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38861021399497986,
      "learning_rate": 0.00048220419938608275,
      "loss": 1.6334,
      "step": 26351
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38428419828414917,
      "learning_rate": 0.0004821958957335348,
      "loss": 1.6184,
      "step": 26352
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39651963114738464,
      "learning_rate": 0.0004821875918598278,
      "loss": 1.6298,
      "step": 26353
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38093116879463196,
      "learning_rate": 0.000482179287764972,
      "loss": 1.6287,
      "step": 26354
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39442846179008484,
      "learning_rate": 0.0004821709834489773,
      "loss": 1.6837,
      "step": 26355
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38488849997520447,
      "learning_rate": 0.00048216267891185383,
      "loss": 1.6612,
      "step": 26356
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3938977122306824,
      "learning_rate": 0.0004821543741536118,
      "loss": 1.6495,
      "step": 26357
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3935631811618805,
      "learning_rate": 0.000482146069174261,
      "loss": 1.68,
      "step": 26358
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3928830921649933,
      "learning_rate": 0.00048213776397381194,
      "loss": 1.6957,
      "step": 26359
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41024306416511536,
      "learning_rate": 0.0004821294585522744,
      "loss": 1.6412,
      "step": 26360
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.399456262588501,
      "learning_rate": 0.0004821211529096586,
      "loss": 1.6692,
      "step": 26361
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38986891508102417,
      "learning_rate": 0.0004821128470459744,
      "loss": 1.6908,
      "step": 26362
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4091337025165558,
      "learning_rate": 0.0004821045409612321,
      "loss": 1.7326,
      "step": 26363
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39277246594429016,
      "learning_rate": 0.0004820962346554417,
      "loss": 1.7081,
      "step": 26364
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4077627658843994,
      "learning_rate": 0.00048208792812861343,
      "loss": 1.6697,
      "step": 26365
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39893391728401184,
      "learning_rate": 0.00048207962138075713,
      "loss": 1.6627,
      "step": 26366
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4212152361869812,
      "learning_rate": 0.000482071314411883,
      "loss": 1.6682,
      "step": 26367
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3946874439716339,
      "learning_rate": 0.0004820630072220012,
      "loss": 1.5991,
      "step": 26368
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38693398237228394,
      "learning_rate": 0.00048205469981112164,
      "loss": 1.6451,
      "step": 26369
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40383830666542053,
      "learning_rate": 0.0004820463921792546,
      "loss": 1.6496,
      "step": 26370
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3946409821510315,
      "learning_rate": 0.00048203808432641,
      "loss": 1.7964,
      "step": 26371
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4052523076534271,
      "learning_rate": 0.00048202977625259793,
      "loss": 1.649,
      "step": 26372
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38269415497779846,
      "learning_rate": 0.0004820214679578286,
      "loss": 1.6062,
      "step": 26373
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39509254693984985,
      "learning_rate": 0.000482013159442112,
      "loss": 1.6696,
      "step": 26374
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.395214319229126,
      "learning_rate": 0.00048200485070545824,
      "loss": 1.6514,
      "step": 26375
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38623711466789246,
      "learning_rate": 0.0004819965417478775,
      "loss": 1.6009,
      "step": 26376
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3745558261871338,
      "learning_rate": 0.0004819882325693797,
      "loss": 1.6201,
      "step": 26377
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4011196792125702,
      "learning_rate": 0.000481979923169975,
      "loss": 1.7041,
      "step": 26378
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4016995131969452,
      "learning_rate": 0.00048197161354967345,
      "loss": 1.6471,
      "step": 26379
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40101009607315063,
      "learning_rate": 0.0004819633037084852,
      "loss": 1.645,
      "step": 26380
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39207515120506287,
      "learning_rate": 0.00048195499364642034,
      "loss": 1.601,
      "step": 26381
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39128538966178894,
      "learning_rate": 0.0004819466833634889,
      "loss": 1.7217,
      "step": 26382
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40306609869003296,
      "learning_rate": 0.000481938372859701,
      "loss": 1.7057,
      "step": 26383
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4044524133205414,
      "learning_rate": 0.0004819300621350668,
      "loss": 1.6719,
      "step": 26384
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.43178504705429077,
      "learning_rate": 0.0004819217511895962,
      "loss": 1.6576,
      "step": 26385
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39333438873291016,
      "learning_rate": 0.0004819134400232995,
      "loss": 1.6888,
      "step": 26386
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40144094824790955,
      "learning_rate": 0.0004819051286361866,
      "loss": 1.6453,
      "step": 26387
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4165600538253784,
      "learning_rate": 0.0004818968170282677,
      "loss": 1.6794,
      "step": 26388
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39132770895957947,
      "learning_rate": 0.0004818885051995528,
      "loss": 1.6925,
      "step": 26389
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4055898189544678,
      "learning_rate": 0.0004818801931500522,
      "loss": 1.6478,
      "step": 26390
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3860626816749573,
      "learning_rate": 0.0004818718808797758,
      "loss": 1.5964,
      "step": 26391
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40334951877593994,
      "learning_rate": 0.0004818635683887336,
      "loss": 1.6701,
      "step": 26392
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39294925332069397,
      "learning_rate": 0.00048185525567693595,
      "loss": 1.6218,
      "step": 26393
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38599249720573425,
      "learning_rate": 0.0004818469427443928,
      "loss": 1.6674,
      "step": 26394
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39755651354789734,
      "learning_rate": 0.00048183862959111427,
      "loss": 1.6729,
      "step": 26395
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.419619619846344,
      "learning_rate": 0.00048183031621711037,
      "loss": 1.6191,
      "step": 26396
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3871351480484009,
      "learning_rate": 0.0004818220026223913,
      "loss": 1.6919,
      "step": 26397
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3940733075141907,
      "learning_rate": 0.0004818136888069671,
      "loss": 1.6481,
      "step": 26398
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4076230227947235,
      "learning_rate": 0.0004818053747708479,
      "loss": 1.7617,
      "step": 26399
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3905544579029083,
      "learning_rate": 0.00048179706051404376,
      "loss": 1.674,
      "step": 26400
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3863828480243683,
      "learning_rate": 0.00048178874603656475,
      "loss": 1.6415,
      "step": 26401
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3988153636455536,
      "learning_rate": 0.00048178043133842105,
      "loss": 1.7528,
      "step": 26402
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40762820839881897,
      "learning_rate": 0.00048177211641962263,
      "loss": 1.6723,
      "step": 26403
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.42155811190605164,
      "learning_rate": 0.0004817638012801796,
      "loss": 1.5944,
      "step": 26404
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39688947796821594,
      "learning_rate": 0.0004817554859201021,
      "loss": 1.659,
      "step": 26405
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4623379707336426,
      "learning_rate": 0.0004817471703394003,
      "loss": 1.7142,
      "step": 26406
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39597654342651367,
      "learning_rate": 0.00048173885453808423,
      "loss": 1.6732,
      "step": 26407
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41115695238113403,
      "learning_rate": 0.00048173053851616394,
      "loss": 1.6765,
      "step": 26408
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38923582434654236,
      "learning_rate": 0.0004817222222736495,
      "loss": 1.7096,
      "step": 26409
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3880283534526825,
      "learning_rate": 0.00048171390581055107,
      "loss": 1.5879,
      "step": 26410
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7083429098129272,
      "learning_rate": 0.00048170558912687876,
      "loss": 1.6857,
      "step": 26411
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39912858605384827,
      "learning_rate": 0.0004816972722226426,
      "loss": 1.7044,
      "step": 26412
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4038652777671814,
      "learning_rate": 0.0004816889550978528,
      "loss": 1.7121,
      "step": 26413
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39774832129478455,
      "learning_rate": 0.0004816806377525193,
      "loss": 1.6672,
      "step": 26414
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4025198221206665,
      "learning_rate": 0.00048167232018665225,
      "loss": 1.7176,
      "step": 26415
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4045690894126892,
      "learning_rate": 0.00048166400240026193,
      "loss": 1.7086,
      "step": 26416
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3946026563644409,
      "learning_rate": 0.00048165568439335817,
      "loss": 1.6679,
      "step": 26417
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39841368794441223,
      "learning_rate": 0.00048164736616595116,
      "loss": 1.7019,
      "step": 26418
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3889409303665161,
      "learning_rate": 0.00048163904771805104,
      "loss": 1.6581,
      "step": 26419
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38453081250190735,
      "learning_rate": 0.00048163072904966784,
      "loss": 1.607,
      "step": 26420
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40053364634513855,
      "learning_rate": 0.0004816224101608118,
      "loss": 1.6469,
      "step": 26421
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4076854884624481,
      "learning_rate": 0.0004816140910514928,
      "loss": 1.6511,
      "step": 26422
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38490819931030273,
      "learning_rate": 0.00048160577172172116,
      "loss": 1.6492,
      "step": 26423
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3828812837600708,
      "learning_rate": 0.0004815974521715068,
      "loss": 1.6547,
      "step": 26424
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4077380299568176,
      "learning_rate": 0.0004815891324008599,
      "loss": 1.6802,
      "step": 26425
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40195226669311523,
      "learning_rate": 0.00048158081240979054,
      "loss": 1.6676,
      "step": 26426
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4023154079914093,
      "learning_rate": 0.0004815724921983088,
      "loss": 1.7002,
      "step": 26427
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40278512239456177,
      "learning_rate": 0.00048156417176642484,
      "loss": 1.5913,
      "step": 26428
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3938816487789154,
      "learning_rate": 0.0004815558511141488,
      "loss": 1.6013,
      "step": 26429
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3973446786403656,
      "learning_rate": 0.00048154753024149056,
      "loss": 1.6556,
      "step": 26430
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39726316928863525,
      "learning_rate": 0.0004815392091484605,
      "loss": 1.655,
      "step": 26431
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3975973129272461,
      "learning_rate": 0.00048153088783506857,
      "loss": 1.6639,
      "step": 26432
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40031301975250244,
      "learning_rate": 0.0004815225663013248,
      "loss": 1.6457,
      "step": 26433
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4035272002220154,
      "learning_rate": 0.00048151424454723944,
      "loss": 1.712,
      "step": 26434
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39585599303245544,
      "learning_rate": 0.0004815059225728225,
      "loss": 1.6922,
      "step": 26435
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3786161243915558,
      "learning_rate": 0.00048149760037808416,
      "loss": 1.6302,
      "step": 26436
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4073675274848938,
      "learning_rate": 0.00048148927796303446,
      "loss": 1.7714,
      "step": 26437
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39251112937927246,
      "learning_rate": 0.0004814809553276835,
      "loss": 1.6591,
      "step": 26438
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3833913803100586,
      "learning_rate": 0.0004814726324720414,
      "loss": 1.6248,
      "step": 26439
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3858834207057953,
      "learning_rate": 0.0004814643093961183,
      "loss": 1.6927,
      "step": 26440
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38973379135131836,
      "learning_rate": 0.0004814559860999243,
      "loss": 1.7121,
      "step": 26441
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3749822676181793,
      "learning_rate": 0.00048144766258346945,
      "loss": 1.6127,
      "step": 26442
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3844623565673828,
      "learning_rate": 0.0004814393388467638,
      "loss": 1.6601,
      "step": 26443
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3804706633090973,
      "learning_rate": 0.00048143101488981756,
      "loss": 1.6454,
      "step": 26444
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3965610861778259,
      "learning_rate": 0.0004814226907126408,
      "loss": 1.6848,
      "step": 26445
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4079419672489166,
      "learning_rate": 0.00048141436631524365,
      "loss": 1.5951,
      "step": 26446
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40077218413352966,
      "learning_rate": 0.00048140604169763615,
      "loss": 1.6327,
      "step": 26447
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40126797556877136,
      "learning_rate": 0.0004813977168598285,
      "loss": 1.6435,
      "step": 26448
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39574283361434937,
      "learning_rate": 0.00048138939180183076,
      "loss": 1.7768,
      "step": 26449
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3905623257160187,
      "learning_rate": 0.00048138106652365287,
      "loss": 1.6424,
      "step": 26450
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4008381962776184,
      "learning_rate": 0.00048137274102530523,
      "loss": 1.5784,
      "step": 26451
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.393268883228302,
      "learning_rate": 0.00048136441530679776,
      "loss": 1.6266,
      "step": 26452
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3896125853061676,
      "learning_rate": 0.0004813560893681406,
      "loss": 1.7006,
      "step": 26453
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40783095359802246,
      "learning_rate": 0.00048134776320934395,
      "loss": 1.7184,
      "step": 26454
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4001913070678711,
      "learning_rate": 0.0004813394368304178,
      "loss": 1.6499,
      "step": 26455
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3832816481590271,
      "learning_rate": 0.0004813311102313722,
      "loss": 1.6771,
      "step": 26456
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4006272852420807,
      "learning_rate": 0.0004813227834122175,
      "loss": 1.685,
      "step": 26457
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3955690562725067,
      "learning_rate": 0.00048131445637296356,
      "loss": 1.6301,
      "step": 26458
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4058488607406616,
      "learning_rate": 0.0004813061291136206,
      "loss": 1.763,
      "step": 26459
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.408010870218277,
      "learning_rate": 0.0004812978016341987,
      "loss": 1.6955,
      "step": 26460
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41194671392440796,
      "learning_rate": 0.000481289473934708,
      "loss": 1.6838,
      "step": 26461
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39029309153556824,
      "learning_rate": 0.00048128114601515864,
      "loss": 1.6438,
      "step": 26462
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39075967669487,
      "learning_rate": 0.0004812728178755606,
      "loss": 1.6346,
      "step": 26463
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39960551261901855,
      "learning_rate": 0.0004812644895159241,
      "loss": 1.6805,
      "step": 26464
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3880145251750946,
      "learning_rate": 0.0004812561609362592,
      "loss": 1.6859,
      "step": 26465
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39656010270118713,
      "learning_rate": 0.0004812478321365761,
      "loss": 1.6567,
      "step": 26466
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.388008713722229,
      "learning_rate": 0.0004812395031168848,
      "loss": 1.6333,
      "step": 26467
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4030320346355438,
      "learning_rate": 0.00048123117387719534,
      "loss": 1.7308,
      "step": 26468
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3860761821269989,
      "learning_rate": 0.0004812228444175181,
      "loss": 1.6231,
      "step": 26469
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40947815775871277,
      "learning_rate": 0.00048121451473786295,
      "loss": 1.746,
      "step": 26470
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39133524894714355,
      "learning_rate": 0.00048120618483824006,
      "loss": 1.6309,
      "step": 26471
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3948010802268982,
      "learning_rate": 0.0004811978547186596,
      "loss": 1.6651,
      "step": 26472
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3807885944843292,
      "learning_rate": 0.0004811895243791316,
      "loss": 1.6067,
      "step": 26473
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40027058124542236,
      "learning_rate": 0.00048118119381966633,
      "loss": 1.7359,
      "step": 26474
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39268115162849426,
      "learning_rate": 0.00048117286304027367,
      "loss": 1.6694,
      "step": 26475
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40789905190467834,
      "learning_rate": 0.0004811645320409638,
      "loss": 1.7327,
      "step": 26476
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40340250730514526,
      "learning_rate": 0.0004811562008217471,
      "loss": 1.6137,
      "step": 26477
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39670857787132263,
      "learning_rate": 0.00048114786938263323,
      "loss": 1.644,
      "step": 26478
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40013882517814636,
      "learning_rate": 0.00048113953772363266,
      "loss": 1.6185,
      "step": 26479
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39511048793792725,
      "learning_rate": 0.0004811312058447554,
      "loss": 1.6943,
      "step": 26480
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40580713748931885,
      "learning_rate": 0.0004811228737460115,
      "loss": 1.6183,
      "step": 26481
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3947259783744812,
      "learning_rate": 0.00048111454142741114,
      "loss": 1.7223,
      "step": 26482
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4208762049674988,
      "learning_rate": 0.0004811062088889643,
      "loss": 1.6928,
      "step": 26483
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40392613410949707,
      "learning_rate": 0.0004810978761306813,
      "loss": 1.7101,
      "step": 26484
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38977184891700745,
      "learning_rate": 0.00048108954315257216,
      "loss": 1.6431,
      "step": 26485
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40476322174072266,
      "learning_rate": 0.000481081209954647,
      "loss": 1.7211,
      "step": 26486
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39636874198913574,
      "learning_rate": 0.00048107287653691594,
      "loss": 1.6577,
      "step": 26487
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3994741141796112,
      "learning_rate": 0.0004810645428993891,
      "loss": 1.6438,
      "step": 26488
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.394437313079834,
      "learning_rate": 0.00048105620904207656,
      "loss": 1.707,
      "step": 26489
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40634825825691223,
      "learning_rate": 0.00048104787496498845,
      "loss": 1.6623,
      "step": 26490
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40611597895622253,
      "learning_rate": 0.00048103954066813494,
      "loss": 1.7442,
      "step": 26491
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3969856798648834,
      "learning_rate": 0.00048103120615152606,
      "loss": 1.6847,
      "step": 26492
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39059680700302124,
      "learning_rate": 0.00048102287141517196,
      "loss": 1.7109,
      "step": 26493
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.37100571393966675,
      "learning_rate": 0.00048101453645908276,
      "loss": 1.689,
      "step": 26494
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41062623262405396,
      "learning_rate": 0.0004810062012832686,
      "loss": 1.7506,
      "step": 26495
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3858987092971802,
      "learning_rate": 0.00048099786588773965,
      "loss": 1.6262,
      "step": 26496
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.383627325296402,
      "learning_rate": 0.0004809895302725059,
      "loss": 1.598,
      "step": 26497
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40000537037849426,
      "learning_rate": 0.00048098119443757754,
      "loss": 1.6722,
      "step": 26498
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3862794041633606,
      "learning_rate": 0.00048097285838296467,
      "loss": 1.5915,
      "step": 26499
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39625152945518494,
      "learning_rate": 0.0004809645221086774,
      "loss": 1.656,
      "step": 26500
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4029652178287506,
      "learning_rate": 0.00048095618561472584,
      "loss": 1.6338,
      "step": 26501
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.42556828260421753,
      "learning_rate": 0.0004809478489011202,
      "loss": 1.7446,
      "step": 26502
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3853711485862732,
      "learning_rate": 0.0004809395119678705,
      "loss": 1.6212,
      "step": 26503
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4120953381061554,
      "learning_rate": 0.0004809311748149869,
      "loss": 1.7561,
      "step": 26504
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41059374809265137,
      "learning_rate": 0.00048092283744247946,
      "loss": 1.6699,
      "step": 26505
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39640340209007263,
      "learning_rate": 0.0004809144998503584,
      "loss": 1.642,
      "step": 26506
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4076215922832489,
      "learning_rate": 0.00048090616203863383,
      "loss": 1.7115,
      "step": 26507
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4159929156303406,
      "learning_rate": 0.00048089782400731576,
      "loss": 1.6582,
      "step": 26508
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40743952989578247,
      "learning_rate": 0.00048088948575641445,
      "loss": 1.6096,
      "step": 26509
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3999951481819153,
      "learning_rate": 0.00048088114728593985,
      "loss": 1.6354,
      "step": 26510
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40268319845199585,
      "learning_rate": 0.00048087280859590234,
      "loss": 1.6251,
      "step": 26511
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.43844226002693176,
      "learning_rate": 0.0004808644696863119,
      "loss": 1.7129,
      "step": 26512
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4209821820259094,
      "learning_rate": 0.00048085613055717845,
      "loss": 1.7004,
      "step": 26513
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39849191904067993,
      "learning_rate": 0.0004808477912085125,
      "loss": 1.6666,
      "step": 26514
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4025178551673889,
      "learning_rate": 0.0004808394516403238,
      "loss": 1.6395,
      "step": 26515
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.386221319437027,
      "learning_rate": 0.0004808311118526228,
      "loss": 1.6036,
      "step": 26516
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4083627760410309,
      "learning_rate": 0.00048082277184541945,
      "loss": 1.693,
      "step": 26517
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4061416685581207,
      "learning_rate": 0.0004808144316187238,
      "loss": 1.7536,
      "step": 26518
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4033919870853424,
      "learning_rate": 0.0004808060911725462,
      "loss": 1.7698,
      "step": 26519
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41591811180114746,
      "learning_rate": 0.0004807977505068965,
      "loss": 1.6463,
      "step": 26520
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3990146517753601,
      "learning_rate": 0.00048078940962178513,
      "loss": 1.7032,
      "step": 26521
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4009402394294739,
      "learning_rate": 0.00048078106851722196,
      "loss": 1.6094,
      "step": 26522
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4112493693828583,
      "learning_rate": 0.00048077272719321723,
      "loss": 1.6552,
      "step": 26523
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3938363790512085,
      "learning_rate": 0.0004807643856497811,
      "loss": 1.684,
      "step": 26524
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3974592685699463,
      "learning_rate": 0.00048075604388692354,
      "loss": 1.6454,
      "step": 26525
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3991430997848511,
      "learning_rate": 0.0004807477019046549,
      "loss": 1.7688,
      "step": 26526
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4048343300819397,
      "learning_rate": 0.000480739359702985,
      "loss": 1.6235,
      "step": 26527
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38894760608673096,
      "learning_rate": 0.0004807310172819243,
      "loss": 1.673,
      "step": 26528
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39372217655181885,
      "learning_rate": 0.00048072267464148276,
      "loss": 1.6145,
      "step": 26529
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3903783857822418,
      "learning_rate": 0.0004807143317816704,
      "loss": 1.6535,
      "step": 26530
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3980085253715515,
      "learning_rate": 0.00048070598870249753,
      "loss": 1.5936,
      "step": 26531
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4034046530723572,
      "learning_rate": 0.0004806976454039743,
      "loss": 1.6832,
      "step": 26532
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.644682765007019,
      "learning_rate": 0.00048068930188611075,
      "loss": 1.6241,
      "step": 26533
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41199758648872375,
      "learning_rate": 0.0004806809581489169,
      "loss": 1.6595,
      "step": 26534
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.408143550157547,
      "learning_rate": 0.00048067261419240307,
      "loss": 1.704,
      "step": 26535
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.45282572507858276,
      "learning_rate": 0.0004806642700165793,
      "loss": 1.6362,
      "step": 26536
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38360995054244995,
      "learning_rate": 0.00048065592562145565,
      "loss": 1.6696,
      "step": 26537
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.38191717863082886,
      "learning_rate": 0.00048064758100704234,
      "loss": 1.7155,
      "step": 26538
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.384738951921463,
      "learning_rate": 0.0004806392361733496,
      "loss": 1.7966,
      "step": 26539
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39197248220443726,
      "learning_rate": 0.00048063089112038734,
      "loss": 1.7327,
      "step": 26540
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39780348539352417,
      "learning_rate": 0.0004806225458481658,
      "loss": 1.686,
      "step": 26541
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40962499380111694,
      "learning_rate": 0.00048061420035669513,
      "loss": 1.6932,
      "step": 26542
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3826115131378174,
      "learning_rate": 0.0004806058546459855,
      "loss": 1.7006,
      "step": 26543
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.43243858218193054,
      "learning_rate": 0.0004805975087160469,
      "loss": 1.8035,
      "step": 26544
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3890705406665802,
      "learning_rate": 0.00048058916256688944,
      "loss": 1.5906,
      "step": 26545
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3905671238899231,
      "learning_rate": 0.00048058081619852346,
      "loss": 1.6155,
      "step": 26546
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40029630064964294,
      "learning_rate": 0.0004805724696109589,
      "loss": 1.6263,
      "step": 26547
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3978179395198822,
      "learning_rate": 0.0004805641228042061,
      "loss": 1.7159,
      "step": 26548
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4018322229385376,
      "learning_rate": 0.000480555775778275,
      "loss": 1.6003,
      "step": 26549
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.406781405210495,
      "learning_rate": 0.0004805474285331757,
      "loss": 1.8105,
      "step": 26550
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4126250445842743,
      "learning_rate": 0.00048053908106891855,
      "loss": 1.6449,
      "step": 26551
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4050677716732025,
      "learning_rate": 0.0004805307333855135,
      "loss": 1.688,
      "step": 26552
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3928218483924866,
      "learning_rate": 0.00048052238548297084,
      "loss": 1.6575,
      "step": 26553
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4038223624229431,
      "learning_rate": 0.0004805140373613005,
      "loss": 1.6274,
      "step": 26554
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39519381523132324,
      "learning_rate": 0.0004805056890205126,
      "loss": 1.6874,
      "step": 26555
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3821927607059479,
      "learning_rate": 0.00048049734046061763,
      "loss": 1.5496,
      "step": 26556
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3953684866428375,
      "learning_rate": 0.0004804889916816253,
      "loss": 1.6902,
      "step": 26557
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40586718916893005,
      "learning_rate": 0.00048048064268354606,
      "loss": 1.687,
      "step": 26558
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3851253092288971,
      "learning_rate": 0.0004804722934663899,
      "loss": 1.6333,
      "step": 26559
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40441015362739563,
      "learning_rate": 0.0004804639440301668,
      "loss": 1.6526,
      "step": 26560
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4058130085468292,
      "learning_rate": 0.0004804555943748872,
      "loss": 1.6752,
      "step": 26561
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.400105357170105,
      "learning_rate": 0.000480447244500561,
      "loss": 1.6617,
      "step": 26562
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3845584988594055,
      "learning_rate": 0.0004804388944071986,
      "loss": 1.7827,
      "step": 26563
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40405434370040894,
      "learning_rate": 0.0004804305440948099,
      "loss": 1.6868,
      "step": 26564
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40744706988334656,
      "learning_rate": 0.00048042219356340504,
      "loss": 1.5758,
      "step": 26565
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3906337022781372,
      "learning_rate": 0.00048041384281299426,
      "loss": 1.6483,
      "step": 26566
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40654024481773376,
      "learning_rate": 0.0004804054918435877,
      "loss": 1.6218,
      "step": 26567
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.408903032541275,
      "learning_rate": 0.0004803971406551954,
      "loss": 1.7486,
      "step": 26568
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39574769139289856,
      "learning_rate": 0.0004803887892478276,
      "loss": 1.7163,
      "step": 26569
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4089541733264923,
      "learning_rate": 0.0004803804376214943,
      "loss": 1.7618,
      "step": 26570
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39671817421913147,
      "learning_rate": 0.00048037208577620576,
      "loss": 1.6824,
      "step": 26571
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4001210629940033,
      "learning_rate": 0.00048036373371197213,
      "loss": 1.7249,
      "step": 26572
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41503283381462097,
      "learning_rate": 0.00048035538142880354,
      "loss": 1.5998,
      "step": 26573
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39381855726242065,
      "learning_rate": 0.00048034702892671004,
      "loss": 1.6733,
      "step": 26574
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39694011211395264,
      "learning_rate": 0.00048033867620570175,
      "loss": 1.7349,
      "step": 26575
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39596936106681824,
      "learning_rate": 0.000480330323265789,
      "loss": 1.7122,
      "step": 26576
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3893101215362549,
      "learning_rate": 0.00048032197010698164,
      "loss": 1.6682,
      "step": 26577
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3945407569408417,
      "learning_rate": 0.00048031361672929015,
      "loss": 1.6026,
      "step": 26578
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.41104593873023987,
      "learning_rate": 0.0004803052631327244,
      "loss": 1.7041,
      "step": 26579
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.37761470675468445,
      "learning_rate": 0.0004802969093172947,
      "loss": 1.5738,
      "step": 26580
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40550756454467773,
      "learning_rate": 0.000480288555283011,
      "loss": 1.6916,
      "step": 26581
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40202948451042175,
      "learning_rate": 0.00048028020102988363,
      "loss": 1.7802,
      "step": 26582
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39129412174224854,
      "learning_rate": 0.0004802718465579227,
      "loss": 1.6856,
      "step": 26583
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39935457706451416,
      "learning_rate": 0.0004802634918671383,
      "loss": 1.694,
      "step": 26584
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40275368094444275,
      "learning_rate": 0.00048025513695754054,
      "loss": 1.6656,
      "step": 26585
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39632904529571533,
      "learning_rate": 0.0004802467818291396,
      "loss": 1.7012,
      "step": 26586
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40919652581214905,
      "learning_rate": 0.0004802384264819457,
      "loss": 1.6839,
      "step": 26587
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3916109800338745,
      "learning_rate": 0.00048023007091596885,
      "loss": 1.6746,
      "step": 26588
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.40585795044898987,
      "learning_rate": 0.0004802217151312192,
      "loss": 1.681,
      "step": 26589
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3922543525695801,
      "learning_rate": 0.000480213359127707,
      "loss": 1.6378,
      "step": 26590
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3867904841899872,
      "learning_rate": 0.00048020500290544237,
      "loss": 1.7169,
      "step": 26591
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.386494904756546,
      "learning_rate": 0.0004801966464644353,
      "loss": 1.6722,
      "step": 26592
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.39814579486846924,
      "learning_rate": 0.00048018828980469613,
      "loss": 1.7337,
      "step": 26593
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3981420397758484,
      "learning_rate": 0.00048017993292623503,
      "loss": 1.619,
      "step": 26594
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3870047628879547,
      "learning_rate": 0.0004801715758290619,
      "loss": 1.6379,
      "step": 26595
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4036380350589752,
      "learning_rate": 0.000480163218513187,
      "loss": 1.6222,
      "step": 26596
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3864327073097229,
      "learning_rate": 0.0004801548609786206,
      "loss": 1.6577,
      "step": 26597
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4013596475124359,
      "learning_rate": 0.0004801465032253727,
      "loss": 1.7071,
      "step": 26598
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4099182188510895,
      "learning_rate": 0.0004801381452534535,
      "loss": 1.6756,
      "step": 26599
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3914417028427124,
      "learning_rate": 0.00048012978706287303,
      "loss": 1.628,
      "step": 26600
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38164764642715454,
      "learning_rate": 0.0004801214286536417,
      "loss": 1.5974,
      "step": 26601
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39866676926612854,
      "learning_rate": 0.00048011307002576937,
      "loss": 1.6861,
      "step": 26602
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3854790925979614,
      "learning_rate": 0.00048010471117926643,
      "loss": 1.6824,
      "step": 26603
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.44053733348846436,
      "learning_rate": 0.00048009635211414286,
      "loss": 1.7549,
      "step": 26604
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3957101106643677,
      "learning_rate": 0.00048008799283040884,
      "loss": 1.6661,
      "step": 26605
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41354817152023315,
      "learning_rate": 0.0004800796333280745,
      "loss": 1.6357,
      "step": 26606
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39908117055892944,
      "learning_rate": 0.00048007127360715006,
      "loss": 1.6373,
      "step": 26607
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41399264335632324,
      "learning_rate": 0.0004800629136676456,
      "loss": 1.6219,
      "step": 26608
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40311798453330994,
      "learning_rate": 0.00048005455350957134,
      "loss": 1.6633,
      "step": 26609
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39516422152519226,
      "learning_rate": 0.00048004619313293725,
      "loss": 1.6831,
      "step": 26610
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40424954891204834,
      "learning_rate": 0.00048003783253775374,
      "loss": 1.7117,
      "step": 26611
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4008353650569916,
      "learning_rate": 0.0004800294717240308,
      "loss": 1.6763,
      "step": 26612
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38925984501838684,
      "learning_rate": 0.0004800211106917787,
      "loss": 1.7306,
      "step": 26613
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40192103385925293,
      "learning_rate": 0.0004800127494410074,
      "loss": 1.6897,
      "step": 26614
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40417444705963135,
      "learning_rate": 0.0004800043879717271,
      "loss": 1.6973,
      "step": 26615
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3969387710094452,
      "learning_rate": 0.00047999602628394806,
      "loss": 1.6888,
      "step": 26616
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4032122492790222,
      "learning_rate": 0.0004799876643776803,
      "loss": 1.7226,
      "step": 26617
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3875861167907715,
      "learning_rate": 0.0004799793022529341,
      "loss": 1.6213,
      "step": 26618
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41650938987731934,
      "learning_rate": 0.0004799709399097196,
      "loss": 1.7356,
      "step": 26619
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3898601531982422,
      "learning_rate": 0.0004799625773480468,
      "loss": 1.7701,
      "step": 26620
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39057907462120056,
      "learning_rate": 0.000479954214567926,
      "loss": 1.6544,
      "step": 26621
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40347760915756226,
      "learning_rate": 0.0004799458515693672,
      "loss": 1.7037,
      "step": 26622
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.44454318284988403,
      "learning_rate": 0.0004799374883523808,
      "loss": 1.6337,
      "step": 26623
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39556199312210083,
      "learning_rate": 0.0004799291249169767,
      "loss": 1.6005,
      "step": 26624
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4073038697242737,
      "learning_rate": 0.0004799207612631652,
      "loss": 1.6642,
      "step": 26625
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.42352235317230225,
      "learning_rate": 0.00047991239739095633,
      "loss": 1.6855,
      "step": 26626
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38991352915763855,
      "learning_rate": 0.00047990403330036037,
      "loss": 1.6115,
      "step": 26627
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41352102160453796,
      "learning_rate": 0.00047989566899138745,
      "loss": 1.6862,
      "step": 26628
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39819949865341187,
      "learning_rate": 0.0004798873044640477,
      "loss": 1.6547,
      "step": 26629
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40365520119667053,
      "learning_rate": 0.0004798789397183512,
      "loss": 1.632,
      "step": 26630
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39673134684562683,
      "learning_rate": 0.0004798705747543082,
      "loss": 1.6696,
      "step": 26631
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4154485762119293,
      "learning_rate": 0.00047986220957192883,
      "loss": 1.5933,
      "step": 26632
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39024320244789124,
      "learning_rate": 0.0004798538441712233,
      "loss": 1.5871,
      "step": 26633
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40350890159606934,
      "learning_rate": 0.0004798454785522016,
      "loss": 1.7272,
      "step": 26634
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4025886356830597,
      "learning_rate": 0.0004798371127148741,
      "loss": 1.6485,
      "step": 26635
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3971651494503021,
      "learning_rate": 0.00047982874665925077,
      "loss": 1.7104,
      "step": 26636
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3947702646255493,
      "learning_rate": 0.00047982038038534177,
      "loss": 1.5917,
      "step": 26637
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.46652457118034363,
      "learning_rate": 0.0004798120138931574,
      "loss": 1.7591,
      "step": 26638
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39069241285324097,
      "learning_rate": 0.0004798036471827077,
      "loss": 1.7007,
      "step": 26639
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37952572107315063,
      "learning_rate": 0.00047979528025400293,
      "loss": 1.7247,
      "step": 26640
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4184455871582031,
      "learning_rate": 0.00047978691310705324,
      "loss": 1.6293,
      "step": 26641
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3914851248264313,
      "learning_rate": 0.00047977854574186857,
      "loss": 1.6452,
      "step": 26642
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3904217481613159,
      "learning_rate": 0.0004797701781584593,
      "loss": 1.6599,
      "step": 26643
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41493067145347595,
      "learning_rate": 0.0004797618103568355,
      "loss": 1.6775,
      "step": 26644
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39616528153419495,
      "learning_rate": 0.0004797534423370074,
      "loss": 1.666,
      "step": 26645
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3892909586429596,
      "learning_rate": 0.00047974507409898515,
      "loss": 1.6295,
      "step": 26646
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.45333951711654663,
      "learning_rate": 0.0004797367056427787,
      "loss": 1.7123,
      "step": 26647
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.384250670671463,
      "learning_rate": 0.0004797283369683985,
      "loss": 1.6013,
      "step": 26648
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3840430676937103,
      "learning_rate": 0.00047971996807585454,
      "loss": 1.6408,
      "step": 26649
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38424795866012573,
      "learning_rate": 0.000479711598965157,
      "loss": 1.6248,
      "step": 26650
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4005528390407562,
      "learning_rate": 0.00047970322963631615,
      "loss": 1.6603,
      "step": 26651
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3801115155220032,
      "learning_rate": 0.000479694860089342,
      "loss": 1.6448,
      "step": 26652
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4064895510673523,
      "learning_rate": 0.00047968649032424475,
      "loss": 1.649,
      "step": 26653
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39859792590141296,
      "learning_rate": 0.00047967812034103454,
      "loss": 1.6856,
      "step": 26654
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41683322191238403,
      "learning_rate": 0.0004796697501397216,
      "loss": 1.7062,
      "step": 26655
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3956732153892517,
      "learning_rate": 0.00047966137972031616,
      "loss": 1.6391,
      "step": 26656
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39599061012268066,
      "learning_rate": 0.00047965300908282815,
      "loss": 1.6755,
      "step": 26657
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3848700523376465,
      "learning_rate": 0.0004796446382272679,
      "loss": 1.6401,
      "step": 26658
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3950907588005066,
      "learning_rate": 0.0004796362671536455,
      "loss": 1.6521,
      "step": 26659
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4070536196231842,
      "learning_rate": 0.0004796278958619712,
      "loss": 1.6899,
      "step": 26660
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3950531780719757,
      "learning_rate": 0.0004796195243522551,
      "loss": 1.6787,
      "step": 26661
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39315739274024963,
      "learning_rate": 0.0004796111526245073,
      "loss": 1.6011,
      "step": 26662
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39932724833488464,
      "learning_rate": 0.00047960278067873805,
      "loss": 1.6954,
      "step": 26663
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3992537260055542,
      "learning_rate": 0.00047959440851495745,
      "loss": 1.6381,
      "step": 26664
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40363502502441406,
      "learning_rate": 0.0004795860361331757,
      "loss": 1.6765,
      "step": 26665
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3915095329284668,
      "learning_rate": 0.00047957766353340305,
      "loss": 1.7122,
      "step": 26666
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4116433262825012,
      "learning_rate": 0.0004795692907156495,
      "loss": 1.5963,
      "step": 26667
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38568323850631714,
      "learning_rate": 0.00047956091767992535,
      "loss": 1.6365,
      "step": 26668
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3888360559940338,
      "learning_rate": 0.0004795525444262406,
      "loss": 1.6264,
      "step": 26669
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41022777557373047,
      "learning_rate": 0.00047954417095460566,
      "loss": 1.7332,
      "step": 26670
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4003649055957794,
      "learning_rate": 0.00047953579726503053,
      "loss": 1.6738,
      "step": 26671
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4013206958770752,
      "learning_rate": 0.00047952742335752524,
      "loss": 1.6647,
      "step": 26672
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4075014889240265,
      "learning_rate": 0.0004795190492321003,
      "loss": 1.6664,
      "step": 26673
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4091182351112366,
      "learning_rate": 0.00047951067488876553,
      "loss": 1.6569,
      "step": 26674
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41537296772003174,
      "learning_rate": 0.0004795023003275314,
      "loss": 1.7202,
      "step": 26675
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4044061005115509,
      "learning_rate": 0.0004794939255484078,
      "loss": 1.6987,
      "step": 26676
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3852679431438446,
      "learning_rate": 0.00047948555055140506,
      "loss": 1.6381,
      "step": 26677
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4091726243495941,
      "learning_rate": 0.00047947717533653334,
      "loss": 1.6477,
      "step": 26678
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4090222120285034,
      "learning_rate": 0.00047946879990380274,
      "loss": 1.6581,
      "step": 26679
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4049202799797058,
      "learning_rate": 0.00047946042425322345,
      "loss": 1.682,
      "step": 26680
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38640478253364563,
      "learning_rate": 0.0004794520483848057,
      "loss": 1.7526,
      "step": 26681
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4051735997200012,
      "learning_rate": 0.00047944367229855957,
      "loss": 1.6537,
      "step": 26682
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3850438892841339,
      "learning_rate": 0.00047943529599449525,
      "loss": 1.6254,
      "step": 26683
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40371400117874146,
      "learning_rate": 0.0004794269194726229,
      "loss": 1.7813,
      "step": 26684
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39303913712501526,
      "learning_rate": 0.0004794185427329528,
      "loss": 1.6681,
      "step": 26685
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4052806794643402,
      "learning_rate": 0.00047941016577549494,
      "loss": 1.6294,
      "step": 26686
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3847469389438629,
      "learning_rate": 0.00047940178860025954,
      "loss": 1.7091,
      "step": 26687
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3920831084251404,
      "learning_rate": 0.00047939341120725693,
      "loss": 1.6958,
      "step": 26688
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39102062582969666,
      "learning_rate": 0.000479385033596497,
      "loss": 1.6957,
      "step": 26689
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38670891523361206,
      "learning_rate": 0.0004793766557679902,
      "loss": 1.6324,
      "step": 26690
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37543585896492004,
      "learning_rate": 0.00047936827772174657,
      "loss": 1.6473,
      "step": 26691
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38691797852516174,
      "learning_rate": 0.00047935989945777617,
      "loss": 1.6974,
      "step": 26692
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3880311846733093,
      "learning_rate": 0.00047935152097608935,
      "loss": 1.6692,
      "step": 26693
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38863348960876465,
      "learning_rate": 0.00047934314227669625,
      "loss": 1.712,
      "step": 26694
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4106171131134033,
      "learning_rate": 0.00047933476335960685,
      "loss": 1.7007,
      "step": 26695
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.391148179769516,
      "learning_rate": 0.00047932638422483166,
      "loss": 1.5576,
      "step": 26696
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3936224579811096,
      "learning_rate": 0.00047931800487238056,
      "loss": 1.5912,
      "step": 26697
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3802827298641205,
      "learning_rate": 0.0004793096253022638,
      "loss": 1.6934,
      "step": 26698
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40817639231681824,
      "learning_rate": 0.0004793012455144916,
      "loss": 1.7685,
      "step": 26699
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39184796810150146,
      "learning_rate": 0.00047929286550907416,
      "loss": 1.6738,
      "step": 26700
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3920808434486389,
      "learning_rate": 0.0004792844852860216,
      "loss": 1.6879,
      "step": 26701
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38335150480270386,
      "learning_rate": 0.000479276104845344,
      "loss": 1.7074,
      "step": 26702
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3953135013580322,
      "learning_rate": 0.00047926772418705165,
      "loss": 1.7116,
      "step": 26703
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3926376700401306,
      "learning_rate": 0.0004792593433111548,
      "loss": 1.6324,
      "step": 26704
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38788020610809326,
      "learning_rate": 0.0004792509622176634,
      "loss": 1.6878,
      "step": 26705
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3820033669471741,
      "learning_rate": 0.00047924258090658776,
      "loss": 1.6717,
      "step": 26706
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38986241817474365,
      "learning_rate": 0.0004792341993779381,
      "loss": 1.6273,
      "step": 26707
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3841187357902527,
      "learning_rate": 0.00047922581763172443,
      "loss": 1.678,
      "step": 26708
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4081926643848419,
      "learning_rate": 0.0004792174356679571,
      "loss": 1.6413,
      "step": 26709
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3963470757007599,
      "learning_rate": 0.0004792090534866462,
      "loss": 1.7739,
      "step": 26710
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39355897903442383,
      "learning_rate": 0.0004792006710878019,
      "loss": 1.723,
      "step": 26711
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3981632590293884,
      "learning_rate": 0.00047919228847143443,
      "loss": 1.6189,
      "step": 26712
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3869088888168335,
      "learning_rate": 0.0004791839056375538,
      "loss": 1.6184,
      "step": 26713
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39712604880332947,
      "learning_rate": 0.0004791755225861705,
      "loss": 1.6734,
      "step": 26714
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39971664547920227,
      "learning_rate": 0.00047916713931729437,
      "loss": 1.6287,
      "step": 26715
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4155324101448059,
      "learning_rate": 0.00047915875583093585,
      "loss": 1.6703,
      "step": 26716
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3918038010597229,
      "learning_rate": 0.00047915037212710487,
      "loss": 1.6351,
      "step": 26717
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4014342427253723,
      "learning_rate": 0.0004791419882058118,
      "loss": 1.6675,
      "step": 26718
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.42150259017944336,
      "learning_rate": 0.00047913360406706673,
      "loss": 1.6643,
      "step": 26719
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3903588056564331,
      "learning_rate": 0.00047912521971087987,
      "loss": 1.6976,
      "step": 26720
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37750548124313354,
      "learning_rate": 0.0004791168351372614,
      "loss": 1.6745,
      "step": 26721
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.441360205411911,
      "learning_rate": 0.00047910845034622153,
      "loss": 1.7504,
      "step": 26722
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4135911464691162,
      "learning_rate": 0.00047910006533777034,
      "loss": 1.6943,
      "step": 26723
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39438164234161377,
      "learning_rate": 0.000479091680111918,
      "loss": 1.7317,
      "step": 26724
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3930908441543579,
      "learning_rate": 0.00047908329466867476,
      "loss": 1.6168,
      "step": 26725
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39457884430885315,
      "learning_rate": 0.00047907490900805087,
      "loss": 1.7172,
      "step": 26726
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.412135511636734,
      "learning_rate": 0.00047906652313005636,
      "loss": 1.7422,
      "step": 26727
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3959806561470032,
      "learning_rate": 0.00047905813703470155,
      "loss": 1.6985,
      "step": 26728
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4077979326248169,
      "learning_rate": 0.00047904975072199645,
      "loss": 1.7335,
      "step": 26729
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39816585183143616,
      "learning_rate": 0.00047904136419195143,
      "loss": 1.7079,
      "step": 26730
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41172322630882263,
      "learning_rate": 0.0004790329774445765,
      "loss": 1.6911,
      "step": 26731
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3889952301979065,
      "learning_rate": 0.00047902459047988194,
      "loss": 1.6959,
      "step": 26732
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4011814296245575,
      "learning_rate": 0.00047901620329787796,
      "loss": 1.6285,
      "step": 26733
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.390582799911499,
      "learning_rate": 0.0004790078158985746,
      "loss": 1.676,
      "step": 26734
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3963125944137573,
      "learning_rate": 0.0004789994282819821,
      "loss": 1.7087,
      "step": 26735
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4022730886936188,
      "learning_rate": 0.00047899104044811074,
      "loss": 1.7188,
      "step": 26736
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39206361770629883,
      "learning_rate": 0.0004789826523969707,
      "loss": 1.6539,
      "step": 26737
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3881210684776306,
      "learning_rate": 0.000478974264128572,
      "loss": 1.6972,
      "step": 26738
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40851685404777527,
      "learning_rate": 0.00047896587564292485,
      "loss": 1.6989,
      "step": 26739
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6909404397010803,
      "learning_rate": 0.0004789574869400396,
      "loss": 1.7078,
      "step": 26740
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4038742780685425,
      "learning_rate": 0.0004789490980199263,
      "loss": 1.6768,
      "step": 26741
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3938579559326172,
      "learning_rate": 0.0004789407088825951,
      "loss": 1.7089,
      "step": 26742
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3888992667198181,
      "learning_rate": 0.0004789323195280563,
      "loss": 1.6685,
      "step": 26743
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3957800269126892,
      "learning_rate": 0.0004789239299563201,
      "loss": 1.6435,
      "step": 26744
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39386478066444397,
      "learning_rate": 0.00047891554016739655,
      "loss": 1.6598,
      "step": 26745
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3959502875804901,
      "learning_rate": 0.00047890715016129593,
      "loss": 1.6406,
      "step": 26746
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.407526433467865,
      "learning_rate": 0.0004788987599380283,
      "loss": 1.6714,
      "step": 26747
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4011335074901581,
      "learning_rate": 0.000478890369497604,
      "loss": 1.6342,
      "step": 26748
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4024741053581238,
      "learning_rate": 0.00047888197884003313,
      "loss": 1.7075,
      "step": 26749
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41473388671875,
      "learning_rate": 0.0004788735879653259,
      "loss": 1.6554,
      "step": 26750
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40423503518104553,
      "learning_rate": 0.0004788651968734925,
      "loss": 1.609,
      "step": 26751
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3933477997779846,
      "learning_rate": 0.0004788568055645431,
      "loss": 1.7147,
      "step": 26752
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39612650871276855,
      "learning_rate": 0.00047884841403848794,
      "loss": 1.711,
      "step": 26753
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4081312119960785,
      "learning_rate": 0.00047884002229533703,
      "loss": 1.72,
      "step": 26754
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.417178750038147,
      "learning_rate": 0.0004788316303351008,
      "loss": 1.6696,
      "step": 26755
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3953652083873749,
      "learning_rate": 0.00047882323815778925,
      "loss": 1.6691,
      "step": 26756
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40009805560112,
      "learning_rate": 0.00047881484576341263,
      "loss": 1.5826,
      "step": 26757
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40619727969169617,
      "learning_rate": 0.0004788064531519812,
      "loss": 1.6355,
      "step": 26758
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41339239478111267,
      "learning_rate": 0.0004787980603235051,
      "loss": 1.6601,
      "step": 26759
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3939572870731354,
      "learning_rate": 0.00047878966727799444,
      "loss": 1.6254,
      "step": 26760
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39975303411483765,
      "learning_rate": 0.00047878127401545937,
      "loss": 1.6341,
      "step": 26761
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.42728322744369507,
      "learning_rate": 0.0004787728805359104,
      "loss": 1.7364,
      "step": 26762
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3878505527973175,
      "learning_rate": 0.00047876448683935736,
      "loss": 1.6923,
      "step": 26763
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3856135606765747,
      "learning_rate": 0.00047875609292581054,
      "loss": 1.7226,
      "step": 26764
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4002021849155426,
      "learning_rate": 0.00047874769879528023,
      "loss": 1.6507,
      "step": 26765
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40872493386268616,
      "learning_rate": 0.00047873930444777656,
      "loss": 1.7024,
      "step": 26766
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40838444232940674,
      "learning_rate": 0.00047873090988330967,
      "loss": 1.6773,
      "step": 26767
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39358600974082947,
      "learning_rate": 0.0004787225151018898,
      "loss": 1.6416,
      "step": 26768
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3907964825630188,
      "learning_rate": 0.00047871412010352715,
      "loss": 1.6811,
      "step": 26769
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41673165559768677,
      "learning_rate": 0.00047870572488823186,
      "loss": 1.7023,
      "step": 26770
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3971453309059143,
      "learning_rate": 0.00047869732945601416,
      "loss": 1.6712,
      "step": 26771
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3856121599674225,
      "learning_rate": 0.00047868893380688426,
      "loss": 1.6047,
      "step": 26772
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3981873095035553,
      "learning_rate": 0.0004786805379408523,
      "loss": 1.6144,
      "step": 26773
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4093392789363861,
      "learning_rate": 0.0004786721418579285,
      "loss": 1.7476,
      "step": 26774
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3994216024875641,
      "learning_rate": 0.000478663745558123,
      "loss": 1.6444,
      "step": 26775
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3908311724662781,
      "learning_rate": 0.0004786553490414461,
      "loss": 1.6947,
      "step": 26776
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40556108951568604,
      "learning_rate": 0.00047864695230790793,
      "loss": 1.7441,
      "step": 26777
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.394147664308548,
      "learning_rate": 0.00047863855535751863,
      "loss": 1.6641,
      "step": 26778
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38677436113357544,
      "learning_rate": 0.00047863015819028847,
      "loss": 1.65,
      "step": 26779
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3921310305595398,
      "learning_rate": 0.0004786217608062276,
      "loss": 1.6609,
      "step": 26780
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3913162648677826,
      "learning_rate": 0.0004786133632053463,
      "loss": 1.6289,
      "step": 26781
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39669471979141235,
      "learning_rate": 0.0004786049653876546,
      "loss": 1.7144,
      "step": 26782
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39926087856292725,
      "learning_rate": 0.0004785965673531629,
      "loss": 1.6622,
      "step": 26783
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3994987905025482,
      "learning_rate": 0.0004785881691018812,
      "loss": 1.6014,
      "step": 26784
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3829728364944458,
      "learning_rate": 0.0004785797706338198,
      "loss": 1.6907,
      "step": 26785
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38039863109588623,
      "learning_rate": 0.00047857137194898887,
      "loss": 1.6589,
      "step": 26786
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3954319953918457,
      "learning_rate": 0.0004785629730473986,
      "loss": 1.7068,
      "step": 26787
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3959534764289856,
      "learning_rate": 0.0004785545739290592,
      "loss": 1.6297,
      "step": 26788
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.408069908618927,
      "learning_rate": 0.0004785461745939808,
      "loss": 1.7096,
      "step": 26789
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3922439515590668,
      "learning_rate": 0.00047853777504217374,
      "loss": 1.7392,
      "step": 26790
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4112051725387573,
      "learning_rate": 0.0004785293752736481,
      "loss": 1.7199,
      "step": 26791
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4010116159915924,
      "learning_rate": 0.0004785209752884141,
      "loss": 1.6629,
      "step": 26792
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38671714067459106,
      "learning_rate": 0.000478512575086482,
      "loss": 1.6355,
      "step": 26793
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4066850244998932,
      "learning_rate": 0.0004785041746678618,
      "loss": 1.6145,
      "step": 26794
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39027833938598633,
      "learning_rate": 0.0004784957740325639,
      "loss": 1.7382,
      "step": 26795
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4036197364330292,
      "learning_rate": 0.00047848737318059844,
      "loss": 1.6951,
      "step": 26796
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4111119210720062,
      "learning_rate": 0.0004784789721119756,
      "loss": 1.6576,
      "step": 26797
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39908215403556824,
      "learning_rate": 0.0004784705708267056,
      "loss": 1.7157,
      "step": 26798
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4081743657588959,
      "learning_rate": 0.0004784621693247986,
      "loss": 1.6478,
      "step": 26799
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.42280250787734985,
      "learning_rate": 0.00047845376760626484,
      "loss": 1.6434,
      "step": 26800
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40909427404403687,
      "learning_rate": 0.0004784453656711145,
      "loss": 1.6608,
      "step": 26801
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40238234400749207,
      "learning_rate": 0.0004784369635193578,
      "loss": 1.683,
      "step": 26802
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4007101356983185,
      "learning_rate": 0.0004784285611510048,
      "loss": 1.6831,
      "step": 26803
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40687936544418335,
      "learning_rate": 0.0004784201585660659,
      "loss": 1.7048,
      "step": 26804
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38827022910118103,
      "learning_rate": 0.0004784117557645513,
      "loss": 1.6625,
      "step": 26805
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3949761390686035,
      "learning_rate": 0.000478403352746471,
      "loss": 1.7298,
      "step": 26806
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4101090431213379,
      "learning_rate": 0.0004783949495118354,
      "loss": 1.6774,
      "step": 26807
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40433722734451294,
      "learning_rate": 0.00047838654606065456,
      "loss": 1.6796,
      "step": 26808
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41564667224884033,
      "learning_rate": 0.00047837814239293865,
      "loss": 1.7056,
      "step": 26809
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4011990427970886,
      "learning_rate": 0.0004783697385086982,
      "loss": 1.6244,
      "step": 26810
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4309823215007782,
      "learning_rate": 0.0004783613344079429,
      "loss": 1.7004,
      "step": 26811
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40452301502227783,
      "learning_rate": 0.0004783529300906834,
      "loss": 1.7003,
      "step": 26812
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4154863953590393,
      "learning_rate": 0.00047834452555692964,
      "loss": 1.6581,
      "step": 26813
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39091143012046814,
      "learning_rate": 0.000478336120806692,
      "loss": 1.6802,
      "step": 26814
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4018838107585907,
      "learning_rate": 0.00047832771583998046,
      "loss": 1.6735,
      "step": 26815
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.43245500326156616,
      "learning_rate": 0.0004783193106568054,
      "loss": 1.7318,
      "step": 26816
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4099811613559723,
      "learning_rate": 0.00047831090525717697,
      "loss": 1.6867,
      "step": 26817
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4042417109012604,
      "learning_rate": 0.0004783024996411054,
      "loss": 1.6296,
      "step": 26818
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39881691336631775,
      "learning_rate": 0.00047829409380860085,
      "loss": 1.632,
      "step": 26819
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3929775059223175,
      "learning_rate": 0.00047828568775967355,
      "loss": 1.7493,
      "step": 26820
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40525469183921814,
      "learning_rate": 0.0004782772814943337,
      "loss": 1.6582,
      "step": 26821
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40896493196487427,
      "learning_rate": 0.0004782688750125914,
      "loss": 1.7472,
      "step": 26822
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4038487672805786,
      "learning_rate": 0.0004782604683144571,
      "loss": 1.6747,
      "step": 26823
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4018996059894562,
      "learning_rate": 0.0004782520613999407,
      "loss": 1.6464,
      "step": 26824
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39211609959602356,
      "learning_rate": 0.0004782436542690527,
      "loss": 1.7028,
      "step": 26825
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39945513010025024,
      "learning_rate": 0.00047823524692180313,
      "loss": 1.6055,
      "step": 26826
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3918737769126892,
      "learning_rate": 0.00047822683935820224,
      "loss": 1.6139,
      "step": 26827
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4030548334121704,
      "learning_rate": 0.00047821843157826025,
      "loss": 1.6274,
      "step": 26828
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4229694604873657,
      "learning_rate": 0.00047821002358198724,
      "loss": 1.6187,
      "step": 26829
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3892211616039276,
      "learning_rate": 0.00047820161536939356,
      "loss": 1.6078,
      "step": 26830
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39908769726753235,
      "learning_rate": 0.0004781932069404894,
      "loss": 1.6115,
      "step": 26831
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4030354917049408,
      "learning_rate": 0.00047818479829528495,
      "loss": 1.6997,
      "step": 26832
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4011145830154419,
      "learning_rate": 0.0004781763894337904,
      "loss": 1.6591,
      "step": 26833
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4007739722728729,
      "learning_rate": 0.0004781679803560159,
      "loss": 1.6424,
      "step": 26834
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4048096239566803,
      "learning_rate": 0.0004781595710619719,
      "loss": 1.6054,
      "step": 26835
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38841935992240906,
      "learning_rate": 0.0004781511615516682,
      "loss": 1.6878,
      "step": 26836
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3820559084415436,
      "learning_rate": 0.00047814275182511543,
      "loss": 1.7054,
      "step": 26837
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39916256070137024,
      "learning_rate": 0.0004781343418823235,
      "loss": 1.7174,
      "step": 26838
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3796999454498291,
      "learning_rate": 0.0004781259317233027,
      "loss": 1.639,
      "step": 26839
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.42379724979400635,
      "learning_rate": 0.0004781175213480634,
      "loss": 1.7465,
      "step": 26840
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4000517725944519,
      "learning_rate": 0.0004781091107566156,
      "loss": 1.6989,
      "step": 26841
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4012940526008606,
      "learning_rate": 0.0004781006999489696,
      "loss": 1.6989,
      "step": 26842
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39092981815338135,
      "learning_rate": 0.00047809228892513556,
      "loss": 1.6926,
      "step": 26843
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3996114730834961,
      "learning_rate": 0.0004780838776851237,
      "loss": 1.7185,
      "step": 26844
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38546332716941833,
      "learning_rate": 0.0004780754662289443,
      "loss": 1.5751,
      "step": 26845
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40742364525794983,
      "learning_rate": 0.0004780670545566075,
      "loss": 1.7556,
      "step": 26846
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41147497296333313,
      "learning_rate": 0.0004780586426681236,
      "loss": 1.6757,
      "step": 26847
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3956349790096283,
      "learning_rate": 0.0004780502305635027,
      "loss": 1.6292,
      "step": 26848
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3982725441455841,
      "learning_rate": 0.000478041818242755,
      "loss": 1.6562,
      "step": 26849
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41173887252807617,
      "learning_rate": 0.00047803340570589075,
      "loss": 1.7365,
      "step": 26850
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39701515436172485,
      "learning_rate": 0.00047802499295292026,
      "loss": 1.6656,
      "step": 26851
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3814670145511627,
      "learning_rate": 0.00047801657998385364,
      "loss": 1.6344,
      "step": 26852
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37567809224128723,
      "learning_rate": 0.00047800816679870113,
      "loss": 1.6747,
      "step": 26853
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3947116732597351,
      "learning_rate": 0.0004779997533974729,
      "loss": 1.6644,
      "step": 26854
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39586159586906433,
      "learning_rate": 0.0004779913397801792,
      "loss": 1.5176,
      "step": 26855
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4311756193637848,
      "learning_rate": 0.00047798292594683023,
      "loss": 1.6976,
      "step": 26856
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40855684876441956,
      "learning_rate": 0.0004779745118974363,
      "loss": 1.6199,
      "step": 26857
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3823065161705017,
      "learning_rate": 0.00047796609763200754,
      "loss": 1.6127,
      "step": 26858
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37712371349334717,
      "learning_rate": 0.00047795768315055397,
      "loss": 1.574,
      "step": 26859
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4042603075504303,
      "learning_rate": 0.0004779492684530862,
      "loss": 1.7131,
      "step": 26860
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41891059279441833,
      "learning_rate": 0.00047794085353961414,
      "loss": 1.6544,
      "step": 26861
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4116767942905426,
      "learning_rate": 0.00047793243841014806,
      "loss": 1.6557,
      "step": 26862
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39142292737960815,
      "learning_rate": 0.00047792402306469833,
      "loss": 1.6819,
      "step": 26863
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3941003084182739,
      "learning_rate": 0.00047791560750327493,
      "loss": 1.7161,
      "step": 26864
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4072568118572235,
      "learning_rate": 0.0004779071917258883,
      "loss": 1.6426,
      "step": 26865
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39456260204315186,
      "learning_rate": 0.0004778987757325485,
      "loss": 1.6702,
      "step": 26866
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3926088809967041,
      "learning_rate": 0.00047789035952326583,
      "loss": 1.7037,
      "step": 26867
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4001576602458954,
      "learning_rate": 0.00047788194309805043,
      "loss": 1.6651,
      "step": 26868
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41151461005210876,
      "learning_rate": 0.00047787352645691265,
      "loss": 1.6701,
      "step": 26869
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40179428458213806,
      "learning_rate": 0.0004778651095998625,
      "loss": 1.7068,
      "step": 26870
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.393201619386673,
      "learning_rate": 0.00047785669252691036,
      "loss": 1.7006,
      "step": 26871
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3953050971031189,
      "learning_rate": 0.0004778482752380664,
      "loss": 1.7126,
      "step": 26872
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4007188379764557,
      "learning_rate": 0.0004778398577333409,
      "loss": 1.6893,
      "step": 26873
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4029810130596161,
      "learning_rate": 0.00047783144001274386,
      "loss": 1.7011,
      "step": 26874
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4064960479736328,
      "learning_rate": 0.00047782302207628584,
      "loss": 1.6788,
      "step": 26875
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3918170928955078,
      "learning_rate": 0.00047781460392397676,
      "loss": 1.6549,
      "step": 26876
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4180605113506317,
      "learning_rate": 0.000477806185555827,
      "loss": 1.5985,
      "step": 26877
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4018009603023529,
      "learning_rate": 0.00047779776697184673,
      "loss": 1.6525,
      "step": 26878
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38641414046287537,
      "learning_rate": 0.00047778934817204616,
      "loss": 1.6364,
      "step": 26879
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39813995361328125,
      "learning_rate": 0.00047778092915643546,
      "loss": 1.7211,
      "step": 26880
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40286508202552795,
      "learning_rate": 0.0004777725099250249,
      "loss": 1.6243,
      "step": 26881
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4004954695701599,
      "learning_rate": 0.0004777640904778248,
      "loss": 1.6631,
      "step": 26882
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3907746970653534,
      "learning_rate": 0.00047775567081484525,
      "loss": 1.7096,
      "step": 26883
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3847077190876007,
      "learning_rate": 0.0004777472509360966,
      "loss": 1.6741,
      "step": 26884
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.37518125772476196,
      "learning_rate": 0.0004777388308415888,
      "loss": 1.5703,
      "step": 26885
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5306342840194702,
      "learning_rate": 0.0004777304105313323,
      "loss": 1.7175,
      "step": 26886
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3929136395454407,
      "learning_rate": 0.00047772199000533733,
      "loss": 1.6911,
      "step": 26887
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39349496364593506,
      "learning_rate": 0.00047771356926361395,
      "loss": 1.6922,
      "step": 26888
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38878554105758667,
      "learning_rate": 0.0004777051483061726,
      "loss": 1.7354,
      "step": 26889
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4148519039154053,
      "learning_rate": 0.00047769672713302334,
      "loss": 1.649,
      "step": 26890
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3935090899467468,
      "learning_rate": 0.0004776883057441764,
      "loss": 1.6648,
      "step": 26891
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4077516496181488,
      "learning_rate": 0.00047767988413964215,
      "loss": 1.7374,
      "step": 26892
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39725443720817566,
      "learning_rate": 0.0004776714623194305,
      "loss": 1.7644,
      "step": 26893
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.41175711154937744,
      "learning_rate": 0.00047766304028355207,
      "loss": 1.6737,
      "step": 26894
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4206547439098358,
      "learning_rate": 0.00047765461803201683,
      "loss": 1.6913,
      "step": 26895
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3904687166213989,
      "learning_rate": 0.000477646195564835,
      "loss": 1.6932,
      "step": 26896
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3954373598098755,
      "learning_rate": 0.0004776377728820169,
      "loss": 1.7398,
      "step": 26897
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3940349519252777,
      "learning_rate": 0.0004776293499835727,
      "loss": 1.6272,
      "step": 26898
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38889533281326294,
      "learning_rate": 0.00047762092686951267,
      "loss": 1.6796,
      "step": 26899
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38138967752456665,
      "learning_rate": 0.000477612503539847,
      "loss": 1.5757,
      "step": 26900
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4025014042854309,
      "learning_rate": 0.0004776040799945859,
      "loss": 1.6578,
      "step": 26901
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40501469373703003,
      "learning_rate": 0.0004775956562337397,
      "loss": 1.6863,
      "step": 26902
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3924109935760498,
      "learning_rate": 0.0004775872322573183,
      "loss": 1.669,
      "step": 26903
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3965536952018738,
      "learning_rate": 0.00047757880806533246,
      "loss": 1.6463,
      "step": 26904
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3988981246948242,
      "learning_rate": 0.000477570383657792,
      "loss": 1.6467,
      "step": 26905
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3877635598182678,
      "learning_rate": 0.0004775619590347072,
      "loss": 1.6369,
      "step": 26906
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40807899832725525,
      "learning_rate": 0.0004775535341960884,
      "loss": 1.7307,
      "step": 26907
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39210784435272217,
      "learning_rate": 0.00047754510914194576,
      "loss": 1.6665,
      "step": 26908
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4136497974395752,
      "learning_rate": 0.00047753668387228956,
      "loss": 1.6284,
      "step": 26909
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41728445887565613,
      "learning_rate": 0.00047752825838712996,
      "loss": 1.7617,
      "step": 26910
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4079546332359314,
      "learning_rate": 0.00047751983268647715,
      "loss": 1.6763,
      "step": 26911
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4124196171760559,
      "learning_rate": 0.0004775114067703415,
      "loss": 1.6371,
      "step": 26912
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3945428729057312,
      "learning_rate": 0.00047750298063873307,
      "loss": 1.6035,
      "step": 26913
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.418287456035614,
      "learning_rate": 0.00047749455429166223,
      "loss": 1.6494,
      "step": 26914
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40680351853370667,
      "learning_rate": 0.00047748612772913917,
      "loss": 1.6747,
      "step": 26915
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4083443582057953,
      "learning_rate": 0.00047747770095117413,
      "loss": 1.6591,
      "step": 26916
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3944716453552246,
      "learning_rate": 0.00047746927395777726,
      "loss": 1.7188,
      "step": 26917
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41135847568511963,
      "learning_rate": 0.0004774608467489588,
      "loss": 1.6544,
      "step": 26918
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3918231427669525,
      "learning_rate": 0.0004774524193247291,
      "loss": 1.7448,
      "step": 26919
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39047080278396606,
      "learning_rate": 0.0004774439916850983,
      "loss": 1.6462,
      "step": 26920
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40381965041160583,
      "learning_rate": 0.0004774355638300766,
      "loss": 1.5931,
      "step": 26921
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4186951518058777,
      "learning_rate": 0.0004774271357596742,
      "loss": 1.7554,
      "step": 26922
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4059911072254181,
      "learning_rate": 0.0004774187074739016,
      "loss": 1.5923,
      "step": 26923
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3873065114021301,
      "learning_rate": 0.0004774102789727687,
      "loss": 1.676,
      "step": 26924
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4146067500114441,
      "learning_rate": 0.00047740185025628586,
      "loss": 1.7009,
      "step": 26925
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40971386432647705,
      "learning_rate": 0.0004773934213244633,
      "loss": 1.7363,
      "step": 26926
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3981572389602661,
      "learning_rate": 0.00047738499217731125,
      "loss": 1.5973,
      "step": 26927
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3976328670978546,
      "learning_rate": 0.00047737656281484004,
      "loss": 1.6722,
      "step": 26928
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40922027826309204,
      "learning_rate": 0.0004773681332370598,
      "loss": 1.6292,
      "step": 26929
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.407471626996994,
      "learning_rate": 0.0004773597034439808,
      "loss": 1.5841,
      "step": 26930
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39376503229141235,
      "learning_rate": 0.00047735127343561317,
      "loss": 1.6584,
      "step": 26931
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3946186900138855,
      "learning_rate": 0.0004773428432119673,
      "loss": 1.6616,
      "step": 26932
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4027236998081207,
      "learning_rate": 0.00047733441277305325,
      "loss": 1.6419,
      "step": 26933
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3827836811542511,
      "learning_rate": 0.00047732598211888146,
      "loss": 1.6331,
      "step": 26934
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39780548214912415,
      "learning_rate": 0.000477317551249462,
      "loss": 1.6622,
      "step": 26935
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4125269651412964,
      "learning_rate": 0.0004773091201648051,
      "loss": 1.7,
      "step": 26936
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40981149673461914,
      "learning_rate": 0.00047730068886492116,
      "loss": 1.6377,
      "step": 26937
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4111473560333252,
      "learning_rate": 0.0004772922573498203,
      "loss": 1.6247,
      "step": 26938
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39439743757247925,
      "learning_rate": 0.0004772838256195127,
      "loss": 1.7058,
      "step": 26939
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39559251070022583,
      "learning_rate": 0.0004772753936740087,
      "loss": 1.658,
      "step": 26940
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4054647386074066,
      "learning_rate": 0.0004772669615133185,
      "loss": 1.6748,
      "step": 26941
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39985617995262146,
      "learning_rate": 0.0004772585291374523,
      "loss": 1.7057,
      "step": 26942
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40419062972068787,
      "learning_rate": 0.00047725009654642035,
      "loss": 1.5458,
      "step": 26943
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4042954444885254,
      "learning_rate": 0.00047724166374023296,
      "loss": 1.636,
      "step": 26944
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3897459805011749,
      "learning_rate": 0.00047723323071890023,
      "loss": 1.6996,
      "step": 26945
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41318392753601074,
      "learning_rate": 0.0004772247974824325,
      "loss": 1.6574,
      "step": 26946
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38983529806137085,
      "learning_rate": 0.00047721636403084,
      "loss": 1.6013,
      "step": 26947
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3958792984485626,
      "learning_rate": 0.000477207930364133,
      "loss": 1.6164,
      "step": 26948
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4258405566215515,
      "learning_rate": 0.0004771994964823216,
      "loss": 1.6687,
      "step": 26949
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4206247627735138,
      "learning_rate": 0.00047719106238541613,
      "loss": 1.7126,
      "step": 26950
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4091484844684601,
      "learning_rate": 0.00047718262807342675,
      "loss": 1.6337,
      "step": 26951
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41255879402160645,
      "learning_rate": 0.0004771741935463639,
      "loss": 1.636,
      "step": 26952
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39843717217445374,
      "learning_rate": 0.00047716575880423764,
      "loss": 1.6782,
      "step": 26953
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4149828553199768,
      "learning_rate": 0.00047715732384705825,
      "loss": 1.6733,
      "step": 26954
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4157315790653229,
      "learning_rate": 0.0004771488886748359,
      "loss": 1.7026,
      "step": 26955
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38999369740486145,
      "learning_rate": 0.00047714045328758106,
      "loss": 1.7133,
      "step": 26956
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39304256439208984,
      "learning_rate": 0.00047713201768530375,
      "loss": 1.7161,
      "step": 26957
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40486595034599304,
      "learning_rate": 0.00047712358186801414,
      "loss": 1.6868,
      "step": 26958
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40447095036506653,
      "learning_rate": 0.0004771151458357227,
      "loss": 1.5839,
      "step": 26959
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40009456872940063,
      "learning_rate": 0.00047710670958843953,
      "loss": 1.6727,
      "step": 26960
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39225998520851135,
      "learning_rate": 0.00047709827312617496,
      "loss": 1.683,
      "step": 26961
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3912106156349182,
      "learning_rate": 0.00047708983644893923,
      "loss": 1.6288,
      "step": 26962
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40080147981643677,
      "learning_rate": 0.0004770813995567424,
      "loss": 1.6445,
      "step": 26963
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4071439206600189,
      "learning_rate": 0.00047707296244959494,
      "loss": 1.6538,
      "step": 26964
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4014752507209778,
      "learning_rate": 0.000477064525127507,
      "loss": 1.7828,
      "step": 26965
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40177208185195923,
      "learning_rate": 0.00047705608759048874,
      "loss": 1.6776,
      "step": 26966
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41317489743232727,
      "learning_rate": 0.0004770476498385505,
      "loss": 1.7324,
      "step": 26967
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41215479373931885,
      "learning_rate": 0.0004770392118717025,
      "loss": 1.7285,
      "step": 26968
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4356137216091156,
      "learning_rate": 0.000477030773689955,
      "loss": 1.7048,
      "step": 26969
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4084702432155609,
      "learning_rate": 0.00047702233529331824,
      "loss": 1.6693,
      "step": 26970
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3979121446609497,
      "learning_rate": 0.0004770138966818024,
      "loss": 1.5405,
      "step": 26971
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38185471296310425,
      "learning_rate": 0.0004770054578554179,
      "loss": 1.698,
      "step": 26972
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39461690187454224,
      "learning_rate": 0.00047699701881417467,
      "loss": 1.691,
      "step": 26973
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38752782344818115,
      "learning_rate": 0.00047698857955808324,
      "loss": 1.6242,
      "step": 26974
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40220382809638977,
      "learning_rate": 0.0004769801400871538,
      "loss": 1.6557,
      "step": 26975
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4048987030982971,
      "learning_rate": 0.0004769717004013964,
      "loss": 1.6709,
      "step": 26976
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38992491364479065,
      "learning_rate": 0.0004769632605008215,
      "loss": 1.6276,
      "step": 26977
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39830294251441956,
      "learning_rate": 0.00047695482038543935,
      "loss": 1.7295,
      "step": 26978
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39535030722618103,
      "learning_rate": 0.00047694638005526,
      "loss": 1.6314,
      "step": 26979
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39335137605667114,
      "learning_rate": 0.000476937939510294,
      "loss": 1.6097,
      "step": 26980
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39682450890541077,
      "learning_rate": 0.00047692949875055124,
      "loss": 1.6384,
      "step": 26981
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39092499017715454,
      "learning_rate": 0.00047692105777604214,
      "loss": 1.7017,
      "step": 26982
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39165225625038147,
      "learning_rate": 0.000476912616586777,
      "loss": 1.5991,
      "step": 26983
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3982774019241333,
      "learning_rate": 0.00047690417518276597,
      "loss": 1.6565,
      "step": 26984
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4052376449108124,
      "learning_rate": 0.00047689573356401944,
      "loss": 1.6182,
      "step": 26985
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39412397146224976,
      "learning_rate": 0.00047688729173054744,
      "loss": 1.6354,
      "step": 26986
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3890964388847351,
      "learning_rate": 0.0004768788496823604,
      "loss": 1.5909,
      "step": 26987
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3979911804199219,
      "learning_rate": 0.00047687040741946845,
      "loss": 1.6376,
      "step": 26988
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39081060886383057,
      "learning_rate": 0.00047686196494188196,
      "loss": 1.6189,
      "step": 26989
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4036881923675537,
      "learning_rate": 0.000476853522249611,
      "loss": 1.6631,
      "step": 26990
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3953189551830292,
      "learning_rate": 0.000476845079342666,
      "loss": 1.6744,
      "step": 26991
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3907850384712219,
      "learning_rate": 0.0004768366362210571,
      "loss": 1.6131,
      "step": 26992
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3951239585876465,
      "learning_rate": 0.0004768281928847946,
      "loss": 1.6726,
      "step": 26993
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4305492639541626,
      "learning_rate": 0.00047681974933388874,
      "loss": 1.6772,
      "step": 26994
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39365142583847046,
      "learning_rate": 0.0004768113055683497,
      "loss": 1.6113,
      "step": 26995
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4027068614959717,
      "learning_rate": 0.0004768028615881878,
      "loss": 1.6277,
      "step": 26996
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42345303297042847,
      "learning_rate": 0.00047679441739341335,
      "loss": 1.6675,
      "step": 26997
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4033195972442627,
      "learning_rate": 0.00047678597298403635,
      "loss": 1.7343,
      "step": 26998
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3931632936000824,
      "learning_rate": 0.0004767775283600674,
      "loss": 1.6927,
      "step": 26999
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3897072374820709,
      "learning_rate": 0.00047676908352151657,
      "loss": 1.6288,
      "step": 27000
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3989247977733612,
      "learning_rate": 0.00047676063846839405,
      "loss": 1.7067,
      "step": 27001
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3932635188102722,
      "learning_rate": 0.0004767521932007102,
      "loss": 1.6716,
      "step": 27002
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3970987796783447,
      "learning_rate": 0.00047674374771847526,
      "loss": 1.6821,
      "step": 27003
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40871894359588623,
      "learning_rate": 0.00047673530202169937,
      "loss": 1.7217,
      "step": 27004
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3903145492076874,
      "learning_rate": 0.0004767268561103928,
      "loss": 1.6492,
      "step": 27005
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40827256441116333,
      "learning_rate": 0.00047671840998456604,
      "loss": 1.6979,
      "step": 27006
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38119927048683167,
      "learning_rate": 0.0004767099636442291,
      "loss": 1.6516,
      "step": 27007
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39858752489089966,
      "learning_rate": 0.00047670151708939225,
      "loss": 1.6998,
      "step": 27008
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.400794118642807,
      "learning_rate": 0.0004766930703200659,
      "loss": 1.6374,
      "step": 27009
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40045350790023804,
      "learning_rate": 0.00047668462333626005,
      "loss": 1.6468,
      "step": 27010
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.399705171585083,
      "learning_rate": 0.00047667617613798526,
      "loss": 1.6444,
      "step": 27011
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41063979268074036,
      "learning_rate": 0.0004766677287252516,
      "loss": 1.6683,
      "step": 27012
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4001135528087616,
      "learning_rate": 0.00047665928109806924,
      "loss": 1.6805,
      "step": 27013
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40043091773986816,
      "learning_rate": 0.0004766508332564486,
      "loss": 1.7191,
      "step": 27014
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39089661836624146,
      "learning_rate": 0.00047664238520039984,
      "loss": 1.6652,
      "step": 27015
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3868282735347748,
      "learning_rate": 0.0004766339369299333,
      "loss": 1.5823,
      "step": 27016
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41054007411003113,
      "learning_rate": 0.0004766254884450592,
      "loss": 1.7459,
      "step": 27017
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4051266312599182,
      "learning_rate": 0.0004766170397457878,
      "loss": 1.6441,
      "step": 27018
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3884304165840149,
      "learning_rate": 0.0004766085908321292,
      "loss": 1.724,
      "step": 27019
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41032859683036804,
      "learning_rate": 0.00047660014170409386,
      "loss": 1.7018,
      "step": 27020
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42168521881103516,
      "learning_rate": 0.00047659169236169207,
      "loss": 1.714,
      "step": 27021
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38356223702430725,
      "learning_rate": 0.0004765832428049339,
      "loss": 1.6664,
      "step": 27022
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3825806677341461,
      "learning_rate": 0.00047657479303382975,
      "loss": 1.6781,
      "step": 27023
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38811713457107544,
      "learning_rate": 0.0004765663430483897,
      "loss": 1.6276,
      "step": 27024
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4302973449230194,
      "learning_rate": 0.00047655789284862426,
      "loss": 1.6363,
      "step": 27025
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39340463280677795,
      "learning_rate": 0.0004765494424345435,
      "loss": 1.6617,
      "step": 27026
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3874151408672333,
      "learning_rate": 0.0004765409918061577,
      "loss": 1.5714,
      "step": 27027
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42154672741889954,
      "learning_rate": 0.00047653254096347714,
      "loss": 1.686,
      "step": 27028
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40974295139312744,
      "learning_rate": 0.0004765240899065121,
      "loss": 1.6716,
      "step": 27029
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4123339056968689,
      "learning_rate": 0.00047651563863527287,
      "loss": 1.6643,
      "step": 27030
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4071602523326874,
      "learning_rate": 0.0004765071871497696,
      "loss": 1.6212,
      "step": 27031
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40987542271614075,
      "learning_rate": 0.0004764987354500127,
      "loss": 1.7633,
      "step": 27032
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3939724266529083,
      "learning_rate": 0.0004764902835360123,
      "loss": 1.6827,
      "step": 27033
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4148552417755127,
      "learning_rate": 0.0004764818314077787,
      "loss": 1.6616,
      "step": 27034
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39430102705955505,
      "learning_rate": 0.00047647337906532204,
      "loss": 1.6177,
      "step": 27035
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3993874788284302,
      "learning_rate": 0.00047646492650865285,
      "loss": 1.6814,
      "step": 27036
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3943057656288147,
      "learning_rate": 0.0004764564737377812,
      "loss": 1.6495,
      "step": 27037
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39749398827552795,
      "learning_rate": 0.0004764480207527174,
      "loss": 1.6915,
      "step": 27038
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41070204973220825,
      "learning_rate": 0.00047643956755347166,
      "loss": 1.6006,
      "step": 27039
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39158716797828674,
      "learning_rate": 0.0004764311141400543,
      "loss": 1.6511,
      "step": 27040
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39644375443458557,
      "learning_rate": 0.00047642266051247566,
      "loss": 1.6868,
      "step": 27041
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40718814730644226,
      "learning_rate": 0.00047641420667074577,
      "loss": 1.695,
      "step": 27042
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4045913517475128,
      "learning_rate": 0.00047640575261487505,
      "loss": 1.7596,
      "step": 27043
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4022759199142456,
      "learning_rate": 0.00047639729834487375,
      "loss": 1.6379,
      "step": 27044
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39945438504219055,
      "learning_rate": 0.0004763888438607521,
      "loss": 1.6861,
      "step": 27045
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3997699022293091,
      "learning_rate": 0.00047638038916252045,
      "loss": 1.6979,
      "step": 27046
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40155717730522156,
      "learning_rate": 0.000476371934250189,
      "loss": 1.745,
      "step": 27047
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3968698978424072,
      "learning_rate": 0.000476363479123768,
      "loss": 1.7237,
      "step": 27048
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4142402410507202,
      "learning_rate": 0.0004763550237832677,
      "loss": 1.7274,
      "step": 27049
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3985198140144348,
      "learning_rate": 0.00047634656822869825,
      "loss": 1.679,
      "step": 27050
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4023701846599579,
      "learning_rate": 0.0004763381124600703,
      "loss": 1.671,
      "step": 27051
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3831042945384979,
      "learning_rate": 0.0004763296564773937,
      "loss": 1.6026,
      "step": 27052
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4022391736507416,
      "learning_rate": 0.0004763212002806789,
      "loss": 1.6756,
      "step": 27053
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40055686235427856,
      "learning_rate": 0.0004763127438699362,
      "loss": 1.6752,
      "step": 27054
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4032481908798218,
      "learning_rate": 0.0004763042872451757,
      "loss": 1.6645,
      "step": 27055
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.385841965675354,
      "learning_rate": 0.00047629583040640787,
      "loss": 1.6911,
      "step": 27056
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39619722962379456,
      "learning_rate": 0.00047628737335364286,
      "loss": 1.6253,
      "step": 27057
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39567190408706665,
      "learning_rate": 0.000476278916086891,
      "loss": 1.6271,
      "step": 27058
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4307168126106262,
      "learning_rate": 0.0004762704586061624,
      "loss": 1.7925,
      "step": 27059
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3936798870563507,
      "learning_rate": 0.00047626200091146744,
      "loss": 1.6819,
      "step": 27060
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3914682865142822,
      "learning_rate": 0.00047625354300281653,
      "loss": 1.6235,
      "step": 27061
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3995080590248108,
      "learning_rate": 0.0004762450848802197,
      "loss": 1.7087,
      "step": 27062
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41637223958969116,
      "learning_rate": 0.00047623662654368716,
      "loss": 1.6502,
      "step": 27063
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3816492259502411,
      "learning_rate": 0.0004762281679932295,
      "loss": 1.7105,
      "step": 27064
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40758365392684937,
      "learning_rate": 0.00047621970922885685,
      "loss": 1.6831,
      "step": 27065
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42920371890068054,
      "learning_rate": 0.00047621125025057925,
      "loss": 1.6925,
      "step": 27066
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4016701877117157,
      "learning_rate": 0.0004762027910584073,
      "loss": 1.6724,
      "step": 27067
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39774152636528015,
      "learning_rate": 0.0004761943316523511,
      "loss": 1.6848,
      "step": 27068
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4104675054550171,
      "learning_rate": 0.000476185872032421,
      "loss": 1.598,
      "step": 27069
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3932509422302246,
      "learning_rate": 0.0004761774121986271,
      "loss": 1.6681,
      "step": 27070
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38995441794395447,
      "learning_rate": 0.00047616895215097976,
      "loss": 1.5907,
      "step": 27071
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3951209485530853,
      "learning_rate": 0.00047616049188948937,
      "loss": 1.6669,
      "step": 27072
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4026910662651062,
      "learning_rate": 0.000476152031414166,
      "loss": 1.6729,
      "step": 27073
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4070379137992859,
      "learning_rate": 0.00047614357072502014,
      "loss": 1.6454,
      "step": 27074
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39443132281303406,
      "learning_rate": 0.0004761351098220618,
      "loss": 1.7085,
      "step": 27075
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3952588737010956,
      "learning_rate": 0.00047612664870530155,
      "loss": 1.6778,
      "step": 27076
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4198748767375946,
      "learning_rate": 0.0004761181873747494,
      "loss": 1.6975,
      "step": 27077
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40158993005752563,
      "learning_rate": 0.0004761097258304157,
      "loss": 1.6372,
      "step": 27078
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41751936078071594,
      "learning_rate": 0.00047610126407231077,
      "loss": 1.6935,
      "step": 27079
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39105910062789917,
      "learning_rate": 0.00047609280210044483,
      "loss": 1.6385,
      "step": 27080
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.395590603351593,
      "learning_rate": 0.00047608433991482826,
      "loss": 1.6152,
      "step": 27081
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3912043273448944,
      "learning_rate": 0.0004760758775154712,
      "loss": 1.6572,
      "step": 27082
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40755507349967957,
      "learning_rate": 0.00047606741490238393,
      "loss": 1.6419,
      "step": 27083
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40252891182899475,
      "learning_rate": 0.00047605895207557676,
      "loss": 1.6504,
      "step": 27084
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3819293975830078,
      "learning_rate": 0.00047605048903506,
      "loss": 1.6884,
      "step": 27085
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40010547637939453,
      "learning_rate": 0.0004760420257808439,
      "loss": 1.6659,
      "step": 27086
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4053645133972168,
      "learning_rate": 0.0004760335623129387,
      "loss": 1.6369,
      "step": 27087
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4063100516796112,
      "learning_rate": 0.0004760250986313547,
      "loss": 1.5965,
      "step": 27088
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39684543013572693,
      "learning_rate": 0.0004760166347361021,
      "loss": 1.6755,
      "step": 27089
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3850073218345642,
      "learning_rate": 0.00047600817062719124,
      "loss": 1.7092,
      "step": 27090
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3982597291469574,
      "learning_rate": 0.0004759997063046325,
      "loss": 1.6219,
      "step": 27091
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3938804864883423,
      "learning_rate": 0.00047599124176843604,
      "loss": 1.7189,
      "step": 27092
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38913628458976746,
      "learning_rate": 0.000475982777018612,
      "loss": 1.5913,
      "step": 27093
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.388242244720459,
      "learning_rate": 0.00047597431205517103,
      "loss": 1.6391,
      "step": 27094
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39783766865730286,
      "learning_rate": 0.00047596584687812304,
      "loss": 1.6258,
      "step": 27095
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39423877000808716,
      "learning_rate": 0.00047595738148747843,
      "loss": 1.6138,
      "step": 27096
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3834460973739624,
      "learning_rate": 0.00047594891588324746,
      "loss": 1.625,
      "step": 27097
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3870193660259247,
      "learning_rate": 0.0004759404500654405,
      "loss": 1.6569,
      "step": 27098
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5142922401428223,
      "learning_rate": 0.0004759319840340677,
      "loss": 1.6482,
      "step": 27099
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.380679190158844,
      "learning_rate": 0.00047592351778913937,
      "loss": 1.6512,
      "step": 27100
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3947230279445648,
      "learning_rate": 0.00047591505133066594,
      "loss": 1.6059,
      "step": 27101
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40890493988990784,
      "learning_rate": 0.00047590658465865743,
      "loss": 1.6759,
      "step": 27102
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39582425355911255,
      "learning_rate": 0.00047589811777312436,
      "loss": 1.7316,
      "step": 27103
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41416069865226746,
      "learning_rate": 0.0004758896506740768,
      "loss": 1.7493,
      "step": 27104
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4036986529827118,
      "learning_rate": 0.00047588118336152507,
      "loss": 1.6615,
      "step": 27105
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41635745763778687,
      "learning_rate": 0.00047587271583547966,
      "loss": 1.7649,
      "step": 27106
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40470024943351746,
      "learning_rate": 0.00047586424809595057,
      "loss": 1.6926,
      "step": 27107
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4001765847206116,
      "learning_rate": 0.00047585578014294825,
      "loss": 1.6592,
      "step": 27108
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40685373544692993,
      "learning_rate": 0.0004758473119764829,
      "loss": 1.6505,
      "step": 27109
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4036167860031128,
      "learning_rate": 0.00047583884359656475,
      "loss": 1.6223,
      "step": 27110
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40513336658477783,
      "learning_rate": 0.0004758303750032043,
      "loss": 1.652,
      "step": 27111
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41582101583480835,
      "learning_rate": 0.00047582190619641155,
      "loss": 1.7056,
      "step": 27112
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4050650894641876,
      "learning_rate": 0.000475813437176197,
      "loss": 1.6524,
      "step": 27113
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40515586733818054,
      "learning_rate": 0.00047580496794257085,
      "loss": 1.6754,
      "step": 27114
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3942917287349701,
      "learning_rate": 0.00047579649849554325,
      "loss": 1.7009,
      "step": 27115
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4055218994617462,
      "learning_rate": 0.0004757880288351247,
      "loss": 1.7119,
      "step": 27116
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3905084729194641,
      "learning_rate": 0.0004757795589613254,
      "loss": 1.6943,
      "step": 27117
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40417221188545227,
      "learning_rate": 0.00047577108887415553,
      "loss": 1.6784,
      "step": 27118
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42347538471221924,
      "learning_rate": 0.0004757626185736256,
      "loss": 1.642,
      "step": 27119
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38992494344711304,
      "learning_rate": 0.0004757541480597456,
      "loss": 1.6892,
      "step": 27120
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3893757164478302,
      "learning_rate": 0.000475745677332526,
      "loss": 1.7234,
      "step": 27121
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39720189571380615,
      "learning_rate": 0.00047573720639197713,
      "loss": 1.7028,
      "step": 27122
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4263799786567688,
      "learning_rate": 0.0004757287352381091,
      "loss": 1.7523,
      "step": 27123
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40418994426727295,
      "learning_rate": 0.00047572026387093227,
      "loss": 1.6884,
      "step": 27124
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4146259129047394,
      "learning_rate": 0.00047571179229045695,
      "loss": 1.6896,
      "step": 27125
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40063416957855225,
      "learning_rate": 0.0004757033204966934,
      "loss": 1.6126,
      "step": 27126
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.624932587146759,
      "learning_rate": 0.00047569484848965194,
      "loss": 1.7232,
      "step": 27127
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39736858010292053,
      "learning_rate": 0.00047568637626934284,
      "loss": 1.6833,
      "step": 27128
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4074552357196808,
      "learning_rate": 0.00047567790383577633,
      "loss": 1.6543,
      "step": 27129
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3929574489593506,
      "learning_rate": 0.00047566943118896264,
      "loss": 1.6285,
      "step": 27130
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4069584012031555,
      "learning_rate": 0.0004756609583289123,
      "loss": 1.7181,
      "step": 27131
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.399672269821167,
      "learning_rate": 0.00047565248525563534,
      "loss": 1.6969,
      "step": 27132
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.394192099571228,
      "learning_rate": 0.00047564401196914215,
      "loss": 1.6098,
      "step": 27133
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.412617027759552,
      "learning_rate": 0.00047563553846944305,
      "loss": 1.6758,
      "step": 27134
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40014877915382385,
      "learning_rate": 0.00047562706475654833,
      "loss": 1.676,
      "step": 27135
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.42300286889076233,
      "learning_rate": 0.0004756185908304682,
      "loss": 1.694,
      "step": 27136
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41018471121788025,
      "learning_rate": 0.00047561011669121285,
      "loss": 1.6672,
      "step": 27137
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.393107533454895,
      "learning_rate": 0.0004756016423387928,
      "loss": 1.6707,
      "step": 27138
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3876439332962036,
      "learning_rate": 0.0004755931677732183,
      "loss": 1.6463,
      "step": 27139
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39636892080307007,
      "learning_rate": 0.00047558469299449944,
      "loss": 1.6287,
      "step": 27140
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39936158061027527,
      "learning_rate": 0.00047557621800264666,
      "loss": 1.7298,
      "step": 27141
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40598830580711365,
      "learning_rate": 0.0004755677427976703,
      "loss": 1.7156,
      "step": 27142
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39663416147232056,
      "learning_rate": 0.00047555926737958046,
      "loss": 1.6945,
      "step": 27143
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39118194580078125,
      "learning_rate": 0.00047555079174838765,
      "loss": 1.7036,
      "step": 27144
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40106281638145447,
      "learning_rate": 0.0004755423159041019,
      "loss": 1.7295,
      "step": 27145
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4033569097518921,
      "learning_rate": 0.0004755338398467338,
      "loss": 1.6011,
      "step": 27146
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3926689028739929,
      "learning_rate": 0.00047552536357629334,
      "loss": 1.6553,
      "step": 27147
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39535975456237793,
      "learning_rate": 0.00047551688709279103,
      "loss": 1.711,
      "step": 27148
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38182884454727173,
      "learning_rate": 0.00047550841039623715,
      "loss": 1.6669,
      "step": 27149
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40545228123664856,
      "learning_rate": 0.00047549993348664177,
      "loss": 1.6168,
      "step": 27150
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3842557370662689,
      "learning_rate": 0.0004754914563640154,
      "loss": 1.618,
      "step": 27151
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4040428102016449,
      "learning_rate": 0.0004754829790283682,
      "loss": 1.7318,
      "step": 27152
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40699630975723267,
      "learning_rate": 0.0004754745014797106,
      "loss": 1.6677,
      "step": 27153
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39708396792411804,
      "learning_rate": 0.0004754660237180528,
      "loss": 1.684,
      "step": 27154
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3907320499420166,
      "learning_rate": 0.00047545754574340504,
      "loss": 1.6614,
      "step": 27155
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3924843966960907,
      "learning_rate": 0.0004754490675557778,
      "loss": 1.6792,
      "step": 27156
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38625091314315796,
      "learning_rate": 0.0004754405891551811,
      "loss": 1.654,
      "step": 27157
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3932158946990967,
      "learning_rate": 0.00047543211054162547,
      "loss": 1.6229,
      "step": 27158
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40660369396209717,
      "learning_rate": 0.0004754236317151211,
      "loss": 1.6259,
      "step": 27159
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3906242847442627,
      "learning_rate": 0.0004754151526756782,
      "loss": 1.6556,
      "step": 27160
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38614150881767273,
      "learning_rate": 0.00047540667342330724,
      "loss": 1.6143,
      "step": 27161
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4104926884174347,
      "learning_rate": 0.0004753981939580184,
      "loss": 1.6405,
      "step": 27162
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41467157006263733,
      "learning_rate": 0.000475389714279822,
      "loss": 1.6101,
      "step": 27163
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39590325951576233,
      "learning_rate": 0.0004753812343887284,
      "loss": 1.6936,
      "step": 27164
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.400473952293396,
      "learning_rate": 0.0004753727542847476,
      "loss": 1.7139,
      "step": 27165
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40865927934646606,
      "learning_rate": 0.00047536427396789035,
      "loss": 1.7148,
      "step": 27166
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40485867857933044,
      "learning_rate": 0.0004753557934381666,
      "loss": 1.6922,
      "step": 27167
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38790953159332275,
      "learning_rate": 0.00047534731269558675,
      "loss": 1.6858,
      "step": 27168
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39475440979003906,
      "learning_rate": 0.00047533883174016124,
      "loss": 1.7173,
      "step": 27169
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4013538956642151,
      "learning_rate": 0.0004753303505719,
      "loss": 1.67,
      "step": 27170
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39158257842063904,
      "learning_rate": 0.0004753218691908137,
      "loss": 1.6702,
      "step": 27171
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38621118664741516,
      "learning_rate": 0.0004753133875969124,
      "loss": 1.7103,
      "step": 27172
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3992442488670349,
      "learning_rate": 0.0004753049057902066,
      "loss": 1.6745,
      "step": 27173
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.413358211517334,
      "learning_rate": 0.00047529642377070635,
      "loss": 1.7225,
      "step": 27174
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4030929207801819,
      "learning_rate": 0.0004752879415384221,
      "loss": 1.663,
      "step": 27175
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4096302390098572,
      "learning_rate": 0.0004752794590933642,
      "loss": 1.6419,
      "step": 27176
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3873365521430969,
      "learning_rate": 0.00047527097643554274,
      "loss": 1.6791,
      "step": 27177
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.38447508215904236,
      "learning_rate": 0.0004752624935649682,
      "loss": 1.7144,
      "step": 27178
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3888412117958069,
      "learning_rate": 0.0004752540104816508,
      "loss": 1.5999,
      "step": 27179
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3988811671733856,
      "learning_rate": 0.0004752455271856008,
      "loss": 1.604,
      "step": 27180
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4310135543346405,
      "learning_rate": 0.00047523704367682864,
      "loss": 1.7516,
      "step": 27181
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40281251072883606,
      "learning_rate": 0.00047522855995534453,
      "loss": 1.7223,
      "step": 27182
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3766050338745117,
      "learning_rate": 0.00047522007602115876,
      "loss": 1.7025,
      "step": 27183
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.395976722240448,
      "learning_rate": 0.00047521159187428164,
      "loss": 1.6903,
      "step": 27184
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4143058657646179,
      "learning_rate": 0.0004752031075147234,
      "loss": 1.7034,
      "step": 27185
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.401851087808609,
      "learning_rate": 0.0004751946229424945,
      "loss": 1.6784,
      "step": 27186
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3968738615512848,
      "learning_rate": 0.000475186138157605,
      "loss": 1.7014,
      "step": 27187
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39899012446403503,
      "learning_rate": 0.0004751776531600654,
      "loss": 1.6824,
      "step": 27188
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4113622009754181,
      "learning_rate": 0.000475169167949886,
      "loss": 1.7035,
      "step": 27189
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3949625492095947,
      "learning_rate": 0.000475160682527077,
      "loss": 1.6713,
      "step": 27190
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3987294137477875,
      "learning_rate": 0.00047515219689164877,
      "loss": 1.6725,
      "step": 27191
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4011991620063782,
      "learning_rate": 0.00047514371104361144,
      "loss": 1.6739,
      "step": 27192
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.395727276802063,
      "learning_rate": 0.0004751352249829757,
      "loss": 1.6398,
      "step": 27193
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3926478922367096,
      "learning_rate": 0.0004751267387097514,
      "loss": 1.5814,
      "step": 27194
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.402236670255661,
      "learning_rate": 0.0004751182522239491,
      "loss": 1.6354,
      "step": 27195
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39675870537757874,
      "learning_rate": 0.0004751097655255791,
      "loss": 1.7305,
      "step": 27196
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4003639817237854,
      "learning_rate": 0.00047510127861465155,
      "loss": 1.7004,
      "step": 27197
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.40546974539756775,
      "learning_rate": 0.00047509279149117695,
      "loss": 1.6332,
      "step": 27198
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.41191941499710083,
      "learning_rate": 0.0004750843041551655,
      "loss": 1.6796,
      "step": 27199
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.39915984869003296,
      "learning_rate": 0.00047507581660662736,
      "loss": 1.6913,
      "step": 27200
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3965561091899872,
      "learning_rate": 0.0004750673288455731,
      "loss": 1.6569,
      "step": 27201
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39047321677207947,
      "learning_rate": 0.0004750588408720128,
      "loss": 1.6973,
      "step": 27202
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39709362387657166,
      "learning_rate": 0.0004750503526859569,
      "loss": 1.6379,
      "step": 27203
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4148768484592438,
      "learning_rate": 0.0004750418642874158,
      "loss": 1.6601,
      "step": 27204
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5163922309875488,
      "learning_rate": 0.00047503337567639947,
      "loss": 1.6855,
      "step": 27205
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4028066098690033,
      "learning_rate": 0.0004750248868529185,
      "loss": 1.6128,
      "step": 27206
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38211867213249207,
      "learning_rate": 0.00047501639781698306,
      "loss": 1.6893,
      "step": 27207
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38483312726020813,
      "learning_rate": 0.0004750079085686036,
      "loss": 1.6783,
      "step": 27208
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38358208537101746,
      "learning_rate": 0.0004749994191077903,
      "loss": 1.6269,
      "step": 27209
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3884257972240448,
      "learning_rate": 0.0004749909294345534,
      "loss": 1.6865,
      "step": 27210
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3998948037624359,
      "learning_rate": 0.00047498243954890345,
      "loss": 1.659,
      "step": 27211
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40095415711402893,
      "learning_rate": 0.0004749739494508504,
      "loss": 1.6026,
      "step": 27212
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3968009948730469,
      "learning_rate": 0.00047496545914040494,
      "loss": 1.6782,
      "step": 27213
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.385459840297699,
      "learning_rate": 0.00047495696861757705,
      "loss": 1.6651,
      "step": 27214
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.402740478515625,
      "learning_rate": 0.00047494847788237727,
      "loss": 1.7555,
      "step": 27215
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3814162015914917,
      "learning_rate": 0.00047493998693481573,
      "loss": 1.6961,
      "step": 27216
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3956312835216522,
      "learning_rate": 0.00047493149577490295,
      "loss": 1.6468,
      "step": 27217
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39857032895088196,
      "learning_rate": 0.000474923004402649,
      "loss": 1.6816,
      "step": 27218
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3942733705043793,
      "learning_rate": 0.0004749145128180644,
      "loss": 1.7213,
      "step": 27219
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39289069175720215,
      "learning_rate": 0.00047490602102115924,
      "loss": 1.6016,
      "step": 27220
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3981028199195862,
      "learning_rate": 0.00047489752901194395,
      "loss": 1.7115,
      "step": 27221
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3936155140399933,
      "learning_rate": 0.0004748890367904289,
      "loss": 1.7201,
      "step": 27222
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4269360601902008,
      "learning_rate": 0.00047488054435662435,
      "loss": 1.7329,
      "step": 27223
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38764387369155884,
      "learning_rate": 0.00047487205171054046,
      "loss": 1.6242,
      "step": 27224
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39284414052963257,
      "learning_rate": 0.0004748635588521878,
      "loss": 1.7396,
      "step": 27225
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38675010204315186,
      "learning_rate": 0.0004748550657815764,
      "loss": 1.6945,
      "step": 27226
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39565369486808777,
      "learning_rate": 0.0004748465724987169,
      "loss": 1.6344,
      "step": 27227
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.402030348777771,
      "learning_rate": 0.00047483807900361924,
      "loss": 1.6597,
      "step": 27228
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.394209086894989,
      "learning_rate": 0.00047482958529629403,
      "loss": 1.7534,
      "step": 27229
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3867327570915222,
      "learning_rate": 0.0004748210913767514,
      "loss": 1.6299,
      "step": 27230
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4001135528087616,
      "learning_rate": 0.00047481259724500185,
      "loss": 1.6929,
      "step": 27231
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3947103023529053,
      "learning_rate": 0.0004748041029010554,
      "loss": 1.6569,
      "step": 27232
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39669883251190186,
      "learning_rate": 0.0004747956083449226,
      "loss": 1.6268,
      "step": 27233
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38971349596977234,
      "learning_rate": 0.00047478711357661367,
      "loss": 1.6744,
      "step": 27234
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40241047739982605,
      "learning_rate": 0.0004747786185961389,
      "loss": 1.7415,
      "step": 27235
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39542338252067566,
      "learning_rate": 0.0004747701234035087,
      "loss": 1.6647,
      "step": 27236
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41692104935646057,
      "learning_rate": 0.00047476162799873334,
      "loss": 1.6477,
      "step": 27237
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3922882676124573,
      "learning_rate": 0.0004747531323818231,
      "loss": 1.6328,
      "step": 27238
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3978707492351532,
      "learning_rate": 0.00047474463655278827,
      "loss": 1.7385,
      "step": 27239
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3916266858577728,
      "learning_rate": 0.0004747361405116392,
      "loss": 1.6223,
      "step": 27240
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3980332612991333,
      "learning_rate": 0.00047472764425838626,
      "loss": 1.6349,
      "step": 27241
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41139522194862366,
      "learning_rate": 0.00047471914779303955,
      "loss": 1.7347,
      "step": 27242
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3911980092525482,
      "learning_rate": 0.0004747106511156097,
      "loss": 1.6757,
      "step": 27243
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3936641812324524,
      "learning_rate": 0.00047470215422610684,
      "loss": 1.5575,
      "step": 27244
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3914409279823303,
      "learning_rate": 0.0004746936571245413,
      "loss": 1.7377,
      "step": 27245
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4106268882751465,
      "learning_rate": 0.00047468515981092336,
      "loss": 1.7207,
      "step": 27246
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3967270255088806,
      "learning_rate": 0.00047467666228526335,
      "loss": 1.6194,
      "step": 27247
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39852869510650635,
      "learning_rate": 0.00047466816454757167,
      "loss": 1.7098,
      "step": 27248
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3941749632358551,
      "learning_rate": 0.00047465966659785856,
      "loss": 1.6989,
      "step": 27249
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3965035080909729,
      "learning_rate": 0.0004746511684361344,
      "loss": 1.6925,
      "step": 27250
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4037313461303711,
      "learning_rate": 0.00047464267006240937,
      "loss": 1.6046,
      "step": 27251
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3969357907772064,
      "learning_rate": 0.00047463417147669394,
      "loss": 1.6508,
      "step": 27252
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40338990092277527,
      "learning_rate": 0.00047462567267899834,
      "loss": 1.6548,
      "step": 27253
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41445037722587585,
      "learning_rate": 0.0004746171736693328,
      "loss": 1.68,
      "step": 27254
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40273088216781616,
      "learning_rate": 0.00047460867444770787,
      "loss": 1.6165,
      "step": 27255
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3976888656616211,
      "learning_rate": 0.0004746001750141337,
      "loss": 1.6891,
      "step": 27256
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3974093794822693,
      "learning_rate": 0.00047459167536862063,
      "loss": 1.5943,
      "step": 27257
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39353078603744507,
      "learning_rate": 0.000474583175511179,
      "loss": 1.7045,
      "step": 27258
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3955433666706085,
      "learning_rate": 0.000474574675441819,
      "loss": 1.69,
      "step": 27259
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39706742763519287,
      "learning_rate": 0.0004745661751605512,
      "loss": 1.6395,
      "step": 27260
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40812209248542786,
      "learning_rate": 0.00047455767466738583,
      "loss": 1.6865,
      "step": 27261
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39357656240463257,
      "learning_rate": 0.00047454917396233304,
      "loss": 1.6522,
      "step": 27262
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3895917534828186,
      "learning_rate": 0.00047454067304540334,
      "loss": 1.68,
      "step": 27263
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3933846950531006,
      "learning_rate": 0.00047453217191660693,
      "loss": 1.6686,
      "step": 27264
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.397228866815567,
      "learning_rate": 0.0004745236705759543,
      "loss": 1.6384,
      "step": 27265
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4025351107120514,
      "learning_rate": 0.0004745151690234555,
      "loss": 1.7295,
      "step": 27266
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42444178462028503,
      "learning_rate": 0.00047450666725912114,
      "loss": 1.5801,
      "step": 27267
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4010609984397888,
      "learning_rate": 0.00047449816528296137,
      "loss": 1.6737,
      "step": 27268
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3942067325115204,
      "learning_rate": 0.0004744896630949864,
      "loss": 1.6738,
      "step": 27269
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40086933970451355,
      "learning_rate": 0.00047448116069520683,
      "loss": 1.5595,
      "step": 27270
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40609174966812134,
      "learning_rate": 0.0004744726580836328,
      "loss": 1.6594,
      "step": 27271
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39744624495506287,
      "learning_rate": 0.0004744641552602746,
      "loss": 1.7449,
      "step": 27272
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39062005281448364,
      "learning_rate": 0.00047445565222514275,
      "loss": 1.6679,
      "step": 27273
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40518850088119507,
      "learning_rate": 0.0004744471489782473,
      "loss": 1.7008,
      "step": 27274
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41852498054504395,
      "learning_rate": 0.0004744386455195988,
      "loss": 1.6044,
      "step": 27275
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3876812160015106,
      "learning_rate": 0.00047443014184920753,
      "loss": 1.7569,
      "step": 27276
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7561268210411072,
      "learning_rate": 0.0004744216379670836,
      "loss": 1.7421,
      "step": 27277
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3908320963382721,
      "learning_rate": 0.0004744131338732377,
      "loss": 1.6282,
      "step": 27278
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39847996830940247,
      "learning_rate": 0.00047440462956767983,
      "loss": 1.7034,
      "step": 27279
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41345590353012085,
      "learning_rate": 0.00047439612505042046,
      "loss": 1.7566,
      "step": 27280
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.37849166989326477,
      "learning_rate": 0.00047438762032146997,
      "loss": 1.6787,
      "step": 27281
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40725600719451904,
      "learning_rate": 0.00047437911538083854,
      "loss": 1.6757,
      "step": 27282
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40431201457977295,
      "learning_rate": 0.0004743706102285366,
      "loss": 1.7082,
      "step": 27283
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41894593834877014,
      "learning_rate": 0.0004743621048645743,
      "loss": 1.6965,
      "step": 27284
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39586806297302246,
      "learning_rate": 0.0004743535992889622,
      "loss": 1.6808,
      "step": 27285
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38866952061653137,
      "learning_rate": 0.00047434509350171054,
      "loss": 1.6624,
      "step": 27286
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38781237602233887,
      "learning_rate": 0.00047433658750282954,
      "loss": 1.635,
      "step": 27287
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3975665271282196,
      "learning_rate": 0.0004743280812923297,
      "loss": 1.5972,
      "step": 27288
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3934643864631653,
      "learning_rate": 0.0004743195748702212,
      "loss": 1.6316,
      "step": 27289
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38780638575553894,
      "learning_rate": 0.00047431106823651447,
      "loss": 1.6389,
      "step": 27290
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4047650992870331,
      "learning_rate": 0.0004743025613912197,
      "loss": 1.7396,
      "step": 27291
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39574435353279114,
      "learning_rate": 0.0004742940543343474,
      "loss": 1.6206,
      "step": 27292
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3877127170562744,
      "learning_rate": 0.0004742855470659078,
      "loss": 1.6785,
      "step": 27293
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3864094913005829,
      "learning_rate": 0.00047427703958591115,
      "loss": 1.6428,
      "step": 27294
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3949704170227051,
      "learning_rate": 0.00047426853189436787,
      "loss": 1.6512,
      "step": 27295
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3977184295654297,
      "learning_rate": 0.00047426002399128823,
      "loss": 1.6501,
      "step": 27296
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39286553859710693,
      "learning_rate": 0.00047425151587668265,
      "loss": 1.6686,
      "step": 27297
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38758090138435364,
      "learning_rate": 0.0004742430075505615,
      "loss": 1.6457,
      "step": 27298
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3946033716201782,
      "learning_rate": 0.0004742344990129349,
      "loss": 1.7281,
      "step": 27299
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40933942794799805,
      "learning_rate": 0.00047422599026381327,
      "loss": 1.6891,
      "step": 27300
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38660097122192383,
      "learning_rate": 0.000474217481303207,
      "loss": 1.7173,
      "step": 27301
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3905179798603058,
      "learning_rate": 0.00047420897213112635,
      "loss": 1.6253,
      "step": 27302
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3949996531009674,
      "learning_rate": 0.00047420046274758166,
      "loss": 1.6497,
      "step": 27303
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40162771940231323,
      "learning_rate": 0.00047419195315258334,
      "loss": 1.6498,
      "step": 27304
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3897077441215515,
      "learning_rate": 0.00047418344334614163,
      "loss": 1.6817,
      "step": 27305
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4036957919597626,
      "learning_rate": 0.00047417493332826694,
      "loss": 1.7252,
      "step": 27306
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39051929116249084,
      "learning_rate": 0.0004741664230989695,
      "loss": 1.6222,
      "step": 27307
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3865434229373932,
      "learning_rate": 0.00047415791265825963,
      "loss": 1.7254,
      "step": 27308
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38979393243789673,
      "learning_rate": 0.0004741494020061477,
      "loss": 1.6685,
      "step": 27309
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3987000286579132,
      "learning_rate": 0.00047414089114264417,
      "loss": 1.6065,
      "step": 27310
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.400081992149353,
      "learning_rate": 0.00047413238006775927,
      "loss": 1.6457,
      "step": 27311
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3935830891132355,
      "learning_rate": 0.0004741238687815032,
      "loss": 1.6389,
      "step": 27312
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3992360234260559,
      "learning_rate": 0.0004741153572838864,
      "loss": 1.644,
      "step": 27313
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4004618227481842,
      "learning_rate": 0.0004741068455749193,
      "loss": 1.7001,
      "step": 27314
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3827402889728546,
      "learning_rate": 0.0004740983336546122,
      "loss": 1.6475,
      "step": 27315
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40485483407974243,
      "learning_rate": 0.00047408982152297526,
      "loss": 1.7308,
      "step": 27316
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39179277420043945,
      "learning_rate": 0.0004740813091800189,
      "loss": 1.6321,
      "step": 27317
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.380187064409256,
      "learning_rate": 0.00047407279662575356,
      "loss": 1.7103,
      "step": 27318
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4103928804397583,
      "learning_rate": 0.00047406428386018943,
      "loss": 1.7028,
      "step": 27319
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41283631324768066,
      "learning_rate": 0.00047405577088333696,
      "loss": 1.6791,
      "step": 27320
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4009847640991211,
      "learning_rate": 0.0004740472576952064,
      "loss": 1.7209,
      "step": 27321
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40987294912338257,
      "learning_rate": 0.0004740387442958081,
      "loss": 1.6598,
      "step": 27322
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3827095925807953,
      "learning_rate": 0.00047403023068515247,
      "loss": 1.6135,
      "step": 27323
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3881825804710388,
      "learning_rate": 0.00047402171686324973,
      "loss": 1.6929,
      "step": 27324
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4005180895328522,
      "learning_rate": 0.00047401320283011036,
      "loss": 1.6949,
      "step": 27325
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40527650713920593,
      "learning_rate": 0.00047400468858574456,
      "loss": 1.7326,
      "step": 27326
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4077497720718384,
      "learning_rate": 0.00047399617413016257,
      "loss": 1.6902,
      "step": 27327
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39515528082847595,
      "learning_rate": 0.000473987659463375,
      "loss": 1.6705,
      "step": 27328
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3997077941894531,
      "learning_rate": 0.000473979144585392,
      "loss": 1.6335,
      "step": 27329
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41001027822494507,
      "learning_rate": 0.000473970629496224,
      "loss": 1.7715,
      "step": 27330
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4118295907974243,
      "learning_rate": 0.0004739621141958813,
      "loss": 1.7399,
      "step": 27331
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39271607995033264,
      "learning_rate": 0.00047395359868437415,
      "loss": 1.6973,
      "step": 27332
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4133811891078949,
      "learning_rate": 0.000473945082961713,
      "loss": 1.6925,
      "step": 27333
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4098932147026062,
      "learning_rate": 0.0004739365670279081,
      "loss": 1.5924,
      "step": 27334
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40254467725753784,
      "learning_rate": 0.00047392805088296985,
      "loss": 1.6555,
      "step": 27335
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41585463285446167,
      "learning_rate": 0.00047391953452690863,
      "loss": 1.7547,
      "step": 27336
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.43005919456481934,
      "learning_rate": 0.0004739110179597347,
      "loss": 1.6188,
      "step": 27337
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4091216027736664,
      "learning_rate": 0.0004739025011814584,
      "loss": 1.7018,
      "step": 27338
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41760292649269104,
      "learning_rate": 0.00047389398419209005,
      "loss": 1.7084,
      "step": 27339
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.422658234834671,
      "learning_rate": 0.00047388546699164014,
      "loss": 1.6177,
      "step": 27340
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40992724895477295,
      "learning_rate": 0.00047387694958011883,
      "loss": 1.6362,
      "step": 27341
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40801456570625305,
      "learning_rate": 0.00047386843195753643,
      "loss": 1.6624,
      "step": 27342
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3917020559310913,
      "learning_rate": 0.0004738599141239035,
      "loss": 1.6858,
      "step": 27343
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3884209394454956,
      "learning_rate": 0.0004738513960792302,
      "loss": 1.6245,
      "step": 27344
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4273204505443573,
      "learning_rate": 0.00047384287782352696,
      "loss": 1.724,
      "step": 27345
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4103703498840332,
      "learning_rate": 0.0004738343593568041,
      "loss": 1.646,
      "step": 27346
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39330416917800903,
      "learning_rate": 0.00047382584067907186,
      "loss": 1.6887,
      "step": 27347
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4107125997543335,
      "learning_rate": 0.00047381732179034076,
      "loss": 1.6243,
      "step": 27348
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3952588140964508,
      "learning_rate": 0.0004738088026906209,
      "loss": 1.5803,
      "step": 27349
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41684961318969727,
      "learning_rate": 0.00047380028337992285,
      "loss": 1.6638,
      "step": 27350
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41162776947021484,
      "learning_rate": 0.00047379176385825686,
      "loss": 1.736,
      "step": 27351
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39452657103538513,
      "learning_rate": 0.0004737832441256332,
      "loss": 1.649,
      "step": 27352
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4000554084777832,
      "learning_rate": 0.0004737747241820624,
      "loss": 1.7286,
      "step": 27353
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3999439775943756,
      "learning_rate": 0.00047376620402755465,
      "loss": 1.677,
      "step": 27354
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41050001978874207,
      "learning_rate": 0.00047375768366212035,
      "loss": 1.6236,
      "step": 27355
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41283923387527466,
      "learning_rate": 0.0004737491630857698,
      "loss": 1.6753,
      "step": 27356
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3952770531177521,
      "learning_rate": 0.0004737406422985133,
      "loss": 1.6944,
      "step": 27357
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39798927307128906,
      "learning_rate": 0.00047373212130036145,
      "loss": 1.6803,
      "step": 27358
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3941916823387146,
      "learning_rate": 0.0004737236000913242,
      "loss": 1.7059,
      "step": 27359
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40003880858421326,
      "learning_rate": 0.00047371507867141215,
      "loss": 1.6767,
      "step": 27360
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41240620613098145,
      "learning_rate": 0.0004737065570406357,
      "loss": 1.6167,
      "step": 27361
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4029901623725891,
      "learning_rate": 0.000473698035199005,
      "loss": 1.6652,
      "step": 27362
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39734935760498047,
      "learning_rate": 0.00047368951314653054,
      "loss": 1.7021,
      "step": 27363
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4094020128250122,
      "learning_rate": 0.0004736809908832224,
      "loss": 1.6768,
      "step": 27364
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40356311202049255,
      "learning_rate": 0.00047367246840909137,
      "loss": 1.7074,
      "step": 27365
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3983677327632904,
      "learning_rate": 0.0004736639457241474,
      "loss": 1.7558,
      "step": 27366
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41136935353279114,
      "learning_rate": 0.00047365542282840105,
      "loss": 1.627,
      "step": 27367
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4030112028121948,
      "learning_rate": 0.0004736468997218627,
      "loss": 1.7503,
      "step": 27368
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39824235439300537,
      "learning_rate": 0.00047363837640454243,
      "loss": 1.7066,
      "step": 27369
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40292176604270935,
      "learning_rate": 0.0004736298528764509,
      "loss": 1.6713,
      "step": 27370
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4004722833633423,
      "learning_rate": 0.0004736213291375981,
      "loss": 1.6547,
      "step": 27371
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40949514508247375,
      "learning_rate": 0.0004736128051879948,
      "loss": 1.6774,
      "step": 27372
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4029662013053894,
      "learning_rate": 0.00047360428102765105,
      "loss": 1.6976,
      "step": 27373
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4028492569923401,
      "learning_rate": 0.00047359575665657723,
      "loss": 1.6839,
      "step": 27374
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4024585783481598,
      "learning_rate": 0.00047358723207478385,
      "loss": 1.6731,
      "step": 27375
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39641398191452026,
      "learning_rate": 0.0004735787072822811,
      "loss": 1.6258,
      "step": 27376
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3922064006328583,
      "learning_rate": 0.0004735701822790794,
      "loss": 1.6596,
      "step": 27377
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42227903008461,
      "learning_rate": 0.00047356165706518904,
      "loss": 1.7054,
      "step": 27378
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3954281508922577,
      "learning_rate": 0.00047355313164062037,
      "loss": 1.641,
      "step": 27379
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42689040303230286,
      "learning_rate": 0.0004735446060053838,
      "loss": 1.6842,
      "step": 27380
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4220394194126129,
      "learning_rate": 0.00047353608015948966,
      "loss": 1.6364,
      "step": 27381
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40345263481140137,
      "learning_rate": 0.00047352755410294827,
      "loss": 1.6965,
      "step": 27382
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3889508843421936,
      "learning_rate": 0.00047351902783577003,
      "loss": 1.6635,
      "step": 27383
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40576672554016113,
      "learning_rate": 0.00047351050135796525,
      "loss": 1.6124,
      "step": 27384
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4047512412071228,
      "learning_rate": 0.0004735019746695443,
      "loss": 1.7032,
      "step": 27385
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40647757053375244,
      "learning_rate": 0.00047349344777051746,
      "loss": 1.5947,
      "step": 27386
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39993929862976074,
      "learning_rate": 0.00047348492066089516,
      "loss": 1.6518,
      "step": 27387
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40343013405799866,
      "learning_rate": 0.0004734763933406878,
      "loss": 1.7517,
      "step": 27388
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3997490108013153,
      "learning_rate": 0.0004734678658099055,
      "loss": 1.6236,
      "step": 27389
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39642220735549927,
      "learning_rate": 0.0004734593380685589,
      "loss": 1.6337,
      "step": 27390
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41919806599617004,
      "learning_rate": 0.00047345081011665815,
      "loss": 1.7157,
      "step": 27391
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.43459632992744446,
      "learning_rate": 0.00047344228195421375,
      "loss": 1.6452,
      "step": 27392
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4106002449989319,
      "learning_rate": 0.0004734337535812359,
      "loss": 1.7006,
      "step": 27393
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4021480977535248,
      "learning_rate": 0.00047342522499773504,
      "loss": 1.6463,
      "step": 27394
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40285369753837585,
      "learning_rate": 0.0004734166962037216,
      "loss": 1.6847,
      "step": 27395
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4282674789428711,
      "learning_rate": 0.0004734081671992058,
      "loss": 1.668,
      "step": 27396
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40453803539276123,
      "learning_rate": 0.00047339963798419797,
      "loss": 1.7193,
      "step": 27397
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3899698555469513,
      "learning_rate": 0.0004733911085587086,
      "loss": 1.6538,
      "step": 27398
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39766213297843933,
      "learning_rate": 0.00047338257892274796,
      "loss": 1.7012,
      "step": 27399
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42908555269241333,
      "learning_rate": 0.0004733740490763263,
      "loss": 1.6826,
      "step": 27400
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4147583544254303,
      "learning_rate": 0.0004733655190194542,
      "loss": 1.6941,
      "step": 27401
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3997204899787903,
      "learning_rate": 0.00047335698875214193,
      "loss": 1.6528,
      "step": 27402
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39915117621421814,
      "learning_rate": 0.0004733484582743999,
      "loss": 1.7114,
      "step": 27403
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6292080879211426,
      "learning_rate": 0.00047333992758623816,
      "loss": 1.661,
      "step": 27404
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4051453471183777,
      "learning_rate": 0.00047333139668766737,
      "loss": 1.7432,
      "step": 27405
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4039030373096466,
      "learning_rate": 0.00047332286557869783,
      "loss": 1.6218,
      "step": 27406
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39097076654434204,
      "learning_rate": 0.0004733143342593399,
      "loss": 1.6543,
      "step": 27407
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39609986543655396,
      "learning_rate": 0.00047330580272960385,
      "loss": 1.6414,
      "step": 27408
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41111332178115845,
      "learning_rate": 0.00047329727098950006,
      "loss": 1.7504,
      "step": 27409
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.402142196893692,
      "learning_rate": 0.000473288739039039,
      "loss": 1.7214,
      "step": 27410
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4000617265701294,
      "learning_rate": 0.0004732802068782309,
      "loss": 1.6791,
      "step": 27411
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4001086354255676,
      "learning_rate": 0.0004732716745070862,
      "loss": 1.6929,
      "step": 27412
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5617904663085938,
      "learning_rate": 0.0004732631419256152,
      "loss": 1.742,
      "step": 27413
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38997867703437805,
      "learning_rate": 0.0004732546091338282,
      "loss": 1.651,
      "step": 27414
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40290892124176025,
      "learning_rate": 0.00047324607613173576,
      "loss": 1.7151,
      "step": 27415
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4009738862514496,
      "learning_rate": 0.00047323754291934804,
      "loss": 1.6614,
      "step": 27416
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4041843116283417,
      "learning_rate": 0.0004732290094966755,
      "loss": 1.6266,
      "step": 27417
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4078035354614258,
      "learning_rate": 0.00047322047586372847,
      "loss": 1.7004,
      "step": 27418
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3916695713996887,
      "learning_rate": 0.0004732119420205172,
      "loss": 1.7131,
      "step": 27419
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40229809284210205,
      "learning_rate": 0.0004732034079670523,
      "loss": 1.6637,
      "step": 27420
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40445443987846375,
      "learning_rate": 0.00047319487370334385,
      "loss": 1.7281,
      "step": 27421
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39667895436286926,
      "learning_rate": 0.0004731863392294024,
      "loss": 1.6252,
      "step": 27422
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39889761805534363,
      "learning_rate": 0.00047317780454523835,
      "loss": 1.6128,
      "step": 27423
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38998162746429443,
      "learning_rate": 0.0004731692696508618,
      "loss": 1.6799,
      "step": 27424
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41234275698661804,
      "learning_rate": 0.0004731607345462833,
      "loss": 1.6683,
      "step": 27425
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4076748490333557,
      "learning_rate": 0.0004731521992315133,
      "loss": 1.6759,
      "step": 27426
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3852737545967102,
      "learning_rate": 0.0004731436637065619,
      "loss": 1.5698,
      "step": 27427
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38693967461586,
      "learning_rate": 0.0004731351279714398,
      "loss": 1.5768,
      "step": 27428
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.397228866815567,
      "learning_rate": 0.0004731265920261569,
      "loss": 1.6679,
      "step": 27429
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4027068614959717,
      "learning_rate": 0.00047311805587072403,
      "loss": 1.6694,
      "step": 27430
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4109399616718292,
      "learning_rate": 0.0004731095195051513,
      "loss": 1.6854,
      "step": 27431
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3962050974369049,
      "learning_rate": 0.0004731009829294491,
      "loss": 1.6802,
      "step": 27432
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39961010217666626,
      "learning_rate": 0.0004730924461436278,
      "loss": 1.6135,
      "step": 27433
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3875487446784973,
      "learning_rate": 0.0004730839091476978,
      "loss": 1.5932,
      "step": 27434
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38953012228012085,
      "learning_rate": 0.0004730753719416694,
      "loss": 1.6488,
      "step": 27435
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38423460721969604,
      "learning_rate": 0.00047306683452555306,
      "loss": 1.6378,
      "step": 27436
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3971644937992096,
      "learning_rate": 0.00047305829689935904,
      "loss": 1.6962,
      "step": 27437
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38195839524269104,
      "learning_rate": 0.0004730497590630977,
      "loss": 1.6493,
      "step": 27438
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3954763114452362,
      "learning_rate": 0.00047304122101677953,
      "loss": 1.6495,
      "step": 27439
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39535367488861084,
      "learning_rate": 0.0004730326827604148,
      "loss": 1.6285,
      "step": 27440
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40059933066368103,
      "learning_rate": 0.00047302414429401386,
      "loss": 1.7094,
      "step": 27441
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3905212879180908,
      "learning_rate": 0.00047301560561758714,
      "loss": 1.6641,
      "step": 27442
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3919972777366638,
      "learning_rate": 0.0004730070667311449,
      "loss": 1.6219,
      "step": 27443
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3922247290611267,
      "learning_rate": 0.0004729985276346976,
      "loss": 1.6633,
      "step": 27444
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4089275300502777,
      "learning_rate": 0.00047298998832825566,
      "loss": 1.6581,
      "step": 27445
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3914027214050293,
      "learning_rate": 0.00047298144881182926,
      "loss": 1.612,
      "step": 27446
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3998638987541199,
      "learning_rate": 0.00047297290908542895,
      "loss": 1.7055,
      "step": 27447
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.405212938785553,
      "learning_rate": 0.00047296436914906503,
      "loss": 1.6908,
      "step": 27448
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40847766399383545,
      "learning_rate": 0.0004729558290027477,
      "loss": 1.6854,
      "step": 27449
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.394577294588089,
      "learning_rate": 0.00047294728864648766,
      "loss": 1.6701,
      "step": 27450
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4033687710762024,
      "learning_rate": 0.0004729387480802949,
      "loss": 1.7142,
      "step": 27451
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39071124792099,
      "learning_rate": 0.0004729302073041801,
      "loss": 1.6714,
      "step": 27452
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3919316232204437,
      "learning_rate": 0.00047292166631815355,
      "loss": 1.6413,
      "step": 27453
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3929687440395355,
      "learning_rate": 0.0004729131251222255,
      "loss": 1.6561,
      "step": 27454
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39544615149497986,
      "learning_rate": 0.0004729045837164064,
      "loss": 1.6665,
      "step": 27455
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38138046860694885,
      "learning_rate": 0.0004728960421007066,
      "loss": 1.6413,
      "step": 27456
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40240827202796936,
      "learning_rate": 0.00047288750027513654,
      "loss": 1.6762,
      "step": 27457
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40311482548713684,
      "learning_rate": 0.0004728789582397065,
      "loss": 1.7056,
      "step": 27458
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39698243141174316,
      "learning_rate": 0.0004728704159944268,
      "loss": 1.737,
      "step": 27459
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.389240026473999,
      "learning_rate": 0.0004728618735393081,
      "loss": 1.6545,
      "step": 27460
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3900910019874573,
      "learning_rate": 0.0004728533308743604,
      "loss": 1.6202,
      "step": 27461
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3990781009197235,
      "learning_rate": 0.00047284478799959417,
      "loss": 1.6262,
      "step": 27462
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4240398108959198,
      "learning_rate": 0.00047283624491501993,
      "loss": 1.6835,
      "step": 27463
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39450451731681824,
      "learning_rate": 0.00047282770162064786,
      "loss": 1.6855,
      "step": 27464
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3970963656902313,
      "learning_rate": 0.0004728191581164885,
      "loss": 1.6629,
      "step": 27465
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3958982825279236,
      "learning_rate": 0.0004728106144025522,
      "loss": 1.6589,
      "step": 27466
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38835787773132324,
      "learning_rate": 0.00047280207047884924,
      "loss": 1.69,
      "step": 27467
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39281320571899414,
      "learning_rate": 0.00047279352634539,
      "loss": 1.6235,
      "step": 27468
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40401557087898254,
      "learning_rate": 0.00047278498200218483,
      "loss": 1.5537,
      "step": 27469
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4288250803947449,
      "learning_rate": 0.00047277643744924426,
      "loss": 1.6638,
      "step": 27470
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3934272527694702,
      "learning_rate": 0.00047276789268657843,
      "loss": 1.6685,
      "step": 27471
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39919066429138184,
      "learning_rate": 0.00047275934771419793,
      "loss": 1.6659,
      "step": 27472
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40642687678337097,
      "learning_rate": 0.000472750802532113,
      "loss": 1.6743,
      "step": 27473
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40909549593925476,
      "learning_rate": 0.0004727422571403341,
      "loss": 1.6941,
      "step": 27474
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41727226972579956,
      "learning_rate": 0.00047273371153887147,
      "loss": 1.6252,
      "step": 27475
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4002627432346344,
      "learning_rate": 0.00047272516572773553,
      "loss": 1.5842,
      "step": 27476
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39153099060058594,
      "learning_rate": 0.0004727166197069368,
      "loss": 1.6079,
      "step": 27477
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3927622437477112,
      "learning_rate": 0.00047270807347648554,
      "loss": 1.6978,
      "step": 27478
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40196046233177185,
      "learning_rate": 0.0004726995270363921,
      "loss": 1.6047,
      "step": 27479
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4032187759876251,
      "learning_rate": 0.0004726909803866668,
      "loss": 1.6895,
      "step": 27480
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40967410802841187,
      "learning_rate": 0.0004726824335273202,
      "loss": 1.6893,
      "step": 27481
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39916250109672546,
      "learning_rate": 0.0004726738864583625,
      "loss": 1.7111,
      "step": 27482
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39348727464675903,
      "learning_rate": 0.0004726653391798043,
      "loss": 1.6775,
      "step": 27483
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39842772483825684,
      "learning_rate": 0.00047265679169165566,
      "loss": 1.6792,
      "step": 27484
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3956301212310791,
      "learning_rate": 0.0004726482439939271,
      "loss": 1.6267,
      "step": 27485
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39129164814949036,
      "learning_rate": 0.0004726396960866291,
      "loss": 1.6447,
      "step": 27486
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.41309550404548645,
      "learning_rate": 0.0004726311479697719,
      "loss": 1.6689,
      "step": 27487
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3929995000362396,
      "learning_rate": 0.00047262259964336596,
      "loss": 1.6265,
      "step": 27488
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4000597894191742,
      "learning_rate": 0.00047261405110742157,
      "loss": 1.6444,
      "step": 27489
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.39784476161003113,
      "learning_rate": 0.00047260550236194915,
      "loss": 1.6664,
      "step": 27490
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3988928198814392,
      "learning_rate": 0.0004725969534069591,
      "loss": 1.6354,
      "step": 27491
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4129478931427002,
      "learning_rate": 0.00047258840424246185,
      "loss": 1.6395,
      "step": 27492
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4109843969345093,
      "learning_rate": 0.0004725798548684676,
      "loss": 1.6425,
      "step": 27493
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4151027500629425,
      "learning_rate": 0.0004725713052849869,
      "loss": 1.6267,
      "step": 27494
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4060276448726654,
      "learning_rate": 0.00047256275549203004,
      "loss": 1.6511,
      "step": 27495
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3955967426300049,
      "learning_rate": 0.00047255420548960746,
      "loss": 1.6406,
      "step": 27496
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3951050639152527,
      "learning_rate": 0.0004725456552777294,
      "loss": 1.7081,
      "step": 27497
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.42007890343666077,
      "learning_rate": 0.00047253710485640636,
      "loss": 1.6765,
      "step": 27498
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40394216775894165,
      "learning_rate": 0.00047252855422564877,
      "loss": 1.6668,
      "step": 27499
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40161022543907166,
      "learning_rate": 0.0004725200033854669,
      "loss": 1.7039,
      "step": 27500
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40700578689575195,
      "learning_rate": 0.0004725114523358712,
      "loss": 1.6506,
      "step": 27501
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.38995638489723206,
      "learning_rate": 0.000472502901076872,
      "loss": 1.6749,
      "step": 27502
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40698033571243286,
      "learning_rate": 0.0004724943496084796,
      "loss": 1.6263,
      "step": 27503
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.409352570772171,
      "learning_rate": 0.0004724857979307046,
      "loss": 1.6485,
      "step": 27504
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40420714020729065,
      "learning_rate": 0.0004724772460435573,
      "loss": 1.6646,
      "step": 27505
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3995838165283203,
      "learning_rate": 0.0004724686939470479,
      "loss": 1.7234,
      "step": 27506
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40707895159721375,
      "learning_rate": 0.0004724601416411869,
      "loss": 1.5888,
      "step": 27507
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4108920395374298,
      "learning_rate": 0.00047245158912598474,
      "loss": 1.6821,
      "step": 27508
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41397222876548767,
      "learning_rate": 0.0004724430364014519,
      "loss": 1.7247,
      "step": 27509
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4149484932422638,
      "learning_rate": 0.00047243448346759846,
      "loss": 1.6727,
      "step": 27510
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3984501361846924,
      "learning_rate": 0.000472425930324435,
      "loss": 1.7151,
      "step": 27511
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.401216596364975,
      "learning_rate": 0.0004724173769719719,
      "loss": 1.6239,
      "step": 27512
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3862708508968353,
      "learning_rate": 0.0004724088234102194,
      "loss": 1.6362,
      "step": 27513
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41134124994277954,
      "learning_rate": 0.00047240026963918814,
      "loss": 1.6589,
      "step": 27514
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.398944616317749,
      "learning_rate": 0.00047239171565888823,
      "loss": 1.7058,
      "step": 27515
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4085043668746948,
      "learning_rate": 0.0004723831614693303,
      "loss": 1.6944,
      "step": 27516
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38411745429039,
      "learning_rate": 0.00047237460707052456,
      "loss": 1.6109,
      "step": 27517
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3895665407180786,
      "learning_rate": 0.00047236605246248135,
      "loss": 1.537,
      "step": 27518
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3932875990867615,
      "learning_rate": 0.0004723574976452113,
      "loss": 1.5855,
      "step": 27519
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.43106159567832947,
      "learning_rate": 0.00047234894261872465,
      "loss": 1.6605,
      "step": 27520
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4070509970188141,
      "learning_rate": 0.0004723403873830316,
      "loss": 1.6428,
      "step": 27521
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4226076900959015,
      "learning_rate": 0.0004723318319381429,
      "loss": 1.6061,
      "step": 27522
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39778798818588257,
      "learning_rate": 0.0004723232762840686,
      "loss": 1.7527,
      "step": 27523
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.43288713693618774,
      "learning_rate": 0.00047231472042081935,
      "loss": 1.6528,
      "step": 27524
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.408416211605072,
      "learning_rate": 0.00047230616434840536,
      "loss": 1.5924,
      "step": 27525
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4076119363307953,
      "learning_rate": 0.00047229760806683706,
      "loss": 1.6939,
      "step": 27526
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3872663378715515,
      "learning_rate": 0.0004722890515761249,
      "loss": 1.6297,
      "step": 27527
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42917895317077637,
      "learning_rate": 0.00047228049487627917,
      "loss": 1.6477,
      "step": 27528
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3978220820426941,
      "learning_rate": 0.00047227193796731034,
      "loss": 1.5958,
      "step": 27529
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3992966115474701,
      "learning_rate": 0.00047226338084922873,
      "loss": 1.6835,
      "step": 27530
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4095684289932251,
      "learning_rate": 0.00047225482352204474,
      "loss": 1.7387,
      "step": 27531
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4045928120613098,
      "learning_rate": 0.00047224626598576884,
      "loss": 1.6887,
      "step": 27532
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3942941427230835,
      "learning_rate": 0.0004722377082404113,
      "loss": 1.6531,
      "step": 27533
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3800663352012634,
      "learning_rate": 0.0004722291502859826,
      "loss": 1.6532,
      "step": 27534
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3959507942199707,
      "learning_rate": 0.0004722205921224931,
      "loss": 1.6658,
      "step": 27535
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4136478304862976,
      "learning_rate": 0.0004722120337499531,
      "loss": 1.6791,
      "step": 27536
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.405228853225708,
      "learning_rate": 0.0004722034751683731,
      "loss": 1.7393,
      "step": 27537
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4182438254356384,
      "learning_rate": 0.0004721949163777635,
      "loss": 1.6922,
      "step": 27538
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40786993503570557,
      "learning_rate": 0.00047218635737813466,
      "loss": 1.6382,
      "step": 27539
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3895753026008606,
      "learning_rate": 0.00047217779816949686,
      "loss": 1.6583,
      "step": 27540
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4184195101261139,
      "learning_rate": 0.00047216923875186066,
      "loss": 1.7769,
      "step": 27541
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4201684892177582,
      "learning_rate": 0.0004721606791252363,
      "loss": 1.7194,
      "step": 27542
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.399650514125824,
      "learning_rate": 0.00047215211928963426,
      "loss": 1.7111,
      "step": 27543
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40628376603126526,
      "learning_rate": 0.0004721435592450649,
      "loss": 1.6951,
      "step": 27544
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3996585011482239,
      "learning_rate": 0.0004721349989915387,
      "loss": 1.6293,
      "step": 27545
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41276100277900696,
      "learning_rate": 0.0004721264385290659,
      "loss": 1.671,
      "step": 27546
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3940097689628601,
      "learning_rate": 0.000472117877857657,
      "loss": 1.6967,
      "step": 27547
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39630937576293945,
      "learning_rate": 0.0004721093169773224,
      "loss": 1.6744,
      "step": 27548
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40334129333496094,
      "learning_rate": 0.00047210075588807233,
      "loss": 1.6196,
      "step": 27549
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4200698435306549,
      "learning_rate": 0.0004720921945899174,
      "loss": 1.6092,
      "step": 27550
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4020613133907318,
      "learning_rate": 0.0004720836330828678,
      "loss": 1.6649,
      "step": 27551
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3965016007423401,
      "learning_rate": 0.00047207507136693414,
      "loss": 1.7016,
      "step": 27552
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42585185170173645,
      "learning_rate": 0.00047206650944212666,
      "loss": 1.6591,
      "step": 27553
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38894280791282654,
      "learning_rate": 0.0004720579473084558,
      "loss": 1.6277,
      "step": 27554
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4114902913570404,
      "learning_rate": 0.0004720493849659319,
      "loss": 1.6046,
      "step": 27555
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3951314389705658,
      "learning_rate": 0.00047204082241456545,
      "loss": 1.6714,
      "step": 27556
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4087058901786804,
      "learning_rate": 0.0004720322596543668,
      "loss": 1.6737,
      "step": 27557
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4036516547203064,
      "learning_rate": 0.00047202369668534626,
      "loss": 1.6934,
      "step": 27558
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4392034113407135,
      "learning_rate": 0.00047201513350751434,
      "loss": 1.7143,
      "step": 27559
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3912467658519745,
      "learning_rate": 0.0004720065701208814,
      "loss": 1.5721,
      "step": 27560
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4045265018939972,
      "learning_rate": 0.0004719980065254578,
      "loss": 1.7023,
      "step": 27561
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40617048740386963,
      "learning_rate": 0.000471989442721254,
      "loss": 1.583,
      "step": 27562
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39012834429740906,
      "learning_rate": 0.00047198087870828034,
      "loss": 1.6562,
      "step": 27563
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.401963472366333,
      "learning_rate": 0.00047197231448654724,
      "loss": 1.6862,
      "step": 27564
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39395418763160706,
      "learning_rate": 0.0004719637500560651,
      "loss": 1.6668,
      "step": 27565
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38831979036331177,
      "learning_rate": 0.00047195518541684424,
      "loss": 1.6162,
      "step": 27566
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40187719464302063,
      "learning_rate": 0.0004719466205688952,
      "loss": 1.6965,
      "step": 27567
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39263755083084106,
      "learning_rate": 0.0004719380555122282,
      "loss": 1.5977,
      "step": 27568
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4226996600627899,
      "learning_rate": 0.0004719294902468538,
      "loss": 1.6583,
      "step": 27569
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4044000804424286,
      "learning_rate": 0.0004719209247727824,
      "loss": 1.7123,
      "step": 27570
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39182376861572266,
      "learning_rate": 0.00047191235909002427,
      "loss": 1.7292,
      "step": 27571
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3907849192619324,
      "learning_rate": 0.00047190379319858984,
      "loss": 1.6458,
      "step": 27572
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.420796662569046,
      "learning_rate": 0.00047189522709848954,
      "loss": 1.771,
      "step": 27573
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4230630397796631,
      "learning_rate": 0.0004718866607897337,
      "loss": 1.6631,
      "step": 27574
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4001538157463074,
      "learning_rate": 0.00047187809427233295,
      "loss": 1.7254,
      "step": 27575
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3838583528995514,
      "learning_rate": 0.0004718695275462973,
      "loss": 1.6779,
      "step": 27576
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4013664722442627,
      "learning_rate": 0.0004718609606116376,
      "loss": 1.681,
      "step": 27577
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4151611328125,
      "learning_rate": 0.00047185239346836383,
      "loss": 1.6474,
      "step": 27578
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4103271961212158,
      "learning_rate": 0.00047184382611648664,
      "loss": 1.628,
      "step": 27579
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3959704041481018,
      "learning_rate": 0.0004718352585560164,
      "loss": 1.6863,
      "step": 27580
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39991408586502075,
      "learning_rate": 0.0004718266907869635,
      "loss": 1.6583,
      "step": 27581
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40286603569984436,
      "learning_rate": 0.00047181812280933826,
      "loss": 1.6982,
      "step": 27582
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3893754184246063,
      "learning_rate": 0.00047180955462315107,
      "loss": 1.6335,
      "step": 27583
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4193914532661438,
      "learning_rate": 0.0004718009862284125,
      "loss": 1.7011,
      "step": 27584
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39611318707466125,
      "learning_rate": 0.00047179241762513284,
      "loss": 1.6917,
      "step": 27585
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41114065051078796,
      "learning_rate": 0.0004717838488133224,
      "loss": 1.6856,
      "step": 27586
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4001484513282776,
      "learning_rate": 0.00047177527979299174,
      "loss": 1.6351,
      "step": 27587
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3976134955883026,
      "learning_rate": 0.00047176671056415123,
      "loss": 1.6801,
      "step": 27588
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40388983488082886,
      "learning_rate": 0.00047175814112681127,
      "loss": 1.6525,
      "step": 27589
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41233760118484497,
      "learning_rate": 0.00047174957148098215,
      "loss": 1.5943,
      "step": 27590
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4218754172325134,
      "learning_rate": 0.00047174100162667435,
      "loss": 1.711,
      "step": 27591
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40154170989990234,
      "learning_rate": 0.0004717324315638984,
      "loss": 1.6869,
      "step": 27592
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39334654808044434,
      "learning_rate": 0.00047172386129266453,
      "loss": 1.6684,
      "step": 27593
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3944147229194641,
      "learning_rate": 0.0004717152908129831,
      "loss": 1.6325,
      "step": 27594
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3967946469783783,
      "learning_rate": 0.0004717067201248647,
      "loss": 1.6393,
      "step": 27595
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4139673709869385,
      "learning_rate": 0.00047169814922831964,
      "loss": 1.7119,
      "step": 27596
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41991931200027466,
      "learning_rate": 0.0004716895781233583,
      "loss": 1.6832,
      "step": 27597
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39597591757774353,
      "learning_rate": 0.0004716810068099911,
      "loss": 1.6108,
      "step": 27598
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3913649618625641,
      "learning_rate": 0.00047167243528822844,
      "loss": 1.6222,
      "step": 27599
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4091983735561371,
      "learning_rate": 0.00047166386355808077,
      "loss": 1.7146,
      "step": 27600
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40927430987358093,
      "learning_rate": 0.00047165529161955844,
      "loss": 1.7035,
      "step": 27601
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4131416380405426,
      "learning_rate": 0.0004716467194726719,
      "loss": 1.6722,
      "step": 27602
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4193667769432068,
      "learning_rate": 0.00047163814711743155,
      "loss": 1.6859,
      "step": 27603
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42297008633613586,
      "learning_rate": 0.00047162957455384774,
      "loss": 1.6566,
      "step": 27604
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4279950261116028,
      "learning_rate": 0.00047162100178193097,
      "loss": 1.6786,
      "step": 27605
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4422587454319,
      "learning_rate": 0.0004716124288016915,
      "loss": 1.6712,
      "step": 27606
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.43245092034339905,
      "learning_rate": 0.0004716038556131399,
      "loss": 1.6719,
      "step": 27607
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4059407413005829,
      "learning_rate": 0.0004715952822162864,
      "loss": 1.6648,
      "step": 27608
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39273086190223694,
      "learning_rate": 0.00047158670861114163,
      "loss": 1.6363,
      "step": 27609
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.44046518206596375,
      "learning_rate": 0.0004715781347977159,
      "loss": 1.7132,
      "step": 27610
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4198148548603058,
      "learning_rate": 0.0004715695607760195,
      "loss": 1.6086,
      "step": 27611
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4045915901660919,
      "learning_rate": 0.00047156098654606304,
      "loss": 1.68,
      "step": 27612
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38486209511756897,
      "learning_rate": 0.0004715524121078567,
      "loss": 1.6268,
      "step": 27613
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39484384655952454,
      "learning_rate": 0.0004715438374614111,
      "loss": 1.5604,
      "step": 27614
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4018358588218689,
      "learning_rate": 0.00047153526260673646,
      "loss": 1.6686,
      "step": 27615
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.45414432883262634,
      "learning_rate": 0.00047152668754384336,
      "loss": 1.7392,
      "step": 27616
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40483179688453674,
      "learning_rate": 0.00047151811227274214,
      "loss": 1.6835,
      "step": 27617
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3963816165924072,
      "learning_rate": 0.0004715095367934432,
      "loss": 1.7518,
      "step": 27618
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4188176095485687,
      "learning_rate": 0.00047150096110595694,
      "loss": 1.6586,
      "step": 27619
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3966354429721832,
      "learning_rate": 0.00047149238521029374,
      "loss": 1.6545,
      "step": 27620
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41372284293174744,
      "learning_rate": 0.0004714838091064641,
      "loss": 1.6553,
      "step": 27621
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4032631814479828,
      "learning_rate": 0.00047147523279447836,
      "loss": 1.6652,
      "step": 27622
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39471620321273804,
      "learning_rate": 0.0004714666562743469,
      "loss": 1.6884,
      "step": 27623
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4148615598678589,
      "learning_rate": 0.0004714580795460803,
      "loss": 1.7059,
      "step": 27624
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4249846935272217,
      "learning_rate": 0.00047144950260968887,
      "loss": 1.7178,
      "step": 27625
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3936949372291565,
      "learning_rate": 0.0004714409254651829,
      "loss": 1.6975,
      "step": 27626
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4118219017982483,
      "learning_rate": 0.000471432348112573,
      "loss": 1.73,
      "step": 27627
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4183623492717743,
      "learning_rate": 0.0004714237705518694,
      "loss": 1.7192,
      "step": 27628
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40642470121383667,
      "learning_rate": 0.00047141519278308267,
      "loss": 1.6542,
      "step": 27629
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38832297921180725,
      "learning_rate": 0.00047140661480622303,
      "loss": 1.6605,
      "step": 27630
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4026715159416199,
      "learning_rate": 0.0004713980366213011,
      "loss": 1.7639,
      "step": 27631
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4118015468120575,
      "learning_rate": 0.0004713894582283272,
      "loss": 1.6169,
      "step": 27632
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41542840003967285,
      "learning_rate": 0.0004713808796273118,
      "loss": 1.6687,
      "step": 27633
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41661179065704346,
      "learning_rate": 0.00047137230081826517,
      "loss": 1.7721,
      "step": 27634
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38303902745246887,
      "learning_rate": 0.0004713637218011979,
      "loss": 1.6958,
      "step": 27635
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41855207085609436,
      "learning_rate": 0.00047135514257612036,
      "loss": 1.6639,
      "step": 27636
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39929676055908203,
      "learning_rate": 0.00047134656314304287,
      "loss": 1.6629,
      "step": 27637
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38441845774650574,
      "learning_rate": 0.0004713379835019758,
      "loss": 1.6208,
      "step": 27638
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4009670317173004,
      "learning_rate": 0.0004713294036529298,
      "loss": 1.6837,
      "step": 27639
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4229128956794739,
      "learning_rate": 0.00047132082359591505,
      "loss": 1.6627,
      "step": 27640
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39624476432800293,
      "learning_rate": 0.00047131224333094214,
      "loss": 1.657,
      "step": 27641
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38789892196655273,
      "learning_rate": 0.0004713036628580214,
      "loss": 1.6431,
      "step": 27642
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3953689634799957,
      "learning_rate": 0.0004712950821771632,
      "loss": 1.682,
      "step": 27643
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4050132930278778,
      "learning_rate": 0.00047128650128837806,
      "loss": 1.6933,
      "step": 27644
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4200567901134491,
      "learning_rate": 0.0004712779201916763,
      "loss": 1.7429,
      "step": 27645
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39779210090637207,
      "learning_rate": 0.0004712693388870685,
      "loss": 1.6566,
      "step": 27646
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38652801513671875,
      "learning_rate": 0.0004712607573745648,
      "loss": 1.6022,
      "step": 27647
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41531744599342346,
      "learning_rate": 0.00047125217565417585,
      "loss": 1.6345,
      "step": 27648
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.391929566860199,
      "learning_rate": 0.000471243593725912,
      "loss": 1.6355,
      "step": 27649
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.799314558506012,
      "learning_rate": 0.00047123501158978363,
      "loss": 1.6523,
      "step": 27650
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4157405197620392,
      "learning_rate": 0.0004712264292458012,
      "loss": 1.6302,
      "step": 27651
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4199070632457733,
      "learning_rate": 0.0004712178466939752,
      "loss": 1.6541,
      "step": 27652
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4059288203716278,
      "learning_rate": 0.0004712092639343158,
      "loss": 1.5861,
      "step": 27653
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4067136347293854,
      "learning_rate": 0.00047120068096683366,
      "loss": 1.7138,
      "step": 27654
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3977392017841339,
      "learning_rate": 0.0004711920977915391,
      "loss": 1.6542,
      "step": 27655
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40895867347717285,
      "learning_rate": 0.00047118351440844256,
      "loss": 1.6243,
      "step": 27656
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40264108777046204,
      "learning_rate": 0.0004711749308175545,
      "loss": 1.6198,
      "step": 27657
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40366506576538086,
      "learning_rate": 0.0004711663470188853,
      "loss": 1.6387,
      "step": 27658
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40954717993736267,
      "learning_rate": 0.00047115776301244537,
      "loss": 1.6685,
      "step": 27659
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3983941674232483,
      "learning_rate": 0.000471149178798245,
      "loss": 1.7112,
      "step": 27660
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3969164192676544,
      "learning_rate": 0.00047114059437629486,
      "loss": 1.6158,
      "step": 27661
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.398639053106308,
      "learning_rate": 0.0004711320097466053,
      "loss": 1.6195,
      "step": 27662
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4106590151786804,
      "learning_rate": 0.00047112342490918655,
      "loss": 1.681,
      "step": 27663
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40277302265167236,
      "learning_rate": 0.00047111483986404936,
      "loss": 1.6995,
      "step": 27664
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39580437541007996,
      "learning_rate": 0.0004711062546112038,
      "loss": 1.6463,
      "step": 27665
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40097203850746155,
      "learning_rate": 0.0004710976691506606,
      "loss": 1.6284,
      "step": 27666
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4112224578857422,
      "learning_rate": 0.00047108908348243,
      "loss": 1.681,
      "step": 27667
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4054926633834839,
      "learning_rate": 0.00047108049760652236,
      "loss": 1.6742,
      "step": 27668
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39909079670906067,
      "learning_rate": 0.0004710719115229483,
      "loss": 1.7071,
      "step": 27669
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3922768235206604,
      "learning_rate": 0.0004710633252317181,
      "loss": 1.5838,
      "step": 27670
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4207121431827545,
      "learning_rate": 0.00047105473873284225,
      "loss": 1.6987,
      "step": 27671
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38942867517471313,
      "learning_rate": 0.0004710461520263312,
      "loss": 1.7262,
      "step": 27672
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39314818382263184,
      "learning_rate": 0.0004710375651121952,
      "loss": 1.6636,
      "step": 27673
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4015733003616333,
      "learning_rate": 0.00047102897799044494,
      "loss": 1.6183,
      "step": 27674
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4040670394897461,
      "learning_rate": 0.0004710203906610906,
      "loss": 1.6718,
      "step": 27675
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39726194739341736,
      "learning_rate": 0.00047101180312414273,
      "loss": 1.6692,
      "step": 27676
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38470837473869324,
      "learning_rate": 0.0004710032153796117,
      "loss": 1.6659,
      "step": 27677
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38333335518836975,
      "learning_rate": 0.000470994627427508,
      "loss": 1.5915,
      "step": 27678
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38655203580856323,
      "learning_rate": 0.000470986039267842,
      "loss": 1.619,
      "step": 27679
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4052064120769501,
      "learning_rate": 0.0004709774509006242,
      "loss": 1.6885,
      "step": 27680
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4076613783836365,
      "learning_rate": 0.00047096886232586495,
      "loss": 1.6426,
      "step": 27681
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39964359998703003,
      "learning_rate": 0.00047096027354357465,
      "loss": 1.7103,
      "step": 27682
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3879978656768799,
      "learning_rate": 0.0004709516845537637,
      "loss": 1.6608,
      "step": 27683
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4032912254333496,
      "learning_rate": 0.0004709430953564427,
      "loss": 1.7303,
      "step": 27684
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3971104621887207,
      "learning_rate": 0.00047093450595162196,
      "loss": 1.6204,
      "step": 27685
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4094115197658539,
      "learning_rate": 0.0004709259163393119,
      "loss": 1.6788,
      "step": 27686
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39704763889312744,
      "learning_rate": 0.000470917326519523,
      "loss": 1.659,
      "step": 27687
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41322895884513855,
      "learning_rate": 0.00047090873649226553,
      "loss": 1.6981,
      "step": 27688
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.396379679441452,
      "learning_rate": 0.0004709001462575502,
      "loss": 1.7359,
      "step": 27689
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3956671357154846,
      "learning_rate": 0.0004708915558153872,
      "loss": 1.7234,
      "step": 27690
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40106895565986633,
      "learning_rate": 0.00047088296516578697,
      "loss": 1.7014,
      "step": 27691
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40445175766944885,
      "learning_rate": 0.0004708743743087601,
      "loss": 1.7373,
      "step": 27692
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40405043959617615,
      "learning_rate": 0.00047086578324431684,
      "loss": 1.599,
      "step": 27693
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39779043197631836,
      "learning_rate": 0.0004708571919724677,
      "loss": 1.6923,
      "step": 27694
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3966169059276581,
      "learning_rate": 0.00047084860049322313,
      "loss": 1.7142,
      "step": 27695
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38609781861305237,
      "learning_rate": 0.0004708400088065935,
      "loss": 1.719,
      "step": 27696
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4050878882408142,
      "learning_rate": 0.00047083141691258936,
      "loss": 1.6099,
      "step": 27697
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3999600112438202,
      "learning_rate": 0.000470822824811221,
      "loss": 1.6825,
      "step": 27698
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3999173641204834,
      "learning_rate": 0.00047081423250249887,
      "loss": 1.6398,
      "step": 27699
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40777039527893066,
      "learning_rate": 0.0004708056399864334,
      "loss": 1.7053,
      "step": 27700
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39039355516433716,
      "learning_rate": 0.00047079704726303513,
      "loss": 1.6312,
      "step": 27701
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40867364406585693,
      "learning_rate": 0.0004707884543323144,
      "loss": 1.6638,
      "step": 27702
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4089038074016571,
      "learning_rate": 0.00047077986119428163,
      "loss": 1.7133,
      "step": 27703
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4820549190044403,
      "learning_rate": 0.0004707712678489473,
      "loss": 1.658,
      "step": 27704
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4202616512775421,
      "learning_rate": 0.0004707626742963218,
      "loss": 1.5778,
      "step": 27705
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38358595967292786,
      "learning_rate": 0.0004707540805364156,
      "loss": 1.6138,
      "step": 27706
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4019306004047394,
      "learning_rate": 0.000470745486569239,
      "loss": 1.7379,
      "step": 27707
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41287732124328613,
      "learning_rate": 0.0004707368923948026,
      "loss": 1.7373,
      "step": 27708
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40193963050842285,
      "learning_rate": 0.0004707282980131168,
      "loss": 1.6383,
      "step": 27709
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39615893363952637,
      "learning_rate": 0.0004707197034241919,
      "loss": 1.6713,
      "step": 27710
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39477774500846863,
      "learning_rate": 0.0004707111086280386,
      "loss": 1.6737,
      "step": 27711
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4671436548233032,
      "learning_rate": 0.00047070251362466703,
      "loss": 1.7402,
      "step": 27712
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.46163830161094666,
      "learning_rate": 0.00047069391841408784,
      "loss": 1.7027,
      "step": 27713
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3873441815376282,
      "learning_rate": 0.0004706853229963113,
      "loss": 1.6806,
      "step": 27714
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40772444009780884,
      "learning_rate": 0.000470676727371348,
      "loss": 1.6532,
      "step": 27715
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40723204612731934,
      "learning_rate": 0.00047066813153920833,
      "loss": 1.5761,
      "step": 27716
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4093455374240875,
      "learning_rate": 0.0004706595354999026,
      "loss": 1.6583,
      "step": 27717
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40862753987312317,
      "learning_rate": 0.0004706509392534414,
      "loss": 1.6439,
      "step": 27718
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4003065526485443,
      "learning_rate": 0.0004706423427998351,
      "loss": 1.6717,
      "step": 27719
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.421010285615921,
      "learning_rate": 0.00047063374613909406,
      "loss": 1.7174,
      "step": 27720
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4071781635284424,
      "learning_rate": 0.0004706251492712289,
      "loss": 1.6218,
      "step": 27721
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4060787558555603,
      "learning_rate": 0.00047061655219624997,
      "loss": 1.6266,
      "step": 27722
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39672693610191345,
      "learning_rate": 0.00047060795491416754,
      "loss": 1.643,
      "step": 27723
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38804197311401367,
      "learning_rate": 0.00047059935742499237,
      "loss": 1.6048,
      "step": 27724
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3944801390171051,
      "learning_rate": 0.00047059075972873446,
      "loss": 1.6606,
      "step": 27725
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4000857472419739,
      "learning_rate": 0.0004705821618254048,
      "loss": 1.7036,
      "step": 27726
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3888675570487976,
      "learning_rate": 0.00047057356371501337,
      "loss": 1.6742,
      "step": 27727
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40702781081199646,
      "learning_rate": 0.0004705649653975708,
      "loss": 1.6343,
      "step": 27728
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42107895016670227,
      "learning_rate": 0.0004705563668730874,
      "loss": 1.657,
      "step": 27729
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4153475761413574,
      "learning_rate": 0.0004705477681415738,
      "loss": 1.7045,
      "step": 27730
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41051292419433594,
      "learning_rate": 0.0004705391692030403,
      "loss": 1.7079,
      "step": 27731
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3861429989337921,
      "learning_rate": 0.00047053057005749745,
      "loss": 1.7366,
      "step": 27732
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40185898542404175,
      "learning_rate": 0.0004705219707049556,
      "loss": 1.6374,
      "step": 27733
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39760076999664307,
      "learning_rate": 0.0004705133711454251,
      "loss": 1.6367,
      "step": 27734
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4228304624557495,
      "learning_rate": 0.0004705047713789166,
      "loss": 1.7298,
      "step": 27735
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.398128867149353,
      "learning_rate": 0.00047049617140544045,
      "loss": 1.6245,
      "step": 27736
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3905448317527771,
      "learning_rate": 0.0004704875712250069,
      "loss": 1.6411,
      "step": 27737
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4050324559211731,
      "learning_rate": 0.00047047897083762674,
      "loss": 1.6673,
      "step": 27738
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4106525182723999,
      "learning_rate": 0.0004704703702433102,
      "loss": 1.7,
      "step": 27739
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39073798060417175,
      "learning_rate": 0.00047046176944206766,
      "loss": 1.5805,
      "step": 27740
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4081243872642517,
      "learning_rate": 0.0004704531684339097,
      "loss": 1.7145,
      "step": 27741
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39819344878196716,
      "learning_rate": 0.0004704445672188467,
      "loss": 1.6574,
      "step": 27742
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4156009256839752,
      "learning_rate": 0.0004704359657968891,
      "loss": 1.6715,
      "step": 27743
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40169331431388855,
      "learning_rate": 0.0004704273641680473,
      "loss": 1.6848,
      "step": 27744
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39424192905426025,
      "learning_rate": 0.00047041876233233187,
      "loss": 1.6687,
      "step": 27745
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40410467982292175,
      "learning_rate": 0.0004704101602897532,
      "loss": 1.7184,
      "step": 27746
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40692055225372314,
      "learning_rate": 0.0004704015580403216,
      "loss": 1.6499,
      "step": 27747
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.388297975063324,
      "learning_rate": 0.0004703929555840477,
      "loss": 1.627,
      "step": 27748
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3923965096473694,
      "learning_rate": 0.00047038435292094183,
      "loss": 1.7207,
      "step": 27749
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39135605096817017,
      "learning_rate": 0.00047037575005101444,
      "loss": 1.6242,
      "step": 27750
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3947913944721222,
      "learning_rate": 0.00047036714697427603,
      "loss": 1.7151,
      "step": 27751
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39870530366897583,
      "learning_rate": 0.000470358543690737,
      "loss": 1.6991,
      "step": 27752
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4009248912334442,
      "learning_rate": 0.0004703499402004078,
      "loss": 1.6541,
      "step": 27753
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4038781225681305,
      "learning_rate": 0.0004703413365032989,
      "loss": 1.6682,
      "step": 27754
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4001132845878601,
      "learning_rate": 0.00047033273259942064,
      "loss": 1.6559,
      "step": 27755
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4067029356956482,
      "learning_rate": 0.0004703241284887836,
      "loss": 1.6847,
      "step": 27756
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3998865485191345,
      "learning_rate": 0.0004703155241713981,
      "loss": 1.6735,
      "step": 27757
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39754194021224976,
      "learning_rate": 0.00047030691964727476,
      "loss": 1.678,
      "step": 27758
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40288129448890686,
      "learning_rate": 0.00047029831491642385,
      "loss": 1.6085,
      "step": 27759
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38600262999534607,
      "learning_rate": 0.0004702897099788558,
      "loss": 1.6088,
      "step": 27760
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39871159195899963,
      "learning_rate": 0.0004702811048345813,
      "loss": 1.6609,
      "step": 27761
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39086678624153137,
      "learning_rate": 0.00047027249948361044,
      "loss": 1.6021,
      "step": 27762
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3946642279624939,
      "learning_rate": 0.00047026389392595394,
      "loss": 1.7368,
      "step": 27763
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41275209188461304,
      "learning_rate": 0.00047025528816162227,
      "loss": 1.6779,
      "step": 27764
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4169384241104126,
      "learning_rate": 0.0004702466821906256,
      "loss": 1.6913,
      "step": 27765
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4029584527015686,
      "learning_rate": 0.0004702380760129746,
      "loss": 1.5921,
      "step": 27766
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4148370325565338,
      "learning_rate": 0.00047022946962867965,
      "loss": 1.6523,
      "step": 27767
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42680591344833374,
      "learning_rate": 0.00047022086303775127,
      "loss": 1.7038,
      "step": 27768
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4354483187198639,
      "learning_rate": 0.0004702122562401998,
      "loss": 1.6202,
      "step": 27769
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3959624767303467,
      "learning_rate": 0.0004702036492360357,
      "loss": 1.6242,
      "step": 27770
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3874874711036682,
      "learning_rate": 0.0004701950420252695,
      "loss": 1.6847,
      "step": 27771
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4055071175098419,
      "learning_rate": 0.00047018643460791155,
      "loss": 1.6809,
      "step": 27772
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42571115493774414,
      "learning_rate": 0.00047017782698397236,
      "loss": 1.6378,
      "step": 27773
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4024556279182434,
      "learning_rate": 0.00047016921915346235,
      "loss": 1.7232,
      "step": 27774
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4059164822101593,
      "learning_rate": 0.00047016061111639204,
      "loss": 1.6794,
      "step": 27775
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3967692255973816,
      "learning_rate": 0.0004701520028727718,
      "loss": 1.6817,
      "step": 27776
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39775216579437256,
      "learning_rate": 0.00047014339442261204,
      "loss": 1.625,
      "step": 27777
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39873260259628296,
      "learning_rate": 0.0004701347857659233,
      "loss": 1.6675,
      "step": 27778
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4250687062740326,
      "learning_rate": 0.00047012617690271596,
      "loss": 1.6451,
      "step": 27779
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4039738178253174,
      "learning_rate": 0.0004701175678330006,
      "loss": 1.648,
      "step": 27780
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40423423051834106,
      "learning_rate": 0.00047010895855678755,
      "loss": 1.5929,
      "step": 27781
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4037294089794159,
      "learning_rate": 0.0004701003490740872,
      "loss": 1.6522,
      "step": 27782
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4227249026298523,
      "learning_rate": 0.0004700917393849102,
      "loss": 1.6085,
      "step": 27783
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41269493103027344,
      "learning_rate": 0.00047008312948926696,
      "loss": 1.6824,
      "step": 27784
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4027515947818756,
      "learning_rate": 0.0004700745193871677,
      "loss": 1.684,
      "step": 27785
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.41506943106651306,
      "learning_rate": 0.00047006590907862307,
      "loss": 1.7035,
      "step": 27786
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39096641540527344,
      "learning_rate": 0.0004700572985636434,
      "loss": 1.6476,
      "step": 27787
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39726221561431885,
      "learning_rate": 0.00047004868784223937,
      "loss": 1.6329,
      "step": 27788
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.39534109830856323,
      "learning_rate": 0.00047004007691442125,
      "loss": 1.6403,
      "step": 27789
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3845391869544983,
      "learning_rate": 0.00047003146578019955,
      "loss": 1.6247,
      "step": 27790
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4067601263523102,
      "learning_rate": 0.00047002285443958474,
      "loss": 1.7021,
      "step": 27791
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4028628170490265,
      "learning_rate": 0.0004700142428925871,
      "loss": 1.6691,
      "step": 27792
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4111340641975403,
      "learning_rate": 0.0004700056311392173,
      "loss": 1.7054,
      "step": 27793
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40310990810394287,
      "learning_rate": 0.00046999701917948574,
      "loss": 1.6603,
      "step": 27794
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.394729346036911,
      "learning_rate": 0.0004699884070134028,
      "loss": 1.6576,
      "step": 27795
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3899455964565277,
      "learning_rate": 0.000469979794640979,
      "loss": 1.5592,
      "step": 27796
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3942406475543976,
      "learning_rate": 0.00046997118206222474,
      "loss": 1.7495,
      "step": 27797
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4029915928840637,
      "learning_rate": 0.0004699625692771505,
      "loss": 1.6605,
      "step": 27798
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40638697147369385,
      "learning_rate": 0.00046995395628576683,
      "loss": 1.657,
      "step": 27799
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4069751501083374,
      "learning_rate": 0.000469945343088084,
      "loss": 1.612,
      "step": 27800
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3852565884590149,
      "learning_rate": 0.0004699367296841127,
      "loss": 1.6164,
      "step": 27801
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4033244848251343,
      "learning_rate": 0.0004699281160738631,
      "loss": 1.6675,
      "step": 27802
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3918274939060211,
      "learning_rate": 0.00046991950225734586,
      "loss": 1.7151,
      "step": 27803
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3979015052318573,
      "learning_rate": 0.0004699108882345714,
      "loss": 1.6988,
      "step": 27804
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4208278954029083,
      "learning_rate": 0.00046990227400555014,
      "loss": 1.6033,
      "step": 27805
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3940959870815277,
      "learning_rate": 0.00046989365957029257,
      "loss": 1.6235,
      "step": 27806
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41894933581352234,
      "learning_rate": 0.0004698850449288091,
      "loss": 1.7637,
      "step": 27807
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4148954749107361,
      "learning_rate": 0.0004698764300811102,
      "loss": 1.7524,
      "step": 27808
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39542102813720703,
      "learning_rate": 0.0004698678150272065,
      "loss": 1.5683,
      "step": 27809
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39889606833457947,
      "learning_rate": 0.00046985919976710806,
      "loss": 1.7185,
      "step": 27810
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3848738968372345,
      "learning_rate": 0.00046985058430082567,
      "loss": 1.6402,
      "step": 27811
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4014938175678253,
      "learning_rate": 0.0004698419686283698,
      "loss": 1.6918,
      "step": 27812
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39688459038734436,
      "learning_rate": 0.00046983335274975075,
      "loss": 1.6939,
      "step": 27813
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3990434408187866,
      "learning_rate": 0.00046982473666497894,
      "loss": 1.7289,
      "step": 27814
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40148067474365234,
      "learning_rate": 0.000469816120374065,
      "loss": 1.5789,
      "step": 27815
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4097369313240051,
      "learning_rate": 0.0004698075038770194,
      "loss": 1.6912,
      "step": 27816
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39422163367271423,
      "learning_rate": 0.00046979888717385234,
      "loss": 1.6851,
      "step": 27817
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4005385637283325,
      "learning_rate": 0.00046979027026457454,
      "loss": 1.7238,
      "step": 27818
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4076612591743469,
      "learning_rate": 0.00046978165314919636,
      "loss": 1.6272,
      "step": 27819
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3920271098613739,
      "learning_rate": 0.00046977303582772825,
      "loss": 1.6066,
      "step": 27820
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.403717577457428,
      "learning_rate": 0.0004697644183001807,
      "loss": 1.6663,
      "step": 27821
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39345109462738037,
      "learning_rate": 0.0004697558005665642,
      "loss": 1.5959,
      "step": 27822
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3927386999130249,
      "learning_rate": 0.00046974718262688916,
      "loss": 1.6245,
      "step": 27823
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39223870635032654,
      "learning_rate": 0.00046973856448116605,
      "loss": 1.6352,
      "step": 27824
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3878156542778015,
      "learning_rate": 0.0004697299461294053,
      "loss": 1.6872,
      "step": 27825
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40683627128601074,
      "learning_rate": 0.00046972132757161733,
      "loss": 1.5933,
      "step": 27826
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4086056649684906,
      "learning_rate": 0.0004697127088078128,
      "loss": 1.633,
      "step": 27827
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39701247215270996,
      "learning_rate": 0.00046970408983800204,
      "loss": 1.7029,
      "step": 27828
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3890814483165741,
      "learning_rate": 0.00046969547066219553,
      "loss": 1.6175,
      "step": 27829
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39564451575279236,
      "learning_rate": 0.0004696868512804036,
      "loss": 1.6843,
      "step": 27830
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4058645963668823,
      "learning_rate": 0.000469678231692637,
      "loss": 1.6737,
      "step": 27831
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4177229404449463,
      "learning_rate": 0.00046966961189890587,
      "loss": 1.6922,
      "step": 27832
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.48933085799217224,
      "learning_rate": 0.0004696609918992209,
      "loss": 1.7352,
      "step": 27833
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3999730348587036,
      "learning_rate": 0.0004696523716935925,
      "loss": 1.6762,
      "step": 27834
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41717997193336487,
      "learning_rate": 0.00046964375128203106,
      "loss": 1.6243,
      "step": 27835
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41731032729148865,
      "learning_rate": 0.0004696351306645472,
      "loss": 1.7148,
      "step": 27836
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5455549955368042,
      "learning_rate": 0.0004696265098411512,
      "loss": 1.5983,
      "step": 27837
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40718603134155273,
      "learning_rate": 0.0004696178888118536,
      "loss": 1.6758,
      "step": 27838
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3952595889568329,
      "learning_rate": 0.00046960926757666494,
      "loss": 1.6288,
      "step": 27839
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40021705627441406,
      "learning_rate": 0.00046960064613559563,
      "loss": 1.6297,
      "step": 27840
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38247618079185486,
      "learning_rate": 0.00046959202448865607,
      "loss": 1.653,
      "step": 27841
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40485960245132446,
      "learning_rate": 0.00046958340263585676,
      "loss": 1.6914,
      "step": 27842
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39429107308387756,
      "learning_rate": 0.00046957478057720823,
      "loss": 1.689,
      "step": 27843
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39346784353256226,
      "learning_rate": 0.000469566158312721,
      "loss": 1.647,
      "step": 27844
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40413305163383484,
      "learning_rate": 0.0004695575358424053,
      "loss": 1.7122,
      "step": 27845
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39737507700920105,
      "learning_rate": 0.0004695489131662718,
      "loss": 1.7042,
      "step": 27846
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3920038640499115,
      "learning_rate": 0.00046954029028433076,
      "loss": 1.7094,
      "step": 27847
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4082023501396179,
      "learning_rate": 0.000469531667196593,
      "loss": 1.666,
      "step": 27848
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8601788282394409,
      "learning_rate": 0.0004695230439030687,
      "loss": 1.696,
      "step": 27849
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4134838283061981,
      "learning_rate": 0.00046951442040376836,
      "loss": 1.6946,
      "step": 27850
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41247954964637756,
      "learning_rate": 0.00046950579669870245,
      "loss": 1.6526,
      "step": 27851
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.37987247109413147,
      "learning_rate": 0.0004694971727878816,
      "loss": 1.607,
      "step": 27852
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38498997688293457,
      "learning_rate": 0.0004694885486713161,
      "loss": 1.6852,
      "step": 27853
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41435593366622925,
      "learning_rate": 0.00046947992434901646,
      "loss": 1.6245,
      "step": 27854
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3996058404445648,
      "learning_rate": 0.0004694712998209931,
      "loss": 1.6203,
      "step": 27855
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41277575492858887,
      "learning_rate": 0.00046946267508725674,
      "loss": 1.7411,
      "step": 27856
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39778563380241394,
      "learning_rate": 0.0004694540501478175,
      "loss": 1.6618,
      "step": 27857
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40563300251960754,
      "learning_rate": 0.00046944542500268607,
      "loss": 1.7119,
      "step": 27858
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39645302295684814,
      "learning_rate": 0.0004694367996518728,
      "loss": 1.7704,
      "step": 27859
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3967331051826477,
      "learning_rate": 0.0004694281740953883,
      "loss": 1.7061,
      "step": 27860
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4131084382534027,
      "learning_rate": 0.00046941954833324296,
      "loss": 1.6855,
      "step": 27861
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42555123567581177,
      "learning_rate": 0.0004694109223654472,
      "loss": 1.6173,
      "step": 27862
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40695226192474365,
      "learning_rate": 0.00046940229619201157,
      "loss": 1.6138,
      "step": 27863
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4028708040714264,
      "learning_rate": 0.0004693936698129465,
      "loss": 1.6687,
      "step": 27864
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4106179177761078,
      "learning_rate": 0.0004693850432282625,
      "loss": 1.6682,
      "step": 27865
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41494107246398926,
      "learning_rate": 0.00046937641643797,
      "loss": 1.6345,
      "step": 27866
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4055436849594116,
      "learning_rate": 0.00046936778944207946,
      "loss": 1.5787,
      "step": 27867
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40246859192848206,
      "learning_rate": 0.00046935916224060146,
      "loss": 1.6265,
      "step": 27868
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41725608706474304,
      "learning_rate": 0.00046935053483354626,
      "loss": 1.7303,
      "step": 27869
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39132148027420044,
      "learning_rate": 0.00046934190722092454,
      "loss": 1.644,
      "step": 27870
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4002060890197754,
      "learning_rate": 0.0004693332794027467,
      "loss": 1.7045,
      "step": 27871
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40320104360580444,
      "learning_rate": 0.0004693246513790232,
      "loss": 1.7184,
      "step": 27872
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4014584422111511,
      "learning_rate": 0.00046931602314976455,
      "loss": 1.6101,
      "step": 27873
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40549546480178833,
      "learning_rate": 0.0004693073947149811,
      "loss": 1.6601,
      "step": 27874
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40846267342567444,
      "learning_rate": 0.0004692987660746835,
      "loss": 1.596,
      "step": 27875
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40156060457229614,
      "learning_rate": 0.00046929013722888215,
      "loss": 1.6667,
      "step": 27876
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3924505412578583,
      "learning_rate": 0.0004692815081775875,
      "loss": 1.5937,
      "step": 27877
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41575586795806885,
      "learning_rate": 0.00046927287892081006,
      "loss": 1.7014,
      "step": 27878
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4102943241596222,
      "learning_rate": 0.0004692642494585602,
      "loss": 1.7142,
      "step": 27879
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3981993794441223,
      "learning_rate": 0.0004692556197908486,
      "loss": 1.6446,
      "step": 27880
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.401075541973114,
      "learning_rate": 0.00046924698991768557,
      "loss": 1.6218,
      "step": 27881
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3909655511379242,
      "learning_rate": 0.00046923835983908157,
      "loss": 1.6159,
      "step": 27882
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4213641881942749,
      "learning_rate": 0.0004692297295550472,
      "loss": 1.6937,
      "step": 27883
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39247456192970276,
      "learning_rate": 0.0004692210990655929,
      "loss": 1.6985,
      "step": 27884
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39429792761802673,
      "learning_rate": 0.0004692124683707291,
      "loss": 1.6676,
      "step": 27885
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3973061740398407,
      "learning_rate": 0.0004692038374704663,
      "loss": 1.6091,
      "step": 27886
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4200262129306793,
      "learning_rate": 0.00046919520636481494,
      "loss": 1.6268,
      "step": 27887
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3888605237007141,
      "learning_rate": 0.00046918657505378553,
      "loss": 1.6385,
      "step": 27888
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4380801320075989,
      "learning_rate": 0.0004691779435373885,
      "loss": 1.5976,
      "step": 27889
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3956005275249481,
      "learning_rate": 0.0004691693118156345,
      "loss": 1.5829,
      "step": 27890
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40979352593421936,
      "learning_rate": 0.00046916067988853386,
      "loss": 1.6817,
      "step": 27891
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.385517954826355,
      "learning_rate": 0.000469152047756097,
      "loss": 1.6587,
      "step": 27892
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3940478563308716,
      "learning_rate": 0.00046914341541833454,
      "loss": 1.6274,
      "step": 27893
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40153637528419495,
      "learning_rate": 0.0004691347828752568,
      "loss": 1.6203,
      "step": 27894
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4052959680557251,
      "learning_rate": 0.0004691261501268744,
      "loss": 1.689,
      "step": 27895
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39708736538887024,
      "learning_rate": 0.00046911751717319784,
      "loss": 1.6813,
      "step": 27896
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40202221274375916,
      "learning_rate": 0.00046910888401423744,
      "loss": 1.6739,
      "step": 27897
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42389217019081116,
      "learning_rate": 0.0004691002506500038,
      "loss": 1.709,
      "step": 27898
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3938351571559906,
      "learning_rate": 0.00046909161708050745,
      "loss": 1.5409,
      "step": 27899
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4197435975074768,
      "learning_rate": 0.0004690829833057587,
      "loss": 1.6675,
      "step": 27900
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4153319001197815,
      "learning_rate": 0.00046907434932576817,
      "loss": 1.7505,
      "step": 27901
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4052621126174927,
      "learning_rate": 0.0004690657151405463,
      "loss": 1.6602,
      "step": 27902
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39889079332351685,
      "learning_rate": 0.00046905708075010354,
      "loss": 1.6422,
      "step": 27903
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4044050872325897,
      "learning_rate": 0.00046904844615445037,
      "loss": 1.7208,
      "step": 27904
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3974907696247101,
      "learning_rate": 0.0004690398113535973,
      "loss": 1.6358,
      "step": 27905
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39143508672714233,
      "learning_rate": 0.00046903117634755485,
      "loss": 1.6344,
      "step": 27906
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3925968408584595,
      "learning_rate": 0.00046902254113633337,
      "loss": 1.683,
      "step": 27907
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4003138542175293,
      "learning_rate": 0.00046901390571994355,
      "loss": 1.7377,
      "step": 27908
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38992536067962646,
      "learning_rate": 0.0004690052700983956,
      "loss": 1.5873,
      "step": 27909
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3996258080005646,
      "learning_rate": 0.0004689966342717003,
      "loss": 1.7349,
      "step": 27910
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.37725603580474854,
      "learning_rate": 0.00046898799823986796,
      "loss": 1.6175,
      "step": 27911
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4155067503452301,
      "learning_rate": 0.000468979362002909,
      "loss": 1.6476,
      "step": 27912
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4049815535545349,
      "learning_rate": 0.000468970725560834,
      "loss": 1.7113,
      "step": 27913
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4022192060947418,
      "learning_rate": 0.0004689620889136535,
      "loss": 1.6744,
      "step": 27914
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38793495297431946,
      "learning_rate": 0.00046895345206137795,
      "loss": 1.6498,
      "step": 27915
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3994780480861664,
      "learning_rate": 0.0004689448150040178,
      "loss": 1.5931,
      "step": 27916
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39358213543891907,
      "learning_rate": 0.0004689361777415834,
      "loss": 1.6345,
      "step": 27917
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38846078515052795,
      "learning_rate": 0.0004689275402740855,
      "loss": 1.642,
      "step": 27918
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41454023122787476,
      "learning_rate": 0.00046891890260153445,
      "loss": 1.6895,
      "step": 27919
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4040542542934418,
      "learning_rate": 0.0004689102647239407,
      "loss": 1.6221,
      "step": 27920
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3962486684322357,
      "learning_rate": 0.0004689016266413149,
      "loss": 1.6477,
      "step": 27921
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4024847149848938,
      "learning_rate": 0.00046889298835366724,
      "loss": 1.7011,
      "step": 27922
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42018863558769226,
      "learning_rate": 0.0004688843498610084,
      "loss": 1.6482,
      "step": 27923
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39814868569374084,
      "learning_rate": 0.00046887571116334886,
      "loss": 1.6552,
      "step": 27924
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40655946731567383,
      "learning_rate": 0.00046886707226069914,
      "loss": 1.5974,
      "step": 27925
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4055165648460388,
      "learning_rate": 0.0004688584331530697,
      "loss": 1.7335,
      "step": 27926
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4055354595184326,
      "learning_rate": 0.0004688497938404709,
      "loss": 1.6077,
      "step": 27927
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.397102952003479,
      "learning_rate": 0.0004688411543229134,
      "loss": 1.6856,
      "step": 27928
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.398737370967865,
      "learning_rate": 0.00046883251460040756,
      "loss": 1.6572,
      "step": 27929
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3935989439487457,
      "learning_rate": 0.000468823874672964,
      "loss": 1.6969,
      "step": 27930
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4039982855319977,
      "learning_rate": 0.0004688152345405931,
      "loss": 1.7543,
      "step": 27931
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40408268570899963,
      "learning_rate": 0.00046880659420330537,
      "loss": 1.6627,
      "step": 27932
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40916937589645386,
      "learning_rate": 0.0004687979536611113,
      "loss": 1.6788,
      "step": 27933
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40351513028144836,
      "learning_rate": 0.00046878931291402135,
      "loss": 1.6848,
      "step": 27934
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39678412675857544,
      "learning_rate": 0.00046878067196204614,
      "loss": 1.679,
      "step": 27935
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3891568183898926,
      "learning_rate": 0.00046877203080519596,
      "loss": 1.6439,
      "step": 27936
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39784446358680725,
      "learning_rate": 0.0004687633894434815,
      "loss": 1.643,
      "step": 27937
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4125930070877075,
      "learning_rate": 0.00046875474787691306,
      "loss": 1.7082,
      "step": 27938
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4031231701374054,
      "learning_rate": 0.00046874610610550126,
      "loss": 1.7117,
      "step": 27939
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41375932097435,
      "learning_rate": 0.0004687374641292566,
      "loss": 1.677,
      "step": 27940
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3871198892593384,
      "learning_rate": 0.0004687288219481895,
      "loss": 1.6811,
      "step": 27941
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3965161442756653,
      "learning_rate": 0.0004687201795623104,
      "loss": 1.5819,
      "step": 27942
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38074538111686707,
      "learning_rate": 0.00046871153697162994,
      "loss": 1.654,
      "step": 27943
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40106070041656494,
      "learning_rate": 0.0004687028941761585,
      "loss": 1.6178,
      "step": 27944
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39391306042671204,
      "learning_rate": 0.0004686942511759066,
      "loss": 1.6811,
      "step": 27945
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4051206707954407,
      "learning_rate": 0.0004686856079708848,
      "loss": 1.7361,
      "step": 27946
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.383989155292511,
      "learning_rate": 0.0004686769645611034,
      "loss": 1.6743,
      "step": 27947
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3982822895050049,
      "learning_rate": 0.00046866832094657313,
      "loss": 1.6499,
      "step": 27948
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4057503938674927,
      "learning_rate": 0.0004686596771273043,
      "loss": 1.6803,
      "step": 27949
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39743301272392273,
      "learning_rate": 0.00046865103310330747,
      "loss": 1.7016,
      "step": 27950
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3872796297073364,
      "learning_rate": 0.0004686423888745932,
      "loss": 1.6661,
      "step": 27951
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3941803574562073,
      "learning_rate": 0.00046863374444117183,
      "loss": 1.6531,
      "step": 27952
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38688015937805176,
      "learning_rate": 0.000468625099803054,
      "loss": 1.6023,
      "step": 27953
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3985798954963684,
      "learning_rate": 0.0004686164549602502,
      "loss": 1.5886,
      "step": 27954
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4180760681629181,
      "learning_rate": 0.0004686078099127708,
      "loss": 1.7073,
      "step": 27955
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39405590295791626,
      "learning_rate": 0.0004685991646606264,
      "loss": 1.7099,
      "step": 27956
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4023280739784241,
      "learning_rate": 0.00046859051920382735,
      "loss": 1.6292,
      "step": 27957
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39953479170799255,
      "learning_rate": 0.00046858187354238435,
      "loss": 1.6401,
      "step": 27958
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38523271679878235,
      "learning_rate": 0.00046857322767630767,
      "loss": 1.6176,
      "step": 27959
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3936149775981903,
      "learning_rate": 0.00046856458160560806,
      "loss": 1.7292,
      "step": 27960
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40369030833244324,
      "learning_rate": 0.0004685559353302959,
      "loss": 1.6145,
      "step": 27961
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3891622722148895,
      "learning_rate": 0.0004685472888503816,
      "loss": 1.6356,
      "step": 27962
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40443456172943115,
      "learning_rate": 0.00046853864216587576,
      "loss": 1.5909,
      "step": 27963
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.414468914270401,
      "learning_rate": 0.00046852999527678885,
      "loss": 1.6771,
      "step": 27964
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39126721024513245,
      "learning_rate": 0.0004685213481831313,
      "loss": 1.7057,
      "step": 27965
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3986952304840088,
      "learning_rate": 0.0004685127008849137,
      "loss": 1.601,
      "step": 27966
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4116218388080597,
      "learning_rate": 0.00046850405338214653,
      "loss": 1.7168,
      "step": 27967
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39196306467056274,
      "learning_rate": 0.00046849540567484027,
      "loss": 1.6934,
      "step": 27968
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3974018394947052,
      "learning_rate": 0.0004684867577630054,
      "loss": 1.592,
      "step": 27969
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4249630570411682,
      "learning_rate": 0.00046847810964665247,
      "loss": 1.6772,
      "step": 27970
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4039197266101837,
      "learning_rate": 0.0004684694613257918,
      "loss": 1.667,
      "step": 27971
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4094206988811493,
      "learning_rate": 0.00046846081280043413,
      "loss": 1.621,
      "step": 27972
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41068315505981445,
      "learning_rate": 0.0004684521640705899,
      "loss": 1.7654,
      "step": 27973
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41198158264160156,
      "learning_rate": 0.00046844351513626944,
      "loss": 1.68,
      "step": 27974
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3995570242404938,
      "learning_rate": 0.00046843486599748346,
      "loss": 1.6305,
      "step": 27975
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4195079505443573,
      "learning_rate": 0.0004684262166542424,
      "loss": 1.6915,
      "step": 27976
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40182849764823914,
      "learning_rate": 0.0004684175671065567,
      "loss": 1.6165,
      "step": 27977
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3985988199710846,
      "learning_rate": 0.0004684089173544368,
      "loss": 1.676,
      "step": 27978
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4021718204021454,
      "learning_rate": 0.0004684002673978934,
      "loss": 1.6954,
      "step": 27979
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39095714688301086,
      "learning_rate": 0.0004683916172369368,
      "loss": 1.6638,
      "step": 27980
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39533334970474243,
      "learning_rate": 0.00046838296687157764,
      "loss": 1.6638,
      "step": 27981
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4140154719352722,
      "learning_rate": 0.00046837431630182634,
      "loss": 1.6499,
      "step": 27982
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41344311833381653,
      "learning_rate": 0.00046836566552769344,
      "loss": 1.5912,
      "step": 27983
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6630415916442871,
      "learning_rate": 0.0004683570145491895,
      "loss": 1.6781,
      "step": 27984
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3989604413509369,
      "learning_rate": 0.00046834836336632487,
      "loss": 1.638,
      "step": 27985
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3943611681461334,
      "learning_rate": 0.0004683397119791101,
      "loss": 1.6335,
      "step": 27986
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3990494906902313,
      "learning_rate": 0.00046833106038755585,
      "loss": 1.5975,
      "step": 27987
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3953632712364197,
      "learning_rate": 0.00046832240859167245,
      "loss": 1.6195,
      "step": 27988
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4017982482910156,
      "learning_rate": 0.0004683137565914703,
      "loss": 1.6503,
      "step": 27989
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39689791202545166,
      "learning_rate": 0.00046830510438696025,
      "loss": 1.6528,
      "step": 27990
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3975847065448761,
      "learning_rate": 0.00046829645197815243,
      "loss": 1.6454,
      "step": 27991
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4003489315509796,
      "learning_rate": 0.00046828779936505766,
      "loss": 1.7244,
      "step": 27992
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4013608694076538,
      "learning_rate": 0.00046827914654768625,
      "loss": 1.6563,
      "step": 27993
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5178462266921997,
      "learning_rate": 0.0004682704935260487,
      "loss": 1.6845,
      "step": 27994
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3908509612083435,
      "learning_rate": 0.00046826184030015567,
      "loss": 1.6333,
      "step": 27995
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41012799739837646,
      "learning_rate": 0.00046825318687001747,
      "loss": 1.6437,
      "step": 27996
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.45867839455604553,
      "learning_rate": 0.0004682445332356447,
      "loss": 1.7374,
      "step": 27997
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4179011285305023,
      "learning_rate": 0.0004682358793970479,
      "loss": 1.6363,
      "step": 27998
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4106364846229553,
      "learning_rate": 0.0004682272253542375,
      "loss": 1.5474,
      "step": 27999
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39667293429374695,
      "learning_rate": 0.0004682185711072241,
      "loss": 1.7319,
      "step": 28000
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39995792508125305,
      "learning_rate": 0.00046820991665601805,
      "loss": 1.7165,
      "step": 28001
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40894046425819397,
      "learning_rate": 0.00046820126200062997,
      "loss": 1.6808,
      "step": 28002
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4134175777435303,
      "learning_rate": 0.00046819260714107036,
      "loss": 1.5525,
      "step": 28003
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.407248854637146,
      "learning_rate": 0.0004681839520773496,
      "loss": 1.7085,
      "step": 28004
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4236021339893341,
      "learning_rate": 0.00046817529680947845,
      "loss": 1.6318,
      "step": 28005
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41612324118614197,
      "learning_rate": 0.0004681666413374672,
      "loss": 1.6884,
      "step": 28006
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4140809178352356,
      "learning_rate": 0.0004681579856613265,
      "loss": 1.6056,
      "step": 28007
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40505677461624146,
      "learning_rate": 0.0004681493297810667,
      "loss": 1.6172,
      "step": 28008
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40486347675323486,
      "learning_rate": 0.0004681406736966984,
      "loss": 1.6724,
      "step": 28009
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40569302439689636,
      "learning_rate": 0.0004681320174082321,
      "loss": 1.6088,
      "step": 28010
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.413402259349823,
      "learning_rate": 0.00046812336091567823,
      "loss": 1.6711,
      "step": 28011
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40123599767684937,
      "learning_rate": 0.00046811470421904755,
      "loss": 1.6211,
      "step": 28012
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4010951817035675,
      "learning_rate": 0.0004681060473183503,
      "loss": 1.6668,
      "step": 28013
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3987791836261749,
      "learning_rate": 0.00046809739021359706,
      "loss": 1.6752,
      "step": 28014
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3949807584285736,
      "learning_rate": 0.00046808873290479834,
      "loss": 1.6605,
      "step": 28015
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38582843542099,
      "learning_rate": 0.0004680800753919647,
      "loss": 1.6301,
      "step": 28016
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4030243158340454,
      "learning_rate": 0.00046807141767510666,
      "loss": 1.6576,
      "step": 28017
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4071515202522278,
      "learning_rate": 0.0004680627597542346,
      "loss": 1.6914,
      "step": 28018
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38997167348861694,
      "learning_rate": 0.00046805410162935915,
      "loss": 1.6229,
      "step": 28019
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4000990390777588,
      "learning_rate": 0.00046804544330049077,
      "loss": 1.6828,
      "step": 28020
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3967662751674652,
      "learning_rate": 0.00046803678476763994,
      "loss": 1.7356,
      "step": 28021
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40125858783721924,
      "learning_rate": 0.0004680281260308173,
      "loss": 1.6695,
      "step": 28022
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40010130405426025,
      "learning_rate": 0.0004680194670900333,
      "loss": 1.7092,
      "step": 28023
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39068251848220825,
      "learning_rate": 0.0004680108079452983,
      "loss": 1.7574,
      "step": 28024
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3958570063114166,
      "learning_rate": 0.000468002148596623,
      "loss": 1.6153,
      "step": 28025
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4055171608924866,
      "learning_rate": 0.00046799348904401784,
      "loss": 1.6589,
      "step": 28026
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3979703485965729,
      "learning_rate": 0.00046798482928749334,
      "loss": 1.661,
      "step": 28027
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.403454065322876,
      "learning_rate": 0.00046797616932706,
      "loss": 1.6989,
      "step": 28028
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3910937011241913,
      "learning_rate": 0.00046796750916272827,
      "loss": 1.6794,
      "step": 28029
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40667906403541565,
      "learning_rate": 0.00046795884879450883,
      "loss": 1.6437,
      "step": 28030
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42594099044799805,
      "learning_rate": 0.0004679501882224121,
      "loss": 1.704,
      "step": 28031
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3933657705783844,
      "learning_rate": 0.0004679415274464486,
      "loss": 1.6703,
      "step": 28032
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4141447842121124,
      "learning_rate": 0.00046793286646662876,
      "loss": 1.6609,
      "step": 28033
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4124700129032135,
      "learning_rate": 0.0004679242052829632,
      "loss": 1.6133,
      "step": 28034
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4224974811077118,
      "learning_rate": 0.00046791554389546237,
      "loss": 1.6751,
      "step": 28035
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3940187692642212,
      "learning_rate": 0.00046790688230413684,
      "loss": 1.6052,
      "step": 28036
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39703187346458435,
      "learning_rate": 0.00046789822050899703,
      "loss": 1.6695,
      "step": 28037
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4145452678203583,
      "learning_rate": 0.00046788955851005356,
      "loss": 1.6697,
      "step": 28038
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42152276635169983,
      "learning_rate": 0.000467880896307317,
      "loss": 1.6407,
      "step": 28039
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40874043107032776,
      "learning_rate": 0.0004678722339007977,
      "loss": 1.62,
      "step": 28040
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3950238823890686,
      "learning_rate": 0.00046786357129050617,
      "loss": 1.6452,
      "step": 28041
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41712141036987305,
      "learning_rate": 0.0004678549084764531,
      "loss": 1.6542,
      "step": 28042
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4052499234676361,
      "learning_rate": 0.0004678462454586489,
      "loss": 1.6228,
      "step": 28043
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4071055054664612,
      "learning_rate": 0.000467837582237104,
      "loss": 1.6709,
      "step": 28044
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4113573431968689,
      "learning_rate": 0.0004678289188118291,
      "loss": 1.7242,
      "step": 28045
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3944467008113861,
      "learning_rate": 0.0004678202551828345,
      "loss": 1.6666,
      "step": 28046
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40189191699028015,
      "learning_rate": 0.0004678115913501309,
      "loss": 1.7007,
      "step": 28047
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4128849506378174,
      "learning_rate": 0.00046780292731372875,
      "loss": 1.7723,
      "step": 28048
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40792116522789,
      "learning_rate": 0.0004677942630736386,
      "loss": 1.6321,
      "step": 28049
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39991068840026855,
      "learning_rate": 0.00046778559862987096,
      "loss": 1.5973,
      "step": 28050
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40015801787376404,
      "learning_rate": 0.0004677769339824363,
      "loss": 1.6647,
      "step": 28051
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40351220965385437,
      "learning_rate": 0.0004677682691313451,
      "loss": 1.6661,
      "step": 28052
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4015495181083679,
      "learning_rate": 0.00046775960407660806,
      "loss": 1.7146,
      "step": 28053
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4176052212715149,
      "learning_rate": 0.0004677509388182355,
      "loss": 1.7334,
      "step": 28054
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3971083462238312,
      "learning_rate": 0.000467742273356238,
      "loss": 1.6782,
      "step": 28055
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39998099207878113,
      "learning_rate": 0.00046773360769062613,
      "loss": 1.6321,
      "step": 28056
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4157624840736389,
      "learning_rate": 0.00046772494182141034,
      "loss": 1.6812,
      "step": 28057
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41297483444213867,
      "learning_rate": 0.00046771627574860127,
      "loss": 1.684,
      "step": 28058
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4115385413169861,
      "learning_rate": 0.0004677076094722093,
      "loss": 1.6875,
      "step": 28059
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41651031374931335,
      "learning_rate": 0.00046769894299224495,
      "loss": 1.6617,
      "step": 28060
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4073905348777771,
      "learning_rate": 0.00046769027630871884,
      "loss": 1.6783,
      "step": 28061
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3943426311016083,
      "learning_rate": 0.0004676816094216414,
      "loss": 1.6651,
      "step": 28062
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42876267433166504,
      "learning_rate": 0.0004676729423310233,
      "loss": 1.6134,
      "step": 28063
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4217860996723175,
      "learning_rate": 0.0004676642750368749,
      "loss": 1.71,
      "step": 28064
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42759937047958374,
      "learning_rate": 0.0004676556075392068,
      "loss": 1.6493,
      "step": 28065
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.44136905670166016,
      "learning_rate": 0.00046764693983802945,
      "loss": 1.7101,
      "step": 28066
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41814976930618286,
      "learning_rate": 0.0004676382719333534,
      "loss": 1.6684,
      "step": 28067
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4053463041782379,
      "learning_rate": 0.00046762960382518924,
      "loss": 1.6813,
      "step": 28068
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4315062463283539,
      "learning_rate": 0.0004676209355135474,
      "loss": 1.651,
      "step": 28069
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4305132031440735,
      "learning_rate": 0.00046761226699843845,
      "loss": 1.5708,
      "step": 28070
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4484662413597107,
      "learning_rate": 0.0004676035982798729,
      "loss": 1.7566,
      "step": 28071
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3988504111766815,
      "learning_rate": 0.00046759492935786133,
      "loss": 1.6295,
      "step": 28072
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3997308313846588,
      "learning_rate": 0.0004675862602324142,
      "loss": 1.7284,
      "step": 28073
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41381028294563293,
      "learning_rate": 0.00046757759090354197,
      "loss": 1.7374,
      "step": 28074
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39758726954460144,
      "learning_rate": 0.00046756892137125524,
      "loss": 1.6226,
      "step": 28075
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4086558520793915,
      "learning_rate": 0.00046756025163556455,
      "loss": 1.7092,
      "step": 28076
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4046452045440674,
      "learning_rate": 0.0004675515816964804,
      "loss": 1.6258,
      "step": 28077
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39542680978775024,
      "learning_rate": 0.00046754291155401336,
      "loss": 1.5993,
      "step": 28078
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4107709228992462,
      "learning_rate": 0.00046753424120817396,
      "loss": 1.6651,
      "step": 28079
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4066380560398102,
      "learning_rate": 0.0004675255706589726,
      "loss": 1.6939,
      "step": 28080
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40343281626701355,
      "learning_rate": 0.00046751689990641985,
      "loss": 1.5668,
      "step": 28081
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4016968309879303,
      "learning_rate": 0.00046750822895052634,
      "loss": 1.6861,
      "step": 28082
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40596115589141846,
      "learning_rate": 0.0004674995577913025,
      "loss": 1.6448,
      "step": 28083
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4053206145763397,
      "learning_rate": 0.00046749088642875883,
      "loss": 1.631,
      "step": 28084
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4072858989238739,
      "learning_rate": 0.0004674822148629059,
      "loss": 1.7273,
      "step": 28085
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40126660466194153,
      "learning_rate": 0.0004674735430937543,
      "loss": 1.6969,
      "step": 28086
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4094459116458893,
      "learning_rate": 0.00046746487112131447,
      "loss": 1.7054,
      "step": 28087
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3959917724132538,
      "learning_rate": 0.000467456198945597,
      "loss": 1.7565,
      "step": 28088
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.40529221296310425,
      "learning_rate": 0.00046744752656661227,
      "loss": 1.6428,
      "step": 28089
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41387227177619934,
      "learning_rate": 0.000467438853984371,
      "loss": 1.7129,
      "step": 28090
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4141775071620941,
      "learning_rate": 0.0004674301811988836,
      "loss": 1.6039,
      "step": 28091
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4118041694164276,
      "learning_rate": 0.0004674215082101607,
      "loss": 1.71,
      "step": 28092
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.41411706805229187,
      "learning_rate": 0.00046741283501821267,
      "loss": 1.6973,
      "step": 28093
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3941088616847992,
      "learning_rate": 0.00046740416162305016,
      "loss": 1.6524,
      "step": 28094
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.39823630452156067,
      "learning_rate": 0.0004673954880246836,
      "loss": 1.6237,
      "step": 28095
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4086710810661316,
      "learning_rate": 0.0004673868142231237,
      "loss": 1.6771,
      "step": 28096
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4073997437953949,
      "learning_rate": 0.0004673781402183808,
      "loss": 1.727,
      "step": 28097
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4121946394443512,
      "learning_rate": 0.00046736946601046554,
      "loss": 1.7389,
      "step": 28098
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3995416462421417,
      "learning_rate": 0.00046736079159938836,
      "loss": 1.6381,
      "step": 28099
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4112166464328766,
      "learning_rate": 0.0004673521169851598,
      "loss": 1.641,
      "step": 28100
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.394734650850296,
      "learning_rate": 0.00046734344216779056,
      "loss": 1.6706,
      "step": 28101
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1100205183029175,
      "learning_rate": 0.0004673347671472909,
      "loss": 1.799,
      "step": 28102
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3995404839515686,
      "learning_rate": 0.0004673260919236716,
      "loss": 1.6907,
      "step": 28103
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39919614791870117,
      "learning_rate": 0.000467317416496943,
      "loss": 1.5407,
      "step": 28104
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4066293239593506,
      "learning_rate": 0.00046730874086711575,
      "loss": 1.6403,
      "step": 28105
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4343186616897583,
      "learning_rate": 0.00046730006503420033,
      "loss": 1.6291,
      "step": 28106
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41241684556007385,
      "learning_rate": 0.0004672913889982073,
      "loss": 1.6582,
      "step": 28107
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.422620564699173,
      "learning_rate": 0.00046728271275914713,
      "loss": 1.6129,
      "step": 28108
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4051252603530884,
      "learning_rate": 0.0004672740363170305,
      "loss": 1.6207,
      "step": 28109
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4301506280899048,
      "learning_rate": 0.0004672653596718677,
      "loss": 1.7261,
      "step": 28110
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4182070791721344,
      "learning_rate": 0.0004672566828236695,
      "loss": 1.714,
      "step": 28111
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4123680889606476,
      "learning_rate": 0.00046724800577244624,
      "loss": 1.6174,
      "step": 28112
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4069859981536865,
      "learning_rate": 0.00046723932851820856,
      "loss": 1.7158,
      "step": 28113
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4032577872276306,
      "learning_rate": 0.0004672306510609671,
      "loss": 1.6838,
      "step": 28114
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4161461889743805,
      "learning_rate": 0.0004672219734007322,
      "loss": 1.7515,
      "step": 28115
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39781686663627625,
      "learning_rate": 0.00046721329553751434,
      "loss": 1.7058,
      "step": 28116
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40063193440437317,
      "learning_rate": 0.00046720461747132427,
      "loss": 1.7062,
      "step": 28117
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40049538016319275,
      "learning_rate": 0.00046719593920217247,
      "loss": 1.6577,
      "step": 28118
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40411919355392456,
      "learning_rate": 0.00046718726073006935,
      "loss": 1.676,
      "step": 28119
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4003938138484955,
      "learning_rate": 0.0004671785820550257,
      "loss": 1.5935,
      "step": 28120
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3908956050872803,
      "learning_rate": 0.0004671699031770517,
      "loss": 1.6425,
      "step": 28121
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41034603118896484,
      "learning_rate": 0.0004671612240961582,
      "loss": 1.6454,
      "step": 28122
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40663060545921326,
      "learning_rate": 0.0004671525448123555,
      "loss": 1.6373,
      "step": 28123
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40744879841804504,
      "learning_rate": 0.0004671438653256543,
      "loss": 1.7032,
      "step": 28124
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4018360674381256,
      "learning_rate": 0.0004671351856360651,
      "loss": 1.6642,
      "step": 28125
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3951394259929657,
      "learning_rate": 0.0004671265057435983,
      "loss": 1.6247,
      "step": 28126
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4154379367828369,
      "learning_rate": 0.0004671178256482646,
      "loss": 1.5893,
      "step": 28127
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41337111592292786,
      "learning_rate": 0.00046710914535007454,
      "loss": 1.7574,
      "step": 28128
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4006887972354889,
      "learning_rate": 0.0004671004648490385,
      "loss": 1.6754,
      "step": 28129
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41453632712364197,
      "learning_rate": 0.0004670917841451672,
      "loss": 1.7048,
      "step": 28130
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4011194705963135,
      "learning_rate": 0.0004670831032384711,
      "loss": 1.6832,
      "step": 28131
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40815097093582153,
      "learning_rate": 0.00046707442212896063,
      "loss": 1.5977,
      "step": 28132
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38882458209991455,
      "learning_rate": 0.00046706574081664654,
      "loss": 1.6564,
      "step": 28133
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40063977241516113,
      "learning_rate": 0.0004670570593015392,
      "loss": 1.6105,
      "step": 28134
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39854344725608826,
      "learning_rate": 0.00046704837758364926,
      "loss": 1.6947,
      "step": 28135
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4049573242664337,
      "learning_rate": 0.00046703969566298716,
      "loss": 1.6921,
      "step": 28136
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40136343240737915,
      "learning_rate": 0.0004670310135395635,
      "loss": 1.5784,
      "step": 28137
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4159010648727417,
      "learning_rate": 0.0004670223312133887,
      "loss": 1.6608,
      "step": 28138
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.403410404920578,
      "learning_rate": 0.0004670136486844735,
      "loss": 1.6386,
      "step": 28139
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40625497698783875,
      "learning_rate": 0.0004670049659528284,
      "loss": 1.6763,
      "step": 28140
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4011897146701813,
      "learning_rate": 0.0004669962830184637,
      "loss": 1.6607,
      "step": 28141
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3936896324157715,
      "learning_rate": 0.0004669875998813903,
      "loss": 1.7066,
      "step": 28142
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.43392837047576904,
      "learning_rate": 0.0004669789165416184,
      "loss": 1.58,
      "step": 28143
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40802475810050964,
      "learning_rate": 0.0004669702329991588,
      "loss": 1.665,
      "step": 28144
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4036141037940979,
      "learning_rate": 0.00046696154925402193,
      "loss": 1.666,
      "step": 28145
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40450990200042725,
      "learning_rate": 0.0004669528653062183,
      "loss": 1.5924,
      "step": 28146
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38841894268989563,
      "learning_rate": 0.00046694418115575853,
      "loss": 1.708,
      "step": 28147
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39819514751434326,
      "learning_rate": 0.0004669354968026531,
      "loss": 1.6251,
      "step": 28148
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4051605463027954,
      "learning_rate": 0.0004669268122469126,
      "loss": 1.6883,
      "step": 28149
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41056540608406067,
      "learning_rate": 0.00046691812748854753,
      "loss": 1.6843,
      "step": 28150
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3973632752895355,
      "learning_rate": 0.0004669094425275684,
      "loss": 1.6301,
      "step": 28151
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6659542918205261,
      "learning_rate": 0.0004669007573639859,
      "loss": 1.6993,
      "step": 28152
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.37806591391563416,
      "learning_rate": 0.0004668920719978104,
      "loss": 1.6423,
      "step": 28153
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41432756185531616,
      "learning_rate": 0.00046688338642905246,
      "loss": 1.6304,
      "step": 28154
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41085049510002136,
      "learning_rate": 0.00046687470065772286,
      "loss": 1.7081,
      "step": 28155
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3866850435733795,
      "learning_rate": 0.00046686601468383176,
      "loss": 1.7081,
      "step": 28156
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40437933802604675,
      "learning_rate": 0.00046685732850739,
      "loss": 1.687,
      "step": 28157
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4026239812374115,
      "learning_rate": 0.0004668486421284081,
      "loss": 1.6699,
      "step": 28158
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40698206424713135,
      "learning_rate": 0.00046683995554689636,
      "loss": 1.6906,
      "step": 28159
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4096955955028534,
      "learning_rate": 0.00046683126876286566,
      "loss": 1.6569,
      "step": 28160
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4087314307689667,
      "learning_rate": 0.0004668225817763263,
      "loss": 1.6459,
      "step": 28161
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40601879358291626,
      "learning_rate": 0.0004668138945872889,
      "loss": 1.7254,
      "step": 28162
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41384947299957275,
      "learning_rate": 0.000466805207195764,
      "loss": 1.717,
      "step": 28163
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4168611466884613,
      "learning_rate": 0.00046679651960176223,
      "loss": 1.709,
      "step": 28164
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3970694839954376,
      "learning_rate": 0.000466787831805294,
      "loss": 1.6703,
      "step": 28165
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4090656042098999,
      "learning_rate": 0.00046677914380637,
      "loss": 1.6616,
      "step": 28166
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40682223439216614,
      "learning_rate": 0.0004667704556050006,
      "loss": 1.6461,
      "step": 28167
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3994732201099396,
      "learning_rate": 0.0004667617672011964,
      "loss": 1.713,
      "step": 28168
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4247068762779236,
      "learning_rate": 0.0004667530785949681,
      "loss": 1.6551,
      "step": 28169
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40085330605506897,
      "learning_rate": 0.0004667443897863261,
      "loss": 1.73,
      "step": 28170
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4174230992794037,
      "learning_rate": 0.0004667357007752809,
      "loss": 1.656,
      "step": 28171
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4272106885910034,
      "learning_rate": 0.00046672701156184323,
      "loss": 1.6555,
      "step": 28172
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40514981746673584,
      "learning_rate": 0.0004667183221460235,
      "loss": 1.6699,
      "step": 28173
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4090161621570587,
      "learning_rate": 0.0004667096325278323,
      "loss": 1.7785,
      "step": 28174
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3993363380432129,
      "learning_rate": 0.00046670094270728015,
      "loss": 1.6813,
      "step": 28175
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.410513699054718,
      "learning_rate": 0.0004666922526843776,
      "loss": 1.6753,
      "step": 28176
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40244048833847046,
      "learning_rate": 0.0004666835624591353,
      "loss": 1.7262,
      "step": 28177
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4342295825481415,
      "learning_rate": 0.0004666748720315636,
      "loss": 1.7102,
      "step": 28178
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39715710282325745,
      "learning_rate": 0.00046666618140167316,
      "loss": 1.6351,
      "step": 28179
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41139185428619385,
      "learning_rate": 0.0004666574905694747,
      "loss": 1.6296,
      "step": 28180
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5416365265846252,
      "learning_rate": 0.0004666487995349785,
      "loss": 1.6859,
      "step": 28181
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39830848574638367,
      "learning_rate": 0.0004666401082981952,
      "loss": 1.6902,
      "step": 28182
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41201868653297424,
      "learning_rate": 0.0004666314168591353,
      "loss": 1.6637,
      "step": 28183
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.418528288602829,
      "learning_rate": 0.00046662272521780956,
      "loss": 1.6397,
      "step": 28184
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4297724664211273,
      "learning_rate": 0.00046661403337422826,
      "loss": 1.6694,
      "step": 28185
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3980710804462433,
      "learning_rate": 0.0004666053413284021,
      "loss": 1.6493,
      "step": 28186
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40909963846206665,
      "learning_rate": 0.00046659664908034167,
      "loss": 1.689,
      "step": 28187
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4068964123725891,
      "learning_rate": 0.00046658795663005737,
      "loss": 1.6905,
      "step": 28188
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41612327098846436,
      "learning_rate": 0.00046657926397755987,
      "loss": 1.7073,
      "step": 28189
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4058355391025543,
      "learning_rate": 0.00046657057112285975,
      "loss": 1.5409,
      "step": 28190
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39044615626335144,
      "learning_rate": 0.0004665618780659674,
      "loss": 1.7227,
      "step": 28191
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.43692564964294434,
      "learning_rate": 0.00046655318480689345,
      "loss": 1.6027,
      "step": 28192
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4081957936286926,
      "learning_rate": 0.0004665444913456485,
      "loss": 1.6905,
      "step": 28193
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3897109925746918,
      "learning_rate": 0.00046653579768224314,
      "loss": 1.6213,
      "step": 28194
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38879990577697754,
      "learning_rate": 0.00046652710381668783,
      "loss": 1.674,
      "step": 28195
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4187811613082886,
      "learning_rate": 0.0004665184097489932,
      "loss": 1.7205,
      "step": 28196
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4051832854747772,
      "learning_rate": 0.0004665097154791697,
      "loss": 1.6332,
      "step": 28197
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.400289922952652,
      "learning_rate": 0.000466501021007228,
      "loss": 1.6267,
      "step": 28198
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4138471782207489,
      "learning_rate": 0.0004664923263331785,
      "loss": 1.6176,
      "step": 28199
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4106407165527344,
      "learning_rate": 0.0004664836314570319,
      "loss": 1.6628,
      "step": 28200
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3954794406890869,
      "learning_rate": 0.0004664749363787986,
      "loss": 1.7079,
      "step": 28201
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38985520601272583,
      "learning_rate": 0.00046646624109848944,
      "loss": 1.5963,
      "step": 28202
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4135642945766449,
      "learning_rate": 0.00046645754561611466,
      "loss": 1.665,
      "step": 28203
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4040359854698181,
      "learning_rate": 0.000466448849931685,
      "loss": 1.7017,
      "step": 28204
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4034317433834076,
      "learning_rate": 0.000466440154045211,
      "loss": 1.67,
      "step": 28205
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40175119042396545,
      "learning_rate": 0.00046643145795670306,
      "loss": 1.5845,
      "step": 28206
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40090808272361755,
      "learning_rate": 0.0004664227616661719,
      "loss": 1.6285,
      "step": 28207
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4060611128807068,
      "learning_rate": 0.00046641406517362806,
      "loss": 1.6944,
      "step": 28208
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.401845782995224,
      "learning_rate": 0.000466405368479082,
      "loss": 1.6158,
      "step": 28209
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4022669196128845,
      "learning_rate": 0.00046639667158254446,
      "loss": 1.6304,
      "step": 28210
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40122145414352417,
      "learning_rate": 0.0004663879744840258,
      "loss": 1.6436,
      "step": 28211
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.409294068813324,
      "learning_rate": 0.00046637927718353665,
      "loss": 1.6666,
      "step": 28212
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40358036756515503,
      "learning_rate": 0.00046637057968108755,
      "loss": 1.6812,
      "step": 28213
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3914444148540497,
      "learning_rate": 0.00046636188197668915,
      "loss": 1.6962,
      "step": 28214
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39205336570739746,
      "learning_rate": 0.00046635318407035187,
      "loss": 1.685,
      "step": 28215
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3981362581253052,
      "learning_rate": 0.0004663444859620864,
      "loss": 1.6319,
      "step": 28216
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3896157741546631,
      "learning_rate": 0.00046633578765190313,
      "loss": 1.5973,
      "step": 28217
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4181923568248749,
      "learning_rate": 0.0004663270891398128,
      "loss": 1.6852,
      "step": 28218
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3981388211250305,
      "learning_rate": 0.00046631839042582596,
      "loss": 1.6408,
      "step": 28219
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39692091941833496,
      "learning_rate": 0.00046630969150995296,
      "loss": 1.6906,
      "step": 28220
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40845951437950134,
      "learning_rate": 0.00046630099239220455,
      "loss": 1.6937,
      "step": 28221
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41074711084365845,
      "learning_rate": 0.0004662922930725913,
      "loss": 1.6862,
      "step": 28222
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39815324544906616,
      "learning_rate": 0.0004662835935511236,
      "loss": 1.6548,
      "step": 28223
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39931750297546387,
      "learning_rate": 0.00046627489382781225,
      "loss": 1.664,
      "step": 28224
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3867636024951935,
      "learning_rate": 0.0004662661939026676,
      "loss": 1.7016,
      "step": 28225
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4073421061038971,
      "learning_rate": 0.00046625749377570026,
      "loss": 1.6746,
      "step": 28226
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3972608149051666,
      "learning_rate": 0.0004662487934469209,
      "loss": 1.7496,
      "step": 28227
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38647711277008057,
      "learning_rate": 0.0004662400929163399,
      "loss": 1.6333,
      "step": 28228
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.42294496297836304,
      "learning_rate": 0.00046623139218396803,
      "loss": 1.6091,
      "step": 28229
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41673800349235535,
      "learning_rate": 0.00046622269124981566,
      "loss": 1.588,
      "step": 28230
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.42637723684310913,
      "learning_rate": 0.0004662139901138935,
      "loss": 1.7474,
      "step": 28231
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40782153606414795,
      "learning_rate": 0.00046620528877621195,
      "loss": 1.6806,
      "step": 28232
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40267008543014526,
      "learning_rate": 0.00046619658723678176,
      "loss": 1.6529,
      "step": 28233
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4236130714416504,
      "learning_rate": 0.0004661878854956133,
      "loss": 1.6264,
      "step": 28234
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4212098717689514,
      "learning_rate": 0.00046617918355271735,
      "loss": 1.6488,
      "step": 28235
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3975951075553894,
      "learning_rate": 0.0004661704814081043,
      "loss": 1.6111,
      "step": 28236
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3957330584526062,
      "learning_rate": 0.00046616177906178485,
      "loss": 1.6628,
      "step": 28237
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4267185926437378,
      "learning_rate": 0.0004661530765137693,
      "loss": 1.6288,
      "step": 28238
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.42091846466064453,
      "learning_rate": 0.00046614437376406857,
      "loss": 1.7251,
      "step": 28239
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40004411339759827,
      "learning_rate": 0.000466135670812693,
      "loss": 1.5723,
      "step": 28240
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39942485094070435,
      "learning_rate": 0.0004661269676596532,
      "loss": 1.659,
      "step": 28241
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41338637471199036,
      "learning_rate": 0.0004661182643049597,
      "loss": 1.5349,
      "step": 28242
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4121543765068054,
      "learning_rate": 0.00046610956074862313,
      "loss": 1.6576,
      "step": 28243
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40214237570762634,
      "learning_rate": 0.0004661008569906541,
      "loss": 1.7334,
      "step": 28244
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4216921627521515,
      "learning_rate": 0.000466092153031063,
      "loss": 1.6048,
      "step": 28245
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.03512442111969,
      "learning_rate": 0.00046608344886986055,
      "loss": 1.6565,
      "step": 28246
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39940130710601807,
      "learning_rate": 0.0004660747445070572,
      "loss": 1.624,
      "step": 28247
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39828771352767944,
      "learning_rate": 0.00046606603994266366,
      "loss": 1.6114,
      "step": 28248
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40162044763565063,
      "learning_rate": 0.0004660573351766904,
      "loss": 1.6256,
      "step": 28249
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4057851731777191,
      "learning_rate": 0.000466048630209148,
      "loss": 1.6947,
      "step": 28250
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3980155885219574,
      "learning_rate": 0.000466039925040047,
      "loss": 1.7537,
      "step": 28251
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.408727765083313,
      "learning_rate": 0.00046603121966939807,
      "loss": 1.6151,
      "step": 28252
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4076378047466278,
      "learning_rate": 0.0004660225140972116,
      "loss": 1.6822,
      "step": 28253
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39069122076034546,
      "learning_rate": 0.0004660138083234983,
      "loss": 1.6867,
      "step": 28254
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39368316531181335,
      "learning_rate": 0.00046600510234826866,
      "loss": 1.6833,
      "step": 28255
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41459405422210693,
      "learning_rate": 0.00046599639617153334,
      "loss": 1.6214,
      "step": 28256
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.42213284969329834,
      "learning_rate": 0.00046598768979330294,
      "loss": 1.6732,
      "step": 28257
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39846906065940857,
      "learning_rate": 0.0004659789832135878,
      "loss": 1.6714,
      "step": 28258
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4086051285266876,
      "learning_rate": 0.0004659702764323987,
      "loss": 1.6783,
      "step": 28259
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40550947189331055,
      "learning_rate": 0.00046596156944974607,
      "loss": 1.7144,
      "step": 28260
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41360750794410706,
      "learning_rate": 0.0004659528622656406,
      "loss": 1.6972,
      "step": 28261
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39703369140625,
      "learning_rate": 0.00046594415488009284,
      "loss": 1.6354,
      "step": 28262
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41118842363357544,
      "learning_rate": 0.00046593544729311325,
      "loss": 1.6303,
      "step": 28263
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.42265409231185913,
      "learning_rate": 0.00046592673950471254,
      "loss": 1.702,
      "step": 28264
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4106462597846985,
      "learning_rate": 0.00046591803151490116,
      "loss": 1.6885,
      "step": 28265
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3980270326137543,
      "learning_rate": 0.00046590932332368984,
      "loss": 1.6648,
      "step": 28266
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4086572825908661,
      "learning_rate": 0.0004659006149310889,
      "loss": 1.6973,
      "step": 28267
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39698970317840576,
      "learning_rate": 0.0004658919063371091,
      "loss": 1.651,
      "step": 28268
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4066850543022156,
      "learning_rate": 0.00046588319754176105,
      "loss": 1.6642,
      "step": 28269
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4164428412914276,
      "learning_rate": 0.0004658744885450552,
      "loss": 1.6708,
      "step": 28270
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.395297110080719,
      "learning_rate": 0.0004658657793470021,
      "loss": 1.6739,
      "step": 28271
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3917429447174072,
      "learning_rate": 0.0004658570699476125,
      "loss": 1.5533,
      "step": 28272
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39458632469177246,
      "learning_rate": 0.0004658483603468968,
      "loss": 1.6438,
      "step": 28273
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4137471616268158,
      "learning_rate": 0.0004658396505448656,
      "loss": 1.6554,
      "step": 28274
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41074085235595703,
      "learning_rate": 0.00046583094054152946,
      "loss": 1.6975,
      "step": 28275
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39362969994544983,
      "learning_rate": 0.0004658222303368991,
      "loss": 1.6458,
      "step": 28276
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41011369228363037,
      "learning_rate": 0.00046581351993098496,
      "loss": 1.6482,
      "step": 28277
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3946327567100525,
      "learning_rate": 0.00046580480932379754,
      "loss": 1.5535,
      "step": 28278
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6052250862121582,
      "learning_rate": 0.00046579609851534766,
      "loss": 1.6153,
      "step": 28279
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3946661353111267,
      "learning_rate": 0.0004657873875056456,
      "loss": 1.6073,
      "step": 28280
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40472304821014404,
      "learning_rate": 0.0004657786762947022,
      "loss": 1.6904,
      "step": 28281
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4062707722187042,
      "learning_rate": 0.00046576996488252787,
      "loss": 1.6272,
      "step": 28282
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3980776369571686,
      "learning_rate": 0.00046576125326913323,
      "loss": 1.6703,
      "step": 28283
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3943827748298645,
      "learning_rate": 0.00046575254145452883,
      "loss": 1.6113,
      "step": 28284
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4019117057323456,
      "learning_rate": 0.0004657438294387253,
      "loss": 1.6416,
      "step": 28285
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3943313658237457,
      "learning_rate": 0.00046573511722173313,
      "loss": 1.5854,
      "step": 28286
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4087911546230316,
      "learning_rate": 0.0004657264048035629,
      "loss": 1.739,
      "step": 28287
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4075741767883301,
      "learning_rate": 0.00046571769218422534,
      "loss": 1.7258,
      "step": 28288
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40061044692993164,
      "learning_rate": 0.0004657089793637309,
      "loss": 1.6539,
      "step": 28289
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39916470646858215,
      "learning_rate": 0.0004657002663420902,
      "loss": 1.6657,
      "step": 28290
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41972559690475464,
      "learning_rate": 0.0004656915531193137,
      "loss": 1.7305,
      "step": 28291
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.405531108379364,
      "learning_rate": 0.00046568283969541225,
      "loss": 1.6767,
      "step": 28292
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4195205271244049,
      "learning_rate": 0.00046567412607039605,
      "loss": 1.6596,
      "step": 28293
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4182647466659546,
      "learning_rate": 0.0004656654122442759,
      "loss": 1.6461,
      "step": 28294
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3925319314002991,
      "learning_rate": 0.00046565669821706235,
      "loss": 1.7185,
      "step": 28295
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39466097950935364,
      "learning_rate": 0.0004656479839887661,
      "loss": 1.6367,
      "step": 28296
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4126153290271759,
      "learning_rate": 0.00046563926955939754,
      "loss": 1.676,
      "step": 28297
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40553051233291626,
      "learning_rate": 0.0004656305549289673,
      "loss": 1.6804,
      "step": 28298
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3972252607345581,
      "learning_rate": 0.00046562184009748593,
      "loss": 1.6198,
      "step": 28299
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3950759172439575,
      "learning_rate": 0.00046561312506496406,
      "loss": 1.6478,
      "step": 28300
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39740076661109924,
      "learning_rate": 0.00046560440983141235,
      "loss": 1.5954,
      "step": 28301
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39525002241134644,
      "learning_rate": 0.00046559569439684126,
      "loss": 1.6799,
      "step": 28302
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41939646005630493,
      "learning_rate": 0.00046558697876126126,
      "loss": 1.6986,
      "step": 28303
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40255114436149597,
      "learning_rate": 0.0004655782629246832,
      "loss": 1.7347,
      "step": 28304
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3976016938686371,
      "learning_rate": 0.0004655695468871175,
      "loss": 1.6264,
      "step": 28305
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.398582398891449,
      "learning_rate": 0.0004655608306485748,
      "loss": 1.5501,
      "step": 28306
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4007834494113922,
      "learning_rate": 0.0004655521142090656,
      "loss": 1.6168,
      "step": 28307
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4032646417617798,
      "learning_rate": 0.00046554339756860045,
      "loss": 1.7024,
      "step": 28308
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41057291626930237,
      "learning_rate": 0.00046553468072719014,
      "loss": 1.6481,
      "step": 28309
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4047550857067108,
      "learning_rate": 0.00046552596368484503,
      "loss": 1.6985,
      "step": 28310
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39194244146347046,
      "learning_rate": 0.0004655172464415758,
      "loss": 1.6387,
      "step": 28311
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40963804721832275,
      "learning_rate": 0.00046550852899739304,
      "loss": 1.6816,
      "step": 28312
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40618547797203064,
      "learning_rate": 0.0004654998113523073,
      "loss": 1.6852,
      "step": 28313
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4211843013763428,
      "learning_rate": 0.00046549109350632926,
      "loss": 1.6837,
      "step": 28314
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39684242010116577,
      "learning_rate": 0.00046548237545946926,
      "loss": 1.6416,
      "step": 28315
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3879086375236511,
      "learning_rate": 0.00046547365721173815,
      "loss": 1.6994,
      "step": 28316
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3905045688152313,
      "learning_rate": 0.00046546493876314644,
      "loss": 1.6484,
      "step": 28317
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.407789409160614,
      "learning_rate": 0.00046545622011370455,
      "loss": 1.6103,
      "step": 28318
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.407166063785553,
      "learning_rate": 0.00046544750126342326,
      "loss": 1.5831,
      "step": 28319
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40282049775123596,
      "learning_rate": 0.000465438782212313,
      "loss": 1.7213,
      "step": 28320
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39255571365356445,
      "learning_rate": 0.00046543006296038454,
      "loss": 1.623,
      "step": 28321
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39253321290016174,
      "learning_rate": 0.00046542134350764837,
      "loss": 1.6471,
      "step": 28322
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4079243242740631,
      "learning_rate": 0.00046541262385411497,
      "loss": 1.7217,
      "step": 28323
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4290004372596741,
      "learning_rate": 0.0004654039039997951,
      "loss": 1.6974,
      "step": 28324
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39390233159065247,
      "learning_rate": 0.00046539518394469917,
      "loss": 1.6452,
      "step": 28325
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40573811531066895,
      "learning_rate": 0.0004653864636888379,
      "loss": 1.6287,
      "step": 28326
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4064803421497345,
      "learning_rate": 0.00046537774323222186,
      "loss": 1.6643,
      "step": 28327
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4384426474571228,
      "learning_rate": 0.0004653690225748616,
      "loss": 1.6713,
      "step": 28328
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4035295844078064,
      "learning_rate": 0.00046536030171676773,
      "loss": 1.6306,
      "step": 28329
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4151744842529297,
      "learning_rate": 0.00046535158065795073,
      "loss": 1.6688,
      "step": 28330
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41975611448287964,
      "learning_rate": 0.0004653428593984214,
      "loss": 1.6311,
      "step": 28331
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4158788323402405,
      "learning_rate": 0.00046533413793819014,
      "loss": 1.6623,
      "step": 28332
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4256937801837921,
      "learning_rate": 0.00046532541627726753,
      "loss": 1.5695,
      "step": 28333
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.42289480566978455,
      "learning_rate": 0.0004653166944156643,
      "loss": 1.7074,
      "step": 28334
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39855319261550903,
      "learning_rate": 0.00046530797235339093,
      "loss": 1.7292,
      "step": 28335
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41239866614341736,
      "learning_rate": 0.00046529925009045807,
      "loss": 1.6689,
      "step": 28336
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3994846045970917,
      "learning_rate": 0.00046529052762687626,
      "loss": 1.6509,
      "step": 28337
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41460683941841125,
      "learning_rate": 0.00046528180496265616,
      "loss": 1.6109,
      "step": 28338
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39710432291030884,
      "learning_rate": 0.00046527308209780825,
      "loss": 1.6236,
      "step": 28339
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.49630793929100037,
      "learning_rate": 0.0004652643590323431,
      "loss": 1.7143,
      "step": 28340
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39829564094543457,
      "learning_rate": 0.0004652556357662715,
      "loss": 1.6741,
      "step": 28341
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40715447068214417,
      "learning_rate": 0.0004652469122996038,
      "loss": 1.6465,
      "step": 28342
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3893773853778839,
      "learning_rate": 0.0004652381886323507,
      "loss": 1.6481,
      "step": 28343
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4420759081840515,
      "learning_rate": 0.0004652294647645229,
      "loss": 1.6937,
      "step": 28344
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38202425837516785,
      "learning_rate": 0.00046522074069613075,
      "loss": 1.6066,
      "step": 28345
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40430760383605957,
      "learning_rate": 0.00046521201642718503,
      "loss": 1.6958,
      "step": 28346
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.387431800365448,
      "learning_rate": 0.00046520329195769616,
      "loss": 1.6301,
      "step": 28347
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3970748484134674,
      "learning_rate": 0.000465194567287675,
      "loss": 1.7234,
      "step": 28348
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4127259850502014,
      "learning_rate": 0.000465185842417132,
      "loss": 1.683,
      "step": 28349
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40609025955200195,
      "learning_rate": 0.0004651771173460775,
      "loss": 1.7061,
      "step": 28350
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41465145349502563,
      "learning_rate": 0.0004651683920745225,
      "loss": 1.6751,
      "step": 28351
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4598366618156433,
      "learning_rate": 0.00046515966660247736,
      "loss": 1.6395,
      "step": 28352
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41017404198646545,
      "learning_rate": 0.0004651509409299527,
      "loss": 1.7185,
      "step": 28353
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.44710251688957214,
      "learning_rate": 0.0004651422150569592,
      "loss": 1.7236,
      "step": 28354
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4341641962528229,
      "learning_rate": 0.0004651334889835073,
      "loss": 1.7188,
      "step": 28355
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4002009928226471,
      "learning_rate": 0.00046512476270960763,
      "loss": 1.547,
      "step": 28356
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.405842661857605,
      "learning_rate": 0.0004651160362352709,
      "loss": 1.633,
      "step": 28357
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4035201966762543,
      "learning_rate": 0.0004651073095605077,
      "loss": 1.6456,
      "step": 28358
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4099877178668976,
      "learning_rate": 0.0004650985826853285,
      "loss": 1.7185,
      "step": 28359
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4064082205295563,
      "learning_rate": 0.00046508985560974394,
      "loss": 1.7226,
      "step": 28360
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3928186297416687,
      "learning_rate": 0.00046508112833376457,
      "loss": 1.7195,
      "step": 28361
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4237399399280548,
      "learning_rate": 0.00046507240085740106,
      "loss": 1.7376,
      "step": 28362
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4092903137207031,
      "learning_rate": 0.0004650636731806641,
      "loss": 1.674,
      "step": 28363
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39678043127059937,
      "learning_rate": 0.00046505494530356395,
      "loss": 1.661,
      "step": 28364
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39561402797698975,
      "learning_rate": 0.00046504621722611155,
      "loss": 1.6683,
      "step": 28365
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40157708525657654,
      "learning_rate": 0.00046503748894831734,
      "loss": 1.6301,
      "step": 28366
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3919735848903656,
      "learning_rate": 0.0004650287604701919,
      "loss": 1.6907,
      "step": 28367
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41593044996261597,
      "learning_rate": 0.00046502003179174596,
      "loss": 1.7299,
      "step": 28368
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4106268584728241,
      "learning_rate": 0.0004650113029129899,
      "loss": 1.6204,
      "step": 28369
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3961476683616638,
      "learning_rate": 0.0004650025738339344,
      "loss": 1.6208,
      "step": 28370
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4227016866207123,
      "learning_rate": 0.00046499384455459024,
      "loss": 1.6826,
      "step": 28371
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40472403168678284,
      "learning_rate": 0.00046498511507496774,
      "loss": 1.5893,
      "step": 28372
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.411672979593277,
      "learning_rate": 0.00046497638539507775,
      "loss": 1.6141,
      "step": 28373
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3909204304218292,
      "learning_rate": 0.00046496765551493063,
      "loss": 1.6834,
      "step": 28374
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3932294547557831,
      "learning_rate": 0.0004649589254345371,
      "loss": 1.715,
      "step": 28375
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4163500666618347,
      "learning_rate": 0.00046495019515390774,
      "loss": 1.7167,
      "step": 28376
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3985884189605713,
      "learning_rate": 0.00046494146467305315,
      "loss": 1.6914,
      "step": 28377
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4054875075817108,
      "learning_rate": 0.00046493273399198393,
      "loss": 1.6135,
      "step": 28378
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3881191611289978,
      "learning_rate": 0.0004649240031107107,
      "loss": 1.6796,
      "step": 28379
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40290626883506775,
      "learning_rate": 0.00046491527202924396,
      "loss": 1.6306,
      "step": 28380
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.5528075098991394,
      "learning_rate": 0.0004649065407475944,
      "loss": 1.698,
      "step": 28381
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4104127883911133,
      "learning_rate": 0.0004648978092657727,
      "loss": 1.6313,
      "step": 28382
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39576971530914307,
      "learning_rate": 0.00046488907758378923,
      "loss": 1.6481,
      "step": 28383
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39682337641716003,
      "learning_rate": 0.00046488034570165473,
      "loss": 1.6263,
      "step": 28384
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3887474834918976,
      "learning_rate": 0.0004648716136193798,
      "loss": 1.6836,
      "step": 28385
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3988634943962097,
      "learning_rate": 0.00046486288133697505,
      "loss": 1.6473,
      "step": 28386
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38238221406936646,
      "learning_rate": 0.00046485414885445107,
      "loss": 1.6821,
      "step": 28387
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41267338395118713,
      "learning_rate": 0.00046484541617181844,
      "loss": 1.6664,
      "step": 28388
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4192444682121277,
      "learning_rate": 0.00046483668328908774,
      "loss": 1.6261,
      "step": 28389
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40303170680999756,
      "learning_rate": 0.0004648279502062696,
      "loss": 1.6445,
      "step": 28390
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40413278341293335,
      "learning_rate": 0.0004648192169233746,
      "loss": 1.6844,
      "step": 28391
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4092516303062439,
      "learning_rate": 0.0004648104834404133,
      "loss": 1.6617,
      "step": 28392
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4153214395046234,
      "learning_rate": 0.0004648017497573965,
      "loss": 1.6076,
      "step": 28393
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4117134213447571,
      "learning_rate": 0.00046479301587433453,
      "loss": 1.6453,
      "step": 28394
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.41110411286354065,
      "learning_rate": 0.00046478428179123817,
      "loss": 1.6968,
      "step": 28395
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4064892530441284,
      "learning_rate": 0.00046477554750811795,
      "loss": 1.6301,
      "step": 28396
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4135596752166748,
      "learning_rate": 0.0004647668130249845,
      "loss": 1.6807,
      "step": 28397
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.40848806500434875,
      "learning_rate": 0.0004647580783418485,
      "loss": 1.7009,
      "step": 28398
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4195995628833771,
      "learning_rate": 0.00046474934345872037,
      "loss": 1.5851,
      "step": 28399
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3976891040802002,
      "learning_rate": 0.00046474060837561085,
      "loss": 1.6858,
      "step": 28400
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38594362139701843,
      "learning_rate": 0.0004647318730925305,
      "loss": 1.6783,
      "step": 28401
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.38691234588623047,
      "learning_rate": 0.0004647231376094899,
      "loss": 1.6599,
      "step": 28402
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.402433305978775,
      "learning_rate": 0.0004647144019264997,
      "loss": 1.638,
      "step": 28403
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3968403935432434,
      "learning_rate": 0.00046470566604357055,
      "loss": 1.7105,
      "step": 28404
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4123102128505707,
      "learning_rate": 0.0004646969299607129,
      "loss": 1.7147,
      "step": 28405
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3937104344367981,
      "learning_rate": 0.0004646881936779374,
      "loss": 1.712,
      "step": 28406
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3889303207397461,
      "learning_rate": 0.0004646794571952548,
      "loss": 1.6047,
      "step": 28407
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4012960195541382,
      "learning_rate": 0.0004646707205126756,
      "loss": 1.6651,
      "step": 28408
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39611685276031494,
      "learning_rate": 0.00046466198363021043,
      "loss": 1.6713,
      "step": 28409
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4142467677593231,
      "learning_rate": 0.0004646532465478697,
      "loss": 1.6347,
      "step": 28410
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3964315950870514,
      "learning_rate": 0.0004646445092656644,
      "loss": 1.5958,
      "step": 28411
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4008197486400604,
      "learning_rate": 0.0004646357717836048,
      "loss": 1.6906,
      "step": 28412
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3996065855026245,
      "learning_rate": 0.0004646270341017017,
      "loss": 1.6449,
      "step": 28413
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40390679240226746,
      "learning_rate": 0.00046461829621996563,
      "loss": 1.7291,
      "step": 28414
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3971506655216217,
      "learning_rate": 0.0004646095581384072,
      "loss": 1.6741,
      "step": 28415
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39815831184387207,
      "learning_rate": 0.000464600819857037,
      "loss": 1.6621,
      "step": 28416
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4076945185661316,
      "learning_rate": 0.0004645920813758656,
      "loss": 1.6131,
      "step": 28417
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3994327485561371,
      "learning_rate": 0.0004645833426949038,
      "loss": 1.6526,
      "step": 28418
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3972170054912567,
      "learning_rate": 0.00046457460381416196,
      "loss": 1.6997,
      "step": 28419
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39900514483451843,
      "learning_rate": 0.0004645658647336508,
      "loss": 1.588,
      "step": 28420
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41907891631126404,
      "learning_rate": 0.000464557125453381,
      "loss": 1.6672,
      "step": 28421
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.397398442029953,
      "learning_rate": 0.0004645483859733631,
      "loss": 1.6666,
      "step": 28422
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41852566599845886,
      "learning_rate": 0.00046453964629360764,
      "loss": 1.6717,
      "step": 28423
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3971993327140808,
      "learning_rate": 0.0004645309064141254,
      "loss": 1.6328,
      "step": 28424
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40875259041786194,
      "learning_rate": 0.0004645221663349267,
      "loss": 1.7115,
      "step": 28425
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40213796496391296,
      "learning_rate": 0.0004645134260560225,
      "loss": 1.7041,
      "step": 28426
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41639286279678345,
      "learning_rate": 0.0004645046855774231,
      "loss": 1.6845,
      "step": 28427
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4000623822212219,
      "learning_rate": 0.0004644959448991394,
      "loss": 1.6921,
      "step": 28428
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.404032438993454,
      "learning_rate": 0.00046448720402118176,
      "loss": 1.644,
      "step": 28429
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40288060903549194,
      "learning_rate": 0.0004644784629435609,
      "loss": 1.698,
      "step": 28430
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4231775403022766,
      "learning_rate": 0.0004644697216662874,
      "loss": 1.7451,
      "step": 28431
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4055156409740448,
      "learning_rate": 0.0004644609801893719,
      "loss": 1.6251,
      "step": 28432
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4225882291793823,
      "learning_rate": 0.0004644522385128251,
      "loss": 1.7264,
      "step": 28433
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41194412112236023,
      "learning_rate": 0.00046444349663665746,
      "loss": 1.6427,
      "step": 28434
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38720792531967163,
      "learning_rate": 0.00046443475456087955,
      "loss": 1.5917,
      "step": 28435
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40592730045318604,
      "learning_rate": 0.00046442601228550225,
      "loss": 1.6463,
      "step": 28436
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41503268480300903,
      "learning_rate": 0.00046441726981053585,
      "loss": 1.7095,
      "step": 28437
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40634849667549133,
      "learning_rate": 0.00046440852713599114,
      "loss": 1.625,
      "step": 28438
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42580991983413696,
      "learning_rate": 0.00046439978426187874,
      "loss": 1.6396,
      "step": 28439
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3968064486980438,
      "learning_rate": 0.00046439104118820924,
      "loss": 1.6577,
      "step": 28440
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4023265242576599,
      "learning_rate": 0.0004643822979149932,
      "loss": 1.6181,
      "step": 28441
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39392560720443726,
      "learning_rate": 0.00046437355444224127,
      "loss": 1.6485,
      "step": 28442
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3967977464199066,
      "learning_rate": 0.0004643648107699641,
      "loss": 1.6578,
      "step": 28443
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4163881540298462,
      "learning_rate": 0.0004643560668981722,
      "loss": 1.6303,
      "step": 28444
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3979628384113312,
      "learning_rate": 0.00046434732282687633,
      "loss": 1.5917,
      "step": 28445
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4259755313396454,
      "learning_rate": 0.000464338578556087,
      "loss": 1.7315,
      "step": 28446
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4107022285461426,
      "learning_rate": 0.00046432983408581477,
      "loss": 1.6603,
      "step": 28447
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39957043528556824,
      "learning_rate": 0.0004643210894160704,
      "loss": 1.625,
      "step": 28448
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40558555722236633,
      "learning_rate": 0.0004643123445468645,
      "loss": 1.7257,
      "step": 28449
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42566201090812683,
      "learning_rate": 0.0004643035994782075,
      "loss": 1.7039,
      "step": 28450
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.45867452025413513,
      "learning_rate": 0.0004642948542101103,
      "loss": 1.668,
      "step": 28451
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3953896462917328,
      "learning_rate": 0.00046428610874258314,
      "loss": 1.6844,
      "step": 28452
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40937474370002747,
      "learning_rate": 0.00046427736307563697,
      "loss": 1.6596,
      "step": 28453
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3980692923069,
      "learning_rate": 0.0004642686172092824,
      "loss": 1.7248,
      "step": 28454
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3985018730163574,
      "learning_rate": 0.0004642598711435298,
      "loss": 1.5624,
      "step": 28455
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3992971181869507,
      "learning_rate": 0.00046425112487838996,
      "loss": 1.6193,
      "step": 28456
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3976253271102905,
      "learning_rate": 0.0004642423784138733,
      "loss": 1.6425,
      "step": 28457
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39991018176078796,
      "learning_rate": 0.0004642336317499908,
      "loss": 1.7243,
      "step": 28458
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40077510476112366,
      "learning_rate": 0.0004642248848867528,
      "loss": 1.6576,
      "step": 28459
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40795838832855225,
      "learning_rate": 0.0004642161378241699,
      "loss": 1.6621,
      "step": 28460
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39403975009918213,
      "learning_rate": 0.00046420739056225296,
      "loss": 1.568,
      "step": 28461
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4153071939945221,
      "learning_rate": 0.00046419864310101236,
      "loss": 1.7025,
      "step": 28462
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4169643521308899,
      "learning_rate": 0.0004641898954404588,
      "loss": 1.6222,
      "step": 28463
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41412270069122314,
      "learning_rate": 0.00046418114758060294,
      "loss": 1.637,
      "step": 28464
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40714049339294434,
      "learning_rate": 0.0004641723995214553,
      "loss": 1.6737,
      "step": 28465
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4017314612865448,
      "learning_rate": 0.0004641636512630266,
      "loss": 1.7469,
      "step": 28466
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39304229617118835,
      "learning_rate": 0.0004641549028053274,
      "loss": 1.7217,
      "step": 28467
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40876391530036926,
      "learning_rate": 0.00046414615414836836,
      "loss": 1.6387,
      "step": 28468
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4057580530643463,
      "learning_rate": 0.00046413740529216,
      "loss": 1.7088,
      "step": 28469
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4100659191608429,
      "learning_rate": 0.0004641286562367131,
      "loss": 1.6924,
      "step": 28470
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40850040316581726,
      "learning_rate": 0.0004641199069820381,
      "loss": 1.647,
      "step": 28471
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3942887783050537,
      "learning_rate": 0.0004641111575281458,
      "loss": 1.6945,
      "step": 28472
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39896467328071594,
      "learning_rate": 0.0004641024078750467,
      "loss": 1.743,
      "step": 28473
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3959834575653076,
      "learning_rate": 0.00046409365802275147,
      "loss": 1.679,
      "step": 28474
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4004485011100769,
      "learning_rate": 0.00046408490797127073,
      "loss": 1.6994,
      "step": 28475
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3968232572078705,
      "learning_rate": 0.00046407615772061506,
      "loss": 1.6333,
      "step": 28476
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3979714810848236,
      "learning_rate": 0.00046406740727079513,
      "loss": 1.6074,
      "step": 28477
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39697137475013733,
      "learning_rate": 0.0004640586566218216,
      "loss": 1.628,
      "step": 28478
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40293118357658386,
      "learning_rate": 0.0004640499057737049,
      "loss": 1.6345,
      "step": 28479
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40028810501098633,
      "learning_rate": 0.0004640411547264559,
      "loss": 1.7202,
      "step": 28480
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39594265818595886,
      "learning_rate": 0.00046403240348008503,
      "loss": 1.655,
      "step": 28481
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.44187626242637634,
      "learning_rate": 0.000464023652034603,
      "loss": 1.6662,
      "step": 28482
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4043457508087158,
      "learning_rate": 0.00046401490039002047,
      "loss": 1.6266,
      "step": 28483
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40782660245895386,
      "learning_rate": 0.00046400614854634795,
      "loss": 1.5745,
      "step": 28484
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3956267237663269,
      "learning_rate": 0.00046399739650359624,
      "loss": 1.68,
      "step": 28485
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42854321002960205,
      "learning_rate": 0.0004639886442617758,
      "loss": 1.6822,
      "step": 28486
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39581799507141113,
      "learning_rate": 0.0004639798918208973,
      "loss": 1.6665,
      "step": 28487
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40185457468032837,
      "learning_rate": 0.00046397113918097136,
      "loss": 1.6458,
      "step": 28488
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38220837712287903,
      "learning_rate": 0.00046396238634200857,
      "loss": 1.6242,
      "step": 28489
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40988317131996155,
      "learning_rate": 0.00046395363330401965,
      "loss": 1.6849,
      "step": 28490
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41976243257522583,
      "learning_rate": 0.0004639448800670152,
      "loss": 1.672,
      "step": 28491
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4034430980682373,
      "learning_rate": 0.00046393612663100584,
      "loss": 1.694,
      "step": 28492
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4001697599887848,
      "learning_rate": 0.00046392737299600213,
      "loss": 1.6038,
      "step": 28493
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38835057616233826,
      "learning_rate": 0.00046391861916201475,
      "loss": 1.7113,
      "step": 28494
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41015464067459106,
      "learning_rate": 0.00046390986512905437,
      "loss": 1.6947,
      "step": 28495
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3913753628730774,
      "learning_rate": 0.0004639011108971315,
      "loss": 1.6709,
      "step": 28496
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.413513720035553,
      "learning_rate": 0.00046389235646625683,
      "loss": 1.6615,
      "step": 28497
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40438196063041687,
      "learning_rate": 0.000463883601836441,
      "loss": 1.6902,
      "step": 28498
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4150746166706085,
      "learning_rate": 0.00046387484700769464,
      "loss": 1.7049,
      "step": 28499
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40716472268104553,
      "learning_rate": 0.0004638660919800283,
      "loss": 1.6779,
      "step": 28500
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40568676590919495,
      "learning_rate": 0.0004638573367534528,
      "loss": 1.5884,
      "step": 28501
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4104783236980438,
      "learning_rate": 0.00046384858132797853,
      "loss": 1.6229,
      "step": 28502
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3997773230075836,
      "learning_rate": 0.0004638398257036163,
      "loss": 1.6582,
      "step": 28503
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4049198031425476,
      "learning_rate": 0.00046383106988037655,
      "loss": 1.6138,
      "step": 28504
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42385759949684143,
      "learning_rate": 0.00046382231385827007,
      "loss": 1.7012,
      "step": 28505
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4102506935596466,
      "learning_rate": 0.0004638135576373075,
      "loss": 1.6433,
      "step": 28506
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4022843837738037,
      "learning_rate": 0.00046380480121749936,
      "loss": 1.6718,
      "step": 28507
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39913278818130493,
      "learning_rate": 0.00046379604459885634,
      "loss": 1.6687,
      "step": 28508
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.45006510615348816,
      "learning_rate": 0.00046378728778138906,
      "loss": 1.6888,
      "step": 28509
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39190933108329773,
      "learning_rate": 0.00046377853076510816,
      "loss": 1.6654,
      "step": 28510
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3901892304420471,
      "learning_rate": 0.0004637697735500242,
      "loss": 1.6278,
      "step": 28511
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3899708092212677,
      "learning_rate": 0.00046376101613614785,
      "loss": 1.6358,
      "step": 28512
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3975702226161957,
      "learning_rate": 0.0004637522585234898,
      "loss": 1.7241,
      "step": 28513
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4037036597728729,
      "learning_rate": 0.0004637435007120607,
      "loss": 1.6918,
      "step": 28514
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39063796401023865,
      "learning_rate": 0.000463734742701871,
      "loss": 1.6768,
      "step": 28515
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40322962403297424,
      "learning_rate": 0.0004637259844929315,
      "loss": 1.6914,
      "step": 28516
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3920583724975586,
      "learning_rate": 0.00046371722608525283,
      "loss": 1.6034,
      "step": 28517
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3920414447784424,
      "learning_rate": 0.00046370846747884547,
      "loss": 1.621,
      "step": 28518
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40292635560035706,
      "learning_rate": 0.00046369970867372016,
      "loss": 1.6469,
      "step": 28519
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4045954942703247,
      "learning_rate": 0.00046369094966988765,
      "loss": 1.6929,
      "step": 28520
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.401310533285141,
      "learning_rate": 0.00046368219046735834,
      "loss": 1.6321,
      "step": 28521
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4207420349121094,
      "learning_rate": 0.0004636734310661429,
      "loss": 1.6785,
      "step": 28522
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40499716997146606,
      "learning_rate": 0.00046366467146625215,
      "loss": 1.7252,
      "step": 28523
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4149099588394165,
      "learning_rate": 0.00046365591166769657,
      "loss": 1.709,
      "step": 28524
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39587458968162537,
      "learning_rate": 0.00046364715167048685,
      "loss": 1.649,
      "step": 28525
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3934398591518402,
      "learning_rate": 0.00046363839147463363,
      "loss": 1.679,
      "step": 28526
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4027843475341797,
      "learning_rate": 0.00046362963108014747,
      "loss": 1.637,
      "step": 28527
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4015170931816101,
      "learning_rate": 0.00046362087048703904,
      "loss": 1.6462,
      "step": 28528
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40929192304611206,
      "learning_rate": 0.0004636121096953189,
      "loss": 1.6541,
      "step": 28529
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4176594316959381,
      "learning_rate": 0.0004636033487049979,
      "loss": 1.6841,
      "step": 28530
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3935864567756653,
      "learning_rate": 0.00046359458751608646,
      "loss": 1.6562,
      "step": 28531
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4071792960166931,
      "learning_rate": 0.00046358582612859536,
      "loss": 1.6413,
      "step": 28532
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4180524945259094,
      "learning_rate": 0.0004635770645425351,
      "loss": 1.6916,
      "step": 28533
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4170871675014496,
      "learning_rate": 0.0004635683027579165,
      "loss": 1.6798,
      "step": 28534
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3935503363609314,
      "learning_rate": 0.00046355954077474996,
      "loss": 1.623,
      "step": 28535
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40166735649108887,
      "learning_rate": 0.0004635507785930463,
      "loss": 1.6522,
      "step": 28536
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41872742772102356,
      "learning_rate": 0.000463542016212816,
      "loss": 1.6926,
      "step": 28537
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4378795921802521,
      "learning_rate": 0.0004635332536340699,
      "loss": 1.7017,
      "step": 28538
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40462467074394226,
      "learning_rate": 0.0004635244908568185,
      "loss": 1.5978,
      "step": 28539
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3921937048435211,
      "learning_rate": 0.0004635157278810724,
      "loss": 1.6935,
      "step": 28540
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4030306041240692,
      "learning_rate": 0.0004635069647068424,
      "loss": 1.6818,
      "step": 28541
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39682537317276,
      "learning_rate": 0.00046349820133413894,
      "loss": 1.6704,
      "step": 28542
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4062218964099884,
      "learning_rate": 0.0004634894377629728,
      "loss": 1.6617,
      "step": 28543
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3962346613407135,
      "learning_rate": 0.0004634806739933545,
      "loss": 1.6792,
      "step": 28544
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4016106128692627,
      "learning_rate": 0.0004634719100252949,
      "loss": 1.6433,
      "step": 28545
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39777234196662903,
      "learning_rate": 0.0004634631458588044,
      "loss": 1.6764,
      "step": 28546
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39799270033836365,
      "learning_rate": 0.00046345438149389374,
      "loss": 1.6929,
      "step": 28547
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40021079778671265,
      "learning_rate": 0.0004634456169305735,
      "loss": 1.6396,
      "step": 28548
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.43612799048423767,
      "learning_rate": 0.0004634368521688544,
      "loss": 1.6539,
      "step": 28549
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40660274028778076,
      "learning_rate": 0.000463428087208747,
      "loss": 1.6541,
      "step": 28550
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41314831376075745,
      "learning_rate": 0.0004634193220502621,
      "loss": 1.6663,
      "step": 28551
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40915924310684204,
      "learning_rate": 0.0004634105566934101,
      "loss": 1.6988,
      "step": 28552
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.402596652507782,
      "learning_rate": 0.00046340179113820183,
      "loss": 1.6916,
      "step": 28553
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4062961935997009,
      "learning_rate": 0.0004633930253846479,
      "loss": 1.68,
      "step": 28554
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4227018654346466,
      "learning_rate": 0.00046338425943275887,
      "loss": 1.7124,
      "step": 28555
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40293335914611816,
      "learning_rate": 0.0004633754932825453,
      "loss": 1.6307,
      "step": 28556
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39459964632987976,
      "learning_rate": 0.00046336672693401813,
      "loss": 1.5778,
      "step": 28557
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6976885795593262,
      "learning_rate": 0.0004633579603871877,
      "loss": 1.7094,
      "step": 28558
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4127291440963745,
      "learning_rate": 0.0004633491936420648,
      "loss": 1.6195,
      "step": 28559
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.43800702691078186,
      "learning_rate": 0.0004633404266986601,
      "loss": 1.6768,
      "step": 28560
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40369996428489685,
      "learning_rate": 0.0004633316595569842,
      "loss": 1.6747,
      "step": 28561
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42363253235816956,
      "learning_rate": 0.0004633228922170477,
      "loss": 1.6312,
      "step": 28562
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39885324239730835,
      "learning_rate": 0.0004633141246788613,
      "loss": 1.6532,
      "step": 28563
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4020853042602539,
      "learning_rate": 0.0004633053569424355,
      "loss": 1.716,
      "step": 28564
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4233641028404236,
      "learning_rate": 0.00046329658900778117,
      "loss": 1.7114,
      "step": 28565
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3942946195602417,
      "learning_rate": 0.00046328782087490884,
      "loss": 1.6479,
      "step": 28566
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39167776703834534,
      "learning_rate": 0.00046327905254382913,
      "loss": 1.7065,
      "step": 28567
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41332682967185974,
      "learning_rate": 0.0004632702840145527,
      "loss": 1.6222,
      "step": 28568
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41798925399780273,
      "learning_rate": 0.00046326151528709015,
      "loss": 1.6484,
      "step": 28569
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40698421001434326,
      "learning_rate": 0.0004632527463614523,
      "loss": 1.6892,
      "step": 28570
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4055851399898529,
      "learning_rate": 0.0004632439772376496,
      "loss": 1.6616,
      "step": 28571
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.400363564491272,
      "learning_rate": 0.00046323520791569274,
      "loss": 1.701,
      "step": 28572
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40400850772857666,
      "learning_rate": 0.0004632264383955925,
      "loss": 1.6594,
      "step": 28573
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4027443528175354,
      "learning_rate": 0.0004632176686773593,
      "loss": 1.599,
      "step": 28574
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4036460816860199,
      "learning_rate": 0.00046320889876100393,
      "loss": 1.6245,
      "step": 28575
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4430144429206848,
      "learning_rate": 0.000463200128646537,
      "loss": 1.5809,
      "step": 28576
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38721194863319397,
      "learning_rate": 0.00046319135833396916,
      "loss": 1.6006,
      "step": 28577
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3978656232357025,
      "learning_rate": 0.0004631825878233111,
      "loss": 1.6411,
      "step": 28578
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3987809717655182,
      "learning_rate": 0.0004631738171145733,
      "loss": 1.7196,
      "step": 28579
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41430988907814026,
      "learning_rate": 0.0004631650462077667,
      "loss": 1.6407,
      "step": 28580
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39870163798332214,
      "learning_rate": 0.0004631562751029016,
      "loss": 1.5938,
      "step": 28581
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3962720036506653,
      "learning_rate": 0.00046314750379998894,
      "loss": 1.6561,
      "step": 28582
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.408694326877594,
      "learning_rate": 0.00046313873229903926,
      "loss": 1.6604,
      "step": 28583
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4213762581348419,
      "learning_rate": 0.00046312996060006315,
      "loss": 1.7032,
      "step": 28584
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4002677798271179,
      "learning_rate": 0.0004631211887030713,
      "loss": 1.6522,
      "step": 28585
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3983551263809204,
      "learning_rate": 0.0004631124166080744,
      "loss": 1.686,
      "step": 28586
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41382309794425964,
      "learning_rate": 0.00046310364431508303,
      "loss": 1.6728,
      "step": 28587
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40391841530799866,
      "learning_rate": 0.00046309487182410786,
      "loss": 1.6779,
      "step": 28588
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40706610679626465,
      "learning_rate": 0.0004630860991351596,
      "loss": 1.6905,
      "step": 28589
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4082331955432892,
      "learning_rate": 0.0004630773262482488,
      "loss": 1.6418,
      "step": 28590
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39680078625679016,
      "learning_rate": 0.00046306855316338605,
      "loss": 1.6443,
      "step": 28591
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4160860478878021,
      "learning_rate": 0.00046305977988058225,
      "loss": 1.6532,
      "step": 28592
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4028579294681549,
      "learning_rate": 0.0004630510063998479,
      "loss": 1.6831,
      "step": 28593
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40883854031562805,
      "learning_rate": 0.0004630422327211936,
      "loss": 1.6548,
      "step": 28594
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40481820702552795,
      "learning_rate": 0.0004630334588446301,
      "loss": 1.6406,
      "step": 28595
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3997017443180084,
      "learning_rate": 0.0004630246847701679,
      "loss": 1.6708,
      "step": 28596
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39662787318229675,
      "learning_rate": 0.0004630159104978178,
      "loss": 1.6836,
      "step": 28597
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4149828255176544,
      "learning_rate": 0.0004630071360275905,
      "loss": 1.6732,
      "step": 28598
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4079763889312744,
      "learning_rate": 0.0004629983613594964,
      "loss": 1.7537,
      "step": 28599
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39939358830451965,
      "learning_rate": 0.00046298958649354646,
      "loss": 1.6706,
      "step": 28600
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39900606870651245,
      "learning_rate": 0.0004629808114297511,
      "loss": 1.6061,
      "step": 28601
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40174418687820435,
      "learning_rate": 0.0004629720361681211,
      "loss": 1.7289,
      "step": 28602
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.397269070148468,
      "learning_rate": 0.000462963260708667,
      "loss": 1.6403,
      "step": 28603
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4026257395744324,
      "learning_rate": 0.00046295448505139945,
      "loss": 1.6536,
      "step": 28604
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3959093987941742,
      "learning_rate": 0.0004629457091963293,
      "loss": 1.5751,
      "step": 28605
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4073686897754669,
      "learning_rate": 0.000462936933143467,
      "loss": 1.6601,
      "step": 28606
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4092414677143097,
      "learning_rate": 0.0004629281568928233,
      "loss": 1.6716,
      "step": 28607
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4105985462665558,
      "learning_rate": 0.0004629193804444088,
      "loss": 1.5996,
      "step": 28608
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3953971564769745,
      "learning_rate": 0.00046291060379823415,
      "loss": 1.6711,
      "step": 28609
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4035102128982544,
      "learning_rate": 0.0004629018269543101,
      "loss": 1.7182,
      "step": 28610
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40706056356430054,
      "learning_rate": 0.0004628930499126472,
      "loss": 1.6611,
      "step": 28611
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4044268727302551,
      "learning_rate": 0.00046288427267325615,
      "loss": 1.7036,
      "step": 28612
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4112342596054077,
      "learning_rate": 0.0004628754952361475,
      "loss": 1.5821,
      "step": 28613
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3965488374233246,
      "learning_rate": 0.0004628667176013321,
      "loss": 1.6785,
      "step": 28614
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4000273048877716,
      "learning_rate": 0.0004628579397688205,
      "loss": 1.7162,
      "step": 28615
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39902451634407043,
      "learning_rate": 0.00046284916173862335,
      "loss": 1.6613,
      "step": 28616
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39800411462783813,
      "learning_rate": 0.0004628403835107513,
      "loss": 1.572,
      "step": 28617
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39776748418807983,
      "learning_rate": 0.00046283160508521503,
      "loss": 1.6622,
      "step": 28618
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4014735817909241,
      "learning_rate": 0.00046282282646202517,
      "loss": 1.6724,
      "step": 28619
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3971617519855499,
      "learning_rate": 0.00046281404764119245,
      "loss": 1.6737,
      "step": 28620
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40695667266845703,
      "learning_rate": 0.0004628052686227273,
      "loss": 1.7038,
      "step": 28621
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4017668664455414,
      "learning_rate": 0.00046279648940664067,
      "loss": 1.6918,
      "step": 28622
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4161313772201538,
      "learning_rate": 0.0004627877099929431,
      "loss": 1.6745,
      "step": 28623
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4094879627227783,
      "learning_rate": 0.0004627789303816452,
      "loss": 1.6763,
      "step": 28624
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39473119378089905,
      "learning_rate": 0.0004627701505727577,
      "loss": 1.6401,
      "step": 28625
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3949308395385742,
      "learning_rate": 0.00046276137056629115,
      "loss": 1.733,
      "step": 28626
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41364678740501404,
      "learning_rate": 0.0004627525903622563,
      "loss": 1.664,
      "step": 28627
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4169808328151703,
      "learning_rate": 0.00046274380996066386,
      "loss": 1.7243,
      "step": 28628
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4013713002204895,
      "learning_rate": 0.00046273502936152426,
      "loss": 1.5479,
      "step": 28629
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42131873965263367,
      "learning_rate": 0.0004627262485648485,
      "loss": 1.7182,
      "step": 28630
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4091755449771881,
      "learning_rate": 0.0004627174675706469,
      "loss": 1.6586,
      "step": 28631
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39078694581985474,
      "learning_rate": 0.0004627086863789303,
      "loss": 1.6815,
      "step": 28632
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40115490555763245,
      "learning_rate": 0.0004626999049897094,
      "loss": 1.6042,
      "step": 28633
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42740771174430847,
      "learning_rate": 0.00046269112340299474,
      "loss": 1.665,
      "step": 28634
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4015108346939087,
      "learning_rate": 0.000462682341618797,
      "loss": 1.6032,
      "step": 28635
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4128073453903198,
      "learning_rate": 0.0004626735596371269,
      "loss": 1.7022,
      "step": 28636
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3997795879840851,
      "learning_rate": 0.0004626647774579951,
      "loss": 1.6174,
      "step": 28637
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40246617794036865,
      "learning_rate": 0.0004626559950814122,
      "loss": 1.6843,
      "step": 28638
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40086597204208374,
      "learning_rate": 0.0004626472125073888,
      "loss": 1.6214,
      "step": 28639
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4137249290943146,
      "learning_rate": 0.00046263842973593577,
      "loss": 1.6489,
      "step": 28640
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41068166494369507,
      "learning_rate": 0.0004626296467670636,
      "loss": 1.6631,
      "step": 28641
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41489192843437195,
      "learning_rate": 0.0004626208636007831,
      "loss": 1.6801,
      "step": 28642
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40539032220840454,
      "learning_rate": 0.00046261208023710466,
      "loss": 1.6054,
      "step": 28643
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4004782736301422,
      "learning_rate": 0.0004626032966760393,
      "loss": 1.7077,
      "step": 28644
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4376012086868286,
      "learning_rate": 0.0004625945129175973,
      "loss": 1.7119,
      "step": 28645
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4225533902645111,
      "learning_rate": 0.0004625857289617896,
      "loss": 1.6857,
      "step": 28646
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4037782549858093,
      "learning_rate": 0.0004625769448086268,
      "loss": 1.6567,
      "step": 28647
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39319607615470886,
      "learning_rate": 0.00046256816045811956,
      "loss": 1.6965,
      "step": 28648
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3955383002758026,
      "learning_rate": 0.0004625593759102785,
      "loss": 1.6405,
      "step": 28649
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39890405535697937,
      "learning_rate": 0.0004625505911651143,
      "loss": 1.6113,
      "step": 28650
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3909860849380493,
      "learning_rate": 0.00046254180622263766,
      "loss": 1.6682,
      "step": 28651
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4070398509502411,
      "learning_rate": 0.0004625330210828592,
      "loss": 1.6256,
      "step": 28652
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4212625324726105,
      "learning_rate": 0.0004625242357457896,
      "loss": 1.6802,
      "step": 28653
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41900160908699036,
      "learning_rate": 0.00046251545021143957,
      "loss": 1.5919,
      "step": 28654
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4148795008659363,
      "learning_rate": 0.00046250666447981964,
      "loss": 1.7103,
      "step": 28655
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40100017189979553,
      "learning_rate": 0.00046249787855094063,
      "loss": 1.6327,
      "step": 28656
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3962879478931427,
      "learning_rate": 0.0004624890924248131,
      "loss": 1.6811,
      "step": 28657
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4148997962474823,
      "learning_rate": 0.0004624803061014478,
      "loss": 1.6754,
      "step": 28658
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3975549340248108,
      "learning_rate": 0.00046247151958085533,
      "loss": 1.6534,
      "step": 28659
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4064442217350006,
      "learning_rate": 0.00046246273286304636,
      "loss": 1.6781,
      "step": 28660
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40030544996261597,
      "learning_rate": 0.00046245394594803153,
      "loss": 1.5849,
      "step": 28661
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5087280869483948,
      "learning_rate": 0.00046244515883582163,
      "loss": 1.7003,
      "step": 28662
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4078793525695801,
      "learning_rate": 0.00046243637152642723,
      "loss": 1.7508,
      "step": 28663
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3919411599636078,
      "learning_rate": 0.00046242758401985896,
      "loss": 1.6766,
      "step": 28664
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40736281871795654,
      "learning_rate": 0.0004624187963161276,
      "loss": 1.6443,
      "step": 28665
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3960517346858978,
      "learning_rate": 0.00046241000841524367,
      "loss": 1.6325,
      "step": 28666
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41080036759376526,
      "learning_rate": 0.000462401220317218,
      "loss": 1.6825,
      "step": 28667
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41881200671195984,
      "learning_rate": 0.00046239243202206114,
      "loss": 1.6476,
      "step": 28668
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39979127049446106,
      "learning_rate": 0.00046238364352978374,
      "loss": 1.6465,
      "step": 28669
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4129384160041809,
      "learning_rate": 0.00046237485484039665,
      "loss": 1.6953,
      "step": 28670
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41853129863739014,
      "learning_rate": 0.0004623660659539103,
      "loss": 1.6688,
      "step": 28671
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39654526114463806,
      "learning_rate": 0.0004623572768703355,
      "loss": 1.6241,
      "step": 28672
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38844507932662964,
      "learning_rate": 0.0004623484875896829,
      "loss": 1.6193,
      "step": 28673
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39571836590766907,
      "learning_rate": 0.0004623396981119631,
      "loss": 1.6549,
      "step": 28674
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4085475206375122,
      "learning_rate": 0.00046233090843718697,
      "loss": 1.6775,
      "step": 28675
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40186643600463867,
      "learning_rate": 0.00046232211856536487,
      "loss": 1.653,
      "step": 28676
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41436484456062317,
      "learning_rate": 0.0004623133284965078,
      "loss": 1.6102,
      "step": 28677
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4003828167915344,
      "learning_rate": 0.00046230453823062616,
      "loss": 1.5592,
      "step": 28678
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4154779314994812,
      "learning_rate": 0.0004622957477677307,
      "loss": 1.6792,
      "step": 28679
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41276922821998596,
      "learning_rate": 0.0004622869571078322,
      "loss": 1.7079,
      "step": 28680
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4050523638725281,
      "learning_rate": 0.0004622781662509411,
      "loss": 1.6042,
      "step": 28681
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4246066212654114,
      "learning_rate": 0.00046226937519706836,
      "loss": 1.7529,
      "step": 28682
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39339008927345276,
      "learning_rate": 0.00046226058394622453,
      "loss": 1.6149,
      "step": 28683
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42637261748313904,
      "learning_rate": 0.0004622517924984201,
      "loss": 1.6904,
      "step": 28684
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4144955575466156,
      "learning_rate": 0.00046224300085366603,
      "loss": 1.6028,
      "step": 28685
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3897014856338501,
      "learning_rate": 0.00046223420901197283,
      "loss": 1.6545,
      "step": 28686
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42341214418411255,
      "learning_rate": 0.00046222541697335117,
      "loss": 1.6872,
      "step": 28687
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4326893985271454,
      "learning_rate": 0.0004622166247378118,
      "loss": 1.6429,
      "step": 28688
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42006006836891174,
      "learning_rate": 0.0004622078323053654,
      "loss": 1.6906,
      "step": 28689
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40718284249305725,
      "learning_rate": 0.00046219903967602256,
      "loss": 1.7479,
      "step": 28690
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40202492475509644,
      "learning_rate": 0.0004621902468497938,
      "loss": 1.5951,
      "step": 28691
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41640836000442505,
      "learning_rate": 0.0004621814538266902,
      "loss": 1.5804,
      "step": 28692
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40619584918022156,
      "learning_rate": 0.00046217266060672216,
      "loss": 1.6411,
      "step": 28693
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.41207069158554077,
      "learning_rate": 0.0004621638671899004,
      "loss": 1.7078,
      "step": 28694
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40339913964271545,
      "learning_rate": 0.00046215507357623555,
      "loss": 1.7056,
      "step": 28695
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4093388617038727,
      "learning_rate": 0.0004621462797657384,
      "loss": 1.6411,
      "step": 28696
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.42337897419929504,
      "learning_rate": 0.00046213748575841954,
      "loss": 1.6055,
      "step": 28697
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39042913913726807,
      "learning_rate": 0.00046212869155428965,
      "loss": 1.7498,
      "step": 28698
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.40298715233802795,
      "learning_rate": 0.0004621198971533594,
      "loss": 1.7135,
      "step": 28699
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.39964741468429565,
      "learning_rate": 0.00046211110255563946,
      "loss": 1.6463,
      "step": 28700
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.38988468050956726,
      "learning_rate": 0.00046210230776114056,
      "loss": 1.5782,
      "step": 28701
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7054311037063599,
      "learning_rate": 0.0004620935127698734,
      "loss": 1.7093,
      "step": 28702
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4024193584918976,
      "learning_rate": 0.00046208471758184846,
      "loss": 1.6448,
      "step": 28703
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4054216146469116,
      "learning_rate": 0.0004620759221970767,
      "loss": 1.6865,
      "step": 28704
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.402005136013031,
      "learning_rate": 0.0004620671266155686,
      "loss": 1.661,
      "step": 28705
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3860459625720978,
      "learning_rate": 0.0004620583308373349,
      "loss": 1.6151,
      "step": 28706
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4016755223274231,
      "learning_rate": 0.00046204953486238623,
      "loss": 1.7269,
      "step": 28707
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38823598623275757,
      "learning_rate": 0.0004620407386907333,
      "loss": 1.6636,
      "step": 28708
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4084700644016266,
      "learning_rate": 0.00046203194232238685,
      "loss": 1.6685,
      "step": 28709
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4061006009578705,
      "learning_rate": 0.00046202314575735746,
      "loss": 1.6524,
      "step": 28710
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4013749957084656,
      "learning_rate": 0.0004620143489956558,
      "loss": 1.7061,
      "step": 28711
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4056333601474762,
      "learning_rate": 0.0004620055520372926,
      "loss": 1.6797,
      "step": 28712
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3918268382549286,
      "learning_rate": 0.00046199675488227854,
      "loss": 1.6279,
      "step": 28713
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4250316619873047,
      "learning_rate": 0.00046198795753062426,
      "loss": 1.697,
      "step": 28714
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4109252989292145,
      "learning_rate": 0.0004619791599823406,
      "loss": 1.6983,
      "step": 28715
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4032420814037323,
      "learning_rate": 0.0004619703622374381,
      "loss": 1.686,
      "step": 28716
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42316511273384094,
      "learning_rate": 0.0004619615642959273,
      "loss": 1.6875,
      "step": 28717
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4518311321735382,
      "learning_rate": 0.0004619527661578191,
      "loss": 1.6908,
      "step": 28718
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4225407838821411,
      "learning_rate": 0.00046194396782312403,
      "loss": 1.7338,
      "step": 28719
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4201514422893524,
      "learning_rate": 0.000461935169291853,
      "loss": 1.6814,
      "step": 28720
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4230417013168335,
      "learning_rate": 0.00046192637056401636,
      "loss": 1.67,
      "step": 28721
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.43356868624687195,
      "learning_rate": 0.00046191757163962507,
      "loss": 1.7252,
      "step": 28722
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42026910185813904,
      "learning_rate": 0.0004619087725186897,
      "loss": 1.7149,
      "step": 28723
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41331392526626587,
      "learning_rate": 0.00046189997320122094,
      "loss": 1.7485,
      "step": 28724
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42665305733680725,
      "learning_rate": 0.00046189117368722945,
      "loss": 1.6561,
      "step": 28725
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42799586057662964,
      "learning_rate": 0.00046188237397672583,
      "loss": 1.6924,
      "step": 28726
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.44233036041259766,
      "learning_rate": 0.00046187357406972103,
      "loss": 1.6814,
      "step": 28727
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3936002850532532,
      "learning_rate": 0.00046186477396622545,
      "loss": 1.6354,
      "step": 28728
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42351973056793213,
      "learning_rate": 0.00046185597366625,
      "loss": 1.662,
      "step": 28729
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4246106743812561,
      "learning_rate": 0.0004618471731698052,
      "loss": 1.6743,
      "step": 28730
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42085039615631104,
      "learning_rate": 0.0004618383724769017,
      "loss": 1.627,
      "step": 28731
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.400970458984375,
      "learning_rate": 0.0004618295715875503,
      "loss": 1.6354,
      "step": 28732
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4384961426258087,
      "learning_rate": 0.00046182077050176167,
      "loss": 1.6964,
      "step": 28733
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4030407965183258,
      "learning_rate": 0.00046181196921954643,
      "loss": 1.6512,
      "step": 28734
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40012845396995544,
      "learning_rate": 0.0004618031677409153,
      "loss": 1.7118,
      "step": 28735
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4078819453716278,
      "learning_rate": 0.000461794366065879,
      "loss": 1.6573,
      "step": 28736
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40013113617897034,
      "learning_rate": 0.0004617855641944482,
      "loss": 1.6482,
      "step": 28737
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4081420302391052,
      "learning_rate": 0.0004617767621266335,
      "loss": 1.6927,
      "step": 28738
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.413490355014801,
      "learning_rate": 0.0004617679598624457,
      "loss": 1.6186,
      "step": 28739
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.388782799243927,
      "learning_rate": 0.00046175915740189545,
      "loss": 1.6523,
      "step": 28740
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4203333556652069,
      "learning_rate": 0.00046175035474499334,
      "loss": 1.6865,
      "step": 28741
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40982675552368164,
      "learning_rate": 0.0004617415518917502,
      "loss": 1.6607,
      "step": 28742
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41975581645965576,
      "learning_rate": 0.0004617327488421766,
      "loss": 1.7112,
      "step": 28743
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40887346863746643,
      "learning_rate": 0.0004617239455962833,
      "loss": 1.6818,
      "step": 28744
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40460851788520813,
      "learning_rate": 0.000461715142154081,
      "loss": 1.6845,
      "step": 28745
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42401954531669617,
      "learning_rate": 0.0004617063385155803,
      "loss": 1.692,
      "step": 28746
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3934299945831299,
      "learning_rate": 0.0004616975346807919,
      "loss": 1.6223,
      "step": 28747
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3995198905467987,
      "learning_rate": 0.0004616887306497265,
      "loss": 1.6331,
      "step": 28748
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.409321665763855,
      "learning_rate": 0.0004616799264223948,
      "loss": 1.6784,
      "step": 28749
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4273698329925537,
      "learning_rate": 0.0004616711219988077,
      "loss": 1.6921,
      "step": 28750
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4142848253250122,
      "learning_rate": 0.00046166231737897537,
      "loss": 1.5884,
      "step": 28751
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4709596335887909,
      "learning_rate": 0.000461653512562909,
      "loss": 1.6511,
      "step": 28752
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.403696745634079,
      "learning_rate": 0.00046164470755061905,
      "loss": 1.5743,
      "step": 28753
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4173201620578766,
      "learning_rate": 0.0004616359023421162,
      "loss": 1.6426,
      "step": 28754
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41840630769729614,
      "learning_rate": 0.00046162709693741127,
      "loss": 1.6212,
      "step": 28755
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3963176906108856,
      "learning_rate": 0.00046161829133651477,
      "loss": 1.6862,
      "step": 28756
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.43810221552848816,
      "learning_rate": 0.0004616094855394375,
      "loss": 1.6364,
      "step": 28757
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.44035303592681885,
      "learning_rate": 0.00046160067954619015,
      "loss": 1.6809,
      "step": 28758
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40649208426475525,
      "learning_rate": 0.0004615918733567834,
      "loss": 1.6162,
      "step": 28759
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5536487102508545,
      "learning_rate": 0.0004615830669712279,
      "loss": 1.6776,
      "step": 28760
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41381579637527466,
      "learning_rate": 0.0004615742603895343,
      "loss": 1.6087,
      "step": 28761
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42554575204849243,
      "learning_rate": 0.00046156545361171345,
      "loss": 1.6121,
      "step": 28762
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40502461791038513,
      "learning_rate": 0.00046155664663777583,
      "loss": 1.6349,
      "step": 28763
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.398052841424942,
      "learning_rate": 0.00046154783946773245,
      "loss": 1.6621,
      "step": 28764
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39892488718032837,
      "learning_rate": 0.00046153903210159364,
      "loss": 1.6149,
      "step": 28765
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39695361256599426,
      "learning_rate": 0.00046153022453937026,
      "loss": 1.6906,
      "step": 28766
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4006156325340271,
      "learning_rate": 0.00046152141678107303,
      "loss": 1.7016,
      "step": 28767
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.382598340511322,
      "learning_rate": 0.00046151260882671254,
      "loss": 1.6122,
      "step": 28768
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3979714512825012,
      "learning_rate": 0.00046150380067629956,
      "loss": 1.7164,
      "step": 28769
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4037134051322937,
      "learning_rate": 0.0004614949923298448,
      "loss": 1.6447,
      "step": 28770
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39851629734039307,
      "learning_rate": 0.0004614861837873589,
      "loss": 1.7169,
      "step": 28771
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6337541341781616,
      "learning_rate": 0.00046147737504885256,
      "loss": 1.6475,
      "step": 28772
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4187840223312378,
      "learning_rate": 0.0004614685661143365,
      "loss": 1.7521,
      "step": 28773
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4202408790588379,
      "learning_rate": 0.0004614597569838214,
      "loss": 1.7561,
      "step": 28774
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41647109389305115,
      "learning_rate": 0.00046145094765731793,
      "loss": 1.7268,
      "step": 28775
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40187257528305054,
      "learning_rate": 0.0004614421381348367,
      "loss": 1.7008,
      "step": 28776
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40167561173439026,
      "learning_rate": 0.0004614333284163886,
      "loss": 1.6638,
      "step": 28777
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40502625703811646,
      "learning_rate": 0.00046142451850198423,
      "loss": 1.6415,
      "step": 28778
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40340036153793335,
      "learning_rate": 0.00046141570839163426,
      "loss": 1.7098,
      "step": 28779
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3935587704181671,
      "learning_rate": 0.0004614068980853495,
      "loss": 1.6804,
      "step": 28780
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4083516299724579,
      "learning_rate": 0.00046139808758314036,
      "loss": 1.7309,
      "step": 28781
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41317033767700195,
      "learning_rate": 0.0004613892768850178,
      "loss": 1.635,
      "step": 28782
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4166902005672455,
      "learning_rate": 0.00046138046599099243,
      "loss": 1.669,
      "step": 28783
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4037751257419586,
      "learning_rate": 0.000461371654901075,
      "loss": 1.6507,
      "step": 28784
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3946763575077057,
      "learning_rate": 0.00046136284361527615,
      "loss": 1.6672,
      "step": 28785
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39747267961502075,
      "learning_rate": 0.00046135403213360657,
      "loss": 1.6265,
      "step": 28786
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4127965569496155,
      "learning_rate": 0.000461345220456077,
      "loss": 1.6086,
      "step": 28787
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5053990483283997,
      "learning_rate": 0.00046133640858269796,
      "loss": 1.6514,
      "step": 28788
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4116806983947754,
      "learning_rate": 0.0004613275965134805,
      "loss": 1.7351,
      "step": 28789
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3953399360179901,
      "learning_rate": 0.000461318784248435,
      "loss": 1.6355,
      "step": 28790
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40239641070365906,
      "learning_rate": 0.00046130997178757226,
      "loss": 1.6663,
      "step": 28791
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4220745265483856,
      "learning_rate": 0.00046130115913090296,
      "loss": 1.6586,
      "step": 28792
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40233540534973145,
      "learning_rate": 0.0004612923462784379,
      "loss": 1.6535,
      "step": 28793
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.412443071603775,
      "learning_rate": 0.00046128353323018765,
      "loss": 1.685,
      "step": 28794
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4115552306175232,
      "learning_rate": 0.000461274719986163,
      "loss": 1.7307,
      "step": 28795
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4106154143810272,
      "learning_rate": 0.00046126590654637457,
      "loss": 1.6499,
      "step": 28796
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4044959545135498,
      "learning_rate": 0.00046125709291083307,
      "loss": 1.6201,
      "step": 28797
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41752949357032776,
      "learning_rate": 0.00046124827907954917,
      "loss": 1.694,
      "step": 28798
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41502639651298523,
      "learning_rate": 0.0004612394650525337,
      "loss": 1.6402,
      "step": 28799
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.406330943107605,
      "learning_rate": 0.0004612306508297973,
      "loss": 1.6226,
      "step": 28800
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4053303301334381,
      "learning_rate": 0.00046122183641135066,
      "loss": 1.6701,
      "step": 28801
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40925538539886475,
      "learning_rate": 0.0004612130217972043,
      "loss": 1.6468,
      "step": 28802
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4078157842159271,
      "learning_rate": 0.0004612042069873692,
      "loss": 1.6087,
      "step": 28803
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41539180278778076,
      "learning_rate": 0.00046119539198185596,
      "loss": 1.6984,
      "step": 28804
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40799710154533386,
      "learning_rate": 0.00046118657678067534,
      "loss": 1.654,
      "step": 28805
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4000159204006195,
      "learning_rate": 0.00046117776138383777,
      "loss": 1.6586,
      "step": 28806
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4163304567337036,
      "learning_rate": 0.0004611689457913543,
      "loss": 1.7132,
      "step": 28807
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41169291734695435,
      "learning_rate": 0.00046116013000323545,
      "loss": 1.7032,
      "step": 28808
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4142603874206543,
      "learning_rate": 0.00046115131401949186,
      "loss": 1.7312,
      "step": 28809
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4046764373779297,
      "learning_rate": 0.0004611424978401344,
      "loss": 1.7194,
      "step": 28810
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41384169459342957,
      "learning_rate": 0.00046113368146517364,
      "loss": 1.6191,
      "step": 28811
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41039907932281494,
      "learning_rate": 0.0004611248648946204,
      "loss": 1.6231,
      "step": 28812
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41721203923225403,
      "learning_rate": 0.0004611160481284852,
      "loss": 1.681,
      "step": 28813
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38589218258857727,
      "learning_rate": 0.000461107231166779,
      "loss": 1.6438,
      "step": 28814
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4050239026546478,
      "learning_rate": 0.00046109841400951234,
      "loss": 1.6874,
      "step": 28815
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42378586530685425,
      "learning_rate": 0.00046108959665669587,
      "loss": 1.6861,
      "step": 28816
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41318055987358093,
      "learning_rate": 0.00046108077910834045,
      "loss": 1.6408,
      "step": 28817
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6315012574195862,
      "learning_rate": 0.00046107196136445654,
      "loss": 1.751,
      "step": 28818
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40351396799087524,
      "learning_rate": 0.00046106314342505514,
      "loss": 1.668,
      "step": 28819
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4144105315208435,
      "learning_rate": 0.00046105432529014673,
      "loss": 1.7641,
      "step": 28820
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40783071517944336,
      "learning_rate": 0.0004610455069597422,
      "loss": 1.6631,
      "step": 28821
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4213992655277252,
      "learning_rate": 0.0004610366884338521,
      "loss": 1.6904,
      "step": 28822
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4274863004684448,
      "learning_rate": 0.00046102786971248717,
      "loss": 1.7928,
      "step": 28823
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41557809710502625,
      "learning_rate": 0.00046101905079565816,
      "loss": 1.7123,
      "step": 28824
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4105931520462036,
      "learning_rate": 0.0004610102316833757,
      "loss": 1.7032,
      "step": 28825
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4007022976875305,
      "learning_rate": 0.00046100141237565066,
      "loss": 1.7243,
      "step": 28826
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4120806157588959,
      "learning_rate": 0.0004609925928724935,
      "loss": 1.6476,
      "step": 28827
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4122709631919861,
      "learning_rate": 0.0004609837731739151,
      "loss": 1.6569,
      "step": 28828
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4017210900783539,
      "learning_rate": 0.0004609749532799261,
      "loss": 1.7182,
      "step": 28829
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42696261405944824,
      "learning_rate": 0.00046096613319053726,
      "loss": 1.6896,
      "step": 28830
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4149894118309021,
      "learning_rate": 0.00046095731290575926,
      "loss": 1.7076,
      "step": 28831
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41406670212745667,
      "learning_rate": 0.00046094849242560277,
      "loss": 1.691,
      "step": 28832
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4043997824192047,
      "learning_rate": 0.0004609396717500785,
      "loss": 1.6917,
      "step": 28833
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4026598036289215,
      "learning_rate": 0.00046093085087919725,
      "loss": 1.6523,
      "step": 28834
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4080185294151306,
      "learning_rate": 0.0004609220298129696,
      "loss": 1.7229,
      "step": 28835
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39835357666015625,
      "learning_rate": 0.0004609132085514063,
      "loss": 1.6262,
      "step": 28836
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40167418122291565,
      "learning_rate": 0.00046090438709451816,
      "loss": 1.6609,
      "step": 28837
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3981728255748749,
      "learning_rate": 0.0004608955654423157,
      "loss": 1.6745,
      "step": 28838
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.410249799489975,
      "learning_rate": 0.00046088674359480984,
      "loss": 1.6701,
      "step": 28839
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7691715955734253,
      "learning_rate": 0.00046087792155201113,
      "loss": 1.6679,
      "step": 28840
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4053642749786377,
      "learning_rate": 0.0004608690993139303,
      "loss": 1.6278,
      "step": 28841
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40089431405067444,
      "learning_rate": 0.00046086027688057815,
      "loss": 1.6299,
      "step": 28842
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4010150730609894,
      "learning_rate": 0.0004608514542519652,
      "loss": 1.6484,
      "step": 28843
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4076799154281616,
      "learning_rate": 0.00046084263142810245,
      "loss": 1.6739,
      "step": 28844
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4092603623867035,
      "learning_rate": 0.00046083380840900034,
      "loss": 1.6644,
      "step": 28845
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3990062177181244,
      "learning_rate": 0.0004608249851946697,
      "loss": 1.6206,
      "step": 28846
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40203577280044556,
      "learning_rate": 0.00046081616178512123,
      "loss": 1.6645,
      "step": 28847
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4114232659339905,
      "learning_rate": 0.0004608073381803656,
      "loss": 1.679,
      "step": 28848
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.402686208486557,
      "learning_rate": 0.0004607985143804137,
      "loss": 1.6385,
      "step": 28849
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39452219009399414,
      "learning_rate": 0.00046078969038527593,
      "loss": 1.6971,
      "step": 28850
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40289801359176636,
      "learning_rate": 0.0004607808661949632,
      "loss": 1.7441,
      "step": 28851
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.410416841506958,
      "learning_rate": 0.0004607720418094862,
      "loss": 1.6972,
      "step": 28852
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4038221538066864,
      "learning_rate": 0.0004607632172288557,
      "loss": 1.6534,
      "step": 28853
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.400311142206192,
      "learning_rate": 0.00046075439245308225,
      "loss": 1.6558,
      "step": 28854
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40610024333000183,
      "learning_rate": 0.0004607455674821767,
      "loss": 1.6427,
      "step": 28855
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42201778292655945,
      "learning_rate": 0.0004607367423161497,
      "loss": 1.5536,
      "step": 28856
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4393772780895233,
      "learning_rate": 0.000460727916955012,
      "loss": 1.66,
      "step": 28857
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40450266003608704,
      "learning_rate": 0.00046071909139877424,
      "loss": 1.6384,
      "step": 28858
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4043901562690735,
      "learning_rate": 0.0004607102656474472,
      "loss": 1.5856,
      "step": 28859
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4051097333431244,
      "learning_rate": 0.00046070143970104163,
      "loss": 1.6888,
      "step": 28860
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39747923612594604,
      "learning_rate": 0.00046069261355956813,
      "loss": 1.5982,
      "step": 28861
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40036290884017944,
      "learning_rate": 0.00046068378722303755,
      "loss": 1.6188,
      "step": 28862
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.413425475358963,
      "learning_rate": 0.00046067496069146047,
      "loss": 1.622,
      "step": 28863
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40603259205818176,
      "learning_rate": 0.00046066613396484766,
      "loss": 1.6492,
      "step": 28864
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40356165170669556,
      "learning_rate": 0.0004606573070432098,
      "loss": 1.6519,
      "step": 28865
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4187683165073395,
      "learning_rate": 0.0004606484799265577,
      "loss": 1.7052,
      "step": 28866
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41573500633239746,
      "learning_rate": 0.0004606396526149021,
      "loss": 1.6983,
      "step": 28867
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42683660984039307,
      "learning_rate": 0.00046063082510825344,
      "loss": 1.6872,
      "step": 28868
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4032239317893982,
      "learning_rate": 0.00046062199740662277,
      "loss": 1.7229,
      "step": 28869
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4022076427936554,
      "learning_rate": 0.0004606131695100206,
      "loss": 1.687,
      "step": 28870
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4319518804550171,
      "learning_rate": 0.00046060434141845767,
      "loss": 1.6564,
      "step": 28871
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4137766659259796,
      "learning_rate": 0.00046059551313194487,
      "loss": 1.636,
      "step": 28872
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3957945704460144,
      "learning_rate": 0.0004605866846504926,
      "loss": 1.6027,
      "step": 28873
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39911794662475586,
      "learning_rate": 0.0004605778559741119,
      "loss": 1.574,
      "step": 28874
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4455479085445404,
      "learning_rate": 0.00046056902710281324,
      "loss": 1.6343,
      "step": 28875
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4061354100704193,
      "learning_rate": 0.0004605601980366075,
      "loss": 1.6907,
      "step": 28876
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8837637901306152,
      "learning_rate": 0.0004605513687755053,
      "loss": 1.6483,
      "step": 28877
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4043784737586975,
      "learning_rate": 0.00046054253931951747,
      "loss": 1.6523,
      "step": 28878
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4324755370616913,
      "learning_rate": 0.0004605337096686546,
      "loss": 1.7133,
      "step": 28879
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41667109727859497,
      "learning_rate": 0.0004605248798229275,
      "loss": 1.6358,
      "step": 28880
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40246614813804626,
      "learning_rate": 0.0004605160497823468,
      "loss": 1.7024,
      "step": 28881
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4001903831958771,
      "learning_rate": 0.0004605072195469232,
      "loss": 1.6617,
      "step": 28882
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4014795124530792,
      "learning_rate": 0.0004604983891166677,
      "loss": 1.649,
      "step": 28883
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40220731496810913,
      "learning_rate": 0.00046048955849159055,
      "loss": 1.6566,
      "step": 28884
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41340047121047974,
      "learning_rate": 0.0004604807276717029,
      "loss": 1.6502,
      "step": 28885
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4054137170314789,
      "learning_rate": 0.0004604718966570152,
      "loss": 1.6309,
      "step": 28886
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41581130027770996,
      "learning_rate": 0.0004604630654475383,
      "loss": 1.7106,
      "step": 28887
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40255266427993774,
      "learning_rate": 0.00046045423404328286,
      "loss": 1.6745,
      "step": 28888
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.403512179851532,
      "learning_rate": 0.0004604454024442597,
      "loss": 1.6801,
      "step": 28889
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40063270926475525,
      "learning_rate": 0.0004604365706504794,
      "loss": 1.5853,
      "step": 28890
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39495593309402466,
      "learning_rate": 0.00046042773866195275,
      "loss": 1.6775,
      "step": 28891
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4039878845214844,
      "learning_rate": 0.00046041890647869043,
      "loss": 1.5886,
      "step": 28892
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39745062589645386,
      "learning_rate": 0.0004604100741007032,
      "loss": 1.6832,
      "step": 28893
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41416797041893005,
      "learning_rate": 0.0004604012415280018,
      "loss": 1.6664,
      "step": 28894
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41705572605133057,
      "learning_rate": 0.00046039240876059694,
      "loss": 1.7352,
      "step": 28895
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39434951543807983,
      "learning_rate": 0.0004603835757984993,
      "loss": 1.6922,
      "step": 28896
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4166211187839508,
      "learning_rate": 0.0004603747426417197,
      "loss": 1.6696,
      "step": 28897
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39753299951553345,
      "learning_rate": 0.00046036590929026864,
      "loss": 1.6384,
      "step": 28898
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3982091248035431,
      "learning_rate": 0.00046035707574415715,
      "loss": 1.6622,
      "step": 28899
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38970327377319336,
      "learning_rate": 0.00046034824200339564,
      "loss": 1.641,
      "step": 28900
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.398301899433136,
      "learning_rate": 0.0004603394080679951,
      "loss": 1.5792,
      "step": 28901
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3886776566505432,
      "learning_rate": 0.00046033057393796617,
      "loss": 1.6179,
      "step": 28902
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3991530239582062,
      "learning_rate": 0.00046032173961331956,
      "loss": 1.6948,
      "step": 28903
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.43454647064208984,
      "learning_rate": 0.00046031290509406593,
      "loss": 1.5937,
      "step": 28904
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3994402587413788,
      "learning_rate": 0.00046030407038021595,
      "loss": 1.6322,
      "step": 28905
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5920299887657166,
      "learning_rate": 0.0004602952354717806,
      "loss": 1.6817,
      "step": 28906
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4214872419834137,
      "learning_rate": 0.0004602864003687705,
      "loss": 1.664,
      "step": 28907
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3941788971424103,
      "learning_rate": 0.0004602775650711961,
      "loss": 1.7073,
      "step": 28908
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41030386090278625,
      "learning_rate": 0.0004602687295790685,
      "loss": 1.7024,
      "step": 28909
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4011024534702301,
      "learning_rate": 0.0004602598938923983,
      "loss": 1.6465,
      "step": 28910
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4064655303955078,
      "learning_rate": 0.0004602510580111962,
      "loss": 1.6533,
      "step": 28911
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4099177122116089,
      "learning_rate": 0.00046024222193547285,
      "loss": 1.6297,
      "step": 28912
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5754711627960205,
      "learning_rate": 0.00046023338566523905,
      "loss": 1.6427,
      "step": 28913
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39917758107185364,
      "learning_rate": 0.0004602245492005056,
      "loss": 1.6256,
      "step": 28914
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.426260381937027,
      "learning_rate": 0.0004602157125412831,
      "loss": 1.6638,
      "step": 28915
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4167751967906952,
      "learning_rate": 0.0004602068756875824,
      "loss": 1.6437,
      "step": 28916
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41669192910194397,
      "learning_rate": 0.0004601980386394141,
      "loss": 1.6546,
      "step": 28917
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40536466240882874,
      "learning_rate": 0.000460189201396789,
      "loss": 1.7323,
      "step": 28918
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4088537096977234,
      "learning_rate": 0.0004601803639597178,
      "loss": 1.6763,
      "step": 28919
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4166542589664459,
      "learning_rate": 0.00046017152632821126,
      "loss": 1.7162,
      "step": 28920
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3915029466152191,
      "learning_rate": 0.00046016268850228005,
      "loss": 1.6309,
      "step": 28921
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3924236595630646,
      "learning_rate": 0.000460153850481935,
      "loss": 1.6665,
      "step": 28922
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4097384214401245,
      "learning_rate": 0.0004601450122671867,
      "loss": 1.6854,
      "step": 28923
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4015767574310303,
      "learning_rate": 0.00046013617385804606,
      "loss": 1.7111,
      "step": 28924
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4036928415298462,
      "learning_rate": 0.0004601273352545236,
      "loss": 1.6862,
      "step": 28925
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39003270864486694,
      "learning_rate": 0.0004601184964566302,
      "loss": 1.5807,
      "step": 28926
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3914945721626282,
      "learning_rate": 0.0004601096574643765,
      "loss": 1.6661,
      "step": 28927
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4118465781211853,
      "learning_rate": 0.00046010081827777325,
      "loss": 1.6955,
      "step": 28928
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4113905429840088,
      "learning_rate": 0.00046009197889683125,
      "loss": 1.6568,
      "step": 28929
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39421796798706055,
      "learning_rate": 0.0004600831393215611,
      "loss": 1.6831,
      "step": 28930
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39630627632141113,
      "learning_rate": 0.0004600742995519737,
      "loss": 1.6392,
      "step": 28931
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41820958256721497,
      "learning_rate": 0.0004600654595880797,
      "loss": 1.6869,
      "step": 28932
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4383721649646759,
      "learning_rate": 0.0004600566194298897,
      "loss": 1.5934,
      "step": 28933
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41391339898109436,
      "learning_rate": 0.0004600477790774146,
      "loss": 1.6653,
      "step": 28934
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39133381843566895,
      "learning_rate": 0.0004600389385306651,
      "loss": 1.6505,
      "step": 28935
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40782755613327026,
      "learning_rate": 0.00046003009778965197,
      "loss": 1.6499,
      "step": 28936
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3903382122516632,
      "learning_rate": 0.00046002125685438576,
      "loss": 1.5963,
      "step": 28937
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4114357531070709,
      "learning_rate": 0.0004600124157248773,
      "loss": 1.6382,
      "step": 28938
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40309813618659973,
      "learning_rate": 0.00046000357440113745,
      "loss": 1.646,
      "step": 28939
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39453428983688354,
      "learning_rate": 0.0004599947328831768,
      "loss": 1.6333,
      "step": 28940
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4065384566783905,
      "learning_rate": 0.0004599858911710061,
      "loss": 1.6178,
      "step": 28941
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40159547328948975,
      "learning_rate": 0.00045997704926463613,
      "loss": 1.5842,
      "step": 28942
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4138124883174896,
      "learning_rate": 0.0004599682071640776,
      "loss": 1.7149,
      "step": 28943
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4082827866077423,
      "learning_rate": 0.0004599593648693412,
      "loss": 1.6475,
      "step": 28944
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41732364892959595,
      "learning_rate": 0.0004599505223804377,
      "loss": 1.6495,
      "step": 28945
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3957134783267975,
      "learning_rate": 0.0004599416796973779,
      "loss": 1.7209,
      "step": 28946
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4047980308532715,
      "learning_rate": 0.0004599328368201724,
      "loss": 1.574,
      "step": 28947
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4081874489784241,
      "learning_rate": 0.00045992399374883197,
      "loss": 1.7706,
      "step": 28948
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4170473515987396,
      "learning_rate": 0.00045991515048336755,
      "loss": 1.6871,
      "step": 28949
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3990318179130554,
      "learning_rate": 0.0004599063070237896,
      "loss": 1.6419,
      "step": 28950
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4068419337272644,
      "learning_rate": 0.00045989746337010885,
      "loss": 1.6619,
      "step": 28951
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41589245200157166,
      "learning_rate": 0.0004598886195223362,
      "loss": 1.6942,
      "step": 28952
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3984023630619049,
      "learning_rate": 0.00045987977548048235,
      "loss": 1.6324,
      "step": 28953
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4065152108669281,
      "learning_rate": 0.00045987093124455806,
      "loss": 1.6252,
      "step": 28954
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.435756117105484,
      "learning_rate": 0.0004598620868145739,
      "loss": 1.6385,
      "step": 28955
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41532808542251587,
      "learning_rate": 0.0004598532421905409,
      "loss": 1.6969,
      "step": 28956
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.388778954744339,
      "learning_rate": 0.00045984439737246945,
      "loss": 1.6729,
      "step": 28957
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4182921350002289,
      "learning_rate": 0.0004598355523603704,
      "loss": 1.6451,
      "step": 28958
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4125947654247284,
      "learning_rate": 0.00045982670715425473,
      "loss": 1.6136,
      "step": 28959
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39834895730018616,
      "learning_rate": 0.00045981786175413285,
      "loss": 1.609,
      "step": 28960
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4155891537666321,
      "learning_rate": 0.00045980901616001575,
      "loss": 1.6354,
      "step": 28961
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4182983636856079,
      "learning_rate": 0.00045980017037191385,
      "loss": 1.6222,
      "step": 28962
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.399080753326416,
      "learning_rate": 0.00045979132438983837,
      "loss": 1.6944,
      "step": 28963
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39082297682762146,
      "learning_rate": 0.0004597824782137996,
      "loss": 1.6182,
      "step": 28964
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40787985920906067,
      "learning_rate": 0.00045977363184380836,
      "loss": 1.6355,
      "step": 28965
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40299221873283386,
      "learning_rate": 0.0004597647852798756,
      "loss": 1.6568,
      "step": 28966
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4218006432056427,
      "learning_rate": 0.0004597559385220119,
      "loss": 1.7685,
      "step": 28967
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39290720224380493,
      "learning_rate": 0.00045974709157022806,
      "loss": 1.6678,
      "step": 28968
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3867141008377075,
      "learning_rate": 0.0004597382444245348,
      "loss": 1.6454,
      "step": 28969
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39911434054374695,
      "learning_rate": 0.0004597293970849428,
      "loss": 1.6923,
      "step": 28970
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4037363529205322,
      "learning_rate": 0.0004597205495514628,
      "loss": 1.6826,
      "step": 28971
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4128141403198242,
      "learning_rate": 0.0004597117018241057,
      "loss": 1.6558,
      "step": 28972
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41943973302841187,
      "learning_rate": 0.0004597028539028821,
      "loss": 1.7348,
      "step": 28973
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4194461405277252,
      "learning_rate": 0.0004596940057878027,
      "loss": 1.6628,
      "step": 28974
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39524754881858826,
      "learning_rate": 0.00045968515747887834,
      "loss": 1.6766,
      "step": 28975
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40946125984191895,
      "learning_rate": 0.00045967630897611976,
      "loss": 1.6788,
      "step": 28976
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39464545249938965,
      "learning_rate": 0.0004596674602795376,
      "loss": 1.6212,
      "step": 28977
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39971962571144104,
      "learning_rate": 0.0004596586113891427,
      "loss": 1.6443,
      "step": 28978
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.419080525636673,
      "learning_rate": 0.00045964976230494585,
      "loss": 1.6676,
      "step": 28979
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.42438793182373047,
      "learning_rate": 0.0004596409130269576,
      "loss": 1.6324,
      "step": 28980
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4125400483608246,
      "learning_rate": 0.0004596320635551889,
      "loss": 1.6029,
      "step": 28981
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4077555239200592,
      "learning_rate": 0.00045962321388965034,
      "loss": 1.632,
      "step": 28982
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4098109304904938,
      "learning_rate": 0.00045961436403035274,
      "loss": 1.6885,
      "step": 28983
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.408136248588562,
      "learning_rate": 0.00045960551397730676,
      "loss": 1.6223,
      "step": 28984
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39852333068847656,
      "learning_rate": 0.0004595966637305232,
      "loss": 1.6785,
      "step": 28985
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.40065792202949524,
      "learning_rate": 0.0004595878132900129,
      "loss": 1.6226,
      "step": 28986
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39127278327941895,
      "learning_rate": 0.00045957896265578645,
      "loss": 1.6304,
      "step": 28987
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3938656449317932,
      "learning_rate": 0.0004595701118278546,
      "loss": 1.6941,
      "step": 28988
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4116305708885193,
      "learning_rate": 0.0004595612608062283,
      "loss": 1.6209,
      "step": 28989
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41014131903648376,
      "learning_rate": 0.000459552409590918,
      "loss": 1.6336,
      "step": 28990
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4235646426677704,
      "learning_rate": 0.0004595435581819347,
      "loss": 1.6896,
      "step": 28991
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4097377061843872,
      "learning_rate": 0.0004595347065792889,
      "loss": 1.6194,
      "step": 28992
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41600263118743896,
      "learning_rate": 0.0004595258547829915,
      "loss": 1.663,
      "step": 28993
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4032639265060425,
      "learning_rate": 0.0004595170027930532,
      "loss": 1.711,
      "step": 28994
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41193604469299316,
      "learning_rate": 0.00045950815060948486,
      "loss": 1.6958,
      "step": 28995
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.41446200013160706,
      "learning_rate": 0.0004594992982322971,
      "loss": 1.5697,
      "step": 28996
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4545421600341797,
      "learning_rate": 0.0004594904456615006,
      "loss": 1.6243,
      "step": 28997
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39384666085243225,
      "learning_rate": 0.00045948159289710633,
      "loss": 1.6626,
      "step": 28998
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4028613567352295,
      "learning_rate": 0.00045947273993912483,
      "loss": 1.5903,
      "step": 28999
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4127218723297119,
      "learning_rate": 0.0004594638867875669,
      "loss": 1.6994,
      "step": 29000
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.39901721477508545,
      "learning_rate": 0.00045945503344244337,
      "loss": 1.7016,
      "step": 29001
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4010474383831024,
      "learning_rate": 0.00045944617990376486,
      "loss": 1.6183,
      "step": 29002
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4166612923145294,
      "learning_rate": 0.00045943732617154223,
      "loss": 1.643,
      "step": 29003
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4276949465274811,
      "learning_rate": 0.00045942847224578616,
      "loss": 1.7227,
      "step": 29004
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4244028329849243,
      "learning_rate": 0.0004594196181265074,
      "loss": 1.7032,
      "step": 29005
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.405102014541626,
      "learning_rate": 0.00045941076381371675,
      "loss": 1.6471,
      "step": 29006
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4097765386104584,
      "learning_rate": 0.00045940190930742494,
      "loss": 1.7371,
      "step": 29007
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40399089455604553,
      "learning_rate": 0.0004593930546076426,
      "loss": 1.7293,
      "step": 29008
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40148282051086426,
      "learning_rate": 0.00045938419971438074,
      "loss": 1.6116,
      "step": 29009
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42581164836883545,
      "learning_rate": 0.0004593753446276497,
      "loss": 1.6785,
      "step": 29010
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4021739661693573,
      "learning_rate": 0.0004593664893474607,
      "loss": 1.6253,
      "step": 29011
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4189947843551636,
      "learning_rate": 0.0004593576338738242,
      "loss": 1.6745,
      "step": 29012
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4130692481994629,
      "learning_rate": 0.00045934877820675093,
      "loss": 1.735,
      "step": 29013
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4217226803302765,
      "learning_rate": 0.0004593399223462519,
      "loss": 1.6525,
      "step": 29014
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3981582224369049,
      "learning_rate": 0.0004593310662923375,
      "loss": 1.6541,
      "step": 29015
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39989128708839417,
      "learning_rate": 0.0004593222100450187,
      "loss": 1.6669,
      "step": 29016
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4001949429512024,
      "learning_rate": 0.0004593133536043062,
      "loss": 1.5885,
      "step": 29017
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3992311954498291,
      "learning_rate": 0.00045930449697021087,
      "loss": 1.6969,
      "step": 29018
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4112614393234253,
      "learning_rate": 0.0004592956401427433,
      "loss": 1.6262,
      "step": 29019
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3948791027069092,
      "learning_rate": 0.0004592867831219143,
      "loss": 1.7161,
      "step": 29020
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3883064389228821,
      "learning_rate": 0.0004592779259077346,
      "loss": 1.571,
      "step": 29021
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4014666974544525,
      "learning_rate": 0.0004592690685002149,
      "loss": 1.6881,
      "step": 29022
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42705652117729187,
      "learning_rate": 0.00045926021089936613,
      "loss": 1.7352,
      "step": 29023
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.405859112739563,
      "learning_rate": 0.0004592513531051989,
      "loss": 1.6614,
      "step": 29024
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39490315318107605,
      "learning_rate": 0.0004592424951177239,
      "loss": 1.6692,
      "step": 29025
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4065183401107788,
      "learning_rate": 0.0004592336369369521,
      "loss": 1.673,
      "step": 29026
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3949131965637207,
      "learning_rate": 0.00045922477856289405,
      "loss": 1.6054,
      "step": 29027
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5088357329368591,
      "learning_rate": 0.00045921591999556065,
      "loss": 1.6608,
      "step": 29028
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40815627574920654,
      "learning_rate": 0.0004592070612349625,
      "loss": 1.6943,
      "step": 29029
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4029220938682556,
      "learning_rate": 0.00045919820228111055,
      "loss": 1.6696,
      "step": 29030
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4204043745994568,
      "learning_rate": 0.00045918934313401527,
      "loss": 1.6974,
      "step": 29031
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3868122100830078,
      "learning_rate": 0.0004591804837936877,
      "loss": 1.6597,
      "step": 29032
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40151968598365784,
      "learning_rate": 0.00045917162426013845,
      "loss": 1.7157,
      "step": 29033
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4001564681529999,
      "learning_rate": 0.0004591627645333784,
      "loss": 1.7083,
      "step": 29034
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4100508391857147,
      "learning_rate": 0.000459153904613418,
      "loss": 1.6131,
      "step": 29035
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40005820989608765,
      "learning_rate": 0.0004591450445002683,
      "loss": 1.6445,
      "step": 29036
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39983949065208435,
      "learning_rate": 0.00045913618419394,
      "loss": 1.6608,
      "step": 29037
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3903360664844513,
      "learning_rate": 0.00045912732369444385,
      "loss": 1.6602,
      "step": 29038
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4280809164047241,
      "learning_rate": 0.0004591184630017905,
      "loss": 1.6992,
      "step": 29039
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41846415400505066,
      "learning_rate": 0.00045910960211599077,
      "loss": 1.73,
      "step": 29040
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4079175889492035,
      "learning_rate": 0.0004591007410370555,
      "loss": 1.6955,
      "step": 29041
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3980400562286377,
      "learning_rate": 0.00045909187976499535,
      "loss": 1.6823,
      "step": 29042
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5505424737930298,
      "learning_rate": 0.000459083018299821,
      "loss": 1.6252,
      "step": 29043
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40680795907974243,
      "learning_rate": 0.0004590741566415435,
      "loss": 1.669,
      "step": 29044
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4134058952331543,
      "learning_rate": 0.00045906529479017327,
      "loss": 1.6577,
      "step": 29045
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4209461510181427,
      "learning_rate": 0.00045905643274572126,
      "loss": 1.6679,
      "step": 29046
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4079327881336212,
      "learning_rate": 0.0004590475705081981,
      "loss": 1.6609,
      "step": 29047
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40916624665260315,
      "learning_rate": 0.00045903870807761476,
      "loss": 1.6824,
      "step": 29048
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3983239531517029,
      "learning_rate": 0.0004590298454539818,
      "loss": 1.6638,
      "step": 29049
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39816686511039734,
      "learning_rate": 0.00045902098263730993,
      "loss": 1.6739,
      "step": 29050
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40219980478286743,
      "learning_rate": 0.0004590121196276102,
      "loss": 1.682,
      "step": 29051
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39565688371658325,
      "learning_rate": 0.000459003256424893,
      "loss": 1.6687,
      "step": 29052
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3957982659339905,
      "learning_rate": 0.0004589943930291695,
      "loss": 1.5914,
      "step": 29053
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4303912818431854,
      "learning_rate": 0.0004589855294404501,
      "loss": 1.6658,
      "step": 29054
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38785839080810547,
      "learning_rate": 0.00045897666565874567,
      "loss": 1.5819,
      "step": 29055
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40109214186668396,
      "learning_rate": 0.000458967801684067,
      "loss": 1.6932,
      "step": 29056
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.400301456451416,
      "learning_rate": 0.0004589589375164249,
      "loss": 1.6371,
      "step": 29057
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40236562490463257,
      "learning_rate": 0.00045895007315583004,
      "loss": 1.6729,
      "step": 29058
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4024358093738556,
      "learning_rate": 0.00045894120860229324,
      "loss": 1.63,
      "step": 29059
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3890330195426941,
      "learning_rate": 0.0004589323438558251,
      "loss": 1.6434,
      "step": 29060
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5989699959754944,
      "learning_rate": 0.00045892347891643664,
      "loss": 1.6231,
      "step": 29061
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4309222400188446,
      "learning_rate": 0.00045891461378413847,
      "loss": 1.6589,
      "step": 29062
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4036512076854706,
      "learning_rate": 0.0004589057484589414,
      "loss": 1.6429,
      "step": 29063
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3993450403213501,
      "learning_rate": 0.0004588968829408562,
      "loss": 1.6655,
      "step": 29064
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4170873165130615,
      "learning_rate": 0.0004588880172298934,
      "loss": 1.6359,
      "step": 29065
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.43686187267303467,
      "learning_rate": 0.00045887915132606413,
      "loss": 1.7392,
      "step": 29066
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40992993116378784,
      "learning_rate": 0.0004588702852293789,
      "loss": 1.6368,
      "step": 29067
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42913535237312317,
      "learning_rate": 0.0004588614189398486,
      "loss": 1.7096,
      "step": 29068
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4121546149253845,
      "learning_rate": 0.0004588525524574839,
      "loss": 1.6943,
      "step": 29069
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42586180567741394,
      "learning_rate": 0.0004588436857822957,
      "loss": 1.6622,
      "step": 29070
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41781580448150635,
      "learning_rate": 0.00045883481891429464,
      "loss": 1.733,
      "step": 29071
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40851712226867676,
      "learning_rate": 0.0004588259518534914,
      "loss": 1.682,
      "step": 29072
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3908558785915375,
      "learning_rate": 0.000458817084599897,
      "loss": 1.6018,
      "step": 29073
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39659446477890015,
      "learning_rate": 0.00045880821715352195,
      "loss": 1.6946,
      "step": 29074
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4454538822174072,
      "learning_rate": 0.0004587993495143772,
      "loss": 1.6182,
      "step": 29075
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4147675633430481,
      "learning_rate": 0.0004587904816824735,
      "loss": 1.6848,
      "step": 29076
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39880070090293884,
      "learning_rate": 0.00045878161365782135,
      "loss": 1.6336,
      "step": 29077
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4173088073730469,
      "learning_rate": 0.0004587727454404319,
      "loss": 1.617,
      "step": 29078
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4245058000087738,
      "learning_rate": 0.0004587638770303156,
      "loss": 1.7777,
      "step": 29079
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.404401570558548,
      "learning_rate": 0.0004587550084274834,
      "loss": 1.611,
      "step": 29080
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41940727829933167,
      "learning_rate": 0.00045874613963194604,
      "loss": 1.7127,
      "step": 29081
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3946355879306793,
      "learning_rate": 0.0004587372706437143,
      "loss": 1.6568,
      "step": 29082
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.5558900833129883,
      "learning_rate": 0.00045872840146279887,
      "loss": 1.7299,
      "step": 29083
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40715935826301575,
      "learning_rate": 0.00045871953208921043,
      "loss": 1.6346,
      "step": 29084
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4006318747997284,
      "learning_rate": 0.00045871066252296,
      "loss": 1.683,
      "step": 29085
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.410739004611969,
      "learning_rate": 0.00045870179276405807,
      "loss": 1.6657,
      "step": 29086
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41246354579925537,
      "learning_rate": 0.00045869292281251566,
      "loss": 1.6705,
      "step": 29087
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.44832539558410645,
      "learning_rate": 0.0004586840526683434,
      "loss": 1.7237,
      "step": 29088
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4048381745815277,
      "learning_rate": 0.0004586751823315521,
      "loss": 1.6633,
      "step": 29089
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4018785059452057,
      "learning_rate": 0.0004586663118021525,
      "loss": 1.7169,
      "step": 29090
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4056050479412079,
      "learning_rate": 0.0004586574410801554,
      "loss": 1.6687,
      "step": 29091
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40329498052597046,
      "learning_rate": 0.00045864857016557147,
      "loss": 1.6509,
      "step": 29092
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3866041898727417,
      "learning_rate": 0.00045863969905841163,
      "loss": 1.6826,
      "step": 29093
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3990786075592041,
      "learning_rate": 0.00045863082775868654,
      "loss": 1.715,
      "step": 29094
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4632166028022766,
      "learning_rate": 0.0004586219562664069,
      "loss": 1.6714,
      "step": 29095
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39489030838012695,
      "learning_rate": 0.0004586130845815838,
      "loss": 1.6707,
      "step": 29096
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4076796770095825,
      "learning_rate": 0.0004586042127042276,
      "loss": 1.6318,
      "step": 29097
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3933757543563843,
      "learning_rate": 0.0004585953406343493,
      "loss": 1.6136,
      "step": 29098
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4111565351486206,
      "learning_rate": 0.00045858646837195963,
      "loss": 1.6238,
      "step": 29099
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3989226818084717,
      "learning_rate": 0.0004585775959170694,
      "loss": 1.6867,
      "step": 29100
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.48111554980278015,
      "learning_rate": 0.0004585687232696893,
      "loss": 1.6813,
      "step": 29101
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4120206832885742,
      "learning_rate": 0.00045855985042983006,
      "loss": 1.6451,
      "step": 29102
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42384830117225647,
      "learning_rate": 0.0004585509773975026,
      "loss": 1.7966,
      "step": 29103
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4086875915527344,
      "learning_rate": 0.00045854210417271764,
      "loss": 1.6154,
      "step": 29104
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41142532229423523,
      "learning_rate": 0.0004585332307554858,
      "loss": 1.6388,
      "step": 29105
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4058137834072113,
      "learning_rate": 0.0004585243571458181,
      "loss": 1.6909,
      "step": 29106
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3925759196281433,
      "learning_rate": 0.0004585154833437251,
      "loss": 1.6242,
      "step": 29107
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4305677115917206,
      "learning_rate": 0.0004585066093492178,
      "loss": 1.6782,
      "step": 29108
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4025569558143616,
      "learning_rate": 0.0004584977351623067,
      "loss": 1.6265,
      "step": 29109
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3949398994445801,
      "learning_rate": 0.00045848886078300277,
      "loss": 1.6104,
      "step": 29110
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3858368992805481,
      "learning_rate": 0.0004584799862113167,
      "loss": 1.6009,
      "step": 29111
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42353859543800354,
      "learning_rate": 0.00045847111144725925,
      "loss": 1.7272,
      "step": 29112
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4016386866569519,
      "learning_rate": 0.0004584622364908412,
      "loss": 1.6111,
      "step": 29113
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40136051177978516,
      "learning_rate": 0.0004584533613420734,
      "loss": 1.6863,
      "step": 29114
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4079453647136688,
      "learning_rate": 0.0004584444860009666,
      "loss": 1.7315,
      "step": 29115
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38967281579971313,
      "learning_rate": 0.00045843561046753154,
      "loss": 1.7015,
      "step": 29116
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39021003246307373,
      "learning_rate": 0.00045842673474177887,
      "loss": 1.6501,
      "step": 29117
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40927353501319885,
      "learning_rate": 0.0004584178588237196,
      "loss": 1.6365,
      "step": 29118
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3998471796512604,
      "learning_rate": 0.0004584089827133643,
      "loss": 1.6363,
      "step": 29119
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4026016891002655,
      "learning_rate": 0.00045840010641072385,
      "loss": 1.6573,
      "step": 29120
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4057619273662567,
      "learning_rate": 0.0004583912299158091,
      "loss": 1.6479,
      "step": 29121
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38984566926956177,
      "learning_rate": 0.0004583823532286307,
      "loss": 1.58,
      "step": 29122
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3948586583137512,
      "learning_rate": 0.00045837347634919944,
      "loss": 1.6557,
      "step": 29123
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3970758020877838,
      "learning_rate": 0.00045836459927752615,
      "loss": 1.6464,
      "step": 29124
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39717066287994385,
      "learning_rate": 0.0004583557220136215,
      "loss": 1.6446,
      "step": 29125
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41347387433052063,
      "learning_rate": 0.00045834684455749636,
      "loss": 1.6937,
      "step": 29126
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4161847233772278,
      "learning_rate": 0.0004583379669091615,
      "loss": 1.6463,
      "step": 29127
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39997124671936035,
      "learning_rate": 0.0004583290890686277,
      "loss": 1.6031,
      "step": 29128
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40658947825431824,
      "learning_rate": 0.00045832021103590567,
      "loss": 1.6979,
      "step": 29129
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4002433717250824,
      "learning_rate": 0.0004583113328110062,
      "loss": 1.646,
      "step": 29130
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41567182540893555,
      "learning_rate": 0.0004583024543939402,
      "loss": 1.7085,
      "step": 29131
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4141046702861786,
      "learning_rate": 0.0004582935757847182,
      "loss": 1.6521,
      "step": 29132
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3971434235572815,
      "learning_rate": 0.0004582846969833513,
      "loss": 1.7057,
      "step": 29133
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4035874605178833,
      "learning_rate": 0.0004582758179898499,
      "loss": 1.6304,
      "step": 29134
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.43204042315483093,
      "learning_rate": 0.0004582669388042252,
      "loss": 1.6609,
      "step": 29135
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8584900498390198,
      "learning_rate": 0.0004582580594264876,
      "loss": 1.655,
      "step": 29136
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4217871129512787,
      "learning_rate": 0.0004582491798566481,
      "loss": 1.6534,
      "step": 29137
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41687560081481934,
      "learning_rate": 0.00045824030009471747,
      "loss": 1.6938,
      "step": 29138
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42098337411880493,
      "learning_rate": 0.00045823142014070627,
      "loss": 1.7226,
      "step": 29139
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41993820667266846,
      "learning_rate": 0.00045822253999462556,
      "loss": 1.6152,
      "step": 29140
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42364177107810974,
      "learning_rate": 0.00045821365965648597,
      "loss": 1.6938,
      "step": 29141
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42192932963371277,
      "learning_rate": 0.0004582047791262983,
      "loss": 1.7021,
      "step": 29142
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39799973368644714,
      "learning_rate": 0.00045819589840407336,
      "loss": 1.6523,
      "step": 29143
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4038763642311096,
      "learning_rate": 0.0004581870174898218,
      "loss": 1.6757,
      "step": 29144
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4198465347290039,
      "learning_rate": 0.0004581781363835547,
      "loss": 1.6632,
      "step": 29145
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4303778111934662,
      "learning_rate": 0.00045816925508528256,
      "loss": 1.6774,
      "step": 29146
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39256757497787476,
      "learning_rate": 0.0004581603735950162,
      "loss": 1.7063,
      "step": 29147
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41138526797294617,
      "learning_rate": 0.00045815149191276645,
      "loss": 1.7772,
      "step": 29148
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40759432315826416,
      "learning_rate": 0.0004581426100385442,
      "loss": 1.6396,
      "step": 29149
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4024597406387329,
      "learning_rate": 0.00045813372797235996,
      "loss": 1.6917,
      "step": 29150
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4036198556423187,
      "learning_rate": 0.0004581248457142248,
      "loss": 1.6302,
      "step": 29151
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4088362753391266,
      "learning_rate": 0.00045811596326414937,
      "loss": 1.749,
      "step": 29152
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3895063102245331,
      "learning_rate": 0.00045810708062214446,
      "loss": 1.6633,
      "step": 29153
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4075438678264618,
      "learning_rate": 0.0004580981977882208,
      "loss": 1.6077,
      "step": 29154
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41137197613716125,
      "learning_rate": 0.00045808931476238923,
      "loss": 1.6538,
      "step": 29155
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41099053621292114,
      "learning_rate": 0.00045808043154466055,
      "loss": 1.6448,
      "step": 29156
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3932323157787323,
      "learning_rate": 0.00045807154813504544,
      "loss": 1.6683,
      "step": 29157
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40823301672935486,
      "learning_rate": 0.0004580626645335549,
      "loss": 1.6743,
      "step": 29158
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39100566506385803,
      "learning_rate": 0.00045805378074019953,
      "loss": 1.6309,
      "step": 29159
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39478743076324463,
      "learning_rate": 0.00045804489675499004,
      "loss": 1.6592,
      "step": 29160
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3937695324420929,
      "learning_rate": 0.0004580360125779375,
      "loss": 1.6223,
      "step": 29161
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40384700894355774,
      "learning_rate": 0.0004580271282090524,
      "loss": 1.6179,
      "step": 29162
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4068913459777832,
      "learning_rate": 0.0004580182436483458,
      "loss": 1.7081,
      "step": 29163
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4216708540916443,
      "learning_rate": 0.00045800935889582815,
      "loss": 1.6043,
      "step": 29164
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4002813398838043,
      "learning_rate": 0.0004580004739515105,
      "loss": 1.715,
      "step": 29165
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3987666368484497,
      "learning_rate": 0.0004579915888154036,
      "loss": 1.7578,
      "step": 29166
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4128444194793701,
      "learning_rate": 0.00045798270348751814,
      "loss": 1.6888,
      "step": 29167
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42157065868377686,
      "learning_rate": 0.00045797381796786486,
      "loss": 1.695,
      "step": 29168
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41073334217071533,
      "learning_rate": 0.0004579649322564548,
      "loss": 1.616,
      "step": 29169
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39688605070114136,
      "learning_rate": 0.00045795604635329856,
      "loss": 1.6546,
      "step": 29170
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41038909554481506,
      "learning_rate": 0.00045794716025840697,
      "loss": 1.6772,
      "step": 29171
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3952312171459198,
      "learning_rate": 0.00045793827397179075,
      "loss": 1.5714,
      "step": 29172
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42248255014419556,
      "learning_rate": 0.00045792938749346075,
      "loss": 1.661,
      "step": 29173
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.397951602935791,
      "learning_rate": 0.00045792050082342766,
      "loss": 1.6159,
      "step": 29174
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4050326645374298,
      "learning_rate": 0.0004579116139617024,
      "loss": 1.645,
      "step": 29175
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40100133419036865,
      "learning_rate": 0.00045790272690829587,
      "loss": 1.6935,
      "step": 29176
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4105069637298584,
      "learning_rate": 0.00045789383966321853,
      "loss": 1.6863,
      "step": 29177
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3919092118740082,
      "learning_rate": 0.0004578849522264813,
      "loss": 1.6876,
      "step": 29178
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3925471007823944,
      "learning_rate": 0.00045787606459809507,
      "loss": 1.626,
      "step": 29179
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38940876722335815,
      "learning_rate": 0.0004578671767780705,
      "loss": 1.6066,
      "step": 29180
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4062587320804596,
      "learning_rate": 0.0004578582887664186,
      "loss": 1.6465,
      "step": 29181
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41360944509506226,
      "learning_rate": 0.0004578494005631498,
      "loss": 1.7047,
      "step": 29182
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39764121174812317,
      "learning_rate": 0.0004578405121682753,
      "loss": 1.7167,
      "step": 29183
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4125189781188965,
      "learning_rate": 0.0004578316235818055,
      "loss": 1.6229,
      "step": 29184
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.409887433052063,
      "learning_rate": 0.00045782273480375136,
      "loss": 1.5938,
      "step": 29185
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4042229652404785,
      "learning_rate": 0.00045781384583412377,
      "loss": 1.7325,
      "step": 29186
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3942844867706299,
      "learning_rate": 0.00045780495667293333,
      "loss": 1.6177,
      "step": 29187
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3985222280025482,
      "learning_rate": 0.00045779606732019104,
      "loss": 1.6603,
      "step": 29188
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39438119530677795,
      "learning_rate": 0.0004577871777759074,
      "loss": 1.6936,
      "step": 29189
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4085685610771179,
      "learning_rate": 0.0004577782880400936,
      "loss": 1.6761,
      "step": 29190
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3930610120296478,
      "learning_rate": 0.00045776939811276006,
      "loss": 1.6954,
      "step": 29191
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4127648174762726,
      "learning_rate": 0.00045776050799391775,
      "loss": 1.6977,
      "step": 29192
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41028261184692383,
      "learning_rate": 0.00045775161768357747,
      "loss": 1.6474,
      "step": 29193
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4063725769519806,
      "learning_rate": 0.00045774272718174984,
      "loss": 1.6906,
      "step": 29194
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39926591515541077,
      "learning_rate": 0.000457733836488446,
      "loss": 1.6514,
      "step": 29195
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39866578578948975,
      "learning_rate": 0.0004577249456036762,
      "loss": 1.655,
      "step": 29196
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.407138854265213,
      "learning_rate": 0.0004577160545274519,
      "loss": 1.637,
      "step": 29197
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40829867124557495,
      "learning_rate": 0.00045770716325978336,
      "loss": 1.679,
      "step": 29198
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.413112610578537,
      "learning_rate": 0.0004576982718006816,
      "loss": 1.5353,
      "step": 29199
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41961172223091125,
      "learning_rate": 0.0004576893801501574,
      "loss": 1.6794,
      "step": 29200
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41154080629348755,
      "learning_rate": 0.00045768048830822146,
      "loss": 1.6774,
      "step": 29201
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41734763979911804,
      "learning_rate": 0.00045767159627488465,
      "loss": 1.6637,
      "step": 29202
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4283660352230072,
      "learning_rate": 0.0004576627040501578,
      "loss": 1.6598,
      "step": 29203
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39443066716194153,
      "learning_rate": 0.0004576538116340516,
      "loss": 1.6537,
      "step": 29204
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3995015621185303,
      "learning_rate": 0.000457644919026577,
      "loss": 1.7161,
      "step": 29205
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41077935695648193,
      "learning_rate": 0.0004576360262277446,
      "loss": 1.6061,
      "step": 29206
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41215184330940247,
      "learning_rate": 0.00045762713323756535,
      "loss": 1.6697,
      "step": 29207
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41877806186676025,
      "learning_rate": 0.00045761824005605004,
      "loss": 1.7243,
      "step": 29208
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3976081907749176,
      "learning_rate": 0.0004576093466832093,
      "loss": 1.6915,
      "step": 29209
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40063926577568054,
      "learning_rate": 0.00045760045311905406,
      "loss": 1.6642,
      "step": 29210
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40417957305908203,
      "learning_rate": 0.000457591559363595,
      "loss": 1.6221,
      "step": 29211
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4211884140968323,
      "learning_rate": 0.00045758266541684315,
      "loss": 1.593,
      "step": 29212
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.43099740147590637,
      "learning_rate": 0.00045757377127880923,
      "loss": 1.6979,
      "step": 29213
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38934609293937683,
      "learning_rate": 0.0004575648769495038,
      "loss": 1.6253,
      "step": 29214
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3968593180179596,
      "learning_rate": 0.0004575559824289379,
      "loss": 1.623,
      "step": 29215
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4356895387172699,
      "learning_rate": 0.0004575470877171222,
      "loss": 1.6691,
      "step": 29216
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4109015464782715,
      "learning_rate": 0.00045753819281406756,
      "loss": 1.6813,
      "step": 29217
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4183604121208191,
      "learning_rate": 0.0004575292977197849,
      "loss": 1.6171,
      "step": 29218
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3998883366584778,
      "learning_rate": 0.0004575204024342847,
      "loss": 1.6947,
      "step": 29219
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4143100082874298,
      "learning_rate": 0.00045751150695757804,
      "loss": 1.6053,
      "step": 29220
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42298224568367004,
      "learning_rate": 0.0004575026112896756,
      "loss": 1.6097,
      "step": 29221
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40658390522003174,
      "learning_rate": 0.00045749371543058815,
      "loss": 1.6897,
      "step": 29222
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4193444550037384,
      "learning_rate": 0.00045748481938032664,
      "loss": 1.6142,
      "step": 29223
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4223790764808655,
      "learning_rate": 0.00045747592313890163,
      "loss": 1.641,
      "step": 29224
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41330477595329285,
      "learning_rate": 0.0004574670267063242,
      "loss": 1.6407,
      "step": 29225
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40574270486831665,
      "learning_rate": 0.0004574581300826049,
      "loss": 1.6355,
      "step": 29226
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41765737533569336,
      "learning_rate": 0.00045744923326775463,
      "loss": 1.6149,
      "step": 29227
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41120269894599915,
      "learning_rate": 0.00045744033626178424,
      "loss": 1.6358,
      "step": 29228
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3908753991127014,
      "learning_rate": 0.00045743143906470447,
      "loss": 1.6556,
      "step": 29229
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40738430619239807,
      "learning_rate": 0.00045742254167652603,
      "loss": 1.6929,
      "step": 29230
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3950919508934021,
      "learning_rate": 0.00045741364409725995,
      "loss": 1.6546,
      "step": 29231
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4124838709831238,
      "learning_rate": 0.0004574047463269169,
      "loss": 1.6337,
      "step": 29232
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41179919242858887,
      "learning_rate": 0.0004573958483655076,
      "loss": 1.7349,
      "step": 29233
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40294453501701355,
      "learning_rate": 0.00045738695021304296,
      "loss": 1.648,
      "step": 29234
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41076570749282837,
      "learning_rate": 0.0004573780518695338,
      "loss": 1.7662,
      "step": 29235
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42902854084968567,
      "learning_rate": 0.00045736915333499076,
      "loss": 1.6078,
      "step": 29236
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4127947986125946,
      "learning_rate": 0.0004573602546094248,
      "loss": 1.6896,
      "step": 29237
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4292498230934143,
      "learning_rate": 0.0004573513556928468,
      "loss": 1.6629,
      "step": 29238
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7918712496757507,
      "learning_rate": 0.0004573424565852673,
      "loss": 1.7191,
      "step": 29239
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3971063196659088,
      "learning_rate": 0.0004573335572866973,
      "loss": 1.6977,
      "step": 29240
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4031333327293396,
      "learning_rate": 0.00045732465779714754,
      "loss": 1.606,
      "step": 29241
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4110425114631653,
      "learning_rate": 0.00045731575811662874,
      "loss": 1.7079,
      "step": 29242
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42027637362480164,
      "learning_rate": 0.00045730685824515196,
      "loss": 1.6883,
      "step": 29243
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40419769287109375,
      "learning_rate": 0.0004572979581827276,
      "loss": 1.6385,
      "step": 29244
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3994579613208771,
      "learning_rate": 0.0004572890579293669,
      "loss": 1.6883,
      "step": 29245
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3996849060058594,
      "learning_rate": 0.0004572801574850804,
      "loss": 1.5852,
      "step": 29246
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40558063983917236,
      "learning_rate": 0.000457271256849879,
      "loss": 1.5825,
      "step": 29247
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40754935145378113,
      "learning_rate": 0.00045726235602377334,
      "loss": 1.7027,
      "step": 29248
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4096094071865082,
      "learning_rate": 0.0004572534550067744,
      "loss": 1.6663,
      "step": 29249
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.424827516078949,
      "learning_rate": 0.00045724455379889307,
      "loss": 1.6607,
      "step": 29250
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.44228094816207886,
      "learning_rate": 0.00045723565240013983,
      "loss": 1.7358,
      "step": 29251
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41205891966819763,
      "learning_rate": 0.0004572267508105258,
      "loss": 1.7157,
      "step": 29252
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41109514236450195,
      "learning_rate": 0.0004572178490300617,
      "loss": 1.6951,
      "step": 29253
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3963509202003479,
      "learning_rate": 0.0004572089470587581,
      "loss": 1.6066,
      "step": 29254
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4188135862350464,
      "learning_rate": 0.00045720004489662624,
      "loss": 1.6668,
      "step": 29255
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3989998698234558,
      "learning_rate": 0.0004571911425436765,
      "loss": 1.7204,
      "step": 29256
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4275641441345215,
      "learning_rate": 0.00045718223999991994,
      "loss": 1.688,
      "step": 29257
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4016411006450653,
      "learning_rate": 0.0004571733372653673,
      "loss": 1.6077,
      "step": 29258
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3949817419052124,
      "learning_rate": 0.0004571644343400294,
      "loss": 1.5609,
      "step": 29259
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38713231682777405,
      "learning_rate": 0.000457155531223917,
      "loss": 1.6035,
      "step": 29260
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40328866243362427,
      "learning_rate": 0.00045714662791704097,
      "loss": 1.6367,
      "step": 29261
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40789365768432617,
      "learning_rate": 0.00045713772441941214,
      "loss": 1.6418,
      "step": 29262
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40170007944107056,
      "learning_rate": 0.00045712882073104113,
      "loss": 1.6788,
      "step": 29263
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3962608873844147,
      "learning_rate": 0.000457119916851939,
      "loss": 1.7214,
      "step": 29264
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39934760332107544,
      "learning_rate": 0.0004571110127821164,
      "loss": 1.6706,
      "step": 29265
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4126514196395874,
      "learning_rate": 0.00045710210852158416,
      "loss": 1.6521,
      "step": 29266
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39777615666389465,
      "learning_rate": 0.00045709320407035317,
      "loss": 1.6601,
      "step": 29267
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3871532082557678,
      "learning_rate": 0.0004570842994284342,
      "loss": 1.5895,
      "step": 29268
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40687096118927,
      "learning_rate": 0.000457075394595838,
      "loss": 1.6569,
      "step": 29269
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.43254542350769043,
      "learning_rate": 0.0004570664895725753,
      "loss": 1.6052,
      "step": 29270
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39903444051742554,
      "learning_rate": 0.0004570575843586571,
      "loss": 1.6526,
      "step": 29271
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4025067985057831,
      "learning_rate": 0.00045704867895409416,
      "loss": 1.6315,
      "step": 29272
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40571311116218567,
      "learning_rate": 0.0004570397733588973,
      "loss": 1.6256,
      "step": 29273
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4090464115142822,
      "learning_rate": 0.00045703086757307716,
      "loss": 1.6636,
      "step": 29274
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3935508131980896,
      "learning_rate": 0.0004570219615966448,
      "loss": 1.6597,
      "step": 29275
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4060709774494171,
      "learning_rate": 0.00045701305542961086,
      "loss": 1.6437,
      "step": 29276
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40456393361091614,
      "learning_rate": 0.00045700414907198626,
      "loss": 1.6398,
      "step": 29277
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4049500524997711,
      "learning_rate": 0.0004569952425237817,
      "loss": 1.6224,
      "step": 29278
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39379948377609253,
      "learning_rate": 0.0004569863357850081,
      "loss": 1.6482,
      "step": 29279
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40935808420181274,
      "learning_rate": 0.0004569774288556762,
      "loss": 1.6352,
      "step": 29280
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39610233902931213,
      "learning_rate": 0.00045696852173579674,
      "loss": 1.6432,
      "step": 29281
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4044463038444519,
      "learning_rate": 0.0004569596144253808,
      "loss": 1.7222,
      "step": 29282
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40352168679237366,
      "learning_rate": 0.00045695070692443893,
      "loss": 1.5779,
      "step": 29283
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3948895335197449,
      "learning_rate": 0.0004569417992329819,
      "loss": 1.6898,
      "step": 29284
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3974025547504425,
      "learning_rate": 0.0004569328913510208,
      "loss": 1.6588,
      "step": 29285
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.413758248090744,
      "learning_rate": 0.00045692398327856635,
      "loss": 1.6531,
      "step": 29286
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4132101535797119,
      "learning_rate": 0.0004569150750156292,
      "loss": 1.7241,
      "step": 29287
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4141753017902374,
      "learning_rate": 0.0004569061665622203,
      "loss": 1.6555,
      "step": 29288
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42182016372680664,
      "learning_rate": 0.0004568972579183504,
      "loss": 1.6653,
      "step": 29289
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40648412704467773,
      "learning_rate": 0.0004568883490840303,
      "loss": 1.6027,
      "step": 29290
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6888457536697388,
      "learning_rate": 0.00045687944005927097,
      "loss": 1.7091,
      "step": 29291
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3838367760181427,
      "learning_rate": 0.000456870530844083,
      "loss": 1.6555,
      "step": 29292
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4083227813243866,
      "learning_rate": 0.0004568616214384775,
      "loss": 1.6262,
      "step": 29293
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3952425718307495,
      "learning_rate": 0.000456852711842465,
      "loss": 1.6424,
      "step": 29294
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4092535972595215,
      "learning_rate": 0.0004568438020560564,
      "loss": 1.661,
      "step": 29295
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40624383091926575,
      "learning_rate": 0.00045683489207926255,
      "loss": 1.6467,
      "step": 29296
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.409564733505249,
      "learning_rate": 0.0004568259819120942,
      "loss": 1.654,
      "step": 29297
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4070712625980377,
      "learning_rate": 0.00045681707155456234,
      "loss": 1.6392,
      "step": 29298
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39342933893203735,
      "learning_rate": 0.0004568081610066775,
      "loss": 1.6337,
      "step": 29299
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4029102325439453,
      "learning_rate": 0.00045679925026845074,
      "loss": 1.7407,
      "step": 29300
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4076547622680664,
      "learning_rate": 0.0004567903393398928,
      "loss": 1.6788,
      "step": 29301
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3884485960006714,
      "learning_rate": 0.00045678142822101455,
      "loss": 1.6531,
      "step": 29302
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3919163942337036,
      "learning_rate": 0.0004567725169118267,
      "loss": 1.7263,
      "step": 29303
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40874555706977844,
      "learning_rate": 0.00045676360541234,
      "loss": 1.6624,
      "step": 29304
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4033237397670746,
      "learning_rate": 0.0004567546937225656,
      "loss": 1.6444,
      "step": 29305
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3928435742855072,
      "learning_rate": 0.00045674578184251385,
      "loss": 1.5921,
      "step": 29306
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3854660391807556,
      "learning_rate": 0.000456736869772196,
      "loss": 1.6505,
      "step": 29307
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40193113684654236,
      "learning_rate": 0.0004567279575116226,
      "loss": 1.6016,
      "step": 29308
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4006235599517822,
      "learning_rate": 0.00045671904506080455,
      "loss": 1.6395,
      "step": 29309
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4077114760875702,
      "learning_rate": 0.00045671013241975277,
      "loss": 1.6551,
      "step": 29310
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41549941897392273,
      "learning_rate": 0.00045670121958847783,
      "loss": 1.6556,
      "step": 29311
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42409688234329224,
      "learning_rate": 0.00045669230656699084,
      "loss": 1.8369,
      "step": 29312
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4023817777633667,
      "learning_rate": 0.00045668339335530237,
      "loss": 1.6524,
      "step": 29313
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39907172322273254,
      "learning_rate": 0.00045667447995342337,
      "loss": 1.6566,
      "step": 29314
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4255658686161041,
      "learning_rate": 0.0004566655663613647,
      "loss": 1.6144,
      "step": 29315
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40193143486976624,
      "learning_rate": 0.00045665665257913705,
      "loss": 1.5724,
      "step": 29316
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5008967518806458,
      "learning_rate": 0.0004566477386067514,
      "loss": 1.7133,
      "step": 29317
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42372027039527893,
      "learning_rate": 0.0004566388244442184,
      "loss": 1.6414,
      "step": 29318
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41371679306030273,
      "learning_rate": 0.0004566299100915489,
      "loss": 1.6472,
      "step": 29319
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.730860710144043,
      "learning_rate": 0.00045662099554875387,
      "loss": 1.7855,
      "step": 29320
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4202907383441925,
      "learning_rate": 0.00045661208081584394,
      "loss": 1.6402,
      "step": 29321
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4133985936641693,
      "learning_rate": 0.00045660316589283005,
      "loss": 1.7075,
      "step": 29322
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3954249620437622,
      "learning_rate": 0.000456594250779723,
      "loss": 1.6499,
      "step": 29323
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4045240581035614,
      "learning_rate": 0.0004565853354765336,
      "loss": 1.672,
      "step": 29324
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41240429878234863,
      "learning_rate": 0.0004565764199832727,
      "loss": 1.6556,
      "step": 29325
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42442840337753296,
      "learning_rate": 0.0004565675042999511,
      "loss": 1.7342,
      "step": 29326
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41007930040359497,
      "learning_rate": 0.00045655858842657957,
      "loss": 1.6745,
      "step": 29327
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4031848907470703,
      "learning_rate": 0.000456549672363169,
      "loss": 1.6576,
      "step": 29328
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38589516282081604,
      "learning_rate": 0.0004565407561097302,
      "loss": 1.647,
      "step": 29329
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38982224464416504,
      "learning_rate": 0.00045653183966627394,
      "loss": 1.7001,
      "step": 29330
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41061848402023315,
      "learning_rate": 0.00045652292303281116,
      "loss": 1.6477,
      "step": 29331
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4024616479873657,
      "learning_rate": 0.0004565140062093526,
      "loss": 1.6537,
      "step": 29332
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3958069682121277,
      "learning_rate": 0.0004565050891959091,
      "loss": 1.6817,
      "step": 29333
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4025237560272217,
      "learning_rate": 0.00045649617199249146,
      "loss": 1.6417,
      "step": 29334
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39718499779701233,
      "learning_rate": 0.00045648725459911056,
      "loss": 1.7143,
      "step": 29335
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40945175290107727,
      "learning_rate": 0.00045647833701577706,
      "loss": 1.7011,
      "step": 29336
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4031252861022949,
      "learning_rate": 0.0004564694192425021,
      "loss": 1.6432,
      "step": 29337
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41247984766960144,
      "learning_rate": 0.00045646050127929623,
      "loss": 1.6861,
      "step": 29338
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39575445652008057,
      "learning_rate": 0.0004564515831261703,
      "loss": 1.6353,
      "step": 29339
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40182292461395264,
      "learning_rate": 0.00045644266478313527,
      "loss": 1.6013,
      "step": 29340
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42981377243995667,
      "learning_rate": 0.0004564337462502019,
      "loss": 1.6676,
      "step": 29341
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.414450079202652,
      "learning_rate": 0.00045642482752738107,
      "loss": 1.7301,
      "step": 29342
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3935282528400421,
      "learning_rate": 0.00045641590861468344,
      "loss": 1.7033,
      "step": 29343
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39367347955703735,
      "learning_rate": 0.00045640698951212005,
      "loss": 1.5676,
      "step": 29344
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4008691608905792,
      "learning_rate": 0.0004563980702197016,
      "loss": 1.7403,
      "step": 29345
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4081532657146454,
      "learning_rate": 0.00045638915073743883,
      "loss": 1.6406,
      "step": 29346
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4484817683696747,
      "learning_rate": 0.0004563802310653428,
      "loss": 1.7134,
      "step": 29347
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40163907408714294,
      "learning_rate": 0.0004563713112034241,
      "loss": 1.7215,
      "step": 29348
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41207921504974365,
      "learning_rate": 0.00045636239115169375,
      "loss": 1.7169,
      "step": 29349
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41171273589134216,
      "learning_rate": 0.0004563534709101625,
      "loss": 1.7081,
      "step": 29350
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4072290062904358,
      "learning_rate": 0.00045634455047884113,
      "loss": 1.6516,
      "step": 29351
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4099102318286896,
      "learning_rate": 0.00045633562985774055,
      "loss": 1.6736,
      "step": 29352
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4236529469490051,
      "learning_rate": 0.00045632670904687146,
      "loss": 1.6615,
      "step": 29353
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41600531339645386,
      "learning_rate": 0.0004563177880462448,
      "loss": 1.661,
      "step": 29354
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42198798060417175,
      "learning_rate": 0.0004563088668558715,
      "loss": 1.6413,
      "step": 29355
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40032723546028137,
      "learning_rate": 0.00045629994547576215,
      "loss": 1.6669,
      "step": 29356
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4149027168750763,
      "learning_rate": 0.0004562910239059278,
      "loss": 1.6027,
      "step": 29357
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40200573205947876,
      "learning_rate": 0.00045628210214637905,
      "loss": 1.6681,
      "step": 29358
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.408250093460083,
      "learning_rate": 0.0004562731801971269,
      "loss": 1.6026,
      "step": 29359
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41574764251708984,
      "learning_rate": 0.0004562642580581822,
      "loss": 1.6536,
      "step": 29360
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42491307854652405,
      "learning_rate": 0.00045625533572955557,
      "loss": 1.7167,
      "step": 29361
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40375497937202454,
      "learning_rate": 0.0004562464132112581,
      "loss": 1.6547,
      "step": 29362
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4178183674812317,
      "learning_rate": 0.00045623749050330054,
      "loss": 1.7456,
      "step": 29363
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4260607063770294,
      "learning_rate": 0.00045622856760569366,
      "loss": 1.7069,
      "step": 29364
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.47096431255340576,
      "learning_rate": 0.00045621964451844827,
      "loss": 1.6322,
      "step": 29365
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41286543011665344,
      "learning_rate": 0.0004562107212415753,
      "loss": 1.6169,
      "step": 29366
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4219687283039093,
      "learning_rate": 0.00045620179777508546,
      "loss": 1.6801,
      "step": 29367
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3969457447528839,
      "learning_rate": 0.0004561928741189896,
      "loss": 1.6102,
      "step": 29368
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41495853662490845,
      "learning_rate": 0.00045618395027329883,
      "loss": 1.6676,
      "step": 29369
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4078674614429474,
      "learning_rate": 0.00045617502623802354,
      "loss": 1.6305,
      "step": 29370
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4095432460308075,
      "learning_rate": 0.0004561661020131749,
      "loss": 1.6358,
      "step": 29371
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.424795001745224,
      "learning_rate": 0.0004561571775987636,
      "loss": 1.733,
      "step": 29372
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4239000976085663,
      "learning_rate": 0.0004561482529948004,
      "loss": 1.6649,
      "step": 29373
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40615564584732056,
      "learning_rate": 0.0004561393282012964,
      "loss": 1.6694,
      "step": 29374
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41616395115852356,
      "learning_rate": 0.0004561304032182621,
      "loss": 1.6559,
      "step": 29375
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39663517475128174,
      "learning_rate": 0.00045612147804570863,
      "loss": 1.6262,
      "step": 29376
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38830918073654175,
      "learning_rate": 0.0004561125526836466,
      "loss": 1.616,
      "step": 29377
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3944106101989746,
      "learning_rate": 0.00045610362713208695,
      "loss": 1.6543,
      "step": 29378
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4009631276130676,
      "learning_rate": 0.00045609470139104056,
      "loss": 1.7387,
      "step": 29379
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38485127687454224,
      "learning_rate": 0.0004560857754605182,
      "loss": 1.606,
      "step": 29380
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41327857971191406,
      "learning_rate": 0.00045607684934053066,
      "loss": 1.6445,
      "step": 29381
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39758485555648804,
      "learning_rate": 0.0004560679230310888,
      "loss": 1.6272,
      "step": 29382
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40657705068588257,
      "learning_rate": 0.00045605899653220345,
      "loss": 1.6189,
      "step": 29383
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41949793696403503,
      "learning_rate": 0.0004560500698438855,
      "loss": 1.702,
      "step": 29384
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40894290804862976,
      "learning_rate": 0.00045604114296614583,
      "loss": 1.6544,
      "step": 29385
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40655162930488586,
      "learning_rate": 0.0004560322158989951,
      "loss": 1.6663,
      "step": 29386
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4003652036190033,
      "learning_rate": 0.0004560232886424443,
      "loss": 1.659,
      "step": 29387
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41639119386672974,
      "learning_rate": 0.0004560143611965042,
      "loss": 1.7543,
      "step": 29388
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4079287052154541,
      "learning_rate": 0.0004560054335611857,
      "loss": 1.7312,
      "step": 29389
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4072517454624176,
      "learning_rate": 0.00045599650573649957,
      "loss": 1.6208,
      "step": 29390
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4039316773414612,
      "learning_rate": 0.0004559875777224566,
      "loss": 1.6471,
      "step": 29391
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3998098075389862,
      "learning_rate": 0.0004559786495190678,
      "loss": 1.6384,
      "step": 29392
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4139419496059418,
      "learning_rate": 0.0004559697211263439,
      "loss": 1.6256,
      "step": 29393
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41098183393478394,
      "learning_rate": 0.00045596079254429565,
      "loss": 1.6527,
      "step": 29394
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.396318256855011,
      "learning_rate": 0.000455951863772934,
      "loss": 1.6384,
      "step": 29395
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4238021671772003,
      "learning_rate": 0.0004559429348122698,
      "loss": 1.6063,
      "step": 29396
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.43295857310295105,
      "learning_rate": 0.0004559340056623139,
      "loss": 1.6894,
      "step": 29397
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4277355670928955,
      "learning_rate": 0.0004559250763230769,
      "loss": 1.7139,
      "step": 29398
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39841610193252563,
      "learning_rate": 0.00045591614679457005,
      "loss": 1.6958,
      "step": 29399
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3966500163078308,
      "learning_rate": 0.0004559072170768039,
      "loss": 1.6992,
      "step": 29400
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40397581458091736,
      "learning_rate": 0.0004558982871697893,
      "loss": 1.6484,
      "step": 29401
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4107321500778198,
      "learning_rate": 0.0004558893570735372,
      "loss": 1.6575,
      "step": 29402
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.43250471353530884,
      "learning_rate": 0.0004558804267880583,
      "loss": 1.708,
      "step": 29403
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40388205647468567,
      "learning_rate": 0.0004558714963133637,
      "loss": 1.6625,
      "step": 29404
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4222522974014282,
      "learning_rate": 0.0004558625656494641,
      "loss": 1.7109,
      "step": 29405
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.43156135082244873,
      "learning_rate": 0.0004558536347963701,
      "loss": 1.6633,
      "step": 29406
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4032585620880127,
      "learning_rate": 0.0004558447037540929,
      "loss": 1.6158,
      "step": 29407
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40023717284202576,
      "learning_rate": 0.00045583577252264305,
      "loss": 1.5526,
      "step": 29408
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40001702308654785,
      "learning_rate": 0.00045582684110203166,
      "loss": 1.6606,
      "step": 29409
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4045370817184448,
      "learning_rate": 0.00045581790949226944,
      "loss": 1.6858,
      "step": 29410
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5798200368881226,
      "learning_rate": 0.00045580897769336717,
      "loss": 1.6626,
      "step": 29411
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5540295839309692,
      "learning_rate": 0.00045580004570533575,
      "loss": 1.6496,
      "step": 29412
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4022480249404907,
      "learning_rate": 0.00045579111352818613,
      "loss": 1.6833,
      "step": 29413
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4030381739139557,
      "learning_rate": 0.00045578218116192894,
      "loss": 1.6726,
      "step": 29414
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40859171748161316,
      "learning_rate": 0.0004557732486065753,
      "loss": 1.583,
      "step": 29415
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4226886034011841,
      "learning_rate": 0.00045576431586213565,
      "loss": 1.6045,
      "step": 29416
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4048338532447815,
      "learning_rate": 0.0004557553829286213,
      "loss": 1.5737,
      "step": 29417
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42628732323646545,
      "learning_rate": 0.0004557464498060427,
      "loss": 1.6711,
      "step": 29418
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4427538812160492,
      "learning_rate": 0.00045573751649441094,
      "loss": 1.6328,
      "step": 29419
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4080464243888855,
      "learning_rate": 0.0004557285829937368,
      "loss": 1.6631,
      "step": 29420
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4158670902252197,
      "learning_rate": 0.00045571964930403105,
      "loss": 1.6766,
      "step": 29421
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4038547873497009,
      "learning_rate": 0.0004557107154253047,
      "loss": 1.7006,
      "step": 29422
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.400814026594162,
      "learning_rate": 0.00045570178135756825,
      "loss": 1.6836,
      "step": 29423
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41015753149986267,
      "learning_rate": 0.000455692847100833,
      "loss": 1.6247,
      "step": 29424
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4347318410873413,
      "learning_rate": 0.0004556839126551095,
      "loss": 1.5779,
      "step": 29425
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4020747244358063,
      "learning_rate": 0.0004556749780204086,
      "loss": 1.6516,
      "step": 29426
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41108062863349915,
      "learning_rate": 0.0004556660431967414,
      "loss": 1.6988,
      "step": 29427
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40787431597709656,
      "learning_rate": 0.00045565710818411834,
      "loss": 1.6661,
      "step": 29428
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4092133641242981,
      "learning_rate": 0.0004556481729825506,
      "loss": 1.6432,
      "step": 29429
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4059527814388275,
      "learning_rate": 0.0004556392375920488,
      "loss": 1.652,
      "step": 29430
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4029429852962494,
      "learning_rate": 0.0004556303020126241,
      "loss": 1.6771,
      "step": 29431
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4074266850948334,
      "learning_rate": 0.00045562136624428703,
      "loss": 1.6635,
      "step": 29432
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40180277824401855,
      "learning_rate": 0.0004556124302870486,
      "loss": 1.632,
      "step": 29433
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4218776524066925,
      "learning_rate": 0.0004556034941409196,
      "loss": 1.661,
      "step": 29434
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4128788709640503,
      "learning_rate": 0.00045559455780591076,
      "loss": 1.6936,
      "step": 29435
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3987244963645935,
      "learning_rate": 0.0004555856212820332,
      "loss": 1.6771,
      "step": 29436
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38636016845703125,
      "learning_rate": 0.00045557668456929764,
      "loss": 1.6701,
      "step": 29437
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41578540205955505,
      "learning_rate": 0.0004555677476677147,
      "loss": 1.6499,
      "step": 29438
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4274456202983856,
      "learning_rate": 0.00045555881057729566,
      "loss": 1.662,
      "step": 29439
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40821364521980286,
      "learning_rate": 0.00045554987329805103,
      "loss": 1.7032,
      "step": 29440
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39203065633773804,
      "learning_rate": 0.00045554093582999183,
      "loss": 1.6015,
      "step": 29441
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40255919098854065,
      "learning_rate": 0.00045553199817312886,
      "loss": 1.6977,
      "step": 29442
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40817201137542725,
      "learning_rate": 0.00045552306032747294,
      "loss": 1.6555,
      "step": 29443
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4214077591896057,
      "learning_rate": 0.0004555141222930349,
      "loss": 1.5666,
      "step": 29444
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38973161578178406,
      "learning_rate": 0.00045550518406982555,
      "loss": 1.6334,
      "step": 29445
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41668519377708435,
      "learning_rate": 0.000455496245657856,
      "loss": 1.6774,
      "step": 29446
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41332247853279114,
      "learning_rate": 0.00045548730705713685,
      "loss": 1.644,
      "step": 29447
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41625916957855225,
      "learning_rate": 0.00045547836826767904,
      "loss": 1.7079,
      "step": 29448
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4159070551395416,
      "learning_rate": 0.0004554694292894934,
      "loss": 1.6601,
      "step": 29449
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40046456456184387,
      "learning_rate": 0.00045546049012259066,
      "loss": 1.6422,
      "step": 29450
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4043430984020233,
      "learning_rate": 0.0004554515507669819,
      "loss": 1.6686,
      "step": 29451
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40985244512557983,
      "learning_rate": 0.00045544261122267785,
      "loss": 1.648,
      "step": 29452
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4062938988208771,
      "learning_rate": 0.0004554336714896893,
      "loss": 1.5724,
      "step": 29453
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4026681184768677,
      "learning_rate": 0.0004554247315680273,
      "loss": 1.5813,
      "step": 29454
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4052647650241852,
      "learning_rate": 0.0004554157914577026,
      "loss": 1.6394,
      "step": 29455
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4031013548374176,
      "learning_rate": 0.00045540685115872585,
      "loss": 1.6159,
      "step": 29456
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41193896532058716,
      "learning_rate": 0.00045539791067110815,
      "loss": 1.6561,
      "step": 29457
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41789713501930237,
      "learning_rate": 0.0004553889699948603,
      "loss": 1.6828,
      "step": 29458
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3909010887145996,
      "learning_rate": 0.00045538002912999325,
      "loss": 1.6412,
      "step": 29459
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4038005471229553,
      "learning_rate": 0.00045537108807651753,
      "loss": 1.6235,
      "step": 29460
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41517171263694763,
      "learning_rate": 0.0004553621468344444,
      "loss": 1.6502,
      "step": 29461
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.399097204208374,
      "learning_rate": 0.0004553532054037844,
      "loss": 1.6338,
      "step": 29462
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41013240814208984,
      "learning_rate": 0.00045534426378454856,
      "loss": 1.6369,
      "step": 29463
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39641979336738586,
      "learning_rate": 0.0004553353219767475,
      "loss": 1.6461,
      "step": 29464
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39703717827796936,
      "learning_rate": 0.0004553263799803924,
      "loss": 1.6635,
      "step": 29465
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4173170328140259,
      "learning_rate": 0.00045531743779549403,
      "loss": 1.7058,
      "step": 29466
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40650084614753723,
      "learning_rate": 0.00045530849542206305,
      "loss": 1.6892,
      "step": 29467
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4092792868614197,
      "learning_rate": 0.00045529955286011055,
      "loss": 1.6616,
      "step": 29468
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41422656178474426,
      "learning_rate": 0.00045529061010964717,
      "loss": 1.7666,
      "step": 29469
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.400900661945343,
      "learning_rate": 0.0004552816671706838,
      "loss": 1.741,
      "step": 29470
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39636680483818054,
      "learning_rate": 0.0004552727240432315,
      "loss": 1.6339,
      "step": 29471
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40270906686782837,
      "learning_rate": 0.000455263780727301,
      "loss": 1.5831,
      "step": 29472
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4077923595905304,
      "learning_rate": 0.00045525483722290314,
      "loss": 1.6752,
      "step": 29473
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41182759404182434,
      "learning_rate": 0.0004552458935300487,
      "loss": 1.6179,
      "step": 29474
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4050546884536743,
      "learning_rate": 0.0004552369496487487,
      "loss": 1.6051,
      "step": 29475
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41258659958839417,
      "learning_rate": 0.0004552280055790139,
      "loss": 1.6957,
      "step": 29476
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39613860845565796,
      "learning_rate": 0.00045521906132085517,
      "loss": 1.6169,
      "step": 29477
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41220903396606445,
      "learning_rate": 0.0004552101168742833,
      "loss": 1.6769,
      "step": 29478
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41999492049217224,
      "learning_rate": 0.00045520117223930926,
      "loss": 1.6652,
      "step": 29479
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42062103748321533,
      "learning_rate": 0.0004551922274159439,
      "loss": 1.6945,
      "step": 29480
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41644376516342163,
      "learning_rate": 0.000455183282404198,
      "loss": 1.6472,
      "step": 29481
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40861937403678894,
      "learning_rate": 0.00045517433720408256,
      "loss": 1.6387,
      "step": 29482
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4184584617614746,
      "learning_rate": 0.00045516539181560817,
      "loss": 1.6764,
      "step": 29483
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4146620035171509,
      "learning_rate": 0.00045515644623878607,
      "loss": 1.6271,
      "step": 29484
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.412885457277298,
      "learning_rate": 0.00045514750047362666,
      "loss": 1.7029,
      "step": 29485
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4184151887893677,
      "learning_rate": 0.00045513855452014124,
      "loss": 1.6537,
      "step": 29486
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4099408686161041,
      "learning_rate": 0.00045512960837834035,
      "loss": 1.6194,
      "step": 29487
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4190732538700104,
      "learning_rate": 0.0004551206620482351,
      "loss": 1.6745,
      "step": 29488
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40068042278289795,
      "learning_rate": 0.0004551117155298362,
      "loss": 1.6526,
      "step": 29489
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40685978531837463,
      "learning_rate": 0.0004551027688231544,
      "loss": 1.6382,
      "step": 29490
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4208807945251465,
      "learning_rate": 0.0004550938219282008,
      "loss": 1.7028,
      "step": 29491
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4063655734062195,
      "learning_rate": 0.00045508487484498614,
      "loss": 1.6285,
      "step": 29492
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4161202907562256,
      "learning_rate": 0.00045507592757352124,
      "loss": 1.6811,
      "step": 29493
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.407789945602417,
      "learning_rate": 0.000455066980113817,
      "loss": 1.6699,
      "step": 29494
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40411344170570374,
      "learning_rate": 0.00045505803246588436,
      "loss": 1.7075,
      "step": 29495
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39593225717544556,
      "learning_rate": 0.00045504908462973417,
      "loss": 1.6525,
      "step": 29496
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5777618288993835,
      "learning_rate": 0.00045504013660537716,
      "loss": 1.6475,
      "step": 29497
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3801057040691376,
      "learning_rate": 0.0004550311883928243,
      "loss": 1.6408,
      "step": 29498
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4148957133293152,
      "learning_rate": 0.00045502223999208634,
      "loss": 1.6374,
      "step": 29499
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40464362502098083,
      "learning_rate": 0.0004550132914031743,
      "loss": 1.5984,
      "step": 29500
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41251394152641296,
      "learning_rate": 0.00045500434262609894,
      "loss": 1.6961,
      "step": 29501
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4030108153820038,
      "learning_rate": 0.00045499539366087113,
      "loss": 1.679,
      "step": 29502
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39813974499702454,
      "learning_rate": 0.00045498644450750177,
      "loss": 1.6696,
      "step": 29503
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3893231153488159,
      "learning_rate": 0.00045497749516600175,
      "loss": 1.5959,
      "step": 29504
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.48695844411849976,
      "learning_rate": 0.0004549685456363818,
      "loss": 1.6521,
      "step": 29505
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40503039956092834,
      "learning_rate": 0.0004549595959186529,
      "loss": 1.6431,
      "step": 29506
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4179447889328003,
      "learning_rate": 0.0004549506460128259,
      "loss": 1.6811,
      "step": 29507
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40288838744163513,
      "learning_rate": 0.0004549416959189116,
      "loss": 1.7096,
      "step": 29508
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40716394782066345,
      "learning_rate": 0.000454932745636921,
      "loss": 1.6666,
      "step": 29509
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41422170400619507,
      "learning_rate": 0.0004549237951668648,
      "loss": 1.6611,
      "step": 29510
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4169403314590454,
      "learning_rate": 0.0004549148445087539,
      "loss": 1.7104,
      "step": 29511
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4210205376148224,
      "learning_rate": 0.0004549058936625993,
      "loss": 1.7353,
      "step": 29512
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40707093477249146,
      "learning_rate": 0.00045489694262841173,
      "loss": 1.7095,
      "step": 29513
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3994675278663635,
      "learning_rate": 0.00045488799140620215,
      "loss": 1.6538,
      "step": 29514
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4012705385684967,
      "learning_rate": 0.0004548790399959813,
      "loss": 1.5946,
      "step": 29515
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40640684962272644,
      "learning_rate": 0.00045487008839776005,
      "loss": 1.7203,
      "step": 29516
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.408536434173584,
      "learning_rate": 0.00045486113661154953,
      "loss": 1.5404,
      "step": 29517
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3937729597091675,
      "learning_rate": 0.00045485218463736025,
      "loss": 1.6539,
      "step": 29518
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4236562252044678,
      "learning_rate": 0.00045484323247520323,
      "loss": 1.6562,
      "step": 29519
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4304234981536865,
      "learning_rate": 0.00045483428012508945,
      "loss": 1.6026,
      "step": 29520
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40004032850265503,
      "learning_rate": 0.0004548253275870296,
      "loss": 1.6954,
      "step": 29521
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4106406271457672,
      "learning_rate": 0.0004548163748610346,
      "loss": 1.7213,
      "step": 29522
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41075894236564636,
      "learning_rate": 0.0004548074219471154,
      "loss": 1.6273,
      "step": 29523
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.405060738325119,
      "learning_rate": 0.00045479846884528266,
      "loss": 1.6147,
      "step": 29524
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40946164727211,
      "learning_rate": 0.00045478951555554746,
      "loss": 1.6701,
      "step": 29525
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4255145192146301,
      "learning_rate": 0.0004547805620779207,
      "loss": 1.6548,
      "step": 29526
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42602258920669556,
      "learning_rate": 0.00045477160841241303,
      "loss": 1.6377,
      "step": 29527
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40374109148979187,
      "learning_rate": 0.0004547626545590355,
      "loss": 1.6965,
      "step": 29528
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4181131422519684,
      "learning_rate": 0.0004547537005177989,
      "loss": 1.7429,
      "step": 29529
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.43008196353912354,
      "learning_rate": 0.000454744746288714,
      "loss": 1.6162,
      "step": 29530
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3942854404449463,
      "learning_rate": 0.0004547357918717919,
      "loss": 1.6479,
      "step": 29531
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4300307333469391,
      "learning_rate": 0.0004547268372670433,
      "loss": 1.6427,
      "step": 29532
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4007265567779541,
      "learning_rate": 0.00045471788247447906,
      "loss": 1.6355,
      "step": 29533
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40987733006477356,
      "learning_rate": 0.0004547089274941102,
      "loss": 1.7164,
      "step": 29534
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39867496490478516,
      "learning_rate": 0.00045469997232594744,
      "loss": 1.6658,
      "step": 29535
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41658464074134827,
      "learning_rate": 0.0004546910169700018,
      "loss": 1.6912,
      "step": 29536
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41315504908561707,
      "learning_rate": 0.00045468206142628407,
      "loss": 1.6872,
      "step": 29537
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.425406813621521,
      "learning_rate": 0.00045467310569480496,
      "loss": 1.6906,
      "step": 29538
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4145781397819519,
      "learning_rate": 0.00045466414977557554,
      "loss": 1.6156,
      "step": 29539
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4154362678527832,
      "learning_rate": 0.00045465519366860664,
      "loss": 1.6951,
      "step": 29540
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41306817531585693,
      "learning_rate": 0.0004546462373739092,
      "loss": 1.7353,
      "step": 29541
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4155312478542328,
      "learning_rate": 0.0004546372808914939,
      "loss": 1.6585,
      "step": 29542
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4496378004550934,
      "learning_rate": 0.0004546283242213718,
      "loss": 1.6463,
      "step": 29543
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41789835691452026,
      "learning_rate": 0.0004546193673635537,
      "loss": 1.7533,
      "step": 29544
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40216073393821716,
      "learning_rate": 0.0004546104103180504,
      "loss": 1.6334,
      "step": 29545
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4120314419269562,
      "learning_rate": 0.00045460145308487296,
      "loss": 1.6523,
      "step": 29546
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42653146386146545,
      "learning_rate": 0.00045459249566403204,
      "loss": 1.6236,
      "step": 29547
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40993189811706543,
      "learning_rate": 0.0004545835380555386,
      "loss": 1.6823,
      "step": 29548
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4062906801700592,
      "learning_rate": 0.00045457458025940353,
      "loss": 1.665,
      "step": 29549
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4323742985725403,
      "learning_rate": 0.0004545656222756377,
      "loss": 1.6355,
      "step": 29550
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40794622898101807,
      "learning_rate": 0.00045455666410425206,
      "loss": 1.7065,
      "step": 29551
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4208504855632782,
      "learning_rate": 0.0004545477057452573,
      "loss": 1.6341,
      "step": 29552
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4093681871891022,
      "learning_rate": 0.0004545387471986645,
      "loss": 1.6524,
      "step": 29553
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42345812916755676,
      "learning_rate": 0.0004545297884644843,
      "loss": 1.6425,
      "step": 29554
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41274920105934143,
      "learning_rate": 0.0004545208295427278,
      "loss": 1.5921,
      "step": 29555
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42113542556762695,
      "learning_rate": 0.0004545118704334057,
      "loss": 1.7083,
      "step": 29556
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39136749505996704,
      "learning_rate": 0.00045450291113652904,
      "loss": 1.6503,
      "step": 29557
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42889922857284546,
      "learning_rate": 0.0004544939516521086,
      "loss": 1.6724,
      "step": 29558
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38587042689323425,
      "learning_rate": 0.00045448499198015525,
      "loss": 1.6018,
      "step": 29559
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4106159806251526,
      "learning_rate": 0.0004544760321206798,
      "loss": 1.6831,
      "step": 29560
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4095418453216553,
      "learning_rate": 0.0004544670720736933,
      "loss": 1.6375,
      "step": 29561
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40224000811576843,
      "learning_rate": 0.00045445811183920655,
      "loss": 1.6669,
      "step": 29562
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40794476866722107,
      "learning_rate": 0.00045444915141723037,
      "loss": 1.6782,
      "step": 29563
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40760087966918945,
      "learning_rate": 0.00045444019080777574,
      "loss": 1.69,
      "step": 29564
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39918985962867737,
      "learning_rate": 0.0004544312300108534,
      "loss": 1.5779,
      "step": 29565
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40687295794487,
      "learning_rate": 0.00045442226902647434,
      "loss": 1.6414,
      "step": 29566
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3996180593967438,
      "learning_rate": 0.00045441330785464935,
      "loss": 1.6369,
      "step": 29567
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3995906114578247,
      "learning_rate": 0.00045440434649538934,
      "loss": 1.7381,
      "step": 29568
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4079512357711792,
      "learning_rate": 0.0004543953849487053,
      "loss": 1.6236,
      "step": 29569
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41011327505111694,
      "learning_rate": 0.0004543864232146079,
      "loss": 1.6958,
      "step": 29570
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4098025858402252,
      "learning_rate": 0.00045437746129310826,
      "loss": 1.6586,
      "step": 29571
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42087215185165405,
      "learning_rate": 0.0004543684991842171,
      "loss": 1.731,
      "step": 29572
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40813353657722473,
      "learning_rate": 0.0004543595368879452,
      "loss": 1.6336,
      "step": 29573
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3899949789047241,
      "learning_rate": 0.00045435057440430365,
      "loss": 1.6303,
      "step": 29574
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40155717730522156,
      "learning_rate": 0.00045434161173330326,
      "loss": 1.5801,
      "step": 29575
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41523200273513794,
      "learning_rate": 0.0004543326488749549,
      "loss": 1.7525,
      "step": 29576
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4173569977283478,
      "learning_rate": 0.00045432368582926943,
      "loss": 1.7066,
      "step": 29577
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39452266693115234,
      "learning_rate": 0.0004543147225962577,
      "loss": 1.5799,
      "step": 29578
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4040255844593048,
      "learning_rate": 0.0004543057591759307,
      "loss": 1.6295,
      "step": 29579
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.47691377997398376,
      "learning_rate": 0.00045429679556829926,
      "loss": 1.6688,
      "step": 29580
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.42342355847358704,
      "learning_rate": 0.0004542878317733742,
      "loss": 1.6954,
      "step": 29581
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41647791862487793,
      "learning_rate": 0.0004542788677911664,
      "loss": 1.6595,
      "step": 29582
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39949992299079895,
      "learning_rate": 0.0004542699036216869,
      "loss": 1.6809,
      "step": 29583
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.39941951632499695,
      "learning_rate": 0.00045426093926494637,
      "loss": 1.6445,
      "step": 29584
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3992321491241455,
      "learning_rate": 0.00045425197472095583,
      "loss": 1.7142,
      "step": 29585
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40420272946357727,
      "learning_rate": 0.0004542430099897262,
      "loss": 1.711,
      "step": 29586
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4056251049041748,
      "learning_rate": 0.0004542340450712681,
      "loss": 1.617,
      "step": 29587
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4127355217933655,
      "learning_rate": 0.00045422507996559274,
      "loss": 1.5919,
      "step": 29588
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40246427059173584,
      "learning_rate": 0.0004542161146727108,
      "loss": 1.6167,
      "step": 29589
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41565582156181335,
      "learning_rate": 0.0004542071491926333,
      "loss": 1.5904,
      "step": 29590
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4029427170753479,
      "learning_rate": 0.0004541981835253709,
      "loss": 1.6916,
      "step": 29591
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.41065943241119385,
      "learning_rate": 0.0004541892176709347,
      "loss": 1.6567,
      "step": 29592
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40192392468452454,
      "learning_rate": 0.00045418025162933547,
      "loss": 1.6152,
      "step": 29593
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4190468192100525,
      "learning_rate": 0.0004541712854005842,
      "loss": 1.6602,
      "step": 29594
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4240777790546417,
      "learning_rate": 0.00045416231898469167,
      "loss": 1.7279,
      "step": 29595
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4016679525375366,
      "learning_rate": 0.00045415335238166877,
      "loss": 1.6499,
      "step": 29596
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3977034091949463,
      "learning_rate": 0.0004541443855915265,
      "loss": 1.6828,
      "step": 29597
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.395687460899353,
      "learning_rate": 0.0004541354186142755,
      "loss": 1.7148,
      "step": 29598
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4046386182308197,
      "learning_rate": 0.000454126451449927,
      "loss": 1.5936,
      "step": 29599
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4024011492729187,
      "learning_rate": 0.0004541174840984916,
      "loss": 1.6649,
      "step": 29600
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40040352940559387,
      "learning_rate": 0.0004541085165599803,
      "loss": 1.572,
      "step": 29601
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40923193097114563,
      "learning_rate": 0.0004540995488344039,
      "loss": 1.6895,
      "step": 29602
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.40496304631233215,
      "learning_rate": 0.00045409058092177345,
      "loss": 1.5907,
      "step": 29603
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4226229786872864,
      "learning_rate": 0.0004540816128220997,
      "loss": 1.6168,
      "step": 29604
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4243606925010681,
      "learning_rate": 0.00045407264453539356,
      "loss": 1.6304,
      "step": 29605
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4163748621940613,
      "learning_rate": 0.00045406367606166606,
      "loss": 1.6282,
      "step": 29606
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40790796279907227,
      "learning_rate": 0.0004540547074009277,
      "loss": 1.6484,
      "step": 29607
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.404331237077713,
      "learning_rate": 0.0004540457385531899,
      "loss": 1.5465,
      "step": 29608
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42291712760925293,
      "learning_rate": 0.0004540367695184631,
      "loss": 1.7069,
      "step": 29609
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4168716073036194,
      "learning_rate": 0.0004540278002967584,
      "loss": 1.6725,
      "step": 29610
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40182384848594666,
      "learning_rate": 0.0004540188308880866,
      "loss": 1.6326,
      "step": 29611
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.404269814491272,
      "learning_rate": 0.00045400986129245864,
      "loss": 1.6986,
      "step": 29612
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.400414377450943,
      "learning_rate": 0.0004540008915098856,
      "loss": 1.6377,
      "step": 29613
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4016348421573639,
      "learning_rate": 0.0004539919215403779,
      "loss": 1.6697,
      "step": 29614
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4075081944465637,
      "learning_rate": 0.00045398295138394685,
      "loss": 1.7143,
      "step": 29615
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39317798614501953,
      "learning_rate": 0.0004539739810406031,
      "loss": 1.6792,
      "step": 29616
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3951873481273651,
      "learning_rate": 0.0004539650105103577,
      "loss": 1.6154,
      "step": 29617
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40744712948799133,
      "learning_rate": 0.00045395603979322144,
      "loss": 1.6019,
      "step": 29618
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4106868505477905,
      "learning_rate": 0.0004539470688892052,
      "loss": 1.7232,
      "step": 29619
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39449578523635864,
      "learning_rate": 0.0004539380977983199,
      "loss": 1.7042,
      "step": 29620
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40129226446151733,
      "learning_rate": 0.00045392912652057646,
      "loss": 1.6326,
      "step": 29621
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40588128566741943,
      "learning_rate": 0.0004539201550559857,
      "loss": 1.6753,
      "step": 29622
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4055248200893402,
      "learning_rate": 0.0004539111834045586,
      "loss": 1.6867,
      "step": 29623
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41013303399086,
      "learning_rate": 0.00045390221156630604,
      "loss": 1.6892,
      "step": 29624
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40240636467933655,
      "learning_rate": 0.0004538932395412387,
      "loss": 1.6708,
      "step": 29625
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4171038269996643,
      "learning_rate": 0.0004538842673293679,
      "loss": 1.7042,
      "step": 29626
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4173600673675537,
      "learning_rate": 0.0004538752949307041,
      "loss": 1.5769,
      "step": 29627
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4038580656051636,
      "learning_rate": 0.0004538663223452583,
      "loss": 1.6513,
      "step": 29628
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3986649513244629,
      "learning_rate": 0.00045385734957304163,
      "loss": 1.6707,
      "step": 29629
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41145724058151245,
      "learning_rate": 0.0004538483766140647,
      "loss": 1.7214,
      "step": 29630
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42105892300605774,
      "learning_rate": 0.0004538394034683386,
      "loss": 1.6656,
      "step": 29631
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4193595051765442,
      "learning_rate": 0.000453830430135874,
      "loss": 1.6758,
      "step": 29632
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4100242257118225,
      "learning_rate": 0.000453821456616682,
      "loss": 1.6483,
      "step": 29633
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39589443802833557,
      "learning_rate": 0.0004538124829107734,
      "loss": 1.6689,
      "step": 29634
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42285922169685364,
      "learning_rate": 0.0004538035090181592,
      "loss": 1.5958,
      "step": 29635
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4115692675113678,
      "learning_rate": 0.00045379453493885004,
      "loss": 1.7005,
      "step": 29636
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40560150146484375,
      "learning_rate": 0.00045378556067285705,
      "loss": 1.651,
      "step": 29637
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3922153413295746,
      "learning_rate": 0.0004537765862201911,
      "loss": 1.6015,
      "step": 29638
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40990251302719116,
      "learning_rate": 0.000453767611580863,
      "loss": 1.6534,
      "step": 29639
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40692010521888733,
      "learning_rate": 0.0004537586367548837,
      "loss": 1.6434,
      "step": 29640
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4053405225276947,
      "learning_rate": 0.00045374966174226394,
      "loss": 1.6236,
      "step": 29641
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4103521704673767,
      "learning_rate": 0.0004537406865430149,
      "loss": 1.622,
      "step": 29642
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4188005030155182,
      "learning_rate": 0.0004537317111571472,
      "loss": 1.6783,
      "step": 29643
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4046711325645447,
      "learning_rate": 0.00045372273558467194,
      "loss": 1.6949,
      "step": 29644
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3970474898815155,
      "learning_rate": 0.00045371375982559997,
      "loss": 1.6794,
      "step": 29645
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4123186469078064,
      "learning_rate": 0.000453704783879942,
      "loss": 1.6846,
      "step": 29646
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40267708897590637,
      "learning_rate": 0.00045369580774770916,
      "loss": 1.6626,
      "step": 29647
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4028439223766327,
      "learning_rate": 0.00045368683142891223,
      "loss": 1.74,
      "step": 29648
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40858185291290283,
      "learning_rate": 0.00045367785492356216,
      "loss": 1.6541,
      "step": 29649
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4214130640029907,
      "learning_rate": 0.0004536688782316698,
      "loss": 1.6291,
      "step": 29650
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3995470106601715,
      "learning_rate": 0.0004536599013532461,
      "loss": 1.6342,
      "step": 29651
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4078105390071869,
      "learning_rate": 0.00045365092428830176,
      "loss": 1.6601,
      "step": 29652
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40269967913627625,
      "learning_rate": 0.000453641947036848,
      "loss": 1.7128,
      "step": 29653
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40667927265167236,
      "learning_rate": 0.0004536329695988956,
      "loss": 1.6133,
      "step": 29654
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41424745321273804,
      "learning_rate": 0.0004536239919744552,
      "loss": 1.6464,
      "step": 29655
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3994617462158203,
      "learning_rate": 0.0004536150141635381,
      "loss": 1.6708,
      "step": 29656
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4125230610370636,
      "learning_rate": 0.0004536060361661549,
      "loss": 1.6033,
      "step": 29657
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4023646414279938,
      "learning_rate": 0.0004535970579823167,
      "loss": 1.6417,
      "step": 29658
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3935338854789734,
      "learning_rate": 0.00045358807961203424,
      "loss": 1.6063,
      "step": 29659
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4052967131137848,
      "learning_rate": 0.0004535791010553185,
      "loss": 1.634,
      "step": 29660
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40540456771850586,
      "learning_rate": 0.00045357012231218044,
      "loss": 1.6729,
      "step": 29661
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4225131571292877,
      "learning_rate": 0.0004535611433826307,
      "loss": 1.6564,
      "step": 29662
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4124499261379242,
      "learning_rate": 0.0004535521642666804,
      "loss": 1.7163,
      "step": 29663
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42554163932800293,
      "learning_rate": 0.0004535431849643405,
      "loss": 1.6983,
      "step": 29664
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.43359944224357605,
      "learning_rate": 0.00045353420547562177,
      "loss": 1.6837,
      "step": 29665
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4095451831817627,
      "learning_rate": 0.0004535252258005351,
      "loss": 1.6338,
      "step": 29666
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41204169392585754,
      "learning_rate": 0.0004535162459390914,
      "loss": 1.6687,
      "step": 29667
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40920743346214294,
      "learning_rate": 0.00045350726589130167,
      "loss": 1.638,
      "step": 29668
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4173852205276489,
      "learning_rate": 0.00045349828565717667,
      "loss": 1.6857,
      "step": 29669
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40134328603744507,
      "learning_rate": 0.0004534893052367274,
      "loss": 1.6273,
      "step": 29670
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4083881676197052,
      "learning_rate": 0.00045348032462996476,
      "loss": 1.689,
      "step": 29671
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39471307396888733,
      "learning_rate": 0.00045347134383689954,
      "loss": 1.6888,
      "step": 29672
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3987320065498352,
      "learning_rate": 0.0004534623628575428,
      "loss": 1.6659,
      "step": 29673
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4095652997493744,
      "learning_rate": 0.00045345338169190533,
      "loss": 1.7292,
      "step": 29674
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3985764980316162,
      "learning_rate": 0.0004534444003399981,
      "loss": 1.6608,
      "step": 29675
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41720786690711975,
      "learning_rate": 0.00045343541880183194,
      "loss": 1.6443,
      "step": 29676
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40129438042640686,
      "learning_rate": 0.00045342643707741776,
      "loss": 1.5985,
      "step": 29677
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.414603590965271,
      "learning_rate": 0.0004534174551667665,
      "loss": 1.6926,
      "step": 29678
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4013785421848297,
      "learning_rate": 0.0004534084730698891,
      "loss": 1.6593,
      "step": 29679
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38783496618270874,
      "learning_rate": 0.0004533994907867964,
      "loss": 1.6812,
      "step": 29680
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41373491287231445,
      "learning_rate": 0.00045339050831749933,
      "loss": 1.5997,
      "step": 29681
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4180898368358612,
      "learning_rate": 0.00045338152566200876,
      "loss": 1.691,
      "step": 29682
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4129064083099365,
      "learning_rate": 0.0004533725428203357,
      "loss": 1.6448,
      "step": 29683
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4202335476875305,
      "learning_rate": 0.0004533635597924908,
      "loss": 1.72,
      "step": 29684
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.433233380317688,
      "learning_rate": 0.0004533545765784853,
      "loss": 1.7234,
      "step": 29685
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.398337721824646,
      "learning_rate": 0.0004533455931783299,
      "loss": 1.6176,
      "step": 29686
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4147862195968628,
      "learning_rate": 0.00045333660959203547,
      "loss": 1.7256,
      "step": 29687
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42695704102516174,
      "learning_rate": 0.0004533276258196131,
      "loss": 1.6541,
      "step": 29688
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4155867397785187,
      "learning_rate": 0.0004533186418610735,
      "loss": 1.648,
      "step": 29689
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40252989530563354,
      "learning_rate": 0.00045330965771642765,
      "loss": 1.6287,
      "step": 29690
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42365485429763794,
      "learning_rate": 0.00045330067338568647,
      "loss": 1.6436,
      "step": 29691
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4009905755519867,
      "learning_rate": 0.0004532916888688609,
      "loss": 1.7047,
      "step": 29692
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3999946415424347,
      "learning_rate": 0.0004532827041659618,
      "loss": 1.6525,
      "step": 29693
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4212487041950226,
      "learning_rate": 0.00045327371927700007,
      "loss": 1.6898,
      "step": 29694
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4116988480091095,
      "learning_rate": 0.0004532647342019867,
      "loss": 1.6924,
      "step": 29695
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.43196603655815125,
      "learning_rate": 0.00045325574894093245,
      "loss": 1.6896,
      "step": 29696
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40359100699424744,
      "learning_rate": 0.00045324676349384825,
      "loss": 1.7136,
      "step": 29697
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40491360425949097,
      "learning_rate": 0.0004532377778607451,
      "loss": 1.6736,
      "step": 29698
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4119742214679718,
      "learning_rate": 0.00045322879204163396,
      "loss": 1.6421,
      "step": 29699
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4211284816265106,
      "learning_rate": 0.00045321980603652554,
      "loss": 1.6627,
      "step": 29700
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40933483839035034,
      "learning_rate": 0.00045321081984543086,
      "loss": 1.6567,
      "step": 29701
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3976595401763916,
      "learning_rate": 0.00045320183346836087,
      "loss": 1.6585,
      "step": 29702
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4247458577156067,
      "learning_rate": 0.00045319284690532635,
      "loss": 1.6885,
      "step": 29703
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39815154671669006,
      "learning_rate": 0.0004531838601563383,
      "loss": 1.6379,
      "step": 29704
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4120588004589081,
      "learning_rate": 0.0004531748732214077,
      "loss": 1.6305,
      "step": 29705
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4035967290401459,
      "learning_rate": 0.00045316588610054537,
      "loss": 1.6562,
      "step": 29706
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4313001334667206,
      "learning_rate": 0.0004531568987937622,
      "loss": 1.6547,
      "step": 29707
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39643874764442444,
      "learning_rate": 0.00045314791130106905,
      "loss": 1.6076,
      "step": 29708
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41927534341812134,
      "learning_rate": 0.0004531389236224769,
      "loss": 1.725,
      "step": 29709
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40697792172431946,
      "learning_rate": 0.0004531299357579968,
      "loss": 1.6605,
      "step": 29710
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40917736291885376,
      "learning_rate": 0.00045312094770763947,
      "loss": 1.7005,
      "step": 29711
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4030101001262665,
      "learning_rate": 0.00045311195947141575,
      "loss": 1.6289,
      "step": 29712
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42336589097976685,
      "learning_rate": 0.0004531029710493368,
      "loss": 1.5971,
      "step": 29713
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42047595977783203,
      "learning_rate": 0.0004530939824414133,
      "loss": 1.6817,
      "step": 29714
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4198785126209259,
      "learning_rate": 0.0004530849936476563,
      "loss": 1.6683,
      "step": 29715
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40625402331352234,
      "learning_rate": 0.0004530760046680767,
      "loss": 1.6921,
      "step": 29716
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4075027406215668,
      "learning_rate": 0.0004530670155026853,
      "loss": 1.6232,
      "step": 29717
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39958158135414124,
      "learning_rate": 0.00045305802615149324,
      "loss": 1.6467,
      "step": 29718
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41644102334976196,
      "learning_rate": 0.0004530490366145112,
      "loss": 1.6911,
      "step": 29719
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7100631594657898,
      "learning_rate": 0.00045304004689175023,
      "loss": 1.7601,
      "step": 29720
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.44109874963760376,
      "learning_rate": 0.00045303105698322115,
      "loss": 1.6449,
      "step": 29721
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4204956293106079,
      "learning_rate": 0.0004530220668889349,
      "loss": 1.6414,
      "step": 29722
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4022181034088135,
      "learning_rate": 0.00045301307660890254,
      "loss": 1.6372,
      "step": 29723
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4122048020362854,
      "learning_rate": 0.0004530040861431347,
      "loss": 1.6721,
      "step": 29724
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4651082456111908,
      "learning_rate": 0.00045299509549164246,
      "loss": 1.706,
      "step": 29725
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4198073148727417,
      "learning_rate": 0.0004529861046544368,
      "loss": 1.7362,
      "step": 29726
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39902082085609436,
      "learning_rate": 0.00045297711363152847,
      "loss": 1.6656,
      "step": 29727
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39840689301490784,
      "learning_rate": 0.0004529681224229284,
      "loss": 1.6976,
      "step": 29728
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39456719160079956,
      "learning_rate": 0.0004529591310286477,
      "loss": 1.662,
      "step": 29729
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3897693157196045,
      "learning_rate": 0.00045295013944869714,
      "loss": 1.6972,
      "step": 29730
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3934040665626526,
      "learning_rate": 0.0004529411476830876,
      "loss": 1.7223,
      "step": 29731
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4050394594669342,
      "learning_rate": 0.00045293215573183007,
      "loss": 1.5697,
      "step": 29732
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3985532224178314,
      "learning_rate": 0.0004529231635949354,
      "loss": 1.6527,
      "step": 29733
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4049147665500641,
      "learning_rate": 0.0004529141712724145,
      "loss": 1.6602,
      "step": 29734
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40347227454185486,
      "learning_rate": 0.0004529051787642785,
      "loss": 1.6427,
      "step": 29735
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40795379877090454,
      "learning_rate": 0.00045289618607053804,
      "loss": 1.6706,
      "step": 29736
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3955499231815338,
      "learning_rate": 0.0004528871931912041,
      "loss": 1.6783,
      "step": 29737
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39240795373916626,
      "learning_rate": 0.0004528782001262877,
      "loss": 1.6845,
      "step": 29738
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40415337681770325,
      "learning_rate": 0.00045286920687579964,
      "loss": 1.6596,
      "step": 29739
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41046902537345886,
      "learning_rate": 0.00045286021343975087,
      "loss": 1.6579,
      "step": 29740
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3996966481208801,
      "learning_rate": 0.0004528512198181524,
      "loss": 1.6295,
      "step": 29741
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.394407719373703,
      "learning_rate": 0.000452842226011015,
      "loss": 1.6089,
      "step": 29742
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4119997024536133,
      "learning_rate": 0.0004528332320183497,
      "loss": 1.6509,
      "step": 29743
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4430643320083618,
      "learning_rate": 0.0004528242378401674,
      "loss": 1.5905,
      "step": 29744
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4105511009693146,
      "learning_rate": 0.00045281524347647885,
      "loss": 1.6493,
      "step": 29745
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.423168420791626,
      "learning_rate": 0.00045280624892729527,
      "loss": 1.7103,
      "step": 29746
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42128047347068787,
      "learning_rate": 0.0004527972541926274,
      "loss": 1.7042,
      "step": 29747
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4089432954788208,
      "learning_rate": 0.0004527882592724861,
      "loss": 1.6832,
      "step": 29748
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4048721492290497,
      "learning_rate": 0.00045277926416688243,
      "loss": 1.6669,
      "step": 29749
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40814951062202454,
      "learning_rate": 0.00045277026887582716,
      "loss": 1.5942,
      "step": 29750
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4164195656776428,
      "learning_rate": 0.00045276127339933137,
      "loss": 1.6374,
      "step": 29751
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41756364703178406,
      "learning_rate": 0.0004527522777374059,
      "loss": 1.6302,
      "step": 29752
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.45641010999679565,
      "learning_rate": 0.0004527432818900616,
      "loss": 1.6875,
      "step": 29753
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41995084285736084,
      "learning_rate": 0.00045273428585730955,
      "loss": 1.6767,
      "step": 29754
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38855525851249695,
      "learning_rate": 0.0004527252896391606,
      "loss": 1.6979,
      "step": 29755
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4110843539237976,
      "learning_rate": 0.0004527162932356256,
      "loss": 1.6185,
      "step": 29756
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40925851464271545,
      "learning_rate": 0.00045270729664671555,
      "loss": 1.7071,
      "step": 29757
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.406332790851593,
      "learning_rate": 0.00045269829987244135,
      "loss": 1.6194,
      "step": 29758
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40574100613594055,
      "learning_rate": 0.0004526893029128138,
      "loss": 1.6279,
      "step": 29759
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40785154700279236,
      "learning_rate": 0.00045268030576784405,
      "loss": 1.6113,
      "step": 29760
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4255596995353699,
      "learning_rate": 0.0004526713084375429,
      "loss": 1.6703,
      "step": 29761
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40696585178375244,
      "learning_rate": 0.00045266231092192124,
      "loss": 1.7026,
      "step": 29762
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4047229290008545,
      "learning_rate": 0.00045265331322099,
      "loss": 1.6726,
      "step": 29763
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41485950350761414,
      "learning_rate": 0.00045264431533476013,
      "loss": 1.6608,
      "step": 29764
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42841508984565735,
      "learning_rate": 0.00045263531726324265,
      "loss": 1.5966,
      "step": 29765
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40504172444343567,
      "learning_rate": 0.0004526263190064483,
      "loss": 1.6897,
      "step": 29766
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4159511923789978,
      "learning_rate": 0.00045261732056438807,
      "loss": 1.6431,
      "step": 29767
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4187805652618408,
      "learning_rate": 0.000452608321937073,
      "loss": 1.7173,
      "step": 29768
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4356175363063812,
      "learning_rate": 0.0004525993231245139,
      "loss": 1.6232,
      "step": 29769
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4109416902065277,
      "learning_rate": 0.0004525903241267216,
      "loss": 1.6486,
      "step": 29770
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4190407395362854,
      "learning_rate": 0.0004525813249437072,
      "loss": 1.6487,
      "step": 29771
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5991300344467163,
      "learning_rate": 0.00045257232557548155,
      "loss": 1.6814,
      "step": 29772
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4174445569515228,
      "learning_rate": 0.0004525633260220556,
      "loss": 1.6205,
      "step": 29773
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3932008445262909,
      "learning_rate": 0.0004525543262834402,
      "loss": 1.5203,
      "step": 29774
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39936092495918274,
      "learning_rate": 0.00045254532635964634,
      "loss": 1.7076,
      "step": 29775
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40386077761650085,
      "learning_rate": 0.0004525363262506849,
      "loss": 1.6305,
      "step": 29776
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.404001921415329,
      "learning_rate": 0.00045252732595656685,
      "loss": 1.6334,
      "step": 29777
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39208880066871643,
      "learning_rate": 0.00045251832547730316,
      "loss": 1.6244,
      "step": 29778
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4028852880001068,
      "learning_rate": 0.0004525093248129046,
      "loss": 1.7199,
      "step": 29779
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3993822932243347,
      "learning_rate": 0.0004525003239633823,
      "loss": 1.6987,
      "step": 29780
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3918912410736084,
      "learning_rate": 0.000452491322928747,
      "loss": 1.7043,
      "step": 29781
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39095503091812134,
      "learning_rate": 0.00045248232170900973,
      "loss": 1.7181,
      "step": 29782
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40323948860168457,
      "learning_rate": 0.00045247332030418135,
      "loss": 1.653,
      "step": 29783
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42639899253845215,
      "learning_rate": 0.0004524643187142729,
      "loss": 1.6734,
      "step": 29784
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39703771471977234,
      "learning_rate": 0.0004524553169392953,
      "loss": 1.6482,
      "step": 29785
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40541377663612366,
      "learning_rate": 0.0004524463149792592,
      "loss": 1.6195,
      "step": 29786
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4098045229911804,
      "learning_rate": 0.00045243731283417586,
      "loss": 1.7163,
      "step": 29787
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41361942887306213,
      "learning_rate": 0.00045242831050405606,
      "loss": 1.5888,
      "step": 29788
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.399726539850235,
      "learning_rate": 0.0004524193079889107,
      "loss": 1.6413,
      "step": 29789
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4115852415561676,
      "learning_rate": 0.00045241030528875086,
      "loss": 1.6805,
      "step": 29790
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41588765382766724,
      "learning_rate": 0.0004524013024035873,
      "loss": 1.7039,
      "step": 29791
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4049193561077118,
      "learning_rate": 0.000452392299333431,
      "loss": 1.7017,
      "step": 29792
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41304534673690796,
      "learning_rate": 0.00045238329607829295,
      "loss": 1.6098,
      "step": 29793
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41817381978034973,
      "learning_rate": 0.000452374292638184,
      "loss": 1.6736,
      "step": 29794
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4143301546573639,
      "learning_rate": 0.0004523652890131151,
      "loss": 1.6027,
      "step": 29795
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41982516646385193,
      "learning_rate": 0.0004523562852030972,
      "loss": 1.6096,
      "step": 29796
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.46946820616722107,
      "learning_rate": 0.00045234728120814116,
      "loss": 1.6245,
      "step": 29797
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4238472580909729,
      "learning_rate": 0.0004523382770282582,
      "loss": 1.6663,
      "step": 29798
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.43606337904930115,
      "learning_rate": 0.00045232927266345877,
      "loss": 1.6762,
      "step": 29799
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40974026918411255,
      "learning_rate": 0.0004523202681137541,
      "loss": 1.7472,
      "step": 29800
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4238075315952301,
      "learning_rate": 0.00045231126337915513,
      "loss": 1.6411,
      "step": 29801
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4212031960487366,
      "learning_rate": 0.00045230225845967274,
      "loss": 1.618,
      "step": 29802
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4089464247226715,
      "learning_rate": 0.00045229325335531783,
      "loss": 1.6709,
      "step": 29803
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4162086844444275,
      "learning_rate": 0.00045228424806610125,
      "loss": 1.5982,
      "step": 29804
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39957311749458313,
      "learning_rate": 0.00045227524259203416,
      "loss": 1.5273,
      "step": 29805
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40376919507980347,
      "learning_rate": 0.00045226623693312725,
      "loss": 1.6465,
      "step": 29806
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4112219214439392,
      "learning_rate": 0.00045225723108939167,
      "loss": 1.6558,
      "step": 29807
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4042832851409912,
      "learning_rate": 0.0004522482250608381,
      "loss": 1.6738,
      "step": 29808
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4190370440483093,
      "learning_rate": 0.0004522392188474778,
      "loss": 1.6725,
      "step": 29809
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4282349646091461,
      "learning_rate": 0.00045223021244932145,
      "loss": 1.6676,
      "step": 29810
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4218754470348358,
      "learning_rate": 0.0004522212058663799,
      "loss": 1.7203,
      "step": 29811
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41201841831207275,
      "learning_rate": 0.00045221219909866454,
      "loss": 1.65,
      "step": 29812
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.422435998916626,
      "learning_rate": 0.00045220319214618577,
      "loss": 1.5907,
      "step": 29813
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4230251908302307,
      "learning_rate": 0.00045219418500895477,
      "loss": 1.67,
      "step": 29814
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4005289077758789,
      "learning_rate": 0.00045218517768698255,
      "loss": 1.635,
      "step": 29815
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40780213475227356,
      "learning_rate": 0.00045217617018027985,
      "loss": 1.5908,
      "step": 29816
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42163896560668945,
      "learning_rate": 0.00045216716248885783,
      "loss": 1.6421,
      "step": 29817
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41960224509239197,
      "learning_rate": 0.0004521581546127271,
      "loss": 1.6798,
      "step": 29818
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39590686559677124,
      "learning_rate": 0.0004521491465518989,
      "loss": 1.6648,
      "step": 29819
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39458268880844116,
      "learning_rate": 0.00045214013830638405,
      "loss": 1.6293,
      "step": 29820
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40668460726737976,
      "learning_rate": 0.00045213112987619355,
      "loss": 1.6195,
      "step": 29821
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41164544224739075,
      "learning_rate": 0.00045212212126133816,
      "loss": 1.6654,
      "step": 29822
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40061306953430176,
      "learning_rate": 0.00045211311246182905,
      "loss": 1.609,
      "step": 29823
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4041220545768738,
      "learning_rate": 0.000452104103477677,
      "loss": 1.7023,
      "step": 29824
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39991116523742676,
      "learning_rate": 0.0004520950943088929,
      "loss": 1.6406,
      "step": 29825
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.397839218378067,
      "learning_rate": 0.0004520860849554879,
      "loss": 1.6799,
      "step": 29826
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40561267733573914,
      "learning_rate": 0.00045207707541747267,
      "loss": 1.6624,
      "step": 29827
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40881139039993286,
      "learning_rate": 0.0004520680656948583,
      "loss": 1.6508,
      "step": 29828
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.405368447303772,
      "learning_rate": 0.0004520590557876557,
      "loss": 1.6957,
      "step": 29829
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41654640436172485,
      "learning_rate": 0.00045205004569587586,
      "loss": 1.6488,
      "step": 29830
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38999807834625244,
      "learning_rate": 0.0004520410354195297,
      "loss": 1.6542,
      "step": 29831
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39661872386932373,
      "learning_rate": 0.00045203202495862804,
      "loss": 1.5939,
      "step": 29832
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4083884656429291,
      "learning_rate": 0.000452023014313182,
      "loss": 1.6368,
      "step": 29833
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40907764434814453,
      "learning_rate": 0.00045201400348320226,
      "loss": 1.6507,
      "step": 29834
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41943687200546265,
      "learning_rate": 0.00045200499246870004,
      "loss": 1.6459,
      "step": 29835
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4134635329246521,
      "learning_rate": 0.0004519959812696861,
      "loss": 1.6402,
      "step": 29836
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.43122851848602295,
      "learning_rate": 0.00045198696988617157,
      "loss": 1.6507,
      "step": 29837
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.416662335395813,
      "learning_rate": 0.00045197795831816706,
      "loss": 1.566,
      "step": 29838
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4193026125431061,
      "learning_rate": 0.00045196894656568377,
      "loss": 1.6883,
      "step": 29839
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42325374484062195,
      "learning_rate": 0.0004519599346287327,
      "loss": 1.7096,
      "step": 29840
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40927252173423767,
      "learning_rate": 0.0004519509225073245,
      "loss": 1.6167,
      "step": 29841
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41051575541496277,
      "learning_rate": 0.0004519419102014703,
      "loss": 1.6453,
      "step": 29842
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4144589900970459,
      "learning_rate": 0.0004519328977111811,
      "loss": 1.6735,
      "step": 29843
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4036587178707123,
      "learning_rate": 0.00045192388503646763,
      "loss": 1.6851,
      "step": 29844
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4114384651184082,
      "learning_rate": 0.00045191487217734097,
      "loss": 1.5933,
      "step": 29845
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42524847388267517,
      "learning_rate": 0.000451905859133812,
      "loss": 1.6942,
      "step": 29846
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4155949056148529,
      "learning_rate": 0.00045189684590589185,
      "loss": 1.6933,
      "step": 29847
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4108087122440338,
      "learning_rate": 0.0004518878324935912,
      "loss": 1.7239,
      "step": 29848
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4113633930683136,
      "learning_rate": 0.00045187881889692115,
      "loss": 1.6277,
      "step": 29849
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.403943806886673,
      "learning_rate": 0.00045186980511589255,
      "loss": 1.6716,
      "step": 29850
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40717339515686035,
      "learning_rate": 0.0004518607911505164,
      "loss": 1.6265,
      "step": 29851
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4103701710700989,
      "learning_rate": 0.0004518517770008036,
      "loss": 1.6398,
      "step": 29852
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39899948239326477,
      "learning_rate": 0.0004518427626667652,
      "loss": 1.5826,
      "step": 29853
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4034320116043091,
      "learning_rate": 0.000451833748148412,
      "loss": 1.6665,
      "step": 29854
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.38883569836616516,
      "learning_rate": 0.000451824733445755,
      "loss": 1.6083,
      "step": 29855
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4035731256008148,
      "learning_rate": 0.0004518157185588051,
      "loss": 1.5991,
      "step": 29856
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3896975517272949,
      "learning_rate": 0.00045180670348757333,
      "loss": 1.6642,
      "step": 29857
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3984728157520294,
      "learning_rate": 0.00045179768823207066,
      "loss": 1.6857,
      "step": 29858
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4006301164627075,
      "learning_rate": 0.0004517886727923078,
      "loss": 1.7398,
      "step": 29859
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41721150279045105,
      "learning_rate": 0.000451779657168296,
      "loss": 1.5781,
      "step": 29860
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4023950695991516,
      "learning_rate": 0.00045177064136004596,
      "loss": 1.6462,
      "step": 29861
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4056989848613739,
      "learning_rate": 0.00045176162536756883,
      "loss": 1.6417,
      "step": 29862
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4101434350013733,
      "learning_rate": 0.00045175260919087535,
      "loss": 1.5977,
      "step": 29863
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40388500690460205,
      "learning_rate": 0.0004517435928299766,
      "loss": 1.6226,
      "step": 29864
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4183070957660675,
      "learning_rate": 0.00045173457628488355,
      "loss": 1.6834,
      "step": 29865
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4141063094139099,
      "learning_rate": 0.00045172555955560697,
      "loss": 1.688,
      "step": 29866
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.43213245272636414,
      "learning_rate": 0.000451716542642158,
      "loss": 1.6616,
      "step": 29867
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4133763015270233,
      "learning_rate": 0.0004517075255445474,
      "loss": 1.6224,
      "step": 29868
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.42516133189201355,
      "learning_rate": 0.0004516985082627863,
      "loss": 1.6439,
      "step": 29869
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40647369623184204,
      "learning_rate": 0.0004516894907968856,
      "loss": 1.6193,
      "step": 29870
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40659117698669434,
      "learning_rate": 0.00045168047314685615,
      "loss": 1.5946,
      "step": 29871
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4183654189109802,
      "learning_rate": 0.000451671455312709,
      "loss": 1.7114,
      "step": 29872
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4087250530719757,
      "learning_rate": 0.00045166243729445496,
      "loss": 1.6313,
      "step": 29873
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40444067120552063,
      "learning_rate": 0.00045165341909210514,
      "loss": 1.6377,
      "step": 29874
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4098776578903198,
      "learning_rate": 0.0004516444007056704,
      "loss": 1.6009,
      "step": 29875
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40653568506240845,
      "learning_rate": 0.00045163538213516166,
      "loss": 1.6763,
      "step": 29876
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40511730313301086,
      "learning_rate": 0.00045162636338059,
      "loss": 1.6418,
      "step": 29877
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39439868927001953,
      "learning_rate": 0.0004516173444419662,
      "loss": 1.6689,
      "step": 29878
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4211122393608093,
      "learning_rate": 0.0004516083253193013,
      "loss": 1.5871,
      "step": 29879
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4184458553791046,
      "learning_rate": 0.0004515993060126062,
      "loss": 1.6384,
      "step": 29880
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4202001988887787,
      "learning_rate": 0.0004515902865218919,
      "loss": 1.6096,
      "step": 29881
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4049466550350189,
      "learning_rate": 0.00045158126684716936,
      "loss": 1.6175,
      "step": 29882
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4178800880908966,
      "learning_rate": 0.00045157224698844957,
      "loss": 1.5967,
      "step": 29883
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41800543665885925,
      "learning_rate": 0.0004515632269457432,
      "loss": 1.6279,
      "step": 29884
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.44115540385246277,
      "learning_rate": 0.00045155420671906163,
      "loss": 1.662,
      "step": 29885
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.39731982350349426,
      "learning_rate": 0.00045154518630841545,
      "loss": 1.5791,
      "step": 29886
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4042537808418274,
      "learning_rate": 0.00045153616571381577,
      "loss": 1.6224,
      "step": 29887
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4087100028991699,
      "learning_rate": 0.00045152714493527354,
      "loss": 1.6127,
      "step": 29888
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41018182039260864,
      "learning_rate": 0.00045151812397279956,
      "loss": 1.6903,
      "step": 29889
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4085026681423187,
      "learning_rate": 0.0004515091028264051,
      "loss": 1.6902,
      "step": 29890
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.40703001618385315,
      "learning_rate": 0.00045150008149610074,
      "loss": 1.6152,
      "step": 29891
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4091542661190033,
      "learning_rate": 0.0004514910599818977,
      "loss": 1.656,
      "step": 29892
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4125157296657562,
      "learning_rate": 0.00045148203828380675,
      "loss": 1.6286,
      "step": 29893
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4099459648132324,
      "learning_rate": 0.00045147301640183896,
      "loss": 1.6612,
      "step": 29894
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4343920648097992,
      "learning_rate": 0.00045146399433600534,
      "loss": 1.6202,
      "step": 29895
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4044775366783142,
      "learning_rate": 0.00045145497208631667,
      "loss": 1.6656,
      "step": 29896
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41041481494903564,
      "learning_rate": 0.00045144594965278395,
      "loss": 1.699,
      "step": 29897
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4196576774120331,
      "learning_rate": 0.0004514369270354182,
      "loss": 1.7025,
      "step": 29898
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41331398487091064,
      "learning_rate": 0.00045142790423423037,
      "loss": 1.5959,
      "step": 29899
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.41842028498649597,
      "learning_rate": 0.00045141888124923134,
      "loss": 1.6422,
      "step": 29900
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4054091274738312,
      "learning_rate": 0.00045140985808043207,
      "loss": 1.6804,
      "step": 29901
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4183198809623718,
      "learning_rate": 0.00045140083472784356,
      "loss": 1.5921,
      "step": 29902
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3928437829017639,
      "learning_rate": 0.0004513918111914768,
      "loss": 1.596,
      "step": 29903
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.60565584897995,
      "learning_rate": 0.00045138278747134265,
      "loss": 1.7058,
      "step": 29904
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4119679033756256,
      "learning_rate": 0.0004513737635674521,
      "loss": 1.7309,
      "step": 29905
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3896774351596832,
      "learning_rate": 0.00045136473947981603,
      "loss": 1.6842,
      "step": 29906
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4072311818599701,
      "learning_rate": 0.0004513557152084456,
      "loss": 1.6444,
      "step": 29907
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40619105100631714,
      "learning_rate": 0.0004513466907533516,
      "loss": 1.5849,
      "step": 29908
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4166169762611389,
      "learning_rate": 0.00045133766611454493,
      "loss": 1.6384,
      "step": 29909
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4149129092693329,
      "learning_rate": 0.0004513286412920367,
      "loss": 1.6777,
      "step": 29910
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41044512391090393,
      "learning_rate": 0.0004513196162858378,
      "loss": 1.6629,
      "step": 29911
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4106491804122925,
      "learning_rate": 0.00045131059109595914,
      "loss": 1.7244,
      "step": 29912
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41239646077156067,
      "learning_rate": 0.0004513015657224117,
      "loss": 1.6195,
      "step": 29913
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4046166241168976,
      "learning_rate": 0.00045129254016520646,
      "loss": 1.6467,
      "step": 29914
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4085541367530823,
      "learning_rate": 0.00045128351442435443,
      "loss": 1.5845,
      "step": 29915
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4101616442203522,
      "learning_rate": 0.00045127448849986647,
      "loss": 1.6763,
      "step": 29916
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4248117506504059,
      "learning_rate": 0.0004512654623917536,
      "loss": 1.701,
      "step": 29917
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.402852863073349,
      "learning_rate": 0.0004512564361000267,
      "loss": 1.6643,
      "step": 29918
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4228731393814087,
      "learning_rate": 0.00045124740962469684,
      "loss": 1.7682,
      "step": 29919
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41929882764816284,
      "learning_rate": 0.0004512383829657749,
      "loss": 1.6284,
      "step": 29920
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39962291717529297,
      "learning_rate": 0.0004512293561232717,
      "loss": 1.6529,
      "step": 29921
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40093082189559937,
      "learning_rate": 0.0004512203290971985,
      "loss": 1.6428,
      "step": 29922
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4001426100730896,
      "learning_rate": 0.000451211301887566,
      "loss": 1.6633,
      "step": 29923
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4189075529575348,
      "learning_rate": 0.0004512022744943854,
      "loss": 1.609,
      "step": 29924
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40569624304771423,
      "learning_rate": 0.0004511932469176674,
      "loss": 1.6532,
      "step": 29925
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42634451389312744,
      "learning_rate": 0.00045118421915742315,
      "loss": 1.6665,
      "step": 29926
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4257860481739044,
      "learning_rate": 0.0004511751912136635,
      "loss": 1.7189,
      "step": 29927
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.411241352558136,
      "learning_rate": 0.0004511661630863994,
      "loss": 1.6591,
      "step": 29928
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.415535032749176,
      "learning_rate": 0.0004511571347756419,
      "loss": 1.6622,
      "step": 29929
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.438137412071228,
      "learning_rate": 0.0004511481062814019,
      "loss": 1.6582,
      "step": 29930
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41717445850372314,
      "learning_rate": 0.0004511390776036904,
      "loss": 1.6124,
      "step": 29931
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40701302886009216,
      "learning_rate": 0.00045113004874251827,
      "loss": 1.6353,
      "step": 29932
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40450403094291687,
      "learning_rate": 0.0004511210196978965,
      "loss": 1.6323,
      "step": 29933
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41788527369499207,
      "learning_rate": 0.0004511119904698362,
      "loss": 1.7399,
      "step": 29934
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40461650490760803,
      "learning_rate": 0.00045110296105834813,
      "loss": 1.6266,
      "step": 29935
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40795186161994934,
      "learning_rate": 0.0004510939314634434,
      "loss": 1.6638,
      "step": 29936
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4024064540863037,
      "learning_rate": 0.00045108490168513284,
      "loss": 1.6238,
      "step": 29937
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39961203932762146,
      "learning_rate": 0.0004510758717234274,
      "loss": 1.5983,
      "step": 29938
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3960753083229065,
      "learning_rate": 0.00045106684157833823,
      "loss": 1.6726,
      "step": 29939
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41262516379356384,
      "learning_rate": 0.0004510578112498762,
      "loss": 1.7042,
      "step": 29940
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3968964219093323,
      "learning_rate": 0.0004510487807380521,
      "loss": 1.6889,
      "step": 29941
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4269309341907501,
      "learning_rate": 0.0004510397500428771,
      "loss": 1.6532,
      "step": 29942
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4059445559978485,
      "learning_rate": 0.0004510307191643621,
      "loss": 1.7068,
      "step": 29943
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39247217774391174,
      "learning_rate": 0.00045102168810251807,
      "loss": 1.6099,
      "step": 29944
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39982032775878906,
      "learning_rate": 0.00045101265685735603,
      "loss": 1.6794,
      "step": 29945
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4218064248561859,
      "learning_rate": 0.0004510036254288867,
      "loss": 1.6233,
      "step": 29946
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40652695298194885,
      "learning_rate": 0.0004509945938171214,
      "loss": 1.6862,
      "step": 29947
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4076750576496124,
      "learning_rate": 0.00045098556202207086,
      "loss": 1.7087,
      "step": 29948
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4151577651500702,
      "learning_rate": 0.00045097653004374605,
      "loss": 1.6461,
      "step": 29949
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3994900584220886,
      "learning_rate": 0.000450967497882158,
      "loss": 1.6254,
      "step": 29950
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3959803283214569,
      "learning_rate": 0.0004509584655373176,
      "loss": 1.6032,
      "step": 29951
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.406175822019577,
      "learning_rate": 0.00045094943300923597,
      "loss": 1.62,
      "step": 29952
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4259694814682007,
      "learning_rate": 0.00045094040029792387,
      "loss": 1.6363,
      "step": 29953
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.403909832239151,
      "learning_rate": 0.00045093136740339244,
      "loss": 1.706,
      "step": 29954
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41077518463134766,
      "learning_rate": 0.0004509223343256525,
      "loss": 1.6418,
      "step": 29955
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42757508158683777,
      "learning_rate": 0.0004509133010647151,
      "loss": 1.6918,
      "step": 29956
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5063164234161377,
      "learning_rate": 0.0004509042676205913,
      "loss": 1.7127,
      "step": 29957
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42359328269958496,
      "learning_rate": 0.0004508952339932918,
      "loss": 1.6475,
      "step": 29958
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42467057704925537,
      "learning_rate": 0.00045088620018282784,
      "loss": 1.5782,
      "step": 29959
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.47205066680908203,
      "learning_rate": 0.00045087716618921015,
      "loss": 1.6771,
      "step": 29960
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3999428451061249,
      "learning_rate": 0.0004508681320124499,
      "loss": 1.5945,
      "step": 29961
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39970606565475464,
      "learning_rate": 0.0004508590976525579,
      "loss": 1.6471,
      "step": 29962
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42113518714904785,
      "learning_rate": 0.00045085006310954524,
      "loss": 1.6726,
      "step": 29963
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42998236417770386,
      "learning_rate": 0.00045084102838342284,
      "loss": 1.6538,
      "step": 29964
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4067780375480652,
      "learning_rate": 0.0004508319934742016,
      "loss": 1.6288,
      "step": 29965
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4020686745643616,
      "learning_rate": 0.00045082295838189254,
      "loss": 1.5736,
      "step": 29966
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41751354932785034,
      "learning_rate": 0.00045081392310650665,
      "loss": 1.6312,
      "step": 29967
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42354172468185425,
      "learning_rate": 0.00045080488764805496,
      "loss": 1.6487,
      "step": 29968
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.422795832157135,
      "learning_rate": 0.0004507958520065482,
      "loss": 1.6379,
      "step": 29969
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41453877091407776,
      "learning_rate": 0.00045078681618199764,
      "loss": 1.5803,
      "step": 29970
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4317498505115509,
      "learning_rate": 0.0004507777801744141,
      "loss": 1.6474,
      "step": 29971
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4109216630458832,
      "learning_rate": 0.0004507687439838084,
      "loss": 1.6323,
      "step": 29972
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4241426885128021,
      "learning_rate": 0.00045075970761019175,
      "loss": 1.6741,
      "step": 29973
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4075036346912384,
      "learning_rate": 0.00045075067105357505,
      "loss": 1.6202,
      "step": 29974
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4184403121471405,
      "learning_rate": 0.00045074163431396924,
      "loss": 1.6561,
      "step": 29975
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.436236172914505,
      "learning_rate": 0.00045073259739138524,
      "loss": 1.6968,
      "step": 29976
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41659125685691833,
      "learning_rate": 0.00045072356028583415,
      "loss": 1.6138,
      "step": 29977
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8534214496612549,
      "learning_rate": 0.0004507145229973269,
      "loss": 1.7319,
      "step": 29978
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.407636433839798,
      "learning_rate": 0.00045070548552587436,
      "loss": 1.6679,
      "step": 29979
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3972746729850769,
      "learning_rate": 0.0004506964478714875,
      "loss": 1.6434,
      "step": 29980
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42045217752456665,
      "learning_rate": 0.00045068741003417747,
      "loss": 1.7091,
      "step": 29981
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.43125277757644653,
      "learning_rate": 0.0004506783720139551,
      "loss": 1.6813,
      "step": 29982
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41774630546569824,
      "learning_rate": 0.0004506693338108313,
      "loss": 1.6974,
      "step": 29983
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42576801776885986,
      "learning_rate": 0.0004506602954248173,
      "loss": 1.7007,
      "step": 29984
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39626139402389526,
      "learning_rate": 0.0004506512568559238,
      "loss": 1.664,
      "step": 29985
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4192368686199188,
      "learning_rate": 0.00045064221810416186,
      "loss": 1.6575,
      "step": 29986
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41439682245254517,
      "learning_rate": 0.00045063317916954236,
      "loss": 1.7393,
      "step": 29987
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4462476670742035,
      "learning_rate": 0.00045062414005207654,
      "loss": 1.727,
      "step": 29988
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4328311085700989,
      "learning_rate": 0.00045061510075177516,
      "loss": 1.6181,
      "step": 29989
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4204269349575043,
      "learning_rate": 0.00045060606126864927,
      "loss": 1.6961,
      "step": 29990
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.417466938495636,
      "learning_rate": 0.00045059702160270976,
      "loss": 1.7686,
      "step": 29991
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4181916117668152,
      "learning_rate": 0.0004505879817539677,
      "loss": 1.6893,
      "step": 29992
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4130638837814331,
      "learning_rate": 0.0004505789417224339,
      "loss": 1.6361,
      "step": 29993
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42288491129875183,
      "learning_rate": 0.00045056990150811957,
      "loss": 1.6721,
      "step": 29994
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41912180185317993,
      "learning_rate": 0.0004505608611110356,
      "loss": 1.6454,
      "step": 29995
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.43682968616485596,
      "learning_rate": 0.00045055182053119284,
      "loss": 1.6563,
      "step": 29996
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4236106276512146,
      "learning_rate": 0.0004505427797686024,
      "loss": 1.71,
      "step": 29997
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41621866822242737,
      "learning_rate": 0.0004505337388232752,
      "loss": 1.6391,
      "step": 29998
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4057508409023285,
      "learning_rate": 0.0004505246976952222,
      "loss": 1.6353,
      "step": 29999
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41110241413116455,
      "learning_rate": 0.00045051565638445446,
      "loss": 1.7016,
      "step": 30000
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.406524658203125,
      "learning_rate": 0.00045050661489098273,
      "loss": 1.6191,
      "step": 30001
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4107065498828888,
      "learning_rate": 0.0004504975732148183,
      "loss": 1.6546,
      "step": 30002
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5116857290267944,
      "learning_rate": 0.000450488531355972,
      "loss": 1.7558,
      "step": 30003
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3983134925365448,
      "learning_rate": 0.0004504794893144547,
      "loss": 1.6681,
      "step": 30004
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4127102792263031,
      "learning_rate": 0.0004504704470902776,
      "loss": 1.6713,
      "step": 30005
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4232805669307709,
      "learning_rate": 0.00045046140468345134,
      "loss": 1.6408,
      "step": 30006
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41556957364082336,
      "learning_rate": 0.00045045236209398723,
      "loss": 1.7061,
      "step": 30007
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4147107005119324,
      "learning_rate": 0.00045044331932189604,
      "loss": 1.6662,
      "step": 30008
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4007892310619354,
      "learning_rate": 0.000450434276367189,
      "loss": 1.6925,
      "step": 30009
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41500216722488403,
      "learning_rate": 0.00045042523322987683,
      "loss": 1.6446,
      "step": 30010
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41254931688308716,
      "learning_rate": 0.0004504161899099706,
      "loss": 1.6483,
      "step": 30011
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3958408832550049,
      "learning_rate": 0.00045040714640748124,
      "loss": 1.5876,
      "step": 30012
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3989183008670807,
      "learning_rate": 0.0004503981027224197,
      "loss": 1.6653,
      "step": 30013
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4119468331336975,
      "learning_rate": 0.00045038905885479716,
      "loss": 1.701,
      "step": 30014
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40815621614456177,
      "learning_rate": 0.0004503800148046244,
      "loss": 1.6837,
      "step": 30015
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41943874955177307,
      "learning_rate": 0.0004503709705719124,
      "loss": 1.6471,
      "step": 30016
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4082246720790863,
      "learning_rate": 0.00045036192615667233,
      "loss": 1.6034,
      "step": 30017
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.38608425855636597,
      "learning_rate": 0.00045035288155891495,
      "loss": 1.6385,
      "step": 30018
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4036266505718231,
      "learning_rate": 0.0004503438367786514,
      "loss": 1.6597,
      "step": 30019
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4069169759750366,
      "learning_rate": 0.00045033479181589246,
      "loss": 1.6784,
      "step": 30020
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41125723719596863,
      "learning_rate": 0.0004503257466706493,
      "loss": 1.6648,
      "step": 30021
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4061362147331238,
      "learning_rate": 0.0004503167013429328,
      "loss": 1.6728,
      "step": 30022
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4207685589790344,
      "learning_rate": 0.0004503076558327541,
      "loss": 1.6201,
      "step": 30023
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4016113877296448,
      "learning_rate": 0.00045029861014012393,
      "loss": 1.6369,
      "step": 30024
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4070358872413635,
      "learning_rate": 0.00045028956426505345,
      "loss": 1.6368,
      "step": 30025
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4010372757911682,
      "learning_rate": 0.00045028051820755353,
      "loss": 1.6278,
      "step": 30026
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39549824595451355,
      "learning_rate": 0.00045027147196763525,
      "loss": 1.5386,
      "step": 30027
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40356987714767456,
      "learning_rate": 0.0004502624255453095,
      "loss": 1.5741,
      "step": 30028
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42002296447753906,
      "learning_rate": 0.0004502533789405873,
      "loss": 1.6943,
      "step": 30029
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4261128008365631,
      "learning_rate": 0.0004502443321534797,
      "loss": 1.5765,
      "step": 30030
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4201633334159851,
      "learning_rate": 0.0004502352851839975,
      "loss": 1.6683,
      "step": 30031
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40327659249305725,
      "learning_rate": 0.00045022623803215195,
      "loss": 1.6144,
      "step": 30032
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4081404507160187,
      "learning_rate": 0.00045021719069795384,
      "loss": 1.5901,
      "step": 30033
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40613415837287903,
      "learning_rate": 0.00045020814318141416,
      "loss": 1.5825,
      "step": 30034
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4001271724700928,
      "learning_rate": 0.00045019909548254394,
      "loss": 1.7268,
      "step": 30035
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4134024381637573,
      "learning_rate": 0.00045019004760135406,
      "loss": 1.6994,
      "step": 30036
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4145318269729614,
      "learning_rate": 0.00045018099953785575,
      "loss": 1.6552,
      "step": 30037
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4234563410282135,
      "learning_rate": 0.0004501719512920597,
      "loss": 1.6788,
      "step": 30038
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39567676186561584,
      "learning_rate": 0.00045016290286397715,
      "loss": 1.7053,
      "step": 30039
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41687649488449097,
      "learning_rate": 0.00045015385425361886,
      "loss": 1.6602,
      "step": 30040
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4113468825817108,
      "learning_rate": 0.000450144805460996,
      "loss": 1.5646,
      "step": 30041
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4145112633705139,
      "learning_rate": 0.0004501357564861194,
      "loss": 1.7047,
      "step": 30042
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4400714635848999,
      "learning_rate": 0.00045012670732900013,
      "loss": 1.665,
      "step": 30043
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4258502721786499,
      "learning_rate": 0.00045011765798964924,
      "loss": 1.6581,
      "step": 30044
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4125007688999176,
      "learning_rate": 0.00045010860846807747,
      "loss": 1.6502,
      "step": 30045
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41099557280540466,
      "learning_rate": 0.0004500995587642961,
      "loss": 1.6687,
      "step": 30046
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4301736652851105,
      "learning_rate": 0.0004500905088783159,
      "loss": 1.6962,
      "step": 30047
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4239594340324402,
      "learning_rate": 0.000450081458810148,
      "loss": 1.687,
      "step": 30048
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41087186336517334,
      "learning_rate": 0.0004500724085598032,
      "loss": 1.632,
      "step": 30049
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40159884095191956,
      "learning_rate": 0.00045006335812729274,
      "loss": 1.6521,
      "step": 30050
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4037480056285858,
      "learning_rate": 0.00045005430751262753,
      "loss": 1.702,
      "step": 30051
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4056628346443176,
      "learning_rate": 0.0004500452567158183,
      "loss": 1.7264,
      "step": 30052
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42501091957092285,
      "learning_rate": 0.0004500362057368764,
      "loss": 1.7485,
      "step": 30053
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4176211357116699,
      "learning_rate": 0.0004500271545758126,
      "loss": 1.6278,
      "step": 30054
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4115699827671051,
      "learning_rate": 0.00045001810323263793,
      "loss": 1.6634,
      "step": 30055
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4143981635570526,
      "learning_rate": 0.00045000905170736335,
      "loss": 1.6175,
      "step": 30056
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8155391216278076,
      "learning_rate": 0.00045,
      "loss": 1.6499,
      "step": 30057
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4106791019439697,
      "learning_rate": 0.00044999094811055864,
      "loss": 1.6524,
      "step": 30058
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39140427112579346,
      "learning_rate": 0.00044998189603905037,
      "loss": 1.6241,
      "step": 30059
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42147597670555115,
      "learning_rate": 0.00044997284378548623,
      "loss": 1.6262,
      "step": 30060
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4370017349720001,
      "learning_rate": 0.0004499637913498771,
      "loss": 1.6091,
      "step": 30061
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4270762503147125,
      "learning_rate": 0.00044995473873223415,
      "loss": 1.5502,
      "step": 30062
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42147594690322876,
      "learning_rate": 0.00044994568593256806,
      "loss": 1.7068,
      "step": 30063
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4079982042312622,
      "learning_rate": 0.00044993663295089017,
      "loss": 1.6214,
      "step": 30064
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4178295135498047,
      "learning_rate": 0.0004499275797872113,
      "loss": 1.6089,
      "step": 30065
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40518251061439514,
      "learning_rate": 0.0004499185264415423,
      "loss": 1.6325,
      "step": 30066
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4241052269935608,
      "learning_rate": 0.0004499094729138944,
      "loss": 1.679,
      "step": 30067
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4205951690673828,
      "learning_rate": 0.00044990041920427837,
      "loss": 1.6012,
      "step": 30068
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4094391465187073,
      "learning_rate": 0.00044989136531270544,
      "loss": 1.6709,
      "step": 30069
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4135873317718506,
      "learning_rate": 0.0004498823112391864,
      "loss": 1.651,
      "step": 30070
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3960348069667816,
      "learning_rate": 0.0004498732569837324,
      "loss": 1.7084,
      "step": 30071
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4389776885509491,
      "learning_rate": 0.00044986420254635427,
      "loss": 1.6017,
      "step": 30072
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4227089285850525,
      "learning_rate": 0.00044985514792706316,
      "loss": 1.7051,
      "step": 30073
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41983574628829956,
      "learning_rate": 0.00044984609312587,
      "loss": 1.5978,
      "step": 30074
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.46198001503944397,
      "learning_rate": 0.00044983703814278556,
      "loss": 1.687,
      "step": 30075
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4119299650192261,
      "learning_rate": 0.00044982798297782124,
      "loss": 1.5979,
      "step": 30076
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41956785321235657,
      "learning_rate": 0.0004498189276309877,
      "loss": 1.6842,
      "step": 30077
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4155970513820648,
      "learning_rate": 0.00044980987210229616,
      "loss": 1.6584,
      "step": 30078
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40468281507492065,
      "learning_rate": 0.00044980081639175746,
      "loss": 1.6243,
      "step": 30079
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42078277468681335,
      "learning_rate": 0.0004497917604993826,
      "loss": 1.659,
      "step": 30080
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3977811932563782,
      "learning_rate": 0.0004497827044251827,
      "loss": 1.6076,
      "step": 30081
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3940776288509369,
      "learning_rate": 0.0004497736481691686,
      "loss": 1.6332,
      "step": 30082
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39534708857536316,
      "learning_rate": 0.0004497645917313514,
      "loss": 1.6441,
      "step": 30083
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4182460308074951,
      "learning_rate": 0.000449755535111742,
      "loss": 1.6974,
      "step": 30084
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3984208106994629,
      "learning_rate": 0.0004497464783103515,
      "loss": 1.665,
      "step": 30085
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4095439016819,
      "learning_rate": 0.00044973742132719077,
      "loss": 1.6995,
      "step": 30086
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.395512193441391,
      "learning_rate": 0.00044972836416227096,
      "loss": 1.6177,
      "step": 30087
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4025214612483978,
      "learning_rate": 0.000449719306815603,
      "loss": 1.663,
      "step": 30088
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41088706254959106,
      "learning_rate": 0.00044971024928719774,
      "loss": 1.6682,
      "step": 30089
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40515369176864624,
      "learning_rate": 0.00044970119157706633,
      "loss": 1.6104,
      "step": 30090
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.425435334444046,
      "learning_rate": 0.00044969213368521976,
      "loss": 1.6747,
      "step": 30091
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41377997398376465,
      "learning_rate": 0.0004496830756116691,
      "loss": 1.6525,
      "step": 30092
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42008012533187866,
      "learning_rate": 0.000449674017356425,
      "loss": 1.6197,
      "step": 30093
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39972642064094543,
      "learning_rate": 0.0004496649589194989,
      "loss": 1.6988,
      "step": 30094
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.424468994140625,
      "learning_rate": 0.0004496559003009015,
      "loss": 1.6468,
      "step": 30095
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41203445196151733,
      "learning_rate": 0.00044964684150064385,
      "loss": 1.6312,
      "step": 30096
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3961082398891449,
      "learning_rate": 0.0004496377825187371,
      "loss": 1.6172,
      "step": 30097
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4034401774406433,
      "learning_rate": 0.0004496287233551921,
      "loss": 1.6579,
      "step": 30098
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4113796353340149,
      "learning_rate": 0.0004496196640100198,
      "loss": 1.6701,
      "step": 30099
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4064272940158844,
      "learning_rate": 0.0004496106044832313,
      "loss": 1.6295,
      "step": 30100
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40900346636772156,
      "learning_rate": 0.00044960154477483765,
      "loss": 1.6208,
      "step": 30101
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40995895862579346,
      "learning_rate": 0.0004495924848848497,
      "loss": 1.6346,
      "step": 30102
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39854592084884644,
      "learning_rate": 0.0004495834248132785,
      "loss": 1.6959,
      "step": 30103
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3975730836391449,
      "learning_rate": 0.0004495743645601351,
      "loss": 1.6139,
      "step": 30104
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40251076221466064,
      "learning_rate": 0.00044956530412543043,
      "loss": 1.6502,
      "step": 30105
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42086467146873474,
      "learning_rate": 0.0004495562435091756,
      "loss": 1.6763,
      "step": 30106
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42795345187187195,
      "learning_rate": 0.0004495471827113814,
      "loss": 1.6348,
      "step": 30107
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4347361624240875,
      "learning_rate": 0.00044953812173205904,
      "loss": 1.6949,
      "step": 30108
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41355225443840027,
      "learning_rate": 0.0004495290605712194,
      "loss": 1.6704,
      "step": 30109
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4227668046951294,
      "learning_rate": 0.00044951999922887353,
      "loss": 1.7123,
      "step": 30110
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41076478362083435,
      "learning_rate": 0.00044951093770503235,
      "loss": 1.6303,
      "step": 30111
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.43568992614746094,
      "learning_rate": 0.00044950187599970706,
      "loss": 1.7397,
      "step": 30112
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41811326146125793,
      "learning_rate": 0.00044949281411290845,
      "loss": 1.6698,
      "step": 30113
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3940383195877075,
      "learning_rate": 0.0004494837520446475,
      "loss": 1.632,
      "step": 30114
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42412588000297546,
      "learning_rate": 0.0004494746897949354,
      "loss": 1.7102,
      "step": 30115
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40919098258018494,
      "learning_rate": 0.00044946562736378307,
      "loss": 1.6477,
      "step": 30116
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4115586280822754,
      "learning_rate": 0.00044945656475120147,
      "loss": 1.683,
      "step": 30117
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4043770432472229,
      "learning_rate": 0.00044944750195720156,
      "loss": 1.6295,
      "step": 30118
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4130091667175293,
      "learning_rate": 0.00044943843898179447,
      "loss": 1.578,
      "step": 30119
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41432270407676697,
      "learning_rate": 0.0004494293758249911,
      "loss": 1.6311,
      "step": 30120
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4166940450668335,
      "learning_rate": 0.00044942031248680246,
      "loss": 1.6435,
      "step": 30121
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40255916118621826,
      "learning_rate": 0.00044941124896723966,
      "loss": 1.6755,
      "step": 30122
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4132724404335022,
      "learning_rate": 0.0004494021852663135,
      "loss": 1.6513,
      "step": 30123
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.43657031655311584,
      "learning_rate": 0.00044939312138403523,
      "loss": 1.6273,
      "step": 30124
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.410142719745636,
      "learning_rate": 0.0004493840573204156,
      "loss": 1.6689,
      "step": 30125
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41262704133987427,
      "learning_rate": 0.0004493749930754658,
      "loss": 1.6311,
      "step": 30126
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4134407043457031,
      "learning_rate": 0.0004493659286491968,
      "loss": 1.6635,
      "step": 30127
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40527161955833435,
      "learning_rate": 0.00044935686404161954,
      "loss": 1.6192,
      "step": 30128
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4237767457962036,
      "learning_rate": 0.00044934779925274505,
      "loss": 1.6802,
      "step": 30129
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40491583943367004,
      "learning_rate": 0.0004493387342825843,
      "loss": 1.6651,
      "step": 30130
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4011906385421753,
      "learning_rate": 0.0004493296691311484,
      "loss": 1.6614,
      "step": 30131
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.396228164434433,
      "learning_rate": 0.0004493206037984482,
      "loss": 1.6964,
      "step": 30132
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4136944115161896,
      "learning_rate": 0.00044931153828449487,
      "loss": 1.674,
      "step": 30133
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40315747261047363,
      "learning_rate": 0.0004493024725892993,
      "loss": 1.6049,
      "step": 30134
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4029723107814789,
      "learning_rate": 0.0004492934067128725,
      "loss": 1.6064,
      "step": 30135
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4136812090873718,
      "learning_rate": 0.00044928434065522553,
      "loss": 1.6162,
      "step": 30136
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39847397804260254,
      "learning_rate": 0.0004492752744163694,
      "loss": 1.6448,
      "step": 30137
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4166041910648346,
      "learning_rate": 0.00044926620799631503,
      "loss": 1.706,
      "step": 30138
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40669357776641846,
      "learning_rate": 0.00044925714139507355,
      "loss": 1.6101,
      "step": 30139
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.45707881450653076,
      "learning_rate": 0.0004492480746126558,
      "loss": 1.6921,
      "step": 30140
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41332781314849854,
      "learning_rate": 0.0004492390076490729,
      "loss": 1.622,
      "step": 30141
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4112241566181183,
      "learning_rate": 0.0004492299405043359,
      "loss": 1.6184,
      "step": 30142
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41618815064430237,
      "learning_rate": 0.0004492208731784557,
      "loss": 1.6796,
      "step": 30143
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41211187839508057,
      "learning_rate": 0.0004492118056714433,
      "loss": 1.6568,
      "step": 30144
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40443184971809387,
      "learning_rate": 0.00044920273798330977,
      "loss": 1.6785,
      "step": 30145
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.411878764629364,
      "learning_rate": 0.0004491936701140661,
      "loss": 1.6878,
      "step": 30146
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4504668712615967,
      "learning_rate": 0.0004491846020637234,
      "loss": 1.7494,
      "step": 30147
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9055953621864319,
      "learning_rate": 0.0004491755338322924,
      "loss": 1.6651,
      "step": 30148
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39618197083473206,
      "learning_rate": 0.0004491664654197844,
      "loss": 1.6865,
      "step": 30149
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40185970067977905,
      "learning_rate": 0.00044915739682621034,
      "loss": 1.6709,
      "step": 30150
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4171462655067444,
      "learning_rate": 0.0004491483280515811,
      "loss": 1.6731,
      "step": 30151
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40475162863731384,
      "learning_rate": 0.0004491392590959077,
      "loss": 1.6648,
      "step": 30152
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4072731137275696,
      "learning_rate": 0.0004491301899592013,
      "loss": 1.6531,
      "step": 30153
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4040587544441223,
      "learning_rate": 0.0004491211206414728,
      "loss": 1.6868,
      "step": 30154
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41835880279541016,
      "learning_rate": 0.00044911205114273316,
      "loss": 1.7106,
      "step": 30155
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4212026596069336,
      "learning_rate": 0.0004491029814629936,
      "loss": 1.7325,
      "step": 30156
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42283129692077637,
      "learning_rate": 0.0004490939116022649,
      "loss": 1.5988,
      "step": 30157
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40541625022888184,
      "learning_rate": 0.0004490848415605582,
      "loss": 1.6922,
      "step": 30158
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5696035623550415,
      "learning_rate": 0.00044907577133788447,
      "loss": 1.7251,
      "step": 30159
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42340847849845886,
      "learning_rate": 0.0004490667009342547,
      "loss": 1.6594,
      "step": 30160
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39599621295928955,
      "learning_rate": 0.00044905763034967994,
      "loss": 1.6487,
      "step": 30161
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41042429208755493,
      "learning_rate": 0.0004490485595841711,
      "loss": 1.6151,
      "step": 30162
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42755913734436035,
      "learning_rate": 0.0004490394886377394,
      "loss": 1.6113,
      "step": 30163
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8262679576873779,
      "learning_rate": 0.0004490304175103956,
      "loss": 1.7807,
      "step": 30164
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41192013025283813,
      "learning_rate": 0.0004490213462021509,
      "loss": 1.7023,
      "step": 30165
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41735464334487915,
      "learning_rate": 0.0004490122747130162,
      "loss": 1.6382,
      "step": 30166
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4262445569038391,
      "learning_rate": 0.00044900320304300256,
      "loss": 1.678,
      "step": 30167
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.412811815738678,
      "learning_rate": 0.00044899413119212105,
      "loss": 1.6321,
      "step": 30168
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3973044157028198,
      "learning_rate": 0.0004489850591603826,
      "loss": 1.6437,
      "step": 30169
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41549113392829895,
      "learning_rate": 0.0004489759869477982,
      "loss": 1.7183,
      "step": 30170
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4236266613006592,
      "learning_rate": 0.00044896691455437887,
      "loss": 1.6342,
      "step": 30171
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41183924674987793,
      "learning_rate": 0.0004489578419801357,
      "loss": 1.66,
      "step": 30172
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41904765367507935,
      "learning_rate": 0.00044894876922507964,
      "loss": 1.6741,
      "step": 30173
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4062017500400543,
      "learning_rate": 0.00044893969628922184,
      "loss": 1.7396,
      "step": 30174
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4272819757461548,
      "learning_rate": 0.000448930623172573,
      "loss": 1.6456,
      "step": 30175
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40448230504989624,
      "learning_rate": 0.00044892154987514446,
      "loss": 1.6412,
      "step": 30176
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4217660427093506,
      "learning_rate": 0.00044891247639694705,
      "loss": 1.7289,
      "step": 30177
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4016076624393463,
      "learning_rate": 0.00044890340273799184,
      "loss": 1.7052,
      "step": 30178
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4127251207828522,
      "learning_rate": 0.0004488943288982899,
      "loss": 1.6179,
      "step": 30179
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39376217126846313,
      "learning_rate": 0.00044888525487785206,
      "loss": 1.6599,
      "step": 30180
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.418215274810791,
      "learning_rate": 0.0004488761806766896,
      "loss": 1.6644,
      "step": 30181
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4046327471733093,
      "learning_rate": 0.00044886710629481327,
      "loss": 1.5996,
      "step": 30182
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4063470959663391,
      "learning_rate": 0.00044885803173223425,
      "loss": 1.604,
      "step": 30183
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40681153535842896,
      "learning_rate": 0.00044884895698896356,
      "loss": 1.6442,
      "step": 30184
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41978076100349426,
      "learning_rate": 0.0004488398820650121,
      "loss": 1.6635,
      "step": 30185
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4096815586090088,
      "learning_rate": 0.000448830806960391,
      "loss": 1.5913,
      "step": 30186
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40869003534317017,
      "learning_rate": 0.00044882173167511114,
      "loss": 1.641,
      "step": 30187
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4234224855899811,
      "learning_rate": 0.00044881265620918376,
      "loss": 1.6638,
      "step": 30188
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4118032455444336,
      "learning_rate": 0.0004488035805626197,
      "loss": 1.6364,
      "step": 30189
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.412647008895874,
      "learning_rate": 0.00044879450473542996,
      "loss": 1.6681,
      "step": 30190
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40781959891319275,
      "learning_rate": 0.0004487854287276257,
      "loss": 1.5932,
      "step": 30191
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39944252371788025,
      "learning_rate": 0.0004487763525392178,
      "loss": 1.6117,
      "step": 30192
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42139869928359985,
      "learning_rate": 0.0004487672761702173,
      "loss": 1.7147,
      "step": 30193
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41094347834587097,
      "learning_rate": 0.0004487581996206353,
      "loss": 1.6186,
      "step": 30194
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4014773666858673,
      "learning_rate": 0.00044874912289048275,
      "loss": 1.7064,
      "step": 30195
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42386719584465027,
      "learning_rate": 0.0004487400459797706,
      "loss": 1.6402,
      "step": 30196
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40742582082748413,
      "learning_rate": 0.00044873096888851005,
      "loss": 1.6184,
      "step": 30197
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4068107008934021,
      "learning_rate": 0.00044872189161671206,
      "loss": 1.6468,
      "step": 30198
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.41686683893203735,
      "learning_rate": 0.0004487128141643876,
      "loss": 1.6413,
      "step": 30199
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4079086184501648,
      "learning_rate": 0.00044870373653154756,
      "loss": 1.7333,
      "step": 30200
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40553346276283264,
      "learning_rate": 0.00044869465871820316,
      "loss": 1.6564,
      "step": 30201
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.42172306776046753,
      "learning_rate": 0.00044868558072436534,
      "loss": 1.6217,
      "step": 30202
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4207340180873871,
      "learning_rate": 0.0004486765025500451,
      "loss": 1.6404,
      "step": 30203
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39321449398994446,
      "learning_rate": 0.00044866742419525366,
      "loss": 1.7218,
      "step": 30204
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4162311851978302,
      "learning_rate": 0.00044865834566000176,
      "loss": 1.6286,
      "step": 30205
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3983846604824066,
      "learning_rate": 0.0004486492669443005,
      "loss": 1.6336,
      "step": 30206
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4138583242893219,
      "learning_rate": 0.00044864018804816096,
      "loss": 1.6944,
      "step": 30207
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40899285674095154,
      "learning_rate": 0.0004486311089715941,
      "loss": 1.6861,
      "step": 30208
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.420073539018631,
      "learning_rate": 0.0004486220297146111,
      "loss": 1.6518,
      "step": 30209
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4119221270084381,
      "learning_rate": 0.0004486129502772227,
      "loss": 1.6265,
      "step": 30210
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4123118221759796,
      "learning_rate": 0.0004486038706594402,
      "loss": 1.6585,
      "step": 30211
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41398999094963074,
      "learning_rate": 0.0004485947908612744,
      "loss": 1.6758,
      "step": 30212
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4111480414867401,
      "learning_rate": 0.0004485857108827365,
      "loss": 1.6288,
      "step": 30213
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4172503352165222,
      "learning_rate": 0.00044857663072383737,
      "loss": 1.6542,
      "step": 30214
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40075546503067017,
      "learning_rate": 0.0004485675503845881,
      "loss": 1.596,
      "step": 30215
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4187904894351959,
      "learning_rate": 0.0004485584698649998,
      "loss": 1.6094,
      "step": 30216
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4066033959388733,
      "learning_rate": 0.00044854938916508326,
      "loss": 1.6325,
      "step": 30217
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41311129927635193,
      "learning_rate": 0.0004485403082848498,
      "loss": 1.6751,
      "step": 30218
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42090603709220886,
      "learning_rate": 0.00044853122722431023,
      "loss": 1.6629,
      "step": 30219
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41550031304359436,
      "learning_rate": 0.00044852214598347566,
      "loss": 1.6016,
      "step": 30220
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41216105222702026,
      "learning_rate": 0.00044851306456235703,
      "loss": 1.6716,
      "step": 30221
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41442960500717163,
      "learning_rate": 0.00044850398296096544,
      "loss": 1.6586,
      "step": 30222
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4277844727039337,
      "learning_rate": 0.0004484949011793119,
      "loss": 1.6072,
      "step": 30223
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39761146903038025,
      "learning_rate": 0.00044848581921740755,
      "loss": 1.5728,
      "step": 30224
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40972205996513367,
      "learning_rate": 0.00044847673707526314,
      "loss": 1.6127,
      "step": 30225
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.43602919578552246,
      "learning_rate": 0.0004484676547528899,
      "loss": 1.6649,
      "step": 30226
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41514208912849426,
      "learning_rate": 0.00044845857225029874,
      "loss": 1.5982,
      "step": 30227
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4133778512477875,
      "learning_rate": 0.0004484494895675008,
      "loss": 1.6326,
      "step": 30228
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4153825044631958,
      "learning_rate": 0.00044844040670450713,
      "loss": 1.6468,
      "step": 30229
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3949548006057739,
      "learning_rate": 0.0004484313236613286,
      "loss": 1.6703,
      "step": 30230
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42338088154792786,
      "learning_rate": 0.0004484222404379763,
      "loss": 1.6586,
      "step": 30231
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4177771806716919,
      "learning_rate": 0.00044841315703446127,
      "loss": 1.627,
      "step": 30232
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42027613520622253,
      "learning_rate": 0.00044840407345079456,
      "loss": 1.6805,
      "step": 30233
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39726221561431885,
      "learning_rate": 0.0004483949896869872,
      "loss": 1.6445,
      "step": 30234
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4110151529312134,
      "learning_rate": 0.00044838590574305004,
      "loss": 1.6321,
      "step": 30235
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40685972571372986,
      "learning_rate": 0.0004483768216189944,
      "loss": 1.6272,
      "step": 30236
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42537903785705566,
      "learning_rate": 0.0004483677373148312,
      "loss": 1.6986,
      "step": 30237
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41081517934799194,
      "learning_rate": 0.00044835865283057133,
      "loss": 1.6215,
      "step": 30238
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.43339863419532776,
      "learning_rate": 0.000448349568166226,
      "loss": 1.5872,
      "step": 30239
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42414793372154236,
      "learning_rate": 0.000448340483321806,
      "loss": 1.6665,
      "step": 30240
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4117821455001831,
      "learning_rate": 0.0004483313982973227,
      "loss": 1.6946,
      "step": 30241
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.8883715271949768,
      "learning_rate": 0.00044832231309278674,
      "loss": 1.6347,
      "step": 30242
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4084043800830841,
      "learning_rate": 0.0004483132277082095,
      "loss": 1.668,
      "step": 30243
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41814205050468445,
      "learning_rate": 0.0004483041421436018,
      "loss": 1.733,
      "step": 30244
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41346147656440735,
      "learning_rate": 0.00044829505639897466,
      "loss": 1.6884,
      "step": 30245
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41218245029449463,
      "learning_rate": 0.0004482859704743393,
      "loss": 1.676,
      "step": 30246
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40230193734169006,
      "learning_rate": 0.00044827688436970654,
      "loss": 1.6097,
      "step": 30247
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4155973494052887,
      "learning_rate": 0.00044826779808508757,
      "loss": 1.6337,
      "step": 30248
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.38757753372192383,
      "learning_rate": 0.0004482587116204932,
      "loss": 1.6662,
      "step": 30249
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40549778938293457,
      "learning_rate": 0.0004482496249759347,
      "loss": 1.6231,
      "step": 30250
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4826597273349762,
      "learning_rate": 0.0004482405381514229,
      "loss": 1.6732,
      "step": 30251
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.414323091506958,
      "learning_rate": 0.00044823145114696906,
      "loss": 1.682,
      "step": 30252
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4153957962989807,
      "learning_rate": 0.00044822236396258405,
      "loss": 1.5833,
      "step": 30253
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4163689613342285,
      "learning_rate": 0.00044821327659827893,
      "loss": 1.677,
      "step": 30254
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4074138402938843,
      "learning_rate": 0.0004482041890540647,
      "loss": 1.6938,
      "step": 30255
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4179215133190155,
      "learning_rate": 0.0004481951013299524,
      "loss": 1.6574,
      "step": 30256
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3973175883293152,
      "learning_rate": 0.0004481860134259531,
      "loss": 1.6237,
      "step": 30257
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.457480251789093,
      "learning_rate": 0.00044817692534207776,
      "loss": 1.6758,
      "step": 30258
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4116095006465912,
      "learning_rate": 0.0004481678370783376,
      "loss": 1.6388,
      "step": 30259
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4089089035987854,
      "learning_rate": 0.00044815874863474343,
      "loss": 1.6569,
      "step": 30260
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.43150120973587036,
      "learning_rate": 0.00044814966001130636,
      "loss": 1.7331,
      "step": 30261
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4077026844024658,
      "learning_rate": 0.00044814057120803744,
      "loss": 1.6477,
      "step": 30262
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.414690226316452,
      "learning_rate": 0.0004481314822249477,
      "loss": 1.6484,
      "step": 30263
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40492677688598633,
      "learning_rate": 0.0004481223930620482,
      "loss": 1.632,
      "step": 30264
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41589751839637756,
      "learning_rate": 0.00044811330371934984,
      "loss": 1.6451,
      "step": 30265
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.409443199634552,
      "learning_rate": 0.0004481042141968639,
      "loss": 1.6577,
      "step": 30266
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4048631191253662,
      "learning_rate": 0.0004480951244946012,
      "loss": 1.641,
      "step": 30267
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4042767286300659,
      "learning_rate": 0.00044808603461257284,
      "loss": 1.6727,
      "step": 30268
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4085809588432312,
      "learning_rate": 0.0004480769445507898,
      "loss": 1.6546,
      "step": 30269
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40436676144599915,
      "learning_rate": 0.0004480678543092632,
      "loss": 1.6315,
      "step": 30270
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4051918387413025,
      "learning_rate": 0.00044805876388800416,
      "loss": 1.673,
      "step": 30271
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3988978862762451,
      "learning_rate": 0.00044804967328702336,
      "loss": 1.5945,
      "step": 30272
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4016928970813751,
      "learning_rate": 0.00044804058250633226,
      "loss": 1.6198,
      "step": 30273
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4000228941440582,
      "learning_rate": 0.0004480314915459417,
      "loss": 1.6338,
      "step": 30274
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4067293703556061,
      "learning_rate": 0.0004480224004058626,
      "loss": 1.6802,
      "step": 30275
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.415957510471344,
      "learning_rate": 0.0004480133090861062,
      "loss": 1.6871,
      "step": 30276
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4049820303916931,
      "learning_rate": 0.00044800421758668343,
      "loss": 1.6329,
      "step": 30277
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40090835094451904,
      "learning_rate": 0.00044799512590760544,
      "loss": 1.6258,
      "step": 30278
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41593214869499207,
      "learning_rate": 0.000447986034048883,
      "loss": 1.7237,
      "step": 30279
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4043121635913849,
      "learning_rate": 0.0004479769420105274,
      "loss": 1.6696,
      "step": 30280
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.399095743894577,
      "learning_rate": 0.0004479678497925496,
      "loss": 1.6368,
      "step": 30281
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3967711925506592,
      "learning_rate": 0.00044795875739496064,
      "loss": 1.6318,
      "step": 30282
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40241652727127075,
      "learning_rate": 0.00044794966481777153,
      "loss": 1.5958,
      "step": 30283
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42324405908584595,
      "learning_rate": 0.00044794057206099327,
      "loss": 1.6808,
      "step": 30284
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40589094161987305,
      "learning_rate": 0.00044793147912463715,
      "loss": 1.6614,
      "step": 30285
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.429605633020401,
      "learning_rate": 0.0004479223860087139,
      "loss": 1.7099,
      "step": 30286
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.48072555661201477,
      "learning_rate": 0.0004479132927132346,
      "loss": 1.6566,
      "step": 30287
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4123607873916626,
      "learning_rate": 0.0004479041992382104,
      "loss": 1.6643,
      "step": 30288
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4122825562953949,
      "learning_rate": 0.0004478951055836523,
      "loss": 1.6653,
      "step": 30289
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.396522581577301,
      "learning_rate": 0.0004478860117495713,
      "loss": 1.7147,
      "step": 30290
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4092318117618561,
      "learning_rate": 0.00044787691773597857,
      "loss": 1.6214,
      "step": 30291
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4102969169616699,
      "learning_rate": 0.000447867823542885,
      "loss": 1.5845,
      "step": 30292
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.409761518239975,
      "learning_rate": 0.00044785872917030165,
      "loss": 1.5224,
      "step": 30293
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4252844452857971,
      "learning_rate": 0.0004478496346182395,
      "loss": 1.5453,
      "step": 30294
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4247840344905853,
      "learning_rate": 0.00044784053988670985,
      "loss": 1.6897,
      "step": 30295
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42267265915870667,
      "learning_rate": 0.00044783144497572363,
      "loss": 1.759,
      "step": 30296
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3932562470436096,
      "learning_rate": 0.00044782234988529154,
      "loss": 1.6872,
      "step": 30297
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4130811393260956,
      "learning_rate": 0.0004478132546154251,
      "loss": 1.6136,
      "step": 30298
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42245912551879883,
      "learning_rate": 0.0004478041591661351,
      "loss": 1.6317,
      "step": 30299
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4137985408306122,
      "learning_rate": 0.0004477950635374326,
      "loss": 1.6306,
      "step": 30300
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40867817401885986,
      "learning_rate": 0.00044778596772932877,
      "loss": 1.7081,
      "step": 30301
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40411901473999023,
      "learning_rate": 0.0004477768717418344,
      "loss": 1.6724,
      "step": 30302
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4105603098869324,
      "learning_rate": 0.00044776777557496076,
      "loss": 1.6498,
      "step": 30303
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4174063503742218,
      "learning_rate": 0.0004477586792287188,
      "loss": 1.7418,
      "step": 30304
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4191429316997528,
      "learning_rate": 0.00044774958270311964,
      "loss": 1.6244,
      "step": 30305
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41112375259399414,
      "learning_rate": 0.0004477404859981742,
      "loss": 1.6407,
      "step": 30306
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40583497285842896,
      "learning_rate": 0.00044773138911389354,
      "loss": 1.6599,
      "step": 30307
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39320889115333557,
      "learning_rate": 0.00044772229205028885,
      "loss": 1.5744,
      "step": 30308
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39791765809059143,
      "learning_rate": 0.00044771319480737095,
      "loss": 1.5965,
      "step": 30309
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4015386402606964,
      "learning_rate": 0.00044770409738515104,
      "loss": 1.616,
      "step": 30310
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41104796528816223,
      "learning_rate": 0.0004476949997836401,
      "loss": 1.6097,
      "step": 30311
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4053000509738922,
      "learning_rate": 0.00044768590200284917,
      "loss": 1.6091,
      "step": 30312
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4011983871459961,
      "learning_rate": 0.0004476768040427894,
      "loss": 1.6097,
      "step": 30313
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4217029809951782,
      "learning_rate": 0.0004476677059034717,
      "loss": 1.6445,
      "step": 30314
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41745537519454956,
      "learning_rate": 0.0004476586075849073,
      "loss": 1.7339,
      "step": 30315
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40162765979766846,
      "learning_rate": 0.0004476495090871069,
      "loss": 1.5895,
      "step": 30316
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4262349307537079,
      "learning_rate": 0.0004476404104100818,
      "loss": 1.6405,
      "step": 30317
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40963199734687805,
      "learning_rate": 0.00044763131155384304,
      "loss": 1.6632,
      "step": 30318
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4056958258152008,
      "learning_rate": 0.0004476222125184016,
      "loss": 1.6156,
      "step": 30319
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4077858030796051,
      "learning_rate": 0.0004476131133037685,
      "loss": 1.7055,
      "step": 30320
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4060843288898468,
      "learning_rate": 0.0004476040139099549,
      "loss": 1.5984,
      "step": 30321
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4158947765827179,
      "learning_rate": 0.0004475949143369718,
      "loss": 1.6632,
      "step": 30322
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42394816875457764,
      "learning_rate": 0.0004475858145848301,
      "loss": 1.7637,
      "step": 30323
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41421905159950256,
      "learning_rate": 0.0004475767146535411,
      "loss": 1.6473,
      "step": 30324
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42584437131881714,
      "learning_rate": 0.0004475676145431156,
      "loss": 1.7251,
      "step": 30325
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4272273778915405,
      "learning_rate": 0.0004475585142535649,
      "loss": 1.6512,
      "step": 30326
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41811490058898926,
      "learning_rate": 0.0004475494137848997,
      "loss": 1.6324,
      "step": 30327
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39393365383148193,
      "learning_rate": 0.0004475403131371315,
      "loss": 1.5839,
      "step": 30328
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4009091854095459,
      "learning_rate": 0.00044753121231027085,
      "loss": 1.6731,
      "step": 30329
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4284733831882477,
      "learning_rate": 0.0004475221113043292,
      "loss": 1.6156,
      "step": 30330
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4191005229949951,
      "learning_rate": 0.00044751301011931746,
      "loss": 1.6623,
      "step": 30331
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41436320543289185,
      "learning_rate": 0.0004475039087552465,
      "loss": 1.6895,
      "step": 30332
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.410279244184494,
      "learning_rate": 0.00044749480721212776,
      "loss": 1.5518,
      "step": 30333
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4032111167907715,
      "learning_rate": 0.00044748570548997185,
      "loss": 1.6386,
      "step": 30334
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40600350499153137,
      "learning_rate": 0.00044747660358879015,
      "loss": 1.7018,
      "step": 30335
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4319145083427429,
      "learning_rate": 0.00044746750150859355,
      "loss": 1.6416,
      "step": 30336
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41853466629981995,
      "learning_rate": 0.0004474583992493931,
      "loss": 1.6934,
      "step": 30337
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40771788358688354,
      "learning_rate": 0.0004474492968111999,
      "loss": 1.7018,
      "step": 30338
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41731885075569153,
      "learning_rate": 0.00044744019419402497,
      "loss": 1.6941,
      "step": 30339
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4320586025714874,
      "learning_rate": 0.0004474310913978794,
      "loss": 1.6213,
      "step": 30340
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.410305380821228,
      "learning_rate": 0.0004474219884227742,
      "loss": 1.6488,
      "step": 30341
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41099151968955994,
      "learning_rate": 0.00044741288526872037,
      "loss": 1.6729,
      "step": 30342
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4192839562892914,
      "learning_rate": 0.0004474037819357291,
      "loss": 1.6463,
      "step": 30343
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4266737997531891,
      "learning_rate": 0.0004473946784238113,
      "loss": 1.647,
      "step": 30344
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40426188707351685,
      "learning_rate": 0.0004473855747329781,
      "loss": 1.5604,
      "step": 30345
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42877835035324097,
      "learning_rate": 0.0004473764708632406,
      "loss": 1.6775,
      "step": 30346
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4263283312320709,
      "learning_rate": 0.00044736736681460967,
      "loss": 1.6691,
      "step": 30347
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41117021441459656,
      "learning_rate": 0.0004473582625870965,
      "loss": 1.6373,
      "step": 30348
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4636613428592682,
      "learning_rate": 0.0004473491581807121,
      "loss": 1.7047,
      "step": 30349
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42481371760368347,
      "learning_rate": 0.00044734005359546754,
      "loss": 1.6634,
      "step": 30350
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4059852361679077,
      "learning_rate": 0.00044733094883137395,
      "loss": 1.6412,
      "step": 30351
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.400772362947464,
      "learning_rate": 0.0004473218438884421,
      "loss": 1.6774,
      "step": 30352
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3965672254562378,
      "learning_rate": 0.0004473127387666834,
      "loss": 1.6542,
      "step": 30353
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4213525950908661,
      "learning_rate": 0.0004473036334661088,
      "loss": 1.6169,
      "step": 30354
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.415782630443573,
      "learning_rate": 0.00044729452798672914,
      "loss": 1.7158,
      "step": 30355
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42413511872291565,
      "learning_rate": 0.00044728542232855576,
      "loss": 1.6446,
      "step": 30356
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41695839166641235,
      "learning_rate": 0.00044727631649159945,
      "loss": 1.6348,
      "step": 30357
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40403929352760315,
      "learning_rate": 0.00044726721047587143,
      "loss": 1.6048,
      "step": 30358
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4170168340206146,
      "learning_rate": 0.00044725810428138265,
      "loss": 1.6939,
      "step": 30359
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40693581104278564,
      "learning_rate": 0.0004472489979081444,
      "loss": 1.7045,
      "step": 30360
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4217779040336609,
      "learning_rate": 0.0004472398913561674,
      "loss": 1.6833,
      "step": 30361
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39962178468704224,
      "learning_rate": 0.0004472307846254629,
      "loss": 1.6573,
      "step": 30362
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.5613308548927307,
      "learning_rate": 0.0004472216777160421,
      "loss": 1.679,
      "step": 30363
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3998368978500366,
      "learning_rate": 0.0004472125706279156,
      "loss": 1.6685,
      "step": 30364
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4146028459072113,
      "learning_rate": 0.0004472034633610949,
      "loss": 1.7165,
      "step": 30365
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4132850766181946,
      "learning_rate": 0.0004471943559155908,
      "loss": 1.6171,
      "step": 30366
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41074252128601074,
      "learning_rate": 0.0004471852482914145,
      "loss": 1.6476,
      "step": 30367
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4077930748462677,
      "learning_rate": 0.000447176140488577,
      "loss": 1.6306,
      "step": 30368
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40570035576820374,
      "learning_rate": 0.00044716703250708936,
      "loss": 1.6846,
      "step": 30369
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4231598377227783,
      "learning_rate": 0.00044715792434696263,
      "loss": 1.6943,
      "step": 30370
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4246912896633148,
      "learning_rate": 0.0004471488160082078,
      "loss": 1.6927,
      "step": 30371
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.415424108505249,
      "learning_rate": 0.00044713970749083603,
      "loss": 1.7075,
      "step": 30372
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4147240221500397,
      "learning_rate": 0.0004471305987948583,
      "loss": 1.6463,
      "step": 30373
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41854801774024963,
      "learning_rate": 0.00044712148992028574,
      "loss": 1.6198,
      "step": 30374
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39646485447883606,
      "learning_rate": 0.00044711238086712934,
      "loss": 1.6622,
      "step": 30375
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41904786229133606,
      "learning_rate": 0.0004471032716354003,
      "loss": 1.6029,
      "step": 30376
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4179045557975769,
      "learning_rate": 0.00044709416222510936,
      "loss": 1.6396,
      "step": 30377
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41909652948379517,
      "learning_rate": 0.0004470850526362679,
      "loss": 1.6758,
      "step": 30378
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4118613004684448,
      "learning_rate": 0.0004470759428688868,
      "loss": 1.6436,
      "step": 30379
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40550366044044495,
      "learning_rate": 0.00044706683292297726,
      "loss": 1.6535,
      "step": 30380
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4176775813102722,
      "learning_rate": 0.0004470577227985503,
      "loss": 1.6834,
      "step": 30381
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3951157331466675,
      "learning_rate": 0.00044704861249561675,
      "loss": 1.6161,
      "step": 30382
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4087005853652954,
      "learning_rate": 0.00044703950201418796,
      "loss": 1.6665,
      "step": 30383
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41351833939552307,
      "learning_rate": 0.0004470303913542749,
      "loss": 1.6445,
      "step": 30384
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40337520837783813,
      "learning_rate": 0.00044702128051588854,
      "loss": 1.6047,
      "step": 30385
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4091929495334625,
      "learning_rate": 0.00044701216949904,
      "loss": 1.5956,
      "step": 30386
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39847680926322937,
      "learning_rate": 0.00044700305830374043,
      "loss": 1.6772,
      "step": 30387
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40733566880226135,
      "learning_rate": 0.0004469939469300008,
      "loss": 1.6396,
      "step": 30388
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4173014163970947,
      "learning_rate": 0.0004469848353778321,
      "loss": 1.655,
      "step": 30389
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40960240364074707,
      "learning_rate": 0.0004469757236472456,
      "loss": 1.5945,
      "step": 30390
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41083839535713196,
      "learning_rate": 0.00044696661173825204,
      "loss": 1.6735,
      "step": 30391
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4149378538131714,
      "learning_rate": 0.00044695749965086284,
      "loss": 1.7074,
      "step": 30392
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4188826084136963,
      "learning_rate": 0.00044694838738508876,
      "loss": 1.6359,
      "step": 30393
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42424386739730835,
      "learning_rate": 0.00044693927494094104,
      "loss": 1.6837,
      "step": 30394
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4252067804336548,
      "learning_rate": 0.00044693016231843073,
      "loss": 1.7297,
      "step": 30395
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42935189604759216,
      "learning_rate": 0.00044692104951756884,
      "loss": 1.7103,
      "step": 30396
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40812334418296814,
      "learning_rate": 0.0004469119365383664,
      "loss": 1.6033,
      "step": 30397
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4024788439273834,
      "learning_rate": 0.0004469028233808345,
      "loss": 1.5998,
      "step": 30398
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3977951407432556,
      "learning_rate": 0.00044689371004498425,
      "loss": 1.6665,
      "step": 30399
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41691911220550537,
      "learning_rate": 0.0004468845965308267,
      "loss": 1.5239,
      "step": 30400
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.424202024936676,
      "learning_rate": 0.0004468754828383729,
      "loss": 1.773,
      "step": 30401
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4147806167602539,
      "learning_rate": 0.00044686636896763387,
      "loss": 1.6564,
      "step": 30402
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4049062132835388,
      "learning_rate": 0.00044685725491862077,
      "loss": 1.6198,
      "step": 30403
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42531031370162964,
      "learning_rate": 0.00044684814069134455,
      "loss": 1.6628,
      "step": 30404
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39686477184295654,
      "learning_rate": 0.0004468390262858162,
      "loss": 1.6339,
      "step": 30405
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4179394245147705,
      "learning_rate": 0.00044682991170204707,
      "loss": 1.5661,
      "step": 30406
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.43532297015190125,
      "learning_rate": 0.000446820796940048,
      "loss": 1.747,
      "step": 30407
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42319589853286743,
      "learning_rate": 0.0004468116819998302,
      "loss": 1.6135,
      "step": 30408
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4006151556968689,
      "learning_rate": 0.0004468025668814046,
      "loss": 1.6704,
      "step": 30409
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40743711590766907,
      "learning_rate": 0.0004467934515847823,
      "loss": 1.6223,
      "step": 30410
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4138847589492798,
      "learning_rate": 0.0004467843361099743,
      "loss": 1.6721,
      "step": 30411
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40098491311073303,
      "learning_rate": 0.00044677522045699186,
      "loss": 1.6439,
      "step": 30412
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4184577167034149,
      "learning_rate": 0.00044676610462584594,
      "loss": 1.7448,
      "step": 30413
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41826367378234863,
      "learning_rate": 0.00044675698861654754,
      "loss": 1.6229,
      "step": 30414
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41559818387031555,
      "learning_rate": 0.0004467478724291078,
      "loss": 1.6382,
      "step": 30415
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4091540575027466,
      "learning_rate": 0.00044673875606353775,
      "loss": 1.6073,
      "step": 30416
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3988378942012787,
      "learning_rate": 0.00044672963951984847,
      "loss": 1.6169,
      "step": 30417
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4235284626483917,
      "learning_rate": 0.00044672052279805106,
      "loss": 1.609,
      "step": 30418
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4091026186943054,
      "learning_rate": 0.0004467114058981565,
      "loss": 1.5955,
      "step": 30419
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42282378673553467,
      "learning_rate": 0.000446702288820176,
      "loss": 1.5923,
      "step": 30420
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4233110547065735,
      "learning_rate": 0.0004466931715641204,
      "loss": 1.697,
      "step": 30421
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4162575602531433,
      "learning_rate": 0.00044668405413000097,
      "loss": 1.6228,
      "step": 30422
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4091639816761017,
      "learning_rate": 0.0004466749365178287,
      "loss": 1.5558,
      "step": 30423
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4145525097846985,
      "learning_rate": 0.0004466658187276147,
      "loss": 1.6363,
      "step": 30424
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4245659112930298,
      "learning_rate": 0.00044665670075937005,
      "loss": 1.6091,
      "step": 30425
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40999075770378113,
      "learning_rate": 0.0004466475826131056,
      "loss": 1.6818,
      "step": 30426
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40671586990356445,
      "learning_rate": 0.00044663846428883276,
      "loss": 1.5702,
      "step": 30427
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4114255905151367,
      "learning_rate": 0.0004466293457865624,
      "loss": 1.6651,
      "step": 30428
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.419929176568985,
      "learning_rate": 0.00044662022710630555,
      "loss": 1.6578,
      "step": 30429
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4310024678707123,
      "learning_rate": 0.00044661110824807345,
      "loss": 1.6299,
      "step": 30430
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41826942563056946,
      "learning_rate": 0.00044660198921187694,
      "loss": 1.6981,
      "step": 30431
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41134652495384216,
      "learning_rate": 0.00044659286999772734,
      "loss": 1.6613,
      "step": 30432
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41749656200408936,
      "learning_rate": 0.00044658375060563555,
      "loss": 1.6704,
      "step": 30433
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41436195373535156,
      "learning_rate": 0.00044657463103561264,
      "loss": 1.6226,
      "step": 30434
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4070868492126465,
      "learning_rate": 0.00044656551128766976,
      "loss": 1.6201,
      "step": 30435
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3965683877468109,
      "learning_rate": 0.0004465563913618179,
      "loss": 1.6791,
      "step": 30436
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4196155071258545,
      "learning_rate": 0.00044654727125806825,
      "loss": 1.6932,
      "step": 30437
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42813071608543396,
      "learning_rate": 0.00044653815097643184,
      "loss": 1.626,
      "step": 30438
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3921480178833008,
      "learning_rate": 0.00044652903051691965,
      "loss": 1.5829,
      "step": 30439
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40129512548446655,
      "learning_rate": 0.0004465199098795428,
      "loss": 1.6315,
      "step": 30440
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.44482630491256714,
      "learning_rate": 0.0004465107890643124,
      "loss": 1.5899,
      "step": 30441
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39359423518180847,
      "learning_rate": 0.0004465016680712394,
      "loss": 1.6556,
      "step": 30442
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40016600489616394,
      "learning_rate": 0.00044649254690033507,
      "loss": 1.7038,
      "step": 30443
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4069296419620514,
      "learning_rate": 0.00044648342555161024,
      "loss": 1.6824,
      "step": 30444
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4140985310077667,
      "learning_rate": 0.0004464743040250762,
      "loss": 1.6023,
      "step": 30445
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39039021730422974,
      "learning_rate": 0.00044646518232074395,
      "loss": 1.6292,
      "step": 30446
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40522563457489014,
      "learning_rate": 0.00044645606043862456,
      "loss": 1.6494,
      "step": 30447
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4231691062450409,
      "learning_rate": 0.000446446938378729,
      "loss": 1.6871,
      "step": 30448
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41308555006980896,
      "learning_rate": 0.0004464378161410685,
      "loss": 1.6764,
      "step": 30449
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41960814595222473,
      "learning_rate": 0.00044642869372565414,
      "loss": 1.6865,
      "step": 30450
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.7745051383972168,
      "learning_rate": 0.0004464195711324968,
      "loss": 1.6942,
      "step": 30451
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40237995982170105,
      "learning_rate": 0.00044641044836160777,
      "loss": 1.6276,
      "step": 30452
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4099290668964386,
      "learning_rate": 0.000446401325412998,
      "loss": 1.6212,
      "step": 30453
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4162140190601349,
      "learning_rate": 0.0004463922022866785,
      "loss": 1.7033,
      "step": 30454
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4049660861492157,
      "learning_rate": 0.00044638307898266054,
      "loss": 1.6124,
      "step": 30455
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3984726369380951,
      "learning_rate": 0.00044637395550095507,
      "loss": 1.6329,
      "step": 30456
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41374191641807556,
      "learning_rate": 0.0004463648318415732,
      "loss": 1.6007,
      "step": 30457
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40268585085868835,
      "learning_rate": 0.000446355708004526,
      "loss": 1.6817,
      "step": 30458
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4075789451599121,
      "learning_rate": 0.00044634658398982446,
      "loss": 1.6691,
      "step": 30459
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4197431802749634,
      "learning_rate": 0.00044633745979747976,
      "loss": 1.6914,
      "step": 30460
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41787514090538025,
      "learning_rate": 0.00044632833542750295,
      "loss": 1.6546,
      "step": 30461
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3964043855667114,
      "learning_rate": 0.0004463192108799051,
      "loss": 1.6036,
      "step": 30462
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4090244770050049,
      "learning_rate": 0.00044631008615469736,
      "loss": 1.6977,
      "step": 30463
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42839565873146057,
      "learning_rate": 0.00044630096125189065,
      "loss": 1.6965,
      "step": 30464
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40400171279907227,
      "learning_rate": 0.0004462918361714961,
      "loss": 1.6781,
      "step": 30465
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4031984210014343,
      "learning_rate": 0.0004462827109135249,
      "loss": 1.6527,
      "step": 30466
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40571409463882446,
      "learning_rate": 0.00044627358547798794,
      "loss": 1.6091,
      "step": 30467
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40928253531455994,
      "learning_rate": 0.0004462644598648966,
      "loss": 1.6101,
      "step": 30468
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4139747619628906,
      "learning_rate": 0.00044625533407426153,
      "loss": 1.6803,
      "step": 30469
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40776515007019043,
      "learning_rate": 0.0004462462081060941,
      "loss": 1.6997,
      "step": 30470
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4052879810333252,
      "learning_rate": 0.00044623708196040536,
      "loss": 1.6425,
      "step": 30471
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40305984020233154,
      "learning_rate": 0.0004462279556372063,
      "loss": 1.6571,
      "step": 30472
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3949801027774811,
      "learning_rate": 0.0004462188291365082,
      "loss": 1.6691,
      "step": 30473
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4044765830039978,
      "learning_rate": 0.0004462097024583218,
      "loss": 1.6908,
      "step": 30474
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40443897247314453,
      "learning_rate": 0.0004462005756026585,
      "loss": 1.6908,
      "step": 30475
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4128274917602539,
      "learning_rate": 0.0004461914485695291,
      "loss": 1.5993,
      "step": 30476
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4044462740421295,
      "learning_rate": 0.0004461823213589449,
      "loss": 1.6501,
      "step": 30477
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4008561670780182,
      "learning_rate": 0.0004461731939709169,
      "loss": 1.6146,
      "step": 30478
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.416155070066452,
      "learning_rate": 0.0004461640664054562,
      "loss": 1.6959,
      "step": 30479
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4058322012424469,
      "learning_rate": 0.00044615493866257387,
      "loss": 1.7156,
      "step": 30480
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39228659868240356,
      "learning_rate": 0.00044614581074228093,
      "loss": 1.5858,
      "step": 30481
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39721935987472534,
      "learning_rate": 0.00044613668264458856,
      "loss": 1.6522,
      "step": 30482
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42824506759643555,
      "learning_rate": 0.00044612755436950776,
      "loss": 1.6934,
      "step": 30483
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4160045087337494,
      "learning_rate": 0.0004461184259170496,
      "loss": 1.6226,
      "step": 30484
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42489248514175415,
      "learning_rate": 0.0004461092972872252,
      "loss": 1.7026,
      "step": 30485
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40703701972961426,
      "learning_rate": 0.0004461001684800457,
      "loss": 1.6386,
      "step": 30486
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4263942837715149,
      "learning_rate": 0.00044609103949552216,
      "loss": 1.7019,
      "step": 30487
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42408397793769836,
      "learning_rate": 0.0004460819103336656,
      "loss": 1.6157,
      "step": 30488
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40783631801605225,
      "learning_rate": 0.000446072780994487,
      "loss": 1.5369,
      "step": 30489
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4163433611392975,
      "learning_rate": 0.0004460636514779977,
      "loss": 1.5942,
      "step": 30490
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4099290668964386,
      "learning_rate": 0.0004460545217842086,
      "loss": 1.5712,
      "step": 30491
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.40269047021865845,
      "learning_rate": 0.0004460453919131308,
      "loss": 1.6062,
      "step": 30492
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42502593994140625,
      "learning_rate": 0.0004460362618647755,
      "loss": 1.7011,
      "step": 30493
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4250253438949585,
      "learning_rate": 0.0004460271316391536,
      "loss": 1.6061,
      "step": 30494
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4529763460159302,
      "learning_rate": 0.0004460180012362764,
      "loss": 1.7477,
      "step": 30495
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4202753007411957,
      "learning_rate": 0.0004460088706561548,
      "loss": 1.7103,
      "step": 30496
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41223928332328796,
      "learning_rate": 0.0004459997398987998,
      "loss": 1.5586,
      "step": 30497
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.39759087562561035,
      "learning_rate": 0.00044599060896422286,
      "loss": 1.6347,
      "step": 30498
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42297372221946716,
      "learning_rate": 0.0004459814778524347,
      "loss": 1.6274,
      "step": 30499
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.43989574909210205,
      "learning_rate": 0.00044597234656344655,
      "loss": 1.5691,
      "step": 30500
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41656163334846497,
      "learning_rate": 0.0004459632150972695,
      "loss": 1.6764,
      "step": 30501
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.41200706362724304,
      "learning_rate": 0.0004459540834539146,
      "loss": 1.668,
      "step": 30502
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42135897278785706,
      "learning_rate": 0.00044594495163339295,
      "loss": 1.6489,
      "step": 30503
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4183720350265503,
      "learning_rate": 0.0004459358196357157,
      "loss": 1.6332,
      "step": 30504
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.42405030131340027,
      "learning_rate": 0.0004459266874608938,
      "loss": 1.5676,
      "step": 30505
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.414323627948761,
      "learning_rate": 0.00044591755510893836,
      "loss": 1.6041,
      "step": 30506
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4011550545692444,
      "learning_rate": 0.00044590842257986055,
      "loss": 1.5836,
      "step": 30507
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4179798662662506,
      "learning_rate": 0.0004458992898736715,
      "loss": 1.6101,
      "step": 30508
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4140655994415283,
      "learning_rate": 0.00044589015699038207,
      "loss": 1.586,
      "step": 30509
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4113243818283081,
      "learning_rate": 0.0004458810239300035,
      "loss": 1.5755,
      "step": 30510
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42295703291893005,
      "learning_rate": 0.0004458718906925469,
      "loss": 1.6593,
      "step": 30511
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4150088429450989,
      "learning_rate": 0.0004458627572780234,
      "loss": 1.609,
      "step": 30512
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4199914336204529,
      "learning_rate": 0.0004458536236864439,
      "loss": 1.6519,
      "step": 30513
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4286910593509674,
      "learning_rate": 0.0004458444899178196,
      "loss": 1.5736,
      "step": 30514
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.6908189654350281,
      "learning_rate": 0.0004458353559721616,
      "loss": 1.6181,
      "step": 30515
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43672555685043335,
      "learning_rate": 0.000445826221849481,
      "loss": 1.6864,
      "step": 30516
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4109199345111847,
      "learning_rate": 0.00044581708754978875,
      "loss": 1.6561,
      "step": 30517
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40981635451316833,
      "learning_rate": 0.0004458079530730962,
      "loss": 1.6529,
      "step": 30518
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4075317978858948,
      "learning_rate": 0.0004457988184194141,
      "loss": 1.6731,
      "step": 30519
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40642932057380676,
      "learning_rate": 0.00044578968358875384,
      "loss": 1.64,
      "step": 30520
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42058855295181274,
      "learning_rate": 0.00044578054858112633,
      "loss": 1.542,
      "step": 30521
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4335049092769623,
      "learning_rate": 0.00044577141339654277,
      "loss": 1.6076,
      "step": 30522
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40683513879776,
      "learning_rate": 0.0004457622780350141,
      "loss": 1.6023,
      "step": 30523
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4267566204071045,
      "learning_rate": 0.0004457531424965515,
      "loss": 1.6589,
      "step": 30524
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4191828966140747,
      "learning_rate": 0.0004457440067811662,
      "loss": 1.5829,
      "step": 30525
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43424350023269653,
      "learning_rate": 0.0004457348708888691,
      "loss": 1.6554,
      "step": 30526
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41252389550209045,
      "learning_rate": 0.0004457257348196713,
      "loss": 1.6625,
      "step": 30527
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4084479510784149,
      "learning_rate": 0.0004457165985735839,
      "loss": 1.6588,
      "step": 30528
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.420835018157959,
      "learning_rate": 0.00044570746215061806,
      "loss": 1.656,
      "step": 30529
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41499754786491394,
      "learning_rate": 0.0004456983255507849,
      "loss": 1.6455,
      "step": 30530
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4036821722984314,
      "learning_rate": 0.00044568918877409524,
      "loss": 1.6339,
      "step": 30531
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4166009724140167,
      "learning_rate": 0.00044568005182056054,
      "loss": 1.5801,
      "step": 30532
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43781593441963196,
      "learning_rate": 0.0004456709146901917,
      "loss": 1.6415,
      "step": 30533
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4224648177623749,
      "learning_rate": 0.0004456617773829998,
      "loss": 1.7133,
      "step": 30534
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40143635869026184,
      "learning_rate": 0.00044565263989899604,
      "loss": 1.6579,
      "step": 30535
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.384958952665329,
      "learning_rate": 0.0004456435022381913,
      "loss": 1.6606,
      "step": 30536
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4129141569137573,
      "learning_rate": 0.0004456343644005969,
      "loss": 1.6099,
      "step": 30537
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40220168232917786,
      "learning_rate": 0.0004456252263862238,
      "loss": 1.6477,
      "step": 30538
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4394950568675995,
      "learning_rate": 0.0004456160881950832,
      "loss": 1.6029,
      "step": 30539
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.49733880162239075,
      "learning_rate": 0.00044560694982718606,
      "loss": 1.663,
      "step": 30540
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4134879410266876,
      "learning_rate": 0.0004455978112825436,
      "loss": 1.6925,
      "step": 30541
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42105939984321594,
      "learning_rate": 0.00044558867256116677,
      "loss": 1.6342,
      "step": 30542
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41065192222595215,
      "learning_rate": 0.00044557953366306674,
      "loss": 1.5888,
      "step": 30543
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4104607105255127,
      "learning_rate": 0.0004455703945882547,
      "loss": 1.6335,
      "step": 30544
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4162823259830475,
      "learning_rate": 0.00044556125533674163,
      "loss": 1.77,
      "step": 30545
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4172959625720978,
      "learning_rate": 0.00044555211590853856,
      "loss": 1.6108,
      "step": 30546
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.45099014043807983,
      "learning_rate": 0.00044554297630365673,
      "loss": 1.6451,
      "step": 30547
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42327719926834106,
      "learning_rate": 0.00044553383652210714,
      "loss": 1.7431,
      "step": 30548
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42177996039390564,
      "learning_rate": 0.000445524696563901,
      "loss": 1.7041,
      "step": 30549
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42623573541641235,
      "learning_rate": 0.0004455155564290492,
      "loss": 1.5586,
      "step": 30550
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41744187474250793,
      "learning_rate": 0.000445506416117563,
      "loss": 1.6514,
      "step": 30551
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4300248324871063,
      "learning_rate": 0.00044549727562945345,
      "loss": 1.6797,
      "step": 30552
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41856181621551514,
      "learning_rate": 0.0004454881349647316,
      "loss": 1.674,
      "step": 30553
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4208999276161194,
      "learning_rate": 0.0004454789941234087,
      "loss": 1.6197,
      "step": 30554
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4234784245491028,
      "learning_rate": 0.0004454698531054957,
      "loss": 1.6996,
      "step": 30555
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4091777801513672,
      "learning_rate": 0.0004454607119110037,
      "loss": 1.6081,
      "step": 30556
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.414795845746994,
      "learning_rate": 0.0004454515705399438,
      "loss": 1.6845,
      "step": 30557
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41022300720214844,
      "learning_rate": 0.0004454424289923272,
      "loss": 1.6517,
      "step": 30558
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41050466895103455,
      "learning_rate": 0.0004454332872681649,
      "loss": 1.6541,
      "step": 30559
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3946191668510437,
      "learning_rate": 0.00044542414536746805,
      "loss": 1.6733,
      "step": 30560
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4225553274154663,
      "learning_rate": 0.0004454150032902476,
      "loss": 1.6884,
      "step": 30561
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4098930358886719,
      "learning_rate": 0.00044540586103651483,
      "loss": 1.6144,
      "step": 30562
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4116378128528595,
      "learning_rate": 0.0004453967186062808,
      "loss": 1.6175,
      "step": 30563
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4001777470111847,
      "learning_rate": 0.0004453875759995566,
      "loss": 1.6502,
      "step": 30564
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.416088730096817,
      "learning_rate": 0.00044537843321635316,
      "loss": 1.6385,
      "step": 30565
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4022580683231354,
      "learning_rate": 0.00044536929025668185,
      "loss": 1.6082,
      "step": 30566
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40052810311317444,
      "learning_rate": 0.0004453601471205536,
      "loss": 1.5753,
      "step": 30567
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40861475467681885,
      "learning_rate": 0.00044535100380797957,
      "loss": 1.6752,
      "step": 30568
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41949841380119324,
      "learning_rate": 0.0004453418603189708,
      "loss": 1.6684,
      "step": 30569
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42190977931022644,
      "learning_rate": 0.0004453327166535385,
      "loss": 1.6053,
      "step": 30570
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41333675384521484,
      "learning_rate": 0.00044532357281169355,
      "loss": 1.7113,
      "step": 30571
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4094434976577759,
      "learning_rate": 0.0004453144287934473,
      "loss": 1.6269,
      "step": 30572
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41556400060653687,
      "learning_rate": 0.0004453052845988108,
      "loss": 1.6443,
      "step": 30573
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41785043478012085,
      "learning_rate": 0.000445296140227795,
      "loss": 1.6575,
      "step": 30574
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4065045714378357,
      "learning_rate": 0.0004452869956804112,
      "loss": 1.6114,
      "step": 30575
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4212242066860199,
      "learning_rate": 0.00044527785095667025,
      "loss": 1.6824,
      "step": 30576
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40445664525032043,
      "learning_rate": 0.00044526870605658345,
      "loss": 1.6213,
      "step": 30577
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.5176557898521423,
      "learning_rate": 0.0004452595609801619,
      "loss": 1.6394,
      "step": 30578
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4006200432777405,
      "learning_rate": 0.00044525041572741653,
      "loss": 1.6118,
      "step": 30579
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4161536395549774,
      "learning_rate": 0.0004452412702983587,
      "loss": 1.699,
      "step": 30580
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4173552989959717,
      "learning_rate": 0.0004452321246929993,
      "loss": 1.6447,
      "step": 30581
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4075590968132019,
      "learning_rate": 0.0004452229789113495,
      "loss": 1.6157,
      "step": 30582
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3956882655620575,
      "learning_rate": 0.00044521383295342034,
      "loss": 1.561,
      "step": 30583
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4162595868110657,
      "learning_rate": 0.00044520468681922306,
      "loss": 1.5624,
      "step": 30584
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.39766862988471985,
      "learning_rate": 0.0004451955405087687,
      "loss": 1.6915,
      "step": 30585
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41013091802597046,
      "learning_rate": 0.00044518639402206826,
      "loss": 1.6739,
      "step": 30586
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4232088029384613,
      "learning_rate": 0.00044517724735913296,
      "loss": 1.6024,
      "step": 30587
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4047735333442688,
      "learning_rate": 0.000445168100519974,
      "loss": 1.7132,
      "step": 30588
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.38859036564826965,
      "learning_rate": 0.0004451589535046022,
      "loss": 1.6335,
      "step": 30589
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3931899666786194,
      "learning_rate": 0.0004451498063130289,
      "loss": 1.5432,
      "step": 30590
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4098307490348816,
      "learning_rate": 0.00044514065894526506,
      "loss": 1.6908,
      "step": 30591
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4071538746356964,
      "learning_rate": 0.00044513151140132193,
      "loss": 1.5694,
      "step": 30592
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.5888346433639526,
      "learning_rate": 0.0004451223636812104,
      "loss": 1.7055,
      "step": 30593
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4177100956439972,
      "learning_rate": 0.00044511321578494185,
      "loss": 1.5816,
      "step": 30594
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41078922152519226,
      "learning_rate": 0.0004451040677125271,
      "loss": 1.6336,
      "step": 30595
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.412296324968338,
      "learning_rate": 0.0004450949194639775,
      "loss": 1.6777,
      "step": 30596
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4104540944099426,
      "learning_rate": 0.00044508577103930403,
      "loss": 1.5649,
      "step": 30597
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4145866632461548,
      "learning_rate": 0.00044507662243851775,
      "loss": 1.5782,
      "step": 30598
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41997030377388,
      "learning_rate": 0.0004450674736616299,
      "loss": 1.627,
      "step": 30599
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.45632830262184143,
      "learning_rate": 0.0004450583247086515,
      "loss": 1.6348,
      "step": 30600
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4247744083404541,
      "learning_rate": 0.00044504917557959355,
      "loss": 1.6648,
      "step": 30601
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4151875078678131,
      "learning_rate": 0.00044504002627446736,
      "loss": 1.6193,
      "step": 30602
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4016297161579132,
      "learning_rate": 0.00044503087679328404,
      "loss": 1.6597,
      "step": 30603
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4138385057449341,
      "learning_rate": 0.0004450217271360545,
      "loss": 1.5887,
      "step": 30604
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42848092317581177,
      "learning_rate": 0.00044501257730278994,
      "loss": 1.6706,
      "step": 30605
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41326943039894104,
      "learning_rate": 0.0004450034272935015,
      "loss": 1.633,
      "step": 30606
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4125683605670929,
      "learning_rate": 0.0004449942771082003,
      "loss": 1.633,
      "step": 30607
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.5325642824172974,
      "learning_rate": 0.0004449851267468974,
      "loss": 1.7201,
      "step": 30608
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4166494607925415,
      "learning_rate": 0.0004449759762096039,
      "loss": 1.6727,
      "step": 30609
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41322675347328186,
      "learning_rate": 0.00044496682549633094,
      "loss": 1.6255,
      "step": 30610
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41105327010154724,
      "learning_rate": 0.0004449576746070896,
      "loss": 1.754,
      "step": 30611
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4111761152744293,
      "learning_rate": 0.000444948523541891,
      "loss": 1.5801,
      "step": 30612
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3964180052280426,
      "learning_rate": 0.0004449393723007462,
      "loss": 1.5827,
      "step": 30613
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4093603193759918,
      "learning_rate": 0.00044493022088366646,
      "loss": 1.6162,
      "step": 30614
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4128785729408264,
      "learning_rate": 0.0004449210692906628,
      "loss": 1.738,
      "step": 30615
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4314902424812317,
      "learning_rate": 0.00044491191752174617,
      "loss": 1.6494,
      "step": 30616
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4104749858379364,
      "learning_rate": 0.0004449027655769279,
      "loss": 1.6909,
      "step": 30617
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4098261594772339,
      "learning_rate": 0.0004448936134562191,
      "loss": 1.7092,
      "step": 30618
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4273923933506012,
      "learning_rate": 0.0004448844611596307,
      "loss": 1.6249,
      "step": 30619
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41620829701423645,
      "learning_rate": 0.0004448753086871739,
      "loss": 1.6071,
      "step": 30620
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.419531911611557,
      "learning_rate": 0.00044486615603885987,
      "loss": 1.6606,
      "step": 30621
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.409677654504776,
      "learning_rate": 0.0004448570032146998,
      "loss": 1.6745,
      "step": 30622
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41643038392066956,
      "learning_rate": 0.0004448478502147044,
      "loss": 1.6676,
      "step": 30623
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4031432867050171,
      "learning_rate": 0.00044483869703888524,
      "loss": 1.6622,
      "step": 30624
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4202263057231903,
      "learning_rate": 0.00044482954368725314,
      "loss": 1.6137,
      "step": 30625
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4071994721889496,
      "learning_rate": 0.0004448203901598194,
      "loss": 1.7137,
      "step": 30626
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41155773401260376,
      "learning_rate": 0.00044481123645659506,
      "loss": 1.6508,
      "step": 30627
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.406429260969162,
      "learning_rate": 0.0004448020825775911,
      "loss": 1.6893,
      "step": 30628
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41298529505729675,
      "learning_rate": 0.00044479292852281886,
      "loss": 1.6361,
      "step": 30629
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41294848918914795,
      "learning_rate": 0.00044478377429228933,
      "loss": 1.6027,
      "step": 30630
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4397701025009155,
      "learning_rate": 0.00044477461988601355,
      "loss": 1.6491,
      "step": 30631
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.39917927980422974,
      "learning_rate": 0.00044476546530400275,
      "loss": 1.6144,
      "step": 30632
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4006413221359253,
      "learning_rate": 0.000444756310546268,
      "loss": 1.6007,
      "step": 30633
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42489054799079895,
      "learning_rate": 0.00044474715561282043,
      "loss": 1.7472,
      "step": 30634
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.45027995109558105,
      "learning_rate": 0.0004447380005036712,
      "loss": 1.6485,
      "step": 30635
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4302937090396881,
      "learning_rate": 0.00044472884521883126,
      "loss": 1.6727,
      "step": 30636
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42184093594551086,
      "learning_rate": 0.0004447196897583119,
      "loss": 1.6391,
      "step": 30637
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4114185571670532,
      "learning_rate": 0.0004447105341221241,
      "loss": 1.6084,
      "step": 30638
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4353349506855011,
      "learning_rate": 0.00044470137831027903,
      "loss": 1.5845,
      "step": 30639
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4203753173351288,
      "learning_rate": 0.00044469222232278795,
      "loss": 1.678,
      "step": 30640
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41277754306793213,
      "learning_rate": 0.00044468306615966165,
      "loss": 1.6514,
      "step": 30641
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4348660111427307,
      "learning_rate": 0.0004446739098209115,
      "loss": 1.6607,
      "step": 30642
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42911121249198914,
      "learning_rate": 0.0004446647533065486,
      "loss": 1.6824,
      "step": 30643
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4204319417476654,
      "learning_rate": 0.0004446555966165839,
      "loss": 1.6228,
      "step": 30644
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43295353651046753,
      "learning_rate": 0.00044464643975102865,
      "loss": 1.6427,
      "step": 30645
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4229356050491333,
      "learning_rate": 0.00044463728270989397,
      "loss": 1.6482,
      "step": 30646
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4140186905860901,
      "learning_rate": 0.00044462812549319095,
      "loss": 1.6107,
      "step": 30647
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40921539068222046,
      "learning_rate": 0.0004446189681009306,
      "loss": 1.6351,
      "step": 30648
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4254649877548218,
      "learning_rate": 0.00044460981053312423,
      "loss": 1.6597,
      "step": 30649
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4150661826133728,
      "learning_rate": 0.00044460065278978286,
      "loss": 1.6174,
      "step": 30650
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4086584150791168,
      "learning_rate": 0.00044459149487091756,
      "loss": 1.7263,
      "step": 30651
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41359519958496094,
      "learning_rate": 0.0004445823367765395,
      "loss": 1.6963,
      "step": 30652
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41177335381507874,
      "learning_rate": 0.0004445731785066598,
      "loss": 1.6253,
      "step": 30653
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4891609847545624,
      "learning_rate": 0.00044456402006128954,
      "loss": 1.5775,
      "step": 30654
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4331132173538208,
      "learning_rate": 0.00044455486144043976,
      "loss": 1.647,
      "step": 30655
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4021061062812805,
      "learning_rate": 0.0004445457026441219,
      "loss": 1.6781,
      "step": 30656
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40678882598876953,
      "learning_rate": 0.00044453654367234677,
      "loss": 1.6765,
      "step": 30657
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4037521183490753,
      "learning_rate": 0.0004445273845251255,
      "loss": 1.6845,
      "step": 30658
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4067942202091217,
      "learning_rate": 0.00044451822520246933,
      "loss": 1.6381,
      "step": 30659
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4168455898761749,
      "learning_rate": 0.0004445090657043893,
      "loss": 1.7427,
      "step": 30660
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4163961410522461,
      "learning_rate": 0.0004444999060308966,
      "loss": 1.695,
      "step": 30661
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.38908207416534424,
      "learning_rate": 0.0004444907461820023,
      "loss": 1.5905,
      "step": 30662
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4084892272949219,
      "learning_rate": 0.00044448158615771746,
      "loss": 1.7118,
      "step": 30663
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.39996567368507385,
      "learning_rate": 0.00044447242595805334,
      "loss": 1.6062,
      "step": 30664
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40987345576286316,
      "learning_rate": 0.0004444632655830209,
      "loss": 1.6373,
      "step": 30665
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.39808011054992676,
      "learning_rate": 0.00044445410503263146,
      "loss": 1.5901,
      "step": 30666
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3974057734012604,
      "learning_rate": 0.0004444449443068959,
      "loss": 1.6811,
      "step": 30667
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4201795756816864,
      "learning_rate": 0.00044443578340582553,
      "loss": 1.6641,
      "step": 30668
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43336203694343567,
      "learning_rate": 0.0004444266223294314,
      "loss": 1.5606,
      "step": 30669
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4144812822341919,
      "learning_rate": 0.00044441746107772457,
      "loss": 1.6724,
      "step": 30670
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40581515431404114,
      "learning_rate": 0.00044440829965071627,
      "loss": 1.6251,
      "step": 30671
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4109826683998108,
      "learning_rate": 0.0004443991380484177,
      "loss": 1.6884,
      "step": 30672
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42589592933654785,
      "learning_rate": 0.0004443899762708396,
      "loss": 1.6509,
      "step": 30673
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40779200196266174,
      "learning_rate": 0.0004443808143179935,
      "loss": 1.6077,
      "step": 30674
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4449755549430847,
      "learning_rate": 0.00044437165218989035,
      "loss": 1.6397,
      "step": 30675
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4121876358985901,
      "learning_rate": 0.0004443624898865413,
      "loss": 1.6937,
      "step": 30676
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41651618480682373,
      "learning_rate": 0.00044435332740795744,
      "loss": 1.5987,
      "step": 30677
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.419946551322937,
      "learning_rate": 0.0004443441647541498,
      "loss": 1.5962,
      "step": 30678
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42514657974243164,
      "learning_rate": 0.0004443350019251297,
      "loss": 1.5749,
      "step": 30679
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4078209102153778,
      "learning_rate": 0.00044432583892090824,
      "loss": 1.6461,
      "step": 30680
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40884464979171753,
      "learning_rate": 0.0004443166757414964,
      "loss": 1.62,
      "step": 30681
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40262776613235474,
      "learning_rate": 0.00044430751238690543,
      "loss": 1.6356,
      "step": 30682
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42151913046836853,
      "learning_rate": 0.0004442983488571463,
      "loss": 1.6428,
      "step": 30683
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4247570037841797,
      "learning_rate": 0.00044428918515223035,
      "loss": 1.6499,
      "step": 30684
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4006095826625824,
      "learning_rate": 0.0004442800212721685,
      "loss": 1.6518,
      "step": 30685
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4055458903312683,
      "learning_rate": 0.0004442708572169721,
      "loss": 1.5976,
      "step": 30686
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3997434973716736,
      "learning_rate": 0.000444261692986652,
      "loss": 1.6611,
      "step": 30687
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40546509623527527,
      "learning_rate": 0.00044425252858121945,
      "loss": 1.6547,
      "step": 30688
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4145454168319702,
      "learning_rate": 0.0004442433640006857,
      "loss": 1.7183,
      "step": 30689
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4272330105304718,
      "learning_rate": 0.0004442341992450617,
      "loss": 1.6145,
      "step": 30690
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4119897782802582,
      "learning_rate": 0.00044422503431435867,
      "loss": 1.7204,
      "step": 30691
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41533100605010986,
      "learning_rate": 0.0004442158692085876,
      "loss": 1.6536,
      "step": 30692
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4318900406360626,
      "learning_rate": 0.0004442067039277598,
      "loss": 1.7,
      "step": 30693
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.423801451921463,
      "learning_rate": 0.00044419753847188624,
      "loss": 1.694,
      "step": 30694
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4052649736404419,
      "learning_rate": 0.0004441883728409781,
      "loss": 1.6524,
      "step": 30695
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41677549481391907,
      "learning_rate": 0.00044417920703504666,
      "loss": 1.6545,
      "step": 30696
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.44323185086250305,
      "learning_rate": 0.00044417004105410285,
      "loss": 1.603,
      "step": 30697
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41818588972091675,
      "learning_rate": 0.00044416087489815786,
      "loss": 1.6002,
      "step": 30698
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4236103594303131,
      "learning_rate": 0.0004441517085672227,
      "loss": 1.6626,
      "step": 30699
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4122772514820099,
      "learning_rate": 0.0004441425420613087,
      "loss": 1.6412,
      "step": 30700
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41418081521987915,
      "learning_rate": 0.0004441333753804269,
      "loss": 1.6147,
      "step": 30701
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4254721701145172,
      "learning_rate": 0.00044412420852458844,
      "loss": 1.6701,
      "step": 30702
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4163016378879547,
      "learning_rate": 0.0004441150414938043,
      "loss": 1.6603,
      "step": 30703
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41209813952445984,
      "learning_rate": 0.00044410587428808586,
      "loss": 1.6833,
      "step": 30704
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4232665002346039,
      "learning_rate": 0.0004440967069074441,
      "loss": 1.6195,
      "step": 30705
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4121216833591461,
      "learning_rate": 0.0004440875393518901,
      "loss": 1.6219,
      "step": 30706
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4080735445022583,
      "learning_rate": 0.00044407837162143516,
      "loss": 1.6051,
      "step": 30707
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43334662914276123,
      "learning_rate": 0.00044406920371609023,
      "loss": 1.6189,
      "step": 30708
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.434183806180954,
      "learning_rate": 0.0004440600356358665,
      "loss": 1.6331,
      "step": 30709
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42410391569137573,
      "learning_rate": 0.0004440508673807751,
      "loss": 1.7299,
      "step": 30710
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40803709626197815,
      "learning_rate": 0.0004440416989508273,
      "loss": 1.6823,
      "step": 30711
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41787078976631165,
      "learning_rate": 0.000444032530346034,
      "loss": 1.7057,
      "step": 30712
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4255754053592682,
      "learning_rate": 0.00044402336156640647,
      "loss": 1.6445,
      "step": 30713
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4312535226345062,
      "learning_rate": 0.00044401419261195585,
      "loss": 1.6691,
      "step": 30714
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41835707426071167,
      "learning_rate": 0.00044400502348269303,
      "loss": 1.6992,
      "step": 30715
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41528841853141785,
      "learning_rate": 0.0004439958541786295,
      "loss": 1.5567,
      "step": 30716
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42226001620292664,
      "learning_rate": 0.0004439866846997762,
      "loss": 1.7116,
      "step": 30717
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.44084668159484863,
      "learning_rate": 0.0004439775150461442,
      "loss": 1.6524,
      "step": 30718
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4285948574542999,
      "learning_rate": 0.0004439683452177448,
      "loss": 1.653,
      "step": 30719
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42337945103645325,
      "learning_rate": 0.00044395917521458894,
      "loss": 1.6551,
      "step": 30720
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4382915794849396,
      "learning_rate": 0.000443950005036688,
      "loss": 1.6164,
      "step": 30721
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42827627062797546,
      "learning_rate": 0.0004439408346840528,
      "loss": 1.6356,
      "step": 30722
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42528194189071655,
      "learning_rate": 0.00044393166415669476,
      "loss": 1.6643,
      "step": 30723
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4192869961261749,
      "learning_rate": 0.0004439224934546249,
      "loss": 1.6834,
      "step": 30724
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41022762656211853,
      "learning_rate": 0.00044391332257785423,
      "loss": 1.6201,
      "step": 30725
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4222155213356018,
      "learning_rate": 0.00044390415152639404,
      "loss": 1.6498,
      "step": 30726
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41546639800071716,
      "learning_rate": 0.00044389498030025543,
      "loss": 1.677,
      "step": 30727
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4216706156730652,
      "learning_rate": 0.00044388580889944947,
      "loss": 1.7125,
      "step": 30728
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4235774874687195,
      "learning_rate": 0.00044387663732398737,
      "loss": 1.5845,
      "step": 30729
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4051758944988251,
      "learning_rate": 0.00044386746557388025,
      "loss": 1.6328,
      "step": 30730
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4305986762046814,
      "learning_rate": 0.00044385829364913923,
      "loss": 1.7093,
      "step": 30731
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4295794665813446,
      "learning_rate": 0.0004438491215497754,
      "loss": 1.6267,
      "step": 30732
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4166368246078491,
      "learning_rate": 0.0004438399492757999,
      "loss": 1.6913,
      "step": 30733
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4157927334308624,
      "learning_rate": 0.000443830776827224,
      "loss": 1.5871,
      "step": 30734
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4112340807914734,
      "learning_rate": 0.00044382160420405864,
      "loss": 1.6648,
      "step": 30735
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4179221987724304,
      "learning_rate": 0.00044381243140631505,
      "loss": 1.6448,
      "step": 30736
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40334373712539673,
      "learning_rate": 0.0004438032584340044,
      "loss": 1.6598,
      "step": 30737
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40334343910217285,
      "learning_rate": 0.00044379408528713777,
      "loss": 1.6176,
      "step": 30738
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40309426188468933,
      "learning_rate": 0.0004437849119657263,
      "loss": 1.6303,
      "step": 30739
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4111218750476837,
      "learning_rate": 0.00044377573846978113,
      "loss": 1.6174,
      "step": 30740
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40582922101020813,
      "learning_rate": 0.0004437665647993135,
      "loss": 1.6813,
      "step": 30741
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4101908206939697,
      "learning_rate": 0.00044375739095433425,
      "loss": 1.5802,
      "step": 30742
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4174875319004059,
      "learning_rate": 0.0004437482169348548,
      "loss": 1.6593,
      "step": 30743
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4107326567173004,
      "learning_rate": 0.0004437390427408862,
      "loss": 1.5554,
      "step": 30744
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41026508808135986,
      "learning_rate": 0.0004437298683724396,
      "loss": 1.6068,
      "step": 30745
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4086079001426697,
      "learning_rate": 0.00044372069382952615,
      "loss": 1.5771,
      "step": 30746
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41393396258354187,
      "learning_rate": 0.00044371151911215686,
      "loss": 1.7404,
      "step": 30747
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3993188440799713,
      "learning_rate": 0.000443702344220343,
      "loss": 1.6195,
      "step": 30748
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4167467951774597,
      "learning_rate": 0.0004436931691540957,
      "loss": 1.7252,
      "step": 30749
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.6654385924339294,
      "learning_rate": 0.00044368399391342595,
      "loss": 1.6138,
      "step": 30750
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40404829382896423,
      "learning_rate": 0.00044367481849834513,
      "loss": 1.6951,
      "step": 30751
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.6027927994728088,
      "learning_rate": 0.00044366564290886426,
      "loss": 1.6437,
      "step": 30752
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.46575552225112915,
      "learning_rate": 0.0004436564671449944,
      "loss": 1.6858,
      "step": 30753
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4145675003528595,
      "learning_rate": 0.00044364729120674673,
      "loss": 1.6924,
      "step": 30754
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4027453660964966,
      "learning_rate": 0.00044363811509413246,
      "loss": 1.5959,
      "step": 30755
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4076458811759949,
      "learning_rate": 0.0004436289388071627,
      "loss": 1.693,
      "step": 30756
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4091549813747406,
      "learning_rate": 0.0004436197623458486,
      "loss": 1.6438,
      "step": 30757
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.419099360704422,
      "learning_rate": 0.00044361058571020114,
      "loss": 1.6306,
      "step": 30758
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4139798581600189,
      "learning_rate": 0.00044360140890023166,
      "loss": 1.6941,
      "step": 30759
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4189729690551758,
      "learning_rate": 0.0004435922319159513,
      "loss": 1.6729,
      "step": 30760
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4269208014011383,
      "learning_rate": 0.00044358305475737105,
      "loss": 1.6541,
      "step": 30761
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42247310280799866,
      "learning_rate": 0.0004435738774245022,
      "loss": 1.5932,
      "step": 30762
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4132370948791504,
      "learning_rate": 0.0004435646999173557,
      "loss": 1.6684,
      "step": 30763
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43220216035842896,
      "learning_rate": 0.00044355552223594285,
      "loss": 1.5562,
      "step": 30764
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41629186272621155,
      "learning_rate": 0.00044354634438027474,
      "loss": 1.6904,
      "step": 30765
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4291337728500366,
      "learning_rate": 0.0004435371663503626,
      "loss": 1.6377,
      "step": 30766
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.437287300825119,
      "learning_rate": 0.00044352798814621745,
      "loss": 1.6554,
      "step": 30767
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4276915490627289,
      "learning_rate": 0.0004435188097678504,
      "loss": 1.6456,
      "step": 30768
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4078163206577301,
      "learning_rate": 0.0004435096312152728,
      "loss": 1.5723,
      "step": 30769
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41093042492866516,
      "learning_rate": 0.0004435004524884955,
      "loss": 1.7291,
      "step": 30770
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4049344062805176,
      "learning_rate": 0.00044349127358752987,
      "loss": 1.6459,
      "step": 30771
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4244097173213959,
      "learning_rate": 0.0004434820945123869,
      "loss": 1.6046,
      "step": 30772
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4213505983352661,
      "learning_rate": 0.00044347291526307793,
      "loss": 1.6087,
      "step": 30773
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43093404173851013,
      "learning_rate": 0.00044346373583961397,
      "loss": 1.6287,
      "step": 30774
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42533063888549805,
      "learning_rate": 0.00044345455624200604,
      "loss": 1.7044,
      "step": 30775
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4130210876464844,
      "learning_rate": 0.00044344537647026555,
      "loss": 1.6759,
      "step": 30776
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4094899892807007,
      "learning_rate": 0.00044343619652440343,
      "loss": 1.6367,
      "step": 30777
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42227280139923096,
      "learning_rate": 0.00044342701640443096,
      "loss": 1.6908,
      "step": 30778
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42401453852653503,
      "learning_rate": 0.0004434178361103592,
      "loss": 1.6213,
      "step": 30779
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4072169065475464,
      "learning_rate": 0.00044340865564219934,
      "loss": 1.6216,
      "step": 30780
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.43429186940193176,
      "learning_rate": 0.00044339947499996246,
      "loss": 1.6581,
      "step": 30781
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40589213371276855,
      "learning_rate": 0.0004433902941836598,
      "loss": 1.625,
      "step": 30782
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40204063057899475,
      "learning_rate": 0.0004433811131933024,
      "loss": 1.6245,
      "step": 30783
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4017556309700012,
      "learning_rate": 0.0004433719320289015,
      "loss": 1.6557,
      "step": 30784
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4219721257686615,
      "learning_rate": 0.00044336275069046816,
      "loss": 1.6465,
      "step": 30785
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42103269696235657,
      "learning_rate": 0.0004433535691780136,
      "loss": 1.6288,
      "step": 30786
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4317323565483093,
      "learning_rate": 0.00044334438749154886,
      "loss": 1.5729,
      "step": 30787
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40960410237312317,
      "learning_rate": 0.00044333520563108524,
      "loss": 1.656,
      "step": 30788
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4071076512336731,
      "learning_rate": 0.0004433260235966338,
      "loss": 1.6437,
      "step": 30789
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4172171652317047,
      "learning_rate": 0.0004433168413882056,
      "loss": 1.6502,
      "step": 30790
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4233883321285248,
      "learning_rate": 0.0004433076590058119,
      "loss": 1.6152,
      "step": 30791
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41132503747940063,
      "learning_rate": 0.0004432984764494638,
      "loss": 1.6549,
      "step": 30792
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4010860025882721,
      "learning_rate": 0.00044328929371917255,
      "loss": 1.7369,
      "step": 30793
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40681642293930054,
      "learning_rate": 0.0004432801108149492,
      "loss": 1.6466,
      "step": 30794
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41798630356788635,
      "learning_rate": 0.00044327092773680475,
      "loss": 1.6954,
      "step": 30795
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.408713698387146,
      "learning_rate": 0.00044326174448475067,
      "loss": 1.7537,
      "step": 30796
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4220130443572998,
      "learning_rate": 0.0004432525610587979,
      "loss": 1.7379,
      "step": 30797
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3971889317035675,
      "learning_rate": 0.0004432433774589576,
      "loss": 1.5719,
      "step": 30798
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4261951446533203,
      "learning_rate": 0.0004432341936852409,
      "loss": 1.6167,
      "step": 30799
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.41947510838508606,
      "learning_rate": 0.0004432250097376591,
      "loss": 1.6157,
      "step": 30800
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4214242398738861,
      "learning_rate": 0.0004432158256162233,
      "loss": 1.5928,
      "step": 30801
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42965272068977356,
      "learning_rate": 0.00044320664132094435,
      "loss": 1.6719,
      "step": 30802
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4058177173137665,
      "learning_rate": 0.00044319745685183386,
      "loss": 1.6336,
      "step": 30803
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4165225327014923,
      "learning_rate": 0.0004431882722089027,
      "loss": 1.6199,
      "step": 30804
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4122377336025238,
      "learning_rate": 0.00044317908739216195,
      "loss": 1.5841,
      "step": 30805
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3959391117095947,
      "learning_rate": 0.000443169902401623,
      "loss": 1.6449,
      "step": 30806
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.40706196427345276,
      "learning_rate": 0.00044316071723729685,
      "loss": 1.557,
      "step": 30807
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.42755815386772156,
      "learning_rate": 0.00044315153189919475,
      "loss": 1.6662,
      "step": 30808
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4095785617828369,
      "learning_rate": 0.00044314234638732767,
      "loss": 1.6707,
      "step": 30809
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4167992174625397,
      "learning_rate": 0.000443133160701707,
      "loss": 1.6617,
      "step": 30810
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40549588203430176,
      "learning_rate": 0.00044312397484234364,
      "loss": 1.5892,
      "step": 30811
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41045400500297546,
      "learning_rate": 0.0004431147888092489,
      "loss": 1.6222,
      "step": 30812
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40727633237838745,
      "learning_rate": 0.0004431056026024339,
      "loss": 1.6703,
      "step": 30813
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4085695445537567,
      "learning_rate": 0.0004430964162219099,
      "loss": 1.6748,
      "step": 30814
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4165000021457672,
      "learning_rate": 0.00044308722966768775,
      "loss": 1.6356,
      "step": 30815
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40961748361587524,
      "learning_rate": 0.0004430780429397789,
      "loss": 1.6424,
      "step": 30816
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.413362592458725,
      "learning_rate": 0.0004430688560381944,
      "loss": 1.6303,
      "step": 30817
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4130113422870636,
      "learning_rate": 0.0004430596689629453,
      "loss": 1.6613,
      "step": 30818
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4122215509414673,
      "learning_rate": 0.0004430504817140429,
      "loss": 1.6692,
      "step": 30819
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4257102310657501,
      "learning_rate": 0.00044304129429149826,
      "loss": 1.6627,
      "step": 30820
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42185965180397034,
      "learning_rate": 0.0004430321066953226,
      "loss": 1.635,
      "step": 30821
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.425223708152771,
      "learning_rate": 0.00044302291892552704,
      "loss": 1.7188,
      "step": 30822
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4173828661441803,
      "learning_rate": 0.00044301373098212273,
      "loss": 1.6406,
      "step": 30823
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41942456364631653,
      "learning_rate": 0.0004430045428651208,
      "loss": 1.6858,
      "step": 30824
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4212590456008911,
      "learning_rate": 0.00044299535457453234,
      "loss": 1.63,
      "step": 30825
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4117991328239441,
      "learning_rate": 0.00044298616611036876,
      "loss": 1.6304,
      "step": 30826
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41374465823173523,
      "learning_rate": 0.0004429769774726409,
      "loss": 1.6014,
      "step": 30827
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4183322787284851,
      "learning_rate": 0.0004429677886613601,
      "loss": 1.684,
      "step": 30828
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4079536199569702,
      "learning_rate": 0.00044295859967653756,
      "loss": 1.6379,
      "step": 30829
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40980157256126404,
      "learning_rate": 0.00044294941051818427,
      "loss": 1.6275,
      "step": 30830
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4178790748119354,
      "learning_rate": 0.00044294022118631147,
      "loss": 1.6733,
      "step": 30831
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4117087125778198,
      "learning_rate": 0.00044293103168093016,
      "loss": 1.648,
      "step": 30832
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42995187640190125,
      "learning_rate": 0.0004429218420020519,
      "loss": 1.6219,
      "step": 30833
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4066551923751831,
      "learning_rate": 0.0004429126521496874,
      "loss": 1.6611,
      "step": 30834
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4088274836540222,
      "learning_rate": 0.000442903462123848,
      "loss": 1.649,
      "step": 30835
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4181121587753296,
      "learning_rate": 0.00044289427192454494,
      "loss": 1.6406,
      "step": 30836
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4173877537250519,
      "learning_rate": 0.00044288508155178926,
      "loss": 1.6178,
      "step": 30837
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4158670902252197,
      "learning_rate": 0.00044287589100559213,
      "loss": 1.6836,
      "step": 30838
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42808449268341064,
      "learning_rate": 0.0004428667002859647,
      "loss": 1.6387,
      "step": 30839
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40800192952156067,
      "learning_rate": 0.00044285750939291815,
      "loss": 1.5621,
      "step": 30840
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41066718101501465,
      "learning_rate": 0.0004428483183264637,
      "loss": 1.6394,
      "step": 30841
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4071599543094635,
      "learning_rate": 0.0004428391270866124,
      "loss": 1.64,
      "step": 30842
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4165061414241791,
      "learning_rate": 0.00044282993567337537,
      "loss": 1.6047,
      "step": 30843
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4119466245174408,
      "learning_rate": 0.00044282074408676396,
      "loss": 1.6792,
      "step": 30844
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4107013940811157,
      "learning_rate": 0.0004428115523267891,
      "loss": 1.745,
      "step": 30845
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4289243817329407,
      "learning_rate": 0.00044280236039346215,
      "loss": 1.6211,
      "step": 30846
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4094601571559906,
      "learning_rate": 0.00044279316828679414,
      "loss": 1.6482,
      "step": 30847
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.39831072092056274,
      "learning_rate": 0.0004427839760067963,
      "loss": 1.7207,
      "step": 30848
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42293280363082886,
      "learning_rate": 0.00044277478355347975,
      "loss": 1.6501,
      "step": 30849
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40850773453712463,
      "learning_rate": 0.0004427655909268556,
      "loss": 1.6426,
      "step": 30850
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43131357431411743,
      "learning_rate": 0.0004427563981269351,
      "loss": 1.6495,
      "step": 30851
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41496315598487854,
      "learning_rate": 0.0004427472051537293,
      "loss": 1.6402,
      "step": 30852
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40194937586784363,
      "learning_rate": 0.0004427380120072495,
      "loss": 1.6443,
      "step": 30853
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40781155228614807,
      "learning_rate": 0.0004427288186875067,
      "loss": 1.6654,
      "step": 30854
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40311625599861145,
      "learning_rate": 0.0004427196251945122,
      "loss": 1.6283,
      "step": 30855
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4181554913520813,
      "learning_rate": 0.00044271043152827716,
      "loss": 1.7077,
      "step": 30856
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4064314365386963,
      "learning_rate": 0.0004427012376888125,
      "loss": 1.6074,
      "step": 30857
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4144153296947479,
      "learning_rate": 0.0004426920436761298,
      "loss": 1.5949,
      "step": 30858
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4071936011314392,
      "learning_rate": 0.0004426828494902399,
      "loss": 1.5784,
      "step": 30859
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4099462330341339,
      "learning_rate": 0.0004426736551311539,
      "loss": 1.6041,
      "step": 30860
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42744967341423035,
      "learning_rate": 0.00044266446059888326,
      "loss": 1.6551,
      "step": 30861
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4149254858493805,
      "learning_rate": 0.00044265526589343896,
      "loss": 1.6662,
      "step": 30862
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41213101148605347,
      "learning_rate": 0.00044264607101483213,
      "loss": 1.6109,
      "step": 30863
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43163302540779114,
      "learning_rate": 0.0004426368759630741,
      "loss": 1.6034,
      "step": 30864
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41421547532081604,
      "learning_rate": 0.00044262768073817586,
      "loss": 1.7066,
      "step": 30865
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4237443804740906,
      "learning_rate": 0.0004426184853401486,
      "loss": 1.6624,
      "step": 30866
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.430418998003006,
      "learning_rate": 0.0004426092897690035,
      "loss": 1.6071,
      "step": 30867
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41600289940834045,
      "learning_rate": 0.00044260009402475177,
      "loss": 1.6651,
      "step": 30868
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4130116105079651,
      "learning_rate": 0.00044259089810740456,
      "loss": 1.6279,
      "step": 30869
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40217843651771545,
      "learning_rate": 0.000442581702016973,
      "loss": 1.6787,
      "step": 30870
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4112314283847809,
      "learning_rate": 0.00044257250575346826,
      "loss": 1.6284,
      "step": 30871
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43350526690483093,
      "learning_rate": 0.00044256330931690145,
      "loss": 1.6698,
      "step": 30872
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.415058434009552,
      "learning_rate": 0.00044255411270728383,
      "loss": 1.6283,
      "step": 30873
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4211060702800751,
      "learning_rate": 0.00044254491592462657,
      "loss": 1.6751,
      "step": 30874
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.3942764401435852,
      "learning_rate": 0.0004425357189689407,
      "loss": 1.6659,
      "step": 30875
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41106322407722473,
      "learning_rate": 0.0004425265218402375,
      "loss": 1.6189,
      "step": 30876
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.39827191829681396,
      "learning_rate": 0.00044251732453852807,
      "loss": 1.6173,
      "step": 30877
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41437435150146484,
      "learning_rate": 0.00044250812706382364,
      "loss": 1.6437,
      "step": 30878
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4063815474510193,
      "learning_rate": 0.0004424989294161354,
      "loss": 1.6646,
      "step": 30879
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42535629868507385,
      "learning_rate": 0.00044248973159547437,
      "loss": 1.6211,
      "step": 30880
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41043469309806824,
      "learning_rate": 0.0004424805336018519,
      "loss": 1.6756,
      "step": 30881
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41582435369491577,
      "learning_rate": 0.0004424713354352789,
      "loss": 1.6647,
      "step": 30882
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4281548857688904,
      "learning_rate": 0.00044246213709576683,
      "loss": 1.6316,
      "step": 30883
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4091576933860779,
      "learning_rate": 0.00044245293858332664,
      "loss": 1.6583,
      "step": 30884
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.412922739982605,
      "learning_rate": 0.0004424437398979696,
      "loss": 1.6249,
      "step": 30885
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42194077372550964,
      "learning_rate": 0.00044243454103970686,
      "loss": 1.7069,
      "step": 30886
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4181356430053711,
      "learning_rate": 0.0004424253420085495,
      "loss": 1.6512,
      "step": 30887
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.3989044427871704,
      "learning_rate": 0.00044241614280450883,
      "loss": 1.6492,
      "step": 30888
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4189751446247101,
      "learning_rate": 0.0004424069434275959,
      "loss": 1.5456,
      "step": 30889
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.404173344373703,
      "learning_rate": 0.00044239774387782205,
      "loss": 1.587,
      "step": 30890
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4247366786003113,
      "learning_rate": 0.0004423885441551982,
      "loss": 1.6854,
      "step": 30891
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41805294156074524,
      "learning_rate": 0.00044237934425973564,
      "loss": 1.7048,
      "step": 30892
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4105583727359772,
      "learning_rate": 0.00044237014419144566,
      "loss": 1.6864,
      "step": 30893
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4190157353878021,
      "learning_rate": 0.0004423609439503391,
      "loss": 1.6185,
      "step": 30894
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41417229175567627,
      "learning_rate": 0.00044235174353642753,
      "loss": 1.7599,
      "step": 30895
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42954814434051514,
      "learning_rate": 0.0004423425429497217,
      "loss": 1.6387,
      "step": 30896
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4153144657611847,
      "learning_rate": 0.0004423333421902332,
      "loss": 1.6898,
      "step": 30897
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4225051999092102,
      "learning_rate": 0.0004423241412579729,
      "loss": 1.6174,
      "step": 30898
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4176456928253174,
      "learning_rate": 0.00044231494015295204,
      "loss": 1.6387,
      "step": 30899
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42061835527420044,
      "learning_rate": 0.0004423057388751819,
      "loss": 1.6981,
      "step": 30900
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4141543209552765,
      "learning_rate": 0.00044229653742467346,
      "loss": 1.6194,
      "step": 30901
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41314464807510376,
      "learning_rate": 0.00044228733580143806,
      "loss": 1.6348,
      "step": 30902
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4241572320461273,
      "learning_rate": 0.00044227813400548677,
      "loss": 1.6588,
      "step": 30903
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42003709077835083,
      "learning_rate": 0.0004422689320368308,
      "loss": 1.6848,
      "step": 30904
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41641974449157715,
      "learning_rate": 0.00044225972989548126,
      "loss": 1.6185,
      "step": 30905
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4516320526599884,
      "learning_rate": 0.0004422505275814495,
      "loss": 1.5995,
      "step": 30906
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4324791431427002,
      "learning_rate": 0.0004422413250947465,
      "loss": 1.67,
      "step": 30907
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41917040944099426,
      "learning_rate": 0.00044223212243538337,
      "loss": 1.6381,
      "step": 30908
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40677306056022644,
      "learning_rate": 0.00044222291960337157,
      "loss": 1.6094,
      "step": 30909
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40545180439949036,
      "learning_rate": 0.00044221371659872193,
      "loss": 1.6199,
      "step": 30910
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.39527028799057007,
      "learning_rate": 0.00044220451342144595,
      "loss": 1.573,
      "step": 30911
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.5885070562362671,
      "learning_rate": 0.0004421953100715546,
      "loss": 1.6559,
      "step": 30912
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41586458683013916,
      "learning_rate": 0.00044218610654905903,
      "loss": 1.6613,
      "step": 30913
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4165952205657959,
      "learning_rate": 0.00044217690285397053,
      "loss": 1.6087,
      "step": 30914
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.410735160112381,
      "learning_rate": 0.00044216769898630025,
      "loss": 1.6342,
      "step": 30915
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40982070565223694,
      "learning_rate": 0.00044215849494605924,
      "loss": 1.6212,
      "step": 30916
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4050593972206116,
      "learning_rate": 0.00044214929073325884,
      "loss": 1.6148,
      "step": 30917
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4097028076648712,
      "learning_rate": 0.0004421400863479102,
      "loss": 1.6809,
      "step": 30918
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.39768990874290466,
      "learning_rate": 0.00044213088179002424,
      "loss": 1.6266,
      "step": 30919
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4155174493789673,
      "learning_rate": 0.0004421216770596125,
      "loss": 1.6634,
      "step": 30920
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4254063665866852,
      "learning_rate": 0.0004421124721566859,
      "loss": 1.6705,
      "step": 30921
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40955212712287903,
      "learning_rate": 0.00044210326708125577,
      "loss": 1.6582,
      "step": 30922
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41623517870903015,
      "learning_rate": 0.00044209406183333313,
      "loss": 1.6316,
      "step": 30923
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4164496958255768,
      "learning_rate": 0.0004420848564129293,
      "loss": 1.6277,
      "step": 30924
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4115786552429199,
      "learning_rate": 0.0004420756508200554,
      "loss": 1.7012,
      "step": 30925
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41776591539382935,
      "learning_rate": 0.00044206644505472253,
      "loss": 1.6378,
      "step": 30926
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4067396819591522,
      "learning_rate": 0.000442057239116942,
      "loss": 1.6107,
      "step": 30927
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4214448034763336,
      "learning_rate": 0.00044204803300672486,
      "loss": 1.6573,
      "step": 30928
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4140651226043701,
      "learning_rate": 0.00044203882672408227,
      "loss": 1.6809,
      "step": 30929
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4295938014984131,
      "learning_rate": 0.0004420296202690256,
      "loss": 1.7048,
      "step": 30930
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41285136342048645,
      "learning_rate": 0.00044202041364156593,
      "loss": 1.6799,
      "step": 30931
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4228842556476593,
      "learning_rate": 0.0004420112068417143,
      "loss": 1.6497,
      "step": 30932
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40444445610046387,
      "learning_rate": 0.000442001999869482,
      "loss": 1.6114,
      "step": 30933
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41500306129455566,
      "learning_rate": 0.0004419927927248802,
      "loss": 1.6435,
      "step": 30934
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4130326807498932,
      "learning_rate": 0.00044198358540792007,
      "loss": 1.6567,
      "step": 30935
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.411677747964859,
      "learning_rate": 0.0004419743779186129,
      "loss": 1.6184,
      "step": 30936
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4091494679450989,
      "learning_rate": 0.00044196517025696955,
      "loss": 1.6147,
      "step": 30937
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41595733165740967,
      "learning_rate": 0.0004419559624230016,
      "loss": 1.6216,
      "step": 30938
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41317448019981384,
      "learning_rate": 0.0004419467544167199,
      "loss": 1.6642,
      "step": 30939
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41732192039489746,
      "learning_rate": 0.00044193754623813577,
      "loss": 1.5906,
      "step": 30940
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41533464193344116,
      "learning_rate": 0.0004419283378872604,
      "loss": 1.6202,
      "step": 30941
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.5091663599014282,
      "learning_rate": 0.00044191912936410486,
      "loss": 1.5933,
      "step": 30942
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4012700915336609,
      "learning_rate": 0.00044190992066868055,
      "loss": 1.6741,
      "step": 30943
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.421260803937912,
      "learning_rate": 0.0004419007118009983,
      "loss": 1.6293,
      "step": 30944
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4089760184288025,
      "learning_rate": 0.00044189150276106973,
      "loss": 1.5889,
      "step": 30945
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4320255219936371,
      "learning_rate": 0.00044188229354890566,
      "loss": 1.7053,
      "step": 30946
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4036196768283844,
      "learning_rate": 0.00044187308416451744,
      "loss": 1.6436,
      "step": 30947
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4273579716682434,
      "learning_rate": 0.00044186387460791617,
      "loss": 1.6478,
      "step": 30948
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.416371613740921,
      "learning_rate": 0.00044185466487911296,
      "loss": 1.5885,
      "step": 30949
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.6407132148742676,
      "learning_rate": 0.00044184545497811926,
      "loss": 1.6486,
      "step": 30950
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.3919574022293091,
      "learning_rate": 0.000441836244904946,
      "loss": 1.5365,
      "step": 30951
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4232494533061981,
      "learning_rate": 0.0004418270346596045,
      "loss": 1.6319,
      "step": 30952
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40592730045318604,
      "learning_rate": 0.00044181782424210583,
      "loss": 1.6029,
      "step": 30953
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40984290838241577,
      "learning_rate": 0.00044180861365246117,
      "loss": 1.7052,
      "step": 30954
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4262300729751587,
      "learning_rate": 0.0004417994028906818,
      "loss": 1.7079,
      "step": 30955
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4039192199707031,
      "learning_rate": 0.0004417901919567789,
      "loss": 1.6293,
      "step": 30956
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40675556659698486,
      "learning_rate": 0.00044178098085076347,
      "loss": 1.6225,
      "step": 30957
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.3992079198360443,
      "learning_rate": 0.0004417717695726469,
      "loss": 1.6638,
      "step": 30958
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4224497377872467,
      "learning_rate": 0.0004417625581224402,
      "loss": 1.6438,
      "step": 30959
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.39208829402923584,
      "learning_rate": 0.0004417533465001547,
      "loss": 1.6165,
      "step": 30960
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4142603576183319,
      "learning_rate": 0.0004417441347058016,
      "loss": 1.6506,
      "step": 30961
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42267781496047974,
      "learning_rate": 0.000441734922739392,
      "loss": 1.6422,
      "step": 30962
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4162176251411438,
      "learning_rate": 0.000441725710600937,
      "loss": 1.6529,
      "step": 30963
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4162469804286957,
      "learning_rate": 0.0004417164982904479,
      "loss": 1.7084,
      "step": 30964
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4113560616970062,
      "learning_rate": 0.00044170728580793586,
      "loss": 1.6461,
      "step": 30965
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.5853986144065857,
      "learning_rate": 0.00044169807315341206,
      "loss": 1.6713,
      "step": 30966
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41182318329811096,
      "learning_rate": 0.0004416888603268876,
      "loss": 1.6499,
      "step": 30967
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42665621638298035,
      "learning_rate": 0.00044167964732837384,
      "loss": 1.7273,
      "step": 30968
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40972548723220825,
      "learning_rate": 0.0004416704341578818,
      "loss": 1.6368,
      "step": 30969
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41334646940231323,
      "learning_rate": 0.0004416612208154228,
      "loss": 1.6126,
      "step": 30970
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4145737290382385,
      "learning_rate": 0.00044165200730100784,
      "loss": 1.6637,
      "step": 30971
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42433372139930725,
      "learning_rate": 0.0004416427936146483,
      "loss": 1.6573,
      "step": 30972
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.428159236907959,
      "learning_rate": 0.0004416335797563553,
      "loss": 1.7064,
      "step": 30973
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40879908204078674,
      "learning_rate": 0.0004416243657261399,
      "loss": 1.7048,
      "step": 30974
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40833842754364014,
      "learning_rate": 0.0004416151515240135,
      "loss": 1.6754,
      "step": 30975
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42067843675613403,
      "learning_rate": 0.00044160593714998714,
      "loss": 1.6717,
      "step": 30976
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4241780936717987,
      "learning_rate": 0.00044159672260407195,
      "loss": 1.649,
      "step": 30977
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41098377108573914,
      "learning_rate": 0.0004415875078862793,
      "loss": 1.6539,
      "step": 30978
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.3993397355079651,
      "learning_rate": 0.0004415782929966202,
      "loss": 1.6129,
      "step": 30979
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4147663414478302,
      "learning_rate": 0.00044156907793510607,
      "loss": 1.5842,
      "step": 30980
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4236282408237457,
      "learning_rate": 0.00044155986270174777,
      "loss": 1.6602,
      "step": 30981
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42388099431991577,
      "learning_rate": 0.0004415506472965567,
      "loss": 1.5723,
      "step": 30982
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4245607554912567,
      "learning_rate": 0.000441541431719544,
      "loss": 1.6369,
      "step": 30983
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4113880395889282,
      "learning_rate": 0.00044153221597072087,
      "loss": 1.6398,
      "step": 30984
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42035308480262756,
      "learning_rate": 0.0004415230000500985,
      "loss": 1.6937,
      "step": 30985
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4281110465526581,
      "learning_rate": 0.0004415137839576881,
      "loss": 1.6178,
      "step": 30986
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.428872674703598,
      "learning_rate": 0.0004415045676935007,
      "loss": 1.6579,
      "step": 30987
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40182510018348694,
      "learning_rate": 0.0004414953512575477,
      "loss": 1.6169,
      "step": 30988
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4010755717754364,
      "learning_rate": 0.00044148613464984015,
      "loss": 1.6658,
      "step": 30989
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4011036455631256,
      "learning_rate": 0.0004414769178703893,
      "loss": 1.6808,
      "step": 30990
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41792821884155273,
      "learning_rate": 0.0004414677009192064,
      "loss": 1.6496,
      "step": 30991
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4243945777416229,
      "learning_rate": 0.0004414584837963023,
      "loss": 1.7167,
      "step": 30992
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4128516614437103,
      "learning_rate": 0.00044144926650168867,
      "loss": 1.6624,
      "step": 30993
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4254664480686188,
      "learning_rate": 0.0004414400490353764,
      "loss": 1.6594,
      "step": 30994
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41132232546806335,
      "learning_rate": 0.00044143083139737676,
      "loss": 1.6324,
      "step": 30995
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40294769406318665,
      "learning_rate": 0.00044142161358770105,
      "loss": 1.6473,
      "step": 30996
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4325200319290161,
      "learning_rate": 0.00044141239560636014,
      "loss": 1.6351,
      "step": 30997
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4084712564945221,
      "learning_rate": 0.00044140317745336547,
      "loss": 1.6483,
      "step": 30998
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41332781314849854,
      "learning_rate": 0.00044139395912872815,
      "loss": 1.6798,
      "step": 30999
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4166005849838257,
      "learning_rate": 0.0004413847406324595,
      "loss": 1.7058,
      "step": 31000
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4254932701587677,
      "learning_rate": 0.00044137552196457056,
      "loss": 1.6148,
      "step": 31001
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40622758865356445,
      "learning_rate": 0.0004413663031250725,
      "loss": 1.606,
      "step": 31002
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40882858633995056,
      "learning_rate": 0.00044135708411397677,
      "loss": 1.6602,
      "step": 31003
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4251857101917267,
      "learning_rate": 0.00044134786493129415,
      "loss": 1.6855,
      "step": 31004
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4287485182285309,
      "learning_rate": 0.0004413386455770362,
      "loss": 1.663,
      "step": 31005
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42982834577560425,
      "learning_rate": 0.0004413294260512139,
      "loss": 1.736,
      "step": 31006
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40783798694610596,
      "learning_rate": 0.00044132020635383846,
      "loss": 1.6727,
      "step": 31007
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43794357776641846,
      "learning_rate": 0.00044131098648492114,
      "loss": 1.667,
      "step": 31008
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4080474078655243,
      "learning_rate": 0.00044130176644447306,
      "loss": 1.6368,
      "step": 31009
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4176431894302368,
      "learning_rate": 0.00044129254623250555,
      "loss": 1.6971,
      "step": 31010
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4162709414958954,
      "learning_rate": 0.0004412833258490296,
      "loss": 1.6462,
      "step": 31011
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.6097925901412964,
      "learning_rate": 0.0004412741052940567,
      "loss": 1.6438,
      "step": 31012
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40474066138267517,
      "learning_rate": 0.00044126488456759774,
      "loss": 1.6689,
      "step": 31013
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42648744583129883,
      "learning_rate": 0.000441255663669664,
      "loss": 1.6765,
      "step": 31014
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.420779824256897,
      "learning_rate": 0.00044124644260026667,
      "loss": 1.5922,
      "step": 31015
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40782469511032104,
      "learning_rate": 0.000441237221359417,
      "loss": 1.6795,
      "step": 31016
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.448476105928421,
      "learning_rate": 0.0004412279999471262,
      "loss": 1.6191,
      "step": 31017
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4108615517616272,
      "learning_rate": 0.00044121877836340536,
      "loss": 1.644,
      "step": 31018
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41989168524742126,
      "learning_rate": 0.00044120955660826574,
      "loss": 1.6405,
      "step": 31019
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43883126974105835,
      "learning_rate": 0.00044120033468171853,
      "loss": 1.6773,
      "step": 31020
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4143345057964325,
      "learning_rate": 0.0004411911125837749,
      "loss": 1.6798,
      "step": 31021
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43025150895118713,
      "learning_rate": 0.0004411818903144461,
      "loss": 1.7174,
      "step": 31022
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43378669023513794,
      "learning_rate": 0.0004411726678737433,
      "loss": 1.7062,
      "step": 31023
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.8921036124229431,
      "learning_rate": 0.0004411634452616777,
      "loss": 1.649,
      "step": 31024
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4228294789791107,
      "learning_rate": 0.0004411542224782604,
      "loss": 1.7208,
      "step": 31025
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4166715145111084,
      "learning_rate": 0.0004411449995235027,
      "loss": 1.5821,
      "step": 31026
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4043029546737671,
      "learning_rate": 0.00044113577639741576,
      "loss": 1.6455,
      "step": 31027
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4254967272281647,
      "learning_rate": 0.00044112655310001085,
      "loss": 1.6831,
      "step": 31028
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42068934440612793,
      "learning_rate": 0.00044111732963129897,
      "loss": 1.6439,
      "step": 31029
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43598803877830505,
      "learning_rate": 0.00044110810599129154,
      "loss": 1.667,
      "step": 31030
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4344507157802582,
      "learning_rate": 0.0004410988821799996,
      "loss": 1.6453,
      "step": 31031
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4024095833301544,
      "learning_rate": 0.00044108965819743447,
      "loss": 1.6516,
      "step": 31032
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4095601439476013,
      "learning_rate": 0.00044108043404360726,
      "loss": 1.607,
      "step": 31033
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41554388403892517,
      "learning_rate": 0.0004410712097185292,
      "loss": 1.6397,
      "step": 31034
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.408806711435318,
      "learning_rate": 0.0004410619852222115,
      "loss": 1.7108,
      "step": 31035
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41685160994529724,
      "learning_rate": 0.0004410527605546652,
      "loss": 1.6454,
      "step": 31036
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4107571542263031,
      "learning_rate": 0.00044104353571590183,
      "loss": 1.6568,
      "step": 31037
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.38962095975875854,
      "learning_rate": 0.0004410343107059323,
      "loss": 1.5846,
      "step": 31038
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.419443815946579,
      "learning_rate": 0.0004410250855247679,
      "loss": 1.6193,
      "step": 31039
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41318589448928833,
      "learning_rate": 0.00044101586017241973,
      "loss": 1.6724,
      "step": 31040
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4195990562438965,
      "learning_rate": 0.00044100663464889916,
      "loss": 1.6456,
      "step": 31041
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4064362943172455,
      "learning_rate": 0.00044099740895421743,
      "loss": 1.6213,
      "step": 31042
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4241633713245392,
      "learning_rate": 0.00044098818308838545,
      "loss": 1.5827,
      "step": 31043
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41139668226242065,
      "learning_rate": 0.00044097895705141465,
      "loss": 1.6079,
      "step": 31044
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.3967118263244629,
      "learning_rate": 0.00044096973084331614,
      "loss": 1.639,
      "step": 31045
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41914957761764526,
      "learning_rate": 0.0004409605044641012,
      "loss": 1.6871,
      "step": 31046
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42300930619239807,
      "learning_rate": 0.00044095127791378094,
      "loss": 1.7095,
      "step": 31047
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4027940630912781,
      "learning_rate": 0.00044094205119236664,
      "loss": 1.645,
      "step": 31048
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4104885160923004,
      "learning_rate": 0.0004409328242998694,
      "loss": 1.7466,
      "step": 31049
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4018111824989319,
      "learning_rate": 0.00044092359723630053,
      "loss": 1.6536,
      "step": 31050
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42403239011764526,
      "learning_rate": 0.00044091437000167116,
      "loss": 1.7132,
      "step": 31051
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41570785641670227,
      "learning_rate": 0.0004409051425959925,
      "loss": 1.6643,
      "step": 31052
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41118746995925903,
      "learning_rate": 0.0004408959150192758,
      "loss": 1.6198,
      "step": 31053
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41776660084724426,
      "learning_rate": 0.0004408866872715321,
      "loss": 1.6132,
      "step": 31054
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4185774028301239,
      "learning_rate": 0.00044087745935277283,
      "loss": 1.6519,
      "step": 31055
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4212632477283478,
      "learning_rate": 0.00044086823126300904,
      "loss": 1.6318,
      "step": 31056
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4241269528865814,
      "learning_rate": 0.0004408590030022519,
      "loss": 1.6618,
      "step": 31057
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4134244918823242,
      "learning_rate": 0.00044084977457051287,
      "loss": 1.6616,
      "step": 31058
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41178444027900696,
      "learning_rate": 0.00044084054596780283,
      "loss": 1.6468,
      "step": 31059
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4070698022842407,
      "learning_rate": 0.0004408313171941332,
      "loss": 1.6648,
      "step": 31060
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40959495306015015,
      "learning_rate": 0.00044082208824951496,
      "loss": 1.6723,
      "step": 31061
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4042779803276062,
      "learning_rate": 0.0004408128591339596,
      "loss": 1.6633,
      "step": 31062
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4314732253551483,
      "learning_rate": 0.0004408036298474781,
      "loss": 1.6388,
      "step": 31063
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40921279788017273,
      "learning_rate": 0.00044079440039008176,
      "loss": 1.5921,
      "step": 31064
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4109874665737152,
      "learning_rate": 0.00044078517076178185,
      "loss": 1.6739,
      "step": 31065
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4169767200946808,
      "learning_rate": 0.00044077594096258933,
      "loss": 1.6032,
      "step": 31066
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4245511293411255,
      "learning_rate": 0.00044076671099251566,
      "loss": 1.6789,
      "step": 31067
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4410863518714905,
      "learning_rate": 0.0004407574808515719,
      "loss": 1.7096,
      "step": 31068
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40804970264434814,
      "learning_rate": 0.0004407482505397693,
      "loss": 1.644,
      "step": 31069
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43853622674942017,
      "learning_rate": 0.00044073902005711905,
      "loss": 1.6606,
      "step": 31070
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42114222049713135,
      "learning_rate": 0.0004407297894036324,
      "loss": 1.5613,
      "step": 31071
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4209672510623932,
      "learning_rate": 0.00044072055857932057,
      "loss": 1.6192,
      "step": 31072
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.45493385195732117,
      "learning_rate": 0.0004407113275841947,
      "loss": 1.6757,
      "step": 31073
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.421366423368454,
      "learning_rate": 0.00044070209641826596,
      "loss": 1.6884,
      "step": 31074
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42201414704322815,
      "learning_rate": 0.0004406928650815456,
      "loss": 1.5918,
      "step": 31075
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4216405153274536,
      "learning_rate": 0.0004406836335740448,
      "loss": 1.6151,
      "step": 31076
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4602523744106293,
      "learning_rate": 0.00044067440189577485,
      "loss": 1.6698,
      "step": 31077
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4411492347717285,
      "learning_rate": 0.000440665170046747,
      "loss": 1.5778,
      "step": 31078
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41395464539527893,
      "learning_rate": 0.00044065593802697226,
      "loss": 1.5831,
      "step": 31079
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4179913401603699,
      "learning_rate": 0.0004406467058364619,
      "loss": 1.6985,
      "step": 31080
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4385477900505066,
      "learning_rate": 0.0004406374734752272,
      "loss": 1.5907,
      "step": 31081
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4560035765171051,
      "learning_rate": 0.0004406282409432793,
      "loss": 1.6683,
      "step": 31082
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4340631067752838,
      "learning_rate": 0.0004406190082406295,
      "loss": 1.6821,
      "step": 31083
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43510523438453674,
      "learning_rate": 0.00044060977536728883,
      "loss": 1.5759,
      "step": 31084
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42023324966430664,
      "learning_rate": 0.00044060054232326873,
      "loss": 1.6918,
      "step": 31085
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41252458095550537,
      "learning_rate": 0.0004405913091085802,
      "loss": 1.6728,
      "step": 31086
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4190979301929474,
      "learning_rate": 0.0004405820757232346,
      "loss": 1.5986,
      "step": 31087
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.44525665044784546,
      "learning_rate": 0.0004405728421672431,
      "loss": 1.6258,
      "step": 31088
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.43415144085884094,
      "learning_rate": 0.00044056360844061684,
      "loss": 1.6701,
      "step": 31089
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4088495373725891,
      "learning_rate": 0.0004405543745433671,
      "loss": 1.5878,
      "step": 31090
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4142424762248993,
      "learning_rate": 0.00044054514047550496,
      "loss": 1.5968,
      "step": 31091
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40618816018104553,
      "learning_rate": 0.0004405359062370418,
      "loss": 1.714,
      "step": 31092
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40929892659187317,
      "learning_rate": 0.0004405266718279888,
      "loss": 1.6551,
      "step": 31093
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40707647800445557,
      "learning_rate": 0.00044051743724835707,
      "loss": 1.6971,
      "step": 31094
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4201064705848694,
      "learning_rate": 0.00044050820249815783,
      "loss": 1.6771,
      "step": 31095
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.418847918510437,
      "learning_rate": 0.0004404989675774024,
      "loss": 1.6651,
      "step": 31096
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4266795516014099,
      "learning_rate": 0.00044048973248610196,
      "loss": 1.6605,
      "step": 31097
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4211428165435791,
      "learning_rate": 0.00044048049722426766,
      "loss": 1.6639,
      "step": 31098
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4016138017177582,
      "learning_rate": 0.0004404712617919107,
      "loss": 1.6726,
      "step": 31099
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41446489095687866,
      "learning_rate": 0.00044046202618904233,
      "loss": 1.6092,
      "step": 31100
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41674211621284485,
      "learning_rate": 0.00044045279041567375,
      "loss": 1.5881,
      "step": 31101
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.42434161901474,
      "learning_rate": 0.00044044355447181617,
      "loss": 1.6676,
      "step": 31102
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4586319029331207,
      "learning_rate": 0.0004404343183574809,
      "loss": 1.6771,
      "step": 31103
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41699832677841187,
      "learning_rate": 0.000440425082072679,
      "loss": 1.658,
      "step": 31104
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4140535295009613,
      "learning_rate": 0.0004404158456174217,
      "loss": 1.6589,
      "step": 31105
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.41841039061546326,
      "learning_rate": 0.00044040660899172024,
      "loss": 1.6126,
      "step": 31106
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4231854975223541,
      "learning_rate": 0.0004403973721955859,
      "loss": 1.7196,
      "step": 31107
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.412645548582077,
      "learning_rate": 0.0004403881352290299,
      "loss": 1.6564,
      "step": 31108
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41710740327835083,
      "learning_rate": 0.00044037889809206323,
      "loss": 1.6246,
      "step": 31109
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41727903485298157,
      "learning_rate": 0.0004403696607846974,
      "loss": 1.6668,
      "step": 31110
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4235346019268036,
      "learning_rate": 0.00044036042330694347,
      "loss": 1.6023,
      "step": 31111
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42101019620895386,
      "learning_rate": 0.0004403511856588126,
      "loss": 1.6953,
      "step": 31112
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4022991359233856,
      "learning_rate": 0.0004403419478403161,
      "loss": 1.5728,
      "step": 31113
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40967875719070435,
      "learning_rate": 0.00044033270985146514,
      "loss": 1.6342,
      "step": 31114
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41767972707748413,
      "learning_rate": 0.00044032347169227097,
      "loss": 1.6453,
      "step": 31115
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42362120747566223,
      "learning_rate": 0.00044031423336274474,
      "loss": 1.6551,
      "step": 31116
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4117666184902191,
      "learning_rate": 0.00044030499486289777,
      "loss": 1.6147,
      "step": 31117
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42986539006233215,
      "learning_rate": 0.0004402957561927412,
      "loss": 1.6158,
      "step": 31118
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41052982211112976,
      "learning_rate": 0.0004402865173522862,
      "loss": 1.5867,
      "step": 31119
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41575586795806885,
      "learning_rate": 0.0004402772783415441,
      "loss": 1.6403,
      "step": 31120
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41273900866508484,
      "learning_rate": 0.0004402680391605259,
      "loss": 1.6136,
      "step": 31121
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4187820851802826,
      "learning_rate": 0.0004402587998092432,
      "loss": 1.6117,
      "step": 31122
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4246844947338104,
      "learning_rate": 0.00044024956028770683,
      "loss": 1.6725,
      "step": 31123
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4070990979671478,
      "learning_rate": 0.00044024032059592817,
      "loss": 1.6021,
      "step": 31124
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4055551588535309,
      "learning_rate": 0.0004402310807339185,
      "loss": 1.6768,
      "step": 31125
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41153374314308167,
      "learning_rate": 0.0004402218407016889,
      "loss": 1.6318,
      "step": 31126
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4087762236595154,
      "learning_rate": 0.0004402126004992507,
      "loss": 1.6498,
      "step": 31127
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4245067536830902,
      "learning_rate": 0.00044020336012661507,
      "loss": 1.6713,
      "step": 31128
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4129391610622406,
      "learning_rate": 0.00044019411958379304,
      "loss": 1.6458,
      "step": 31129
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41097530722618103,
      "learning_rate": 0.0004401848788707962,
      "loss": 1.6727,
      "step": 31130
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42180633544921875,
      "learning_rate": 0.0004401756379876355,
      "loss": 1.579,
      "step": 31131
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.44707486033439636,
      "learning_rate": 0.00044016639693432224,
      "loss": 1.6652,
      "step": 31132
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4052827060222626,
      "learning_rate": 0.00044015715571086764,
      "loss": 1.6734,
      "step": 31133
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4179178774356842,
      "learning_rate": 0.0004401479143172829,
      "loss": 1.6413,
      "step": 31134
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.422036737203598,
      "learning_rate": 0.0004401386727535792,
      "loss": 1.6132,
      "step": 31135
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4257436692714691,
      "learning_rate": 0.0004401294310197679,
      "loss": 1.6568,
      "step": 31136
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40026241540908813,
      "learning_rate": 0.00044012018911586,
      "loss": 1.6643,
      "step": 31137
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4180302321910858,
      "learning_rate": 0.00044011094704186687,
      "loss": 1.663,
      "step": 31138
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40427955985069275,
      "learning_rate": 0.0004401017047977997,
      "loss": 1.5789,
      "step": 31139
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40403857827186584,
      "learning_rate": 0.00044009246238366976,
      "loss": 1.6237,
      "step": 31140
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41867372393608093,
      "learning_rate": 0.00044008321979948815,
      "loss": 1.6546,
      "step": 31141
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4087024927139282,
      "learning_rate": 0.00044007397704526617,
      "loss": 1.7033,
      "step": 31142
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4126020669937134,
      "learning_rate": 0.000440064734121015,
      "loss": 1.7241,
      "step": 31143
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41034752130508423,
      "learning_rate": 0.00044005549102674586,
      "loss": 1.7136,
      "step": 31144
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4186773896217346,
      "learning_rate": 0.0004400462477624701,
      "loss": 1.6684,
      "step": 31145
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.992911159992218,
      "learning_rate": 0.0004400370043281987,
      "loss": 1.6742,
      "step": 31146
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41316312551498413,
      "learning_rate": 0.0004400277607239431,
      "loss": 1.4915,
      "step": 31147
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40708690881729126,
      "learning_rate": 0.00044001851694971435,
      "loss": 1.6743,
      "step": 31148
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43243637681007385,
      "learning_rate": 0.00044000927300552384,
      "loss": 1.6602,
      "step": 31149
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.39924395084381104,
      "learning_rate": 0.00044000002889138263,
      "loss": 1.5826,
      "step": 31150
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4121592044830322,
      "learning_rate": 0.00043999078460730206,
      "loss": 1.6195,
      "step": 31151
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42373475432395935,
      "learning_rate": 0.0004399815401532933,
      "loss": 1.6594,
      "step": 31152
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4222221374511719,
      "learning_rate": 0.00043997229552936753,
      "loss": 1.5751,
      "step": 31153
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4309532642364502,
      "learning_rate": 0.00043996305073553614,
      "loss": 1.6385,
      "step": 31154
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42762503027915955,
      "learning_rate": 0.0004399538057718101,
      "loss": 1.606,
      "step": 31155
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43444475531578064,
      "learning_rate": 0.00043994456063820085,
      "loss": 1.6838,
      "step": 31156
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4194367229938507,
      "learning_rate": 0.00043993531533471935,
      "loss": 1.6517,
      "step": 31157
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41523995995521545,
      "learning_rate": 0.0004399260698613772,
      "loss": 1.6245,
      "step": 31158
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4274655282497406,
      "learning_rate": 0.00043991682421818534,
      "loss": 1.6608,
      "step": 31159
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4180073142051697,
      "learning_rate": 0.0004399075784051551,
      "loss": 1.5673,
      "step": 31160
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4114323556423187,
      "learning_rate": 0.0004398983324222976,
      "loss": 1.6356,
      "step": 31161
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4427489936351776,
      "learning_rate": 0.0004398890862696242,
      "loss": 1.6719,
      "step": 31162
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4193529486656189,
      "learning_rate": 0.000439879839947146,
      "loss": 1.5526,
      "step": 31163
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40441736578941345,
      "learning_rate": 0.0004398705934548743,
      "loss": 1.6536,
      "step": 31164
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4152988791465759,
      "learning_rate": 0.0004398613467928204,
      "loss": 1.6345,
      "step": 31165
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41221076250076294,
      "learning_rate": 0.0004398520999609954,
      "loss": 1.6776,
      "step": 31166
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.44162923097610474,
      "learning_rate": 0.00043984285295941053,
      "loss": 1.6551,
      "step": 31167
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40397846698760986,
      "learning_rate": 0.000439833605788077,
      "loss": 1.664,
      "step": 31168
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4175669848918915,
      "learning_rate": 0.00043982435844700614,
      "loss": 1.7039,
      "step": 31169
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.39634963870048523,
      "learning_rate": 0.00043981511093620914,
      "loss": 1.6317,
      "step": 31170
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3987668454647064,
      "learning_rate": 0.00043980586325569705,
      "loss": 1.5888,
      "step": 31171
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40386059880256653,
      "learning_rate": 0.00043979661540548135,
      "loss": 1.6284,
      "step": 31172
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4094836711883545,
      "learning_rate": 0.00043978736738557316,
      "loss": 1.5606,
      "step": 31173
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.399289608001709,
      "learning_rate": 0.00043977811919598364,
      "loss": 1.6136,
      "step": 31174
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40570881962776184,
      "learning_rate": 0.00043976887083672423,
      "loss": 1.6693,
      "step": 31175
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4072408378124237,
      "learning_rate": 0.0004397596223078058,
      "loss": 1.64,
      "step": 31176
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40293580293655396,
      "learning_rate": 0.0004397503736092399,
      "loss": 1.6201,
      "step": 31177
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4189915955066681,
      "learning_rate": 0.00043974112474103754,
      "loss": 1.5448,
      "step": 31178
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41469594836235046,
      "learning_rate": 0.0004397318757032102,
      "loss": 1.709,
      "step": 31179
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41863057017326355,
      "learning_rate": 0.0004397226264957688,
      "loss": 1.6453,
      "step": 31180
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4308229982852936,
      "learning_rate": 0.0004397133771187248,
      "loss": 1.591,
      "step": 31181
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4048554003238678,
      "learning_rate": 0.0004397041275720894,
      "loss": 1.6054,
      "step": 31182
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4229680597782135,
      "learning_rate": 0.00043969487785587363,
      "loss": 1.6533,
      "step": 31183
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41941511631011963,
      "learning_rate": 0.000439685627970089,
      "loss": 1.7086,
      "step": 31184
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.413564532995224,
      "learning_rate": 0.00043967637791474654,
      "loss": 1.6245,
      "step": 31185
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42329102754592896,
      "learning_rate": 0.0004396671276898575,
      "loss": 1.6487,
      "step": 31186
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41287583112716675,
      "learning_rate": 0.00043965787729543317,
      "loss": 1.6409,
      "step": 31187
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43550601601600647,
      "learning_rate": 0.0004396486267314848,
      "loss": 1.6951,
      "step": 31188
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4008798897266388,
      "learning_rate": 0.00043963937599802354,
      "loss": 1.6796,
      "step": 31189
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40044817328453064,
      "learning_rate": 0.00043963012509506066,
      "loss": 1.6337,
      "step": 31190
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.424917608499527,
      "learning_rate": 0.0004396208740226074,
      "loss": 1.5428,
      "step": 31191
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.7917670011520386,
      "learning_rate": 0.00043961162278067487,
      "loss": 1.6205,
      "step": 31192
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41844430565834045,
      "learning_rate": 0.0004396023713692745,
      "loss": 1.6531,
      "step": 31193
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4194357395172119,
      "learning_rate": 0.00043959311978841736,
      "loss": 1.5783,
      "step": 31194
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41758474707603455,
      "learning_rate": 0.00043958386803811487,
      "loss": 1.687,
      "step": 31195
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41107749938964844,
      "learning_rate": 0.0004395746161183781,
      "loss": 1.6394,
      "step": 31196
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4213542640209198,
      "learning_rate": 0.00043956536402921817,
      "loss": 1.6683,
      "step": 31197
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4243365526199341,
      "learning_rate": 0.00043955611177064647,
      "loss": 1.7049,
      "step": 31198
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43542277812957764,
      "learning_rate": 0.0004395468593426743,
      "loss": 1.6174,
      "step": 31199
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4153657853603363,
      "learning_rate": 0.00043953760674531284,
      "loss": 1.6979,
      "step": 31200
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41856956481933594,
      "learning_rate": 0.00043952835397857313,
      "loss": 1.7092,
      "step": 31201
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42648348212242126,
      "learning_rate": 0.0004395191010424667,
      "loss": 1.6622,
      "step": 31202
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4071781039237976,
      "learning_rate": 0.0004395098479370046,
      "loss": 1.6733,
      "step": 31203
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4164208471775055,
      "learning_rate": 0.00043950059466219807,
      "loss": 1.646,
      "step": 31204
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4127626121044159,
      "learning_rate": 0.0004394913412180584,
      "loss": 1.6456,
      "step": 31205
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4116044044494629,
      "learning_rate": 0.0004394820876045968,
      "loss": 1.6688,
      "step": 31206
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41878384351730347,
      "learning_rate": 0.0004394728338218245,
      "loss": 1.6467,
      "step": 31207
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4245447516441345,
      "learning_rate": 0.0004394635798697527,
      "loss": 1.6244,
      "step": 31208
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.39989808201789856,
      "learning_rate": 0.00043945432574839265,
      "loss": 1.6425,
      "step": 31209
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.416795015335083,
      "learning_rate": 0.0004394450714577557,
      "loss": 1.7122,
      "step": 31210
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4174695909023285,
      "learning_rate": 0.00043943581699785284,
      "loss": 1.6543,
      "step": 31211
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41267603635787964,
      "learning_rate": 0.00043942656236869553,
      "loss": 1.6566,
      "step": 31212
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42317503690719604,
      "learning_rate": 0.00043941730757029486,
      "loss": 1.6829,
      "step": 31213
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.430000364780426,
      "learning_rate": 0.0004394080526026622,
      "loss": 1.6975,
      "step": 31214
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42506152391433716,
      "learning_rate": 0.00043939879746580864,
      "loss": 1.6388,
      "step": 31215
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4161669909954071,
      "learning_rate": 0.0004393895421597455,
      "loss": 1.6296,
      "step": 31216
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4184808135032654,
      "learning_rate": 0.00043938028668448394,
      "loss": 1.6769,
      "step": 31217
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4175398349761963,
      "learning_rate": 0.0004393710310400354,
      "loss": 1.6172,
      "step": 31218
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3991110920906067,
      "learning_rate": 0.0004393617752264108,
      "loss": 1.6433,
      "step": 31219
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41986677050590515,
      "learning_rate": 0.00043935251924362163,
      "loss": 1.6975,
      "step": 31220
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40917161107063293,
      "learning_rate": 0.000439343263091679,
      "loss": 1.6245,
      "step": 31221
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4188001751899719,
      "learning_rate": 0.00043933400677059417,
      "loss": 1.5694,
      "step": 31222
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4001394212245941,
      "learning_rate": 0.0004393247502803784,
      "loss": 1.6387,
      "step": 31223
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41952943801879883,
      "learning_rate": 0.0004393154936210429,
      "loss": 1.5895,
      "step": 31224
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41888895630836487,
      "learning_rate": 0.00043930623679259897,
      "loss": 1.6553,
      "step": 31225
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3970033526420593,
      "learning_rate": 0.00043929697979505774,
      "loss": 1.6406,
      "step": 31226
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4370948076248169,
      "learning_rate": 0.0004392877226284306,
      "loss": 1.6384,
      "step": 31227
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4181136190891266,
      "learning_rate": 0.00043927846529272853,
      "loss": 1.6409,
      "step": 31228
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4275992512702942,
      "learning_rate": 0.000439269207787963,
      "loss": 1.6854,
      "step": 31229
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4067046046257019,
      "learning_rate": 0.00043925995011414524,
      "loss": 1.5815,
      "step": 31230
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42290380597114563,
      "learning_rate": 0.0004392506922712863,
      "loss": 1.6009,
      "step": 31231
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41125383973121643,
      "learning_rate": 0.0004392414342593976,
      "loss": 1.6222,
      "step": 31232
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4131372570991516,
      "learning_rate": 0.00043923217607849023,
      "loss": 1.602,
      "step": 31233
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4087139070034027,
      "learning_rate": 0.0004392229177285756,
      "loss": 1.6059,
      "step": 31234
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41833698749542236,
      "learning_rate": 0.00043921365920966487,
      "loss": 1.6569,
      "step": 31235
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4095149040222168,
      "learning_rate": 0.00043920440052176924,
      "loss": 1.6517,
      "step": 31236
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4228614568710327,
      "learning_rate": 0.00043919514166490005,
      "loss": 1.6294,
      "step": 31237
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4178242087364197,
      "learning_rate": 0.00043918588263906836,
      "loss": 1.6958,
      "step": 31238
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40809744596481323,
      "learning_rate": 0.0004391766234442856,
      "loss": 1.6103,
      "step": 31239
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40471747517585754,
      "learning_rate": 0.0004391673640805629,
      "loss": 1.5806,
      "step": 31240
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42620494961738586,
      "learning_rate": 0.0004391581045479115,
      "loss": 1.6175,
      "step": 31241
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41967421770095825,
      "learning_rate": 0.0004391488448463426,
      "loss": 1.631,
      "step": 31242
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3982544541358948,
      "learning_rate": 0.0004391395849758676,
      "loss": 1.6474,
      "step": 31243
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4130585789680481,
      "learning_rate": 0.0004391303249364977,
      "loss": 1.6437,
      "step": 31244
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4109686613082886,
      "learning_rate": 0.000439121064728244,
      "loss": 1.6401,
      "step": 31245
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3987736999988556,
      "learning_rate": 0.00043911180435111783,
      "loss": 1.727,
      "step": 31246
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4416426420211792,
      "learning_rate": 0.00043910254380513045,
      "loss": 1.6921,
      "step": 31247
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40212973952293396,
      "learning_rate": 0.00043909328309029306,
      "loss": 1.6424,
      "step": 31248
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41322043538093567,
      "learning_rate": 0.0004390840222066169,
      "loss": 1.6973,
      "step": 31249
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41432997584342957,
      "learning_rate": 0.0004390747611541133,
      "loss": 1.59,
      "step": 31250
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4028622508049011,
      "learning_rate": 0.0004390654999327934,
      "loss": 1.632,
      "step": 31251
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40520328283309937,
      "learning_rate": 0.0004390562385426684,
      "loss": 1.6037,
      "step": 31252
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4169764220714569,
      "learning_rate": 0.00043904697698374966,
      "loss": 1.7011,
      "step": 31253
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.44358178973197937,
      "learning_rate": 0.00043903771525604843,
      "loss": 1.7113,
      "step": 31254
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41312721371650696,
      "learning_rate": 0.00043902845335957584,
      "loss": 1.6857,
      "step": 31255
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40944430232048035,
      "learning_rate": 0.0004390191912943432,
      "loss": 1.6123,
      "step": 31256
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4028623402118683,
      "learning_rate": 0.0004390099290603618,
      "loss": 1.6706,
      "step": 31257
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41834425926208496,
      "learning_rate": 0.0004390006666576427,
      "loss": 1.6554,
      "step": 31258
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4209705889225006,
      "learning_rate": 0.0004389914040861974,
      "loss": 1.6739,
      "step": 31259
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41075319051742554,
      "learning_rate": 0.000438982141346037,
      "loss": 1.6186,
      "step": 31260
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4299486577510834,
      "learning_rate": 0.0004389728784371727,
      "loss": 1.5899,
      "step": 31261
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3982437551021576,
      "learning_rate": 0.0004389636153596159,
      "loss": 1.6393,
      "step": 31262
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.5304967761039734,
      "learning_rate": 0.0004389543521133776,
      "loss": 1.6929,
      "step": 31263
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41982242465019226,
      "learning_rate": 0.0004389450886984693,
      "loss": 1.6298,
      "step": 31264
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4147508144378662,
      "learning_rate": 0.0004389358251149021,
      "loss": 1.6463,
      "step": 31265
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4074961841106415,
      "learning_rate": 0.0004389265613626873,
      "loss": 1.5796,
      "step": 31266
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4385412931442261,
      "learning_rate": 0.00043891729744183607,
      "loss": 1.714,
      "step": 31267
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4148890972137451,
      "learning_rate": 0.0004389080333523598,
      "loss": 1.6822,
      "step": 31268
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42329275608062744,
      "learning_rate": 0.00043889876909426956,
      "loss": 1.633,
      "step": 31269
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4077655076980591,
      "learning_rate": 0.0004388895046675767,
      "loss": 1.7098,
      "step": 31270
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41297242045402527,
      "learning_rate": 0.0004388802400722925,
      "loss": 1.5533,
      "step": 31271
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4151032865047455,
      "learning_rate": 0.0004388709753084281,
      "loss": 1.5887,
      "step": 31272
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4418147802352905,
      "learning_rate": 0.0004388617103759948,
      "loss": 1.6636,
      "step": 31273
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4207818806171417,
      "learning_rate": 0.00043885244527500387,
      "loss": 1.691,
      "step": 31274
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4176637530326843,
      "learning_rate": 0.0004388431800054665,
      "loss": 1.6852,
      "step": 31275
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4398563504219055,
      "learning_rate": 0.000438833914567394,
      "loss": 1.6642,
      "step": 31276
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4334116280078888,
      "learning_rate": 0.0004388246489607975,
      "loss": 1.6359,
      "step": 31277
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.414503812789917,
      "learning_rate": 0.0004388153831856885,
      "loss": 1.6873,
      "step": 31278
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4440283477306366,
      "learning_rate": 0.00043880611724207794,
      "loss": 1.6045,
      "step": 31279
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4128411114215851,
      "learning_rate": 0.0004387968511299772,
      "loss": 1.6799,
      "step": 31280
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40248122811317444,
      "learning_rate": 0.00043878758484939753,
      "loss": 1.681,
      "step": 31281
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.44805434346199036,
      "learning_rate": 0.0004387783184003503,
      "loss": 1.6918,
      "step": 31282
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42752695083618164,
      "learning_rate": 0.00043876905178284655,
      "loss": 1.677,
      "step": 31283
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42506667971611023,
      "learning_rate": 0.0004387597849968976,
      "loss": 1.6625,
      "step": 31284
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43019092082977295,
      "learning_rate": 0.00043875051804251477,
      "loss": 1.6215,
      "step": 31285
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4412042498588562,
      "learning_rate": 0.0004387412509197092,
      "loss": 1.5933,
      "step": 31286
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4138917624950409,
      "learning_rate": 0.00043873198362849233,
      "loss": 1.6787,
      "step": 31287
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42038652300834656,
      "learning_rate": 0.0004387227161688751,
      "loss": 1.5998,
      "step": 31288
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.44483625888824463,
      "learning_rate": 0.000438713448540869,
      "loss": 1.6403,
      "step": 31289
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4358832836151123,
      "learning_rate": 0.00043870418074448524,
      "loss": 1.7426,
      "step": 31290
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4124523997306824,
      "learning_rate": 0.000438694912779735,
      "loss": 1.6154,
      "step": 31291
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41662824153900146,
      "learning_rate": 0.0004386856446466296,
      "loss": 1.6216,
      "step": 31292
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42959973216056824,
      "learning_rate": 0.0004386763763451802,
      "loss": 1.6054,
      "step": 31293
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4034595191478729,
      "learning_rate": 0.0004386671078753982,
      "loss": 1.6158,
      "step": 31294
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42918652296066284,
      "learning_rate": 0.00043865783923729463,
      "loss": 1.6395,
      "step": 31295
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4075828194618225,
      "learning_rate": 0.00043864857043088106,
      "loss": 1.575,
      "step": 31296
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41688209772109985,
      "learning_rate": 0.00043863930145616846,
      "loss": 1.6301,
      "step": 31297
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4169066250324249,
      "learning_rate": 0.00043863003231316817,
      "loss": 1.5969,
      "step": 31298
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43694669008255005,
      "learning_rate": 0.00043862076300189146,
      "loss": 1.6236,
      "step": 31299
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4292319416999817,
      "learning_rate": 0.00043861149352234955,
      "loss": 1.7114,
      "step": 31300
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40852731466293335,
      "learning_rate": 0.00043860222387455373,
      "loss": 1.6247,
      "step": 31301
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4326435625553131,
      "learning_rate": 0.0004385929540585152,
      "loss": 1.6628,
      "step": 31302
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4144136607646942,
      "learning_rate": 0.0004385836840742453,
      "loss": 1.7011,
      "step": 31303
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.427131325006485,
      "learning_rate": 0.00043857441392175517,
      "loss": 1.5966,
      "step": 31304
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4073776602745056,
      "learning_rate": 0.00043856514360105615,
      "loss": 1.6381,
      "step": 31305
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40229323506355286,
      "learning_rate": 0.0004385558731121595,
      "loss": 1.641,
      "step": 31306
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43485158681869507,
      "learning_rate": 0.00043854660245507644,
      "loss": 1.6564,
      "step": 31307
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40370580554008484,
      "learning_rate": 0.00043853733162981814,
      "loss": 1.6193,
      "step": 31308
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4319113492965698,
      "learning_rate": 0.0004385280606363959,
      "loss": 1.5657,
      "step": 31309
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4058624505996704,
      "learning_rate": 0.00043851878947482107,
      "loss": 1.5659,
      "step": 31310
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42046552896499634,
      "learning_rate": 0.00043850951814510485,
      "loss": 1.6454,
      "step": 31311
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4247199594974518,
      "learning_rate": 0.00043850024664725853,
      "loss": 1.6847,
      "step": 31312
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4181894063949585,
      "learning_rate": 0.0004384909749812933,
      "loss": 1.6553,
      "step": 31313
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42953041195869446,
      "learning_rate": 0.00043848170314722036,
      "loss": 1.6098,
      "step": 31314
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41231438517570496,
      "learning_rate": 0.00043847243114505106,
      "loss": 1.6346,
      "step": 31315
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43320730328559875,
      "learning_rate": 0.0004384631589747966,
      "loss": 1.5724,
      "step": 31316
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42321452498435974,
      "learning_rate": 0.00043845388663646834,
      "loss": 1.6357,
      "step": 31317
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4168868362903595,
      "learning_rate": 0.0004384446141300774,
      "loss": 1.6657,
      "step": 31318
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41363006830215454,
      "learning_rate": 0.00043843534145563513,
      "loss": 1.6177,
      "step": 31319
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.425948828458786,
      "learning_rate": 0.0004384260686131527,
      "loss": 1.6718,
      "step": 31320
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40548259019851685,
      "learning_rate": 0.0004384167956026415,
      "loss": 1.6129,
      "step": 31321
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4068516790866852,
      "learning_rate": 0.00043840752242411263,
      "loss": 1.5932,
      "step": 31322
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.46536415815353394,
      "learning_rate": 0.0004383982490775775,
      "loss": 1.7483,
      "step": 31323
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4188779294490814,
      "learning_rate": 0.0004383889755630473,
      "loss": 1.6902,
      "step": 31324
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40615683794021606,
      "learning_rate": 0.0004383797018805332,
      "loss": 1.5908,
      "step": 31325
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41875073313713074,
      "learning_rate": 0.00043837042803004657,
      "loss": 1.7239,
      "step": 31326
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42004483938217163,
      "learning_rate": 0.00043836115401159857,
      "loss": 1.6867,
      "step": 31327
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40754789113998413,
      "learning_rate": 0.00043835187982520056,
      "loss": 1.5578,
      "step": 31328
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4131667912006378,
      "learning_rate": 0.00043834260547086375,
      "loss": 1.655,
      "step": 31329
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4110681414604187,
      "learning_rate": 0.00043833333094859937,
      "loss": 1.5999,
      "step": 31330
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4137580692768097,
      "learning_rate": 0.0004383240562584188,
      "loss": 1.6019,
      "step": 31331
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4064183831214905,
      "learning_rate": 0.0004383147814003332,
      "loss": 1.6903,
      "step": 31332
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4093873202800751,
      "learning_rate": 0.00043830550637435374,
      "loss": 1.6442,
      "step": 31333
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4085412621498108,
      "learning_rate": 0.0004382962311804918,
      "loss": 1.7086,
      "step": 31334
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42049670219421387,
      "learning_rate": 0.00043828695581875864,
      "loss": 1.6786,
      "step": 31335
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4150641858577728,
      "learning_rate": 0.00043827768028916543,
      "loss": 1.5836,
      "step": 31336
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4198298454284668,
      "learning_rate": 0.00043826840459172363,
      "loss": 1.6727,
      "step": 31337
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.3399159908294678,
      "learning_rate": 0.0004382591287264443,
      "loss": 1.7229,
      "step": 31338
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.405573308467865,
      "learning_rate": 0.0004382498526933387,
      "loss": 1.6118,
      "step": 31339
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4015686810016632,
      "learning_rate": 0.00043824057649241815,
      "loss": 1.6337,
      "step": 31340
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4335058033466339,
      "learning_rate": 0.00043823130012369394,
      "loss": 1.6409,
      "step": 31341
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42521125078201294,
      "learning_rate": 0.00043822202358717734,
      "loss": 1.6485,
      "step": 31342
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4290897846221924,
      "learning_rate": 0.0004382127468828795,
      "loss": 1.5888,
      "step": 31343
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.46208900213241577,
      "learning_rate": 0.0004382034700108118,
      "loss": 1.6795,
      "step": 31344
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4195931851863861,
      "learning_rate": 0.0004381941929709854,
      "loss": 1.5945,
      "step": 31345
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4106558859348297,
      "learning_rate": 0.00043818491576341165,
      "loss": 1.5938,
      "step": 31346
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41044625639915466,
      "learning_rate": 0.00043817563838810183,
      "loss": 1.6371,
      "step": 31347
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4035002887248993,
      "learning_rate": 0.000438166360845067,
      "loss": 1.6312,
      "step": 31348
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4202972650527954,
      "learning_rate": 0.00043815708313431866,
      "loss": 1.6201,
      "step": 31349
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4103781580924988,
      "learning_rate": 0.0004381478052558679,
      "loss": 1.6829,
      "step": 31350
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41535836458206177,
      "learning_rate": 0.0004381385272097262,
      "loss": 1.6865,
      "step": 31351
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40728169679641724,
      "learning_rate": 0.00043812924899590456,
      "loss": 1.6938,
      "step": 31352
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3985029458999634,
      "learning_rate": 0.0004381199706144144,
      "loss": 1.5774,
      "step": 31353
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4045866131782532,
      "learning_rate": 0.00043811069206526704,
      "loss": 1.64,
      "step": 31354
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3997544050216675,
      "learning_rate": 0.00043810141334847344,
      "loss": 1.5847,
      "step": 31355
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42149147391319275,
      "learning_rate": 0.00043809213446404526,
      "loss": 1.6128,
      "step": 31356
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4137245714664459,
      "learning_rate": 0.00043808285541199353,
      "loss": 1.7092,
      "step": 31357
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.7863410711288452,
      "learning_rate": 0.00043807357619232956,
      "loss": 1.6383,
      "step": 31358
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4134744703769684,
      "learning_rate": 0.0004380642968050646,
      "loss": 1.6025,
      "step": 31359
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4185347557067871,
      "learning_rate": 0.00043805501725020985,
      "loss": 1.5972,
      "step": 31360
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4224444627761841,
      "learning_rate": 0.0004380457375277768,
      "loss": 1.6048,
      "step": 31361
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42460131645202637,
      "learning_rate": 0.00043803645763777646,
      "loss": 1.5684,
      "step": 31362
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4352976083755493,
      "learning_rate": 0.0004380271775802202,
      "loss": 1.6203,
      "step": 31363
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41935232281684875,
      "learning_rate": 0.0004380178973551193,
      "loss": 1.6708,
      "step": 31364
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4130389392375946,
      "learning_rate": 0.000438008616962485,
      "loss": 1.5989,
      "step": 31365
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4307541847229004,
      "learning_rate": 0.0004379993364023286,
      "loss": 1.6004,
      "step": 31366
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4265100657939911,
      "learning_rate": 0.00043799005567466136,
      "loss": 1.6074,
      "step": 31367
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41796788573265076,
      "learning_rate": 0.0004379807747794945,
      "loss": 1.6696,
      "step": 31368
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4115629196166992,
      "learning_rate": 0.00043797149371683933,
      "loss": 1.663,
      "step": 31369
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4083392024040222,
      "learning_rate": 0.000437962212486707,
      "loss": 1.5718,
      "step": 31370
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4173069894313812,
      "learning_rate": 0.00043795293108910894,
      "loss": 1.6714,
      "step": 31371
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42043817043304443,
      "learning_rate": 0.0004379436495240564,
      "loss": 1.6261,
      "step": 31372
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4062228500843048,
      "learning_rate": 0.00043793436779156046,
      "loss": 1.6205,
      "step": 31373
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41419297456741333,
      "learning_rate": 0.00043792508589163265,
      "loss": 1.6425,
      "step": 31374
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41733646392822266,
      "learning_rate": 0.000437915803824284,
      "loss": 1.666,
      "step": 31375
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4386555850505829,
      "learning_rate": 0.00043790652158952597,
      "loss": 1.6847,
      "step": 31376
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42645490169525146,
      "learning_rate": 0.0004378972391873697,
      "loss": 1.5473,
      "step": 31377
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4311172664165497,
      "learning_rate": 0.00043788795661782654,
      "loss": 1.6611,
      "step": 31378
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41572052240371704,
      "learning_rate": 0.0004378786738809078,
      "loss": 1.6036,
      "step": 31379
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41161710023880005,
      "learning_rate": 0.0004378693909766244,
      "loss": 1.6085,
      "step": 31380
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40749189257621765,
      "learning_rate": 0.0004378601079049881,
      "loss": 1.6764,
      "step": 31381
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4174234867095947,
      "learning_rate": 0.00043785082466600984,
      "loss": 1.7691,
      "step": 31382
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4376506507396698,
      "learning_rate": 0.0004378415412597011,
      "loss": 1.6469,
      "step": 31383
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4030340313911438,
      "learning_rate": 0.0004378322576860729,
      "loss": 1.6637,
      "step": 31384
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4280630052089691,
      "learning_rate": 0.0004378229739451368,
      "loss": 1.7135,
      "step": 31385
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4391404688358307,
      "learning_rate": 0.0004378136900369038,
      "loss": 1.6095,
      "step": 31386
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4312148690223694,
      "learning_rate": 0.0004378044059613853,
      "loss": 1.6829,
      "step": 31387
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43147584795951843,
      "learning_rate": 0.0004377951217185926,
      "loss": 1.5996,
      "step": 31388
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4168044924736023,
      "learning_rate": 0.0004377858373085369,
      "loss": 1.6673,
      "step": 31389
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4296078681945801,
      "learning_rate": 0.00043777655273122946,
      "loss": 1.6243,
      "step": 31390
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4254913330078125,
      "learning_rate": 0.0004377672679866816,
      "loss": 1.6676,
      "step": 31391
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42882052063941956,
      "learning_rate": 0.0004377579830749046,
      "loss": 1.6773,
      "step": 31392
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43784481287002563,
      "learning_rate": 0.0004377486979959098,
      "loss": 1.5614,
      "step": 31393
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42237913608551025,
      "learning_rate": 0.00043773941274970825,
      "loss": 1.6648,
      "step": 31394
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40890711545944214,
      "learning_rate": 0.00043773012733631136,
      "loss": 1.6622,
      "step": 31395
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.427700012922287,
      "learning_rate": 0.0004377208417557304,
      "loss": 1.6399,
      "step": 31396
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4204142689704895,
      "learning_rate": 0.00043771155600797666,
      "loss": 1.6365,
      "step": 31397
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.44111448526382446,
      "learning_rate": 0.0004377022700930613,
      "loss": 1.6029,
      "step": 31398
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40830299258232117,
      "learning_rate": 0.00043769298401099584,
      "loss": 1.5892,
      "step": 31399
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4205659329891205,
      "learning_rate": 0.00043768369776179123,
      "loss": 1.637,
      "step": 31400
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.43552231788635254,
      "learning_rate": 0.0004376744113454589,
      "loss": 1.6834,
      "step": 31401
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4440450966358185,
      "learning_rate": 0.00043766512476201014,
      "loss": 1.658,
      "step": 31402
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41132959723472595,
      "learning_rate": 0.00043765583801145624,
      "loss": 1.6455,
      "step": 31403
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4260036051273346,
      "learning_rate": 0.0004376465510938085,
      "loss": 1.5763,
      "step": 31404
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4312984049320221,
      "learning_rate": 0.00043763726400907794,
      "loss": 1.6164,
      "step": 31405
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.41240939497947693,
      "learning_rate": 0.0004376279767572762,
      "loss": 1.7175,
      "step": 31406
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.40380555391311646,
      "learning_rate": 0.00043761868933841434,
      "loss": 1.6568,
      "step": 31407
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4265201985836029,
      "learning_rate": 0.0004376094017525036,
      "loss": 1.7455,
      "step": 31408
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42521196603775024,
      "learning_rate": 0.0004376001139995554,
      "loss": 1.6796,
      "step": 31409
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.413171648979187,
      "learning_rate": 0.0004375908260795808,
      "loss": 1.6421,
      "step": 31410
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4087080955505371,
      "learning_rate": 0.0004375815379925913,
      "loss": 1.5966,
      "step": 31411
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4186178743839264,
      "learning_rate": 0.0004375722497385981,
      "loss": 1.6154,
      "step": 31412
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4217134714126587,
      "learning_rate": 0.00043756296131761244,
      "loss": 1.6872,
      "step": 31413
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4113650619983673,
      "learning_rate": 0.0004375536727296457,
      "loss": 1.62,
      "step": 31414
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.416618674993515,
      "learning_rate": 0.0004375443839747089,
      "loss": 1.616,
      "step": 31415
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4388176202774048,
      "learning_rate": 0.0004375350950528137,
      "loss": 1.5928,
      "step": 31416
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4198925793170929,
      "learning_rate": 0.00043752580596397093,
      "loss": 1.5905,
      "step": 31417
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4309192895889282,
      "learning_rate": 0.00043751651670819223,
      "loss": 1.7048,
      "step": 31418
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4264105558395386,
      "learning_rate": 0.00043750722728548867,
      "loss": 1.6594,
      "step": 31419
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40885865688323975,
      "learning_rate": 0.00043749793769587165,
      "loss": 1.6206,
      "step": 31420
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.413345605134964,
      "learning_rate": 0.0004374886479393524,
      "loss": 1.6347,
      "step": 31421
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42477065324783325,
      "learning_rate": 0.0004374793580159421,
      "loss": 1.5794,
      "step": 31422
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42531633377075195,
      "learning_rate": 0.00043747006792565227,
      "loss": 1.6256,
      "step": 31423
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4108661115169525,
      "learning_rate": 0.0004374607776684939,
      "loss": 1.6641,
      "step": 31424
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40805694460868835,
      "learning_rate": 0.00043745148724447843,
      "loss": 1.7343,
      "step": 31425
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4082106649875641,
      "learning_rate": 0.00043744219665361713,
      "loss": 1.6192,
      "step": 31426
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4270625114440918,
      "learning_rate": 0.00043743290589592123,
      "loss": 1.5367,
      "step": 31427
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4199618995189667,
      "learning_rate": 0.0004374236149714021,
      "loss": 1.603,
      "step": 31428
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42020371556282043,
      "learning_rate": 0.00043741432388007094,
      "loss": 1.6119,
      "step": 31429
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42438432574272156,
      "learning_rate": 0.0004374050326219389,
      "loss": 1.6945,
      "step": 31430
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41059568524360657,
      "learning_rate": 0.00043739574119701754,
      "loss": 1.6717,
      "step": 31431
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4302029013633728,
      "learning_rate": 0.000437386449605318,
      "loss": 1.6048,
      "step": 31432
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4118662476539612,
      "learning_rate": 0.00043737715784685144,
      "loss": 1.6303,
      "step": 31433
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4459635317325592,
      "learning_rate": 0.0004373678659216294,
      "loss": 1.5991,
      "step": 31434
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41582822799682617,
      "learning_rate": 0.0004373585738296628,
      "loss": 1.654,
      "step": 31435
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4208872616291046,
      "learning_rate": 0.0004373492815709633,
      "loss": 1.6341,
      "step": 31436
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.8079098463058472,
      "learning_rate": 0.0004373399891455419,
      "loss": 1.6344,
      "step": 31437
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43716949224472046,
      "learning_rate": 0.0004373306965534101,
      "loss": 1.6725,
      "step": 31438
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4159832298755646,
      "learning_rate": 0.000437321403794579,
      "loss": 1.6911,
      "step": 31439
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40470969676971436,
      "learning_rate": 0.00043731211086905995,
      "loss": 1.5576,
      "step": 31440
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43112170696258545,
      "learning_rate": 0.00043730281777686433,
      "loss": 1.7156,
      "step": 31441
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4243844449520111,
      "learning_rate": 0.00043729352451800314,
      "loss": 1.5794,
      "step": 31442
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4056916832923889,
      "learning_rate": 0.000437284231092488,
      "loss": 1.6389,
      "step": 31443
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.39969301223754883,
      "learning_rate": 0.00043727493750033,
      "loss": 1.6476,
      "step": 31444
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41571560502052307,
      "learning_rate": 0.00043726564374154043,
      "loss": 1.6154,
      "step": 31445
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4064134657382965,
      "learning_rate": 0.0004372563498161306,
      "loss": 1.6697,
      "step": 31446
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4075046479701996,
      "learning_rate": 0.0004372470557241117,
      "loss": 1.6677,
      "step": 31447
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.408275842666626,
      "learning_rate": 0.00043723776146549525,
      "loss": 1.5989,
      "step": 31448
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4036712348461151,
      "learning_rate": 0.00043722846704029225,
      "loss": 1.6158,
      "step": 31449
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40893763303756714,
      "learning_rate": 0.00043721917244851416,
      "loss": 1.5813,
      "step": 31450
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3978828489780426,
      "learning_rate": 0.00043720987769017226,
      "loss": 1.6058,
      "step": 31451
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4145663380622864,
      "learning_rate": 0.00043720058276527766,
      "loss": 1.6054,
      "step": 31452
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40399158000946045,
      "learning_rate": 0.00043719128767384186,
      "loss": 1.5824,
      "step": 31453
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4090340733528137,
      "learning_rate": 0.0004371819924158761,
      "loss": 1.6798,
      "step": 31454
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4139710068702698,
      "learning_rate": 0.0004371726969913915,
      "loss": 1.6457,
      "step": 31455
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.411982923746109,
      "learning_rate": 0.00043716340140039953,
      "loss": 1.5926,
      "step": 31456
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4072638154029846,
      "learning_rate": 0.00043715410564291134,
      "loss": 1.6676,
      "step": 31457
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41321292519569397,
      "learning_rate": 0.00043714480971893837,
      "loss": 1.7143,
      "step": 31458
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4082658588886261,
      "learning_rate": 0.00043713551362849174,
      "loss": 1.6053,
      "step": 31459
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41277340054512024,
      "learning_rate": 0.00043712621737158284,
      "loss": 1.5787,
      "step": 31460
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42428383231163025,
      "learning_rate": 0.0004371169209482229,
      "loss": 1.5825,
      "step": 31461
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4230581521987915,
      "learning_rate": 0.0004371076243584232,
      "loss": 1.5548,
      "step": 31462
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41235026717185974,
      "learning_rate": 0.000437098327602195,
      "loss": 1.5705,
      "step": 31463
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43874943256378174,
      "learning_rate": 0.0004370890306795498,
      "loss": 1.6711,
      "step": 31464
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43070629239082336,
      "learning_rate": 0.0004370797335904985,
      "loss": 1.5456,
      "step": 31465
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41120749711990356,
      "learning_rate": 0.00043707043633505274,
      "loss": 1.6287,
      "step": 31466
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4151078164577484,
      "learning_rate": 0.00043706113891322357,
      "loss": 1.7131,
      "step": 31467
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41766878962516785,
      "learning_rate": 0.0004370518413250225,
      "loss": 1.7024,
      "step": 31468
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4054042398929596,
      "learning_rate": 0.0004370425435704606,
      "loss": 1.7125,
      "step": 31469
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4429338574409485,
      "learning_rate": 0.00043703324564954923,
      "loss": 1.6893,
      "step": 31470
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4008491039276123,
      "learning_rate": 0.0004370239475622998,
      "loss": 1.6362,
      "step": 31471
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4214452803134918,
      "learning_rate": 0.0004370146493087233,
      "loss": 1.6812,
      "step": 31472
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41342243552207947,
      "learning_rate": 0.0004370053508888314,
      "loss": 1.6322,
      "step": 31473
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41290587186813354,
      "learning_rate": 0.00043699605230263514,
      "loss": 1.6005,
      "step": 31474
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41792505979537964,
      "learning_rate": 0.00043698675355014583,
      "loss": 1.6096,
      "step": 31475
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4156091809272766,
      "learning_rate": 0.00043697745463137477,
      "loss": 1.6186,
      "step": 31476
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3983231782913208,
      "learning_rate": 0.0004369681555463333,
      "loss": 1.6117,
      "step": 31477
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42062491178512573,
      "learning_rate": 0.00043695885629503264,
      "loss": 1.6397,
      "step": 31478
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42213961482048035,
      "learning_rate": 0.00043694955687748413,
      "loss": 1.647,
      "step": 31479
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43232423067092896,
      "learning_rate": 0.000436940257293699,
      "loss": 1.6232,
      "step": 31480
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4325646460056305,
      "learning_rate": 0.00043693095754368863,
      "loss": 1.5782,
      "step": 31481
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4101068675518036,
      "learning_rate": 0.00043692165762746415,
      "loss": 1.6197,
      "step": 31482
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4415677487850189,
      "learning_rate": 0.00043691235754503706,
      "loss": 1.6576,
      "step": 31483
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4138239026069641,
      "learning_rate": 0.0004369030572964185,
      "loss": 1.6559,
      "step": 31484
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4193175733089447,
      "learning_rate": 0.0004368937568816198,
      "loss": 1.6197,
      "step": 31485
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42406660318374634,
      "learning_rate": 0.0004368844563006523,
      "loss": 1.5963,
      "step": 31486
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4325205683708191,
      "learning_rate": 0.0004368751555535272,
      "loss": 1.6268,
      "step": 31487
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4218580424785614,
      "learning_rate": 0.00043686585464025574,
      "loss": 1.694,
      "step": 31488
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41806474328041077,
      "learning_rate": 0.00043685655356084945,
      "loss": 1.6419,
      "step": 31489
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41578513383865356,
      "learning_rate": 0.0004368472523153193,
      "loss": 1.6635,
      "step": 31490
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4207357168197632,
      "learning_rate": 0.0004368379509036769,
      "loss": 1.6463,
      "step": 31491
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41744673252105713,
      "learning_rate": 0.0004368286493259333,
      "loss": 1.6545,
      "step": 31492
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4486854672431946,
      "learning_rate": 0.00043681934758209995,
      "loss": 1.6431,
      "step": 31493
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41987180709838867,
      "learning_rate": 0.000436810045672188,
      "loss": 1.6557,
      "step": 31494
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.39741775393486023,
      "learning_rate": 0.0004368007435962089,
      "loss": 1.648,
      "step": 31495
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4219526946544647,
      "learning_rate": 0.0004367914413541738,
      "loss": 1.6778,
      "step": 31496
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.48133835196495056,
      "learning_rate": 0.0004367821389460941,
      "loss": 1.6878,
      "step": 31497
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4417423605918884,
      "learning_rate": 0.000436772836371981,
      "loss": 1.5949,
      "step": 31498
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4173946976661682,
      "learning_rate": 0.0004367635336318457,
      "loss": 1.6846,
      "step": 31499
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4600571393966675,
      "learning_rate": 0.0004367542307256998,
      "loss": 1.5904,
      "step": 31500
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4301016926765442,
      "learning_rate": 0.0004367449276535544,
      "loss": 1.6242,
      "step": 31501
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4397682845592499,
      "learning_rate": 0.0004367356244154207,
      "loss": 1.6016,
      "step": 31502
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43383049964904785,
      "learning_rate": 0.0004367263210113102,
      "loss": 1.724,
      "step": 31503
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41073426604270935,
      "learning_rate": 0.000436717017441234,
      "loss": 1.6606,
      "step": 31504
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4431179463863373,
      "learning_rate": 0.00043670771370520354,
      "loss": 1.6397,
      "step": 31505
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4273073077201843,
      "learning_rate": 0.0004366984098032301,
      "loss": 1.653,
      "step": 31506
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41129428148269653,
      "learning_rate": 0.0004366891057353248,
      "loss": 1.6386,
      "step": 31507
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41074904799461365,
      "learning_rate": 0.0004366798015014992,
      "loss": 1.5933,
      "step": 31508
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42917999625205994,
      "learning_rate": 0.0004366704971017644,
      "loss": 1.5408,
      "step": 31509
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41893240809440613,
      "learning_rate": 0.0004366611925361318,
      "loss": 1.6655,
      "step": 31510
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40844011306762695,
      "learning_rate": 0.00043665188780461257,
      "loss": 1.6686,
      "step": 31511
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4113895893096924,
      "learning_rate": 0.00043664258290721815,
      "loss": 1.6598,
      "step": 31512
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41723617911338806,
      "learning_rate": 0.00043663327784395977,
      "loss": 1.6251,
      "step": 31513
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42109763622283936,
      "learning_rate": 0.00043662397261484866,
      "loss": 1.6268,
      "step": 31514
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4092869162559509,
      "learning_rate": 0.0004366146672198962,
      "loss": 1.7036,
      "step": 31515
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41655999422073364,
      "learning_rate": 0.00043660536165911375,
      "loss": 1.6549,
      "step": 31516
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4139186441898346,
      "learning_rate": 0.00043659605593251245,
      "loss": 1.6331,
      "step": 31517
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4135875999927521,
      "learning_rate": 0.00043658675004010363,
      "loss": 1.6614,
      "step": 31518
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41088154911994934,
      "learning_rate": 0.0004365774439818986,
      "loss": 1.7079,
      "step": 31519
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4132508933544159,
      "learning_rate": 0.00043656813775790873,
      "loss": 1.6413,
      "step": 31520
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40645307302474976,
      "learning_rate": 0.00043655883136814536,
      "loss": 1.6065,
      "step": 31521
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42110341787338257,
      "learning_rate": 0.00043654952481261947,
      "loss": 1.6896,
      "step": 31522
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4258119463920593,
      "learning_rate": 0.00043654021809134275,
      "loss": 1.6864,
      "step": 31523
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4203815460205078,
      "learning_rate": 0.0004365309112043263,
      "loss": 1.6388,
      "step": 31524
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4177241623401642,
      "learning_rate": 0.00043652160415158135,
      "loss": 1.5934,
      "step": 31525
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41131874918937683,
      "learning_rate": 0.00043651229693311943,
      "loss": 1.5924,
      "step": 31526
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42281413078308105,
      "learning_rate": 0.0004365029895489516,
      "loss": 1.6527,
      "step": 31527
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42569252848625183,
      "learning_rate": 0.0004364936819990893,
      "loss": 1.6382,
      "step": 31528
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.429877370595932,
      "learning_rate": 0.0004364843742835436,
      "loss": 1.7035,
      "step": 31529
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41457927227020264,
      "learning_rate": 0.00043647506640232626,
      "loss": 1.582,
      "step": 31530
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4327986538410187,
      "learning_rate": 0.00043646575835544813,
      "loss": 1.6874,
      "step": 31531
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41222789883613586,
      "learning_rate": 0.0004364564501429207,
      "loss": 1.7139,
      "step": 31532
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42212870717048645,
      "learning_rate": 0.0004364471417647553,
      "loss": 1.6167,
      "step": 31533
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42468878626823425,
      "learning_rate": 0.00043643783322096306,
      "loss": 1.6596,
      "step": 31534
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4241102933883667,
      "learning_rate": 0.0004364285245115555,
      "loss": 1.623,
      "step": 31535
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43264392018318176,
      "learning_rate": 0.0004364192156365438,
      "loss": 1.6213,
      "step": 31536
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4049658477306366,
      "learning_rate": 0.00043640990659593923,
      "loss": 1.6096,
      "step": 31537
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4154740273952484,
      "learning_rate": 0.0004364005973897531,
      "loss": 1.5866,
      "step": 31538
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.418921560049057,
      "learning_rate": 0.0004363912880179969,
      "loss": 1.6964,
      "step": 31539
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42245879769325256,
      "learning_rate": 0.0004363819784806817,
      "loss": 1.6819,
      "step": 31540
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42454302310943604,
      "learning_rate": 0.0004363726687778188,
      "loss": 1.6047,
      "step": 31541
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42411211133003235,
      "learning_rate": 0.0004363633589094196,
      "loss": 1.6155,
      "step": 31542
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42902931571006775,
      "learning_rate": 0.0004363540488754954,
      "loss": 1.6873,
      "step": 31543
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41344109177589417,
      "learning_rate": 0.0004363447386760574,
      "loss": 1.5716,
      "step": 31544
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42131319642066956,
      "learning_rate": 0.0004363354283111171,
      "loss": 1.6813,
      "step": 31545
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42647048830986023,
      "learning_rate": 0.00043632611778068566,
      "loss": 1.6844,
      "step": 31546
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41360124945640564,
      "learning_rate": 0.0004363168070847743,
      "loss": 1.6581,
      "step": 31547
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4090428352355957,
      "learning_rate": 0.00043630749622339455,
      "loss": 1.6273,
      "step": 31548
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4184092581272125,
      "learning_rate": 0.0004362981851965575,
      "loss": 1.6124,
      "step": 31549
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.45347845554351807,
      "learning_rate": 0.00043628887400427456,
      "loss": 1.6779,
      "step": 31550
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4148766100406647,
      "learning_rate": 0.00043627956264655703,
      "loss": 1.6651,
      "step": 31551
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4083508551120758,
      "learning_rate": 0.00043627025112341606,
      "loss": 1.6406,
      "step": 31552
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42067429423332214,
      "learning_rate": 0.00043626093943486323,
      "loss": 1.624,
      "step": 31553
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4067726135253906,
      "learning_rate": 0.00043625162758090957,
      "loss": 1.629,
      "step": 31554
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4315654933452606,
      "learning_rate": 0.0004362423155615667,
      "loss": 1.7001,
      "step": 31555
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43403780460357666,
      "learning_rate": 0.0004362330033768456,
      "loss": 1.6776,
      "step": 31556
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41538703441619873,
      "learning_rate": 0.0004362236910267577,
      "loss": 1.6615,
      "step": 31557
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4219509959220886,
      "learning_rate": 0.0004362143785113144,
      "loss": 1.621,
      "step": 31558
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.445366770029068,
      "learning_rate": 0.0004362050658305268,
      "loss": 1.6278,
      "step": 31559
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4166056215763092,
      "learning_rate": 0.0004361957529844064,
      "loss": 1.5893,
      "step": 31560
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4232940375804901,
      "learning_rate": 0.0004361864399729644,
      "loss": 1.6347,
      "step": 31561
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.46066412329673767,
      "learning_rate": 0.00043617712679621214,
      "loss": 1.6572,
      "step": 31562
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4086281955242157,
      "learning_rate": 0.0004361678134541609,
      "loss": 1.6347,
      "step": 31563
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4171140193939209,
      "learning_rate": 0.00043615849994682197,
      "loss": 1.7039,
      "step": 31564
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.442218154668808,
      "learning_rate": 0.0004361491862742068,
      "loss": 1.6557,
      "step": 31565
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4489147663116455,
      "learning_rate": 0.00043613987243632646,
      "loss": 1.697,
      "step": 31566
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42853280901908875,
      "learning_rate": 0.0004361305584331924,
      "loss": 1.6077,
      "step": 31567
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4145497679710388,
      "learning_rate": 0.0004361212442648159,
      "loss": 1.6143,
      "step": 31568
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4362599849700928,
      "learning_rate": 0.00043611192993120825,
      "loss": 1.6019,
      "step": 31569
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4549556076526642,
      "learning_rate": 0.0004361026154323808,
      "loss": 1.6486,
      "step": 31570
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43062394857406616,
      "learning_rate": 0.0004360933007683449,
      "loss": 1.6204,
      "step": 31571
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.45686715841293335,
      "learning_rate": 0.0004360839859391117,
      "loss": 1.6275,
      "step": 31572
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4395592510700226,
      "learning_rate": 0.00043607467094469254,
      "loss": 1.6936,
      "step": 31573
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4122406840324402,
      "learning_rate": 0.00043606535578509883,
      "loss": 1.6466,
      "step": 31574
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42140334844589233,
      "learning_rate": 0.0004360560404603418,
      "loss": 1.6083,
      "step": 31575
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42853593826293945,
      "learning_rate": 0.0004360467249704329,
      "loss": 1.6797,
      "step": 31576
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.419095516204834,
      "learning_rate": 0.0004360374093153832,
      "loss": 1.605,
      "step": 31577
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40546125173568726,
      "learning_rate": 0.0004360280934952042,
      "loss": 1.6578,
      "step": 31578
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40673574805259705,
      "learning_rate": 0.0004360187775099071,
      "loss": 1.6392,
      "step": 31579
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40653225779533386,
      "learning_rate": 0.00043600946135950323,
      "loss": 1.6273,
      "step": 31580
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4194396436214447,
      "learning_rate": 0.00043600014504400396,
      "loss": 1.5698,
      "step": 31581
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3976019620895386,
      "learning_rate": 0.0004359908285634205,
      "loss": 1.6611,
      "step": 31582
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41830867528915405,
      "learning_rate": 0.0004359815119177643,
      "loss": 1.6318,
      "step": 31583
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.46827933192253113,
      "learning_rate": 0.0004359721951070464,
      "loss": 1.6306,
      "step": 31584
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4056016802787781,
      "learning_rate": 0.0004359628781312785,
      "loss": 1.7469,
      "step": 31585
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4117148518562317,
      "learning_rate": 0.0004359535609904715,
      "loss": 1.6456,
      "step": 31586
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4325108528137207,
      "learning_rate": 0.0004359442436846371,
      "loss": 1.7217,
      "step": 31587
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42702555656433105,
      "learning_rate": 0.00043593492621378635,
      "loss": 1.5588,
      "step": 31588
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4026939868927002,
      "learning_rate": 0.00043592560857793055,
      "loss": 1.597,
      "step": 31589
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41350895166397095,
      "learning_rate": 0.00043591629077708124,
      "loss": 1.6582,
      "step": 31590
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4212765693664551,
      "learning_rate": 0.0004359069728112494,
      "loss": 1.683,
      "step": 31591
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42540431022644043,
      "learning_rate": 0.00043589765468044666,
      "loss": 1.6391,
      "step": 31592
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41413646936416626,
      "learning_rate": 0.00043588833638468416,
      "loss": 1.6436,
      "step": 31593
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41274788975715637,
      "learning_rate": 0.0004358790179239732,
      "loss": 1.5808,
      "step": 31594
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4128277897834778,
      "learning_rate": 0.0004358696992983252,
      "loss": 1.6521,
      "step": 31595
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4249640107154846,
      "learning_rate": 0.0004358603805077514,
      "loss": 1.6601,
      "step": 31596
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4080209732055664,
      "learning_rate": 0.000435851061552263,
      "loss": 1.6978,
      "step": 31597
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43454739451408386,
      "learning_rate": 0.00043584174243187153,
      "loss": 1.7432,
      "step": 31598
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42215582728385925,
      "learning_rate": 0.0004358324231465882,
      "loss": 1.6028,
      "step": 31599
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4186215400695801,
      "learning_rate": 0.0004358231036964243,
      "loss": 1.6495,
      "step": 31600
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4130443334579468,
      "learning_rate": 0.00043581378408139113,
      "loss": 1.6706,
      "step": 31601
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40699973702430725,
      "learning_rate": 0.0004358044643015001,
      "loss": 1.5862,
      "step": 31602
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4157576262950897,
      "learning_rate": 0.00043579514435676244,
      "loss": 1.6122,
      "step": 31603
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.410409152507782,
      "learning_rate": 0.00043578582424718944,
      "loss": 1.5877,
      "step": 31604
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4086627662181854,
      "learning_rate": 0.00043577650397279245,
      "loss": 1.6247,
      "step": 31605
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4451928436756134,
      "learning_rate": 0.0004357671835335829,
      "loss": 1.619,
      "step": 31606
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4307399094104767,
      "learning_rate": 0.0004357578629295719,
      "loss": 1.6318,
      "step": 31607
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4051029682159424,
      "learning_rate": 0.00043574854216077094,
      "loss": 1.6928,
      "step": 31608
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40732231736183167,
      "learning_rate": 0.0004357392212271911,
      "loss": 1.5627,
      "step": 31609
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4129974842071533,
      "learning_rate": 0.000435729900128844,
      "loss": 1.7343,
      "step": 31610
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42479607462882996,
      "learning_rate": 0.0004357205788657407,
      "loss": 1.6148,
      "step": 31611
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41234153509140015,
      "learning_rate": 0.0004357112574378927,
      "loss": 1.6345,
      "step": 31612
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4282422363758087,
      "learning_rate": 0.00043570193584531117,
      "loss": 1.6609,
      "step": 31613
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4160548448562622,
      "learning_rate": 0.00043569261408800744,
      "loss": 1.6207,
      "step": 31614
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40924859046936035,
      "learning_rate": 0.00043568329216599303,
      "loss": 1.6228,
      "step": 31615
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4131130874156952,
      "learning_rate": 0.0004356739700792789,
      "loss": 1.6404,
      "step": 31616
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41513556241989136,
      "learning_rate": 0.00043566464782787673,
      "loss": 1.6043,
      "step": 31617
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.405530720949173,
      "learning_rate": 0.00043565532541179757,
      "loss": 1.574,
      "step": 31618
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.44418439269065857,
      "learning_rate": 0.00043564600283105287,
      "loss": 1.6356,
      "step": 31619
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4148942828178406,
      "learning_rate": 0.0004356366800856539,
      "loss": 1.6755,
      "step": 31620
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.414991170167923,
      "learning_rate": 0.0004356273571756119,
      "loss": 1.6541,
      "step": 31621
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.39513203501701355,
      "learning_rate": 0.0004356180341009384,
      "loss": 1.5928,
      "step": 31622
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40486520528793335,
      "learning_rate": 0.00043560871086164454,
      "loss": 1.6309,
      "step": 31623
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4134754538536072,
      "learning_rate": 0.0004355993874577417,
      "loss": 1.6452,
      "step": 31624
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41976025700569153,
      "learning_rate": 0.0004355900638892411,
      "loss": 1.6538,
      "step": 31625
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4230695962905884,
      "learning_rate": 0.0004355807401561543,
      "loss": 1.6658,
      "step": 31626
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4073479473590851,
      "learning_rate": 0.00043557141625849235,
      "loss": 1.6201,
      "step": 31627
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41658928990364075,
      "learning_rate": 0.0004355620921962667,
      "loss": 1.6475,
      "step": 31628
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41063690185546875,
      "learning_rate": 0.00043555276796948864,
      "loss": 1.6304,
      "step": 31629
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4158313274383545,
      "learning_rate": 0.0004355434435781695,
      "loss": 1.6515,
      "step": 31630
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4132242202758789,
      "learning_rate": 0.0004355341190223206,
      "loss": 1.6727,
      "step": 31631
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42231467366218567,
      "learning_rate": 0.0004355247943019531,
      "loss": 1.5733,
      "step": 31632
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4208414554595947,
      "learning_rate": 0.00043551546941707876,
      "loss": 1.6611,
      "step": 31633
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4012252390384674,
      "learning_rate": 0.0004355061443677084,
      "loss": 1.6711,
      "step": 31634
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4134139120578766,
      "learning_rate": 0.00043549681915385364,
      "loss": 1.6196,
      "step": 31635
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4249069392681122,
      "learning_rate": 0.0004354874937755256,
      "loss": 1.6861,
      "step": 31636
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4251302480697632,
      "learning_rate": 0.00043547816823273573,
      "loss": 1.6571,
      "step": 31637
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40998348593711853,
      "learning_rate": 0.0004354688425254954,
      "loss": 1.6298,
      "step": 31638
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4140101671218872,
      "learning_rate": 0.0004354595166538158,
      "loss": 1.6547,
      "step": 31639
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4212087094783783,
      "learning_rate": 0.0004354501906177083,
      "loss": 1.5804,
      "step": 31640
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43807104229927063,
      "learning_rate": 0.00043544086441718425,
      "loss": 1.6906,
      "step": 31641
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.44406378269195557,
      "learning_rate": 0.000435431538052255,
      "loss": 1.6628,
      "step": 31642
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42029979825019836,
      "learning_rate": 0.0004354222115229318,
      "loss": 1.6672,
      "step": 31643
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40348631143569946,
      "learning_rate": 0.0004354128848292259,
      "loss": 1.6095,
      "step": 31644
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42212629318237305,
      "learning_rate": 0.0004354035579711488,
      "loss": 1.6886,
      "step": 31645
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40692397952079773,
      "learning_rate": 0.0004353942309487116,
      "loss": 1.5982,
      "step": 31646
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4245184361934662,
      "learning_rate": 0.0004353849037619259,
      "loss": 1.6505,
      "step": 31647
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.6413862705230713,
      "learning_rate": 0.0004353755764108028,
      "loss": 1.563,
      "step": 31648
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4287266433238983,
      "learning_rate": 0.00043536624889535373,
      "loss": 1.7132,
      "step": 31649
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42739051580429077,
      "learning_rate": 0.00043535692121559,
      "loss": 1.6226,
      "step": 31650
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42479634284973145,
      "learning_rate": 0.0004353475933715228,
      "loss": 1.5996,
      "step": 31651
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41929852962493896,
      "learning_rate": 0.00043533826536316375,
      "loss": 1.7426,
      "step": 31652
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41666167974472046,
      "learning_rate": 0.0004353289371905238,
      "loss": 1.6454,
      "step": 31653
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42049306631088257,
      "learning_rate": 0.0004353196088536146,
      "loss": 1.6626,
      "step": 31654
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4389294385910034,
      "learning_rate": 0.00043531028035244726,
      "loss": 1.6193,
      "step": 31655
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42138680815696716,
      "learning_rate": 0.00043530095168703317,
      "loss": 1.6336,
      "step": 31656
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4436545670032501,
      "learning_rate": 0.0004352916228573837,
      "loss": 1.6465,
      "step": 31657
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4296704828739166,
      "learning_rate": 0.00043528229386351013,
      "loss": 1.6448,
      "step": 31658
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41383689641952515,
      "learning_rate": 0.00043527296470542373,
      "loss": 1.6723,
      "step": 31659
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4189450740814209,
      "learning_rate": 0.000435263635383136,
      "loss": 1.6569,
      "step": 31660
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4380809962749481,
      "learning_rate": 0.00043525430589665804,
      "loss": 1.7131,
      "step": 31661
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.44107452034950256,
      "learning_rate": 0.00043524497624600124,
      "loss": 1.6566,
      "step": 31662
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41683483123779297,
      "learning_rate": 0.00043523564643117716,
      "loss": 1.6822,
      "step": 31663
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.422580748796463,
      "learning_rate": 0.0004352263164521967,
      "loss": 1.6906,
      "step": 31664
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43702638149261475,
      "learning_rate": 0.00043521698630907157,
      "loss": 1.659,
      "step": 31665
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.424915611743927,
      "learning_rate": 0.0004352076560018129,
      "loss": 1.5835,
      "step": 31666
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4201778471469879,
      "learning_rate": 0.00043519832553043207,
      "loss": 1.6089,
      "step": 31667
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4218579828739166,
      "learning_rate": 0.0004351889948949404,
      "loss": 1.6333,
      "step": 31668
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42851558327674866,
      "learning_rate": 0.0004351796640953491,
      "loss": 1.6557,
      "step": 31669
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4136286973953247,
      "learning_rate": 0.0004351703331316698,
      "loss": 1.627,
      "step": 31670
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4164372384548187,
      "learning_rate": 0.00043516100200391346,
      "loss": 1.622,
      "step": 31671
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40774524211883545,
      "learning_rate": 0.00043515167071209166,
      "loss": 1.5923,
      "step": 31672
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4112306237220764,
      "learning_rate": 0.0004351423392562157,
      "loss": 1.5868,
      "step": 31673
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4820355474948883,
      "learning_rate": 0.0004351330076362967,
      "loss": 1.619,
      "step": 31674
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4134429395198822,
      "learning_rate": 0.00043512367585234624,
      "loss": 1.6411,
      "step": 31675
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4223865270614624,
      "learning_rate": 0.00043511434390437547,
      "loss": 1.6556,
      "step": 31676
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41283825039863586,
      "learning_rate": 0.0004351050117923959,
      "loss": 1.6575,
      "step": 31677
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42761531472206116,
      "learning_rate": 0.0004350956795164187,
      "loss": 1.623,
      "step": 31678
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.6795513033866882,
      "learning_rate": 0.0004350863470764553,
      "loss": 1.6545,
      "step": 31679
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42338886857032776,
      "learning_rate": 0.0004350770144725169,
      "loss": 1.5891,
      "step": 31680
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42055368423461914,
      "learning_rate": 0.00043506768170461493,
      "loss": 1.6992,
      "step": 31681
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4096391499042511,
      "learning_rate": 0.0004350583487727608,
      "loss": 1.6677,
      "step": 31682
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4165506064891815,
      "learning_rate": 0.0004350490156769656,
      "loss": 1.6298,
      "step": 31683
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4001467227935791,
      "learning_rate": 0.00043503968241724085,
      "loss": 1.7144,
      "step": 31684
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41756609082221985,
      "learning_rate": 0.0004350303489935978,
      "loss": 1.6273,
      "step": 31685
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.417510449886322,
      "learning_rate": 0.0004350210154060478,
      "loss": 1.6826,
      "step": 31686
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4120780825614929,
      "learning_rate": 0.0004350116816546022,
      "loss": 1.5424,
      "step": 31687
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4164280295372009,
      "learning_rate": 0.00043500234773927236,
      "loss": 1.6115,
      "step": 31688
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42216649651527405,
      "learning_rate": 0.00043499301366006944,
      "loss": 1.6419,
      "step": 31689
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.41966956853866577,
      "learning_rate": 0.000434983679417005,
      "loss": 1.6071,
      "step": 31690
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4148826003074646,
      "learning_rate": 0.0004349743450100902,
      "loss": 1.6657,
      "step": 31691
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4449014961719513,
      "learning_rate": 0.00043496501043933645,
      "loss": 1.6963,
      "step": 31692
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4125531017780304,
      "learning_rate": 0.00043495567570475506,
      "loss": 1.6341,
      "step": 31693
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4165862202644348,
      "learning_rate": 0.00043494634080635733,
      "loss": 1.5526,
      "step": 31694
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42267748713493347,
      "learning_rate": 0.00043493700574415476,
      "loss": 1.672,
      "step": 31695
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4106598496437073,
      "learning_rate": 0.0004349276705181584,
      "loss": 1.7007,
      "step": 31696
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4188549220561981,
      "learning_rate": 0.0004349183351283798,
      "loss": 1.7217,
      "step": 31697
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43125733733177185,
      "learning_rate": 0.00043490899957483026,
      "loss": 1.6488,
      "step": 31698
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.45583170652389526,
      "learning_rate": 0.0004348996638575209,
      "loss": 1.6,
      "step": 31699
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.417091429233551,
      "learning_rate": 0.00043489032797646343,
      "loss": 1.6041,
      "step": 31700
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40936383605003357,
      "learning_rate": 0.0004348809919316688,
      "loss": 1.6202,
      "step": 31701
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.43211644887924194,
      "learning_rate": 0.00043487165572314866,
      "loss": 1.6455,
      "step": 31702
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42902061343193054,
      "learning_rate": 0.00043486231935091415,
      "loss": 1.6293,
      "step": 31703
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42656758427619934,
      "learning_rate": 0.00043485298281497665,
      "loss": 1.5819,
      "step": 31704
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40232396125793457,
      "learning_rate": 0.00043484364611534756,
      "loss": 1.6358,
      "step": 31705
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.40681150555610657,
      "learning_rate": 0.000434834309252038,
      "loss": 1.6206,
      "step": 31706
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.42890650033950806,
      "learning_rate": 0.00043482497222505957,
      "loss": 1.6554,
      "step": 31707
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4206419289112091,
      "learning_rate": 0.0004348156350344235,
      "loss": 1.6961,
      "step": 31708
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4206717312335968,
      "learning_rate": 0.0004348062976801411,
      "loss": 1.6771,
      "step": 31709
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4808651804924011,
      "learning_rate": 0.0004347969601622237,
      "loss": 1.6119,
      "step": 31710
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42046186327934265,
      "learning_rate": 0.0004347876224806826,
      "loss": 1.6524,
      "step": 31711
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4289611876010895,
      "learning_rate": 0.0004347782846355293,
      "loss": 1.6097,
      "step": 31712
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4435073137283325,
      "learning_rate": 0.00043476894662677494,
      "loss": 1.5732,
      "step": 31713
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4548337161540985,
      "learning_rate": 0.00043475960845443094,
      "loss": 1.7577,
      "step": 31714
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.44914355874061584,
      "learning_rate": 0.0004347502701185087,
      "loss": 1.606,
      "step": 31715
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42437630891799927,
      "learning_rate": 0.00043474093161901937,
      "loss": 1.672,
      "step": 31716
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42725619673728943,
      "learning_rate": 0.00043473159295597446,
      "loss": 1.6586,
      "step": 31717
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.415208637714386,
      "learning_rate": 0.0004347222541293853,
      "loss": 1.6071,
      "step": 31718
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4195045232772827,
      "learning_rate": 0.00043471291513926306,
      "loss": 1.6773,
      "step": 31719
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41357073187828064,
      "learning_rate": 0.00043470357598561927,
      "loss": 1.7028,
      "step": 31720
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41442763805389404,
      "learning_rate": 0.0004346942366684652,
      "loss": 1.6836,
      "step": 31721
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4249287545681,
      "learning_rate": 0.0004346848971878121,
      "loss": 1.6591,
      "step": 31722
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41101109981536865,
      "learning_rate": 0.00043467555754367153,
      "loss": 1.6918,
      "step": 31723
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4182824194431305,
      "learning_rate": 0.0004346662177360545,
      "loss": 1.6248,
      "step": 31724
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4123101532459259,
      "learning_rate": 0.0004346568777649726,
      "loss": 1.7445,
      "step": 31725
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43208932876586914,
      "learning_rate": 0.00043464753763043705,
      "loss": 1.6542,
      "step": 31726
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41637617349624634,
      "learning_rate": 0.00043463819733245934,
      "loss": 1.6685,
      "step": 31727
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4255411922931671,
      "learning_rate": 0.0004346288568710506,
      "loss": 1.6672,
      "step": 31728
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4246438145637512,
      "learning_rate": 0.0004346195162462223,
      "loss": 1.6709,
      "step": 31729
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41185346245765686,
      "learning_rate": 0.00043461017545798575,
      "loss": 1.6606,
      "step": 31730
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4274304211139679,
      "learning_rate": 0.0004346008345063522,
      "loss": 1.638,
      "step": 31731
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4132384657859802,
      "learning_rate": 0.0004345914933913332,
      "loss": 1.7023,
      "step": 31732
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4189816117286682,
      "learning_rate": 0.00043458215211293985,
      "loss": 1.6474,
      "step": 31733
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4142836630344391,
      "learning_rate": 0.00043457281067118365,
      "loss": 1.6324,
      "step": 31734
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40898245573043823,
      "learning_rate": 0.00043456346906607586,
      "loss": 1.6466,
      "step": 31735
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4141558110713959,
      "learning_rate": 0.0004345541272976278,
      "loss": 1.6031,
      "step": 31736
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4139033555984497,
      "learning_rate": 0.000434544785365851,
      "loss": 1.6933,
      "step": 31737
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4042985439300537,
      "learning_rate": 0.0004345354432707565,
      "loss": 1.6203,
      "step": 31738
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.419466495513916,
      "learning_rate": 0.00043452610101235594,
      "loss": 1.5944,
      "step": 31739
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41204625368118286,
      "learning_rate": 0.0004345167585906604,
      "loss": 1.6118,
      "step": 31740
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4130675792694092,
      "learning_rate": 0.00043450741600568134,
      "loss": 1.6648,
      "step": 31741
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4096046984195709,
      "learning_rate": 0.00043449807325743014,
      "loss": 1.6902,
      "step": 31742
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43319058418273926,
      "learning_rate": 0.0004344887303459181,
      "loss": 1.7072,
      "step": 31743
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4374258816242218,
      "learning_rate": 0.00043447938727115653,
      "loss": 1.6056,
      "step": 31744
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4031941592693329,
      "learning_rate": 0.00043447004403315685,
      "loss": 1.619,
      "step": 31745
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4009432792663574,
      "learning_rate": 0.0004344607006319303,
      "loss": 1.5885,
      "step": 31746
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4115646481513977,
      "learning_rate": 0.00043445135706748824,
      "loss": 1.6635,
      "step": 31747
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41865548491477966,
      "learning_rate": 0.00043444201333984214,
      "loss": 1.5931,
      "step": 31748
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4264277219772339,
      "learning_rate": 0.0004344326694490031,
      "loss": 1.6792,
      "step": 31749
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4171368479728699,
      "learning_rate": 0.0004344233253949828,
      "loss": 1.7191,
      "step": 31750
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41369500756263733,
      "learning_rate": 0.00043441398117779226,
      "loss": 1.6772,
      "step": 31751
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4249539077281952,
      "learning_rate": 0.00043440463679744295,
      "loss": 1.6812,
      "step": 31752
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41634610295295715,
      "learning_rate": 0.0004343952922539462,
      "loss": 1.6138,
      "step": 31753
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40981191396713257,
      "learning_rate": 0.0004343859475473135,
      "loss": 1.5581,
      "step": 31754
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42036181688308716,
      "learning_rate": 0.00043437660267755596,
      "loss": 1.6868,
      "step": 31755
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4031698405742645,
      "learning_rate": 0.000434367257644685,
      "loss": 1.6541,
      "step": 31756
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4191085994243622,
      "learning_rate": 0.00043435791244871203,
      "loss": 1.7291,
      "step": 31757
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40377262234687805,
      "learning_rate": 0.00043434856708964833,
      "loss": 1.632,
      "step": 31758
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41214054822921753,
      "learning_rate": 0.0004343392215675053,
      "loss": 1.6252,
      "step": 31759
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43363165855407715,
      "learning_rate": 0.0004343298758822942,
      "loss": 1.7272,
      "step": 31760
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.39159348607063293,
      "learning_rate": 0.0004343205300340264,
      "loss": 1.5961,
      "step": 31761
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4342065751552582,
      "learning_rate": 0.00043431118402271335,
      "loss": 1.645,
      "step": 31762
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41114601492881775,
      "learning_rate": 0.00043430183784836626,
      "loss": 1.6564,
      "step": 31763
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41413554549217224,
      "learning_rate": 0.0004342924915109966,
      "loss": 1.6169,
      "step": 31764
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4172022342681885,
      "learning_rate": 0.00043428314501061554,
      "loss": 1.6789,
      "step": 31765
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42015475034713745,
      "learning_rate": 0.0004342737983472346,
      "loss": 1.7429,
      "step": 31766
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4094874858856201,
      "learning_rate": 0.0004342644515208651,
      "loss": 1.6044,
      "step": 31767
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4106423556804657,
      "learning_rate": 0.0004342551045315182,
      "loss": 1.6735,
      "step": 31768
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40461334586143494,
      "learning_rate": 0.0004342457573792055,
      "loss": 1.7562,
      "step": 31769
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4214337468147278,
      "learning_rate": 0.00043423641006393816,
      "loss": 1.6174,
      "step": 31770
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40294262766838074,
      "learning_rate": 0.0004342270625857276,
      "loss": 1.5601,
      "step": 31771
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.411791056394577,
      "learning_rate": 0.00043421771494458523,
      "loss": 1.6743,
      "step": 31772
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4070218503475189,
      "learning_rate": 0.0004342083671405222,
      "loss": 1.5815,
      "step": 31773
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4261845648288727,
      "learning_rate": 0.0004341990191735502,
      "loss": 1.6513,
      "step": 31774
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41512778401374817,
      "learning_rate": 0.0004341896710436802,
      "loss": 1.686,
      "step": 31775
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4369683563709259,
      "learning_rate": 0.0004341803227509237,
      "loss": 1.6644,
      "step": 31776
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4190770983695984,
      "learning_rate": 0.00043417097429529207,
      "loss": 1.6357,
      "step": 31777
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43036702275276184,
      "learning_rate": 0.00043416162567679674,
      "loss": 1.6758,
      "step": 31778
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43106716871261597,
      "learning_rate": 0.0004341522768954489,
      "loss": 1.6061,
      "step": 31779
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41597625613212585,
      "learning_rate": 0.00043414292795125993,
      "loss": 1.6484,
      "step": 31780
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42362529039382935,
      "learning_rate": 0.00043413357884424127,
      "loss": 1.7146,
      "step": 31781
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4340008795261383,
      "learning_rate": 0.0004341242295744042,
      "loss": 1.6042,
      "step": 31782
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4172927439212799,
      "learning_rate": 0.0004341148801417601,
      "loss": 1.6118,
      "step": 31783
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42960312962532043,
      "learning_rate": 0.0004341055305463202,
      "loss": 1.6551,
      "step": 31784
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4168829619884491,
      "learning_rate": 0.00043409618078809605,
      "loss": 1.6108,
      "step": 31785
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42948630452156067,
      "learning_rate": 0.0004340868308670988,
      "loss": 1.6621,
      "step": 31786
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4180294871330261,
      "learning_rate": 0.00043407748078334006,
      "loss": 1.6121,
      "step": 31787
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4292255938053131,
      "learning_rate": 0.00043406813053683077,
      "loss": 1.6024,
      "step": 31788
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4096613824367523,
      "learning_rate": 0.00043405878012758273,
      "loss": 1.6638,
      "step": 31789
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4098151922225952,
      "learning_rate": 0.000434049429555607,
      "loss": 1.6593,
      "step": 31790
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4220947027206421,
      "learning_rate": 0.000434040078820915,
      "loss": 1.6365,
      "step": 31791
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41854602098464966,
      "learning_rate": 0.0004340307279235182,
      "loss": 1.7042,
      "step": 31792
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4101102948188782,
      "learning_rate": 0.00043402137686342766,
      "loss": 1.6421,
      "step": 31793
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4143703579902649,
      "learning_rate": 0.000434012025640655,
      "loss": 1.5974,
      "step": 31794
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4049628674983978,
      "learning_rate": 0.0004340026742552115,
      "loss": 1.6754,
      "step": 31795
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4211658537387848,
      "learning_rate": 0.0004339933227071085,
      "loss": 1.5986,
      "step": 31796
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4048006236553192,
      "learning_rate": 0.00043398397099635736,
      "loss": 1.5744,
      "step": 31797
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.39795196056365967,
      "learning_rate": 0.00043397461912296937,
      "loss": 1.6358,
      "step": 31798
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42736825346946716,
      "learning_rate": 0.00043396526708695604,
      "loss": 1.733,
      "step": 31799
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41106176376342773,
      "learning_rate": 0.00043395591488832854,
      "loss": 1.6155,
      "step": 31800
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4063279330730438,
      "learning_rate": 0.00043394656252709825,
      "loss": 1.6388,
      "step": 31801
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4074246883392334,
      "learning_rate": 0.00043393721000327667,
      "loss": 1.588,
      "step": 31802
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4102063775062561,
      "learning_rate": 0.000433927857316875,
      "loss": 1.6056,
      "step": 31803
    },
    {
      "epoch": 1.06,
      "grad_norm": 1.179009199142456,
      "learning_rate": 0.0004339185044679046,
      "loss": 1.7306,
      "step": 31804
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.3986438810825348,
      "learning_rate": 0.00043390915145637696,
      "loss": 1.6148,
      "step": 31805
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40973496437072754,
      "learning_rate": 0.00043389979828230334,
      "loss": 1.656,
      "step": 31806
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4103185534477234,
      "learning_rate": 0.000433890444945695,
      "loss": 1.5964,
      "step": 31807
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4175001084804535,
      "learning_rate": 0.0004338810914465635,
      "loss": 1.6994,
      "step": 31808
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4093776345252991,
      "learning_rate": 0.00043387173778491997,
      "loss": 1.7077,
      "step": 31809
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41785928606987,
      "learning_rate": 0.000433862383960776,
      "loss": 1.6011,
      "step": 31810
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41597485542297363,
      "learning_rate": 0.0004338530299741427,
      "loss": 1.6877,
      "step": 31811
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41327592730522156,
      "learning_rate": 0.00043384367582503157,
      "loss": 1.673,
      "step": 31812
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40978381037712097,
      "learning_rate": 0.00043383432151345396,
      "loss": 1.6051,
      "step": 31813
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41206178069114685,
      "learning_rate": 0.00043382496703942117,
      "loss": 1.6389,
      "step": 31814
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40487241744995117,
      "learning_rate": 0.00043381561240294475,
      "loss": 1.6306,
      "step": 31815
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4361746609210968,
      "learning_rate": 0.0004338062576040356,
      "loss": 1.6319,
      "step": 31816
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4355323314666748,
      "learning_rate": 0.00043379690264270566,
      "loss": 1.7197,
      "step": 31817
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40881893038749695,
      "learning_rate": 0.00043378754751896575,
      "loss": 1.6817,
      "step": 31818
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4229525327682495,
      "learning_rate": 0.00043377819223282764,
      "loss": 1.6926,
      "step": 31819
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40834522247314453,
      "learning_rate": 0.00043376883678430245,
      "loss": 1.6141,
      "step": 31820
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41298654675483704,
      "learning_rate": 0.0004337594811734016,
      "loss": 1.6159,
      "step": 31821
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41599154472351074,
      "learning_rate": 0.0004337501254001365,
      "loss": 1.5553,
      "step": 31822
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41827818751335144,
      "learning_rate": 0.00043374076946451837,
      "loss": 1.6368,
      "step": 31823
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41820308566093445,
      "learning_rate": 0.0004337314133665587,
      "loss": 1.7545,
      "step": 31824
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40621262788772583,
      "learning_rate": 0.0004337220571062688,
      "loss": 1.644,
      "step": 31825
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4125251770019531,
      "learning_rate": 0.00043371270068366007,
      "loss": 1.6019,
      "step": 31826
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43554869294166565,
      "learning_rate": 0.00043370334409874377,
      "loss": 1.6533,
      "step": 31827
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4132435917854309,
      "learning_rate": 0.0004336939873515313,
      "loss": 1.7049,
      "step": 31828
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4051301181316376,
      "learning_rate": 0.00043368463044203407,
      "loss": 1.6969,
      "step": 31829
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.409548819065094,
      "learning_rate": 0.00043367527337026334,
      "loss": 1.5841,
      "step": 31830
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40888431668281555,
      "learning_rate": 0.00043366591613623053,
      "loss": 1.6702,
      "step": 31831
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40256890654563904,
      "learning_rate": 0.00043365655873994703,
      "loss": 1.6867,
      "step": 31832
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.44219687581062317,
      "learning_rate": 0.0004336472011814241,
      "loss": 1.6515,
      "step": 31833
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4242483973503113,
      "learning_rate": 0.0004336378434606733,
      "loss": 1.6282,
      "step": 31834
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4090951383113861,
      "learning_rate": 0.00043362848557770573,
      "loss": 1.6297,
      "step": 31835
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42038264870643616,
      "learning_rate": 0.0004336191275325328,
      "loss": 1.5908,
      "step": 31836
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4094848930835724,
      "learning_rate": 0.00043360976932516613,
      "loss": 1.5878,
      "step": 31837
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4328315556049347,
      "learning_rate": 0.0004336004109556168,
      "loss": 1.6604,
      "step": 31838
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43331703543663025,
      "learning_rate": 0.00043359105242389627,
      "loss": 1.6846,
      "step": 31839
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42562463879585266,
      "learning_rate": 0.00043358169373001586,
      "loss": 1.6524,
      "step": 31840
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4266930818557739,
      "learning_rate": 0.0004335723348739869,
      "loss": 1.7173,
      "step": 31841
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41674336791038513,
      "learning_rate": 0.00043356297585582087,
      "loss": 1.6882,
      "step": 31842
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4153064489364624,
      "learning_rate": 0.00043355361667552904,
      "loss": 1.709,
      "step": 31843
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41892871260643005,
      "learning_rate": 0.00043354425733312286,
      "loss": 1.6603,
      "step": 31844
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43769875168800354,
      "learning_rate": 0.0004335348978286136,
      "loss": 1.6781,
      "step": 31845
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4332835376262665,
      "learning_rate": 0.00043352553816201265,
      "loss": 1.7222,
      "step": 31846
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4173751175403595,
      "learning_rate": 0.00043351617833333134,
      "loss": 1.5913,
      "step": 31847
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42026254534721375,
      "learning_rate": 0.000433506818342581,
      "loss": 1.5867,
      "step": 31848
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4227018356323242,
      "learning_rate": 0.0004334974581897732,
      "loss": 1.675,
      "step": 31849
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4279000163078308,
      "learning_rate": 0.00043348809787491905,
      "loss": 1.6786,
      "step": 31850
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4172482490539551,
      "learning_rate": 0.00043347873739803006,
      "loss": 1.6195,
      "step": 31851
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4233395755290985,
      "learning_rate": 0.0004334693767591175,
      "loss": 1.6274,
      "step": 31852
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4162987172603607,
      "learning_rate": 0.00043346001595819287,
      "loss": 1.7228,
      "step": 31853
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41852909326553345,
      "learning_rate": 0.0004334506549952675,
      "loss": 1.7051,
      "step": 31854
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40736690163612366,
      "learning_rate": 0.0004334412938703525,
      "loss": 1.6238,
      "step": 31855
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43474429845809937,
      "learning_rate": 0.0004334319325834596,
      "loss": 1.7312,
      "step": 31856
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4493364691734314,
      "learning_rate": 0.0004334225711345999,
      "loss": 1.6655,
      "step": 31857
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41794389486312866,
      "learning_rate": 0.0004334132095237849,
      "loss": 1.6227,
      "step": 31858
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43456941843032837,
      "learning_rate": 0.00043340384775102586,
      "loss": 1.6644,
      "step": 31859
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4183404743671417,
      "learning_rate": 0.00043339448581633424,
      "loss": 1.6394,
      "step": 31860
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4310952425003052,
      "learning_rate": 0.0004333851237197214,
      "loss": 1.6799,
      "step": 31861
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4316948354244232,
      "learning_rate": 0.0004333757614611987,
      "loss": 1.577,
      "step": 31862
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4495154619216919,
      "learning_rate": 0.0004333663990407774,
      "loss": 1.6825,
      "step": 31863
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4327867925167084,
      "learning_rate": 0.00043335703645846894,
      "loss": 1.6128,
      "step": 31864
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4161423146724701,
      "learning_rate": 0.0004333476737142847,
      "loss": 1.7088,
      "step": 31865
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41076889634132385,
      "learning_rate": 0.00043333831080823604,
      "loss": 1.6442,
      "step": 31866
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.438227117061615,
      "learning_rate": 0.0004333289477403344,
      "loss": 1.6216,
      "step": 31867
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4528299868106842,
      "learning_rate": 0.000433319584510591,
      "loss": 1.6868,
      "step": 31868
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4346737563610077,
      "learning_rate": 0.00043331022111901726,
      "loss": 1.7201,
      "step": 31869
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42622730135917664,
      "learning_rate": 0.00043330085756562454,
      "loss": 1.6335,
      "step": 31870
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41581156849861145,
      "learning_rate": 0.0004332914938504242,
      "loss": 1.7159,
      "step": 31871
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42387866973876953,
      "learning_rate": 0.0004332821299734277,
      "loss": 1.6562,
      "step": 31872
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41222599148750305,
      "learning_rate": 0.0004332727659346463,
      "loss": 1.5572,
      "step": 31873
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4427764117717743,
      "learning_rate": 0.00043326340173409133,
      "loss": 1.6919,
      "step": 31874
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42514413595199585,
      "learning_rate": 0.0004332540373717743,
      "loss": 1.6272,
      "step": 31875
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4163822829723358,
      "learning_rate": 0.0004332446728477065,
      "loss": 1.6788,
      "step": 31876
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43950822949409485,
      "learning_rate": 0.0004332353081618993,
      "loss": 1.6625,
      "step": 31877
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42062124609947205,
      "learning_rate": 0.000433225943314364,
      "loss": 1.6076,
      "step": 31878
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40879732370376587,
      "learning_rate": 0.0004332165783051121,
      "loss": 1.6253,
      "step": 31879
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41802549362182617,
      "learning_rate": 0.00043320721313415487,
      "loss": 1.7554,
      "step": 31880
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41372156143188477,
      "learning_rate": 0.00043319784780150377,
      "loss": 1.6515,
      "step": 31881
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4157332479953766,
      "learning_rate": 0.00043318848230717005,
      "loss": 1.6095,
      "step": 31882
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4049658179283142,
      "learning_rate": 0.0004331791166511652,
      "loss": 1.5752,
      "step": 31883
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4354890286922455,
      "learning_rate": 0.00043316975083350053,
      "loss": 1.662,
      "step": 31884
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40321290493011475,
      "learning_rate": 0.0004331603848541873,
      "loss": 1.6444,
      "step": 31885
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4042871594429016,
      "learning_rate": 0.00043315101871323707,
      "loss": 1.5844,
      "step": 31886
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42752596735954285,
      "learning_rate": 0.00043314165241066104,
      "loss": 1.6594,
      "step": 31887
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43199029564857483,
      "learning_rate": 0.00043313228594647074,
      "loss": 1.6675,
      "step": 31888
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41686856746673584,
      "learning_rate": 0.0004331229193206774,
      "loss": 1.6094,
      "step": 31889
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41822096705436707,
      "learning_rate": 0.0004331135525332925,
      "loss": 1.6242,
      "step": 31890
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43515753746032715,
      "learning_rate": 0.00043310418558432733,
      "loss": 1.6498,
      "step": 31891
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43331125378608704,
      "learning_rate": 0.0004330948184737933,
      "loss": 1.7237,
      "step": 31892
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40712815523147583,
      "learning_rate": 0.00043308545120170186,
      "loss": 1.639,
      "step": 31893
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41572147607803345,
      "learning_rate": 0.00043307608376806417,
      "loss": 1.6473,
      "step": 31894
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4438384175300598,
      "learning_rate": 0.00043306671617289173,
      "loss": 1.6866,
      "step": 31895
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.44037845730781555,
      "learning_rate": 0.00043305734841619594,
      "loss": 1.7616,
      "step": 31896
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42168426513671875,
      "learning_rate": 0.00043304798049798813,
      "loss": 1.6552,
      "step": 31897
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42973658442497253,
      "learning_rate": 0.0004330386124182796,
      "loss": 1.6495,
      "step": 31898
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4216098189353943,
      "learning_rate": 0.00043302924417708196,
      "loss": 1.6478,
      "step": 31899
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4061512053012848,
      "learning_rate": 0.0004330198757744064,
      "loss": 1.6154,
      "step": 31900
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4392947554588318,
      "learning_rate": 0.00043301050721026413,
      "loss": 1.7264,
      "step": 31901
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4131753444671631,
      "learning_rate": 0.0004330011384846669,
      "loss": 1.6952,
      "step": 31902
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4319506883621216,
      "learning_rate": 0.00043299176959762573,
      "loss": 1.691,
      "step": 31903
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4225403666496277,
      "learning_rate": 0.0004329824005491522,
      "loss": 1.6539,
      "step": 31904
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41991326212882996,
      "learning_rate": 0.00043297303133925765,
      "loss": 1.6502,
      "step": 31905
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41057702898979187,
      "learning_rate": 0.00043296366196795346,
      "loss": 1.6469,
      "step": 31906
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4156409800052643,
      "learning_rate": 0.00043295429243525097,
      "loss": 1.6145,
      "step": 31907
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43625545501708984,
      "learning_rate": 0.00043294492274116147,
      "loss": 1.6928,
      "step": 31908
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4175984263420105,
      "learning_rate": 0.00043293555288569655,
      "loss": 1.718,
      "step": 31909
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41782456636428833,
      "learning_rate": 0.00043292618286886733,
      "loss": 1.6964,
      "step": 31910
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4263957142829895,
      "learning_rate": 0.00043291681269068546,
      "loss": 1.771,
      "step": 31911
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40662747621536255,
      "learning_rate": 0.000432907442351162,
      "loss": 1.6807,
      "step": 31912
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4399016499519348,
      "learning_rate": 0.0004328980718503086,
      "loss": 1.6374,
      "step": 31913
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4161279499530792,
      "learning_rate": 0.00043288870118813645,
      "loss": 1.6289,
      "step": 31914
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4177432358264923,
      "learning_rate": 0.000432879330364657,
      "loss": 1.6432,
      "step": 31915
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4149019122123718,
      "learning_rate": 0.0004328699593798817,
      "loss": 1.6271,
      "step": 31916
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43710702657699585,
      "learning_rate": 0.00043286058823382176,
      "loss": 1.7455,
      "step": 31917
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4118978679180145,
      "learning_rate": 0.0004328512169264887,
      "loss": 1.6541,
      "step": 31918
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4201279878616333,
      "learning_rate": 0.0004328418454578938,
      "loss": 1.6911,
      "step": 31919
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41876861453056335,
      "learning_rate": 0.0004328324738280485,
      "loss": 1.625,
      "step": 31920
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40639713406562805,
      "learning_rate": 0.00043282310203696415,
      "loss": 1.6566,
      "step": 31921
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42574432492256165,
      "learning_rate": 0.0004328137300846521,
      "loss": 1.682,
      "step": 31922
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.39583972096443176,
      "learning_rate": 0.00043280435797112384,
      "loss": 1.6316,
      "step": 31923
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41332584619522095,
      "learning_rate": 0.0004327949856963905,
      "loss": 1.5921,
      "step": 31924
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42255935072898865,
      "learning_rate": 0.0004327856132604637,
      "loss": 1.6421,
      "step": 31925
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41246140003204346,
      "learning_rate": 0.00043277624066335476,
      "loss": 1.7326,
      "step": 31926
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42247274518013,
      "learning_rate": 0.000432766867905075,
      "loss": 1.6043,
      "step": 31927
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41673341393470764,
      "learning_rate": 0.0004327574949856358,
      "loss": 1.6451,
      "step": 31928
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40300214290618896,
      "learning_rate": 0.00043274812190504866,
      "loss": 1.5381,
      "step": 31929
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41079774498939514,
      "learning_rate": 0.0004327387486633247,
      "loss": 1.6624,
      "step": 31930
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4312445819377899,
      "learning_rate": 0.00043272937526047555,
      "loss": 1.7036,
      "step": 31931
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41498538851737976,
      "learning_rate": 0.00043272000169651255,
      "loss": 1.6193,
      "step": 31932
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.425980806350708,
      "learning_rate": 0.00043271062797144687,
      "loss": 1.6699,
      "step": 31933
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43183547258377075,
      "learning_rate": 0.00043270125408529015,
      "loss": 1.6864,
      "step": 31934
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41700682044029236,
      "learning_rate": 0.0004326918800380536,
      "loss": 1.6013,
      "step": 31935
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4204931855201721,
      "learning_rate": 0.0004326825058297488,
      "loss": 1.6023,
      "step": 31936
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43065595626831055,
      "learning_rate": 0.0004326731314603868,
      "loss": 1.6169,
      "step": 31937
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42321258783340454,
      "learning_rate": 0.00043266375692997927,
      "loss": 1.6287,
      "step": 31938
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42558053135871887,
      "learning_rate": 0.0004326543822385375,
      "loss": 1.6522,
      "step": 31939
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40869390964508057,
      "learning_rate": 0.0004326450073860727,
      "loss": 1.6215,
      "step": 31940
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4115220308303833,
      "learning_rate": 0.0004326356323725967,
      "loss": 1.6384,
      "step": 31941
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.5520982146263123,
      "learning_rate": 0.0004326262571981203,
      "loss": 1.6883,
      "step": 31942
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41217151284217834,
      "learning_rate": 0.0004326168818626553,
      "loss": 1.6166,
      "step": 31943
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4174683392047882,
      "learning_rate": 0.0004326075063662129,
      "loss": 1.6868,
      "step": 31944
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4076288640499115,
      "learning_rate": 0.0004325981307088046,
      "loss": 1.6914,
      "step": 31945
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4128095507621765,
      "learning_rate": 0.0004325887548904417,
      "loss": 1.6061,
      "step": 31946
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4156898856163025,
      "learning_rate": 0.00043257937891113553,
      "loss": 1.6674,
      "step": 31947
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4392184019088745,
      "learning_rate": 0.0004325700027708975,
      "loss": 1.652,
      "step": 31948
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4173336625099182,
      "learning_rate": 0.00043256062646973906,
      "loss": 1.6418,
      "step": 31949
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43316012620925903,
      "learning_rate": 0.0004325512500076716,
      "loss": 1.6379,
      "step": 31950
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43158867955207825,
      "learning_rate": 0.0004325418733847063,
      "loss": 1.645,
      "step": 31951
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4294004738330841,
      "learning_rate": 0.00043253249660085496,
      "loss": 1.6354,
      "step": 31952
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.3974241018295288,
      "learning_rate": 0.00043252311965612835,
      "loss": 1.5438,
      "step": 31953
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41627123951911926,
      "learning_rate": 0.0004325137425505385,
      "loss": 1.6625,
      "step": 31954
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42220601439476013,
      "learning_rate": 0.0004325043652840964,
      "loss": 1.6785,
      "step": 31955
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4125639498233795,
      "learning_rate": 0.00043249498785681345,
      "loss": 1.677,
      "step": 31956
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4217793345451355,
      "learning_rate": 0.0004324856102687012,
      "loss": 1.6884,
      "step": 31957
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4356380105018616,
      "learning_rate": 0.0004324762325197709,
      "loss": 1.6497,
      "step": 31958
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42581549286842346,
      "learning_rate": 0.000432466854610034,
      "loss": 1.636,
      "step": 31959
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40702298283576965,
      "learning_rate": 0.00043245747653950173,
      "loss": 1.6345,
      "step": 31960
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4146466851234436,
      "learning_rate": 0.0004324480983081858,
      "loss": 1.6725,
      "step": 31961
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.8920592069625854,
      "learning_rate": 0.00043243871991609727,
      "loss": 1.6656,
      "step": 31962
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4313456118106842,
      "learning_rate": 0.00043242934136324764,
      "loss": 1.6959,
      "step": 31963
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4171891212463379,
      "learning_rate": 0.00043241996264964844,
      "loss": 1.6742,
      "step": 31964
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4183535575866699,
      "learning_rate": 0.00043241058377531074,
      "loss": 1.6323,
      "step": 31965
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4146721363067627,
      "learning_rate": 0.0004324012047402462,
      "loss": 1.6425,
      "step": 31966
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4178657531738281,
      "learning_rate": 0.0004323918255444661,
      "loss": 1.6461,
      "step": 31967
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4111940860748291,
      "learning_rate": 0.0004323824461879817,
      "loss": 1.6307,
      "step": 31968
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4245380759239197,
      "learning_rate": 0.0004323730666708047,
      "loss": 1.6878,
      "step": 31969
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41410452127456665,
      "learning_rate": 0.0004323636869929462,
      "loss": 1.6607,
      "step": 31970
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4067631661891937,
      "learning_rate": 0.00043235430715441776,
      "loss": 1.6772,
      "step": 31971
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41304561495780945,
      "learning_rate": 0.00043234492715523066,
      "loss": 1.6723,
      "step": 31972
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4107072055339813,
      "learning_rate": 0.00043233554699539624,
      "loss": 1.6018,
      "step": 31973
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43981605768203735,
      "learning_rate": 0.00043232616667492605,
      "loss": 1.6693,
      "step": 31974
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4294975697994232,
      "learning_rate": 0.00043231678619383136,
      "loss": 1.7526,
      "step": 31975
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4210043251514435,
      "learning_rate": 0.00043230740555212356,
      "loss": 1.5781,
      "step": 31976
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4301684498786926,
      "learning_rate": 0.0004322980247498142,
      "loss": 1.6608,
      "step": 31977
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.44700366258621216,
      "learning_rate": 0.0004322886437869144,
      "loss": 1.6972,
      "step": 31978
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43810099363327026,
      "learning_rate": 0.0004322792626634357,
      "loss": 1.6949,
      "step": 31979
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.425629585981369,
      "learning_rate": 0.00043226988137938944,
      "loss": 1.5775,
      "step": 31980
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4111628830432892,
      "learning_rate": 0.0004322604999347871,
      "loss": 1.6116,
      "step": 31981
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.40723204612731934,
      "learning_rate": 0.00043225111832963996,
      "loss": 1.5968,
      "step": 31982
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43134236335754395,
      "learning_rate": 0.0004322417365639595,
      "loss": 1.6225,
      "step": 31983
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4327682852745056,
      "learning_rate": 0.00043223235463775705,
      "loss": 1.6537,
      "step": 31984
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4110371172428131,
      "learning_rate": 0.0004322229725510439,
      "loss": 1.641,
      "step": 31985
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.422977477312088,
      "learning_rate": 0.0004322135903038316,
      "loss": 1.6517,
      "step": 31986
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.409878134727478,
      "learning_rate": 0.0004322042078961315,
      "loss": 1.5904,
      "step": 31987
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4330732226371765,
      "learning_rate": 0.000432194825327955,
      "loss": 1.6183,
      "step": 31988
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42851051688194275,
      "learning_rate": 0.00043218544259931345,
      "loss": 1.7155,
      "step": 31989
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41013580560684204,
      "learning_rate": 0.00043217605971021815,
      "loss": 1.638,
      "step": 31990
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42481857538223267,
      "learning_rate": 0.0004321666766606807,
      "loss": 1.6699,
      "step": 31991
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4042002558708191,
      "learning_rate": 0.00043215729345071237,
      "loss": 1.6337,
      "step": 31992
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4246794879436493,
      "learning_rate": 0.00043214791008032454,
      "loss": 1.6509,
      "step": 31993
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41019904613494873,
      "learning_rate": 0.00043213852654952863,
      "loss": 1.6643,
      "step": 31994
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41841331124305725,
      "learning_rate": 0.00043212914285833596,
      "loss": 1.7585,
      "step": 31995
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41911542415618896,
      "learning_rate": 0.000432119759006758,
      "loss": 1.6027,
      "step": 31996
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42118144035339355,
      "learning_rate": 0.00043211037499480613,
      "loss": 1.6796,
      "step": 31997
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.406464159488678,
      "learning_rate": 0.0004321009908224918,
      "loss": 1.5747,
      "step": 31998
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4404222369194031,
      "learning_rate": 0.00043209160648982625,
      "loss": 1.7215,
      "step": 31999
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41193750500679016,
      "learning_rate": 0.00043208222199682097,
      "loss": 1.6966,
      "step": 32000
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41134923696517944,
      "learning_rate": 0.0004320728373434874,
      "loss": 1.5944,
      "step": 32001
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.426812082529068,
      "learning_rate": 0.0004320634525298367,
      "loss": 1.5517,
      "step": 32002
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4298141896724701,
      "learning_rate": 0.0004320540675558806,
      "loss": 1.6499,
      "step": 32003
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41716116666793823,
      "learning_rate": 0.00043204468242163024,
      "loss": 1.7081,
      "step": 32004
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4212704598903656,
      "learning_rate": 0.0004320352971270971,
      "loss": 1.653,
      "step": 32005
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43902701139450073,
      "learning_rate": 0.0004320259116722925,
      "loss": 1.6453,
      "step": 32006
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.41444215178489685,
      "learning_rate": 0.00043201652605722796,
      "loss": 1.6046,
      "step": 32007
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.43303051590919495,
      "learning_rate": 0.0004320071402819148,
      "loss": 1.6778,
      "step": 32008
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4295470714569092,
      "learning_rate": 0.0004319977543463645,
      "loss": 1.6628,
      "step": 32009
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4244751036167145,
      "learning_rate": 0.0004319883682505883,
      "loss": 1.5931,
      "step": 32010
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4172140657901764,
      "learning_rate": 0.00043197898199459763,
      "loss": 1.608,
      "step": 32011
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44459396600723267,
      "learning_rate": 0.000431969595578404,
      "loss": 1.7151,
      "step": 32012
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41049790382385254,
      "learning_rate": 0.00043196020900201866,
      "loss": 1.6632,
      "step": 32013
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4496926963329315,
      "learning_rate": 0.00043195082226545316,
      "loss": 1.6154,
      "step": 32014
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42130234837532043,
      "learning_rate": 0.00043194143536871865,
      "loss": 1.6806,
      "step": 32015
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4315074384212494,
      "learning_rate": 0.0004319320483118268,
      "loss": 1.6588,
      "step": 32016
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4262906610965729,
      "learning_rate": 0.0004319226610947889,
      "loss": 1.652,
      "step": 32017
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4137764573097229,
      "learning_rate": 0.0004319132737176163,
      "loss": 1.6238,
      "step": 32018
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43874192237854004,
      "learning_rate": 0.00043190388618032045,
      "loss": 1.5597,
      "step": 32019
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4225674569606781,
      "learning_rate": 0.0004318944984829126,
      "loss": 1.6887,
      "step": 32020
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3965577185153961,
      "learning_rate": 0.00043188511062540436,
      "loss": 1.698,
      "step": 32021
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4116493761539459,
      "learning_rate": 0.0004318757226078069,
      "loss": 1.6437,
      "step": 32022
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4163826107978821,
      "learning_rate": 0.0004318663344301319,
      "loss": 1.6798,
      "step": 32023
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40157753229141235,
      "learning_rate": 0.00043185694609239057,
      "loss": 1.5822,
      "step": 32024
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4258393347263336,
      "learning_rate": 0.0004318475575945943,
      "loss": 1.6158,
      "step": 32025
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40958502888679504,
      "learning_rate": 0.0004318381689367546,
      "loss": 1.6399,
      "step": 32026
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41507697105407715,
      "learning_rate": 0.0004318287801188826,
      "loss": 1.6148,
      "step": 32027
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4109024405479431,
      "learning_rate": 0.0004318193911409901,
      "loss": 1.6319,
      "step": 32028
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.405521422624588,
      "learning_rate": 0.0004318100020030882,
      "loss": 1.6204,
      "step": 32029
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42294883728027344,
      "learning_rate": 0.0004318006127051884,
      "loss": 1.6655,
      "step": 32030
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4105857014656067,
      "learning_rate": 0.00043179122324730205,
      "loss": 1.6469,
      "step": 32031
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4183487296104431,
      "learning_rate": 0.00043178183362944055,
      "loss": 1.6967,
      "step": 32032
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4200327694416046,
      "learning_rate": 0.0004317724438516153,
      "loss": 1.6607,
      "step": 32033
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41059237718582153,
      "learning_rate": 0.0004317630539138378,
      "loss": 1.6916,
      "step": 32034
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42238569259643555,
      "learning_rate": 0.0004317536638161193,
      "loss": 1.6229,
      "step": 32035
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41748520731925964,
      "learning_rate": 0.00043174427355847125,
      "loss": 1.6929,
      "step": 32036
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4244597554206848,
      "learning_rate": 0.00043173488314090516,
      "loss": 1.6666,
      "step": 32037
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4074842035770416,
      "learning_rate": 0.00043172549256343225,
      "loss": 1.6458,
      "step": 32038
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40897029638290405,
      "learning_rate": 0.0004317161018260641,
      "loss": 1.6856,
      "step": 32039
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43187564611434937,
      "learning_rate": 0.00043170671092881193,
      "loss": 1.7059,
      "step": 32040
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4267597198486328,
      "learning_rate": 0.00043169731987168717,
      "loss": 1.6767,
      "step": 32041
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40231654047966003,
      "learning_rate": 0.0004316879286547013,
      "loss": 1.6956,
      "step": 32042
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4169614613056183,
      "learning_rate": 0.0004316785372778657,
      "loss": 1.6263,
      "step": 32043
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40967997908592224,
      "learning_rate": 0.0004316691457411918,
      "loss": 1.6145,
      "step": 32044
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4269137680530548,
      "learning_rate": 0.0004316597540446909,
      "loss": 1.7172,
      "step": 32045
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40676718950271606,
      "learning_rate": 0.00043165036218837456,
      "loss": 1.5768,
      "step": 32046
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44836851954460144,
      "learning_rate": 0.000431640970172254,
      "loss": 1.6852,
      "step": 32047
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4153764843940735,
      "learning_rate": 0.00043163157799634065,
      "loss": 1.5957,
      "step": 32048
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40473949909210205,
      "learning_rate": 0.00043162218566064603,
      "loss": 1.5922,
      "step": 32049
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42191562056541443,
      "learning_rate": 0.00043161279316518143,
      "loss": 1.6517,
      "step": 32050
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41253384947776794,
      "learning_rate": 0.00043160340050995834,
      "loss": 1.6417,
      "step": 32051
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41616129875183105,
      "learning_rate": 0.0004315940076949881,
      "loss": 1.6421,
      "step": 32052
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4351157248020172,
      "learning_rate": 0.0004315846147202821,
      "loss": 1.6557,
      "step": 32053
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.421077162027359,
      "learning_rate": 0.0004315752215858518,
      "loss": 1.6775,
      "step": 32054
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41856569051742554,
      "learning_rate": 0.00043156582829170846,
      "loss": 1.6521,
      "step": 32055
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43256819248199463,
      "learning_rate": 0.00043155643483786373,
      "loss": 1.6638,
      "step": 32056
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3988523781299591,
      "learning_rate": 0.0004315470412243288,
      "loss": 1.6782,
      "step": 32057
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41906219720840454,
      "learning_rate": 0.00043153764745111514,
      "loss": 1.6411,
      "step": 32058
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4131811559200287,
      "learning_rate": 0.0004315282535182342,
      "loss": 1.6851,
      "step": 32059
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43887194991111755,
      "learning_rate": 0.0004315188594256973,
      "loss": 1.6562,
      "step": 32060
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4113723933696747,
      "learning_rate": 0.0004315094651735159,
      "loss": 1.584,
      "step": 32061
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42354831099510193,
      "learning_rate": 0.0004315000707617014,
      "loss": 1.6203,
      "step": 32062
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40928560495376587,
      "learning_rate": 0.0004314906761902651,
      "loss": 1.7131,
      "step": 32063
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4191311299800873,
      "learning_rate": 0.00043148128145921867,
      "loss": 1.7165,
      "step": 32064
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4229651689529419,
      "learning_rate": 0.0004314718865685732,
      "loss": 1.6102,
      "step": 32065
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42869728803634644,
      "learning_rate": 0.00043146249151834027,
      "loss": 1.6249,
      "step": 32066
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40732160210609436,
      "learning_rate": 0.00043145309630853124,
      "loss": 1.651,
      "step": 32067
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4137630760669708,
      "learning_rate": 0.00043144370093915757,
      "loss": 1.6471,
      "step": 32068
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41477739810943604,
      "learning_rate": 0.00043143430541023054,
      "loss": 1.5897,
      "step": 32069
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4391283094882965,
      "learning_rate": 0.00043142490972176165,
      "loss": 1.6922,
      "step": 32070
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4378787577152252,
      "learning_rate": 0.0004314155138737623,
      "loss": 1.7123,
      "step": 32071
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4194313585758209,
      "learning_rate": 0.0004314061178662439,
      "loss": 1.6333,
      "step": 32072
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41440752148628235,
      "learning_rate": 0.0004313967216992177,
      "loss": 1.6544,
      "step": 32073
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43612420558929443,
      "learning_rate": 0.00043138732537269546,
      "loss": 1.6832,
      "step": 32074
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4114108979701996,
      "learning_rate": 0.00043137792888668815,
      "loss": 1.7023,
      "step": 32075
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42095237970352173,
      "learning_rate": 0.0004313685322412076,
      "loss": 1.6582,
      "step": 32076
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4145379066467285,
      "learning_rate": 0.00043135913543626477,
      "loss": 1.5685,
      "step": 32077
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4209715723991394,
      "learning_rate": 0.00043134973847187147,
      "loss": 1.5781,
      "step": 32078
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4075138568878174,
      "learning_rate": 0.0004313403413480389,
      "loss": 1.6529,
      "step": 32079
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41418495774269104,
      "learning_rate": 0.0004313309440647785,
      "loss": 1.6227,
      "step": 32080
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4341493844985962,
      "learning_rate": 0.0004313215466221017,
      "loss": 1.6079,
      "step": 32081
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4275919198989868,
      "learning_rate": 0.0004313121490200199,
      "loss": 1.6211,
      "step": 32082
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4404379725456238,
      "learning_rate": 0.0004313027512585445,
      "loss": 1.6412,
      "step": 32083
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4202783405780792,
      "learning_rate": 0.00043129335333768693,
      "loss": 1.6713,
      "step": 32084
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4206649363040924,
      "learning_rate": 0.0004312839552574585,
      "loss": 1.5702,
      "step": 32085
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41207149624824524,
      "learning_rate": 0.00043127455701787073,
      "loss": 1.6186,
      "step": 32086
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4277286231517792,
      "learning_rate": 0.000431265158618935,
      "loss": 1.6767,
      "step": 32087
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43596014380455017,
      "learning_rate": 0.00043125576006066275,
      "loss": 1.6734,
      "step": 32088
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4195695221424103,
      "learning_rate": 0.00043124636134306526,
      "loss": 1.6649,
      "step": 32089
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41227293014526367,
      "learning_rate": 0.00043123696246615413,
      "loss": 1.6586,
      "step": 32090
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41358208656311035,
      "learning_rate": 0.0004312275634299405,
      "loss": 1.5895,
      "step": 32091
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43562403321266174,
      "learning_rate": 0.0004312181642344361,
      "loss": 1.6804,
      "step": 32092
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44880789518356323,
      "learning_rate": 0.0004312087648796521,
      "loss": 1.5966,
      "step": 32093
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4142596423625946,
      "learning_rate": 0.0004311993653656001,
      "loss": 1.6591,
      "step": 32094
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4015946090221405,
      "learning_rate": 0.0004311899656922913,
      "loss": 1.6497,
      "step": 32095
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4280286729335785,
      "learning_rate": 0.0004311805658597372,
      "loss": 1.6606,
      "step": 32096
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4198058247566223,
      "learning_rate": 0.0004311711658679492,
      "loss": 1.6659,
      "step": 32097
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41818076372146606,
      "learning_rate": 0.00043116176571693875,
      "loss": 1.6602,
      "step": 32098
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3997015357017517,
      "learning_rate": 0.0004311523654067174,
      "loss": 1.6451,
      "step": 32099
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42002052068710327,
      "learning_rate": 0.00043114296493729616,
      "loss": 1.6671,
      "step": 32100
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42316168546676636,
      "learning_rate": 0.00043113356430868685,
      "loss": 1.645,
      "step": 32101
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4116629660129547,
      "learning_rate": 0.00043112416352090066,
      "loss": 1.618,
      "step": 32102
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4057278633117676,
      "learning_rate": 0.00043111476257394905,
      "loss": 1.6611,
      "step": 32103
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4165817201137543,
      "learning_rate": 0.0004311053614678435,
      "loss": 1.6001,
      "step": 32104
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42831501364707947,
      "learning_rate": 0.00043109596020259527,
      "loss": 1.6464,
      "step": 32105
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4319930076599121,
      "learning_rate": 0.00043108655877821593,
      "loss": 1.6329,
      "step": 32106
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43921807408332825,
      "learning_rate": 0.00043107715719471675,
      "loss": 1.6401,
      "step": 32107
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40287113189697266,
      "learning_rate": 0.0004310677554521092,
      "loss": 1.6032,
      "step": 32108
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41554245352745056,
      "learning_rate": 0.00043105835355040483,
      "loss": 1.6449,
      "step": 32109
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41330310702323914,
      "learning_rate": 0.0004310489514896148,
      "loss": 1.6307,
      "step": 32110
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41797035932540894,
      "learning_rate": 0.0004310395492697508,
      "loss": 1.6106,
      "step": 32111
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4989483952522278,
      "learning_rate": 0.00043103014689082394,
      "loss": 1.7317,
      "step": 32112
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42056015133857727,
      "learning_rate": 0.00043102074435284586,
      "loss": 1.6115,
      "step": 32113
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4264419674873352,
      "learning_rate": 0.0004310113416558279,
      "loss": 1.7139,
      "step": 32114
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42528295516967773,
      "learning_rate": 0.0004310019387997815,
      "loss": 1.6472,
      "step": 32115
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4374927580356598,
      "learning_rate": 0.000430992535784718,
      "loss": 1.6688,
      "step": 32116
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4536745846271515,
      "learning_rate": 0.0004309831326106489,
      "loss": 1.69,
      "step": 32117
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4310792088508606,
      "learning_rate": 0.0004309737292775856,
      "loss": 1.6038,
      "step": 32118
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44071054458618164,
      "learning_rate": 0.0004309643257855394,
      "loss": 1.6643,
      "step": 32119
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41019225120544434,
      "learning_rate": 0.0004309549221345219,
      "loss": 1.6152,
      "step": 32120
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43782931566238403,
      "learning_rate": 0.0004309455183245443,
      "loss": 1.5869,
      "step": 32121
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4110632538795471,
      "learning_rate": 0.0004309361143556182,
      "loss": 1.561,
      "step": 32122
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41696375608444214,
      "learning_rate": 0.00043092671022775496,
      "loss": 1.6077,
      "step": 32123
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41574323177337646,
      "learning_rate": 0.000430917305940966,
      "loss": 1.6614,
      "step": 32124
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4175179600715637,
      "learning_rate": 0.0004309079014952627,
      "loss": 1.6388,
      "step": 32125
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4097161293029785,
      "learning_rate": 0.00043089849689065653,
      "loss": 1.6099,
      "step": 32126
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4206829369068146,
      "learning_rate": 0.0004308890921271588,
      "loss": 1.6999,
      "step": 32127
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43585243821144104,
      "learning_rate": 0.0004308796872047811,
      "loss": 1.6273,
      "step": 32128
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4082163870334625,
      "learning_rate": 0.0004308702821235347,
      "loss": 1.6155,
      "step": 32129
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4207552373409271,
      "learning_rate": 0.000430860876883431,
      "loss": 1.6871,
      "step": 32130
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43669798970222473,
      "learning_rate": 0.00043085147148448156,
      "loss": 1.608,
      "step": 32131
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40025150775909424,
      "learning_rate": 0.0004308420659266976,
      "loss": 1.6118,
      "step": 32132
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4130471646785736,
      "learning_rate": 0.0004308326602100908,
      "loss": 1.6793,
      "step": 32133
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4100775420665741,
      "learning_rate": 0.00043082325433467235,
      "loss": 1.5766,
      "step": 32134
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41955211758613586,
      "learning_rate": 0.0004308138483004537,
      "loss": 1.6235,
      "step": 32135
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42813536524772644,
      "learning_rate": 0.00043080444210744643,
      "loss": 1.6565,
      "step": 32136
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40757447481155396,
      "learning_rate": 0.00043079503575566165,
      "loss": 1.6438,
      "step": 32137
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41151660680770874,
      "learning_rate": 0.0004307856292451112,
      "loss": 1.5979,
      "step": 32138
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42075470089912415,
      "learning_rate": 0.0004307762225758061,
      "loss": 1.6026,
      "step": 32139
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4365561902523041,
      "learning_rate": 0.000430766815747758,
      "loss": 1.6295,
      "step": 32140
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42032814025878906,
      "learning_rate": 0.0004307574087609783,
      "loss": 1.667,
      "step": 32141
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43049857020378113,
      "learning_rate": 0.00043074800161547826,
      "loss": 1.656,
      "step": 32142
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42970290780067444,
      "learning_rate": 0.0004307385943112695,
      "loss": 1.7349,
      "step": 32143
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4158756136894226,
      "learning_rate": 0.00043072918684836325,
      "loss": 1.6869,
      "step": 32144
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41674649715423584,
      "learning_rate": 0.0004307197792267712,
      "loss": 1.6692,
      "step": 32145
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4252433478832245,
      "learning_rate": 0.00043071037144650447,
      "loss": 1.6719,
      "step": 32146
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.419636070728302,
      "learning_rate": 0.0004307009635075746,
      "loss": 1.6091,
      "step": 32147
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4154914915561676,
      "learning_rate": 0.00043069155540999304,
      "loss": 1.6472,
      "step": 32148
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40975210070610046,
      "learning_rate": 0.0004306821471537712,
      "loss": 1.5927,
      "step": 32149
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42560020089149475,
      "learning_rate": 0.00043067273873892057,
      "loss": 1.615,
      "step": 32150
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4141753017902374,
      "learning_rate": 0.00043066333016545234,
      "loss": 1.6365,
      "step": 32151
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4065176248550415,
      "learning_rate": 0.0004306539214333782,
      "loss": 1.6389,
      "step": 32152
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42968717217445374,
      "learning_rate": 0.00043064451254270933,
      "loss": 1.6209,
      "step": 32153
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42725616693496704,
      "learning_rate": 0.00043063510349345736,
      "loss": 1.624,
      "step": 32154
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.409572958946228,
      "learning_rate": 0.00043062569428563356,
      "loss": 1.5909,
      "step": 32155
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4265004098415375,
      "learning_rate": 0.00043061628491924953,
      "loss": 1.6576,
      "step": 32156
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42623138427734375,
      "learning_rate": 0.0004306068753943165,
      "loss": 1.6685,
      "step": 32157
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44172194600105286,
      "learning_rate": 0.0004305974657108459,
      "loss": 1.6614,
      "step": 32158
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4353094696998596,
      "learning_rate": 0.0004305880558688493,
      "loss": 1.664,
      "step": 32159
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4149649739265442,
      "learning_rate": 0.000430578645868338,
      "loss": 1.625,
      "step": 32160
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4418638050556183,
      "learning_rate": 0.00043056923570932354,
      "loss": 1.6388,
      "step": 32161
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41655248403549194,
      "learning_rate": 0.0004305598253918172,
      "loss": 1.6427,
      "step": 32162
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4153957962989807,
      "learning_rate": 0.0004305504149158305,
      "loss": 1.5886,
      "step": 32163
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4130449593067169,
      "learning_rate": 0.00043054100428137484,
      "loss": 1.6273,
      "step": 32164
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4161870777606964,
      "learning_rate": 0.0004305315934884616,
      "loss": 1.6312,
      "step": 32165
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4414917826652527,
      "learning_rate": 0.00043052218253710226,
      "loss": 1.6643,
      "step": 32166
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4192226827144623,
      "learning_rate": 0.0004305127714273082,
      "loss": 1.6583,
      "step": 32167
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4133131802082062,
      "learning_rate": 0.00043050336015909086,
      "loss": 1.6221,
      "step": 32168
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42571747303009033,
      "learning_rate": 0.0004304939487324617,
      "loss": 1.6552,
      "step": 32169
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44459548592567444,
      "learning_rate": 0.00043048453714743213,
      "loss": 1.7229,
      "step": 32170
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4183676540851593,
      "learning_rate": 0.0004304751254040135,
      "loss": 1.6154,
      "step": 32171
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4340384900569916,
      "learning_rate": 0.0004304657135022173,
      "loss": 1.5918,
      "step": 32172
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41489627957344055,
      "learning_rate": 0.00043045630144205503,
      "loss": 1.6231,
      "step": 32173
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4233471751213074,
      "learning_rate": 0.0004304468892235379,
      "loss": 1.6503,
      "step": 32174
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44167351722717285,
      "learning_rate": 0.0004304374768466776,
      "loss": 1.6632,
      "step": 32175
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4103671610355377,
      "learning_rate": 0.0004304280643114854,
      "loss": 1.6346,
      "step": 32176
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41296955943107605,
      "learning_rate": 0.00043041865161797265,
      "loss": 1.5951,
      "step": 32177
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44352391362190247,
      "learning_rate": 0.00043040923876615087,
      "loss": 1.6336,
      "step": 32178
    },
    {
      "epoch": 1.07,
      "grad_norm": 1.1643040180206299,
      "learning_rate": 0.0004303998257560316,
      "loss": 1.6855,
      "step": 32179
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4186435043811798,
      "learning_rate": 0.0004303904125876261,
      "loss": 1.7068,
      "step": 32180
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4264751076698303,
      "learning_rate": 0.0004303809992609459,
      "loss": 1.6558,
      "step": 32181
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4350717067718506,
      "learning_rate": 0.0004303715857760023,
      "loss": 1.7595,
      "step": 32182
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40276169776916504,
      "learning_rate": 0.00043036217213280687,
      "loss": 1.6599,
      "step": 32183
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4070970118045807,
      "learning_rate": 0.0004303527583313709,
      "loss": 1.6608,
      "step": 32184
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40732553601264954,
      "learning_rate": 0.000430343344371706,
      "loss": 1.6098,
      "step": 32185
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41584500670433044,
      "learning_rate": 0.0004303339302538234,
      "loss": 1.5911,
      "step": 32186
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41140297055244446,
      "learning_rate": 0.00043032451597773455,
      "loss": 1.6139,
      "step": 32187
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4022812843322754,
      "learning_rate": 0.00043031510154345107,
      "loss": 1.5422,
      "step": 32188
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4207354784011841,
      "learning_rate": 0.0004303056869509842,
      "loss": 1.6382,
      "step": 32189
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41772687435150146,
      "learning_rate": 0.0004302962722003454,
      "loss": 1.6181,
      "step": 32190
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4081740379333496,
      "learning_rate": 0.0004302868572915462,
      "loss": 1.5874,
      "step": 32191
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41765791177749634,
      "learning_rate": 0.0004302774422245979,
      "loss": 1.603,
      "step": 32192
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4182335436344147,
      "learning_rate": 0.00043026802699951204,
      "loss": 1.6574,
      "step": 32193
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4159753918647766,
      "learning_rate": 0.00043025861161629986,
      "loss": 1.6385,
      "step": 32194
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41804787516593933,
      "learning_rate": 0.000430249196074973,
      "loss": 1.5994,
      "step": 32195
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41386282444000244,
      "learning_rate": 0.0004302397803755428,
      "loss": 1.7003,
      "step": 32196
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.402150422334671,
      "learning_rate": 0.00043023036451802073,
      "loss": 1.5971,
      "step": 32197
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.7519762516021729,
      "learning_rate": 0.00043022094850241814,
      "loss": 1.5709,
      "step": 32198
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4233892560005188,
      "learning_rate": 0.0004302115323287465,
      "loss": 1.6803,
      "step": 32199
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.39714521169662476,
      "learning_rate": 0.0004302021159970173,
      "loss": 1.5929,
      "step": 32200
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4297024607658386,
      "learning_rate": 0.0004301926995072418,
      "loss": 1.6525,
      "step": 32201
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4113999009132385,
      "learning_rate": 0.0004301832828594316,
      "loss": 1.6293,
      "step": 32202
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3998161256313324,
      "learning_rate": 0.00043017386605359814,
      "loss": 1.6295,
      "step": 32203
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4161992371082306,
      "learning_rate": 0.00043016444908975277,
      "loss": 1.6763,
      "step": 32204
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40828216075897217,
      "learning_rate": 0.000430155031967907,
      "loss": 1.6647,
      "step": 32205
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4179215729236603,
      "learning_rate": 0.0004301456146880721,
      "loss": 1.6728,
      "step": 32206
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42486459016799927,
      "learning_rate": 0.0004301361972502596,
      "loss": 1.6809,
      "step": 32207
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4163344204425812,
      "learning_rate": 0.0004301267796544809,
      "loss": 1.6045,
      "step": 32208
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4101489186286926,
      "learning_rate": 0.0004301173619007475,
      "loss": 1.6856,
      "step": 32209
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.5140455961227417,
      "learning_rate": 0.0004301079439890708,
      "loss": 1.5855,
      "step": 32210
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4103003144264221,
      "learning_rate": 0.00043009852591946224,
      "loss": 1.5756,
      "step": 32211
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4057454764842987,
      "learning_rate": 0.00043008910769193326,
      "loss": 1.6722,
      "step": 32212
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4283519387245178,
      "learning_rate": 0.0004300796893064952,
      "loss": 1.7181,
      "step": 32213
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4197615683078766,
      "learning_rate": 0.0004300702707631597,
      "loss": 1.6928,
      "step": 32214
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40182551741600037,
      "learning_rate": 0.0004300608520619379,
      "loss": 1.6608,
      "step": 32215
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4107974171638489,
      "learning_rate": 0.0004300514332028415,
      "loss": 1.5546,
      "step": 32216
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43175873160362244,
      "learning_rate": 0.0004300420141858817,
      "loss": 1.5852,
      "step": 32217
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42902401089668274,
      "learning_rate": 0.00043003259501107015,
      "loss": 1.6353,
      "step": 32218
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4162183701992035,
      "learning_rate": 0.00043002317567841813,
      "loss": 1.6133,
      "step": 32219
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42254090309143066,
      "learning_rate": 0.00043001375618793717,
      "loss": 1.6822,
      "step": 32220
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4183974266052246,
      "learning_rate": 0.00043000433653963877,
      "loss": 1.6425,
      "step": 32221
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4229978919029236,
      "learning_rate": 0.0004299949167335341,
      "loss": 1.6724,
      "step": 32222
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41300058364868164,
      "learning_rate": 0.00042998549676963484,
      "loss": 1.6513,
      "step": 32223
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41445818543434143,
      "learning_rate": 0.00042997607664795224,
      "loss": 1.6711,
      "step": 32224
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42797914147377014,
      "learning_rate": 0.0004299666563684979,
      "loss": 1.6709,
      "step": 32225
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.44329822063446045,
      "learning_rate": 0.0004299572359312832,
      "loss": 1.6864,
      "step": 32226
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42789480090141296,
      "learning_rate": 0.00042994781533631953,
      "loss": 1.6859,
      "step": 32227
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4103134274482727,
      "learning_rate": 0.0004299383945836185,
      "loss": 1.6557,
      "step": 32228
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40225183963775635,
      "learning_rate": 0.0004299289736731912,
      "loss": 1.6614,
      "step": 32229
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41644224524497986,
      "learning_rate": 0.0004299195526050494,
      "loss": 1.6316,
      "step": 32230
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41613298654556274,
      "learning_rate": 0.0004299101313792043,
      "loss": 1.6803,
      "step": 32231
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4278813600540161,
      "learning_rate": 0.00042990070999566755,
      "loss": 1.5561,
      "step": 32232
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4050198197364807,
      "learning_rate": 0.00042989128845445044,
      "loss": 1.5705,
      "step": 32233
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40140676498413086,
      "learning_rate": 0.0004298818667555644,
      "loss": 1.6077,
      "step": 32234
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41655975580215454,
      "learning_rate": 0.000429872444899021,
      "loss": 1.5754,
      "step": 32235
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42503270506858826,
      "learning_rate": 0.0004298630228848315,
      "loss": 1.6607,
      "step": 32236
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41728147864341736,
      "learning_rate": 0.00042985360071300755,
      "loss": 1.698,
      "step": 32237
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4115285277366638,
      "learning_rate": 0.00042984417838356034,
      "loss": 1.6885,
      "step": 32238
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4289661645889282,
      "learning_rate": 0.00042983475589650146,
      "loss": 1.6892,
      "step": 32239
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4252057373523712,
      "learning_rate": 0.0004298253332518423,
      "loss": 1.5949,
      "step": 32240
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4116523861885071,
      "learning_rate": 0.00042981591044959435,
      "loss": 1.5564,
      "step": 32241
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4192172586917877,
      "learning_rate": 0.00042980648748976895,
      "loss": 1.7074,
      "step": 32242
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4188474416732788,
      "learning_rate": 0.00042979706437237775,
      "loss": 1.6793,
      "step": 32243
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.45148417353630066,
      "learning_rate": 0.0004297876410974319,
      "loss": 1.7727,
      "step": 32244
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4115465581417084,
      "learning_rate": 0.000429778217664943,
      "loss": 1.6373,
      "step": 32245
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41643738746643066,
      "learning_rate": 0.0004297687940749225,
      "loss": 1.6496,
      "step": 32246
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42185723781585693,
      "learning_rate": 0.00042975937032738176,
      "loss": 1.6658,
      "step": 32247
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4201022684574127,
      "learning_rate": 0.0004297499464223323,
      "loss": 1.6573,
      "step": 32248
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4349505305290222,
      "learning_rate": 0.0004297405223597855,
      "loss": 1.6254,
      "step": 32249
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.5325222015380859,
      "learning_rate": 0.00042973109813975287,
      "loss": 1.6607,
      "step": 32250
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43304264545440674,
      "learning_rate": 0.00042972167376224574,
      "loss": 1.6795,
      "step": 32251
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4454626142978668,
      "learning_rate": 0.00042971224922727565,
      "loss": 1.6493,
      "step": 32252
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4172474443912506,
      "learning_rate": 0.000429702824534854,
      "loss": 1.6214,
      "step": 32253
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4304729998111725,
      "learning_rate": 0.00042969339968499217,
      "loss": 1.6739,
      "step": 32254
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40636730194091797,
      "learning_rate": 0.0004296839746777017,
      "loss": 1.6402,
      "step": 32255
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4231148362159729,
      "learning_rate": 0.0004296745495129939,
      "loss": 1.613,
      "step": 32256
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4154984652996063,
      "learning_rate": 0.00042966512419088053,
      "loss": 1.59,
      "step": 32257
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42308753728866577,
      "learning_rate": 0.00042965569871137265,
      "loss": 1.6789,
      "step": 32258
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42024722695350647,
      "learning_rate": 0.0004296462730744819,
      "loss": 1.6254,
      "step": 32259
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.413582444190979,
      "learning_rate": 0.0004296368472802197,
      "loss": 1.6343,
      "step": 32260
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42511293292045593,
      "learning_rate": 0.0004296274213285974,
      "loss": 1.6497,
      "step": 32261
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41148459911346436,
      "learning_rate": 0.0004296179952196266,
      "loss": 1.602,
      "step": 32262
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4143795669078827,
      "learning_rate": 0.0004296085689533186,
      "loss": 1.6505,
      "step": 32263
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.40579459071159363,
      "learning_rate": 0.00042959914252968485,
      "loss": 1.6211,
      "step": 32264
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4118649363517761,
      "learning_rate": 0.00042958971594873684,
      "loss": 1.6413,
      "step": 32265
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41339436173439026,
      "learning_rate": 0.00042958028921048606,
      "loss": 1.6255,
      "step": 32266
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42469680309295654,
      "learning_rate": 0.00042957086231494395,
      "loss": 1.6726,
      "step": 32267
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41095489263534546,
      "learning_rate": 0.0004295614352621218,
      "loss": 1.5806,
      "step": 32268
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4273945093154907,
      "learning_rate": 0.0004295520080520312,
      "loss": 1.7556,
      "step": 32269
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41797250509262085,
      "learning_rate": 0.0004295425806846836,
      "loss": 1.6995,
      "step": 32270
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4197002351284027,
      "learning_rate": 0.00042953315316009025,
      "loss": 1.6424,
      "step": 32271
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4262808561325073,
      "learning_rate": 0.0004295237254782628,
      "loss": 1.6479,
      "step": 32272
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41191112995147705,
      "learning_rate": 0.0004295142976392128,
      "loss": 1.5605,
      "step": 32273
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4265839457511902,
      "learning_rate": 0.0004295048696429514,
      "loss": 1.61,
      "step": 32274
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4257439970970154,
      "learning_rate": 0.0004294954414894901,
      "loss": 1.601,
      "step": 32275
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41540899872779846,
      "learning_rate": 0.0004294860131788405,
      "loss": 1.6021,
      "step": 32276
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41815733909606934,
      "learning_rate": 0.00042947658471101385,
      "loss": 1.5597,
      "step": 32277
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4283703863620758,
      "learning_rate": 0.0004294671560860218,
      "loss": 1.6059,
      "step": 32278
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.43091610074043274,
      "learning_rate": 0.0004294577273038757,
      "loss": 1.6237,
      "step": 32279
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4162493348121643,
      "learning_rate": 0.0004294482983645871,
      "loss": 1.7016,
      "step": 32280
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41408565640449524,
      "learning_rate": 0.00042943886926816714,
      "loss": 1.6731,
      "step": 32281
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4206688702106476,
      "learning_rate": 0.00042942944001462754,
      "loss": 1.6317,
      "step": 32282
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.7032634019851685,
      "learning_rate": 0.00042942001060397974,
      "loss": 1.7011,
      "step": 32283
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4356464743614197,
      "learning_rate": 0.00042941058103623494,
      "loss": 1.6972,
      "step": 32284
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42547494173049927,
      "learning_rate": 0.0004294011513114049,
      "loss": 1.6724,
      "step": 32285
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.6198771595954895,
      "learning_rate": 0.0004293917214295008,
      "loss": 1.6616,
      "step": 32286
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4164639711380005,
      "learning_rate": 0.00042938229139053444,
      "loss": 1.5972,
      "step": 32287
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4116588532924652,
      "learning_rate": 0.00042937286119451687,
      "loss": 1.6399,
      "step": 32288
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4261220395565033,
      "learning_rate": 0.0004293634308414598,
      "loss": 1.681,
      "step": 32289
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4395723342895508,
      "learning_rate": 0.0004293540003313746,
      "loss": 1.6042,
      "step": 32290
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41602903604507446,
      "learning_rate": 0.00042934456966427253,
      "loss": 1.5429,
      "step": 32291
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4308127462863922,
      "learning_rate": 0.00042933513884016537,
      "loss": 1.6281,
      "step": 32292
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4148420989513397,
      "learning_rate": 0.0004293257078590644,
      "loss": 1.5875,
      "step": 32293
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41714537143707275,
      "learning_rate": 0.000429316276720981,
      "loss": 1.6424,
      "step": 32294
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4176945090293884,
      "learning_rate": 0.00042930684542592676,
      "loss": 1.6163,
      "step": 32295
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4181908667087555,
      "learning_rate": 0.00042929741397391296,
      "loss": 1.5802,
      "step": 32296
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42522820830345154,
      "learning_rate": 0.00042928798236495125,
      "loss": 1.6824,
      "step": 32297
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4225951135158539,
      "learning_rate": 0.000429278550599053,
      "loss": 1.5878,
      "step": 32298
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41670650243759155,
      "learning_rate": 0.00042926911867622957,
      "loss": 1.6623,
      "step": 32299
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4175492525100708,
      "learning_rate": 0.00042925968659649253,
      "loss": 1.6643,
      "step": 32300
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42561930418014526,
      "learning_rate": 0.0004292502543598532,
      "loss": 1.5801,
      "step": 32301
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41527172923088074,
      "learning_rate": 0.00042924082196632313,
      "loss": 1.7024,
      "step": 32302
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4150126874446869,
      "learning_rate": 0.0004292313894159138,
      "loss": 1.633,
      "step": 32303
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4179913401603699,
      "learning_rate": 0.00042922195670863655,
      "loss": 1.6515,
      "step": 32304
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41760802268981934,
      "learning_rate": 0.00042921252384450293,
      "loss": 1.7286,
      "step": 32305
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4167671501636505,
      "learning_rate": 0.0004292030908235243,
      "loss": 1.6684,
      "step": 32306
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4227323532104492,
      "learning_rate": 0.00042919365764571216,
      "loss": 1.5457,
      "step": 32307
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41311028599739075,
      "learning_rate": 0.00042918422431107806,
      "loss": 1.6161,
      "step": 32308
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42118480801582336,
      "learning_rate": 0.0004291747908196332,
      "loss": 1.6906,
      "step": 32309
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.41162633895874023,
      "learning_rate": 0.00042916535717138927,
      "loss": 1.5626,
      "step": 32310
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.42207175493240356,
      "learning_rate": 0.00042915592336635746,
      "loss": 1.6902,
      "step": 32311
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42266035079956055,
      "learning_rate": 0.0004291464894045496,
      "loss": 1.7254,
      "step": 32312
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41456231474876404,
      "learning_rate": 0.0004291370552859768,
      "loss": 1.6705,
      "step": 32313
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4204118251800537,
      "learning_rate": 0.00042912762101065074,
      "loss": 1.5853,
      "step": 32314
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4122137725353241,
      "learning_rate": 0.00042911818657858275,
      "loss": 1.6769,
      "step": 32315
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4099453389644623,
      "learning_rate": 0.00042910875198978423,
      "loss": 1.6862,
      "step": 32316
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.5814520716667175,
      "learning_rate": 0.00042909931724426683,
      "loss": 1.741,
      "step": 32317
    },
    {
      "epoch": 1.08,
      "grad_norm": 1.0015568733215332,
      "learning_rate": 0.00042908988234204184,
      "loss": 1.5967,
      "step": 32318
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40891000628471375,
      "learning_rate": 0.0004290804472831207,
      "loss": 1.6587,
      "step": 32319
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.5840884447097778,
      "learning_rate": 0.00042907101206751495,
      "loss": 1.6372,
      "step": 32320
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4228091239929199,
      "learning_rate": 0.00042906157669523595,
      "loss": 1.6677,
      "step": 32321
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4213830530643463,
      "learning_rate": 0.0004290521411662953,
      "loss": 1.6065,
      "step": 32322
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42181795835494995,
      "learning_rate": 0.0004290427054807043,
      "loss": 1.6082,
      "step": 32323
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43135082721710205,
      "learning_rate": 0.0004290332696384745,
      "loss": 1.6746,
      "step": 32324
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4326435327529907,
      "learning_rate": 0.00042902383363961735,
      "loss": 1.7271,
      "step": 32325
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4180571436882019,
      "learning_rate": 0.00042901439748414425,
      "loss": 1.776,
      "step": 32326
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4098045229911804,
      "learning_rate": 0.00042900496117206666,
      "loss": 1.7063,
      "step": 32327
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43124744296073914,
      "learning_rate": 0.0004289955247033961,
      "loss": 1.6312,
      "step": 32328
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4170264005661011,
      "learning_rate": 0.00042898608807814397,
      "loss": 1.6573,
      "step": 32329
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40165939927101135,
      "learning_rate": 0.00042897665129632164,
      "loss": 1.6817,
      "step": 32330
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41726869344711304,
      "learning_rate": 0.0004289672143579408,
      "loss": 1.6206,
      "step": 32331
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3955079913139343,
      "learning_rate": 0.0004289577772630127,
      "loss": 1.5725,
      "step": 32332
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41815945506095886,
      "learning_rate": 0.0004289483400115489,
      "loss": 1.6454,
      "step": 32333
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4079907238483429,
      "learning_rate": 0.0004289389026035607,
      "loss": 1.6021,
      "step": 32334
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4139625132083893,
      "learning_rate": 0.00042892946503905976,
      "loss": 1.6576,
      "step": 32335
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4080333411693573,
      "learning_rate": 0.00042892002731805744,
      "loss": 1.6235,
      "step": 32336
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44069841504096985,
      "learning_rate": 0.00042891058944056516,
      "loss": 1.7182,
      "step": 32337
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42563214898109436,
      "learning_rate": 0.0004289011514065945,
      "loss": 1.6871,
      "step": 32338
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41503843665122986,
      "learning_rate": 0.00042889171321615674,
      "loss": 1.6566,
      "step": 32339
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4092017710208893,
      "learning_rate": 0.00042888227486926353,
      "loss": 1.6513,
      "step": 32340
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.415416419506073,
      "learning_rate": 0.00042887283636592607,
      "loss": 1.6763,
      "step": 32341
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40699973702430725,
      "learning_rate": 0.0004288633977061562,
      "loss": 1.6286,
      "step": 32342
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40644797682762146,
      "learning_rate": 0.000428853958889965,
      "loss": 1.5975,
      "step": 32343
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4264962673187256,
      "learning_rate": 0.0004288445199173641,
      "loss": 1.6295,
      "step": 32344
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4293295741081238,
      "learning_rate": 0.000428835080788365,
      "loss": 1.6893,
      "step": 32345
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41926881670951843,
      "learning_rate": 0.000428825641502979,
      "loss": 1.6526,
      "step": 32346
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42104828357696533,
      "learning_rate": 0.00042881620206121774,
      "loss": 1.6138,
      "step": 32347
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3974176347255707,
      "learning_rate": 0.00042880676246309245,
      "loss": 1.5987,
      "step": 32348
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41207873821258545,
      "learning_rate": 0.0004287973227086149,
      "loss": 1.6113,
      "step": 32349
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.408545583486557,
      "learning_rate": 0.00042878788279779626,
      "loss": 1.7107,
      "step": 32350
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41890522837638855,
      "learning_rate": 0.00042877844273064814,
      "loss": 1.7073,
      "step": 32351
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4040454626083374,
      "learning_rate": 0.00042876900250718203,
      "loss": 1.6147,
      "step": 32352
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41412249207496643,
      "learning_rate": 0.00042875956212740926,
      "loss": 1.6255,
      "step": 32353
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40040382742881775,
      "learning_rate": 0.00042875012159134137,
      "loss": 1.663,
      "step": 32354
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4180743396282196,
      "learning_rate": 0.00042874068089898985,
      "loss": 1.6918,
      "step": 32355
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4069333076477051,
      "learning_rate": 0.00042873124005036604,
      "loss": 1.6364,
      "step": 32356
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42515742778778076,
      "learning_rate": 0.00042872179904548144,
      "loss": 1.7435,
      "step": 32357
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41782188415527344,
      "learning_rate": 0.00042871235788434763,
      "loss": 1.6172,
      "step": 32358
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41798165440559387,
      "learning_rate": 0.0004287029165669759,
      "loss": 1.6536,
      "step": 32359
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.414747029542923,
      "learning_rate": 0.0004286934750933779,
      "loss": 1.6339,
      "step": 32360
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3960276246070862,
      "learning_rate": 0.0004286840334635649,
      "loss": 1.5401,
      "step": 32361
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42262768745422363,
      "learning_rate": 0.0004286745916775485,
      "loss": 1.6727,
      "step": 32362
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4236588478088379,
      "learning_rate": 0.00042866514973534007,
      "loss": 1.6806,
      "step": 32363
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.39960357546806335,
      "learning_rate": 0.00042865570763695105,
      "loss": 1.5568,
      "step": 32364
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43706944584846497,
      "learning_rate": 0.00042864626538239306,
      "loss": 1.7034,
      "step": 32365
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42099136114120483,
      "learning_rate": 0.0004286368229716774,
      "loss": 1.6132,
      "step": 32366
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41653382778167725,
      "learning_rate": 0.0004286273804048156,
      "loss": 1.6894,
      "step": 32367
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43782877922058105,
      "learning_rate": 0.00042861793768181913,
      "loss": 1.6513,
      "step": 32368
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4168209433555603,
      "learning_rate": 0.00042860849480269944,
      "loss": 1.6215,
      "step": 32369
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4285697042942047,
      "learning_rate": 0.000428599051767468,
      "loss": 1.6568,
      "step": 32370
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42157095670700073,
      "learning_rate": 0.00042858960857613615,
      "loss": 1.6046,
      "step": 32371
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4103906452655792,
      "learning_rate": 0.00042858016522871566,
      "loss": 1.6646,
      "step": 32372
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.424282431602478,
      "learning_rate": 0.0004285707217252176,
      "loss": 1.6212,
      "step": 32373
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4131712019443512,
      "learning_rate": 0.0004285612780656537,
      "loss": 1.627,
      "step": 32374
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41513219475746155,
      "learning_rate": 0.00042855183425003537,
      "loss": 1.607,
      "step": 32375
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4182986319065094,
      "learning_rate": 0.00042854239027837404,
      "loss": 1.656,
      "step": 32376
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44272324442863464,
      "learning_rate": 0.0004285329461506812,
      "loss": 1.5981,
      "step": 32377
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4090440571308136,
      "learning_rate": 0.0004285235018669683,
      "loss": 1.6395,
      "step": 32378
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4053877294063568,
      "learning_rate": 0.0004285140574272468,
      "loss": 1.6085,
      "step": 32379
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41763514280319214,
      "learning_rate": 0.00042850461283152816,
      "loss": 1.6026,
      "step": 32380
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40589162707328796,
      "learning_rate": 0.0004284951680798238,
      "loss": 1.6542,
      "step": 32381
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41443130373954773,
      "learning_rate": 0.0004284857231721453,
      "loss": 1.6551,
      "step": 32382
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4168657660484314,
      "learning_rate": 0.00042847627810850406,
      "loss": 1.5953,
      "step": 32383
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4050860106945038,
      "learning_rate": 0.0004284668328889116,
      "loss": 1.6196,
      "step": 32384
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4114663302898407,
      "learning_rate": 0.0004284573875133793,
      "loss": 1.6116,
      "step": 32385
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41608431935310364,
      "learning_rate": 0.00042844794198191856,
      "loss": 1.6451,
      "step": 32386
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41346266865730286,
      "learning_rate": 0.0004284384962945411,
      "loss": 1.6994,
      "step": 32387
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42050009965896606,
      "learning_rate": 0.0004284290504512581,
      "loss": 1.5606,
      "step": 32388
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41915348172187805,
      "learning_rate": 0.00042841960445208125,
      "loss": 1.6263,
      "step": 32389
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41194429993629456,
      "learning_rate": 0.0004284101582970219,
      "loss": 1.6627,
      "step": 32390
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41461893916130066,
      "learning_rate": 0.00042840071198609156,
      "loss": 1.6416,
      "step": 32391
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4248815178871155,
      "learning_rate": 0.0004283912655193016,
      "loss": 1.6969,
      "step": 32392
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4130678176879883,
      "learning_rate": 0.0004283818188966636,
      "loss": 1.5967,
      "step": 32393
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4136892855167389,
      "learning_rate": 0.00042837237211818896,
      "loss": 1.6773,
      "step": 32394
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4254758954048157,
      "learning_rate": 0.00042836292518388925,
      "loss": 1.723,
      "step": 32395
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4230664372444153,
      "learning_rate": 0.00042835347809377575,
      "loss": 1.6232,
      "step": 32396
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43043798208236694,
      "learning_rate": 0.00042834403084786017,
      "loss": 1.6725,
      "step": 32397
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4169178605079651,
      "learning_rate": 0.00042833458344615374,
      "loss": 1.6405,
      "step": 32398
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4221484959125519,
      "learning_rate": 0.0004283251358886681,
      "loss": 1.553,
      "step": 32399
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4288405179977417,
      "learning_rate": 0.00042831568817541473,
      "loss": 1.6609,
      "step": 32400
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4208337962627411,
      "learning_rate": 0.00042830624030640475,
      "loss": 1.6896,
      "step": 32401
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4410240650177002,
      "learning_rate": 0.00042829679228165016,
      "loss": 1.686,
      "step": 32402
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4110705256462097,
      "learning_rate": 0.000428287344101162,
      "loss": 1.6067,
      "step": 32403
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42769578099250793,
      "learning_rate": 0.00042827789576495203,
      "loss": 1.63,
      "step": 32404
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4078531861305237,
      "learning_rate": 0.00042826844727303153,
      "loss": 1.6081,
      "step": 32405
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4237777292728424,
      "learning_rate": 0.00042825899862541206,
      "loss": 1.6248,
      "step": 32406
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4177357256412506,
      "learning_rate": 0.0004282495498221051,
      "loss": 1.6637,
      "step": 32407
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.45020726323127747,
      "learning_rate": 0.0004282401008631219,
      "loss": 1.6825,
      "step": 32408
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43861186504364014,
      "learning_rate": 0.0004282306517484744,
      "loss": 1.5408,
      "step": 32409
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42318102717399597,
      "learning_rate": 0.0004282212024781736,
      "loss": 1.7082,
      "step": 32410
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4514264762401581,
      "learning_rate": 0.0004282117530522312,
      "loss": 1.665,
      "step": 32411
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41322070360183716,
      "learning_rate": 0.0004282023034706586,
      "loss": 1.5271,
      "step": 32412
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4222078025341034,
      "learning_rate": 0.0004281928537334673,
      "loss": 1.7021,
      "step": 32413
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4332316517829895,
      "learning_rate": 0.00042818340384066875,
      "loss": 1.6841,
      "step": 32414
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.45359373092651367,
      "learning_rate": 0.0004281739537922745,
      "loss": 1.7029,
      "step": 32415
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4322982728481293,
      "learning_rate": 0.00042816450358829593,
      "loss": 1.6581,
      "step": 32416
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4240033030509949,
      "learning_rate": 0.0004281550532287445,
      "loss": 1.6623,
      "step": 32417
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.45765113830566406,
      "learning_rate": 0.00042814560271363166,
      "loss": 1.6081,
      "step": 32418
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43297043442726135,
      "learning_rate": 0.000428136152042969,
      "loss": 1.619,
      "step": 32419
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43014970421791077,
      "learning_rate": 0.00042812670121676806,
      "loss": 1.6367,
      "step": 32420
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44390854239463806,
      "learning_rate": 0.00042811725023504,
      "loss": 1.7075,
      "step": 32421
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42553478479385376,
      "learning_rate": 0.00042810779909779656,
      "loss": 1.62,
      "step": 32422
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44137388467788696,
      "learning_rate": 0.0004280983478050491,
      "loss": 1.7083,
      "step": 32423
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4322188198566437,
      "learning_rate": 0.0004280888963568091,
      "loss": 1.6875,
      "step": 32424
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4261435270309448,
      "learning_rate": 0.0004280794447530882,
      "loss": 1.6944,
      "step": 32425
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4299890100955963,
      "learning_rate": 0.00042806999299389755,
      "loss": 1.5749,
      "step": 32426
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4249488413333893,
      "learning_rate": 0.00042806054107924886,
      "loss": 1.6166,
      "step": 32427
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43919578194618225,
      "learning_rate": 0.0004280510890091535,
      "loss": 1.6361,
      "step": 32428
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4269200563430786,
      "learning_rate": 0.0004280416367836231,
      "loss": 1.6975,
      "step": 32429
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4345763325691223,
      "learning_rate": 0.0004280321844026689,
      "loss": 1.5773,
      "step": 32430
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4170624315738678,
      "learning_rate": 0.0004280227318663025,
      "loss": 1.623,
      "step": 32431
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4326900243759155,
      "learning_rate": 0.00042801327917453547,
      "loss": 1.7228,
      "step": 32432
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42960935831069946,
      "learning_rate": 0.00042800382632737907,
      "loss": 1.6404,
      "step": 32433
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41866710782051086,
      "learning_rate": 0.000427994373324845,
      "loss": 1.6582,
      "step": 32434
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43681973218917847,
      "learning_rate": 0.0004279849201669445,
      "loss": 1.6466,
      "step": 32435
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4485938251018524,
      "learning_rate": 0.0004279754668536892,
      "loss": 1.7648,
      "step": 32436
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41470083594322205,
      "learning_rate": 0.0004279660133850905,
      "loss": 1.626,
      "step": 32437
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4150877594947815,
      "learning_rate": 0.00042795655976116007,
      "loss": 1.7282,
      "step": 32438
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41369935870170593,
      "learning_rate": 0.00042794710598190915,
      "loss": 1.5887,
      "step": 32439
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.5797405242919922,
      "learning_rate": 0.0004279376520473493,
      "loss": 1.6332,
      "step": 32440
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41318294405937195,
      "learning_rate": 0.0004279281979574919,
      "loss": 1.6275,
      "step": 32441
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41519519686698914,
      "learning_rate": 0.0004279187437123486,
      "loss": 1.6888,
      "step": 32442
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4303058385848999,
      "learning_rate": 0.0004279092893119307,
      "loss": 1.6522,
      "step": 32443
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4082432687282562,
      "learning_rate": 0.00042789983475624983,
      "loss": 1.64,
      "step": 32444
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4265596270561218,
      "learning_rate": 0.00042789038004531753,
      "loss": 1.5989,
      "step": 32445
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4079970717430115,
      "learning_rate": 0.00042788092517914505,
      "loss": 1.6676,
      "step": 32446
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4309426546096802,
      "learning_rate": 0.0004278714701577439,
      "loss": 1.6144,
      "step": 32447
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40533825755119324,
      "learning_rate": 0.0004278620149811257,
      "loss": 1.6425,
      "step": 32448
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42433345317840576,
      "learning_rate": 0.00042785255964930183,
      "loss": 1.6988,
      "step": 32449
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.46766722202301025,
      "learning_rate": 0.0004278431041622839,
      "loss": 1.6329,
      "step": 32450
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4439966380596161,
      "learning_rate": 0.00042783364852008303,
      "loss": 1.6949,
      "step": 32451
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4151475727558136,
      "learning_rate": 0.0004278241927227112,
      "loss": 1.6652,
      "step": 32452
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42477741837501526,
      "learning_rate": 0.0004278147367701795,
      "loss": 1.6618,
      "step": 32453
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4144397974014282,
      "learning_rate": 0.0004278052806624996,
      "loss": 1.7621,
      "step": 32454
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41806739568710327,
      "learning_rate": 0.00042779582439968287,
      "loss": 1.6945,
      "step": 32455
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3999882936477661,
      "learning_rate": 0.0004277863679817409,
      "loss": 1.6132,
      "step": 32456
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4187004566192627,
      "learning_rate": 0.0004277769114086851,
      "loss": 1.6176,
      "step": 32457
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42446672916412354,
      "learning_rate": 0.0004277674546805268,
      "loss": 1.6579,
      "step": 32458
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4346844255924225,
      "learning_rate": 0.00042775799779727787,
      "loss": 1.708,
      "step": 32459
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4140041470527649,
      "learning_rate": 0.00042774854075894943,
      "loss": 1.6131,
      "step": 32460
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4245784878730774,
      "learning_rate": 0.0004277390835655531,
      "loss": 1.5975,
      "step": 32461
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4122992753982544,
      "learning_rate": 0.0004277296262171004,
      "loss": 1.6489,
      "step": 32462
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4117606580257416,
      "learning_rate": 0.00042772016871360264,
      "loss": 1.6969,
      "step": 32463
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4315728545188904,
      "learning_rate": 0.0004277107110550715,
      "loss": 1.634,
      "step": 32464
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4360061287879944,
      "learning_rate": 0.0004277012532415183,
      "loss": 1.6501,
      "step": 32465
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4160881042480469,
      "learning_rate": 0.00042769179527295465,
      "loss": 1.6463,
      "step": 32466
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43212446570396423,
      "learning_rate": 0.000427682337149392,
      "loss": 1.6052,
      "step": 32467
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4219728708267212,
      "learning_rate": 0.00042767287887084175,
      "loss": 1.6558,
      "step": 32468
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4301447868347168,
      "learning_rate": 0.0004276634204373155,
      "loss": 1.6813,
      "step": 32469
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40648287534713745,
      "learning_rate": 0.00042765396184882455,
      "loss": 1.634,
      "step": 32470
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.418061226606369,
      "learning_rate": 0.0004276445031053806,
      "loss": 1.6928,
      "step": 32471
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4282721281051636,
      "learning_rate": 0.00042763504420699505,
      "loss": 1.6347,
      "step": 32472
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42846548557281494,
      "learning_rate": 0.0004276255851536793,
      "loss": 1.7209,
      "step": 32473
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42253193259239197,
      "learning_rate": 0.0004276161259454449,
      "loss": 1.629,
      "step": 32474
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.423143595457077,
      "learning_rate": 0.0004276066665823034,
      "loss": 1.6843,
      "step": 32475
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40654775500297546,
      "learning_rate": 0.00042759720706426606,
      "loss": 1.6056,
      "step": 32476
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4195382297039032,
      "learning_rate": 0.00042758774739134467,
      "loss": 1.6734,
      "step": 32477
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43236252665519714,
      "learning_rate": 0.00042757828756355046,
      "loss": 1.7215,
      "step": 32478
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4158584475517273,
      "learning_rate": 0.00042756882758089506,
      "loss": 1.6913,
      "step": 32479
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4326898455619812,
      "learning_rate": 0.0004275593674433899,
      "loss": 1.6455,
      "step": 32480
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43982449173927307,
      "learning_rate": 0.0004275499071510464,
      "loss": 1.6607,
      "step": 32481
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41993027925491333,
      "learning_rate": 0.0004275404467038762,
      "loss": 1.6209,
      "step": 32482
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4095240533351898,
      "learning_rate": 0.00042753098610189054,
      "loss": 1.6581,
      "step": 32483
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4249889552593231,
      "learning_rate": 0.0004275215253451012,
      "loss": 1.6603,
      "step": 32484
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42249494791030884,
      "learning_rate": 0.00042751206443351946,
      "loss": 1.7022,
      "step": 32485
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4279380738735199,
      "learning_rate": 0.0004275026033671568,
      "loss": 1.5812,
      "step": 32486
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42357006669044495,
      "learning_rate": 0.00042749314214602497,
      "loss": 1.6436,
      "step": 32487
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41157612204551697,
      "learning_rate": 0.000427483680770135,
      "loss": 1.5596,
      "step": 32488
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41519394516944885,
      "learning_rate": 0.00042747421923949874,
      "loss": 1.6666,
      "step": 32489
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42395439743995667,
      "learning_rate": 0.0004274647575541275,
      "loss": 1.6078,
      "step": 32490
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.406444787979126,
      "learning_rate": 0.00042745529571403294,
      "loss": 1.5767,
      "step": 32491
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4167885482311249,
      "learning_rate": 0.0004274458337192264,
      "loss": 1.6172,
      "step": 32492
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4017696678638458,
      "learning_rate": 0.00042743637156971933,
      "loss": 1.6321,
      "step": 32493
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40900686383247375,
      "learning_rate": 0.00042742690926552334,
      "loss": 1.6242,
      "step": 32494
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43445801734924316,
      "learning_rate": 0.00042741744680664987,
      "loss": 1.653,
      "step": 32495
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42769521474838257,
      "learning_rate": 0.0004274079841931104,
      "loss": 1.6722,
      "step": 32496
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4329480230808258,
      "learning_rate": 0.0004273985214249164,
      "loss": 1.6649,
      "step": 32497
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4223473072052002,
      "learning_rate": 0.00042738905850207924,
      "loss": 1.6229,
      "step": 32498
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4149923026561737,
      "learning_rate": 0.0004273795954246106,
      "loss": 1.6315,
      "step": 32499
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41784387826919556,
      "learning_rate": 0.000427370132192522,
      "loss": 1.6356,
      "step": 32500
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4350472092628479,
      "learning_rate": 0.0004273606688058248,
      "loss": 1.6839,
      "step": 32501
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41688665747642517,
      "learning_rate": 0.00042735120526453044,
      "loss": 1.6672,
      "step": 32502
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41820189356803894,
      "learning_rate": 0.0004273417415686505,
      "loss": 1.6954,
      "step": 32503
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4208996891975403,
      "learning_rate": 0.00042733227771819647,
      "loss": 1.6885,
      "step": 32504
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41284048557281494,
      "learning_rate": 0.0004273228137131798,
      "loss": 1.6511,
      "step": 32505
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4217289090156555,
      "learning_rate": 0.00042731334955361193,
      "loss": 1.5956,
      "step": 32506
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40936389565467834,
      "learning_rate": 0.0004273038852395046,
      "loss": 1.5867,
      "step": 32507
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42237210273742676,
      "learning_rate": 0.000427294420770869,
      "loss": 1.6598,
      "step": 32508
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4213571846485138,
      "learning_rate": 0.0004272849561477167,
      "loss": 1.6811,
      "step": 32509
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4157930314540863,
      "learning_rate": 0.0004272754913700592,
      "loss": 1.6965,
      "step": 32510
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4066019654273987,
      "learning_rate": 0.00042726602643790805,
      "loss": 1.6164,
      "step": 32511
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4432075619697571,
      "learning_rate": 0.0004272565613512747,
      "loss": 1.6028,
      "step": 32512
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.423880934715271,
      "learning_rate": 0.0004272470961101706,
      "loss": 1.6624,
      "step": 32513
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43132710456848145,
      "learning_rate": 0.00042723763071460735,
      "loss": 1.5858,
      "step": 32514
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4176241159439087,
      "learning_rate": 0.0004272281651645963,
      "loss": 1.6644,
      "step": 32515
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42759206891059875,
      "learning_rate": 0.00042721869946014897,
      "loss": 1.6651,
      "step": 32516
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4505963623523712,
      "learning_rate": 0.000427209233601277,
      "loss": 1.6201,
      "step": 32517
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.39522024989128113,
      "learning_rate": 0.00042719976758799166,
      "loss": 1.5817,
      "step": 32518
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42440125346183777,
      "learning_rate": 0.0004271903014203046,
      "loss": 1.548,
      "step": 32519
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4132247269153595,
      "learning_rate": 0.00042718083509822716,
      "loss": 1.6424,
      "step": 32520
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40898171067237854,
      "learning_rate": 0.0004271713686217711,
      "loss": 1.5529,
      "step": 32521
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41763627529144287,
      "learning_rate": 0.0004271619019909476,
      "loss": 1.6454,
      "step": 32522
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41583186388015747,
      "learning_rate": 0.0004271524352057683,
      "loss": 1.6283,
      "step": 32523
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4254247546195984,
      "learning_rate": 0.00042714296826624473,
      "loss": 1.6544,
      "step": 32524
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4129038155078888,
      "learning_rate": 0.0004271335011723883,
      "loss": 1.6494,
      "step": 32525
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41939812898635864,
      "learning_rate": 0.0004271240339242105,
      "loss": 1.563,
      "step": 32526
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44764387607574463,
      "learning_rate": 0.0004271145665217229,
      "loss": 1.6654,
      "step": 32527
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42069244384765625,
      "learning_rate": 0.000427105098964937,
      "loss": 1.6431,
      "step": 32528
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4230848550796509,
      "learning_rate": 0.0004270956312538642,
      "loss": 1.685,
      "step": 32529
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41888895630836487,
      "learning_rate": 0.0004270861633885159,
      "loss": 1.6754,
      "step": 32530
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40725046396255493,
      "learning_rate": 0.00042707669536890387,
      "loss": 1.6275,
      "step": 32531
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4334598779678345,
      "learning_rate": 0.00042706722719503947,
      "loss": 1.6591,
      "step": 32532
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41591525077819824,
      "learning_rate": 0.0004270577588669341,
      "loss": 1.6916,
      "step": 32533
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4313250184059143,
      "learning_rate": 0.0004270482903845993,
      "loss": 1.6899,
      "step": 32534
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4144187569618225,
      "learning_rate": 0.0004270388217480467,
      "loss": 1.676,
      "step": 32535
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40272507071495056,
      "learning_rate": 0.00042702935295728763,
      "loss": 1.567,
      "step": 32536
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4165259301662445,
      "learning_rate": 0.0004270198840123337,
      "loss": 1.6795,
      "step": 32537
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42682400345802307,
      "learning_rate": 0.0004270104149131962,
      "loss": 1.6433,
      "step": 32538
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4173286259174347,
      "learning_rate": 0.0004270009456598869,
      "loss": 1.5924,
      "step": 32539
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4233975410461426,
      "learning_rate": 0.00042699147625241716,
      "loss": 1.6807,
      "step": 32540
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4197884202003479,
      "learning_rate": 0.0004269820066907984,
      "loss": 1.5642,
      "step": 32541
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41777336597442627,
      "learning_rate": 0.00042697253697504236,
      "loss": 1.5925,
      "step": 32542
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43900299072265625,
      "learning_rate": 0.00042696306710516017,
      "loss": 1.7294,
      "step": 32543
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40725696086883545,
      "learning_rate": 0.00042695359708116364,
      "loss": 1.662,
      "step": 32544
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4174656867980957,
      "learning_rate": 0.0004269441269030641,
      "loss": 1.588,
      "step": 32545
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4221692979335785,
      "learning_rate": 0.00042693465657087304,
      "loss": 1.6846,
      "step": 32546
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4091627895832062,
      "learning_rate": 0.00042692518608460214,
      "loss": 1.6199,
      "step": 32547
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4190514087677002,
      "learning_rate": 0.0004269157154442627,
      "loss": 1.6974,
      "step": 32548
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42585140466690063,
      "learning_rate": 0.0004269062446498663,
      "loss": 1.6293,
      "step": 32549
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4113360047340393,
      "learning_rate": 0.00042689677370142434,
      "loss": 1.5947,
      "step": 32550
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43249252438545227,
      "learning_rate": 0.00042688730259894854,
      "loss": 1.7198,
      "step": 32551
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41877880692481995,
      "learning_rate": 0.00042687783134245016,
      "loss": 1.5791,
      "step": 32552
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.423994243144989,
      "learning_rate": 0.00042686835993194076,
      "loss": 1.6106,
      "step": 32553
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42263293266296387,
      "learning_rate": 0.00042685888836743193,
      "loss": 1.6758,
      "step": 32554
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43106991052627563,
      "learning_rate": 0.000426849416648935,
      "loss": 1.6083,
      "step": 32555
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4203375577926636,
      "learning_rate": 0.0004268399447764617,
      "loss": 1.5978,
      "step": 32556
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4197680950164795,
      "learning_rate": 0.0004268304727500233,
      "loss": 1.5927,
      "step": 32557
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4278542101383209,
      "learning_rate": 0.00042682100056963144,
      "loss": 1.6352,
      "step": 32558
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.425045371055603,
      "learning_rate": 0.00042681152823529755,
      "loss": 1.6388,
      "step": 32559
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4186772108078003,
      "learning_rate": 0.0004268020557470332,
      "loss": 1.6788,
      "step": 32560
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4196756184101105,
      "learning_rate": 0.0004267925831048498,
      "loss": 1.5896,
      "step": 32561
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4253542125225067,
      "learning_rate": 0.00042678311030875895,
      "loss": 1.6651,
      "step": 32562
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4189341366291046,
      "learning_rate": 0.00042677363735877196,
      "loss": 1.5394,
      "step": 32563
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4170766770839691,
      "learning_rate": 0.0004267641642549005,
      "loss": 1.7379,
      "step": 32564
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4060695469379425,
      "learning_rate": 0.00042675469099715603,
      "loss": 1.5553,
      "step": 32565
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41889089345932007,
      "learning_rate": 0.00042674521758555,
      "loss": 1.6693,
      "step": 32566
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41713058948516846,
      "learning_rate": 0.0004267357440200941,
      "loss": 1.6247,
      "step": 32567
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4059181809425354,
      "learning_rate": 0.00042672627030079953,
      "loss": 1.6086,
      "step": 32568
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4334271550178528,
      "learning_rate": 0.00042671679642767804,
      "loss": 1.6887,
      "step": 32569
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44785064458847046,
      "learning_rate": 0.00042670732240074094,
      "loss": 1.6749,
      "step": 32570
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4207654893398285,
      "learning_rate": 0.0004266978482199998,
      "loss": 1.7027,
      "step": 32571
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4308049976825714,
      "learning_rate": 0.0004266883738854663,
      "loss": 1.587,
      "step": 32572
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41827458143234253,
      "learning_rate": 0.0004266788993971516,
      "loss": 1.6906,
      "step": 32573
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4214142858982086,
      "learning_rate": 0.0004266694247550675,
      "loss": 1.6828,
      "step": 32574
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42426353693008423,
      "learning_rate": 0.0004266599499592253,
      "loss": 1.6212,
      "step": 32575
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42283645272254944,
      "learning_rate": 0.0004266504750096367,
      "loss": 1.6661,
      "step": 32576
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41899242997169495,
      "learning_rate": 0.00042664099990631296,
      "loss": 1.6133,
      "step": 32577
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4370267987251282,
      "learning_rate": 0.0004266315246492658,
      "loss": 1.665,
      "step": 32578
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.407636433839798,
      "learning_rate": 0.00042662204923850665,
      "loss": 1.6073,
      "step": 32579
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4225473999977112,
      "learning_rate": 0.00042661257367404684,
      "loss": 1.7097,
      "step": 32580
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4480403661727905,
      "learning_rate": 0.00042660309795589807,
      "loss": 1.6309,
      "step": 32581
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42186689376831055,
      "learning_rate": 0.0004265936220840719,
      "loss": 1.6479,
      "step": 32582
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.40359440445899963,
      "learning_rate": 0.0004265841460585796,
      "loss": 1.6766,
      "step": 32583
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4203341007232666,
      "learning_rate": 0.00042657466987943283,
      "loss": 1.6547,
      "step": 32584
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4305773377418518,
      "learning_rate": 0.0004265651935466431,
      "loss": 1.6323,
      "step": 32585
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42001277208328247,
      "learning_rate": 0.00042655571706022187,
      "loss": 1.574,
      "step": 32586
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4219113886356354,
      "learning_rate": 0.0004265462404201806,
      "loss": 1.7129,
      "step": 32587
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44094011187553406,
      "learning_rate": 0.0004265367636265309,
      "loss": 1.6565,
      "step": 32588
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4226018786430359,
      "learning_rate": 0.00042652728667928416,
      "loss": 1.577,
      "step": 32589
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4039331078529358,
      "learning_rate": 0.00042651780957845203,
      "loss": 1.6125,
      "step": 32590
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41775864362716675,
      "learning_rate": 0.0004265083323240458,
      "loss": 1.6139,
      "step": 32591
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4443689286708832,
      "learning_rate": 0.00042649885491607715,
      "loss": 1.59,
      "step": 32592
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.44988375902175903,
      "learning_rate": 0.0004264893773545575,
      "loss": 1.6713,
      "step": 32593
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41219958662986755,
      "learning_rate": 0.00042647989963949843,
      "loss": 1.6931,
      "step": 32594
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41858282685279846,
      "learning_rate": 0.00042647042177091136,
      "loss": 1.613,
      "step": 32595
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4112655818462372,
      "learning_rate": 0.00042646094374880787,
      "loss": 1.6867,
      "step": 32596
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41212111711502075,
      "learning_rate": 0.0004264514655731994,
      "loss": 1.651,
      "step": 32597
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.43929049372673035,
      "learning_rate": 0.00042644198724409746,
      "loss": 1.6695,
      "step": 32598
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.45482778549194336,
      "learning_rate": 0.0004264325087615137,
      "loss": 1.6914,
      "step": 32599
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41339412331581116,
      "learning_rate": 0.0004264230301254593,
      "loss": 1.6085,
      "step": 32600
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42158380150794983,
      "learning_rate": 0.00042641355133594613,
      "loss": 1.6129,
      "step": 32601
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4216372072696686,
      "learning_rate": 0.0004264040723929855,
      "loss": 1.6066,
      "step": 32602
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42936986684799194,
      "learning_rate": 0.0004263945932965889,
      "loss": 1.6163,
      "step": 32603
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.42895716428756714,
      "learning_rate": 0.00042638511404676795,
      "loss": 1.7028,
      "step": 32604
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4177262485027313,
      "learning_rate": 0.00042637563464353406,
      "loss": 1.6802,
      "step": 32605
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41569170355796814,
      "learning_rate": 0.0004263661550868988,
      "loss": 1.5953,
      "step": 32606
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41572022438049316,
      "learning_rate": 0.0004263566753768736,
      "loss": 1.6401,
      "step": 32607
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4336252808570862,
      "learning_rate": 0.00042634719551347004,
      "loss": 1.6879,
      "step": 32608
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.4243328869342804,
      "learning_rate": 0.0004263377154966996,
      "loss": 1.6424,
      "step": 32609
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41718825697898865,
      "learning_rate": 0.0004263282353265738,
      "loss": 1.5572,
      "step": 32610
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.41904202103614807,
      "learning_rate": 0.0004263187550031041,
      "loss": 1.6675,
      "step": 32611
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40603014826774597,
      "learning_rate": 0.00042630927452630207,
      "loss": 1.5551,
      "step": 32612
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42152056097984314,
      "learning_rate": 0.00042629979389617926,
      "loss": 1.5817,
      "step": 32613
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44851991534233093,
      "learning_rate": 0.00042629031311274695,
      "loss": 1.7317,
      "step": 32614
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.422360897064209,
      "learning_rate": 0.0004262808321760169,
      "loss": 1.6052,
      "step": 32615
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43213772773742676,
      "learning_rate": 0.00042627135108600053,
      "loss": 1.6499,
      "step": 32616
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4225099980831146,
      "learning_rate": 0.0004262618698427093,
      "loss": 1.6733,
      "step": 32617
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4411420226097107,
      "learning_rate": 0.0004262523884461548,
      "loss": 1.5885,
      "step": 32618
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4169146418571472,
      "learning_rate": 0.00042624290689634856,
      "loss": 1.6313,
      "step": 32619
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4249207079410553,
      "learning_rate": 0.000426233425193302,
      "loss": 1.5858,
      "step": 32620
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4078567624092102,
      "learning_rate": 0.00042622394333702654,
      "loss": 1.7088,
      "step": 32621
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42824438214302063,
      "learning_rate": 0.0004262144613275339,
      "loss": 1.7428,
      "step": 32622
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4428861141204834,
      "learning_rate": 0.00042620497916483554,
      "loss": 1.6464,
      "step": 32623
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4189087152481079,
      "learning_rate": 0.00042619549684894294,
      "loss": 1.5895,
      "step": 32624
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41527295112609863,
      "learning_rate": 0.0004261860143798676,
      "loss": 1.5701,
      "step": 32625
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4334108233451843,
      "learning_rate": 0.00042617653175762096,
      "loss": 1.6392,
      "step": 32626
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4321880340576172,
      "learning_rate": 0.0004261670489822146,
      "loss": 1.6388,
      "step": 32627
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40866148471832275,
      "learning_rate": 0.00042615756605366003,
      "loss": 1.6043,
      "step": 32628
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4247155785560608,
      "learning_rate": 0.00042614808297196887,
      "loss": 1.6776,
      "step": 32629
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43209418654441833,
      "learning_rate": 0.00042613859973715236,
      "loss": 1.671,
      "step": 32630
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4185106158256531,
      "learning_rate": 0.0004261291163492224,
      "loss": 1.6081,
      "step": 32631
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41556617617607117,
      "learning_rate": 0.0004261196328081901,
      "loss": 1.6268,
      "step": 32632
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43405085802078247,
      "learning_rate": 0.0004261101491140672,
      "loss": 1.7023,
      "step": 32633
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42801302671432495,
      "learning_rate": 0.0004261006652668652,
      "loss": 1.5713,
      "step": 32634
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42063426971435547,
      "learning_rate": 0.00042609118126659545,
      "loss": 1.6327,
      "step": 32635
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42203590273857117,
      "learning_rate": 0.0004260816971132697,
      "loss": 1.7102,
      "step": 32636
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4128574728965759,
      "learning_rate": 0.00042607221280689927,
      "loss": 1.6845,
      "step": 32637
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42936697602272034,
      "learning_rate": 0.0004260627283474958,
      "loss": 1.6962,
      "step": 32638
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41808515787124634,
      "learning_rate": 0.0004260532437350707,
      "loss": 1.6665,
      "step": 32639
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42576539516448975,
      "learning_rate": 0.00042604375896963565,
      "loss": 1.6101,
      "step": 32640
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42463594675064087,
      "learning_rate": 0.0004260342740512019,
      "loss": 1.6235,
      "step": 32641
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4197462797164917,
      "learning_rate": 0.0004260247889797812,
      "loss": 1.6333,
      "step": 32642
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4172832667827606,
      "learning_rate": 0.000426015303755385,
      "loss": 1.6204,
      "step": 32643
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41061532497406006,
      "learning_rate": 0.0004260058183780247,
      "loss": 1.5835,
      "step": 32644
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40786463022232056,
      "learning_rate": 0.00042599633284771195,
      "loss": 1.6694,
      "step": 32645
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4120545983314514,
      "learning_rate": 0.0004259868471644582,
      "loss": 1.6492,
      "step": 32646
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4338498115539551,
      "learning_rate": 0.00042597736132827504,
      "loss": 1.6261,
      "step": 32647
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.443328320980072,
      "learning_rate": 0.0004259678753391739,
      "loss": 1.6228,
      "step": 32648
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40460702776908875,
      "learning_rate": 0.0004259583891971663,
      "loss": 1.6064,
      "step": 32649
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41002529859542847,
      "learning_rate": 0.00042594890290226375,
      "loss": 1.6805,
      "step": 32650
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4283513128757477,
      "learning_rate": 0.00042593941645447785,
      "loss": 1.6344,
      "step": 32651
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4425233006477356,
      "learning_rate": 0.00042592992985382,
      "loss": 1.681,
      "step": 32652
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4090431034564972,
      "learning_rate": 0.0004259204431003018,
      "loss": 1.5969,
      "step": 32653
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43213751912117004,
      "learning_rate": 0.0004259109561939348,
      "loss": 1.6615,
      "step": 32654
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41273123025894165,
      "learning_rate": 0.00042590146913473026,
      "loss": 1.6191,
      "step": 32655
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41524818539619446,
      "learning_rate": 0.0004258919819227001,
      "loss": 1.6418,
      "step": 32656
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4128592908382416,
      "learning_rate": 0.0004258824945578555,
      "loss": 1.6871,
      "step": 32657
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4309855103492737,
      "learning_rate": 0.0004258730070402081,
      "loss": 1.639,
      "step": 32658
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42008671164512634,
      "learning_rate": 0.0004258635193697695,
      "loss": 1.5867,
      "step": 32659
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42208850383758545,
      "learning_rate": 0.00042585403154655105,
      "loss": 1.6912,
      "step": 32660
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4219973683357239,
      "learning_rate": 0.0004258445435705644,
      "loss": 1.6381,
      "step": 32661
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42064177989959717,
      "learning_rate": 0.00042583505544182095,
      "loss": 1.5482,
      "step": 32662
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4222349226474762,
      "learning_rate": 0.0004258255671603324,
      "loss": 1.6097,
      "step": 32663
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4296141266822815,
      "learning_rate": 0.00042581607872611,
      "loss": 1.6982,
      "step": 32664
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.423724502325058,
      "learning_rate": 0.00042580659013916554,
      "loss": 1.6137,
      "step": 32665
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43670886754989624,
      "learning_rate": 0.0004257971013995104,
      "loss": 1.6112,
      "step": 32666
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44440707564353943,
      "learning_rate": 0.000425787612507156,
      "loss": 1.6292,
      "step": 32667
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43535274267196655,
      "learning_rate": 0.0004257781234621141,
      "loss": 1.6889,
      "step": 32668
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42622968554496765,
      "learning_rate": 0.0004257686342643961,
      "loss": 1.6744,
      "step": 32669
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4223940372467041,
      "learning_rate": 0.0004257591449140134,
      "loss": 1.6321,
      "step": 32670
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4386660158634186,
      "learning_rate": 0.0004257496554109777,
      "loss": 1.6613,
      "step": 32671
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4164394438266754,
      "learning_rate": 0.0004257401657553004,
      "loss": 1.646,
      "step": 32672
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4182359576225281,
      "learning_rate": 0.0004257306759469931,
      "loss": 1.678,
      "step": 32673
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4232810139656067,
      "learning_rate": 0.0004257211859860673,
      "loss": 1.6586,
      "step": 32674
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4280146658420563,
      "learning_rate": 0.0004257116958725345,
      "loss": 1.6494,
      "step": 32675
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43263107538223267,
      "learning_rate": 0.0004257022056064062,
      "loss": 1.5688,
      "step": 32676
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4306029975414276,
      "learning_rate": 0.000425692715187694,
      "loss": 1.5752,
      "step": 32677
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4186016619205475,
      "learning_rate": 0.0004256832246164093,
      "loss": 1.6327,
      "step": 32678
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4273979663848877,
      "learning_rate": 0.0004256737338925637,
      "loss": 1.6223,
      "step": 32679
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.3981899917125702,
      "learning_rate": 0.00042566424301616873,
      "loss": 1.6513,
      "step": 32680
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.414567768573761,
      "learning_rate": 0.0004256547519872359,
      "loss": 1.6459,
      "step": 32681
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4166046679019928,
      "learning_rate": 0.00042564526080577666,
      "loss": 1.6311,
      "step": 32682
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43631604313850403,
      "learning_rate": 0.00042563576947180257,
      "loss": 1.6335,
      "step": 32683
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4237860441207886,
      "learning_rate": 0.00042562627798532526,
      "loss": 1.7147,
      "step": 32684
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4316823184490204,
      "learning_rate": 0.000425616786346356,
      "loss": 1.6771,
      "step": 32685
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.3901205062866211,
      "learning_rate": 0.0004256072945549066,
      "loss": 1.6139,
      "step": 32686
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.430509090423584,
      "learning_rate": 0.0004255978026109884,
      "loss": 1.6407,
      "step": 32687
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4247578978538513,
      "learning_rate": 0.00042558831051461306,
      "loss": 1.6561,
      "step": 32688
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4090545177459717,
      "learning_rate": 0.000425578818265792,
      "loss": 1.6244,
      "step": 32689
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.5896081924438477,
      "learning_rate": 0.0004255693258645366,
      "loss": 1.568,
      "step": 32690
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40820184350013733,
      "learning_rate": 0.0004255598333108587,
      "loss": 1.6652,
      "step": 32691
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4188763499259949,
      "learning_rate": 0.00042555034060476956,
      "loss": 1.7018,
      "step": 32692
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41278576850891113,
      "learning_rate": 0.0004255408477462809,
      "loss": 1.6041,
      "step": 32693
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40336427092552185,
      "learning_rate": 0.0004255313547354041,
      "loss": 1.5939,
      "step": 32694
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43885910511016846,
      "learning_rate": 0.00042552186157215075,
      "loss": 1.7016,
      "step": 32695
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4100949764251709,
      "learning_rate": 0.0004255123682565323,
      "loss": 1.639,
      "step": 32696
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41365930438041687,
      "learning_rate": 0.0004255028747885604,
      "loss": 1.688,
      "step": 32697
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42358824610710144,
      "learning_rate": 0.00042549338116824653,
      "loss": 1.7079,
      "step": 32698
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43133994936943054,
      "learning_rate": 0.0004254838873956021,
      "loss": 1.5986,
      "step": 32699
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44174838066101074,
      "learning_rate": 0.0004254743934706388,
      "loss": 1.5865,
      "step": 32700
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4100263714790344,
      "learning_rate": 0.00042546489939336796,
      "loss": 1.61,
      "step": 32701
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41780993342399597,
      "learning_rate": 0.00042545540516380126,
      "loss": 1.6347,
      "step": 32702
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42765238881111145,
      "learning_rate": 0.00042544591078195023,
      "loss": 1.6441,
      "step": 32703
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43636420369148254,
      "learning_rate": 0.00042543641624782637,
      "loss": 1.6808,
      "step": 32704
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42442360520362854,
      "learning_rate": 0.00042542692156144116,
      "loss": 1.6811,
      "step": 32705
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4130547344684601,
      "learning_rate": 0.00042541742672280605,
      "loss": 1.5743,
      "step": 32706
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41278076171875,
      "learning_rate": 0.00042540793173193275,
      "loss": 1.6479,
      "step": 32707
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41434475779533386,
      "learning_rate": 0.0004253984365888327,
      "loss": 1.6497,
      "step": 32708
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4221271574497223,
      "learning_rate": 0.0004253889412935174,
      "loss": 1.619,
      "step": 32709
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42594781517982483,
      "learning_rate": 0.0004253794458459984,
      "loss": 1.68,
      "step": 32710
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4129696190357208,
      "learning_rate": 0.00042536995024628724,
      "loss": 1.5696,
      "step": 32711
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4077562093734741,
      "learning_rate": 0.00042536045449439547,
      "loss": 1.6333,
      "step": 32712
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4223291575908661,
      "learning_rate": 0.0004253509585903345,
      "loss": 1.645,
      "step": 32713
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4133029878139496,
      "learning_rate": 0.00042534146253411597,
      "loss": 1.6012,
      "step": 32714
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42360958456993103,
      "learning_rate": 0.0004253319663257514,
      "loss": 1.6697,
      "step": 32715
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4223085641860962,
      "learning_rate": 0.00042532246996525227,
      "loss": 1.583,
      "step": 32716
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41913849115371704,
      "learning_rate": 0.0004253129734526301,
      "loss": 1.5907,
      "step": 32717
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4317171573638916,
      "learning_rate": 0.0004253034767878965,
      "loss": 1.6327,
      "step": 32718
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42389413714408875,
      "learning_rate": 0.00042529397997106294,
      "loss": 1.6586,
      "step": 32719
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42535918951034546,
      "learning_rate": 0.0004252844830021409,
      "loss": 1.5827,
      "step": 32720
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43561074137687683,
      "learning_rate": 0.00042527498588114203,
      "loss": 1.6079,
      "step": 32721
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4392997920513153,
      "learning_rate": 0.00042526548860807764,
      "loss": 1.5802,
      "step": 32722
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41706928610801697,
      "learning_rate": 0.0004252559911829596,
      "loss": 1.6058,
      "step": 32723
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43331587314605713,
      "learning_rate": 0.00042524649360579903,
      "loss": 1.6483,
      "step": 32724
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41222819685935974,
      "learning_rate": 0.00042523699587660786,
      "loss": 1.6084,
      "step": 32725
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.6988849639892578,
      "learning_rate": 0.0004252274979953973,
      "loss": 1.661,
      "step": 32726
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4185492992401123,
      "learning_rate": 0.00042521799996217906,
      "loss": 1.6225,
      "step": 32727
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4211302697658539,
      "learning_rate": 0.00042520850177696465,
      "loss": 1.6978,
      "step": 32728
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4156331419944763,
      "learning_rate": 0.0004251990034397655,
      "loss": 1.6445,
      "step": 32729
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43367695808410645,
      "learning_rate": 0.0004251895049505933,
      "loss": 1.6406,
      "step": 32730
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43017107248306274,
      "learning_rate": 0.0004251800063094594,
      "loss": 1.6838,
      "step": 32731
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40185701847076416,
      "learning_rate": 0.00042517050751637544,
      "loss": 1.5831,
      "step": 32732
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.419596403837204,
      "learning_rate": 0.00042516100857135285,
      "loss": 1.6292,
      "step": 32733
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43493348360061646,
      "learning_rate": 0.0004251515094744034,
      "loss": 1.735,
      "step": 32734
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42069438099861145,
      "learning_rate": 0.0004251420102255384,
      "loss": 1.6566,
      "step": 32735
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4149878919124603,
      "learning_rate": 0.0004251325108247694,
      "loss": 1.6135,
      "step": 32736
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4041290283203125,
      "learning_rate": 0.000425123011272108,
      "loss": 1.6258,
      "step": 32737
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43235552310943604,
      "learning_rate": 0.0004251135115675656,
      "loss": 1.6188,
      "step": 32738
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41294312477111816,
      "learning_rate": 0.000425104011711154,
      "loss": 1.6292,
      "step": 32739
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41196316480636597,
      "learning_rate": 0.0004250945117028844,
      "loss": 1.6899,
      "step": 32740
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40995126962661743,
      "learning_rate": 0.0004250850115427687,
      "loss": 1.6732,
      "step": 32741
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41298872232437134,
      "learning_rate": 0.000425075511230818,
      "loss": 1.6589,
      "step": 32742
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4213179647922516,
      "learning_rate": 0.0004250660107670442,
      "loss": 1.5972,
      "step": 32743
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43175849318504333,
      "learning_rate": 0.0004250565101514586,
      "loss": 1.6911,
      "step": 32744
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4143224060535431,
      "learning_rate": 0.0004250470093840729,
      "loss": 1.7013,
      "step": 32745
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42025187611579895,
      "learning_rate": 0.00042503750846489857,
      "loss": 1.7638,
      "step": 32746
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4395337998867035,
      "learning_rate": 0.00042502800739394704,
      "loss": 1.6536,
      "step": 32747
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4092595875263214,
      "learning_rate": 0.00042501850617123003,
      "loss": 1.6853,
      "step": 32748
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41616737842559814,
      "learning_rate": 0.0004250090047967589,
      "loss": 1.5806,
      "step": 32749
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42585664987564087,
      "learning_rate": 0.00042499950327054526,
      "loss": 1.6655,
      "step": 32750
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4074087142944336,
      "learning_rate": 0.0004249900015926007,
      "loss": 1.6653,
      "step": 32751
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4141347110271454,
      "learning_rate": 0.00042498049976293653,
      "loss": 1.7031,
      "step": 32752
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4128812551498413,
      "learning_rate": 0.0004249709977815647,
      "loss": 1.6344,
      "step": 32753
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42705467343330383,
      "learning_rate": 0.0004249614956484963,
      "loss": 1.705,
      "step": 32754
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41138917207717896,
      "learning_rate": 0.0004249519933637431,
      "loss": 1.6997,
      "step": 32755
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40684932470321655,
      "learning_rate": 0.0004249424909273167,
      "loss": 1.6679,
      "step": 32756
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4193364381790161,
      "learning_rate": 0.0004249329883392284,
      "loss": 1.6465,
      "step": 32757
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42531687021255493,
      "learning_rate": 0.0004249234855994899,
      "loss": 1.6318,
      "step": 32758
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43747028708457947,
      "learning_rate": 0.00042491398270811265,
      "loss": 1.6173,
      "step": 32759
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42829838395118713,
      "learning_rate": 0.00042490447966510834,
      "loss": 1.637,
      "step": 32760
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41594982147216797,
      "learning_rate": 0.0004248949764704883,
      "loss": 1.5538,
      "step": 32761
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43237707018852234,
      "learning_rate": 0.0004248854731242642,
      "loss": 1.6218,
      "step": 32762
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41238629817962646,
      "learning_rate": 0.0004248759696264475,
      "loss": 1.6267,
      "step": 32763
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44154974818229675,
      "learning_rate": 0.0004248664659770498,
      "loss": 1.6603,
      "step": 32764
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4338604211807251,
      "learning_rate": 0.0004248569621760826,
      "loss": 1.6111,
      "step": 32765
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4389229118824005,
      "learning_rate": 0.00042484745822355747,
      "loss": 1.6969,
      "step": 32766
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44263792037963867,
      "learning_rate": 0.00042483795411948596,
      "loss": 1.5867,
      "step": 32767
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.6249731183052063,
      "learning_rate": 0.00042482844986387947,
      "loss": 1.6729,
      "step": 32768
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4282028079032898,
      "learning_rate": 0.0004248189454567496,
      "loss": 1.6904,
      "step": 32769
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.422639936208725,
      "learning_rate": 0.000424809440898108,
      "loss": 1.6706,
      "step": 32770
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42291632294654846,
      "learning_rate": 0.00042479993618796624,
      "loss": 1.6128,
      "step": 32771
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4231019616127014,
      "learning_rate": 0.0004247904313263355,
      "loss": 1.6016,
      "step": 32772
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4280090928077698,
      "learning_rate": 0.0004247809263132278,
      "loss": 1.6157,
      "step": 32773
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4285303056240082,
      "learning_rate": 0.0004247714211486543,
      "loss": 1.7018,
      "step": 32774
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41477012634277344,
      "learning_rate": 0.0004247619158326267,
      "loss": 1.695,
      "step": 32775
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4170527756214142,
      "learning_rate": 0.00042475241036515654,
      "loss": 1.6095,
      "step": 32776
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42297160625457764,
      "learning_rate": 0.0004247429047462553,
      "loss": 1.6753,
      "step": 32777
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44175004959106445,
      "learning_rate": 0.00042473339897593465,
      "loss": 1.7055,
      "step": 32778
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41708916425704956,
      "learning_rate": 0.0004247238930542059,
      "loss": 1.6139,
      "step": 32779
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.5079765915870667,
      "learning_rate": 0.00042471438698108083,
      "loss": 1.6786,
      "step": 32780
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41103672981262207,
      "learning_rate": 0.0004247048807565708,
      "loss": 1.6035,
      "step": 32781
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41489583253860474,
      "learning_rate": 0.0004246953743806874,
      "loss": 1.602,
      "step": 32782
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4146522879600525,
      "learning_rate": 0.00042468586785344227,
      "loss": 1.6486,
      "step": 32783
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42389601469039917,
      "learning_rate": 0.0004246763611748468,
      "loss": 1.5662,
      "step": 32784
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4361211955547333,
      "learning_rate": 0.00042466685434491266,
      "loss": 1.6959,
      "step": 32785
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42664143443107605,
      "learning_rate": 0.0004246573473636513,
      "loss": 1.6798,
      "step": 32786
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42922765016555786,
      "learning_rate": 0.0004246478402310743,
      "loss": 1.6433,
      "step": 32787
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41882529854774475,
      "learning_rate": 0.0004246383329471931,
      "loss": 1.707,
      "step": 32788
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42756974697113037,
      "learning_rate": 0.00042462882551201945,
      "loss": 1.6166,
      "step": 32789
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4361765682697296,
      "learning_rate": 0.0004246193179255648,
      "loss": 1.6915,
      "step": 32790
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4487476944923401,
      "learning_rate": 0.0004246098101878405,
      "loss": 1.599,
      "step": 32791
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44216182827949524,
      "learning_rate": 0.00042460030229885833,
      "loss": 1.5666,
      "step": 32792
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4336109757423401,
      "learning_rate": 0.00042459079425862976,
      "loss": 1.6605,
      "step": 32793
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.45009538531303406,
      "learning_rate": 0.00042458128606716626,
      "loss": 1.6592,
      "step": 32794
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43667012453079224,
      "learning_rate": 0.00042457177772447954,
      "loss": 1.6549,
      "step": 32795
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43774762749671936,
      "learning_rate": 0.000424562269230581,
      "loss": 1.587,
      "step": 32796
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4143581986427307,
      "learning_rate": 0.00042455276058548215,
      "loss": 1.6787,
      "step": 32797
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4240097403526306,
      "learning_rate": 0.0004245432517891947,
      "loss": 1.6631,
      "step": 32798
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40856510400772095,
      "learning_rate": 0.00042453374284173007,
      "loss": 1.6251,
      "step": 32799
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41983333230018616,
      "learning_rate": 0.00042452423374309976,
      "loss": 1.5409,
      "step": 32800
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42119336128234863,
      "learning_rate": 0.00042451472449331546,
      "loss": 1.6494,
      "step": 32801
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41138166189193726,
      "learning_rate": 0.0004245052150923885,
      "loss": 1.6103,
      "step": 32802
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4317617416381836,
      "learning_rate": 0.0004244957055403307,
      "loss": 1.6168,
      "step": 32803
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4282214641571045,
      "learning_rate": 0.0004244861958371534,
      "loss": 1.6659,
      "step": 32804
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4076794683933258,
      "learning_rate": 0.0004244766859828682,
      "loss": 1.5807,
      "step": 32805
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44218695163726807,
      "learning_rate": 0.0004244671759774867,
      "loss": 1.5976,
      "step": 32806
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4204396903514862,
      "learning_rate": 0.00042445766582102027,
      "loss": 1.6257,
      "step": 32807
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4342876374721527,
      "learning_rate": 0.00042444815551348063,
      "loss": 1.6292,
      "step": 32808
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4059295058250427,
      "learning_rate": 0.0004244386450548792,
      "loss": 1.6376,
      "step": 32809
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41689950227737427,
      "learning_rate": 0.0004244291344452278,
      "loss": 1.6438,
      "step": 32810
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4205438196659088,
      "learning_rate": 0.0004244196236845376,
      "loss": 1.5837,
      "step": 32811
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4139888882637024,
      "learning_rate": 0.00042441011277282034,
      "loss": 1.606,
      "step": 32812
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4196418523788452,
      "learning_rate": 0.0004244006017100875,
      "loss": 1.6458,
      "step": 32813
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4168071746826172,
      "learning_rate": 0.0004243910904963507,
      "loss": 1.6612,
      "step": 32814
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4376547932624817,
      "learning_rate": 0.00042438157913162144,
      "loss": 1.6175,
      "step": 32815
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4355407953262329,
      "learning_rate": 0.00042437206761591125,
      "loss": 1.6638,
      "step": 32816
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41850000619888306,
      "learning_rate": 0.0004243625559492317,
      "loss": 1.6399,
      "step": 32817
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4299430251121521,
      "learning_rate": 0.0004243530441315943,
      "loss": 1.5874,
      "step": 32818
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.45144256949424744,
      "learning_rate": 0.00042434353216301075,
      "loss": 1.7112,
      "step": 32819
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4303855299949646,
      "learning_rate": 0.00042433402004349237,
      "loss": 1.6127,
      "step": 32820
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.431715190410614,
      "learning_rate": 0.00042432450777305083,
      "loss": 1.5658,
      "step": 32821
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4350599944591522,
      "learning_rate": 0.0004243149953516977,
      "loss": 1.665,
      "step": 32822
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4381715655326843,
      "learning_rate": 0.0004243054827794444,
      "loss": 1.7068,
      "step": 32823
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4461768567562103,
      "learning_rate": 0.0004242959700563026,
      "loss": 1.6735,
      "step": 32824
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43936002254486084,
      "learning_rate": 0.0004242864571822838,
      "loss": 1.6169,
      "step": 32825
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42768412828445435,
      "learning_rate": 0.0004242769441573996,
      "loss": 1.5772,
      "step": 32826
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4589121639728546,
      "learning_rate": 0.00042426743098166137,
      "loss": 1.605,
      "step": 32827
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43290409445762634,
      "learning_rate": 0.0004242579176550809,
      "loss": 1.6973,
      "step": 32828
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4154590964317322,
      "learning_rate": 0.0004242484041776696,
      "loss": 1.5869,
      "step": 32829
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4244689643383026,
      "learning_rate": 0.00042423889054943906,
      "loss": 1.7092,
      "step": 32830
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4062784016132355,
      "learning_rate": 0.00042422937677040083,
      "loss": 1.6342,
      "step": 32831
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4352298378944397,
      "learning_rate": 0.00042421986284056634,
      "loss": 1.6706,
      "step": 32832
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4245249927043915,
      "learning_rate": 0.0004242103487599474,
      "loss": 1.6333,
      "step": 32833
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4188626706600189,
      "learning_rate": 0.0004242008345285552,
      "loss": 1.6599,
      "step": 32834
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41200026869773865,
      "learning_rate": 0.00042419132014640166,
      "loss": 1.614,
      "step": 32835
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4255649745464325,
      "learning_rate": 0.00042418180561349804,
      "loss": 1.662,
      "step": 32836
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43252602219581604,
      "learning_rate": 0.0004241722909298561,
      "loss": 1.6338,
      "step": 32837
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4227388799190521,
      "learning_rate": 0.0004241627760954873,
      "loss": 1.7061,
      "step": 32838
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41863489151000977,
      "learning_rate": 0.0004241532611104031,
      "loss": 1.6362,
      "step": 32839
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41918402910232544,
      "learning_rate": 0.0004241437459746152,
      "loss": 1.6618,
      "step": 32840
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41175711154937744,
      "learning_rate": 0.000424134230688135,
      "loss": 1.6132,
      "step": 32841
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41351115703582764,
      "learning_rate": 0.00042412471525097423,
      "loss": 1.6561,
      "step": 32842
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42945703864097595,
      "learning_rate": 0.0004241151996631443,
      "loss": 1.6322,
      "step": 32843
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4253057539463043,
      "learning_rate": 0.00042410568392465674,
      "loss": 1.6286,
      "step": 32844
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.437940388917923,
      "learning_rate": 0.00042409616803552327,
      "loss": 1.6979,
      "step": 32845
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.60675048828125,
      "learning_rate": 0.0004240866519957553,
      "loss": 1.6171,
      "step": 32846
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42840003967285156,
      "learning_rate": 0.00042407713580536443,
      "loss": 1.6285,
      "step": 32847
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41798168420791626,
      "learning_rate": 0.0004240676194643622,
      "loss": 1.6343,
      "step": 32848
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4265110194683075,
      "learning_rate": 0.00042405810297276015,
      "loss": 1.6399,
      "step": 32849
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40971896052360535,
      "learning_rate": 0.00042404858633056977,
      "loss": 1.6331,
      "step": 32850
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43273767828941345,
      "learning_rate": 0.0004240390695378028,
      "loss": 1.6512,
      "step": 32851
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4247976839542389,
      "learning_rate": 0.00042402955259447065,
      "loss": 1.7004,
      "step": 32852
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41904422640800476,
      "learning_rate": 0.0004240200355005849,
      "loss": 1.7321,
      "step": 32853
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4161195456981659,
      "learning_rate": 0.000424010518256157,
      "loss": 1.6688,
      "step": 32854
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42747989296913147,
      "learning_rate": 0.0004240010008611987,
      "loss": 1.5583,
      "step": 32855
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4062923491001129,
      "learning_rate": 0.0004239914833157214,
      "loss": 1.6406,
      "step": 32856
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4248904585838318,
      "learning_rate": 0.0004239819656197368,
      "loss": 1.5946,
      "step": 32857
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4099390506744385,
      "learning_rate": 0.0004239724477732563,
      "loss": 1.5745,
      "step": 32858
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4094141721725464,
      "learning_rate": 0.00042396292977629155,
      "loss": 1.6202,
      "step": 32859
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4272005558013916,
      "learning_rate": 0.0004239534116288541,
      "loss": 1.6316,
      "step": 32860
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4243904650211334,
      "learning_rate": 0.00042394389333095536,
      "loss": 1.7164,
      "step": 32861
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42322278022766113,
      "learning_rate": 0.000423934374882607,
      "loss": 1.6024,
      "step": 32862
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41687169671058655,
      "learning_rate": 0.0004239248562838207,
      "loss": 1.6558,
      "step": 32863
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4245176911354065,
      "learning_rate": 0.0004239153375346077,
      "loss": 1.6275,
      "step": 32864
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42830657958984375,
      "learning_rate": 0.0004239058186349799,
      "loss": 1.7162,
      "step": 32865
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42510515451431274,
      "learning_rate": 0.00042389629958494864,
      "loss": 1.6398,
      "step": 32866
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.44948598742485046,
      "learning_rate": 0.0004238867803845255,
      "loss": 1.6708,
      "step": 32867
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43117260932922363,
      "learning_rate": 0.0004238772610337221,
      "loss": 1.6109,
      "step": 32868
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43501046299934387,
      "learning_rate": 0.0004238677415325499,
      "loss": 1.6491,
      "step": 32869
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4189474582672119,
      "learning_rate": 0.00042385822188102066,
      "loss": 1.6319,
      "step": 32870
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42639803886413574,
      "learning_rate": 0.0004238487020791456,
      "loss": 1.6336,
      "step": 32871
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4149852991104126,
      "learning_rate": 0.0004238391821269366,
      "loss": 1.6126,
      "step": 32872
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40907418727874756,
      "learning_rate": 0.000423829662024405,
      "loss": 1.5251,
      "step": 32873
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4160388112068176,
      "learning_rate": 0.0004238201417715624,
      "loss": 1.6271,
      "step": 32874
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41602152585983276,
      "learning_rate": 0.0004238106213684205,
      "loss": 1.7063,
      "step": 32875
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41724255681037903,
      "learning_rate": 0.0004238011008149907,
      "loss": 1.619,
      "step": 32876
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41677114367485046,
      "learning_rate": 0.0004237915801112846,
      "loss": 1.6487,
      "step": 32877
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40244734287261963,
      "learning_rate": 0.0004237820592573138,
      "loss": 1.6966,
      "step": 32878
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4247727394104004,
      "learning_rate": 0.00042377253825308977,
      "loss": 1.603,
      "step": 32879
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4234282970428467,
      "learning_rate": 0.0004237630170986241,
      "loss": 1.6212,
      "step": 32880
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.410735160112381,
      "learning_rate": 0.0004237534957939284,
      "loss": 1.7174,
      "step": 32881
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4074735641479492,
      "learning_rate": 0.0004237439743390142,
      "loss": 1.6118,
      "step": 32882
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.40159812569618225,
      "learning_rate": 0.00042373445273389306,
      "loss": 1.6175,
      "step": 32883
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4286390244960785,
      "learning_rate": 0.0004237249309785765,
      "loss": 1.7164,
      "step": 32884
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4242182970046997,
      "learning_rate": 0.0004237154090730761,
      "loss": 1.6714,
      "step": 32885
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4160744249820709,
      "learning_rate": 0.0004237058870174034,
      "loss": 1.636,
      "step": 32886
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4170992970466614,
      "learning_rate": 0.00042369636481157,
      "loss": 1.65,
      "step": 32887
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41608744859695435,
      "learning_rate": 0.00042368684245558755,
      "loss": 1.6499,
      "step": 32888
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4162939786911011,
      "learning_rate": 0.0004236773199494672,
      "loss": 1.6331,
      "step": 32889
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4299370348453522,
      "learning_rate": 0.00042366779729322116,
      "loss": 1.7068,
      "step": 32890
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43534740805625916,
      "learning_rate": 0.0004236582744868604,
      "loss": 1.7226,
      "step": 32891
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4235440790653229,
      "learning_rate": 0.0004236487515303968,
      "loss": 1.6311,
      "step": 32892
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4314544200897217,
      "learning_rate": 0.0004236392284238419,
      "loss": 1.5893,
      "step": 32893
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41243669390678406,
      "learning_rate": 0.00042362970516720704,
      "loss": 1.6649,
      "step": 32894
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4234643876552582,
      "learning_rate": 0.00042362018176050404,
      "loss": 1.6175,
      "step": 32895
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4098571538925171,
      "learning_rate": 0.00042361065820374427,
      "loss": 1.6402,
      "step": 32896
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4206944406032562,
      "learning_rate": 0.0004236011344969395,
      "loss": 1.6128,
      "step": 32897
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4265776574611664,
      "learning_rate": 0.00042359161064010106,
      "loss": 1.7005,
      "step": 32898
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.41955476999282837,
      "learning_rate": 0.00042358208663324066,
      "loss": 1.6519,
      "step": 32899
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42608001828193665,
      "learning_rate": 0.00042357256247636983,
      "loss": 1.6725,
      "step": 32900
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4184652268886566,
      "learning_rate": 0.00042356303816950007,
      "loss": 1.6594,
      "step": 32901
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4221869111061096,
      "learning_rate": 0.00042355351371264297,
      "loss": 1.6048,
      "step": 32902
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.6096459627151489,
      "learning_rate": 0.00042354398910581014,
      "loss": 1.555,
      "step": 32903
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43441325426101685,
      "learning_rate": 0.00042353446434901317,
      "loss": 1.5909,
      "step": 32904
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4233383536338806,
      "learning_rate": 0.0004235249394422635,
      "loss": 1.7346,
      "step": 32905
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42320874333381653,
      "learning_rate": 0.0004235154143855727,
      "loss": 1.6796,
      "step": 32906
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.46873506903648376,
      "learning_rate": 0.0004235058891789525,
      "loss": 1.6834,
      "step": 32907
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4185909032821655,
      "learning_rate": 0.00042349636382241435,
      "loss": 1.6399,
      "step": 32908
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.42686787247657776,
      "learning_rate": 0.0004234868383159697,
      "loss": 1.6941,
      "step": 32909
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.43491020798683167,
      "learning_rate": 0.0004234773126596303,
      "loss": 1.7257,
      "step": 32910
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4207858145236969,
      "learning_rate": 0.00042346778685340764,
      "loss": 1.685,
      "step": 32911
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4164142608642578,
      "learning_rate": 0.00042345826089731323,
      "loss": 1.6284,
      "step": 32912
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4176953434944153,
      "learning_rate": 0.00042344873479135877,
      "loss": 1.6094,
      "step": 32913
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41167372465133667,
      "learning_rate": 0.00042343920853555564,
      "loss": 1.6378,
      "step": 32914
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43704962730407715,
      "learning_rate": 0.0004234296821299155,
      "loss": 1.6087,
      "step": 32915
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4255032539367676,
      "learning_rate": 0.00042342015557444995,
      "loss": 1.6291,
      "step": 32916
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4375864267349243,
      "learning_rate": 0.0004234106288691705,
      "loss": 1.648,
      "step": 32917
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4182039797306061,
      "learning_rate": 0.0004234011020140888,
      "loss": 1.6387,
      "step": 32918
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4241293668746948,
      "learning_rate": 0.00042339157500921625,
      "loss": 1.6534,
      "step": 32919
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4274079203605652,
      "learning_rate": 0.00042338204785456453,
      "loss": 1.6308,
      "step": 32920
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4102843403816223,
      "learning_rate": 0.00042337252055014524,
      "loss": 1.5634,
      "step": 32921
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4316432774066925,
      "learning_rate": 0.0004233629930959698,
      "loss": 1.6892,
      "step": 32922
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42587101459503174,
      "learning_rate": 0.00042335346549205,
      "loss": 1.6638,
      "step": 32923
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42115700244903564,
      "learning_rate": 0.0004233439377383971,
      "loss": 1.6002,
      "step": 32924
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42044541239738464,
      "learning_rate": 0.000423334409835023,
      "loss": 1.6008,
      "step": 32925
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4254039227962494,
      "learning_rate": 0.0004233248817819389,
      "loss": 1.6475,
      "step": 32926
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.406781405210495,
      "learning_rate": 0.00042331535357915674,
      "loss": 1.6659,
      "step": 32927
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4239048361778259,
      "learning_rate": 0.00042330582522668783,
      "loss": 1.6643,
      "step": 32928
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4134702980518341,
      "learning_rate": 0.00042329629672454384,
      "loss": 1.6495,
      "step": 32929
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40806639194488525,
      "learning_rate": 0.0004232867680727363,
      "loss": 1.6112,
      "step": 32930
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4209742248058319,
      "learning_rate": 0.00042327723927127674,
      "loss": 1.6086,
      "step": 32931
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4160633683204651,
      "learning_rate": 0.000423267710320177,
      "loss": 1.6245,
      "step": 32932
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40213000774383545,
      "learning_rate": 0.0004232581812194482,
      "loss": 1.6298,
      "step": 32933
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4141761064529419,
      "learning_rate": 0.0004232486519691021,
      "loss": 1.648,
      "step": 32934
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4013790786266327,
      "learning_rate": 0.0004232391225691504,
      "loss": 1.6106,
      "step": 32935
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4360859990119934,
      "learning_rate": 0.0004232295930196045,
      "loss": 1.6318,
      "step": 32936
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4188142716884613,
      "learning_rate": 0.0004232200633204761,
      "loss": 1.697,
      "step": 32937
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4038498103618622,
      "learning_rate": 0.0004232105334717767,
      "loss": 1.5655,
      "step": 32938
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4138394594192505,
      "learning_rate": 0.00042320100347351786,
      "loss": 1.6151,
      "step": 32939
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40778377652168274,
      "learning_rate": 0.0004231914733257111,
      "loss": 1.6816,
      "step": 32940
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41461771726608276,
      "learning_rate": 0.000423181943028368,
      "loss": 1.6442,
      "step": 32941
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41625022888183594,
      "learning_rate": 0.00042317241258150036,
      "loss": 1.5738,
      "step": 32942
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41115036606788635,
      "learning_rate": 0.00042316288198511947,
      "loss": 1.5806,
      "step": 32943
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4225960373878479,
      "learning_rate": 0.0004231533512392369,
      "loss": 1.5678,
      "step": 32944
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43138280510902405,
      "learning_rate": 0.00042314382034386446,
      "loss": 1.6908,
      "step": 32945
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4401451647281647,
      "learning_rate": 0.00042313428929901343,
      "loss": 1.627,
      "step": 32946
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4147196114063263,
      "learning_rate": 0.0004231247581046956,
      "loss": 1.5617,
      "step": 32947
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4155954420566559,
      "learning_rate": 0.0004231152267609224,
      "loss": 1.6658,
      "step": 32948
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4325520694255829,
      "learning_rate": 0.00042310569526770545,
      "loss": 1.6739,
      "step": 32949
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4279215931892395,
      "learning_rate": 0.0004230961636250564,
      "loss": 1.5945,
      "step": 32950
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42108190059661865,
      "learning_rate": 0.00042308663183298663,
      "loss": 1.6856,
      "step": 32951
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42514768242836,
      "learning_rate": 0.00042307709989150794,
      "loss": 1.5847,
      "step": 32952
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42802274227142334,
      "learning_rate": 0.0004230675678006317,
      "loss": 1.597,
      "step": 32953
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41533541679382324,
      "learning_rate": 0.00042305803556036956,
      "loss": 1.5875,
      "step": 32954
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4297952353954315,
      "learning_rate": 0.0004230485031707332,
      "loss": 1.5134,
      "step": 32955
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4253435730934143,
      "learning_rate": 0.000423038970631734,
      "loss": 1.7293,
      "step": 32956
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.417837530374527,
      "learning_rate": 0.0004230294379433837,
      "loss": 1.6138,
      "step": 32957
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4263595938682556,
      "learning_rate": 0.0004230199051056936,
      "loss": 1.706,
      "step": 32958
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4339229166507721,
      "learning_rate": 0.0004230103721186757,
      "loss": 1.6153,
      "step": 32959
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42487573623657227,
      "learning_rate": 0.0004230008389823412,
      "loss": 1.6275,
      "step": 32960
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40972134470939636,
      "learning_rate": 0.00042299130569670184,
      "loss": 1.6575,
      "step": 32961
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42157992720603943,
      "learning_rate": 0.00042298177226176914,
      "loss": 1.6752,
      "step": 32962
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42374831438064575,
      "learning_rate": 0.0004229722386775547,
      "loss": 1.6387,
      "step": 32963
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.408563494682312,
      "learning_rate": 0.00042296270494407006,
      "loss": 1.6826,
      "step": 32964
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42911192774772644,
      "learning_rate": 0.0004229531710613269,
      "loss": 1.6293,
      "step": 32965
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4443276524543762,
      "learning_rate": 0.00042294363702933657,
      "loss": 1.6684,
      "step": 32966
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43805986642837524,
      "learning_rate": 0.00042293410284811086,
      "loss": 1.6953,
      "step": 32967
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4152080714702606,
      "learning_rate": 0.00042292456851766126,
      "loss": 1.606,
      "step": 32968
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4463861882686615,
      "learning_rate": 0.00042291503403799936,
      "loss": 1.7082,
      "step": 32969
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4286649525165558,
      "learning_rate": 0.0004229054994091367,
      "loss": 1.6543,
      "step": 32970
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43901917338371277,
      "learning_rate": 0.00042289596463108487,
      "loss": 1.5957,
      "step": 32971
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40996283292770386,
      "learning_rate": 0.00042288642970385543,
      "loss": 1.6827,
      "step": 32972
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.44434884190559387,
      "learning_rate": 0.00042287689462746,
      "loss": 1.6702,
      "step": 32973
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42479947209358215,
      "learning_rate": 0.00042286735940191004,
      "loss": 1.624,
      "step": 32974
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4315902888774872,
      "learning_rate": 0.0004228578240272174,
      "loss": 1.596,
      "step": 32975
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4150765538215637,
      "learning_rate": 0.0004228482885033933,
      "loss": 1.6581,
      "step": 32976
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41296374797821045,
      "learning_rate": 0.00042283875283044954,
      "loss": 1.6599,
      "step": 32977
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42881765961647034,
      "learning_rate": 0.0004228292170083976,
      "loss": 1.63,
      "step": 32978
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42775991559028625,
      "learning_rate": 0.00042281968103724906,
      "loss": 1.6865,
      "step": 32979
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4115946888923645,
      "learning_rate": 0.0004228101449170157,
      "loss": 1.6473,
      "step": 32980
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4113934338092804,
      "learning_rate": 0.00042280060864770865,
      "loss": 1.5939,
      "step": 32981
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4158731698989868,
      "learning_rate": 0.00042279107222933997,
      "loss": 1.6517,
      "step": 32982
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42295223474502563,
      "learning_rate": 0.0004227815356619209,
      "loss": 1.5092,
      "step": 32983
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42335838079452515,
      "learning_rate": 0.0004227719989454632,
      "loss": 1.6934,
      "step": 32984
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.422168493270874,
      "learning_rate": 0.0004227624620799783,
      "loss": 1.6917,
      "step": 32985
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4474121034145355,
      "learning_rate": 0.0004227529250654779,
      "loss": 1.7057,
      "step": 32986
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42456743121147156,
      "learning_rate": 0.00042274338790197367,
      "loss": 1.5611,
      "step": 32987
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4303242266178131,
      "learning_rate": 0.0004227338505894769,
      "loss": 1.6034,
      "step": 32988
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4149201214313507,
      "learning_rate": 0.0004227243131279994,
      "loss": 1.6591,
      "step": 32989
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4318755269050598,
      "learning_rate": 0.00042271477551755266,
      "loss": 1.6555,
      "step": 32990
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.44273051619529724,
      "learning_rate": 0.0004227052377581482,
      "loss": 1.7031,
      "step": 32991
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41970643401145935,
      "learning_rate": 0.00042269569984979764,
      "loss": 1.5975,
      "step": 32992
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4116858243942261,
      "learning_rate": 0.0004226861617925127,
      "loss": 1.6041,
      "step": 32993
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42626866698265076,
      "learning_rate": 0.00042267662358630475,
      "loss": 1.6352,
      "step": 32994
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42330095171928406,
      "learning_rate": 0.00042266708523118544,
      "loss": 1.6356,
      "step": 32995
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42586225271224976,
      "learning_rate": 0.0004226575467271664,
      "loss": 1.5794,
      "step": 32996
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.426166296005249,
      "learning_rate": 0.00042264800807425917,
      "loss": 1.6041,
      "step": 32997
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4104050397872925,
      "learning_rate": 0.0004226384692724753,
      "loss": 1.6684,
      "step": 32998
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4410553574562073,
      "learning_rate": 0.0004226289303218265,
      "loss": 1.6654,
      "step": 32999
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4179364740848541,
      "learning_rate": 0.0004226193912223242,
      "loss": 1.6243,
      "step": 33000
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4227048456668854,
      "learning_rate": 0.0004226098519739799,
      "loss": 1.638,
      "step": 33001
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4509144723415375,
      "learning_rate": 0.00042260031257680545,
      "loss": 1.6999,
      "step": 33002
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42527079582214355,
      "learning_rate": 0.0004225907730308122,
      "loss": 1.6043,
      "step": 33003
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4201917052268982,
      "learning_rate": 0.0004225812333360119,
      "loss": 1.6571,
      "step": 33004
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4116208851337433,
      "learning_rate": 0.000422571693492416,
      "loss": 1.6858,
      "step": 33005
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42839542031288147,
      "learning_rate": 0.00042256215350003606,
      "loss": 1.6448,
      "step": 33006
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41688188910484314,
      "learning_rate": 0.00042255261335888384,
      "loss": 1.6715,
      "step": 33007
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4271785020828247,
      "learning_rate": 0.00042254307306897074,
      "loss": 1.695,
      "step": 33008
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41709551215171814,
      "learning_rate": 0.0004225335326303084,
      "loss": 1.5732,
      "step": 33009
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43619757890701294,
      "learning_rate": 0.0004225239920429085,
      "loss": 1.6247,
      "step": 33010
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42912915349006653,
      "learning_rate": 0.00042251445130678234,
      "loss": 1.5947,
      "step": 33011
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43430957198143005,
      "learning_rate": 0.00042250491042194186,
      "loss": 1.6484,
      "step": 33012
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43119898438453674,
      "learning_rate": 0.00042249536938839834,
      "loss": 1.6615,
      "step": 33013
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.416645348072052,
      "learning_rate": 0.0004224858282061636,
      "loss": 1.6763,
      "step": 33014
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4169245958328247,
      "learning_rate": 0.00042247628687524906,
      "loss": 1.6534,
      "step": 33015
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4510011374950409,
      "learning_rate": 0.00042246674539566634,
      "loss": 1.6956,
      "step": 33016
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41108256578445435,
      "learning_rate": 0.00042245720376742714,
      "loss": 1.6959,
      "step": 33017
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42148417234420776,
      "learning_rate": 0.0004224476619905428,
      "loss": 1.6659,
      "step": 33018
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43382981419563293,
      "learning_rate": 0.0004224381200650251,
      "loss": 1.6759,
      "step": 33019
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4405651092529297,
      "learning_rate": 0.00042242857799088554,
      "loss": 1.6661,
      "step": 33020
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4210953712463379,
      "learning_rate": 0.00042241903576813574,
      "loss": 1.6282,
      "step": 33021
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4320625066757202,
      "learning_rate": 0.0004224094933967873,
      "loss": 1.7451,
      "step": 33022
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.44005924463272095,
      "learning_rate": 0.0004223999508768517,
      "loss": 1.6812,
      "step": 33023
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4268534481525421,
      "learning_rate": 0.0004223904082083407,
      "loss": 1.5911,
      "step": 33024
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.5059619545936584,
      "learning_rate": 0.00042238086539126573,
      "loss": 1.6188,
      "step": 33025
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41126197576522827,
      "learning_rate": 0.0004223713224256383,
      "loss": 1.6,
      "step": 33026
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41915106773376465,
      "learning_rate": 0.00042236177931147023,
      "loss": 1.6783,
      "step": 33027
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43494123220443726,
      "learning_rate": 0.000422352236048773,
      "loss": 1.5585,
      "step": 33028
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4338383376598358,
      "learning_rate": 0.0004223426926375582,
      "loss": 1.6274,
      "step": 33029
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4310210049152374,
      "learning_rate": 0.00042233314907783737,
      "loss": 1.6596,
      "step": 33030
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41079816222190857,
      "learning_rate": 0.0004223236053696221,
      "loss": 1.5658,
      "step": 33031
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4360622465610504,
      "learning_rate": 0.000422314061512924,
      "loss": 1.6827,
      "step": 33032
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41895899176597595,
      "learning_rate": 0.0004223045175077546,
      "loss": 1.6387,
      "step": 33033
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4170193672180176,
      "learning_rate": 0.00042229497335412563,
      "loss": 1.6501,
      "step": 33034
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42101261019706726,
      "learning_rate": 0.0004222854290520486,
      "loss": 1.6697,
      "step": 33035
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42342057824134827,
      "learning_rate": 0.000422275884601535,
      "loss": 1.6745,
      "step": 33036
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4293675422668457,
      "learning_rate": 0.0004222663400025965,
      "loss": 1.6172,
      "step": 33037
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41586384177207947,
      "learning_rate": 0.0004222567952552447,
      "loss": 1.6946,
      "step": 33038
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4171644151210785,
      "learning_rate": 0.00042224725035949117,
      "loss": 1.6704,
      "step": 33039
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42358461022377014,
      "learning_rate": 0.00042223770531534747,
      "loss": 1.689,
      "step": 33040
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4478466510772705,
      "learning_rate": 0.00042222816012282523,
      "loss": 1.6499,
      "step": 33041
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40572699904441833,
      "learning_rate": 0.00042221861478193605,
      "loss": 1.6198,
      "step": 33042
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41727814078330994,
      "learning_rate": 0.0004222090692926913,
      "loss": 1.6354,
      "step": 33043
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43228980898857117,
      "learning_rate": 0.00042219952365510295,
      "loss": 1.5695,
      "step": 33044
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4158705472946167,
      "learning_rate": 0.00042218997786918234,
      "loss": 1.5726,
      "step": 33045
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40653833746910095,
      "learning_rate": 0.000422180431934941,
      "loss": 1.6385,
      "step": 33046
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4140477180480957,
      "learning_rate": 0.0004221708858523907,
      "loss": 1.6839,
      "step": 33047
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4071950316429138,
      "learning_rate": 0.000422161339621543,
      "loss": 1.6009,
      "step": 33048
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4270528256893158,
      "learning_rate": 0.00042215179324240937,
      "loss": 1.6386,
      "step": 33049
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4246799349784851,
      "learning_rate": 0.0004221422467150015,
      "loss": 1.6192,
      "step": 33050
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4416547119617462,
      "learning_rate": 0.00042213270003933084,
      "loss": 1.614,
      "step": 33051
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4272703230381012,
      "learning_rate": 0.00042212315321540916,
      "loss": 1.6644,
      "step": 33052
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42505165934562683,
      "learning_rate": 0.00042211360624324793,
      "loss": 1.5836,
      "step": 33053
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4208473563194275,
      "learning_rate": 0.00042210405912285876,
      "loss": 1.6651,
      "step": 33054
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42495203018188477,
      "learning_rate": 0.0004220945118542533,
      "loss": 1.6375,
      "step": 33055
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.428749680519104,
      "learning_rate": 0.0004220849644374431,
      "loss": 1.6625,
      "step": 33056
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42116472125053406,
      "learning_rate": 0.0004220754168724397,
      "loss": 1.5943,
      "step": 33057
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.5818706750869751,
      "learning_rate": 0.0004220658691592547,
      "loss": 1.6138,
      "step": 33058
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.44018810987472534,
      "learning_rate": 0.00042205632129789977,
      "loss": 1.6425,
      "step": 33059
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4417208433151245,
      "learning_rate": 0.00042204677328838653,
      "loss": 1.6775,
      "step": 33060
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41051068902015686,
      "learning_rate": 0.0004220372251307263,
      "loss": 1.608,
      "step": 33061
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4142987132072449,
      "learning_rate": 0.00042202767682493106,
      "loss": 1.6324,
      "step": 33062
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4080137014389038,
      "learning_rate": 0.00042201812837101203,
      "loss": 1.6376,
      "step": 33063
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42021825909614563,
      "learning_rate": 0.00042200857976898106,
      "loss": 1.6915,
      "step": 33064
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4242274761199951,
      "learning_rate": 0.00042199903101884976,
      "loss": 1.628,
      "step": 33065
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42987555265426636,
      "learning_rate": 0.00042198948212062934,
      "loss": 1.5609,
      "step": 33066
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4072304666042328,
      "learning_rate": 0.0004219799330743319,
      "loss": 1.6034,
      "step": 33067
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4337383210659027,
      "learning_rate": 0.00042197038387996864,
      "loss": 1.6575,
      "step": 33068
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4322832524776459,
      "learning_rate": 0.0004219608345375514,
      "loss": 1.6262,
      "step": 33069
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4265541732311249,
      "learning_rate": 0.00042195128504709167,
      "loss": 1.6581,
      "step": 33070
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41531258821487427,
      "learning_rate": 0.000421941735408601,
      "loss": 1.6148,
      "step": 33071
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42684516310691833,
      "learning_rate": 0.00042193218562209113,
      "loss": 1.7225,
      "step": 33072
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4221546947956085,
      "learning_rate": 0.0004219226356875734,
      "loss": 1.6277,
      "step": 33073
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4342145025730133,
      "learning_rate": 0.00042191308560505966,
      "loss": 1.6265,
      "step": 33074
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42882809042930603,
      "learning_rate": 0.0004219035353745613,
      "loss": 1.6341,
      "step": 33075
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4418410360813141,
      "learning_rate": 0.0004218939849960902,
      "loss": 1.6415,
      "step": 33076
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42543917894363403,
      "learning_rate": 0.0004218844344696576,
      "loss": 1.631,
      "step": 33077
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41759708523750305,
      "learning_rate": 0.0004218748837952753,
      "loss": 1.6406,
      "step": 33078
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4552130699157715,
      "learning_rate": 0.0004218653329729548,
      "loss": 1.6207,
      "step": 33079
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4160960018634796,
      "learning_rate": 0.0004218557820027078,
      "loss": 1.6812,
      "step": 33080
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42404595017433167,
      "learning_rate": 0.00042184623088454583,
      "loss": 1.6799,
      "step": 33081
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41429373621940613,
      "learning_rate": 0.00042183667961848056,
      "loss": 1.6479,
      "step": 33082
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4198865592479706,
      "learning_rate": 0.0004218271282045234,
      "loss": 1.613,
      "step": 33083
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4332445561885834,
      "learning_rate": 0.000421817576642686,
      "loss": 1.6043,
      "step": 33084
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43050843477249146,
      "learning_rate": 0.00042180802493298013,
      "loss": 1.6606,
      "step": 33085
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4096485674381256,
      "learning_rate": 0.00042179847307541736,
      "loss": 1.6624,
      "step": 33086
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.419741153717041,
      "learning_rate": 0.00042178892107000904,
      "loss": 1.5922,
      "step": 33087
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.45811110734939575,
      "learning_rate": 0.00042177936891676693,
      "loss": 1.6387,
      "step": 33088
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43125224113464355,
      "learning_rate": 0.0004217698166157026,
      "loss": 1.6721,
      "step": 33089
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41335976123809814,
      "learning_rate": 0.0004217602641668277,
      "loss": 1.6274,
      "step": 33090
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43089038133621216,
      "learning_rate": 0.00042175071157015374,
      "loss": 1.706,
      "step": 33091
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41998758912086487,
      "learning_rate": 0.0004217411588256924,
      "loss": 1.6859,
      "step": 33092
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4226839542388916,
      "learning_rate": 0.0004217316059334552,
      "loss": 1.6467,
      "step": 33093
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4189838171005249,
      "learning_rate": 0.0004217220528934538,
      "loss": 1.6241,
      "step": 33094
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40401217341423035,
      "learning_rate": 0.0004217124997056997,
      "loss": 1.6229,
      "step": 33095
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42156174778938293,
      "learning_rate": 0.00042170294637020457,
      "loss": 1.6758,
      "step": 33096
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42831912636756897,
      "learning_rate": 0.0004216933928869801,
      "loss": 1.6401,
      "step": 33097
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4308973550796509,
      "learning_rate": 0.0004216838392560376,
      "loss": 1.6217,
      "step": 33098
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43215635418891907,
      "learning_rate": 0.00042167428547738904,
      "loss": 1.6675,
      "step": 33099
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.6590888500213623,
      "learning_rate": 0.00042166473155104574,
      "loss": 1.6481,
      "step": 33100
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4004129469394684,
      "learning_rate": 0.00042165517747701936,
      "loss": 1.6881,
      "step": 33101
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4257131516933441,
      "learning_rate": 0.0004216456232553215,
      "loss": 1.6597,
      "step": 33102
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4239576458930969,
      "learning_rate": 0.0004216360688859638,
      "loss": 1.6605,
      "step": 33103
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43006905913352966,
      "learning_rate": 0.0004216265143689579,
      "loss": 1.5396,
      "step": 33104
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4240441620349884,
      "learning_rate": 0.00042161695970431524,
      "loss": 1.5288,
      "step": 33105
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.419856458902359,
      "learning_rate": 0.0004216074048920476,
      "loss": 1.6489,
      "step": 33106
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4210198223590851,
      "learning_rate": 0.0004215978499321664,
      "loss": 1.6087,
      "step": 33107
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4263491630554199,
      "learning_rate": 0.00042158829482468336,
      "loss": 1.6107,
      "step": 33108
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43122509121894836,
      "learning_rate": 0.00042157873956961,
      "loss": 1.6566,
      "step": 33109
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4151545464992523,
      "learning_rate": 0.00042156918416695805,
      "loss": 1.6426,
      "step": 33110
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.425367146730423,
      "learning_rate": 0.000421559628616739,
      "loss": 1.5732,
      "step": 33111
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4851987361907959,
      "learning_rate": 0.0004215500729189645,
      "loss": 1.7487,
      "step": 33112
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42978227138519287,
      "learning_rate": 0.0004215405170736461,
      "loss": 1.7662,
      "step": 33113
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.421257346868515,
      "learning_rate": 0.00042153096108079534,
      "loss": 1.6552,
      "step": 33114
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41427141427993774,
      "learning_rate": 0.00042152140494042397,
      "loss": 1.6609,
      "step": 33115
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43030014634132385,
      "learning_rate": 0.0004215118486525435,
      "loss": 1.6733,
      "step": 33116
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41333243250846863,
      "learning_rate": 0.0004215022922171656,
      "loss": 1.609,
      "step": 33117
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4276077151298523,
      "learning_rate": 0.0004214927356343017,
      "loss": 1.6611,
      "step": 33118
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4100882411003113,
      "learning_rate": 0.00042148317890396364,
      "loss": 1.6178,
      "step": 33119
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4167974293231964,
      "learning_rate": 0.00042147362202616284,
      "loss": 1.6308,
      "step": 33120
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4061906039714813,
      "learning_rate": 0.000421464065000911,
      "loss": 1.6523,
      "step": 33121
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41744911670684814,
      "learning_rate": 0.0004214545078282197,
      "loss": 1.6707,
      "step": 33122
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4361998438835144,
      "learning_rate": 0.00042144495050810044,
      "loss": 1.6765,
      "step": 33123
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40384796261787415,
      "learning_rate": 0.000421435393040565,
      "loss": 1.6314,
      "step": 33124
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4265836179256439,
      "learning_rate": 0.00042142583542562485,
      "loss": 1.5934,
      "step": 33125
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4291801154613495,
      "learning_rate": 0.0004214162776632916,
      "loss": 1.6426,
      "step": 33126
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4054034650325775,
      "learning_rate": 0.00042140671975357687,
      "loss": 1.6537,
      "step": 33127
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4131155014038086,
      "learning_rate": 0.0004213971616964923,
      "loss": 1.5933,
      "step": 33128
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43484973907470703,
      "learning_rate": 0.0004213876034920495,
      "loss": 1.6533,
      "step": 33129
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.429116427898407,
      "learning_rate": 0.0004213780451402599,
      "loss": 1.6393,
      "step": 33130
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4315967261791229,
      "learning_rate": 0.00042136848664113536,
      "loss": 1.5891,
      "step": 33131
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4222084879875183,
      "learning_rate": 0.0004213589279946873,
      "loss": 1.6057,
      "step": 33132
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4186403155326843,
      "learning_rate": 0.00042134936920092743,
      "loss": 1.6768,
      "step": 33133
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4102626144886017,
      "learning_rate": 0.0004213398102598674,
      "loss": 1.5497,
      "step": 33134
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43283459544181824,
      "learning_rate": 0.0004213302511715185,
      "loss": 1.6692,
      "step": 33135
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4495374858379364,
      "learning_rate": 0.0004213206919358927,
      "loss": 1.6754,
      "step": 33136
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42135435342788696,
      "learning_rate": 0.00042131113255300135,
      "loss": 1.6869,
      "step": 33137
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4337631165981293,
      "learning_rate": 0.0004213015730228562,
      "loss": 1.6734,
      "step": 33138
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4349464476108551,
      "learning_rate": 0.00042129201334546886,
      "loss": 1.5987,
      "step": 33139
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4214220345020294,
      "learning_rate": 0.0004212824535208509,
      "loss": 1.6858,
      "step": 33140
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43705087900161743,
      "learning_rate": 0.0004212728935490139,
      "loss": 1.687,
      "step": 33141
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43675902485847473,
      "learning_rate": 0.00042126333342996946,
      "loss": 1.6055,
      "step": 33142
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4185278117656708,
      "learning_rate": 0.0004212537731637292,
      "loss": 1.625,
      "step": 33143
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4074697196483612,
      "learning_rate": 0.00042124421275030466,
      "loss": 1.6544,
      "step": 33144
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42914673686027527,
      "learning_rate": 0.0004212346521897076,
      "loss": 1.6291,
      "step": 33145
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4115799367427826,
      "learning_rate": 0.00042122509148194946,
      "loss": 1.6276,
      "step": 33146
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42544347047805786,
      "learning_rate": 0.000421215530627042,
      "loss": 1.6885,
      "step": 33147
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42682912945747375,
      "learning_rate": 0.00042120596962499674,
      "loss": 1.5693,
      "step": 33148
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.451590895652771,
      "learning_rate": 0.0004211964084758252,
      "loss": 1.6482,
      "step": 33149
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43597081303596497,
      "learning_rate": 0.0004211868471795392,
      "loss": 1.6898,
      "step": 33150
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42918217182159424,
      "learning_rate": 0.00042117728573615014,
      "loss": 1.6231,
      "step": 33151
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4118243157863617,
      "learning_rate": 0.00042116772414566977,
      "loss": 1.6274,
      "step": 33152
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41933995485305786,
      "learning_rate": 0.0004211581624081095,
      "loss": 1.6145,
      "step": 33153
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4390588402748108,
      "learning_rate": 0.0004211486005234812,
      "loss": 1.6504,
      "step": 33154
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42450830340385437,
      "learning_rate": 0.00042113903849179635,
      "loss": 1.6403,
      "step": 33155
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.405799001455307,
      "learning_rate": 0.00042112947631306653,
      "loss": 1.5996,
      "step": 33156
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4238913953304291,
      "learning_rate": 0.00042111991398730334,
      "loss": 1.6688,
      "step": 33157
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43770045042037964,
      "learning_rate": 0.00042111035151451843,
      "loss": 1.7743,
      "step": 33158
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42017418146133423,
      "learning_rate": 0.0004211007888947235,
      "loss": 1.6527,
      "step": 33159
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4420478641986847,
      "learning_rate": 0.00042109122612792987,
      "loss": 1.6645,
      "step": 33160
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4152734577655792,
      "learning_rate": 0.00042108166321414947,
      "loss": 1.6451,
      "step": 33161
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4180888533592224,
      "learning_rate": 0.00042107210015339375,
      "loss": 1.6699,
      "step": 33162
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41217124462127686,
      "learning_rate": 0.00042106253694567427,
      "loss": 1.633,
      "step": 33163
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4147185981273651,
      "learning_rate": 0.0004210529735910028,
      "loss": 1.6033,
      "step": 33164
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41863390803337097,
      "learning_rate": 0.00042104341008939084,
      "loss": 1.6643,
      "step": 33165
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4054647982120514,
      "learning_rate": 0.00042103384644085005,
      "loss": 1.6733,
      "step": 33166
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42476263642311096,
      "learning_rate": 0.00042102428264539194,
      "loss": 1.6933,
      "step": 33167
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4076640009880066,
      "learning_rate": 0.00042101471870302823,
      "loss": 1.6716,
      "step": 33168
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4357810914516449,
      "learning_rate": 0.00042100515461377037,
      "loss": 1.6051,
      "step": 33169
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42309924960136414,
      "learning_rate": 0.00042099559037763016,
      "loss": 1.6329,
      "step": 33170
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43720880150794983,
      "learning_rate": 0.00042098602599461915,
      "loss": 1.6793,
      "step": 33171
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4305409789085388,
      "learning_rate": 0.00042097646146474894,
      "loss": 1.5987,
      "step": 33172
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41717928647994995,
      "learning_rate": 0.0004209668967880311,
      "loss": 1.6469,
      "step": 33173
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4343225061893463,
      "learning_rate": 0.00042095733196447724,
      "loss": 1.5979,
      "step": 33174
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43051403760910034,
      "learning_rate": 0.00042094776699409906,
      "loss": 1.6442,
      "step": 33175
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41361379623413086,
      "learning_rate": 0.0004209382018769081,
      "loss": 1.6606,
      "step": 33176
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42141395807266235,
      "learning_rate": 0.000420928636612916,
      "loss": 1.6017,
      "step": 33177
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4366711676120758,
      "learning_rate": 0.0004209190712021342,
      "loss": 1.7011,
      "step": 33178
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4272889494895935,
      "learning_rate": 0.0004209095056445746,
      "loss": 1.6669,
      "step": 33179
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4212699234485626,
      "learning_rate": 0.00042089993994024865,
      "loss": 1.6296,
      "step": 33180
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.424405962228775,
      "learning_rate": 0.000420890374089168,
      "loss": 1.6204,
      "step": 33181
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.453919917345047,
      "learning_rate": 0.0004208808080913443,
      "loss": 1.6574,
      "step": 33182
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4248076379299164,
      "learning_rate": 0.00042087124194678906,
      "loss": 1.6433,
      "step": 33183
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4192100763320923,
      "learning_rate": 0.0004208616756555139,
      "loss": 1.6716,
      "step": 33184
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41423848271369934,
      "learning_rate": 0.00042085210921753046,
      "loss": 1.6569,
      "step": 33185
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4360415041446686,
      "learning_rate": 0.0004208425426328505,
      "loss": 1.6674,
      "step": 33186
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4292895197868347,
      "learning_rate": 0.00042083297590148544,
      "loss": 1.6205,
      "step": 33187
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4207882285118103,
      "learning_rate": 0.00042082340902344686,
      "loss": 1.6533,
      "step": 33188
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4191214144229889,
      "learning_rate": 0.0004208138419987466,
      "loss": 1.6304,
      "step": 33189
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4079558849334717,
      "learning_rate": 0.00042080427482739597,
      "loss": 1.5708,
      "step": 33190
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.44721123576164246,
      "learning_rate": 0.00042079470750940696,
      "loss": 1.6749,
      "step": 33191
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41648250818252563,
      "learning_rate": 0.00042078514004479083,
      "loss": 1.5832,
      "step": 33192
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4220011234283447,
      "learning_rate": 0.0004207755724335593,
      "loss": 1.6681,
      "step": 33193
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40203145146369934,
      "learning_rate": 0.0004207660046757241,
      "loss": 1.58,
      "step": 33194
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42364248633384705,
      "learning_rate": 0.00042075643677129675,
      "loss": 1.6953,
      "step": 33195
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4424833357334137,
      "learning_rate": 0.00042074686872028896,
      "loss": 1.6395,
      "step": 33196
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4600093960762024,
      "learning_rate": 0.0004207373005227121,
      "loss": 1.7367,
      "step": 33197
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4233608543872833,
      "learning_rate": 0.00042072773217857805,
      "loss": 1.6687,
      "step": 33198
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4257994592189789,
      "learning_rate": 0.0004207181636878983,
      "loss": 1.5915,
      "step": 33199
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4478013813495636,
      "learning_rate": 0.0004207085950506845,
      "loss": 1.6852,
      "step": 33200
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4453762471675873,
      "learning_rate": 0.0004206990262669482,
      "loss": 1.6607,
      "step": 33201
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4180854260921478,
      "learning_rate": 0.0004206894573367011,
      "loss": 1.6537,
      "step": 33202
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4258394241333008,
      "learning_rate": 0.0004206798882599548,
      "loss": 1.6942,
      "step": 33203
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.427094042301178,
      "learning_rate": 0.000420670319036721,
      "loss": 1.6103,
      "step": 33204
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.42237550020217896,
      "learning_rate": 0.000420660749667011,
      "loss": 1.6405,
      "step": 33205
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.5770902633666992,
      "learning_rate": 0.0004206511801508367,
      "loss": 1.6314,
      "step": 33206
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43932247161865234,
      "learning_rate": 0.0004206416104882097,
      "loss": 1.6662,
      "step": 33207
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4282745122909546,
      "learning_rate": 0.0004206320406791415,
      "loss": 1.6331,
      "step": 33208
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.43207982182502747,
      "learning_rate": 0.0004206224707236439,
      "loss": 1.6635,
      "step": 33209
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4058803915977478,
      "learning_rate": 0.0004206129006217283,
      "loss": 1.6344,
      "step": 33210
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4226572811603546,
      "learning_rate": 0.0004206033303734064,
      "loss": 1.6223,
      "step": 33211
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.41964930295944214,
      "learning_rate": 0.0004205937599786898,
      "loss": 1.7348,
      "step": 33212
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4376930892467499,
      "learning_rate": 0.0004205841894375902,
      "loss": 1.6656,
      "step": 33213
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43212446570396423,
      "learning_rate": 0.0004205746187501192,
      "loss": 1.6435,
      "step": 33214
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4025823771953583,
      "learning_rate": 0.0004205650479162882,
      "loss": 1.5904,
      "step": 33215
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4282929003238678,
      "learning_rate": 0.0004205554769361092,
      "loss": 1.6363,
      "step": 33216
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41623252630233765,
      "learning_rate": 0.0004205459058095935,
      "loss": 1.6264,
      "step": 33217
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41313716769218445,
      "learning_rate": 0.0004205363345367528,
      "loss": 1.6064,
      "step": 33218
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44930028915405273,
      "learning_rate": 0.0004205267631175989,
      "loss": 1.6427,
      "step": 33219
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4233141243457794,
      "learning_rate": 0.00042051719155214315,
      "loss": 1.6695,
      "step": 33220
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41486796736717224,
      "learning_rate": 0.00042050761984039736,
      "loss": 1.623,
      "step": 33221
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43914473056793213,
      "learning_rate": 0.00042049804798237296,
      "loss": 1.7062,
      "step": 33222
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43078163266181946,
      "learning_rate": 0.0004204884759780818,
      "loss": 1.6059,
      "step": 33223
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4296579957008362,
      "learning_rate": 0.00042047890382753534,
      "loss": 1.6283,
      "step": 33224
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42571642994880676,
      "learning_rate": 0.0004204693315307452,
      "loss": 1.6654,
      "step": 33225
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4236410856246948,
      "learning_rate": 0.0004204597590877231,
      "loss": 1.6271,
      "step": 33226
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41358864307403564,
      "learning_rate": 0.0004204501864984806,
      "loss": 1.7221,
      "step": 33227
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4326062798500061,
      "learning_rate": 0.00042044061376302934,
      "loss": 1.628,
      "step": 33228
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43106305599212646,
      "learning_rate": 0.00042043104088138094,
      "loss": 1.6373,
      "step": 33229
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42166563868522644,
      "learning_rate": 0.00042042146785354684,
      "loss": 1.6124,
      "step": 33230
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4150656759738922,
      "learning_rate": 0.00042041189467953893,
      "loss": 1.5749,
      "step": 33231
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4251408874988556,
      "learning_rate": 0.00042040232135936875,
      "loss": 1.6477,
      "step": 33232
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42952147126197815,
      "learning_rate": 0.00042039274789304785,
      "loss": 1.6311,
      "step": 33233
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4742589294910431,
      "learning_rate": 0.000420383174280588,
      "loss": 1.6954,
      "step": 33234
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42733338475227356,
      "learning_rate": 0.0004203736005220006,
      "loss": 1.5849,
      "step": 33235
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.47453323006629944,
      "learning_rate": 0.00042036402661729734,
      "loss": 1.6724,
      "step": 33236
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4290825426578522,
      "learning_rate": 0.00042035445256649,
      "loss": 1.684,
      "step": 33237
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.432971715927124,
      "learning_rate": 0.0004203448783695901,
      "loss": 1.6709,
      "step": 33238
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41612839698791504,
      "learning_rate": 0.00042033530402660915,
      "loss": 1.6588,
      "step": 33239
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4323398172855377,
      "learning_rate": 0.0004203257295375588,
      "loss": 1.6192,
      "step": 33240
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4309418797492981,
      "learning_rate": 0.000420316154902451,
      "loss": 1.6853,
      "step": 33241
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44311827421188354,
      "learning_rate": 0.00042030658012129693,
      "loss": 1.5983,
      "step": 33242
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4266912639141083,
      "learning_rate": 0.0004202970051941084,
      "loss": 1.6309,
      "step": 33243
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4251791834831238,
      "learning_rate": 0.00042028743012089716,
      "loss": 1.6368,
      "step": 33244
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.420877069234848,
      "learning_rate": 0.00042027785490167456,
      "loss": 1.7147,
      "step": 33245
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4382777512073517,
      "learning_rate": 0.0004202682795364525,
      "loss": 1.6161,
      "step": 33246
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43103668093681335,
      "learning_rate": 0.00042025870402524225,
      "loss": 1.7035,
      "step": 33247
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4154147207736969,
      "learning_rate": 0.0004202491283680559,
      "loss": 1.6052,
      "step": 33248
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4288121461868286,
      "learning_rate": 0.0004202395525649047,
      "loss": 1.5333,
      "step": 33249
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4321106970310211,
      "learning_rate": 0.00042022997661580043,
      "loss": 1.6781,
      "step": 33250
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44102129340171814,
      "learning_rate": 0.00042022040052075465,
      "loss": 1.6204,
      "step": 33251
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42624762654304504,
      "learning_rate": 0.000420210824279779,
      "loss": 1.6918,
      "step": 33252
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43385016918182373,
      "learning_rate": 0.0004202012478928852,
      "loss": 1.5996,
      "step": 33253
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43176934123039246,
      "learning_rate": 0.00042019167136008476,
      "loss": 1.6201,
      "step": 33254
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43368205428123474,
      "learning_rate": 0.0004201820946813893,
      "loss": 1.6989,
      "step": 33255
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4403400123119354,
      "learning_rate": 0.00042017251785681056,
      "loss": 1.627,
      "step": 33256
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4350672662258148,
      "learning_rate": 0.00042016294088636,
      "loss": 1.6218,
      "step": 33257
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4609545171260834,
      "learning_rate": 0.0004201533637700495,
      "loss": 1.6272,
      "step": 33258
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4468577802181244,
      "learning_rate": 0.0004201437865078904,
      "loss": 1.6463,
      "step": 33259
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42130282521247864,
      "learning_rate": 0.0004201342090998944,
      "loss": 1.5998,
      "step": 33260
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41560161113739014,
      "learning_rate": 0.00042012463154607327,
      "loss": 1.6197,
      "step": 33261
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43303385376930237,
      "learning_rate": 0.00042011505384643847,
      "loss": 1.6213,
      "step": 33262
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43336546421051025,
      "learning_rate": 0.0004201054760010016,
      "loss": 1.6241,
      "step": 33263
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.45672085881233215,
      "learning_rate": 0.0004200958980097746,
      "loss": 1.6452,
      "step": 33264
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4135259985923767,
      "learning_rate": 0.00042008631987276875,
      "loss": 1.6712,
      "step": 33265
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4192212224006653,
      "learning_rate": 0.00042007674158999587,
      "loss": 1.601,
      "step": 33266
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42641034722328186,
      "learning_rate": 0.00042006716316146745,
      "loss": 1.5989,
      "step": 33267
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43839794397354126,
      "learning_rate": 0.00042005758458719516,
      "loss": 1.6591,
      "step": 33268
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42657890915870667,
      "learning_rate": 0.0004200480058671907,
      "loss": 1.6664,
      "step": 33269
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40510931611061096,
      "learning_rate": 0.0004200384270014656,
      "loss": 1.6257,
      "step": 33270
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42126885056495667,
      "learning_rate": 0.0004200288479900316,
      "loss": 1.6196,
      "step": 33271
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4350228011608124,
      "learning_rate": 0.00042001926883290027,
      "loss": 1.6656,
      "step": 33272
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4247286021709442,
      "learning_rate": 0.0004200096895300832,
      "loss": 1.6375,
      "step": 33273
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41557008028030396,
      "learning_rate": 0.000420000110081592,
      "loss": 1.6073,
      "step": 33274
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4161827862262726,
      "learning_rate": 0.00041999053048743845,
      "loss": 1.6459,
      "step": 33275
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4273834824562073,
      "learning_rate": 0.0004199809507476341,
      "loss": 1.6786,
      "step": 33276
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42144155502319336,
      "learning_rate": 0.00041997137086219045,
      "loss": 1.6357,
      "step": 33277
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42859601974487305,
      "learning_rate": 0.0004199617908311193,
      "loss": 1.6158,
      "step": 33278
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42826053500175476,
      "learning_rate": 0.0004199522106544321,
      "loss": 1.6095,
      "step": 33279
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40787607431411743,
      "learning_rate": 0.00041994263033214073,
      "loss": 1.6532,
      "step": 33280
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4188491702079773,
      "learning_rate": 0.00041993304986425654,
      "loss": 1.6645,
      "step": 33281
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40626609325408936,
      "learning_rate": 0.0004199234692507914,
      "loss": 1.5992,
      "step": 33282
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4294012188911438,
      "learning_rate": 0.00041991388849175684,
      "loss": 1.5834,
      "step": 33283
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4181049168109894,
      "learning_rate": 0.00041990430758716453,
      "loss": 1.6294,
      "step": 33284
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4194730222225189,
      "learning_rate": 0.00041989472653702594,
      "loss": 1.6155,
      "step": 33285
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.417172372341156,
      "learning_rate": 0.0004198851453413529,
      "loss": 1.6658,
      "step": 33286
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40714526176452637,
      "learning_rate": 0.0004198755640001569,
      "loss": 1.6597,
      "step": 33287
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41665688157081604,
      "learning_rate": 0.00041986598251344957,
      "loss": 1.5622,
      "step": 33288
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4237722158432007,
      "learning_rate": 0.0004198564008812428,
      "loss": 1.6421,
      "step": 33289
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42767268419265747,
      "learning_rate": 0.0004198468191035478,
      "loss": 1.6162,
      "step": 33290
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40954864025115967,
      "learning_rate": 0.00041983723718037663,
      "loss": 1.5946,
      "step": 33291
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41149047017097473,
      "learning_rate": 0.0004198276551117405,
      "loss": 1.6144,
      "step": 33292
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4288117289543152,
      "learning_rate": 0.0004198180728976514,
      "loss": 1.6786,
      "step": 33293
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4403448700904846,
      "learning_rate": 0.0004198084905381208,
      "loss": 1.6584,
      "step": 33294
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41627782583236694,
      "learning_rate": 0.0004197989080331602,
      "loss": 1.6249,
      "step": 33295
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4190383553504944,
      "learning_rate": 0.0004197893253827816,
      "loss": 1.5809,
      "step": 33296
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43580371141433716,
      "learning_rate": 0.00041977974258699624,
      "loss": 1.6219,
      "step": 33297
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42097389698028564,
      "learning_rate": 0.000419770159645816,
      "loss": 1.7256,
      "step": 33298
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44348686933517456,
      "learning_rate": 0.0004197605765592525,
      "loss": 1.6087,
      "step": 33299
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4149400591850281,
      "learning_rate": 0.0004197509933273171,
      "loss": 1.6337,
      "step": 33300
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4389762580394745,
      "learning_rate": 0.00041974140995002185,
      "loss": 1.658,
      "step": 33301
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4449961483478546,
      "learning_rate": 0.00041973182642737804,
      "loss": 1.6667,
      "step": 33302
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4357437193393707,
      "learning_rate": 0.0004197222427593975,
      "loss": 1.6448,
      "step": 33303
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4309065639972687,
      "learning_rate": 0.00041971265894609174,
      "loss": 1.6135,
      "step": 33304
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.5530169606208801,
      "learning_rate": 0.0004197030749874725,
      "loss": 1.66,
      "step": 33305
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42147836089134216,
      "learning_rate": 0.00041969349088355137,
      "loss": 1.6364,
      "step": 33306
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42794013023376465,
      "learning_rate": 0.00041968390663433994,
      "loss": 1.597,
      "step": 33307
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43153470754623413,
      "learning_rate": 0.0004196743222398499,
      "loss": 1.6311,
      "step": 33308
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41330328583717346,
      "learning_rate": 0.0004196647377000929,
      "loss": 1.6277,
      "step": 33309
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42064565420150757,
      "learning_rate": 0.0004196551530150805,
      "loss": 1.6344,
      "step": 33310
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.435181200504303,
      "learning_rate": 0.00041964556818482434,
      "loss": 1.6731,
      "step": 33311
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41629454493522644,
      "learning_rate": 0.00041963598320933607,
      "loss": 1.6759,
      "step": 33312
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4385085105895996,
      "learning_rate": 0.0004196263980886275,
      "loss": 1.5645,
      "step": 33313
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.49072784185409546,
      "learning_rate": 0.00041961681282270995,
      "loss": 1.6895,
      "step": 33314
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4340633153915405,
      "learning_rate": 0.0004196072274115953,
      "loss": 1.6513,
      "step": 33315
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44028058648109436,
      "learning_rate": 0.00041959764185529506,
      "loss": 1.6295,
      "step": 33316
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4232562780380249,
      "learning_rate": 0.00041958805615382094,
      "loss": 1.6889,
      "step": 33317
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42200198769569397,
      "learning_rate": 0.0004195784703071845,
      "loss": 1.6639,
      "step": 33318
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42154836654663086,
      "learning_rate": 0.00041956888431539743,
      "loss": 1.5942,
      "step": 33319
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4290412962436676,
      "learning_rate": 0.0004195592981784714,
      "loss": 1.6692,
      "step": 33320
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4206000864505768,
      "learning_rate": 0.0004195497118964179,
      "loss": 1.6034,
      "step": 33321
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4223761558532715,
      "learning_rate": 0.0004195401254692488,
      "loss": 1.6594,
      "step": 33322
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4269694685935974,
      "learning_rate": 0.0004195305388969755,
      "loss": 1.6662,
      "step": 33323
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42719605565071106,
      "learning_rate": 0.0004195209521796097,
      "loss": 1.6164,
      "step": 33324
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4345585107803345,
      "learning_rate": 0.0004195113653171631,
      "loss": 1.6181,
      "step": 33325
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4456421136856079,
      "learning_rate": 0.00041950177830964744,
      "loss": 1.6209,
      "step": 33326
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42025768756866455,
      "learning_rate": 0.0004194921911570741,
      "loss": 1.6409,
      "step": 33327
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41938748955726624,
      "learning_rate": 0.0004194826038594549,
      "loss": 1.6879,
      "step": 33328
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4264477789402008,
      "learning_rate": 0.0004194730164168014,
      "loss": 1.6109,
      "step": 33329
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4310673177242279,
      "learning_rate": 0.0004194634288291252,
      "loss": 1.6526,
      "step": 33330
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4351406395435333,
      "learning_rate": 0.0004194538410964382,
      "loss": 1.6813,
      "step": 33331
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41905927658081055,
      "learning_rate": 0.00041944425321875157,
      "loss": 1.645,
      "step": 33332
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41497284173965454,
      "learning_rate": 0.00041943466519607747,
      "loss": 1.6009,
      "step": 33333
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41682595014572144,
      "learning_rate": 0.0004194250770284271,
      "loss": 1.6926,
      "step": 33334
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42957279086112976,
      "learning_rate": 0.0004194154887158123,
      "loss": 1.6224,
      "step": 33335
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43549874424934387,
      "learning_rate": 0.00041940590025824477,
      "loss": 1.6648,
      "step": 33336
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4092315435409546,
      "learning_rate": 0.00041939631165573604,
      "loss": 1.5921,
      "step": 33337
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4197736382484436,
      "learning_rate": 0.0004193867229082978,
      "loss": 1.661,
      "step": 33338
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42154014110565186,
      "learning_rate": 0.0004193771340159416,
      "loss": 1.6642,
      "step": 33339
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.418935626745224,
      "learning_rate": 0.00041936754497867923,
      "loss": 1.6125,
      "step": 33340
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4182860255241394,
      "learning_rate": 0.00041935795579652225,
      "loss": 1.6079,
      "step": 33341
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4532364308834076,
      "learning_rate": 0.0004193483664694822,
      "loss": 1.6179,
      "step": 33342
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4343315660953522,
      "learning_rate": 0.00041933877699757094,
      "loss": 1.6865,
      "step": 33343
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41676703095436096,
      "learning_rate": 0.00041932918738079986,
      "loss": 1.6322,
      "step": 33344
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4221518039703369,
      "learning_rate": 0.0004193195976191809,
      "loss": 1.6359,
      "step": 33345
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4423438608646393,
      "learning_rate": 0.0004193100077127254,
      "loss": 1.6435,
      "step": 33346
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42222145199775696,
      "learning_rate": 0.0004193004176614452,
      "loss": 1.7023,
      "step": 33347
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42448949813842773,
      "learning_rate": 0.0004192908274653518,
      "loss": 1.6264,
      "step": 33348
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43159183859825134,
      "learning_rate": 0.00041928123712445687,
      "loss": 1.6615,
      "step": 33349
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.415254682302475,
      "learning_rate": 0.00041927164663877224,
      "loss": 1.5779,
      "step": 33350
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4160478413105011,
      "learning_rate": 0.00041926205600830937,
      "loss": 1.6717,
      "step": 33351
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4206807315349579,
      "learning_rate": 0.0004192524652330798,
      "loss": 1.5751,
      "step": 33352
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4339887797832489,
      "learning_rate": 0.0004192428743130954,
      "loss": 1.6412,
      "step": 33353
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.433037132024765,
      "learning_rate": 0.0004192332832483677,
      "loss": 1.6283,
      "step": 33354
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42865219712257385,
      "learning_rate": 0.0004192236920389084,
      "loss": 1.654,
      "step": 33355
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4292175769805908,
      "learning_rate": 0.0004192141006847292,
      "loss": 1.5935,
      "step": 33356
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4304896891117096,
      "learning_rate": 0.0004192045091858414,
      "loss": 1.6954,
      "step": 33357
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4184449017047882,
      "learning_rate": 0.0004191949175422571,
      "loss": 1.6489,
      "step": 33358
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4386065900325775,
      "learning_rate": 0.00041918532575398773,
      "loss": 1.6689,
      "step": 33359
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4366133511066437,
      "learning_rate": 0.00041917573382104477,
      "loss": 1.6222,
      "step": 33360
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4343886077404022,
      "learning_rate": 0.0004191661417434402,
      "loss": 1.6492,
      "step": 33361
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4352891743183136,
      "learning_rate": 0.00041915654952118535,
      "loss": 1.6456,
      "step": 33362
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41312286257743835,
      "learning_rate": 0.00041914695715429215,
      "loss": 1.6253,
      "step": 33363
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4321160316467285,
      "learning_rate": 0.0004191373646427719,
      "loss": 1.5853,
      "step": 33364
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41071829199790955,
      "learning_rate": 0.0004191277719866366,
      "loss": 1.6131,
      "step": 33365
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.417475163936615,
      "learning_rate": 0.00041911817918589774,
      "loss": 1.6013,
      "step": 33366
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4221838712692261,
      "learning_rate": 0.0004191085862405669,
      "loss": 1.6772,
      "step": 33367
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41794708371162415,
      "learning_rate": 0.00041909899315065586,
      "loss": 1.7123,
      "step": 33368
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4170297384262085,
      "learning_rate": 0.00041908939991617606,
      "loss": 1.6511,
      "step": 33369
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4367187023162842,
      "learning_rate": 0.0004190798065371394,
      "loss": 1.7212,
      "step": 33370
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41267579793930054,
      "learning_rate": 0.00041907021301355743,
      "loss": 1.6401,
      "step": 33371
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4139006733894348,
      "learning_rate": 0.00041906061934544165,
      "loss": 1.558,
      "step": 33372
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.39976921677589417,
      "learning_rate": 0.00041905102553280383,
      "loss": 1.6456,
      "step": 33373
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40803006291389465,
      "learning_rate": 0.0004190414315756557,
      "loss": 1.5723,
      "step": 33374
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4201236963272095,
      "learning_rate": 0.0004190318374740088,
      "loss": 1.5535,
      "step": 33375
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42521005868911743,
      "learning_rate": 0.0004190222432278747,
      "loss": 1.7276,
      "step": 33376
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.47588852047920227,
      "learning_rate": 0.0004190126488372652,
      "loss": 1.6894,
      "step": 33377
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.5854201316833496,
      "learning_rate": 0.0004190030543021918,
      "loss": 1.6536,
      "step": 33378
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43071940541267395,
      "learning_rate": 0.00041899345962266625,
      "loss": 1.7515,
      "step": 33379
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41733258962631226,
      "learning_rate": 0.0004189838647987002,
      "loss": 1.6602,
      "step": 33380
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4069686233997345,
      "learning_rate": 0.0004189742698303053,
      "loss": 1.7143,
      "step": 33381
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43773195147514343,
      "learning_rate": 0.00041896467471749316,
      "loss": 1.6749,
      "step": 33382
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4296213984489441,
      "learning_rate": 0.0004189550794602754,
      "loss": 1.6996,
      "step": 33383
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42676275968551636,
      "learning_rate": 0.0004189454840586637,
      "loss": 1.7193,
      "step": 33384
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4253091812133789,
      "learning_rate": 0.00041893588851266974,
      "loss": 1.6186,
      "step": 33385
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4224548041820526,
      "learning_rate": 0.00041892629282230516,
      "loss": 1.6403,
      "step": 33386
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4182988703250885,
      "learning_rate": 0.0004189166969875815,
      "loss": 1.6613,
      "step": 33387
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42948421835899353,
      "learning_rate": 0.0004189071010085106,
      "loss": 1.7031,
      "step": 33388
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.7879485487937927,
      "learning_rate": 0.0004188975048851039,
      "loss": 1.6721,
      "step": 33389
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44202956557273865,
      "learning_rate": 0.0004188879086173732,
      "loss": 1.6403,
      "step": 33390
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4299214780330658,
      "learning_rate": 0.00041887831220533,
      "loss": 1.6338,
      "step": 33391
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44724535942077637,
      "learning_rate": 0.0004188687156489861,
      "loss": 1.6046,
      "step": 33392
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42874017357826233,
      "learning_rate": 0.0004188591189483532,
      "loss": 1.6024,
      "step": 33393
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4258096218109131,
      "learning_rate": 0.0004188495221034427,
      "loss": 1.6346,
      "step": 33394
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4194484055042267,
      "learning_rate": 0.0004188399251142665,
      "loss": 1.6546,
      "step": 33395
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41988009214401245,
      "learning_rate": 0.0004188303279808361,
      "loss": 1.7098,
      "step": 33396
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4126746356487274,
      "learning_rate": 0.0004188207307031631,
      "loss": 1.5855,
      "step": 33397
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.424887090921402,
      "learning_rate": 0.00041881113328125935,
      "loss": 1.5957,
      "step": 33398
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4229547381401062,
      "learning_rate": 0.0004188015357151363,
      "loss": 1.6337,
      "step": 33399
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41107314825057983,
      "learning_rate": 0.00041879193800480584,
      "loss": 1.6341,
      "step": 33400
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42229026556015015,
      "learning_rate": 0.00041878234015027945,
      "loss": 1.6392,
      "step": 33401
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4076292812824249,
      "learning_rate": 0.0004187727421515687,
      "loss": 1.6449,
      "step": 33402
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4192878007888794,
      "learning_rate": 0.00041876314400868535,
      "loss": 1.6161,
      "step": 33403
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4348732829093933,
      "learning_rate": 0.00041875354572164106,
      "loss": 1.6734,
      "step": 33404
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42877569794654846,
      "learning_rate": 0.00041874394729044743,
      "loss": 1.617,
      "step": 33405
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.8039790987968445,
      "learning_rate": 0.0004187343487151163,
      "loss": 1.7236,
      "step": 33406
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43423041701316833,
      "learning_rate": 0.00041872474999565904,
      "loss": 1.6504,
      "step": 33407
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42807596921920776,
      "learning_rate": 0.00041871515113208743,
      "loss": 1.6721,
      "step": 33408
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4182303845882416,
      "learning_rate": 0.0004187055521244131,
      "loss": 1.6204,
      "step": 33409
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4199400544166565,
      "learning_rate": 0.0004186959529726477,
      "loss": 1.6506,
      "step": 33410
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4122588336467743,
      "learning_rate": 0.00041868635367680305,
      "loss": 1.5752,
      "step": 33411
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41707661747932434,
      "learning_rate": 0.0004186767542368905,
      "loss": 1.618,
      "step": 33412
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43183180689811707,
      "learning_rate": 0.00041866715465292193,
      "loss": 1.6263,
      "step": 33413
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4154965281486511,
      "learning_rate": 0.0004186575549249089,
      "loss": 1.673,
      "step": 33414
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4333951473236084,
      "learning_rate": 0.00041864795505286304,
      "loss": 1.7375,
      "step": 33415
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41729509830474854,
      "learning_rate": 0.0004186383550367961,
      "loss": 1.656,
      "step": 33416
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44117817282676697,
      "learning_rate": 0.0004186287548767196,
      "loss": 1.6473,
      "step": 33417
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4234665334224701,
      "learning_rate": 0.0004186191545726454,
      "loss": 1.639,
      "step": 33418
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44354698061943054,
      "learning_rate": 0.0004186095541245849,
      "loss": 1.666,
      "step": 33419
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41425400972366333,
      "learning_rate": 0.0004185999535325499,
      "loss": 1.6069,
      "step": 33420
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4354534149169922,
      "learning_rate": 0.0004185903527965521,
      "loss": 1.5758,
      "step": 33421
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42698007822036743,
      "learning_rate": 0.0004185807519166031,
      "loss": 1.5906,
      "step": 33422
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4114304482936859,
      "learning_rate": 0.0004185711508927145,
      "loss": 1.5774,
      "step": 33423
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43871164321899414,
      "learning_rate": 0.0004185615497248979,
      "loss": 1.6644,
      "step": 33424
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4310106337070465,
      "learning_rate": 0.0004185519484131652,
      "loss": 1.6474,
      "step": 33425
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42994651198387146,
      "learning_rate": 0.0004185423469575278,
      "loss": 1.7284,
      "step": 33426
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4213119447231293,
      "learning_rate": 0.0004185327453579975,
      "loss": 1.6102,
      "step": 33427
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43345218896865845,
      "learning_rate": 0.0004185231436145859,
      "loss": 1.6025,
      "step": 33428
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4220278859138489,
      "learning_rate": 0.0004185135417273047,
      "loss": 1.6858,
      "step": 33429
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43101009726524353,
      "learning_rate": 0.00041850393969616547,
      "loss": 1.6487,
      "step": 33430
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41427114605903625,
      "learning_rate": 0.00041849433752117995,
      "loss": 1.5941,
      "step": 33431
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.422347754240036,
      "learning_rate": 0.0004184847352023597,
      "loss": 1.6249,
      "step": 33432
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4434206187725067,
      "learning_rate": 0.0004184751327397165,
      "loss": 1.6514,
      "step": 33433
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4541442394256592,
      "learning_rate": 0.00041846553013326197,
      "loss": 1.6266,
      "step": 33434
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4152233898639679,
      "learning_rate": 0.00041845592738300766,
      "loss": 1.6589,
      "step": 33435
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4288075268268585,
      "learning_rate": 0.00041844632448896537,
      "loss": 1.564,
      "step": 33436
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43351730704307556,
      "learning_rate": 0.0004184367214511467,
      "loss": 1.6986,
      "step": 33437
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4269212782382965,
      "learning_rate": 0.0004184271182695633,
      "loss": 1.5932,
      "step": 33438
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4560866951942444,
      "learning_rate": 0.00041841751494422683,
      "loss": 1.6771,
      "step": 33439
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4255582094192505,
      "learning_rate": 0.00041840791147514886,
      "loss": 1.6464,
      "step": 33440
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41543474793434143,
      "learning_rate": 0.0004183983078623412,
      "loss": 1.6245,
      "step": 33441
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4262737035751343,
      "learning_rate": 0.00041838870410581543,
      "loss": 1.6297,
      "step": 33442
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43965405225753784,
      "learning_rate": 0.0004183791002055833,
      "loss": 1.6974,
      "step": 33443
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42080485820770264,
      "learning_rate": 0.0004183694961616563,
      "loss": 1.4998,
      "step": 33444
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4258347451686859,
      "learning_rate": 0.00041835989197404615,
      "loss": 1.6714,
      "step": 33445
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4317294657230377,
      "learning_rate": 0.0004183502876427646,
      "loss": 1.613,
      "step": 33446
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4235351085662842,
      "learning_rate": 0.00041834068316782316,
      "loss": 1.5863,
      "step": 33447
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42030245065689087,
      "learning_rate": 0.00041833107854923366,
      "loss": 1.6195,
      "step": 33448
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43457818031311035,
      "learning_rate": 0.00041832147378700755,
      "loss": 1.6901,
      "step": 33449
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41267451643943787,
      "learning_rate": 0.0004183118688811567,
      "loss": 1.5983,
      "step": 33450
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4325485825538635,
      "learning_rate": 0.0004183022638316926,
      "loss": 1.5925,
      "step": 33451
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4291558265686035,
      "learning_rate": 0.00041829265863862705,
      "loss": 1.6289,
      "step": 33452
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4114789366722107,
      "learning_rate": 0.0004182830533019716,
      "loss": 1.5944,
      "step": 33453
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4126940369606018,
      "learning_rate": 0.00041827344782173796,
      "loss": 1.6202,
      "step": 33454
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4387381374835968,
      "learning_rate": 0.00041826384219793784,
      "loss": 1.7148,
      "step": 33455
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41653919219970703,
      "learning_rate": 0.00041825423643058275,
      "loss": 1.7377,
      "step": 33456
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4482063949108124,
      "learning_rate": 0.0004182446305196845,
      "loss": 1.679,
      "step": 33457
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.432841420173645,
      "learning_rate": 0.0004182350244652547,
      "loss": 1.624,
      "step": 33458
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4031922221183777,
      "learning_rate": 0.00041822541826730495,
      "loss": 1.6181,
      "step": 33459
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4147029221057892,
      "learning_rate": 0.0004182158119258469,
      "loss": 1.6333,
      "step": 33460
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43446868658065796,
      "learning_rate": 0.0004182062054408924,
      "loss": 1.6225,
      "step": 33461
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42341819405555725,
      "learning_rate": 0.000418196598812453,
      "loss": 1.719,
      "step": 33462
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4212287366390228,
      "learning_rate": 0.0004181869920405403,
      "loss": 1.6532,
      "step": 33463
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4203738868236542,
      "learning_rate": 0.00041817738512516596,
      "loss": 1.6142,
      "step": 33464
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4216294288635254,
      "learning_rate": 0.00041816777806634166,
      "loss": 1.5768,
      "step": 33465
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43177828192710876,
      "learning_rate": 0.0004181581708640792,
      "loss": 1.5947,
      "step": 33466
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42183879017829895,
      "learning_rate": 0.00041814856351839007,
      "loss": 1.6733,
      "step": 33467
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4233218729496002,
      "learning_rate": 0.000418138956029286,
      "loss": 1.6261,
      "step": 33468
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4296313226222992,
      "learning_rate": 0.0004181293483967787,
      "loss": 1.7173,
      "step": 33469
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4230886697769165,
      "learning_rate": 0.0004181197406208797,
      "loss": 1.6134,
      "step": 33470
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42125430703163147,
      "learning_rate": 0.0004181101327016007,
      "loss": 1.6546,
      "step": 33471
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4459725320339203,
      "learning_rate": 0.0004181005246389535,
      "loss": 1.6214,
      "step": 33472
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44023796916007996,
      "learning_rate": 0.0004180909164329497,
      "loss": 1.6633,
      "step": 33473
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4155793786048889,
      "learning_rate": 0.0004180813080836008,
      "loss": 1.6132,
      "step": 33474
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41657349467277527,
      "learning_rate": 0.0004180716995909186,
      "loss": 1.6248,
      "step": 33475
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4100460410118103,
      "learning_rate": 0.00041806209095491485,
      "loss": 1.5956,
      "step": 33476
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4172321557998657,
      "learning_rate": 0.000418052482175601,
      "loss": 1.5912,
      "step": 33477
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42305228114128113,
      "learning_rate": 0.000418042873252989,
      "loss": 1.6563,
      "step": 33478
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41895487904548645,
      "learning_rate": 0.0004180332641870902,
      "loss": 1.5947,
      "step": 33479
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4238521158695221,
      "learning_rate": 0.00041802365497791647,
      "loss": 1.6663,
      "step": 33480
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42454126477241516,
      "learning_rate": 0.00041801404562547933,
      "loss": 1.6276,
      "step": 33481
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4224124252796173,
      "learning_rate": 0.0004180044361297906,
      "loss": 1.6555,
      "step": 33482
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4352932572364807,
      "learning_rate": 0.00041799482649086184,
      "loss": 1.6768,
      "step": 33483
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.3993915319442749,
      "learning_rate": 0.00041798521670870475,
      "loss": 1.6205,
      "step": 33484
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.40321576595306396,
      "learning_rate": 0.0004179756067833311,
      "loss": 1.6344,
      "step": 33485
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4162931740283966,
      "learning_rate": 0.00041796599671475225,
      "loss": 1.5648,
      "step": 33486
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4310954213142395,
      "learning_rate": 0.0004179563865029802,
      "loss": 1.6041,
      "step": 33487
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43682894110679626,
      "learning_rate": 0.0004179467761480265,
      "loss": 1.6799,
      "step": 33488
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4305139482021332,
      "learning_rate": 0.00041793716564990276,
      "loss": 1.7019,
      "step": 33489
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4331321120262146,
      "learning_rate": 0.0004179275550086206,
      "loss": 1.6509,
      "step": 33490
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.47833478450775146,
      "learning_rate": 0.0004179179442241918,
      "loss": 1.6365,
      "step": 33491
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.42931097745895386,
      "learning_rate": 0.0004179083332966281,
      "loss": 1.6466,
      "step": 33492
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41459575295448303,
      "learning_rate": 0.00041789872222594093,
      "loss": 1.6259,
      "step": 33493
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43424490094184875,
      "learning_rate": 0.0004178891110121421,
      "loss": 1.7103,
      "step": 33494
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.48764851689338684,
      "learning_rate": 0.0004178794996552432,
      "loss": 1.6802,
      "step": 33495
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.432178258895874,
      "learning_rate": 0.0004178698881552561,
      "loss": 1.6727,
      "step": 33496
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4292166829109192,
      "learning_rate": 0.00041786027651219225,
      "loss": 1.5654,
      "step": 33497
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.45255154371261597,
      "learning_rate": 0.0004178506647260634,
      "loss": 1.7138,
      "step": 33498
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4465600252151489,
      "learning_rate": 0.0004178410527968812,
      "loss": 1.695,
      "step": 33499
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44488924741744995,
      "learning_rate": 0.00041783144072465736,
      "loss": 1.6155,
      "step": 33500
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.415522962808609,
      "learning_rate": 0.0004178218285094034,
      "loss": 1.5993,
      "step": 33501
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4461209774017334,
      "learning_rate": 0.00041781221615113116,
      "loss": 1.6417,
      "step": 33502
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4602469503879547,
      "learning_rate": 0.0004178026036498524,
      "loss": 1.7107,
      "step": 33503
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43179693818092346,
      "learning_rate": 0.0004177929910055784,
      "loss": 1.6102,
      "step": 33504
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4255041182041168,
      "learning_rate": 0.00041778337821832127,
      "loss": 1.6029,
      "step": 33505
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4247119724750519,
      "learning_rate": 0.0004177737652880923,
      "loss": 1.6608,
      "step": 33506
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4246480166912079,
      "learning_rate": 0.00041776415221490344,
      "loss": 1.628,
      "step": 33507
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.445980429649353,
      "learning_rate": 0.00041775453899876614,
      "loss": 1.6591,
      "step": 33508
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.41596969962120056,
      "learning_rate": 0.0004177449256396923,
      "loss": 1.6472,
      "step": 33509
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4177980422973633,
      "learning_rate": 0.00041773531213769343,
      "loss": 1.6266,
      "step": 33510
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4246567487716675,
      "learning_rate": 0.00041772569849278117,
      "loss": 1.7121,
      "step": 33511
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.4380362331867218,
      "learning_rate": 0.0004177160847049674,
      "loss": 1.6704,
      "step": 33512
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.43497613072395325,
      "learning_rate": 0.00041770647077426354,
      "loss": 1.6705,
      "step": 33513
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.424391508102417,
      "learning_rate": 0.00041769685670068143,
      "loss": 1.588,
      "step": 33514
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4200202226638794,
      "learning_rate": 0.00041768724248423265,
      "loss": 1.6295,
      "step": 33515
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4282737672328949,
      "learning_rate": 0.00041767762812492884,
      "loss": 1.6007,
      "step": 33516
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41473206877708435,
      "learning_rate": 0.00041766801362278183,
      "loss": 1.5383,
      "step": 33517
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4126156270503998,
      "learning_rate": 0.00041765839897780317,
      "loss": 1.5881,
      "step": 33518
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4258975684642792,
      "learning_rate": 0.0004176487841900045,
      "loss": 1.669,
      "step": 33519
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42159101366996765,
      "learning_rate": 0.00041763916925939754,
      "loss": 1.6479,
      "step": 33520
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4407494366168976,
      "learning_rate": 0.000417629554185994,
      "loss": 1.6066,
      "step": 33521
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4426809847354889,
      "learning_rate": 0.00041761993896980543,
      "loss": 1.662,
      "step": 33522
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4346536695957184,
      "learning_rate": 0.0004176103236108437,
      "loss": 1.6574,
      "step": 33523
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41690683364868164,
      "learning_rate": 0.00041760070810912034,
      "loss": 1.5886,
      "step": 33524
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4232126474380493,
      "learning_rate": 0.00041759109246464703,
      "loss": 1.6511,
      "step": 33525
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4347469210624695,
      "learning_rate": 0.00041758147667743546,
      "loss": 1.6315,
      "step": 33526
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4452652931213379,
      "learning_rate": 0.0004175718607474973,
      "loss": 1.7348,
      "step": 33527
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4048696458339691,
      "learning_rate": 0.00041756224467484425,
      "loss": 1.6299,
      "step": 33528
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43262341618537903,
      "learning_rate": 0.00041755262845948786,
      "loss": 1.581,
      "step": 33529
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4196814298629761,
      "learning_rate": 0.00041754301210144,
      "loss": 1.5943,
      "step": 33530
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4372933506965637,
      "learning_rate": 0.0004175333956007122,
      "loss": 1.6633,
      "step": 33531
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42359572649002075,
      "learning_rate": 0.00041752377895731623,
      "loss": 1.709,
      "step": 33532
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4170640707015991,
      "learning_rate": 0.00041751416217126363,
      "loss": 1.5949,
      "step": 33533
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43329089879989624,
      "learning_rate": 0.0004175045452425661,
      "loss": 1.6601,
      "step": 33534
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40774500370025635,
      "learning_rate": 0.0004174949281712356,
      "loss": 1.6235,
      "step": 33535
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4383138120174408,
      "learning_rate": 0.00041748531095728335,
      "loss": 1.6807,
      "step": 33536
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4244765043258667,
      "learning_rate": 0.0004174756936007214,
      "loss": 1.6524,
      "step": 33537
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44466277956962585,
      "learning_rate": 0.0004174660761015611,
      "loss": 1.6563,
      "step": 33538
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4206308424472809,
      "learning_rate": 0.00041745645845981435,
      "loss": 1.5776,
      "step": 33539
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4241117835044861,
      "learning_rate": 0.0004174468406754929,
      "loss": 1.6391,
      "step": 33540
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4280170500278473,
      "learning_rate": 0.0004174372227486081,
      "loss": 1.6111,
      "step": 33541
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41992804408073425,
      "learning_rate": 0.0004174276046791719,
      "loss": 1.588,
      "step": 33542
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44206997752189636,
      "learning_rate": 0.0004174179864671959,
      "loss": 1.6963,
      "step": 33543
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4328065514564514,
      "learning_rate": 0.0004174083681126917,
      "loss": 1.6054,
      "step": 33544
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.45364367961883545,
      "learning_rate": 0.00041739874961567116,
      "loss": 1.6151,
      "step": 33545
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42286086082458496,
      "learning_rate": 0.0004173891309761457,
      "loss": 1.6539,
      "step": 33546
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44305822253227234,
      "learning_rate": 0.0004173795121941273,
      "loss": 1.6407,
      "step": 33547
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4214498996734619,
      "learning_rate": 0.00041736989326962733,
      "loss": 1.6275,
      "step": 33548
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4174691140651703,
      "learning_rate": 0.0004173602742026576,
      "loss": 1.5985,
      "step": 33549
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4279748797416687,
      "learning_rate": 0.0004173506549932299,
      "loss": 1.5974,
      "step": 33550
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4229428470134735,
      "learning_rate": 0.0004173410356413557,
      "loss": 1.6631,
      "step": 33551
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4423063397407532,
      "learning_rate": 0.00041733141614704673,
      "loss": 1.565,
      "step": 33552
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4306449890136719,
      "learning_rate": 0.00041732179651031486,
      "loss": 1.6941,
      "step": 33553
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.434269517660141,
      "learning_rate": 0.00041731217673117156,
      "loss": 1.638,
      "step": 33554
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4244571626186371,
      "learning_rate": 0.0004173025568096285,
      "loss": 1.5703,
      "step": 33555
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4483776390552521,
      "learning_rate": 0.00041729293674569744,
      "loss": 1.6492,
      "step": 33556
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4279502034187317,
      "learning_rate": 0.00041728331653939003,
      "loss": 1.6224,
      "step": 33557
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.47942379117012024,
      "learning_rate": 0.00041727369619071794,
      "loss": 1.6358,
      "step": 33558
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43588823080062866,
      "learning_rate": 0.0004172640756996929,
      "loss": 1.6499,
      "step": 33559
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4216436743736267,
      "learning_rate": 0.0004172544550663266,
      "loss": 1.6705,
      "step": 33560
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4427354037761688,
      "learning_rate": 0.0004172448342906306,
      "loss": 1.6326,
      "step": 33561
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43894025683403015,
      "learning_rate": 0.0004172352133726166,
      "loss": 1.6242,
      "step": 33562
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4320104122161865,
      "learning_rate": 0.0004172255923122964,
      "loss": 1.6156,
      "step": 33563
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43278229236602783,
      "learning_rate": 0.0004172159711096816,
      "loss": 1.6597,
      "step": 33564
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4234984517097473,
      "learning_rate": 0.00041720634976478397,
      "loss": 1.6034,
      "step": 33565
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42272984981536865,
      "learning_rate": 0.0004171967282776149,
      "loss": 1.6071,
      "step": 33566
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43946415185928345,
      "learning_rate": 0.00041718710664818645,
      "loss": 1.663,
      "step": 33567
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4432385563850403,
      "learning_rate": 0.00041717748487651006,
      "loss": 1.6837,
      "step": 33568
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43737781047821045,
      "learning_rate": 0.0004171678629625974,
      "loss": 1.6409,
      "step": 33569
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4265708327293396,
      "learning_rate": 0.0004171582409064602,
      "loss": 1.6604,
      "step": 33570
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4272575378417969,
      "learning_rate": 0.00041714861870811024,
      "loss": 1.7084,
      "step": 33571
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4167724549770355,
      "learning_rate": 0.0004171389963675592,
      "loss": 1.6172,
      "step": 33572
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4352223575115204,
      "learning_rate": 0.0004171293738848185,
      "loss": 1.6164,
      "step": 33573
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4436280429363251,
      "learning_rate": 0.00041711975125990013,
      "loss": 1.5948,
      "step": 33574
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42771026492118835,
      "learning_rate": 0.00041711012849281556,
      "loss": 1.6227,
      "step": 33575
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4303534924983978,
      "learning_rate": 0.0004171005055835766,
      "loss": 1.6392,
      "step": 33576
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42864587903022766,
      "learning_rate": 0.00041709088253219485,
      "loss": 1.5632,
      "step": 33577
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4204130470752716,
      "learning_rate": 0.000417081259338682,
      "loss": 1.5545,
      "step": 33578
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4190332591533661,
      "learning_rate": 0.0004170716360030499,
      "loss": 1.6438,
      "step": 33579
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.433753103017807,
      "learning_rate": 0.00041706201252530994,
      "loss": 1.5864,
      "step": 33580
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4310363829135895,
      "learning_rate": 0.0004170523889054739,
      "loss": 1.6019,
      "step": 33581
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4218796193599701,
      "learning_rate": 0.0004170427651435536,
      "loss": 1.5761,
      "step": 33582
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4248855412006378,
      "learning_rate": 0.0004170331412395606,
      "loss": 1.6207,
      "step": 33583
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4313647150993347,
      "learning_rate": 0.0004170235171935066,
      "loss": 1.693,
      "step": 33584
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.426552951335907,
      "learning_rate": 0.0004170138930054034,
      "loss": 1.662,
      "step": 33585
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.450069785118103,
      "learning_rate": 0.00041700426867526244,
      "loss": 1.6726,
      "step": 33586
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44074374437332153,
      "learning_rate": 0.00041699464420309556,
      "loss": 1.6465,
      "step": 33587
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43396350741386414,
      "learning_rate": 0.00041698501958891445,
      "loss": 1.737,
      "step": 33588
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42114031314849854,
      "learning_rate": 0.00041697539483273073,
      "loss": 1.5947,
      "step": 33589
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4484562873840332,
      "learning_rate": 0.0004169657699345562,
      "loss": 1.6154,
      "step": 33590
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4422782063484192,
      "learning_rate": 0.0004169561448944023,
      "loss": 1.6117,
      "step": 33591
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43535566329956055,
      "learning_rate": 0.00041694651971228104,
      "loss": 1.5965,
      "step": 33592
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4365077316761017,
      "learning_rate": 0.00041693689438820387,
      "loss": 1.6065,
      "step": 33593
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41843342781066895,
      "learning_rate": 0.0004169272689221826,
      "loss": 1.5974,
      "step": 33594
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43660232424736023,
      "learning_rate": 0.0004169176433142288,
      "loss": 1.5713,
      "step": 33595
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42921382188796997,
      "learning_rate": 0.0004169080175643541,
      "loss": 1.6311,
      "step": 33596
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4229491055011749,
      "learning_rate": 0.00041689839167257053,
      "loss": 1.6556,
      "step": 33597
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4331890940666199,
      "learning_rate": 0.0004168887656388893,
      "loss": 1.5621,
      "step": 33598
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43747884035110474,
      "learning_rate": 0.0004168791394633225,
      "loss": 1.6092,
      "step": 33599
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4151484966278076,
      "learning_rate": 0.0004168695131458815,
      "loss": 1.6328,
      "step": 33600
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4373796284198761,
      "learning_rate": 0.0004168598866865782,
      "loss": 1.6476,
      "step": 33601
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4158966839313507,
      "learning_rate": 0.00041685026008542436,
      "loss": 1.6867,
      "step": 33602
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42092064023017883,
      "learning_rate": 0.00041684063334243126,
      "loss": 1.5979,
      "step": 33603
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4189496338367462,
      "learning_rate": 0.000416831006457611,
      "loss": 1.6808,
      "step": 33604
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4183705747127533,
      "learning_rate": 0.0004168213794309751,
      "loss": 1.6516,
      "step": 33605
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41880106925964355,
      "learning_rate": 0.0004168117522625352,
      "loss": 1.6184,
      "step": 33606
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.9841598868370056,
      "learning_rate": 0.00041680212495230314,
      "loss": 1.6307,
      "step": 33607
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4186725616455078,
      "learning_rate": 0.0004167924975002904,
      "loss": 1.6471,
      "step": 33608
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42189452052116394,
      "learning_rate": 0.00041678286990650895,
      "loss": 1.7422,
      "step": 33609
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44597533345222473,
      "learning_rate": 0.0004167732421709702,
      "loss": 1.555,
      "step": 33610
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.422019362449646,
      "learning_rate": 0.00041676361429368586,
      "loss": 1.6574,
      "step": 33611
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41184768080711365,
      "learning_rate": 0.0004167539862746678,
      "loss": 1.621,
      "step": 33612
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42224761843681335,
      "learning_rate": 0.0004167443581139275,
      "loss": 1.65,
      "step": 33613
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44421201944351196,
      "learning_rate": 0.00041673472981147686,
      "loss": 1.6539,
      "step": 33614
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4358655512332916,
      "learning_rate": 0.00041672510136732746,
      "loss": 1.6968,
      "step": 33615
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43559882044792175,
      "learning_rate": 0.0004167154727814909,
      "loss": 1.7512,
      "step": 33616
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41116568446159363,
      "learning_rate": 0.00041670584405397907,
      "loss": 1.5885,
      "step": 33617
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4143028259277344,
      "learning_rate": 0.0004166962151848034,
      "loss": 1.6653,
      "step": 33618
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4180509150028229,
      "learning_rate": 0.0004166865861739758,
      "loss": 1.6547,
      "step": 33619
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4287002682685852,
      "learning_rate": 0.00041667695702150793,
      "loss": 1.7235,
      "step": 33620
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41462430357933044,
      "learning_rate": 0.00041666732772741125,
      "loss": 1.6834,
      "step": 33621
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4257778227329254,
      "learning_rate": 0.0004166576982916978,
      "loss": 1.5941,
      "step": 33622
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44410210847854614,
      "learning_rate": 0.000416648068714379,
      "loss": 1.6984,
      "step": 33623
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4221322238445282,
      "learning_rate": 0.00041663843899546665,
      "loss": 1.6746,
      "step": 33624
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4297069311141968,
      "learning_rate": 0.00041662880913497245,
      "loss": 1.6258,
      "step": 33625
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43626993894577026,
      "learning_rate": 0.000416619179132908,
      "loss": 1.5632,
      "step": 33626
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4294168949127197,
      "learning_rate": 0.00041660954898928515,
      "loss": 1.6917,
      "step": 33627
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4205651581287384,
      "learning_rate": 0.00041659991870411536,
      "loss": 1.6156,
      "step": 33628
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40810784697532654,
      "learning_rate": 0.00041659028827741056,
      "loss": 1.6772,
      "step": 33629
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42632076144218445,
      "learning_rate": 0.00041658065770918226,
      "loss": 1.7316,
      "step": 33630
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4231361746788025,
      "learning_rate": 0.00041657102699944225,
      "loss": 1.5422,
      "step": 33631
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42466992139816284,
      "learning_rate": 0.00041656139614820216,
      "loss": 1.6868,
      "step": 33632
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4037169814109802,
      "learning_rate": 0.0004165517651554738,
      "loss": 1.6167,
      "step": 33633
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4364771544933319,
      "learning_rate": 0.0004165421340212687,
      "loss": 1.7047,
      "step": 33634
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4209907352924347,
      "learning_rate": 0.0004165325027455986,
      "loss": 1.5821,
      "step": 33635
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42192527651786804,
      "learning_rate": 0.00041652287132847525,
      "loss": 1.6065,
      "step": 33636
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42774537205696106,
      "learning_rate": 0.0004165132397699103,
      "loss": 1.6454,
      "step": 33637
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4192911386489868,
      "learning_rate": 0.0004165036080699154,
      "loss": 1.6401,
      "step": 33638
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42338621616363525,
      "learning_rate": 0.0004164939762285023,
      "loss": 1.5826,
      "step": 33639
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4167007505893707,
      "learning_rate": 0.0004164843442456827,
      "loss": 1.5954,
      "step": 33640
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4314868152141571,
      "learning_rate": 0.00041647471212146836,
      "loss": 1.5994,
      "step": 33641
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44094207882881165,
      "learning_rate": 0.00041646507985587075,
      "loss": 1.6243,
      "step": 33642
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43562081456184387,
      "learning_rate": 0.0004164554474489017,
      "loss": 1.6289,
      "step": 33643
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4237143099308014,
      "learning_rate": 0.0004164458149005729,
      "loss": 1.5949,
      "step": 33644
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43184345960617065,
      "learning_rate": 0.0004164361822108961,
      "loss": 1.6864,
      "step": 33645
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.434184193611145,
      "learning_rate": 0.0004164265493798829,
      "loss": 1.7162,
      "step": 33646
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4221803545951843,
      "learning_rate": 0.00041641691640754503,
      "loss": 1.6032,
      "step": 33647
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4169480502605438,
      "learning_rate": 0.0004164072832938942,
      "loss": 1.6182,
      "step": 33648
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42744335532188416,
      "learning_rate": 0.000416397650038942,
      "loss": 1.6048,
      "step": 33649
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43185660243034363,
      "learning_rate": 0.00041638801664270025,
      "loss": 1.573,
      "step": 33650
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42573854327201843,
      "learning_rate": 0.00041637838310518057,
      "loss": 1.6682,
      "step": 33651
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42561304569244385,
      "learning_rate": 0.0004163687494263948,
      "loss": 1.5944,
      "step": 33652
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4221929609775543,
      "learning_rate": 0.0004163591156063543,
      "loss": 1.6545,
      "step": 33653
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42641860246658325,
      "learning_rate": 0.00041634948164507115,
      "loss": 1.6245,
      "step": 33654
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44978418946266174,
      "learning_rate": 0.0004163398475425568,
      "loss": 1.6511,
      "step": 33655
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4292071759700775,
      "learning_rate": 0.00041633021329882307,
      "loss": 1.6758,
      "step": 33656
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42372745275497437,
      "learning_rate": 0.0004163205789138816,
      "loss": 1.7079,
      "step": 33657
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4436321258544922,
      "learning_rate": 0.00041631094438774404,
      "loss": 1.6627,
      "step": 33658
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42207226157188416,
      "learning_rate": 0.0004163013097204222,
      "loss": 1.5488,
      "step": 33659
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41089823842048645,
      "learning_rate": 0.00041629167491192756,
      "loss": 1.6802,
      "step": 33660
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4331759810447693,
      "learning_rate": 0.0004162820399622721,
      "loss": 1.6349,
      "step": 33661
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42581066489219666,
      "learning_rate": 0.0004162724048714673,
      "loss": 1.5999,
      "step": 33662
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4403923749923706,
      "learning_rate": 0.00041626276963952494,
      "loss": 1.6856,
      "step": 33663
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42663562297821045,
      "learning_rate": 0.0004162531342664568,
      "loss": 1.6079,
      "step": 33664
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43596380949020386,
      "learning_rate": 0.0004162434987522744,
      "loss": 1.6354,
      "step": 33665
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42544662952423096,
      "learning_rate": 0.0004162338630969895,
      "loss": 1.6374,
      "step": 33666
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4300301969051361,
      "learning_rate": 0.0004162242273006139,
      "loss": 1.6009,
      "step": 33667
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.46000757813453674,
      "learning_rate": 0.00041621459136315916,
      "loss": 1.7112,
      "step": 33668
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44883814454078674,
      "learning_rate": 0.00041620495528463697,
      "loss": 1.6495,
      "step": 33669
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41664591431617737,
      "learning_rate": 0.0004161953190650592,
      "loss": 1.613,
      "step": 33670
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4150926172733307,
      "learning_rate": 0.00041618568270443743,
      "loss": 1.6058,
      "step": 33671
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4264853000640869,
      "learning_rate": 0.0004161760462027833,
      "loss": 1.7094,
      "step": 33672
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4361448287963867,
      "learning_rate": 0.0004161664095601086,
      "loss": 1.5621,
      "step": 33673
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4248099625110626,
      "learning_rate": 0.00041615677277642493,
      "loss": 1.6324,
      "step": 33674
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40549996495246887,
      "learning_rate": 0.00041614713585174415,
      "loss": 1.6628,
      "step": 33675
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41808903217315674,
      "learning_rate": 0.0004161374987860778,
      "loss": 1.6264,
      "step": 33676
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4258376359939575,
      "learning_rate": 0.00041612786157943765,
      "loss": 1.574,
      "step": 33677
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42445123195648193,
      "learning_rate": 0.0004161182242318354,
      "loss": 1.672,
      "step": 33678
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42202451825141907,
      "learning_rate": 0.0004161085867432827,
      "loss": 1.6112,
      "step": 33679
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4396691620349884,
      "learning_rate": 0.0004160989491137913,
      "loss": 1.6317,
      "step": 33680
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4259756803512573,
      "learning_rate": 0.00041608931134337287,
      "loss": 1.6602,
      "step": 33681
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4155008792877197,
      "learning_rate": 0.00041607967343203916,
      "loss": 1.6827,
      "step": 33682
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42821434140205383,
      "learning_rate": 0.0004160700353798018,
      "loss": 1.6607,
      "step": 33683
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42793551087379456,
      "learning_rate": 0.0004160603971866726,
      "loss": 1.6373,
      "step": 33684
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42067256569862366,
      "learning_rate": 0.00041605075885266306,
      "loss": 1.617,
      "step": 33685
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42229363322257996,
      "learning_rate": 0.0004160411203777851,
      "loss": 1.5988,
      "step": 33686
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4118254780769348,
      "learning_rate": 0.00041603148176205015,
      "loss": 1.6099,
      "step": 33687
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41868701577186584,
      "learning_rate": 0.0004160218430054702,
      "loss": 1.6481,
      "step": 33688
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42428404092788696,
      "learning_rate": 0.0004160122041080569,
      "loss": 1.6226,
      "step": 33689
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4271031320095062,
      "learning_rate": 0.0004160025650698217,
      "loss": 1.6304,
      "step": 33690
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42851707339286804,
      "learning_rate": 0.00041599292589077666,
      "loss": 1.6333,
      "step": 33691
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.446673184633255,
      "learning_rate": 0.0004159832865709332,
      "loss": 1.6789,
      "step": 33692
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42682719230651855,
      "learning_rate": 0.0004159736471103031,
      "loss": 1.6186,
      "step": 33693
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4174526631832123,
      "learning_rate": 0.00041596400750889813,
      "loss": 1.5762,
      "step": 33694
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.440176397562027,
      "learning_rate": 0.0004159543677667299,
      "loss": 1.6202,
      "step": 33695
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4323537349700928,
      "learning_rate": 0.00041594472788381026,
      "loss": 1.7102,
      "step": 33696
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4465775191783905,
      "learning_rate": 0.0004159350878601506,
      "loss": 1.6181,
      "step": 33697
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4301944971084595,
      "learning_rate": 0.000415925447695763,
      "loss": 1.6905,
      "step": 33698
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43879127502441406,
      "learning_rate": 0.00041591580739065893,
      "loss": 1.7539,
      "step": 33699
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4312456548213959,
      "learning_rate": 0.0004159061669448501,
      "loss": 1.6943,
      "step": 33700
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4210204482078552,
      "learning_rate": 0.00041589652635834836,
      "loss": 1.6568,
      "step": 33701
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41876220703125,
      "learning_rate": 0.0004158868856311653,
      "loss": 1.6207,
      "step": 33702
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4265941381454468,
      "learning_rate": 0.0004158772447633126,
      "loss": 1.6472,
      "step": 33703
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4456464946269989,
      "learning_rate": 0.000415867603754802,
      "loss": 1.5421,
      "step": 33704
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4305594861507416,
      "learning_rate": 0.00041585796260564515,
      "loss": 1.6115,
      "step": 33705
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4387950003147125,
      "learning_rate": 0.00041584832131585383,
      "loss": 1.6454,
      "step": 33706
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41387608647346497,
      "learning_rate": 0.00041583867988543986,
      "loss": 1.5975,
      "step": 33707
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4326682984828949,
      "learning_rate": 0.0004158290383144146,
      "loss": 1.7476,
      "step": 33708
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4578096866607666,
      "learning_rate": 0.00041581939660279005,
      "loss": 1.6633,
      "step": 33709
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.45324569940567017,
      "learning_rate": 0.00041580975475057785,
      "loss": 1.717,
      "step": 33710
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4296497702598572,
      "learning_rate": 0.0004158001127577896,
      "loss": 1.6567,
      "step": 33711
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43593043088912964,
      "learning_rate": 0.0004157904706244372,
      "loss": 1.6804,
      "step": 33712
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4584439694881439,
      "learning_rate": 0.00041578082835053203,
      "loss": 1.6736,
      "step": 33713
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42065760493278503,
      "learning_rate": 0.00041577118593608614,
      "loss": 1.6334,
      "step": 33714
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42615851759910583,
      "learning_rate": 0.000415761543381111,
      "loss": 1.6183,
      "step": 33715
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44028520584106445,
      "learning_rate": 0.0004157519006856185,
      "loss": 1.6536,
      "step": 33716
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44045284390449524,
      "learning_rate": 0.00041574225784962016,
      "loss": 1.6669,
      "step": 33717
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4466935992240906,
      "learning_rate": 0.0004157326148731278,
      "loss": 1.6807,
      "step": 33718
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4203268885612488,
      "learning_rate": 0.0004157229717561532,
      "loss": 1.6334,
      "step": 33719
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4066440761089325,
      "learning_rate": 0.0004157133284987078,
      "loss": 1.6156,
      "step": 33720
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4475341737270355,
      "learning_rate": 0.0004157036851008036,
      "loss": 1.6693,
      "step": 33721
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4526248276233673,
      "learning_rate": 0.00041569404156245203,
      "loss": 1.6407,
      "step": 33722
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4103904664516449,
      "learning_rate": 0.0004156843978836651,
      "loss": 1.6325,
      "step": 33723
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41566845774650574,
      "learning_rate": 0.0004156747540644542,
      "loss": 1.6621,
      "step": 33724
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4375866949558258,
      "learning_rate": 0.0004156651101048313,
      "loss": 1.6644,
      "step": 33725
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4457428455352783,
      "learning_rate": 0.000415655466004808,
      "loss": 1.6176,
      "step": 33726
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42362338304519653,
      "learning_rate": 0.000415645821764396,
      "loss": 1.6309,
      "step": 33727
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41045090556144714,
      "learning_rate": 0.0004156361773836069,
      "loss": 1.6002,
      "step": 33728
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44361037015914917,
      "learning_rate": 0.0004156265328624526,
      "loss": 1.698,
      "step": 33729
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4391222298145294,
      "learning_rate": 0.0004156168882009448,
      "loss": 1.6654,
      "step": 33730
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4400416314601898,
      "learning_rate": 0.000415607243399095,
      "loss": 1.626,
      "step": 33731
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4291788637638092,
      "learning_rate": 0.00041559759845691523,
      "loss": 1.6336,
      "step": 33732
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4015868604183197,
      "learning_rate": 0.0004155879533744168,
      "loss": 1.5867,
      "step": 33733
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41817307472229004,
      "learning_rate": 0.0004155783081516117,
      "loss": 1.5574,
      "step": 33734
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44768574833869934,
      "learning_rate": 0.00041556866278851163,
      "loss": 1.6171,
      "step": 33735
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4394964277744293,
      "learning_rate": 0.00041555901728512816,
      "loss": 1.7392,
      "step": 33736
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4161345362663269,
      "learning_rate": 0.00041554937164147316,
      "loss": 1.6417,
      "step": 33737
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40952369570732117,
      "learning_rate": 0.00041553972585755807,
      "loss": 1.6442,
      "step": 33738
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42790475487709045,
      "learning_rate": 0.0004155300799333949,
      "loss": 1.652,
      "step": 33739
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4230651259422302,
      "learning_rate": 0.0004155204338689952,
      "loss": 1.6038,
      "step": 33740
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4293915033340454,
      "learning_rate": 0.00041551078766437075,
      "loss": 1.622,
      "step": 33741
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40723705291748047,
      "learning_rate": 0.0004155011413195332,
      "loss": 1.6237,
      "step": 33742
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41380545496940613,
      "learning_rate": 0.00041549149483449427,
      "loss": 1.6378,
      "step": 33743
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42544353008270264,
      "learning_rate": 0.0004154818482092657,
      "loss": 1.604,
      "step": 33744
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43020710349082947,
      "learning_rate": 0.00041547220144385916,
      "loss": 1.6123,
      "step": 33745
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42900320887565613,
      "learning_rate": 0.00041546255453828645,
      "loss": 1.6384,
      "step": 33746
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4160968065261841,
      "learning_rate": 0.00041545290749255915,
      "loss": 1.713,
      "step": 33747
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4167860150337219,
      "learning_rate": 0.00041544326030668906,
      "loss": 1.6609,
      "step": 33748
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43599027395248413,
      "learning_rate": 0.0004154336129806878,
      "loss": 1.579,
      "step": 33749
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40925857424736023,
      "learning_rate": 0.0004154239655145672,
      "loss": 1.6272,
      "step": 33750
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44148027896881104,
      "learning_rate": 0.000415414317908339,
      "loss": 1.6469,
      "step": 33751
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42192700505256653,
      "learning_rate": 0.00041540467016201466,
      "loss": 1.6541,
      "step": 33752
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41821616888046265,
      "learning_rate": 0.0004153950222756061,
      "loss": 1.5893,
      "step": 33753
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4207432270050049,
      "learning_rate": 0.000415385374249125,
      "loss": 1.6351,
      "step": 33754
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4366130530834198,
      "learning_rate": 0.00041537572608258306,
      "loss": 1.6279,
      "step": 33755
    },
    {
      "epoch": 1.12,
      "grad_norm": 1.0849930047988892,
      "learning_rate": 0.000415366077775992,
      "loss": 1.6704,
      "step": 33756
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42280468344688416,
      "learning_rate": 0.00041535642932936354,
      "loss": 1.6078,
      "step": 33757
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4237484931945801,
      "learning_rate": 0.0004153467807427094,
      "loss": 1.6128,
      "step": 33758
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4208020865917206,
      "learning_rate": 0.0004153371320160411,
      "loss": 1.5997,
      "step": 33759
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44370484352111816,
      "learning_rate": 0.00041532748314937067,
      "loss": 1.6665,
      "step": 33760
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4215642809867859,
      "learning_rate": 0.0004153178341427096,
      "loss": 1.6166,
      "step": 33761
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43692970275878906,
      "learning_rate": 0.00041530818499606976,
      "loss": 1.6452,
      "step": 33762
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43627431988716125,
      "learning_rate": 0.0004152985357094626,
      "loss": 1.6487,
      "step": 33763
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4177197813987732,
      "learning_rate": 0.0004152888862829002,
      "loss": 1.6157,
      "step": 33764
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4219026267528534,
      "learning_rate": 0.00041527923671639394,
      "loss": 1.6855,
      "step": 33765
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44532492756843567,
      "learning_rate": 0.0004152695870099557,
      "loss": 1.6857,
      "step": 33766
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41861283779144287,
      "learning_rate": 0.00041525993716359723,
      "loss": 1.6465,
      "step": 33767
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4126570522785187,
      "learning_rate": 0.00041525028717733013,
      "loss": 1.6411,
      "step": 33768
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42623525857925415,
      "learning_rate": 0.0004152406370511662,
      "loss": 1.5785,
      "step": 33769
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.418744295835495,
      "learning_rate": 0.000415230986785117,
      "loss": 1.5585,
      "step": 33770
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.45221441984176636,
      "learning_rate": 0.0004152213363791945,
      "loss": 1.6852,
      "step": 33771
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4209708869457245,
      "learning_rate": 0.0004152116858334102,
      "loss": 1.6047,
      "step": 33772
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41115453839302063,
      "learning_rate": 0.0004152020351477759,
      "loss": 1.5955,
      "step": 33773
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44207751750946045,
      "learning_rate": 0.0004151923843223034,
      "loss": 1.5792,
      "step": 33774
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4457753896713257,
      "learning_rate": 0.00041518273335700414,
      "loss": 1.6266,
      "step": 33775
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.6945766806602478,
      "learning_rate": 0.0004151730822518901,
      "loss": 1.7295,
      "step": 33776
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4266872704029083,
      "learning_rate": 0.00041516343100697303,
      "loss": 1.6908,
      "step": 33777
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4247888922691345,
      "learning_rate": 0.00041515377962226434,
      "loss": 1.6948,
      "step": 33778
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.407613605260849,
      "learning_rate": 0.0004151441280977759,
      "loss": 1.6204,
      "step": 33779
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42930033802986145,
      "learning_rate": 0.0004151344764335196,
      "loss": 1.6625,
      "step": 33780
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42943814396858215,
      "learning_rate": 0.00041512482462950705,
      "loss": 1.5812,
      "step": 33781
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42412757873535156,
      "learning_rate": 0.0004151151726857498,
      "loss": 1.5513,
      "step": 33782
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4303096830844879,
      "learning_rate": 0.0004151055206022597,
      "loss": 1.6421,
      "step": 33783
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43691757321357727,
      "learning_rate": 0.0004150958683790485,
      "loss": 1.6987,
      "step": 33784
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4248045086860657,
      "learning_rate": 0.00041508621601612784,
      "loss": 1.6207,
      "step": 33785
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.45633870363235474,
      "learning_rate": 0.0004150765635135095,
      "loss": 1.5703,
      "step": 33786
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41904526948928833,
      "learning_rate": 0.0004150669108712052,
      "loss": 1.593,
      "step": 33787
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44106584787368774,
      "learning_rate": 0.00041505725808922657,
      "loss": 1.6571,
      "step": 33788
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.433133989572525,
      "learning_rate": 0.00041504760516758535,
      "loss": 1.7007,
      "step": 33789
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41753989458084106,
      "learning_rate": 0.0004150379521062933,
      "loss": 1.5832,
      "step": 33790
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.416110634803772,
      "learning_rate": 0.0004150282989053622,
      "loss": 1.6112,
      "step": 33791
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4131195843219757,
      "learning_rate": 0.00041501864556480367,
      "loss": 1.644,
      "step": 33792
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4241684377193451,
      "learning_rate": 0.00041500899208462937,
      "loss": 1.6392,
      "step": 33793
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43093669414520264,
      "learning_rate": 0.00041499933846485124,
      "loss": 1.6563,
      "step": 33794
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43451371788978577,
      "learning_rate": 0.00041498968470548073,
      "loss": 1.6389,
      "step": 33795
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4357987642288208,
      "learning_rate": 0.00041498003080652976,
      "loss": 1.669,
      "step": 33796
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4253308176994324,
      "learning_rate": 0.00041497037676800993,
      "loss": 1.6455,
      "step": 33797
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4309600591659546,
      "learning_rate": 0.00041496072258993306,
      "loss": 1.638,
      "step": 33798
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4143681228160858,
      "learning_rate": 0.00041495106827231076,
      "loss": 1.6883,
      "step": 33799
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43317392468452454,
      "learning_rate": 0.0004149414138151548,
      "loss": 1.6042,
      "step": 33800
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42791563272476196,
      "learning_rate": 0.00041493175921847693,
      "loss": 1.5708,
      "step": 33801
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4311639666557312,
      "learning_rate": 0.0004149221044822888,
      "loss": 1.692,
      "step": 33802
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4289592206478119,
      "learning_rate": 0.0004149124496066022,
      "loss": 1.597,
      "step": 33803
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4313408136367798,
      "learning_rate": 0.0004149027945914288,
      "loss": 1.686,
      "step": 33804
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43172749876976013,
      "learning_rate": 0.0004148931394367803,
      "loss": 1.6113,
      "step": 33805
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4472557008266449,
      "learning_rate": 0.0004148834841426686,
      "loss": 1.5722,
      "step": 33806
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43057912588119507,
      "learning_rate": 0.00041487382870910515,
      "loss": 1.6604,
      "step": 33807
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.41284406185150146,
      "learning_rate": 0.00041486417313610184,
      "loss": 1.7149,
      "step": 33808
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43541252613067627,
      "learning_rate": 0.0004148545174236703,
      "loss": 1.5969,
      "step": 33809
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44771358370780945,
      "learning_rate": 0.00041484486157182234,
      "loss": 1.6965,
      "step": 33810
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4312283992767334,
      "learning_rate": 0.00041483520558056967,
      "loss": 1.7314,
      "step": 33811
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40775105357170105,
      "learning_rate": 0.0004148255494499239,
      "loss": 1.666,
      "step": 33812
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.44205111265182495,
      "learning_rate": 0.0004148158931798969,
      "loss": 1.6058,
      "step": 33813
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.42148351669311523,
      "learning_rate": 0.0004148062367705004,
      "loss": 1.7315,
      "step": 33814
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43820899724960327,
      "learning_rate": 0.00041479658022174586,
      "loss": 1.7263,
      "step": 33815
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41906803846359253,
      "learning_rate": 0.00041478692353364533,
      "loss": 1.6347,
      "step": 33816
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42717963457107544,
      "learning_rate": 0.0004147772667062103,
      "loss": 1.6226,
      "step": 33817
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41857534646987915,
      "learning_rate": 0.0004147676097394526,
      "loss": 1.629,
      "step": 33818
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4092789590358734,
      "learning_rate": 0.00041475795263338393,
      "loss": 1.588,
      "step": 33819
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.40777453780174255,
      "learning_rate": 0.000414748295388016,
      "loss": 1.6638,
      "step": 33820
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.422738641500473,
      "learning_rate": 0.0004147386380033606,
      "loss": 1.6958,
      "step": 33821
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4405847191810608,
      "learning_rate": 0.00041472898047942937,
      "loss": 1.7211,
      "step": 33822
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43690261244773865,
      "learning_rate": 0.00041471932281623406,
      "loss": 1.6174,
      "step": 33823
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42805197834968567,
      "learning_rate": 0.0004147096650137864,
      "loss": 1.6799,
      "step": 33824
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4349134862422943,
      "learning_rate": 0.0004147000070720981,
      "loss": 1.6087,
      "step": 33825
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4165080487728119,
      "learning_rate": 0.00041469034899118095,
      "loss": 1.6454,
      "step": 33826
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41096416115760803,
      "learning_rate": 0.00041468069077104654,
      "loss": 1.5495,
      "step": 33827
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42601102590560913,
      "learning_rate": 0.0004146710324117067,
      "loss": 1.5765,
      "step": 33828
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4435429275035858,
      "learning_rate": 0.00041466137391317314,
      "loss": 1.6513,
      "step": 33829
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4422374367713928,
      "learning_rate": 0.00041465171527545745,
      "loss": 1.691,
      "step": 33830
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.434015154838562,
      "learning_rate": 0.0004146420564985716,
      "loss": 1.6829,
      "step": 33831
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41574907302856445,
      "learning_rate": 0.00041463239758252713,
      "loss": 1.6306,
      "step": 33832
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4252994954586029,
      "learning_rate": 0.0004146227385273359,
      "loss": 1.6762,
      "step": 33833
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4229223132133484,
      "learning_rate": 0.00041461307933300944,
      "loss": 1.5851,
      "step": 33834
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.436886727809906,
      "learning_rate": 0.0004146034199995597,
      "loss": 1.7308,
      "step": 33835
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41916781663894653,
      "learning_rate": 0.00041459376052699825,
      "loss": 1.6061,
      "step": 33836
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4241933524608612,
      "learning_rate": 0.00041458410091533676,
      "loss": 1.6532,
      "step": 33837
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42259448766708374,
      "learning_rate": 0.00041457444116458725,
      "loss": 1.6149,
      "step": 33838
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44946277141571045,
      "learning_rate": 0.00041456478127476106,
      "loss": 1.6591,
      "step": 33839
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.428011953830719,
      "learning_rate": 0.00041455512124587016,
      "loss": 1.6614,
      "step": 33840
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4306180477142334,
      "learning_rate": 0.00041454546107792627,
      "loss": 1.6098,
      "step": 33841
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4329751133918762,
      "learning_rate": 0.000414535800770941,
      "loss": 1.6214,
      "step": 33842
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4391213655471802,
      "learning_rate": 0.00041452614032492623,
      "loss": 1.5714,
      "step": 33843
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4215637445449829,
      "learning_rate": 0.0004145164797398936,
      "loss": 1.6188,
      "step": 33844
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4311351776123047,
      "learning_rate": 0.0004145068190158548,
      "loss": 1.5933,
      "step": 33845
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4336754381656647,
      "learning_rate": 0.00041449715815282157,
      "loss": 1.6256,
      "step": 33846
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4152838885784149,
      "learning_rate": 0.00041448749715080566,
      "loss": 1.687,
      "step": 33847
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42081689834594727,
      "learning_rate": 0.00041447783600981884,
      "loss": 1.6043,
      "step": 33848
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42272356152534485,
      "learning_rate": 0.00041446817472987275,
      "loss": 1.6942,
      "step": 33849
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4201357662677765,
      "learning_rate": 0.0004144585133109792,
      "loss": 1.5945,
      "step": 33850
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43298906087875366,
      "learning_rate": 0.0004144488517531499,
      "loss": 1.6324,
      "step": 33851
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4131876528263092,
      "learning_rate": 0.0004144391900563965,
      "loss": 1.5643,
      "step": 33852
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4130210876464844,
      "learning_rate": 0.0004144295282207308,
      "loss": 1.6198,
      "step": 33853
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44285017251968384,
      "learning_rate": 0.00041441986624616455,
      "loss": 1.6717,
      "step": 33854
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4126850664615631,
      "learning_rate": 0.00041441020413270936,
      "loss": 1.6698,
      "step": 33855
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4302530586719513,
      "learning_rate": 0.00041440054188037715,
      "loss": 1.6216,
      "step": 33856
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.417143315076828,
      "learning_rate": 0.00041439087948917945,
      "loss": 1.5749,
      "step": 33857
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42128023505210876,
      "learning_rate": 0.0004143812169591281,
      "loss": 1.6223,
      "step": 33858
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42624932527542114,
      "learning_rate": 0.0004143715542902348,
      "loss": 1.6682,
      "step": 33859
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41739287972450256,
      "learning_rate": 0.0004143618914825113,
      "loss": 1.624,
      "step": 33860
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43118980526924133,
      "learning_rate": 0.00041435222853596933,
      "loss": 1.6305,
      "step": 33861
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42813384532928467,
      "learning_rate": 0.0004143425654506205,
      "loss": 1.6779,
      "step": 33862
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4178021252155304,
      "learning_rate": 0.00041433290222647685,
      "loss": 1.6307,
      "step": 33863
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43044233322143555,
      "learning_rate": 0.00041432323886354973,
      "loss": 1.6474,
      "step": 33864
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4272640347480774,
      "learning_rate": 0.0004143135753618511,
      "loss": 1.6181,
      "step": 33865
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41627365350723267,
      "learning_rate": 0.0004143039117213926,
      "loss": 1.7033,
      "step": 33866
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4257983863353729,
      "learning_rate": 0.000414294247942186,
      "loss": 1.6064,
      "step": 33867
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4338953197002411,
      "learning_rate": 0.0004142845840242431,
      "loss": 1.6779,
      "step": 33868
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4359319508075714,
      "learning_rate": 0.00041427491996757544,
      "loss": 1.6168,
      "step": 33869
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4329013228416443,
      "learning_rate": 0.00041426525577219496,
      "loss": 1.6639,
      "step": 33870
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44660311937332153,
      "learning_rate": 0.0004142555914381132,
      "loss": 1.6923,
      "step": 33871
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42291247844696045,
      "learning_rate": 0.0004142459269653421,
      "loss": 1.6873,
      "step": 33872
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4179050326347351,
      "learning_rate": 0.0004142362623538932,
      "loss": 1.6002,
      "step": 33873
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.417364239692688,
      "learning_rate": 0.0004142265976037783,
      "loss": 1.6684,
      "step": 33874
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.39555802941322327,
      "learning_rate": 0.00041421693271500925,
      "loss": 1.5745,
      "step": 33875
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4268421530723572,
      "learning_rate": 0.00041420726768759755,
      "loss": 1.743,
      "step": 33876
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43364182114601135,
      "learning_rate": 0.00041419760252155505,
      "loss": 1.6613,
      "step": 33877
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41612112522125244,
      "learning_rate": 0.0004141879372168936,
      "loss": 1.5718,
      "step": 33878
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42132166028022766,
      "learning_rate": 0.0004141782717736248,
      "loss": 1.6481,
      "step": 33879
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4277087450027466,
      "learning_rate": 0.0004141686061917603,
      "loss": 1.6867,
      "step": 33880
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43218520283699036,
      "learning_rate": 0.000414158940471312,
      "loss": 1.683,
      "step": 33881
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44977301359176636,
      "learning_rate": 0.00041414927461229156,
      "loss": 1.6419,
      "step": 33882
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.417501300573349,
      "learning_rate": 0.00041413960861471066,
      "loss": 1.6256,
      "step": 33883
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.430204838514328,
      "learning_rate": 0.00041412994247858124,
      "loss": 1.6615,
      "step": 33884
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4389166831970215,
      "learning_rate": 0.00041412027620391475,
      "loss": 1.6528,
      "step": 33885
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4159817099571228,
      "learning_rate": 0.0004141106097907231,
      "loss": 1.6486,
      "step": 33886
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.5644149780273438,
      "learning_rate": 0.00041410094323901796,
      "loss": 1.6396,
      "step": 33887
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4196382462978363,
      "learning_rate": 0.0004140912765488112,
      "loss": 1.6293,
      "step": 33888
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4392540752887726,
      "learning_rate": 0.0004140816097201143,
      "loss": 1.6939,
      "step": 33889
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4142468571662903,
      "learning_rate": 0.0004140719427529392,
      "loss": 1.6013,
      "step": 33890
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4219417870044708,
      "learning_rate": 0.0004140622756472976,
      "loss": 1.6951,
      "step": 33891
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4213220775127411,
      "learning_rate": 0.00041405260840320107,
      "loss": 1.6686,
      "step": 33892
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42206624150276184,
      "learning_rate": 0.00041404294102066167,
      "loss": 1.7142,
      "step": 33893
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4174162745475769,
      "learning_rate": 0.0004140332734996908,
      "loss": 1.6401,
      "step": 33894
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42391398549079895,
      "learning_rate": 0.0004140236058403004,
      "loss": 1.6266,
      "step": 33895
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4164499342441559,
      "learning_rate": 0.0004140139380425021,
      "loss": 1.6581,
      "step": 33896
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4260571599006653,
      "learning_rate": 0.0004140042701063077,
      "loss": 1.6681,
      "step": 33897
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42181989550590515,
      "learning_rate": 0.000413994602031729,
      "loss": 1.6026,
      "step": 33898
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4144163727760315,
      "learning_rate": 0.0004139849338187775,
      "loss": 1.6359,
      "step": 33899
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4089720547199249,
      "learning_rate": 0.0004139752654674652,
      "loss": 1.6331,
      "step": 33900
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43372881412506104,
      "learning_rate": 0.00041396559697780364,
      "loss": 1.6167,
      "step": 33901
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4178452789783478,
      "learning_rate": 0.00041395592834980467,
      "loss": 1.6416,
      "step": 33902
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43498530983924866,
      "learning_rate": 0.00041394625958348,
      "loss": 1.6506,
      "step": 33903
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43320369720458984,
      "learning_rate": 0.00041393659067884134,
      "loss": 1.6793,
      "step": 33904
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42788204550743103,
      "learning_rate": 0.0004139269216359005,
      "loss": 1.6874,
      "step": 33905
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42012354731559753,
      "learning_rate": 0.00041391725245466907,
      "loss": 1.6212,
      "step": 33906
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4952451288700104,
      "learning_rate": 0.00041390758313515895,
      "loss": 1.642,
      "step": 33907
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42389774322509766,
      "learning_rate": 0.0004138979136773818,
      "loss": 1.5942,
      "step": 33908
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4345185160636902,
      "learning_rate": 0.0004138882440813494,
      "loss": 1.6542,
      "step": 33909
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44215354323387146,
      "learning_rate": 0.0004138785743470734,
      "loss": 1.5724,
      "step": 33910
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43597397208213806,
      "learning_rate": 0.0004138689044745656,
      "loss": 1.6583,
      "step": 33911
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4311920404434204,
      "learning_rate": 0.00041385923446383776,
      "loss": 1.629,
      "step": 33912
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4130260646343231,
      "learning_rate": 0.0004138495643149015,
      "loss": 1.6262,
      "step": 33913
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42000913619995117,
      "learning_rate": 0.0004138398940277687,
      "loss": 1.5968,
      "step": 33914
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4156948924064636,
      "learning_rate": 0.000413830223602451,
      "loss": 1.5978,
      "step": 33915
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4217367172241211,
      "learning_rate": 0.0004138205530389603,
      "loss": 1.6805,
      "step": 33916
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4181067645549774,
      "learning_rate": 0.00041381088233730806,
      "loss": 1.6275,
      "step": 33917
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4308512508869171,
      "learning_rate": 0.00041380121149750635,
      "loss": 1.5626,
      "step": 33918
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4197845458984375,
      "learning_rate": 0.0004137915405195666,
      "loss": 1.649,
      "step": 33919
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41750413179397583,
      "learning_rate": 0.00041378186940350074,
      "loss": 1.5683,
      "step": 33920
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43996503949165344,
      "learning_rate": 0.00041377219814932043,
      "loss": 1.7111,
      "step": 33921
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44693446159362793,
      "learning_rate": 0.00041376252675703743,
      "loss": 1.6506,
      "step": 33922
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4229942262172699,
      "learning_rate": 0.0004137528552266635,
      "loss": 1.6618,
      "step": 33923
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41062918305397034,
      "learning_rate": 0.00041374318355821035,
      "loss": 1.6008,
      "step": 33924
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4188557267189026,
      "learning_rate": 0.0004137335117516898,
      "loss": 1.6519,
      "step": 33925
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4360364079475403,
      "learning_rate": 0.0004137238398071135,
      "loss": 1.6123,
      "step": 33926
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4262894093990326,
      "learning_rate": 0.0004137141677244931,
      "loss": 1.6133,
      "step": 33927
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4282551109790802,
      "learning_rate": 0.00041370449550384063,
      "loss": 1.6301,
      "step": 33928
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4308001697063446,
      "learning_rate": 0.0004136948231451676,
      "loss": 1.6251,
      "step": 33929
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4453197419643402,
      "learning_rate": 0.0004136851506484858,
      "loss": 1.6241,
      "step": 33930
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4342601001262665,
      "learning_rate": 0.00041367547801380694,
      "loss": 1.5842,
      "step": 33931
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4154312312602997,
      "learning_rate": 0.0004136658052411428,
      "loss": 1.6707,
      "step": 33932
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43832507729530334,
      "learning_rate": 0.00041365613233050515,
      "loss": 1.6041,
      "step": 33933
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4289376735687256,
      "learning_rate": 0.00041364645928190574,
      "loss": 1.6287,
      "step": 33934
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43918195366859436,
      "learning_rate": 0.0004136367860953562,
      "loss": 1.6477,
      "step": 33935
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4358038604259491,
      "learning_rate": 0.0004136271127708684,
      "loss": 1.6281,
      "step": 33936
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4354000687599182,
      "learning_rate": 0.00041361743930845395,
      "loss": 1.6309,
      "step": 33937
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41062241792678833,
      "learning_rate": 0.00041360776570812475,
      "loss": 1.6313,
      "step": 33938
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42384397983551025,
      "learning_rate": 0.0004135980919698924,
      "loss": 1.6277,
      "step": 33939
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.40473297238349915,
      "learning_rate": 0.0004135884180937687,
      "loss": 1.6606,
      "step": 33940
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4274771213531494,
      "learning_rate": 0.0004135787440797655,
      "loss": 1.5425,
      "step": 33941
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.455596923828125,
      "learning_rate": 0.00041356906992789434,
      "loss": 1.7094,
      "step": 33942
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4262169599533081,
      "learning_rate": 0.0004135593956381671,
      "loss": 1.6596,
      "step": 33943
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4174904525279999,
      "learning_rate": 0.0004135497212105955,
      "loss": 1.5357,
      "step": 33944
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4239197373390198,
      "learning_rate": 0.00041354004664519124,
      "loss": 1.6029,
      "step": 33945
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4305950403213501,
      "learning_rate": 0.00041353037194196617,
      "loss": 1.6807,
      "step": 33946
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43409600853919983,
      "learning_rate": 0.0004135206971009318,
      "loss": 1.6676,
      "step": 33947
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4441560208797455,
      "learning_rate": 0.00041351102212210014,
      "loss": 1.6886,
      "step": 33948
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42357391119003296,
      "learning_rate": 0.00041350134700548276,
      "loss": 1.5609,
      "step": 33949
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.5295208096504211,
      "learning_rate": 0.00041349167175109154,
      "loss": 1.6771,
      "step": 33950
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44073256850242615,
      "learning_rate": 0.00041348199635893806,
      "loss": 1.7026,
      "step": 33951
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4229452610015869,
      "learning_rate": 0.00041347232082903425,
      "loss": 1.6313,
      "step": 33952
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4241770803928375,
      "learning_rate": 0.0004134626451613918,
      "loss": 1.6285,
      "step": 33953
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43415945768356323,
      "learning_rate": 0.00041345296935602223,
      "loss": 1.6823,
      "step": 33954
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4178045392036438,
      "learning_rate": 0.0004134432934129377,
      "loss": 1.625,
      "step": 33955
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42542919516563416,
      "learning_rate": 0.0004134336173321496,
      "loss": 1.6509,
      "step": 33956
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42142680287361145,
      "learning_rate": 0.0004134239411136698,
      "loss": 1.6225,
      "step": 33957
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42178916931152344,
      "learning_rate": 0.00041341426475751005,
      "loss": 1.6356,
      "step": 33958
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4203610122203827,
      "learning_rate": 0.0004134045882636821,
      "loss": 1.6765,
      "step": 33959
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43996724486351013,
      "learning_rate": 0.00041339491163219777,
      "loss": 1.6346,
      "step": 33960
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.45431387424468994,
      "learning_rate": 0.0004133852348630686,
      "loss": 1.6385,
      "step": 33961
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4170835614204407,
      "learning_rate": 0.00041337555795630654,
      "loss": 1.5704,
      "step": 33962
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42913851141929626,
      "learning_rate": 0.0004133658809119232,
      "loss": 1.5666,
      "step": 33963
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4339708089828491,
      "learning_rate": 0.0004133562037299304,
      "loss": 1.6726,
      "step": 33964
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43663400411605835,
      "learning_rate": 0.0004133465264103399,
      "loss": 1.6662,
      "step": 33965
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4171163737773895,
      "learning_rate": 0.0004133368489531635,
      "loss": 1.6367,
      "step": 33966
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43079233169555664,
      "learning_rate": 0.0004133271713584127,
      "loss": 1.7091,
      "step": 33967
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4366452097892761,
      "learning_rate": 0.00041331749362609954,
      "loss": 1.6298,
      "step": 33968
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4152165353298187,
      "learning_rate": 0.00041330781575623553,
      "loss": 1.6455,
      "step": 33969
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42110398411750793,
      "learning_rate": 0.0004132981377488326,
      "loss": 1.6317,
      "step": 33970
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41901883482933044,
      "learning_rate": 0.00041328845960390245,
      "loss": 1.6903,
      "step": 33971
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42383870482444763,
      "learning_rate": 0.00041327878132145664,
      "loss": 1.6594,
      "step": 33972
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42548054456710815,
      "learning_rate": 0.00041326910290150726,
      "loss": 1.6991,
      "step": 33973
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4162987768650055,
      "learning_rate": 0.0004132594243440658,
      "loss": 1.5976,
      "step": 33974
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41792032122612,
      "learning_rate": 0.00041324974564914413,
      "loss": 1.5806,
      "step": 33975
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44179314374923706,
      "learning_rate": 0.0004132400668167539,
      "loss": 1.6132,
      "step": 33976
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4387751817703247,
      "learning_rate": 0.00041323038784690693,
      "loss": 1.6219,
      "step": 33977
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4280298054218292,
      "learning_rate": 0.000413220708739615,
      "loss": 1.5907,
      "step": 33978
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44489723443984985,
      "learning_rate": 0.0004132110294948897,
      "loss": 1.6164,
      "step": 33979
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43118155002593994,
      "learning_rate": 0.000413201350112743,
      "loss": 1.6229,
      "step": 33980
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4464475214481354,
      "learning_rate": 0.00041319167059318654,
      "loss": 1.6254,
      "step": 33981
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.46207699179649353,
      "learning_rate": 0.00041318199093623204,
      "loss": 1.6587,
      "step": 33982
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4297305643558502,
      "learning_rate": 0.0004131723111418913,
      "loss": 1.6133,
      "step": 33983
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42134177684783936,
      "learning_rate": 0.000413162631210176,
      "loss": 1.7333,
      "step": 33984
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42629244923591614,
      "learning_rate": 0.000413152951141098,
      "loss": 1.6658,
      "step": 33985
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4468548893928528,
      "learning_rate": 0.00041314327093466894,
      "loss": 1.6647,
      "step": 33986
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42633405327796936,
      "learning_rate": 0.0004131335905909006,
      "loss": 1.578,
      "step": 33987
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.419268935918808,
      "learning_rate": 0.0004131239101098048,
      "loss": 1.6592,
      "step": 33988
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4272083640098572,
      "learning_rate": 0.0004131142294913932,
      "loss": 1.6923,
      "step": 33989
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4211699068546295,
      "learning_rate": 0.00041310454873567763,
      "loss": 1.6514,
      "step": 33990
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43943366408348083,
      "learning_rate": 0.0004130948678426699,
      "loss": 1.5679,
      "step": 33991
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4142230749130249,
      "learning_rate": 0.0004130851868123815,
      "loss": 1.6164,
      "step": 33992
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44580042362213135,
      "learning_rate": 0.0004130755056448244,
      "loss": 1.6093,
      "step": 33993
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42381998896598816,
      "learning_rate": 0.00041306582434001026,
      "loss": 1.6621,
      "step": 33994
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4561028778553009,
      "learning_rate": 0.00041305614289795093,
      "loss": 1.6576,
      "step": 33995
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41253504157066345,
      "learning_rate": 0.00041304646131865816,
      "loss": 1.5933,
      "step": 33996
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41866281628608704,
      "learning_rate": 0.00041303677960214346,
      "loss": 1.5225,
      "step": 33997
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4316122829914093,
      "learning_rate": 0.0004130270977484189,
      "loss": 1.6279,
      "step": 33998
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4127255976200104,
      "learning_rate": 0.00041301741575749604,
      "loss": 1.5852,
      "step": 33999
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42924103140830994,
      "learning_rate": 0.00041300773362938674,
      "loss": 1.6895,
      "step": 34000
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43617770075798035,
      "learning_rate": 0.00041299805136410273,
      "loss": 1.6578,
      "step": 34001
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44755980372428894,
      "learning_rate": 0.0004129883689616556,
      "loss": 1.6573,
      "step": 34002
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.437913179397583,
      "learning_rate": 0.00041297868642205737,
      "loss": 1.5861,
      "step": 34003
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42624807357788086,
      "learning_rate": 0.0004129690037453195,
      "loss": 1.6483,
      "step": 34004
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4147205054759979,
      "learning_rate": 0.0004129593209314541,
      "loss": 1.7003,
      "step": 34005
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44142013788223267,
      "learning_rate": 0.0004129496379804726,
      "loss": 1.719,
      "step": 34006
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4270073473453522,
      "learning_rate": 0.0004129399548923869,
      "loss": 1.6401,
      "step": 34007
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42903444170951843,
      "learning_rate": 0.00041293027166720885,
      "loss": 1.6724,
      "step": 34008
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43000370264053345,
      "learning_rate": 0.00041292058830494995,
      "loss": 1.6738,
      "step": 34009
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.6611741185188293,
      "learning_rate": 0.00041291090480562214,
      "loss": 1.6958,
      "step": 34010
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4302975535392761,
      "learning_rate": 0.00041290122116923714,
      "loss": 1.684,
      "step": 34011
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4402523934841156,
      "learning_rate": 0.00041289153739580665,
      "loss": 1.6081,
      "step": 34012
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42046216130256653,
      "learning_rate": 0.00041288185348534255,
      "loss": 1.4764,
      "step": 34013
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4273155927658081,
      "learning_rate": 0.00041287216943785643,
      "loss": 1.5868,
      "step": 34014
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4369036555290222,
      "learning_rate": 0.00041286248525336023,
      "loss": 1.64,
      "step": 34015
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44757458567619324,
      "learning_rate": 0.0004128528009318655,
      "loss": 1.5724,
      "step": 34016
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4367532730102539,
      "learning_rate": 0.00041284311647338414,
      "loss": 1.6246,
      "step": 34017
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4121609926223755,
      "learning_rate": 0.0004128334318779278,
      "loss": 1.6784,
      "step": 34018
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4243618845939636,
      "learning_rate": 0.0004128237471455083,
      "loss": 1.6385,
      "step": 34019
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4280775487422943,
      "learning_rate": 0.00041281406227613754,
      "loss": 1.5864,
      "step": 34020
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4266447424888611,
      "learning_rate": 0.00041280437726982705,
      "loss": 1.6747,
      "step": 34021
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41024070978164673,
      "learning_rate": 0.00041279469212658865,
      "loss": 1.5974,
      "step": 34022
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4181273281574249,
      "learning_rate": 0.0004127850068464341,
      "loss": 1.623,
      "step": 34023
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4182400107383728,
      "learning_rate": 0.00041277532142937524,
      "loss": 1.5954,
      "step": 34024
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4139394164085388,
      "learning_rate": 0.0004127656358754236,
      "loss": 1.6432,
      "step": 34025
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.45058581233024597,
      "learning_rate": 0.00041275595018459133,
      "loss": 1.7362,
      "step": 34026
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4293755888938904,
      "learning_rate": 0.0004127462643568897,
      "loss": 1.6677,
      "step": 34027
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41010332107543945,
      "learning_rate": 0.00041273657839233086,
      "loss": 1.5837,
      "step": 34028
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4402451813220978,
      "learning_rate": 0.00041272689229092645,
      "loss": 1.639,
      "step": 34029
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44183406233787537,
      "learning_rate": 0.00041271720605268815,
      "loss": 1.7803,
      "step": 34030
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42450353503227234,
      "learning_rate": 0.0004127075196776277,
      "loss": 1.6881,
      "step": 34031
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4298846125602722,
      "learning_rate": 0.00041269783316575704,
      "loss": 1.6964,
      "step": 34032
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42794176936149597,
      "learning_rate": 0.00041268814651708777,
      "loss": 1.6308,
      "step": 34033
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43156060576438904,
      "learning_rate": 0.0004126784597316317,
      "loss": 1.6394,
      "step": 34034
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43542420864105225,
      "learning_rate": 0.0004126687728094006,
      "loss": 1.6763,
      "step": 34035
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4287968873977661,
      "learning_rate": 0.0004126590857504062,
      "loss": 1.6844,
      "step": 34036
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42789438366889954,
      "learning_rate": 0.00041264939855466026,
      "loss": 1.6868,
      "step": 34037
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42366304993629456,
      "learning_rate": 0.00041263971122217454,
      "loss": 1.6567,
      "step": 34038
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4185347259044647,
      "learning_rate": 0.0004126300237529608,
      "loss": 1.6635,
      "step": 34039
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4331025779247284,
      "learning_rate": 0.0004126203361470309,
      "loss": 1.6191,
      "step": 34040
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4372480511665344,
      "learning_rate": 0.0004126106484043964,
      "loss": 1.6022,
      "step": 34041
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4271869659423828,
      "learning_rate": 0.00041260096052506915,
      "loss": 1.6586,
      "step": 34042
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4254465699195862,
      "learning_rate": 0.000412591272509061,
      "loss": 1.6221,
      "step": 34043
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4123988747596741,
      "learning_rate": 0.0004125815843563836,
      "loss": 1.6808,
      "step": 34044
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4268646538257599,
      "learning_rate": 0.0004125718960670487,
      "loss": 1.5895,
      "step": 34045
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42712804675102234,
      "learning_rate": 0.0004125622076410682,
      "loss": 1.6482,
      "step": 34046
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43253833055496216,
      "learning_rate": 0.0004125525190784538,
      "loss": 1.6493,
      "step": 34047
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4268425703048706,
      "learning_rate": 0.0004125428303792171,
      "loss": 1.6936,
      "step": 34048
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43715208768844604,
      "learning_rate": 0.00041253314154337,
      "loss": 1.615,
      "step": 34049
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43623852729797363,
      "learning_rate": 0.0004125234525709243,
      "loss": 1.7231,
      "step": 34050
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.5427456498146057,
      "learning_rate": 0.0004125137634618917,
      "loss": 1.6284,
      "step": 34051
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4285948872566223,
      "learning_rate": 0.0004125040742162839,
      "loss": 1.6468,
      "step": 34052
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4093519449234009,
      "learning_rate": 0.0004124943848341129,
      "loss": 1.66,
      "step": 34053
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.422855943441391,
      "learning_rate": 0.00041248469531539013,
      "loss": 1.6311,
      "step": 34054
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4506972134113312,
      "learning_rate": 0.00041247500566012757,
      "loss": 1.6293,
      "step": 34055
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4248235523700714,
      "learning_rate": 0.0004124653158683369,
      "loss": 1.716,
      "step": 34056
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44175925850868225,
      "learning_rate": 0.0004124556259400299,
      "loss": 1.6519,
      "step": 34057
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4247772693634033,
      "learning_rate": 0.0004124459358752184,
      "loss": 1.6122,
      "step": 34058
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42880940437316895,
      "learning_rate": 0.000412436245673914,
      "loss": 1.6381,
      "step": 34059
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.8488829731941223,
      "learning_rate": 0.00041242655533612867,
      "loss": 1.6123,
      "step": 34060
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42376992106437683,
      "learning_rate": 0.00041241686486187404,
      "loss": 1.6023,
      "step": 34061
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4238862991333008,
      "learning_rate": 0.00041240717425116195,
      "loss": 1.6714,
      "step": 34062
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4542713761329651,
      "learning_rate": 0.00041239748350400403,
      "loss": 1.6925,
      "step": 34063
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4384966790676117,
      "learning_rate": 0.00041238779262041213,
      "loss": 1.6578,
      "step": 34064
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44706645607948303,
      "learning_rate": 0.00041237810160039805,
      "loss": 1.6284,
      "step": 34065
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4561619162559509,
      "learning_rate": 0.00041236841044397344,
      "loss": 1.6223,
      "step": 34066
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4326521158218384,
      "learning_rate": 0.0004123587191511502,
      "loss": 1.6486,
      "step": 34067
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42623987793922424,
      "learning_rate": 0.00041234902772194004,
      "loss": 1.6126,
      "step": 34068
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42456141114234924,
      "learning_rate": 0.00041233933615635466,
      "loss": 1.6023,
      "step": 34069
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4162862002849579,
      "learning_rate": 0.00041232964445440603,
      "loss": 1.5961,
      "step": 34070
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43195846676826477,
      "learning_rate": 0.0004123199526161055,
      "loss": 1.599,
      "step": 34071
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42178797721862793,
      "learning_rate": 0.0004123102606414653,
      "loss": 1.6462,
      "step": 34072
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4156457483768463,
      "learning_rate": 0.0004123005685304969,
      "loss": 1.6271,
      "step": 34073
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4118863642215729,
      "learning_rate": 0.00041229087628321217,
      "loss": 1.6394,
      "step": 34074
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42190665006637573,
      "learning_rate": 0.0004122811838996229,
      "loss": 1.6569,
      "step": 34075
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42848098278045654,
      "learning_rate": 0.00041227149137974085,
      "loss": 1.7551,
      "step": 34076
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4209812581539154,
      "learning_rate": 0.00041226179872357765,
      "loss": 1.6401,
      "step": 34077
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4128133952617645,
      "learning_rate": 0.00041225210593114525,
      "loss": 1.6172,
      "step": 34078
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4285155236721039,
      "learning_rate": 0.0004122424130024553,
      "loss": 1.6104,
      "step": 34079
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41339248418807983,
      "learning_rate": 0.00041223271993751955,
      "loss": 1.6178,
      "step": 34080
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.40869274735450745,
      "learning_rate": 0.00041222302673634987,
      "loss": 1.6798,
      "step": 34081
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4465700387954712,
      "learning_rate": 0.000412213333398958,
      "loss": 1.6526,
      "step": 34082
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4393165409564972,
      "learning_rate": 0.00041220363992535564,
      "loss": 1.6206,
      "step": 34083
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4328269064426422,
      "learning_rate": 0.0004121939463155546,
      "loss": 1.6581,
      "step": 34084
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4219861328601837,
      "learning_rate": 0.0004121842525695666,
      "loss": 1.6221,
      "step": 34085
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4309688210487366,
      "learning_rate": 0.0004121745586874035,
      "loss": 1.5888,
      "step": 34086
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41680648922920227,
      "learning_rate": 0.00041216486466907697,
      "loss": 1.6095,
      "step": 34087
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4126530587673187,
      "learning_rate": 0.00041215517051459895,
      "loss": 1.5666,
      "step": 34088
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42062458395957947,
      "learning_rate": 0.0004121454762239808,
      "loss": 1.6804,
      "step": 34089
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.41484981775283813,
      "learning_rate": 0.00041213578179723486,
      "loss": 1.628,
      "step": 34090
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4203707277774811,
      "learning_rate": 0.0004121260872343724,
      "loss": 1.5649,
      "step": 34091
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4259772002696991,
      "learning_rate": 0.0004121163925354055,
      "loss": 1.5835,
      "step": 34092
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4349220395088196,
      "learning_rate": 0.0004121066977003458,
      "loss": 1.6106,
      "step": 34093
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4117882251739502,
      "learning_rate": 0.0004120970027292051,
      "loss": 1.6019,
      "step": 34094
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.42729777097702026,
      "learning_rate": 0.00041208730762199515,
      "loss": 1.6361,
      "step": 34095
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4308522343635559,
      "learning_rate": 0.00041207761237872765,
      "loss": 1.6736,
      "step": 34096
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4411381483078003,
      "learning_rate": 0.0004120679169994146,
      "loss": 1.637,
      "step": 34097
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4214259088039398,
      "learning_rate": 0.0004120582214840675,
      "loss": 1.6336,
      "step": 34098
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4349682331085205,
      "learning_rate": 0.00041204852583269817,
      "loss": 1.5935,
      "step": 34099
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4326097071170807,
      "learning_rate": 0.00041203883004531854,
      "loss": 1.6605,
      "step": 34100
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4285939931869507,
      "learning_rate": 0.00041202913412194023,
      "loss": 1.6812,
      "step": 34101
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4185410737991333,
      "learning_rate": 0.00041201943806257516,
      "loss": 1.587,
      "step": 34102
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4246211349964142,
      "learning_rate": 0.00041200974186723487,
      "loss": 1.5671,
      "step": 34103
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4294095039367676,
      "learning_rate": 0.0004120000455359313,
      "loss": 1.6362,
      "step": 34104
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4198693335056305,
      "learning_rate": 0.0004119903490686762,
      "loss": 1.584,
      "step": 34105
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4300493896007538,
      "learning_rate": 0.00041198065246548127,
      "loss": 1.6834,
      "step": 34106
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4177132844924927,
      "learning_rate": 0.00041197095572635835,
      "loss": 1.621,
      "step": 34107
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4318954348564148,
      "learning_rate": 0.0004119612588513192,
      "loss": 1.6498,
      "step": 34108
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.431282639503479,
      "learning_rate": 0.0004119515618403756,
      "loss": 1.6595,
      "step": 34109
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4333055913448334,
      "learning_rate": 0.0004119418646935393,
      "loss": 1.6565,
      "step": 34110
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.44367003440856934,
      "learning_rate": 0.00041193216741082197,
      "loss": 1.6362,
      "step": 34111
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.43819037079811096,
      "learning_rate": 0.00041192246999223556,
      "loss": 1.7174,
      "step": 34112
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4395870566368103,
      "learning_rate": 0.00041191277243779174,
      "loss": 1.6034,
      "step": 34113
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4198985993862152,
      "learning_rate": 0.0004119030747475023,
      "loss": 1.596,
      "step": 34114
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4228193163871765,
      "learning_rate": 0.00041189337692137907,
      "loss": 1.6713,
      "step": 34115
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4245359003543854,
      "learning_rate": 0.00041188367895943375,
      "loss": 1.6947,
      "step": 34116
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43580564856529236,
      "learning_rate": 0.00041187398086167806,
      "loss": 1.666,
      "step": 34117
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43646925687789917,
      "learning_rate": 0.000411864282628124,
      "loss": 1.6511,
      "step": 34118
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4171005189418793,
      "learning_rate": 0.000411854584258783,
      "loss": 1.6316,
      "step": 34119
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4408533275127411,
      "learning_rate": 0.00041184488575366716,
      "loss": 1.6301,
      "step": 34120
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.46280303597450256,
      "learning_rate": 0.00041183518711278793,
      "loss": 1.6689,
      "step": 34121
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41780075430870056,
      "learning_rate": 0.0004118254883361575,
      "loss": 1.5744,
      "step": 34122
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42896437644958496,
      "learning_rate": 0.00041181578942378714,
      "loss": 1.6642,
      "step": 34123
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.436079740524292,
      "learning_rate": 0.000411806090375689,
      "loss": 1.5697,
      "step": 34124
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.423194020986557,
      "learning_rate": 0.0004117963911918748,
      "loss": 1.6399,
      "step": 34125
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4341426193714142,
      "learning_rate": 0.0004117866918723562,
      "loss": 1.5804,
      "step": 34126
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43313124775886536,
      "learning_rate": 0.0004117769924171451,
      "loss": 1.7028,
      "step": 34127
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.423858106136322,
      "learning_rate": 0.00041176729282625316,
      "loss": 1.5747,
      "step": 34128
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4420430064201355,
      "learning_rate": 0.00041175759309969214,
      "loss": 1.63,
      "step": 34129
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4313023090362549,
      "learning_rate": 0.00041174789323747386,
      "loss": 1.6738,
      "step": 34130
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41882383823394775,
      "learning_rate": 0.00041173819323961017,
      "loss": 1.6055,
      "step": 34131
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41134515404701233,
      "learning_rate": 0.0004117284931061128,
      "loss": 1.6013,
      "step": 34132
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4407545030117035,
      "learning_rate": 0.0004117187928369934,
      "loss": 1.6597,
      "step": 34133
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4468404948711395,
      "learning_rate": 0.00041170909243226395,
      "loss": 1.6015,
      "step": 34134
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4244318902492523,
      "learning_rate": 0.000411699391891936,
      "loss": 1.6391,
      "step": 34135
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4124913513660431,
      "learning_rate": 0.0004116896912160216,
      "loss": 1.6494,
      "step": 34136
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4404042363166809,
      "learning_rate": 0.00041167999040453223,
      "loss": 1.7039,
      "step": 34137
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4231550395488739,
      "learning_rate": 0.00041167028945747995,
      "loss": 1.7065,
      "step": 34138
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42876747250556946,
      "learning_rate": 0.00041166058837487627,
      "loss": 1.6243,
      "step": 34139
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.428376704454422,
      "learning_rate": 0.0004116508871567331,
      "loss": 1.5931,
      "step": 34140
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41892337799072266,
      "learning_rate": 0.00041164118580306225,
      "loss": 1.6163,
      "step": 34141
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4294435381889343,
      "learning_rate": 0.0004116314843138754,
      "loss": 1.6725,
      "step": 34142
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42148396372795105,
      "learning_rate": 0.00041162178268918444,
      "loss": 1.6724,
      "step": 34143
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4225594997406006,
      "learning_rate": 0.000411612080929001,
      "loss": 1.6345,
      "step": 34144
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4256998300552368,
      "learning_rate": 0.00041160237903333706,
      "loss": 1.6753,
      "step": 34145
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4335642158985138,
      "learning_rate": 0.00041159267700220426,
      "loss": 1.6659,
      "step": 34146
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4322773218154907,
      "learning_rate": 0.0004115829748356143,
      "loss": 1.6641,
      "step": 34147
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4387820363044739,
      "learning_rate": 0.0004115732725335791,
      "loss": 1.689,
      "step": 34148
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42706552147865295,
      "learning_rate": 0.00041156357009611034,
      "loss": 1.6188,
      "step": 34149
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4517991542816162,
      "learning_rate": 0.0004115538675232199,
      "loss": 1.6149,
      "step": 34150
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41525402665138245,
      "learning_rate": 0.00041154416481491943,
      "loss": 1.6139,
      "step": 34151
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4333030879497528,
      "learning_rate": 0.0004115344619712209,
      "loss": 1.6062,
      "step": 34152
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4367367625236511,
      "learning_rate": 0.00041152475899213593,
      "loss": 1.6891,
      "step": 34153
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4241634011268616,
      "learning_rate": 0.0004115150558776763,
      "loss": 1.662,
      "step": 34154
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4198286533355713,
      "learning_rate": 0.0004115053526278538,
      "loss": 1.6626,
      "step": 34155
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42732667922973633,
      "learning_rate": 0.0004114956492426802,
      "loss": 1.6204,
      "step": 34156
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4185004234313965,
      "learning_rate": 0.0004114859457221674,
      "loss": 1.603,
      "step": 34157
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4167823791503906,
      "learning_rate": 0.0004114762420663271,
      "loss": 1.5793,
      "step": 34158
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4131699204444885,
      "learning_rate": 0.00041146653827517094,
      "loss": 1.6438,
      "step": 34159
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42068251967430115,
      "learning_rate": 0.000411456834348711,
      "loss": 1.5784,
      "step": 34160
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4170362949371338,
      "learning_rate": 0.00041144713028695875,
      "loss": 1.6917,
      "step": 34161
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4409838914871216,
      "learning_rate": 0.00041143742608992616,
      "loss": 1.6483,
      "step": 34162
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4177369475364685,
      "learning_rate": 0.000411427721757625,
      "loss": 1.5929,
      "step": 34163
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42152220010757446,
      "learning_rate": 0.00041141801729006693,
      "loss": 1.6302,
      "step": 34164
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42198511958122253,
      "learning_rate": 0.0004114083126872638,
      "loss": 1.5834,
      "step": 34165
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41652780771255493,
      "learning_rate": 0.00041139860794922736,
      "loss": 1.5779,
      "step": 34166
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42329517006874084,
      "learning_rate": 0.00041138890307596947,
      "loss": 1.5907,
      "step": 34167
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.422089546918869,
      "learning_rate": 0.00041137919806750187,
      "loss": 1.6749,
      "step": 34168
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4188689887523651,
      "learning_rate": 0.0004113694929238364,
      "loss": 1.6765,
      "step": 34169
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41255488991737366,
      "learning_rate": 0.0004113597876449847,
      "loss": 1.5498,
      "step": 34170
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42194312810897827,
      "learning_rate": 0.0004113500822309587,
      "loss": 1.7001,
      "step": 34171
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4327312111854553,
      "learning_rate": 0.00041134037668177,
      "loss": 1.697,
      "step": 34172
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44461071491241455,
      "learning_rate": 0.00041133067099743053,
      "loss": 1.6929,
      "step": 34173
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41814056038856506,
      "learning_rate": 0.000411320965177952,
      "loss": 1.5884,
      "step": 34174
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41308337450027466,
      "learning_rate": 0.00041131125922334627,
      "loss": 1.6499,
      "step": 34175
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4365787208080292,
      "learning_rate": 0.000411301553133625,
      "loss": 1.6244,
      "step": 34176
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42242544889450073,
      "learning_rate": 0.0004112918469088002,
      "loss": 1.5892,
      "step": 34177
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4300101399421692,
      "learning_rate": 0.00041128214054888336,
      "loss": 1.6725,
      "step": 34178
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4365772008895874,
      "learning_rate": 0.00041127243405388644,
      "loss": 1.6696,
      "step": 34179
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42373064160346985,
      "learning_rate": 0.00041126272742382123,
      "loss": 1.5878,
      "step": 34180
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4296935200691223,
      "learning_rate": 0.00041125302065869935,
      "loss": 1.698,
      "step": 34181
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4168510138988495,
      "learning_rate": 0.00041124331375853277,
      "loss": 1.6215,
      "step": 34182
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42544472217559814,
      "learning_rate": 0.0004112336067233331,
      "loss": 1.6831,
      "step": 34183
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41566017270088196,
      "learning_rate": 0.0004112238995531124,
      "loss": 1.5986,
      "step": 34184
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42043331265449524,
      "learning_rate": 0.0004112141922478821,
      "loss": 1.6446,
      "step": 34185
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41589441895484924,
      "learning_rate": 0.00041120448480765423,
      "loss": 1.5434,
      "step": 34186
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4234966039657593,
      "learning_rate": 0.00041119477723244055,
      "loss": 1.6869,
      "step": 34187
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42661911249160767,
      "learning_rate": 0.0004111850695222527,
      "loss": 1.5998,
      "step": 34188
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4239155054092407,
      "learning_rate": 0.0004111753616771026,
      "loss": 1.6566,
      "step": 34189
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41931217908859253,
      "learning_rate": 0.00041116565369700203,
      "loss": 1.6593,
      "step": 34190
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4341193735599518,
      "learning_rate": 0.0004111559455819627,
      "loss": 1.6268,
      "step": 34191
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4446844756603241,
      "learning_rate": 0.00041114623733199643,
      "loss": 1.6147,
      "step": 34192
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41734930872917175,
      "learning_rate": 0.000411136528947115,
      "loss": 1.6411,
      "step": 34193
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41903549432754517,
      "learning_rate": 0.00041112682042733023,
      "loss": 1.6471,
      "step": 34194
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.421956866979599,
      "learning_rate": 0.0004111171117726539,
      "loss": 1.6323,
      "step": 34195
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4189026355743408,
      "learning_rate": 0.00041110740298309765,
      "loss": 1.6128,
      "step": 34196
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43835458159446716,
      "learning_rate": 0.0004110976940586734,
      "loss": 1.6868,
      "step": 34197
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.47071775794029236,
      "learning_rate": 0.000411087984999393,
      "loss": 1.6472,
      "step": 34198
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4109622538089752,
      "learning_rate": 0.0004110782758052681,
      "loss": 1.6762,
      "step": 34199
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4158500134944916,
      "learning_rate": 0.00041106856647631063,
      "loss": 1.6243,
      "step": 34200
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4252079725265503,
      "learning_rate": 0.00041105885701253224,
      "loss": 1.6486,
      "step": 34201
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4234744608402252,
      "learning_rate": 0.0004110491474139447,
      "loss": 1.6569,
      "step": 34202
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4366169571876526,
      "learning_rate": 0.0004110394376805599,
      "loss": 1.6287,
      "step": 34203
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4348888397216797,
      "learning_rate": 0.0004110297278123896,
      "loss": 1.6432,
      "step": 34204
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.49334150552749634,
      "learning_rate": 0.0004110200178094456,
      "loss": 1.6719,
      "step": 34205
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42233243584632874,
      "learning_rate": 0.00041101030767173955,
      "loss": 1.6824,
      "step": 34206
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44053900241851807,
      "learning_rate": 0.00041100059739928343,
      "loss": 1.6734,
      "step": 34207
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4219587445259094,
      "learning_rate": 0.0004109908869920889,
      "loss": 1.6479,
      "step": 34208
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4465438723564148,
      "learning_rate": 0.00041098117645016783,
      "loss": 1.6664,
      "step": 34209
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42851439118385315,
      "learning_rate": 0.0004109714657735319,
      "loss": 1.7032,
      "step": 34210
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4327698051929474,
      "learning_rate": 0.00041096175496219297,
      "loss": 1.6682,
      "step": 34211
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43393319845199585,
      "learning_rate": 0.0004109520440161629,
      "loss": 1.597,
      "step": 34212
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.40499255061149597,
      "learning_rate": 0.00041094233293545326,
      "loss": 1.5848,
      "step": 34213
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41817259788513184,
      "learning_rate": 0.0004109326217200761,
      "loss": 1.6699,
      "step": 34214
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4252033233642578,
      "learning_rate": 0.00041092291037004306,
      "loss": 1.6397,
      "step": 34215
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.442455530166626,
      "learning_rate": 0.00041091319888536586,
      "loss": 1.6153,
      "step": 34216
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44655492901802063,
      "learning_rate": 0.00041090348726605645,
      "loss": 1.6864,
      "step": 34217
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44996020197868347,
      "learning_rate": 0.00041089377551212653,
      "loss": 1.6751,
      "step": 34218
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4329169690608978,
      "learning_rate": 0.00041088406362358804,
      "loss": 1.6515,
      "step": 34219
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41640299558639526,
      "learning_rate": 0.00041087435160045246,
      "loss": 1.6482,
      "step": 34220
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.46206456422805786,
      "learning_rate": 0.0004108646394427318,
      "loss": 1.6101,
      "step": 34221
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.45471489429473877,
      "learning_rate": 0.0004108549271504378,
      "loss": 1.6192,
      "step": 34222
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44298216700553894,
      "learning_rate": 0.0004108452147235823,
      "loss": 1.5909,
      "step": 34223
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4728294312953949,
      "learning_rate": 0.00041083550216217693,
      "loss": 1.6648,
      "step": 34224
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44952189922332764,
      "learning_rate": 0.0004108257894662338,
      "loss": 1.6472,
      "step": 34225
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4242927134037018,
      "learning_rate": 0.00041081607663576424,
      "loss": 1.5622,
      "step": 34226
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4113297164440155,
      "learning_rate": 0.0004108063636707805,
      "loss": 1.6677,
      "step": 34227
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42147669196128845,
      "learning_rate": 0.00041079665057129405,
      "loss": 1.6701,
      "step": 34228
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4316306412220001,
      "learning_rate": 0.00041078693733731677,
      "loss": 1.6918,
      "step": 34229
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4427519738674164,
      "learning_rate": 0.0004107772239688605,
      "loss": 1.7107,
      "step": 34230
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43550345301628113,
      "learning_rate": 0.00041076751046593697,
      "loss": 1.6651,
      "step": 34231
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42185795307159424,
      "learning_rate": 0.00041075779682855814,
      "loss": 1.6437,
      "step": 34232
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43805021047592163,
      "learning_rate": 0.00041074808305673554,
      "loss": 1.6081,
      "step": 34233
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4233853220939636,
      "learning_rate": 0.00041073836915048114,
      "loss": 1.6662,
      "step": 34234
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41652655601501465,
      "learning_rate": 0.0004107286551098067,
      "loss": 1.6286,
      "step": 34235
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41992810368537903,
      "learning_rate": 0.0004107189409347239,
      "loss": 1.6314,
      "step": 34236
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4299677610397339,
      "learning_rate": 0.00041070922662524465,
      "loss": 1.6575,
      "step": 34237
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4468021094799042,
      "learning_rate": 0.0004106995121813807,
      "loss": 1.6317,
      "step": 34238
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4265029728412628,
      "learning_rate": 0.0004106897976031439,
      "loss": 1.6318,
      "step": 34239
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4243551194667816,
      "learning_rate": 0.0004106800828905459,
      "loss": 1.6103,
      "step": 34240
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.5438744425773621,
      "learning_rate": 0.0004106703680435987,
      "loss": 1.7162,
      "step": 34241
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.46021634340286255,
      "learning_rate": 0.000410660653062314,
      "loss": 1.6127,
      "step": 34242
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4479229748249054,
      "learning_rate": 0.0004106509379467034,
      "loss": 1.6649,
      "step": 34243
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42816147208213806,
      "learning_rate": 0.00041064122269677904,
      "loss": 1.5638,
      "step": 34244
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43236297369003296,
      "learning_rate": 0.0004106315073125525,
      "loss": 1.6619,
      "step": 34245
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4693121910095215,
      "learning_rate": 0.00041062179179403557,
      "loss": 1.7172,
      "step": 34246
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4363909065723419,
      "learning_rate": 0.0004106120761412401,
      "loss": 1.6267,
      "step": 34247
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42720526456832886,
      "learning_rate": 0.0004106023603541778,
      "loss": 1.6641,
      "step": 34248
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4241478145122528,
      "learning_rate": 0.0004105926444328607,
      "loss": 1.6534,
      "step": 34249
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44455578923225403,
      "learning_rate": 0.00041058292837730027,
      "loss": 1.6246,
      "step": 34250
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44734978675842285,
      "learning_rate": 0.0004105732121875085,
      "loss": 1.6597,
      "step": 34251
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42581093311309814,
      "learning_rate": 0.00041056349586349715,
      "loss": 1.6932,
      "step": 34252
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43688321113586426,
      "learning_rate": 0.00041055377940527797,
      "loss": 1.6157,
      "step": 34253
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41125258803367615,
      "learning_rate": 0.00041054406281286287,
      "loss": 1.6317,
      "step": 34254
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42375123500823975,
      "learning_rate": 0.00041053434608626354,
      "loss": 1.6283,
      "step": 34255
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.5153017044067383,
      "learning_rate": 0.0004105246292254918,
      "loss": 1.6253,
      "step": 34256
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4464460015296936,
      "learning_rate": 0.0004105149122305594,
      "loss": 1.607,
      "step": 34257
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44896411895751953,
      "learning_rate": 0.0004105051951014782,
      "loss": 1.6062,
      "step": 34258
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4305979013442993,
      "learning_rate": 0.00041049547783826,
      "loss": 1.6498,
      "step": 34259
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4288824796676636,
      "learning_rate": 0.0004104857604409166,
      "loss": 1.6054,
      "step": 34260
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4364389479160309,
      "learning_rate": 0.00041047604290945963,
      "loss": 1.586,
      "step": 34261
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42708849906921387,
      "learning_rate": 0.00041046632524390116,
      "loss": 1.6484,
      "step": 34262
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4200255274772644,
      "learning_rate": 0.0004104566074442528,
      "loss": 1.6989,
      "step": 34263
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43851155042648315,
      "learning_rate": 0.0004104468895105264,
      "loss": 1.5752,
      "step": 34264
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41658174991607666,
      "learning_rate": 0.0004104371714427337,
      "loss": 1.6449,
      "step": 34265
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4285378158092499,
      "learning_rate": 0.0004104274532408866,
      "loss": 1.6421,
      "step": 34266
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42564186453819275,
      "learning_rate": 0.0004104177349049969,
      "loss": 1.5973,
      "step": 34267
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4300398826599121,
      "learning_rate": 0.0004104080164350762,
      "loss": 1.6393,
      "step": 34268
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4467945396900177,
      "learning_rate": 0.0004103982978311366,
      "loss": 1.6515,
      "step": 34269
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42857399582862854,
      "learning_rate": 0.0004103885790931896,
      "loss": 1.6156,
      "step": 34270
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4272904694080353,
      "learning_rate": 0.00041037886022124713,
      "loss": 1.6223,
      "step": 34271
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43169745802879333,
      "learning_rate": 0.000410369141215321,
      "loss": 1.6358,
      "step": 34272
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4225480854511261,
      "learning_rate": 0.00041035942207542307,
      "loss": 1.7039,
      "step": 34273
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4388640224933624,
      "learning_rate": 0.00041034970280156506,
      "loss": 1.6965,
      "step": 34274
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4146617352962494,
      "learning_rate": 0.00041033998339375875,
      "loss": 1.6221,
      "step": 34275
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.40939876437187195,
      "learning_rate": 0.0004103302638520159,
      "loss": 1.5935,
      "step": 34276
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4278264343738556,
      "learning_rate": 0.0004103205441763484,
      "loss": 1.5942,
      "step": 34277
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42958778142929077,
      "learning_rate": 0.000410310824366768,
      "loss": 1.6422,
      "step": 34278
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41665905714035034,
      "learning_rate": 0.0004103011044232865,
      "loss": 1.7485,
      "step": 34279
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4198867976665497,
      "learning_rate": 0.0004102913843459158,
      "loss": 1.603,
      "step": 34280
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4380342662334442,
      "learning_rate": 0.00041028166413466753,
      "loss": 1.6257,
      "step": 34281
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4267379939556122,
      "learning_rate": 0.0004102719437895536,
      "loss": 1.6271,
      "step": 34282
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4362149238586426,
      "learning_rate": 0.00041026222331058573,
      "loss": 1.6582,
      "step": 34283
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41813400387763977,
      "learning_rate": 0.0004102525026977758,
      "loss": 1.5947,
      "step": 34284
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4136499762535095,
      "learning_rate": 0.0004102427819511355,
      "loss": 1.573,
      "step": 34285
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.424153208732605,
      "learning_rate": 0.0004102330610706768,
      "loss": 1.6293,
      "step": 34286
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43237122893333435,
      "learning_rate": 0.00041022334005641145,
      "loss": 1.5978,
      "step": 34287
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4293285310268402,
      "learning_rate": 0.00041021361890835115,
      "loss": 1.6134,
      "step": 34288
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41385170817375183,
      "learning_rate": 0.0004102038976265078,
      "loss": 1.6685,
      "step": 34289
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43101394176483154,
      "learning_rate": 0.00041019417621089305,
      "loss": 1.6519,
      "step": 34290
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4171832501888275,
      "learning_rate": 0.0004101844546615189,
      "loss": 1.6268,
      "step": 34291
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41764959692955017,
      "learning_rate": 0.000410174732978397,
      "loss": 1.6526,
      "step": 34292
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4108627736568451,
      "learning_rate": 0.00041016501116153924,
      "loss": 1.6443,
      "step": 34293
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.433275043964386,
      "learning_rate": 0.00041015528921095737,
      "loss": 1.6368,
      "step": 34294
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4331413209438324,
      "learning_rate": 0.00041014556712666323,
      "loss": 1.6594,
      "step": 34295
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42455795407295227,
      "learning_rate": 0.00041013584490866853,
      "loss": 1.6168,
      "step": 34296
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4248798191547394,
      "learning_rate": 0.0004101261225569853,
      "loss": 1.5515,
      "step": 34297
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4100971817970276,
      "learning_rate": 0.00041011640007162505,
      "loss": 1.6227,
      "step": 34298
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4281793236732483,
      "learning_rate": 0.00041010667745259975,
      "loss": 1.5995,
      "step": 34299
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4228008985519409,
      "learning_rate": 0.0004100969546999211,
      "loss": 1.6533,
      "step": 34300
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43457934260368347,
      "learning_rate": 0.00041008723181360114,
      "loss": 1.6223,
      "step": 34301
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4189552962779999,
      "learning_rate": 0.00041007750879365137,
      "loss": 1.6485,
      "step": 34302
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.40659821033477783,
      "learning_rate": 0.0004100677856400837,
      "loss": 1.6917,
      "step": 34303
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4296859800815582,
      "learning_rate": 0.00041005806235291014,
      "loss": 1.6684,
      "step": 34304
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4178798496723175,
      "learning_rate": 0.00041004833893214205,
      "loss": 1.6426,
      "step": 34305
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43556106090545654,
      "learning_rate": 0.0004100386153777917,
      "loss": 1.6954,
      "step": 34306
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42300060391426086,
      "learning_rate": 0.00041002889168987054,
      "loss": 1.6259,
      "step": 34307
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4375229775905609,
      "learning_rate": 0.0004100191678683906,
      "loss": 1.6382,
      "step": 34308
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.410291463136673,
      "learning_rate": 0.00041000944391336356,
      "loss": 1.6191,
      "step": 34309
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41173678636550903,
      "learning_rate": 0.00040999971982480125,
      "loss": 1.6047,
      "step": 34310
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4901343286037445,
      "learning_rate": 0.0004099899956027156,
      "loss": 1.6439,
      "step": 34311
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4319797158241272,
      "learning_rate": 0.0004099802712471182,
      "loss": 1.6299,
      "step": 34312
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41906943917274475,
      "learning_rate": 0.00040997054675802097,
      "loss": 1.6392,
      "step": 34313
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4410869777202606,
      "learning_rate": 0.0004099608221354357,
      "loss": 1.683,
      "step": 34314
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4320097863674164,
      "learning_rate": 0.00040995109737937424,
      "loss": 1.6587,
      "step": 34315
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41633984446525574,
      "learning_rate": 0.0004099413724898483,
      "loss": 1.5574,
      "step": 34316
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4334814250469208,
      "learning_rate": 0.00040993164746686977,
      "loss": 1.6153,
      "step": 34317
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44974786043167114,
      "learning_rate": 0.00040992192231045034,
      "loss": 1.5594,
      "step": 34318
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4199637770652771,
      "learning_rate": 0.00040991219702060194,
      "loss": 1.5662,
      "step": 34319
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4190034568309784,
      "learning_rate": 0.0004099024715973363,
      "loss": 1.6728,
      "step": 34320
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4487277567386627,
      "learning_rate": 0.0004098927460406653,
      "loss": 1.717,
      "step": 34321
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43002206087112427,
      "learning_rate": 0.00040988302035060075,
      "loss": 1.6291,
      "step": 34322
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43406927585601807,
      "learning_rate": 0.0004098732945271543,
      "loss": 1.6562,
      "step": 34323
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42300817370414734,
      "learning_rate": 0.0004098635685703379,
      "loss": 1.6847,
      "step": 34324
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43109387159347534,
      "learning_rate": 0.00040985384248016333,
      "loss": 1.6252,
      "step": 34325
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42290663719177246,
      "learning_rate": 0.0004098441162566423,
      "loss": 1.6383,
      "step": 34326
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4159183204174042,
      "learning_rate": 0.0004098343898997868,
      "loss": 1.6148,
      "step": 34327
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4433690905570984,
      "learning_rate": 0.0004098246634096085,
      "loss": 1.5925,
      "step": 34328
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4185473322868347,
      "learning_rate": 0.0004098149367861192,
      "loss": 1.7093,
      "step": 34329
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4173727035522461,
      "learning_rate": 0.00040980521002933074,
      "loss": 1.6814,
      "step": 34330
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4227615296840668,
      "learning_rate": 0.000409795483139255,
      "loss": 1.6774,
      "step": 34331
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42123138904571533,
      "learning_rate": 0.00040978575611590374,
      "loss": 1.6855,
      "step": 34332
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42008331418037415,
      "learning_rate": 0.0004097760289592887,
      "loss": 1.6162,
      "step": 34333
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4131445288658142,
      "learning_rate": 0.00040976630166942175,
      "loss": 1.6019,
      "step": 34334
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4689421057701111,
      "learning_rate": 0.0004097565742463146,
      "loss": 1.6008,
      "step": 34335
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4245463013648987,
      "learning_rate": 0.0004097468466899793,
      "loss": 1.6547,
      "step": 34336
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4105270206928253,
      "learning_rate": 0.0004097371190004274,
      "loss": 1.7018,
      "step": 34337
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4474353492259979,
      "learning_rate": 0.00040972739117767085,
      "loss": 1.6117,
      "step": 34338
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43176528811454773,
      "learning_rate": 0.00040971766322172134,
      "loss": 1.6414,
      "step": 34339
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43657946586608887,
      "learning_rate": 0.00040970793513259076,
      "loss": 1.6188,
      "step": 34340
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42861810326576233,
      "learning_rate": 0.00040969820691029094,
      "loss": 1.6685,
      "step": 34341
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4334808588027954,
      "learning_rate": 0.00040968847855483374,
      "loss": 1.6723,
      "step": 34342
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4283522367477417,
      "learning_rate": 0.00040967875006623077,
      "loss": 1.5912,
      "step": 34343
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4372923672199249,
      "learning_rate": 0.00040966902144449406,
      "loss": 1.6494,
      "step": 34344
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4430590271949768,
      "learning_rate": 0.0004096592926896352,
      "loss": 1.5855,
      "step": 34345
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42057663202285767,
      "learning_rate": 0.0004096495638016662,
      "loss": 1.6534,
      "step": 34346
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42547643184661865,
      "learning_rate": 0.0004096398347805988,
      "loss": 1.6066,
      "step": 34347
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4280751645565033,
      "learning_rate": 0.00040963010562644473,
      "loss": 1.6247,
      "step": 34348
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.438371479511261,
      "learning_rate": 0.00040962037633921595,
      "loss": 1.6427,
      "step": 34349
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4334096312522888,
      "learning_rate": 0.0004096106469189241,
      "loss": 1.6605,
      "step": 34350
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43688109517097473,
      "learning_rate": 0.0004096009173655811,
      "loss": 1.6611,
      "step": 34351
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4250672459602356,
      "learning_rate": 0.0004095911876791988,
      "loss": 1.6115,
      "step": 34352
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4185967743396759,
      "learning_rate": 0.0004095814578597888,
      "loss": 1.629,
      "step": 34353
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4365021586418152,
      "learning_rate": 0.00040957172790736314,
      "loss": 1.6219,
      "step": 34354
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4237269163131714,
      "learning_rate": 0.0004095619978219335,
      "loss": 1.6068,
      "step": 34355
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4194219708442688,
      "learning_rate": 0.00040955226760351187,
      "loss": 1.6723,
      "step": 34356
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4336247742176056,
      "learning_rate": 0.0004095425372521098,
      "loss": 1.6391,
      "step": 34357
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4295247197151184,
      "learning_rate": 0.00040953280676773925,
      "loss": 1.6545,
      "step": 34358
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42748063802719116,
      "learning_rate": 0.00040952307615041216,
      "loss": 1.6204,
      "step": 34359
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4309934079647064,
      "learning_rate": 0.00040951334540013993,
      "loss": 1.5569,
      "step": 34360
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4433819651603699,
      "learning_rate": 0.00040950361451693487,
      "loss": 1.6102,
      "step": 34361
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4186449646949768,
      "learning_rate": 0.0004094938835008084,
      "loss": 1.6504,
      "step": 34362
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4327843487262726,
      "learning_rate": 0.0004094841523517726,
      "loss": 1.5897,
      "step": 34363
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43532973527908325,
      "learning_rate": 0.0004094744210698391,
      "loss": 1.6056,
      "step": 34364
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4275452494621277,
      "learning_rate": 0.00040946468965501984,
      "loss": 1.6108,
      "step": 34365
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42554977536201477,
      "learning_rate": 0.00040945495810732656,
      "loss": 1.6078,
      "step": 34366
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4310072958469391,
      "learning_rate": 0.000409445226426771,
      "loss": 1.6523,
      "step": 34367
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42066070437431335,
      "learning_rate": 0.0004094354946133651,
      "loss": 1.6621,
      "step": 34368
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4205334186553955,
      "learning_rate": 0.00040942576266712075,
      "loss": 1.5989,
      "step": 34369
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4300863444805145,
      "learning_rate": 0.0004094160305880495,
      "loss": 1.6799,
      "step": 34370
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4339594841003418,
      "learning_rate": 0.0004094062983761633,
      "loss": 1.6498,
      "step": 34371
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4327430725097656,
      "learning_rate": 0.00040939656603147416,
      "loss": 1.6356,
      "step": 34372
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.424771785736084,
      "learning_rate": 0.0004093868335539936,
      "loss": 1.6124,
      "step": 34373
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4402936100959778,
      "learning_rate": 0.0004093771009437335,
      "loss": 1.6399,
      "step": 34374
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.451393187046051,
      "learning_rate": 0.00040936736820070576,
      "loss": 1.6648,
      "step": 34375
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4447077512741089,
      "learning_rate": 0.00040935763532492207,
      "loss": 1.6023,
      "step": 34376
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.45586881041526794,
      "learning_rate": 0.0004093479023163945,
      "loss": 1.6209,
      "step": 34377
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4358704686164856,
      "learning_rate": 0.0004093381691751345,
      "loss": 1.6206,
      "step": 34378
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42261582612991333,
      "learning_rate": 0.0004093284359011542,
      "loss": 1.6994,
      "step": 34379
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4296919107437134,
      "learning_rate": 0.00040931870249446525,
      "loss": 1.6907,
      "step": 34380
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43295443058013916,
      "learning_rate": 0.00040930896895507947,
      "loss": 1.556,
      "step": 34381
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4340445399284363,
      "learning_rate": 0.00040929923528300875,
      "loss": 1.5918,
      "step": 34382
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4179404377937317,
      "learning_rate": 0.0004092895014782648,
      "loss": 1.5532,
      "step": 34383
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43494197726249695,
      "learning_rate": 0.00040927976754085956,
      "loss": 1.6124,
      "step": 34384
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4311021864414215,
      "learning_rate": 0.00040927003347080473,
      "loss": 1.6787,
      "step": 34385
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4149063527584076,
      "learning_rate": 0.0004092602992681123,
      "loss": 1.6552,
      "step": 34386
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4341244697570801,
      "learning_rate": 0.00040925056493279385,
      "loss": 1.622,
      "step": 34387
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4120008051395416,
      "learning_rate": 0.0004092408304648613,
      "loss": 1.5831,
      "step": 34388
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4194561243057251,
      "learning_rate": 0.00040923109586432654,
      "loss": 1.6602,
      "step": 34389
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4158007502555847,
      "learning_rate": 0.00040922136113120125,
      "loss": 1.6727,
      "step": 34390
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4284950792789459,
      "learning_rate": 0.00040921162626549745,
      "loss": 1.7294,
      "step": 34391
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44329407811164856,
      "learning_rate": 0.00040920189126722673,
      "loss": 1.6861,
      "step": 34392
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4147471487522125,
      "learning_rate": 0.000409192156136401,
      "loss": 1.6357,
      "step": 34393
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4193916916847229,
      "learning_rate": 0.0004091824208730321,
      "loss": 1.6537,
      "step": 34394
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4270024299621582,
      "learning_rate": 0.0004091726854771319,
      "loss": 1.6601,
      "step": 34395
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43247556686401367,
      "learning_rate": 0.00040916294994871206,
      "loss": 1.6527,
      "step": 34396
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4330364167690277,
      "learning_rate": 0.00040915321428778456,
      "loss": 1.6374,
      "step": 34397
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4135441482067108,
      "learning_rate": 0.00040914347849436105,
      "loss": 1.6418,
      "step": 34398
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4278828203678131,
      "learning_rate": 0.0004091337425684535,
      "loss": 1.6164,
      "step": 34399
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42224419116973877,
      "learning_rate": 0.0004091240065100736,
      "loss": 1.6065,
      "step": 34400
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4352719187736511,
      "learning_rate": 0.0004091142703192333,
      "loss": 1.6799,
      "step": 34401
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4415662884712219,
      "learning_rate": 0.00040910453399594434,
      "loss": 1.657,
      "step": 34402
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4314907491207123,
      "learning_rate": 0.0004090947975402184,
      "loss": 1.6798,
      "step": 34403
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.40929925441741943,
      "learning_rate": 0.0004090850609520677,
      "loss": 1.659,
      "step": 34404
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4364393949508667,
      "learning_rate": 0.0004090753242315037,
      "loss": 1.6348,
      "step": 34405
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4384270906448364,
      "learning_rate": 0.0004090655873785383,
      "loss": 1.6452,
      "step": 34406
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4441151022911072,
      "learning_rate": 0.0004090558503931834,
      "loss": 1.6434,
      "step": 34407
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43199536204338074,
      "learning_rate": 0.00040904611327545075,
      "loss": 1.6122,
      "step": 34408
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.426388144493103,
      "learning_rate": 0.0004090363760253522,
      "loss": 1.578,
      "step": 34409
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4104260802268982,
      "learning_rate": 0.00040902663864289947,
      "loss": 1.6381,
      "step": 34410
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.43402528762817383,
      "learning_rate": 0.0004090169011281046,
      "loss": 1.6918,
      "step": 34411
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4177514314651489,
      "learning_rate": 0.00040900716348097916,
      "loss": 1.6276,
      "step": 34412
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.41493508219718933,
      "learning_rate": 0.00040899742570153514,
      "loss": 1.6709,
      "step": 34413
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.42886361479759216,
      "learning_rate": 0.0004089876877897843,
      "loss": 1.6013,
      "step": 34414
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4084653854370117,
      "learning_rate": 0.00040897794974573836,
      "loss": 1.6557,
      "step": 34415
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4175552427768707,
      "learning_rate": 0.00040896821156940946,
      "loss": 1.5872,
      "step": 34416
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4122622311115265,
      "learning_rate": 0.000408958473260809,
      "loss": 1.7272,
      "step": 34417
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4114232361316681,
      "learning_rate": 0.00040894873481994915,
      "loss": 1.6931,
      "step": 34418
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.417605996131897,
      "learning_rate": 0.0004089389962468415,
      "loss": 1.6428,
      "step": 34419
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4249945282936096,
      "learning_rate": 0.000408929257541498,
      "loss": 1.6677,
      "step": 34420
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42268094420433044,
      "learning_rate": 0.0004089195187039305,
      "loss": 1.6455,
      "step": 34421
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41343700885772705,
      "learning_rate": 0.0004089097797341506,
      "loss": 1.6204,
      "step": 34422
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41569265723228455,
      "learning_rate": 0.0004089000406321704,
      "loss": 1.5664,
      "step": 34423
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42146745324134827,
      "learning_rate": 0.0004088903013980015,
      "loss": 1.611,
      "step": 34424
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4302471876144409,
      "learning_rate": 0.0004088805620316559,
      "loss": 1.6766,
      "step": 34425
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4324246048927307,
      "learning_rate": 0.0004088708225331453,
      "loss": 1.606,
      "step": 34426
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4375804364681244,
      "learning_rate": 0.0004088610829024816,
      "loss": 1.6368,
      "step": 34427
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4429369270801544,
      "learning_rate": 0.00040885134313967656,
      "loss": 1.6328,
      "step": 34428
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4231177270412445,
      "learning_rate": 0.000408841603244742,
      "loss": 1.6664,
      "step": 34429
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.40793710947036743,
      "learning_rate": 0.00040883186321768984,
      "loss": 1.5721,
      "step": 34430
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42835181951522827,
      "learning_rate": 0.00040882212305853177,
      "loss": 1.637,
      "step": 34431
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4398651123046875,
      "learning_rate": 0.00040881238276727967,
      "loss": 1.5976,
      "step": 34432
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43028154969215393,
      "learning_rate": 0.00040880264234394544,
      "loss": 1.6039,
      "step": 34433
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43321624398231506,
      "learning_rate": 0.0004087929017885408,
      "loss": 1.6758,
      "step": 34434
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41266176104545593,
      "learning_rate": 0.0004087831611010776,
      "loss": 1.6533,
      "step": 34435
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.408178448677063,
      "learning_rate": 0.00040877342028156766,
      "loss": 1.6141,
      "step": 34436
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4237039387226105,
      "learning_rate": 0.0004087636793300228,
      "loss": 1.6731,
      "step": 34437
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43535351753234863,
      "learning_rate": 0.00040875393824645485,
      "loss": 1.6386,
      "step": 34438
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42112553119659424,
      "learning_rate": 0.0004087441970308758,
      "loss": 1.6262,
      "step": 34439
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.425402969121933,
      "learning_rate": 0.0004087344556832971,
      "loss": 1.5702,
      "step": 34440
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43421119451522827,
      "learning_rate": 0.0004087247142037309,
      "loss": 1.642,
      "step": 34441
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42660319805145264,
      "learning_rate": 0.00040871497259218893,
      "loss": 1.5501,
      "step": 34442
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41882070899009705,
      "learning_rate": 0.000408705230848683,
      "loss": 1.621,
      "step": 34443
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4403274357318878,
      "learning_rate": 0.00040869548897322486,
      "loss": 1.5515,
      "step": 34444
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4290175437927246,
      "learning_rate": 0.0004086857469658264,
      "loss": 1.5971,
      "step": 34445
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4253062605857849,
      "learning_rate": 0.0004086760048264996,
      "loss": 1.6324,
      "step": 34446
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43438249826431274,
      "learning_rate": 0.000408666262555256,
      "loss": 1.6407,
      "step": 34447
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4203132688999176,
      "learning_rate": 0.00040865652015210766,
      "loss": 1.5753,
      "step": 34448
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4169654846191406,
      "learning_rate": 0.0004086467776170663,
      "loss": 1.6196,
      "step": 34449
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43054744601249695,
      "learning_rate": 0.00040863703495014374,
      "loss": 1.6318,
      "step": 34450
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4380265176296234,
      "learning_rate": 0.00040862729215135183,
      "loss": 1.6696,
      "step": 34451
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4308140277862549,
      "learning_rate": 0.00040861754922070235,
      "loss": 1.6364,
      "step": 34452
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4385702908039093,
      "learning_rate": 0.0004086078061582073,
      "loss": 1.6352,
      "step": 34453
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4506004750728607,
      "learning_rate": 0.0004085980629638783,
      "loss": 1.6548,
      "step": 34454
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43264463543891907,
      "learning_rate": 0.0004085883196377272,
      "loss": 1.6187,
      "step": 34455
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4355510175228119,
      "learning_rate": 0.0004085785761797659,
      "loss": 1.6682,
      "step": 34456
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43563705682754517,
      "learning_rate": 0.00040856883259000627,
      "loss": 1.6323,
      "step": 34457
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4308280646800995,
      "learning_rate": 0.00040855908886845997,
      "loss": 1.6244,
      "step": 34458
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4252122640609741,
      "learning_rate": 0.00040854934501513904,
      "loss": 1.5622,
      "step": 34459
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4320758879184723,
      "learning_rate": 0.0004085396010300552,
      "loss": 1.5868,
      "step": 34460
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4407392144203186,
      "learning_rate": 0.00040852985691322016,
      "loss": 1.6647,
      "step": 34461
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43478626012802124,
      "learning_rate": 0.00040852011266464595,
      "loss": 1.6507,
      "step": 34462
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42965754866600037,
      "learning_rate": 0.00040851036828434427,
      "loss": 1.6168,
      "step": 34463
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4406503140926361,
      "learning_rate": 0.00040850062377232715,
      "loss": 1.6323,
      "step": 34464
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45189857482910156,
      "learning_rate": 0.000408490879128606,
      "loss": 1.5831,
      "step": 34465
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4281708002090454,
      "learning_rate": 0.0004084811343531931,
      "loss": 1.5206,
      "step": 34466
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44171521067619324,
      "learning_rate": 0.0004084713894461,
      "loss": 1.6067,
      "step": 34467
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43606191873550415,
      "learning_rate": 0.0004084616444073386,
      "loss": 1.5985,
      "step": 34468
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43136066198349,
      "learning_rate": 0.00040845189923692087,
      "loss": 1.6359,
      "step": 34469
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44250258803367615,
      "learning_rate": 0.00040844215393485837,
      "loss": 1.5958,
      "step": 34470
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4400942027568817,
      "learning_rate": 0.0004084324085011632,
      "loss": 1.5844,
      "step": 34471
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4311830997467041,
      "learning_rate": 0.0004084226629358469,
      "loss": 1.6048,
      "step": 34472
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4293167293071747,
      "learning_rate": 0.00040841291723892157,
      "loss": 1.602,
      "step": 34473
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4720207452774048,
      "learning_rate": 0.000408403171410399,
      "loss": 1.6607,
      "step": 34474
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4436626732349396,
      "learning_rate": 0.00040839342545029083,
      "loss": 1.6283,
      "step": 34475
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4363176226615906,
      "learning_rate": 0.0004083836793586091,
      "loss": 1.6825,
      "step": 34476
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43379873037338257,
      "learning_rate": 0.00040837393313536543,
      "loss": 1.622,
      "step": 34477
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4142916798591614,
      "learning_rate": 0.00040836418678057195,
      "loss": 1.6113,
      "step": 34478
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4534197151660919,
      "learning_rate": 0.0004083544402942402,
      "loss": 1.6661,
      "step": 34479
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45173510909080505,
      "learning_rate": 0.0004083446936763821,
      "loss": 1.6101,
      "step": 34480
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44506895542144775,
      "learning_rate": 0.0004083349469270095,
      "loss": 1.6822,
      "step": 34481
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4256179928779602,
      "learning_rate": 0.0004083252000461343,
      "loss": 1.6159,
      "step": 34482
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43849530816078186,
      "learning_rate": 0.0004083154530337683,
      "loss": 1.6832,
      "step": 34483
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43398159742355347,
      "learning_rate": 0.00040830570588992326,
      "loss": 1.588,
      "step": 34484
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41110190749168396,
      "learning_rate": 0.000408295958614611,
      "loss": 1.5887,
      "step": 34485
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42176371812820435,
      "learning_rate": 0.0004082862112078434,
      "loss": 1.6329,
      "step": 34486
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.47194451093673706,
      "learning_rate": 0.00040827646366963237,
      "loss": 1.6165,
      "step": 34487
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42589646577835083,
      "learning_rate": 0.0004082667159999896,
      "loss": 1.6329,
      "step": 34488
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4263933002948761,
      "learning_rate": 0.0004082569681989271,
      "loss": 1.6658,
      "step": 34489
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43606293201446533,
      "learning_rate": 0.0004082472202664565,
      "loss": 1.6087,
      "step": 34490
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4301585555076599,
      "learning_rate": 0.00040823747220258973,
      "loss": 1.5278,
      "step": 34491
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41940951347351074,
      "learning_rate": 0.0004082277240073386,
      "loss": 1.6403,
      "step": 34492
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4235582649707794,
      "learning_rate": 0.00040821797568071504,
      "loss": 1.6172,
      "step": 34493
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4263029992580414,
      "learning_rate": 0.0004082082272227308,
      "loss": 1.6479,
      "step": 34494
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42862680554389954,
      "learning_rate": 0.0004081984786333976,
      "loss": 1.6746,
      "step": 34495
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44901371002197266,
      "learning_rate": 0.0004081887299127275,
      "loss": 1.6359,
      "step": 34496
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41790372133255005,
      "learning_rate": 0.00040817898106073214,
      "loss": 1.6181,
      "step": 34497
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4436456859111786,
      "learning_rate": 0.00040816923207742347,
      "loss": 1.6285,
      "step": 34498
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4304448962211609,
      "learning_rate": 0.00040815948296281325,
      "loss": 1.5708,
      "step": 34499
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4196436107158661,
      "learning_rate": 0.00040814973371691346,
      "loss": 1.6362,
      "step": 34500
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4297947287559509,
      "learning_rate": 0.00040813998433973577,
      "loss": 1.6703,
      "step": 34501
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.438305526971817,
      "learning_rate": 0.000408130234831292,
      "loss": 1.6457,
      "step": 34502
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45924434065818787,
      "learning_rate": 0.00040812048519159414,
      "loss": 1.7516,
      "step": 34503
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42030617594718933,
      "learning_rate": 0.00040811073542065395,
      "loss": 1.6196,
      "step": 34504
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42867353558540344,
      "learning_rate": 0.0004081009855184833,
      "loss": 1.6614,
      "step": 34505
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41683250665664673,
      "learning_rate": 0.0004080912354850938,
      "loss": 1.6571,
      "step": 34506
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43856680393218994,
      "learning_rate": 0.0004080814853204976,
      "loss": 1.666,
      "step": 34507
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.62264084815979,
      "learning_rate": 0.00040807173502470644,
      "loss": 1.6694,
      "step": 34508
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42749327421188354,
      "learning_rate": 0.00040806198459773205,
      "loss": 1.6493,
      "step": 34509
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43684348464012146,
      "learning_rate": 0.0004080522340395864,
      "loss": 1.5882,
      "step": 34510
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4195455014705658,
      "learning_rate": 0.00040804248335028114,
      "loss": 1.6118,
      "step": 34511
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4143408536911011,
      "learning_rate": 0.00040803273252982826,
      "loss": 1.5439,
      "step": 34512
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.40630313754081726,
      "learning_rate": 0.0004080229815782396,
      "loss": 1.6219,
      "step": 34513
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4479914605617523,
      "learning_rate": 0.000408013230495527,
      "loss": 1.6444,
      "step": 34514
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44459617137908936,
      "learning_rate": 0.0004080034792817022,
      "loss": 1.7068,
      "step": 34515
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4434414803981781,
      "learning_rate": 0.0004079937279367771,
      "loss": 1.5952,
      "step": 34516
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4460131525993347,
      "learning_rate": 0.0004079839764607635,
      "loss": 1.6618,
      "step": 34517
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4272277355194092,
      "learning_rate": 0.00040797422485367325,
      "loss": 1.6535,
      "step": 34518
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4342365562915802,
      "learning_rate": 0.0004079644731155183,
      "loss": 1.6592,
      "step": 34519
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4229991137981415,
      "learning_rate": 0.0004079547212463102,
      "loss": 1.6029,
      "step": 34520
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.421032190322876,
      "learning_rate": 0.00040794496924606116,
      "loss": 1.5508,
      "step": 34521
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41639524698257446,
      "learning_rate": 0.0004079352171147828,
      "loss": 1.6065,
      "step": 34522
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.416486531496048,
      "learning_rate": 0.00040792546485248686,
      "loss": 1.6308,
      "step": 34523
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45225152373313904,
      "learning_rate": 0.00040791571245918547,
      "loss": 1.6722,
      "step": 34524
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4456450045108795,
      "learning_rate": 0.0004079059599348902,
      "loss": 1.6565,
      "step": 34525
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4576551914215088,
      "learning_rate": 0.00040789620727961306,
      "loss": 1.6383,
      "step": 34526
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42491692304611206,
      "learning_rate": 0.00040788645449336573,
      "loss": 1.6226,
      "step": 34527
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4292088449001312,
      "learning_rate": 0.0004078767015761603,
      "loss": 1.653,
      "step": 34528
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43928438425064087,
      "learning_rate": 0.0004078669485280083,
      "loss": 1.6618,
      "step": 34529
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4416109323501587,
      "learning_rate": 0.00040785719534892174,
      "loss": 1.6228,
      "step": 34530
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4395839273929596,
      "learning_rate": 0.00040784744203891255,
      "loss": 1.6954,
      "step": 34531
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4189228415489197,
      "learning_rate": 0.0004078376885979923,
      "loss": 1.6223,
      "step": 34532
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4194481670856476,
      "learning_rate": 0.00040782793502617317,
      "loss": 1.6334,
      "step": 34533
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45029565691947937,
      "learning_rate": 0.00040781818132346655,
      "loss": 1.6007,
      "step": 34534
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44276535511016846,
      "learning_rate": 0.00040780842748988475,
      "loss": 1.6584,
      "step": 34535
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4382394850254059,
      "learning_rate": 0.0004077986735254394,
      "loss": 1.7198,
      "step": 34536
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4258582293987274,
      "learning_rate": 0.00040778891943014223,
      "loss": 1.6128,
      "step": 34537
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4428958594799042,
      "learning_rate": 0.00040777916520400536,
      "loss": 1.6472,
      "step": 34538
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4301006495952606,
      "learning_rate": 0.00040776941084704025,
      "loss": 1.6669,
      "step": 34539
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4528437852859497,
      "learning_rate": 0.00040775965635925915,
      "loss": 1.5898,
      "step": 34540
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.40899235010147095,
      "learning_rate": 0.0004077499017406736,
      "loss": 1.5444,
      "step": 34541
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4403013288974762,
      "learning_rate": 0.00040774014699129557,
      "loss": 1.6274,
      "step": 34542
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4677566587924957,
      "learning_rate": 0.00040773039211113683,
      "loss": 1.5931,
      "step": 34543
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4336939752101898,
      "learning_rate": 0.00040772063710020926,
      "loss": 1.6684,
      "step": 34544
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4394031763076782,
      "learning_rate": 0.00040771088195852486,
      "loss": 1.6702,
      "step": 34545
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44813087582588196,
      "learning_rate": 0.00040770112668609516,
      "loss": 1.636,
      "step": 34546
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4227086305618286,
      "learning_rate": 0.00040769137128293225,
      "loss": 1.5928,
      "step": 34547
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43232643604278564,
      "learning_rate": 0.00040768161574904785,
      "loss": 1.6292,
      "step": 34548
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43055135011672974,
      "learning_rate": 0.0004076718600844538,
      "loss": 1.5672,
      "step": 34549
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4257233440876007,
      "learning_rate": 0.00040766210428916204,
      "loss": 1.7047,
      "step": 34550
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44478973746299744,
      "learning_rate": 0.0004076523483631843,
      "loss": 1.6445,
      "step": 34551
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42990654706954956,
      "learning_rate": 0.00040764259230653254,
      "loss": 1.7135,
      "step": 34552
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43335333466529846,
      "learning_rate": 0.0004076328361192185,
      "loss": 1.7242,
      "step": 34553
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4292672872543335,
      "learning_rate": 0.000407623079801254,
      "loss": 1.5807,
      "step": 34554
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43128150701522827,
      "learning_rate": 0.000407613323352651,
      "loss": 1.6209,
      "step": 34555
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43065863847732544,
      "learning_rate": 0.0004076035667734213,
      "loss": 1.623,
      "step": 34556
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4286164343357086,
      "learning_rate": 0.0004075938100635766,
      "loss": 1.6786,
      "step": 34557
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4249374568462372,
      "learning_rate": 0.00040758405322312904,
      "loss": 1.7028,
      "step": 34558
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4088948369026184,
      "learning_rate": 0.0004075742962520902,
      "loss": 1.6249,
      "step": 34559
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4469055235385895,
      "learning_rate": 0.000407564539150472,
      "loss": 1.6052,
      "step": 34560
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42702236771583557,
      "learning_rate": 0.0004075547819182863,
      "loss": 1.5786,
      "step": 34561
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4243726134300232,
      "learning_rate": 0.0004075450245555449,
      "loss": 1.6588,
      "step": 34562
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42715609073638916,
      "learning_rate": 0.00040753526706225983,
      "loss": 1.5215,
      "step": 34563
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4341895580291748,
      "learning_rate": 0.00040752550943844266,
      "loss": 1.6473,
      "step": 34564
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4164007008075714,
      "learning_rate": 0.0004075157516841054,
      "loss": 1.5961,
      "step": 34565
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42628252506256104,
      "learning_rate": 0.00040750599379925996,
      "loss": 1.5836,
      "step": 34566
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43322575092315674,
      "learning_rate": 0.0004074962357839179,
      "loss": 1.6834,
      "step": 34567
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43114763498306274,
      "learning_rate": 0.0004074864776380914,
      "loss": 1.5957,
      "step": 34568
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4061744213104248,
      "learning_rate": 0.00040747671936179207,
      "loss": 1.6363,
      "step": 34569
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43227800726890564,
      "learning_rate": 0.0004074669609550319,
      "loss": 1.6227,
      "step": 34570
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4326840043067932,
      "learning_rate": 0.0004074572024178227,
      "loss": 1.5801,
      "step": 34571
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43589314818382263,
      "learning_rate": 0.00040744744375017616,
      "loss": 1.6014,
      "step": 34572
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43290314078330994,
      "learning_rate": 0.00040743768495210434,
      "loss": 1.7123,
      "step": 34573
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4259420931339264,
      "learning_rate": 0.000407427926023619,
      "loss": 1.6948,
      "step": 34574
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4269695580005646,
      "learning_rate": 0.00040741816696473197,
      "loss": 1.5865,
      "step": 34575
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43807893991470337,
      "learning_rate": 0.0004074084077754551,
      "loss": 1.7036,
      "step": 34576
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42924466729164124,
      "learning_rate": 0.0004073986484558003,
      "loss": 1.6309,
      "step": 34577
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42866358160972595,
      "learning_rate": 0.0004073888890057793,
      "loss": 1.6804,
      "step": 34578
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4149918258190155,
      "learning_rate": 0.0004073791294254041,
      "loss": 1.6256,
      "step": 34579
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42490386962890625,
      "learning_rate": 0.0004073693697146863,
      "loss": 1.6923,
      "step": 34580
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4790424406528473,
      "learning_rate": 0.0004073596098736381,
      "loss": 1.7136,
      "step": 34581
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43388018012046814,
      "learning_rate": 0.00040734984990227095,
      "loss": 1.6664,
      "step": 34582
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4264209270477295,
      "learning_rate": 0.0004073400898005971,
      "loss": 1.6823,
      "step": 34583
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4470979869365692,
      "learning_rate": 0.00040733032956862805,
      "loss": 1.6755,
      "step": 34584
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.406210333108902,
      "learning_rate": 0.00040732056920637585,
      "loss": 1.6031,
      "step": 34585
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4423041045665741,
      "learning_rate": 0.00040731080871385237,
      "loss": 1.5924,
      "step": 34586
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41738659143447876,
      "learning_rate": 0.0004073010480910692,
      "loss": 1.5811,
      "step": 34587
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42888954281806946,
      "learning_rate": 0.0004072912873380385,
      "loss": 1.6774,
      "step": 34588
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4023042917251587,
      "learning_rate": 0.0004072815264547719,
      "loss": 1.5773,
      "step": 34589
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4302655756473541,
      "learning_rate": 0.00040727176544128144,
      "loss": 1.6291,
      "step": 34590
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4307195842266083,
      "learning_rate": 0.00040726200429757876,
      "loss": 1.6361,
      "step": 34591
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4269407093524933,
      "learning_rate": 0.0004072522430236759,
      "loss": 1.6659,
      "step": 34592
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.47689002752304077,
      "learning_rate": 0.00040724248161958464,
      "loss": 1.7518,
      "step": 34593
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42563557624816895,
      "learning_rate": 0.00040723272008531667,
      "loss": 1.6854,
      "step": 34594
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42126357555389404,
      "learning_rate": 0.0004072229584208841,
      "loss": 1.5619,
      "step": 34595
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4256690442562103,
      "learning_rate": 0.0004072131966262986,
      "loss": 1.6126,
      "step": 34596
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4499438405036926,
      "learning_rate": 0.0004072034347015721,
      "loss": 1.7461,
      "step": 34597
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4243689775466919,
      "learning_rate": 0.00040719367264671635,
      "loss": 1.6276,
      "step": 34598
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4145987033843994,
      "learning_rate": 0.00040718391046174336,
      "loss": 1.6021,
      "step": 34599
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42578911781311035,
      "learning_rate": 0.0004071741481466649,
      "loss": 1.6413,
      "step": 34600
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41963687539100647,
      "learning_rate": 0.0004071643857014928,
      "loss": 1.6181,
      "step": 34601
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43807026743888855,
      "learning_rate": 0.00040715462312623893,
      "loss": 1.6287,
      "step": 34602
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42806771397590637,
      "learning_rate": 0.0004071448604209151,
      "loss": 1.6416,
      "step": 34603
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43459829688072205,
      "learning_rate": 0.0004071350975855332,
      "loss": 1.6426,
      "step": 34604
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42961835861206055,
      "learning_rate": 0.00040712533462010516,
      "loss": 1.6331,
      "step": 34605
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41029122471809387,
      "learning_rate": 0.00040711557152464266,
      "loss": 1.6431,
      "step": 34606
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4468649625778198,
      "learning_rate": 0.00040710580829915764,
      "loss": 1.717,
      "step": 34607
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4279596209526062,
      "learning_rate": 0.000407096044943662,
      "loss": 1.6314,
      "step": 34608
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42889612913131714,
      "learning_rate": 0.0004070862814581675,
      "loss": 1.7518,
      "step": 34609
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41459938883781433,
      "learning_rate": 0.0004070765178426861,
      "loss": 1.606,
      "step": 34610
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4405672550201416,
      "learning_rate": 0.0004070667540972295,
      "loss": 1.5759,
      "step": 34611
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44201287627220154,
      "learning_rate": 0.00040705699022180965,
      "loss": 1.6209,
      "step": 34612
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41837990283966064,
      "learning_rate": 0.00040704722621643844,
      "loss": 1.631,
      "step": 34613
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4177226424217224,
      "learning_rate": 0.00040703746208112766,
      "loss": 1.6029,
      "step": 34614
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41443702578544617,
      "learning_rate": 0.0004070276978158891,
      "loss": 1.6188,
      "step": 34615
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4090198278427124,
      "learning_rate": 0.0004070179334207347,
      "loss": 1.6203,
      "step": 34616
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4134404957294464,
      "learning_rate": 0.00040700816889567635,
      "loss": 1.6261,
      "step": 34617
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.430134117603302,
      "learning_rate": 0.00040699840424072585,
      "loss": 1.667,
      "step": 34618
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4247352182865143,
      "learning_rate": 0.000406988639455895,
      "loss": 1.6699,
      "step": 34619
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.46151861548423767,
      "learning_rate": 0.00040697887454119576,
      "loss": 1.6308,
      "step": 34620
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4276823103427887,
      "learning_rate": 0.0004069691094966399,
      "loss": 1.7205,
      "step": 34621
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43009305000305176,
      "learning_rate": 0.00040695934432223937,
      "loss": 1.6983,
      "step": 34622
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43374472856521606,
      "learning_rate": 0.00040694957901800583,
      "loss": 1.622,
      "step": 34623
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4226163327693939,
      "learning_rate": 0.00040693981358395134,
      "loss": 1.5836,
      "step": 34624
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42313170433044434,
      "learning_rate": 0.0004069300480200877,
      "loss": 1.6652,
      "step": 34625
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41447752714157104,
      "learning_rate": 0.0004069202823264267,
      "loss": 1.6967,
      "step": 34626
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4360649287700653,
      "learning_rate": 0.0004069105165029802,
      "loss": 1.62,
      "step": 34627
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43651679158210754,
      "learning_rate": 0.0004069007505497601,
      "loss": 1.66,
      "step": 34628
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4151966869831085,
      "learning_rate": 0.0004068909844667782,
      "loss": 1.6491,
      "step": 34629
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42175722122192383,
      "learning_rate": 0.0004068812182540465,
      "loss": 1.6423,
      "step": 34630
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41767096519470215,
      "learning_rate": 0.00040687145191157674,
      "loss": 1.5495,
      "step": 34631
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42727598547935486,
      "learning_rate": 0.0004068616854393807,
      "loss": 1.5701,
      "step": 34632
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41769006848335266,
      "learning_rate": 0.00040685191883747037,
      "loss": 1.6828,
      "step": 34633
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4146399199962616,
      "learning_rate": 0.00040684215210585756,
      "loss": 1.6135,
      "step": 34634
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4320813715457916,
      "learning_rate": 0.00040683238524455407,
      "loss": 1.5625,
      "step": 34635
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41197720170021057,
      "learning_rate": 0.00040682261825357186,
      "loss": 1.6819,
      "step": 34636
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.5056076049804688,
      "learning_rate": 0.00040681285113292265,
      "loss": 1.6237,
      "step": 34637
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43080559372901917,
      "learning_rate": 0.00040680308388261853,
      "loss": 1.6349,
      "step": 34638
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41720354557037354,
      "learning_rate": 0.0004067933165026711,
      "loss": 1.6427,
      "step": 34639
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43500322103500366,
      "learning_rate": 0.0004067835489930923,
      "loss": 1.7141,
      "step": 34640
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4522641897201538,
      "learning_rate": 0.00040677378135389416,
      "loss": 1.7042,
      "step": 34641
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4419860541820526,
      "learning_rate": 0.0004067640135850881,
      "loss": 1.6373,
      "step": 34642
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42108434438705444,
      "learning_rate": 0.0004067542456866865,
      "loss": 1.6402,
      "step": 34643
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41458675265312195,
      "learning_rate": 0.0004067444776587008,
      "loss": 1.6505,
      "step": 34644
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42301544547080994,
      "learning_rate": 0.0004067347095011432,
      "loss": 1.6848,
      "step": 34645
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.424600213766098,
      "learning_rate": 0.0004067249412140253,
      "loss": 1.5758,
      "step": 34646
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4385186433792114,
      "learning_rate": 0.000406715172797359,
      "loss": 1.6395,
      "step": 34647
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41675981879234314,
      "learning_rate": 0.0004067054042511563,
      "loss": 1.6445,
      "step": 34648
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43063583970069885,
      "learning_rate": 0.00040669563557542887,
      "loss": 1.6441,
      "step": 34649
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4304865896701813,
      "learning_rate": 0.00040668586677018877,
      "loss": 1.6589,
      "step": 34650
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4368785321712494,
      "learning_rate": 0.00040667609783544766,
      "loss": 1.6851,
      "step": 34651
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43401968479156494,
      "learning_rate": 0.0004066663287712176,
      "loss": 1.6553,
      "step": 34652
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43466246128082275,
      "learning_rate": 0.0004066565595775102,
      "loss": 1.5928,
      "step": 34653
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42247116565704346,
      "learning_rate": 0.0004066467902543375,
      "loss": 1.6724,
      "step": 34654
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42646244168281555,
      "learning_rate": 0.0004066370208017113,
      "loss": 1.6454,
      "step": 34655
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45353156328201294,
      "learning_rate": 0.00040662725121964346,
      "loss": 1.7623,
      "step": 34656
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4375353753566742,
      "learning_rate": 0.00040661748150814587,
      "loss": 1.6654,
      "step": 34657
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44236084818840027,
      "learning_rate": 0.00040660771166723043,
      "loss": 1.6282,
      "step": 34658
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4408920407295227,
      "learning_rate": 0.0004065979416969088,
      "loss": 1.7123,
      "step": 34659
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.45575350522994995,
      "learning_rate": 0.00040658817159719304,
      "loss": 1.6272,
      "step": 34660
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4324844777584076,
      "learning_rate": 0.00040657840136809495,
      "loss": 1.5822,
      "step": 34661
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4375450015068054,
      "learning_rate": 0.00040656863100962644,
      "loss": 1.6915,
      "step": 34662
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4422771632671356,
      "learning_rate": 0.0004065588605217992,
      "loss": 1.6121,
      "step": 34663
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42910251021385193,
      "learning_rate": 0.0004065490899046253,
      "loss": 1.644,
      "step": 34664
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4422873854637146,
      "learning_rate": 0.0004065393191581164,
      "loss": 1.6058,
      "step": 34665
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4484991431236267,
      "learning_rate": 0.0004065295482822846,
      "loss": 1.6243,
      "step": 34666
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.47027814388275146,
      "learning_rate": 0.0004065197772771415,
      "loss": 1.5805,
      "step": 34667
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4177352786064148,
      "learning_rate": 0.00040651000614269926,
      "loss": 1.6207,
      "step": 34668
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.432651162147522,
      "learning_rate": 0.0004065002348789694,
      "loss": 1.6729,
      "step": 34669
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4325280487537384,
      "learning_rate": 0.000406490463485964,
      "loss": 1.6017,
      "step": 34670
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4407709240913391,
      "learning_rate": 0.00040648069196369486,
      "loss": 1.5892,
      "step": 34671
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4302268624305725,
      "learning_rate": 0.00040647092031217383,
      "loss": 1.5893,
      "step": 34672
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42567864060401917,
      "learning_rate": 0.00040646114853141286,
      "loss": 1.6047,
      "step": 34673
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43457117676734924,
      "learning_rate": 0.0004064513766214236,
      "loss": 1.6198,
      "step": 34674
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.41586577892303467,
      "learning_rate": 0.00040644160458221817,
      "loss": 1.6627,
      "step": 34675
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4247417747974396,
      "learning_rate": 0.00040643183241380825,
      "loss": 1.5779,
      "step": 34676
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.422955721616745,
      "learning_rate": 0.0004064220601162059,
      "loss": 1.6615,
      "step": 34677
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4222692847251892,
      "learning_rate": 0.0004064122876894227,
      "loss": 1.57,
      "step": 34678
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43627315759658813,
      "learning_rate": 0.00040640251513347075,
      "loss": 1.7201,
      "step": 34679
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4178496301174164,
      "learning_rate": 0.00040639274244836185,
      "loss": 1.6158,
      "step": 34680
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4407205283641815,
      "learning_rate": 0.00040638296963410765,
      "loss": 1.659,
      "step": 34681
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4329190254211426,
      "learning_rate": 0.0004063731966907204,
      "loss": 1.6111,
      "step": 34682
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4297606348991394,
      "learning_rate": 0.0004063634236182117,
      "loss": 1.6554,
      "step": 34683
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4198584258556366,
      "learning_rate": 0.00040635365041659344,
      "loss": 1.61,
      "step": 34684
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.48832952976226807,
      "learning_rate": 0.0004063438770858776,
      "loss": 1.6077,
      "step": 34685
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42679688334465027,
      "learning_rate": 0.0004063341036260759,
      "loss": 1.6219,
      "step": 34686
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4317709505558014,
      "learning_rate": 0.0004063243300372003,
      "loss": 1.6369,
      "step": 34687
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42716869711875916,
      "learning_rate": 0.0004063145563192626,
      "loss": 1.6694,
      "step": 34688
    },
    {
      "epoch": 1.15,
      "grad_norm": 1.062349796295166,
      "learning_rate": 0.0004063047824722747,
      "loss": 1.6541,
      "step": 34689
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4364263713359833,
      "learning_rate": 0.00040629500849624845,
      "loss": 1.6768,
      "step": 34690
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4288926422595978,
      "learning_rate": 0.00040628523439119573,
      "loss": 1.7006,
      "step": 34691
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.436396986246109,
      "learning_rate": 0.0004062754601571283,
      "loss": 1.5763,
      "step": 34692
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44626539945602417,
      "learning_rate": 0.00040626568579405837,
      "loss": 1.6327,
      "step": 34693
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4205227494239807,
      "learning_rate": 0.00040625591130199736,
      "loss": 1.6072,
      "step": 34694
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4337797462940216,
      "learning_rate": 0.0004062461366809574,
      "loss": 1.5185,
      "step": 34695
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4255312383174896,
      "learning_rate": 0.00040623636193095025,
      "loss": 1.6551,
      "step": 34696
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43004024028778076,
      "learning_rate": 0.00040622658705198773,
      "loss": 1.6368,
      "step": 34697
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.44191792607307434,
      "learning_rate": 0.0004062168120440819,
      "loss": 1.6695,
      "step": 34698
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4089827239513397,
      "learning_rate": 0.0004062070369072444,
      "loss": 1.4963,
      "step": 34699
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4247373044490814,
      "learning_rate": 0.0004061972616414874,
      "loss": 1.6043,
      "step": 34700
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42879587411880493,
      "learning_rate": 0.00040618748624682245,
      "loss": 1.6149,
      "step": 34701
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.43312886357307434,
      "learning_rate": 0.00040617771072326157,
      "loss": 1.6737,
      "step": 34702
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4280259907245636,
      "learning_rate": 0.00040616793507081654,
      "loss": 1.6447,
      "step": 34703
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4615251421928406,
      "learning_rate": 0.0004061581592894993,
      "loss": 1.5987,
      "step": 34704
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.426910400390625,
      "learning_rate": 0.0004061483833793217,
      "loss": 1.557,
      "step": 34705
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4269521236419678,
      "learning_rate": 0.0004061386073402956,
      "loss": 1.648,
      "step": 34706
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4308702349662781,
      "learning_rate": 0.0004061288311724329,
      "loss": 1.6392,
      "step": 34707
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4524894952774048,
      "learning_rate": 0.0004061190548757454,
      "loss": 1.6624,
      "step": 34708
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.436659038066864,
      "learning_rate": 0.00040610927845024505,
      "loss": 1.6703,
      "step": 34709
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.42312440276145935,
      "learning_rate": 0.0004060995018959437,
      "loss": 1.6478,
      "step": 34710
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4247318506240845,
      "learning_rate": 0.00040608972521285303,
      "loss": 1.5833,
      "step": 34711
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4296693801879883,
      "learning_rate": 0.0004060799484009852,
      "loss": 1.6665,
      "step": 34712
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4184037744998932,
      "learning_rate": 0.00040607017146035185,
      "loss": 1.6815,
      "step": 34713
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4340137541294098,
      "learning_rate": 0.000406060394390965,
      "loss": 1.6007,
      "step": 34714
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.4547184109687805,
      "learning_rate": 0.0004060506171928365,
      "loss": 1.6549,
      "step": 34715
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4315285384654999,
      "learning_rate": 0.0004060408398659781,
      "loss": 1.5732,
      "step": 34716
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44106462597846985,
      "learning_rate": 0.0004060310624104018,
      "loss": 1.6273,
      "step": 34717
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4497315585613251,
      "learning_rate": 0.00040602128482611935,
      "loss": 1.6866,
      "step": 34718
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4125343859195709,
      "learning_rate": 0.0004060115071131428,
      "loss": 1.6171,
      "step": 34719
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43849340081214905,
      "learning_rate": 0.00040600172927148377,
      "loss": 1.6497,
      "step": 34720
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43685445189476013,
      "learning_rate": 0.00040599195130115425,
      "loss": 1.6556,
      "step": 34721
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4241029918193817,
      "learning_rate": 0.00040598217320216625,
      "loss": 1.6395,
      "step": 34722
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4336909055709839,
      "learning_rate": 0.00040597239497453143,
      "loss": 1.6445,
      "step": 34723
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41276246309280396,
      "learning_rate": 0.00040596261661826177,
      "loss": 1.61,
      "step": 34724
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4430530071258545,
      "learning_rate": 0.0004059528381333691,
      "loss": 1.6302,
      "step": 34725
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43048617243766785,
      "learning_rate": 0.0004059430595198652,
      "loss": 1.6423,
      "step": 34726
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4255833327770233,
      "learning_rate": 0.0004059332807777621,
      "loss": 1.7043,
      "step": 34727
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42112964391708374,
      "learning_rate": 0.00040592350190707166,
      "loss": 1.6484,
      "step": 34728
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43559885025024414,
      "learning_rate": 0.0004059137229078056,
      "loss": 1.6194,
      "step": 34729
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4209817349910736,
      "learning_rate": 0.00040590394377997593,
      "loss": 1.5985,
      "step": 34730
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4255877733230591,
      "learning_rate": 0.0004058941645235945,
      "loss": 1.743,
      "step": 34731
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42866724729537964,
      "learning_rate": 0.00040588438513867314,
      "loss": 1.7028,
      "step": 34732
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4498887062072754,
      "learning_rate": 0.00040587460562522377,
      "loss": 1.6731,
      "step": 34733
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43189898133277893,
      "learning_rate": 0.00040586482598325817,
      "loss": 1.6239,
      "step": 34734
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43820205330848694,
      "learning_rate": 0.0004058550462127883,
      "loss": 1.6892,
      "step": 34735
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42327189445495605,
      "learning_rate": 0.000405845266313826,
      "loss": 1.6468,
      "step": 34736
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4329659044742584,
      "learning_rate": 0.0004058354862863832,
      "loss": 1.6873,
      "step": 34737
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44196656346321106,
      "learning_rate": 0.00040582570613047165,
      "loss": 1.6733,
      "step": 34738
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4284023940563202,
      "learning_rate": 0.00040581592584610325,
      "loss": 1.5846,
      "step": 34739
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43934664130210876,
      "learning_rate": 0.0004058061454332899,
      "loss": 1.6832,
      "step": 34740
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4200761318206787,
      "learning_rate": 0.00040579636489204354,
      "loss": 1.6178,
      "step": 34741
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4306477904319763,
      "learning_rate": 0.00040578658422237604,
      "loss": 1.664,
      "step": 34742
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4292159080505371,
      "learning_rate": 0.0004057768034242991,
      "loss": 1.6098,
      "step": 34743
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41334158182144165,
      "learning_rate": 0.00040576702249782475,
      "loss": 1.667,
      "step": 34744
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4374486207962036,
      "learning_rate": 0.00040575724144296477,
      "loss": 1.6367,
      "step": 34745
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44046440720558167,
      "learning_rate": 0.00040574746025973113,
      "loss": 1.6201,
      "step": 34746
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42337486147880554,
      "learning_rate": 0.00040573767894813565,
      "loss": 1.6425,
      "step": 34747
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4435919225215912,
      "learning_rate": 0.00040572789750819026,
      "loss": 1.6167,
      "step": 34748
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4216616153717041,
      "learning_rate": 0.0004057181159399067,
      "loss": 1.6032,
      "step": 34749
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4271849989891052,
      "learning_rate": 0.000405708334243297,
      "loss": 1.6214,
      "step": 34750
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4292660057544708,
      "learning_rate": 0.0004056985524183729,
      "loss": 1.6796,
      "step": 34751
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44412511587142944,
      "learning_rate": 0.0004056887704651463,
      "loss": 1.7063,
      "step": 34752
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4366597533226013,
      "learning_rate": 0.0004056789883836292,
      "loss": 1.6506,
      "step": 34753
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4232877194881439,
      "learning_rate": 0.00040566920617383326,
      "loss": 1.6055,
      "step": 34754
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4209192097187042,
      "learning_rate": 0.00040565942383577057,
      "loss": 1.6725,
      "step": 34755
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4414133131504059,
      "learning_rate": 0.0004056496413694529,
      "loss": 1.6075,
      "step": 34756
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.438049852848053,
      "learning_rate": 0.00040563985877489203,
      "loss": 1.6512,
      "step": 34757
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.436169296503067,
      "learning_rate": 0.00040563007605210014,
      "loss": 1.6604,
      "step": 34758
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44197094440460205,
      "learning_rate": 0.00040562029320108866,
      "loss": 1.5503,
      "step": 34759
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4327816069126129,
      "learning_rate": 0.00040561051022186995,
      "loss": 1.6206,
      "step": 34760
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44657769799232483,
      "learning_rate": 0.0004056007271144554,
      "loss": 1.6579,
      "step": 34761
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4447929859161377,
      "learning_rate": 0.00040559094387885734,
      "loss": 1.629,
      "step": 34762
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43745341897010803,
      "learning_rate": 0.0004055811605150873,
      "loss": 1.6291,
      "step": 34763
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4464792311191559,
      "learning_rate": 0.0004055713770231573,
      "loss": 1.6329,
      "step": 34764
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4123860001564026,
      "learning_rate": 0.00040556159340307925,
      "loss": 1.585,
      "step": 34765
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4194073975086212,
      "learning_rate": 0.0004055518096548649,
      "loss": 1.6118,
      "step": 34766
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4342673718929291,
      "learning_rate": 0.00040554202577852634,
      "loss": 1.6921,
      "step": 34767
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4276818633079529,
      "learning_rate": 0.00040553224177407516,
      "loss": 1.5613,
      "step": 34768
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43731552362442017,
      "learning_rate": 0.0004055224576415235,
      "loss": 1.5699,
      "step": 34769
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4192500412464142,
      "learning_rate": 0.0004055126733808831,
      "loss": 1.6163,
      "step": 34770
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4278962314128876,
      "learning_rate": 0.0004055028889921658,
      "loss": 1.6956,
      "step": 34771
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.49815914034843445,
      "learning_rate": 0.00040549310447538363,
      "loss": 1.5967,
      "step": 34772
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42586201429367065,
      "learning_rate": 0.00040548331983054827,
      "loss": 1.6063,
      "step": 34773
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43042197823524475,
      "learning_rate": 0.0004054735350576718,
      "loss": 1.6815,
      "step": 34774
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4227028489112854,
      "learning_rate": 0.000405463750156766,
      "loss": 1.5616,
      "step": 34775
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41169965267181396,
      "learning_rate": 0.00040545396512784267,
      "loss": 1.535,
      "step": 34776
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41590994596481323,
      "learning_rate": 0.00040544417997091374,
      "loss": 1.6155,
      "step": 34777
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43823006749153137,
      "learning_rate": 0.0004054343946859912,
      "loss": 1.6269,
      "step": 34778
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4468401372432709,
      "learning_rate": 0.0004054246092730869,
      "loss": 1.6458,
      "step": 34779
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4286998510360718,
      "learning_rate": 0.00040541482373221253,
      "loss": 1.6505,
      "step": 34780
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4204771816730499,
      "learning_rate": 0.00040540503806338015,
      "loss": 1.6275,
      "step": 34781
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42114725708961487,
      "learning_rate": 0.0004053952522666015,
      "loss": 1.5598,
      "step": 34782
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43115490674972534,
      "learning_rate": 0.00040538546634188863,
      "loss": 1.7021,
      "step": 34783
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4319723844528198,
      "learning_rate": 0.0004053756802892533,
      "loss": 1.6618,
      "step": 34784
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4458558261394501,
      "learning_rate": 0.0004053658941087075,
      "loss": 1.6551,
      "step": 34785
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43999183177948,
      "learning_rate": 0.00040535610780026297,
      "loss": 1.7392,
      "step": 34786
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43054139614105225,
      "learning_rate": 0.0004053463213639316,
      "loss": 1.6521,
      "step": 34787
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4427204728126526,
      "learning_rate": 0.00040533653479972535,
      "loss": 1.6394,
      "step": 34788
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42896756529808044,
      "learning_rate": 0.0004053267481076561,
      "loss": 1.602,
      "step": 34789
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.45925989747047424,
      "learning_rate": 0.00040531696128773574,
      "loss": 1.5984,
      "step": 34790
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4150043725967407,
      "learning_rate": 0.00040530717433997593,
      "loss": 1.6685,
      "step": 34791
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.418349027633667,
      "learning_rate": 0.0004052973872643889,
      "loss": 1.629,
      "step": 34792
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44374218583106995,
      "learning_rate": 0.00040528760006098625,
      "loss": 1.6958,
      "step": 34793
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4352820813655853,
      "learning_rate": 0.00040527781272978007,
      "loss": 1.6031,
      "step": 34794
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4336419701576233,
      "learning_rate": 0.00040526802527078207,
      "loss": 1.6984,
      "step": 34795
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4396653473377228,
      "learning_rate": 0.0004052582376840042,
      "loss": 1.6665,
      "step": 34796
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43026044964790344,
      "learning_rate": 0.0004052484499694584,
      "loss": 1.6642,
      "step": 34797
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44659197330474854,
      "learning_rate": 0.00040523866212715637,
      "loss": 1.602,
      "step": 34798
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42503783106803894,
      "learning_rate": 0.00040522887415711024,
      "loss": 1.6082,
      "step": 34799
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4231151044368744,
      "learning_rate": 0.0004052190860593317,
      "loss": 1.6532,
      "step": 34800
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42433708906173706,
      "learning_rate": 0.0004052092978338327,
      "loss": 1.5758,
      "step": 34801
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4489179849624634,
      "learning_rate": 0.00040519950948062503,
      "loss": 1.6386,
      "step": 34802
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43401408195495605,
      "learning_rate": 0.0004051897209997208,
      "loss": 1.6636,
      "step": 34803
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42526501417160034,
      "learning_rate": 0.0004051799323911317,
      "loss": 1.6318,
      "step": 34804
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4233863949775696,
      "learning_rate": 0.00040517014365486963,
      "loss": 1.6267,
      "step": 34805
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42752596735954285,
      "learning_rate": 0.00040516035479094646,
      "loss": 1.6801,
      "step": 34806
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4454101026058197,
      "learning_rate": 0.0004051505657993742,
      "loss": 1.589,
      "step": 34807
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43363428115844727,
      "learning_rate": 0.00040514077668016453,
      "loss": 1.7366,
      "step": 34808
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4236021041870117,
      "learning_rate": 0.00040513098743332957,
      "loss": 1.569,
      "step": 34809
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42157068848609924,
      "learning_rate": 0.0004051211980588811,
      "loss": 1.6368,
      "step": 34810
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.45196613669395447,
      "learning_rate": 0.0004051114085568309,
      "loss": 1.6477,
      "step": 34811
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42954424023628235,
      "learning_rate": 0.00040510161892719096,
      "loss": 1.6175,
      "step": 34812
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41877710819244385,
      "learning_rate": 0.00040509182916997314,
      "loss": 1.6381,
      "step": 34813
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4384344518184662,
      "learning_rate": 0.0004050820392851893,
      "loss": 1.6527,
      "step": 34814
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4323216378688812,
      "learning_rate": 0.0004050722492728514,
      "loss": 1.6616,
      "step": 34815
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4353841543197632,
      "learning_rate": 0.00040506245913297126,
      "loss": 1.6513,
      "step": 34816
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43170732259750366,
      "learning_rate": 0.00040505266886556074,
      "loss": 1.6357,
      "step": 34817
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4270889461040497,
      "learning_rate": 0.00040504287847063184,
      "loss": 1.6426,
      "step": 34818
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4204625189304352,
      "learning_rate": 0.00040503308794819626,
      "loss": 1.5817,
      "step": 34819
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43707552552223206,
      "learning_rate": 0.0004050232972982661,
      "loss": 1.6572,
      "step": 34820
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4178687036037445,
      "learning_rate": 0.00040501350652085295,
      "loss": 1.6173,
      "step": 34821
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4505649209022522,
      "learning_rate": 0.000405003715615969,
      "loss": 1.6835,
      "step": 34822
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4996327757835388,
      "learning_rate": 0.000404993924583626,
      "loss": 1.7011,
      "step": 34823
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44991421699523926,
      "learning_rate": 0.0004049841334238359,
      "loss": 1.678,
      "step": 34824
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42904800176620483,
      "learning_rate": 0.00040497434213661044,
      "loss": 1.5698,
      "step": 34825
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43986842036247253,
      "learning_rate": 0.00040496455072196164,
      "loss": 1.6352,
      "step": 34826
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42986372113227844,
      "learning_rate": 0.00040495475917990136,
      "loss": 1.6014,
      "step": 34827
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43082353472709656,
      "learning_rate": 0.0004049449675104414,
      "loss": 1.7055,
      "step": 34828
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43468528985977173,
      "learning_rate": 0.0004049351757135938,
      "loss": 1.6604,
      "step": 34829
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4300755560398102,
      "learning_rate": 0.00040492538378937034,
      "loss": 1.624,
      "step": 34830
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4352788031101227,
      "learning_rate": 0.0004049155917377828,
      "loss": 1.6056,
      "step": 34831
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4399944543838501,
      "learning_rate": 0.0004049057995588433,
      "loss": 1.6577,
      "step": 34832
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4305121600627899,
      "learning_rate": 0.0004048960072525636,
      "loss": 1.6738,
      "step": 34833
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4114237427711487,
      "learning_rate": 0.0004048862148189557,
      "loss": 1.5968,
      "step": 34834
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4302343428134918,
      "learning_rate": 0.0004048764222580312,
      "loss": 1.6573,
      "step": 34835
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43825483322143555,
      "learning_rate": 0.00040486662956980225,
      "loss": 1.6538,
      "step": 34836
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42726951837539673,
      "learning_rate": 0.0004048568367542807,
      "loss": 1.6191,
      "step": 34837
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43143773078918457,
      "learning_rate": 0.0004048470438114784,
      "loss": 1.5965,
      "step": 34838
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42336905002593994,
      "learning_rate": 0.00040483725074140725,
      "loss": 1.5929,
      "step": 34839
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4256986975669861,
      "learning_rate": 0.0004048274575440791,
      "loss": 1.6441,
      "step": 34840
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4212788939476013,
      "learning_rate": 0.00040481766421950586,
      "loss": 1.5737,
      "step": 34841
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4326150715351105,
      "learning_rate": 0.00040480787076769935,
      "loss": 1.6382,
      "step": 34842
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42927035689353943,
      "learning_rate": 0.0004047980771886716,
      "loss": 1.644,
      "step": 34843
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43611809611320496,
      "learning_rate": 0.0004047882834824344,
      "loss": 1.6475,
      "step": 34844
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4143199622631073,
      "learning_rate": 0.00040477848964899974,
      "loss": 1.4959,
      "step": 34845
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4213005304336548,
      "learning_rate": 0.0004047686956883793,
      "loss": 1.6889,
      "step": 34846
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42529693245887756,
      "learning_rate": 0.0004047589016005853,
      "loss": 1.6357,
      "step": 34847
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4320389926433563,
      "learning_rate": 0.0004047491073856292,
      "loss": 1.5622,
      "step": 34848
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44952499866485596,
      "learning_rate": 0.0004047393130435233,
      "loss": 1.685,
      "step": 34849
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43582823872566223,
      "learning_rate": 0.0004047295185742792,
      "loss": 1.6474,
      "step": 34850
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43471038341522217,
      "learning_rate": 0.0004047197239779089,
      "loss": 1.6583,
      "step": 34851
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4336578845977783,
      "learning_rate": 0.00040470992925442434,
      "loss": 1.6402,
      "step": 34852
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41919559240341187,
      "learning_rate": 0.00040470013440383726,
      "loss": 1.6323,
      "step": 34853
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4379372000694275,
      "learning_rate": 0.00040469033942615974,
      "loss": 1.6287,
      "step": 34854
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44467565417289734,
      "learning_rate": 0.0004046805443214036,
      "loss": 1.6601,
      "step": 34855
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4520833194255829,
      "learning_rate": 0.0004046707490895806,
      "loss": 1.6568,
      "step": 34856
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43678539991378784,
      "learning_rate": 0.0004046609537307027,
      "loss": 1.7122,
      "step": 34857
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4207882881164551,
      "learning_rate": 0.00040465115824478193,
      "loss": 1.6701,
      "step": 34858
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43232011795043945,
      "learning_rate": 0.00040464136263183007,
      "loss": 1.626,
      "step": 34859
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44635531306266785,
      "learning_rate": 0.00040463156689185905,
      "loss": 1.6492,
      "step": 34860
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4488273859024048,
      "learning_rate": 0.00040462177102488063,
      "loss": 1.6808,
      "step": 34861
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43166014552116394,
      "learning_rate": 0.0004046119750309068,
      "loss": 1.6761,
      "step": 34862
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43214812874794006,
      "learning_rate": 0.00040460217890994946,
      "loss": 1.676,
      "step": 34863
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42578327655792236,
      "learning_rate": 0.00040459238266202046,
      "loss": 1.6082,
      "step": 34864
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4391450881958008,
      "learning_rate": 0.0004045825862871318,
      "loss": 1.5815,
      "step": 34865
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4327811598777771,
      "learning_rate": 0.0004045727897852953,
      "loss": 1.6466,
      "step": 34866
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43254339694976807,
      "learning_rate": 0.00040456299315652275,
      "loss": 1.6173,
      "step": 34867
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43526691198349,
      "learning_rate": 0.00040455319640082615,
      "loss": 1.6833,
      "step": 34868
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.6937922835350037,
      "learning_rate": 0.0004045433995182174,
      "loss": 1.5459,
      "step": 34869
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4170316159725189,
      "learning_rate": 0.0004045336025087084,
      "loss": 1.614,
      "step": 34870
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42549100518226624,
      "learning_rate": 0.0004045238053723109,
      "loss": 1.6398,
      "step": 34871
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41894084215164185,
      "learning_rate": 0.00040451400810903707,
      "loss": 1.6098,
      "step": 34872
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4451974034309387,
      "learning_rate": 0.0004045042107188985,
      "loss": 1.6839,
      "step": 34873
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4285983145236969,
      "learning_rate": 0.00040449441320190724,
      "loss": 1.5976,
      "step": 34874
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.45213598012924194,
      "learning_rate": 0.00040448461555807525,
      "loss": 1.6873,
      "step": 34875
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.433234840631485,
      "learning_rate": 0.0004044748177874142,
      "loss": 1.6247,
      "step": 34876
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43335363268852234,
      "learning_rate": 0.00040446501988993617,
      "loss": 1.5296,
      "step": 34877
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4357285797595978,
      "learning_rate": 0.00040445522186565293,
      "loss": 1.6245,
      "step": 34878
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4173552095890045,
      "learning_rate": 0.0004044454237145766,
      "loss": 1.6761,
      "step": 34879
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4370032250881195,
      "learning_rate": 0.00040443562543671877,
      "loss": 1.6096,
      "step": 34880
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4219791889190674,
      "learning_rate": 0.00040442582703209155,
      "loss": 1.6644,
      "step": 34881
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4235769808292389,
      "learning_rate": 0.00040441602850070673,
      "loss": 1.5691,
      "step": 34882
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4393148720264435,
      "learning_rate": 0.0004044062298425763,
      "loss": 1.6791,
      "step": 34883
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44916290044784546,
      "learning_rate": 0.00040439643105771205,
      "loss": 1.6804,
      "step": 34884
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4315952956676483,
      "learning_rate": 0.0004043866321461259,
      "loss": 1.6675,
      "step": 34885
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4484139084815979,
      "learning_rate": 0.00040437683310782976,
      "loss": 1.6463,
      "step": 34886
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42532747983932495,
      "learning_rate": 0.0004043670339428355,
      "loss": 1.6249,
      "step": 34887
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4328977167606354,
      "learning_rate": 0.0004043572346511551,
      "loss": 1.5806,
      "step": 34888
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44617849588394165,
      "learning_rate": 0.00040434743523280037,
      "loss": 1.5925,
      "step": 34889
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42128318548202515,
      "learning_rate": 0.0004043376356877832,
      "loss": 1.5999,
      "step": 34890
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44693005084991455,
      "learning_rate": 0.0004043278360161155,
      "loss": 1.6241,
      "step": 34891
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43470171093940735,
      "learning_rate": 0.0004043180362178092,
      "loss": 1.505,
      "step": 34892
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41932281851768494,
      "learning_rate": 0.0004043082362928762,
      "loss": 1.654,
      "step": 34893
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4241164028644562,
      "learning_rate": 0.0004042984362413283,
      "loss": 1.6072,
      "step": 34894
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.433165580034256,
      "learning_rate": 0.0004042886360631776,
      "loss": 1.6551,
      "step": 34895
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42600053548812866,
      "learning_rate": 0.00040427883575843587,
      "loss": 1.6686,
      "step": 34896
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43002939224243164,
      "learning_rate": 0.00040426903532711484,
      "loss": 1.6693,
      "step": 34897
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44154199957847595,
      "learning_rate": 0.00040425923476922665,
      "loss": 1.6396,
      "step": 34898
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43902620673179626,
      "learning_rate": 0.00040424943408478306,
      "loss": 1.6949,
      "step": 34899
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4364384412765503,
      "learning_rate": 0.00040423963327379606,
      "loss": 1.6129,
      "step": 34900
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4400258958339691,
      "learning_rate": 0.0004042298323362775,
      "loss": 1.6694,
      "step": 34901
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4131297767162323,
      "learning_rate": 0.00040422003127223936,
      "loss": 1.6332,
      "step": 34902
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4142373502254486,
      "learning_rate": 0.0004042102300816933,
      "loss": 1.6638,
      "step": 34903
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4235977828502655,
      "learning_rate": 0.00040420042876465145,
      "loss": 1.7165,
      "step": 34904
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.446816623210907,
      "learning_rate": 0.0004041906273211257,
      "loss": 1.6534,
      "step": 34905
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4285910129547119,
      "learning_rate": 0.00040418082575112776,
      "loss": 1.6203,
      "step": 34906
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4280894100666046,
      "learning_rate": 0.00040417102405466976,
      "loss": 1.6246,
      "step": 34907
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41834160685539246,
      "learning_rate": 0.00040416122223176337,
      "loss": 1.5721,
      "step": 34908
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.427229106426239,
      "learning_rate": 0.0004041514202824207,
      "loss": 1.6873,
      "step": 34909
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.45558977127075195,
      "learning_rate": 0.0004041416182066534,
      "loss": 1.6315,
      "step": 34910
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4500327706336975,
      "learning_rate": 0.00040413181600447375,
      "loss": 1.7311,
      "step": 34911
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43721961975097656,
      "learning_rate": 0.0004041220136758933,
      "loss": 1.6089,
      "step": 34912
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44728097319602966,
      "learning_rate": 0.00040411221122092403,
      "loss": 1.5786,
      "step": 34913
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43308010697364807,
      "learning_rate": 0.000404102408639578,
      "loss": 1.6189,
      "step": 34914
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4276730418205261,
      "learning_rate": 0.00040409260593186685,
      "loss": 1.6793,
      "step": 34915
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4378017783164978,
      "learning_rate": 0.0004040828030978027,
      "loss": 1.6773,
      "step": 34916
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42459359765052795,
      "learning_rate": 0.00040407300013739733,
      "loss": 1.6427,
      "step": 34917
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4191057085990906,
      "learning_rate": 0.00040406319705066265,
      "loss": 1.5708,
      "step": 34918
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4286128282546997,
      "learning_rate": 0.00040405339383761056,
      "loss": 1.6453,
      "step": 34919
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43801066279411316,
      "learning_rate": 0.0004040435904982531,
      "loss": 1.6138,
      "step": 34920
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4275834560394287,
      "learning_rate": 0.00040403378703260194,
      "loss": 1.6556,
      "step": 34921
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43008050322532654,
      "learning_rate": 0.00040402398344066917,
      "loss": 1.6778,
      "step": 34922
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.45372581481933594,
      "learning_rate": 0.0004040141797224666,
      "loss": 1.6754,
      "step": 34923
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43015962839126587,
      "learning_rate": 0.00040400437587800604,
      "loss": 1.6044,
      "step": 34924
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42142316699028015,
      "learning_rate": 0.0004039945719072996,
      "loss": 1.6429,
      "step": 34925
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42088454961776733,
      "learning_rate": 0.00040398476781035894,
      "loss": 1.6441,
      "step": 34926
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4600204825401306,
      "learning_rate": 0.0004039749635871963,
      "loss": 1.6379,
      "step": 34927
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42292287945747375,
      "learning_rate": 0.0004039651592378232,
      "loss": 1.621,
      "step": 34928
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4054689109325409,
      "learning_rate": 0.0004039553547622518,
      "loss": 1.6283,
      "step": 34929
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4171074628829956,
      "learning_rate": 0.0004039455501604939,
      "loss": 1.6174,
      "step": 34930
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4288555979728699,
      "learning_rate": 0.00040393574543256134,
      "loss": 1.6589,
      "step": 34931
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4285355508327484,
      "learning_rate": 0.00040392594057846626,
      "loss": 1.5908,
      "step": 34932
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4320564270019531,
      "learning_rate": 0.00040391613559822025,
      "loss": 1.6136,
      "step": 34933
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43748044967651367,
      "learning_rate": 0.0004039063304918355,
      "loss": 1.6318,
      "step": 34934
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4321853816509247,
      "learning_rate": 0.00040389652525932366,
      "loss": 1.6288,
      "step": 34935
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4399937689304352,
      "learning_rate": 0.0004038867199006968,
      "loss": 1.6232,
      "step": 34936
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4383239448070526,
      "learning_rate": 0.0004038769144159668,
      "loss": 1.6651,
      "step": 34937
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4315602779388428,
      "learning_rate": 0.00040386710880514537,
      "loss": 1.6694,
      "step": 34938
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4329608678817749,
      "learning_rate": 0.0004038573030682448,
      "loss": 1.6434,
      "step": 34939
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43989723920822144,
      "learning_rate": 0.0004038474972052766,
      "loss": 1.6505,
      "step": 34940
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4326588213443756,
      "learning_rate": 0.00040383769121625295,
      "loss": 1.5184,
      "step": 34941
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43379876017570496,
      "learning_rate": 0.0004038278851011856,
      "loss": 1.6451,
      "step": 34942
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41902899742126465,
      "learning_rate": 0.00040381807886008645,
      "loss": 1.654,
      "step": 34943
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42332369089126587,
      "learning_rate": 0.0004038082724929675,
      "loss": 1.6124,
      "step": 34944
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4186210036277771,
      "learning_rate": 0.0004037984659998406,
      "loss": 1.664,
      "step": 34945
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4312548041343689,
      "learning_rate": 0.0004037886593807176,
      "loss": 1.6621,
      "step": 34946
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.41705653071403503,
      "learning_rate": 0.0004037788526356105,
      "loss": 1.6474,
      "step": 34947
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4205876886844635,
      "learning_rate": 0.00040376904576453116,
      "loss": 1.6589,
      "step": 34948
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42999571561813354,
      "learning_rate": 0.0004037592387674915,
      "loss": 1.6766,
      "step": 34949
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44807061553001404,
      "learning_rate": 0.0004037494316445034,
      "loss": 1.6726,
      "step": 34950
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4249561131000519,
      "learning_rate": 0.0004037396243955788,
      "loss": 1.6668,
      "step": 34951
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4189872741699219,
      "learning_rate": 0.0004037298170207296,
      "loss": 1.6484,
      "step": 34952
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42791011929512024,
      "learning_rate": 0.0004037200095199676,
      "loss": 1.6782,
      "step": 34953
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44529250264167786,
      "learning_rate": 0.00040371020189330486,
      "loss": 1.6692,
      "step": 34954
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43644630908966064,
      "learning_rate": 0.0004037003941407532,
      "loss": 1.5626,
      "step": 34955
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4410663843154907,
      "learning_rate": 0.0004036905862623245,
      "loss": 1.6673,
      "step": 34956
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4570893943309784,
      "learning_rate": 0.00040368077825803084,
      "loss": 1.6675,
      "step": 34957
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4595749080181122,
      "learning_rate": 0.0004036709701278838,
      "loss": 1.6489,
      "step": 34958
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4264785945415497,
      "learning_rate": 0.00040366116187189564,
      "loss": 1.668,
      "step": 34959
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4436914622783661,
      "learning_rate": 0.000403651353490078,
      "loss": 1.6102,
      "step": 34960
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44159018993377686,
      "learning_rate": 0.0004036415449824429,
      "loss": 1.6278,
      "step": 34961
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.423492431640625,
      "learning_rate": 0.0004036317363490024,
      "loss": 1.6522,
      "step": 34962
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43341970443725586,
      "learning_rate": 0.00040362192758976797,
      "loss": 1.575,
      "step": 34963
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44156214594841003,
      "learning_rate": 0.000403612118704752,
      "loss": 1.6331,
      "step": 34964
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.429269403219223,
      "learning_rate": 0.00040360230969396603,
      "loss": 1.6129,
      "step": 34965
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43605631589889526,
      "learning_rate": 0.00040359250055742226,
      "loss": 1.5773,
      "step": 34966
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4346124827861786,
      "learning_rate": 0.00040358269129513234,
      "loss": 1.648,
      "step": 34967
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42572927474975586,
      "learning_rate": 0.00040357288190710837,
      "loss": 1.674,
      "step": 34968
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4343035817146301,
      "learning_rate": 0.0004035630723933622,
      "loss": 1.5824,
      "step": 34969
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44461068511009216,
      "learning_rate": 0.0004035532627539057,
      "loss": 1.6355,
      "step": 34970
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4383382499217987,
      "learning_rate": 0.00040354345298875075,
      "loss": 1.698,
      "step": 34971
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4172351658344269,
      "learning_rate": 0.0004035336430979093,
      "loss": 1.6464,
      "step": 34972
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4176100790500641,
      "learning_rate": 0.0004035238330813933,
      "loss": 1.5894,
      "step": 34973
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43093135952949524,
      "learning_rate": 0.00040351402293921465,
      "loss": 1.6163,
      "step": 34974
    },
    {
      "epoch": 1.16,
      "grad_norm": 1.0917279720306396,
      "learning_rate": 0.00040350421267138517,
      "loss": 1.667,
      "step": 34975
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4420996904373169,
      "learning_rate": 0.0004034944022779169,
      "loss": 1.5719,
      "step": 34976
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4191700518131256,
      "learning_rate": 0.0004034845917588216,
      "loss": 1.6135,
      "step": 34977
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4261613190174103,
      "learning_rate": 0.00040347478111411124,
      "loss": 1.6328,
      "step": 34978
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44715946912765503,
      "learning_rate": 0.00040346497034379785,
      "loss": 1.641,
      "step": 34979
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4172634482383728,
      "learning_rate": 0.00040345515944789314,
      "loss": 1.6893,
      "step": 34980
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44194698333740234,
      "learning_rate": 0.00040344534842640914,
      "loss": 1.5239,
      "step": 34981
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4202309846878052,
      "learning_rate": 0.0004034355372793577,
      "loss": 1.6355,
      "step": 34982
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4328640103340149,
      "learning_rate": 0.00040342572600675076,
      "loss": 1.6449,
      "step": 34983
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44541460275650024,
      "learning_rate": 0.00040341591460860024,
      "loss": 1.6721,
      "step": 34984
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43499183654785156,
      "learning_rate": 0.0004034061030849181,
      "loss": 1.6082,
      "step": 34985
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4406021535396576,
      "learning_rate": 0.0004033962914357161,
      "loss": 1.6657,
      "step": 34986
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4522683024406433,
      "learning_rate": 0.0004033864796610063,
      "loss": 1.6579,
      "step": 34987
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42910197377204895,
      "learning_rate": 0.0004033766677608005,
      "loss": 1.6197,
      "step": 34988
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4229150712490082,
      "learning_rate": 0.0004033668557351107,
      "loss": 1.5985,
      "step": 34989
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43653422594070435,
      "learning_rate": 0.00040335704358394875,
      "loss": 1.6217,
      "step": 34990
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4177585244178772,
      "learning_rate": 0.0004033472313073265,
      "loss": 1.6932,
      "step": 34991
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43048548698425293,
      "learning_rate": 0.0004033374189052561,
      "loss": 1.5998,
      "step": 34992
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4489212930202484,
      "learning_rate": 0.0004033276063777491,
      "loss": 1.6583,
      "step": 34993
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4429476261138916,
      "learning_rate": 0.00040331779372481774,
      "loss": 1.6058,
      "step": 34994
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4517066478729248,
      "learning_rate": 0.00040330798094647373,
      "loss": 1.6923,
      "step": 34995
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4436584711074829,
      "learning_rate": 0.00040329816804272916,
      "loss": 1.6586,
      "step": 34996
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42792952060699463,
      "learning_rate": 0.00040328835501359574,
      "loss": 1.6909,
      "step": 34997
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4517720639705658,
      "learning_rate": 0.0004032785418590855,
      "loss": 1.5964,
      "step": 34998
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44181495904922485,
      "learning_rate": 0.0004032687285792104,
      "loss": 1.6294,
      "step": 34999
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4421393871307373,
      "learning_rate": 0.00040325891517398215,
      "loss": 1.6695,
      "step": 35000
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4384879767894745,
      "learning_rate": 0.0004032491016434129,
      "loss": 1.6049,
      "step": 35001
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43302375078201294,
      "learning_rate": 0.00040323928798751443,
      "loss": 1.6999,
      "step": 35002
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4339151978492737,
      "learning_rate": 0.0004032294742062987,
      "loss": 1.6428,
      "step": 35003
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4400986135005951,
      "learning_rate": 0.0004032196602997775,
      "loss": 1.6778,
      "step": 35004
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4212638735771179,
      "learning_rate": 0.0004032098462679629,
      "loss": 1.5572,
      "step": 35005
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.42771899700164795,
      "learning_rate": 0.0004032000321108668,
      "loss": 1.5242,
      "step": 35006
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.433253675699234,
      "learning_rate": 0.00040319021782850105,
      "loss": 1.6537,
      "step": 35007
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44386687874794006,
      "learning_rate": 0.0004031804034208775,
      "loss": 1.6371,
      "step": 35008
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4202831983566284,
      "learning_rate": 0.00040317058888800824,
      "loss": 1.6803,
      "step": 35009
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4475448727607727,
      "learning_rate": 0.00040316077422990497,
      "loss": 1.6142,
      "step": 35010
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.43358203768730164,
      "learning_rate": 0.00040315095944657976,
      "loss": 1.711,
      "step": 35011
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4487883150577545,
      "learning_rate": 0.0004031411445380446,
      "loss": 1.6495,
      "step": 35012
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4476235508918762,
      "learning_rate": 0.0004031313295043112,
      "loss": 1.5438,
      "step": 35013
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4303766191005707,
      "learning_rate": 0.0004031215143453916,
      "loss": 1.6842,
      "step": 35014
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4365691542625427,
      "learning_rate": 0.0004031116990612975,
      "loss": 1.6668,
      "step": 35015
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4551903009414673,
      "learning_rate": 0.0004031018836520412,
      "loss": 1.6705,
      "step": 35016
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43275466561317444,
      "learning_rate": 0.0004030920681176343,
      "loss": 1.5597,
      "step": 35017
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4377270042896271,
      "learning_rate": 0.00040308225245808886,
      "loss": 1.6682,
      "step": 35018
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4489586353302002,
      "learning_rate": 0.00040307243667341675,
      "loss": 1.5661,
      "step": 35019
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44427281618118286,
      "learning_rate": 0.00040306262076362983,
      "loss": 1.745,
      "step": 35020
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4346151053905487,
      "learning_rate": 0.0004030528047287402,
      "loss": 1.6719,
      "step": 35021
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4406386911869049,
      "learning_rate": 0.00040304298856875956,
      "loss": 1.6084,
      "step": 35022
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42875242233276367,
      "learning_rate": 0.0004030331722836999,
      "loss": 1.6077,
      "step": 35023
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4352583587169647,
      "learning_rate": 0.00040302335587357325,
      "loss": 1.6825,
      "step": 35024
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4311367869377136,
      "learning_rate": 0.0004030135393383913,
      "loss": 1.6371,
      "step": 35025
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4443538188934326,
      "learning_rate": 0.0004030037226781662,
      "loss": 1.6645,
      "step": 35026
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4341084957122803,
      "learning_rate": 0.00040299390589290966,
      "loss": 1.6177,
      "step": 35027
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4217090904712677,
      "learning_rate": 0.00040298408898263376,
      "loss": 1.6497,
      "step": 35028
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4319039285182953,
      "learning_rate": 0.00040297427194735033,
      "loss": 1.6918,
      "step": 35029
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4262618124485016,
      "learning_rate": 0.0004029644547870713,
      "loss": 1.6382,
      "step": 35030
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4425467550754547,
      "learning_rate": 0.00040295463750180863,
      "loss": 1.5996,
      "step": 35031
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42322126030921936,
      "learning_rate": 0.0004029448200915741,
      "loss": 1.7164,
      "step": 35032
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41731351613998413,
      "learning_rate": 0.00040293500255637985,
      "loss": 1.645,
      "step": 35033
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4196913540363312,
      "learning_rate": 0.00040292518489623764,
      "loss": 1.6315,
      "step": 35034
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43488427996635437,
      "learning_rate": 0.0004029153671111594,
      "loss": 1.6098,
      "step": 35035
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4358236789703369,
      "learning_rate": 0.00040290554920115705,
      "loss": 1.6604,
      "step": 35036
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4286593496799469,
      "learning_rate": 0.0004028957311662425,
      "loss": 1.7026,
      "step": 35037
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4523279666900635,
      "learning_rate": 0.0004028859130064278,
      "loss": 1.615,
      "step": 35038
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42150014638900757,
      "learning_rate": 0.00040287609472172464,
      "loss": 1.6232,
      "step": 35039
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4183504283428192,
      "learning_rate": 0.0004028662763121452,
      "loss": 1.6397,
      "step": 35040
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.413236528635025,
      "learning_rate": 0.00040285645777770116,
      "loss": 1.638,
      "step": 35041
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4197480380535126,
      "learning_rate": 0.0004028466391184045,
      "loss": 1.5741,
      "step": 35042
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41678881645202637,
      "learning_rate": 0.00040283682033426726,
      "loss": 1.7253,
      "step": 35043
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42623743414878845,
      "learning_rate": 0.0004028270014253013,
      "loss": 1.5936,
      "step": 35044
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4503703713417053,
      "learning_rate": 0.00040281718239151837,
      "loss": 1.6068,
      "step": 35045
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42432087659835815,
      "learning_rate": 0.00040280736323293064,
      "loss": 1.5622,
      "step": 35046
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44228821992874146,
      "learning_rate": 0.0004027975439495499,
      "loss": 1.5735,
      "step": 35047
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44170811772346497,
      "learning_rate": 0.00040278772454138803,
      "loss": 1.6529,
      "step": 35048
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42914721369743347,
      "learning_rate": 0.0004027779050084571,
      "loss": 1.6524,
      "step": 35049
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4245622158050537,
      "learning_rate": 0.0004027680853507688,
      "loss": 1.5965,
      "step": 35050
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42471060156822205,
      "learning_rate": 0.00040275826556833536,
      "loss": 1.6342,
      "step": 35051
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43188390135765076,
      "learning_rate": 0.00040274844566116837,
      "loss": 1.6287,
      "step": 35052
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.5535890460014343,
      "learning_rate": 0.0004027386256292801,
      "loss": 1.8054,
      "step": 35053
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.435580849647522,
      "learning_rate": 0.0004027288054726822,
      "loss": 1.6745,
      "step": 35054
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4418902099132538,
      "learning_rate": 0.0004027189851913865,
      "loss": 1.5978,
      "step": 35055
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4161768853664398,
      "learning_rate": 0.0004027091647854052,
      "loss": 1.6348,
      "step": 35056
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4257434606552124,
      "learning_rate": 0.0004026993442547501,
      "loss": 1.6322,
      "step": 35057
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42034515738487244,
      "learning_rate": 0.0004026895235994332,
      "loss": 1.626,
      "step": 35058
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4416552782058716,
      "learning_rate": 0.0004026797028194663,
      "loss": 1.6361,
      "step": 35059
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44943955540657043,
      "learning_rate": 0.0004026698819148613,
      "loss": 1.7151,
      "step": 35060
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44203734397888184,
      "learning_rate": 0.0004026600608856303,
      "loss": 1.7294,
      "step": 35061
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4259297251701355,
      "learning_rate": 0.000402650239731785,
      "loss": 1.6295,
      "step": 35062
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4290018379688263,
      "learning_rate": 0.0004026404184533376,
      "loss": 1.6548,
      "step": 35063
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41832852363586426,
      "learning_rate": 0.00040263059705029973,
      "loss": 1.633,
      "step": 35064
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4159747362136841,
      "learning_rate": 0.00040262077552268347,
      "loss": 1.5549,
      "step": 35065
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4279220402240753,
      "learning_rate": 0.0004026109538705006,
      "loss": 1.6377,
      "step": 35066
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.436367392539978,
      "learning_rate": 0.0004026011320937633,
      "loss": 1.6578,
      "step": 35067
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4221706986427307,
      "learning_rate": 0.00040259131019248335,
      "loss": 1.6508,
      "step": 35068
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4295739531517029,
      "learning_rate": 0.0004025814881666726,
      "loss": 1.6483,
      "step": 35069
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4304827153682709,
      "learning_rate": 0.0004025716660163431,
      "loss": 1.5896,
      "step": 35070
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4379056990146637,
      "learning_rate": 0.0004025618437415066,
      "loss": 1.5639,
      "step": 35071
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44218719005584717,
      "learning_rate": 0.0004025520213421752,
      "loss": 1.6975,
      "step": 35072
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42573556303977966,
      "learning_rate": 0.00040254219881836074,
      "loss": 1.6532,
      "step": 35073
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4296601116657257,
      "learning_rate": 0.0004025323761700752,
      "loss": 1.6402,
      "step": 35074
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42945459485054016,
      "learning_rate": 0.00040252255339733045,
      "loss": 1.7192,
      "step": 35075
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4528912603855133,
      "learning_rate": 0.0004025127305001384,
      "loss": 1.5917,
      "step": 35076
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4403320550918579,
      "learning_rate": 0.000402502907478511,
      "loss": 1.5435,
      "step": 35077
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4266267716884613,
      "learning_rate": 0.00040249308433246015,
      "loss": 1.6147,
      "step": 35078
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4284593462944031,
      "learning_rate": 0.0004024832610619979,
      "loss": 1.6567,
      "step": 35079
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.46652376651763916,
      "learning_rate": 0.00040247343766713597,
      "loss": 1.6783,
      "step": 35080
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4407944679260254,
      "learning_rate": 0.00040246361414788645,
      "loss": 1.6874,
      "step": 35081
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43713706731796265,
      "learning_rate": 0.00040245379050426105,
      "loss": 1.6577,
      "step": 35082
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4311463534832001,
      "learning_rate": 0.000402443966736272,
      "loss": 1.6268,
      "step": 35083
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4213515520095825,
      "learning_rate": 0.00040243414284393104,
      "loss": 1.628,
      "step": 35084
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41444915533065796,
      "learning_rate": 0.0004024243188272501,
      "loss": 1.6639,
      "step": 35085
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4185228645801544,
      "learning_rate": 0.0004024144946862412,
      "loss": 1.6646,
      "step": 35086
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44271501898765564,
      "learning_rate": 0.0004024046704209161,
      "loss": 1.5555,
      "step": 35087
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.437639445066452,
      "learning_rate": 0.00040239484603128684,
      "loss": 1.604,
      "step": 35088
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4263744056224823,
      "learning_rate": 0.0004023850215173654,
      "loss": 1.5167,
      "step": 35089
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42365768551826477,
      "learning_rate": 0.0004023751968791635,
      "loss": 1.6294,
      "step": 35090
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4293901026248932,
      "learning_rate": 0.00040236537211669327,
      "loss": 1.6659,
      "step": 35091
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4918840527534485,
      "learning_rate": 0.00040235554722996655,
      "loss": 1.6221,
      "step": 35092
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.45862728357315063,
      "learning_rate": 0.0004023457222189953,
      "loss": 1.6241,
      "step": 35093
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43458038568496704,
      "learning_rate": 0.00040233589708379145,
      "loss": 1.6333,
      "step": 35094
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44099530577659607,
      "learning_rate": 0.00040232607182436676,
      "loss": 1.6474,
      "step": 35095
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44922327995300293,
      "learning_rate": 0.00040231624644073344,
      "loss": 1.6775,
      "step": 35096
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.441943496465683,
      "learning_rate": 0.0004023064209329032,
      "loss": 1.5613,
      "step": 35097
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4470883011817932,
      "learning_rate": 0.000402296595300888,
      "loss": 1.706,
      "step": 35098
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4378267228603363,
      "learning_rate": 0.00040228676954469995,
      "loss": 1.6761,
      "step": 35099
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44065240025520325,
      "learning_rate": 0.0004022769436643508,
      "loss": 1.6114,
      "step": 35100
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43904709815979004,
      "learning_rate": 0.0004022671176598524,
      "loss": 1.6561,
      "step": 35101
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4404398500919342,
      "learning_rate": 0.00040225729153121686,
      "loss": 1.6593,
      "step": 35102
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43329760432243347,
      "learning_rate": 0.00040224746527845595,
      "loss": 1.6348,
      "step": 35103
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41635093092918396,
      "learning_rate": 0.00040223763890158187,
      "loss": 1.5572,
      "step": 35104
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44181498885154724,
      "learning_rate": 0.0004022278124006062,
      "loss": 1.6581,
      "step": 35105
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4422627389431,
      "learning_rate": 0.00040221798577554107,
      "loss": 1.5399,
      "step": 35106
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42434439063072205,
      "learning_rate": 0.0004022081590263984,
      "loss": 1.6512,
      "step": 35107
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4491875469684601,
      "learning_rate": 0.00040219833215319003,
      "loss": 1.6734,
      "step": 35108
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4475484788417816,
      "learning_rate": 0.000402188505155928,
      "loss": 1.701,
      "step": 35109
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4480050206184387,
      "learning_rate": 0.00040217867803462405,
      "loss": 1.6387,
      "step": 35110
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42057210206985474,
      "learning_rate": 0.0004021688507892904,
      "loss": 1.6739,
      "step": 35111
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.427791565656662,
      "learning_rate": 0.0004021590234199387,
      "loss": 1.5633,
      "step": 35112
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4373657703399658,
      "learning_rate": 0.00040214919592658114,
      "loss": 1.7001,
      "step": 35113
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4512924551963806,
      "learning_rate": 0.0004021393683092294,
      "loss": 1.6336,
      "step": 35114
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44822755455970764,
      "learning_rate": 0.00040212954056789555,
      "loss": 1.6432,
      "step": 35115
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4350088834762573,
      "learning_rate": 0.0004021197127025915,
      "loss": 1.6227,
      "step": 35116
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43702954053878784,
      "learning_rate": 0.0004021098847133291,
      "loss": 1.5968,
      "step": 35117
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4339340925216675,
      "learning_rate": 0.0004021000566001204,
      "loss": 1.6994,
      "step": 35118
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42995786666870117,
      "learning_rate": 0.00040209022836297726,
      "loss": 1.6333,
      "step": 35119
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4254011809825897,
      "learning_rate": 0.00040208040000191167,
      "loss": 1.6546,
      "step": 35120
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42142099142074585,
      "learning_rate": 0.0004020705715169354,
      "loss": 1.5852,
      "step": 35121
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41590964794158936,
      "learning_rate": 0.00040206074290806057,
      "loss": 1.6248,
      "step": 35122
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4474705457687378,
      "learning_rate": 0.00040205091417529903,
      "loss": 1.6045,
      "step": 35123
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4230762720108032,
      "learning_rate": 0.00040204108531866273,
      "loss": 1.6245,
      "step": 35124
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43212318420410156,
      "learning_rate": 0.0004020312563381636,
      "loss": 1.6682,
      "step": 35125
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4445266127586365,
      "learning_rate": 0.0004020214272338135,
      "loss": 1.6453,
      "step": 35126
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.6598129272460938,
      "learning_rate": 0.0004020115980056245,
      "loss": 1.7029,
      "step": 35127
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43372711539268494,
      "learning_rate": 0.00040200176865360835,
      "loss": 1.6891,
      "step": 35128
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42918336391448975,
      "learning_rate": 0.0004019919391777772,
      "loss": 1.6716,
      "step": 35129
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4192880690097809,
      "learning_rate": 0.0004019821095781428,
      "loss": 1.5945,
      "step": 35130
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4350217878818512,
      "learning_rate": 0.00040197227985471715,
      "loss": 1.5366,
      "step": 35131
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43290966749191284,
      "learning_rate": 0.0004019624500075121,
      "loss": 1.6455,
      "step": 35132
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43285542726516724,
      "learning_rate": 0.00040195262003653976,
      "loss": 1.6374,
      "step": 35133
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.45223531126976013,
      "learning_rate": 0.0004019427899418119,
      "loss": 1.6016,
      "step": 35134
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4263407588005066,
      "learning_rate": 0.00040193295972334054,
      "loss": 1.6054,
      "step": 35135
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4480018615722656,
      "learning_rate": 0.0004019231293811377,
      "loss": 1.5894,
      "step": 35136
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4717233180999756,
      "learning_rate": 0.000401913298915215,
      "loss": 1.6827,
      "step": 35137
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.434375524520874,
      "learning_rate": 0.00040190346832558475,
      "loss": 1.6879,
      "step": 35138
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4631217420101166,
      "learning_rate": 0.0004018936376122585,
      "loss": 1.6217,
      "step": 35139
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4242897629737854,
      "learning_rate": 0.00040188380677524856,
      "loss": 1.6555,
      "step": 35140
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42820051312446594,
      "learning_rate": 0.0004018739758145667,
      "loss": 1.595,
      "step": 35141
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4239951968193054,
      "learning_rate": 0.0004018641447302247,
      "loss": 1.6963,
      "step": 35142
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.424630731344223,
      "learning_rate": 0.00040185431352223475,
      "loss": 1.6191,
      "step": 35143
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43844276666641235,
      "learning_rate": 0.0004018444821906086,
      "loss": 1.6187,
      "step": 35144
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4434763789176941,
      "learning_rate": 0.0004018346507353583,
      "loss": 1.6548,
      "step": 35145
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4471653699874878,
      "learning_rate": 0.00040182481915649573,
      "loss": 1.6619,
      "step": 35146
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4316404461860657,
      "learning_rate": 0.00040181498745403283,
      "loss": 1.6631,
      "step": 35147
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4433199465274811,
      "learning_rate": 0.0004018051556279816,
      "loss": 1.7934,
      "step": 35148
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4339310824871063,
      "learning_rate": 0.00040179532367835374,
      "loss": 1.6442,
      "step": 35149
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43413466215133667,
      "learning_rate": 0.00040178549160516157,
      "loss": 1.5961,
      "step": 35150
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4370364844799042,
      "learning_rate": 0.0004017756594084167,
      "loss": 1.6239,
      "step": 35151
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.429299533367157,
      "learning_rate": 0.00040176582708813116,
      "loss": 1.7555,
      "step": 35152
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4486214220523834,
      "learning_rate": 0.00040175599464431695,
      "loss": 1.6439,
      "step": 35153
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4259340465068817,
      "learning_rate": 0.00040174616207698586,
      "loss": 1.5733,
      "step": 35154
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.46346014738082886,
      "learning_rate": 0.00040173632938615006,
      "loss": 1.6335,
      "step": 35155
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4291056990623474,
      "learning_rate": 0.00040172649657182124,
      "loss": 1.6754,
      "step": 35156
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43245890736579895,
      "learning_rate": 0.00040171666363401155,
      "loss": 1.6739,
      "step": 35157
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4602608382701874,
      "learning_rate": 0.0004017068305727327,
      "loss": 1.6427,
      "step": 35158
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.45056745409965515,
      "learning_rate": 0.0004016969973879968,
      "loss": 1.6267,
      "step": 35159
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43262481689453125,
      "learning_rate": 0.00040168716407981567,
      "loss": 1.5981,
      "step": 35160
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4225137233734131,
      "learning_rate": 0.00040167733064820144,
      "loss": 1.6786,
      "step": 35161
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43960943818092346,
      "learning_rate": 0.0004016674970931658,
      "loss": 1.5671,
      "step": 35162
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44384241104125977,
      "learning_rate": 0.0004016576634147208,
      "loss": 1.588,
      "step": 35163
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.45610952377319336,
      "learning_rate": 0.0004016478296128784,
      "loss": 1.6449,
      "step": 35164
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4355646073818207,
      "learning_rate": 0.00040163799568765054,
      "loss": 1.6133,
      "step": 35165
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41281911730766296,
      "learning_rate": 0.0004016281616390491,
      "loss": 1.6533,
      "step": 35166
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4490688741207123,
      "learning_rate": 0.000401618327467086,
      "loss": 1.6487,
      "step": 35167
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4391424059867859,
      "learning_rate": 0.0004016084931717733,
      "loss": 1.6738,
      "step": 35168
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4332086145877838,
      "learning_rate": 0.0004015986587531229,
      "loss": 1.6884,
      "step": 35169
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42297279834747314,
      "learning_rate": 0.0004015888242111466,
      "loss": 1.7124,
      "step": 35170
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43130263686180115,
      "learning_rate": 0.0004015789895458565,
      "loss": 1.6435,
      "step": 35171
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.462637722492218,
      "learning_rate": 0.00040156915475726435,
      "loss": 1.6184,
      "step": 35172
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43441346287727356,
      "learning_rate": 0.00040155931984538234,
      "loss": 1.6588,
      "step": 35173
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4247294068336487,
      "learning_rate": 0.0004015494848102222,
      "loss": 1.6328,
      "step": 35174
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4338798224925995,
      "learning_rate": 0.0004015396496517961,
      "loss": 1.6153,
      "step": 35175
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4165421426296234,
      "learning_rate": 0.00040152981437011564,
      "loss": 1.5496,
      "step": 35176
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43106743693351746,
      "learning_rate": 0.000401519978965193,
      "loss": 1.6221,
      "step": 35177
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4369308054447174,
      "learning_rate": 0.00040151014343704013,
      "loss": 1.6811,
      "step": 35178
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.431371808052063,
      "learning_rate": 0.0004015003077856688,
      "loss": 1.627,
      "step": 35179
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4455444812774658,
      "learning_rate": 0.0004014904720110912,
      "loss": 1.6051,
      "step": 35180
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42673736810684204,
      "learning_rate": 0.00040148063611331893,
      "loss": 1.5986,
      "step": 35181
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4202854335308075,
      "learning_rate": 0.0004014708000923643,
      "loss": 1.5866,
      "step": 35182
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.437066912651062,
      "learning_rate": 0.00040146096394823896,
      "loss": 1.6113,
      "step": 35183
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4320359528064728,
      "learning_rate": 0.00040145112768095494,
      "loss": 1.5764,
      "step": 35184
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.416581392288208,
      "learning_rate": 0.0004014412912905243,
      "loss": 1.6874,
      "step": 35185
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4378499686717987,
      "learning_rate": 0.0004014314547769588,
      "loss": 1.7076,
      "step": 35186
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42777612805366516,
      "learning_rate": 0.0004014216181402705,
      "loss": 1.6406,
      "step": 35187
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4092872738838196,
      "learning_rate": 0.00040141178138047124,
      "loss": 1.5545,
      "step": 35188
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4403615891933441,
      "learning_rate": 0.0004014019444975731,
      "loss": 1.641,
      "step": 35189
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.429749995470047,
      "learning_rate": 0.0004013921074915879,
      "loss": 1.632,
      "step": 35190
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4221593737602234,
      "learning_rate": 0.0004013822703625277,
      "loss": 1.6002,
      "step": 35191
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43814143538475037,
      "learning_rate": 0.0004013724331104043,
      "loss": 1.5876,
      "step": 35192
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4146386384963989,
      "learning_rate": 0.00040136259573522964,
      "loss": 1.6976,
      "step": 35193
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4261349141597748,
      "learning_rate": 0.00040135275823701577,
      "loss": 1.6626,
      "step": 35194
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4272162616252899,
      "learning_rate": 0.00040134292061577454,
      "loss": 1.6401,
      "step": 35195
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4337211847305298,
      "learning_rate": 0.00040133308287151805,
      "loss": 1.5924,
      "step": 35196
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43457502126693726,
      "learning_rate": 0.00040132324500425796,
      "loss": 1.6272,
      "step": 35197
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43117064237594604,
      "learning_rate": 0.0004013134070140066,
      "loss": 1.6328,
      "step": 35198
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43807530403137207,
      "learning_rate": 0.00040130356890077544,
      "loss": 1.6705,
      "step": 35199
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42202818393707275,
      "learning_rate": 0.0004012937306645769,
      "loss": 1.678,
      "step": 35200
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43693143129348755,
      "learning_rate": 0.0004012838923054226,
      "loss": 1.6647,
      "step": 35201
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4386303126811981,
      "learning_rate": 0.00040127405382332456,
      "loss": 1.7232,
      "step": 35202
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4202626049518585,
      "learning_rate": 0.0004012642152182948,
      "loss": 1.6835,
      "step": 35203
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41075512766838074,
      "learning_rate": 0.0004012543764903451,
      "loss": 1.5757,
      "step": 35204
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41724950075149536,
      "learning_rate": 0.00040124453763948765,
      "loss": 1.6743,
      "step": 35205
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43887436389923096,
      "learning_rate": 0.00040123469866573414,
      "loss": 1.6217,
      "step": 35206
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43698909878730774,
      "learning_rate": 0.00040122485956909667,
      "loss": 1.6281,
      "step": 35207
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4424060881137848,
      "learning_rate": 0.0004012150203495871,
      "loss": 1.6398,
      "step": 35208
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42029666900634766,
      "learning_rate": 0.00040120518100721737,
      "loss": 1.6315,
      "step": 35209
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43489035964012146,
      "learning_rate": 0.00040119534154199957,
      "loss": 1.6624,
      "step": 35210
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43265628814697266,
      "learning_rate": 0.0004011855019539455,
      "loss": 1.6174,
      "step": 35211
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43398317694664,
      "learning_rate": 0.00040117566224306717,
      "loss": 1.6728,
      "step": 35212
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43179893493652344,
      "learning_rate": 0.00040116582240937637,
      "loss": 1.5738,
      "step": 35213
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4397551417350769,
      "learning_rate": 0.0004011559824528853,
      "loss": 1.6599,
      "step": 35214
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4344382882118225,
      "learning_rate": 0.0004011461423736057,
      "loss": 1.567,
      "step": 35215
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4278976023197174,
      "learning_rate": 0.0004011363021715496,
      "loss": 1.6493,
      "step": 35216
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42592066526412964,
      "learning_rate": 0.00040112646184672896,
      "loss": 1.6115,
      "step": 35217
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4390282928943634,
      "learning_rate": 0.00040111662139915574,
      "loss": 1.6604,
      "step": 35218
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4467805027961731,
      "learning_rate": 0.0004011067808288417,
      "loss": 1.6763,
      "step": 35219
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4499969184398651,
      "learning_rate": 0.000401096940135799,
      "loss": 1.6439,
      "step": 35220
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4190346598625183,
      "learning_rate": 0.0004010870993200396,
      "loss": 1.6261,
      "step": 35221
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.435802698135376,
      "learning_rate": 0.00040107725838157515,
      "loss": 1.6536,
      "step": 35222
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44955161213874817,
      "learning_rate": 0.000401067417320418,
      "loss": 1.6344,
      "step": 35223
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4371911585330963,
      "learning_rate": 0.00040105757613657976,
      "loss": 1.6108,
      "step": 35224
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4299149811267853,
      "learning_rate": 0.0004010477348300726,
      "loss": 1.6309,
      "step": 35225
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43392136693000793,
      "learning_rate": 0.00040103789340090835,
      "loss": 1.5918,
      "step": 35226
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4485575258731842,
      "learning_rate": 0.0004010280518490989,
      "loss": 1.7231,
      "step": 35227
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42476558685302734,
      "learning_rate": 0.00040101821017465643,
      "loss": 1.6425,
      "step": 35228
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4335022270679474,
      "learning_rate": 0.0004010083683775926,
      "loss": 1.6992,
      "step": 35229
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43321990966796875,
      "learning_rate": 0.0004009985264579196,
      "loss": 1.6317,
      "step": 35230
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4324370324611664,
      "learning_rate": 0.0004009886844156492,
      "loss": 1.658,
      "step": 35231
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4448171854019165,
      "learning_rate": 0.00040097884225079344,
      "loss": 1.6481,
      "step": 35232
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4390260577201843,
      "learning_rate": 0.0004009689999633643,
      "loss": 1.5877,
      "step": 35233
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43195298314094543,
      "learning_rate": 0.00040095915755337355,
      "loss": 1.6868,
      "step": 35234
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4388139247894287,
      "learning_rate": 0.00040094931502083337,
      "loss": 1.6802,
      "step": 35235
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44178396463394165,
      "learning_rate": 0.0004009394723657556,
      "loss": 1.6326,
      "step": 35236
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44050517678260803,
      "learning_rate": 0.00040092962958815213,
      "loss": 1.714,
      "step": 35237
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43195319175720215,
      "learning_rate": 0.00040091978668803493,
      "loss": 1.5978,
      "step": 35238
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4372561573982239,
      "learning_rate": 0.00040090994366541607,
      "loss": 1.6556,
      "step": 35239
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4169531762599945,
      "learning_rate": 0.0004009001005203074,
      "loss": 1.6611,
      "step": 35240
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4426296055316925,
      "learning_rate": 0.00040089025725272085,
      "loss": 1.5753,
      "step": 35241
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4358255863189697,
      "learning_rate": 0.0004008804138626683,
      "loss": 1.657,
      "step": 35242
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4393523335456848,
      "learning_rate": 0.0004008705703501619,
      "loss": 1.653,
      "step": 35243
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43805158138275146,
      "learning_rate": 0.0004008607267152134,
      "loss": 1.643,
      "step": 35244
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4815577268600464,
      "learning_rate": 0.0004008508829578349,
      "loss": 1.679,
      "step": 35245
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4652799665927887,
      "learning_rate": 0.0004008410390780383,
      "loss": 1.6653,
      "step": 35246
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.420016884803772,
      "learning_rate": 0.00040083119507583557,
      "loss": 1.5969,
      "step": 35247
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4288724660873413,
      "learning_rate": 0.00040082135095123855,
      "loss": 1.6993,
      "step": 35248
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43347078561782837,
      "learning_rate": 0.0004008115067042593,
      "loss": 1.6242,
      "step": 35249
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4129566550254822,
      "learning_rate": 0.00040080166233490974,
      "loss": 1.6394,
      "step": 35250
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43357354402542114,
      "learning_rate": 0.0004007918178432018,
      "loss": 1.5932,
      "step": 35251
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42957279086112976,
      "learning_rate": 0.0004007819732291474,
      "loss": 1.6618,
      "step": 35252
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4464760720729828,
      "learning_rate": 0.0004007721284927586,
      "loss": 1.6687,
      "step": 35253
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4290884733200073,
      "learning_rate": 0.00040076228363404717,
      "loss": 1.6791,
      "step": 35254
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4229907989501953,
      "learning_rate": 0.0004007524386530254,
      "loss": 1.6333,
      "step": 35255
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4239271283149719,
      "learning_rate": 0.00040074259354970477,
      "loss": 1.6257,
      "step": 35256
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4415664076805115,
      "learning_rate": 0.0004007327483240976,
      "loss": 1.6332,
      "step": 35257
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4384170472621918,
      "learning_rate": 0.00040072290297621583,
      "loss": 1.5959,
      "step": 35258
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4439633786678314,
      "learning_rate": 0.00040071305750607106,
      "loss": 1.6741,
      "step": 35259
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4132266342639923,
      "learning_rate": 0.0004007032119136756,
      "loss": 1.5831,
      "step": 35260
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42402324080467224,
      "learning_rate": 0.00040069336619904123,
      "loss": 1.6597,
      "step": 35261
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43665486574172974,
      "learning_rate": 0.00040068352036218003,
      "loss": 1.5906,
      "step": 35262
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4405025243759155,
      "learning_rate": 0.0004006736744031038,
      "loss": 1.6552,
      "step": 35263
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43694376945495605,
      "learning_rate": 0.00040066382832182465,
      "loss": 1.6888,
      "step": 35264
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4178718626499176,
      "learning_rate": 0.0004006539821183544,
      "loss": 1.6182,
      "step": 35265
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43427491188049316,
      "learning_rate": 0.0004006441357927049,
      "loss": 1.6145,
      "step": 35266
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4365697503089905,
      "learning_rate": 0.00040063428934488846,
      "loss": 1.726,
      "step": 35267
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4286753833293915,
      "learning_rate": 0.00040062444277491675,
      "loss": 1.6092,
      "step": 35268
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43192198872566223,
      "learning_rate": 0.00040061459608280175,
      "loss": 1.5795,
      "step": 35269
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4382811188697815,
      "learning_rate": 0.0004006047492685555,
      "loss": 1.5798,
      "step": 35270
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43609070777893066,
      "learning_rate": 0.00040059490233218986,
      "loss": 1.665,
      "step": 35271
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43842798471450806,
      "learning_rate": 0.00040058505527371693,
      "loss": 1.685,
      "step": 35272
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4520280659198761,
      "learning_rate": 0.00040057520809314847,
      "loss": 1.7084,
      "step": 35273
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4291125237941742,
      "learning_rate": 0.00040056536079049657,
      "loss": 1.6126,
      "step": 35274
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4362261891365051,
      "learning_rate": 0.00040055551336577315,
      "loss": 1.6249,
      "step": 35275
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44308677315711975,
      "learning_rate": 0.00040054566581899004,
      "loss": 1.6511,
      "step": 35276
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4443466365337372,
      "learning_rate": 0.0004005358181501594,
      "loss": 1.6678,
      "step": 35277
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4245487451553345,
      "learning_rate": 0.0004005259703592932,
      "loss": 1.6669,
      "step": 35278
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43214359879493713,
      "learning_rate": 0.0004005161224464031,
      "loss": 1.6892,
      "step": 35279
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4382217228412628,
      "learning_rate": 0.0004005062744115013,
      "loss": 1.6207,
      "step": 35280
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4435310363769531,
      "learning_rate": 0.0004004964262545997,
      "loss": 1.6218,
      "step": 35281
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4266294836997986,
      "learning_rate": 0.00040048657797571023,
      "loss": 1.6242,
      "step": 35282
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4269821345806122,
      "learning_rate": 0.00040047672957484496,
      "loss": 1.711,
      "step": 35283
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4326828122138977,
      "learning_rate": 0.0004004668810520156,
      "loss": 1.6155,
      "step": 35284
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4305611848831177,
      "learning_rate": 0.0004004570324072343,
      "loss": 1.6706,
      "step": 35285
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43070849776268005,
      "learning_rate": 0.000400447183640513,
      "loss": 1.5976,
      "step": 35286
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4338328540325165,
      "learning_rate": 0.00040043733475186356,
      "loss": 1.6699,
      "step": 35287
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41904157400131226,
      "learning_rate": 0.0004004274857412981,
      "loss": 1.5449,
      "step": 35288
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4282565116882324,
      "learning_rate": 0.00040041763660882834,
      "loss": 1.657,
      "step": 35289
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44477295875549316,
      "learning_rate": 0.00040040778735446643,
      "loss": 1.6941,
      "step": 35290
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4327360987663269,
      "learning_rate": 0.00040039793797822426,
      "loss": 1.6293,
      "step": 35291
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42704111337661743,
      "learning_rate": 0.0004003880884801138,
      "loss": 1.6773,
      "step": 35292
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.45053431391716003,
      "learning_rate": 0.00040037823886014695,
      "loss": 1.6908,
      "step": 35293
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.5669472813606262,
      "learning_rate": 0.0004003683891183357,
      "loss": 1.5962,
      "step": 35294
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4532465934753418,
      "learning_rate": 0.00040035853925469213,
      "loss": 1.6238,
      "step": 35295
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43875154852867126,
      "learning_rate": 0.00040034868926922787,
      "loss": 1.6338,
      "step": 35296
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4304618537425995,
      "learning_rate": 0.0004003388391619553,
      "loss": 1.6675,
      "step": 35297
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44799965620040894,
      "learning_rate": 0.00040032898893288603,
      "loss": 1.6475,
      "step": 35298
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43667811155319214,
      "learning_rate": 0.00040031913858203224,
      "loss": 1.6829,
      "step": 35299
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.5203655958175659,
      "learning_rate": 0.0004003092881094057,
      "loss": 1.6458,
      "step": 35300
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4287179112434387,
      "learning_rate": 0.00040029943751501853,
      "loss": 1.5869,
      "step": 35301
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.44001683592796326,
      "learning_rate": 0.00040028958679888267,
      "loss": 1.6164,
      "step": 35302
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4399105906486511,
      "learning_rate": 0.00040027973596100993,
      "loss": 1.6137,
      "step": 35303
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4237481951713562,
      "learning_rate": 0.0004002698850014124,
      "loss": 1.6609,
      "step": 35304
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42048412561416626,
      "learning_rate": 0.00040026003392010196,
      "loss": 1.6151,
      "step": 35305
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4503299593925476,
      "learning_rate": 0.00040025018271709064,
      "loss": 1.6386,
      "step": 35306
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42619338631629944,
      "learning_rate": 0.00040024033139239037,
      "loss": 1.5835,
      "step": 35307
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43066564202308655,
      "learning_rate": 0.00040023047994601317,
      "loss": 1.5803,
      "step": 35308
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4398777186870575,
      "learning_rate": 0.0004002206283779708,
      "loss": 1.6348,
      "step": 35309
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4232003390789032,
      "learning_rate": 0.00040021077668827556,
      "loss": 1.6079,
      "step": 35310
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43129488825798035,
      "learning_rate": 0.000400200924876939,
      "loss": 1.6164,
      "step": 35311
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4473951458930969,
      "learning_rate": 0.0004001910729439734,
      "loss": 1.6816,
      "step": 35312
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.43703556060791016,
      "learning_rate": 0.00040018122088939065,
      "loss": 1.6149,
      "step": 35313
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.423350989818573,
      "learning_rate": 0.0004001713687132025,
      "loss": 1.6846,
      "step": 35314
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41902244091033936,
      "learning_rate": 0.0004001615164154212,
      "loss": 1.6714,
      "step": 35315
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.42589130997657776,
      "learning_rate": 0.0004001516639960584,
      "loss": 1.6699,
      "step": 35316
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42921754717826843,
      "learning_rate": 0.0004001418114551264,
      "loss": 1.6653,
      "step": 35317
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41922563314437866,
      "learning_rate": 0.00040013195879263694,
      "loss": 1.6386,
      "step": 35318
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4333476722240448,
      "learning_rate": 0.00040012210600860206,
      "loss": 1.6866,
      "step": 35319
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4264083802700043,
      "learning_rate": 0.00040011225310303375,
      "loss": 1.6583,
      "step": 35320
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4361284375190735,
      "learning_rate": 0.0004001024000759438,
      "loss": 1.6989,
      "step": 35321
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43190717697143555,
      "learning_rate": 0.00040009254692734435,
      "loss": 1.6439,
      "step": 35322
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4257139563560486,
      "learning_rate": 0.00040008269365724726,
      "loss": 1.6494,
      "step": 35323
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45007622241973877,
      "learning_rate": 0.00040007284026566457,
      "loss": 1.6732,
      "step": 35324
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4288065433502197,
      "learning_rate": 0.0004000629867526082,
      "loss": 1.5912,
      "step": 35325
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42976030707359314,
      "learning_rate": 0.00040005313311809005,
      "loss": 1.6269,
      "step": 35326
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4433801770210266,
      "learning_rate": 0.0004000432793621222,
      "loss": 1.678,
      "step": 35327
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4213024377822876,
      "learning_rate": 0.00040003342548471647,
      "loss": 1.6926,
      "step": 35328
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41421717405319214,
      "learning_rate": 0.000400023571485885,
      "loss": 1.6007,
      "step": 35329
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4233509600162506,
      "learning_rate": 0.0004000137173656396,
      "loss": 1.6371,
      "step": 35330
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43544042110443115,
      "learning_rate": 0.00040000386312399227,
      "loss": 1.5804,
      "step": 35331
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43726909160614014,
      "learning_rate": 0.000399994008760955,
      "loss": 1.6297,
      "step": 35332
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.431365042924881,
      "learning_rate": 0.0003999841542765397,
      "loss": 1.6783,
      "step": 35333
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4275144934654236,
      "learning_rate": 0.00039997429967075847,
      "loss": 1.5746,
      "step": 35334
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4428366720676422,
      "learning_rate": 0.00039996444494362306,
      "loss": 1.619,
      "step": 35335
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4332559108734131,
      "learning_rate": 0.0003999545900951456,
      "loss": 1.6094,
      "step": 35336
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44193392992019653,
      "learning_rate": 0.000399944735125338,
      "loss": 1.6248,
      "step": 35337
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4303506016731262,
      "learning_rate": 0.00039993488003421223,
      "loss": 1.6431,
      "step": 35338
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.437394380569458,
      "learning_rate": 0.00039992502482178013,
      "loss": 1.6407,
      "step": 35339
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4267105758190155,
      "learning_rate": 0.0003999151694880539,
      "loss": 1.5829,
      "step": 35340
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4240458309650421,
      "learning_rate": 0.0003999053140330454,
      "loss": 1.5393,
      "step": 35341
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4271407127380371,
      "learning_rate": 0.0003998954584567664,
      "loss": 1.5779,
      "step": 35342
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43692418932914734,
      "learning_rate": 0.00039988560275922925,
      "loss": 1.6669,
      "step": 35343
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41821011900901794,
      "learning_rate": 0.0003998757469404455,
      "loss": 1.6248,
      "step": 35344
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43532752990722656,
      "learning_rate": 0.0003998658910004274,
      "loss": 1.6416,
      "step": 35345
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42916926741600037,
      "learning_rate": 0.0003998560349391867,
      "loss": 1.6284,
      "step": 35346
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43849295377731323,
      "learning_rate": 0.00039984617875673574,
      "loss": 1.5753,
      "step": 35347
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44765156507492065,
      "learning_rate": 0.00039983632245308603,
      "loss": 1.5896,
      "step": 35348
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4276418685913086,
      "learning_rate": 0.0003998264660282498,
      "loss": 1.6179,
      "step": 35349
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4381283223628998,
      "learning_rate": 0.00039981660948223903,
      "loss": 1.6759,
      "step": 35350
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44635313749313354,
      "learning_rate": 0.00039980675281506544,
      "loss": 1.6267,
      "step": 35351
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.432582288980484,
      "learning_rate": 0.00039979689602674125,
      "loss": 1.6111,
      "step": 35352
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4453534483909607,
      "learning_rate": 0.0003997870391172783,
      "loss": 1.6665,
      "step": 35353
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4225670099258423,
      "learning_rate": 0.0003997771820866886,
      "loss": 1.6563,
      "step": 35354
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4259204864501953,
      "learning_rate": 0.00039976732493498407,
      "loss": 1.6598,
      "step": 35355
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44814300537109375,
      "learning_rate": 0.0003997574676621767,
      "loss": 1.6462,
      "step": 35356
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4378525912761688,
      "learning_rate": 0.00039974761026827867,
      "loss": 1.6311,
      "step": 35357
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43713903427124023,
      "learning_rate": 0.00039973775275330153,
      "loss": 1.7015,
      "step": 35358
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4304761588573456,
      "learning_rate": 0.00039972789511725745,
      "loss": 1.6451,
      "step": 35359
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4379313886165619,
      "learning_rate": 0.00039971803736015845,
      "loss": 1.6413,
      "step": 35360
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45570483803749084,
      "learning_rate": 0.00039970817948201646,
      "loss": 1.6138,
      "step": 35361
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4429003596305847,
      "learning_rate": 0.0003996983214828434,
      "loss": 1.6028,
      "step": 35362
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4311197102069855,
      "learning_rate": 0.00039968846336265135,
      "loss": 1.6754,
      "step": 35363
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43609753251075745,
      "learning_rate": 0.0003996786051214521,
      "loss": 1.637,
      "step": 35364
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42747747898101807,
      "learning_rate": 0.0003996687467592577,
      "loss": 1.6582,
      "step": 35365
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44059720635414124,
      "learning_rate": 0.0003996588882760802,
      "loss": 1.6063,
      "step": 35366
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43213289976119995,
      "learning_rate": 0.00039964902967193144,
      "loss": 1.6854,
      "step": 35367
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43516984581947327,
      "learning_rate": 0.00039963917094682356,
      "loss": 1.6961,
      "step": 35368
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4547552466392517,
      "learning_rate": 0.0003996293121007682,
      "loss": 1.694,
      "step": 35369
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41919851303100586,
      "learning_rate": 0.00039961945313377766,
      "loss": 1.6496,
      "step": 35370
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45374414324760437,
      "learning_rate": 0.0003996095940458637,
      "loss": 1.6771,
      "step": 35371
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4295594394207001,
      "learning_rate": 0.0003995997348370385,
      "loss": 1.6861,
      "step": 35372
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42667385935783386,
      "learning_rate": 0.00039958987550731384,
      "loss": 1.6113,
      "step": 35373
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43845897912979126,
      "learning_rate": 0.00039958001605670167,
      "loss": 1.6997,
      "step": 35374
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42786309123039246,
      "learning_rate": 0.0003995701564852142,
      "loss": 1.6286,
      "step": 35375
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.443354994058609,
      "learning_rate": 0.000399560296792863,
      "loss": 1.609,
      "step": 35376
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4449915587902069,
      "learning_rate": 0.00039955043697966045,
      "loss": 1.649,
      "step": 35377
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4316660761833191,
      "learning_rate": 0.0003995405770456183,
      "loss": 1.6255,
      "step": 35378
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43246233463287354,
      "learning_rate": 0.0003995307169907485,
      "loss": 1.6789,
      "step": 35379
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42604169249534607,
      "learning_rate": 0.0003995208568150632,
      "loss": 1.6508,
      "step": 35380
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43671321868896484,
      "learning_rate": 0.00039951099651857404,
      "loss": 1.6402,
      "step": 35381
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4454719126224518,
      "learning_rate": 0.00039950113610129345,
      "loss": 1.6148,
      "step": 35382
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4445456266403198,
      "learning_rate": 0.0003994912755632329,
      "loss": 1.6987,
      "step": 35383
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4460390508174896,
      "learning_rate": 0.00039948141490440476,
      "loss": 1.6281,
      "step": 35384
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42376893758773804,
      "learning_rate": 0.0003994715541248208,
      "loss": 1.5991,
      "step": 35385
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4327484667301178,
      "learning_rate": 0.00039946169322449294,
      "loss": 1.6133,
      "step": 35386
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43207815289497375,
      "learning_rate": 0.0003994518322034334,
      "loss": 1.6274,
      "step": 35387
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42352426052093506,
      "learning_rate": 0.00039944197106165383,
      "loss": 1.6558,
      "step": 35388
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43427738547325134,
      "learning_rate": 0.0003994321097991665,
      "loss": 1.5953,
      "step": 35389
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4228992164134979,
      "learning_rate": 0.0003994222484159831,
      "loss": 1.641,
      "step": 35390
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43647730350494385,
      "learning_rate": 0.0003994123869121158,
      "loss": 1.687,
      "step": 35391
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4375532865524292,
      "learning_rate": 0.0003994025252875766,
      "loss": 1.5907,
      "step": 35392
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4246259033679962,
      "learning_rate": 0.0003993926635423773,
      "loss": 1.6223,
      "step": 35393
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4209597408771515,
      "learning_rate": 0.0003993828016765299,
      "loss": 1.7216,
      "step": 35394
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4283432066440582,
      "learning_rate": 0.00039937293969004653,
      "loss": 1.6818,
      "step": 35395
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4301290214061737,
      "learning_rate": 0.00039936307758293895,
      "loss": 1.6456,
      "step": 35396
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4180883467197418,
      "learning_rate": 0.0003993532153552193,
      "loss": 1.599,
      "step": 35397
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42602407932281494,
      "learning_rate": 0.00039934335300689946,
      "loss": 1.6152,
      "step": 35398
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43256089091300964,
      "learning_rate": 0.00039933349053799145,
      "loss": 1.6864,
      "step": 35399
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4238370954990387,
      "learning_rate": 0.00039932362794850725,
      "loss": 1.615,
      "step": 35400
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43845751881599426,
      "learning_rate": 0.00039931376523845864,
      "loss": 1.631,
      "step": 35401
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41619575023651123,
      "learning_rate": 0.00039930390240785796,
      "loss": 1.5798,
      "step": 35402
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4568338990211487,
      "learning_rate": 0.0003992940394567169,
      "loss": 1.6747,
      "step": 35403
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4215700924396515,
      "learning_rate": 0.0003992841763850475,
      "loss": 1.5668,
      "step": 35404
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4321201741695404,
      "learning_rate": 0.0003992743131928617,
      "loss": 1.5888,
      "step": 35405
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4268864393234253,
      "learning_rate": 0.0003992644498801715,
      "loss": 1.6282,
      "step": 35406
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4335026144981384,
      "learning_rate": 0.00039925458644698893,
      "loss": 1.6396,
      "step": 35407
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4185989797115326,
      "learning_rate": 0.00039924472289332586,
      "loss": 1.6113,
      "step": 35408
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4221970736980438,
      "learning_rate": 0.00039923485921919443,
      "loss": 1.6404,
      "step": 35409
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42832472920417786,
      "learning_rate": 0.00039922499542460646,
      "loss": 1.6032,
      "step": 35410
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42795222997665405,
      "learning_rate": 0.0003992151315095739,
      "loss": 1.5731,
      "step": 35411
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43014082312583923,
      "learning_rate": 0.00039920526747410886,
      "loss": 1.7202,
      "step": 35412
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4290720522403717,
      "learning_rate": 0.00039919540331822314,
      "loss": 1.6102,
      "step": 35413
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4205831289291382,
      "learning_rate": 0.00039918553904192897,
      "loss": 1.6572,
      "step": 35414
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43499428033828735,
      "learning_rate": 0.0003991756746452381,
      "loss": 1.6383,
      "step": 35415
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4263544976711273,
      "learning_rate": 0.00039916581012816257,
      "loss": 1.6462,
      "step": 35416
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4391932487487793,
      "learning_rate": 0.0003991559454907143,
      "loss": 1.6255,
      "step": 35417
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42864885926246643,
      "learning_rate": 0.00039914608073290535,
      "loss": 1.6577,
      "step": 35418
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4229127764701843,
      "learning_rate": 0.0003991362158547478,
      "loss": 1.6422,
      "step": 35419
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45601704716682434,
      "learning_rate": 0.0003991263508562534,
      "loss": 1.6671,
      "step": 35420
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4503926634788513,
      "learning_rate": 0.00039911648573743414,
      "loss": 1.6611,
      "step": 35421
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42786410450935364,
      "learning_rate": 0.0003991066204983021,
      "loss": 1.6551,
      "step": 35422
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42500337958335876,
      "learning_rate": 0.00039909675513886923,
      "loss": 1.6091,
      "step": 35423
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4323427081108093,
      "learning_rate": 0.00039908688965914756,
      "loss": 1.6242,
      "step": 35424
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4338749051094055,
      "learning_rate": 0.00039907702405914906,
      "loss": 1.5774,
      "step": 35425
    },
    {
      "epoch": 1.18,
      "grad_norm": 1.217837929725647,
      "learning_rate": 0.0003990671583388854,
      "loss": 1.6795,
      "step": 35426
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4169211983680725,
      "learning_rate": 0.0003990572924983691,
      "loss": 1.6094,
      "step": 35427
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4560381770133972,
      "learning_rate": 0.0003990474265376117,
      "loss": 1.7324,
      "step": 35428
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42748501896858215,
      "learning_rate": 0.00039903756045662526,
      "loss": 1.5852,
      "step": 35429
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4246554672718048,
      "learning_rate": 0.00039902769425542196,
      "loss": 1.6745,
      "step": 35430
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42319825291633606,
      "learning_rate": 0.0003990178279340135,
      "loss": 1.6899,
      "step": 35431
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4272751212120056,
      "learning_rate": 0.0003990079614924121,
      "loss": 1.6781,
      "step": 35432
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4150717556476593,
      "learning_rate": 0.00039899809493062946,
      "loss": 1.5059,
      "step": 35433
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4153124690055847,
      "learning_rate": 0.00039898822824867785,
      "loss": 1.6059,
      "step": 35434
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44137391448020935,
      "learning_rate": 0.0003989783614465691,
      "loss": 1.6158,
      "step": 35435
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43615564703941345,
      "learning_rate": 0.0003989684945243152,
      "loss": 1.6569,
      "step": 35436
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4199850857257843,
      "learning_rate": 0.0003989586274819282,
      "loss": 1.6191,
      "step": 35437
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.429464727640152,
      "learning_rate": 0.0003989487603194199,
      "loss": 1.6093,
      "step": 35438
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44117864966392517,
      "learning_rate": 0.00039893889303680243,
      "loss": 1.7241,
      "step": 35439
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4535953402519226,
      "learning_rate": 0.0003989290256340877,
      "loss": 1.5859,
      "step": 35440
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4354737102985382,
      "learning_rate": 0.00039891915811128765,
      "loss": 1.6861,
      "step": 35441
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43019959330558777,
      "learning_rate": 0.0003989092904684144,
      "loss": 1.6351,
      "step": 35442
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45079493522644043,
      "learning_rate": 0.0003988994227054798,
      "loss": 1.6707,
      "step": 35443
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4429836571216583,
      "learning_rate": 0.000398889554822496,
      "loss": 1.6966,
      "step": 35444
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43503665924072266,
      "learning_rate": 0.0003988796868194747,
      "loss": 1.6506,
      "step": 35445
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4378422498703003,
      "learning_rate": 0.000398869818696428,
      "loss": 1.6871,
      "step": 35446
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43700894713401794,
      "learning_rate": 0.0003988599504533681,
      "loss": 1.6713,
      "step": 35447
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4350273311138153,
      "learning_rate": 0.00039885008209030663,
      "loss": 1.6352,
      "step": 35448
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43148139119148254,
      "learning_rate": 0.00039884021360725577,
      "loss": 1.5694,
      "step": 35449
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4229262173175812,
      "learning_rate": 0.0003988303450042275,
      "loss": 1.6354,
      "step": 35450
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4395558834075928,
      "learning_rate": 0.00039882047628123367,
      "loss": 1.5948,
      "step": 35451
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42823320627212524,
      "learning_rate": 0.0003988106074382864,
      "loss": 1.6274,
      "step": 35452
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4359532594680786,
      "learning_rate": 0.0003988007384753976,
      "loss": 1.6108,
      "step": 35453
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4451712667942047,
      "learning_rate": 0.0003987908693925792,
      "loss": 1.7052,
      "step": 35454
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4450671672821045,
      "learning_rate": 0.0003987810001898434,
      "loss": 1.6314,
      "step": 35455
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42811623215675354,
      "learning_rate": 0.0003987711308672018,
      "loss": 1.713,
      "step": 35456
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4406992197036743,
      "learning_rate": 0.0003987612614246667,
      "loss": 1.5837,
      "step": 35457
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44076642394065857,
      "learning_rate": 0.0003987513918622501,
      "loss": 1.6472,
      "step": 35458
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4320979416370392,
      "learning_rate": 0.0003987415221799637,
      "loss": 1.6157,
      "step": 35459
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4267469346523285,
      "learning_rate": 0.0003987316523778197,
      "loss": 1.5813,
      "step": 35460
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41554179787635803,
      "learning_rate": 0.00039872178245583,
      "loss": 1.5855,
      "step": 35461
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4365599751472473,
      "learning_rate": 0.00039871191241400665,
      "loss": 1.6164,
      "step": 35462
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4262979030609131,
      "learning_rate": 0.0003987020422523615,
      "loss": 1.5788,
      "step": 35463
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4309793710708618,
      "learning_rate": 0.00039869217197090667,
      "loss": 1.6125,
      "step": 35464
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4513157904148102,
      "learning_rate": 0.0003986823015696541,
      "loss": 1.6063,
      "step": 35465
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4444042444229126,
      "learning_rate": 0.0003986724310486157,
      "loss": 1.6379,
      "step": 35466
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4292868375778198,
      "learning_rate": 0.0003986625604078036,
      "loss": 1.6525,
      "step": 35467
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4378809630870819,
      "learning_rate": 0.00039865268964722956,
      "loss": 1.643,
      "step": 35468
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4639503061771393,
      "learning_rate": 0.00039864281876690583,
      "loss": 1.6669,
      "step": 35469
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4546315371990204,
      "learning_rate": 0.0003986329477668442,
      "loss": 1.6851,
      "step": 35470
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44018423557281494,
      "learning_rate": 0.00039862307664705667,
      "loss": 1.7359,
      "step": 35471
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43276405334472656,
      "learning_rate": 0.0003986132054075553,
      "loss": 1.66,
      "step": 35472
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44868800044059753,
      "learning_rate": 0.00039860333404835195,
      "loss": 1.6591,
      "step": 35473
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.46160048246383667,
      "learning_rate": 0.0003985934625694588,
      "loss": 1.5791,
      "step": 35474
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4623822867870331,
      "learning_rate": 0.0003985835909708876,
      "loss": 1.6323,
      "step": 35475
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4291074872016907,
      "learning_rate": 0.0003985737192526505,
      "loss": 1.6079,
      "step": 35476
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4434415400028229,
      "learning_rate": 0.0003985638474147594,
      "loss": 1.5967,
      "step": 35477
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42454299330711365,
      "learning_rate": 0.0003985539754572264,
      "loss": 1.57,
      "step": 35478
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4641997814178467,
      "learning_rate": 0.0003985441033800633,
      "loss": 1.6293,
      "step": 35479
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4770698547363281,
      "learning_rate": 0.00039853423118328224,
      "loss": 1.6492,
      "step": 35480
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4494839906692505,
      "learning_rate": 0.00039852435886689506,
      "loss": 1.6678,
      "step": 35481
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.46006259322166443,
      "learning_rate": 0.0003985144864309139,
      "loss": 1.6209,
      "step": 35482
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4441022574901581,
      "learning_rate": 0.0003985046138753506,
      "loss": 1.6561,
      "step": 35483
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.5390412211418152,
      "learning_rate": 0.00039849474120021736,
      "loss": 1.6626,
      "step": 35484
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42643678188323975,
      "learning_rate": 0.0003984848684055259,
      "loss": 1.6128,
      "step": 35485
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42934244871139526,
      "learning_rate": 0.00039847499549128826,
      "loss": 1.6196,
      "step": 35486
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42878395318984985,
      "learning_rate": 0.0003984651224575166,
      "loss": 1.5742,
      "step": 35487
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44617152214050293,
      "learning_rate": 0.00039845524930422275,
      "loss": 1.6783,
      "step": 35488
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44241592288017273,
      "learning_rate": 0.00039844537603141877,
      "loss": 1.5813,
      "step": 35489
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42350074648857117,
      "learning_rate": 0.00039843550263911657,
      "loss": 1.674,
      "step": 35490
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4332192540168762,
      "learning_rate": 0.00039842562912732814,
      "loss": 1.5685,
      "step": 35491
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4379410445690155,
      "learning_rate": 0.0003984157554960656,
      "loss": 1.5904,
      "step": 35492
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.8188230395317078,
      "learning_rate": 0.0003984058817453407,
      "loss": 1.6646,
      "step": 35493
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4434259235858917,
      "learning_rate": 0.00039839600787516566,
      "loss": 1.6381,
      "step": 35494
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43456244468688965,
      "learning_rate": 0.00039838613388555236,
      "loss": 1.6974,
      "step": 35495
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4286423921585083,
      "learning_rate": 0.00039837625977651273,
      "loss": 1.7011,
      "step": 35496
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.5528218746185303,
      "learning_rate": 0.00039836638554805885,
      "loss": 1.6883,
      "step": 35497
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43335089087486267,
      "learning_rate": 0.0003983565112002026,
      "loss": 1.6452,
      "step": 35498
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43496206402778625,
      "learning_rate": 0.0003983466367329562,
      "loss": 1.5737,
      "step": 35499
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42670997977256775,
      "learning_rate": 0.0003983367621463313,
      "loss": 1.6477,
      "step": 35500
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4088764488697052,
      "learning_rate": 0.0003983268874403402,
      "loss": 1.5747,
      "step": 35501
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4376564621925354,
      "learning_rate": 0.0003983170126149947,
      "loss": 1.647,
      "step": 35502
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4363279342651367,
      "learning_rate": 0.0003983071376703068,
      "loss": 1.6067,
      "step": 35503
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43969929218292236,
      "learning_rate": 0.0003982972626062885,
      "loss": 1.6358,
      "step": 35504
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42592376470565796,
      "learning_rate": 0.00039828738742295184,
      "loss": 1.6007,
      "step": 35505
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41919732093811035,
      "learning_rate": 0.0003982775121203089,
      "loss": 1.6431,
      "step": 35506
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4176918864250183,
      "learning_rate": 0.0003982676366983713,
      "loss": 1.5806,
      "step": 35507
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42994290590286255,
      "learning_rate": 0.0003982577611571514,
      "loss": 1.6106,
      "step": 35508
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4291755259037018,
      "learning_rate": 0.00039824788549666103,
      "loss": 1.6285,
      "step": 35509
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4463328421115875,
      "learning_rate": 0.00039823800971691226,
      "loss": 1.6399,
      "step": 35510
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42956867814064026,
      "learning_rate": 0.00039822813381791696,
      "loss": 1.6119,
      "step": 35511
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4324004352092743,
      "learning_rate": 0.00039821825779968724,
      "loss": 1.7019,
      "step": 35512
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4257451593875885,
      "learning_rate": 0.000398208381662235,
      "loss": 1.6534,
      "step": 35513
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42924344539642334,
      "learning_rate": 0.00039819850540557226,
      "loss": 1.573,
      "step": 35514
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4445541799068451,
      "learning_rate": 0.0003981886290297109,
      "loss": 1.6011,
      "step": 35515
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45451149344444275,
      "learning_rate": 0.0003981787525346631,
      "loss": 1.6681,
      "step": 35516
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42749255895614624,
      "learning_rate": 0.00039816887592044085,
      "loss": 1.5523,
      "step": 35517
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43084368109703064,
      "learning_rate": 0.0003981589991870558,
      "loss": 1.6156,
      "step": 35518
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43178650736808777,
      "learning_rate": 0.00039814912233452043,
      "loss": 1.5851,
      "step": 35519
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43133610486984253,
      "learning_rate": 0.0003981392453628464,
      "loss": 1.5911,
      "step": 35520
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4403330683708191,
      "learning_rate": 0.0003981293682720458,
      "loss": 1.6691,
      "step": 35521
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4327811598777771,
      "learning_rate": 0.00039811949106213063,
      "loss": 1.5837,
      "step": 35522
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42390570044517517,
      "learning_rate": 0.00039810961373311273,
      "loss": 1.6553,
      "step": 35523
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41784876585006714,
      "learning_rate": 0.0003980997362850044,
      "loss": 1.6402,
      "step": 35524
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4355529546737671,
      "learning_rate": 0.00039808985871781725,
      "loss": 1.6503,
      "step": 35525
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4294760823249817,
      "learning_rate": 0.0003980799810315636,
      "loss": 1.5788,
      "step": 35526
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4183725118637085,
      "learning_rate": 0.0003980701032262553,
      "loss": 1.5822,
      "step": 35527
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41882261633872986,
      "learning_rate": 0.0003980602253019043,
      "loss": 1.6376,
      "step": 35528
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43247368931770325,
      "learning_rate": 0.0003980503472585226,
      "loss": 1.5451,
      "step": 35529
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4296777546405792,
      "learning_rate": 0.00039804046909612225,
      "loss": 1.641,
      "step": 35530
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43141600489616394,
      "learning_rate": 0.0003980305908147153,
      "loss": 1.5964,
      "step": 35531
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4210338890552521,
      "learning_rate": 0.0003980207124143136,
      "loss": 1.5945,
      "step": 35532
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4448336660861969,
      "learning_rate": 0.00039801083389492915,
      "loss": 1.6481,
      "step": 35533
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42662933468818665,
      "learning_rate": 0.000398000955256574,
      "loss": 1.6142,
      "step": 35534
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4217853844165802,
      "learning_rate": 0.00039799107649926015,
      "loss": 1.5854,
      "step": 35535
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4310353100299835,
      "learning_rate": 0.00039798119762299967,
      "loss": 1.6278,
      "step": 35536
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43552035093307495,
      "learning_rate": 0.0003979713186278043,
      "loss": 1.6674,
      "step": 35537
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4338862895965576,
      "learning_rate": 0.0003979614395136863,
      "loss": 1.6415,
      "step": 35538
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4257793128490448,
      "learning_rate": 0.00039795156028065744,
      "loss": 1.6491,
      "step": 35539
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4273523688316345,
      "learning_rate": 0.0003979416809287299,
      "loss": 1.6399,
      "step": 35540
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4218205213546753,
      "learning_rate": 0.0003979318014579155,
      "loss": 1.616,
      "step": 35541
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44002479314804077,
      "learning_rate": 0.0003979219218682265,
      "loss": 1.6632,
      "step": 35542
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4244638681411743,
      "learning_rate": 0.00039791204215967445,
      "loss": 1.6281,
      "step": 35543
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42803114652633667,
      "learning_rate": 0.00039790216233227186,
      "loss": 1.6047,
      "step": 35544
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42363816499710083,
      "learning_rate": 0.00039789228238603036,
      "loss": 1.6567,
      "step": 35545
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44391360878944397,
      "learning_rate": 0.0003978824023209621,
      "loss": 1.6348,
      "step": 35546
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43293920159339905,
      "learning_rate": 0.000397872522137079,
      "loss": 1.6255,
      "step": 35547
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4233720600605011,
      "learning_rate": 0.00039786264183439295,
      "loss": 1.6701,
      "step": 35548
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4375857412815094,
      "learning_rate": 0.00039785276141291625,
      "loss": 1.6307,
      "step": 35549
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4234103858470917,
      "learning_rate": 0.0003978428808726606,
      "loss": 1.6922,
      "step": 35550
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44060638546943665,
      "learning_rate": 0.00039783300021363824,
      "loss": 1.6838,
      "step": 35551
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4421578049659729,
      "learning_rate": 0.00039782311943586094,
      "loss": 1.5446,
      "step": 35552
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44261667132377625,
      "learning_rate": 0.00039781323853934074,
      "loss": 1.6851,
      "step": 35553
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4471825063228607,
      "learning_rate": 0.00039780335752408983,
      "loss": 1.5898,
      "step": 35554
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44670045375823975,
      "learning_rate": 0.0003977934763901199,
      "loss": 1.6994,
      "step": 35555
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4231858253479004,
      "learning_rate": 0.0003977835951374432,
      "loss": 1.6465,
      "step": 35556
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4333541989326477,
      "learning_rate": 0.0003977737137660716,
      "loss": 1.6785,
      "step": 35557
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43369942903518677,
      "learning_rate": 0.0003977638322760171,
      "loss": 1.6228,
      "step": 35558
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4214107394218445,
      "learning_rate": 0.00039775395066729167,
      "loss": 1.6207,
      "step": 35559
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43104732036590576,
      "learning_rate": 0.0003977440689399074,
      "loss": 1.6562,
      "step": 35560
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4229329824447632,
      "learning_rate": 0.0003977341870938763,
      "loss": 1.6564,
      "step": 35561
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4486708343029022,
      "learning_rate": 0.00039772430512921027,
      "loss": 1.6722,
      "step": 35562
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.441039115190506,
      "learning_rate": 0.00039771442304592123,
      "loss": 1.606,
      "step": 35563
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.44518572092056274,
      "learning_rate": 0.00039770454084402134,
      "loss": 1.6612,
      "step": 35564
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42802006006240845,
      "learning_rate": 0.00039769465852352253,
      "loss": 1.6524,
      "step": 35565
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4321504533290863,
      "learning_rate": 0.0003976847760844367,
      "loss": 1.6226,
      "step": 35566
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41303348541259766,
      "learning_rate": 0.0003976748935267762,
      "loss": 1.7249,
      "step": 35567
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4484975337982178,
      "learning_rate": 0.00039766501085055256,
      "loss": 1.6443,
      "step": 35568
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43481168150901794,
      "learning_rate": 0.00039765512805577807,
      "loss": 1.6458,
      "step": 35569
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4416366517543793,
      "learning_rate": 0.0003976452451424646,
      "loss": 1.5912,
      "step": 35570
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4189859926700592,
      "learning_rate": 0.00039763536211062417,
      "loss": 1.6014,
      "step": 35571
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41376733779907227,
      "learning_rate": 0.0003976254789602689,
      "loss": 1.648,
      "step": 35572
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4231932759284973,
      "learning_rate": 0.00039761559569141057,
      "loss": 1.6279,
      "step": 35573
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4509963095188141,
      "learning_rate": 0.00039760571230406137,
      "loss": 1.6096,
      "step": 35574
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4430350661277771,
      "learning_rate": 0.00039759582879823316,
      "loss": 1.598,
      "step": 35575
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43484076857566833,
      "learning_rate": 0.000397585945173938,
      "loss": 1.6398,
      "step": 35576
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4500379264354706,
      "learning_rate": 0.000397576061431188,
      "loss": 1.6511,
      "step": 35577
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4348384141921997,
      "learning_rate": 0.0003975661775699948,
      "loss": 1.7216,
      "step": 35578
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4234459698200226,
      "learning_rate": 0.00039755629359037085,
      "loss": 1.6453,
      "step": 35579
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4601167142391205,
      "learning_rate": 0.0003975464094923278,
      "loss": 1.6299,
      "step": 35580
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43918511271476746,
      "learning_rate": 0.00039753652527587784,
      "loss": 1.6007,
      "step": 35581
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.464988648891449,
      "learning_rate": 0.00039752664094103293,
      "loss": 1.6039,
      "step": 35582
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4515620172023773,
      "learning_rate": 0.000397516756487805,
      "loss": 1.674,
      "step": 35583
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.45317137241363525,
      "learning_rate": 0.0003975068719162062,
      "loss": 1.6498,
      "step": 35584
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4505963623523712,
      "learning_rate": 0.0003974969872262483,
      "loss": 1.6064,
      "step": 35585
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43226271867752075,
      "learning_rate": 0.00039748710241794345,
      "loss": 1.6573,
      "step": 35586
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42980942130088806,
      "learning_rate": 0.00039747721749130364,
      "loss": 1.6078,
      "step": 35587
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4295952618122101,
      "learning_rate": 0.00039746733244634084,
      "loss": 1.6443,
      "step": 35588
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43027928471565247,
      "learning_rate": 0.00039745744728306707,
      "loss": 1.5723,
      "step": 35589
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4212489128112793,
      "learning_rate": 0.0003974475620014943,
      "loss": 1.6771,
      "step": 35590
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43817535042762756,
      "learning_rate": 0.00039743767660163463,
      "loss": 1.6253,
      "step": 35591
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43107903003692627,
      "learning_rate": 0.0003974277910834999,
      "loss": 1.6168,
      "step": 35592
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41687482595443726,
      "learning_rate": 0.00039741790544710223,
      "loss": 1.5766,
      "step": 35593
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4343804717063904,
      "learning_rate": 0.0003974080196924535,
      "loss": 1.6086,
      "step": 35594
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4260422885417938,
      "learning_rate": 0.00039739813381956587,
      "loss": 1.6407,
      "step": 35595
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42884504795074463,
      "learning_rate": 0.00039738824782845116,
      "loss": 1.5819,
      "step": 35596
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4326576590538025,
      "learning_rate": 0.0003973783617191216,
      "loss": 1.6613,
      "step": 35597
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.435089111328125,
      "learning_rate": 0.0003973684754915889,
      "loss": 1.6204,
      "step": 35598
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4512651264667511,
      "learning_rate": 0.0003973585891458654,
      "loss": 1.5768,
      "step": 35599
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43142056465148926,
      "learning_rate": 0.00039734870268196275,
      "loss": 1.62,
      "step": 35600
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43513360619544983,
      "learning_rate": 0.00039733881609989324,
      "loss": 1.6512,
      "step": 35601
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4395936131477356,
      "learning_rate": 0.00039732892939966873,
      "loss": 1.6161,
      "step": 35602
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4357112944126129,
      "learning_rate": 0.0003973190425813011,
      "loss": 1.6508,
      "step": 35603
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4362497329711914,
      "learning_rate": 0.0003973091556448027,
      "loss": 1.6526,
      "step": 35604
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43817317485809326,
      "learning_rate": 0.00039729926859018513,
      "loss": 1.6848,
      "step": 35605
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.41477876901626587,
      "learning_rate": 0.0003972893814174607,
      "loss": 1.5693,
      "step": 35606
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.423984557390213,
      "learning_rate": 0.00039727949412664124,
      "loss": 1.6492,
      "step": 35607
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.42047643661499023,
      "learning_rate": 0.0003972696067177389,
      "loss": 1.6276,
      "step": 35608
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4320412874221802,
      "learning_rate": 0.0003972597191907655,
      "loss": 1.6564,
      "step": 35609
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.48209959268569946,
      "learning_rate": 0.00039724983154573317,
      "loss": 1.6794,
      "step": 35610
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4425848722457886,
      "learning_rate": 0.0003972399437826539,
      "loss": 1.6413,
      "step": 35611
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43132519721984863,
      "learning_rate": 0.0003972300559015396,
      "loss": 1.7034,
      "step": 35612
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43803349137306213,
      "learning_rate": 0.00039722016790240237,
      "loss": 1.6999,
      "step": 35613
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43089759349823,
      "learning_rate": 0.00039721027978525416,
      "loss": 1.6228,
      "step": 35614
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.43870505690574646,
      "learning_rate": 0.000397200391550107,
      "loss": 1.6818,
      "step": 35615
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4139871597290039,
      "learning_rate": 0.0003971905031969729,
      "loss": 1.5988,
      "step": 35616
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4187530279159546,
      "learning_rate": 0.00039718061472586387,
      "loss": 1.6614,
      "step": 35617
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43498334288597107,
      "learning_rate": 0.0003971707261367919,
      "loss": 1.6572,
      "step": 35618
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4429333806037903,
      "learning_rate": 0.0003971608374297689,
      "loss": 1.6433,
      "step": 35619
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42468997836112976,
      "learning_rate": 0.00039715094860480704,
      "loss": 1.6739,
      "step": 35620
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43489977717399597,
      "learning_rate": 0.0003971410596619182,
      "loss": 1.7073,
      "step": 35621
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4333065152168274,
      "learning_rate": 0.00039713117060111446,
      "loss": 1.6809,
      "step": 35622
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43230360746383667,
      "learning_rate": 0.00039712128142240785,
      "loss": 1.5773,
      "step": 35623
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44835588335990906,
      "learning_rate": 0.00039711139212581024,
      "loss": 1.6517,
      "step": 35624
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4312188923358917,
      "learning_rate": 0.0003971015027113337,
      "loss": 1.6748,
      "step": 35625
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4320312440395355,
      "learning_rate": 0.0003970916131789902,
      "loss": 1.6589,
      "step": 35626
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45017609000205994,
      "learning_rate": 0.0003970817235287918,
      "loss": 1.6521,
      "step": 35627
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4484235644340515,
      "learning_rate": 0.0003970718337607506,
      "loss": 1.5772,
      "step": 35628
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4516799747943878,
      "learning_rate": 0.00039706194387487847,
      "loss": 1.6561,
      "step": 35629
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42578285932540894,
      "learning_rate": 0.0003970520538711874,
      "loss": 1.6457,
      "step": 35630
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4196077883243561,
      "learning_rate": 0.0003970421637496894,
      "loss": 1.6168,
      "step": 35631
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4410708248615265,
      "learning_rate": 0.00039703227351039653,
      "loss": 1.6018,
      "step": 35632
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4470376968383789,
      "learning_rate": 0.0003970223831533208,
      "loss": 1.6578,
      "step": 35633
    },
    {
      "epoch": 1.19,
      "grad_norm": 1.0237617492675781,
      "learning_rate": 0.0003970124926784742,
      "loss": 1.6529,
      "step": 35634
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4389059841632843,
      "learning_rate": 0.00039700260208586866,
      "loss": 1.6169,
      "step": 35635
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4199972152709961,
      "learning_rate": 0.00039699271137551636,
      "loss": 1.6652,
      "step": 35636
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45364972949028015,
      "learning_rate": 0.00039698282054742915,
      "loss": 1.6462,
      "step": 35637
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4447630047798157,
      "learning_rate": 0.00039697292960161904,
      "loss": 1.6482,
      "step": 35638
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4314644932746887,
      "learning_rate": 0.00039696303853809824,
      "loss": 1.6392,
      "step": 35639
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44686490297317505,
      "learning_rate": 0.0003969531473568784,
      "loss": 1.659,
      "step": 35640
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43198537826538086,
      "learning_rate": 0.00039694325605797183,
      "loss": 1.657,
      "step": 35641
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42713677883148193,
      "learning_rate": 0.0003969333646413903,
      "loss": 1.6102,
      "step": 35642
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43090319633483887,
      "learning_rate": 0.00039692347310714616,
      "loss": 1.622,
      "step": 35643
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4296850264072418,
      "learning_rate": 0.0003969135814552511,
      "loss": 1.6142,
      "step": 35644
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4306081235408783,
      "learning_rate": 0.0003969036896857172,
      "loss": 1.6126,
      "step": 35645
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41508033871650696,
      "learning_rate": 0.0003968937977985566,
      "loss": 1.5497,
      "step": 35646
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4265022873878479,
      "learning_rate": 0.0003968839057937811,
      "loss": 1.6647,
      "step": 35647
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43232759833335876,
      "learning_rate": 0.00039687401367140285,
      "loss": 1.6848,
      "step": 35648
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.438943088054657,
      "learning_rate": 0.00039686412143143384,
      "loss": 1.6088,
      "step": 35649
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4358440041542053,
      "learning_rate": 0.00039685422907388603,
      "loss": 1.6488,
      "step": 35650
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.5586827397346497,
      "learning_rate": 0.0003968443365987715,
      "loss": 1.7226,
      "step": 35651
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4259661138057709,
      "learning_rate": 0.0003968344440061021,
      "loss": 1.6549,
      "step": 35652
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4299336075782776,
      "learning_rate": 0.00039682455129589006,
      "loss": 1.6146,
      "step": 35653
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41448625922203064,
      "learning_rate": 0.0003968146584681473,
      "loss": 1.5859,
      "step": 35654
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.435940682888031,
      "learning_rate": 0.0003968047655228858,
      "loss": 1.5811,
      "step": 35655
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4566785991191864,
      "learning_rate": 0.00039679487246011756,
      "loss": 1.6876,
      "step": 35656
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.47001954913139343,
      "learning_rate": 0.00039678497927985454,
      "loss": 1.7002,
      "step": 35657
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.424159437417984,
      "learning_rate": 0.00039677508598210884,
      "loss": 1.7083,
      "step": 35658
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4328358471393585,
      "learning_rate": 0.00039676519256689254,
      "loss": 1.5849,
      "step": 35659
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4243181049823761,
      "learning_rate": 0.00039675529903421746,
      "loss": 1.6142,
      "step": 35660
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42232629656791687,
      "learning_rate": 0.00039674540538409575,
      "loss": 1.5888,
      "step": 35661
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4390484392642975,
      "learning_rate": 0.00039673551161653934,
      "loss": 1.6975,
      "step": 35662
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4492085874080658,
      "learning_rate": 0.0003967256177315603,
      "loss": 1.7164,
      "step": 35663
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.47584232687950134,
      "learning_rate": 0.0003967157237291707,
      "loss": 1.6247,
      "step": 35664
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44901007413864136,
      "learning_rate": 0.0003967058296093822,
      "loss": 1.5991,
      "step": 35665
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4299590289592743,
      "learning_rate": 0.0003966959353722073,
      "loss": 1.6531,
      "step": 35666
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4441199004650116,
      "learning_rate": 0.00039668604101765763,
      "loss": 1.6448,
      "step": 35667
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42837435007095337,
      "learning_rate": 0.0003966761465457455,
      "loss": 1.5947,
      "step": 35668
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4330799877643585,
      "learning_rate": 0.0003966662519564827,
      "loss": 1.6509,
      "step": 35669
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4168827533721924,
      "learning_rate": 0.0003966563572498813,
      "loss": 1.5878,
      "step": 35670
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43691712617874146,
      "learning_rate": 0.00039664646242595344,
      "loss": 1.6679,
      "step": 35671
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42829301953315735,
      "learning_rate": 0.00039663656748471077,
      "loss": 1.6593,
      "step": 35672
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43693751096725464,
      "learning_rate": 0.00039662667242616577,
      "loss": 1.6753,
      "step": 35673
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43519487977027893,
      "learning_rate": 0.0003966167772503302,
      "loss": 1.6116,
      "step": 35674
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4162581264972687,
      "learning_rate": 0.000396606881957216,
      "loss": 1.5941,
      "step": 35675
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.5527636408805847,
      "learning_rate": 0.0003965969865468353,
      "loss": 1.5775,
      "step": 35676
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45462536811828613,
      "learning_rate": 0.00039658709101920016,
      "loss": 1.6501,
      "step": 35677
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42961999773979187,
      "learning_rate": 0.0003965771953743226,
      "loss": 1.6409,
      "step": 35678
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4255877137184143,
      "learning_rate": 0.00039656729961221434,
      "loss": 1.61,
      "step": 35679
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4226599633693695,
      "learning_rate": 0.0003965574037328877,
      "loss": 1.6564,
      "step": 35680
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44827574491500854,
      "learning_rate": 0.0003965475077363546,
      "loss": 1.6131,
      "step": 35681
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4187099039554596,
      "learning_rate": 0.00039653761162262703,
      "loss": 1.6245,
      "step": 35682
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4247475862503052,
      "learning_rate": 0.00039652771539171704,
      "loss": 1.605,
      "step": 35683
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4260571002960205,
      "learning_rate": 0.00039651781904363666,
      "loss": 1.5935,
      "step": 35684
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.429701030254364,
      "learning_rate": 0.00039650792257839784,
      "loss": 1.6896,
      "step": 35685
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4091967046260834,
      "learning_rate": 0.00039649802599601265,
      "loss": 1.5946,
      "step": 35686
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4251576364040375,
      "learning_rate": 0.000396488129296493,
      "loss": 1.6381,
      "step": 35687
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43618378043174744,
      "learning_rate": 0.0003964782324798511,
      "loss": 1.6291,
      "step": 35688
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4351627826690674,
      "learning_rate": 0.0003964683355460988,
      "loss": 1.6653,
      "step": 35689
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42343345284461975,
      "learning_rate": 0.000396458438495248,
      "loss": 1.6032,
      "step": 35690
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43871456384658813,
      "learning_rate": 0.0003964485413273111,
      "loss": 1.5796,
      "step": 35691
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4411560893058777,
      "learning_rate": 0.00039643864404229973,
      "loss": 1.6328,
      "step": 35692
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4374430477619171,
      "learning_rate": 0.0003964287466402261,
      "loss": 1.6443,
      "step": 35693
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45315736532211304,
      "learning_rate": 0.0003964188491211022,
      "loss": 1.6939,
      "step": 35694
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43485790491104126,
      "learning_rate": 0.00039640895148493994,
      "loss": 1.6166,
      "step": 35695
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44511792063713074,
      "learning_rate": 0.0003963990537317516,
      "loss": 1.6355,
      "step": 35696
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43098917603492737,
      "learning_rate": 0.0003963891558615488,
      "loss": 1.5875,
      "step": 35697
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41995227336883545,
      "learning_rate": 0.0003963792578743439,
      "loss": 1.567,
      "step": 35698
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44891950488090515,
      "learning_rate": 0.0003963693597701487,
      "loss": 1.6504,
      "step": 35699
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4382418990135193,
      "learning_rate": 0.00039635946154897535,
      "loss": 1.5964,
      "step": 35700
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43905121088027954,
      "learning_rate": 0.00039634956321083593,
      "loss": 1.6767,
      "step": 35701
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4557887315750122,
      "learning_rate": 0.00039633966475574204,
      "loss": 1.6226,
      "step": 35702
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44502902030944824,
      "learning_rate": 0.0003963297661837063,
      "loss": 1.7211,
      "step": 35703
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43043527007102966,
      "learning_rate": 0.0003963198674947402,
      "loss": 1.6798,
      "step": 35704
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4337209463119507,
      "learning_rate": 0.0003963099686888561,
      "loss": 1.6633,
      "step": 35705
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.441863477230072,
      "learning_rate": 0.0003963000697660658,
      "loss": 1.6547,
      "step": 35706
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4488617777824402,
      "learning_rate": 0.0003962901707263814,
      "loss": 1.6296,
      "step": 35707
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43721553683280945,
      "learning_rate": 0.0003962802715698151,
      "loss": 1.6039,
      "step": 35708
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43630146980285645,
      "learning_rate": 0.00039627037229637857,
      "loss": 1.7053,
      "step": 35709
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4292202293872833,
      "learning_rate": 0.000396260472906084,
      "loss": 1.6031,
      "step": 35710
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42169690132141113,
      "learning_rate": 0.0003962505733989434,
      "loss": 1.6816,
      "step": 35711
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4172438681125641,
      "learning_rate": 0.0003962406737749688,
      "loss": 1.6063,
      "step": 35712
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4172503650188446,
      "learning_rate": 0.00039623077403417217,
      "loss": 1.5884,
      "step": 35713
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4263184070587158,
      "learning_rate": 0.0003962208741765657,
      "loss": 1.5991,
      "step": 35714
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4204256534576416,
      "learning_rate": 0.0003962109742021611,
      "loss": 1.5714,
      "step": 35715
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45977282524108887,
      "learning_rate": 0.00039620107411097067,
      "loss": 1.7353,
      "step": 35716
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4222604036331177,
      "learning_rate": 0.00039619117390300626,
      "loss": 1.6047,
      "step": 35717
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4300401508808136,
      "learning_rate": 0.00039618127357827994,
      "loss": 1.6306,
      "step": 35718
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4261999726295471,
      "learning_rate": 0.00039617137313680375,
      "loss": 1.6044,
      "step": 35719
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44039249420166016,
      "learning_rate": 0.00039616147257858956,
      "loss": 1.6876,
      "step": 35720
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44159135222435,
      "learning_rate": 0.0003961515719036497,
      "loss": 1.6545,
      "step": 35721
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4341786503791809,
      "learning_rate": 0.0003961416711119958,
      "loss": 1.6044,
      "step": 35722
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43260127305984497,
      "learning_rate": 0.00039613177020364027,
      "loss": 1.6847,
      "step": 35723
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44261229038238525,
      "learning_rate": 0.0003961218691785948,
      "loss": 1.5973,
      "step": 35724
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4269603192806244,
      "learning_rate": 0.00039611196803687157,
      "loss": 1.6752,
      "step": 35725
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4232892692089081,
      "learning_rate": 0.00039610206677848266,
      "loss": 1.6736,
      "step": 35726
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.421783447265625,
      "learning_rate": 0.0003960921654034399,
      "loss": 1.6457,
      "step": 35727
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4138813614845276,
      "learning_rate": 0.0003960822639117555,
      "loss": 1.6132,
      "step": 35728
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4448927640914917,
      "learning_rate": 0.0003960723623034413,
      "loss": 1.6581,
      "step": 35729
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4396321475505829,
      "learning_rate": 0.00039606246057850944,
      "loss": 1.532,
      "step": 35730
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4251965284347534,
      "learning_rate": 0.0003960525587369719,
      "loss": 1.5234,
      "step": 35731
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4453125298023224,
      "learning_rate": 0.0003960426567788407,
      "loss": 1.5784,
      "step": 35732
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43743813037872314,
      "learning_rate": 0.00039603275470412796,
      "loss": 1.6247,
      "step": 35733
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4274604618549347,
      "learning_rate": 0.0003960228525128455,
      "loss": 1.5287,
      "step": 35734
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41657698154449463,
      "learning_rate": 0.0003960129502050055,
      "loss": 1.6132,
      "step": 35735
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43004223704338074,
      "learning_rate": 0.00039600304778061987,
      "loss": 1.6404,
      "step": 35736
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43375393748283386,
      "learning_rate": 0.00039599314523970067,
      "loss": 1.6487,
      "step": 35737
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42952844500541687,
      "learning_rate": 0.00039598324258226,
      "loss": 1.548,
      "step": 35738
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43610697984695435,
      "learning_rate": 0.00039597333980830984,
      "loss": 1.6472,
      "step": 35739
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4440547525882721,
      "learning_rate": 0.0003959634369178621,
      "loss": 1.5449,
      "step": 35740
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4221876859664917,
      "learning_rate": 0.0003959535339109289,
      "loss": 1.619,
      "step": 35741
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43387603759765625,
      "learning_rate": 0.0003959436307875223,
      "loss": 1.5895,
      "step": 35742
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4474260210990906,
      "learning_rate": 0.0003959337275476543,
      "loss": 1.6481,
      "step": 35743
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4164118766784668,
      "learning_rate": 0.00039592382419133677,
      "loss": 1.5919,
      "step": 35744
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4297817051410675,
      "learning_rate": 0.0003959139207185819,
      "loss": 1.6322,
      "step": 35745
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4349377453327179,
      "learning_rate": 0.0003959040171294017,
      "loss": 1.6062,
      "step": 35746
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4358680248260498,
      "learning_rate": 0.00039589411342380815,
      "loss": 1.5659,
      "step": 35747
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4566322863101959,
      "learning_rate": 0.0003958842096018133,
      "loss": 1.6074,
      "step": 35748
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4347084164619446,
      "learning_rate": 0.0003958743056634291,
      "loss": 1.6607,
      "step": 35749
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42329713702201843,
      "learning_rate": 0.0003958644016086676,
      "loss": 1.5712,
      "step": 35750
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.442228227853775,
      "learning_rate": 0.00039585449743754093,
      "loss": 1.6877,
      "step": 35751
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44528594613075256,
      "learning_rate": 0.0003958445931500609,
      "loss": 1.6075,
      "step": 35752
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4354383647441864,
      "learning_rate": 0.00039583468874623975,
      "loss": 1.5956,
      "step": 35753
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43986326456069946,
      "learning_rate": 0.00039582478422608936,
      "loss": 1.5877,
      "step": 35754
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4537946879863739,
      "learning_rate": 0.00039581487958962176,
      "loss": 1.6037,
      "step": 35755
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4202655851840973,
      "learning_rate": 0.00039580497483684914,
      "loss": 1.6308,
      "step": 35756
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42988964915275574,
      "learning_rate": 0.00039579506996778325,
      "loss": 1.6247,
      "step": 35757
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.46292340755462646,
      "learning_rate": 0.0003957851649824364,
      "loss": 1.6657,
      "step": 35758
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4400955140590668,
      "learning_rate": 0.0003957752598808204,
      "loss": 1.6521,
      "step": 35759
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41554564237594604,
      "learning_rate": 0.0003957653546629474,
      "loss": 1.5801,
      "step": 35760
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43889766931533813,
      "learning_rate": 0.00039575544932882927,
      "loss": 1.6857,
      "step": 35761
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4490724205970764,
      "learning_rate": 0.00039574554387847814,
      "loss": 1.634,
      "step": 35762
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43991807103157043,
      "learning_rate": 0.0003957356383119062,
      "loss": 1.7088,
      "step": 35763
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45601099729537964,
      "learning_rate": 0.0003957257326291251,
      "loss": 1.6736,
      "step": 35764
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45193174481391907,
      "learning_rate": 0.0003957158268301472,
      "loss": 1.542,
      "step": 35765
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.434867262840271,
      "learning_rate": 0.00039570592091498424,
      "loss": 1.6241,
      "step": 35766
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.444330096244812,
      "learning_rate": 0.00039569601488364853,
      "loss": 1.5527,
      "step": 35767
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4344722032546997,
      "learning_rate": 0.0003956861087361519,
      "loss": 1.621,
      "step": 35768
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4460982084274292,
      "learning_rate": 0.0003956762024725064,
      "loss": 1.6014,
      "step": 35769
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.437008798122406,
      "learning_rate": 0.00039566629609272415,
      "loss": 1.6272,
      "step": 35770
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44814637303352356,
      "learning_rate": 0.00039565638959681714,
      "loss": 1.6584,
      "step": 35771
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4452420473098755,
      "learning_rate": 0.0003956464829847974,
      "loss": 1.7197,
      "step": 35772
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4494992196559906,
      "learning_rate": 0.00039563657625667675,
      "loss": 1.6088,
      "step": 35773
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42952340841293335,
      "learning_rate": 0.00039562666941246746,
      "loss": 1.6155,
      "step": 35774
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4589763581752777,
      "learning_rate": 0.0003956167624521815,
      "loss": 1.6642,
      "step": 35775
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43513578176498413,
      "learning_rate": 0.000395606855375831,
      "loss": 1.5697,
      "step": 35776
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44826531410217285,
      "learning_rate": 0.0003955969481834276,
      "loss": 1.5663,
      "step": 35777
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4356457591056824,
      "learning_rate": 0.0003955870408749838,
      "loss": 1.6767,
      "step": 35778
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4317602813243866,
      "learning_rate": 0.00039557713345051137,
      "loss": 1.6306,
      "step": 35779
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4619085490703583,
      "learning_rate": 0.00039556722591002234,
      "loss": 1.6423,
      "step": 35780
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.5248159766197205,
      "learning_rate": 0.0003955573182535289,
      "loss": 1.6518,
      "step": 35781
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44109046459198,
      "learning_rate": 0.00039554741048104276,
      "loss": 1.6569,
      "step": 35782
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4392316937446594,
      "learning_rate": 0.0003955375025925763,
      "loss": 1.5951,
      "step": 35783
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4503844082355499,
      "learning_rate": 0.00039552759458814126,
      "loss": 1.626,
      "step": 35784
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44787612557411194,
      "learning_rate": 0.00039551768646774995,
      "loss": 1.6162,
      "step": 35785
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42478612065315247,
      "learning_rate": 0.0003955077782314141,
      "loss": 1.6202,
      "step": 35786
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4274023175239563,
      "learning_rate": 0.000395497869879146,
      "loss": 1.5761,
      "step": 35787
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4468878507614136,
      "learning_rate": 0.00039548796141095755,
      "loss": 1.6514,
      "step": 35788
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43637505173683167,
      "learning_rate": 0.00039547805282686067,
      "loss": 1.7021,
      "step": 35789
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44160160422325134,
      "learning_rate": 0.0003954681441268676,
      "loss": 1.6187,
      "step": 35790
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4463198781013489,
      "learning_rate": 0.00039545823531099026,
      "loss": 1.6947,
      "step": 35791
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41843003034591675,
      "learning_rate": 0.0003954483263792406,
      "loss": 1.5861,
      "step": 35792
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.439822256565094,
      "learning_rate": 0.0003954384173316308,
      "loss": 1.6571,
      "step": 35793
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4315548837184906,
      "learning_rate": 0.00039542850816817277,
      "loss": 1.6227,
      "step": 35794
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4386107325553894,
      "learning_rate": 0.00039541859888887873,
      "loss": 1.6481,
      "step": 35795
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4398840367794037,
      "learning_rate": 0.0003954086894937605,
      "loss": 1.6378,
      "step": 35796
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42842185497283936,
      "learning_rate": 0.00039539877998283015,
      "loss": 1.6341,
      "step": 35797
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4418012797832489,
      "learning_rate": 0.0003953888703560998,
      "loss": 1.6443,
      "step": 35798
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4253764748573303,
      "learning_rate": 0.0003953789606135813,
      "loss": 1.6084,
      "step": 35799
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4389258027076721,
      "learning_rate": 0.0003953690507552868,
      "loss": 1.5924,
      "step": 35800
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4311915934085846,
      "learning_rate": 0.00039535914078122844,
      "loss": 1.724,
      "step": 35801
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4222973585128784,
      "learning_rate": 0.0003953492306914181,
      "loss": 1.7003,
      "step": 35802
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4359321892261505,
      "learning_rate": 0.0003953393204858678,
      "loss": 1.6,
      "step": 35803
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42355120182037354,
      "learning_rate": 0.0003953294101645896,
      "loss": 1.5486,
      "step": 35804
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.428916871547699,
      "learning_rate": 0.0003953194997275956,
      "loss": 1.5939,
      "step": 35805
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43672266602516174,
      "learning_rate": 0.00039530958917489777,
      "loss": 1.6904,
      "step": 35806
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43898358941078186,
      "learning_rate": 0.0003952996785065081,
      "loss": 1.6698,
      "step": 35807
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4390624761581421,
      "learning_rate": 0.00039528976772243874,
      "loss": 1.7286,
      "step": 35808
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44483503699302673,
      "learning_rate": 0.00039527985682270156,
      "loss": 1.6892,
      "step": 35809
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4338497221469879,
      "learning_rate": 0.0003952699458073087,
      "loss": 1.6669,
      "step": 35810
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4262705147266388,
      "learning_rate": 0.0003952600346762722,
      "loss": 1.5825,
      "step": 35811
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.452742338180542,
      "learning_rate": 0.0003952501234296039,
      "loss": 1.6103,
      "step": 35812
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4343542754650116,
      "learning_rate": 0.00039524021206731617,
      "loss": 1.68,
      "step": 35813
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4455549120903015,
      "learning_rate": 0.00039523030058942075,
      "loss": 1.6911,
      "step": 35814
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44502612948417664,
      "learning_rate": 0.00039522038899592987,
      "loss": 1.6641,
      "step": 35815
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42467302083969116,
      "learning_rate": 0.0003952104772868554,
      "loss": 1.6169,
      "step": 35816
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4363609850406647,
      "learning_rate": 0.0003952005654622094,
      "loss": 1.621,
      "step": 35817
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43780049681663513,
      "learning_rate": 0.00039519065352200405,
      "loss": 1.6225,
      "step": 35818
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.47165870666503906,
      "learning_rate": 0.00039518074146625116,
      "loss": 1.5842,
      "step": 35819
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4325501322746277,
      "learning_rate": 0.00039517082929496297,
      "loss": 1.7002,
      "step": 35820
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4387187063694,
      "learning_rate": 0.00039516091700815136,
      "loss": 1.6232,
      "step": 35821
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4169624149799347,
      "learning_rate": 0.0003951510046058284,
      "loss": 1.6072,
      "step": 35822
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43764400482177734,
      "learning_rate": 0.00039514109208800617,
      "loss": 1.5409,
      "step": 35823
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4326417148113251,
      "learning_rate": 0.00039513117945469666,
      "loss": 1.5768,
      "step": 35824
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43087348341941833,
      "learning_rate": 0.0003951212667059119,
      "loss": 1.5764,
      "step": 35825
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42714595794677734,
      "learning_rate": 0.00039511135384166405,
      "loss": 1.6406,
      "step": 35826
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41945651173591614,
      "learning_rate": 0.00039510144086196496,
      "loss": 1.6471,
      "step": 35827
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4279853105545044,
      "learning_rate": 0.0003950915277668267,
      "loss": 1.6388,
      "step": 35828
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4353597164154053,
      "learning_rate": 0.00039508161455626133,
      "loss": 1.7153,
      "step": 35829
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43305981159210205,
      "learning_rate": 0.00039507170123028086,
      "loss": 1.6472,
      "step": 35830
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4264028072357178,
      "learning_rate": 0.0003950617877888975,
      "loss": 1.6238,
      "step": 35831
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43123921751976013,
      "learning_rate": 0.000395051874232123,
      "loss": 1.6007,
      "step": 35832
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.467803418636322,
      "learning_rate": 0.0003950419605599696,
      "loss": 1.627,
      "step": 35833
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44594812393188477,
      "learning_rate": 0.0003950320467724492,
      "loss": 1.6732,
      "step": 35834
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43464478850364685,
      "learning_rate": 0.00039502213286957393,
      "loss": 1.6431,
      "step": 35835
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45624402165412903,
      "learning_rate": 0.00039501221885135585,
      "loss": 1.6368,
      "step": 35836
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44119498133659363,
      "learning_rate": 0.00039500230471780685,
      "loss": 1.6375,
      "step": 35837
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4489246606826782,
      "learning_rate": 0.00039499239046893907,
      "loss": 1.633,
      "step": 35838
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44841885566711426,
      "learning_rate": 0.00039498247610476455,
      "loss": 1.6486,
      "step": 35839
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4604017436504364,
      "learning_rate": 0.0003949725616252953,
      "loss": 1.6558,
      "step": 35840
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.49445876479148865,
      "learning_rate": 0.0003949626470305433,
      "loss": 1.646,
      "step": 35841
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.433714896440506,
      "learning_rate": 0.0003949527323205207,
      "loss": 1.5866,
      "step": 35842
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4363855719566345,
      "learning_rate": 0.0003949428174952395,
      "loss": 1.639,
      "step": 35843
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43120044469833374,
      "learning_rate": 0.0003949329025547116,
      "loss": 1.677,
      "step": 35844
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42210653424263,
      "learning_rate": 0.0003949229874989493,
      "loss": 1.593,
      "step": 35845
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4361099302768707,
      "learning_rate": 0.00039491307232796436,
      "loss": 1.6256,
      "step": 35846
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.423816442489624,
      "learning_rate": 0.0003949031570417689,
      "loss": 1.6304,
      "step": 35847
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4333358108997345,
      "learning_rate": 0.00039489324164037503,
      "loss": 1.6066,
      "step": 35848
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4348698556423187,
      "learning_rate": 0.00039488332612379475,
      "loss": 1.6383,
      "step": 35849
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43993765115737915,
      "learning_rate": 0.0003948734104920402,
      "loss": 1.7319,
      "step": 35850
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4219745099544525,
      "learning_rate": 0.0003948634947451232,
      "loss": 1.6146,
      "step": 35851
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43764564394950867,
      "learning_rate": 0.0003948535788830559,
      "loss": 1.5817,
      "step": 35852
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43094441294670105,
      "learning_rate": 0.00039484366290585036,
      "loss": 1.5864,
      "step": 35853
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4434064030647278,
      "learning_rate": 0.0003948337468135185,
      "loss": 1.6161,
      "step": 35854
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43589335680007935,
      "learning_rate": 0.0003948238306060725,
      "loss": 1.6618,
      "step": 35855
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44003796577453613,
      "learning_rate": 0.0003948139142835244,
      "loss": 1.6546,
      "step": 35856
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44210904836654663,
      "learning_rate": 0.0003948039978458862,
      "loss": 1.5342,
      "step": 35857
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43533340096473694,
      "learning_rate": 0.0003947940812931698,
      "loss": 1.6756,
      "step": 35858
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43287622928619385,
      "learning_rate": 0.0003947841646253874,
      "loss": 1.6373,
      "step": 35859
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44204553961753845,
      "learning_rate": 0.000394774247842551,
      "loss": 1.6114,
      "step": 35860
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42998582124710083,
      "learning_rate": 0.0003947643309446727,
      "loss": 1.6875,
      "step": 35861
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4367641806602478,
      "learning_rate": 0.0003947544139317643,
      "loss": 1.5936,
      "step": 35862
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45523786544799805,
      "learning_rate": 0.0003947444968038381,
      "loss": 1.6646,
      "step": 35863
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43456345796585083,
      "learning_rate": 0.00039473457956090604,
      "loss": 1.5935,
      "step": 35864
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4230593144893646,
      "learning_rate": 0.0003947246622029801,
      "loss": 1.5904,
      "step": 35865
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4375099241733551,
      "learning_rate": 0.0003947147447300724,
      "loss": 1.6304,
      "step": 35866
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4555858373641968,
      "learning_rate": 0.000394704827142195,
      "loss": 1.6459,
      "step": 35867
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44021323323249817,
      "learning_rate": 0.00039469490943936,
      "loss": 1.6224,
      "step": 35868
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4384804666042328,
      "learning_rate": 0.0003946849916215791,
      "loss": 1.6694,
      "step": 35869
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45004868507385254,
      "learning_rate": 0.00039467507368886473,
      "loss": 1.6391,
      "step": 35870
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4466547667980194,
      "learning_rate": 0.0003946651556412287,
      "loss": 1.6641,
      "step": 35871
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.7996076941490173,
      "learning_rate": 0.00039465523747868314,
      "loss": 1.6796,
      "step": 35872
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45023593306541443,
      "learning_rate": 0.0003946453192012401,
      "loss": 1.5861,
      "step": 35873
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4401584267616272,
      "learning_rate": 0.0003946354008089115,
      "loss": 1.6862,
      "step": 35874
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4531680643558502,
      "learning_rate": 0.00039462548230170954,
      "loss": 1.5664,
      "step": 35875
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42695218324661255,
      "learning_rate": 0.0003946155636796461,
      "loss": 1.632,
      "step": 35876
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4422641396522522,
      "learning_rate": 0.00039460564494273346,
      "loss": 1.6267,
      "step": 35877
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4366028606891632,
      "learning_rate": 0.00039459572609098337,
      "loss": 1.6319,
      "step": 35878
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4400881230831146,
      "learning_rate": 0.0003945858071244081,
      "loss": 1.6496,
      "step": 35879
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44725340604782104,
      "learning_rate": 0.0003945758880430196,
      "loss": 1.6764,
      "step": 35880
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4506917893886566,
      "learning_rate": 0.00039456596884682974,
      "loss": 1.6229,
      "step": 35881
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.432736873626709,
      "learning_rate": 0.00039455604953585096,
      "loss": 1.5724,
      "step": 35882
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44288092851638794,
      "learning_rate": 0.00039454613011009497,
      "loss": 1.6911,
      "step": 35883
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4319107234477997,
      "learning_rate": 0.00039453621056957384,
      "loss": 1.6336,
      "step": 35884
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4200436770915985,
      "learning_rate": 0.0003945262909142997,
      "loss": 1.7021,
      "step": 35885
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4315136671066284,
      "learning_rate": 0.0003945163711442846,
      "loss": 1.5969,
      "step": 35886
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43449074029922485,
      "learning_rate": 0.0003945064512595405,
      "loss": 1.5837,
      "step": 35887
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43930259346961975,
      "learning_rate": 0.00039449653126007964,
      "loss": 1.6352,
      "step": 35888
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43055298924446106,
      "learning_rate": 0.00039448661114591387,
      "loss": 1.6543,
      "step": 35889
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43615713715553284,
      "learning_rate": 0.0003944766909170552,
      "loss": 1.6327,
      "step": 35890
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44627246260643005,
      "learning_rate": 0.0003944667705735158,
      "loss": 1.6746,
      "step": 35891
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43202489614486694,
      "learning_rate": 0.00039445685011530764,
      "loss": 1.5933,
      "step": 35892
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4150448739528656,
      "learning_rate": 0.00039444692954244276,
      "loss": 1.5439,
      "step": 35893
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44227567315101624,
      "learning_rate": 0.0003944370088549332,
      "loss": 1.6459,
      "step": 35894
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44153815507888794,
      "learning_rate": 0.0003944270880527911,
      "loss": 1.6477,
      "step": 35895
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4460720121860504,
      "learning_rate": 0.0003944171671360284,
      "loss": 1.6277,
      "step": 35896
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4213263988494873,
      "learning_rate": 0.0003944072461046572,
      "loss": 1.6227,
      "step": 35897
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.46709972620010376,
      "learning_rate": 0.0003943973249586895,
      "loss": 1.6481,
      "step": 35898
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4425279498100281,
      "learning_rate": 0.00039438740369813726,
      "loss": 1.6773,
      "step": 35899
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4283226728439331,
      "learning_rate": 0.00039437748232301276,
      "loss": 1.6716,
      "step": 35900
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4536225199699402,
      "learning_rate": 0.00039436756083332776,
      "loss": 1.6142,
      "step": 35901
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42445969581604004,
      "learning_rate": 0.0003943576392290946,
      "loss": 1.6217,
      "step": 35902
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.44508177042007446,
      "learning_rate": 0.00039434771751032505,
      "loss": 1.5885,
      "step": 35903
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45044663548469543,
      "learning_rate": 0.00039433779567703134,
      "loss": 1.6125,
      "step": 35904
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4492049217224121,
      "learning_rate": 0.00039432787372922545,
      "loss": 1.7264,
      "step": 35905
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43684330582618713,
      "learning_rate": 0.00039431795166691935,
      "loss": 1.7058,
      "step": 35906
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4500761330127716,
      "learning_rate": 0.00039430802949012525,
      "loss": 1.6705,
      "step": 35907
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.46535518765449524,
      "learning_rate": 0.000394298107198855,
      "loss": 1.6153,
      "step": 35908
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45606252551078796,
      "learning_rate": 0.0003942881847931208,
      "loss": 1.7106,
      "step": 35909
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.432794988155365,
      "learning_rate": 0.0003942782622729346,
      "loss": 1.6268,
      "step": 35910
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.448001503944397,
      "learning_rate": 0.0003942683396383085,
      "loss": 1.6464,
      "step": 35911
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45040830969810486,
      "learning_rate": 0.00039425841688925454,
      "loss": 1.6661,
      "step": 35912
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4773329794406891,
      "learning_rate": 0.0003942484940257848,
      "loss": 1.6574,
      "step": 35913
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.43956315517425537,
      "learning_rate": 0.0003942385710479112,
      "loss": 1.6892,
      "step": 35914
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.42929890751838684,
      "learning_rate": 0.00039422864795564584,
      "loss": 1.6844,
      "step": 35915
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.45193466544151306,
      "learning_rate": 0.0003942187247490008,
      "loss": 1.6836,
      "step": 35916
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4440872073173523,
      "learning_rate": 0.00039420880142798816,
      "loss": 1.6063,
      "step": 35917
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.4260046184062958,
      "learning_rate": 0.0003941988779926199,
      "loss": 1.5949,
      "step": 35918
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4192691445350647,
      "learning_rate": 0.0003941889544429081,
      "loss": 1.5926,
      "step": 35919
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42492759227752686,
      "learning_rate": 0.0003941790307788647,
      "loss": 1.6459,
      "step": 35920
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45189526677131653,
      "learning_rate": 0.0003941691070005019,
      "loss": 1.6341,
      "step": 35921
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43381065130233765,
      "learning_rate": 0.0003941591831078317,
      "loss": 1.5556,
      "step": 35922
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43317440152168274,
      "learning_rate": 0.00039414925910086614,
      "loss": 1.6489,
      "step": 35923
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42617759108543396,
      "learning_rate": 0.00039413933497961707,
      "loss": 1.6582,
      "step": 35924
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42146772146224976,
      "learning_rate": 0.00039412941074409694,
      "loss": 1.6055,
      "step": 35925
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43898850679397583,
      "learning_rate": 0.00039411948639431747,
      "loss": 1.6439,
      "step": 35926
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4441709518432617,
      "learning_rate": 0.00039410956193029084,
      "loss": 1.591,
      "step": 35927
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4485548436641693,
      "learning_rate": 0.00039409963735202914,
      "loss": 1.6383,
      "step": 35928
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45074132084846497,
      "learning_rate": 0.00039408971265954414,
      "loss": 1.6005,
      "step": 35929
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.41523098945617676,
      "learning_rate": 0.00039407978785284826,
      "loss": 1.6479,
      "step": 35930
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43392878770828247,
      "learning_rate": 0.0003940698629319533,
      "loss": 1.6852,
      "step": 35931
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.445508748292923,
      "learning_rate": 0.0003940599378968715,
      "loss": 1.6036,
      "step": 35932
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44411394000053406,
      "learning_rate": 0.0003940500127476146,
      "loss": 1.7045,
      "step": 35933
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4372166395187378,
      "learning_rate": 0.00039404008748419503,
      "loss": 1.5919,
      "step": 35934
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4520582854747772,
      "learning_rate": 0.0003940301621066246,
      "loss": 1.7591,
      "step": 35935
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4335835874080658,
      "learning_rate": 0.00039402023661491535,
      "loss": 1.6341,
      "step": 35936
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4382719099521637,
      "learning_rate": 0.00039401031100907947,
      "loss": 1.5773,
      "step": 35937
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44039320945739746,
      "learning_rate": 0.00039400038528912887,
      "loss": 1.6054,
      "step": 35938
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4451720118522644,
      "learning_rate": 0.00039399045945507564,
      "loss": 1.6743,
      "step": 35939
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4446345865726471,
      "learning_rate": 0.0003939805335069318,
      "loss": 1.5806,
      "step": 35940
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44612786173820496,
      "learning_rate": 0.00039397060744470955,
      "loss": 1.684,
      "step": 35941
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43492385745048523,
      "learning_rate": 0.00039396068126842075,
      "loss": 1.5753,
      "step": 35942
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.428728312253952,
      "learning_rate": 0.0003939507549780776,
      "loss": 1.5501,
      "step": 35943
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43489837646484375,
      "learning_rate": 0.0003939408285736921,
      "loss": 1.6204,
      "step": 35944
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4391925036907196,
      "learning_rate": 0.00039393090205527614,
      "loss": 1.6047,
      "step": 35945
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44069868326187134,
      "learning_rate": 0.00039392097542284197,
      "loss": 1.6549,
      "step": 35946
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4432232975959778,
      "learning_rate": 0.00039391104867640155,
      "loss": 1.6919,
      "step": 35947
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4385000169277191,
      "learning_rate": 0.0003939011218159671,
      "loss": 1.6369,
      "step": 35948
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4316974878311157,
      "learning_rate": 0.00039389119484155023,
      "loss": 1.6414,
      "step": 35949
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43503236770629883,
      "learning_rate": 0.0003938812677531635,
      "loss": 1.7049,
      "step": 35950
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4445217251777649,
      "learning_rate": 0.0003938713405508188,
      "loss": 1.6295,
      "step": 35951
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4142046570777893,
      "learning_rate": 0.00039386141323452794,
      "loss": 1.6959,
      "step": 35952
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4325723350048065,
      "learning_rate": 0.0003938514858043033,
      "loss": 1.6255,
      "step": 35953
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43481138348579407,
      "learning_rate": 0.00039384155826015666,
      "loss": 1.6867,
      "step": 35954
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42100465297698975,
      "learning_rate": 0.0003938316306021003,
      "loss": 1.6379,
      "step": 35955
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4340994656085968,
      "learning_rate": 0.0003938217028301461,
      "loss": 1.5929,
      "step": 35956
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43491196632385254,
      "learning_rate": 0.00039381177494430625,
      "loss": 1.6581,
      "step": 35957
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.421102374792099,
      "learning_rate": 0.00039380184694459263,
      "loss": 1.6271,
      "step": 35958
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4354582130908966,
      "learning_rate": 0.00039379191883101745,
      "loss": 1.6082,
      "step": 35959
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44812342524528503,
      "learning_rate": 0.0003937819906035928,
      "loss": 1.5663,
      "step": 35960
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4134645164012909,
      "learning_rate": 0.0003937720622623304,
      "loss": 1.571,
      "step": 35961
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4201525151729584,
      "learning_rate": 0.0003937621338072427,
      "loss": 1.6055,
      "step": 35962
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4261673390865326,
      "learning_rate": 0.0003937522052383415,
      "loss": 1.5635,
      "step": 35963
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4314175248146057,
      "learning_rate": 0.00039374227655563894,
      "loss": 1.6912,
      "step": 35964
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43065544962882996,
      "learning_rate": 0.0003937323477591472,
      "loss": 1.6289,
      "step": 35965
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.434128075838089,
      "learning_rate": 0.00039372241884887805,
      "loss": 1.6265,
      "step": 35966
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44035592675209045,
      "learning_rate": 0.0003937124898248438,
      "loss": 1.68,
      "step": 35967
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.437492698431015,
      "learning_rate": 0.0003937025606870563,
      "loss": 1.5632,
      "step": 35968
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.435915470123291,
      "learning_rate": 0.0003936926314355278,
      "loss": 1.5093,
      "step": 35969
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4482114017009735,
      "learning_rate": 0.0003936827020702701,
      "loss": 1.7001,
      "step": 35970
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.41459617018699646,
      "learning_rate": 0.00039367277259129554,
      "loss": 1.594,
      "step": 35971
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44785428047180176,
      "learning_rate": 0.000393662842998616,
      "loss": 1.6426,
      "step": 35972
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44227108359336853,
      "learning_rate": 0.00039365291329224357,
      "loss": 1.6122,
      "step": 35973
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4196135699748993,
      "learning_rate": 0.0003936429834721903,
      "loss": 1.6031,
      "step": 35974
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42070311307907104,
      "learning_rate": 0.0003936330535384682,
      "loss": 1.5822,
      "step": 35975
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4179244935512543,
      "learning_rate": 0.00039362312349108943,
      "loss": 1.6739,
      "step": 35976
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44835275411605835,
      "learning_rate": 0.00039361319333006595,
      "loss": 1.647,
      "step": 35977
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4563657343387604,
      "learning_rate": 0.00039360326305540994,
      "loss": 1.7056,
      "step": 35978
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4406786561012268,
      "learning_rate": 0.0003935933326671332,
      "loss": 1.5955,
      "step": 35979
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42671334743499756,
      "learning_rate": 0.000393583402165248,
      "loss": 1.5988,
      "step": 35980
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4334794878959656,
      "learning_rate": 0.0003935734715497664,
      "loss": 1.6484,
      "step": 35981
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44204768538475037,
      "learning_rate": 0.0003935635408207003,
      "loss": 1.6605,
      "step": 35982
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4447372853755951,
      "learning_rate": 0.000393553609978062,
      "loss": 1.6165,
      "step": 35983
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43670690059661865,
      "learning_rate": 0.0003935436790218632,
      "loss": 1.6428,
      "step": 35984
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4516523480415344,
      "learning_rate": 0.0003935337479521163,
      "loss": 1.5797,
      "step": 35985
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42282572388648987,
      "learning_rate": 0.00039352381676883313,
      "loss": 1.6575,
      "step": 35986
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4362325668334961,
      "learning_rate": 0.0003935138854720259,
      "loss": 1.6302,
      "step": 35987
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4202079474925995,
      "learning_rate": 0.0003935039540617066,
      "loss": 1.5909,
      "step": 35988
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43162015080451965,
      "learning_rate": 0.0003934940225378872,
      "loss": 1.5654,
      "step": 35989
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42339590191841125,
      "learning_rate": 0.00039348409090057997,
      "loss": 1.6224,
      "step": 35990
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43359121680259705,
      "learning_rate": 0.0003934741591497966,
      "loss": 1.7295,
      "step": 35991
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4508839249610901,
      "learning_rate": 0.00039346422728554954,
      "loss": 1.579,
      "step": 35992
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4349084198474884,
      "learning_rate": 0.0003934542953078506,
      "loss": 1.5833,
      "step": 35993
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43726158142089844,
      "learning_rate": 0.000393444363216712,
      "loss": 1.6743,
      "step": 35994
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4222441613674164,
      "learning_rate": 0.0003934344310121456,
      "loss": 1.6494,
      "step": 35995
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4366324841976166,
      "learning_rate": 0.0003934244986941637,
      "loss": 1.6395,
      "step": 35996
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44133034348487854,
      "learning_rate": 0.0003934145662627781,
      "loss": 1.6725,
      "step": 35997
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4235653281211853,
      "learning_rate": 0.00039340463371800107,
      "loss": 1.6795,
      "step": 35998
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4185769855976105,
      "learning_rate": 0.00039339470105984454,
      "loss": 1.5784,
      "step": 35999
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.433421790599823,
      "learning_rate": 0.00039338476828832064,
      "loss": 1.5883,
      "step": 36000
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43967685103416443,
      "learning_rate": 0.00039337483540344135,
      "loss": 1.6224,
      "step": 36001
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42697304487228394,
      "learning_rate": 0.0003933649024052188,
      "loss": 1.6535,
      "step": 36002
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43823015689849854,
      "learning_rate": 0.000393354969293665,
      "loss": 1.6149,
      "step": 36003
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43179431557655334,
      "learning_rate": 0.0003933450360687919,
      "loss": 1.6764,
      "step": 36004
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42156144976615906,
      "learning_rate": 0.0003933351027306119,
      "loss": 1.6253,
      "step": 36005
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4267998933792114,
      "learning_rate": 0.0003933251692791367,
      "loss": 1.6896,
      "step": 36006
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4509942829608917,
      "learning_rate": 0.00039331523571437856,
      "loss": 1.6423,
      "step": 36007
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4335139989852905,
      "learning_rate": 0.00039330530203634937,
      "loss": 1.7311,
      "step": 36008
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.2829794883728027,
      "learning_rate": 0.00039329536824506145,
      "loss": 1.7324,
      "step": 36009
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4525653123855591,
      "learning_rate": 0.0003932854343405266,
      "loss": 1.624,
      "step": 36010
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44313520193099976,
      "learning_rate": 0.0003932755003227569,
      "loss": 1.5805,
      "step": 36011
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42089205980300903,
      "learning_rate": 0.00039326556619176465,
      "loss": 1.603,
      "step": 36012
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4322879910469055,
      "learning_rate": 0.0003932556319475617,
      "loss": 1.6074,
      "step": 36013
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4435478448867798,
      "learning_rate": 0.0003932456975901601,
      "loss": 1.6206,
      "step": 36014
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42885276675224304,
      "learning_rate": 0.000393235763119572,
      "loss": 1.6351,
      "step": 36015
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4292182922363281,
      "learning_rate": 0.00039322582853580933,
      "loss": 1.6176,
      "step": 36016
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44453299045562744,
      "learning_rate": 0.00039321589383888435,
      "loss": 1.6238,
      "step": 36017
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4546099901199341,
      "learning_rate": 0.00039320595902880894,
      "loss": 1.6078,
      "step": 36018
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43904387950897217,
      "learning_rate": 0.0003931960241055953,
      "loss": 1.6722,
      "step": 36019
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4316135048866272,
      "learning_rate": 0.00039318608906925535,
      "loss": 1.6106,
      "step": 36020
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43567222356796265,
      "learning_rate": 0.0003931761539198013,
      "loss": 1.6522,
      "step": 36021
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4271508753299713,
      "learning_rate": 0.0003931662186572451,
      "loss": 1.5916,
      "step": 36022
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4367382824420929,
      "learning_rate": 0.0003931562832815988,
      "loss": 1.618,
      "step": 36023
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44384828209877014,
      "learning_rate": 0.0003931463477928745,
      "loss": 1.6609,
      "step": 36024
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4215357303619385,
      "learning_rate": 0.00039313641219108425,
      "loss": 1.6288,
      "step": 36025
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43745455145835876,
      "learning_rate": 0.0003931264764762402,
      "loss": 1.6344,
      "step": 36026
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43876156210899353,
      "learning_rate": 0.0003931165406483542,
      "loss": 1.6982,
      "step": 36027
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.47038406133651733,
      "learning_rate": 0.00039310660470743853,
      "loss": 1.6375,
      "step": 36028
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4368208646774292,
      "learning_rate": 0.00039309666865350524,
      "loss": 1.6353,
      "step": 36029
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43899571895599365,
      "learning_rate": 0.0003930867324865662,
      "loss": 1.6188,
      "step": 36030
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4372335374355316,
      "learning_rate": 0.00039307679620663357,
      "loss": 1.6556,
      "step": 36031
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4436868727207184,
      "learning_rate": 0.00039306685981371943,
      "loss": 1.6039,
      "step": 36032
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44411662220954895,
      "learning_rate": 0.00039305692330783587,
      "loss": 1.6567,
      "step": 36033
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44081270694732666,
      "learning_rate": 0.00039304698668899486,
      "loss": 1.6095,
      "step": 36034
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.46354347467422485,
      "learning_rate": 0.0003930370499572086,
      "loss": 1.7114,
      "step": 36035
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44598013162612915,
      "learning_rate": 0.00039302711311248905,
      "loss": 1.6335,
      "step": 36036
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4439164698123932,
      "learning_rate": 0.00039301717615484826,
      "loss": 1.6221,
      "step": 36037
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.426677942276001,
      "learning_rate": 0.0003930072390842983,
      "loss": 1.5718,
      "step": 36038
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42680490016937256,
      "learning_rate": 0.00039299730190085134,
      "loss": 1.6465,
      "step": 36039
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43934547901153564,
      "learning_rate": 0.00039298736460451934,
      "loss": 1.6057,
      "step": 36040
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.431161493062973,
      "learning_rate": 0.0003929774271953143,
      "loss": 1.6674,
      "step": 36041
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4360659122467041,
      "learning_rate": 0.00039296748967324844,
      "loss": 1.6977,
      "step": 36042
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42375582456588745,
      "learning_rate": 0.0003929575520383337,
      "loss": 1.6256,
      "step": 36043
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43911996483802795,
      "learning_rate": 0.00039294761429058215,
      "loss": 1.5901,
      "step": 36044
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45430469512939453,
      "learning_rate": 0.000392937676430006,
      "loss": 1.6202,
      "step": 36045
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45526280999183655,
      "learning_rate": 0.0003929277384566171,
      "loss": 1.6204,
      "step": 36046
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4494197964668274,
      "learning_rate": 0.00039291780037042776,
      "loss": 1.6756,
      "step": 36047
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43500903248786926,
      "learning_rate": 0.00039290786217144975,
      "loss": 1.556,
      "step": 36048
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45743924379348755,
      "learning_rate": 0.00039289792385969536,
      "loss": 1.6414,
      "step": 36049
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4498070478439331,
      "learning_rate": 0.00039288798543517657,
      "loss": 1.6293,
      "step": 36050
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43538549542427063,
      "learning_rate": 0.0003928780468979054,
      "loss": 1.6357,
      "step": 36051
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43561264872550964,
      "learning_rate": 0.0003928681082478941,
      "loss": 1.6044,
      "step": 36052
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4308531582355499,
      "learning_rate": 0.0003928581694851544,
      "loss": 1.6007,
      "step": 36053
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4336143136024475,
      "learning_rate": 0.00039284823060969877,
      "loss": 1.5787,
      "step": 36054
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.431159645318985,
      "learning_rate": 0.000392838291621539,
      "loss": 1.6284,
      "step": 36055
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4274003207683563,
      "learning_rate": 0.0003928283525206872,
      "loss": 1.5972,
      "step": 36056
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4252071976661682,
      "learning_rate": 0.00039281841330715545,
      "loss": 1.5923,
      "step": 36057
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4191252589225769,
      "learning_rate": 0.00039280847398095575,
      "loss": 1.5909,
      "step": 36058
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4364522099494934,
      "learning_rate": 0.0003927985345421003,
      "loss": 1.6391,
      "step": 36059
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4338762164115906,
      "learning_rate": 0.0003927885949906012,
      "loss": 1.638,
      "step": 36060
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44561898708343506,
      "learning_rate": 0.0003927786553264704,
      "loss": 1.5203,
      "step": 36061
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42167696356773376,
      "learning_rate": 0.0003927687155497198,
      "loss": 1.6125,
      "step": 36062
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4377155005931854,
      "learning_rate": 0.0003927587756603618,
      "loss": 1.6056,
      "step": 36063
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43274903297424316,
      "learning_rate": 0.00039274883565840825,
      "loss": 1.5927,
      "step": 36064
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4364475607872009,
      "learning_rate": 0.0003927388955438714,
      "loss": 1.6083,
      "step": 36065
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4434746503829956,
      "learning_rate": 0.00039272895531676294,
      "loss": 1.7086,
      "step": 36066
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42895233631134033,
      "learning_rate": 0.00039271901497709544,
      "loss": 1.6583,
      "step": 36067
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4345901608467102,
      "learning_rate": 0.00039270907452488066,
      "loss": 1.6825,
      "step": 36068
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4204586446285248,
      "learning_rate": 0.0003926991339601307,
      "loss": 1.6901,
      "step": 36069
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4293624758720398,
      "learning_rate": 0.00039268919328285765,
      "loss": 1.6897,
      "step": 36070
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4328450858592987,
      "learning_rate": 0.00039267925249307354,
      "loss": 1.6482,
      "step": 36071
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42001253366470337,
      "learning_rate": 0.00039266931159079055,
      "loss": 1.6381,
      "step": 36072
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4422245919704437,
      "learning_rate": 0.00039265937057602056,
      "loss": 1.6819,
      "step": 36073
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43880540132522583,
      "learning_rate": 0.0003926494294487758,
      "loss": 1.7464,
      "step": 36074
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4422883689403534,
      "learning_rate": 0.0003926394882090683,
      "loss": 1.6709,
      "step": 36075
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43832120299339294,
      "learning_rate": 0.0003926295468569101,
      "loss": 1.6427,
      "step": 36076
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44013160467147827,
      "learning_rate": 0.00039261960539231335,
      "loss": 1.6361,
      "step": 36077
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4307098984718323,
      "learning_rate": 0.00039260966381528994,
      "loss": 1.5576,
      "step": 36078
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.46163055300712585,
      "learning_rate": 0.00039259972212585216,
      "loss": 1.653,
      "step": 36079
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44707155227661133,
      "learning_rate": 0.0003925897803240119,
      "loss": 1.667,
      "step": 36080
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4282040297985077,
      "learning_rate": 0.0003925798384097812,
      "loss": 1.6423,
      "step": 36081
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.41979891061782837,
      "learning_rate": 0.00039256989638317233,
      "loss": 1.67,
      "step": 36082
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4424271583557129,
      "learning_rate": 0.0003925599542441972,
      "loss": 1.5964,
      "step": 36083
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4545578956604004,
      "learning_rate": 0.000392550011992868,
      "loss": 1.6305,
      "step": 36084
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.41829487681388855,
      "learning_rate": 0.0003925400696291966,
      "loss": 1.642,
      "step": 36085
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4251837730407715,
      "learning_rate": 0.0003925301271531953,
      "loss": 1.6681,
      "step": 36086
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42230597138404846,
      "learning_rate": 0.00039252018456487596,
      "loss": 1.6565,
      "step": 36087
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44266846776008606,
      "learning_rate": 0.00039251024186425074,
      "loss": 1.6303,
      "step": 36088
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43002769351005554,
      "learning_rate": 0.0003925002990513317,
      "loss": 1.6001,
      "step": 36089
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4550256133079529,
      "learning_rate": 0.0003924903561261311,
      "loss": 1.6777,
      "step": 36090
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42534762620925903,
      "learning_rate": 0.0003924804130886608,
      "loss": 1.6726,
      "step": 36091
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.412515252828598,
      "learning_rate": 0.00039247046993893283,
      "loss": 1.6245,
      "step": 36092
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4268262982368469,
      "learning_rate": 0.0003924605266769593,
      "loss": 1.579,
      "step": 36093
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4378945529460907,
      "learning_rate": 0.0003924505833027523,
      "loss": 1.6578,
      "step": 36094
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4941500127315521,
      "learning_rate": 0.00039244063981632403,
      "loss": 1.7223,
      "step": 36095
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44416165351867676,
      "learning_rate": 0.0003924306962176863,
      "loss": 1.6702,
      "step": 36096
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45320963859558105,
      "learning_rate": 0.00039242075250685147,
      "loss": 1.6177,
      "step": 36097
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43221762776374817,
      "learning_rate": 0.0003924108086838314,
      "loss": 1.5423,
      "step": 36098
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.6189377903938293,
      "learning_rate": 0.0003924008647486382,
      "loss": 1.7347,
      "step": 36099
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4318256080150604,
      "learning_rate": 0.00039239092070128404,
      "loss": 1.6819,
      "step": 36100
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4142748713493347,
      "learning_rate": 0.0003923809765417808,
      "loss": 1.6167,
      "step": 36101
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4310796856880188,
      "learning_rate": 0.0003923710322701408,
      "loss": 1.6972,
      "step": 36102
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4381079077720642,
      "learning_rate": 0.00039236108788637584,
      "loss": 1.6018,
      "step": 36103
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4525921046733856,
      "learning_rate": 0.00039235114339049824,
      "loss": 1.6577,
      "step": 36104
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4204888939857483,
      "learning_rate": 0.0003923411987825199,
      "loss": 1.5762,
      "step": 36105
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4296497702598572,
      "learning_rate": 0.00039233125406245293,
      "loss": 1.6584,
      "step": 36106
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4555180072784424,
      "learning_rate": 0.00039232130923030954,
      "loss": 1.5753,
      "step": 36107
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44024741649627686,
      "learning_rate": 0.00039231136428610156,
      "loss": 1.5992,
      "step": 36108
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43342211842536926,
      "learning_rate": 0.00039230141922984123,
      "loss": 1.581,
      "step": 36109
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42995575070381165,
      "learning_rate": 0.00039229147406154047,
      "loss": 1.603,
      "step": 36110
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43764349818229675,
      "learning_rate": 0.0003922815287812117,
      "loss": 1.6313,
      "step": 36111
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42203477025032043,
      "learning_rate": 0.00039227158338886654,
      "loss": 1.6487,
      "step": 36112
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42691999673843384,
      "learning_rate": 0.0003922616378845173,
      "loss": 1.6333,
      "step": 36113
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43287378549575806,
      "learning_rate": 0.00039225169226817614,
      "loss": 1.6293,
      "step": 36114
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4423670172691345,
      "learning_rate": 0.00039224174653985493,
      "loss": 1.6091,
      "step": 36115
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.436186820268631,
      "learning_rate": 0.00039223180069956583,
      "loss": 1.7298,
      "step": 36116
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43644648790359497,
      "learning_rate": 0.000392221854747321,
      "loss": 1.6964,
      "step": 36117
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4348970949649811,
      "learning_rate": 0.0003922119086831323,
      "loss": 1.6252,
      "step": 36118
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4335222840309143,
      "learning_rate": 0.00039220196250701203,
      "loss": 1.5982,
      "step": 36119
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.436428427696228,
      "learning_rate": 0.0003921920162189721,
      "loss": 1.5384,
      "step": 36120
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43487298488616943,
      "learning_rate": 0.0003921820698190247,
      "loss": 1.6752,
      "step": 36121
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44135782122612,
      "learning_rate": 0.00039217212330718183,
      "loss": 1.5991,
      "step": 36122
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4456208348274231,
      "learning_rate": 0.00039216217668345556,
      "loss": 1.6155,
      "step": 36123
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4434897005558014,
      "learning_rate": 0.00039215222994785795,
      "loss": 1.6367,
      "step": 36124
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43488213419914246,
      "learning_rate": 0.0003921422831004012,
      "loss": 1.6243,
      "step": 36125
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4576007127761841,
      "learning_rate": 0.0003921323361410972,
      "loss": 1.5842,
      "step": 36126
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44508597254753113,
      "learning_rate": 0.0003921223890699583,
      "loss": 1.6779,
      "step": 36127
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4356139004230499,
      "learning_rate": 0.00039211244188699614,
      "loss": 1.5399,
      "step": 36128
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.427066832780838,
      "learning_rate": 0.00039210249459222326,
      "loss": 1.6325,
      "step": 36129
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4234248101711273,
      "learning_rate": 0.0003920925471856514,
      "loss": 1.6052,
      "step": 36130
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45093509554862976,
      "learning_rate": 0.00039208259966729285,
      "loss": 1.6252,
      "step": 36131
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43078941106796265,
      "learning_rate": 0.00039207265203715955,
      "loss": 1.6254,
      "step": 36132
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42103660106658936,
      "learning_rate": 0.00039206270429526354,
      "loss": 1.5987,
      "step": 36133
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43871214985847473,
      "learning_rate": 0.00039205275644161713,
      "loss": 1.6478,
      "step": 36134
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43767687678337097,
      "learning_rate": 0.000392042808476232,
      "loss": 1.6351,
      "step": 36135
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4232921898365021,
      "learning_rate": 0.00039203286039912066,
      "loss": 1.6246,
      "step": 36136
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44691526889801025,
      "learning_rate": 0.00039202291221029494,
      "loss": 1.6504,
      "step": 36137
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4500190019607544,
      "learning_rate": 0.00039201296390976696,
      "loss": 1.6422,
      "step": 36138
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43103572726249695,
      "learning_rate": 0.0003920030154975488,
      "loss": 1.5959,
      "step": 36139
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4485601782798767,
      "learning_rate": 0.00039199306697365247,
      "loss": 1.6259,
      "step": 36140
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4393496513366699,
      "learning_rate": 0.00039198311833809024,
      "loss": 1.5747,
      "step": 36141
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4280189275741577,
      "learning_rate": 0.000391973169590874,
      "loss": 1.6965,
      "step": 36142
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.46096619963645935,
      "learning_rate": 0.00039196322073201584,
      "loss": 1.6574,
      "step": 36143
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44088315963745117,
      "learning_rate": 0.00039195327176152795,
      "loss": 1.6008,
      "step": 36144
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44925656914711,
      "learning_rate": 0.00039194332267942226,
      "loss": 1.6604,
      "step": 36145
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45420417189598083,
      "learning_rate": 0.000391933373485711,
      "loss": 1.6538,
      "step": 36146
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4497959315776825,
      "learning_rate": 0.0003919234241804061,
      "loss": 1.6071,
      "step": 36147
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4319652318954468,
      "learning_rate": 0.00039191347476351976,
      "loss": 1.5769,
      "step": 36148
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4327729642391205,
      "learning_rate": 0.00039190352523506397,
      "loss": 1.6587,
      "step": 36149
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4379449188709259,
      "learning_rate": 0.0003918935755950509,
      "loss": 1.6151,
      "step": 36150
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.416042685508728,
      "learning_rate": 0.00039188362584349247,
      "loss": 1.5602,
      "step": 36151
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4210781157016754,
      "learning_rate": 0.000391873675980401,
      "loss": 1.6276,
      "step": 36152
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4401688873767853,
      "learning_rate": 0.00039186372600578826,
      "loss": 1.6637,
      "step": 36153
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4377075433731079,
      "learning_rate": 0.0003918537759196666,
      "loss": 1.5795,
      "step": 36154
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4345085620880127,
      "learning_rate": 0.00039184382572204793,
      "loss": 1.7313,
      "step": 36155
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4229971766471863,
      "learning_rate": 0.0003918338754129444,
      "loss": 1.6846,
      "step": 36156
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44924429059028625,
      "learning_rate": 0.00039182392499236815,
      "loss": 1.6451,
      "step": 36157
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44139450788497925,
      "learning_rate": 0.0003918139744603311,
      "loss": 1.7396,
      "step": 36158
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4151604473590851,
      "learning_rate": 0.00039180402381684546,
      "loss": 1.6384,
      "step": 36159
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4213158190250397,
      "learning_rate": 0.00039179407306192326,
      "loss": 1.608,
      "step": 36160
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4297162592411041,
      "learning_rate": 0.0003917841221955765,
      "loss": 1.6058,
      "step": 36161
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.452083557844162,
      "learning_rate": 0.0003917741712178175,
      "loss": 1.6425,
      "step": 36162
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4450187385082245,
      "learning_rate": 0.000391764220128658,
      "loss": 1.6191,
      "step": 36163
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42124858498573303,
      "learning_rate": 0.0003917542689281104,
      "loss": 1.6058,
      "step": 36164
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.432949423789978,
      "learning_rate": 0.0003917443176161865,
      "loss": 1.6037,
      "step": 36165
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44784581661224365,
      "learning_rate": 0.0003917343661928986,
      "loss": 1.6296,
      "step": 36166
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4238472282886505,
      "learning_rate": 0.00039172441465825866,
      "loss": 1.5677,
      "step": 36167
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.45158275961875916,
      "learning_rate": 0.0003917144630122789,
      "loss": 1.6699,
      "step": 36168
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44324928522109985,
      "learning_rate": 0.00039170451125497124,
      "loss": 1.6448,
      "step": 36169
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4636014401912689,
      "learning_rate": 0.00039169455938634773,
      "loss": 1.6497,
      "step": 36170
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43414703011512756,
      "learning_rate": 0.0003916846074064206,
      "loss": 1.6405,
      "step": 36171
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4440222680568695,
      "learning_rate": 0.0003916746553152019,
      "loss": 1.6903,
      "step": 36172
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4532886743545532,
      "learning_rate": 0.0003916647031127036,
      "loss": 1.6714,
      "step": 36173
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4276069700717926,
      "learning_rate": 0.0003916547507989379,
      "loss": 1.6174,
      "step": 36174
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4440494179725647,
      "learning_rate": 0.00039164479837391686,
      "loss": 1.5961,
      "step": 36175
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43901556730270386,
      "learning_rate": 0.0003916348458376525,
      "loss": 1.6367,
      "step": 36176
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44112223386764526,
      "learning_rate": 0.000391624893190157,
      "loss": 1.6432,
      "step": 36177
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4337341785430908,
      "learning_rate": 0.00039161494043144234,
      "loss": 1.5974,
      "step": 36178
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43155166506767273,
      "learning_rate": 0.0003916049875615206,
      "loss": 1.5649,
      "step": 36179
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4487696588039398,
      "learning_rate": 0.000391595034580404,
      "loss": 1.6626,
      "step": 36180
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.445113867521286,
      "learning_rate": 0.00039158508148810436,
      "loss": 1.4821,
      "step": 36181
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4470742642879486,
      "learning_rate": 0.00039157512828463407,
      "loss": 1.6527,
      "step": 36182
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4425801634788513,
      "learning_rate": 0.000391565174970005,
      "loss": 1.6323,
      "step": 36183
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43830060958862305,
      "learning_rate": 0.00039155522154422933,
      "loss": 1.6819,
      "step": 36184
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4337202310562134,
      "learning_rate": 0.0003915452680073191,
      "loss": 1.5984,
      "step": 36185
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43917685747146606,
      "learning_rate": 0.00039153531435928647,
      "loss": 1.6116,
      "step": 36186
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4503682851791382,
      "learning_rate": 0.0003915253606001434,
      "loss": 1.5783,
      "step": 36187
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42871639132499695,
      "learning_rate": 0.0003915154067299019,
      "loss": 1.6255,
      "step": 36188
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44320762157440186,
      "learning_rate": 0.0003915054527485744,
      "loss": 1.6619,
      "step": 36189
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4336952567100525,
      "learning_rate": 0.0003914954986561726,
      "loss": 1.6053,
      "step": 36190
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44815942645072937,
      "learning_rate": 0.00039148554445270884,
      "loss": 1.6185,
      "step": 36191
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43481162190437317,
      "learning_rate": 0.0003914755901381951,
      "loss": 1.6293,
      "step": 36192
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4504028558731079,
      "learning_rate": 0.00039146563571264335,
      "loss": 1.6004,
      "step": 36193
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42347851395606995,
      "learning_rate": 0.000391455681176066,
      "loss": 1.6053,
      "step": 36194
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4412367045879364,
      "learning_rate": 0.0003914457265284748,
      "loss": 1.6218,
      "step": 36195
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4352499842643738,
      "learning_rate": 0.000391435771769882,
      "loss": 1.6669,
      "step": 36196
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4465377628803253,
      "learning_rate": 0.0003914258169002996,
      "loss": 1.575,
      "step": 36197
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.46317058801651,
      "learning_rate": 0.0003914158619197398,
      "loss": 1.6578,
      "step": 36198
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42101505398750305,
      "learning_rate": 0.0003914059068282145,
      "loss": 1.6318,
      "step": 36199
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.441912978887558,
      "learning_rate": 0.000391395951625736,
      "loss": 1.6322,
      "step": 36200
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44451722502708435,
      "learning_rate": 0.0003913859963123163,
      "loss": 1.6479,
      "step": 36201
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4349095821380615,
      "learning_rate": 0.0003913760408879674,
      "loss": 1.6192,
      "step": 36202
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4382392466068268,
      "learning_rate": 0.00039136608535270145,
      "loss": 1.6158,
      "step": 36203
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43170151114463806,
      "learning_rate": 0.0003913561297065306,
      "loss": 1.6553,
      "step": 36204
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4251851737499237,
      "learning_rate": 0.00039134617394946675,
      "loss": 1.6951,
      "step": 36205
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44477546215057373,
      "learning_rate": 0.0003913362180815222,
      "loss": 1.5974,
      "step": 36206
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43459898233413696,
      "learning_rate": 0.00039132626210270895,
      "loss": 1.6395,
      "step": 36207
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43702128529548645,
      "learning_rate": 0.000391316306013039,
      "loss": 1.5972,
      "step": 36208
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4996057152748108,
      "learning_rate": 0.00039130634981252455,
      "loss": 1.6114,
      "step": 36209
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44362249970436096,
      "learning_rate": 0.0003912963935011777,
      "loss": 1.6659,
      "step": 36210
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43791672587394714,
      "learning_rate": 0.0003912864370790103,
      "loss": 1.5707,
      "step": 36211
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4471490681171417,
      "learning_rate": 0.00039127648054603485,
      "loss": 1.5349,
      "step": 36212
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.42063164710998535,
      "learning_rate": 0.00039126652390226297,
      "loss": 1.6551,
      "step": 36213
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4348241984844208,
      "learning_rate": 0.0003912565671477072,
      "loss": 1.5652,
      "step": 36214
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.46201154589653015,
      "learning_rate": 0.00039124661028237925,
      "loss": 1.6611,
      "step": 36215
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.4511304497718811,
      "learning_rate": 0.00039123665330629144,
      "loss": 1.6389,
      "step": 36216
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.43157339096069336,
      "learning_rate": 0.0003912266962194558,
      "loss": 1.5334,
      "step": 36217
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44835588335990906,
      "learning_rate": 0.0003912167390218842,
      "loss": 1.6802,
      "step": 36218
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45994052290916443,
      "learning_rate": 0.00039120678171358916,
      "loss": 1.6753,
      "step": 36219
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4312175512313843,
      "learning_rate": 0.00039119682429458237,
      "loss": 1.689,
      "step": 36220
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4562426507472992,
      "learning_rate": 0.00039118686676487615,
      "loss": 1.5938,
      "step": 36221
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4524671733379364,
      "learning_rate": 0.00039117690912448253,
      "loss": 1.5516,
      "step": 36222
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4456622898578644,
      "learning_rate": 0.00039116695137341345,
      "loss": 1.6462,
      "step": 36223
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.447028785943985,
      "learning_rate": 0.00039115699351168127,
      "loss": 1.5958,
      "step": 36224
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4445132911205292,
      "learning_rate": 0.0003911470355392978,
      "loss": 1.645,
      "step": 36225
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43085455894470215,
      "learning_rate": 0.00039113707745627545,
      "loss": 1.638,
      "step": 36226
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4343092441558838,
      "learning_rate": 0.0003911271192626259,
      "loss": 1.6643,
      "step": 36227
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4421675205230713,
      "learning_rate": 0.00039111716095836156,
      "loss": 1.626,
      "step": 36228
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4302958846092224,
      "learning_rate": 0.00039110720254349437,
      "loss": 1.6738,
      "step": 36229
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4500464200973511,
      "learning_rate": 0.0003910972440180365,
      "loss": 1.6342,
      "step": 36230
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4264999032020569,
      "learning_rate": 0.000391087285382,
      "loss": 1.6295,
      "step": 36231
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4430142045021057,
      "learning_rate": 0.0003910773266353969,
      "loss": 1.6497,
      "step": 36232
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4631558358669281,
      "learning_rate": 0.00039106736777823944,
      "loss": 1.7001,
      "step": 36233
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.467650830745697,
      "learning_rate": 0.0003910574088105395,
      "loss": 1.6528,
      "step": 36234
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44235989451408386,
      "learning_rate": 0.0003910474497323094,
      "loss": 1.586,
      "step": 36235
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.431301474571228,
      "learning_rate": 0.000391037490543561,
      "loss": 1.5735,
      "step": 36236
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4515821635723114,
      "learning_rate": 0.0003910275312443066,
      "loss": 1.6523,
      "step": 36237
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4609433114528656,
      "learning_rate": 0.0003910175718345581,
      "loss": 1.581,
      "step": 36238
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4277070164680481,
      "learning_rate": 0.00039100761231432773,
      "loss": 1.6817,
      "step": 36239
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4376949071884155,
      "learning_rate": 0.0003909976526836276,
      "loss": 1.6324,
      "step": 36240
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45765554904937744,
      "learning_rate": 0.0003909876929424696,
      "loss": 1.5813,
      "step": 36241
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.5477387309074402,
      "learning_rate": 0.000390977733090866,
      "loss": 1.6145,
      "step": 36242
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4292986989021301,
      "learning_rate": 0.0003909677731288288,
      "loss": 1.6217,
      "step": 36243
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4434340000152588,
      "learning_rate": 0.0003909578130563702,
      "loss": 1.6351,
      "step": 36244
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4156727194786072,
      "learning_rate": 0.0003909478528735021,
      "loss": 1.6359,
      "step": 36245
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42734023928642273,
      "learning_rate": 0.00039093789258023683,
      "loss": 1.6047,
      "step": 36246
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4510829448699951,
      "learning_rate": 0.0003909279321765863,
      "loss": 1.6355,
      "step": 36247
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4219634234905243,
      "learning_rate": 0.00039091797166256276,
      "loss": 1.5916,
      "step": 36248
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44734394550323486,
      "learning_rate": 0.0003909080110381781,
      "loss": 1.6919,
      "step": 36249
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45542892813682556,
      "learning_rate": 0.0003908980503034445,
      "loss": 1.7829,
      "step": 36250
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42237579822540283,
      "learning_rate": 0.00039088808945837413,
      "loss": 1.619,
      "step": 36251
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4366953670978546,
      "learning_rate": 0.00039087812850297887,
      "loss": 1.6648,
      "step": 36252
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42413437366485596,
      "learning_rate": 0.0003908681674372711,
      "loss": 1.6316,
      "step": 36253
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42660096287727356,
      "learning_rate": 0.0003908582062612627,
      "loss": 1.5866,
      "step": 36254
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44289034605026245,
      "learning_rate": 0.0003908482449749658,
      "loss": 1.6767,
      "step": 36255
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4308009147644043,
      "learning_rate": 0.00039083828357839255,
      "loss": 1.6251,
      "step": 36256
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4372026026248932,
      "learning_rate": 0.000390828322071555,
      "loss": 1.6187,
      "step": 36257
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44166645407676697,
      "learning_rate": 0.0003908183604544653,
      "loss": 1.6749,
      "step": 36258
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45910078287124634,
      "learning_rate": 0.0003908083987271354,
      "loss": 1.6638,
      "step": 36259
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4200763404369354,
      "learning_rate": 0.0003907984368895775,
      "loss": 1.6552,
      "step": 36260
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4320949614048004,
      "learning_rate": 0.0003907884749418037,
      "loss": 1.5783,
      "step": 36261
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4306294023990631,
      "learning_rate": 0.0003907785128838261,
      "loss": 1.5612,
      "step": 36262
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44018831849098206,
      "learning_rate": 0.0003907685507156568,
      "loss": 1.598,
      "step": 36263
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4347509741783142,
      "learning_rate": 0.0003907585884373078,
      "loss": 1.6165,
      "step": 36264
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4262552261352539,
      "learning_rate": 0.00039074862604879116,
      "loss": 1.6818,
      "step": 36265
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43483325839042664,
      "learning_rate": 0.00039073866355011916,
      "loss": 1.6079,
      "step": 36266
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4591275155544281,
      "learning_rate": 0.00039072870094130377,
      "loss": 1.6515,
      "step": 36267
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4268570840358734,
      "learning_rate": 0.00039071873822235707,
      "loss": 1.6582,
      "step": 36268
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4394334852695465,
      "learning_rate": 0.00039070877539329127,
      "loss": 1.6351,
      "step": 36269
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43312957882881165,
      "learning_rate": 0.00039069881245411834,
      "loss": 1.6075,
      "step": 36270
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42593833804130554,
      "learning_rate": 0.00039068884940485037,
      "loss": 1.6384,
      "step": 36271
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42142611742019653,
      "learning_rate": 0.00039067888624549956,
      "loss": 1.6276,
      "step": 36272
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44491878151893616,
      "learning_rate": 0.0003906689229760779,
      "loss": 1.6206,
      "step": 36273
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44401785731315613,
      "learning_rate": 0.0003906589595965976,
      "loss": 1.7198,
      "step": 36274
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45827382802963257,
      "learning_rate": 0.00039064899610707053,
      "loss": 1.6119,
      "step": 36275
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4379779100418091,
      "learning_rate": 0.0003906390325075091,
      "loss": 1.6918,
      "step": 36276
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44236430525779724,
      "learning_rate": 0.0003906290687979251,
      "loss": 1.6198,
      "step": 36277
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42691245675086975,
      "learning_rate": 0.00039061910497833086,
      "loss": 1.5973,
      "step": 36278
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45065540075302124,
      "learning_rate": 0.0003906091410487385,
      "loss": 1.6833,
      "step": 36279
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43374648690223694,
      "learning_rate": 0.0003905991770091597,
      "loss": 1.5565,
      "step": 36280
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43599966168403625,
      "learning_rate": 0.00039058921285960705,
      "loss": 1.5523,
      "step": 36281
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4445551931858063,
      "learning_rate": 0.00039057924860009234,
      "loss": 1.7127,
      "step": 36282
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.46168139576911926,
      "learning_rate": 0.00039056928423062786,
      "loss": 1.677,
      "step": 36283
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44060197472572327,
      "learning_rate": 0.00039055931975122556,
      "loss": 1.5905,
      "step": 36284
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44562679529190063,
      "learning_rate": 0.00039054935516189763,
      "loss": 1.6298,
      "step": 36285
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4485577344894409,
      "learning_rate": 0.00039053939046265605,
      "loss": 1.6478,
      "step": 36286
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4588000178337097,
      "learning_rate": 0.000390529425653513,
      "loss": 1.6012,
      "step": 36287
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43240097165107727,
      "learning_rate": 0.00039051946073448066,
      "loss": 1.5695,
      "step": 36288
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4308954179286957,
      "learning_rate": 0.000390509495705571,
      "loss": 1.5986,
      "step": 36289
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43678879737854004,
      "learning_rate": 0.0003904995305667961,
      "loss": 1.5653,
      "step": 36290
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.46081992983818054,
      "learning_rate": 0.00039048956531816814,
      "loss": 1.6305,
      "step": 36291
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43584001064300537,
      "learning_rate": 0.0003904795999596991,
      "loss": 1.5678,
      "step": 36292
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4430502951145172,
      "learning_rate": 0.0003904696344914012,
      "loss": 1.5561,
      "step": 36293
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.48103392124176025,
      "learning_rate": 0.00039045966891328664,
      "loss": 1.5694,
      "step": 36294
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4553288221359253,
      "learning_rate": 0.00039044970322536717,
      "loss": 1.6259,
      "step": 36295
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4570901691913605,
      "learning_rate": 0.0003904397374276552,
      "loss": 1.6153,
      "step": 36296
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45365583896636963,
      "learning_rate": 0.00039042977152016267,
      "loss": 1.6528,
      "step": 36297
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4411219656467438,
      "learning_rate": 0.0003904198055029017,
      "loss": 1.6468,
      "step": 36298
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4495379328727722,
      "learning_rate": 0.00039040983937588454,
      "loss": 1.6788,
      "step": 36299
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4630817472934723,
      "learning_rate": 0.000390399873139123,
      "loss": 1.69,
      "step": 36300
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4404504597187042,
      "learning_rate": 0.0003903899067926294,
      "loss": 1.6701,
      "step": 36301
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4415200650691986,
      "learning_rate": 0.00039037994033641577,
      "loss": 1.6709,
      "step": 36302
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45302191376686096,
      "learning_rate": 0.00039036997377049415,
      "loss": 1.6815,
      "step": 36303
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.439277708530426,
      "learning_rate": 0.00039036000709487685,
      "loss": 1.6811,
      "step": 36304
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4300834834575653,
      "learning_rate": 0.00039035004030957564,
      "loss": 1.7297,
      "step": 36305
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43564772605895996,
      "learning_rate": 0.00039034007341460294,
      "loss": 1.6111,
      "step": 36306
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43463727831840515,
      "learning_rate": 0.0003903301064099705,
      "loss": 1.6994,
      "step": 36307
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4500848352909088,
      "learning_rate": 0.00039032013929569086,
      "loss": 1.6271,
      "step": 36308
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4347693622112274,
      "learning_rate": 0.0003903101720717757,
      "loss": 1.6347,
      "step": 36309
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4656516909599304,
      "learning_rate": 0.00039030020473823743,
      "loss": 1.5801,
      "step": 36310
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4314723014831543,
      "learning_rate": 0.000390290237295088,
      "loss": 1.6535,
      "step": 36311
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4289725124835968,
      "learning_rate": 0.0003902802697423394,
      "loss": 1.6279,
      "step": 36312
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4390608072280884,
      "learning_rate": 0.000390270302080004,
      "loss": 1.6331,
      "step": 36313
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42270177602767944,
      "learning_rate": 0.0003902603343080936,
      "loss": 1.6396,
      "step": 36314
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4424547851085663,
      "learning_rate": 0.00039025036642662057,
      "loss": 1.6977,
      "step": 36315
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43328845500946045,
      "learning_rate": 0.0003902403984355969,
      "loss": 1.6137,
      "step": 36316
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42807164788246155,
      "learning_rate": 0.0003902304303350346,
      "loss": 1.7153,
      "step": 36317
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.422287255525589,
      "learning_rate": 0.00039022046212494594,
      "loss": 1.5935,
      "step": 36318
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43221229314804077,
      "learning_rate": 0.0003902104938053429,
      "loss": 1.6898,
      "step": 36319
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4276588261127472,
      "learning_rate": 0.00039020052537623763,
      "loss": 1.6147,
      "step": 36320
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45050695538520813,
      "learning_rate": 0.00039019055683764213,
      "loss": 1.6188,
      "step": 36321
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43278738856315613,
      "learning_rate": 0.0003901805881895687,
      "loss": 1.5551,
      "step": 36322
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4406663179397583,
      "learning_rate": 0.00039017061943202923,
      "loss": 1.6458,
      "step": 36323
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44540247321128845,
      "learning_rate": 0.000390160650565036,
      "loss": 1.6607,
      "step": 36324
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4475145936012268,
      "learning_rate": 0.0003901506815886009,
      "loss": 1.6568,
      "step": 36325
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43016913533210754,
      "learning_rate": 0.00039014071250273626,
      "loss": 1.6205,
      "step": 36326
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4514056146144867,
      "learning_rate": 0.00039013074330745403,
      "loss": 1.6474,
      "step": 36327
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44177740812301636,
      "learning_rate": 0.0003901207740027664,
      "loss": 1.6921,
      "step": 36328
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4658036231994629,
      "learning_rate": 0.0003901108045886854,
      "loss": 1.6202,
      "step": 36329
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4472319483757019,
      "learning_rate": 0.00039010083506522313,
      "loss": 1.6393,
      "step": 36330
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42683377861976624,
      "learning_rate": 0.00039009086543239177,
      "loss": 1.5922,
      "step": 36331
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4434918761253357,
      "learning_rate": 0.0003900808956902034,
      "loss": 1.6174,
      "step": 36332
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44915977120399475,
      "learning_rate": 0.00039007092583866995,
      "loss": 1.6388,
      "step": 36333
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43946215510368347,
      "learning_rate": 0.0003900609558778039,
      "loss": 1.6569,
      "step": 36334
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44382283091545105,
      "learning_rate": 0.00039005098580761693,
      "loss": 1.6687,
      "step": 36335
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44420069456100464,
      "learning_rate": 0.0003900410156281214,
      "loss": 1.5979,
      "step": 36336
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43588516116142273,
      "learning_rate": 0.0003900310453393293,
      "loss": 1.6202,
      "step": 36337
    },
    {
      "epoch": 1.21,
      "grad_norm": 1.0538181066513062,
      "learning_rate": 0.00039002107494125285,
      "loss": 1.5634,
      "step": 36338
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44336462020874023,
      "learning_rate": 0.000390011104433904,
      "loss": 1.5907,
      "step": 36339
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.41895222663879395,
      "learning_rate": 0.000390001133817295,
      "loss": 1.6259,
      "step": 36340
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43427574634552,
      "learning_rate": 0.0003899911630914379,
      "loss": 1.6352,
      "step": 36341
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4354776442050934,
      "learning_rate": 0.00038998119225634465,
      "loss": 1.7195,
      "step": 36342
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43463242053985596,
      "learning_rate": 0.00038997122131202765,
      "loss": 1.5978,
      "step": 36343
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43720680475234985,
      "learning_rate": 0.0003899612502584988,
      "loss": 1.6492,
      "step": 36344
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44220298528671265,
      "learning_rate": 0.00038995127909577024,
      "loss": 1.6256,
      "step": 36345
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43200570344924927,
      "learning_rate": 0.000389941307823854,
      "loss": 1.5815,
      "step": 36346
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4367542862892151,
      "learning_rate": 0.0003899313364427623,
      "loss": 1.7135,
      "step": 36347
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4378696084022522,
      "learning_rate": 0.00038992136495250723,
      "loss": 1.684,
      "step": 36348
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4470362067222595,
      "learning_rate": 0.0003899113933531009,
      "loss": 1.5927,
      "step": 36349
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4579927623271942,
      "learning_rate": 0.0003899014216445554,
      "loss": 1.6369,
      "step": 36350
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4520483911037445,
      "learning_rate": 0.0003898914498268828,
      "loss": 1.741,
      "step": 36351
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4299481511116028,
      "learning_rate": 0.00038988147790009516,
      "loss": 1.6444,
      "step": 36352
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.430213987827301,
      "learning_rate": 0.0003898715058642047,
      "loss": 1.6155,
      "step": 36353
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44504621624946594,
      "learning_rate": 0.00038986153371922347,
      "loss": 1.6163,
      "step": 36354
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4382811486721039,
      "learning_rate": 0.00038985156146516357,
      "loss": 1.5905,
      "step": 36355
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44455739855766296,
      "learning_rate": 0.0003898415891020372,
      "loss": 1.5994,
      "step": 36356
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4468711316585541,
      "learning_rate": 0.0003898316166298563,
      "loss": 1.6191,
      "step": 36357
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.435635507106781,
      "learning_rate": 0.00038982164404863305,
      "loss": 1.5516,
      "step": 36358
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4367516040802002,
      "learning_rate": 0.0003898116713583796,
      "loss": 1.6201,
      "step": 36359
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4438808560371399,
      "learning_rate": 0.00038980169855910797,
      "loss": 1.6508,
      "step": 36360
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4596530795097351,
      "learning_rate": 0.00038979172565083034,
      "loss": 1.6508,
      "step": 36361
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42874473333358765,
      "learning_rate": 0.0003897817526335587,
      "loss": 1.5485,
      "step": 36362
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4448124170303345,
      "learning_rate": 0.0003897717795073054,
      "loss": 1.5797,
      "step": 36363
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44656261801719666,
      "learning_rate": 0.0003897618062720822,
      "loss": 1.6874,
      "step": 36364
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4588737487792969,
      "learning_rate": 0.00038975183292790154,
      "loss": 1.5743,
      "step": 36365
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4544658958911896,
      "learning_rate": 0.00038974185947477535,
      "loss": 1.6124,
      "step": 36366
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4613460600376129,
      "learning_rate": 0.00038973188591271573,
      "loss": 1.6684,
      "step": 36367
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4269547760486603,
      "learning_rate": 0.0003897219122417349,
      "loss": 1.6968,
      "step": 36368
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4424613118171692,
      "learning_rate": 0.00038971193846184474,
      "loss": 1.6175,
      "step": 36369
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45838662981987,
      "learning_rate": 0.00038970196457305766,
      "loss": 1.6626,
      "step": 36370
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.47460946440696716,
      "learning_rate": 0.00038969199057538545,
      "loss": 1.6408,
      "step": 36371
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4310452342033386,
      "learning_rate": 0.00038968201646884053,
      "loss": 1.5404,
      "step": 36372
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44381240010261536,
      "learning_rate": 0.0003896720422534348,
      "loss": 1.6238,
      "step": 36373
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.5052720308303833,
      "learning_rate": 0.0003896620679291804,
      "loss": 1.683,
      "step": 36374
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4401476979255676,
      "learning_rate": 0.0003896520934960895,
      "loss": 1.6554,
      "step": 36375
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44850271940231323,
      "learning_rate": 0.00038964211895417414,
      "loss": 1.5968,
      "step": 36376
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4303988814353943,
      "learning_rate": 0.0003896321443034464,
      "loss": 1.6148,
      "step": 36377
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.46440979838371277,
      "learning_rate": 0.0003896221695439185,
      "loss": 1.6368,
      "step": 36378
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4512627422809601,
      "learning_rate": 0.0003896121946756025,
      "loss": 1.5742,
      "step": 36379
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.439517617225647,
      "learning_rate": 0.00038960221969851054,
      "loss": 1.6343,
      "step": 36380
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44427403807640076,
      "learning_rate": 0.0003895922446126547,
      "loss": 1.6132,
      "step": 36381
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44489574432373047,
      "learning_rate": 0.000389582269418047,
      "loss": 1.6765,
      "step": 36382
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4496912658214569,
      "learning_rate": 0.00038957229411469964,
      "loss": 1.646,
      "step": 36383
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.5869720578193665,
      "learning_rate": 0.00038956231870262466,
      "loss": 1.6226,
      "step": 36384
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44490131735801697,
      "learning_rate": 0.00038955234318183434,
      "loss": 1.6822,
      "step": 36385
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43112343549728394,
      "learning_rate": 0.00038954236755234066,
      "loss": 1.6686,
      "step": 36386
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4321776330471039,
      "learning_rate": 0.0003895323918141557,
      "loss": 1.63,
      "step": 36387
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4263727366924286,
      "learning_rate": 0.00038952241596729154,
      "loss": 1.6662,
      "step": 36388
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4289146065711975,
      "learning_rate": 0.00038951244001176043,
      "loss": 1.6371,
      "step": 36389
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4425744116306305,
      "learning_rate": 0.0003895024639475743,
      "loss": 1.6285,
      "step": 36390
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4261685013771057,
      "learning_rate": 0.0003894924877747456,
      "loss": 1.6622,
      "step": 36391
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.430107444524765,
      "learning_rate": 0.00038948251149328595,
      "loss": 1.6158,
      "step": 36392
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4456474781036377,
      "learning_rate": 0.0003894725351032079,
      "loss": 1.603,
      "step": 36393
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4482385218143463,
      "learning_rate": 0.0003894625586045233,
      "loss": 1.6912,
      "step": 36394
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4294177293777466,
      "learning_rate": 0.0003894525819972443,
      "loss": 1.619,
      "step": 36395
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4348641037940979,
      "learning_rate": 0.0003894426052813831,
      "loss": 1.6678,
      "step": 36396
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43737223744392395,
      "learning_rate": 0.00038943262845695173,
      "loss": 1.6107,
      "step": 36397
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4198389947414398,
      "learning_rate": 0.0003894226515239624,
      "loss": 1.5951,
      "step": 36398
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43167242407798767,
      "learning_rate": 0.00038941267448242705,
      "loss": 1.6107,
      "step": 36399
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4366312026977539,
      "learning_rate": 0.000389402697332358,
      "loss": 1.6867,
      "step": 36400
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4306260943412781,
      "learning_rate": 0.00038939272007376707,
      "loss": 1.6058,
      "step": 36401
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4198749363422394,
      "learning_rate": 0.0003893827427066667,
      "loss": 1.6295,
      "step": 36402
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44386935234069824,
      "learning_rate": 0.00038937276523106875,
      "loss": 1.6274,
      "step": 36403
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4312153160572052,
      "learning_rate": 0.0003893627876469855,
      "loss": 1.5955,
      "step": 36404
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4191853702068329,
      "learning_rate": 0.0003893528099544291,
      "loss": 1.5982,
      "step": 36405
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4352293312549591,
      "learning_rate": 0.0003893428321534114,
      "loss": 1.6986,
      "step": 36406
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43505093455314636,
      "learning_rate": 0.00038933285424394467,
      "loss": 1.6894,
      "step": 36407
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44576016068458557,
      "learning_rate": 0.000389322876226041,
      "loss": 1.6474,
      "step": 36408
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4253711998462677,
      "learning_rate": 0.00038931289809971255,
      "loss": 1.6476,
      "step": 36409
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4223116636276245,
      "learning_rate": 0.0003893029198649714,
      "loss": 1.6425,
      "step": 36410
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4332466423511505,
      "learning_rate": 0.00038929294152182975,
      "loss": 1.5928,
      "step": 36411
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4327274560928345,
      "learning_rate": 0.0003892829630702995,
      "loss": 1.6338,
      "step": 36412
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42963138222694397,
      "learning_rate": 0.00038927298451039294,
      "loss": 1.6464,
      "step": 36413
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44653597474098206,
      "learning_rate": 0.00038926300584212213,
      "loss": 1.6727,
      "step": 36414
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43419191241264343,
      "learning_rate": 0.0003892530270654992,
      "loss": 1.578,
      "step": 36415
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4327949285507202,
      "learning_rate": 0.0003892430481805362,
      "loss": 1.6639,
      "step": 36416
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42896026372909546,
      "learning_rate": 0.00038923306918724535,
      "loss": 1.5696,
      "step": 36417
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43798211216926575,
      "learning_rate": 0.0003892230900856387,
      "loss": 1.6393,
      "step": 36418
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42162665724754333,
      "learning_rate": 0.00038921311087572826,
      "loss": 1.5715,
      "step": 36419
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4532283544540405,
      "learning_rate": 0.00038920313155752634,
      "loss": 1.6845,
      "step": 36420
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4364764392375946,
      "learning_rate": 0.00038919315213104504,
      "loss": 1.58,
      "step": 36421
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4481205940246582,
      "learning_rate": 0.00038918317259629623,
      "loss": 1.6004,
      "step": 36422
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4522714912891388,
      "learning_rate": 0.0003891731929532923,
      "loss": 1.5973,
      "step": 36423
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4452318251132965,
      "learning_rate": 0.0003891632132020451,
      "loss": 1.689,
      "step": 36424
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4371814429759979,
      "learning_rate": 0.0003891532333425671,
      "loss": 1.5424,
      "step": 36425
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44594404101371765,
      "learning_rate": 0.00038914325337487013,
      "loss": 1.5199,
      "step": 36426
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44421878457069397,
      "learning_rate": 0.00038913327329896636,
      "loss": 1.6794,
      "step": 36427
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43482935428619385,
      "learning_rate": 0.000389123293114868,
      "loss": 1.6905,
      "step": 36428
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4456208348274231,
      "learning_rate": 0.000389113312822587,
      "loss": 1.5998,
      "step": 36429
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43934765458106995,
      "learning_rate": 0.0003891033324221356,
      "loss": 1.5604,
      "step": 36430
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.428412526845932,
      "learning_rate": 0.0003890933519135259,
      "loss": 1.5968,
      "step": 36431
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44577693939208984,
      "learning_rate": 0.00038908337129677005,
      "loss": 1.6288,
      "step": 36432
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45162391662597656,
      "learning_rate": 0.00038907339057188,
      "loss": 1.5716,
      "step": 36433
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4344594180583954,
      "learning_rate": 0.000389063409738868,
      "loss": 1.5827,
      "step": 36434
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4443686306476593,
      "learning_rate": 0.0003890534287977462,
      "loss": 1.695,
      "step": 36435
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4439677596092224,
      "learning_rate": 0.00038904344774852667,
      "loss": 1.6875,
      "step": 36436
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43880853056907654,
      "learning_rate": 0.0003890334665912215,
      "loss": 1.6606,
      "step": 36437
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4277244210243225,
      "learning_rate": 0.0003890234853258428,
      "loss": 1.5832,
      "step": 36438
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4405065178871155,
      "learning_rate": 0.00038901350395240266,
      "loss": 1.6721,
      "step": 36439
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.435169517993927,
      "learning_rate": 0.00038900352247091323,
      "loss": 1.6161,
      "step": 36440
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42352673411369324,
      "learning_rate": 0.0003889935408813868,
      "loss": 1.5861,
      "step": 36441
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42231661081314087,
      "learning_rate": 0.00038898355918383517,
      "loss": 1.5849,
      "step": 36442
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44607171416282654,
      "learning_rate": 0.00038897357737827066,
      "loss": 1.6438,
      "step": 36443
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4344863295555115,
      "learning_rate": 0.0003889635954647053,
      "loss": 1.6191,
      "step": 36444
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42972785234451294,
      "learning_rate": 0.0003889536134431513,
      "loss": 1.6724,
      "step": 36445
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43378883600234985,
      "learning_rate": 0.0003889436313136208,
      "loss": 1.6146,
      "step": 36446
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4359883964061737,
      "learning_rate": 0.00038893364907612564,
      "loss": 1.6783,
      "step": 36447
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4184238314628601,
      "learning_rate": 0.00038892366673067827,
      "loss": 1.5987,
      "step": 36448
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43857452273368835,
      "learning_rate": 0.00038891368427729055,
      "loss": 1.6395,
      "step": 36449
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4394664168357849,
      "learning_rate": 0.00038890370171597484,
      "loss": 1.6288,
      "step": 36450
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4355182945728302,
      "learning_rate": 0.0003888937190467431,
      "loss": 1.668,
      "step": 36451
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4335900843143463,
      "learning_rate": 0.0003888837362696075,
      "loss": 1.6658,
      "step": 36452
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44262492656707764,
      "learning_rate": 0.0003888737533845801,
      "loss": 1.6813,
      "step": 36453
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44700536131858826,
      "learning_rate": 0.00038886377039167296,
      "loss": 1.6353,
      "step": 36454
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42790457606315613,
      "learning_rate": 0.0003888537872908985,
      "loss": 1.6736,
      "step": 36455
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44477128982543945,
      "learning_rate": 0.0003888438040822686,
      "loss": 1.7567,
      "step": 36456
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4286995232105255,
      "learning_rate": 0.00038883382076579533,
      "loss": 1.6349,
      "step": 36457
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.7047041058540344,
      "learning_rate": 0.00038882383734149085,
      "loss": 1.6071,
      "step": 36458
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4351215660572052,
      "learning_rate": 0.0003888138538093674,
      "loss": 1.5937,
      "step": 36459
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4415874481201172,
      "learning_rate": 0.00038880387016943706,
      "loss": 1.6624,
      "step": 36460
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44175755977630615,
      "learning_rate": 0.0003887938864217118,
      "loss": 1.6305,
      "step": 36461
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4340297281742096,
      "learning_rate": 0.0003887839025662039,
      "loss": 1.6739,
      "step": 36462
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44782036542892456,
      "learning_rate": 0.00038877391860292547,
      "loss": 1.6233,
      "step": 36463
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4422251880168915,
      "learning_rate": 0.0003887639345318885,
      "loss": 1.6066,
      "step": 36464
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42523038387298584,
      "learning_rate": 0.0003887539503531052,
      "loss": 1.6561,
      "step": 36465
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4289272129535675,
      "learning_rate": 0.0003887439660665877,
      "loss": 1.6194,
      "step": 36466
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4477940499782562,
      "learning_rate": 0.00038873398167234817,
      "loss": 1.6003,
      "step": 36467
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4401088058948517,
      "learning_rate": 0.0003887239971703986,
      "loss": 1.6497,
      "step": 36468
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4372529089450836,
      "learning_rate": 0.0003887140125607511,
      "loss": 1.6604,
      "step": 36469
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4206862151622772,
      "learning_rate": 0.0003887040278434179,
      "loss": 1.5388,
      "step": 36470
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44477057456970215,
      "learning_rate": 0.00038869404301841113,
      "loss": 1.5503,
      "step": 36471
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4051474928855896,
      "learning_rate": 0.00038868405808574285,
      "loss": 1.5746,
      "step": 36472
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4437296688556671,
      "learning_rate": 0.0003886740730454252,
      "loss": 1.5793,
      "step": 36473
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43439269065856934,
      "learning_rate": 0.0003886640878974703,
      "loss": 1.5645,
      "step": 36474
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4424639344215393,
      "learning_rate": 0.0003886541026418902,
      "loss": 1.6905,
      "step": 36475
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44042080640792847,
      "learning_rate": 0.0003886441172786971,
      "loss": 1.6342,
      "step": 36476
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44065597653388977,
      "learning_rate": 0.00038863413180790314,
      "loss": 1.5927,
      "step": 36477
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4280340075492859,
      "learning_rate": 0.0003886241462295205,
      "loss": 1.6488,
      "step": 36478
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42537108063697815,
      "learning_rate": 0.00038861416054356094,
      "loss": 1.6194,
      "step": 36479
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4397655427455902,
      "learning_rate": 0.000388604174750037,
      "loss": 1.6327,
      "step": 36480
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44277462363243103,
      "learning_rate": 0.00038859418884896064,
      "loss": 1.6601,
      "step": 36481
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4477698504924774,
      "learning_rate": 0.00038858420284034395,
      "loss": 1.6818,
      "step": 36482
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4329257905483246,
      "learning_rate": 0.0003885742167241992,
      "loss": 1.5542,
      "step": 36483
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42469704151153564,
      "learning_rate": 0.0003885642305005383,
      "loss": 1.7107,
      "step": 36484
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44367077946662903,
      "learning_rate": 0.00038855424416937357,
      "loss": 1.5879,
      "step": 36485
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44759464263916016,
      "learning_rate": 0.00038854425773071687,
      "loss": 1.5957,
      "step": 36486
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4281659722328186,
      "learning_rate": 0.0003885342711845806,
      "loss": 1.6689,
      "step": 36487
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.41757068037986755,
      "learning_rate": 0.00038852428453097675,
      "loss": 1.6227,
      "step": 36488
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4467465579509735,
      "learning_rate": 0.0003885142977699174,
      "loss": 1.6932,
      "step": 36489
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43088045716285706,
      "learning_rate": 0.00038850431090141493,
      "loss": 1.6027,
      "step": 36490
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42982831597328186,
      "learning_rate": 0.000388494323925481,
      "loss": 1.6343,
      "step": 36491
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4381822943687439,
      "learning_rate": 0.0003884843368421282,
      "loss": 1.6056,
      "step": 36492
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4303937256336212,
      "learning_rate": 0.00038847434965136844,
      "loss": 1.6103,
      "step": 36493
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42394450306892395,
      "learning_rate": 0.0003884643623532138,
      "loss": 1.6315,
      "step": 36494
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42587950825691223,
      "learning_rate": 0.0003884543749476764,
      "loss": 1.5704,
      "step": 36495
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4376043379306793,
      "learning_rate": 0.0003884443874347685,
      "loss": 1.6464,
      "step": 36496
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4414525628089905,
      "learning_rate": 0.0003884343998145022,
      "loss": 1.5918,
      "step": 36497
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.449754923582077,
      "learning_rate": 0.00038842441208688947,
      "loss": 1.5481,
      "step": 36498
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.47264203429222107,
      "learning_rate": 0.00038841442425194256,
      "loss": 1.6083,
      "step": 36499
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43799030780792236,
      "learning_rate": 0.0003884044363096736,
      "loss": 1.6077,
      "step": 36500
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4294809401035309,
      "learning_rate": 0.00038839444826009454,
      "loss": 1.5885,
      "step": 36501
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44214963912963867,
      "learning_rate": 0.00038838446010321776,
      "loss": 1.654,
      "step": 36502
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44361019134521484,
      "learning_rate": 0.00038837447183905533,
      "loss": 1.5896,
      "step": 36503
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4377155601978302,
      "learning_rate": 0.0003883644834676193,
      "loss": 1.5722,
      "step": 36504
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4466690719127655,
      "learning_rate": 0.0003883544949889217,
      "loss": 1.5862,
      "step": 36505
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44998010993003845,
      "learning_rate": 0.00038834450640297483,
      "loss": 1.6975,
      "step": 36506
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4544771611690521,
      "learning_rate": 0.00038833451770979067,
      "loss": 1.6497,
      "step": 36507
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45753732323646545,
      "learning_rate": 0.0003883245289093816,
      "loss": 1.6184,
      "step": 36508
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4221482574939728,
      "learning_rate": 0.00038831454000175935,
      "loss": 1.6668,
      "step": 36509
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4499664902687073,
      "learning_rate": 0.00038830455098693643,
      "loss": 1.6812,
      "step": 36510
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43736371397972107,
      "learning_rate": 0.00038829456186492467,
      "loss": 1.6466,
      "step": 36511
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44251176714897156,
      "learning_rate": 0.0003882845726357364,
      "loss": 1.6666,
      "step": 36512
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.45566657185554504,
      "learning_rate": 0.00038827458329938365,
      "loss": 1.7173,
      "step": 36513
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4413313865661621,
      "learning_rate": 0.00038826459385587846,
      "loss": 1.6836,
      "step": 36514
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4377449154853821,
      "learning_rate": 0.00038825460430523323,
      "loss": 1.5468,
      "step": 36515
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4317443072795868,
      "learning_rate": 0.0003882446146474597,
      "loss": 1.637,
      "step": 36516
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.46003031730651855,
      "learning_rate": 0.00038823462488257044,
      "loss": 1.6666,
      "step": 36517
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.43862736225128174,
      "learning_rate": 0.00038822463501057727,
      "loss": 1.6242,
      "step": 36518
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.42698660492897034,
      "learning_rate": 0.00038821464503149236,
      "loss": 1.586,
      "step": 36519
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45369744300842285,
      "learning_rate": 0.00038820465494532786,
      "loss": 1.6433,
      "step": 36520
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.520259439945221,
      "learning_rate": 0.0003881946647520959,
      "loss": 1.6644,
      "step": 36521
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43552011251449585,
      "learning_rate": 0.0003881846744518087,
      "loss": 1.6149,
      "step": 36522
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42835479974746704,
      "learning_rate": 0.00038817468404447826,
      "loss": 1.7444,
      "step": 36523
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44123414158821106,
      "learning_rate": 0.00038816469353011667,
      "loss": 1.6602,
      "step": 36524
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42527177929878235,
      "learning_rate": 0.00038815470290873625,
      "loss": 1.6453,
      "step": 36525
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42675715684890747,
      "learning_rate": 0.0003881447121803489,
      "loss": 1.6155,
      "step": 36526
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4443298280239105,
      "learning_rate": 0.0003881347213449669,
      "loss": 1.5381,
      "step": 36527
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45046868920326233,
      "learning_rate": 0.0003881247304026024,
      "loss": 1.6762,
      "step": 36528
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44919121265411377,
      "learning_rate": 0.00038811473935326736,
      "loss": 1.5901,
      "step": 36529
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42128220200538635,
      "learning_rate": 0.00038810474819697406,
      "loss": 1.623,
      "step": 36530
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4397476613521576,
      "learning_rate": 0.00038809475693373456,
      "loss": 1.663,
      "step": 36531
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4563000500202179,
      "learning_rate": 0.00038808476556356097,
      "loss": 1.5853,
      "step": 36532
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42995932698249817,
      "learning_rate": 0.0003880747740864655,
      "loss": 1.6218,
      "step": 36533
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44002702832221985,
      "learning_rate": 0.00038806478250246016,
      "loss": 1.6065,
      "step": 36534
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4299841523170471,
      "learning_rate": 0.00038805479081155733,
      "loss": 1.6398,
      "step": 36535
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4287942349910736,
      "learning_rate": 0.0003880447990137688,
      "loss": 1.6457,
      "step": 36536
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4465276300907135,
      "learning_rate": 0.0003880348071091069,
      "loss": 1.6479,
      "step": 36537
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4321773052215576,
      "learning_rate": 0.00038802481509758377,
      "loss": 1.6643,
      "step": 36538
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4345178008079529,
      "learning_rate": 0.0003880148229792114,
      "loss": 1.6214,
      "step": 36539
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4365020990371704,
      "learning_rate": 0.00038800483075400206,
      "loss": 1.6495,
      "step": 36540
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4486081600189209,
      "learning_rate": 0.00038799483842196777,
      "loss": 1.5726,
      "step": 36541
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.47230735421180725,
      "learning_rate": 0.00038798484598312076,
      "loss": 1.6374,
      "step": 36542
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44369426369667053,
      "learning_rate": 0.00038797485343747306,
      "loss": 1.6943,
      "step": 36543
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4457961320877075,
      "learning_rate": 0.00038796486078503686,
      "loss": 1.6412,
      "step": 36544
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4561625123023987,
      "learning_rate": 0.0003879548680258244,
      "loss": 1.6374,
      "step": 36545
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42396581172943115,
      "learning_rate": 0.0003879448751598475,
      "loss": 1.629,
      "step": 36546
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4595813453197479,
      "learning_rate": 0.0003879348821871186,
      "loss": 1.7136,
      "step": 36547
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45519986748695374,
      "learning_rate": 0.0003879248891076497,
      "loss": 1.6368,
      "step": 36548
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.425324946641922,
      "learning_rate": 0.00038791489592145286,
      "loss": 1.605,
      "step": 36549
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.8513825535774231,
      "learning_rate": 0.00038790490262854033,
      "loss": 1.6725,
      "step": 36550
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43672847747802734,
      "learning_rate": 0.00038789490922892426,
      "loss": 1.5498,
      "step": 36551
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43854644894599915,
      "learning_rate": 0.00038788491572261673,
      "loss": 1.5349,
      "step": 36552
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4348333179950714,
      "learning_rate": 0.00038787492210962983,
      "loss": 1.5676,
      "step": 36553
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4704890549182892,
      "learning_rate": 0.00038786492838997565,
      "loss": 1.6645,
      "step": 36554
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4774882197380066,
      "learning_rate": 0.00038785493456366645,
      "loss": 1.6711,
      "step": 36555
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4400629699230194,
      "learning_rate": 0.0003878449406307143,
      "loss": 1.6751,
      "step": 36556
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42684701085090637,
      "learning_rate": 0.0003878349465911313,
      "loss": 1.628,
      "step": 36557
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4215463697910309,
      "learning_rate": 0.0003878249524449297,
      "loss": 1.5974,
      "step": 36558
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44645413756370544,
      "learning_rate": 0.0003878149581921215,
      "loss": 1.6386,
      "step": 36559
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45076942443847656,
      "learning_rate": 0.0003878049638327189,
      "loss": 1.6667,
      "step": 36560
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4407546818256378,
      "learning_rate": 0.0003877949693667339,
      "loss": 1.5916,
      "step": 36561
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4388137459754944,
      "learning_rate": 0.0003877849747941789,
      "loss": 1.5823,
      "step": 36562
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.41976454854011536,
      "learning_rate": 0.00038777498011506584,
      "loss": 1.5873,
      "step": 36563
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4363687336444855,
      "learning_rate": 0.0003877649853294068,
      "loss": 1.5881,
      "step": 36564
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4512113034725189,
      "learning_rate": 0.0003877549904372141,
      "loss": 1.6571,
      "step": 36565
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45465877652168274,
      "learning_rate": 0.0003877449954384997,
      "loss": 1.6635,
      "step": 36566
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44255876541137695,
      "learning_rate": 0.0003877350003332758,
      "loss": 1.5532,
      "step": 36567
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4412671625614166,
      "learning_rate": 0.00038772500512155466,
      "loss": 1.6328,
      "step": 36568
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43169650435447693,
      "learning_rate": 0.00038771500980334814,
      "loss": 1.6311,
      "step": 36569
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4530434310436249,
      "learning_rate": 0.0003877050143786686,
      "loss": 1.6167,
      "step": 36570
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4295229911804199,
      "learning_rate": 0.000387695018847528,
      "loss": 1.733,
      "step": 36571
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4288887083530426,
      "learning_rate": 0.0003876850232099387,
      "loss": 1.7465,
      "step": 36572
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4316486418247223,
      "learning_rate": 0.00038767502746591266,
      "loss": 1.5305,
      "step": 36573
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.41973400115966797,
      "learning_rate": 0.0003876650316154621,
      "loss": 1.5469,
      "step": 36574
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.440144807100296,
      "learning_rate": 0.000387655035658599,
      "loss": 1.5936,
      "step": 36575
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4280588626861572,
      "learning_rate": 0.00038764503959533563,
      "loss": 1.59,
      "step": 36576
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43357446789741516,
      "learning_rate": 0.0003876350434256841,
      "loss": 1.6315,
      "step": 36577
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4349958896636963,
      "learning_rate": 0.0003876250471496566,
      "loss": 1.6841,
      "step": 36578
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4278591573238373,
      "learning_rate": 0.00038761505076726513,
      "loss": 1.5979,
      "step": 36579
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43049150705337524,
      "learning_rate": 0.00038760505427852196,
      "loss": 1.5855,
      "step": 36580
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44913291931152344,
      "learning_rate": 0.0003875950576834391,
      "loss": 1.6049,
      "step": 36581
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4453975558280945,
      "learning_rate": 0.00038758506098202875,
      "loss": 1.629,
      "step": 36582
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44365429878234863,
      "learning_rate": 0.00038757506417430316,
      "loss": 1.6809,
      "step": 36583
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4557999074459076,
      "learning_rate": 0.0003875650672602742,
      "loss": 1.6148,
      "step": 36584
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44910526275634766,
      "learning_rate": 0.00038755507023995425,
      "loss": 1.7166,
      "step": 36585
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44419047236442566,
      "learning_rate": 0.00038754507311335526,
      "loss": 1.6806,
      "step": 36586
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4498668611049652,
      "learning_rate": 0.0003875350758804895,
      "loss": 1.6618,
      "step": 36587
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4474165737628937,
      "learning_rate": 0.0003875250785413691,
      "loss": 1.6006,
      "step": 36588
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4249576926231384,
      "learning_rate": 0.000387515081096006,
      "loss": 1.712,
      "step": 36589
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4342254400253296,
      "learning_rate": 0.00038750508354441266,
      "loss": 1.6351,
      "step": 36590
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44656190276145935,
      "learning_rate": 0.0003874950858866009,
      "loss": 1.6298,
      "step": 36591
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4412544071674347,
      "learning_rate": 0.00038748508812258315,
      "loss": 1.6257,
      "step": 36592
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44626131653785706,
      "learning_rate": 0.0003874750902523712,
      "loss": 1.6004,
      "step": 36593
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4335520267486572,
      "learning_rate": 0.00038746509227597747,
      "loss": 1.708,
      "step": 36594
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4364795982837677,
      "learning_rate": 0.0003874550941934142,
      "loss": 1.5949,
      "step": 36595
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43792960047721863,
      "learning_rate": 0.000387445096004693,
      "loss": 1.6385,
      "step": 36596
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4418875277042389,
      "learning_rate": 0.00038743509770982655,
      "loss": 1.6264,
      "step": 36597
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4545091688632965,
      "learning_rate": 0.00038742509930882673,
      "loss": 1.5951,
      "step": 36598
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.46496501564979553,
      "learning_rate": 0.0003874151008017057,
      "loss": 1.7346,
      "step": 36599
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4434857666492462,
      "learning_rate": 0.0003874051021884756,
      "loss": 1.6537,
      "step": 36600
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4230383038520813,
      "learning_rate": 0.00038739510346914863,
      "loss": 1.643,
      "step": 36601
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42064958810806274,
      "learning_rate": 0.00038738510464373684,
      "loss": 1.6261,
      "step": 36602
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4370659589767456,
      "learning_rate": 0.0003873751057122524,
      "loss": 1.6514,
      "step": 36603
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.6306002736091614,
      "learning_rate": 0.0003873651066747075,
      "loss": 1.6366,
      "step": 36604
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4312339425086975,
      "learning_rate": 0.0003873551075311142,
      "loss": 1.6436,
      "step": 36605
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44626569747924805,
      "learning_rate": 0.0003873451082814847,
      "loss": 1.5776,
      "step": 36606
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4328908324241638,
      "learning_rate": 0.00038733510892583113,
      "loss": 1.582,
      "step": 36607
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44025224447250366,
      "learning_rate": 0.0003873251094641655,
      "loss": 1.6281,
      "step": 36608
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4451947510242462,
      "learning_rate": 0.0003873151098965002,
      "loss": 1.6876,
      "step": 36609
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.47192925214767456,
      "learning_rate": 0.0003873051102228471,
      "loss": 1.6136,
      "step": 36610
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43501555919647217,
      "learning_rate": 0.0003872951104432185,
      "loss": 1.6272,
      "step": 36611
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4395705759525299,
      "learning_rate": 0.0003872851105576265,
      "loss": 1.6334,
      "step": 36612
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.47328686714172363,
      "learning_rate": 0.0003872751105660833,
      "loss": 1.6334,
      "step": 36613
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4443255066871643,
      "learning_rate": 0.00038726511046860093,
      "loss": 1.6571,
      "step": 36614
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4414428174495697,
      "learning_rate": 0.00038725511026519154,
      "loss": 1.7271,
      "step": 36615
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4463535249233246,
      "learning_rate": 0.0003872451099558673,
      "loss": 1.6494,
      "step": 36616
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4235755205154419,
      "learning_rate": 0.0003872351095406403,
      "loss": 1.5803,
      "step": 36617
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4180223047733307,
      "learning_rate": 0.00038722510901952284,
      "loss": 1.5852,
      "step": 36618
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.435824453830719,
      "learning_rate": 0.00038721510839252694,
      "loss": 1.5764,
      "step": 36619
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44314563274383545,
      "learning_rate": 0.00038720510765966477,
      "loss": 1.57,
      "step": 36620
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4338443875312805,
      "learning_rate": 0.0003871951068209484,
      "loss": 1.6297,
      "step": 36621
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4411632716655731,
      "learning_rate": 0.00038718510587639,
      "loss": 1.6449,
      "step": 36622
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4371638596057892,
      "learning_rate": 0.00038717510482600174,
      "loss": 1.6094,
      "step": 36623
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4541686475276947,
      "learning_rate": 0.00038716510366979575,
      "loss": 1.7382,
      "step": 36624
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42043906450271606,
      "learning_rate": 0.00038715510240778427,
      "loss": 1.6051,
      "step": 36625
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4443470239639282,
      "learning_rate": 0.0003871451010399791,
      "loss": 1.6637,
      "step": 36626
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44168025255203247,
      "learning_rate": 0.0003871350995663929,
      "loss": 1.626,
      "step": 36627
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44059303402900696,
      "learning_rate": 0.00038712509798703726,
      "loss": 1.6669,
      "step": 36628
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44140321016311646,
      "learning_rate": 0.00038711509630192476,
      "loss": 1.6355,
      "step": 36629
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4300713539123535,
      "learning_rate": 0.0003871050945110673,
      "loss": 1.685,
      "step": 36630
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4216706156730652,
      "learning_rate": 0.0003870950926144771,
      "loss": 1.5922,
      "step": 36631
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4364304542541504,
      "learning_rate": 0.0003870850906121664,
      "loss": 1.6707,
      "step": 36632
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44081154465675354,
      "learning_rate": 0.000387075088504147,
      "loss": 1.6527,
      "step": 36633
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42234086990356445,
      "learning_rate": 0.0003870650862904315,
      "loss": 1.6387,
      "step": 36634
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43071290850639343,
      "learning_rate": 0.00038705508397103165,
      "loss": 1.6714,
      "step": 36635
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4342252016067505,
      "learning_rate": 0.00038704508154595985,
      "loss": 1.5826,
      "step": 36636
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44083496928215027,
      "learning_rate": 0.0003870350790152281,
      "loss": 1.6342,
      "step": 36637
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4330650269985199,
      "learning_rate": 0.0003870250763788486,
      "loss": 1.634,
      "step": 36638
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43872594833374023,
      "learning_rate": 0.00038701507363683355,
      "loss": 1.6836,
      "step": 36639
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42676693201065063,
      "learning_rate": 0.000387005070789195,
      "loss": 1.6012,
      "step": 36640
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4340585172176361,
      "learning_rate": 0.0003869950678359451,
      "loss": 1.6519,
      "step": 36641
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43574026226997375,
      "learning_rate": 0.0003869850647770959,
      "loss": 1.6487,
      "step": 36642
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4338630735874176,
      "learning_rate": 0.0003869750616126597,
      "loss": 1.5828,
      "step": 36643
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43937498331069946,
      "learning_rate": 0.0003869650583426486,
      "loss": 1.6608,
      "step": 36644
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4479731321334839,
      "learning_rate": 0.00038695505496707486,
      "loss": 1.5964,
      "step": 36645
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43999430537223816,
      "learning_rate": 0.0003869450514859503,
      "loss": 1.5826,
      "step": 36646
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4612818658351898,
      "learning_rate": 0.00038693504789928744,
      "loss": 1.6536,
      "step": 36647
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44218337535858154,
      "learning_rate": 0.0003869250442070981,
      "loss": 1.6839,
      "step": 36648
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.432067334651947,
      "learning_rate": 0.00038691504040939457,
      "loss": 1.5596,
      "step": 36649
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4432612657546997,
      "learning_rate": 0.00038690503650618907,
      "loss": 1.5678,
      "step": 36650
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43061554431915283,
      "learning_rate": 0.0003868950324974936,
      "loss": 1.6237,
      "step": 36651
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4422468841075897,
      "learning_rate": 0.0003868850283833204,
      "loss": 1.6158,
      "step": 36652
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4669605791568756,
      "learning_rate": 0.00038687502416368154,
      "loss": 1.6702,
      "step": 36653
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44448909163475037,
      "learning_rate": 0.0003868650198385892,
      "loss": 1.6435,
      "step": 36654
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4284810423851013,
      "learning_rate": 0.0003868550154080556,
      "loss": 1.6252,
      "step": 36655
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4258623421192169,
      "learning_rate": 0.0003868450108720927,
      "loss": 1.5924,
      "step": 36656
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4319345951080322,
      "learning_rate": 0.00038683500623071286,
      "loss": 1.6828,
      "step": 36657
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4443204402923584,
      "learning_rate": 0.00038682500148392804,
      "loss": 1.6234,
      "step": 36658
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42222440242767334,
      "learning_rate": 0.00038681499663175046,
      "loss": 1.5736,
      "step": 36659
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4395727515220642,
      "learning_rate": 0.00038680499167419234,
      "loss": 1.6098,
      "step": 36660
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43488413095474243,
      "learning_rate": 0.0003867949866112657,
      "loss": 1.5442,
      "step": 36661
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4576411247253418,
      "learning_rate": 0.00038678498144298275,
      "loss": 1.6114,
      "step": 36662
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43698850274086,
      "learning_rate": 0.0003867749761693556,
      "loss": 1.6099,
      "step": 36663
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4540345072746277,
      "learning_rate": 0.0003867649707903964,
      "loss": 1.6986,
      "step": 36664
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43052029609680176,
      "learning_rate": 0.0003867549653061173,
      "loss": 1.6706,
      "step": 36665
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43059882521629333,
      "learning_rate": 0.00038674495971653054,
      "loss": 1.6133,
      "step": 36666
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44810059666633606,
      "learning_rate": 0.0003867349540216481,
      "loss": 1.6952,
      "step": 36667
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4583815932273865,
      "learning_rate": 0.00038672494822148226,
      "loss": 1.6243,
      "step": 36668
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4473791718482971,
      "learning_rate": 0.0003867149423160451,
      "loss": 1.653,
      "step": 36669
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4366689622402191,
      "learning_rate": 0.00038670493630534877,
      "loss": 1.6342,
      "step": 36670
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4324350655078888,
      "learning_rate": 0.00038669493018940535,
      "loss": 1.628,
      "step": 36671
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4421760141849518,
      "learning_rate": 0.00038668492396822716,
      "loss": 1.7031,
      "step": 36672
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4400685429573059,
      "learning_rate": 0.0003866749176418262,
      "loss": 1.6086,
      "step": 36673
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43271514773368835,
      "learning_rate": 0.00038666491121021465,
      "loss": 1.5286,
      "step": 36674
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4315895438194275,
      "learning_rate": 0.0003866549046734047,
      "loss": 1.5951,
      "step": 36675
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4606476128101349,
      "learning_rate": 0.00038664489803140847,
      "loss": 1.6671,
      "step": 36676
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4322822391986847,
      "learning_rate": 0.00038663489128423805,
      "loss": 1.6688,
      "step": 36677
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4260481595993042,
      "learning_rate": 0.0003866248844319056,
      "loss": 1.582,
      "step": 36678
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4265673756599426,
      "learning_rate": 0.00038661487747442344,
      "loss": 1.6429,
      "step": 36679
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4424029290676117,
      "learning_rate": 0.00038660487041180353,
      "loss": 1.5997,
      "step": 36680
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4383508861064911,
      "learning_rate": 0.000386594863244058,
      "loss": 1.7357,
      "step": 36681
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42836201190948486,
      "learning_rate": 0.0003865848559711992,
      "loss": 1.6459,
      "step": 36682
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44395676255226135,
      "learning_rate": 0.000386574848593239,
      "loss": 1.6134,
      "step": 36683
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4209182858467102,
      "learning_rate": 0.00038656484111018974,
      "loss": 1.635,
      "step": 36684
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4354420006275177,
      "learning_rate": 0.00038655483352206354,
      "loss": 1.6083,
      "step": 36685
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4304899573326111,
      "learning_rate": 0.00038654482582887247,
      "loss": 1.6078,
      "step": 36686
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45401865243911743,
      "learning_rate": 0.0003865348180306288,
      "loss": 1.6433,
      "step": 36687
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4394596815109253,
      "learning_rate": 0.0003865248101273445,
      "loss": 1.5843,
      "step": 36688
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43540096282958984,
      "learning_rate": 0.00038651480211903197,
      "loss": 1.6192,
      "step": 36689
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4156549572944641,
      "learning_rate": 0.00038650479400570317,
      "loss": 1.6066,
      "step": 36690
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4397716820240021,
      "learning_rate": 0.0003864947857873703,
      "loss": 1.6562,
      "step": 36691
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4395393431186676,
      "learning_rate": 0.0003864847774640455,
      "loss": 1.6814,
      "step": 36692
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43317991495132446,
      "learning_rate": 0.0003864747690357409,
      "loss": 1.6441,
      "step": 36693
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42139121890068054,
      "learning_rate": 0.00038646476050246866,
      "loss": 1.6216,
      "step": 36694
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44050484895706177,
      "learning_rate": 0.000386454751864241,
      "loss": 1.6371,
      "step": 36695
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44904083013534546,
      "learning_rate": 0.00038644474312106994,
      "loss": 1.6387,
      "step": 36696
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4350432753562927,
      "learning_rate": 0.00038643473427296774,
      "loss": 1.5991,
      "step": 36697
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4319865107536316,
      "learning_rate": 0.0003864247253199465,
      "loss": 1.6624,
      "step": 36698
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45012620091438293,
      "learning_rate": 0.00038641471626201836,
      "loss": 1.637,
      "step": 36699
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43723198771476746,
      "learning_rate": 0.0003864047070991955,
      "loss": 1.6148,
      "step": 36700
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45812782645225525,
      "learning_rate": 0.0003863946978314901,
      "loss": 1.6134,
      "step": 36701
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4464992880821228,
      "learning_rate": 0.0003863846884589142,
      "loss": 1.666,
      "step": 36702
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44646793603897095,
      "learning_rate": 0.00038637467898148013,
      "loss": 1.6113,
      "step": 36703
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45824724435806274,
      "learning_rate": 0.00038636466939919974,
      "loss": 1.6862,
      "step": 36704
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45277923345565796,
      "learning_rate": 0.00038635465971208557,
      "loss": 1.6526,
      "step": 36705
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.49884921312332153,
      "learning_rate": 0.0003863446499201494,
      "loss": 1.6842,
      "step": 36706
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44355741143226624,
      "learning_rate": 0.00038633464002340364,
      "loss": 1.6375,
      "step": 36707
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4345508813858032,
      "learning_rate": 0.0003863246300218604,
      "loss": 1.6782,
      "step": 36708
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.449490487575531,
      "learning_rate": 0.0003863146199155316,
      "loss": 1.6376,
      "step": 36709
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4367312788963318,
      "learning_rate": 0.00038630460970442976,
      "loss": 1.658,
      "step": 36710
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4351378083229065,
      "learning_rate": 0.00038629459938856664,
      "loss": 1.6315,
      "step": 36711
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4365021288394928,
      "learning_rate": 0.00038628458896795473,
      "loss": 1.6639,
      "step": 36712
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4290243089199066,
      "learning_rate": 0.00038627457844260597,
      "loss": 1.5833,
      "step": 36713
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4354853630065918,
      "learning_rate": 0.00038626456781253266,
      "loss": 1.6523,
      "step": 36714
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44555792212486267,
      "learning_rate": 0.0003862545570777469,
      "loss": 1.629,
      "step": 36715
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4487453103065491,
      "learning_rate": 0.00038624454623826073,
      "loss": 1.5887,
      "step": 36716
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4308241307735443,
      "learning_rate": 0.0003862345352940864,
      "loss": 1.621,
      "step": 36717
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4550327658653259,
      "learning_rate": 0.00038622452424523604,
      "loss": 1.6694,
      "step": 36718
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.451817125082016,
      "learning_rate": 0.00038621451309172195,
      "loss": 1.5995,
      "step": 36719
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4383876621723175,
      "learning_rate": 0.00038620450183355596,
      "loss": 1.5664,
      "step": 36720
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43681806325912476,
      "learning_rate": 0.0003861944904707505,
      "loss": 1.6248,
      "step": 36721
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4375622272491455,
      "learning_rate": 0.00038618447900331756,
      "loss": 1.6115,
      "step": 36722
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4412787854671478,
      "learning_rate": 0.00038617446743126945,
      "loss": 1.6271,
      "step": 36723
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4374745190143585,
      "learning_rate": 0.0003861644557546182,
      "loss": 1.6315,
      "step": 36724
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4429782032966614,
      "learning_rate": 0.00038615444397337596,
      "loss": 1.5625,
      "step": 36725
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4436609745025635,
      "learning_rate": 0.00038614443208755497,
      "loss": 1.6405,
      "step": 36726
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43623244762420654,
      "learning_rate": 0.00038613442009716734,
      "loss": 1.6361,
      "step": 36727
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42969945073127747,
      "learning_rate": 0.00038612440800222516,
      "loss": 1.573,
      "step": 36728
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4343666732311249,
      "learning_rate": 0.00038611439580274064,
      "loss": 1.6866,
      "step": 36729
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4348929822444916,
      "learning_rate": 0.00038610438349872595,
      "loss": 1.6059,
      "step": 36730
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4461641311645508,
      "learning_rate": 0.00038609437109019326,
      "loss": 1.6295,
      "step": 36731
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44332897663116455,
      "learning_rate": 0.00038608435857715465,
      "loss": 1.6211,
      "step": 36732
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4421756863594055,
      "learning_rate": 0.0003860743459596223,
      "loss": 1.6287,
      "step": 36733
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4308730661869049,
      "learning_rate": 0.0003860643332376084,
      "loss": 1.6057,
      "step": 36734
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44837597012519836,
      "learning_rate": 0.00038605432041112514,
      "loss": 1.5727,
      "step": 36735
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42874792218208313,
      "learning_rate": 0.0003860443074801845,
      "loss": 1.5501,
      "step": 36736
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43033501505851746,
      "learning_rate": 0.00038603429444479884,
      "loss": 1.6616,
      "step": 36737
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.5188207030296326,
      "learning_rate": 0.00038602428130498023,
      "loss": 1.6978,
      "step": 36738
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42466750741004944,
      "learning_rate": 0.0003860142680607407,
      "loss": 1.6776,
      "step": 36739
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44246014952659607,
      "learning_rate": 0.0003860042547120926,
      "loss": 1.6339,
      "step": 36740
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44587835669517517,
      "learning_rate": 0.0003859942412590481,
      "loss": 1.6479,
      "step": 36741
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4460870027542114,
      "learning_rate": 0.00038598422770161914,
      "loss": 1.6223,
      "step": 36742
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43469616770744324,
      "learning_rate": 0.0003859742140398179,
      "loss": 1.6497,
      "step": 36743
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44403746724128723,
      "learning_rate": 0.00038596420027365685,
      "loss": 1.6668,
      "step": 36744
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4231596887111664,
      "learning_rate": 0.00038595418640314784,
      "loss": 1.6107,
      "step": 36745
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4484619200229645,
      "learning_rate": 0.00038594417242830307,
      "loss": 1.5857,
      "step": 36746
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42964643239974976,
      "learning_rate": 0.0003859341583491348,
      "loss": 1.6294,
      "step": 36747
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42689213156700134,
      "learning_rate": 0.00038592414416565505,
      "loss": 1.6353,
      "step": 36748
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4652121663093567,
      "learning_rate": 0.0003859141298778762,
      "loss": 1.6796,
      "step": 36749
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4626423120498657,
      "learning_rate": 0.00038590411548581005,
      "loss": 1.6858,
      "step": 36750
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4338773787021637,
      "learning_rate": 0.00038589410098946914,
      "loss": 1.6601,
      "step": 36751
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4293385446071625,
      "learning_rate": 0.0003858840863888653,
      "loss": 1.6281,
      "step": 36752
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4498749077320099,
      "learning_rate": 0.0003858740716840109,
      "loss": 1.7093,
      "step": 36753
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4386388659477234,
      "learning_rate": 0.00038586405687491806,
      "loss": 1.614,
      "step": 36754
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4425601363182068,
      "learning_rate": 0.00038585404196159884,
      "loss": 1.6234,
      "step": 36755
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.46745729446411133,
      "learning_rate": 0.00038584402694406556,
      "loss": 1.7101,
      "step": 36756
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43673208355903625,
      "learning_rate": 0.00038583401182233027,
      "loss": 1.6418,
      "step": 36757
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.47362416982650757,
      "learning_rate": 0.000385823996596405,
      "loss": 1.7263,
      "step": 36758
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4330440163612366,
      "learning_rate": 0.00038581398126630214,
      "loss": 1.676,
      "step": 36759
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44710609316825867,
      "learning_rate": 0.00038580396583203375,
      "loss": 1.6578,
      "step": 36760
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.451596736907959,
      "learning_rate": 0.000385793950293612,
      "loss": 1.6797,
      "step": 36761
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43689417839050293,
      "learning_rate": 0.000385783934651049,
      "loss": 1.6479,
      "step": 36762
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44223159551620483,
      "learning_rate": 0.000385773918904357,
      "loss": 1.6857,
      "step": 36763
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4379071295261383,
      "learning_rate": 0.0003857639030535481,
      "loss": 1.6828,
      "step": 36764
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4503338634967804,
      "learning_rate": 0.00038575388709863437,
      "loss": 1.6038,
      "step": 36765
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4453278183937073,
      "learning_rate": 0.00038574387103962804,
      "loss": 1.588,
      "step": 36766
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44144612550735474,
      "learning_rate": 0.00038573385487654144,
      "loss": 1.6217,
      "step": 36767
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4451804459095001,
      "learning_rate": 0.0003857238386093864,
      "loss": 1.6531,
      "step": 36768
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43358954787254333,
      "learning_rate": 0.00038571382223817537,
      "loss": 1.651,
      "step": 36769
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4495425820350647,
      "learning_rate": 0.0003857038057629204,
      "loss": 1.6641,
      "step": 36770
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43309250473976135,
      "learning_rate": 0.00038569378918363353,
      "loss": 1.6168,
      "step": 36771
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4268176853656769,
      "learning_rate": 0.00038568377250032716,
      "loss": 1.6669,
      "step": 36772
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43996602296829224,
      "learning_rate": 0.00038567375571301317,
      "loss": 1.5957,
      "step": 36773
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4391757547855377,
      "learning_rate": 0.00038566373882170397,
      "loss": 1.5832,
      "step": 36774
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43604788184165955,
      "learning_rate": 0.00038565372182641154,
      "loss": 1.5863,
      "step": 36775
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4409017860889435,
      "learning_rate": 0.0003856437047271482,
      "loss": 1.6708,
      "step": 36776
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4269591271877289,
      "learning_rate": 0.00038563368752392595,
      "loss": 1.6652,
      "step": 36777
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43073248863220215,
      "learning_rate": 0.000385623670216757,
      "loss": 1.5997,
      "step": 36778
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4406615197658539,
      "learning_rate": 0.0003856136528056536,
      "loss": 1.5971,
      "step": 36779
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4256840646266937,
      "learning_rate": 0.00038560363529062776,
      "loss": 1.6436,
      "step": 36780
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4276677668094635,
      "learning_rate": 0.0003855936176716919,
      "loss": 1.6184,
      "step": 36781
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4303424656391144,
      "learning_rate": 0.0003855835999488578,
      "loss": 1.6292,
      "step": 36782
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44935551285743713,
      "learning_rate": 0.00038557358212213793,
      "loss": 1.5914,
      "step": 36783
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4274576008319855,
      "learning_rate": 0.00038556356419154424,
      "loss": 1.5869,
      "step": 36784
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42984211444854736,
      "learning_rate": 0.000385553546157089,
      "loss": 1.6712,
      "step": 36785
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4369015693664551,
      "learning_rate": 0.00038554352801878453,
      "loss": 1.6052,
      "step": 36786
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4387471675872803,
      "learning_rate": 0.00038553350977664274,
      "loss": 1.7035,
      "step": 36787
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4392121136188507,
      "learning_rate": 0.0003855234914306758,
      "loss": 1.6621,
      "step": 36788
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.6031221151351929,
      "learning_rate": 0.00038551347298089597,
      "loss": 1.6591,
      "step": 36789
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4303419291973114,
      "learning_rate": 0.0003855034544273153,
      "loss": 1.581,
      "step": 36790
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44662904739379883,
      "learning_rate": 0.00038549343576994616,
      "loss": 1.5881,
      "step": 36791
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4364560544490814,
      "learning_rate": 0.0003854834170088006,
      "loss": 1.5528,
      "step": 36792
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4499509632587433,
      "learning_rate": 0.00038547339814389074,
      "loss": 1.6579,
      "step": 36793
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4563969373703003,
      "learning_rate": 0.0003854633791752287,
      "loss": 1.6194,
      "step": 36794
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.45238152146339417,
      "learning_rate": 0.0003854533601028268,
      "loss": 1.615,
      "step": 36795
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43072956800460815,
      "learning_rate": 0.00038544334092669705,
      "loss": 1.672,
      "step": 36796
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4429152309894562,
      "learning_rate": 0.0003854333216468517,
      "loss": 1.7033,
      "step": 36797
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42776238918304443,
      "learning_rate": 0.00038542330226330285,
      "loss": 1.6122,
      "step": 36798
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4423888623714447,
      "learning_rate": 0.0003854132827760628,
      "loss": 1.5958,
      "step": 36799
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4272055923938751,
      "learning_rate": 0.00038540326318514353,
      "loss": 1.6513,
      "step": 36800
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.42535755038261414,
      "learning_rate": 0.00038539324349055724,
      "loss": 1.6387,
      "step": 36801
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43695327639579773,
      "learning_rate": 0.0003853832236923162,
      "loss": 1.6306,
      "step": 36802
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.447333961725235,
      "learning_rate": 0.00038537320379043244,
      "loss": 1.5054,
      "step": 36803
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4414982795715332,
      "learning_rate": 0.00038536318378491833,
      "loss": 1.6984,
      "step": 36804
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43935298919677734,
      "learning_rate": 0.0003853531636757857,
      "loss": 1.6204,
      "step": 36805
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4421554505825043,
      "learning_rate": 0.00038534314346304707,
      "loss": 1.6626,
      "step": 36806
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4525853991508484,
      "learning_rate": 0.0003853331231467144,
      "loss": 1.6078,
      "step": 36807
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4167463183403015,
      "learning_rate": 0.00038532310272679986,
      "loss": 1.5647,
      "step": 36808
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4334779977798462,
      "learning_rate": 0.0003853130822033156,
      "loss": 1.6081,
      "step": 36809
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4431644380092621,
      "learning_rate": 0.00038530306157627385,
      "loss": 1.6487,
      "step": 36810
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44246190786361694,
      "learning_rate": 0.0003852930408456869,
      "loss": 1.637,
      "step": 36811
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4394970238208771,
      "learning_rate": 0.0003852830200115666,
      "loss": 1.564,
      "step": 36812
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4468410313129425,
      "learning_rate": 0.0003852729990739253,
      "loss": 1.6552,
      "step": 36813
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.46100205183029175,
      "learning_rate": 0.0003852629780327752,
      "loss": 1.6843,
      "step": 36814
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.43888822197914124,
      "learning_rate": 0.0003852529568881284,
      "loss": 1.5967,
      "step": 36815
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.462715208530426,
      "learning_rate": 0.000385242935639997,
      "loss": 1.529,
      "step": 36816
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.4369436502456665,
      "learning_rate": 0.00038523291428839337,
      "loss": 1.6364,
      "step": 36817
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.469874769449234,
      "learning_rate": 0.00038522289283332946,
      "loss": 1.6593,
      "step": 36818
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.44119343161582947,
      "learning_rate": 0.0003852128712748175,
      "loss": 1.6712,
      "step": 36819
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4341522753238678,
      "learning_rate": 0.00038520284961286966,
      "loss": 1.6014,
      "step": 36820
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4444209337234497,
      "learning_rate": 0.00038519282784749815,
      "loss": 1.7052,
      "step": 36821
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4284655451774597,
      "learning_rate": 0.0003851828059787151,
      "loss": 1.5558,
      "step": 36822
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42836523056030273,
      "learning_rate": 0.00038517278400653263,
      "loss": 1.5957,
      "step": 36823
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45893192291259766,
      "learning_rate": 0.0003851627619309631,
      "loss": 1.6074,
      "step": 36824
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44656023383140564,
      "learning_rate": 0.0003851527397520183,
      "loss": 1.6115,
      "step": 36825
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44073057174682617,
      "learning_rate": 0.0003851427174697107,
      "loss": 1.737,
      "step": 36826
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4459448456764221,
      "learning_rate": 0.0003851326950840525,
      "loss": 1.5839,
      "step": 36827
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4389563202857971,
      "learning_rate": 0.00038512267259505555,
      "loss": 1.6122,
      "step": 36828
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4342234134674072,
      "learning_rate": 0.0003851126500027324,
      "loss": 1.5165,
      "step": 36829
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43347811698913574,
      "learning_rate": 0.00038510262730709495,
      "loss": 1.6263,
      "step": 36830
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42793160676956177,
      "learning_rate": 0.00038509260450815547,
      "loss": 1.606,
      "step": 36831
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4347337782382965,
      "learning_rate": 0.00038508258160592615,
      "loss": 1.603,
      "step": 36832
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4400102496147156,
      "learning_rate": 0.000385072558600419,
      "loss": 1.6438,
      "step": 36833
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4316701889038086,
      "learning_rate": 0.00038506253549164645,
      "loss": 1.6241,
      "step": 36834
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4327801465988159,
      "learning_rate": 0.00038505251227962035,
      "loss": 1.6539,
      "step": 36835
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4351940453052521,
      "learning_rate": 0.00038504248896435316,
      "loss": 1.6561,
      "step": 36836
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4405936300754547,
      "learning_rate": 0.0003850324655458568,
      "loss": 1.6526,
      "step": 36837
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42551106214523315,
      "learning_rate": 0.0003850224420241437,
      "loss": 1.599,
      "step": 36838
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43480491638183594,
      "learning_rate": 0.0003850124183992258,
      "loss": 1.648,
      "step": 36839
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45380091667175293,
      "learning_rate": 0.00038500239467111535,
      "loss": 1.6764,
      "step": 36840
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4399142265319824,
      "learning_rate": 0.0003849923708398246,
      "loss": 1.6489,
      "step": 36841
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4286123812198639,
      "learning_rate": 0.00038498234690536546,
      "loss": 1.5764,
      "step": 36842
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4473313093185425,
      "learning_rate": 0.0003849723228677504,
      "loss": 1.6246,
      "step": 36843
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43259885907173157,
      "learning_rate": 0.0003849622987269914,
      "loss": 1.7096,
      "step": 36844
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4329424798488617,
      "learning_rate": 0.00038495227448310073,
      "loss": 1.6291,
      "step": 36845
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4423799216747284,
      "learning_rate": 0.00038494225013609054,
      "loss": 1.6276,
      "step": 36846
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.428559273481369,
      "learning_rate": 0.00038493222568597294,
      "loss": 1.5855,
      "step": 36847
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4519766867160797,
      "learning_rate": 0.00038492220113276013,
      "loss": 1.6904,
      "step": 36848
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46126362681388855,
      "learning_rate": 0.00038491217647646425,
      "loss": 1.6302,
      "step": 36849
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4286831319332123,
      "learning_rate": 0.00038490215171709755,
      "loss": 1.6178,
      "step": 36850
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45592090487480164,
      "learning_rate": 0.0003848921268546721,
      "loss": 1.6748,
      "step": 36851
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4671982228755951,
      "learning_rate": 0.00038488210188920017,
      "loss": 1.7019,
      "step": 36852
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4320332109928131,
      "learning_rate": 0.0003848720768206938,
      "loss": 1.6466,
      "step": 36853
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4335155487060547,
      "learning_rate": 0.00038486205164916544,
      "loss": 1.6139,
      "step": 36854
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4528457820415497,
      "learning_rate": 0.00038485202637462686,
      "loss": 1.6981,
      "step": 36855
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4540606737136841,
      "learning_rate": 0.0003848420009970904,
      "loss": 1.6928,
      "step": 36856
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44228944182395935,
      "learning_rate": 0.0003848319755165683,
      "loss": 1.6022,
      "step": 36857
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.428225576877594,
      "learning_rate": 0.00038482194993307267,
      "loss": 1.6551,
      "step": 36858
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4456632435321808,
      "learning_rate": 0.0003848119242466158,
      "loss": 1.6452,
      "step": 36859
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44479671120643616,
      "learning_rate": 0.00038480189845720966,
      "loss": 1.6516,
      "step": 36860
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4403475224971771,
      "learning_rate": 0.00038479187256486655,
      "loss": 1.6275,
      "step": 36861
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4402550160884857,
      "learning_rate": 0.0003847818465695985,
      "loss": 1.5852,
      "step": 36862
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4337109327316284,
      "learning_rate": 0.0003847718204714179,
      "loss": 1.5697,
      "step": 36863
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46641451120376587,
      "learning_rate": 0.00038476179427033674,
      "loss": 1.648,
      "step": 36864
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4412927031517029,
      "learning_rate": 0.0003847517679663672,
      "loss": 1.5959,
      "step": 36865
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4520862400531769,
      "learning_rate": 0.0003847417415595216,
      "loss": 1.6055,
      "step": 36866
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44625601172447205,
      "learning_rate": 0.0003847317150498119,
      "loss": 1.6351,
      "step": 36867
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46983855962753296,
      "learning_rate": 0.0003847216884372505,
      "loss": 1.6742,
      "step": 36868
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46380794048309326,
      "learning_rate": 0.00038471166172184944,
      "loss": 1.6277,
      "step": 36869
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4363458454608917,
      "learning_rate": 0.0003847016349036208,
      "loss": 1.6298,
      "step": 36870
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4390341341495514,
      "learning_rate": 0.000384691607982577,
      "loss": 1.6864,
      "step": 36871
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45626261830329895,
      "learning_rate": 0.00038468158095872996,
      "loss": 1.6873,
      "step": 36872
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4419144093990326,
      "learning_rate": 0.000384671553832092,
      "loss": 1.6192,
      "step": 36873
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4374091923236847,
      "learning_rate": 0.0003846615266026753,
      "loss": 1.6531,
      "step": 36874
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42089101672172546,
      "learning_rate": 0.00038465149927049193,
      "loss": 1.6079,
      "step": 36875
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4317740201950073,
      "learning_rate": 0.00038464147183555405,
      "loss": 1.6003,
      "step": 36876
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4361334443092346,
      "learning_rate": 0.00038463144429787396,
      "loss": 1.6116,
      "step": 36877
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43822765350341797,
      "learning_rate": 0.0003846214166574637,
      "loss": 1.6464,
      "step": 36878
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4252380132675171,
      "learning_rate": 0.00038461138891433567,
      "loss": 1.5333,
      "step": 36879
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46679097414016724,
      "learning_rate": 0.00038460136106850174,
      "loss": 1.6433,
      "step": 36880
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42958489060401917,
      "learning_rate": 0.00038459133311997425,
      "loss": 1.5975,
      "step": 36881
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4320073127746582,
      "learning_rate": 0.0003845813050687653,
      "loss": 1.6331,
      "step": 36882
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43425464630126953,
      "learning_rate": 0.0003845712769148872,
      "loss": 1.6462,
      "step": 36883
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4489632248878479,
      "learning_rate": 0.00038456124865835205,
      "loss": 1.7311,
      "step": 36884
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4559672772884369,
      "learning_rate": 0.0003845512202991719,
      "loss": 1.6666,
      "step": 36885
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4275225102901459,
      "learning_rate": 0.00038454119183735906,
      "loss": 1.6227,
      "step": 36886
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4227062165737152,
      "learning_rate": 0.0003845311632729257,
      "loss": 1.6666,
      "step": 36887
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43876856565475464,
      "learning_rate": 0.0003845211346058839,
      "loss": 1.6536,
      "step": 36888
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42791375517845154,
      "learning_rate": 0.00038451110583624605,
      "loss": 1.6057,
      "step": 36889
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4500281512737274,
      "learning_rate": 0.00038450107696402395,
      "loss": 1.6098,
      "step": 36890
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4334147274494171,
      "learning_rate": 0.0003844910479892302,
      "loss": 1.6163,
      "step": 36891
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4337157905101776,
      "learning_rate": 0.0003844810189118766,
      "loss": 1.6296,
      "step": 36892
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4286322295665741,
      "learning_rate": 0.00038447098973197556,
      "loss": 1.6076,
      "step": 36893
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.435883492231369,
      "learning_rate": 0.0003844609604495392,
      "loss": 1.6716,
      "step": 36894
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44923657178878784,
      "learning_rate": 0.00038445093106457965,
      "loss": 1.7089,
      "step": 36895
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4286671280860901,
      "learning_rate": 0.00038444090157710925,
      "loss": 1.6069,
      "step": 36896
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4349285662174225,
      "learning_rate": 0.0003844308719871398,
      "loss": 1.589,
      "step": 36897
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4312954246997833,
      "learning_rate": 0.0003844208422946839,
      "loss": 1.5812,
      "step": 36898
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45944997668266296,
      "learning_rate": 0.0003844108124997534,
      "loss": 1.7281,
      "step": 36899
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43817076086997986,
      "learning_rate": 0.00038440078260236065,
      "loss": 1.6723,
      "step": 36900
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4330242872238159,
      "learning_rate": 0.0003843907526025178,
      "loss": 1.6327,
      "step": 36901
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43302810192108154,
      "learning_rate": 0.000384380722500237,
      "loss": 1.6896,
      "step": 36902
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.437892884016037,
      "learning_rate": 0.00038437069229553056,
      "loss": 1.6001,
      "step": 36903
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44717779755592346,
      "learning_rate": 0.0003843606619884104,
      "loss": 1.6514,
      "step": 36904
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43282341957092285,
      "learning_rate": 0.00038435063157888884,
      "loss": 1.6291,
      "step": 36905
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46056994795799255,
      "learning_rate": 0.00038434060106697803,
      "loss": 1.5673,
      "step": 36906
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4395676851272583,
      "learning_rate": 0.00038433057045269024,
      "loss": 1.6623,
      "step": 36907
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4361584782600403,
      "learning_rate": 0.00038432053973603745,
      "loss": 1.6387,
      "step": 36908
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4473592936992645,
      "learning_rate": 0.00038431050891703206,
      "loss": 1.6376,
      "step": 36909
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4496310353279114,
      "learning_rate": 0.0003843004779956861,
      "loss": 1.562,
      "step": 36910
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43861329555511475,
      "learning_rate": 0.0003842904469720117,
      "loss": 1.6037,
      "step": 36911
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4424532651901245,
      "learning_rate": 0.0003842804158460212,
      "loss": 1.6992,
      "step": 36912
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4350181519985199,
      "learning_rate": 0.0003842703846177267,
      "loss": 1.6353,
      "step": 36913
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44401147961616516,
      "learning_rate": 0.00038426035328714036,
      "loss": 1.6509,
      "step": 36914
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4338333308696747,
      "learning_rate": 0.00038425032185427423,
      "loss": 1.6156,
      "step": 36915
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.430136114358902,
      "learning_rate": 0.0003842402903191409,
      "loss": 1.597,
      "step": 36916
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4342542588710785,
      "learning_rate": 0.000384230258681752,
      "loss": 1.6805,
      "step": 36917
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4294290244579315,
      "learning_rate": 0.0003842202269421201,
      "loss": 1.5496,
      "step": 36918
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.438876748085022,
      "learning_rate": 0.00038421019510025725,
      "loss": 1.6459,
      "step": 36919
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4481034278869629,
      "learning_rate": 0.0003842001631561756,
      "loss": 1.6164,
      "step": 36920
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42861413955688477,
      "learning_rate": 0.00038419013110988745,
      "loss": 1.5765,
      "step": 36921
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42879924178123474,
      "learning_rate": 0.0003841800989614047,
      "loss": 1.6125,
      "step": 36922
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44373536109924316,
      "learning_rate": 0.0003841700667107399,
      "loss": 1.6257,
      "step": 36923
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4358314871788025,
      "learning_rate": 0.00038416003435790496,
      "loss": 1.6024,
      "step": 36924
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.427826851606369,
      "learning_rate": 0.00038415000190291217,
      "loss": 1.5732,
      "step": 36925
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4292087256908417,
      "learning_rate": 0.0003841399693457736,
      "loss": 1.5456,
      "step": 36926
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43656060099601746,
      "learning_rate": 0.00038412993668650156,
      "loss": 1.688,
      "step": 36927
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42465463280677795,
      "learning_rate": 0.00038411990392510825,
      "loss": 1.6475,
      "step": 36928
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43505072593688965,
      "learning_rate": 0.00038410987106160565,
      "loss": 1.6558,
      "step": 36929
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4442691504955292,
      "learning_rate": 0.0003840998380960061,
      "loss": 1.6701,
      "step": 36930
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4397416114807129,
      "learning_rate": 0.0003840898050283218,
      "loss": 1.6394,
      "step": 36931
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4373883008956909,
      "learning_rate": 0.00038407977185856475,
      "loss": 1.5941,
      "step": 36932
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43989548087120056,
      "learning_rate": 0.00038406973858674733,
      "loss": 1.6537,
      "step": 36933
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43979671597480774,
      "learning_rate": 0.0003840597052128816,
      "loss": 1.6375,
      "step": 36934
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4305598735809326,
      "learning_rate": 0.0003840496717369798,
      "loss": 1.6217,
      "step": 36935
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4183216094970703,
      "learning_rate": 0.00038403963815905406,
      "loss": 1.649,
      "step": 36936
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4605353772640228,
      "learning_rate": 0.0003840296044791166,
      "loss": 1.6902,
      "step": 36937
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43608206510543823,
      "learning_rate": 0.00038401957069717955,
      "loss": 1.5647,
      "step": 36938
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4281928837299347,
      "learning_rate": 0.00038400953681325513,
      "loss": 1.5946,
      "step": 36939
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4376720190048218,
      "learning_rate": 0.00038399950282735543,
      "loss": 1.5649,
      "step": 36940
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4322817027568817,
      "learning_rate": 0.0003839894687394929,
      "loss": 1.6152,
      "step": 36941
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43504151701927185,
      "learning_rate": 0.0003839794345496794,
      "loss": 1.6603,
      "step": 36942
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4202863574028015,
      "learning_rate": 0.0003839694002579273,
      "loss": 1.5788,
      "step": 36943
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4323098957538605,
      "learning_rate": 0.0003839593658642487,
      "loss": 1.6157,
      "step": 36944
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4490123987197876,
      "learning_rate": 0.0003839493313686557,
      "loss": 1.6601,
      "step": 36945
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4820787012577057,
      "learning_rate": 0.00038393929677116073,
      "loss": 1.6759,
      "step": 36946
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4209817945957184,
      "learning_rate": 0.0003839292620717757,
      "loss": 1.6486,
      "step": 36947
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4503079056739807,
      "learning_rate": 0.00038391922727051305,
      "loss": 1.6196,
      "step": 36948
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43504008650779724,
      "learning_rate": 0.00038390919236738476,
      "loss": 1.5914,
      "step": 36949
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4368745684623718,
      "learning_rate": 0.000383899157362403,
      "loss": 1.5873,
      "step": 36950
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.450307697057724,
      "learning_rate": 0.00038388912225558017,
      "loss": 1.622,
      "step": 36951
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44256532192230225,
      "learning_rate": 0.0003838790870469281,
      "loss": 1.6487,
      "step": 36952
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44985195994377136,
      "learning_rate": 0.00038386905173645936,
      "loss": 1.5611,
      "step": 36953
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4316343367099762,
      "learning_rate": 0.00038385901632418594,
      "loss": 1.6483,
      "step": 36954
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4598948657512665,
      "learning_rate": 0.0003838489808101199,
      "loss": 1.6704,
      "step": 36955
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44212016463279724,
      "learning_rate": 0.0003838389451942737,
      "loss": 1.6357,
      "step": 36956
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44378340244293213,
      "learning_rate": 0.0003838289094766593,
      "loss": 1.6924,
      "step": 36957
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43427574634552,
      "learning_rate": 0.00038381887365728895,
      "loss": 1.5942,
      "step": 36958
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4244559109210968,
      "learning_rate": 0.00038380883773617483,
      "loss": 1.6017,
      "step": 36959
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45133134722709656,
      "learning_rate": 0.00038379880171332916,
      "loss": 1.7015,
      "step": 36960
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4334122836589813,
      "learning_rate": 0.0003837887655887641,
      "loss": 1.634,
      "step": 36961
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4263620674610138,
      "learning_rate": 0.0003837787293624918,
      "loss": 1.6828,
      "step": 36962
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4235123097896576,
      "learning_rate": 0.0003837686930345244,
      "loss": 1.5897,
      "step": 36963
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42781901359558105,
      "learning_rate": 0.00038375865660487425,
      "loss": 1.6503,
      "step": 36964
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.508059024810791,
      "learning_rate": 0.00038374862007355343,
      "loss": 1.5757,
      "step": 36965
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4402554929256439,
      "learning_rate": 0.0003837385834405741,
      "loss": 1.6477,
      "step": 36966
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4398641586303711,
      "learning_rate": 0.0003837285467059484,
      "loss": 1.6367,
      "step": 36967
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4427618682384491,
      "learning_rate": 0.00038371850986968864,
      "loss": 1.6568,
      "step": 36968
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.47759711742401123,
      "learning_rate": 0.00038370847293180696,
      "loss": 1.6559,
      "step": 36969
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43793267011642456,
      "learning_rate": 0.0003836984358923155,
      "loss": 1.6414,
      "step": 36970
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44832944869995117,
      "learning_rate": 0.00038368839875122657,
      "loss": 1.6379,
      "step": 36971
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.435089647769928,
      "learning_rate": 0.00038367836150855213,
      "loss": 1.5704,
      "step": 36972
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43849003314971924,
      "learning_rate": 0.0003836683241643046,
      "loss": 1.5528,
      "step": 36973
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44778749346733093,
      "learning_rate": 0.00038365828671849594,
      "loss": 1.685,
      "step": 36974
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45072638988494873,
      "learning_rate": 0.0003836482491711385,
      "loss": 1.6185,
      "step": 36975
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44401732087135315,
      "learning_rate": 0.00038363821152224444,
      "loss": 1.615,
      "step": 36976
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4273585379123688,
      "learning_rate": 0.0003836281737718258,
      "loss": 1.6449,
      "step": 36977
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43167218565940857,
      "learning_rate": 0.00038361813591989503,
      "loss": 1.6206,
      "step": 36978
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4463845491409302,
      "learning_rate": 0.00038360809796646406,
      "loss": 1.6314,
      "step": 36979
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.47245070338249207,
      "learning_rate": 0.0003835980599115452,
      "loss": 1.593,
      "step": 36980
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4472389817237854,
      "learning_rate": 0.0003835880217551506,
      "loss": 1.6112,
      "step": 36981
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4272051453590393,
      "learning_rate": 0.00038357798349729247,
      "loss": 1.6304,
      "step": 36982
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4293428063392639,
      "learning_rate": 0.0003835679451379831,
      "loss": 1.6146,
      "step": 36983
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4442119598388672,
      "learning_rate": 0.0003835579066772343,
      "loss": 1.5326,
      "step": 36984
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.439055472612381,
      "learning_rate": 0.00038354786811505877,
      "loss": 1.5677,
      "step": 36985
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4669750928878784,
      "learning_rate": 0.0003835378294514683,
      "loss": 1.6539,
      "step": 36986
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46324318647384644,
      "learning_rate": 0.0003835277906864752,
      "loss": 1.6525,
      "step": 36987
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4441589117050171,
      "learning_rate": 0.00038351775182009175,
      "loss": 1.6445,
      "step": 36988
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42370179295539856,
      "learning_rate": 0.00038350771285232995,
      "loss": 1.6336,
      "step": 36989
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43934696912765503,
      "learning_rate": 0.00038349767378320225,
      "loss": 1.6626,
      "step": 36990
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4559260606765747,
      "learning_rate": 0.00038348763461272056,
      "loss": 1.5993,
      "step": 36991
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4395124614238739,
      "learning_rate": 0.0003834775953408972,
      "loss": 1.7021,
      "step": 36992
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4360983371734619,
      "learning_rate": 0.0003834675559677444,
      "loss": 1.6125,
      "step": 36993
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4567214846611023,
      "learning_rate": 0.0003834575164932742,
      "loss": 1.6042,
      "step": 36994
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4209887385368347,
      "learning_rate": 0.00038344747691749885,
      "loss": 1.6524,
      "step": 36995
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4523400366306305,
      "learning_rate": 0.0003834374372404307,
      "loss": 1.6289,
      "step": 36996
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4398285150527954,
      "learning_rate": 0.0003834273974620817,
      "loss": 1.6536,
      "step": 36997
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4482935070991516,
      "learning_rate": 0.0003834173575824641,
      "loss": 1.6576,
      "step": 36998
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42406487464904785,
      "learning_rate": 0.0003834073176015902,
      "loss": 1.6034,
      "step": 36999
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4395115077495575,
      "learning_rate": 0.00038339727751947203,
      "loss": 1.6151,
      "step": 37000
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4371614456176758,
      "learning_rate": 0.0003833872373361219,
      "loss": 1.6635,
      "step": 37001
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4265711307525635,
      "learning_rate": 0.0003833771970515519,
      "loss": 1.6396,
      "step": 37002
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44262731075286865,
      "learning_rate": 0.0003833671566657744,
      "loss": 1.6427,
      "step": 37003
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.434813529253006,
      "learning_rate": 0.00038335711617880136,
      "loss": 1.6387,
      "step": 37004
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4329524338245392,
      "learning_rate": 0.000383347075590645,
      "loss": 1.6343,
      "step": 37005
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4299183785915375,
      "learning_rate": 0.00038333703490131765,
      "loss": 1.5925,
      "step": 37006
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45332032442092896,
      "learning_rate": 0.0003833269941108314,
      "loss": 1.682,
      "step": 37007
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4365551769733429,
      "learning_rate": 0.0003833169532191985,
      "loss": 1.6544,
      "step": 37008
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4344905912876129,
      "learning_rate": 0.00038330691222643093,
      "loss": 1.6204,
      "step": 37009
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43627482652664185,
      "learning_rate": 0.00038329687113254125,
      "loss": 1.6365,
      "step": 37010
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.420756459236145,
      "learning_rate": 0.00038328682993754137,
      "loss": 1.5816,
      "step": 37011
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44220027327537537,
      "learning_rate": 0.0003832767886414435,
      "loss": 1.6535,
      "step": 37012
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43873855471611023,
      "learning_rate": 0.00038326674724425996,
      "loss": 1.6561,
      "step": 37013
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42095354199409485,
      "learning_rate": 0.0003832567057460028,
      "loss": 1.6259,
      "step": 37014
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4275137484073639,
      "learning_rate": 0.0003832466641466843,
      "loss": 1.647,
      "step": 37015
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43237441778182983,
      "learning_rate": 0.00038323662244631656,
      "loss": 1.5747,
      "step": 37016
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4289681017398834,
      "learning_rate": 0.0003832265806449119,
      "loss": 1.625,
      "step": 37017
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43471479415893555,
      "learning_rate": 0.0003832165387424824,
      "loss": 1.5842,
      "step": 37018
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.435892790555954,
      "learning_rate": 0.0003832064967390403,
      "loss": 1.6659,
      "step": 37019
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.430853933095932,
      "learning_rate": 0.0003831964546345978,
      "loss": 1.5998,
      "step": 37020
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42266038060188293,
      "learning_rate": 0.000383186412429167,
      "loss": 1.6416,
      "step": 37021
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44467300176620483,
      "learning_rate": 0.0003831763701227601,
      "loss": 1.5796,
      "step": 37022
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4331892728805542,
      "learning_rate": 0.0003831663277153895,
      "loss": 1.6097,
      "step": 37023
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45154786109924316,
      "learning_rate": 0.00038315628520706706,
      "loss": 1.665,
      "step": 37024
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4529499113559723,
      "learning_rate": 0.00038314624259780524,
      "loss": 1.7264,
      "step": 37025
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43596264719963074,
      "learning_rate": 0.0003831361998876162,
      "loss": 1.58,
      "step": 37026
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43700140714645386,
      "learning_rate": 0.00038312615707651197,
      "loss": 1.6171,
      "step": 37027
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45808157324790955,
      "learning_rate": 0.0003831161141645048,
      "loss": 1.6764,
      "step": 37028
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42249447107315063,
      "learning_rate": 0.00038310607115160693,
      "loss": 1.5932,
      "step": 37029
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.47937288880348206,
      "learning_rate": 0.00038309602803783055,
      "loss": 1.7174,
      "step": 37030
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4399107098579407,
      "learning_rate": 0.0003830859848231879,
      "loss": 1.6707,
      "step": 37031
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4397546350955963,
      "learning_rate": 0.000383075941507691,
      "loss": 1.6681,
      "step": 37032
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4432772696018219,
      "learning_rate": 0.00038306589809135224,
      "loss": 1.6005,
      "step": 37033
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4526636004447937,
      "learning_rate": 0.00038305585457418365,
      "loss": 1.6698,
      "step": 37034
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.5226418972015381,
      "learning_rate": 0.0003830458109561976,
      "loss": 1.6358,
      "step": 37035
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4466347098350525,
      "learning_rate": 0.00038303576723740603,
      "loss": 1.5969,
      "step": 37036
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.41330036520957947,
      "learning_rate": 0.00038302572341782136,
      "loss": 1.5174,
      "step": 37037
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44718170166015625,
      "learning_rate": 0.00038301567949745576,
      "loss": 1.6618,
      "step": 37038
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4430009424686432,
      "learning_rate": 0.00038300563547632115,
      "loss": 1.5996,
      "step": 37039
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4324188828468323,
      "learning_rate": 0.00038299559135443007,
      "loss": 1.5787,
      "step": 37040
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44296109676361084,
      "learning_rate": 0.0003829855471317946,
      "loss": 1.5639,
      "step": 37041
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44571053981781006,
      "learning_rate": 0.0003829755028084268,
      "loss": 1.6125,
      "step": 37042
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42260438203811646,
      "learning_rate": 0.00038296545838433903,
      "loss": 1.5613,
      "step": 37043
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4364922046661377,
      "learning_rate": 0.0003829554138595434,
      "loss": 1.562,
      "step": 37044
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4747503995895386,
      "learning_rate": 0.0003829453692340522,
      "loss": 1.6588,
      "step": 37045
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43770623207092285,
      "learning_rate": 0.00038293532450787743,
      "loss": 1.6265,
      "step": 37046
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43677473068237305,
      "learning_rate": 0.0003829252796810315,
      "loss": 1.6058,
      "step": 37047
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43432268500328064,
      "learning_rate": 0.00038291523475352635,
      "loss": 1.655,
      "step": 37048
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44107598066329956,
      "learning_rate": 0.0003829051897253744,
      "loss": 1.5964,
      "step": 37049
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4353272020816803,
      "learning_rate": 0.00038289514459658775,
      "loss": 1.6345,
      "step": 37050
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4389304518699646,
      "learning_rate": 0.0003828850993671787,
      "loss": 1.5478,
      "step": 37051
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4438871741294861,
      "learning_rate": 0.00038287505403715926,
      "loss": 1.6419,
      "step": 37052
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4586353003978729,
      "learning_rate": 0.0003828650086065417,
      "loss": 1.5945,
      "step": 37053
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4396471679210663,
      "learning_rate": 0.00038285496307533825,
      "loss": 1.6377,
      "step": 37054
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.456119567155838,
      "learning_rate": 0.00038284491744356114,
      "loss": 1.6576,
      "step": 37055
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4495677947998047,
      "learning_rate": 0.00038283487171122255,
      "loss": 1.6909,
      "step": 37056
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42458823323249817,
      "learning_rate": 0.00038282482587833445,
      "loss": 1.6062,
      "step": 37057
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43654271960258484,
      "learning_rate": 0.0003828147799449093,
      "loss": 1.6493,
      "step": 37058
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44349315762519836,
      "learning_rate": 0.0003828047339109593,
      "loss": 1.6106,
      "step": 37059
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44698360562324524,
      "learning_rate": 0.00038279468777649645,
      "loss": 1.6546,
      "step": 37060
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4566785395145416,
      "learning_rate": 0.0003827846415415331,
      "loss": 1.5908,
      "step": 37061
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43882638216018677,
      "learning_rate": 0.0003827745952060813,
      "loss": 1.5931,
      "step": 37062
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4317620098590851,
      "learning_rate": 0.00038276454877015346,
      "loss": 1.615,
      "step": 37063
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4344583749771118,
      "learning_rate": 0.00038275450223376154,
      "loss": 1.6242,
      "step": 37064
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45654547214508057,
      "learning_rate": 0.0003827444555969179,
      "loss": 1.678,
      "step": 37065
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4287327527999878,
      "learning_rate": 0.0003827344088596347,
      "loss": 1.6152,
      "step": 37066
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4479440450668335,
      "learning_rate": 0.00038272436202192413,
      "loss": 1.6421,
      "step": 37067
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4333798289299011,
      "learning_rate": 0.0003827143150837984,
      "loss": 1.5782,
      "step": 37068
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4246635437011719,
      "learning_rate": 0.0003827042680452695,
      "loss": 1.6279,
      "step": 37069
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4430919885635376,
      "learning_rate": 0.00038269422090635,
      "loss": 1.6357,
      "step": 37070
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4361232817173004,
      "learning_rate": 0.0003826841736670518,
      "loss": 1.6658,
      "step": 37071
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4378412365913391,
      "learning_rate": 0.00038267412632738725,
      "loss": 1.6932,
      "step": 37072
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4428156614303589,
      "learning_rate": 0.00038266407888736843,
      "loss": 1.6222,
      "step": 37073
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44869518280029297,
      "learning_rate": 0.0003826540313470077,
      "loss": 1.6454,
      "step": 37074
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4284399449825287,
      "learning_rate": 0.0003826439837063171,
      "loss": 1.5633,
      "step": 37075
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4399757385253906,
      "learning_rate": 0.0003826339359653088,
      "loss": 1.652,
      "step": 37076
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46323007345199585,
      "learning_rate": 0.0003826238881239952,
      "loss": 1.6462,
      "step": 37077
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43516412377357483,
      "learning_rate": 0.00038261384018238836,
      "loss": 1.508,
      "step": 37078
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44681522250175476,
      "learning_rate": 0.0003826037921405004,
      "loss": 1.6534,
      "step": 37079
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4368206262588501,
      "learning_rate": 0.0003825937439983437,
      "loss": 1.6195,
      "step": 37080
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44941121339797974,
      "learning_rate": 0.0003825836957559303,
      "loss": 1.5682,
      "step": 37081
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.46324557065963745,
      "learning_rate": 0.00038257364741327255,
      "loss": 1.559,
      "step": 37082
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44781360030174255,
      "learning_rate": 0.00038256359897038245,
      "loss": 1.5589,
      "step": 37083
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4247085750102997,
      "learning_rate": 0.00038255355042727233,
      "loss": 1.6578,
      "step": 37084
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4346713125705719,
      "learning_rate": 0.0003825435017839544,
      "loss": 1.6075,
      "step": 37085
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43767908215522766,
      "learning_rate": 0.0003825334530404408,
      "loss": 1.6128,
      "step": 37086
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.5420131683349609,
      "learning_rate": 0.00038252340419674374,
      "loss": 1.7415,
      "step": 37087
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4495360255241394,
      "learning_rate": 0.0003825133552528755,
      "loss": 1.6393,
      "step": 37088
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4571472108364105,
      "learning_rate": 0.0003825033062088481,
      "loss": 1.6637,
      "step": 37089
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4492664039134979,
      "learning_rate": 0.00038249325706467394,
      "loss": 1.612,
      "step": 37090
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.457848459482193,
      "learning_rate": 0.000382483207820365,
      "loss": 1.5565,
      "step": 37091
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45046064257621765,
      "learning_rate": 0.00038247315847593375,
      "loss": 1.6228,
      "step": 37092
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4487285315990448,
      "learning_rate": 0.00038246310903139214,
      "loss": 1.6446,
      "step": 37093
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4467529058456421,
      "learning_rate": 0.00038245305948675243,
      "loss": 1.6203,
      "step": 37094
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4491974413394928,
      "learning_rate": 0.000382443009842027,
      "loss": 1.6291,
      "step": 37095
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45256540179252625,
      "learning_rate": 0.0003824329600972277,
      "loss": 1.5984,
      "step": 37096
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4430125951766968,
      "learning_rate": 0.0003824229102523671,
      "loss": 1.5871,
      "step": 37097
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42532020807266235,
      "learning_rate": 0.00038241286030745716,
      "loss": 1.6547,
      "step": 37098
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44838982820510864,
      "learning_rate": 0.0003824028102625102,
      "loss": 1.6292,
      "step": 37099
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4666852056980133,
      "learning_rate": 0.00038239276011753836,
      "loss": 1.6707,
      "step": 37100
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4536406397819519,
      "learning_rate": 0.00038238270987255376,
      "loss": 1.6287,
      "step": 37101
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44323068857192993,
      "learning_rate": 0.0003823726595275688,
      "loss": 1.663,
      "step": 37102
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.47008809447288513,
      "learning_rate": 0.0003823626090825955,
      "loss": 1.5951,
      "step": 37103
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4375881850719452,
      "learning_rate": 0.0003823525585376462,
      "loss": 1.6417,
      "step": 37104
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43530037999153137,
      "learning_rate": 0.0003823425078927329,
      "loss": 1.6292,
      "step": 37105
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4395284056663513,
      "learning_rate": 0.000382332457147868,
      "loss": 1.5584,
      "step": 37106
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.44747194647789,
      "learning_rate": 0.0003823224063030637,
      "loss": 1.6256,
      "step": 37107
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4465850591659546,
      "learning_rate": 0.00038231235535833206,
      "loss": 1.6671,
      "step": 37108
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45246538519859314,
      "learning_rate": 0.0003823023043136853,
      "loss": 1.7064,
      "step": 37109
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4566257894039154,
      "learning_rate": 0.0003822922531691358,
      "loss": 1.6503,
      "step": 37110
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45326510071754456,
      "learning_rate": 0.00038228220192469545,
      "loss": 1.5994,
      "step": 37111
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4407963156700134,
      "learning_rate": 0.00038227215058037674,
      "loss": 1.7045,
      "step": 37112
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4613363742828369,
      "learning_rate": 0.00038226209913619184,
      "loss": 1.6338,
      "step": 37113
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4463045001029968,
      "learning_rate": 0.00038225204759215274,
      "loss": 1.633,
      "step": 37114
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43513965606689453,
      "learning_rate": 0.00038224199594827184,
      "loss": 1.7044,
      "step": 37115
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4241751730442047,
      "learning_rate": 0.00038223194420456124,
      "loss": 1.5935,
      "step": 37116
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.43765494227409363,
      "learning_rate": 0.0003822218923610332,
      "loss": 1.6475,
      "step": 37117
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.45986130833625793,
      "learning_rate": 0.00038221184041769987,
      "loss": 1.6364,
      "step": 37118
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.454903781414032,
      "learning_rate": 0.00038220178837457345,
      "loss": 1.6866,
      "step": 37119
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.4288923740386963,
      "learning_rate": 0.0003821917362316663,
      "loss": 1.6345,
      "step": 37120
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4699978232383728,
      "learning_rate": 0.0003821816839889904,
      "loss": 1.5916,
      "step": 37121
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46476805210113525,
      "learning_rate": 0.000382171631646558,
      "loss": 1.6249,
      "step": 37122
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43942588567733765,
      "learning_rate": 0.0003821615792043815,
      "loss": 1.588,
      "step": 37123
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43004995584487915,
      "learning_rate": 0.00038215152666247276,
      "loss": 1.5838,
      "step": 37124
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4367443919181824,
      "learning_rate": 0.0003821414740208443,
      "loss": 1.615,
      "step": 37125
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4725940525531769,
      "learning_rate": 0.00038213142127950804,
      "loss": 1.6579,
      "step": 37126
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42543426156044006,
      "learning_rate": 0.00038212136843847653,
      "loss": 1.5142,
      "step": 37127
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4383360743522644,
      "learning_rate": 0.0003821113154977617,
      "loss": 1.6636,
      "step": 37128
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4377496838569641,
      "learning_rate": 0.0003821012624573758,
      "loss": 1.7207,
      "step": 37129
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4558972716331482,
      "learning_rate": 0.0003820912093173312,
      "loss": 1.5668,
      "step": 37130
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4549263119697571,
      "learning_rate": 0.00038208115607763973,
      "loss": 1.6589,
      "step": 37131
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4542056620121002,
      "learning_rate": 0.00038207110273831405,
      "loss": 1.5934,
      "step": 37132
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4400084912776947,
      "learning_rate": 0.0003820610492993661,
      "loss": 1.5711,
      "step": 37133
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43396496772766113,
      "learning_rate": 0.000382050995760808,
      "loss": 1.6533,
      "step": 37134
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4298650324344635,
      "learning_rate": 0.00038204094212265213,
      "loss": 1.6074,
      "step": 37135
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.47296401858329773,
      "learning_rate": 0.0003820308883849107,
      "loss": 1.575,
      "step": 37136
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4327782392501831,
      "learning_rate": 0.0003820208345475959,
      "loss": 1.5827,
      "step": 37137
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4382227063179016,
      "learning_rate": 0.00038201078061071985,
      "loss": 1.6032,
      "step": 37138
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43444401025772095,
      "learning_rate": 0.0003820007265742947,
      "loss": 1.6564,
      "step": 37139
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4613741338253021,
      "learning_rate": 0.0003819906724383329,
      "loss": 1.5961,
      "step": 37140
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4284103214740753,
      "learning_rate": 0.00038198061820284636,
      "loss": 1.5261,
      "step": 37141
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45801353454589844,
      "learning_rate": 0.0003819705638678475,
      "loss": 1.5977,
      "step": 37142
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43337351083755493,
      "learning_rate": 0.0003819605094333485,
      "loss": 1.6313,
      "step": 37143
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4286212623119354,
      "learning_rate": 0.00038195045489936144,
      "loss": 1.5726,
      "step": 37144
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44171229004859924,
      "learning_rate": 0.0003819404002658987,
      "loss": 1.5349,
      "step": 37145
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4685696065425873,
      "learning_rate": 0.0003819303455329723,
      "loss": 1.7079,
      "step": 37146
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44701218605041504,
      "learning_rate": 0.0003819202907005945,
      "loss": 1.7154,
      "step": 37147
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44134318828582764,
      "learning_rate": 0.00038191023576877766,
      "loss": 1.5986,
      "step": 37148
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42962369322776794,
      "learning_rate": 0.00038190018073753373,
      "loss": 1.6461,
      "step": 37149
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44669318199157715,
      "learning_rate": 0.0003818901256068751,
      "loss": 1.6462,
      "step": 37150
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44099879264831543,
      "learning_rate": 0.000381880070376814,
      "loss": 1.6308,
      "step": 37151
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44730260968208313,
      "learning_rate": 0.0003818700150473624,
      "loss": 1.6591,
      "step": 37152
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4410254955291748,
      "learning_rate": 0.00038185995961853277,
      "loss": 1.6795,
      "step": 37153
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45654213428497314,
      "learning_rate": 0.0003818499040903372,
      "loss": 1.6596,
      "step": 37154
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4528014361858368,
      "learning_rate": 0.00038183984846278796,
      "loss": 1.6405,
      "step": 37155
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4522368311882019,
      "learning_rate": 0.0003818297927358971,
      "loss": 1.6563,
      "step": 37156
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4374183118343353,
      "learning_rate": 0.00038181973690967704,
      "loss": 1.6812,
      "step": 37157
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4767954349517822,
      "learning_rate": 0.00038180968098413973,
      "loss": 1.6316,
      "step": 37158
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4547298550605774,
      "learning_rate": 0.00038179962495929763,
      "loss": 1.7054,
      "step": 37159
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4404669404029846,
      "learning_rate": 0.0003817895688351628,
      "loss": 1.6095,
      "step": 37160
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44483616948127747,
      "learning_rate": 0.0003817795126117475,
      "loss": 1.6466,
      "step": 37161
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46716517210006714,
      "learning_rate": 0.00038176945628906394,
      "loss": 1.6336,
      "step": 37162
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4395109713077545,
      "learning_rate": 0.0003817593998671243,
      "loss": 1.7425,
      "step": 37163
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4518568813800812,
      "learning_rate": 0.0003817493433459408,
      "loss": 1.6679,
      "step": 37164
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45165058970451355,
      "learning_rate": 0.0003817392867255256,
      "loss": 1.5887,
      "step": 37165
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4500237703323364,
      "learning_rate": 0.00038172923000589094,
      "loss": 1.7411,
      "step": 37166
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4509144127368927,
      "learning_rate": 0.00038171917318704905,
      "loss": 1.6364,
      "step": 37167
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4236733019351959,
      "learning_rate": 0.00038170911626901225,
      "loss": 1.5905,
      "step": 37168
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4444164037704468,
      "learning_rate": 0.00038169905925179243,
      "loss": 1.6532,
      "step": 37169
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43348395824432373,
      "learning_rate": 0.0003816890021354021,
      "loss": 1.6796,
      "step": 37170
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46478697657585144,
      "learning_rate": 0.0003816789449198533,
      "loss": 1.6311,
      "step": 37171
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4401524066925049,
      "learning_rate": 0.0003816688876051583,
      "loss": 1.642,
      "step": 37172
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42500922083854675,
      "learning_rate": 0.0003816588301913294,
      "loss": 1.5994,
      "step": 37173
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4233323037624359,
      "learning_rate": 0.0003816487726783786,
      "loss": 1.624,
      "step": 37174
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.7361679673194885,
      "learning_rate": 0.0003816387150663183,
      "loss": 1.5907,
      "step": 37175
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4394681453704834,
      "learning_rate": 0.0003816286573551606,
      "loss": 1.6119,
      "step": 37176
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4573255777359009,
      "learning_rate": 0.00038161859954491774,
      "loss": 1.5741,
      "step": 37177
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4391723573207855,
      "learning_rate": 0.00038160854163560195,
      "loss": 1.6328,
      "step": 37178
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44765278697013855,
      "learning_rate": 0.0003815984836272253,
      "loss": 1.6015,
      "step": 37179
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4513821601867676,
      "learning_rate": 0.0003815884255198003,
      "loss": 1.6015,
      "step": 37180
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4537186920642853,
      "learning_rate": 0.00038157836731333875,
      "loss": 1.6203,
      "step": 37181
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4325077533721924,
      "learning_rate": 0.00038156830900785326,
      "loss": 1.6307,
      "step": 37182
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45140281319618225,
      "learning_rate": 0.00038155825060335577,
      "loss": 1.5645,
      "step": 37183
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43421950936317444,
      "learning_rate": 0.00038154819209985864,
      "loss": 1.7093,
      "step": 37184
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.5096904039382935,
      "learning_rate": 0.00038153813349737397,
      "loss": 1.653,
      "step": 37185
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4338422417640686,
      "learning_rate": 0.00038152807479591405,
      "loss": 1.5479,
      "step": 37186
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4557744264602661,
      "learning_rate": 0.0003815180159954911,
      "loss": 1.6174,
      "step": 37187
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4330069124698639,
      "learning_rate": 0.0003815079570961172,
      "loss": 1.6543,
      "step": 37188
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.445709228515625,
      "learning_rate": 0.0003814978980978047,
      "loss": 1.6538,
      "step": 37189
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43262213468551636,
      "learning_rate": 0.0003814878390005657,
      "loss": 1.5683,
      "step": 37190
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45549526810646057,
      "learning_rate": 0.0003814777798044125,
      "loss": 1.6321,
      "step": 37191
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4466227889060974,
      "learning_rate": 0.0003814677205093574,
      "loss": 1.5621,
      "step": 37192
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43373608589172363,
      "learning_rate": 0.0003814576611154124,
      "loss": 1.6847,
      "step": 37193
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4453394114971161,
      "learning_rate": 0.0003814476016225898,
      "loss": 1.6944,
      "step": 37194
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4525800347328186,
      "learning_rate": 0.0003814375420309018,
      "loss": 1.6646,
      "step": 37195
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45323535799980164,
      "learning_rate": 0.00038142748234036057,
      "loss": 1.6449,
      "step": 37196
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44529351592063904,
      "learning_rate": 0.00038141742255097847,
      "loss": 1.5845,
      "step": 37197
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45550867915153503,
      "learning_rate": 0.00038140736266276755,
      "loss": 1.5242,
      "step": 37198
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4461660087108612,
      "learning_rate": 0.00038139730267574016,
      "loss": 1.597,
      "step": 37199
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43408894538879395,
      "learning_rate": 0.0003813872425899084,
      "loss": 1.6475,
      "step": 37200
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4404738247394562,
      "learning_rate": 0.0003813771824052845,
      "loss": 1.6688,
      "step": 37201
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44041335582733154,
      "learning_rate": 0.0003813671221218807,
      "loss": 1.6121,
      "step": 37202
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43625935912132263,
      "learning_rate": 0.0003813570617397092,
      "loss": 1.5612,
      "step": 37203
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4295710623264313,
      "learning_rate": 0.0003813470012587822,
      "loss": 1.6439,
      "step": 37204
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43436399102211,
      "learning_rate": 0.000381336940679112,
      "loss": 1.645,
      "step": 37205
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45303604006767273,
      "learning_rate": 0.0003813268800007107,
      "loss": 1.7247,
      "step": 37206
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45606979727745056,
      "learning_rate": 0.0003813168192235905,
      "loss": 1.5983,
      "step": 37207
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4355688989162445,
      "learning_rate": 0.0003813067583477637,
      "loss": 1.623,
      "step": 37208
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4457511603832245,
      "learning_rate": 0.0003812966973732425,
      "loss": 1.5712,
      "step": 37209
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43624988198280334,
      "learning_rate": 0.00038128663630003913,
      "loss": 1.6223,
      "step": 37210
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4524553418159485,
      "learning_rate": 0.0003812765751281655,
      "loss": 1.6187,
      "step": 37211
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44297194480895996,
      "learning_rate": 0.0003812665138576344,
      "loss": 1.5869,
      "step": 37212
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44451990723609924,
      "learning_rate": 0.00038125645248845763,
      "loss": 1.6276,
      "step": 37213
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46692711114883423,
      "learning_rate": 0.00038124639102064746,
      "loss": 1.6943,
      "step": 37214
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43862226605415344,
      "learning_rate": 0.0003812363294542161,
      "loss": 1.6816,
      "step": 37215
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43631696701049805,
      "learning_rate": 0.0003812262677891759,
      "loss": 1.6671,
      "step": 37216
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4430055618286133,
      "learning_rate": 0.00038121620602553895,
      "loss": 1.5982,
      "step": 37217
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42588186264038086,
      "learning_rate": 0.0003812061441633174,
      "loss": 1.515,
      "step": 37218
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44934117794036865,
      "learning_rate": 0.0003811960822025237,
      "loss": 1.6177,
      "step": 37219
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43717390298843384,
      "learning_rate": 0.00038118602014316984,
      "loss": 1.6936,
      "step": 37220
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42988884449005127,
      "learning_rate": 0.0003811759579852682,
      "loss": 1.6255,
      "step": 37221
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43926411867141724,
      "learning_rate": 0.0003811658957288308,
      "loss": 1.6073,
      "step": 37222
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43084174394607544,
      "learning_rate": 0.00038115583337386996,
      "loss": 1.6279,
      "step": 37223
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4456557333469391,
      "learning_rate": 0.00038114577092039805,
      "loss": 1.6316,
      "step": 37224
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4381127953529358,
      "learning_rate": 0.00038113570836842696,
      "loss": 1.6396,
      "step": 37225
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.6806353330612183,
      "learning_rate": 0.0003811256457179692,
      "loss": 1.5872,
      "step": 37226
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4352019131183624,
      "learning_rate": 0.0003811155829690367,
      "loss": 1.6327,
      "step": 37227
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45497891306877136,
      "learning_rate": 0.00038110552012164195,
      "loss": 1.6324,
      "step": 37228
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44970467686653137,
      "learning_rate": 0.000381095457175797,
      "loss": 1.6561,
      "step": 37229
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4326722323894501,
      "learning_rate": 0.00038108539413151424,
      "loss": 1.6333,
      "step": 37230
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4386734366416931,
      "learning_rate": 0.0003810753309888056,
      "loss": 1.6786,
      "step": 37231
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44797027111053467,
      "learning_rate": 0.0003810652677476835,
      "loss": 1.5544,
      "step": 37232
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4281502366065979,
      "learning_rate": 0.00038105520440816015,
      "loss": 1.5674,
      "step": 37233
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42258957028388977,
      "learning_rate": 0.0003810451409702476,
      "loss": 1.6906,
      "step": 37234
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4966048002243042,
      "learning_rate": 0.0003810350774339584,
      "loss": 1.6474,
      "step": 37235
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4302458167076111,
      "learning_rate": 0.00038102501379930437,
      "loss": 1.6376,
      "step": 37236
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4361916780471802,
      "learning_rate": 0.00038101495006629803,
      "loss": 1.5519,
      "step": 37237
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4419667422771454,
      "learning_rate": 0.0003810048862349514,
      "loss": 1.5554,
      "step": 37238
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4630742073059082,
      "learning_rate": 0.00038099482230527683,
      "loss": 1.6827,
      "step": 37239
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4655134081840515,
      "learning_rate": 0.0003809847582772865,
      "loss": 1.6144,
      "step": 37240
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4459281265735626,
      "learning_rate": 0.0003809746941509925,
      "loss": 1.523,
      "step": 37241
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43024253845214844,
      "learning_rate": 0.0003809646299264072,
      "loss": 1.6,
      "step": 37242
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44536513090133667,
      "learning_rate": 0.00038095456560354276,
      "loss": 1.5444,
      "step": 37243
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4492953419685364,
      "learning_rate": 0.00038094450118241147,
      "loss": 1.5929,
      "step": 37244
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46996086835861206,
      "learning_rate": 0.00038093443666302544,
      "loss": 1.6247,
      "step": 37245
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44193795323371887,
      "learning_rate": 0.0003809243720453969,
      "loss": 1.6763,
      "step": 37246
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45396485924720764,
      "learning_rate": 0.0003809143073295382,
      "loss": 1.5887,
      "step": 37247
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.5036311149597168,
      "learning_rate": 0.0003809042425154613,
      "loss": 1.6233,
      "step": 37248
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4498231112957001,
      "learning_rate": 0.0003808941776031787,
      "loss": 1.6371,
      "step": 37249
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44602760672569275,
      "learning_rate": 0.0003808841125927024,
      "loss": 1.6286,
      "step": 37250
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4533188045024872,
      "learning_rate": 0.00038087404748404476,
      "loss": 1.6091,
      "step": 37251
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43790876865386963,
      "learning_rate": 0.0003808639822772179,
      "loss": 1.5789,
      "step": 37252
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46599218249320984,
      "learning_rate": 0.0003808539169722341,
      "loss": 1.6298,
      "step": 37253
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4286572337150574,
      "learning_rate": 0.00038084385156910566,
      "loss": 1.6481,
      "step": 37254
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45426756143569946,
      "learning_rate": 0.00038083378606784457,
      "loss": 1.6192,
      "step": 37255
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4419620931148529,
      "learning_rate": 0.0003808237204684632,
      "loss": 1.62,
      "step": 37256
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43690773844718933,
      "learning_rate": 0.00038081365477097374,
      "loss": 1.5937,
      "step": 37257
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45201605558395386,
      "learning_rate": 0.0003808035889753884,
      "loss": 1.6563,
      "step": 37258
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4419633150100708,
      "learning_rate": 0.0003807935230817194,
      "loss": 1.6673,
      "step": 37259
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42804673314094543,
      "learning_rate": 0.0003807834570899791,
      "loss": 1.6298,
      "step": 37260
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4408104419708252,
      "learning_rate": 0.0003807733910001794,
      "loss": 1.5888,
      "step": 37261
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4380062520503998,
      "learning_rate": 0.0003807633248123328,
      "loss": 1.6401,
      "step": 37262
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4415333569049835,
      "learning_rate": 0.0003807532585264514,
      "loss": 1.7329,
      "step": 37263
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4492291808128357,
      "learning_rate": 0.00038074319214254743,
      "loss": 1.6825,
      "step": 37264
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45226234197616577,
      "learning_rate": 0.0003807331256606332,
      "loss": 1.5604,
      "step": 37265
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42736002802848816,
      "learning_rate": 0.00038072305908072075,
      "loss": 1.6555,
      "step": 37266
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43829596042633057,
      "learning_rate": 0.0003807129924028224,
      "loss": 1.6865,
      "step": 37267
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43371984362602234,
      "learning_rate": 0.00038070292562695043,
      "loss": 1.5993,
      "step": 37268
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4314265251159668,
      "learning_rate": 0.000380692858753117,
      "loss": 1.633,
      "step": 37269
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4365714490413666,
      "learning_rate": 0.00038068279178133426,
      "loss": 1.6609,
      "step": 37270
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4544844925403595,
      "learning_rate": 0.00038067272471161453,
      "loss": 1.6335,
      "step": 37271
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43775179982185364,
      "learning_rate": 0.0003806626575439701,
      "loss": 1.6122,
      "step": 37272
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42947399616241455,
      "learning_rate": 0.0003806525902784129,
      "loss": 1.576,
      "step": 37273
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44087105989456177,
      "learning_rate": 0.00038064252291495547,
      "loss": 1.5642,
      "step": 37274
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.7217652201652527,
      "learning_rate": 0.00038063245545360994,
      "loss": 1.5836,
      "step": 37275
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4438260793685913,
      "learning_rate": 0.0003806223878943884,
      "loss": 1.6023,
      "step": 37276
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44515371322631836,
      "learning_rate": 0.00038061232023730315,
      "loss": 1.6467,
      "step": 37277
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4530075788497925,
      "learning_rate": 0.00038060225248236646,
      "loss": 1.7151,
      "step": 37278
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4414585530757904,
      "learning_rate": 0.0003805921846295906,
      "loss": 1.5694,
      "step": 37279
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4555422067642212,
      "learning_rate": 0.00038058211667898757,
      "loss": 1.6888,
      "step": 37280
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43261638283729553,
      "learning_rate": 0.00038057204863056976,
      "loss": 1.5865,
      "step": 37281
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4547414481639862,
      "learning_rate": 0.00038056198048434933,
      "loss": 1.694,
      "step": 37282
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4587627947330475,
      "learning_rate": 0.0003805519122403386,
      "loss": 1.5496,
      "step": 37283
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4559938609600067,
      "learning_rate": 0.0003805418438985496,
      "loss": 1.555,
      "step": 37284
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43902647495269775,
      "learning_rate": 0.0003805317754589948,
      "loss": 1.5915,
      "step": 37285
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45224228501319885,
      "learning_rate": 0.0003805217069216862,
      "loss": 1.6518,
      "step": 37286
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4450763761997223,
      "learning_rate": 0.00038051163828663615,
      "loss": 1.6995,
      "step": 37287
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46502432227134705,
      "learning_rate": 0.00038050156955385687,
      "loss": 1.632,
      "step": 37288
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4469497501850128,
      "learning_rate": 0.00038049150072336045,
      "loss": 1.6739,
      "step": 37289
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4501025974750519,
      "learning_rate": 0.00038048143179515926,
      "loss": 1.6246,
      "step": 37290
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4474472403526306,
      "learning_rate": 0.0003804713627692655,
      "loss": 1.6548,
      "step": 37291
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4588451087474823,
      "learning_rate": 0.00038046129364569133,
      "loss": 1.6169,
      "step": 37292
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4398528039455414,
      "learning_rate": 0.000380451224424449,
      "loss": 1.6055,
      "step": 37293
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4662640392780304,
      "learning_rate": 0.0003804411551055507,
      "loss": 1.6008,
      "step": 37294
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4450901746749878,
      "learning_rate": 0.0003804310856890088,
      "loss": 1.6828,
      "step": 37295
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42776671051979065,
      "learning_rate": 0.0003804210161748353,
      "loss": 1.5753,
      "step": 37296
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4482717514038086,
      "learning_rate": 0.00038041094656304265,
      "loss": 1.6754,
      "step": 37297
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46480220556259155,
      "learning_rate": 0.0003804008768536428,
      "loss": 1.6297,
      "step": 37298
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4544762670993805,
      "learning_rate": 0.0003803908070466483,
      "loss": 1.6464,
      "step": 37299
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.443157434463501,
      "learning_rate": 0.0003803807371420711,
      "loss": 1.6254,
      "step": 37300
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4519073963165283,
      "learning_rate": 0.00038037066713992354,
      "loss": 1.6098,
      "step": 37301
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4897572696208954,
      "learning_rate": 0.0003803605970402179,
      "loss": 1.6923,
      "step": 37302
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4908986985683441,
      "learning_rate": 0.00038035052684296623,
      "loss": 1.6561,
      "step": 37303
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45410895347595215,
      "learning_rate": 0.000380340456548181,
      "loss": 1.6193,
      "step": 37304
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4499351680278778,
      "learning_rate": 0.00038033038615587416,
      "loss": 1.6686,
      "step": 37305
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45825982093811035,
      "learning_rate": 0.00038032031566605814,
      "loss": 1.5775,
      "step": 37306
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45278289914131165,
      "learning_rate": 0.00038031024507874503,
      "loss": 1.6589,
      "step": 37307
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4392312467098236,
      "learning_rate": 0.0003803001743939471,
      "loss": 1.6859,
      "step": 37308
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4469648003578186,
      "learning_rate": 0.0003802901036116768,
      "loss": 1.6702,
      "step": 37309
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.5787428617477417,
      "learning_rate": 0.0003802800327319459,
      "loss": 1.5972,
      "step": 37310
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44647517800331116,
      "learning_rate": 0.00038026996175476695,
      "loss": 1.5388,
      "step": 37311
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.457396537065506,
      "learning_rate": 0.00038025989068015206,
      "loss": 1.6594,
      "step": 37312
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45447784662246704,
      "learning_rate": 0.00038024981950811353,
      "loss": 1.5868,
      "step": 37313
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.47070804238319397,
      "learning_rate": 0.00038023974823866356,
      "loss": 1.5984,
      "step": 37314
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46495187282562256,
      "learning_rate": 0.0003802296768718144,
      "loss": 1.6191,
      "step": 37315
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4335578680038452,
      "learning_rate": 0.0003802196054075781,
      "loss": 1.6002,
      "step": 37316
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4494453966617584,
      "learning_rate": 0.00038020953384596717,
      "loss": 1.6072,
      "step": 37317
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44653594493865967,
      "learning_rate": 0.00038019946218699355,
      "loss": 1.6134,
      "step": 37318
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45768266916275024,
      "learning_rate": 0.00038018939043066963,
      "loss": 1.5354,
      "step": 37319
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4462191164493561,
      "learning_rate": 0.0003801793185770076,
      "loss": 1.633,
      "step": 37320
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44977015256881714,
      "learning_rate": 0.0003801692466260198,
      "loss": 1.5631,
      "step": 37321
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4315124452114105,
      "learning_rate": 0.00038015917457771836,
      "loss": 1.6366,
      "step": 37322
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46801334619522095,
      "learning_rate": 0.0003801491024321153,
      "loss": 1.6242,
      "step": 37323
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4438577890396118,
      "learning_rate": 0.0003801390301892232,
      "loss": 1.566,
      "step": 37324
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.451680451631546,
      "learning_rate": 0.00038012895784905406,
      "loss": 1.5847,
      "step": 37325
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43093931674957275,
      "learning_rate": 0.00038011888541162014,
      "loss": 1.624,
      "step": 37326
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42879319190979004,
      "learning_rate": 0.0003801088128769338,
      "loss": 1.618,
      "step": 37327
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43972453474998474,
      "learning_rate": 0.000380098740245007,
      "loss": 1.5775,
      "step": 37328
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45818713307380676,
      "learning_rate": 0.0003800886675158523,
      "loss": 1.6791,
      "step": 37329
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44016414880752563,
      "learning_rate": 0.00038007859468948174,
      "loss": 1.6101,
      "step": 37330
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44143205881118774,
      "learning_rate": 0.0003800685217659074,
      "loss": 1.6399,
      "step": 37331
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43172943592071533,
      "learning_rate": 0.00038005844874514186,
      "loss": 1.6324,
      "step": 37332
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42885711789131165,
      "learning_rate": 0.00038004837562719706,
      "loss": 1.6849,
      "step": 37333
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4416399598121643,
      "learning_rate": 0.00038003830241208536,
      "loss": 1.6462,
      "step": 37334
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46132534742355347,
      "learning_rate": 0.0003800282290998189,
      "loss": 1.6796,
      "step": 37335
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4397168755531311,
      "learning_rate": 0.0003800181556904101,
      "loss": 1.6874,
      "step": 37336
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43526917695999146,
      "learning_rate": 0.0003800080821838709,
      "loss": 1.6086,
      "step": 37337
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43134820461273193,
      "learning_rate": 0.00037999800858021373,
      "loss": 1.6374,
      "step": 37338
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4596191942691803,
      "learning_rate": 0.0003799879348794508,
      "loss": 1.5889,
      "step": 37339
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4542246460914612,
      "learning_rate": 0.00037997786108159425,
      "loss": 1.6301,
      "step": 37340
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43187209963798523,
      "learning_rate": 0.0003799677871866564,
      "loss": 1.611,
      "step": 37341
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.439854234457016,
      "learning_rate": 0.0003799577131946494,
      "loss": 1.6081,
      "step": 37342
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4343850612640381,
      "learning_rate": 0.00037994763910558556,
      "loss": 1.6285,
      "step": 37343
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44711777567863464,
      "learning_rate": 0.0003799375649194771,
      "loss": 1.5671,
      "step": 37344
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4414542317390442,
      "learning_rate": 0.0003799274906363361,
      "loss": 1.735,
      "step": 37345
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44102874398231506,
      "learning_rate": 0.00037991741625617494,
      "loss": 1.6062,
      "step": 37346
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4473460018634796,
      "learning_rate": 0.0003799073417790059,
      "loss": 1.6553,
      "step": 37347
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4320720136165619,
      "learning_rate": 0.00037989726720484107,
      "loss": 1.6501,
      "step": 37348
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4439358711242676,
      "learning_rate": 0.00037988719253369274,
      "loss": 1.6782,
      "step": 37349
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43483468890190125,
      "learning_rate": 0.00037987711776557305,
      "loss": 1.633,
      "step": 37350
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44310685992240906,
      "learning_rate": 0.00037986704290049434,
      "loss": 1.6023,
      "step": 37351
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4474848508834839,
      "learning_rate": 0.00037985696793846894,
      "loss": 1.6444,
      "step": 37352
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4365602433681488,
      "learning_rate": 0.00037984689287950875,
      "loss": 1.573,
      "step": 37353
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4501952528953552,
      "learning_rate": 0.0003798368177236264,
      "loss": 1.6273,
      "step": 37354
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45232656598091125,
      "learning_rate": 0.00037982674247083367,
      "loss": 1.6179,
      "step": 37355
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4356018900871277,
      "learning_rate": 0.0003798166671211432,
      "loss": 1.6384,
      "step": 37356
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4484120011329651,
      "learning_rate": 0.0003798065916745671,
      "loss": 1.5406,
      "step": 37357
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4509553909301758,
      "learning_rate": 0.0003797965161311174,
      "loss": 1.5675,
      "step": 37358
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4605306386947632,
      "learning_rate": 0.00037978644049080666,
      "loss": 1.6244,
      "step": 37359
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44064459204673767,
      "learning_rate": 0.0003797763647536467,
      "loss": 1.6544,
      "step": 37360
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4528251886367798,
      "learning_rate": 0.0003797662889196502,
      "loss": 1.6784,
      "step": 37361
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4474483132362366,
      "learning_rate": 0.00037975621298882913,
      "loss": 1.6172,
      "step": 37362
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4600982666015625,
      "learning_rate": 0.00037974613696119573,
      "loss": 1.6714,
      "step": 37363
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44985681772232056,
      "learning_rate": 0.00037973606083676237,
      "loss": 1.6447,
      "step": 37364
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44078606367111206,
      "learning_rate": 0.000379725984615541,
      "loss": 1.7698,
      "step": 37365
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45228347182273865,
      "learning_rate": 0.0003797159082975442,
      "loss": 1.6678,
      "step": 37366
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4552035331726074,
      "learning_rate": 0.00037970583188278394,
      "loss": 1.5763,
      "step": 37367
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4419018030166626,
      "learning_rate": 0.0003796957553712726,
      "loss": 1.6884,
      "step": 37368
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4590299427509308,
      "learning_rate": 0.0003796856787630223,
      "loss": 1.6018,
      "step": 37369
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4445849657058716,
      "learning_rate": 0.00037967560205804534,
      "loss": 1.6195,
      "step": 37370
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45431867241859436,
      "learning_rate": 0.00037966552525635404,
      "loss": 1.6721,
      "step": 37371
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4621908366680145,
      "learning_rate": 0.00037965544835796036,
      "loss": 1.6591,
      "step": 37372
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.42916518449783325,
      "learning_rate": 0.0003796453713628768,
      "loss": 1.6062,
      "step": 37373
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43091943860054016,
      "learning_rate": 0.00037963529427111547,
      "loss": 1.7022,
      "step": 37374
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4567091763019562,
      "learning_rate": 0.00037962521708268866,
      "loss": 1.6867,
      "step": 37375
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4411636292934418,
      "learning_rate": 0.0003796151397976085,
      "loss": 1.6307,
      "step": 37376
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4330733120441437,
      "learning_rate": 0.00037960506241588744,
      "loss": 1.5632,
      "step": 37377
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43322643637657166,
      "learning_rate": 0.0003795949849375374,
      "loss": 1.6579,
      "step": 37378
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4409573972225189,
      "learning_rate": 0.00037958490736257085,
      "loss": 1.6714,
      "step": 37379
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43953585624694824,
      "learning_rate": 0.0003795748296909999,
      "loss": 1.5816,
      "step": 37380
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4251245856285095,
      "learning_rate": 0.00037956475192283686,
      "loss": 1.6043,
      "step": 37381
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4321734607219696,
      "learning_rate": 0.00037955467405809395,
      "loss": 1.6564,
      "step": 37382
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43722712993621826,
      "learning_rate": 0.00037954459609678337,
      "loss": 1.6489,
      "step": 37383
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4566274881362915,
      "learning_rate": 0.0003795345180389175,
      "loss": 1.6337,
      "step": 37384
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44490116834640503,
      "learning_rate": 0.0003795244398845082,
      "loss": 1.5943,
      "step": 37385
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43520739674568176,
      "learning_rate": 0.0003795143616335681,
      "loss": 1.594,
      "step": 37386
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.443617045879364,
      "learning_rate": 0.00037950428328610927,
      "loss": 1.6222,
      "step": 37387
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44199252128601074,
      "learning_rate": 0.00037949420484214387,
      "loss": 1.6274,
      "step": 37388
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4445987641811371,
      "learning_rate": 0.00037948412630168436,
      "loss": 1.589,
      "step": 37389
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4737366735935211,
      "learning_rate": 0.00037947404766474263,
      "loss": 1.6835,
      "step": 37390
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4533436596393585,
      "learning_rate": 0.00037946396893133135,
      "loss": 1.6978,
      "step": 37391
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4681062400341034,
      "learning_rate": 0.00037945389010146234,
      "loss": 1.5911,
      "step": 37392
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4985875189304352,
      "learning_rate": 0.00037944381117514814,
      "loss": 1.6951,
      "step": 37393
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4590982496738434,
      "learning_rate": 0.0003794337321524008,
      "loss": 1.6119,
      "step": 37394
    },
    {
      "epoch": 1.24,
      "grad_norm": 1.1183205842971802,
      "learning_rate": 0.00037942365303323257,
      "loss": 1.7009,
      "step": 37395
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4409084618091583,
      "learning_rate": 0.0003794135738176559,
      "loss": 1.6311,
      "step": 37396
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4569532871246338,
      "learning_rate": 0.0003794034945056827,
      "loss": 1.6043,
      "step": 37397
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4273565113544464,
      "learning_rate": 0.00037939341509732533,
      "loss": 1.6574,
      "step": 37398
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43960273265838623,
      "learning_rate": 0.00037938333559259615,
      "loss": 1.5994,
      "step": 37399
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45476752519607544,
      "learning_rate": 0.00037937325599150725,
      "loss": 1.591,
      "step": 37400
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45216020941734314,
      "learning_rate": 0.00037936317629407083,
      "loss": 1.6666,
      "step": 37401
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.442317932844162,
      "learning_rate": 0.00037935309650029937,
      "loss": 1.6261,
      "step": 37402
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4311785399913788,
      "learning_rate": 0.00037934301661020483,
      "loss": 1.564,
      "step": 37403
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44584304094314575,
      "learning_rate": 0.00037933293662379964,
      "loss": 1.5968,
      "step": 37404
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46135202050209045,
      "learning_rate": 0.0003793228565410959,
      "loss": 1.6403,
      "step": 37405
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4570627808570862,
      "learning_rate": 0.0003793127763621059,
      "loss": 1.6526,
      "step": 37406
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.45408692955970764,
      "learning_rate": 0.00037930269608684196,
      "loss": 1.5795,
      "step": 37407
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4332515299320221,
      "learning_rate": 0.000379292615715316,
      "loss": 1.5901,
      "step": 37408
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44759252667427063,
      "learning_rate": 0.0003792825352475407,
      "loss": 1.6133,
      "step": 37409
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4638730585575104,
      "learning_rate": 0.0003792724546835281,
      "loss": 1.6393,
      "step": 37410
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.44781628251075745,
      "learning_rate": 0.0003792623740232903,
      "loss": 1.6011,
      "step": 37411
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4479610025882721,
      "learning_rate": 0.0003792522932668398,
      "loss": 1.6826,
      "step": 37412
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46436694264411926,
      "learning_rate": 0.00037924221241418846,
      "loss": 1.6383,
      "step": 37413
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4444204568862915,
      "learning_rate": 0.000379232131465349,
      "loss": 1.6431,
      "step": 37414
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4549506902694702,
      "learning_rate": 0.00037922205042033324,
      "loss": 1.642,
      "step": 37415
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43851080536842346,
      "learning_rate": 0.00037921196927915364,
      "loss": 1.6492,
      "step": 37416
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.43866777420043945,
      "learning_rate": 0.0003792018880418224,
      "loss": 1.5496,
      "step": 37417
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.46114617586135864,
      "learning_rate": 0.00037919180670835167,
      "loss": 1.641,
      "step": 37418
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4490913450717926,
      "learning_rate": 0.0003791817252787539,
      "loss": 1.6817,
      "step": 37419
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.4620901942253113,
      "learning_rate": 0.000379171643753041,
      "loss": 1.6038,
      "step": 37420
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4413430094718933,
      "learning_rate": 0.00037916156213122556,
      "loss": 1.643,
      "step": 37421
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4628308117389679,
      "learning_rate": 0.0003791514804133195,
      "loss": 1.6486,
      "step": 37422
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44277918338775635,
      "learning_rate": 0.0003791413985993353,
      "loss": 1.642,
      "step": 37423
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43619436025619507,
      "learning_rate": 0.00037913131668928504,
      "loss": 1.6758,
      "step": 37424
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4464792013168335,
      "learning_rate": 0.0003791212346831811,
      "loss": 1.6173,
      "step": 37425
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46038463711738586,
      "learning_rate": 0.0003791111525810356,
      "loss": 1.5382,
      "step": 37426
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.427711546421051,
      "learning_rate": 0.0003791010703828608,
      "loss": 1.6153,
      "step": 37427
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44260871410369873,
      "learning_rate": 0.00037909098808866894,
      "loss": 1.6284,
      "step": 37428
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4511283040046692,
      "learning_rate": 0.0003790809056984723,
      "loss": 1.7123,
      "step": 37429
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45999205112457275,
      "learning_rate": 0.0003790708232122831,
      "loss": 1.6299,
      "step": 37430
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4759809076786041,
      "learning_rate": 0.0003790607406301136,
      "loss": 1.6336,
      "step": 37431
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4276640713214874,
      "learning_rate": 0.00037905065795197597,
      "loss": 1.6178,
      "step": 37432
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44611498713493347,
      "learning_rate": 0.00037904057517788246,
      "loss": 1.6836,
      "step": 37433
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44536563754081726,
      "learning_rate": 0.00037903049230784535,
      "loss": 1.603,
      "step": 37434
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4434468448162079,
      "learning_rate": 0.00037902040934187684,
      "loss": 1.5941,
      "step": 37435
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4580138027667999,
      "learning_rate": 0.0003790103262799893,
      "loss": 1.6383,
      "step": 37436
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4967242181301117,
      "learning_rate": 0.00037900024312219484,
      "loss": 1.597,
      "step": 37437
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4339914321899414,
      "learning_rate": 0.00037899015986850564,
      "loss": 1.5824,
      "step": 37438
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4329030215740204,
      "learning_rate": 0.0003789800765189341,
      "loss": 1.6277,
      "step": 37439
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4574861228466034,
      "learning_rate": 0.00037896999307349236,
      "loss": 1.6507,
      "step": 37440
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4486246109008789,
      "learning_rate": 0.00037895990953219267,
      "loss": 1.6252,
      "step": 37441
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4351799488067627,
      "learning_rate": 0.0003789498258950473,
      "loss": 1.6333,
      "step": 37442
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44416067004203796,
      "learning_rate": 0.00037893974216206847,
      "loss": 1.6873,
      "step": 37443
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43154776096343994,
      "learning_rate": 0.00037892965833326845,
      "loss": 1.6219,
      "step": 37444
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4426009953022003,
      "learning_rate": 0.0003789195744086594,
      "loss": 1.6428,
      "step": 37445
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4434363842010498,
      "learning_rate": 0.0003789094903882537,
      "loss": 1.6495,
      "step": 37446
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4343164563179016,
      "learning_rate": 0.0003788994062720634,
      "loss": 1.6401,
      "step": 37447
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43187811970710754,
      "learning_rate": 0.0003788893220601009,
      "loss": 1.59,
      "step": 37448
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4615253508090973,
      "learning_rate": 0.0003788792377523784,
      "loss": 1.6533,
      "step": 37449
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.47263863682746887,
      "learning_rate": 0.0003788691533489081,
      "loss": 1.6404,
      "step": 37450
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45426690578460693,
      "learning_rate": 0.00037885906884970225,
      "loss": 1.6785,
      "step": 37451
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4462662935256958,
      "learning_rate": 0.00037884898425477316,
      "loss": 1.5406,
      "step": 37452
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.444962739944458,
      "learning_rate": 0.00037883889956413303,
      "loss": 1.7264,
      "step": 37453
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4597007930278778,
      "learning_rate": 0.000378828814777794,
      "loss": 1.6098,
      "step": 37454
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44119369983673096,
      "learning_rate": 0.0003788187298957685,
      "loss": 1.5537,
      "step": 37455
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4520433247089386,
      "learning_rate": 0.00037880864491806866,
      "loss": 1.6393,
      "step": 37456
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4312577545642853,
      "learning_rate": 0.0003787985598447067,
      "loss": 1.6959,
      "step": 37457
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45437631011009216,
      "learning_rate": 0.00037878847467569493,
      "loss": 1.6438,
      "step": 37458
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4537293016910553,
      "learning_rate": 0.0003787783894110456,
      "loss": 1.6984,
      "step": 37459
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4341699481010437,
      "learning_rate": 0.0003787683040507708,
      "loss": 1.5818,
      "step": 37460
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45523643493652344,
      "learning_rate": 0.00037875821859488295,
      "loss": 1.6055,
      "step": 37461
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4428560733795166,
      "learning_rate": 0.00037874813304339427,
      "loss": 1.5869,
      "step": 37462
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4536541700363159,
      "learning_rate": 0.0003787380473963169,
      "loss": 1.6144,
      "step": 37463
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4351678192615509,
      "learning_rate": 0.00037872796165366315,
      "loss": 1.6251,
      "step": 37464
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4524655342102051,
      "learning_rate": 0.0003787178758154453,
      "loss": 1.6721,
      "step": 37465
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44404715299606323,
      "learning_rate": 0.00037870778988167547,
      "loss": 1.6549,
      "step": 37466
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4622247815132141,
      "learning_rate": 0.000378697703852366,
      "loss": 1.6261,
      "step": 37467
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.453504353761673,
      "learning_rate": 0.0003786876177275291,
      "loss": 1.6312,
      "step": 37468
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45630791783332825,
      "learning_rate": 0.00037867753150717714,
      "loss": 1.5864,
      "step": 37469
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4387003183364868,
      "learning_rate": 0.0003786674451913221,
      "loss": 1.62,
      "step": 37470
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.5536293983459473,
      "learning_rate": 0.00037865735877997645,
      "loss": 1.7956,
      "step": 37471
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4341225326061249,
      "learning_rate": 0.00037864727227315234,
      "loss": 1.6372,
      "step": 37472
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4465358257293701,
      "learning_rate": 0.0003786371856708621,
      "loss": 1.6195,
      "step": 37473
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4307886064052582,
      "learning_rate": 0.0003786270989731179,
      "loss": 1.5597,
      "step": 37474
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4316617250442505,
      "learning_rate": 0.0003786170121799318,
      "loss": 1.5603,
      "step": 37475
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4390293061733246,
      "learning_rate": 0.00037860692529131636,
      "loss": 1.6489,
      "step": 37476
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.431985467672348,
      "learning_rate": 0.00037859683830728365,
      "loss": 1.6161,
      "step": 37477
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43978166580200195,
      "learning_rate": 0.0003785867512278461,
      "loss": 1.6692,
      "step": 37478
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.447485089302063,
      "learning_rate": 0.00037857666405301563,
      "loss": 1.6646,
      "step": 37479
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43132835626602173,
      "learning_rate": 0.0003785665767828048,
      "loss": 1.6123,
      "step": 37480
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4316661059856415,
      "learning_rate": 0.0003785564894172257,
      "loss": 1.6196,
      "step": 37481
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4475959539413452,
      "learning_rate": 0.0003785464019562905,
      "loss": 1.6334,
      "step": 37482
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43738603591918945,
      "learning_rate": 0.00037853631440001173,
      "loss": 1.5591,
      "step": 37483
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43829676508903503,
      "learning_rate": 0.00037852622674840127,
      "loss": 1.5877,
      "step": 37484
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45140066742897034,
      "learning_rate": 0.00037851613900147154,
      "loss": 1.6027,
      "step": 37485
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4443671405315399,
      "learning_rate": 0.00037850605115923486,
      "loss": 1.675,
      "step": 37486
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43279141187667847,
      "learning_rate": 0.0003784959632217034,
      "loss": 1.5911,
      "step": 37487
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4499187469482422,
      "learning_rate": 0.0003784858751888894,
      "loss": 1.6732,
      "step": 37488
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4364929795265198,
      "learning_rate": 0.00037847578706080517,
      "loss": 1.5924,
      "step": 37489
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43534451723098755,
      "learning_rate": 0.0003784656988374628,
      "loss": 1.6101,
      "step": 37490
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43552011251449585,
      "learning_rate": 0.0003784556105188746,
      "loss": 1.6091,
      "step": 37491
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46652787923812866,
      "learning_rate": 0.00037844552210505297,
      "loss": 1.6232,
      "step": 37492
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4508812427520752,
      "learning_rate": 0.00037843543359600994,
      "loss": 1.5557,
      "step": 37493
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44806331396102905,
      "learning_rate": 0.0003784253449917579,
      "loss": 1.6381,
      "step": 37494
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4317842721939087,
      "learning_rate": 0.00037841525629230905,
      "loss": 1.5974,
      "step": 37495
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.434335857629776,
      "learning_rate": 0.0003784051674976756,
      "loss": 1.5862,
      "step": 37496
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44486284255981445,
      "learning_rate": 0.00037839507860786985,
      "loss": 1.5693,
      "step": 37497
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44059306383132935,
      "learning_rate": 0.000378384989622904,
      "loss": 1.6129,
      "step": 37498
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46113333106040955,
      "learning_rate": 0.0003783749005427904,
      "loss": 1.6045,
      "step": 37499
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4596848785877228,
      "learning_rate": 0.0003783648113675411,
      "loss": 1.5987,
      "step": 37500
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43976935744285583,
      "learning_rate": 0.00037835472209716853,
      "loss": 1.6004,
      "step": 37501
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.447424978017807,
      "learning_rate": 0.00037834463273168494,
      "loss": 1.6636,
      "step": 37502
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4380510747432709,
      "learning_rate": 0.0003783345432711024,
      "loss": 1.6146,
      "step": 37503
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4542747139930725,
      "learning_rate": 0.00037832445371543326,
      "loss": 1.6811,
      "step": 37504
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4299725592136383,
      "learning_rate": 0.00037831436406468984,
      "loss": 1.6076,
      "step": 37505
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4640342891216278,
      "learning_rate": 0.0003783042743188844,
      "loss": 1.6893,
      "step": 37506
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4424079656600952,
      "learning_rate": 0.0003782941844780289,
      "loss": 1.6364,
      "step": 37507
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44352731108665466,
      "learning_rate": 0.00037828409454213595,
      "loss": 1.58,
      "step": 37508
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4340280592441559,
      "learning_rate": 0.0003782740045112176,
      "loss": 1.6512,
      "step": 37509
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4517363905906677,
      "learning_rate": 0.0003782639143852861,
      "loss": 1.684,
      "step": 37510
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45246458053588867,
      "learning_rate": 0.0003782538241643538,
      "loss": 1.6397,
      "step": 37511
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4354378879070282,
      "learning_rate": 0.00037824373384843287,
      "loss": 1.6558,
      "step": 37512
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4350449740886688,
      "learning_rate": 0.00037823364343753563,
      "loss": 1.6366,
      "step": 37513
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4426823556423187,
      "learning_rate": 0.0003782235529316742,
      "loss": 1.5828,
      "step": 37514
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46702829003334045,
      "learning_rate": 0.0003782134623308609,
      "loss": 1.5781,
      "step": 37515
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4658934772014618,
      "learning_rate": 0.00037820337163510797,
      "loss": 1.6896,
      "step": 37516
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.47981324791908264,
      "learning_rate": 0.00037819328084442766,
      "loss": 1.6734,
      "step": 37517
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.7660437822341919,
      "learning_rate": 0.0003781831899588323,
      "loss": 1.6695,
      "step": 37518
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44103938341140747,
      "learning_rate": 0.0003781730989783341,
      "loss": 1.5813,
      "step": 37519
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4362123906612396,
      "learning_rate": 0.0003781630079029452,
      "loss": 1.6145,
      "step": 37520
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4994383454322815,
      "learning_rate": 0.0003781529167326779,
      "loss": 1.6005,
      "step": 37521
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43241339921951294,
      "learning_rate": 0.00037814282546754456,
      "loss": 1.6523,
      "step": 37522
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4437209367752075,
      "learning_rate": 0.00037813273410755723,
      "loss": 1.6538,
      "step": 37523
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.452772855758667,
      "learning_rate": 0.0003781226426527284,
      "loss": 1.6434,
      "step": 37524
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4677322208881378,
      "learning_rate": 0.0003781125511030701,
      "loss": 1.6523,
      "step": 37525
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46780920028686523,
      "learning_rate": 0.00037810245945859477,
      "loss": 1.6301,
      "step": 37526
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4329410493373871,
      "learning_rate": 0.00037809236771931443,
      "loss": 1.6618,
      "step": 37527
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4270458221435547,
      "learning_rate": 0.00037808227588524153,
      "loss": 1.6405,
      "step": 37528
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4560626149177551,
      "learning_rate": 0.0003780721839563883,
      "loss": 1.699,
      "step": 37529
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45616981387138367,
      "learning_rate": 0.0003780620919327668,
      "loss": 1.7004,
      "step": 37530
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4633783996105194,
      "learning_rate": 0.0003780519998143896,
      "loss": 1.611,
      "step": 37531
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4544394314289093,
      "learning_rate": 0.0003780419076012686,
      "loss": 1.6806,
      "step": 37532
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4256948232650757,
      "learning_rate": 0.00037803181529341636,
      "loss": 1.654,
      "step": 37533
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4392201900482178,
      "learning_rate": 0.000378021722890845,
      "loss": 1.6621,
      "step": 37534
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4532085657119751,
      "learning_rate": 0.00037801163039356665,
      "loss": 1.6605,
      "step": 37535
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4451465308666229,
      "learning_rate": 0.0003780015378015938,
      "loss": 1.6785,
      "step": 37536
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4427470266819,
      "learning_rate": 0.00037799144511493844,
      "loss": 1.659,
      "step": 37537
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44192564487457275,
      "learning_rate": 0.0003779813523336131,
      "loss": 1.6307,
      "step": 37538
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42786943912506104,
      "learning_rate": 0.00037797125945762976,
      "loss": 1.6224,
      "step": 37539
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43891412019729614,
      "learning_rate": 0.00037796116648700084,
      "loss": 1.5768,
      "step": 37540
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4667068421840668,
      "learning_rate": 0.00037795107342173854,
      "loss": 1.6161,
      "step": 37541
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4283500611782074,
      "learning_rate": 0.0003779409802618552,
      "loss": 1.6114,
      "step": 37542
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45857492089271545,
      "learning_rate": 0.000377930887007363,
      "loss": 1.6731,
      "step": 37543
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4315654933452606,
      "learning_rate": 0.0003779207936582741,
      "loss": 1.6882,
      "step": 37544
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43901634216308594,
      "learning_rate": 0.00037791070021460084,
      "loss": 1.6297,
      "step": 37545
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45275965332984924,
      "learning_rate": 0.00037790060667635544,
      "loss": 1.6034,
      "step": 37546
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44298410415649414,
      "learning_rate": 0.00037789051304355027,
      "loss": 1.6461,
      "step": 37547
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4359327554702759,
      "learning_rate": 0.0003778804193161974,
      "loss": 1.6783,
      "step": 37548
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.428768128156662,
      "learning_rate": 0.00037787032549430933,
      "loss": 1.6041,
      "step": 37549
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.448757141828537,
      "learning_rate": 0.000377860231577898,
      "loss": 1.6574,
      "step": 37550
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45392462611198425,
      "learning_rate": 0.00037785013756697593,
      "loss": 1.5585,
      "step": 37551
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44254741072654724,
      "learning_rate": 0.0003778400434615552,
      "loss": 1.6488,
      "step": 37552
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4250791668891907,
      "learning_rate": 0.0003778299492616481,
      "loss": 1.6136,
      "step": 37553
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4411880373954773,
      "learning_rate": 0.000377819854967267,
      "loss": 1.6411,
      "step": 37554
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4324245750904083,
      "learning_rate": 0.00037780976057842403,
      "loss": 1.6159,
      "step": 37555
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42804867029190063,
      "learning_rate": 0.0003777996660951315,
      "loss": 1.6136,
      "step": 37556
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43787330389022827,
      "learning_rate": 0.0003777895715174016,
      "loss": 1.6564,
      "step": 37557
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4387401342391968,
      "learning_rate": 0.00037777947684524663,
      "loss": 1.6232,
      "step": 37558
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44315096735954285,
      "learning_rate": 0.00037776938207867883,
      "loss": 1.6399,
      "step": 37559
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43347907066345215,
      "learning_rate": 0.0003777592872177104,
      "loss": 1.5604,
      "step": 37560
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4622725546360016,
      "learning_rate": 0.00037774919226235375,
      "loss": 1.6279,
      "step": 37561
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42455923557281494,
      "learning_rate": 0.00037773909721262097,
      "loss": 1.5727,
      "step": 37562
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4279843866825104,
      "learning_rate": 0.00037772900206852443,
      "loss": 1.6375,
      "step": 37563
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.41713255643844604,
      "learning_rate": 0.0003777189068300763,
      "loss": 1.6031,
      "step": 37564
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44402259588241577,
      "learning_rate": 0.0003777088114972889,
      "loss": 1.5913,
      "step": 37565
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4421190023422241,
      "learning_rate": 0.0003776987160701744,
      "loss": 1.6288,
      "step": 37566
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.436387836933136,
      "learning_rate": 0.0003776886205487451,
      "loss": 1.6718,
      "step": 37567
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.47158563137054443,
      "learning_rate": 0.0003776785249330134,
      "loss": 1.6273,
      "step": 37568
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44195517897605896,
      "learning_rate": 0.0003776684292229912,
      "loss": 1.6306,
      "step": 37569
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44663628935813904,
      "learning_rate": 0.00037765833341869116,
      "loss": 1.5961,
      "step": 37570
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4234219491481781,
      "learning_rate": 0.00037764823752012527,
      "loss": 1.6418,
      "step": 37571
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43802762031555176,
      "learning_rate": 0.00037763814152730584,
      "loss": 1.6075,
      "step": 37572
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43559759855270386,
      "learning_rate": 0.0003776280454402452,
      "loss": 1.6101,
      "step": 37573
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45462560653686523,
      "learning_rate": 0.0003776179492589555,
      "loss": 1.6842,
      "step": 37574
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4412284791469574,
      "learning_rate": 0.0003776078529834491,
      "loss": 1.6823,
      "step": 37575
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4505966007709503,
      "learning_rate": 0.0003775977566137381,
      "loss": 1.6603,
      "step": 37576
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44567909836769104,
      "learning_rate": 0.000377587660149835,
      "loss": 1.6242,
      "step": 37577
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43031245470046997,
      "learning_rate": 0.0003775775635917518,
      "loss": 1.6526,
      "step": 37578
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44635632634162903,
      "learning_rate": 0.00037756746693950094,
      "loss": 1.618,
      "step": 37579
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44181811809539795,
      "learning_rate": 0.0003775573701930945,
      "loss": 1.5931,
      "step": 37580
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43028151988983154,
      "learning_rate": 0.000377547273352545,
      "loss": 1.6209,
      "step": 37581
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.47123754024505615,
      "learning_rate": 0.00037753717641786437,
      "loss": 1.7002,
      "step": 37582
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45756617188453674,
      "learning_rate": 0.0003775270793890652,
      "loss": 1.7017,
      "step": 37583
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4465954005718231,
      "learning_rate": 0.0003775169822661594,
      "loss": 1.6748,
      "step": 37584
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44629961252212524,
      "learning_rate": 0.0003775068850491595,
      "loss": 1.5897,
      "step": 37585
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4500991106033325,
      "learning_rate": 0.0003774967877380777,
      "loss": 1.5717,
      "step": 37586
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42478373646736145,
      "learning_rate": 0.00037748669033292614,
      "loss": 1.6627,
      "step": 37587
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4329124689102173,
      "learning_rate": 0.00037747659283371725,
      "loss": 1.7187,
      "step": 37588
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4330035150051117,
      "learning_rate": 0.0003774664952404631,
      "loss": 1.6743,
      "step": 37589
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44981467723846436,
      "learning_rate": 0.00037745639755317606,
      "loss": 1.6636,
      "step": 37590
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4448699355125427,
      "learning_rate": 0.0003774462997718684,
      "loss": 1.6661,
      "step": 37591
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4338916540145874,
      "learning_rate": 0.0003774362018965523,
      "loss": 1.6026,
      "step": 37592
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4473687410354614,
      "learning_rate": 0.00037742610392724007,
      "loss": 1.6039,
      "step": 37593
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.458427757024765,
      "learning_rate": 0.0003774160058639439,
      "loss": 1.5886,
      "step": 37594
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4356325566768646,
      "learning_rate": 0.00037740590770667624,
      "loss": 1.6374,
      "step": 37595
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4481596052646637,
      "learning_rate": 0.00037739580945544916,
      "loss": 1.5944,
      "step": 37596
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.431385338306427,
      "learning_rate": 0.00037738571111027493,
      "loss": 1.5803,
      "step": 37597
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4284098148345947,
      "learning_rate": 0.0003773756126711659,
      "loss": 1.6009,
      "step": 37598
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4234192371368408,
      "learning_rate": 0.0003773655141381342,
      "loss": 1.61,
      "step": 37599
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46021363139152527,
      "learning_rate": 0.00037735541551119225,
      "loss": 1.7474,
      "step": 37600
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4503888189792633,
      "learning_rate": 0.0003773453167903522,
      "loss": 1.6954,
      "step": 37601
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43253085017204285,
      "learning_rate": 0.0003773352179756263,
      "loss": 1.6083,
      "step": 37602
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4396696090698242,
      "learning_rate": 0.0003773251190670268,
      "loss": 1.6587,
      "step": 37603
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42338675260543823,
      "learning_rate": 0.0003773150200645661,
      "loss": 1.6492,
      "step": 37604
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4572896361351013,
      "learning_rate": 0.0003773049209682564,
      "loss": 1.5526,
      "step": 37605
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.418377548456192,
      "learning_rate": 0.00037729482177810983,
      "loss": 1.6177,
      "step": 37606
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44827738404273987,
      "learning_rate": 0.0003772847224941387,
      "loss": 1.6161,
      "step": 37607
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.429425448179245,
      "learning_rate": 0.00037727462311635537,
      "loss": 1.5418,
      "step": 37608
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4616691470146179,
      "learning_rate": 0.00037726452364477195,
      "loss": 1.6382,
      "step": 37609
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4451265037059784,
      "learning_rate": 0.00037725442407940087,
      "loss": 1.5774,
      "step": 37610
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4590623676776886,
      "learning_rate": 0.00037724432442025433,
      "loss": 1.7098,
      "step": 37611
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42254844307899475,
      "learning_rate": 0.00037723422466734446,
      "loss": 1.6554,
      "step": 37612
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42577749490737915,
      "learning_rate": 0.0003772241248206837,
      "loss": 1.6676,
      "step": 37613
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4387443959712982,
      "learning_rate": 0.0003772140248802842,
      "loss": 1.5982,
      "step": 37614
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.7113373279571533,
      "learning_rate": 0.0003772039248461582,
      "loss": 1.6713,
      "step": 37615
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43789172172546387,
      "learning_rate": 0.0003771938247183181,
      "loss": 1.6546,
      "step": 37616
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43574801087379456,
      "learning_rate": 0.000377183724496776,
      "loss": 1.6006,
      "step": 37617
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4443575441837311,
      "learning_rate": 0.00037717362418154425,
      "loss": 1.6931,
      "step": 37618
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.451474130153656,
      "learning_rate": 0.00037716352377263515,
      "loss": 1.7003,
      "step": 37619
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.47223836183547974,
      "learning_rate": 0.0003771534232700608,
      "loss": 1.6906,
      "step": 37620
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4475807547569275,
      "learning_rate": 0.0003771433226738336,
      "loss": 1.6433,
      "step": 37621
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43408703804016113,
      "learning_rate": 0.0003771332219839658,
      "loss": 1.5606,
      "step": 37622
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45465490221977234,
      "learning_rate": 0.0003771231212004697,
      "loss": 1.5899,
      "step": 37623
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4786432981491089,
      "learning_rate": 0.00037711302032335736,
      "loss": 1.5193,
      "step": 37624
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43537428975105286,
      "learning_rate": 0.00037710291935264125,
      "loss": 1.6541,
      "step": 37625
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44410809874534607,
      "learning_rate": 0.0003770928182883335,
      "loss": 1.6966,
      "step": 37626
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43028947710990906,
      "learning_rate": 0.0003770827171304465,
      "loss": 1.5885,
      "step": 37627
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4769960045814514,
      "learning_rate": 0.00037707261587899233,
      "loss": 1.6547,
      "step": 37628
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4469536244869232,
      "learning_rate": 0.00037706251453398346,
      "loss": 1.6513,
      "step": 37629
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44597309827804565,
      "learning_rate": 0.00037705241309543206,
      "loss": 1.6053,
      "step": 37630
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4564638137817383,
      "learning_rate": 0.00037704231156335033,
      "loss": 1.6431,
      "step": 37631
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44417864084243774,
      "learning_rate": 0.00037703220993775063,
      "loss": 1.6811,
      "step": 37632
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.434953898191452,
      "learning_rate": 0.0003770221082186451,
      "loss": 1.715,
      "step": 37633
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4409519135951996,
      "learning_rate": 0.0003770120064060462,
      "loss": 1.6264,
      "step": 37634
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4441741108894348,
      "learning_rate": 0.00037700190449996594,
      "loss": 1.5498,
      "step": 37635
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44106483459472656,
      "learning_rate": 0.0003769918025004169,
      "loss": 1.6078,
      "step": 37636
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46248677372932434,
      "learning_rate": 0.00037698170040741097,
      "loss": 1.6606,
      "step": 37637
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44914519786834717,
      "learning_rate": 0.00037697159822096065,
      "loss": 1.6783,
      "step": 37638
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.455549418926239,
      "learning_rate": 0.0003769614959410782,
      "loss": 1.6407,
      "step": 37639
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4564436972141266,
      "learning_rate": 0.00037695139356777574,
      "loss": 1.5589,
      "step": 37640
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4569647014141083,
      "learning_rate": 0.0003769412911010657,
      "loss": 1.6533,
      "step": 37641
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4380548298358917,
      "learning_rate": 0.0003769311885409602,
      "loss": 1.6265,
      "step": 37642
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45548468828201294,
      "learning_rate": 0.0003769210858874717,
      "loss": 1.6142,
      "step": 37643
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44563353061676025,
      "learning_rate": 0.00037691098314061226,
      "loss": 1.6479,
      "step": 37644
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4411328136920929,
      "learning_rate": 0.0003769008803003942,
      "loss": 1.5481,
      "step": 37645
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45147380232810974,
      "learning_rate": 0.0003768907773668299,
      "loss": 1.5612,
      "step": 37646
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45617979764938354,
      "learning_rate": 0.0003768806743399314,
      "loss": 1.623,
      "step": 37647
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43820327520370483,
      "learning_rate": 0.00037687057121971114,
      "loss": 1.6238,
      "step": 37648
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4381192922592163,
      "learning_rate": 0.00037686046800618125,
      "loss": 1.7071,
      "step": 37649
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4536380171775818,
      "learning_rate": 0.00037685036469935424,
      "loss": 1.6467,
      "step": 37650
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4321768581867218,
      "learning_rate": 0.0003768402612992421,
      "loss": 1.69,
      "step": 37651
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4351469576358795,
      "learning_rate": 0.00037683015780585723,
      "loss": 1.6136,
      "step": 37652
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4315834939479828,
      "learning_rate": 0.0003768200542192119,
      "loss": 1.5616,
      "step": 37653
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4303749203681946,
      "learning_rate": 0.0003768099505393183,
      "loss": 1.6691,
      "step": 37654
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44172337651252747,
      "learning_rate": 0.0003767998467661887,
      "loss": 1.6669,
      "step": 37655
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4678049683570862,
      "learning_rate": 0.0003767897428998355,
      "loss": 1.5922,
      "step": 37656
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43642657995224,
      "learning_rate": 0.0003767796389402708,
      "loss": 1.6352,
      "step": 37657
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4307042956352234,
      "learning_rate": 0.0003767695348875069,
      "loss": 1.6271,
      "step": 37658
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4360877573490143,
      "learning_rate": 0.0003767594307415562,
      "loss": 1.6488,
      "step": 37659
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4438020884990692,
      "learning_rate": 0.00037674932650243084,
      "loss": 1.628,
      "step": 37660
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44507715106010437,
      "learning_rate": 0.000376739222170143,
      "loss": 1.686,
      "step": 37661
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4342043995857239,
      "learning_rate": 0.00037672911774470517,
      "loss": 1.6412,
      "step": 37662
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45779862999916077,
      "learning_rate": 0.0003767190132261294,
      "loss": 1.5609,
      "step": 37663
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43897730112075806,
      "learning_rate": 0.0003767089086144281,
      "loss": 1.6393,
      "step": 37664
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.446679949760437,
      "learning_rate": 0.00037669880390961354,
      "loss": 1.6695,
      "step": 37665
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42845675349235535,
      "learning_rate": 0.0003766886991116979,
      "loss": 1.6705,
      "step": 37666
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4423667788505554,
      "learning_rate": 0.0003766785942206935,
      "loss": 1.6712,
      "step": 37667
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43291985988616943,
      "learning_rate": 0.0003766684892366125,
      "loss": 1.5797,
      "step": 37668
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4323914647102356,
      "learning_rate": 0.0003766583841594673,
      "loss": 1.6235,
      "step": 37669
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4494698643684387,
      "learning_rate": 0.00037664827898927004,
      "loss": 1.6496,
      "step": 37670
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4567001760005951,
      "learning_rate": 0.0003766381737260333,
      "loss": 1.6504,
      "step": 37671
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4263848662376404,
      "learning_rate": 0.00037662806836976883,
      "loss": 1.7149,
      "step": 37672
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42464664578437805,
      "learning_rate": 0.0003766179629204893,
      "loss": 1.7092,
      "step": 37673
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4563208818435669,
      "learning_rate": 0.0003766078573782069,
      "loss": 1.6311,
      "step": 37674
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4407840669155121,
      "learning_rate": 0.00037659775174293374,
      "loss": 1.6431,
      "step": 37675
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44527849555015564,
      "learning_rate": 0.00037658764601468224,
      "loss": 1.6515,
      "step": 37676
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4464819133281708,
      "learning_rate": 0.0003765775401934647,
      "loss": 1.5834,
      "step": 37677
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4349905848503113,
      "learning_rate": 0.00037656743427929326,
      "loss": 1.6275,
      "step": 37678
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43595433235168457,
      "learning_rate": 0.00037655732827218013,
      "loss": 1.5817,
      "step": 37679
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4126666486263275,
      "learning_rate": 0.0003765472221721378,
      "loss": 1.6987,
      "step": 37680
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42616909742355347,
      "learning_rate": 0.0003765371159791784,
      "loss": 1.6307,
      "step": 37681
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4425719082355499,
      "learning_rate": 0.0003765270096933142,
      "loss": 1.6376,
      "step": 37682
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44357824325561523,
      "learning_rate": 0.00037651690331455746,
      "loss": 1.6473,
      "step": 37683
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4265488386154175,
      "learning_rate": 0.0003765067968429205,
      "loss": 1.5903,
      "step": 37684
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4409230649471283,
      "learning_rate": 0.0003764966902784157,
      "loss": 1.5559,
      "step": 37685
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4384787976741791,
      "learning_rate": 0.00037648658362105495,
      "loss": 1.6699,
      "step": 37686
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4366869330406189,
      "learning_rate": 0.0003764764768708509,
      "loss": 1.6243,
      "step": 37687
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4595496356487274,
      "learning_rate": 0.0003764663700278156,
      "loss": 1.6576,
      "step": 37688
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43289121985435486,
      "learning_rate": 0.00037645626309196147,
      "loss": 1.5943,
      "step": 37689
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4436796009540558,
      "learning_rate": 0.0003764461560633007,
      "loss": 1.5984,
      "step": 37690
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43296754360198975,
      "learning_rate": 0.00037643604894184543,
      "loss": 1.6472,
      "step": 37691
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4445561170578003,
      "learning_rate": 0.0003764259417276083,
      "loss": 1.6657,
      "step": 37692
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4435982406139374,
      "learning_rate": 0.00037641583442060114,
      "loss": 1.731,
      "step": 37693
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4424382448196411,
      "learning_rate": 0.00037640572702083645,
      "loss": 1.6569,
      "step": 37694
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46019649505615234,
      "learning_rate": 0.0003763956195283265,
      "loss": 1.6399,
      "step": 37695
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4366506338119507,
      "learning_rate": 0.0003763855119430835,
      "loss": 1.6231,
      "step": 37696
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44788628816604614,
      "learning_rate": 0.00037637540426511967,
      "loss": 1.612,
      "step": 37697
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4215415418148041,
      "learning_rate": 0.0003763652964944475,
      "loss": 1.5702,
      "step": 37698
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4318072199821472,
      "learning_rate": 0.00037635518863107906,
      "loss": 1.6823,
      "step": 37699
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4454101026058197,
      "learning_rate": 0.00037634508067502665,
      "loss": 1.6018,
      "step": 37700
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43957555294036865,
      "learning_rate": 0.0003763349726263026,
      "loss": 1.6354,
      "step": 37701
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4381997883319855,
      "learning_rate": 0.00037632486448491907,
      "loss": 1.666,
      "step": 37702
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.42727920413017273,
      "learning_rate": 0.0003763147562508885,
      "loss": 1.6433,
      "step": 37703
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43294376134872437,
      "learning_rate": 0.00037630464792422295,
      "loss": 1.5962,
      "step": 37704
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4619882106781006,
      "learning_rate": 0.0003762945395049349,
      "loss": 1.5704,
      "step": 37705
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44730839133262634,
      "learning_rate": 0.00037628443099303646,
      "loss": 1.6361,
      "step": 37706
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4391637444496155,
      "learning_rate": 0.00037627432238853997,
      "loss": 1.654,
      "step": 37707
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43717360496520996,
      "learning_rate": 0.0003762642136914577,
      "loss": 1.5785,
      "step": 37708
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45665088295936584,
      "learning_rate": 0.00037625410490180184,
      "loss": 1.6743,
      "step": 37709
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4548792541027069,
      "learning_rate": 0.0003762439960195849,
      "loss": 1.6473,
      "step": 37710
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4301729202270508,
      "learning_rate": 0.0003762338870448188,
      "loss": 1.5944,
      "step": 37711
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44501855969429016,
      "learning_rate": 0.00037622377797751614,
      "loss": 1.5621,
      "step": 37712
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.46031326055526733,
      "learning_rate": 0.000376213668817689,
      "loss": 1.63,
      "step": 37713
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4396909177303314,
      "learning_rate": 0.00037620355956534965,
      "loss": 1.6442,
      "step": 37714
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44590070843696594,
      "learning_rate": 0.0003761934502205105,
      "loss": 1.6046,
      "step": 37715
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.43003639578819275,
      "learning_rate": 0.0003761833407831835,
      "loss": 1.6414,
      "step": 37716
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.6594651341438293,
      "learning_rate": 0.00037617323125338145,
      "loss": 1.6627,
      "step": 37717
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45035162568092346,
      "learning_rate": 0.0003761631216311161,
      "loss": 1.6283,
      "step": 37718
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.44769975543022156,
      "learning_rate": 0.00037615301191640005,
      "loss": 1.5753,
      "step": 37719
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.45499926805496216,
      "learning_rate": 0.0003761429021092454,
      "loss": 1.6351,
      "step": 37720
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4486668109893799,
      "learning_rate": 0.0003761327922096645,
      "loss": 1.7121,
      "step": 37721
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4509556293487549,
      "learning_rate": 0.0003761226822176697,
      "loss": 1.6666,
      "step": 37722
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4409465491771698,
      "learning_rate": 0.00037611257213327306,
      "loss": 1.6307,
      "step": 37723
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4292600452899933,
      "learning_rate": 0.00037610246195648707,
      "loss": 1.5836,
      "step": 37724
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45160534977912903,
      "learning_rate": 0.00037609235168732387,
      "loss": 1.5899,
      "step": 37725
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4538358747959137,
      "learning_rate": 0.00037608224132579574,
      "loss": 1.6552,
      "step": 37726
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43767988681793213,
      "learning_rate": 0.00037607213087191495,
      "loss": 1.5802,
      "step": 37727
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.448971688747406,
      "learning_rate": 0.0003760620203256939,
      "loss": 1.6142,
      "step": 37728
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45977360010147095,
      "learning_rate": 0.00037605190968714475,
      "loss": 1.5657,
      "step": 37729
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42127519845962524,
      "learning_rate": 0.00037604179895627974,
      "loss": 1.6632,
      "step": 37730
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4606407880783081,
      "learning_rate": 0.0003760316881331111,
      "loss": 1.6476,
      "step": 37731
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4590679407119751,
      "learning_rate": 0.0003760215772176513,
      "loss": 1.631,
      "step": 37732
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4449218809604645,
      "learning_rate": 0.0003760114662099126,
      "loss": 1.6372,
      "step": 37733
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4414612352848053,
      "learning_rate": 0.000376001355109907,
      "loss": 1.5938,
      "step": 37734
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4456053674221039,
      "learning_rate": 0.0003759912439176471,
      "loss": 1.6492,
      "step": 37735
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45028191804885864,
      "learning_rate": 0.0003759811326331449,
      "loss": 1.6915,
      "step": 37736
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4359651803970337,
      "learning_rate": 0.0003759710212564128,
      "loss": 1.6226,
      "step": 37737
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4196247160434723,
      "learning_rate": 0.00037596090978746325,
      "loss": 1.6233,
      "step": 37738
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4354058504104614,
      "learning_rate": 0.0003759507982263082,
      "loss": 1.6222,
      "step": 37739
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4390771687030792,
      "learning_rate": 0.00037594068657296006,
      "loss": 1.6343,
      "step": 37740
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4511973261833191,
      "learning_rate": 0.0003759305748274311,
      "loss": 1.6454,
      "step": 37741
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4219629168510437,
      "learning_rate": 0.00037592046298973376,
      "loss": 1.638,
      "step": 37742
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4494575262069702,
      "learning_rate": 0.00037591035105988003,
      "loss": 1.6076,
      "step": 37743
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4624827802181244,
      "learning_rate": 0.0003759002390378824,
      "loss": 1.6375,
      "step": 37744
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4303044378757477,
      "learning_rate": 0.00037589012692375296,
      "loss": 1.6135,
      "step": 37745
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45455917716026306,
      "learning_rate": 0.00037588001471750417,
      "loss": 1.6213,
      "step": 37746
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44553062319755554,
      "learning_rate": 0.0003758699024191483,
      "loss": 1.6558,
      "step": 37747
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44425955414772034,
      "learning_rate": 0.0003758597900286974,
      "loss": 1.5809,
      "step": 37748
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4320865571498871,
      "learning_rate": 0.0003758496775461639,
      "loss": 1.6484,
      "step": 37749
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4618324339389801,
      "learning_rate": 0.00037583956497156014,
      "loss": 1.6424,
      "step": 37750
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4329063594341278,
      "learning_rate": 0.0003758294523048983,
      "loss": 1.6856,
      "step": 37751
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42529696226119995,
      "learning_rate": 0.00037581933954619064,
      "loss": 1.6663,
      "step": 37752
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44565141201019287,
      "learning_rate": 0.00037580922669544953,
      "loss": 1.6156,
      "step": 37753
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4600293040275574,
      "learning_rate": 0.00037579911375268713,
      "loss": 1.7064,
      "step": 37754
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43451565504074097,
      "learning_rate": 0.00037578900071791587,
      "loss": 1.684,
      "step": 37755
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4544138014316559,
      "learning_rate": 0.00037577888759114783,
      "loss": 1.6369,
      "step": 37756
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42874085903167725,
      "learning_rate": 0.00037576877437239543,
      "loss": 1.6479,
      "step": 37757
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45125436782836914,
      "learning_rate": 0.0003757586610616709,
      "loss": 1.6296,
      "step": 37758
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4393562972545624,
      "learning_rate": 0.0003757485476589865,
      "loss": 1.5761,
      "step": 37759
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43013930320739746,
      "learning_rate": 0.0003757384341643546,
      "loss": 1.5832,
      "step": 37760
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4560249447822571,
      "learning_rate": 0.00037572832057778733,
      "loss": 1.6364,
      "step": 37761
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4526781439781189,
      "learning_rate": 0.00037571820689929705,
      "loss": 1.6044,
      "step": 37762
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43918168544769287,
      "learning_rate": 0.000375708093128896,
      "loss": 1.5722,
      "step": 37763
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44361332058906555,
      "learning_rate": 0.0003756979792665965,
      "loss": 1.5906,
      "step": 37764
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45334649085998535,
      "learning_rate": 0.0003756878653124108,
      "loss": 1.6182,
      "step": 37765
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44820886850357056,
      "learning_rate": 0.00037567775126635115,
      "loss": 1.6523,
      "step": 37766
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44407132267951965,
      "learning_rate": 0.00037566763712843,
      "loss": 1.6463,
      "step": 37767
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4399298429489136,
      "learning_rate": 0.0003756575228986593,
      "loss": 1.7014,
      "step": 37768
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43235746026039124,
      "learning_rate": 0.0003756474085770516,
      "loss": 1.6104,
      "step": 37769
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43753644824028015,
      "learning_rate": 0.00037563729416361914,
      "loss": 1.5961,
      "step": 37770
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4645666778087616,
      "learning_rate": 0.0003756271796583741,
      "loss": 1.6496,
      "step": 37771
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44058957695961,
      "learning_rate": 0.0003756170650613288,
      "loss": 1.6187,
      "step": 37772
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43970370292663574,
      "learning_rate": 0.0003756069503724955,
      "loss": 1.6031,
      "step": 37773
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43711748719215393,
      "learning_rate": 0.00037559683559188655,
      "loss": 1.5825,
      "step": 37774
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4515579044818878,
      "learning_rate": 0.00037558672071951414,
      "loss": 1.6672,
      "step": 37775
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45761409401893616,
      "learning_rate": 0.00037557660575539064,
      "loss": 1.6289,
      "step": 37776
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44515255093574524,
      "learning_rate": 0.0003755664906995283,
      "loss": 1.5806,
      "step": 37777
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42264971137046814,
      "learning_rate": 0.0003755563755519393,
      "loss": 1.5874,
      "step": 37778
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4412870407104492,
      "learning_rate": 0.000375546260312636,
      "loss": 1.6407,
      "step": 37779
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45689356327056885,
      "learning_rate": 0.0003755361449816307,
      "loss": 1.5894,
      "step": 37780
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4380370080471039,
      "learning_rate": 0.00037552602955893564,
      "loss": 1.6317,
      "step": 37781
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43523210287094116,
      "learning_rate": 0.0003755159140445631,
      "loss": 1.6027,
      "step": 37782
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45002591609954834,
      "learning_rate": 0.00037550579843852536,
      "loss": 1.6479,
      "step": 37783
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43544697761535645,
      "learning_rate": 0.00037549568274083473,
      "loss": 1.6144,
      "step": 37784
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4373396039009094,
      "learning_rate": 0.0003754855669515035,
      "loss": 1.6053,
      "step": 37785
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44342854619026184,
      "learning_rate": 0.0003754754510705439,
      "loss": 1.6344,
      "step": 37786
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44983726739883423,
      "learning_rate": 0.0003754653350979681,
      "loss": 1.6764,
      "step": 37787
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44671526551246643,
      "learning_rate": 0.0003754552190337887,
      "loss": 1.6274,
      "step": 37788
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4304594099521637,
      "learning_rate": 0.0003754451028780176,
      "loss": 1.6818,
      "step": 37789
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44443315267562866,
      "learning_rate": 0.00037543498663066737,
      "loss": 1.6357,
      "step": 37790
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4721773564815521,
      "learning_rate": 0.00037542487029175014,
      "loss": 1.6588,
      "step": 37791
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45974627137184143,
      "learning_rate": 0.0003754147538612782,
      "loss": 1.6356,
      "step": 37792
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4495067894458771,
      "learning_rate": 0.0003754046373392639,
      "loss": 1.621,
      "step": 37793
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4438802897930145,
      "learning_rate": 0.0003753945207257195,
      "loss": 1.6317,
      "step": 37794
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4365832209587097,
      "learning_rate": 0.0003753844040206573,
      "loss": 1.6425,
      "step": 37795
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4556289315223694,
      "learning_rate": 0.0003753742872240894,
      "loss": 1.5919,
      "step": 37796
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44273802638053894,
      "learning_rate": 0.00037536417033602837,
      "loss": 1.6672,
      "step": 37797
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4428458511829376,
      "learning_rate": 0.0003753540533564863,
      "loss": 1.5982,
      "step": 37798
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4358457028865814,
      "learning_rate": 0.0003753439362854754,
      "loss": 1.6691,
      "step": 37799
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.445280522108078,
      "learning_rate": 0.0003753338191230082,
      "loss": 1.6917,
      "step": 37800
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46400025486946106,
      "learning_rate": 0.0003753237018690968,
      "loss": 1.623,
      "step": 37801
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45016440749168396,
      "learning_rate": 0.00037531358452375357,
      "loss": 1.6299,
      "step": 37802
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43396735191345215,
      "learning_rate": 0.0003753034670869906,
      "loss": 1.6264,
      "step": 37803
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44628098607063293,
      "learning_rate": 0.00037529334955882043,
      "loss": 1.6672,
      "step": 37804
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44504663348197937,
      "learning_rate": 0.0003752832319392552,
      "loss": 1.4872,
      "step": 37805
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.47087663412094116,
      "learning_rate": 0.00037527311422830723,
      "loss": 1.6995,
      "step": 37806
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44777432084083557,
      "learning_rate": 0.0003752629964259888,
      "loss": 1.6374,
      "step": 37807
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.49807849526405334,
      "learning_rate": 0.00037525287853231213,
      "loss": 1.5686,
      "step": 37808
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43427544832229614,
      "learning_rate": 0.0003752427605472896,
      "loss": 1.6201,
      "step": 37809
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4288122355937958,
      "learning_rate": 0.00037523264247093347,
      "loss": 1.5942,
      "step": 37810
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45395025610923767,
      "learning_rate": 0.00037522252430325596,
      "loss": 1.5336,
      "step": 37811
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45595359802246094,
      "learning_rate": 0.00037521240604426943,
      "loss": 1.5763,
      "step": 37812
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45457911491394043,
      "learning_rate": 0.0003752022876939861,
      "loss": 1.6521,
      "step": 37813
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4462815523147583,
      "learning_rate": 0.00037519216925241823,
      "loss": 1.6173,
      "step": 37814
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46884578466415405,
      "learning_rate": 0.0003751820507195782,
      "loss": 1.6313,
      "step": 37815
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.469981849193573,
      "learning_rate": 0.0003751719320954782,
      "loss": 1.6674,
      "step": 37816
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4527321755886078,
      "learning_rate": 0.00037516181338013055,
      "loss": 1.616,
      "step": 37817
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4802846908569336,
      "learning_rate": 0.00037515169457354755,
      "loss": 1.6517,
      "step": 37818
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4564054012298584,
      "learning_rate": 0.00037514157567574146,
      "loss": 1.5665,
      "step": 37819
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45873692631721497,
      "learning_rate": 0.0003751314566867246,
      "loss": 1.6111,
      "step": 37820
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4537852108478546,
      "learning_rate": 0.0003751213376065091,
      "loss": 1.6296,
      "step": 37821
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4621927738189697,
      "learning_rate": 0.0003751112184351076,
      "loss": 1.612,
      "step": 37822
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4626632332801819,
      "learning_rate": 0.000375101099172532,
      "loss": 1.6627,
      "step": 37823
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4493643045425415,
      "learning_rate": 0.00037509097981879464,
      "loss": 1.6453,
      "step": 37824
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45855459570884705,
      "learning_rate": 0.0003750808603739081,
      "loss": 1.6454,
      "step": 37825
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4729754626750946,
      "learning_rate": 0.0003750707408378843,
      "loss": 1.5818,
      "step": 37826
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45195743441581726,
      "learning_rate": 0.00037506062121073577,
      "loss": 1.6201,
      "step": 37827
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45856955647468567,
      "learning_rate": 0.0003750505014924746,
      "loss": 1.6808,
      "step": 37828
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4378568232059479,
      "learning_rate": 0.00037504038168311327,
      "loss": 1.6258,
      "step": 37829
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4518086016178131,
      "learning_rate": 0.0003750302617826639,
      "loss": 1.6229,
      "step": 37830
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44891417026519775,
      "learning_rate": 0.00037502014179113894,
      "loss": 1.6755,
      "step": 37831
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4434305727481842,
      "learning_rate": 0.0003750100217085506,
      "loss": 1.6469,
      "step": 37832
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46035245060920715,
      "learning_rate": 0.00037499990153491095,
      "loss": 1.5935,
      "step": 37833
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44875484704971313,
      "learning_rate": 0.0003749897812702327,
      "loss": 1.718,
      "step": 37834
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4327773451805115,
      "learning_rate": 0.0003749796609145278,
      "loss": 1.5818,
      "step": 37835
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.442569375038147,
      "learning_rate": 0.0003749695404678086,
      "loss": 1.6649,
      "step": 37836
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44195133447647095,
      "learning_rate": 0.00037495941993008746,
      "loss": 1.6439,
      "step": 37837
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4474773705005646,
      "learning_rate": 0.00037494929930137667,
      "loss": 1.7261,
      "step": 37838
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44267648458480835,
      "learning_rate": 0.00037493917858168847,
      "loss": 1.5591,
      "step": 37839
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4434233009815216,
      "learning_rate": 0.0003749290577710351,
      "loss": 1.6665,
      "step": 37840
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4387299716472626,
      "learning_rate": 0.00037491893686942895,
      "loss": 1.5601,
      "step": 37841
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.434405654668808,
      "learning_rate": 0.00037490881587688224,
      "loss": 1.5855,
      "step": 37842
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.447868287563324,
      "learning_rate": 0.0003748986947934072,
      "loss": 1.6308,
      "step": 37843
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4523625671863556,
      "learning_rate": 0.0003748885736190162,
      "loss": 1.6541,
      "step": 37844
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4457937479019165,
      "learning_rate": 0.0003748784523537216,
      "loss": 1.5635,
      "step": 37845
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44871217012405396,
      "learning_rate": 0.00037486833099753547,
      "loss": 1.593,
      "step": 37846
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44831180572509766,
      "learning_rate": 0.0003748582095504703,
      "loss": 1.6786,
      "step": 37847
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4370388686656952,
      "learning_rate": 0.00037484808801253823,
      "loss": 1.6282,
      "step": 37848
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4526600241661072,
      "learning_rate": 0.00037483796638375166,
      "loss": 1.6583,
      "step": 37849
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42967936396598816,
      "learning_rate": 0.0003748278446641228,
      "loss": 1.6191,
      "step": 37850
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43979623913764954,
      "learning_rate": 0.00037481772285366397,
      "loss": 1.6593,
      "step": 37851
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44858455657958984,
      "learning_rate": 0.00037480760095238747,
      "loss": 1.6209,
      "step": 37852
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44194096326828003,
      "learning_rate": 0.0003747974789603055,
      "loss": 1.6974,
      "step": 37853
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4377540051937103,
      "learning_rate": 0.00037478735687743045,
      "loss": 1.6138,
      "step": 37854
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4538053870201111,
      "learning_rate": 0.0003747772347037746,
      "loss": 1.6498,
      "step": 37855
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4673488736152649,
      "learning_rate": 0.0003747671124393501,
      "loss": 1.6018,
      "step": 37856
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43988749384880066,
      "learning_rate": 0.00037475699008416956,
      "loss": 1.6371,
      "step": 37857
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.48003408312797546,
      "learning_rate": 0.0003747468676382448,
      "loss": 1.6852,
      "step": 37858
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43973222374916077,
      "learning_rate": 0.0003747367451015885,
      "loss": 1.6536,
      "step": 37859
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4352544844150543,
      "learning_rate": 0.0003747266224742127,
      "loss": 1.6376,
      "step": 37860
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4623943865299225,
      "learning_rate": 0.0003747164997561299,
      "loss": 1.7329,
      "step": 37861
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4512735903263092,
      "learning_rate": 0.0003747063769473522,
      "loss": 1.6329,
      "step": 37862
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4343551695346832,
      "learning_rate": 0.00037469625404789204,
      "loss": 1.6402,
      "step": 37863
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4519919753074646,
      "learning_rate": 0.00037468613105776165,
      "loss": 1.6007,
      "step": 37864
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4234616756439209,
      "learning_rate": 0.0003746760079769732,
      "loss": 1.6222,
      "step": 37865
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43493232131004333,
      "learning_rate": 0.00037466588480553916,
      "loss": 1.6112,
      "step": 37866
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4339626133441925,
      "learning_rate": 0.00037465576154347167,
      "loss": 1.6086,
      "step": 37867
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4304722249507904,
      "learning_rate": 0.0003746456381907831,
      "loss": 1.6448,
      "step": 37868
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4387281537055969,
      "learning_rate": 0.00037463551474748575,
      "loss": 1.6378,
      "step": 37869
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44024792313575745,
      "learning_rate": 0.00037462539121359197,
      "loss": 1.6628,
      "step": 37870
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4499094486236572,
      "learning_rate": 0.00037461526758911375,
      "loss": 1.6291,
      "step": 37871
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44180813431739807,
      "learning_rate": 0.0003746051438740638,
      "loss": 1.5902,
      "step": 37872
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44778725504875183,
      "learning_rate": 0.0003745950200684541,
      "loss": 1.5642,
      "step": 37873
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45322850346565247,
      "learning_rate": 0.0003745848961722969,
      "loss": 1.6988,
      "step": 37874
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43583330512046814,
      "learning_rate": 0.0003745747721856049,
      "loss": 1.6333,
      "step": 37875
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4447970986366272,
      "learning_rate": 0.00037456464810838995,
      "loss": 1.6049,
      "step": 37876
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.457751989364624,
      "learning_rate": 0.00037455452394066454,
      "loss": 1.6488,
      "step": 37877
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44013580679893494,
      "learning_rate": 0.00037454439968244094,
      "loss": 1.5767,
      "step": 37878
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4513270854949951,
      "learning_rate": 0.00037453427533373133,
      "loss": 1.5671,
      "step": 37879
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43473929166793823,
      "learning_rate": 0.00037452415089454826,
      "loss": 1.555,
      "step": 37880
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4592815935611725,
      "learning_rate": 0.00037451402636490364,
      "loss": 1.6443,
      "step": 37881
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43149709701538086,
      "learning_rate": 0.0003745039017448101,
      "loss": 1.6055,
      "step": 37882
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44646185636520386,
      "learning_rate": 0.00037449377703427974,
      "loss": 1.7161,
      "step": 37883
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4386022090911865,
      "learning_rate": 0.0003744836522333251,
      "loss": 1.6532,
      "step": 37884
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4502739906311035,
      "learning_rate": 0.0003744735273419581,
      "loss": 1.621,
      "step": 37885
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45765823125839233,
      "learning_rate": 0.00037446340236019124,
      "loss": 1.6714,
      "step": 37886
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45949700474739075,
      "learning_rate": 0.0003744532772880368,
      "loss": 1.6643,
      "step": 37887
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46761879324913025,
      "learning_rate": 0.000374443152125507,
      "loss": 1.6429,
      "step": 37888
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43127065896987915,
      "learning_rate": 0.00037443302687261424,
      "loss": 1.62,
      "step": 37889
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4418123662471771,
      "learning_rate": 0.00037442290152937076,
      "loss": 1.7058,
      "step": 37890
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4563668370246887,
      "learning_rate": 0.00037441277609578873,
      "loss": 1.6536,
      "step": 37891
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.449720561504364,
      "learning_rate": 0.0003744026505718807,
      "loss": 1.6446,
      "step": 37892
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4387286603450775,
      "learning_rate": 0.0003743925249576587,
      "loss": 1.5106,
      "step": 37893
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4701879322528839,
      "learning_rate": 0.00037438239925313525,
      "loss": 1.706,
      "step": 37894
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4627554416656494,
      "learning_rate": 0.0003743722734583225,
      "loss": 1.6603,
      "step": 37895
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.5890608429908752,
      "learning_rate": 0.0003743621475732327,
      "loss": 1.7007,
      "step": 37896
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4416314661502838,
      "learning_rate": 0.00037435202159787827,
      "loss": 1.6476,
      "step": 37897
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4569866955280304,
      "learning_rate": 0.00037434189553227137,
      "loss": 1.6202,
      "step": 37898
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44857239723205566,
      "learning_rate": 0.00037433176937642443,
      "loss": 1.5958,
      "step": 37899
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44759437441825867,
      "learning_rate": 0.0003743216431303497,
      "loss": 1.6765,
      "step": 37900
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4447808265686035,
      "learning_rate": 0.00037431151679405937,
      "loss": 1.6746,
      "step": 37901
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45622262358665466,
      "learning_rate": 0.00037430139036756586,
      "loss": 1.649,
      "step": 37902
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4503646194934845,
      "learning_rate": 0.0003742912638508813,
      "loss": 1.6847,
      "step": 37903
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.48087644577026367,
      "learning_rate": 0.0003742811372440182,
      "loss": 1.6052,
      "step": 37904
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.6887819766998291,
      "learning_rate": 0.0003742710105469888,
      "loss": 1.5952,
      "step": 37905
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4498407244682312,
      "learning_rate": 0.0003742608837598052,
      "loss": 1.6157,
      "step": 37906
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44008031487464905,
      "learning_rate": 0.00037425075688247994,
      "loss": 1.6003,
      "step": 37907
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.444080114364624,
      "learning_rate": 0.0003742406299150251,
      "loss": 1.7314,
      "step": 37908
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43423324823379517,
      "learning_rate": 0.00037423050285745313,
      "loss": 1.622,
      "step": 37909
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4394311308860779,
      "learning_rate": 0.00037422037570977626,
      "loss": 1.6288,
      "step": 37910
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4418247938156128,
      "learning_rate": 0.00037421024847200684,
      "loss": 1.5815,
      "step": 37911
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4542095959186554,
      "learning_rate": 0.0003742001211441571,
      "loss": 1.6086,
      "step": 37912
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43730708956718445,
      "learning_rate": 0.0003741899937262392,
      "loss": 1.6071,
      "step": 37913
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4509757161140442,
      "learning_rate": 0.0003741798662182658,
      "loss": 1.5972,
      "step": 37914
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4527052044868469,
      "learning_rate": 0.00037416973862024883,
      "loss": 1.5617,
      "step": 37915
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4446070194244385,
      "learning_rate": 0.00037415961093220076,
      "loss": 1.6459,
      "step": 37916
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45331498980522156,
      "learning_rate": 0.00037414948315413383,
      "loss": 1.6494,
      "step": 37917
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42457669973373413,
      "learning_rate": 0.00037413935528606034,
      "loss": 1.5205,
      "step": 37918
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44596150517463684,
      "learning_rate": 0.0003741292273279927,
      "loss": 1.587,
      "step": 37919
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4438084661960602,
      "learning_rate": 0.000374119099279943,
      "loss": 1.6541,
      "step": 37920
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.446114182472229,
      "learning_rate": 0.00037410897114192366,
      "loss": 1.5533,
      "step": 37921
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44025352597236633,
      "learning_rate": 0.0003740988429139469,
      "loss": 1.6864,
      "step": 37922
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46695780754089355,
      "learning_rate": 0.00037408871459602516,
      "loss": 1.7192,
      "step": 37923
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46106040477752686,
      "learning_rate": 0.0003740785861881705,
      "loss": 1.7307,
      "step": 37924
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43074604868888855,
      "learning_rate": 0.0003740684576903956,
      "loss": 1.6008,
      "step": 37925
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4393672049045563,
      "learning_rate": 0.0003740583291027123,
      "loss": 1.5924,
      "step": 37926
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43791675567626953,
      "learning_rate": 0.0003740482004251331,
      "loss": 1.667,
      "step": 37927
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4429846405982971,
      "learning_rate": 0.00037403807165767034,
      "loss": 1.6318,
      "step": 37928
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45272594690322876,
      "learning_rate": 0.00037402794280033626,
      "loss": 1.6613,
      "step": 37929
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4570694863796234,
      "learning_rate": 0.0003740178138531432,
      "loss": 1.5144,
      "step": 37930
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4447556138038635,
      "learning_rate": 0.00037400768481610333,
      "loss": 1.6138,
      "step": 37931
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45104846358299255,
      "learning_rate": 0.0003739975556892292,
      "loss": 1.5597,
      "step": 37932
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45048004388809204,
      "learning_rate": 0.0003739874264725328,
      "loss": 1.6192,
      "step": 37933
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44631558656692505,
      "learning_rate": 0.00037397729716602665,
      "loss": 1.5616,
      "step": 37934
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4718800187110901,
      "learning_rate": 0.0003739671677697229,
      "loss": 1.648,
      "step": 37935
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45989930629730225,
      "learning_rate": 0.0003739570382836339,
      "loss": 1.6014,
      "step": 37936
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4341059625148773,
      "learning_rate": 0.000373946908707772,
      "loss": 1.6309,
      "step": 37937
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4328854978084564,
      "learning_rate": 0.00037393677904214937,
      "loss": 1.6118,
      "step": 37938
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44371849298477173,
      "learning_rate": 0.00037392664928677854,
      "loss": 1.5654,
      "step": 37939
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4524669051170349,
      "learning_rate": 0.00037391651944167155,
      "loss": 1.6444,
      "step": 37940
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4422875642776489,
      "learning_rate": 0.00037390638950684076,
      "loss": 1.6032,
      "step": 37941
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4612951874732971,
      "learning_rate": 0.0003738962594822986,
      "loss": 1.6533,
      "step": 37942
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45723241567611694,
      "learning_rate": 0.00037388612936805715,
      "loss": 1.7157,
      "step": 37943
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44792985916137695,
      "learning_rate": 0.0003738759991641289,
      "loss": 1.6027,
      "step": 37944
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42223379015922546,
      "learning_rate": 0.000373865868870526,
      "loss": 1.5876,
      "step": 37945
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4529320001602173,
      "learning_rate": 0.00037385573848726096,
      "loss": 1.6006,
      "step": 37946
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4394388794898987,
      "learning_rate": 0.0003738456080143458,
      "loss": 1.6443,
      "step": 37947
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4371749460697174,
      "learning_rate": 0.00037383547745179304,
      "loss": 1.6344,
      "step": 37948
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43982481956481934,
      "learning_rate": 0.0003738253467996149,
      "loss": 1.6584,
      "step": 37949
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4609849750995636,
      "learning_rate": 0.0003738152160578235,
      "loss": 1.6476,
      "step": 37950
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43442752957344055,
      "learning_rate": 0.0003738050852264315,
      "loss": 1.6643,
      "step": 37951
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4425351321697235,
      "learning_rate": 0.0003737949543054509,
      "loss": 1.6038,
      "step": 37952
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44640523195266724,
      "learning_rate": 0.0003737848232948941,
      "loss": 1.597,
      "step": 37953
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4447258710861206,
      "learning_rate": 0.00037377469219477345,
      "loss": 1.6595,
      "step": 37954
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.457528680562973,
      "learning_rate": 0.00037376456100510116,
      "loss": 1.6042,
      "step": 37955
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45702195167541504,
      "learning_rate": 0.0003737544297258896,
      "loss": 1.6536,
      "step": 37956
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4499679505825043,
      "learning_rate": 0.00037374429835715096,
      "loss": 1.6651,
      "step": 37957
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42024579644203186,
      "learning_rate": 0.0003737341668988977,
      "loss": 1.5481,
      "step": 37958
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4601193964481354,
      "learning_rate": 0.00037372403535114196,
      "loss": 1.6105,
      "step": 37959
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4529845416545868,
      "learning_rate": 0.00037371390371389605,
      "loss": 1.6383,
      "step": 37960
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4482995271682739,
      "learning_rate": 0.0003737037719871724,
      "loss": 1.5563,
      "step": 37961
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4551143944263458,
      "learning_rate": 0.0003736936401709833,
      "loss": 1.6095,
      "step": 37962
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45759716629981995,
      "learning_rate": 0.0003736835082653409,
      "loss": 1.6428,
      "step": 37963
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44909051060676575,
      "learning_rate": 0.00037367337627025756,
      "loss": 1.5937,
      "step": 37964
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45671316981315613,
      "learning_rate": 0.00037366324418574556,
      "loss": 1.6252,
      "step": 37965
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4401090741157532,
      "learning_rate": 0.0003736531120118173,
      "loss": 1.6089,
      "step": 37966
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45341095328330994,
      "learning_rate": 0.000373642979748485,
      "loss": 1.5723,
      "step": 37967
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46453556418418884,
      "learning_rate": 0.00037363284739576097,
      "loss": 1.6412,
      "step": 37968
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4385222792625427,
      "learning_rate": 0.0003736227149536575,
      "loss": 1.6495,
      "step": 37969
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44053131341934204,
      "learning_rate": 0.0003736125824221869,
      "loss": 1.6943,
      "step": 37970
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43548277020454407,
      "learning_rate": 0.0003736024498013615,
      "loss": 1.6308,
      "step": 37971
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46396011114120483,
      "learning_rate": 0.0003735923170911936,
      "loss": 1.6638,
      "step": 37972
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4658431112766266,
      "learning_rate": 0.00037358218429169536,
      "loss": 1.6079,
      "step": 37973
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.426636278629303,
      "learning_rate": 0.00037357205140287937,
      "loss": 1.6612,
      "step": 37974
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44279882311820984,
      "learning_rate": 0.00037356191842475753,
      "loss": 1.6431,
      "step": 37975
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44784247875213623,
      "learning_rate": 0.00037355178535734254,
      "loss": 1.5896,
      "step": 37976
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42274367809295654,
      "learning_rate": 0.00037354165220064643,
      "loss": 1.547,
      "step": 37977
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.47051727771759033,
      "learning_rate": 0.00037353151895468155,
      "loss": 1.5989,
      "step": 37978
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46233895421028137,
      "learning_rate": 0.0003735213856194604,
      "loss": 1.6118,
      "step": 37979
    },
    {
      "epoch": 1.26,
      "grad_norm": 1.1382111310958862,
      "learning_rate": 0.00037351125219499496,
      "loss": 1.614,
      "step": 37980
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4419519007205963,
      "learning_rate": 0.0003735011186812978,
      "loss": 1.647,
      "step": 37981
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44109928607940674,
      "learning_rate": 0.0003734909850783811,
      "loss": 1.5972,
      "step": 37982
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45687198638916016,
      "learning_rate": 0.0003734808513862571,
      "loss": 1.6951,
      "step": 37983
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46009930968284607,
      "learning_rate": 0.00037347071760493813,
      "loss": 1.5692,
      "step": 37984
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42563819885253906,
      "learning_rate": 0.00037346058373443665,
      "loss": 1.5885,
      "step": 37985
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44517040252685547,
      "learning_rate": 0.0003734504497747648,
      "loss": 1.5947,
      "step": 37986
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4576893150806427,
      "learning_rate": 0.000373440315725935,
      "loss": 1.6816,
      "step": 37987
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4589485824108124,
      "learning_rate": 0.0003734301815879594,
      "loss": 1.6607,
      "step": 37988
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44746407866477966,
      "learning_rate": 0.0003734200473608504,
      "loss": 1.6627,
      "step": 37989
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44090893864631653,
      "learning_rate": 0.00037340991304462027,
      "loss": 1.6915,
      "step": 37990
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4256959855556488,
      "learning_rate": 0.00037339977863928126,
      "loss": 1.6627,
      "step": 37991
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4385800361633301,
      "learning_rate": 0.0003733896441448459,
      "loss": 1.6722,
      "step": 37992
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4655766785144806,
      "learning_rate": 0.0003733795095613261,
      "loss": 1.6132,
      "step": 37993
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4430971145629883,
      "learning_rate": 0.0003733693748887346,
      "loss": 1.6021,
      "step": 37994
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.46568843722343445,
      "learning_rate": 0.00037335924012708334,
      "loss": 1.7317,
      "step": 37995
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4389066994190216,
      "learning_rate": 0.0003733491052763848,
      "loss": 1.6216,
      "step": 37996
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4448941648006439,
      "learning_rate": 0.0003733389703366514,
      "loss": 1.6228,
      "step": 37997
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4620482623577118,
      "learning_rate": 0.00037332883530789504,
      "loss": 1.7072,
      "step": 37998
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4582730829715729,
      "learning_rate": 0.00037331870019012857,
      "loss": 1.593,
      "step": 37999
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45188650488853455,
      "learning_rate": 0.0003733085649833637,
      "loss": 1.6823,
      "step": 38000
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43241623044013977,
      "learning_rate": 0.0003732984296876132,
      "loss": 1.6597,
      "step": 38001
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44274285435676575,
      "learning_rate": 0.0003732882943028893,
      "loss": 1.637,
      "step": 38002
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4603031575679779,
      "learning_rate": 0.0003732781588292041,
      "loss": 1.5993,
      "step": 38003
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.45827195048332214,
      "learning_rate": 0.00037326802326657,
      "loss": 1.6361,
      "step": 38004
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4318833649158478,
      "learning_rate": 0.00037325788761499924,
      "loss": 1.5932,
      "step": 38005
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44337189197540283,
      "learning_rate": 0.00037324775187450433,
      "loss": 1.6397,
      "step": 38006
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.43477463722229004,
      "learning_rate": 0.0003732376160450974,
      "loss": 1.6903,
      "step": 38007
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4475161135196686,
      "learning_rate": 0.0003732274801267908,
      "loss": 1.5755,
      "step": 38008
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4492932856082916,
      "learning_rate": 0.0003732173441195968,
      "loss": 1.6216,
      "step": 38009
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44414085149765015,
      "learning_rate": 0.00037320720802352773,
      "loss": 1.625,
      "step": 38010
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44153618812561035,
      "learning_rate": 0.000373197071838596,
      "loss": 1.675,
      "step": 38011
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4422464966773987,
      "learning_rate": 0.0003731869355648137,
      "loss": 1.6209,
      "step": 38012
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42678093910217285,
      "learning_rate": 0.0003731767992021933,
      "loss": 1.6018,
      "step": 38013
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4550386369228363,
      "learning_rate": 0.00037316666275074694,
      "loss": 1.6473,
      "step": 38014
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4389631152153015,
      "learning_rate": 0.0003731565262104871,
      "loss": 1.5877,
      "step": 38015
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4640005826950073,
      "learning_rate": 0.0003731463895814261,
      "loss": 1.6344,
      "step": 38016
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.44172966480255127,
      "learning_rate": 0.0003731362528635761,
      "loss": 1.6053,
      "step": 38017
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.9023120999336243,
      "learning_rate": 0.00037312611605694947,
      "loss": 1.5931,
      "step": 38018
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4627309739589691,
      "learning_rate": 0.00037311597916155846,
      "loss": 1.6485,
      "step": 38019
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4454742968082428,
      "learning_rate": 0.00037310584217741547,
      "loss": 1.6794,
      "step": 38020
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4313052296638489,
      "learning_rate": 0.0003730957051045327,
      "loss": 1.5958,
      "step": 38021
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4529857039451599,
      "learning_rate": 0.0003730855679429226,
      "loss": 1.6255,
      "step": 38022
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4612405002117157,
      "learning_rate": 0.0003730754306925973,
      "loss": 1.7016,
      "step": 38023
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4423004686832428,
      "learning_rate": 0.0003730652933535693,
      "loss": 1.6655,
      "step": 38024
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43794238567352295,
      "learning_rate": 0.0003730551559258508,
      "loss": 1.5897,
      "step": 38025
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46544671058654785,
      "learning_rate": 0.000373045018409454,
      "loss": 1.5483,
      "step": 38026
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.457346647977829,
      "learning_rate": 0.00037303488080439134,
      "loss": 1.6165,
      "step": 38027
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46196678280830383,
      "learning_rate": 0.00037302474311067517,
      "loss": 1.681,
      "step": 38028
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45587873458862305,
      "learning_rate": 0.0003730146053283177,
      "loss": 1.659,
      "step": 38029
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4378073215484619,
      "learning_rate": 0.0003730044674573311,
      "loss": 1.6251,
      "step": 38030
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.5431988835334778,
      "learning_rate": 0.00037299432949772807,
      "loss": 1.6771,
      "step": 38031
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4491989314556122,
      "learning_rate": 0.0003729841914495205,
      "loss": 1.6437,
      "step": 38032
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43637025356292725,
      "learning_rate": 0.0003729740533127209,
      "loss": 1.5816,
      "step": 38033
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4291794002056122,
      "learning_rate": 0.00037296391508734165,
      "loss": 1.5883,
      "step": 38034
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4415064752101898,
      "learning_rate": 0.0003729537767733949,
      "loss": 1.6406,
      "step": 38035
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44527268409729004,
      "learning_rate": 0.000372943638370893,
      "loss": 1.5517,
      "step": 38036
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4310372471809387,
      "learning_rate": 0.00037293349987984833,
      "loss": 1.6165,
      "step": 38037
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4453738033771515,
      "learning_rate": 0.0003729233613002731,
      "loss": 1.6455,
      "step": 38038
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4473714530467987,
      "learning_rate": 0.0003729132226321796,
      "loss": 1.6866,
      "step": 38039
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.5539119243621826,
      "learning_rate": 0.00037290308387558026,
      "loss": 1.6542,
      "step": 38040
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46631893515586853,
      "learning_rate": 0.0003728929450304873,
      "loss": 1.6769,
      "step": 38041
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44488388299942017,
      "learning_rate": 0.0003728828060969131,
      "loss": 1.5437,
      "step": 38042
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4522162675857544,
      "learning_rate": 0.00037287266707486985,
      "loss": 1.5887,
      "step": 38043
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4591124653816223,
      "learning_rate": 0.00037286252796436993,
      "loss": 1.683,
      "step": 38044
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4523344933986664,
      "learning_rate": 0.00037285238876542563,
      "loss": 1.6658,
      "step": 38045
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4535093903541565,
      "learning_rate": 0.00037284224947804924,
      "loss": 1.6889,
      "step": 38046
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4665207862854004,
      "learning_rate": 0.0003728321101022531,
      "loss": 1.7211,
      "step": 38047
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4458911418914795,
      "learning_rate": 0.0003728219706380495,
      "loss": 1.5589,
      "step": 38048
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4451300799846649,
      "learning_rate": 0.0003728118310854508,
      "loss": 1.6639,
      "step": 38049
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42787426710128784,
      "learning_rate": 0.0003728016914444693,
      "loss": 1.5488,
      "step": 38050
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4643438458442688,
      "learning_rate": 0.0003727915517151172,
      "loss": 1.6926,
      "step": 38051
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4441552758216858,
      "learning_rate": 0.00037278141189740684,
      "loss": 1.6876,
      "step": 38052
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4629831910133362,
      "learning_rate": 0.00037277127199135065,
      "loss": 1.6159,
      "step": 38053
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43613871932029724,
      "learning_rate": 0.00037276113199696093,
      "loss": 1.5051,
      "step": 38054
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4383518099784851,
      "learning_rate": 0.0003727509919142498,
      "loss": 1.6323,
      "step": 38055
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4545082449913025,
      "learning_rate": 0.0003727408517432297,
      "loss": 1.6022,
      "step": 38056
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4469958245754242,
      "learning_rate": 0.00037273071148391295,
      "loss": 1.621,
      "step": 38057
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45076680183410645,
      "learning_rate": 0.0003727205711363118,
      "loss": 1.636,
      "step": 38058
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43879854679107666,
      "learning_rate": 0.0003727104307004387,
      "loss": 1.634,
      "step": 38059
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4404449462890625,
      "learning_rate": 0.0003727002901763057,
      "loss": 1.5931,
      "step": 38060
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4351349174976349,
      "learning_rate": 0.00037269014956392533,
      "loss": 1.6299,
      "step": 38061
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4392334222793579,
      "learning_rate": 0.0003726800088633098,
      "loss": 1.6109,
      "step": 38062
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.436011403799057,
      "learning_rate": 0.00037266986807447147,
      "loss": 1.6546,
      "step": 38063
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44282373785972595,
      "learning_rate": 0.0003726597271974226,
      "loss": 1.6066,
      "step": 38064
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43956950306892395,
      "learning_rate": 0.00037264958623217556,
      "loss": 1.5993,
      "step": 38065
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4522201716899872,
      "learning_rate": 0.0003726394451787427,
      "loss": 1.6231,
      "step": 38066
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.443645179271698,
      "learning_rate": 0.0003726293040371361,
      "loss": 1.5814,
      "step": 38067
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4446352422237396,
      "learning_rate": 0.00037261916280736837,
      "loss": 1.6547,
      "step": 38068
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4632227420806885,
      "learning_rate": 0.0003726090214894516,
      "loss": 1.6648,
      "step": 38069
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4404367208480835,
      "learning_rate": 0.00037259888008339817,
      "loss": 1.5866,
      "step": 38070
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4479621350765228,
      "learning_rate": 0.0003725887385892204,
      "loss": 1.682,
      "step": 38071
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45065832138061523,
      "learning_rate": 0.0003725785970069306,
      "loss": 1.6993,
      "step": 38072
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42938631772994995,
      "learning_rate": 0.00037256845533654114,
      "loss": 1.5544,
      "step": 38073
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42483627796173096,
      "learning_rate": 0.0003725583135780642,
      "loss": 1.5856,
      "step": 38074
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45664772391319275,
      "learning_rate": 0.00037254817173151215,
      "loss": 1.6419,
      "step": 38075
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44032418727874756,
      "learning_rate": 0.0003725380297968973,
      "loss": 1.5806,
      "step": 38076
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4500463306903839,
      "learning_rate": 0.000372527887774232,
      "loss": 1.5971,
      "step": 38077
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43659892678260803,
      "learning_rate": 0.00037251774566352853,
      "loss": 1.645,
      "step": 38078
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4579763412475586,
      "learning_rate": 0.0003725076034647993,
      "loss": 1.6819,
      "step": 38079
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43504875898361206,
      "learning_rate": 0.00037249746117805636,
      "loss": 1.5851,
      "step": 38080
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.47019171714782715,
      "learning_rate": 0.0003724873188033123,
      "loss": 1.6555,
      "step": 38081
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4456108510494232,
      "learning_rate": 0.00037247717634057926,
      "loss": 1.5896,
      "step": 38082
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4416843056678772,
      "learning_rate": 0.0003724670337898696,
      "loss": 1.6087,
      "step": 38083
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46057355403900146,
      "learning_rate": 0.00037245689115119566,
      "loss": 1.6409,
      "step": 38084
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43585658073425293,
      "learning_rate": 0.0003724467484245697,
      "loss": 1.6143,
      "step": 38085
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4473855197429657,
      "learning_rate": 0.0003724366056100041,
      "loss": 1.7571,
      "step": 38086
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44578078389167786,
      "learning_rate": 0.0003724264627075111,
      "loss": 1.6066,
      "step": 38087
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43478310108184814,
      "learning_rate": 0.0003724163197171031,
      "loss": 1.6615,
      "step": 38088
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4406180679798126,
      "learning_rate": 0.0003724061766387923,
      "loss": 1.7587,
      "step": 38089
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4446086287498474,
      "learning_rate": 0.00037239603347259106,
      "loss": 1.5838,
      "step": 38090
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46717339754104614,
      "learning_rate": 0.0003723858902185118,
      "loss": 1.6624,
      "step": 38091
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44014135003089905,
      "learning_rate": 0.0003723757468765666,
      "loss": 1.5546,
      "step": 38092
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4646303355693817,
      "learning_rate": 0.000372365603446768,
      "loss": 1.6623,
      "step": 38093
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44833502173423767,
      "learning_rate": 0.0003723554599291282,
      "loss": 1.6584,
      "step": 38094
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44796034693717957,
      "learning_rate": 0.00037234531632365954,
      "loss": 1.5999,
      "step": 38095
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45108944177627563,
      "learning_rate": 0.0003723351726303743,
      "loss": 1.6336,
      "step": 38096
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4378927946090698,
      "learning_rate": 0.00037232502884928484,
      "loss": 1.6069,
      "step": 38097
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4690176844596863,
      "learning_rate": 0.00037231488498040347,
      "loss": 1.6679,
      "step": 38098
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44398635625839233,
      "learning_rate": 0.0003723047410237425,
      "loss": 1.5638,
      "step": 38099
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43870797753334045,
      "learning_rate": 0.00037229459697931414,
      "loss": 1.6596,
      "step": 38100
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42867451906204224,
      "learning_rate": 0.0003722844528471308,
      "loss": 1.6172,
      "step": 38101
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4690302908420563,
      "learning_rate": 0.0003722743086272048,
      "loss": 1.7134,
      "step": 38102
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.451799601316452,
      "learning_rate": 0.00037226416431954855,
      "loss": 1.5999,
      "step": 38103
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4449383020401001,
      "learning_rate": 0.00037225401992417416,
      "loss": 1.6853,
      "step": 38104
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44342756271362305,
      "learning_rate": 0.00037224387544109404,
      "loss": 1.5829,
      "step": 38105
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42513394355773926,
      "learning_rate": 0.0003722337308703205,
      "loss": 1.5325,
      "step": 38106
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4531390070915222,
      "learning_rate": 0.0003722235862118658,
      "loss": 1.6243,
      "step": 38107
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44348254799842834,
      "learning_rate": 0.0003722134414657424,
      "loss": 1.6832,
      "step": 38108
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4541032314300537,
      "learning_rate": 0.00037220329663196247,
      "loss": 1.5691,
      "step": 38109
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.48074018955230713,
      "learning_rate": 0.0003721931517105384,
      "loss": 1.6668,
      "step": 38110
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45233866572380066,
      "learning_rate": 0.00037218300670148247,
      "loss": 1.695,
      "step": 38111
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4497263431549072,
      "learning_rate": 0.0003721728616048071,
      "loss": 1.6609,
      "step": 38112
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45067599415779114,
      "learning_rate": 0.00037216271642052435,
      "loss": 1.6358,
      "step": 38113
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46314144134521484,
      "learning_rate": 0.0003721525711486468,
      "loss": 1.652,
      "step": 38114
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.49785861372947693,
      "learning_rate": 0.0003721424257891865,
      "loss": 1.6721,
      "step": 38115
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4505664110183716,
      "learning_rate": 0.0003721322803421561,
      "loss": 1.6013,
      "step": 38116
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45856523513793945,
      "learning_rate": 0.0003721221348075677,
      "loss": 1.6436,
      "step": 38117
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4840056300163269,
      "learning_rate": 0.00037211198918543365,
      "loss": 1.5777,
      "step": 38118
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4631858766078949,
      "learning_rate": 0.00037210184347576624,
      "loss": 1.6412,
      "step": 38119
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45161494612693787,
      "learning_rate": 0.00037209169767857785,
      "loss": 1.6897,
      "step": 38120
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45811668038368225,
      "learning_rate": 0.00037208155179388084,
      "loss": 1.6199,
      "step": 38121
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4547073543071747,
      "learning_rate": 0.0003720714058216872,
      "loss": 1.5948,
      "step": 38122
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43382760882377625,
      "learning_rate": 0.00037206125976200973,
      "loss": 1.6604,
      "step": 38123
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.445035845041275,
      "learning_rate": 0.00037205111361486045,
      "loss": 1.6934,
      "step": 38124
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4328403174877167,
      "learning_rate": 0.00037204096738025166,
      "loss": 1.5632,
      "step": 38125
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4638950824737549,
      "learning_rate": 0.0003720308210581958,
      "loss": 1.6789,
      "step": 38126
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.47413212060928345,
      "learning_rate": 0.00037202067464870515,
      "loss": 1.6052,
      "step": 38127
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44417983293533325,
      "learning_rate": 0.0003720105281517921,
      "loss": 1.6515,
      "step": 38128
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4473622739315033,
      "learning_rate": 0.00037200038156746875,
      "loss": 1.6514,
      "step": 38129
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.5055755972862244,
      "learning_rate": 0.00037199023489574754,
      "loss": 1.6642,
      "step": 38130
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44437137246131897,
      "learning_rate": 0.00037198008813664083,
      "loss": 1.6113,
      "step": 38131
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44193193316459656,
      "learning_rate": 0.0003719699412901608,
      "loss": 1.6533,
      "step": 38132
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44283032417297363,
      "learning_rate": 0.00037195979435632003,
      "loss": 1.6289,
      "step": 38133
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4623020589351654,
      "learning_rate": 0.00037194964733513065,
      "loss": 1.5525,
      "step": 38134
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4386906325817108,
      "learning_rate": 0.000371939500226605,
      "loss": 1.5685,
      "step": 38135
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44648173451423645,
      "learning_rate": 0.00037192935303075525,
      "loss": 1.6306,
      "step": 38136
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43503299355506897,
      "learning_rate": 0.000371919205747594,
      "loss": 1.6455,
      "step": 38137
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42241230607032776,
      "learning_rate": 0.0003719090583771334,
      "loss": 1.5808,
      "step": 38138
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4326217472553253,
      "learning_rate": 0.00037189891091938583,
      "loss": 1.6117,
      "step": 38139
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4659309685230255,
      "learning_rate": 0.00037188876337436346,
      "loss": 1.6206,
      "step": 38140
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45472821593284607,
      "learning_rate": 0.00037187861574207887,
      "loss": 1.6162,
      "step": 38141
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4394167363643646,
      "learning_rate": 0.00037186846802254414,
      "loss": 1.575,
      "step": 38142
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.446390300989151,
      "learning_rate": 0.0003718583202157717,
      "loss": 1.6416,
      "step": 38143
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4557834565639496,
      "learning_rate": 0.0003718481723217738,
      "loss": 1.6989,
      "step": 38144
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4692783057689667,
      "learning_rate": 0.00037183802434056286,
      "loss": 1.5847,
      "step": 38145
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42798271775245667,
      "learning_rate": 0.0003718278762721512,
      "loss": 1.6426,
      "step": 38146
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4382229745388031,
      "learning_rate": 0.000371817728116551,
      "loss": 1.6512,
      "step": 38147
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46916481852531433,
      "learning_rate": 0.0003718075798737747,
      "loss": 1.5915,
      "step": 38148
    },
    {
      "epoch": 1.27,
      "grad_norm": 1.2521246671676636,
      "learning_rate": 0.00037179743154383457,
      "loss": 1.723,
      "step": 38149
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45786839723587036,
      "learning_rate": 0.00037178728312674286,
      "loss": 1.6499,
      "step": 38150
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43414247035980225,
      "learning_rate": 0.00037177713462251203,
      "loss": 1.5919,
      "step": 38151
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43326613306999207,
      "learning_rate": 0.00037176698603115434,
      "loss": 1.6386,
      "step": 38152
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45269477367401123,
      "learning_rate": 0.00037175683735268214,
      "loss": 1.7308,
      "step": 38153
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43929821252822876,
      "learning_rate": 0.0003717466885871077,
      "loss": 1.6526,
      "step": 38154
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4281257092952728,
      "learning_rate": 0.0003717365397344433,
      "loss": 1.6018,
      "step": 38155
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4431087374687195,
      "learning_rate": 0.0003717263907947013,
      "loss": 1.6446,
      "step": 38156
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44416484236717224,
      "learning_rate": 0.0003717162417678941,
      "loss": 1.6772,
      "step": 38157
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43554168939590454,
      "learning_rate": 0.0003717060926540339,
      "loss": 1.6026,
      "step": 38158
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4423404932022095,
      "learning_rate": 0.0003716959434531331,
      "loss": 1.6765,
      "step": 38159
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4729610085487366,
      "learning_rate": 0.00037168579416520394,
      "loss": 1.6963,
      "step": 38160
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44322922825813293,
      "learning_rate": 0.0003716756447902588,
      "loss": 1.6684,
      "step": 38161
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.7133103609085083,
      "learning_rate": 0.0003716654953283101,
      "loss": 1.6012,
      "step": 38162
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.435721755027771,
      "learning_rate": 0.0003716553457793699,
      "loss": 1.641,
      "step": 38163
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4460200071334839,
      "learning_rate": 0.0003716451961434508,
      "loss": 1.6064,
      "step": 38164
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4211976230144501,
      "learning_rate": 0.0003716350464205648,
      "loss": 1.5057,
      "step": 38165
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43450728058815,
      "learning_rate": 0.00037162489661072455,
      "loss": 1.6511,
      "step": 38166
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4464974105358124,
      "learning_rate": 0.00037161474671394224,
      "loss": 1.6659,
      "step": 38167
    },
    {
      "epoch": 1.27,
      "grad_norm": 1.0536407232284546,
      "learning_rate": 0.0003716045967302301,
      "loss": 1.6286,
      "step": 38168
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4426638185977936,
      "learning_rate": 0.0003715944466596005,
      "loss": 1.6211,
      "step": 38169
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4670337736606598,
      "learning_rate": 0.00037158429650206595,
      "loss": 1.7121,
      "step": 38170
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43695029616355896,
      "learning_rate": 0.00037157414625763855,
      "loss": 1.7365,
      "step": 38171
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4454253017902374,
      "learning_rate": 0.00037156399592633055,
      "loss": 1.6491,
      "step": 38172
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.437441885471344,
      "learning_rate": 0.0003715538455081546,
      "loss": 1.5821,
      "step": 38173
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.466438353061676,
      "learning_rate": 0.0003715436950031227,
      "loss": 1.534,
      "step": 38174
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4510292410850525,
      "learning_rate": 0.0003715335444112473,
      "loss": 1.662,
      "step": 38175
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4405690133571625,
      "learning_rate": 0.00037152339373254083,
      "loss": 1.6154,
      "step": 38176
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4405173361301422,
      "learning_rate": 0.00037151324296701534,
      "loss": 1.7195,
      "step": 38177
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46558913588523865,
      "learning_rate": 0.00037150309211468347,
      "loss": 1.6797,
      "step": 38178
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4426998794078827,
      "learning_rate": 0.0003714929411755572,
      "loss": 1.5459,
      "step": 38179
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44711461663246155,
      "learning_rate": 0.0003714827901496491,
      "loss": 1.6336,
      "step": 38180
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44877317547798157,
      "learning_rate": 0.00037147263903697153,
      "loss": 1.5967,
      "step": 38181
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45521631836891174,
      "learning_rate": 0.0003714624878375366,
      "loss": 1.6975,
      "step": 38182
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44115161895751953,
      "learning_rate": 0.0003714523365513568,
      "loss": 1.619,
      "step": 38183
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45948895812034607,
      "learning_rate": 0.0003714421851784443,
      "loss": 1.5688,
      "step": 38184
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43221303820610046,
      "learning_rate": 0.00037143203371881164,
      "loss": 1.6216,
      "step": 38185
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4589652121067047,
      "learning_rate": 0.0003714218821724709,
      "loss": 1.5393,
      "step": 38186
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4272163212299347,
      "learning_rate": 0.0003714117305394346,
      "loss": 1.6069,
      "step": 38187
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4628811180591583,
      "learning_rate": 0.0003714015788197149,
      "loss": 1.6388,
      "step": 38188
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4402400851249695,
      "learning_rate": 0.00037139142701332427,
      "loss": 1.6283,
      "step": 38189
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4676782488822937,
      "learning_rate": 0.000371381275120275,
      "loss": 1.7058,
      "step": 38190
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4564249515533447,
      "learning_rate": 0.0003713711231405793,
      "loss": 1.6178,
      "step": 38191
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.440733402967453,
      "learning_rate": 0.00037136097107424965,
      "loss": 1.682,
      "step": 38192
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4509465992450714,
      "learning_rate": 0.00037135081892129823,
      "loss": 1.6143,
      "step": 38193
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4666251242160797,
      "learning_rate": 0.0003713406666817374,
      "loss": 1.6322,
      "step": 38194
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45525386929512024,
      "learning_rate": 0.00037133051435557957,
      "loss": 1.5831,
      "step": 38195
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4389444887638092,
      "learning_rate": 0.0003713203619428371,
      "loss": 1.6273,
      "step": 38196
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.447224497795105,
      "learning_rate": 0.000371310209443522,
      "loss": 1.6446,
      "step": 38197
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45013627409935,
      "learning_rate": 0.000371300056857647,
      "loss": 1.6711,
      "step": 38198
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44808244705200195,
      "learning_rate": 0.0003712899041852241,
      "loss": 1.5841,
      "step": 38199
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45094117522239685,
      "learning_rate": 0.00037127975142626585,
      "loss": 1.5869,
      "step": 38200
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4728562533855438,
      "learning_rate": 0.0003712695985807845,
      "loss": 1.6168,
      "step": 38201
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4381962716579437,
      "learning_rate": 0.00037125944564879226,
      "loss": 1.5331,
      "step": 38202
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4334515631198883,
      "learning_rate": 0.00037124929263030165,
      "loss": 1.633,
      "step": 38203
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43403828144073486,
      "learning_rate": 0.0003712391395253249,
      "loss": 1.6101,
      "step": 38204
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43036311864852905,
      "learning_rate": 0.0003712289863338742,
      "loss": 1.5908,
      "step": 38205
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4581880271434784,
      "learning_rate": 0.00037121883305596214,
      "loss": 1.6973,
      "step": 38206
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4465382993221283,
      "learning_rate": 0.00037120867969160084,
      "loss": 1.5981,
      "step": 38207
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43929919600486755,
      "learning_rate": 0.00037119852624080277,
      "loss": 1.641,
      "step": 38208
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4363628923892975,
      "learning_rate": 0.00037118837270358,
      "loss": 1.615,
      "step": 38209
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4221111834049225,
      "learning_rate": 0.0003711782190799452,
      "loss": 1.5729,
      "step": 38210
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43701741099357605,
      "learning_rate": 0.0003711680653699105,
      "loss": 1.6411,
      "step": 38211
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43942466378211975,
      "learning_rate": 0.00037115791157348824,
      "loss": 1.6487,
      "step": 38212
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4283522963523865,
      "learning_rate": 0.00037114775769069074,
      "loss": 1.6369,
      "step": 38213
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45548468828201294,
      "learning_rate": 0.0003711376037215304,
      "loss": 1.6553,
      "step": 38214
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44973024725914,
      "learning_rate": 0.00037112744966601955,
      "loss": 1.6679,
      "step": 38215
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4487960636615753,
      "learning_rate": 0.0003711172955241703,
      "loss": 1.5956,
      "step": 38216
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4429851770401001,
      "learning_rate": 0.0003711071412959952,
      "loss": 1.663,
      "step": 38217
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43862292170524597,
      "learning_rate": 0.0003710969869815065,
      "loss": 1.5968,
      "step": 38218
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4568440616130829,
      "learning_rate": 0.0003710868325807165,
      "loss": 1.6008,
      "step": 38219
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43342986702919006,
      "learning_rate": 0.00037107667809363763,
      "loss": 1.6261,
      "step": 38220
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43049147725105286,
      "learning_rate": 0.00037106652352028217,
      "loss": 1.612,
      "step": 38221
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.426497220993042,
      "learning_rate": 0.00037105636886066237,
      "loss": 1.5841,
      "step": 38222
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.430146187543869,
      "learning_rate": 0.0003710462141147906,
      "loss": 1.6396,
      "step": 38223
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43388810753822327,
      "learning_rate": 0.00037103605928267923,
      "loss": 1.6476,
      "step": 38224
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4628693163394928,
      "learning_rate": 0.00037102590436434045,
      "loss": 1.5814,
      "step": 38225
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4449694752693176,
      "learning_rate": 0.0003710157493597869,
      "loss": 1.6453,
      "step": 38226
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46207115054130554,
      "learning_rate": 0.0003710055942690304,
      "loss": 1.6518,
      "step": 38227
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4347289204597473,
      "learning_rate": 0.0003709954390920838,
      "loss": 1.6132,
      "step": 38228
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43835440278053284,
      "learning_rate": 0.0003709852838289591,
      "loss": 1.6719,
      "step": 38229
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44245654344558716,
      "learning_rate": 0.00037097512847966875,
      "loss": 1.6049,
      "step": 38230
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44102349877357483,
      "learning_rate": 0.0003709649730442251,
      "loss": 1.6047,
      "step": 38231
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4783809781074524,
      "learning_rate": 0.0003709548175226403,
      "loss": 1.5621,
      "step": 38232
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43935856223106384,
      "learning_rate": 0.0003709446619149269,
      "loss": 1.6165,
      "step": 38233
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45559990406036377,
      "learning_rate": 0.00037093450622109706,
      "loss": 1.6632,
      "step": 38234
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44575873017311096,
      "learning_rate": 0.00037092435044116335,
      "loss": 1.684,
      "step": 38235
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4608284831047058,
      "learning_rate": 0.00037091419457513776,
      "loss": 1.648,
      "step": 38236
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43325644731521606,
      "learning_rate": 0.0003709040386230328,
      "loss": 1.6568,
      "step": 38237
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.5055066347122192,
      "learning_rate": 0.0003708938825848609,
      "loss": 1.6541,
      "step": 38238
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46732527017593384,
      "learning_rate": 0.0003708837264606342,
      "loss": 1.5682,
      "step": 38239
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4586586654186249,
      "learning_rate": 0.00037087357025036513,
      "loss": 1.7422,
      "step": 38240
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43304893374443054,
      "learning_rate": 0.00037086341395406593,
      "loss": 1.6345,
      "step": 38241
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45683255791664124,
      "learning_rate": 0.00037085325757174896,
      "loss": 1.5855,
      "step": 38242
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4368235468864441,
      "learning_rate": 0.00037084310110342667,
      "loss": 1.6177,
      "step": 38243
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4487594664096832,
      "learning_rate": 0.0003708329445491112,
      "loss": 1.6349,
      "step": 38244
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4463181793689728,
      "learning_rate": 0.0003708227879088151,
      "loss": 1.6486,
      "step": 38245
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4476563036441803,
      "learning_rate": 0.0003708126311825505,
      "loss": 1.5892,
      "step": 38246
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46956121921539307,
      "learning_rate": 0.0003708024743703298,
      "loss": 1.6571,
      "step": 38247
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4479801654815674,
      "learning_rate": 0.00037079231747216525,
      "loss": 1.6241,
      "step": 38248
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44863197207450867,
      "learning_rate": 0.00037078216048806934,
      "loss": 1.6284,
      "step": 38249
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44416508078575134,
      "learning_rate": 0.00037077200341805437,
      "loss": 1.6266,
      "step": 38250
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4487513303756714,
      "learning_rate": 0.0003707618462621325,
      "loss": 1.6644,
      "step": 38251
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4411943256855011,
      "learning_rate": 0.00037075168902031623,
      "loss": 1.5515,
      "step": 38252
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44713094830513,
      "learning_rate": 0.00037074153169261784,
      "loss": 1.6692,
      "step": 38253
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.443421334028244,
      "learning_rate": 0.00037073137427904966,
      "loss": 1.6284,
      "step": 38254
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46801793575286865,
      "learning_rate": 0.00037072121677962405,
      "loss": 1.6561,
      "step": 38255
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4475197494029999,
      "learning_rate": 0.00037071105919435327,
      "loss": 1.6097,
      "step": 38256
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43126752972602844,
      "learning_rate": 0.00037070090152324956,
      "loss": 1.5915,
      "step": 38257
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44917985796928406,
      "learning_rate": 0.00037069074376632556,
      "loss": 1.638,
      "step": 38258
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43576160073280334,
      "learning_rate": 0.0003706805859235933,
      "loss": 1.6534,
      "step": 38259
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43803128600120544,
      "learning_rate": 0.00037067042799506525,
      "loss": 1.6186,
      "step": 38260
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4409828782081604,
      "learning_rate": 0.0003706602699807537,
      "loss": 1.6359,
      "step": 38261
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43687373399734497,
      "learning_rate": 0.000370650111880671,
      "loss": 1.6314,
      "step": 38262
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4518619775772095,
      "learning_rate": 0.00037063995369482957,
      "loss": 1.6291,
      "step": 38263
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4547906517982483,
      "learning_rate": 0.00037062979542324147,
      "loss": 1.6741,
      "step": 38264
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44634053111076355,
      "learning_rate": 0.0003706196370659193,
      "loss": 1.6544,
      "step": 38265
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4423477351665497,
      "learning_rate": 0.0003706094786228753,
      "loss": 1.6983,
      "step": 38266
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42554816603660583,
      "learning_rate": 0.0003705993200941218,
      "loss": 1.5723,
      "step": 38267
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4437721073627472,
      "learning_rate": 0.0003705891614796711,
      "loss": 1.6048,
      "step": 38268
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4518221616744995,
      "learning_rate": 0.00037057900277953556,
      "loss": 1.602,
      "step": 38269
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4483555853366852,
      "learning_rate": 0.0003705688439937276,
      "loss": 1.6526,
      "step": 38270
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4565383791923523,
      "learning_rate": 0.0003705586851222594,
      "loss": 1.6385,
      "step": 38271
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43244311213493347,
      "learning_rate": 0.0003705485261651433,
      "loss": 1.6531,
      "step": 38272
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46345654129981995,
      "learning_rate": 0.00037053836712239174,
      "loss": 1.6017,
      "step": 38273
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4402630925178528,
      "learning_rate": 0.00037052820799401693,
      "loss": 1.5973,
      "step": 38274
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4521932601928711,
      "learning_rate": 0.0003705180487800313,
      "loss": 1.5859,
      "step": 38275
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.46759507060050964,
      "learning_rate": 0.0003705078894804472,
      "loss": 1.6816,
      "step": 38276
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4550705552101135,
      "learning_rate": 0.0003704977300952769,
      "loss": 1.6205,
      "step": 38277
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4596523344516754,
      "learning_rate": 0.00037048757062453267,
      "loss": 1.6461,
      "step": 38278
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4405503571033478,
      "learning_rate": 0.00037047741106822695,
      "loss": 1.5816,
      "step": 38279
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4501340389251709,
      "learning_rate": 0.0003704672514263721,
      "loss": 1.6694,
      "step": 38280
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45265626907348633,
      "learning_rate": 0.00037045709169898037,
      "loss": 1.607,
      "step": 38281
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4625126123428345,
      "learning_rate": 0.000370446931886064,
      "loss": 1.5447,
      "step": 38282
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4518781006336212,
      "learning_rate": 0.0003704367719876356,
      "loss": 1.6345,
      "step": 38283
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4518972933292389,
      "learning_rate": 0.00037042661200370724,
      "loss": 1.6094,
      "step": 38284
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.5408360958099365,
      "learning_rate": 0.00037041645193429135,
      "loss": 1.6972,
      "step": 38285
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45846158266067505,
      "learning_rate": 0.0003704062917794004,
      "loss": 1.6786,
      "step": 38286
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4466231167316437,
      "learning_rate": 0.0003703961315390463,
      "loss": 1.5715,
      "step": 38287
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.447784423828125,
      "learning_rate": 0.00037038597121324187,
      "loss": 1.6233,
      "step": 38288
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4456148147583008,
      "learning_rate": 0.0003703758108019992,
      "loss": 1.6065,
      "step": 38289
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4759756028652191,
      "learning_rate": 0.0003703656503053307,
      "loss": 1.6427,
      "step": 38290
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45371749997138977,
      "learning_rate": 0.0003703554897232486,
      "loss": 1.5856,
      "step": 38291
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4495408833026886,
      "learning_rate": 0.00037034532905576533,
      "loss": 1.6722,
      "step": 38292
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4938652813434601,
      "learning_rate": 0.0003703351683028933,
      "loss": 1.6358,
      "step": 38293
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44386792182922363,
      "learning_rate": 0.00037032500746464453,
      "loss": 1.6205,
      "step": 38294
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4397045373916626,
      "learning_rate": 0.0003703148465410317,
      "loss": 1.5908,
      "step": 38295
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4737035036087036,
      "learning_rate": 0.00037030468553206694,
      "loss": 1.6603,
      "step": 38296
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42956820130348206,
      "learning_rate": 0.0003702945244377627,
      "loss": 1.614,
      "step": 38297
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44487059116363525,
      "learning_rate": 0.0003702843632581313,
      "loss": 1.6094,
      "step": 38298
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42710837721824646,
      "learning_rate": 0.00037027420199318495,
      "loss": 1.5289,
      "step": 38299
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44824761152267456,
      "learning_rate": 0.0003702640406429362,
      "loss": 1.5901,
      "step": 38300
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4332444965839386,
      "learning_rate": 0.00037025387920739707,
      "loss": 1.6547,
      "step": 38301
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44328823685646057,
      "learning_rate": 0.0003702437176865803,
      "loss": 1.7438,
      "step": 38302
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43776094913482666,
      "learning_rate": 0.0003702335560804978,
      "loss": 1.6564,
      "step": 38303
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4508604407310486,
      "learning_rate": 0.00037022339438916226,
      "loss": 1.6629,
      "step": 38304
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4409911036491394,
      "learning_rate": 0.00037021323261258576,
      "loss": 1.6179,
      "step": 38305
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4670904576778412,
      "learning_rate": 0.0003702030707507808,
      "loss": 1.6175,
      "step": 38306
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4380072355270386,
      "learning_rate": 0.00037019290880375977,
      "loss": 1.612,
      "step": 38307
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44025203585624695,
      "learning_rate": 0.00037018274677153473,
      "loss": 1.6467,
      "step": 38308
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4394943416118622,
      "learning_rate": 0.00037017258465411824,
      "loss": 1.617,
      "step": 38309
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4516744613647461,
      "learning_rate": 0.0003701624224515225,
      "loss": 1.6265,
      "step": 38310
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.43682748079299927,
      "learning_rate": 0.00037015226016376,
      "loss": 1.6523,
      "step": 38311
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4480499029159546,
      "learning_rate": 0.00037014209779084287,
      "loss": 1.5963,
      "step": 38312
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44516533613204956,
      "learning_rate": 0.0003701319353327837,
      "loss": 1.5837,
      "step": 38313
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4717930853366852,
      "learning_rate": 0.0003701217727895947,
      "loss": 1.5813,
      "step": 38314
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4528478980064392,
      "learning_rate": 0.00037011161016128815,
      "loss": 1.6336,
      "step": 38315
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.45066404342651367,
      "learning_rate": 0.0003701014474478764,
      "loss": 1.646,
      "step": 38316
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4397645890712738,
      "learning_rate": 0.00037009128464937185,
      "loss": 1.5004,
      "step": 38317
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.44603419303894043,
      "learning_rate": 0.00037008112176578693,
      "loss": 1.5798,
      "step": 38318
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4493820369243622,
      "learning_rate": 0.0003700709587971336,
      "loss": 1.5853,
      "step": 38319
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.42770838737487793,
      "learning_rate": 0.0003700607957434247,
      "loss": 1.6443,
      "step": 38320
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4612729251384735,
      "learning_rate": 0.0003700506326046722,
      "loss": 1.6135,
      "step": 38321
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4525447487831116,
      "learning_rate": 0.0003700404693808885,
      "loss": 1.6115,
      "step": 38322
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45245084166526794,
      "learning_rate": 0.00037003030607208606,
      "loss": 1.6585,
      "step": 38323
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4470483660697937,
      "learning_rate": 0.0003700201426782771,
      "loss": 1.6181,
      "step": 38324
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44836878776550293,
      "learning_rate": 0.00037000997919947414,
      "loss": 1.6681,
      "step": 38325
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4401286840438843,
      "learning_rate": 0.0003699998156356892,
      "loss": 1.5455,
      "step": 38326
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4420912563800812,
      "learning_rate": 0.00036998965198693497,
      "loss": 1.5903,
      "step": 38327
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44512906670570374,
      "learning_rate": 0.0003699794882532235,
      "loss": 1.6058,
      "step": 38328
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.5012804865837097,
      "learning_rate": 0.00036996932443456726,
      "loss": 1.6459,
      "step": 38329
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4380592405796051,
      "learning_rate": 0.00036995916053097854,
      "loss": 1.695,
      "step": 38330
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4555574059486389,
      "learning_rate": 0.00036994899654246974,
      "loss": 1.6318,
      "step": 38331
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45034825801849365,
      "learning_rate": 0.0003699388324690532,
      "loss": 1.5872,
      "step": 38332
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4566813111305237,
      "learning_rate": 0.0003699286683107412,
      "loss": 1.6476,
      "step": 38333
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4613763391971588,
      "learning_rate": 0.00036991850406754606,
      "loss": 1.6493,
      "step": 38334
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46962884068489075,
      "learning_rate": 0.0003699083397394802,
      "loss": 1.6261,
      "step": 38335
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44891905784606934,
      "learning_rate": 0.0003698981753265559,
      "loss": 1.6611,
      "step": 38336
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44694021344184875,
      "learning_rate": 0.00036988801082878553,
      "loss": 1.645,
      "step": 38337
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.442781001329422,
      "learning_rate": 0.00036987784624618143,
      "loss": 1.7263,
      "step": 38338
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.6427044868469238,
      "learning_rate": 0.0003698676815787559,
      "loss": 1.5665,
      "step": 38339
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4497641623020172,
      "learning_rate": 0.00036985751682652127,
      "loss": 1.6002,
      "step": 38340
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4459766447544098,
      "learning_rate": 0.00036984735198948993,
      "loss": 1.6799,
      "step": 38341
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4598695635795593,
      "learning_rate": 0.0003698371870676742,
      "loss": 1.6401,
      "step": 38342
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.42495983839035034,
      "learning_rate": 0.0003698270220610865,
      "loss": 1.6186,
      "step": 38343
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4708539545536041,
      "learning_rate": 0.0003698168569697389,
      "loss": 1.6929,
      "step": 38344
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4414038360118866,
      "learning_rate": 0.000369806691793644,
      "loss": 1.686,
      "step": 38345
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4354918897151947,
      "learning_rate": 0.00036979652653281413,
      "loss": 1.6354,
      "step": 38346
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.48074594140052795,
      "learning_rate": 0.00036978636118726146,
      "loss": 1.6147,
      "step": 38347
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43662139773368835,
      "learning_rate": 0.0003697761957569986,
      "loss": 1.5943,
      "step": 38348
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.442472368478775,
      "learning_rate": 0.00036976603024203744,
      "loss": 1.6478,
      "step": 38349
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44156092405319214,
      "learning_rate": 0.0003697558646423909,
      "loss": 1.6427,
      "step": 38350
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.47139373421669006,
      "learning_rate": 0.0003697456989580707,
      "loss": 1.5939,
      "step": 38351
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4440520405769348,
      "learning_rate": 0.00036973553318908977,
      "loss": 1.5913,
      "step": 38352
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43619129061698914,
      "learning_rate": 0.0003697253673354601,
      "loss": 1.6389,
      "step": 38353
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4469093084335327,
      "learning_rate": 0.0003697152013971941,
      "loss": 1.6286,
      "step": 38354
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44128894805908203,
      "learning_rate": 0.00036970503537430414,
      "loss": 1.6317,
      "step": 38355
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4507002532482147,
      "learning_rate": 0.0003696948692668025,
      "loss": 1.5894,
      "step": 38356
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4386066496372223,
      "learning_rate": 0.00036968470307470155,
      "loss": 1.5742,
      "step": 38357
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43430382013320923,
      "learning_rate": 0.0003696745367980136,
      "loss": 1.6148,
      "step": 38358
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46331098675727844,
      "learning_rate": 0.0003696643704367511,
      "loss": 1.569,
      "step": 38359
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.448813259601593,
      "learning_rate": 0.0003696542039909263,
      "loss": 1.665,
      "step": 38360
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4525185525417328,
      "learning_rate": 0.0003696440374605515,
      "loss": 1.592,
      "step": 38361
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44631004333496094,
      "learning_rate": 0.00036963387084563927,
      "loss": 1.6152,
      "step": 38362
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45931559801101685,
      "learning_rate": 0.00036962370414620165,
      "loss": 1.6385,
      "step": 38363
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4450675845146179,
      "learning_rate": 0.00036961353736225113,
      "loss": 1.545,
      "step": 38364
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43296948075294495,
      "learning_rate": 0.0003696033704938,
      "loss": 1.6122,
      "step": 38365
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43653860688209534,
      "learning_rate": 0.0003695932035408607,
      "loss": 1.6801,
      "step": 38366
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4492524266242981,
      "learning_rate": 0.00036958303650344544,
      "loss": 1.7503,
      "step": 38367
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43963342905044556,
      "learning_rate": 0.0003695728693815667,
      "loss": 1.5871,
      "step": 38368
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45384588837623596,
      "learning_rate": 0.00036956270217523667,
      "loss": 1.6846,
      "step": 38369
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45352989435195923,
      "learning_rate": 0.0003695525348844678,
      "loss": 1.623,
      "step": 38370
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4359002411365509,
      "learning_rate": 0.0003695423675092724,
      "loss": 1.5702,
      "step": 38371
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4602993130683899,
      "learning_rate": 0.0003695322000496628,
      "loss": 1.5039,
      "step": 38372
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4513295888900757,
      "learning_rate": 0.0003695220325056515,
      "loss": 1.614,
      "step": 38373
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45587220788002014,
      "learning_rate": 0.0003695118648772505,
      "loss": 1.5768,
      "step": 38374
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4734661877155304,
      "learning_rate": 0.0003695016971644724,
      "loss": 1.6531,
      "step": 38375
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4541167914867401,
      "learning_rate": 0.0003694915293673295,
      "loss": 1.6517,
      "step": 38376
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4460929334163666,
      "learning_rate": 0.0003694813614858341,
      "loss": 1.7128,
      "step": 38377
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45698124170303345,
      "learning_rate": 0.00036947119351999854,
      "loss": 1.6665,
      "step": 38378
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4518100917339325,
      "learning_rate": 0.00036946102546983524,
      "loss": 1.6397,
      "step": 38379
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44919368624687195,
      "learning_rate": 0.00036945085733535647,
      "loss": 1.6114,
      "step": 38380
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.42948901653289795,
      "learning_rate": 0.0003694406891165746,
      "loss": 1.5984,
      "step": 38381
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4455196261405945,
      "learning_rate": 0.000369430520813502,
      "loss": 1.6102,
      "step": 38382
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45218709111213684,
      "learning_rate": 0.0003694203524261509,
      "loss": 1.637,
      "step": 38383
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4316321611404419,
      "learning_rate": 0.0003694101839545337,
      "loss": 1.6666,
      "step": 38384
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4403074085712433,
      "learning_rate": 0.00036940001539866285,
      "loss": 1.5865,
      "step": 38385
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45770251750946045,
      "learning_rate": 0.0003693898467585506,
      "loss": 1.6021,
      "step": 38386
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4450315535068512,
      "learning_rate": 0.00036937967803420927,
      "loss": 1.5769,
      "step": 38387
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44819870591163635,
      "learning_rate": 0.0003693695092256513,
      "loss": 1.5972,
      "step": 38388
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4745338261127472,
      "learning_rate": 0.00036935934033288886,
      "loss": 1.6132,
      "step": 38389
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.48013803362846375,
      "learning_rate": 0.0003693491713559344,
      "loss": 1.6437,
      "step": 38390
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4362228214740753,
      "learning_rate": 0.00036933900229480036,
      "loss": 1.6003,
      "step": 38391
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.5047298669815063,
      "learning_rate": 0.0003693288331494989,
      "loss": 1.6782,
      "step": 38392
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.48852071166038513,
      "learning_rate": 0.0003693186639200426,
      "loss": 1.6591,
      "step": 38393
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4608094394207001,
      "learning_rate": 0.0003693084946064435,
      "loss": 1.6918,
      "step": 38394
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45578500628471375,
      "learning_rate": 0.0003692983252087141,
      "loss": 1.6033,
      "step": 38395
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.47088831663131714,
      "learning_rate": 0.00036928815572686685,
      "loss": 1.6362,
      "step": 38396
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45723241567611694,
      "learning_rate": 0.0003692779861609139,
      "loss": 1.6133,
      "step": 38397
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4478709101676941,
      "learning_rate": 0.00036926781651086776,
      "loss": 1.6188,
      "step": 38398
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4560755491256714,
      "learning_rate": 0.0003692576467767406,
      "loss": 1.6545,
      "step": 38399
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4293607473373413,
      "learning_rate": 0.000369247476958545,
      "loss": 1.557,
      "step": 38400
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4549776017665863,
      "learning_rate": 0.00036923730705629306,
      "loss": 1.6533,
      "step": 38401
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4644429385662079,
      "learning_rate": 0.0003692271370699972,
      "loss": 1.6008,
      "step": 38402
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45933017134666443,
      "learning_rate": 0.0003692169669996699,
      "loss": 1.6299,
      "step": 38403
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44257107377052307,
      "learning_rate": 0.00036920679684532325,
      "loss": 1.7095,
      "step": 38404
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43815118074417114,
      "learning_rate": 0.0003691966266069699,
      "loss": 1.6396,
      "step": 38405
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4398314356803894,
      "learning_rate": 0.00036918645628462193,
      "loss": 1.6937,
      "step": 38406
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4782183766365051,
      "learning_rate": 0.0003691762858782919,
      "loss": 1.6351,
      "step": 38407
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4625813066959381,
      "learning_rate": 0.00036916611538799195,
      "loss": 1.7027,
      "step": 38408
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4603179097175598,
      "learning_rate": 0.00036915594481373454,
      "loss": 1.6308,
      "step": 38409
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4531438946723938,
      "learning_rate": 0.00036914577415553214,
      "loss": 1.6805,
      "step": 38410
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4425569474697113,
      "learning_rate": 0.00036913560341339676,
      "loss": 1.7163,
      "step": 38411
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43805503845214844,
      "learning_rate": 0.00036912543258734115,
      "loss": 1.6091,
      "step": 38412
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4549313485622406,
      "learning_rate": 0.00036911526167737724,
      "loss": 1.6419,
      "step": 38413
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4453735053539276,
      "learning_rate": 0.00036910509068351777,
      "loss": 1.7128,
      "step": 38414
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43969133496284485,
      "learning_rate": 0.00036909491960577476,
      "loss": 1.5999,
      "step": 38415
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4445897042751312,
      "learning_rate": 0.00036908474844416075,
      "loss": 1.5723,
      "step": 38416
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43434301018714905,
      "learning_rate": 0.0003690745771986881,
      "loss": 1.6028,
      "step": 38417
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44026127457618713,
      "learning_rate": 0.000369064405869369,
      "loss": 1.5596,
      "step": 38418
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4593484103679657,
      "learning_rate": 0.00036905423445621595,
      "loss": 1.6973,
      "step": 38419
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44951117038726807,
      "learning_rate": 0.0003690440629592412,
      "loss": 1.5951,
      "step": 38420
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45024949312210083,
      "learning_rate": 0.0003690338913784571,
      "loss": 1.6075,
      "step": 38421
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.42513933777809143,
      "learning_rate": 0.00036902371971387607,
      "loss": 1.6406,
      "step": 38422
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44640976190567017,
      "learning_rate": 0.00036901354796551044,
      "loss": 1.6167,
      "step": 38423
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43743109703063965,
      "learning_rate": 0.0003690033761333725,
      "loss": 1.6239,
      "step": 38424
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4369538128376007,
      "learning_rate": 0.00036899320421747466,
      "loss": 1.5776,
      "step": 38425
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4538141191005707,
      "learning_rate": 0.0003689830322178291,
      "loss": 1.6342,
      "step": 38426
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4466263949871063,
      "learning_rate": 0.00036897286013444844,
      "loss": 1.5792,
      "step": 38427
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4536720812320709,
      "learning_rate": 0.0003689626879673449,
      "loss": 1.6237,
      "step": 38428
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44326484203338623,
      "learning_rate": 0.0003689525157165307,
      "loss": 1.6213,
      "step": 38429
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4405202269554138,
      "learning_rate": 0.0003689423433820185,
      "loss": 1.6757,
      "step": 38430
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45509129762649536,
      "learning_rate": 0.0003689321709638203,
      "loss": 1.7036,
      "step": 38431
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43406715989112854,
      "learning_rate": 0.00036892199846194856,
      "loss": 1.6207,
      "step": 38432
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46155786514282227,
      "learning_rate": 0.0003689118258764158,
      "loss": 1.5559,
      "step": 38433
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4551529288291931,
      "learning_rate": 0.00036890165320723416,
      "loss": 1.6013,
      "step": 38434
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44445711374282837,
      "learning_rate": 0.0003688914804544161,
      "loss": 1.6367,
      "step": 38435
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4440164268016815,
      "learning_rate": 0.0003688813076179739,
      "loss": 1.6027,
      "step": 38436
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4441203773021698,
      "learning_rate": 0.00036887113469792,
      "loss": 1.719,
      "step": 38437
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43886250257492065,
      "learning_rate": 0.00036886096169426653,
      "loss": 1.6288,
      "step": 38438
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4564887285232544,
      "learning_rate": 0.0003688507886070262,
      "loss": 1.6028,
      "step": 38439
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4405955374240875,
      "learning_rate": 0.00036884061543621105,
      "loss": 1.6401,
      "step": 38440
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44833144545555115,
      "learning_rate": 0.0003688304421818336,
      "loss": 1.5971,
      "step": 38441
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4451582431793213,
      "learning_rate": 0.00036882026884390613,
      "loss": 1.5826,
      "step": 38442
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4483277499675751,
      "learning_rate": 0.00036881009542244085,
      "loss": 1.5741,
      "step": 38443
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4352070093154907,
      "learning_rate": 0.0003687999219174504,
      "loss": 1.6413,
      "step": 38444
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4259440004825592,
      "learning_rate": 0.000368789748328947,
      "loss": 1.5558,
      "step": 38445
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43761807680130005,
      "learning_rate": 0.00036877957465694287,
      "loss": 1.614,
      "step": 38446
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4400418698787689,
      "learning_rate": 0.00036876940090145057,
      "loss": 1.6542,
      "step": 38447
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43020081520080566,
      "learning_rate": 0.0003687592270624823,
      "loss": 1.6467,
      "step": 38448
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43511635065078735,
      "learning_rate": 0.0003687490531400505,
      "loss": 1.6421,
      "step": 38449
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.42432472109794617,
      "learning_rate": 0.00036873887913416745,
      "loss": 1.6189,
      "step": 38450
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4523210823535919,
      "learning_rate": 0.0003687287050448455,
      "loss": 1.6619,
      "step": 38451
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46092718839645386,
      "learning_rate": 0.00036871853087209707,
      "loss": 1.64,
      "step": 38452
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.452087938785553,
      "learning_rate": 0.0003687083566159344,
      "loss": 1.5888,
      "step": 38453
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4282664358615875,
      "learning_rate": 0.00036869818227637,
      "loss": 1.5813,
      "step": 38454
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.5281330347061157,
      "learning_rate": 0.0003686880078534161,
      "loss": 1.7026,
      "step": 38455
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4229638874530792,
      "learning_rate": 0.00036867783334708506,
      "loss": 1.6031,
      "step": 38456
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4487112760543823,
      "learning_rate": 0.0003686676587573893,
      "loss": 1.5302,
      "step": 38457
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45799368619918823,
      "learning_rate": 0.00036865748408434107,
      "loss": 1.6788,
      "step": 38458
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4660934805870056,
      "learning_rate": 0.0003686473093279528,
      "loss": 1.6749,
      "step": 38459
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45363619923591614,
      "learning_rate": 0.0003686371344882368,
      "loss": 1.6957,
      "step": 38460
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45515868067741394,
      "learning_rate": 0.00036862695956520533,
      "loss": 1.5958,
      "step": 38461
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44589024782180786,
      "learning_rate": 0.000368616784558871,
      "loss": 1.7151,
      "step": 38462
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45416221022605896,
      "learning_rate": 0.0003686066094692459,
      "loss": 1.61,
      "step": 38463
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4497809410095215,
      "learning_rate": 0.00036859643429634255,
      "loss": 1.6425,
      "step": 38464
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44508588314056396,
      "learning_rate": 0.0003685862590401732,
      "loss": 1.5497,
      "step": 38465
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43122318387031555,
      "learning_rate": 0.00036857608370075023,
      "loss": 1.659,
      "step": 38466
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4532691538333893,
      "learning_rate": 0.00036856590827808605,
      "loss": 1.7011,
      "step": 38467
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44892072677612305,
      "learning_rate": 0.0003685557327721928,
      "loss": 1.619,
      "step": 38468
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4905758500099182,
      "learning_rate": 0.00036854555718308327,
      "loss": 1.6647,
      "step": 38469
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4444788694381714,
      "learning_rate": 0.00036853538151076934,
      "loss": 1.5935,
      "step": 38470
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44098055362701416,
      "learning_rate": 0.0003685252057552636,
      "loss": 1.6151,
      "step": 38471
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4595046937465668,
      "learning_rate": 0.0003685150299165784,
      "loss": 1.6612,
      "step": 38472
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44420289993286133,
      "learning_rate": 0.0003685048539947259,
      "loss": 1.6512,
      "step": 38473
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4398324191570282,
      "learning_rate": 0.00036849467798971876,
      "loss": 1.6291,
      "step": 38474
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44910645484924316,
      "learning_rate": 0.00036848450190156917,
      "loss": 1.6007,
      "step": 38475
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4383993148803711,
      "learning_rate": 0.0003684743257302894,
      "loss": 1.6096,
      "step": 38476
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4464631974697113,
      "learning_rate": 0.00036846414947589194,
      "loss": 1.5905,
      "step": 38477
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43637797236442566,
      "learning_rate": 0.00036845397313838897,
      "loss": 1.6097,
      "step": 38478
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4585835933685303,
      "learning_rate": 0.0003684437967177931,
      "loss": 1.5806,
      "step": 38479
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4528036117553711,
      "learning_rate": 0.0003684336202141166,
      "loss": 1.5994,
      "step": 38480
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4401714503765106,
      "learning_rate": 0.0003684234436273716,
      "loss": 1.6512,
      "step": 38481
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4369344711303711,
      "learning_rate": 0.0003684132669575707,
      "loss": 1.5732,
      "step": 38482
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4361889362335205,
      "learning_rate": 0.0003684030902047261,
      "loss": 1.6245,
      "step": 38483
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44202595949172974,
      "learning_rate": 0.0003683929133688503,
      "loss": 1.5973,
      "step": 38484
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46274077892303467,
      "learning_rate": 0.00036838273644995565,
      "loss": 1.6223,
      "step": 38485
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44036635756492615,
      "learning_rate": 0.0003683725594480544,
      "loss": 1.5842,
      "step": 38486
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4813228249549866,
      "learning_rate": 0.00036836238236315894,
      "loss": 1.5998,
      "step": 38487
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4385457932949066,
      "learning_rate": 0.00036835220519528157,
      "loss": 1.6171,
      "step": 38488
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4564193785190582,
      "learning_rate": 0.0003683420279444346,
      "loss": 1.6996,
      "step": 38489
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43484342098236084,
      "learning_rate": 0.0003683318506106307,
      "loss": 1.5609,
      "step": 38490
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43924662470817566,
      "learning_rate": 0.00036832167319388173,
      "loss": 1.5933,
      "step": 38491
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4666028916835785,
      "learning_rate": 0.0003683114956942006,
      "loss": 1.6847,
      "step": 38492
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4568859934806824,
      "learning_rate": 0.00036830131811159926,
      "loss": 1.5866,
      "step": 38493
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4613410532474518,
      "learning_rate": 0.0003682911404460901,
      "loss": 1.6177,
      "step": 38494
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44431495666503906,
      "learning_rate": 0.0003682809626976856,
      "loss": 1.6257,
      "step": 38495
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4331280291080475,
      "learning_rate": 0.00036827078486639813,
      "loss": 1.6146,
      "step": 38496
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.440123587846756,
      "learning_rate": 0.00036826060695223996,
      "loss": 1.5217,
      "step": 38497
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43235838413238525,
      "learning_rate": 0.0003682504289552235,
      "loss": 1.6383,
      "step": 38498
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4372399151325226,
      "learning_rate": 0.00036824025087536105,
      "loss": 1.6273,
      "step": 38499
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44322070479393005,
      "learning_rate": 0.0003682300727126649,
      "loss": 1.6389,
      "step": 38500
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.451270192861557,
      "learning_rate": 0.0003682198944671477,
      "loss": 1.6131,
      "step": 38501
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44232842326164246,
      "learning_rate": 0.0003682097161388214,
      "loss": 1.6699,
      "step": 38502
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44259652495384216,
      "learning_rate": 0.0003681995377276986,
      "loss": 1.7189,
      "step": 38503
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4457107186317444,
      "learning_rate": 0.00036818935923379174,
      "loss": 1.6306,
      "step": 38504
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45769116282463074,
      "learning_rate": 0.0003681791806571129,
      "loss": 1.6083,
      "step": 38505
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43982571363449097,
      "learning_rate": 0.00036816900199767465,
      "loss": 1.5815,
      "step": 38506
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4261288642883301,
      "learning_rate": 0.0003681588232554893,
      "loss": 1.5253,
      "step": 38507
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.431729793548584,
      "learning_rate": 0.0003681486444305691,
      "loss": 1.5822,
      "step": 38508
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.467578262090683,
      "learning_rate": 0.0003681384655229265,
      "loss": 1.7065,
      "step": 38509
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46546104550361633,
      "learning_rate": 0.00036812828653257394,
      "loss": 1.676,
      "step": 38510
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44600221514701843,
      "learning_rate": 0.0003681181074595236,
      "loss": 1.7103,
      "step": 38511
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.42872387170791626,
      "learning_rate": 0.0003681079283037879,
      "loss": 1.5644,
      "step": 38512
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4307938516139984,
      "learning_rate": 0.00036809774906537923,
      "loss": 1.5976,
      "step": 38513
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46251022815704346,
      "learning_rate": 0.0003680875697443099,
      "loss": 1.6265,
      "step": 38514
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44485288858413696,
      "learning_rate": 0.00036807739034059233,
      "loss": 1.5753,
      "step": 38515
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4363042712211609,
      "learning_rate": 0.00036806721085423877,
      "loss": 1.6548,
      "step": 38516
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45775383710861206,
      "learning_rate": 0.00036805703128526174,
      "loss": 1.6751,
      "step": 38517
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45358049869537354,
      "learning_rate": 0.0003680468516336735,
      "loss": 1.6657,
      "step": 38518
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4571731984615326,
      "learning_rate": 0.0003680366718994864,
      "loss": 1.6081,
      "step": 38519
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4627666473388672,
      "learning_rate": 0.00036802649208271277,
      "loss": 1.5941,
      "step": 38520
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4310952126979828,
      "learning_rate": 0.0003680163121833649,
      "loss": 1.6216,
      "step": 38521
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43745383620262146,
      "learning_rate": 0.0003680061322014555,
      "loss": 1.5955,
      "step": 38522
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45946741104125977,
      "learning_rate": 0.00036799595213699645,
      "loss": 1.6569,
      "step": 38523
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.568440318107605,
      "learning_rate": 0.00036798577199000044,
      "loss": 1.6271,
      "step": 38524
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44482362270355225,
      "learning_rate": 0.00036797559176047963,
      "loss": 1.6237,
      "step": 38525
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.443218857049942,
      "learning_rate": 0.00036796541144844654,
      "loss": 1.6178,
      "step": 38526
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4646677076816559,
      "learning_rate": 0.0003679552310539135,
      "loss": 1.5836,
      "step": 38527
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4674926698207855,
      "learning_rate": 0.0003679450505768927,
      "loss": 1.5842,
      "step": 38528
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44159308075904846,
      "learning_rate": 0.00036793487001739677,
      "loss": 1.6063,
      "step": 38529
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.41920381784439087,
      "learning_rate": 0.00036792468937543786,
      "loss": 1.5788,
      "step": 38530
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45297688245773315,
      "learning_rate": 0.00036791450865102836,
      "loss": 1.6207,
      "step": 38531
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44158935546875,
      "learning_rate": 0.00036790432784418063,
      "loss": 1.5609,
      "step": 38532
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4618777930736542,
      "learning_rate": 0.0003678941469549071,
      "loss": 1.6055,
      "step": 38533
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4467189610004425,
      "learning_rate": 0.00036788396598322006,
      "loss": 1.6081,
      "step": 38534
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.450005441904068,
      "learning_rate": 0.00036787378492913184,
      "loss": 1.6516,
      "step": 38535
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44596803188323975,
      "learning_rate": 0.00036786360379265494,
      "loss": 1.6531,
      "step": 38536
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45316970348358154,
      "learning_rate": 0.0003678534225738016,
      "loss": 1.6327,
      "step": 38537
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4603048264980316,
      "learning_rate": 0.0003678432412725842,
      "loss": 1.6513,
      "step": 38538
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4551025629043579,
      "learning_rate": 0.000367833059889015,
      "loss": 1.6648,
      "step": 38539
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4501079320907593,
      "learning_rate": 0.0003678228784231065,
      "loss": 1.5875,
      "step": 38540
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4585956037044525,
      "learning_rate": 0.0003678126968748711,
      "loss": 1.7203,
      "step": 38541
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46278366446495056,
      "learning_rate": 0.00036780251524432103,
      "loss": 1.6487,
      "step": 38542
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4395056962966919,
      "learning_rate": 0.00036779233353146875,
      "loss": 1.6501,
      "step": 38543
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46002644300460815,
      "learning_rate": 0.0003677821517363265,
      "loss": 1.638,
      "step": 38544
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4424951374530792,
      "learning_rate": 0.0003677719698589067,
      "loss": 1.6253,
      "step": 38545
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44436347484588623,
      "learning_rate": 0.0003677617878992217,
      "loss": 1.6237,
      "step": 38546
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44649431109428406,
      "learning_rate": 0.000367751605857284,
      "loss": 1.6838,
      "step": 38547
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4604489207267761,
      "learning_rate": 0.0003677414237331057,
      "loss": 1.6279,
      "step": 38548
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4530251622200012,
      "learning_rate": 0.00036773124152669935,
      "loss": 1.6226,
      "step": 38549
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.6376615166664124,
      "learning_rate": 0.0003677210592380772,
      "loss": 1.6594,
      "step": 38550
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45905551314353943,
      "learning_rate": 0.0003677108768672517,
      "loss": 1.6266,
      "step": 38551
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44574207067489624,
      "learning_rate": 0.0003677006944142353,
      "loss": 1.6753,
      "step": 38552
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44432932138442993,
      "learning_rate": 0.00036769051187904,
      "loss": 1.6815,
      "step": 38553
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.449993759393692,
      "learning_rate": 0.0003676803292616786,
      "loss": 1.647,
      "step": 38554
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4593130648136139,
      "learning_rate": 0.000367670146562163,
      "loss": 1.6126,
      "step": 38555
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43809735774993896,
      "learning_rate": 0.00036765996378050603,
      "loss": 1.5603,
      "step": 38556
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44694218039512634,
      "learning_rate": 0.0003676497809167198,
      "loss": 1.6574,
      "step": 38557
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.448617547750473,
      "learning_rate": 0.00036763959797081664,
      "loss": 1.6565,
      "step": 38558
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4337819218635559,
      "learning_rate": 0.0003676294149428091,
      "loss": 1.6577,
      "step": 38559
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44965437054634094,
      "learning_rate": 0.0003676192318327092,
      "loss": 1.6738,
      "step": 38560
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4577011168003082,
      "learning_rate": 0.0003676090486405297,
      "loss": 1.5482,
      "step": 38561
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4336628019809723,
      "learning_rate": 0.00036759886536628266,
      "loss": 1.5744,
      "step": 38562
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4566609859466553,
      "learning_rate": 0.0003675886820099807,
      "loss": 1.5992,
      "step": 38563
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46053895354270935,
      "learning_rate": 0.0003675784985716359,
      "loss": 1.6645,
      "step": 38564
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45451775193214417,
      "learning_rate": 0.00036756831505126077,
      "loss": 1.6025,
      "step": 38565
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4448870122432709,
      "learning_rate": 0.0003675581314488678,
      "loss": 1.6656,
      "step": 38566
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4556311368942261,
      "learning_rate": 0.0003675479477644691,
      "loss": 1.711,
      "step": 38567
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4564932584762573,
      "learning_rate": 0.0003675377639980771,
      "loss": 1.6486,
      "step": 38568
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4437295198440552,
      "learning_rate": 0.00036752758014970424,
      "loss": 1.5151,
      "step": 38569
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4444517195224762,
      "learning_rate": 0.0003675173962193629,
      "loss": 1.557,
      "step": 38570
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4283163249492645,
      "learning_rate": 0.0003675072122070654,
      "loss": 1.5683,
      "step": 38571
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4484075605869293,
      "learning_rate": 0.000367497028112824,
      "loss": 1.6231,
      "step": 38572
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.47326967120170593,
      "learning_rate": 0.0003674868439366513,
      "loss": 1.615,
      "step": 38573
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46786707639694214,
      "learning_rate": 0.0003674766596785593,
      "loss": 1.7044,
      "step": 38574
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4623936712741852,
      "learning_rate": 0.00036746647533856077,
      "loss": 1.613,
      "step": 38575
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43484997749328613,
      "learning_rate": 0.0003674562909166678,
      "loss": 1.6409,
      "step": 38576
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4695187211036682,
      "learning_rate": 0.0003674461064128929,
      "loss": 1.6115,
      "step": 38577
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4447420835494995,
      "learning_rate": 0.00036743592182724816,
      "loss": 1.6455,
      "step": 38578
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45465919375419617,
      "learning_rate": 0.00036742573715974633,
      "loss": 1.6031,
      "step": 38579
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4389176368713379,
      "learning_rate": 0.0003674155524103996,
      "loss": 1.6482,
      "step": 38580
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45640861988067627,
      "learning_rate": 0.0003674053675792202,
      "loss": 1.6239,
      "step": 38581
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4483141601085663,
      "learning_rate": 0.0003673951826662208,
      "loss": 1.5723,
      "step": 38582
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43666425347328186,
      "learning_rate": 0.00036738499767141337,
      "loss": 1.6017,
      "step": 38583
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4651663303375244,
      "learning_rate": 0.0003673748125948106,
      "loss": 1.6718,
      "step": 38584
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.47417178750038147,
      "learning_rate": 0.00036736462743642466,
      "loss": 1.6601,
      "step": 38585
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43244582414627075,
      "learning_rate": 0.0003673544421962681,
      "loss": 1.5981,
      "step": 38586
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4485391080379486,
      "learning_rate": 0.0003673442568743531,
      "loss": 1.666,
      "step": 38587
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45657941699028015,
      "learning_rate": 0.00036733407147069213,
      "loss": 1.5444,
      "step": 38588
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45846131443977356,
      "learning_rate": 0.00036732388598529757,
      "loss": 1.6366,
      "step": 38589
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4524470269680023,
      "learning_rate": 0.00036731370041818154,
      "loss": 1.613,
      "step": 38590
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4359857439994812,
      "learning_rate": 0.0003673035147693568,
      "loss": 1.6201,
      "step": 38591
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44824206829071045,
      "learning_rate": 0.00036729332903883533,
      "loss": 1.6535,
      "step": 38592
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4618985056877136,
      "learning_rate": 0.0003672831432266298,
      "loss": 1.6704,
      "step": 38593
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46891093254089355,
      "learning_rate": 0.00036727295733275244,
      "loss": 1.6236,
      "step": 38594
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4719049036502838,
      "learning_rate": 0.00036726277135721555,
      "loss": 1.6775,
      "step": 38595
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4485229551792145,
      "learning_rate": 0.0003672525853000317,
      "loss": 1.5711,
      "step": 38596
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4634677469730377,
      "learning_rate": 0.00036724239916121297,
      "loss": 1.6016,
      "step": 38597
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4389360249042511,
      "learning_rate": 0.000367232212940772,
      "loss": 1.5979,
      "step": 38598
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45836442708969116,
      "learning_rate": 0.0003672220266387209,
      "loss": 1.6211,
      "step": 38599
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.459168940782547,
      "learning_rate": 0.0003672118402550722,
      "loss": 1.5917,
      "step": 38600
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.48548978567123413,
      "learning_rate": 0.0003672016537898383,
      "loss": 1.7239,
      "step": 38601
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45253148674964905,
      "learning_rate": 0.0003671914672430315,
      "loss": 1.6245,
      "step": 38602
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4429248571395874,
      "learning_rate": 0.00036718128061466416,
      "loss": 1.6161,
      "step": 38603
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46407192945480347,
      "learning_rate": 0.00036717109390474857,
      "loss": 1.6275,
      "step": 38604
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.46218934655189514,
      "learning_rate": 0.0003671609071132972,
      "loss": 1.6809,
      "step": 38605
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4682207703590393,
      "learning_rate": 0.00036715072024032236,
      "loss": 1.6149,
      "step": 38606
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44565054774284363,
      "learning_rate": 0.00036714053328583646,
      "loss": 1.5904,
      "step": 38607
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.458767831325531,
      "learning_rate": 0.00036713034624985183,
      "loss": 1.6905,
      "step": 38608
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4580489695072174,
      "learning_rate": 0.0003671201591323809,
      "loss": 1.6881,
      "step": 38609
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4410993456840515,
      "learning_rate": 0.00036710997193343587,
      "loss": 1.5998,
      "step": 38610
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44855359196662903,
      "learning_rate": 0.00036709978465302936,
      "loss": 1.5454,
      "step": 38611
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45764487981796265,
      "learning_rate": 0.0003670895972911736,
      "loss": 1.6052,
      "step": 38612
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4587247669696808,
      "learning_rate": 0.00036707940984788087,
      "loss": 1.5781,
      "step": 38613
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43497487902641296,
      "learning_rate": 0.00036706922232316365,
      "loss": 1.6622,
      "step": 38614
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.45456767082214355,
      "learning_rate": 0.00036705903471703424,
      "loss": 1.6702,
      "step": 38615
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.43990013003349304,
      "learning_rate": 0.0003670488470295051,
      "loss": 1.6119,
      "step": 38616
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4393591284751892,
      "learning_rate": 0.00036703865926058854,
      "loss": 1.6478,
      "step": 38617
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.5663566589355469,
      "learning_rate": 0.0003670284714102969,
      "loss": 1.5841,
      "step": 38618
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4606911838054657,
      "learning_rate": 0.0003670182834786425,
      "loss": 1.6731,
      "step": 38619
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4422793984413147,
      "learning_rate": 0.0003670080954656379,
      "loss": 1.6416,
      "step": 38620
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4601737856864929,
      "learning_rate": 0.0003669979073712953,
      "loss": 1.6088,
      "step": 38621
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.4484417736530304,
      "learning_rate": 0.00036698771919562714,
      "loss": 1.5993,
      "step": 38622
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.44076380133628845,
      "learning_rate": 0.00036697753093864574,
      "loss": 1.6507,
      "step": 38623
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4458412528038025,
      "learning_rate": 0.00036696734260036344,
      "loss": 1.6004,
      "step": 38624
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.444539338350296,
      "learning_rate": 0.0003669571541807927,
      "loss": 1.602,
      "step": 38625
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44284164905548096,
      "learning_rate": 0.00036694696567994583,
      "loss": 1.6175,
      "step": 38626
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4575497806072235,
      "learning_rate": 0.00036693677709783524,
      "loss": 1.5666,
      "step": 38627
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4472275376319885,
      "learning_rate": 0.00036692658843447324,
      "loss": 1.6352,
      "step": 38628
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4604918956756592,
      "learning_rate": 0.0003669163996898722,
      "loss": 1.6689,
      "step": 38629
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4545538127422333,
      "learning_rate": 0.0003669062108640445,
      "loss": 1.6333,
      "step": 38630
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45286479592323303,
      "learning_rate": 0.00036689602195700253,
      "loss": 1.7074,
      "step": 38631
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4459063708782196,
      "learning_rate": 0.00036688583296875876,
      "loss": 1.6229,
      "step": 38632
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4406251907348633,
      "learning_rate": 0.0003668756438993252,
      "loss": 1.6346,
      "step": 38633
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4617871642112732,
      "learning_rate": 0.00036686545474871467,
      "loss": 1.6641,
      "step": 38634
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.42630475759506226,
      "learning_rate": 0.00036685526551693924,
      "loss": 1.5968,
      "step": 38635
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4506826400756836,
      "learning_rate": 0.0003668450762040114,
      "loss": 1.6229,
      "step": 38636
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45647457242012024,
      "learning_rate": 0.0003668348868099436,
      "loss": 1.5751,
      "step": 38637
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4658186435699463,
      "learning_rate": 0.00036682469733474786,
      "loss": 1.6328,
      "step": 38638
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43696674704551697,
      "learning_rate": 0.00036681450777843695,
      "loss": 1.5531,
      "step": 38639
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44440507888793945,
      "learning_rate": 0.00036680431814102295,
      "loss": 1.6331,
      "step": 38640
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4382946491241455,
      "learning_rate": 0.0003667941284225184,
      "loss": 1.6145,
      "step": 38641
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4399526119232178,
      "learning_rate": 0.00036678393862293575,
      "loss": 1.5309,
      "step": 38642
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44321146607398987,
      "learning_rate": 0.00036677374874228706,
      "loss": 1.6273,
      "step": 38643
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45127642154693604,
      "learning_rate": 0.00036676355878058505,
      "loss": 1.5845,
      "step": 38644
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4512130916118622,
      "learning_rate": 0.0003667533687378417,
      "loss": 1.6757,
      "step": 38645
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45243605971336365,
      "learning_rate": 0.00036674317861406976,
      "loss": 1.6168,
      "step": 38646
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4576367735862732,
      "learning_rate": 0.0003667329884092814,
      "loss": 1.6693,
      "step": 38647
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4429449439048767,
      "learning_rate": 0.000366722798123489,
      "loss": 1.5956,
      "step": 38648
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4570210576057434,
      "learning_rate": 0.000366712607756705,
      "loss": 1.6103,
      "step": 38649
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4444180130958557,
      "learning_rate": 0.00036670241730894163,
      "loss": 1.6151,
      "step": 38650
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4638345539569855,
      "learning_rate": 0.0003666922267802114,
      "loss": 1.5926,
      "step": 38651
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.6468223333358765,
      "learning_rate": 0.00036668203617052665,
      "loss": 1.5912,
      "step": 38652
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4679792523384094,
      "learning_rate": 0.0003666718454798998,
      "loss": 1.6412,
      "step": 38653
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44145897030830383,
      "learning_rate": 0.00036666165470834305,
      "loss": 1.5827,
      "step": 38654
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44293034076690674,
      "learning_rate": 0.0003666514638558689,
      "loss": 1.5385,
      "step": 38655
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44037899374961853,
      "learning_rate": 0.0003666412729224897,
      "loss": 1.5909,
      "step": 38656
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46724140644073486,
      "learning_rate": 0.00036663108190821775,
      "loss": 1.7032,
      "step": 38657
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44970566034317017,
      "learning_rate": 0.0003666208908130657,
      "loss": 1.6639,
      "step": 38658
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45834770798683167,
      "learning_rate": 0.0003666106996370455,
      "loss": 1.5764,
      "step": 38659
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4441572427749634,
      "learning_rate": 0.0003666005083801698,
      "loss": 1.587,
      "step": 38660
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4771083891391754,
      "learning_rate": 0.00036659031704245086,
      "loss": 1.6504,
      "step": 38661
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4488885998725891,
      "learning_rate": 0.00036658012562390107,
      "loss": 1.6876,
      "step": 38662
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4325994551181793,
      "learning_rate": 0.0003665699341245328,
      "loss": 1.6208,
      "step": 38663
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45310112833976746,
      "learning_rate": 0.00036655974254435855,
      "loss": 1.7109,
      "step": 38664
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43940266966819763,
      "learning_rate": 0.00036654955088339053,
      "loss": 1.5701,
      "step": 38665
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4539842903614044,
      "learning_rate": 0.0003665393591416411,
      "loss": 1.642,
      "step": 38666
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44298386573791504,
      "learning_rate": 0.00036652916731912274,
      "loss": 1.6461,
      "step": 38667
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44744545221328735,
      "learning_rate": 0.0003665189754158478,
      "loss": 1.6559,
      "step": 38668
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4500226378440857,
      "learning_rate": 0.0003665087834318286,
      "loss": 1.6153,
      "step": 38669
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45281583070755005,
      "learning_rate": 0.00036649859136707747,
      "loss": 1.7212,
      "step": 38670
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45561397075653076,
      "learning_rate": 0.000366488399221607,
      "loss": 1.6374,
      "step": 38671
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4357970356941223,
      "learning_rate": 0.0003664782069954292,
      "loss": 1.6201,
      "step": 38672
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45212724804878235,
      "learning_rate": 0.00036646801468855685,
      "loss": 1.6023,
      "step": 38673
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4467565417289734,
      "learning_rate": 0.000366457822301002,
      "loss": 1.6139,
      "step": 38674
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4464145600795746,
      "learning_rate": 0.00036644762983277724,
      "loss": 1.6005,
      "step": 38675
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4294452667236328,
      "learning_rate": 0.00036643743728389486,
      "loss": 1.6048,
      "step": 38676
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.454933226108551,
      "learning_rate": 0.0003664272446543671,
      "loss": 1.5849,
      "step": 38677
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4615941047668457,
      "learning_rate": 0.00036641705194420654,
      "loss": 1.6351,
      "step": 38678
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4429163932800293,
      "learning_rate": 0.00036640685915342543,
      "loss": 1.6977,
      "step": 38679
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.47667619585990906,
      "learning_rate": 0.00036639666628203617,
      "loss": 1.6916,
      "step": 38680
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43454509973526,
      "learning_rate": 0.00036638647333005116,
      "loss": 1.5426,
      "step": 38681
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44933241605758667,
      "learning_rate": 0.0003663762802974827,
      "loss": 1.6646,
      "step": 38682
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4509471356868744,
      "learning_rate": 0.00036636608718434337,
      "loss": 1.6193,
      "step": 38683
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44921422004699707,
      "learning_rate": 0.00036635589399064525,
      "loss": 1.6657,
      "step": 38684
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43077459931373596,
      "learning_rate": 0.00036634570071640094,
      "loss": 1.5362,
      "step": 38685
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44948139786720276,
      "learning_rate": 0.0003663355073616226,
      "loss": 1.6316,
      "step": 38686
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44178393483161926,
      "learning_rate": 0.00036632531392632284,
      "loss": 1.615,
      "step": 38687
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43314889073371887,
      "learning_rate": 0.00036631512041051384,
      "loss": 1.5894,
      "step": 38688
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45577871799468994,
      "learning_rate": 0.00036630492681420814,
      "loss": 1.5924,
      "step": 38689
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.42321038246154785,
      "learning_rate": 0.000366294733137418,
      "loss": 1.5804,
      "step": 38690
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44903263449668884,
      "learning_rate": 0.00036628453938015575,
      "loss": 1.6199,
      "step": 38691
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4575040638446808,
      "learning_rate": 0.0003662743455424339,
      "loss": 1.5734,
      "step": 38692
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.47496330738067627,
      "learning_rate": 0.0003662641516242648,
      "loss": 1.7075,
      "step": 38693
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4527486264705658,
      "learning_rate": 0.0003662539576256607,
      "loss": 1.6308,
      "step": 38694
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4557238221168518,
      "learning_rate": 0.00036624376354663405,
      "loss": 1.6876,
      "step": 38695
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44968876242637634,
      "learning_rate": 0.0003662335693871973,
      "loss": 1.6663,
      "step": 38696
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45283037424087524,
      "learning_rate": 0.0003662233751473628,
      "loss": 1.5657,
      "step": 38697
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4771726131439209,
      "learning_rate": 0.00036621318082714275,
      "loss": 1.5965,
      "step": 38698
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45800378918647766,
      "learning_rate": 0.0003662029864265498,
      "loss": 1.6515,
      "step": 38699
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4457540810108185,
      "learning_rate": 0.000366192791945596,
      "loss": 1.7088,
      "step": 38700
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4463121294975281,
      "learning_rate": 0.00036618259738429405,
      "loss": 1.6459,
      "step": 38701
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43911805748939514,
      "learning_rate": 0.00036617240274265607,
      "loss": 1.5744,
      "step": 38702
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44439637660980225,
      "learning_rate": 0.00036616220802069465,
      "loss": 1.5426,
      "step": 38703
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4448879659175873,
      "learning_rate": 0.000366152013218422,
      "loss": 1.6435,
      "step": 38704
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.443939208984375,
      "learning_rate": 0.0003661418183358506,
      "loss": 1.5992,
      "step": 38705
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.449432909488678,
      "learning_rate": 0.0003661316233729927,
      "loss": 1.7248,
      "step": 38706
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4381563365459442,
      "learning_rate": 0.00036612142832986074,
      "loss": 1.6255,
      "step": 38707
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4322319030761719,
      "learning_rate": 0.00036611123320646723,
      "loss": 1.6019,
      "step": 38708
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.42409583926200867,
      "learning_rate": 0.0003661010380028244,
      "loss": 1.6138,
      "step": 38709
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.47054165601730347,
      "learning_rate": 0.0003660908427189445,
      "loss": 1.6625,
      "step": 38710
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4407382607460022,
      "learning_rate": 0.00036608064735484016,
      "loss": 1.6739,
      "step": 38711
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.440111368894577,
      "learning_rate": 0.0003660704519105237,
      "loss": 1.6006,
      "step": 38712
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4353591203689575,
      "learning_rate": 0.0003660602563860074,
      "loss": 1.6612,
      "step": 38713
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4494017958641052,
      "learning_rate": 0.0003660500607813037,
      "loss": 1.6884,
      "step": 38714
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4470009505748749,
      "learning_rate": 0.0003660398650964249,
      "loss": 1.668,
      "step": 38715
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.464478075504303,
      "learning_rate": 0.0003660296693313835,
      "loss": 1.5464,
      "step": 38716
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45270222425460815,
      "learning_rate": 0.00036601947348619175,
      "loss": 1.6605,
      "step": 38717
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4565775394439697,
      "learning_rate": 0.00036600927756086214,
      "loss": 1.6384,
      "step": 38718
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4310598373413086,
      "learning_rate": 0.000365999081555407,
      "loss": 1.6292,
      "step": 38719
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4520396590232849,
      "learning_rate": 0.00036598888546983865,
      "loss": 1.6385,
      "step": 38720
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4762206971645355,
      "learning_rate": 0.0003659786893041695,
      "loss": 1.6569,
      "step": 38721
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4568270146846771,
      "learning_rate": 0.00036596849305841196,
      "loss": 1.7045,
      "step": 38722
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45815417170524597,
      "learning_rate": 0.0003659582967325784,
      "loss": 1.5947,
      "step": 38723
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4262252151966095,
      "learning_rate": 0.00036594810032668126,
      "loss": 1.5655,
      "step": 38724
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4417906105518341,
      "learning_rate": 0.0003659379038407327,
      "loss": 1.6569,
      "step": 38725
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4416104555130005,
      "learning_rate": 0.0003659277072747454,
      "loss": 1.6749,
      "step": 38726
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46136724948883057,
      "learning_rate": 0.00036591751062873136,
      "loss": 1.625,
      "step": 38727
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4590756297111511,
      "learning_rate": 0.00036590731390270337,
      "loss": 1.6307,
      "step": 38728
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4388725161552429,
      "learning_rate": 0.00036589711709667357,
      "loss": 1.6245,
      "step": 38729
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43298032879829407,
      "learning_rate": 0.00036588692021065437,
      "loss": 1.5795,
      "step": 38730
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44563817977905273,
      "learning_rate": 0.0003658767232446582,
      "loss": 1.6328,
      "step": 38731
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.49252039194107056,
      "learning_rate": 0.00036586652619869726,
      "loss": 1.6375,
      "step": 38732
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44685235619544983,
      "learning_rate": 0.00036585632907278423,
      "loss": 1.6872,
      "step": 38733
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4916973114013672,
      "learning_rate": 0.0003658461318669312,
      "loss": 1.6214,
      "step": 38734
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4754125773906708,
      "learning_rate": 0.0003658359345811507,
      "loss": 1.595,
      "step": 38735
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4646129906177521,
      "learning_rate": 0.00036582573721545504,
      "loss": 1.6068,
      "step": 38736
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4439079463481903,
      "learning_rate": 0.0003658155397698567,
      "loss": 1.5957,
      "step": 38737
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45952773094177246,
      "learning_rate": 0.000365805342244368,
      "loss": 1.6375,
      "step": 38738
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4535079598426819,
      "learning_rate": 0.0003657951446390013,
      "loss": 1.5867,
      "step": 38739
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.474354088306427,
      "learning_rate": 0.00036578494695376895,
      "loss": 1.6767,
      "step": 38740
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.459318071603775,
      "learning_rate": 0.0003657747491886834,
      "loss": 1.6253,
      "step": 38741
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43938538432121277,
      "learning_rate": 0.0003657645513437569,
      "loss": 1.6614,
      "step": 38742
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4453226625919342,
      "learning_rate": 0.000365754353419002,
      "loss": 1.5287,
      "step": 38743
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44767147302627563,
      "learning_rate": 0.0003657441554144311,
      "loss": 1.5777,
      "step": 38744
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.47822096943855286,
      "learning_rate": 0.0003657339573300563,
      "loss": 1.678,
      "step": 38745
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45533233880996704,
      "learning_rate": 0.0003657237591658903,
      "loss": 1.6159,
      "step": 38746
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44565990567207336,
      "learning_rate": 0.0003657135609219452,
      "loss": 1.5796,
      "step": 38747
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4500702917575836,
      "learning_rate": 0.00036570336259823366,
      "loss": 1.5577,
      "step": 38748
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4444279968738556,
      "learning_rate": 0.0003656931641947679,
      "loss": 1.605,
      "step": 38749
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4430071711540222,
      "learning_rate": 0.00036568296571156024,
      "loss": 1.6493,
      "step": 38750
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4461137056350708,
      "learning_rate": 0.0003656727671486232,
      "loss": 1.6086,
      "step": 38751
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46200641989707947,
      "learning_rate": 0.00036566256850596913,
      "loss": 1.6506,
      "step": 38752
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.5014144778251648,
      "learning_rate": 0.00036565236978361026,
      "loss": 1.6529,
      "step": 38753
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4484367072582245,
      "learning_rate": 0.00036564217098155927,
      "loss": 1.6046,
      "step": 38754
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4488677978515625,
      "learning_rate": 0.0003656319720998281,
      "loss": 1.6005,
      "step": 38755
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46702679991722107,
      "learning_rate": 0.00036562177313842964,
      "loss": 1.6548,
      "step": 38756
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4979268014431,
      "learning_rate": 0.00036561157409737576,
      "loss": 1.6193,
      "step": 38757
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46119746565818787,
      "learning_rate": 0.00036560137497667933,
      "loss": 1.5643,
      "step": 38758
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43491286039352417,
      "learning_rate": 0.0003655911757763524,
      "loss": 1.6214,
      "step": 38759
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4566201865673065,
      "learning_rate": 0.0003655809764964074,
      "loss": 1.7098,
      "step": 38760
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4933721125125885,
      "learning_rate": 0.0003655707771368569,
      "loss": 1.5825,
      "step": 38761
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45870137214660645,
      "learning_rate": 0.0003655605776977129,
      "loss": 1.5982,
      "step": 38762
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4538208246231079,
      "learning_rate": 0.00036555037817898826,
      "loss": 1.6536,
      "step": 38763
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4587532877922058,
      "learning_rate": 0.000365540178580695,
      "loss": 1.6332,
      "step": 38764
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46043723821640015,
      "learning_rate": 0.0003655299789028457,
      "loss": 1.6377,
      "step": 38765
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46751007437705994,
      "learning_rate": 0.00036551977914545255,
      "loss": 1.6532,
      "step": 38766
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4632188379764557,
      "learning_rate": 0.0003655095793085281,
      "loss": 1.6,
      "step": 38767
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4462940990924835,
      "learning_rate": 0.0003654993793920848,
      "loss": 1.5278,
      "step": 38768
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4495605230331421,
      "learning_rate": 0.0003654891793961347,
      "loss": 1.6004,
      "step": 38769
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45624545216560364,
      "learning_rate": 0.0003654789793206905,
      "loss": 1.6404,
      "step": 38770
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46568194031715393,
      "learning_rate": 0.0003654687791657644,
      "loss": 1.7019,
      "step": 38771
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45292147994041443,
      "learning_rate": 0.00036545857893136886,
      "loss": 1.6253,
      "step": 38772
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44199317693710327,
      "learning_rate": 0.00036544837861751623,
      "loss": 1.5742,
      "step": 38773
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44499993324279785,
      "learning_rate": 0.000365438178224219,
      "loss": 1.6688,
      "step": 38774
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45636698603630066,
      "learning_rate": 0.00036542797775148946,
      "loss": 1.6228,
      "step": 38775
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45218852162361145,
      "learning_rate": 0.00036541777719933987,
      "loss": 1.6713,
      "step": 38776
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4406246244907379,
      "learning_rate": 0.0003654075765677829,
      "loss": 1.6437,
      "step": 38777
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46337389945983887,
      "learning_rate": 0.0003653973758568306,
      "loss": 1.6275,
      "step": 38778
    },
    {
      "epoch": 1.29,
      "grad_norm": 1.1640938520431519,
      "learning_rate": 0.0003653871750664956,
      "loss": 1.653,
      "step": 38779
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44298645853996277,
      "learning_rate": 0.0003653769741967902,
      "loss": 1.5987,
      "step": 38780
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4489347040653229,
      "learning_rate": 0.00036536677324772686,
      "loss": 1.6262,
      "step": 38781
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4404071569442749,
      "learning_rate": 0.0003653565722193177,
      "loss": 1.5277,
      "step": 38782
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45659106969833374,
      "learning_rate": 0.00036534637111157545,
      "loss": 1.5458,
      "step": 38783
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.460279643535614,
      "learning_rate": 0.00036533616992451235,
      "loss": 1.5945,
      "step": 38784
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4448168873786926,
      "learning_rate": 0.0003653259686581407,
      "loss": 1.561,
      "step": 38785
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45461124181747437,
      "learning_rate": 0.000365315767312473,
      "loss": 1.5899,
      "step": 38786
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.5059890747070312,
      "learning_rate": 0.00036530556588752153,
      "loss": 1.5946,
      "step": 38787
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44775351881980896,
      "learning_rate": 0.0003652953643832988,
      "loss": 1.6255,
      "step": 38788
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4702858030796051,
      "learning_rate": 0.00036528516279981695,
      "loss": 1.5846,
      "step": 38789
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4384576678276062,
      "learning_rate": 0.0003652749611370887,
      "loss": 1.6614,
      "step": 38790
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44778382778167725,
      "learning_rate": 0.0003652647593951262,
      "loss": 1.5597,
      "step": 38791
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44923049211502075,
      "learning_rate": 0.0003652545575739419,
      "loss": 1.621,
      "step": 38792
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4785798490047455,
      "learning_rate": 0.0003652443556735482,
      "loss": 1.6513,
      "step": 38793
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4587751030921936,
      "learning_rate": 0.00036523415369395744,
      "loss": 1.6474,
      "step": 38794
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46710261702537537,
      "learning_rate": 0.00036522395163518203,
      "loss": 1.7035,
      "step": 38795
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4423280954360962,
      "learning_rate": 0.00036521374949723443,
      "loss": 1.6447,
      "step": 38796
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4574851989746094,
      "learning_rate": 0.0003652035472801268,
      "loss": 1.6299,
      "step": 38797
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4570229947566986,
      "learning_rate": 0.0003651933449838718,
      "loss": 1.6514,
      "step": 38798
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43811312317848206,
      "learning_rate": 0.00036518314260848165,
      "loss": 1.6797,
      "step": 38799
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4369533360004425,
      "learning_rate": 0.0003651729401539688,
      "loss": 1.606,
      "step": 38800
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4428829252719879,
      "learning_rate": 0.00036516273762034554,
      "loss": 1.7137,
      "step": 38801
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4453393816947937,
      "learning_rate": 0.00036515253500762435,
      "loss": 1.5896,
      "step": 38802
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44584402441978455,
      "learning_rate": 0.00036514233231581755,
      "loss": 1.5669,
      "step": 38803
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46763885021209717,
      "learning_rate": 0.0003651321295449376,
      "loss": 1.6745,
      "step": 38804
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.438510537147522,
      "learning_rate": 0.0003651219266949967,
      "loss": 1.5696,
      "step": 38805
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43793046474456787,
      "learning_rate": 0.00036511172376600757,
      "loss": 1.5652,
      "step": 38806
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45216378569602966,
      "learning_rate": 0.0003651015207579823,
      "loss": 1.5852,
      "step": 38807
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4650655686855316,
      "learning_rate": 0.0003650913176709335,
      "loss": 1.6008,
      "step": 38808
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4769549071788788,
      "learning_rate": 0.0003650811145048733,
      "loss": 1.6272,
      "step": 38809
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45533496141433716,
      "learning_rate": 0.0003650709112598142,
      "loss": 1.6088,
      "step": 38810
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4746977388858795,
      "learning_rate": 0.0003650607079357687,
      "loss": 1.6165,
      "step": 38811
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44249919056892395,
      "learning_rate": 0.000365050504532749,
      "loss": 1.6675,
      "step": 38812
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45430585741996765,
      "learning_rate": 0.00036504030105076766,
      "loss": 1.6736,
      "step": 38813
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4390672445297241,
      "learning_rate": 0.0003650300974898369,
      "loss": 1.6234,
      "step": 38814
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43897271156311035,
      "learning_rate": 0.00036501989384996926,
      "loss": 1.6572,
      "step": 38815
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44900211691856384,
      "learning_rate": 0.000365009690131177,
      "loss": 1.6897,
      "step": 38816
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44300055503845215,
      "learning_rate": 0.0003649994863334725,
      "loss": 1.6978,
      "step": 38817
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45712125301361084,
      "learning_rate": 0.0003649892824568683,
      "loss": 1.5862,
      "step": 38818
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4607144296169281,
      "learning_rate": 0.0003649790785013766,
      "loss": 1.5996,
      "step": 38819
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45170554518699646,
      "learning_rate": 0.00036496887446700995,
      "loss": 1.6018,
      "step": 38820
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45101043581962585,
      "learning_rate": 0.0003649586703537806,
      "loss": 1.6097,
      "step": 38821
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46249762177467346,
      "learning_rate": 0.000364948466161701,
      "loss": 1.7117,
      "step": 38822
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44153887033462524,
      "learning_rate": 0.00036493826189078367,
      "loss": 1.5907,
      "step": 38823
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44843438267707825,
      "learning_rate": 0.00036492805754104066,
      "loss": 1.5832,
      "step": 38824
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4547935128211975,
      "learning_rate": 0.00036491785311248466,
      "loss": 1.6533,
      "step": 38825
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4500890076160431,
      "learning_rate": 0.0003649076486051279,
      "loss": 1.6554,
      "step": 38826
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4469846785068512,
      "learning_rate": 0.00036489744401898286,
      "loss": 1.6387,
      "step": 38827
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44397738575935364,
      "learning_rate": 0.00036488723935406184,
      "loss": 1.5451,
      "step": 38828
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4313998222351074,
      "learning_rate": 0.0003648770346103773,
      "loss": 1.6789,
      "step": 38829
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45104488730430603,
      "learning_rate": 0.0003648668297879417,
      "loss": 1.6424,
      "step": 38830
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4436904788017273,
      "learning_rate": 0.0003648566248867672,
      "loss": 1.5752,
      "step": 38831
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4567836821079254,
      "learning_rate": 0.00036484641990686633,
      "loss": 1.5572,
      "step": 38832
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43839821219444275,
      "learning_rate": 0.00036483621484825144,
      "loss": 1.5893,
      "step": 38833
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4465675950050354,
      "learning_rate": 0.00036482600971093497,
      "loss": 1.5791,
      "step": 38834
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45309382677078247,
      "learning_rate": 0.0003648158044949293,
      "loss": 1.6759,
      "step": 38835
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4490668475627899,
      "learning_rate": 0.0003648055992002468,
      "loss": 1.6131,
      "step": 38836
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45199263095855713,
      "learning_rate": 0.0003647953938268998,
      "loss": 1.5904,
      "step": 38837
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4478020966053009,
      "learning_rate": 0.0003647851883749008,
      "loss": 1.6613,
      "step": 38838
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44431835412979126,
      "learning_rate": 0.00036477498284426203,
      "loss": 1.6885,
      "step": 38839
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4523278772830963,
      "learning_rate": 0.00036476477723499604,
      "loss": 1.6178,
      "step": 38840
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4398082494735718,
      "learning_rate": 0.0003647545715471152,
      "loss": 1.6356,
      "step": 38841
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4409865736961365,
      "learning_rate": 0.0003647443657806317,
      "loss": 1.5714,
      "step": 38842
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43752521276474,
      "learning_rate": 0.00036473415993555825,
      "loss": 1.6151,
      "step": 38843
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4396584630012512,
      "learning_rate": 0.0003647239540119069,
      "loss": 1.6873,
      "step": 38844
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4424898028373718,
      "learning_rate": 0.0003647137480096904,
      "loss": 1.5841,
      "step": 38845
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4428987205028534,
      "learning_rate": 0.00036470354192892087,
      "loss": 1.6268,
      "step": 38846
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4428231716156006,
      "learning_rate": 0.0003646933357696107,
      "loss": 1.633,
      "step": 38847
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4496321976184845,
      "learning_rate": 0.00036468312953177244,
      "loss": 1.6429,
      "step": 38848
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4413856863975525,
      "learning_rate": 0.0003646729232154183,
      "loss": 1.6294,
      "step": 38849
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4336349070072174,
      "learning_rate": 0.00036466271682056083,
      "loss": 1.6378,
      "step": 38850
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44625580310821533,
      "learning_rate": 0.00036465251034721233,
      "loss": 1.68,
      "step": 38851
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44945865869522095,
      "learning_rate": 0.00036464230379538526,
      "loss": 1.584,
      "step": 38852
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46812060475349426,
      "learning_rate": 0.0003646320971650919,
      "loss": 1.6544,
      "step": 38853
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44150039553642273,
      "learning_rate": 0.00036462189045634465,
      "loss": 1.5791,
      "step": 38854
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4497978985309601,
      "learning_rate": 0.0003646116836691561,
      "loss": 1.5749,
      "step": 38855
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4602600634098053,
      "learning_rate": 0.00036460147680353837,
      "loss": 1.6045,
      "step": 38856
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.42855003476142883,
      "learning_rate": 0.00036459126985950393,
      "loss": 1.6689,
      "step": 38857
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43837442994117737,
      "learning_rate": 0.00036458106283706525,
      "loss": 1.6202,
      "step": 38858
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.630601704120636,
      "learning_rate": 0.00036457085573623474,
      "loss": 1.5645,
      "step": 38859
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4434742331504822,
      "learning_rate": 0.00036456064855702465,
      "loss": 1.7171,
      "step": 38860
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44177430868148804,
      "learning_rate": 0.0003645504412994475,
      "loss": 1.592,
      "step": 38861
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4600070118904114,
      "learning_rate": 0.0003645402339635156,
      "loss": 1.6486,
      "step": 38862
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4547343850135803,
      "learning_rate": 0.00036453002654924133,
      "loss": 1.7331,
      "step": 38863
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44359728693962097,
      "learning_rate": 0.0003645198190566372,
      "loss": 1.7216,
      "step": 38864
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.442701518535614,
      "learning_rate": 0.00036450961148571536,
      "loss": 1.6556,
      "step": 38865
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44998589158058167,
      "learning_rate": 0.00036449940383648856,
      "loss": 1.6405,
      "step": 38866
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4541738033294678,
      "learning_rate": 0.00036448919610896876,
      "loss": 1.606,
      "step": 38867
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43850037455558777,
      "learning_rate": 0.0003644789883031688,
      "loss": 1.6473,
      "step": 38868
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45066145062446594,
      "learning_rate": 0.0003644687804191007,
      "loss": 1.6338,
      "step": 38869
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4433174133300781,
      "learning_rate": 0.0003644585724567771,
      "loss": 1.6293,
      "step": 38870
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4370943605899811,
      "learning_rate": 0.0003644483644162103,
      "loss": 1.6012,
      "step": 38871
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45872172713279724,
      "learning_rate": 0.00036443815629741254,
      "loss": 1.5687,
      "step": 38872
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4690553843975067,
      "learning_rate": 0.00036442794810039644,
      "loss": 1.6526,
      "step": 38873
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.445358008146286,
      "learning_rate": 0.00036441773982517423,
      "loss": 1.5314,
      "step": 38874
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45493245124816895,
      "learning_rate": 0.0003644075314717585,
      "loss": 1.644,
      "step": 38875
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4801385998725891,
      "learning_rate": 0.0003643973230401615,
      "loss": 1.6547,
      "step": 38876
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4502251446247101,
      "learning_rate": 0.00036438711453039556,
      "loss": 1.597,
      "step": 38877
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4552537202835083,
      "learning_rate": 0.00036437690594247324,
      "loss": 1.6015,
      "step": 38878
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46549949049949646,
      "learning_rate": 0.0003643666972764067,
      "loss": 1.5821,
      "step": 38879
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.482281893491745,
      "learning_rate": 0.00036435648853220864,
      "loss": 1.6408,
      "step": 38880
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4710710346698761,
      "learning_rate": 0.00036434627970989125,
      "loss": 1.6429,
      "step": 38881
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46229827404022217,
      "learning_rate": 0.0003643360708094669,
      "loss": 1.5628,
      "step": 38882
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43922165036201477,
      "learning_rate": 0.000364325861830948,
      "loss": 1.67,
      "step": 38883
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45175671577453613,
      "learning_rate": 0.00036431565277434704,
      "loss": 1.5785,
      "step": 38884
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4559498727321625,
      "learning_rate": 0.00036430544363967636,
      "loss": 1.5947,
      "step": 38885
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.47039005160331726,
      "learning_rate": 0.0003642952344269484,
      "loss": 1.7262,
      "step": 38886
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4709548354148865,
      "learning_rate": 0.00036428502513617537,
      "loss": 1.6635,
      "step": 38887
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4582594037055969,
      "learning_rate": 0.0003642748157673699,
      "loss": 1.6008,
      "step": 38888
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4440489709377289,
      "learning_rate": 0.0003642646063205442,
      "loss": 1.6128,
      "step": 38889
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45332691073417664,
      "learning_rate": 0.0003642543967957107,
      "loss": 1.5656,
      "step": 38890
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43920353055000305,
      "learning_rate": 0.000364244187192882,
      "loss": 1.6404,
      "step": 38891
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4567449688911438,
      "learning_rate": 0.00036423397751207025,
      "loss": 1.6297,
      "step": 38892
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44577640295028687,
      "learning_rate": 0.00036422376775328786,
      "loss": 1.6163,
      "step": 38893
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.5471606850624084,
      "learning_rate": 0.0003642135579165473,
      "loss": 1.611,
      "step": 38894
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.42797160148620605,
      "learning_rate": 0.0003642033480018609,
      "loss": 1.574,
      "step": 38895
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4590967297554016,
      "learning_rate": 0.0003641931380092412,
      "loss": 1.6085,
      "step": 38896
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44578996300697327,
      "learning_rate": 0.0003641829279387004,
      "loss": 1.6709,
      "step": 38897
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44101467728614807,
      "learning_rate": 0.0003641727177902511,
      "loss": 1.6339,
      "step": 38898
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4395538866519928,
      "learning_rate": 0.0003641625075639054,
      "loss": 1.5869,
      "step": 38899
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4521958827972412,
      "learning_rate": 0.000364152297259676,
      "loss": 1.6764,
      "step": 38900
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.46512892842292786,
      "learning_rate": 0.0003641420868775751,
      "loss": 1.6643,
      "step": 38901
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44268643856048584,
      "learning_rate": 0.0003641318764176152,
      "loss": 1.5726,
      "step": 38902
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44936370849609375,
      "learning_rate": 0.00036412166587980867,
      "loss": 1.5862,
      "step": 38903
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45309850573539734,
      "learning_rate": 0.0003641114552641678,
      "loss": 1.6706,
      "step": 38904
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45088136196136475,
      "learning_rate": 0.00036410124457070513,
      "loss": 1.6458,
      "step": 38905
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4628276526927948,
      "learning_rate": 0.00036409103379943296,
      "loss": 1.6289,
      "step": 38906
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43422555923461914,
      "learning_rate": 0.00036408082295036375,
      "loss": 1.6468,
      "step": 38907
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4385586977005005,
      "learning_rate": 0.0003640706120235099,
      "loss": 1.5887,
      "step": 38908
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44904983043670654,
      "learning_rate": 0.00036406040101888366,
      "loss": 1.6759,
      "step": 38909
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4573007822036743,
      "learning_rate": 0.0003640501899364976,
      "loss": 1.6906,
      "step": 38910
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44834208488464355,
      "learning_rate": 0.0003640399787763641,
      "loss": 1.6306,
      "step": 38911
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4431310296058655,
      "learning_rate": 0.00036402976753849547,
      "loss": 1.5146,
      "step": 38912
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44975748658180237,
      "learning_rate": 0.00036401955622290404,
      "loss": 1.6159,
      "step": 38913
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.47992923855781555,
      "learning_rate": 0.00036400934482960236,
      "loss": 1.614,
      "step": 38914
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.44126859307289124,
      "learning_rate": 0.0003639991333586028,
      "loss": 1.6031,
      "step": 38915
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43900173902511597,
      "learning_rate": 0.0003639889218099177,
      "loss": 1.6124,
      "step": 38916
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.43443161249160767,
      "learning_rate": 0.0003639787101835595,
      "loss": 1.6067,
      "step": 38917
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4664258658885956,
      "learning_rate": 0.00036396849847954057,
      "loss": 1.6603,
      "step": 38918
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.459940105676651,
      "learning_rate": 0.0003639582866978733,
      "loss": 1.4939,
      "step": 38919
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4517971873283386,
      "learning_rate": 0.00036394807483857,
      "loss": 1.6151,
      "step": 38920
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.45824989676475525,
      "learning_rate": 0.00036393786290164326,
      "loss": 1.6163,
      "step": 38921
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.5010469555854797,
      "learning_rate": 0.00036392765088710534,
      "loss": 1.7374,
      "step": 38922
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4637531042098999,
      "learning_rate": 0.00036391743879496874,
      "loss": 1.5689,
      "step": 38923
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45772677659988403,
      "learning_rate": 0.00036390722662524576,
      "loss": 1.6521,
      "step": 38924
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45106250047683716,
      "learning_rate": 0.0003638970143779487,
      "loss": 1.6695,
      "step": 38925
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45531657338142395,
      "learning_rate": 0.00036388680205309024,
      "loss": 1.6068,
      "step": 38926
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4386015832424164,
      "learning_rate": 0.0003638765896506825,
      "loss": 1.6115,
      "step": 38927
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4469064176082611,
      "learning_rate": 0.0003638663771707381,
      "loss": 1.6325,
      "step": 38928
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43895354866981506,
      "learning_rate": 0.00036385616461326927,
      "loss": 1.6119,
      "step": 38929
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44250404834747314,
      "learning_rate": 0.0003638459519782885,
      "loss": 1.6087,
      "step": 38930
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4535519480705261,
      "learning_rate": 0.0003638357392658081,
      "loss": 1.6277,
      "step": 38931
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44181954860687256,
      "learning_rate": 0.00036382552647584054,
      "loss": 1.6018,
      "step": 38932
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44056063890457153,
      "learning_rate": 0.00036381531360839823,
      "loss": 1.6669,
      "step": 38933
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4657864570617676,
      "learning_rate": 0.00036380510066349347,
      "loss": 1.6556,
      "step": 38934
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4680752456188202,
      "learning_rate": 0.0003637948876411388,
      "loss": 1.5775,
      "step": 38935
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44380754232406616,
      "learning_rate": 0.00036378467454134636,
      "loss": 1.6931,
      "step": 38936
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.464042067527771,
      "learning_rate": 0.00036377446136412884,
      "loss": 1.7179,
      "step": 38937
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4366135001182556,
      "learning_rate": 0.0003637642481094986,
      "loss": 1.6076,
      "step": 38938
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4454736113548279,
      "learning_rate": 0.0003637540347774678,
      "loss": 1.64,
      "step": 38939
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4578261971473694,
      "learning_rate": 0.0003637438213680491,
      "loss": 1.6425,
      "step": 38940
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4417642056941986,
      "learning_rate": 0.00036373360788125475,
      "loss": 1.6267,
      "step": 38941
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45298516750335693,
      "learning_rate": 0.0003637233943170973,
      "loss": 1.6008,
      "step": 38942
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46766412258148193,
      "learning_rate": 0.0003637131806755889,
      "loss": 1.6508,
      "step": 38943
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.48017704486846924,
      "learning_rate": 0.0003637029669567422,
      "loss": 1.6177,
      "step": 38944
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.429740846157074,
      "learning_rate": 0.0003636927531605693,
      "loss": 1.6135,
      "step": 38945
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4523576498031616,
      "learning_rate": 0.00036368253928708297,
      "loss": 1.5863,
      "step": 38946
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.49053865671157837,
      "learning_rate": 0.0003636723253362954,
      "loss": 1.5264,
      "step": 38947
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4527401626110077,
      "learning_rate": 0.00036366211130821894,
      "loss": 1.6032,
      "step": 38948
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4456413686275482,
      "learning_rate": 0.0003636518972028661,
      "loss": 1.6639,
      "step": 38949
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4448404610157013,
      "learning_rate": 0.0003636416830202492,
      "loss": 1.5704,
      "step": 38950
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4583456814289093,
      "learning_rate": 0.00036363146876038067,
      "loss": 1.7037,
      "step": 38951
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4600512385368347,
      "learning_rate": 0.0003636212544232729,
      "loss": 1.5714,
      "step": 38952
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44302424788475037,
      "learning_rate": 0.0003636110400089384,
      "loss": 1.6171,
      "step": 38953
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4478214681148529,
      "learning_rate": 0.0003636008255173894,
      "loss": 1.6338,
      "step": 38954
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46435534954071045,
      "learning_rate": 0.0003635906109486383,
      "loss": 1.6913,
      "step": 38955
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4643571972846985,
      "learning_rate": 0.0003635803963026977,
      "loss": 1.5616,
      "step": 38956
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4596695303916931,
      "learning_rate": 0.00036357018157957973,
      "loss": 1.6289,
      "step": 38957
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44536158442497253,
      "learning_rate": 0.0003635599667792971,
      "loss": 1.6327,
      "step": 38958
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45213666558265686,
      "learning_rate": 0.00036354975190186186,
      "loss": 1.6209,
      "step": 38959
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4588748812675476,
      "learning_rate": 0.0003635395369472867,
      "loss": 1.6154,
      "step": 38960
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4712883234024048,
      "learning_rate": 0.00036352932191558384,
      "loss": 1.6065,
      "step": 38961
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4504272937774658,
      "learning_rate": 0.00036351910680676577,
      "loss": 1.5865,
      "step": 38962
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45032569766044617,
      "learning_rate": 0.00036350889162084483,
      "loss": 1.6373,
      "step": 38963
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.466916561126709,
      "learning_rate": 0.0003634986763578335,
      "loss": 1.5588,
      "step": 38964
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4587313234806061,
      "learning_rate": 0.0003634884610177442,
      "loss": 1.5894,
      "step": 38965
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4548966884613037,
      "learning_rate": 0.0003634782456005891,
      "loss": 1.7179,
      "step": 38966
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4462082087993622,
      "learning_rate": 0.00036346803010638086,
      "loss": 1.6848,
      "step": 38967
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.446453720331192,
      "learning_rate": 0.00036345781453513175,
      "loss": 1.6817,
      "step": 38968
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4602659344673157,
      "learning_rate": 0.00036344759888685426,
      "loss": 1.596,
      "step": 38969
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4653576612472534,
      "learning_rate": 0.0003634373831615607,
      "loss": 1.651,
      "step": 38970
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45592793822288513,
      "learning_rate": 0.0003634271673592635,
      "loss": 1.6135,
      "step": 38971
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4520340859889984,
      "learning_rate": 0.0003634169514799751,
      "loss": 1.6337,
      "step": 38972
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4520622491836548,
      "learning_rate": 0.00036340673552370784,
      "loss": 1.5517,
      "step": 38973
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44838660955429077,
      "learning_rate": 0.0003633965194904741,
      "loss": 1.6373,
      "step": 38974
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43681392073631287,
      "learning_rate": 0.0003633863033802863,
      "loss": 1.5339,
      "step": 38975
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.452929824590683,
      "learning_rate": 0.000363376087193157,
      "loss": 1.6024,
      "step": 38976
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4557449519634247,
      "learning_rate": 0.0003633658709290984,
      "loss": 1.6089,
      "step": 38977
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44382143020629883,
      "learning_rate": 0.000363355654588123,
      "loss": 1.5551,
      "step": 38978
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4620470702648163,
      "learning_rate": 0.0003633454381702431,
      "loss": 1.6511,
      "step": 38979
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.6528042554855347,
      "learning_rate": 0.0003633352216754712,
      "loss": 1.6476,
      "step": 38980
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4737445116043091,
      "learning_rate": 0.00036332500510381967,
      "loss": 1.6455,
      "step": 38981
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4368044137954712,
      "learning_rate": 0.00036331478845530094,
      "loss": 1.6431,
      "step": 38982
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4459114968776703,
      "learning_rate": 0.0003633045717299274,
      "loss": 1.6288,
      "step": 38983
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.465279757976532,
      "learning_rate": 0.0003632943549277113,
      "loss": 1.6639,
      "step": 38984
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.432872474193573,
      "learning_rate": 0.0003632841380486654,
      "loss": 1.5969,
      "step": 38985
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4592137336730957,
      "learning_rate": 0.0003632739210928017,
      "loss": 1.5409,
      "step": 38986
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4580897390842438,
      "learning_rate": 0.0003632637040601329,
      "loss": 1.6468,
      "step": 38987
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44698938727378845,
      "learning_rate": 0.00036325348695067126,
      "loss": 1.6121,
      "step": 38988
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4622841775417328,
      "learning_rate": 0.00036324326976442913,
      "loss": 1.6561,
      "step": 38989
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4466717839241028,
      "learning_rate": 0.0003632330525014191,
      "loss": 1.6777,
      "step": 38990
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45357996225357056,
      "learning_rate": 0.00036322283516165333,
      "loss": 1.6292,
      "step": 38991
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4359988272190094,
      "learning_rate": 0.00036321261774514444,
      "loss": 1.6458,
      "step": 38992
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44834020733833313,
      "learning_rate": 0.0003632024002519048,
      "loss": 1.5925,
      "step": 38993
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4377616345882416,
      "learning_rate": 0.00036319218268194664,
      "loss": 1.6247,
      "step": 38994
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4737796485424042,
      "learning_rate": 0.00036318196503528255,
      "loss": 1.6464,
      "step": 38995
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45675840973854065,
      "learning_rate": 0.00036317174731192477,
      "loss": 1.6793,
      "step": 38996
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4778582751750946,
      "learning_rate": 0.00036316152951188597,
      "loss": 1.603,
      "step": 38997
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4370552599430084,
      "learning_rate": 0.0003631513116351782,
      "loss": 1.6461,
      "step": 38998
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43660274147987366,
      "learning_rate": 0.00036314109368181414,
      "loss": 1.6408,
      "step": 38999
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43833011388778687,
      "learning_rate": 0.0003631308756518061,
      "loss": 1.6255,
      "step": 39000
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4685254395008087,
      "learning_rate": 0.00036312065754516646,
      "loss": 1.648,
      "step": 39001
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44530627131462097,
      "learning_rate": 0.0003631104393619077,
      "loss": 1.6379,
      "step": 39002
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4359712302684784,
      "learning_rate": 0.0003631002211020421,
      "loss": 1.6441,
      "step": 39003
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4489690065383911,
      "learning_rate": 0.00036309000276558214,
      "loss": 1.6417,
      "step": 39004
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.450914591550827,
      "learning_rate": 0.00036307978435254015,
      "loss": 1.5822,
      "step": 39005
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44240903854370117,
      "learning_rate": 0.00036306956586292866,
      "loss": 1.5846,
      "step": 39006
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.42891478538513184,
      "learning_rate": 0.00036305934729676,
      "loss": 1.6597,
      "step": 39007
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45132938027381897,
      "learning_rate": 0.0003630491286540466,
      "loss": 1.6372,
      "step": 39008
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4412136375904083,
      "learning_rate": 0.00036303890993480084,
      "loss": 1.6165,
      "step": 39009
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4479779005050659,
      "learning_rate": 0.00036302869113903516,
      "loss": 1.6377,
      "step": 39010
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45301127433776855,
      "learning_rate": 0.00036301847226676183,
      "loss": 1.6651,
      "step": 39011
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.5040680170059204,
      "learning_rate": 0.0003630082533179935,
      "loss": 1.5604,
      "step": 39012
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47634726762771606,
      "learning_rate": 0.0003629980342927424,
      "loss": 1.5933,
      "step": 39013
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45199474692344666,
      "learning_rate": 0.0003629878151910208,
      "loss": 1.5952,
      "step": 39014
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4830080270767212,
      "learning_rate": 0.00036297759601284146,
      "loss": 1.6917,
      "step": 39015
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.5105040073394775,
      "learning_rate": 0.0003629673767582165,
      "loss": 1.6312,
      "step": 39016
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46754783391952515,
      "learning_rate": 0.0003629571574271585,
      "loss": 1.6226,
      "step": 39017
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45527899265289307,
      "learning_rate": 0.0003629469380196798,
      "loss": 1.6685,
      "step": 39018
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47087445855140686,
      "learning_rate": 0.0003629367185357927,
      "loss": 1.6721,
      "step": 39019
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4502972364425659,
      "learning_rate": 0.00036292649897550985,
      "loss": 1.5854,
      "step": 39020
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47485142946243286,
      "learning_rate": 0.0003629162793388433,
      "loss": 1.6165,
      "step": 39021
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44942858815193176,
      "learning_rate": 0.0003629060596258058,
      "loss": 1.5794,
      "step": 39022
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4326225519180298,
      "learning_rate": 0.00036289583983640947,
      "loss": 1.5784,
      "step": 39023
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4611755311489105,
      "learning_rate": 0.000362885619970667,
      "loss": 1.6565,
      "step": 39024
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45590662956237793,
      "learning_rate": 0.0003628754000285907,
      "loss": 1.6505,
      "step": 39025
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4667344391345978,
      "learning_rate": 0.00036286518001019276,
      "loss": 1.6742,
      "step": 39026
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4377044439315796,
      "learning_rate": 0.0003628549599154859,
      "loss": 1.6017,
      "step": 39027
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4418684244155884,
      "learning_rate": 0.0003628447397444822,
      "loss": 1.6091,
      "step": 39028
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46256476640701294,
      "learning_rate": 0.0003628345194971944,
      "loss": 1.6897,
      "step": 39029
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4315510094165802,
      "learning_rate": 0.00036282429917363474,
      "loss": 1.4992,
      "step": 39030
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4251347482204437,
      "learning_rate": 0.00036281407877381564,
      "loss": 1.6306,
      "step": 39031
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44660684466362,
      "learning_rate": 0.0003628038582977494,
      "loss": 1.648,
      "step": 39032
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4720098376274109,
      "learning_rate": 0.0003627936377454486,
      "loss": 1.6152,
      "step": 39033
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4509478509426117,
      "learning_rate": 0.0003627834171169256,
      "loss": 1.6552,
      "step": 39034
    },
    {
      "epoch": 1.3,
      "grad_norm": 1.0484750270843506,
      "learning_rate": 0.00036277319641219276,
      "loss": 1.5652,
      "step": 39035
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4439140856266022,
      "learning_rate": 0.0003627629756312625,
      "loss": 1.6368,
      "step": 39036
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4409121870994568,
      "learning_rate": 0.00036275275477414725,
      "loss": 1.5697,
      "step": 39037
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4503166675567627,
      "learning_rate": 0.00036274253384085937,
      "loss": 1.6184,
      "step": 39038
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4868585467338562,
      "learning_rate": 0.0003627323128314113,
      "loss": 1.6827,
      "step": 39039
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.48068106174468994,
      "learning_rate": 0.00036272209174581554,
      "loss": 1.5892,
      "step": 39040
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4438748359680176,
      "learning_rate": 0.0003627118705840843,
      "loss": 1.6757,
      "step": 39041
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43340539932250977,
      "learning_rate": 0.0003627016493462301,
      "loss": 1.5713,
      "step": 39042
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.477695494890213,
      "learning_rate": 0.00036269142803226534,
      "loss": 1.697,
      "step": 39043
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4532180726528168,
      "learning_rate": 0.0003626812066422025,
      "loss": 1.6652,
      "step": 39044
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4686906039714813,
      "learning_rate": 0.00036267098517605385,
      "loss": 1.6101,
      "step": 39045
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.48664140701293945,
      "learning_rate": 0.0003626607636338318,
      "loss": 1.6053,
      "step": 39046
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46578675508499146,
      "learning_rate": 0.00036265054201554893,
      "loss": 1.5959,
      "step": 39047
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45536720752716064,
      "learning_rate": 0.0003626403203212175,
      "loss": 1.6194,
      "step": 39048
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4482138752937317,
      "learning_rate": 0.0003626300985508499,
      "loss": 1.573,
      "step": 39049
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46607497334480286,
      "learning_rate": 0.0003626198767044586,
      "loss": 1.6417,
      "step": 39050
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.450482577085495,
      "learning_rate": 0.00036260965478205595,
      "loss": 1.6256,
      "step": 39051
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4664262533187866,
      "learning_rate": 0.0003625994327836546,
      "loss": 1.6374,
      "step": 39052
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43520623445510864,
      "learning_rate": 0.0003625892107092665,
      "loss": 1.5421,
      "step": 39053
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4476512372493744,
      "learning_rate": 0.0003625789885589045,
      "loss": 1.6845,
      "step": 39054
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46691030263900757,
      "learning_rate": 0.0003625687663325808,
      "loss": 1.6572,
      "step": 39055
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4452545642852783,
      "learning_rate": 0.0003625585440303078,
      "loss": 1.6219,
      "step": 39056
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45370396971702576,
      "learning_rate": 0.000362548321652098,
      "loss": 1.628,
      "step": 39057
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4508415460586548,
      "learning_rate": 0.0003625380991979636,
      "loss": 1.5727,
      "step": 39058
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44947052001953125,
      "learning_rate": 0.00036252787666791737,
      "loss": 1.7077,
      "step": 39059
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4452275037765503,
      "learning_rate": 0.0003625176540619714,
      "loss": 1.5502,
      "step": 39060
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45852890610694885,
      "learning_rate": 0.0003625074313801382,
      "loss": 1.6949,
      "step": 39061
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.5925304889678955,
      "learning_rate": 0.0003624972086224302,
      "loss": 1.6199,
      "step": 39062
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4601587951183319,
      "learning_rate": 0.0003624869857888598,
      "loss": 1.6962,
      "step": 39063
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4645685851573944,
      "learning_rate": 0.0003624767628794395,
      "loss": 1.6067,
      "step": 39064
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44918811321258545,
      "learning_rate": 0.0003624665398941815,
      "loss": 1.5642,
      "step": 39065
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.8344413638114929,
      "learning_rate": 0.00036245631683309837,
      "loss": 1.6141,
      "step": 39066
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.456007182598114,
      "learning_rate": 0.0003624460936962025,
      "loss": 1.552,
      "step": 39067
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4454580843448639,
      "learning_rate": 0.0003624358704835061,
      "loss": 1.6292,
      "step": 39068
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43271341919898987,
      "learning_rate": 0.0003624256471950219,
      "loss": 1.5771,
      "step": 39069
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4419077932834625,
      "learning_rate": 0.0003624154238307622,
      "loss": 1.6806,
      "step": 39070
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4574136734008789,
      "learning_rate": 0.00036240520039073926,
      "loss": 1.63,
      "step": 39071
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4528602659702301,
      "learning_rate": 0.0003623949768749657,
      "loss": 1.6071,
      "step": 39072
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46226072311401367,
      "learning_rate": 0.0003623847532834538,
      "loss": 1.5772,
      "step": 39073
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4329180419445038,
      "learning_rate": 0.000362374529616216,
      "loss": 1.5675,
      "step": 39074
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4504780173301697,
      "learning_rate": 0.00036236430587326476,
      "loss": 1.5983,
      "step": 39075
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4487742781639099,
      "learning_rate": 0.0003623540820546123,
      "loss": 1.5706,
      "step": 39076
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4337307810783386,
      "learning_rate": 0.00036234385816027136,
      "loss": 1.5394,
      "step": 39077
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4307897686958313,
      "learning_rate": 0.00036233363419025397,
      "loss": 1.659,
      "step": 39078
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4394712746143341,
      "learning_rate": 0.0003623234101445729,
      "loss": 1.5317,
      "step": 39079
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4469946622848511,
      "learning_rate": 0.0003623131860232403,
      "loss": 1.6578,
      "step": 39080
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4580972194671631,
      "learning_rate": 0.0003623029618262687,
      "loss": 1.6605,
      "step": 39081
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4261458218097687,
      "learning_rate": 0.00036229273755367054,
      "loss": 1.5773,
      "step": 39082
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45976191759109497,
      "learning_rate": 0.00036228251320545796,
      "loss": 1.6558,
      "step": 39083
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4681064784526825,
      "learning_rate": 0.0003622722887816438,
      "loss": 1.659,
      "step": 39084
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44711244106292725,
      "learning_rate": 0.0003622620642822402,
      "loss": 1.6337,
      "step": 39085
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4897904694080353,
      "learning_rate": 0.00036225183970725963,
      "loss": 1.6105,
      "step": 39086
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4640313386917114,
      "learning_rate": 0.00036224161505671445,
      "loss": 1.6744,
      "step": 39087
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4528883397579193,
      "learning_rate": 0.00036223139033061713,
      "loss": 1.602,
      "step": 39088
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4657130539417267,
      "learning_rate": 0.0003622211655289802,
      "loss": 1.6845,
      "step": 39089
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45412564277648926,
      "learning_rate": 0.00036221094065181584,
      "loss": 1.601,
      "step": 39090
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4582282602787018,
      "learning_rate": 0.00036220071569913653,
      "loss": 1.6317,
      "step": 39091
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44065287709236145,
      "learning_rate": 0.0003621904906709548,
      "loss": 1.6138,
      "step": 39092
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44744816422462463,
      "learning_rate": 0.0003621802655672829,
      "loss": 1.7068,
      "step": 39093
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45512643456459045,
      "learning_rate": 0.00036217004038813336,
      "loss": 1.6756,
      "step": 39094
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4446875751018524,
      "learning_rate": 0.0003621598151335186,
      "loss": 1.6077,
      "step": 39095
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43887266516685486,
      "learning_rate": 0.00036214958980345085,
      "loss": 1.5428,
      "step": 39096
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4518038332462311,
      "learning_rate": 0.00036213936439794274,
      "loss": 1.6114,
      "step": 39097
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4501499533653259,
      "learning_rate": 0.00036212913891700663,
      "loss": 1.6019,
      "step": 39098
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47188010811805725,
      "learning_rate": 0.0003621189133606548,
      "loss": 1.6177,
      "step": 39099
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46747854351997375,
      "learning_rate": 0.00036210868772889985,
      "loss": 1.6175,
      "step": 39100
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46182742714881897,
      "learning_rate": 0.000362098462021754,
      "loss": 1.5835,
      "step": 39101
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4671809673309326,
      "learning_rate": 0.00036208823623922994,
      "loss": 1.6612,
      "step": 39102
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.48400384187698364,
      "learning_rate": 0.0003620780103813398,
      "loss": 1.6389,
      "step": 39103
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45255348086357117,
      "learning_rate": 0.0003620677844480961,
      "loss": 1.5014,
      "step": 39104
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44795656204223633,
      "learning_rate": 0.0003620575584395113,
      "loss": 1.6693,
      "step": 39105
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4782821536064148,
      "learning_rate": 0.0003620473323555977,
      "loss": 1.675,
      "step": 39106
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45586124062538147,
      "learning_rate": 0.0003620371061963679,
      "loss": 1.6466,
      "step": 39107
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4307958781719208,
      "learning_rate": 0.00036202687996183397,
      "loss": 1.6095,
      "step": 39108
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45339447259902954,
      "learning_rate": 0.00036201665365200877,
      "loss": 1.5921,
      "step": 39109
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.442207932472229,
      "learning_rate": 0.00036200642726690437,
      "loss": 1.6811,
      "step": 39110
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4417628347873688,
      "learning_rate": 0.00036199620080653336,
      "loss": 1.5514,
      "step": 39111
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45348238945007324,
      "learning_rate": 0.00036198597427090814,
      "loss": 1.5283,
      "step": 39112
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44723764061927795,
      "learning_rate": 0.0003619757476600409,
      "loss": 1.6173,
      "step": 39113
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4508015215396881,
      "learning_rate": 0.00036196552097394444,
      "loss": 1.6122,
      "step": 39114
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44058606028556824,
      "learning_rate": 0.0003619552942126309,
      "loss": 1.6189,
      "step": 39115
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4581844210624695,
      "learning_rate": 0.00036194506737611274,
      "loss": 1.5877,
      "step": 39116
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43935254216194153,
      "learning_rate": 0.0003619348404644024,
      "loss": 1.6336,
      "step": 39117
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45131248235702515,
      "learning_rate": 0.00036192461347751224,
      "loss": 1.5574,
      "step": 39118
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44586148858070374,
      "learning_rate": 0.00036191438641545483,
      "loss": 1.5909,
      "step": 39119
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4607057273387909,
      "learning_rate": 0.00036190415927824237,
      "loss": 1.6662,
      "step": 39120
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44449567794799805,
      "learning_rate": 0.00036189393206588743,
      "loss": 1.5982,
      "step": 39121
    },
    {
      "epoch": 1.3,
      "grad_norm": 1.6371569633483887,
      "learning_rate": 0.00036188370477840243,
      "loss": 1.5963,
      "step": 39122
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4654163420200348,
      "learning_rate": 0.00036187347741579957,
      "loss": 1.648,
      "step": 39123
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46154212951660156,
      "learning_rate": 0.0003618632499780916,
      "loss": 1.6572,
      "step": 39124
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4507701098918915,
      "learning_rate": 0.00036185302246529073,
      "loss": 1.5855,
      "step": 39125
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43823161721229553,
      "learning_rate": 0.0003618427948774093,
      "loss": 1.5694,
      "step": 39126
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43371254205703735,
      "learning_rate": 0.0003618325672144599,
      "loss": 1.6063,
      "step": 39127
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44465842843055725,
      "learning_rate": 0.0003618223394764549,
      "loss": 1.591,
      "step": 39128
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44376736879348755,
      "learning_rate": 0.00036181211166340664,
      "loss": 1.5088,
      "step": 39129
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.439497709274292,
      "learning_rate": 0.0003618018837753277,
      "loss": 1.5788,
      "step": 39130
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.449093222618103,
      "learning_rate": 0.00036179165581223013,
      "loss": 1.648,
      "step": 39131
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47432032227516174,
      "learning_rate": 0.0003617814277741268,
      "loss": 1.6298,
      "step": 39132
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.444068044424057,
      "learning_rate": 0.00036177119966102983,
      "loss": 1.6561,
      "step": 39133
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4585433602333069,
      "learning_rate": 0.00036176097147295176,
      "loss": 1.6863,
      "step": 39134
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.458105206489563,
      "learning_rate": 0.000361750743209905,
      "loss": 1.6159,
      "step": 39135
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4774063229560852,
      "learning_rate": 0.0003617405148719019,
      "loss": 1.6864,
      "step": 39136
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.454673707485199,
      "learning_rate": 0.00036173028645895497,
      "loss": 1.5922,
      "step": 39137
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44146570563316345,
      "learning_rate": 0.00036172005797107645,
      "loss": 1.624,
      "step": 39138
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4447483718395233,
      "learning_rate": 0.000361709829408279,
      "loss": 1.5965,
      "step": 39139
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43969014286994934,
      "learning_rate": 0.0003616996007705748,
      "loss": 1.647,
      "step": 39140
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43596526980400085,
      "learning_rate": 0.00036168937205797644,
      "loss": 1.5885,
      "step": 39141
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4290519952774048,
      "learning_rate": 0.0003616791432704962,
      "loss": 1.7024,
      "step": 39142
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44750744104385376,
      "learning_rate": 0.0003616689144081467,
      "loss": 1.5712,
      "step": 39143
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43935468792915344,
      "learning_rate": 0.00036165868547094015,
      "loss": 1.64,
      "step": 39144
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4574318826198578,
      "learning_rate": 0.000361648456458889,
      "loss": 1.5553,
      "step": 39145
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4485314190387726,
      "learning_rate": 0.0003616382273720058,
      "loss": 1.6069,
      "step": 39146
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4481167495250702,
      "learning_rate": 0.0003616279982103028,
      "loss": 1.6091,
      "step": 39147
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4418993294239044,
      "learning_rate": 0.0003616177689737925,
      "loss": 1.6216,
      "step": 39148
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4384597837924957,
      "learning_rate": 0.00036160753966248734,
      "loss": 1.6457,
      "step": 39149
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45475804805755615,
      "learning_rate": 0.00036159731027639964,
      "loss": 1.5805,
      "step": 39150
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45183220505714417,
      "learning_rate": 0.000361587080815542,
      "loss": 1.6082,
      "step": 39151
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46754902601242065,
      "learning_rate": 0.00036157685127992666,
      "loss": 1.6463,
      "step": 39152
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4652014970779419,
      "learning_rate": 0.00036156662166956605,
      "loss": 1.5866,
      "step": 39153
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44668135046958923,
      "learning_rate": 0.0003615563919844726,
      "loss": 1.6803,
      "step": 39154
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4633947014808655,
      "learning_rate": 0.00036154616222465886,
      "loss": 1.6638,
      "step": 39155
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.41993317008018494,
      "learning_rate": 0.0003615359323901371,
      "loss": 1.6276,
      "step": 39156
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45149150490760803,
      "learning_rate": 0.00036152570248091986,
      "loss": 1.6205,
      "step": 39157
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4509684145450592,
      "learning_rate": 0.0003615154724970194,
      "loss": 1.5962,
      "step": 39158
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45405444502830505,
      "learning_rate": 0.0003615052424384482,
      "loss": 1.5453,
      "step": 39159
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4437250792980194,
      "learning_rate": 0.00036149501230521873,
      "loss": 1.5681,
      "step": 39160
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46470674872398376,
      "learning_rate": 0.00036148478209734335,
      "loss": 1.6422,
      "step": 39161
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44119909405708313,
      "learning_rate": 0.00036147455181483463,
      "loss": 1.6331,
      "step": 39162
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4464201033115387,
      "learning_rate": 0.0003614643214577047,
      "loss": 1.6309,
      "step": 39163
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4538244903087616,
      "learning_rate": 0.00036145409102596626,
      "loss": 1.6212,
      "step": 39164
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45503148436546326,
      "learning_rate": 0.00036144386051963155,
      "loss": 1.5724,
      "step": 39165
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47787854075431824,
      "learning_rate": 0.000361433629938713,
      "loss": 1.6021,
      "step": 39166
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4514680504798889,
      "learning_rate": 0.0003614233992832232,
      "loss": 1.5837,
      "step": 39167
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4571954309940338,
      "learning_rate": 0.0003614131685531743,
      "loss": 1.68,
      "step": 39168
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4429352283477783,
      "learning_rate": 0.000361402937748579,
      "loss": 1.6397,
      "step": 39169
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4568684995174408,
      "learning_rate": 0.00036139270686944946,
      "loss": 1.6055,
      "step": 39170
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4532800316810608,
      "learning_rate": 0.0003613824759157983,
      "loss": 1.6051,
      "step": 39171
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4503806233406067,
      "learning_rate": 0.00036137224488763783,
      "loss": 1.5789,
      "step": 39172
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46336349844932556,
      "learning_rate": 0.0003613620137849805,
      "loss": 1.6071,
      "step": 39173
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4533168077468872,
      "learning_rate": 0.00036135178260783877,
      "loss": 1.6924,
      "step": 39174
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44583553075790405,
      "learning_rate": 0.0003613415513562249,
      "loss": 1.6045,
      "step": 39175
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4531748294830322,
      "learning_rate": 0.0003613313200301515,
      "loss": 1.625,
      "step": 39176
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4438369870185852,
      "learning_rate": 0.000361321088629631,
      "loss": 1.5884,
      "step": 39177
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45737481117248535,
      "learning_rate": 0.0003613108571546756,
      "loss": 1.6944,
      "step": 39178
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45260530710220337,
      "learning_rate": 0.0003613006256052979,
      "loss": 1.6053,
      "step": 39179
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.442752867937088,
      "learning_rate": 0.00036129039398151024,
      "loss": 1.6486,
      "step": 39180
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45099660754203796,
      "learning_rate": 0.0003612801622833252,
      "loss": 1.5667,
      "step": 39181
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45368242263793945,
      "learning_rate": 0.00036126993051075493,
      "loss": 1.6458,
      "step": 39182
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44787466526031494,
      "learning_rate": 0.00036125969866381203,
      "loss": 1.6139,
      "step": 39183
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45091429352760315,
      "learning_rate": 0.00036124946674250886,
      "loss": 1.6347,
      "step": 39184
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4476360082626343,
      "learning_rate": 0.00036123923474685787,
      "loss": 1.6486,
      "step": 39185
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4577632546424866,
      "learning_rate": 0.00036122900267687155,
      "loss": 1.6414,
      "step": 39186
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4535030424594879,
      "learning_rate": 0.00036121877053256224,
      "loss": 1.6703,
      "step": 39187
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4547640383243561,
      "learning_rate": 0.00036120853831394216,
      "loss": 1.5819,
      "step": 39188
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4352598488330841,
      "learning_rate": 0.0003611983060210242,
      "loss": 1.6062,
      "step": 39189
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44261834025382996,
      "learning_rate": 0.0003611880736538204,
      "loss": 1.6241,
      "step": 39190
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46756985783576965,
      "learning_rate": 0.00036117784121234323,
      "loss": 1.6966,
      "step": 39191
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4570201635360718,
      "learning_rate": 0.00036116760869660535,
      "loss": 1.6148,
      "step": 39192
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.8495634198188782,
      "learning_rate": 0.0003611573761066188,
      "loss": 1.6112,
      "step": 39193
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4436146318912506,
      "learning_rate": 0.0003611471434423963,
      "loss": 1.6084,
      "step": 39194
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4422508478164673,
      "learning_rate": 0.0003611369107039501,
      "loss": 1.5966,
      "step": 39195
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44072794914245605,
      "learning_rate": 0.0003611266778912928,
      "loss": 1.5669,
      "step": 39196
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44433075189590454,
      "learning_rate": 0.0003611164450044367,
      "loss": 1.6722,
      "step": 39197
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45629289746284485,
      "learning_rate": 0.00036110621204339427,
      "loss": 1.6665,
      "step": 39198
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4524818956851959,
      "learning_rate": 0.00036109597900817794,
      "loss": 1.633,
      "step": 39199
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43424445390701294,
      "learning_rate": 0.00036108574589879995,
      "loss": 1.6055,
      "step": 39200
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4419746398925781,
      "learning_rate": 0.000361075512715273,
      "loss": 1.6182,
      "step": 39201
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4362345337867737,
      "learning_rate": 0.0003610652794576093,
      "loss": 1.6208,
      "step": 39202
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4376097321510315,
      "learning_rate": 0.0003610550461258213,
      "loss": 1.5285,
      "step": 39203
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.444083571434021,
      "learning_rate": 0.0003610448127199215,
      "loss": 1.6744,
      "step": 39204
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45420798659324646,
      "learning_rate": 0.0003610345792399223,
      "loss": 1.6296,
      "step": 39205
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4398721754550934,
      "learning_rate": 0.00036102434568583623,
      "loss": 1.6675,
      "step": 39206
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44345879554748535,
      "learning_rate": 0.00036101411205767547,
      "loss": 1.6851,
      "step": 39207
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43500304222106934,
      "learning_rate": 0.0003610038783554526,
      "loss": 1.6756,
      "step": 39208
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4656914472579956,
      "learning_rate": 0.00036099364457918,
      "loss": 1.6763,
      "step": 39209
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46252691745758057,
      "learning_rate": 0.00036098341072887013,
      "loss": 1.6397,
      "step": 39210
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4581587612628937,
      "learning_rate": 0.00036097317680453537,
      "loss": 1.5898,
      "step": 39211
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4210731089115143,
      "learning_rate": 0.0003609629428061882,
      "loss": 1.5796,
      "step": 39212
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.43746891617774963,
      "learning_rate": 0.0003609527087338409,
      "loss": 1.5608,
      "step": 39213
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4460584223270416,
      "learning_rate": 0.000360942474587506,
      "loss": 1.5429,
      "step": 39214
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4721353352069855,
      "learning_rate": 0.000360932240367196,
      "loss": 1.612,
      "step": 39215
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.44425708055496216,
      "learning_rate": 0.00036092200607292315,
      "loss": 1.6291,
      "step": 39216
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46468695998191833,
      "learning_rate": 0.00036091177170470014,
      "loss": 1.6633,
      "step": 39217
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4379376769065857,
      "learning_rate": 0.000360901537262539,
      "loss": 1.6165,
      "step": 39218
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.447591632604599,
      "learning_rate": 0.0003608913027464525,
      "loss": 1.6711,
      "step": 39219
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4460866153240204,
      "learning_rate": 0.0003608810681564529,
      "loss": 1.5667,
      "step": 39220
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.46535709500312805,
      "learning_rate": 0.00036087083349255254,
      "loss": 1.6303,
      "step": 39221
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45427513122558594,
      "learning_rate": 0.00036086059875476415,
      "loss": 1.5787,
      "step": 39222
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.45675525069236755,
      "learning_rate": 0.0003608503639430998,
      "loss": 1.6193,
      "step": 39223
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.4511348605155945,
      "learning_rate": 0.00036084012905757216,
      "loss": 1.6707,
      "step": 39224
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4773581624031067,
      "learning_rate": 0.0003608298940981935,
      "loss": 1.6099,
      "step": 39225
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46515974402427673,
      "learning_rate": 0.0003608196590649764,
      "loss": 1.7043,
      "step": 39226
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4583977162837982,
      "learning_rate": 0.0003608094239579331,
      "loss": 1.6468,
      "step": 39227
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.48927566409111023,
      "learning_rate": 0.0003607991887770762,
      "loss": 1.6472,
      "step": 39228
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4454813301563263,
      "learning_rate": 0.0003607889535224181,
      "loss": 1.6261,
      "step": 39229
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4659792184829712,
      "learning_rate": 0.00036077871819397095,
      "loss": 1.6626,
      "step": 39230
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44662779569625854,
      "learning_rate": 0.00036076848279174763,
      "loss": 1.6836,
      "step": 39231
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4505820572376251,
      "learning_rate": 0.0003607582473157602,
      "loss": 1.6276,
      "step": 39232
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44798681139945984,
      "learning_rate": 0.0003607480117660212,
      "loss": 1.6329,
      "step": 39233
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46493133902549744,
      "learning_rate": 0.0003607377761425431,
      "loss": 1.6487,
      "step": 39234
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4507817029953003,
      "learning_rate": 0.00036072754044533825,
      "loss": 1.5934,
      "step": 39235
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4592647850513458,
      "learning_rate": 0.0003607173046744192,
      "loss": 1.6526,
      "step": 39236
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.455503910779953,
      "learning_rate": 0.00036070706882979824,
      "loss": 1.6002,
      "step": 39237
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4507087171077728,
      "learning_rate": 0.00036069683291148786,
      "loss": 1.6037,
      "step": 39238
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45172372460365295,
      "learning_rate": 0.0003606865969195004,
      "loss": 1.6192,
      "step": 39239
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4452740550041199,
      "learning_rate": 0.00036067636085384836,
      "loss": 1.5552,
      "step": 39240
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4566439986228943,
      "learning_rate": 0.00036066612471454424,
      "loss": 1.6256,
      "step": 39241
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4307599663734436,
      "learning_rate": 0.00036065588850160035,
      "loss": 1.6887,
      "step": 39242
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4493878185749054,
      "learning_rate": 0.0003606456522150291,
      "loss": 1.5933,
      "step": 39243
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45475995540618896,
      "learning_rate": 0.000360635415854843,
      "loss": 1.6213,
      "step": 39244
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43215253949165344,
      "learning_rate": 0.00036062517942105445,
      "loss": 1.5893,
      "step": 39245
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4481164216995239,
      "learning_rate": 0.00036061494291367584,
      "loss": 1.702,
      "step": 39246
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44257161021232605,
      "learning_rate": 0.0003606047063327197,
      "loss": 1.5999,
      "step": 39247
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4639632999897003,
      "learning_rate": 0.00036059446967819824,
      "loss": 1.6347,
      "step": 39248
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45704397559165955,
      "learning_rate": 0.0003605842329501242,
      "loss": 1.7184,
      "step": 39249
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44598719477653503,
      "learning_rate": 0.0003605739961485096,
      "loss": 1.5741,
      "step": 39250
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4344880282878876,
      "learning_rate": 0.00036056375927336727,
      "loss": 1.6002,
      "step": 39251
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4457128942012787,
      "learning_rate": 0.0003605535223247094,
      "loss": 1.5518,
      "step": 39252
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4577484428882599,
      "learning_rate": 0.0003605432853025485,
      "loss": 1.6243,
      "step": 39253
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4960245192050934,
      "learning_rate": 0.000360533048206897,
      "loss": 1.6096,
      "step": 39254
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46460431814193726,
      "learning_rate": 0.00036052281103776717,
      "loss": 1.563,
      "step": 39255
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4427908957004547,
      "learning_rate": 0.0003605125737951717,
      "loss": 1.5742,
      "step": 39256
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4526727795600891,
      "learning_rate": 0.0003605023364791228,
      "loss": 1.6,
      "step": 39257
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4290676712989807,
      "learning_rate": 0.000360492099089633,
      "loss": 1.6115,
      "step": 39258
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44441184401512146,
      "learning_rate": 0.00036048186162671475,
      "loss": 1.5597,
      "step": 39259
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4553525149822235,
      "learning_rate": 0.00036047162409038035,
      "loss": 1.6341,
      "step": 39260
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4469440281391144,
      "learning_rate": 0.0003604613864806424,
      "loss": 1.637,
      "step": 39261
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44313177466392517,
      "learning_rate": 0.0003604511487975132,
      "loss": 1.5968,
      "step": 39262
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4578089714050293,
      "learning_rate": 0.00036044091104100523,
      "loss": 1.5351,
      "step": 39263
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43427908420562744,
      "learning_rate": 0.0003604306732111308,
      "loss": 1.6169,
      "step": 39264
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44905033707618713,
      "learning_rate": 0.0003604204353079025,
      "loss": 1.6467,
      "step": 39265
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45835545659065247,
      "learning_rate": 0.0003604101973313327,
      "loss": 1.6215,
      "step": 39266
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44840288162231445,
      "learning_rate": 0.00036039995928143387,
      "loss": 1.5933,
      "step": 39267
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4503907263278961,
      "learning_rate": 0.0003603897211582184,
      "loss": 1.5762,
      "step": 39268
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45573586225509644,
      "learning_rate": 0.0003603794829616986,
      "loss": 1.5276,
      "step": 39269
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.448979914188385,
      "learning_rate": 0.00036036924469188706,
      "loss": 1.6156,
      "step": 39270
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4589214324951172,
      "learning_rate": 0.00036035900634879615,
      "loss": 1.611,
      "step": 39271
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45403623580932617,
      "learning_rate": 0.00036034876793243826,
      "loss": 1.5269,
      "step": 39272
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4530193507671356,
      "learning_rate": 0.0003603385294428259,
      "loss": 1.666,
      "step": 39273
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44063591957092285,
      "learning_rate": 0.00036032829087997146,
      "loss": 1.6878,
      "step": 39274
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4307000935077667,
      "learning_rate": 0.00036031805224388737,
      "loss": 1.5861,
      "step": 39275
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45641806721687317,
      "learning_rate": 0.000360307813534586,
      "loss": 1.6082,
      "step": 39276
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44330090284347534,
      "learning_rate": 0.0003602975747520799,
      "loss": 1.6081,
      "step": 39277
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.48560115694999695,
      "learning_rate": 0.00036028733589638134,
      "loss": 1.6271,
      "step": 39278
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4527847170829773,
      "learning_rate": 0.0003602770969675029,
      "loss": 1.5442,
      "step": 39279
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4512224793434143,
      "learning_rate": 0.0003602668579654569,
      "loss": 1.6566,
      "step": 39280
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4534355401992798,
      "learning_rate": 0.0003602566188902559,
      "loss": 1.63,
      "step": 39281
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4467231333255768,
      "learning_rate": 0.0003602463797419122,
      "loss": 1.6808,
      "step": 39282
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4449540376663208,
      "learning_rate": 0.0003602361405204383,
      "loss": 1.6202,
      "step": 39283
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.49206435680389404,
      "learning_rate": 0.0003602259012258466,
      "loss": 1.597,
      "step": 39284
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45148059725761414,
      "learning_rate": 0.0003602156618581494,
      "loss": 1.6218,
      "step": 39285
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44765928387641907,
      "learning_rate": 0.0003602054224173594,
      "loss": 1.6145,
      "step": 39286
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4529097378253937,
      "learning_rate": 0.0003601951829034888,
      "loss": 1.6221,
      "step": 39287
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46176597476005554,
      "learning_rate": 0.00036018494331655024,
      "loss": 1.6205,
      "step": 39288
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46594783663749695,
      "learning_rate": 0.0003601747036565559,
      "loss": 1.6356,
      "step": 39289
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4613818824291229,
      "learning_rate": 0.00036016446392351836,
      "loss": 1.6312,
      "step": 39290
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4417056441307068,
      "learning_rate": 0.0003601542241174501,
      "loss": 1.618,
      "step": 39291
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4687432646751404,
      "learning_rate": 0.0003601439842383634,
      "loss": 1.6672,
      "step": 39292
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4556800425052643,
      "learning_rate": 0.0003601337442862708,
      "loss": 1.66,
      "step": 39293
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44591110944747925,
      "learning_rate": 0.0003601235042611847,
      "loss": 1.6376,
      "step": 39294
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46007055044174194,
      "learning_rate": 0.0003601132641631175,
      "loss": 1.6733,
      "step": 39295
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.441035658121109,
      "learning_rate": 0.0003601030239920816,
      "loss": 1.5798,
      "step": 39296
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4643108546733856,
      "learning_rate": 0.0003600927837480896,
      "loss": 1.6022,
      "step": 39297
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44714590907096863,
      "learning_rate": 0.00036008254343115377,
      "loss": 1.5725,
      "step": 39298
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43774497509002686,
      "learning_rate": 0.0003600723030412866,
      "loss": 1.5835,
      "step": 39299
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46715477108955383,
      "learning_rate": 0.00036006206257850046,
      "loss": 1.6442,
      "step": 39300
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46029791235923767,
      "learning_rate": 0.00036005182204280786,
      "loss": 1.607,
      "step": 39301
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.444536030292511,
      "learning_rate": 0.0003600415814342211,
      "loss": 1.6385,
      "step": 39302
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44271135330200195,
      "learning_rate": 0.00036003134075275286,
      "loss": 1.5805,
      "step": 39303
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45479920506477356,
      "learning_rate": 0.0003600210999984154,
      "loss": 1.667,
      "step": 39304
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.465232789516449,
      "learning_rate": 0.000360010859171221,
      "loss": 1.7177,
      "step": 39305
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4506208002567291,
      "learning_rate": 0.00036000061827118243,
      "loss": 1.6064,
      "step": 39306
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4487026333808899,
      "learning_rate": 0.00035999037729831187,
      "loss": 1.6053,
      "step": 39307
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.458244651556015,
      "learning_rate": 0.0003599801362526219,
      "loss": 1.6147,
      "step": 39308
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4384346008300781,
      "learning_rate": 0.00035996989513412483,
      "loss": 1.6748,
      "step": 39309
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.435156911611557,
      "learning_rate": 0.0003599596539428331,
      "loss": 1.5396,
      "step": 39310
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43128702044487,
      "learning_rate": 0.0003599494126787593,
      "loss": 1.6731,
      "step": 39311
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4619060158729553,
      "learning_rate": 0.00035993917134191563,
      "loss": 1.6968,
      "step": 39312
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4333558976650238,
      "learning_rate": 0.0003599289299323147,
      "loss": 1.6621,
      "step": 39313
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45304882526397705,
      "learning_rate": 0.00035991868844996894,
      "loss": 1.6259,
      "step": 39314
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4739988446235657,
      "learning_rate": 0.0003599084468948906,
      "loss": 1.6607,
      "step": 39315
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4676526188850403,
      "learning_rate": 0.0003598982052670923,
      "loss": 1.6307,
      "step": 39316
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44666844606399536,
      "learning_rate": 0.0003598879635665863,
      "loss": 1.6333,
      "step": 39317
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46775853633880615,
      "learning_rate": 0.00035987772179338535,
      "loss": 1.6701,
      "step": 39318
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44995343685150146,
      "learning_rate": 0.0003598674799475015,
      "loss": 1.6241,
      "step": 39319
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4683566689491272,
      "learning_rate": 0.00035985723802894735,
      "loss": 1.7057,
      "step": 39320
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4602024555206299,
      "learning_rate": 0.00035984699603773545,
      "loss": 1.6904,
      "step": 39321
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43808403611183167,
      "learning_rate": 0.000359836753973878,
      "loss": 1.5454,
      "step": 39322
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4411121606826782,
      "learning_rate": 0.0003598265118373876,
      "loss": 1.6161,
      "step": 39323
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.462478905916214,
      "learning_rate": 0.0003598162696282767,
      "loss": 1.6502,
      "step": 39324
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45355314016342163,
      "learning_rate": 0.0003598060273465575,
      "loss": 1.5809,
      "step": 39325
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4339938759803772,
      "learning_rate": 0.0003597957849922427,
      "loss": 1.5765,
      "step": 39326
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45397359132766724,
      "learning_rate": 0.0003597855425653446,
      "loss": 1.6258,
      "step": 39327
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44683638215065,
      "learning_rate": 0.00035977530006587563,
      "loss": 1.6377,
      "step": 39328
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.42909321188926697,
      "learning_rate": 0.0003597650574938483,
      "loss": 1.58,
      "step": 39329
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45041078329086304,
      "learning_rate": 0.000359754814849275,
      "loss": 1.6523,
      "step": 39330
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4621793329715729,
      "learning_rate": 0.00035974457213216814,
      "loss": 1.6362,
      "step": 39331
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46270424127578735,
      "learning_rate": 0.0003597343293425402,
      "loss": 1.6092,
      "step": 39332
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4800627827644348,
      "learning_rate": 0.0003597240864804035,
      "loss": 1.6342,
      "step": 39333
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4469549357891083,
      "learning_rate": 0.0003597138435457707,
      "loss": 1.618,
      "step": 39334
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4920271635055542,
      "learning_rate": 0.00035970360053865397,
      "loss": 1.5798,
      "step": 39335
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45597538352012634,
      "learning_rate": 0.0003596933574590659,
      "loss": 1.5561,
      "step": 39336
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4637298882007599,
      "learning_rate": 0.00035968311430701884,
      "loss": 1.6493,
      "step": 39337
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44545894861221313,
      "learning_rate": 0.0003596728710825254,
      "loss": 1.6006,
      "step": 39338
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45145735144615173,
      "learning_rate": 0.0003596626277855978,
      "loss": 1.6414,
      "step": 39339
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4439486563205719,
      "learning_rate": 0.0003596523844162486,
      "loss": 1.6238,
      "step": 39340
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4618035852909088,
      "learning_rate": 0.00035964214097449013,
      "loss": 1.6182,
      "step": 39341
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.47052454948425293,
      "learning_rate": 0.0003596318974603349,
      "loss": 1.6908,
      "step": 39342
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46100425720214844,
      "learning_rate": 0.00035962165387379546,
      "loss": 1.652,
      "step": 39343
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4495548903942108,
      "learning_rate": 0.00035961141021488395,
      "loss": 1.571,
      "step": 39344
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46549296379089355,
      "learning_rate": 0.00035960116648361306,
      "loss": 1.6481,
      "step": 39345
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45836299657821655,
      "learning_rate": 0.00035959092267999514,
      "loss": 1.5788,
      "step": 39346
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4856608808040619,
      "learning_rate": 0.0003595806788040425,
      "loss": 1.5962,
      "step": 39347
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.7310288548469543,
      "learning_rate": 0.00035957043485576785,
      "loss": 1.687,
      "step": 39348
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46711283922195435,
      "learning_rate": 0.00035956019083518346,
      "loss": 1.6041,
      "step": 39349
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4441029727458954,
      "learning_rate": 0.0003595499467423017,
      "loss": 1.6188,
      "step": 39350
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46806374192237854,
      "learning_rate": 0.00035953970257713506,
      "loss": 1.7247,
      "step": 39351
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4527152180671692,
      "learning_rate": 0.00035952945833969604,
      "loss": 1.6266,
      "step": 39352
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4375137686729431,
      "learning_rate": 0.0003595192140299971,
      "loss": 1.6308,
      "step": 39353
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4356439411640167,
      "learning_rate": 0.0003595089696480505,
      "loss": 1.6141,
      "step": 39354
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45541271567344666,
      "learning_rate": 0.0003594987251938688,
      "loss": 1.561,
      "step": 39355
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.47757014632225037,
      "learning_rate": 0.0003594884806674644,
      "loss": 1.6159,
      "step": 39356
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44646647572517395,
      "learning_rate": 0.0003594782360688498,
      "loss": 1.58,
      "step": 39357
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4628060460090637,
      "learning_rate": 0.0003594679913980373,
      "loss": 1.6362,
      "step": 39358
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44912102818489075,
      "learning_rate": 0.0003594577466550396,
      "loss": 1.5622,
      "step": 39359
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46840527653694153,
      "learning_rate": 0.00035944750183986875,
      "loss": 1.6627,
      "step": 39360
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4583081305027008,
      "learning_rate": 0.00035943725695253753,
      "loss": 1.6384,
      "step": 39361
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46008768677711487,
      "learning_rate": 0.00035942701199305813,
      "loss": 1.5964,
      "step": 39362
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4451366066932678,
      "learning_rate": 0.00035941676696144313,
      "loss": 1.6181,
      "step": 39363
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43914732336997986,
      "learning_rate": 0.00035940652185770505,
      "loss": 1.5613,
      "step": 39364
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4394477307796478,
      "learning_rate": 0.00035939627668185603,
      "loss": 1.5997,
      "step": 39365
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44817793369293213,
      "learning_rate": 0.0003593860314339088,
      "loss": 1.553,
      "step": 39366
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46268516778945923,
      "learning_rate": 0.0003593757861138756,
      "loss": 1.5932,
      "step": 39367
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45942041277885437,
      "learning_rate": 0.000359365540721769,
      "loss": 1.6308,
      "step": 39368
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4496530294418335,
      "learning_rate": 0.00035935529525760136,
      "loss": 1.6059,
      "step": 39369
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4796023368835449,
      "learning_rate": 0.0003593450497213851,
      "loss": 1.7041,
      "step": 39370
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44925397634506226,
      "learning_rate": 0.0003593348041131328,
      "loss": 1.5873,
      "step": 39371
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4276423454284668,
      "learning_rate": 0.0003593245584328566,
      "loss": 1.5761,
      "step": 39372
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4446403980255127,
      "learning_rate": 0.0003593143126805694,
      "loss": 1.6366,
      "step": 39373
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43696340918540955,
      "learning_rate": 0.00035930406685628317,
      "loss": 1.6227,
      "step": 39374
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46133360266685486,
      "learning_rate": 0.00035929382096001053,
      "loss": 1.5746,
      "step": 39375
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4715488851070404,
      "learning_rate": 0.000359283574991764,
      "loss": 1.6583,
      "step": 39376
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4404376149177551,
      "learning_rate": 0.0003592733289515559,
      "loss": 1.6224,
      "step": 39377
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4324953854084015,
      "learning_rate": 0.00035926308283939877,
      "loss": 1.5516,
      "step": 39378
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44458940625190735,
      "learning_rate": 0.00035925283665530494,
      "loss": 1.6538,
      "step": 39379
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4321877956390381,
      "learning_rate": 0.00035924259039928693,
      "loss": 1.6235,
      "step": 39380
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4512053430080414,
      "learning_rate": 0.00035923234407135715,
      "loss": 1.6301,
      "step": 39381
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4713483154773712,
      "learning_rate": 0.000359222097671528,
      "loss": 1.6622,
      "step": 39382
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4495116174221039,
      "learning_rate": 0.0003592118511998119,
      "loss": 1.6611,
      "step": 39383
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.47784990072250366,
      "learning_rate": 0.00035920160465622143,
      "loss": 1.6489,
      "step": 39384
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4445083737373352,
      "learning_rate": 0.00035919135804076893,
      "loss": 1.5141,
      "step": 39385
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.47367826104164124,
      "learning_rate": 0.00035918111135346684,
      "loss": 1.5888,
      "step": 39386
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44725045561790466,
      "learning_rate": 0.0003591708645943275,
      "loss": 1.5829,
      "step": 39387
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44344866275787354,
      "learning_rate": 0.0003591606177633635,
      "loss": 1.6004,
      "step": 39388
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.429679811000824,
      "learning_rate": 0.0003591503708605873,
      "loss": 1.6002,
      "step": 39389
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4572547972202301,
      "learning_rate": 0.0003591401238860112,
      "loss": 1.6101,
      "step": 39390
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4779530167579651,
      "learning_rate": 0.00035912987683964773,
      "loss": 1.6658,
      "step": 39391
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.437326580286026,
      "learning_rate": 0.00035911962972150934,
      "loss": 1.6411,
      "step": 39392
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4424782693386078,
      "learning_rate": 0.0003591093825316083,
      "loss": 1.6376,
      "step": 39393
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4470865726470947,
      "learning_rate": 0.0003590991352699573,
      "loss": 1.6191,
      "step": 39394
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4738925099372864,
      "learning_rate": 0.0003590888879365686,
      "loss": 1.7068,
      "step": 39395
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44931453466415405,
      "learning_rate": 0.0003590786405314548,
      "loss": 1.6514,
      "step": 39396
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4495963156223297,
      "learning_rate": 0.000359068393054628,
      "loss": 1.6184,
      "step": 39397
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4437507390975952,
      "learning_rate": 0.00035905814550610114,
      "loss": 1.6644,
      "step": 39398
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4491542875766754,
      "learning_rate": 0.0003590478978858862,
      "loss": 1.6867,
      "step": 39399
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4468386769294739,
      "learning_rate": 0.00035903765019399596,
      "loss": 1.6464,
      "step": 39400
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45566707849502563,
      "learning_rate": 0.0003590274024304427,
      "loss": 1.6053,
      "step": 39401
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44487178325653076,
      "learning_rate": 0.00035901715459523873,
      "loss": 1.6475,
      "step": 39402
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4389994442462921,
      "learning_rate": 0.0003590069066883967,
      "loss": 1.6549,
      "step": 39403
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4464319348335266,
      "learning_rate": 0.000358996658709929,
      "loss": 1.6198,
      "step": 39404
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4643855392932892,
      "learning_rate": 0.000358986410659848,
      "loss": 1.6499,
      "step": 39405
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4459628462791443,
      "learning_rate": 0.00035897616253816625,
      "loss": 1.6837,
      "step": 39406
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46310269832611084,
      "learning_rate": 0.0003589659143448961,
      "loss": 1.6229,
      "step": 39407
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44522958993911743,
      "learning_rate": 0.0003589556660800501,
      "loss": 1.5503,
      "step": 39408
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45285114645957947,
      "learning_rate": 0.00035894541774364046,
      "loss": 1.6819,
      "step": 39409
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4515567719936371,
      "learning_rate": 0.00035893516933567987,
      "loss": 1.6104,
      "step": 39410
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4477027654647827,
      "learning_rate": 0.0003589249208561806,
      "loss": 1.5881,
      "step": 39411
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4527263343334198,
      "learning_rate": 0.00035891467230515523,
      "loss": 1.6409,
      "step": 39412
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4661034047603607,
      "learning_rate": 0.00035890442368261607,
      "loss": 1.6255,
      "step": 39413
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4474550783634186,
      "learning_rate": 0.00035889417498857567,
      "loss": 1.5755,
      "step": 39414
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4371072053909302,
      "learning_rate": 0.00035888392622304634,
      "loss": 1.6633,
      "step": 39415
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43787792325019836,
      "learning_rate": 0.0003588736773860407,
      "loss": 1.6651,
      "step": 39416
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4808841645717621,
      "learning_rate": 0.00035886342847757103,
      "loss": 1.5545,
      "step": 39417
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4542466402053833,
      "learning_rate": 0.00035885317949764983,
      "loss": 1.629,
      "step": 39418
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45826300978660583,
      "learning_rate": 0.00035884293044628957,
      "loss": 1.6031,
      "step": 39419
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45846855640411377,
      "learning_rate": 0.00035883268132350267,
      "loss": 1.6105,
      "step": 39420
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43956416845321655,
      "learning_rate": 0.0003588224321293016,
      "loss": 1.6289,
      "step": 39421
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4632878005504608,
      "learning_rate": 0.0003588121828636986,
      "loss": 1.6787,
      "step": 39422
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4449270963668823,
      "learning_rate": 0.0003588019335267064,
      "loss": 1.5557,
      "step": 39423
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4599744379520416,
      "learning_rate": 0.00035879168411833735,
      "loss": 1.6769,
      "step": 39424
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4770047664642334,
      "learning_rate": 0.00035878143463860383,
      "loss": 1.6382,
      "step": 39425
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45426157116889954,
      "learning_rate": 0.00035877118508751825,
      "loss": 1.62,
      "step": 39426
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43743714690208435,
      "learning_rate": 0.00035876093546509315,
      "loss": 1.6118,
      "step": 39427
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43256527185440063,
      "learning_rate": 0.00035875068577134094,
      "loss": 1.6329,
      "step": 39428
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45916739106178284,
      "learning_rate": 0.00035874043600627397,
      "loss": 1.6126,
      "step": 39429
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4477432370185852,
      "learning_rate": 0.00035873018616990493,
      "loss": 1.5542,
      "step": 39430
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43221551179885864,
      "learning_rate": 0.000358719936262246,
      "loss": 1.6516,
      "step": 39431
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4462948441505432,
      "learning_rate": 0.00035870968628330967,
      "loss": 1.6121,
      "step": 39432
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45339858531951904,
      "learning_rate": 0.0003586994362331086,
      "loss": 1.5853,
      "step": 39433
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.450224369764328,
      "learning_rate": 0.0003586891861116548,
      "loss": 1.5517,
      "step": 39434
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.5037227869033813,
      "learning_rate": 0.0003586789359189612,
      "loss": 1.6511,
      "step": 39435
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4444243609905243,
      "learning_rate": 0.00035866868565504,
      "loss": 1.5633,
      "step": 39436
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46473896503448486,
      "learning_rate": 0.00035865843531990353,
      "loss": 1.6563,
      "step": 39437
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4497862458229065,
      "learning_rate": 0.0003586481849135644,
      "loss": 1.6114,
      "step": 39438
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44116127490997314,
      "learning_rate": 0.0003586379344360351,
      "loss": 1.6846,
      "step": 39439
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45295771956443787,
      "learning_rate": 0.000358627683887328,
      "loss": 1.5854,
      "step": 39440
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4487861096858978,
      "learning_rate": 0.0003586174332674555,
      "loss": 1.6748,
      "step": 39441
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43693113327026367,
      "learning_rate": 0.00035860718257643,
      "loss": 1.5983,
      "step": 39442
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45199865102767944,
      "learning_rate": 0.000358596931814264,
      "loss": 1.6229,
      "step": 39443
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4303074777126312,
      "learning_rate": 0.00035858668098097006,
      "loss": 1.6055,
      "step": 39444
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45215854048728943,
      "learning_rate": 0.00035857643007656046,
      "loss": 1.5881,
      "step": 39445
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45158863067626953,
      "learning_rate": 0.00035856617910104774,
      "loss": 1.6409,
      "step": 39446
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4314078092575073,
      "learning_rate": 0.0003585559280544443,
      "loss": 1.6041,
      "step": 39447
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4528597891330719,
      "learning_rate": 0.0003585456769367626,
      "loss": 1.6239,
      "step": 39448
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4505733251571655,
      "learning_rate": 0.000358535425748015,
      "loss": 1.6438,
      "step": 39449
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44856634736061096,
      "learning_rate": 0.0003585251744882141,
      "loss": 1.6902,
      "step": 39450
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4408052861690521,
      "learning_rate": 0.0003585149231573723,
      "loss": 1.586,
      "step": 39451
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44294190406799316,
      "learning_rate": 0.00035850467175550186,
      "loss": 1.5668,
      "step": 39452
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4553205072879791,
      "learning_rate": 0.00035849442028261546,
      "loss": 1.621,
      "step": 39453
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.459447979927063,
      "learning_rate": 0.00035848416873872547,
      "loss": 1.6031,
      "step": 39454
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44047942757606506,
      "learning_rate": 0.00035847391712384426,
      "loss": 1.5971,
      "step": 39455
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4469747543334961,
      "learning_rate": 0.0003584636654379844,
      "loss": 1.6513,
      "step": 39456
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.460945725440979,
      "learning_rate": 0.00035845341368115813,
      "loss": 1.6801,
      "step": 39457
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46305009722709656,
      "learning_rate": 0.00035844316185337826,
      "loss": 1.6671,
      "step": 39458
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4450624883174896,
      "learning_rate": 0.00035843290995465676,
      "loss": 1.6331,
      "step": 39459
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4480205476284027,
      "learning_rate": 0.00035842265798500644,
      "loss": 1.5312,
      "step": 39460
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4487347900867462,
      "learning_rate": 0.0003584124059444396,
      "loss": 1.6601,
      "step": 39461
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44527098536491394,
      "learning_rate": 0.00035840215383296873,
      "loss": 1.6104,
      "step": 39462
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4338081181049347,
      "learning_rate": 0.00035839190165060623,
      "loss": 1.628,
      "step": 39463
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4643975496292114,
      "learning_rate": 0.0003583816493973645,
      "loss": 1.6558,
      "step": 39464
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4570784568786621,
      "learning_rate": 0.00035837139707325623,
      "loss": 1.5732,
      "step": 39465
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4523680508136749,
      "learning_rate": 0.00035836114467829356,
      "loss": 1.6514,
      "step": 39466
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4903720021247864,
      "learning_rate": 0.000358350892212489,
      "loss": 1.6493,
      "step": 39467
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44044214487075806,
      "learning_rate": 0.00035834063967585516,
      "loss": 1.6026,
      "step": 39468
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43040791153907776,
      "learning_rate": 0.00035833038706840426,
      "loss": 1.6159,
      "step": 39469
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4500217139720917,
      "learning_rate": 0.000358320134390149,
      "loss": 1.593,
      "step": 39470
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4336923360824585,
      "learning_rate": 0.00035830988164110166,
      "loss": 1.6221,
      "step": 39471
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44653448462486267,
      "learning_rate": 0.00035829962882127475,
      "loss": 1.6187,
      "step": 39472
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45508506894111633,
      "learning_rate": 0.0003582893759306806,
      "loss": 1.7165,
      "step": 39473
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4460478127002716,
      "learning_rate": 0.00035827912296933174,
      "loss": 1.6147,
      "step": 39474
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4683859050273895,
      "learning_rate": 0.0003582688699372406,
      "loss": 1.6353,
      "step": 39475
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4503285884857178,
      "learning_rate": 0.0003582586168344197,
      "loss": 1.6685,
      "step": 39476
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.441888689994812,
      "learning_rate": 0.00035824836366088133,
      "loss": 1.6468,
      "step": 39477
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4394471347332001,
      "learning_rate": 0.00035823811041663816,
      "loss": 1.6501,
      "step": 39478
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4613572359085083,
      "learning_rate": 0.0003582278571017024,
      "loss": 1.6319,
      "step": 39479
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44715601205825806,
      "learning_rate": 0.00035821760371608665,
      "loss": 1.6301,
      "step": 39480
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.43054598569869995,
      "learning_rate": 0.0003582073502598033,
      "loss": 1.6249,
      "step": 39481
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45028579235076904,
      "learning_rate": 0.0003581970967328647,
      "loss": 1.6285,
      "step": 39482
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44578954577445984,
      "learning_rate": 0.00035818684313528357,
      "loss": 1.4928,
      "step": 39483
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4413166046142578,
      "learning_rate": 0.0003581765894670721,
      "loss": 1.6424,
      "step": 39484
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.450031578540802,
      "learning_rate": 0.0003581663357282429,
      "loss": 1.6544,
      "step": 39485
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4337548017501831,
      "learning_rate": 0.0003581560819188082,
      "loss": 1.5837,
      "step": 39486
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4332940876483917,
      "learning_rate": 0.00035814582803878064,
      "loss": 1.6577,
      "step": 39487
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46029233932495117,
      "learning_rate": 0.0003581355740881727,
      "loss": 1.7351,
      "step": 39488
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45430049300193787,
      "learning_rate": 0.00035812532006699666,
      "loss": 1.5407,
      "step": 39489
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4417574405670166,
      "learning_rate": 0.00035811506597526507,
      "loss": 1.6519,
      "step": 39490
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45843586325645447,
      "learning_rate": 0.0003581048118129903,
      "loss": 1.6415,
      "step": 39491
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4772680699825287,
      "learning_rate": 0.00035809455758018487,
      "loss": 1.5808,
      "step": 39492
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45038390159606934,
      "learning_rate": 0.0003580843032768612,
      "loss": 1.6003,
      "step": 39493
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4362322688102722,
      "learning_rate": 0.0003580740489030318,
      "loss": 1.6085,
      "step": 39494
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4639207720756531,
      "learning_rate": 0.0003580637944587091,
      "loss": 1.6652,
      "step": 39495
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4531112611293793,
      "learning_rate": 0.0003580535399439054,
      "loss": 1.573,
      "step": 39496
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.5533574223518372,
      "learning_rate": 0.0003580432853586333,
      "loss": 1.7097,
      "step": 39497
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45278841257095337,
      "learning_rate": 0.00035803303070290523,
      "loss": 1.548,
      "step": 39498
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44978365302085876,
      "learning_rate": 0.00035802277597673355,
      "loss": 1.6353,
      "step": 39499
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.47990328073501587,
      "learning_rate": 0.0003580125211801308,
      "loss": 1.6597,
      "step": 39500
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4559631049633026,
      "learning_rate": 0.00035800226631310943,
      "loss": 1.5794,
      "step": 39501
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44798025488853455,
      "learning_rate": 0.00035799201137568177,
      "loss": 1.6357,
      "step": 39502
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4647277891635895,
      "learning_rate": 0.0003579817563678604,
      "loss": 1.6035,
      "step": 39503
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4374437928199768,
      "learning_rate": 0.0003579715012896577,
      "loss": 1.5716,
      "step": 39504
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4460006654262543,
      "learning_rate": 0.00035796124614108615,
      "loss": 1.6136,
      "step": 39505
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45763376355171204,
      "learning_rate": 0.00035795099092215824,
      "loss": 1.5547,
      "step": 39506
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.45541298389434814,
      "learning_rate": 0.0003579407356328863,
      "loss": 1.5894,
      "step": 39507
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.458524227142334,
      "learning_rate": 0.0003579304802732829,
      "loss": 1.6112,
      "step": 39508
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4504910707473755,
      "learning_rate": 0.00035792022484336047,
      "loss": 1.6826,
      "step": 39509
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4451029300689697,
      "learning_rate": 0.00035790996934313127,
      "loss": 1.5602,
      "step": 39510
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4591783583164215,
      "learning_rate": 0.000357899713772608,
      "loss": 1.7174,
      "step": 39511
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.44948238134384155,
      "learning_rate": 0.000357889458131803,
      "loss": 1.6161,
      "step": 39512
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4688224494457245,
      "learning_rate": 0.00035787920242072875,
      "loss": 1.6379,
      "step": 39513
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4593549370765686,
      "learning_rate": 0.0003578689466393976,
      "loss": 1.7018,
      "step": 39514
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4575856029987335,
      "learning_rate": 0.0003578586907878222,
      "loss": 1.5582,
      "step": 39515
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4321478307247162,
      "learning_rate": 0.0003578484348660148,
      "loss": 1.6244,
      "step": 39516
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4571772813796997,
      "learning_rate": 0.00035783817887398786,
      "loss": 1.5817,
      "step": 39517
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4627184271812439,
      "learning_rate": 0.000357827922811754,
      "loss": 1.6733,
      "step": 39518
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4515279531478882,
      "learning_rate": 0.0003578176666793255,
      "loss": 1.6159,
      "step": 39519
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.46981629729270935,
      "learning_rate": 0.0003578074104767149,
      "loss": 1.6519,
      "step": 39520
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4600062966346741,
      "learning_rate": 0.00035779715420393454,
      "loss": 1.6384,
      "step": 39521
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4596242308616638,
      "learning_rate": 0.00035778689786099705,
      "loss": 1.7118,
      "step": 39522
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4636020362377167,
      "learning_rate": 0.0003577766414479148,
      "loss": 1.6417,
      "step": 39523
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4537001848220825,
      "learning_rate": 0.0003577663849647002,
      "loss": 1.6324,
      "step": 39524
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44483157992362976,
      "learning_rate": 0.00035775612841136567,
      "loss": 1.5423,
      "step": 39525
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4507214426994324,
      "learning_rate": 0.00035774587178792367,
      "loss": 1.6406,
      "step": 39526
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46305423974990845,
      "learning_rate": 0.0003577356150943868,
      "loss": 1.6148,
      "step": 39527
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4350866973400116,
      "learning_rate": 0.0003577253583307674,
      "loss": 1.6688,
      "step": 39528
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4548511505126953,
      "learning_rate": 0.00035771510149707776,
      "loss": 1.5984,
      "step": 39529
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46663954854011536,
      "learning_rate": 0.00035770484459333063,
      "loss": 1.5946,
      "step": 39530
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45749035477638245,
      "learning_rate": 0.00035769458761953824,
      "loss": 1.6105,
      "step": 39531
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.429360955953598,
      "learning_rate": 0.0003576843305757132,
      "loss": 1.6567,
      "step": 39532
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44658616185188293,
      "learning_rate": 0.0003576740734618679,
      "loss": 1.5609,
      "step": 39533
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4360451400279999,
      "learning_rate": 0.0003576638162780147,
      "loss": 1.5604,
      "step": 39534
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4389691948890686,
      "learning_rate": 0.0003576535590241662,
      "loss": 1.6316,
      "step": 39535
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44356203079223633,
      "learning_rate": 0.0003576433017003347,
      "loss": 1.6382,
      "step": 39536
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4450553059577942,
      "learning_rate": 0.0003576330443065327,
      "loss": 1.6142,
      "step": 39537
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46890929341316223,
      "learning_rate": 0.00035762278684277283,
      "loss": 1.6331,
      "step": 39538
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4562890827655792,
      "learning_rate": 0.0003576125293090672,
      "loss": 1.6652,
      "step": 39539
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44491973519325256,
      "learning_rate": 0.0003576022717054286,
      "loss": 1.6528,
      "step": 39540
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44660061597824097,
      "learning_rate": 0.00035759201403186925,
      "loss": 1.6254,
      "step": 39541
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4728529453277588,
      "learning_rate": 0.0003575817562884017,
      "loss": 1.6214,
      "step": 39542
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4395974576473236,
      "learning_rate": 0.0003575714984750384,
      "loss": 1.5647,
      "step": 39543
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44239240884780884,
      "learning_rate": 0.0003575612405917917,
      "loss": 1.6879,
      "step": 39544
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4543255865573883,
      "learning_rate": 0.00035755098263867425,
      "loss": 1.6807,
      "step": 39545
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4688889980316162,
      "learning_rate": 0.0003575407246156983,
      "loss": 1.587,
      "step": 39546
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4553910791873932,
      "learning_rate": 0.00035753046652287643,
      "loss": 1.6858,
      "step": 39547
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44333451986312866,
      "learning_rate": 0.00035752020836022106,
      "loss": 1.7104,
      "step": 39548
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4278094470500946,
      "learning_rate": 0.0003575099501277446,
      "loss": 1.5971,
      "step": 39549
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43727800250053406,
      "learning_rate": 0.0003574996918254596,
      "loss": 1.6401,
      "step": 39550
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44069865345954895,
      "learning_rate": 0.0003574894334533783,
      "loss": 1.6426,
      "step": 39551
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4352595806121826,
      "learning_rate": 0.00035747917501151343,
      "loss": 1.529,
      "step": 39552
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4505743980407715,
      "learning_rate": 0.0003574689164998773,
      "loss": 1.5982,
      "step": 39553
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45556214451789856,
      "learning_rate": 0.00035745865791848234,
      "loss": 1.6283,
      "step": 39554
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4408116042613983,
      "learning_rate": 0.000357448399267341,
      "loss": 1.7008,
      "step": 39555
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4613719880580902,
      "learning_rate": 0.0003574381405464658,
      "loss": 1.5788,
      "step": 39556
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4407406449317932,
      "learning_rate": 0.0003574278817558692,
      "loss": 1.6414,
      "step": 39557
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45312032103538513,
      "learning_rate": 0.0003574176228955636,
      "loss": 1.563,
      "step": 39558
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4377678632736206,
      "learning_rate": 0.0003574073639655614,
      "loss": 1.6997,
      "step": 39559
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4700448215007782,
      "learning_rate": 0.0003573971049658752,
      "loss": 1.6427,
      "step": 39560
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4436658024787903,
      "learning_rate": 0.00035738684589651734,
      "loss": 1.6197,
      "step": 39561
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47162333130836487,
      "learning_rate": 0.0003573765867575003,
      "loss": 1.6268,
      "step": 39562
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4626012146472931,
      "learning_rate": 0.0003573663275488366,
      "loss": 1.6608,
      "step": 39563
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45468422770500183,
      "learning_rate": 0.00035735606827053855,
      "loss": 1.6484,
      "step": 39564
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.453510046005249,
      "learning_rate": 0.0003573458089226187,
      "loss": 1.6305,
      "step": 39565
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45494672656059265,
      "learning_rate": 0.00035733554950508945,
      "loss": 1.6891,
      "step": 39566
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43632882833480835,
      "learning_rate": 0.00035732529001796334,
      "loss": 1.6184,
      "step": 39567
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4501643776893616,
      "learning_rate": 0.00035731503046125285,
      "loss": 1.5881,
      "step": 39568
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46482253074645996,
      "learning_rate": 0.0003573047708349702,
      "loss": 1.5684,
      "step": 39569
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45430731773376465,
      "learning_rate": 0.0003572945111391281,
      "loss": 1.5712,
      "step": 39570
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44336315989494324,
      "learning_rate": 0.0003572842513737389,
      "loss": 1.6367,
      "step": 39571
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4790093004703522,
      "learning_rate": 0.00035727399153881505,
      "loss": 1.6245,
      "step": 39572
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46664711833000183,
      "learning_rate": 0.00035726373163436905,
      "loss": 1.6504,
      "step": 39573
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45830902457237244,
      "learning_rate": 0.00035725347166041323,
      "loss": 1.6168,
      "step": 39574
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4442695677280426,
      "learning_rate": 0.00035724321161696016,
      "loss": 1.5948,
      "step": 39575
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44043028354644775,
      "learning_rate": 0.00035723295150402224,
      "loss": 1.6234,
      "step": 39576
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4435049891471863,
      "learning_rate": 0.000357222691321612,
      "loss": 1.6715,
      "step": 39577
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44943562150001526,
      "learning_rate": 0.00035721243106974184,
      "loss": 1.6745,
      "step": 39578
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43811050057411194,
      "learning_rate": 0.00035720217074842423,
      "loss": 1.6102,
      "step": 39579
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4484945833683014,
      "learning_rate": 0.00035719191035767165,
      "loss": 1.5635,
      "step": 39580
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47296521067619324,
      "learning_rate": 0.0003571816498974964,
      "loss": 1.5562,
      "step": 39581
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43723252415657043,
      "learning_rate": 0.00035717138936791116,
      "loss": 1.5527,
      "step": 39582
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45441436767578125,
      "learning_rate": 0.00035716112876892824,
      "loss": 1.6229,
      "step": 39583
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44496721029281616,
      "learning_rate": 0.0003571508681005601,
      "loss": 1.6162,
      "step": 39584
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4430549442768097,
      "learning_rate": 0.00035714060736281926,
      "loss": 1.542,
      "step": 39585
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43668317794799805,
      "learning_rate": 0.00035713034655571814,
      "loss": 1.6095,
      "step": 39586
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45558223128318787,
      "learning_rate": 0.0003571200856792692,
      "loss": 1.5733,
      "step": 39587
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44905585050582886,
      "learning_rate": 0.0003571098247334849,
      "loss": 1.6413,
      "step": 39588
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4286631941795349,
      "learning_rate": 0.00035709956371837763,
      "loss": 1.5858,
      "step": 39589
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44038552045822144,
      "learning_rate": 0.00035708930263396,
      "loss": 1.5398,
      "step": 39590
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4369232952594757,
      "learning_rate": 0.00035707904148024426,
      "loss": 1.6692,
      "step": 39591
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4515764117240906,
      "learning_rate": 0.00035706878025724303,
      "loss": 1.6248,
      "step": 39592
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4264601171016693,
      "learning_rate": 0.0003570585189649687,
      "loss": 1.5782,
      "step": 39593
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4466642141342163,
      "learning_rate": 0.0003570482576034337,
      "loss": 1.6752,
      "step": 39594
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45033490657806396,
      "learning_rate": 0.00035703799617265065,
      "loss": 1.5953,
      "step": 39595
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45273557305336,
      "learning_rate": 0.00035702773467263175,
      "loss": 1.6061,
      "step": 39596
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4541091024875641,
      "learning_rate": 0.0003570174731033896,
      "loss": 1.6491,
      "step": 39597
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4615493714809418,
      "learning_rate": 0.00035700721146493677,
      "loss": 1.6457,
      "step": 39598
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4446590840816498,
      "learning_rate": 0.00035699694975728535,
      "loss": 1.5789,
      "step": 39599
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45137929916381836,
      "learning_rate": 0.0003569866879804482,
      "loss": 1.6296,
      "step": 39600
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4571106731891632,
      "learning_rate": 0.00035697642613443753,
      "loss": 1.6791,
      "step": 39601
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4508032202720642,
      "learning_rate": 0.0003569661642192659,
      "loss": 1.6615,
      "step": 39602
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4642449915409088,
      "learning_rate": 0.00035695590223494577,
      "loss": 1.6774,
      "step": 39603
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4659191071987152,
      "learning_rate": 0.00035694564018148953,
      "loss": 1.5788,
      "step": 39604
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46199026703834534,
      "learning_rate": 0.00035693537805890976,
      "loss": 1.6596,
      "step": 39605
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46727684140205383,
      "learning_rate": 0.00035692511586721867,
      "loss": 1.6039,
      "step": 39606
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4411259591579437,
      "learning_rate": 0.000356914853606429,
      "loss": 1.6426,
      "step": 39607
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44475269317626953,
      "learning_rate": 0.00035690459127655307,
      "loss": 1.5961,
      "step": 39608
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4438422620296478,
      "learning_rate": 0.00035689432887760333,
      "loss": 1.6408,
      "step": 39609
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4496912658214569,
      "learning_rate": 0.0003568840664095922,
      "loss": 1.6387,
      "step": 39610
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4520168900489807,
      "learning_rate": 0.00035687380387253224,
      "loss": 1.6805,
      "step": 39611
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4399264454841614,
      "learning_rate": 0.00035686354126643593,
      "loss": 1.6043,
      "step": 39612
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45611587166786194,
      "learning_rate": 0.0003568532785913156,
      "loss": 1.5722,
      "step": 39613
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44698798656463623,
      "learning_rate": 0.0003568430158471838,
      "loss": 1.5851,
      "step": 39614
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4431854486465454,
      "learning_rate": 0.0003568327530340529,
      "loss": 1.6138,
      "step": 39615
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45818305015563965,
      "learning_rate": 0.00035682249015193544,
      "loss": 1.5989,
      "step": 39616
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4420216977596283,
      "learning_rate": 0.0003568122272008438,
      "loss": 1.5847,
      "step": 39617
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44622865319252014,
      "learning_rate": 0.0003568019641807906,
      "loss": 1.6117,
      "step": 39618
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4398273527622223,
      "learning_rate": 0.00035679170109178816,
      "loss": 1.5256,
      "step": 39619
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46151694655418396,
      "learning_rate": 0.0003567814379338488,
      "loss": 1.6473,
      "step": 39620
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4658069610595703,
      "learning_rate": 0.00035677117470698535,
      "loss": 1.5761,
      "step": 39621
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4624154567718506,
      "learning_rate": 0.0003567609114112099,
      "loss": 1.6802,
      "step": 39622
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4620322585105896,
      "learning_rate": 0.0003567506480465352,
      "loss": 1.6831,
      "step": 39623
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4563806354999542,
      "learning_rate": 0.00035674038461297344,
      "loss": 1.6508,
      "step": 39624
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44716933369636536,
      "learning_rate": 0.0003567301211105373,
      "loss": 1.5523,
      "step": 39625
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43841397762298584,
      "learning_rate": 0.0003567198575392392,
      "loss": 1.6287,
      "step": 39626
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45930173993110657,
      "learning_rate": 0.0003567095938990914,
      "loss": 1.5847,
      "step": 39627
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4428474009037018,
      "learning_rate": 0.00035669933019010663,
      "loss": 1.6438,
      "step": 39628
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.48120513558387756,
      "learning_rate": 0.0003566890664122972,
      "loss": 1.6919,
      "step": 39629
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4443744719028473,
      "learning_rate": 0.0003566788025656756,
      "loss": 1.5847,
      "step": 39630
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4580019414424896,
      "learning_rate": 0.00035666853865025426,
      "loss": 1.6218,
      "step": 39631
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45635986328125,
      "learning_rate": 0.0003566582746660457,
      "loss": 1.6505,
      "step": 39632
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4524616599082947,
      "learning_rate": 0.00035664801061306234,
      "loss": 1.5318,
      "step": 39633
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44979560375213623,
      "learning_rate": 0.0003566377464913166,
      "loss": 1.6516,
      "step": 39634
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43752554059028625,
      "learning_rate": 0.00035662748230082107,
      "loss": 1.6443,
      "step": 39635
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47058746218681335,
      "learning_rate": 0.000356617218041588,
      "loss": 1.6761,
      "step": 39636
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4459723234176636,
      "learning_rate": 0.00035660695371363,
      "loss": 1.6098,
      "step": 39637
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4635644257068634,
      "learning_rate": 0.0003565966893169595,
      "loss": 1.6407,
      "step": 39638
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4562697410583496,
      "learning_rate": 0.000356586424851589,
      "loss": 1.5619,
      "step": 39639
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4545362591743469,
      "learning_rate": 0.0003565761603175309,
      "loss": 1.569,
      "step": 39640
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4435276985168457,
      "learning_rate": 0.0003565658957147976,
      "loss": 1.6401,
      "step": 39641
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4498799741268158,
      "learning_rate": 0.0003565556310434018,
      "loss": 1.6192,
      "step": 39642
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45720475912094116,
      "learning_rate": 0.0003565453663033557,
      "loss": 1.6681,
      "step": 39643
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4705717861652374,
      "learning_rate": 0.0003565351014946718,
      "loss": 1.593,
      "step": 39644
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4525522291660309,
      "learning_rate": 0.0003565248366173627,
      "loss": 1.6492,
      "step": 39645
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44731321930885315,
      "learning_rate": 0.0003565145716714408,
      "loss": 1.6801,
      "step": 39646
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.467550665140152,
      "learning_rate": 0.0003565043066569185,
      "loss": 1.5777,
      "step": 39647
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4776761829853058,
      "learning_rate": 0.00035649404157380826,
      "loss": 1.6625,
      "step": 39648
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4672752320766449,
      "learning_rate": 0.0003564837764221226,
      "loss": 1.5783,
      "step": 39649
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.42623260617256165,
      "learning_rate": 0.000356473511201874,
      "loss": 1.5916,
      "step": 39650
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44636768102645874,
      "learning_rate": 0.00035646324591307485,
      "loss": 1.6249,
      "step": 39651
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43961235880851746,
      "learning_rate": 0.0003564529805557376,
      "loss": 1.6598,
      "step": 39652
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4515990614891052,
      "learning_rate": 0.0003564427151298748,
      "loss": 1.6202,
      "step": 39653
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4584202766418457,
      "learning_rate": 0.00035643244963549887,
      "loss": 1.6579,
      "step": 39654
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4683922529220581,
      "learning_rate": 0.0003564221840726223,
      "loss": 1.719,
      "step": 39655
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45456498861312866,
      "learning_rate": 0.00035641191844125735,
      "loss": 1.5922,
      "step": 39656
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4412861168384552,
      "learning_rate": 0.0003564016527414168,
      "loss": 1.6054,
      "step": 39657
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4492507874965668,
      "learning_rate": 0.0003563913869731129,
      "loss": 1.6489,
      "step": 39658
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4441123902797699,
      "learning_rate": 0.0003563811211363582,
      "loss": 1.5696,
      "step": 39659
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4632995128631592,
      "learning_rate": 0.00035637085523116513,
      "loss": 1.6243,
      "step": 39660
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4545230567455292,
      "learning_rate": 0.000356360589257546,
      "loss": 1.631,
      "step": 39661
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4596666693687439,
      "learning_rate": 0.00035635032321551356,
      "loss": 1.6665,
      "step": 39662
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46168550848960876,
      "learning_rate": 0.00035634005710508,
      "loss": 1.6016,
      "step": 39663
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4455265402793884,
      "learning_rate": 0.0003563297909262581,
      "loss": 1.584,
      "step": 39664
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4369959533214569,
      "learning_rate": 0.00035631952467906003,
      "loss": 1.5785,
      "step": 39665
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47007954120635986,
      "learning_rate": 0.00035630925836349837,
      "loss": 1.5938,
      "step": 39666
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4547283947467804,
      "learning_rate": 0.00035629899197958556,
      "loss": 1.6124,
      "step": 39667
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4423229396343231,
      "learning_rate": 0.000356288725527334,
      "loss": 1.6531,
      "step": 39668
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4521935284137726,
      "learning_rate": 0.00035627845900675634,
      "loss": 1.5997,
      "step": 39669
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44840341806411743,
      "learning_rate": 0.0003562681924178649,
      "loss": 1.6718,
      "step": 39670
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44352683424949646,
      "learning_rate": 0.00035625792576067213,
      "loss": 1.6145,
      "step": 39671
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.42762768268585205,
      "learning_rate": 0.0003562476590351905,
      "loss": 1.5912,
      "step": 39672
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4610960781574249,
      "learning_rate": 0.00035623739224143256,
      "loss": 1.6702,
      "step": 39673
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4632674753665924,
      "learning_rate": 0.0003562271253794107,
      "loss": 1.6428,
      "step": 39674
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4524615705013275,
      "learning_rate": 0.00035621685844913737,
      "loss": 1.6644,
      "step": 39675
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43989670276641846,
      "learning_rate": 0.0003562065914506251,
      "loss": 1.5766,
      "step": 39676
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4421689808368683,
      "learning_rate": 0.0003561963243838863,
      "loss": 1.5806,
      "step": 39677
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44821497797966003,
      "learning_rate": 0.0003561860572489334,
      "loss": 1.5936,
      "step": 39678
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45761343836784363,
      "learning_rate": 0.00035617579004577893,
      "loss": 1.6286,
      "step": 39679
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44455111026763916,
      "learning_rate": 0.00035616552277443537,
      "loss": 1.6444,
      "step": 39680
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44135886430740356,
      "learning_rate": 0.0003561552554349151,
      "loss": 1.5862,
      "step": 39681
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44516751170158386,
      "learning_rate": 0.0003561449880272306,
      "loss": 1.6642,
      "step": 39682
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43449726700782776,
      "learning_rate": 0.00035613472055139435,
      "loss": 1.572,
      "step": 39683
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4474649429321289,
      "learning_rate": 0.00035612445300741883,
      "loss": 1.6952,
      "step": 39684
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4408511221408844,
      "learning_rate": 0.0003561141853953166,
      "loss": 1.579,
      "step": 39685
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4570721387863159,
      "learning_rate": 0.00035610391771509985,
      "loss": 1.5907,
      "step": 39686
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47038522362709045,
      "learning_rate": 0.00035609364996678133,
      "loss": 1.5561,
      "step": 39687
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45460158586502075,
      "learning_rate": 0.00035608338215037334,
      "loss": 1.623,
      "step": 39688
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46732592582702637,
      "learning_rate": 0.00035607311426588835,
      "loss": 1.713,
      "step": 39689
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44121673703193665,
      "learning_rate": 0.000356062846313339,
      "loss": 1.5635,
      "step": 39690
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45779508352279663,
      "learning_rate": 0.0003560525782927374,
      "loss": 1.6176,
      "step": 39691
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46007922291755676,
      "learning_rate": 0.0003560423102040964,
      "loss": 1.624,
      "step": 39692
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44677284359931946,
      "learning_rate": 0.0003560320420474282,
      "loss": 1.572,
      "step": 39693
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4602024257183075,
      "learning_rate": 0.0003560217738227454,
      "loss": 1.6455,
      "step": 39694
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45912498235702515,
      "learning_rate": 0.00035601150553006046,
      "loss": 1.6393,
      "step": 39695
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46155646443367004,
      "learning_rate": 0.00035600123716938574,
      "loss": 1.6215,
      "step": 39696
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45622265338897705,
      "learning_rate": 0.00035599096874073383,
      "loss": 1.6032,
      "step": 39697
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4473268687725067,
      "learning_rate": 0.000355980700244117,
      "loss": 1.6548,
      "step": 39698
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.6753783226013184,
      "learning_rate": 0.00035597043167954806,
      "loss": 1.6927,
      "step": 39699
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4403378963470459,
      "learning_rate": 0.00035596016304703914,
      "loss": 1.6572,
      "step": 39700
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45027679204940796,
      "learning_rate": 0.0003559498943466028,
      "loss": 1.6048,
      "step": 39701
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.460470587015152,
      "learning_rate": 0.0003559396255782515,
      "loss": 1.5535,
      "step": 39702
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.442661315202713,
      "learning_rate": 0.00035592935674199787,
      "loss": 1.6181,
      "step": 39703
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43395310640335083,
      "learning_rate": 0.00035591908783785413,
      "loss": 1.5992,
      "step": 39704
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4545094668865204,
      "learning_rate": 0.000355908818865833,
      "loss": 1.5903,
      "step": 39705
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.453653484582901,
      "learning_rate": 0.0003558985498259467,
      "loss": 1.645,
      "step": 39706
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4362120032310486,
      "learning_rate": 0.00035588828071820774,
      "loss": 1.5567,
      "step": 39707
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44822749495506287,
      "learning_rate": 0.00035587801154262873,
      "loss": 1.6224,
      "step": 39708
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46604159474372864,
      "learning_rate": 0.00035586774229922204,
      "loss": 1.6256,
      "step": 39709
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4485359787940979,
      "learning_rate": 0.00035585747298800017,
      "loss": 1.6281,
      "step": 39710
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45015403628349304,
      "learning_rate": 0.0003558472036089754,
      "loss": 1.6008,
      "step": 39711
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.468891978263855,
      "learning_rate": 0.0003558369341621605,
      "loss": 1.6099,
      "step": 39712
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46194493770599365,
      "learning_rate": 0.0003558266646475678,
      "loss": 1.6116,
      "step": 39713
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4642597436904907,
      "learning_rate": 0.00035581639506520967,
      "loss": 1.6009,
      "step": 39714
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4546840488910675,
      "learning_rate": 0.0003558061254150987,
      "loss": 1.5683,
      "step": 39715
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45710495114326477,
      "learning_rate": 0.0003557958556972472,
      "loss": 1.6159,
      "step": 39716
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45802295207977295,
      "learning_rate": 0.000355785585911668,
      "loss": 1.6146,
      "step": 39717
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44533082842826843,
      "learning_rate": 0.0003557753160583731,
      "loss": 1.6343,
      "step": 39718
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4644027650356293,
      "learning_rate": 0.0003557650461373753,
      "loss": 1.5882,
      "step": 39719
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4485236704349518,
      "learning_rate": 0.000355754776148687,
      "loss": 1.6225,
      "step": 39720
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4510093629360199,
      "learning_rate": 0.0003557445060923204,
      "loss": 1.646,
      "step": 39721
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4563952088356018,
      "learning_rate": 0.00035573423596828844,
      "loss": 1.6212,
      "step": 39722
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4604908525943756,
      "learning_rate": 0.0003557239657766031,
      "loss": 1.6499,
      "step": 39723
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44920748472213745,
      "learning_rate": 0.0003557136955172773,
      "loss": 1.6067,
      "step": 39724
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4576607644557953,
      "learning_rate": 0.00035570342519032313,
      "loss": 1.5992,
      "step": 39725
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4572983384132385,
      "learning_rate": 0.0003556931547957533,
      "loss": 1.6325,
      "step": 39726
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4468440115451813,
      "learning_rate": 0.00035568288433358007,
      "loss": 1.5609,
      "step": 39727
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46512988209724426,
      "learning_rate": 0.00035567261380381606,
      "loss": 1.6156,
      "step": 39728
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4652830958366394,
      "learning_rate": 0.00035566234320647384,
      "loss": 1.6376,
      "step": 39729
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4465405344963074,
      "learning_rate": 0.0003556520725415656,
      "loss": 1.6474,
      "step": 39730
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44745802879333496,
      "learning_rate": 0.0003556418018091039,
      "loss": 1.5652,
      "step": 39731
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47514045238494873,
      "learning_rate": 0.00035563153100910135,
      "loss": 1.6748,
      "step": 39732
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45890071988105774,
      "learning_rate": 0.00035562126014157026,
      "loss": 1.5985,
      "step": 39733
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4583466649055481,
      "learning_rate": 0.00035561098920652314,
      "loss": 1.6226,
      "step": 39734
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44731077551841736,
      "learning_rate": 0.0003556007182039726,
      "loss": 1.6903,
      "step": 39735
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.7939040660858154,
      "learning_rate": 0.0003555904471339309,
      "loss": 1.6441,
      "step": 39736
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45053738355636597,
      "learning_rate": 0.00035558017599641057,
      "loss": 1.578,
      "step": 39737
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4465997517108917,
      "learning_rate": 0.0003555699047914241,
      "loss": 1.583,
      "step": 39738
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4630364179611206,
      "learning_rate": 0.00035555963351898394,
      "loss": 1.5453,
      "step": 39739
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45963743329048157,
      "learning_rate": 0.0003555493621791026,
      "loss": 1.6144,
      "step": 39740
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4454374313354492,
      "learning_rate": 0.00035553909077179247,
      "loss": 1.6075,
      "step": 39741
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.444448322057724,
      "learning_rate": 0.00035552881929706615,
      "loss": 1.5993,
      "step": 39742
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43880143761634827,
      "learning_rate": 0.00035551854775493595,
      "loss": 1.6419,
      "step": 39743
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46110230684280396,
      "learning_rate": 0.0003555082761454145,
      "loss": 1.7462,
      "step": 39744
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4588369131088257,
      "learning_rate": 0.0003554980044685142,
      "loss": 1.5969,
      "step": 39745
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46236762404441833,
      "learning_rate": 0.0003554877327242473,
      "loss": 1.6447,
      "step": 39746
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4447188377380371,
      "learning_rate": 0.0003554774609126267,
      "loss": 1.6864,
      "step": 39747
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4483581781387329,
      "learning_rate": 0.0003554671890336644,
      "loss": 1.5831,
      "step": 39748
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43584322929382324,
      "learning_rate": 0.00035545691708737336,
      "loss": 1.6067,
      "step": 39749
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4501791298389435,
      "learning_rate": 0.00035544664507376566,
      "loss": 1.6535,
      "step": 39750
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4278278946876526,
      "learning_rate": 0.0003554363729928539,
      "loss": 1.5559,
      "step": 39751
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46561917662620544,
      "learning_rate": 0.0003554261008446506,
      "loss": 1.6122,
      "step": 39752
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4786168038845062,
      "learning_rate": 0.0003554158286291681,
      "loss": 1.6519,
      "step": 39753
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.48179659247398376,
      "learning_rate": 0.000355405556346419,
      "loss": 1.671,
      "step": 39754
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43982550501823425,
      "learning_rate": 0.0003553952839964157,
      "loss": 1.6016,
      "step": 39755
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.460425466299057,
      "learning_rate": 0.00035538501157917073,
      "loss": 1.587,
      "step": 39756
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4595080018043518,
      "learning_rate": 0.00035537473909469646,
      "loss": 1.5986,
      "step": 39757
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44806286692619324,
      "learning_rate": 0.00035536446654300545,
      "loss": 1.5542,
      "step": 39758
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45864468812942505,
      "learning_rate": 0.0003553541939241101,
      "loss": 1.6873,
      "step": 39759
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46668311953544617,
      "learning_rate": 0.000355343921238023,
      "loss": 1.6115,
      "step": 39760
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46247807145118713,
      "learning_rate": 0.0003553336484847565,
      "loss": 1.5734,
      "step": 39761
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45796942710876465,
      "learning_rate": 0.00035532337566432305,
      "loss": 1.6002,
      "step": 39762
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4429978132247925,
      "learning_rate": 0.0003553131027767352,
      "loss": 1.679,
      "step": 39763
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45630061626434326,
      "learning_rate": 0.0003553028298220054,
      "loss": 1.5606,
      "step": 39764
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4415009617805481,
      "learning_rate": 0.0003552925568001461,
      "loss": 1.5806,
      "step": 39765
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43796151876449585,
      "learning_rate": 0.0003552822837111698,
      "loss": 1.5525,
      "step": 39766
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46427121758461,
      "learning_rate": 0.00035527201055508904,
      "loss": 1.6822,
      "step": 39767
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44709402322769165,
      "learning_rate": 0.00035526173733191606,
      "loss": 1.598,
      "step": 39768
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44420939683914185,
      "learning_rate": 0.0003552514640416635,
      "loss": 1.6543,
      "step": 39769
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4438811242580414,
      "learning_rate": 0.0003552411906843438,
      "loss": 1.5505,
      "step": 39770
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4465142786502838,
      "learning_rate": 0.00035523091725996953,
      "loss": 1.6577,
      "step": 39771
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47327834367752075,
      "learning_rate": 0.000355220643768553,
      "loss": 1.5896,
      "step": 39772
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45035356283187866,
      "learning_rate": 0.00035521037021010667,
      "loss": 1.6928,
      "step": 39773
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44286438822746277,
      "learning_rate": 0.00035520009658464324,
      "loss": 1.6219,
      "step": 39774
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4501640796661377,
      "learning_rate": 0.00035518982289217487,
      "loss": 1.6585,
      "step": 39775
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4662647545337677,
      "learning_rate": 0.0003551795491327143,
      "loss": 1.6318,
      "step": 39776
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.48081880807876587,
      "learning_rate": 0.00035516927530627394,
      "loss": 1.5836,
      "step": 39777
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4453454613685608,
      "learning_rate": 0.000355159001412866,
      "loss": 1.6375,
      "step": 39778
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4597357213497162,
      "learning_rate": 0.0003551487274525033,
      "loss": 1.548,
      "step": 39779
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4520573914051056,
      "learning_rate": 0.00035513845342519806,
      "loss": 1.663,
      "step": 39780
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4559028148651123,
      "learning_rate": 0.000355128179330963,
      "loss": 1.6159,
      "step": 39781
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.466810405254364,
      "learning_rate": 0.0003551179051698104,
      "loss": 1.6313,
      "step": 39782
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44311726093292236,
      "learning_rate": 0.0003551076309417528,
      "loss": 1.632,
      "step": 39783
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4629543423652649,
      "learning_rate": 0.0003550973566468027,
      "loss": 1.548,
      "step": 39784
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4495379626750946,
      "learning_rate": 0.00035508708228497237,
      "loss": 1.6902,
      "step": 39785
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.453623503446579,
      "learning_rate": 0.0003550768078562746,
      "loss": 1.543,
      "step": 39786
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4672212600708008,
      "learning_rate": 0.00035506653336072166,
      "loss": 1.6714,
      "step": 39787
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4713541567325592,
      "learning_rate": 0.00035505625879832606,
      "loss": 1.7269,
      "step": 39788
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46296802163124084,
      "learning_rate": 0.00035504598416910023,
      "loss": 1.6903,
      "step": 39789
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4574366807937622,
      "learning_rate": 0.0003550357094730567,
      "loss": 1.5853,
      "step": 39790
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44808492064476013,
      "learning_rate": 0.00035502543471020796,
      "loss": 1.5907,
      "step": 39791
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46182364225387573,
      "learning_rate": 0.00035501515988056644,
      "loss": 1.6918,
      "step": 39792
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44518840312957764,
      "learning_rate": 0.0003550048849841446,
      "loss": 1.6214,
      "step": 39793
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4417167007923126,
      "learning_rate": 0.00035499461002095494,
      "loss": 1.6261,
      "step": 39794
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4752372205257416,
      "learning_rate": 0.00035498433499100995,
      "loss": 1.6395,
      "step": 39795
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4546094834804535,
      "learning_rate": 0.000354974059894322,
      "loss": 1.6953,
      "step": 39796
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47041842341423035,
      "learning_rate": 0.00035496378473090376,
      "loss": 1.6491,
      "step": 39797
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.43981754779815674,
      "learning_rate": 0.0003549535095007675,
      "loss": 1.6128,
      "step": 39798
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.433451384305954,
      "learning_rate": 0.00035494323420392576,
      "loss": 1.555,
      "step": 39799
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45314034819602966,
      "learning_rate": 0.00035493295884039106,
      "loss": 1.6674,
      "step": 39800
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4583701193332672,
      "learning_rate": 0.0003549226834101759,
      "loss": 1.5508,
      "step": 39801
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4475022852420807,
      "learning_rate": 0.0003549124079132927,
      "loss": 1.6141,
      "step": 39802
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4603254199028015,
      "learning_rate": 0.00035490213234975375,
      "loss": 1.6427,
      "step": 39803
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4556410014629364,
      "learning_rate": 0.00035489185671957194,
      "loss": 1.5953,
      "step": 39804
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4660908579826355,
      "learning_rate": 0.00035488158102275934,
      "loss": 1.6323,
      "step": 39805
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44111308455467224,
      "learning_rate": 0.00035487130525932865,
      "loss": 1.6372,
      "step": 39806
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44135674834251404,
      "learning_rate": 0.0003548610294292923,
      "loss": 1.6169,
      "step": 39807
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4442506432533264,
      "learning_rate": 0.0003548507535326627,
      "loss": 1.6053,
      "step": 39808
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4327006936073303,
      "learning_rate": 0.0003548404775694524,
      "loss": 1.5235,
      "step": 39809
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4547756016254425,
      "learning_rate": 0.0003548302015396737,
      "loss": 1.6757,
      "step": 39810
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4614733159542084,
      "learning_rate": 0.0003548199254433394,
      "loss": 1.6184,
      "step": 39811
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4677564799785614,
      "learning_rate": 0.00035480964928046174,
      "loss": 1.6898,
      "step": 39812
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.467085063457489,
      "learning_rate": 0.00035479937305105315,
      "loss": 1.6564,
      "step": 39813
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.44684451818466187,
      "learning_rate": 0.00035478909675512637,
      "loss": 1.6373,
      "step": 39814
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.434840589761734,
      "learning_rate": 0.0003547788203926935,
      "loss": 1.5163,
      "step": 39815
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.45455047488212585,
      "learning_rate": 0.0003547685439637674,
      "loss": 1.6686,
      "step": 39816
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.464167982339859,
      "learning_rate": 0.0003547582674683602,
      "loss": 1.6661,
      "step": 39817
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4588237404823303,
      "learning_rate": 0.00035474799090648467,
      "loss": 1.6042,
      "step": 39818
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4428974390029907,
      "learning_rate": 0.000354737714278153,
      "loss": 1.6217,
      "step": 39819
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4604375660419464,
      "learning_rate": 0.0003547274375833779,
      "loss": 1.632,
      "step": 39820
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4499720633029938,
      "learning_rate": 0.00035471716082217177,
      "loss": 1.6222,
      "step": 39821
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.46933498978614807,
      "learning_rate": 0.0003547068839945471,
      "loss": 1.5928,
      "step": 39822
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4395604729652405,
      "learning_rate": 0.00035469660710051623,
      "loss": 1.6236,
      "step": 39823
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4454313814640045,
      "learning_rate": 0.0003546863301400918,
      "loss": 1.6063,
      "step": 39824
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.47101545333862305,
      "learning_rate": 0.0003546760531132861,
      "loss": 1.6196,
      "step": 39825
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45379766821861267,
      "learning_rate": 0.0003546657760201119,
      "loss": 1.6038,
      "step": 39826
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46278348565101624,
      "learning_rate": 0.0003546554988605815,
      "loss": 1.5997,
      "step": 39827
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4604085683822632,
      "learning_rate": 0.0003546452216347072,
      "loss": 1.6796,
      "step": 39828
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4648733139038086,
      "learning_rate": 0.0003546349443425018,
      "loss": 1.64,
      "step": 39829
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45648428797721863,
      "learning_rate": 0.00035462466698397765,
      "loss": 1.6178,
      "step": 39830
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4460558593273163,
      "learning_rate": 0.00035461438955914704,
      "loss": 1.6278,
      "step": 39831
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45306000113487244,
      "learning_rate": 0.00035460411206802284,
      "loss": 1.6956,
      "step": 39832
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4468068480491638,
      "learning_rate": 0.0003545938345106171,
      "loss": 1.6422,
      "step": 39833
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46718358993530273,
      "learning_rate": 0.00035458355688694254,
      "loss": 1.6018,
      "step": 39834
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4569968283176422,
      "learning_rate": 0.00035457327919701155,
      "loss": 1.5755,
      "step": 39835
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4585399329662323,
      "learning_rate": 0.0003545630014408368,
      "loss": 1.6019,
      "step": 39836
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.43893563747406006,
      "learning_rate": 0.0003545527236184304,
      "loss": 1.6605,
      "step": 39837
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4519595801830292,
      "learning_rate": 0.0003545424457298052,
      "loss": 1.6138,
      "step": 39838
    },
    {
      "epoch": 1.33,
      "grad_norm": 1.6508853435516357,
      "learning_rate": 0.0003545321677749734,
      "loss": 1.6504,
      "step": 39839
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.6052629947662354,
      "learning_rate": 0.00035452188975394755,
      "loss": 1.6046,
      "step": 39840
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45785224437713623,
      "learning_rate": 0.00035451161166674027,
      "loss": 1.6223,
      "step": 39841
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4427511394023895,
      "learning_rate": 0.0003545013335133639,
      "loss": 1.598,
      "step": 39842
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4509133994579315,
      "learning_rate": 0.0003544910552938309,
      "loss": 1.6563,
      "step": 39843
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44836291670799255,
      "learning_rate": 0.0003544807770081538,
      "loss": 1.6034,
      "step": 39844
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4489555358886719,
      "learning_rate": 0.00035447049865634507,
      "loss": 1.5088,
      "step": 39845
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.432356059551239,
      "learning_rate": 0.00035446022023841726,
      "loss": 1.6554,
      "step": 39846
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4688105285167694,
      "learning_rate": 0.00035444994175438266,
      "loss": 1.6025,
      "step": 39847
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.43519508838653564,
      "learning_rate": 0.0003544396632042539,
      "loss": 1.6626,
      "step": 39848
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44357773661613464,
      "learning_rate": 0.0003544293845880434,
      "loss": 1.6283,
      "step": 39849
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4765606224536896,
      "learning_rate": 0.00035441910590576357,
      "loss": 1.7183,
      "step": 39850
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47778448462486267,
      "learning_rate": 0.00035440882715742704,
      "loss": 1.7199,
      "step": 39851
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44323045015335083,
      "learning_rate": 0.0003543985483430463,
      "loss": 1.6662,
      "step": 39852
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4492156505584717,
      "learning_rate": 0.00035438826946263365,
      "loss": 1.5699,
      "step": 39853
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4485703408718109,
      "learning_rate": 0.0003543779905162016,
      "loss": 1.6098,
      "step": 39854
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44179803133010864,
      "learning_rate": 0.0003543677115037627,
      "loss": 1.6616,
      "step": 39855
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44740548729896545,
      "learning_rate": 0.00035435743242532945,
      "loss": 1.5523,
      "step": 39856
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4503766596317291,
      "learning_rate": 0.0003543471532809143,
      "loss": 1.6506,
      "step": 39857
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4437881410121918,
      "learning_rate": 0.0003543368740705296,
      "loss": 1.6248,
      "step": 39858
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47627875208854675,
      "learning_rate": 0.0003543265947941881,
      "loss": 1.6299,
      "step": 39859
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45822980999946594,
      "learning_rate": 0.0003543163154519021,
      "loss": 1.6071,
      "step": 39860
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.451488733291626,
      "learning_rate": 0.000354306036043684,
      "loss": 1.6075,
      "step": 39861
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45257773995399475,
      "learning_rate": 0.0003542957565695465,
      "loss": 1.6211,
      "step": 39862
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4406469464302063,
      "learning_rate": 0.0003542854770295018,
      "loss": 1.6305,
      "step": 39863
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45230385661125183,
      "learning_rate": 0.00035427519742356267,
      "loss": 1.6647,
      "step": 39864
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4642444849014282,
      "learning_rate": 0.00035426491775174127,
      "loss": 1.591,
      "step": 39865
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44182392954826355,
      "learning_rate": 0.0003542546380140504,
      "loss": 1.5982,
      "step": 39866
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45496007800102234,
      "learning_rate": 0.00035424435821050236,
      "loss": 1.6661,
      "step": 39867
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4561948776245117,
      "learning_rate": 0.0003542340783411097,
      "loss": 1.6418,
      "step": 39868
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.456684947013855,
      "learning_rate": 0.00035422379840588484,
      "loss": 1.6348,
      "step": 39869
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44460663199424744,
      "learning_rate": 0.00035421351840484014,
      "loss": 1.6465,
      "step": 39870
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4717826843261719,
      "learning_rate": 0.00035420323833798843,
      "loss": 1.6574,
      "step": 39871
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45188823342323303,
      "learning_rate": 0.0003541929582053418,
      "loss": 1.5944,
      "step": 39872
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.466916024684906,
      "learning_rate": 0.000354182678006913,
      "loss": 1.581,
      "step": 39873
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4577946364879608,
      "learning_rate": 0.0003541723977427144,
      "loss": 1.5683,
      "step": 39874
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4932439923286438,
      "learning_rate": 0.0003541621174127585,
      "loss": 1.7132,
      "step": 39875
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46865156292915344,
      "learning_rate": 0.00035415183701705775,
      "loss": 1.6096,
      "step": 39876
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4449445903301239,
      "learning_rate": 0.0003541415565556246,
      "loss": 1.6914,
      "step": 39877
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45755982398986816,
      "learning_rate": 0.0003541312760284717,
      "loss": 1.6138,
      "step": 39878
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.48552075028419495,
      "learning_rate": 0.00035412099543561136,
      "loss": 1.597,
      "step": 39879
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47058412432670593,
      "learning_rate": 0.000354110714777056,
      "loss": 1.6868,
      "step": 39880
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4720209538936615,
      "learning_rate": 0.00035410043405281836,
      "loss": 1.6509,
      "step": 39881
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4600982069969177,
      "learning_rate": 0.00035409015326291066,
      "loss": 1.726,
      "step": 39882
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4595858156681061,
      "learning_rate": 0.0003540798724073455,
      "loss": 1.6267,
      "step": 39883
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4811030924320221,
      "learning_rate": 0.0003540695914861354,
      "loss": 1.6193,
      "step": 39884
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45981863141059875,
      "learning_rate": 0.0003540593104992928,
      "loss": 1.6579,
      "step": 39885
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45528820157051086,
      "learning_rate": 0.00035404902944683006,
      "loss": 1.6949,
      "step": 39886
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4341060519218445,
      "learning_rate": 0.00035403874832875973,
      "loss": 1.641,
      "step": 39887
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4390234053134918,
      "learning_rate": 0.0003540284671450944,
      "loss": 1.5825,
      "step": 39888
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4717657268047333,
      "learning_rate": 0.00035401818589584657,
      "loss": 1.6217,
      "step": 39889
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45821890234947205,
      "learning_rate": 0.0003540079045810284,
      "loss": 1.6498,
      "step": 39890
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46259984374046326,
      "learning_rate": 0.0003539976232006528,
      "loss": 1.6064,
      "step": 39891
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46197405457496643,
      "learning_rate": 0.000353987341754732,
      "loss": 1.7012,
      "step": 39892
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4555569589138031,
      "learning_rate": 0.0003539770602432784,
      "loss": 1.6868,
      "step": 39893
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47189435362815857,
      "learning_rate": 0.00035396677866630477,
      "loss": 1.6166,
      "step": 39894
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4521605372428894,
      "learning_rate": 0.00035395649702382325,
      "loss": 1.6275,
      "step": 39895
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44610804319381714,
      "learning_rate": 0.0003539462153158466,
      "loss": 1.5965,
      "step": 39896
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4536955952644348,
      "learning_rate": 0.0003539359335423871,
      "loss": 1.6374,
      "step": 39897
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44726186990737915,
      "learning_rate": 0.00035392565170345747,
      "loss": 1.627,
      "step": 39898
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47704508900642395,
      "learning_rate": 0.00035391536979906995,
      "loss": 1.6679,
      "step": 39899
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.48347967863082886,
      "learning_rate": 0.00035390508782923716,
      "loss": 1.6592,
      "step": 39900
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.441183477640152,
      "learning_rate": 0.00035389480579397153,
      "loss": 1.6744,
      "step": 39901
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45709821581840515,
      "learning_rate": 0.00035388452369328546,
      "loss": 1.6198,
      "step": 39902
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4467189908027649,
      "learning_rate": 0.00035387424152719165,
      "loss": 1.5562,
      "step": 39903
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4472910463809967,
      "learning_rate": 0.00035386395929570233,
      "loss": 1.5731,
      "step": 39904
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4598085284233093,
      "learning_rate": 0.0003538536769988301,
      "loss": 1.6214,
      "step": 39905
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.446586936712265,
      "learning_rate": 0.0003538433946365875,
      "loss": 1.604,
      "step": 39906
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4566061496734619,
      "learning_rate": 0.00035383311220898696,
      "loss": 1.6883,
      "step": 39907
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46421530842781067,
      "learning_rate": 0.000353822829716041,
      "loss": 1.6066,
      "step": 39908
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4726076126098633,
      "learning_rate": 0.000353812547157762,
      "loss": 1.593,
      "step": 39909
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4719160199165344,
      "learning_rate": 0.00035380226453416244,
      "loss": 1.6496,
      "step": 39910
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4628507196903229,
      "learning_rate": 0.00035379198184525495,
      "loss": 1.6471,
      "step": 39911
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47551366686820984,
      "learning_rate": 0.0003537816990910518,
      "loss": 1.6162,
      "step": 39912
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4461446702480316,
      "learning_rate": 0.0003537714162715657,
      "loss": 1.5988,
      "step": 39913
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4547945559024811,
      "learning_rate": 0.00035376113338680905,
      "loss": 1.6417,
      "step": 39914
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4475249946117401,
      "learning_rate": 0.00035375085043679423,
      "loss": 1.6006,
      "step": 39915
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4780570864677429,
      "learning_rate": 0.0003537405674215338,
      "loss": 1.6238,
      "step": 39916
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46276476979255676,
      "learning_rate": 0.0003537302843410402,
      "loss": 1.6426,
      "step": 39917
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46628859639167786,
      "learning_rate": 0.00035372000119532603,
      "loss": 1.7235,
      "step": 39918
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4462386965751648,
      "learning_rate": 0.0003537097179844037,
      "loss": 1.5618,
      "step": 39919
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.43899276852607727,
      "learning_rate": 0.0003536994347082856,
      "loss": 1.6302,
      "step": 39920
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4473656713962555,
      "learning_rate": 0.0003536891513669844,
      "loss": 1.6348,
      "step": 39921
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4646347165107727,
      "learning_rate": 0.00035367886796051245,
      "loss": 1.6917,
      "step": 39922
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4446892738342285,
      "learning_rate": 0.0003536685844888822,
      "loss": 1.5994,
      "step": 39923
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45362740755081177,
      "learning_rate": 0.00035365830095210636,
      "loss": 1.6492,
      "step": 39924
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4700660705566406,
      "learning_rate": 0.00035364801735019704,
      "loss": 1.5677,
      "step": 39925
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4513750672340393,
      "learning_rate": 0.0003536377336831671,
      "loss": 1.6458,
      "step": 39926
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.5123371481895447,
      "learning_rate": 0.00035362744995102866,
      "loss": 1.68,
      "step": 39927
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4590328633785248,
      "learning_rate": 0.00035361716615379463,
      "loss": 1.6382,
      "step": 39928
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4446766972541809,
      "learning_rate": 0.0003536068822914771,
      "loss": 1.5735,
      "step": 39929
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44373980164527893,
      "learning_rate": 0.00035359659836408877,
      "loss": 1.6523,
      "step": 39930
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45709964632987976,
      "learning_rate": 0.0003535863143716421,
      "loss": 1.6045,
      "step": 39931
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4429316222667694,
      "learning_rate": 0.00035357603031414944,
      "loss": 1.6289,
      "step": 39932
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44288769364356995,
      "learning_rate": 0.00035356574619162343,
      "loss": 1.6868,
      "step": 39933
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4517801105976105,
      "learning_rate": 0.0003535554620040765,
      "loss": 1.6731,
      "step": 39934
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44392502307891846,
      "learning_rate": 0.00035354517775152116,
      "loss": 1.627,
      "step": 39935
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.454977422952652,
      "learning_rate": 0.0003535348934339698,
      "loss": 1.6741,
      "step": 39936
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4485708773136139,
      "learning_rate": 0.00035352460905143496,
      "loss": 1.6503,
      "step": 39937
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4483364522457123,
      "learning_rate": 0.00035351432460392916,
      "loss": 1.6484,
      "step": 39938
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.461330771446228,
      "learning_rate": 0.00035350404009146496,
      "loss": 1.5541,
      "step": 39939
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4446258246898651,
      "learning_rate": 0.0003534937555140546,
      "loss": 1.5859,
      "step": 39940
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4516929090023041,
      "learning_rate": 0.0003534834708717108,
      "loss": 1.5895,
      "step": 39941
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4601442217826843,
      "learning_rate": 0.0003534731861644458,
      "loss": 1.6162,
      "step": 39942
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4484725594520569,
      "learning_rate": 0.00035346290139227237,
      "loss": 1.5812,
      "step": 39943
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4675682783126831,
      "learning_rate": 0.00035345261655520286,
      "loss": 1.6761,
      "step": 39944
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4646626114845276,
      "learning_rate": 0.0003534423316532496,
      "loss": 1.6213,
      "step": 39945
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4524129033088684,
      "learning_rate": 0.00035343204668642544,
      "loss": 1.6577,
      "step": 39946
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4551721215248108,
      "learning_rate": 0.0003534217616547425,
      "loss": 1.698,
      "step": 39947
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4705168306827545,
      "learning_rate": 0.00035341147655821345,
      "loss": 1.6562,
      "step": 39948
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4413054287433624,
      "learning_rate": 0.0003534011913968507,
      "loss": 1.6307,
      "step": 39949
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4395173490047455,
      "learning_rate": 0.0003533909061706668,
      "loss": 1.6029,
      "step": 39950
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.43060073256492615,
      "learning_rate": 0.0003533806208796742,
      "loss": 1.627,
      "step": 39951
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4578059911727905,
      "learning_rate": 0.00035337033552388535,
      "loss": 1.6524,
      "step": 39952
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4521089792251587,
      "learning_rate": 0.00035336005010331293,
      "loss": 1.6407,
      "step": 39953
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4533368945121765,
      "learning_rate": 0.0003533497646179692,
      "loss": 1.5759,
      "step": 39954
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46996814012527466,
      "learning_rate": 0.0003533394790678666,
      "loss": 1.5608,
      "step": 39955
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4456370770931244,
      "learning_rate": 0.00035332919345301786,
      "loss": 1.5004,
      "step": 39956
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45641082525253296,
      "learning_rate": 0.00035331890777343523,
      "loss": 1.6426,
      "step": 39957
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45760512351989746,
      "learning_rate": 0.0003533086220291314,
      "loss": 1.6164,
      "step": 39958
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4663090705871582,
      "learning_rate": 0.00035329833622011874,
      "loss": 1.658,
      "step": 39959
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46539223194122314,
      "learning_rate": 0.0003532880503464097,
      "loss": 1.6056,
      "step": 39960
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4571269452571869,
      "learning_rate": 0.0003532777644080169,
      "loss": 1.6787,
      "step": 39961
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4544450044631958,
      "learning_rate": 0.0003532674784049527,
      "loss": 1.6681,
      "step": 39962
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4616890251636505,
      "learning_rate": 0.00035325719233722964,
      "loss": 1.6716,
      "step": 39963
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44639092683792114,
      "learning_rate": 0.00035324690620486016,
      "loss": 1.6165,
      "step": 39964
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4457418620586395,
      "learning_rate": 0.0003532366200078568,
      "loss": 1.638,
      "step": 39965
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4654046297073364,
      "learning_rate": 0.00035322633374623204,
      "loss": 1.6025,
      "step": 39966
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4467061460018158,
      "learning_rate": 0.0003532160474199983,
      "loss": 1.5926,
      "step": 39967
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4778138995170593,
      "learning_rate": 0.0003532057610291682,
      "loss": 1.6373,
      "step": 39968
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4534614086151123,
      "learning_rate": 0.00035319547457375415,
      "loss": 1.6456,
      "step": 39969
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4585597813129425,
      "learning_rate": 0.0003531851880537686,
      "loss": 1.6073,
      "step": 39970
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.6346908807754517,
      "learning_rate": 0.000353174901469224,
      "loss": 1.607,
      "step": 39971
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4383426904678345,
      "learning_rate": 0.000353164614820133,
      "loss": 1.5852,
      "step": 39972
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4498186409473419,
      "learning_rate": 0.00035315432810650795,
      "loss": 1.621,
      "step": 39973
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4524822235107422,
      "learning_rate": 0.0003531440413283614,
      "loss": 1.5975,
      "step": 39974
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4361630976200104,
      "learning_rate": 0.0003531337544857058,
      "loss": 1.5781,
      "step": 39975
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.443516343832016,
      "learning_rate": 0.0003531234675785537,
      "loss": 1.6783,
      "step": 39976
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44583582878112793,
      "learning_rate": 0.00035311318060691745,
      "loss": 1.5815,
      "step": 39977
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4490753710269928,
      "learning_rate": 0.0003531028935708096,
      "loss": 1.6186,
      "step": 39978
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46008092164993286,
      "learning_rate": 0.00035309260647024284,
      "loss": 1.6648,
      "step": 39979
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45593133568763733,
      "learning_rate": 0.00035308231930522924,
      "loss": 1.6905,
      "step": 39980
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44570255279541016,
      "learning_rate": 0.0003530720320757817,
      "loss": 1.5797,
      "step": 39981
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45403748750686646,
      "learning_rate": 0.0003530617447819124,
      "loss": 1.6899,
      "step": 39982
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.48500964045524597,
      "learning_rate": 0.0003530514574236341,
      "loss": 1.6397,
      "step": 39983
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4775041341781616,
      "learning_rate": 0.0003530411700009591,
      "loss": 1.5967,
      "step": 39984
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4872264564037323,
      "learning_rate": 0.00035303088251389996,
      "loss": 1.6799,
      "step": 39985
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45632806420326233,
      "learning_rate": 0.00035302059496246916,
      "loss": 1.5926,
      "step": 39986
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.464741975069046,
      "learning_rate": 0.000353010307346679,
      "loss": 1.6493,
      "step": 39987
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46991753578186035,
      "learning_rate": 0.00035300001966654234,
      "loss": 1.6033,
      "step": 39988
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4848793148994446,
      "learning_rate": 0.0003529897319220713,
      "loss": 1.6118,
      "step": 39989
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44467923045158386,
      "learning_rate": 0.00035297944411327866,
      "loss": 1.5916,
      "step": 39990
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4572519361972809,
      "learning_rate": 0.00035296915624017674,
      "loss": 1.6353,
      "step": 39991
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44501152634620667,
      "learning_rate": 0.000352958868302778,
      "loss": 1.6173,
      "step": 39992
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45659586787223816,
      "learning_rate": 0.0003529485803010951,
      "loss": 1.6021,
      "step": 39993
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4535723328590393,
      "learning_rate": 0.00035293829223514034,
      "loss": 1.5607,
      "step": 39994
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4650609493255615,
      "learning_rate": 0.0003529280041049264,
      "loss": 1.5763,
      "step": 39995
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44770050048828125,
      "learning_rate": 0.0003529177159104656,
      "loss": 1.5963,
      "step": 39996
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44327765703201294,
      "learning_rate": 0.00035290742765177046,
      "loss": 1.6377,
      "step": 39997
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46976298093795776,
      "learning_rate": 0.0003528971393288535,
      "loss": 1.6067,
      "step": 39998
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45538148283958435,
      "learning_rate": 0.00035288685094172725,
      "loss": 1.567,
      "step": 39999
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47176915407180786,
      "learning_rate": 0.0003528765624904041,
      "loss": 1.6034,
      "step": 40000
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4520963728427887,
      "learning_rate": 0.00035286627397489666,
      "loss": 1.598,
      "step": 40001
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4641239047050476,
      "learning_rate": 0.0003528559853952173,
      "loss": 1.6582,
      "step": 40002
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4751364290714264,
      "learning_rate": 0.0003528456967513786,
      "loss": 1.639,
      "step": 40003
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.48725661635398865,
      "learning_rate": 0.00035283540804339304,
      "loss": 1.6911,
      "step": 40004
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46948152780532837,
      "learning_rate": 0.00035282511927127306,
      "loss": 1.6454,
      "step": 40005
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4706957936286926,
      "learning_rate": 0.0003528148304350312,
      "loss": 1.5889,
      "step": 40006
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45312049984931946,
      "learning_rate": 0.00035280454153467975,
      "loss": 1.6176,
      "step": 40007
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4728851318359375,
      "learning_rate": 0.0003527942525702315,
      "loss": 1.663,
      "step": 40008
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44002994894981384,
      "learning_rate": 0.0003527839635416988,
      "loss": 1.6605,
      "step": 40009
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4489978849887848,
      "learning_rate": 0.00035277367444909414,
      "loss": 1.6339,
      "step": 40010
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4403422772884369,
      "learning_rate": 0.0003527633852924301,
      "loss": 1.6273,
      "step": 40011
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44013187289237976,
      "learning_rate": 0.0003527530960717189,
      "loss": 1.5729,
      "step": 40012
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4439661204814911,
      "learning_rate": 0.00035274280678697335,
      "loss": 1.6052,
      "step": 40013
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4420558214187622,
      "learning_rate": 0.00035273251743820564,
      "loss": 1.6235,
      "step": 40014
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44701749086380005,
      "learning_rate": 0.00035272222802542865,
      "loss": 1.5573,
      "step": 40015
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46808093786239624,
      "learning_rate": 0.0003527119385486545,
      "loss": 1.6563,
      "step": 40016
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4528401792049408,
      "learning_rate": 0.00035270164900789584,
      "loss": 1.6743,
      "step": 40017
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.451141893863678,
      "learning_rate": 0.00035269135940316524,
      "loss": 1.5833,
      "step": 40018
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4625121057033539,
      "learning_rate": 0.00035268106973447496,
      "loss": 1.59,
      "step": 40019
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47508907318115234,
      "learning_rate": 0.0003526707800018378,
      "loss": 1.5951,
      "step": 40020
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4556421935558319,
      "learning_rate": 0.0003526604902052659,
      "loss": 1.6876,
      "step": 40021
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44593337178230286,
      "learning_rate": 0.00035265020034477195,
      "loss": 1.672,
      "step": 40022
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4530835747718811,
      "learning_rate": 0.00035263991042036846,
      "loss": 1.6803,
      "step": 40023
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46102502942085266,
      "learning_rate": 0.00035262962043206784,
      "loss": 1.5574,
      "step": 40024
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46398434042930603,
      "learning_rate": 0.00035261933037988266,
      "loss": 1.5369,
      "step": 40025
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4455278813838959,
      "learning_rate": 0.0003526090402638253,
      "loss": 1.5934,
      "step": 40026
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4512138366699219,
      "learning_rate": 0.00035259875008390837,
      "loss": 1.604,
      "step": 40027
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4505745768547058,
      "learning_rate": 0.00035258845984014435,
      "loss": 1.5793,
      "step": 40028
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4501577317714691,
      "learning_rate": 0.00035257816953254554,
      "loss": 1.6173,
      "step": 40029
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4396117031574249,
      "learning_rate": 0.0003525678791611247,
      "loss": 1.6287,
      "step": 40030
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44954410195350647,
      "learning_rate": 0.0003525575887258942,
      "loss": 1.5837,
      "step": 40031
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4438633918762207,
      "learning_rate": 0.00035254729822686647,
      "loss": 1.6559,
      "step": 40032
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4476933777332306,
      "learning_rate": 0.00035253700766405406,
      "loss": 1.6677,
      "step": 40033
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45800939202308655,
      "learning_rate": 0.0003525267170374695,
      "loss": 1.5821,
      "step": 40034
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45052048563957214,
      "learning_rate": 0.0003525164263471253,
      "loss": 1.6406,
      "step": 40035
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45396846532821655,
      "learning_rate": 0.0003525061355930339,
      "loss": 1.5606,
      "step": 40036
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47575435042381287,
      "learning_rate": 0.0003524958447752076,
      "loss": 1.7024,
      "step": 40037
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4450497031211853,
      "learning_rate": 0.0003524855538936593,
      "loss": 1.7303,
      "step": 40038
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44468173384666443,
      "learning_rate": 0.00035247526294840116,
      "loss": 1.6818,
      "step": 40039
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4495878517627716,
      "learning_rate": 0.0003524649719394458,
      "loss": 1.5766,
      "step": 40040
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4488731920719147,
      "learning_rate": 0.00035245468086680574,
      "loss": 1.5782,
      "step": 40041
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4583683907985687,
      "learning_rate": 0.0003524443897304933,
      "loss": 1.5622,
      "step": 40042
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4664326012134552,
      "learning_rate": 0.00035243409853052125,
      "loss": 1.5677,
      "step": 40043
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4557188153266907,
      "learning_rate": 0.0003524238072669018,
      "loss": 1.666,
      "step": 40044
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4485859274864197,
      "learning_rate": 0.0003524135159396477,
      "loss": 1.6272,
      "step": 40045
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46792784333229065,
      "learning_rate": 0.00035240322454877117,
      "loss": 1.6141,
      "step": 40046
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4491274654865265,
      "learning_rate": 0.000352392933094285,
      "loss": 1.6661,
      "step": 40047
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44823580980300903,
      "learning_rate": 0.0003523826415762014,
      "loss": 1.5801,
      "step": 40048
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4505804479122162,
      "learning_rate": 0.000352372349994533,
      "loss": 1.6845,
      "step": 40049
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.520977795124054,
      "learning_rate": 0.0003523620583492924,
      "loss": 1.6336,
      "step": 40050
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4383579194545746,
      "learning_rate": 0.0003523517666404919,
      "loss": 1.5846,
      "step": 40051
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44724607467651367,
      "learning_rate": 0.0003523414748681441,
      "loss": 1.6314,
      "step": 40052
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44500163197517395,
      "learning_rate": 0.00035233118303226144,
      "loss": 1.5674,
      "step": 40053
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4533538222312927,
      "learning_rate": 0.00035232089113285635,
      "loss": 1.6931,
      "step": 40054
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46144944429397583,
      "learning_rate": 0.0003523105991699415,
      "loss": 1.6672,
      "step": 40055
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46095916628837585,
      "learning_rate": 0.00035230030714352936,
      "loss": 1.605,
      "step": 40056
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44009312987327576,
      "learning_rate": 0.0003522900150536322,
      "loss": 1.6213,
      "step": 40057
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4336357116699219,
      "learning_rate": 0.0003522797229002628,
      "loss": 1.5999,
      "step": 40058
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4435451030731201,
      "learning_rate": 0.00035226943068343336,
      "loss": 1.5232,
      "step": 40059
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4530372619628906,
      "learning_rate": 0.00035225913840315667,
      "loss": 1.6539,
      "step": 40060
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44014936685562134,
      "learning_rate": 0.0003522488460594451,
      "loss": 1.5688,
      "step": 40061
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.447223424911499,
      "learning_rate": 0.000352238553652311,
      "loss": 1.5451,
      "step": 40062
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4578106999397278,
      "learning_rate": 0.00035222826118176713,
      "loss": 1.6885,
      "step": 40063
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4601050913333893,
      "learning_rate": 0.00035221796864782573,
      "loss": 1.677,
      "step": 40064
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45916011929512024,
      "learning_rate": 0.00035220767605049943,
      "loss": 1.5936,
      "step": 40065
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44438549876213074,
      "learning_rate": 0.0003521973833898008,
      "loss": 1.6058,
      "step": 40066
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4518800973892212,
      "learning_rate": 0.0003521870906657421,
      "loss": 1.6753,
      "step": 40067
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4572010338306427,
      "learning_rate": 0.00035217679787833615,
      "loss": 1.691,
      "step": 40068
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4531519412994385,
      "learning_rate": 0.00035216650502759505,
      "loss": 1.683,
      "step": 40069
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4399048984050751,
      "learning_rate": 0.00035215621211353166,
      "loss": 1.6526,
      "step": 40070
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45518824458122253,
      "learning_rate": 0.00035214591913615824,
      "loss": 1.6847,
      "step": 40071
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45764607191085815,
      "learning_rate": 0.0003521356260954873,
      "loss": 1.6605,
      "step": 40072
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4856564402580261,
      "learning_rate": 0.00035212533299153155,
      "loss": 1.6535,
      "step": 40073
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45113256573677063,
      "learning_rate": 0.0003521150398243031,
      "loss": 1.6345,
      "step": 40074
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4444059729576111,
      "learning_rate": 0.0003521047465938149,
      "loss": 1.6556,
      "step": 40075
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44159919023513794,
      "learning_rate": 0.0003520944533000791,
      "loss": 1.6948,
      "step": 40076
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45501986145973206,
      "learning_rate": 0.00035208415994310836,
      "loss": 1.6252,
      "step": 40077
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.460084468126297,
      "learning_rate": 0.000352073866522915,
      "loss": 1.6781,
      "step": 40078
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4494517743587494,
      "learning_rate": 0.00035206357303951174,
      "loss": 1.6251,
      "step": 40079
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4554605782032013,
      "learning_rate": 0.000352053279492911,
      "loss": 1.6748,
      "step": 40080
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44333744049072266,
      "learning_rate": 0.00035204298588312525,
      "loss": 1.6969,
      "step": 40081
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46380850672721863,
      "learning_rate": 0.0003520326922101669,
      "loss": 1.6454,
      "step": 40082
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4451470673084259,
      "learning_rate": 0.00035202239847404853,
      "loss": 1.6696,
      "step": 40083
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46240511536598206,
      "learning_rate": 0.0003520121046747827,
      "loss": 1.6116,
      "step": 40084
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4647882878780365,
      "learning_rate": 0.0003520018108123818,
      "loss": 1.6088,
      "step": 40085
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45328864455223083,
      "learning_rate": 0.0003519915168868584,
      "loss": 1.6675,
      "step": 40086
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4509958326816559,
      "learning_rate": 0.0003519812228982249,
      "loss": 1.5754,
      "step": 40087
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46516990661621094,
      "learning_rate": 0.000351970928846494,
      "loss": 1.588,
      "step": 40088
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.453469842672348,
      "learning_rate": 0.0003519606347316779,
      "loss": 1.6255,
      "step": 40089
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4504159688949585,
      "learning_rate": 0.00035195034055378923,
      "loss": 1.5637,
      "step": 40090
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45570921897888184,
      "learning_rate": 0.00035194004631284063,
      "loss": 1.6808,
      "step": 40091
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.5050196051597595,
      "learning_rate": 0.0003519297520088443,
      "loss": 1.5916,
      "step": 40092
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4606533646583557,
      "learning_rate": 0.0003519194576418131,
      "loss": 1.6,
      "step": 40093
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44788554310798645,
      "learning_rate": 0.0003519091632117591,
      "loss": 1.6228,
      "step": 40094
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4588620066642761,
      "learning_rate": 0.0003518988687186952,
      "loss": 1.6524,
      "step": 40095
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4538859724998474,
      "learning_rate": 0.00035188857416263374,
      "loss": 1.6295,
      "step": 40096
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44350162148475647,
      "learning_rate": 0.00035187827954358703,
      "loss": 1.591,
      "step": 40097
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46315431594848633,
      "learning_rate": 0.00035186798486156785,
      "loss": 1.645,
      "step": 40098
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4589287340641022,
      "learning_rate": 0.0003518576901165885,
      "loss": 1.6088,
      "step": 40099
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45054492354393005,
      "learning_rate": 0.0003518473953086617,
      "loss": 1.6896,
      "step": 40100
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.441959410905838,
      "learning_rate": 0.0003518371004377997,
      "loss": 1.6096,
      "step": 40101
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45914226770401,
      "learning_rate": 0.0003518268055040151,
      "loss": 1.615,
      "step": 40102
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47588402032852173,
      "learning_rate": 0.00035181651050732047,
      "loss": 1.6877,
      "step": 40103
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.44157931208610535,
      "learning_rate": 0.0003518062154477281,
      "loss": 1.6385,
      "step": 40104
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4662107229232788,
      "learning_rate": 0.0003517959203252507,
      "loss": 1.6406,
      "step": 40105
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46589329838752747,
      "learning_rate": 0.0003517856251399007,
      "loss": 1.7008,
      "step": 40106
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.458047479391098,
      "learning_rate": 0.00035177532989169054,
      "loss": 1.6089,
      "step": 40107
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4554879069328308,
      "learning_rate": 0.0003517650345806327,
      "loss": 1.6683,
      "step": 40108
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.433925062417984,
      "learning_rate": 0.00035175473920673984,
      "loss": 1.5531,
      "step": 40109
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4902245104312897,
      "learning_rate": 0.0003517444437700243,
      "loss": 1.7342,
      "step": 40110
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45957738161087036,
      "learning_rate": 0.00035173414827049867,
      "loss": 1.6785,
      "step": 40111
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45061740279197693,
      "learning_rate": 0.00035172385270817536,
      "loss": 1.6298,
      "step": 40112
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4605962634086609,
      "learning_rate": 0.000351713557083067,
      "loss": 1.7454,
      "step": 40113
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4753374457359314,
      "learning_rate": 0.00035170326139518586,
      "loss": 1.6494,
      "step": 40114
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45352432131767273,
      "learning_rate": 0.00035169296564454465,
      "loss": 1.598,
      "step": 40115
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4536442756652832,
      "learning_rate": 0.00035168266983115584,
      "loss": 1.638,
      "step": 40116
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4581701457500458,
      "learning_rate": 0.00035167237395503185,
      "loss": 1.6072,
      "step": 40117
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.46243613958358765,
      "learning_rate": 0.0003516620780161852,
      "loss": 1.5898,
      "step": 40118
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.45949485898017883,
      "learning_rate": 0.0003516517820146284,
      "loss": 1.661,
      "step": 40119
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.464199423789978,
      "learning_rate": 0.00035164148595037394,
      "loss": 1.5467,
      "step": 40120
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4574583172798157,
      "learning_rate": 0.0003516311898234343,
      "loss": 1.6245,
      "step": 40121
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.47112777829170227,
      "learning_rate": 0.0003516208936338221,
      "loss": 1.6337,
      "step": 40122
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4430566132068634,
      "learning_rate": 0.0003516105973815497,
      "loss": 1.5589,
      "step": 40123
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4481815993785858,
      "learning_rate": 0.00035160030106662956,
      "loss": 1.6155,
      "step": 40124
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4783683121204376,
      "learning_rate": 0.00035159000468907436,
      "loss": 1.7144,
      "step": 40125
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4784886837005615,
      "learning_rate": 0.00035157970824889646,
      "loss": 1.6107,
      "step": 40126
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.48825597763061523,
      "learning_rate": 0.0003515694117461083,
      "loss": 1.578,
      "step": 40127
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4662145674228668,
      "learning_rate": 0.0003515591151807227,
      "loss": 1.597,
      "step": 40128
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47292014956474304,
      "learning_rate": 0.0003515488185527517,
      "loss": 1.6096,
      "step": 40129
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4635028541088104,
      "learning_rate": 0.0003515385218622082,
      "loss": 1.6041,
      "step": 40130
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45544034242630005,
      "learning_rate": 0.00035152822510910436,
      "loss": 1.6055,
      "step": 40131
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4714990556240082,
      "learning_rate": 0.000351517928293453,
      "loss": 1.6505,
      "step": 40132
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4796833097934723,
      "learning_rate": 0.0003515076314152664,
      "loss": 1.5828,
      "step": 40133
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.48818543553352356,
      "learning_rate": 0.00035149733447455714,
      "loss": 1.6613,
      "step": 40134
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4591360092163086,
      "learning_rate": 0.0003514870374713377,
      "loss": 1.7186,
      "step": 40135
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46375522017478943,
      "learning_rate": 0.00035147674040562053,
      "loss": 1.6614,
      "step": 40136
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47898122668266296,
      "learning_rate": 0.00035146644327741823,
      "loss": 1.6292,
      "step": 40137
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4709765315055847,
      "learning_rate": 0.00035145614608674333,
      "loss": 1.6183,
      "step": 40138
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4819576144218445,
      "learning_rate": 0.00035144584883360815,
      "loss": 1.6374,
      "step": 40139
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4599294066429138,
      "learning_rate": 0.00035143555151802524,
      "loss": 1.6241,
      "step": 40140
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4514501690864563,
      "learning_rate": 0.00035142525414000726,
      "loss": 1.6155,
      "step": 40141
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4510428309440613,
      "learning_rate": 0.00035141495669956655,
      "loss": 1.6738,
      "step": 40142
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4531662166118622,
      "learning_rate": 0.0003514046591967157,
      "loss": 1.5851,
      "step": 40143
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4451846480369568,
      "learning_rate": 0.0003513943616314671,
      "loss": 1.5594,
      "step": 40144
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4664416015148163,
      "learning_rate": 0.00035138406400383337,
      "loss": 1.6458,
      "step": 40145
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4473225176334381,
      "learning_rate": 0.00035137376631382694,
      "loss": 1.566,
      "step": 40146
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4721441864967346,
      "learning_rate": 0.0003513634685614603,
      "loss": 1.6524,
      "step": 40147
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46021267771720886,
      "learning_rate": 0.000351353170746746,
      "loss": 1.6834,
      "step": 40148
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46766483783721924,
      "learning_rate": 0.00035134287286969654,
      "loss": 1.6861,
      "step": 40149
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45978298783302307,
      "learning_rate": 0.0003513325749303243,
      "loss": 1.6307,
      "step": 40150
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44639888405799866,
      "learning_rate": 0.000351322276928642,
      "loss": 1.5906,
      "step": 40151
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4842519164085388,
      "learning_rate": 0.000351311978864662,
      "loss": 1.6447,
      "step": 40152
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4831840693950653,
      "learning_rate": 0.00035130168073839685,
      "loss": 1.6958,
      "step": 40153
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4412965476512909,
      "learning_rate": 0.00035129138254985886,
      "loss": 1.6209,
      "step": 40154
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4680749475955963,
      "learning_rate": 0.00035128108429906084,
      "loss": 1.5882,
      "step": 40155
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4645502269268036,
      "learning_rate": 0.00035127078598601503,
      "loss": 1.6145,
      "step": 40156
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46195727586746216,
      "learning_rate": 0.0003512604876107341,
      "loss": 1.6732,
      "step": 40157
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46306559443473816,
      "learning_rate": 0.0003512501891732305,
      "loss": 1.684,
      "step": 40158
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4457196295261383,
      "learning_rate": 0.0003512398906735167,
      "loss": 1.5797,
      "step": 40159
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4663776457309723,
      "learning_rate": 0.00035122959211160524,
      "loss": 1.5928,
      "step": 40160
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4484720826148987,
      "learning_rate": 0.00035121929348750855,
      "loss": 1.6394,
      "step": 40161
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44305989146232605,
      "learning_rate": 0.0003512089948012393,
      "loss": 1.541,
      "step": 40162
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44404900074005127,
      "learning_rate": 0.0003511986960528098,
      "loss": 1.6468,
      "step": 40163
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4571150541305542,
      "learning_rate": 0.0003511883972422326,
      "loss": 1.6696,
      "step": 40164
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44719013571739197,
      "learning_rate": 0.00035117809836952027,
      "loss": 1.6382,
      "step": 40165
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4541603624820709,
      "learning_rate": 0.0003511677994346852,
      "loss": 1.6201,
      "step": 40166
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46033990383148193,
      "learning_rate": 0.0003511575004377401,
      "loss": 1.6622,
      "step": 40167
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4335615932941437,
      "learning_rate": 0.0003511472013786973,
      "loss": 1.5557,
      "step": 40168
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45994991064071655,
      "learning_rate": 0.0003511369022575692,
      "loss": 1.6731,
      "step": 40169
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4537644386291504,
      "learning_rate": 0.00035112660307436855,
      "loss": 1.6285,
      "step": 40170
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45617157220840454,
      "learning_rate": 0.0003511163038291077,
      "loss": 1.6209,
      "step": 40171
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4570254981517792,
      "learning_rate": 0.0003511060045217992,
      "loss": 1.6922,
      "step": 40172
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.449848473072052,
      "learning_rate": 0.0003510957051524556,
      "loss": 1.6149,
      "step": 40173
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4522062838077545,
      "learning_rate": 0.0003510854057210892,
      "loss": 1.6211,
      "step": 40174
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4619391858577728,
      "learning_rate": 0.0003510751062277128,
      "loss": 1.6452,
      "step": 40175
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46903905272483826,
      "learning_rate": 0.0003510648066723386,
      "loss": 1.6498,
      "step": 40176
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45975133776664734,
      "learning_rate": 0.0003510545070549794,
      "loss": 1.6177,
      "step": 40177
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44774752855300903,
      "learning_rate": 0.0003510442073756475,
      "loss": 1.5641,
      "step": 40178
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4598448872566223,
      "learning_rate": 0.0003510339076343553,
      "loss": 1.6258,
      "step": 40179
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.463510125875473,
      "learning_rate": 0.0003510236078311157,
      "loss": 1.6408,
      "step": 40180
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4541495740413666,
      "learning_rate": 0.0003510133079659408,
      "loss": 1.5526,
      "step": 40181
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4545312225818634,
      "learning_rate": 0.0003510030080388433,
      "loss": 1.6367,
      "step": 40182
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46480894088745117,
      "learning_rate": 0.0003509927080498357,
      "loss": 1.6114,
      "step": 40183
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44176527857780457,
      "learning_rate": 0.00035098240799893033,
      "loss": 1.6728,
      "step": 40184
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45446255803108215,
      "learning_rate": 0.00035097210788614,
      "loss": 1.6086,
      "step": 40185
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4484671354293823,
      "learning_rate": 0.00035096180771147686,
      "loss": 1.583,
      "step": 40186
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4630616307258606,
      "learning_rate": 0.00035095150747495383,
      "loss": 1.5936,
      "step": 40187
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45376095175743103,
      "learning_rate": 0.000350941207176583,
      "loss": 1.65,
      "step": 40188
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4643806219100952,
      "learning_rate": 0.0003509309068163771,
      "loss": 1.6272,
      "step": 40189
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4651956558227539,
      "learning_rate": 0.00035092060639434864,
      "loss": 1.6135,
      "step": 40190
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46554309129714966,
      "learning_rate": 0.0003509103059105099,
      "loss": 1.6458,
      "step": 40191
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4625212550163269,
      "learning_rate": 0.0003509000053648737,
      "loss": 1.6184,
      "step": 40192
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4689062833786011,
      "learning_rate": 0.00035088970475745233,
      "loss": 1.6561,
      "step": 40193
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4672813415527344,
      "learning_rate": 0.0003508794040882584,
      "loss": 1.5971,
      "step": 40194
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46771231293678284,
      "learning_rate": 0.00035086910335730434,
      "loss": 1.6307,
      "step": 40195
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4695037305355072,
      "learning_rate": 0.00035085880256460273,
      "loss": 1.6422,
      "step": 40196
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46750009059906006,
      "learning_rate": 0.00035084850171016605,
      "loss": 1.6229,
      "step": 40197
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46646448969841003,
      "learning_rate": 0.0003508382007940067,
      "loss": 1.6202,
      "step": 40198
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4588138461112976,
      "learning_rate": 0.0003508278998161373,
      "loss": 1.5754,
      "step": 40199
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46643826365470886,
      "learning_rate": 0.0003508175987765703,
      "loss": 1.5385,
      "step": 40200
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4543362855911255,
      "learning_rate": 0.00035080729767531817,
      "loss": 1.6427,
      "step": 40201
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47053906321525574,
      "learning_rate": 0.0003507969965123935,
      "loss": 1.5806,
      "step": 40202
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45499715209007263,
      "learning_rate": 0.0003507866952878089,
      "loss": 1.5814,
      "step": 40203
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45589232444763184,
      "learning_rate": 0.00035077639400157655,
      "loss": 1.6316,
      "step": 40204
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47204846143722534,
      "learning_rate": 0.00035076609265370927,
      "loss": 1.656,
      "step": 40205
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45248475670814514,
      "learning_rate": 0.0003507557912442193,
      "loss": 1.5515,
      "step": 40206
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4584808945655823,
      "learning_rate": 0.0003507454897731193,
      "loss": 1.603,
      "step": 40207
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4479941129684448,
      "learning_rate": 0.0003507351882404219,
      "loss": 1.6177,
      "step": 40208
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.454405814409256,
      "learning_rate": 0.00035072488664613933,
      "loss": 1.6054,
      "step": 40209
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4446110725402832,
      "learning_rate": 0.0003507145849902843,
      "loss": 1.6142,
      "step": 40210
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46856749057769775,
      "learning_rate": 0.00035070428327286916,
      "loss": 1.6571,
      "step": 40211
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4848595857620239,
      "learning_rate": 0.0003506939814939065,
      "loss": 1.6432,
      "step": 40212
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46977338194847107,
      "learning_rate": 0.0003506836796534089,
      "loss": 1.6823,
      "step": 40213
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45722874999046326,
      "learning_rate": 0.0003506733777513886,
      "loss": 1.6319,
      "step": 40214
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.43865644931793213,
      "learning_rate": 0.00035066307578785855,
      "loss": 1.5993,
      "step": 40215
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46745362877845764,
      "learning_rate": 0.00035065277376283073,
      "loss": 1.5687,
      "step": 40216
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4691126048564911,
      "learning_rate": 0.0003506424716763181,
      "loss": 1.6299,
      "step": 40217
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.466015487909317,
      "learning_rate": 0.00035063216952833286,
      "loss": 1.6601,
      "step": 40218
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46382957696914673,
      "learning_rate": 0.0003506218673188876,
      "loss": 1.6584,
      "step": 40219
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44651007652282715,
      "learning_rate": 0.0003506115650479949,
      "loss": 1.6052,
      "step": 40220
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47706183791160583,
      "learning_rate": 0.00035060126271566723,
      "loss": 1.6597,
      "step": 40221
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46727633476257324,
      "learning_rate": 0.0003505909603219171,
      "loss": 1.6076,
      "step": 40222
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4512190520763397,
      "learning_rate": 0.000350580657866757,
      "loss": 1.6513,
      "step": 40223
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44490933418273926,
      "learning_rate": 0.0003505703553501994,
      "loss": 1.6903,
      "step": 40224
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4450436234474182,
      "learning_rate": 0.0003505600527722568,
      "loss": 1.5699,
      "step": 40225
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4417257606983185,
      "learning_rate": 0.00035054975013294184,
      "loss": 1.6416,
      "step": 40226
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.48923030495643616,
      "learning_rate": 0.0003505394474322669,
      "loss": 1.7223,
      "step": 40227
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.447551429271698,
      "learning_rate": 0.0003505291446702445,
      "loss": 1.6562,
      "step": 40228
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46201932430267334,
      "learning_rate": 0.0003505188418468872,
      "loss": 1.6065,
      "step": 40229
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45102816820144653,
      "learning_rate": 0.00035050853896220746,
      "loss": 1.6474,
      "step": 40230
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4376240670681,
      "learning_rate": 0.0003504982360162178,
      "loss": 1.6267,
      "step": 40231
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4509471356868744,
      "learning_rate": 0.0003504879330089306,
      "loss": 1.5989,
      "step": 40232
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4602256119251251,
      "learning_rate": 0.0003504776299403586,
      "loss": 1.6007,
      "step": 40233
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4563830494880676,
      "learning_rate": 0.0003504673268105142,
      "loss": 1.644,
      "step": 40234
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4703081250190735,
      "learning_rate": 0.0003504570236194099,
      "loss": 1.6648,
      "step": 40235
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4605954587459564,
      "learning_rate": 0.0003504467203670582,
      "loss": 1.5875,
      "step": 40236
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4539676010608673,
      "learning_rate": 0.0003504364170534716,
      "loss": 1.6236,
      "step": 40237
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4507981240749359,
      "learning_rate": 0.0003504261136786626,
      "loss": 1.5987,
      "step": 40238
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.49243593215942383,
      "learning_rate": 0.0003504158102426438,
      "loss": 1.6379,
      "step": 40239
    },
    {
      "epoch": 1.34,
      "grad_norm": 1.549774408340454,
      "learning_rate": 0.0003504055067454276,
      "loss": 1.6215,
      "step": 40240
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4517037570476532,
      "learning_rate": 0.00035039520318702643,
      "loss": 1.5809,
      "step": 40241
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46589338779449463,
      "learning_rate": 0.00035038489956745305,
      "loss": 1.6166,
      "step": 40242
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4540714621543884,
      "learning_rate": 0.0003503745958867198,
      "loss": 1.5645,
      "step": 40243
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45977991819381714,
      "learning_rate": 0.00035036429214483917,
      "loss": 1.6833,
      "step": 40244
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.43463435769081116,
      "learning_rate": 0.0003503539883418238,
      "loss": 1.6157,
      "step": 40245
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4533965289592743,
      "learning_rate": 0.000350343684477686,
      "loss": 1.6812,
      "step": 40246
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.472289502620697,
      "learning_rate": 0.00035033338055243845,
      "loss": 1.6607,
      "step": 40247
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.48003771901130676,
      "learning_rate": 0.0003503230765660935,
      "loss": 1.6261,
      "step": 40248
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45044246315956116,
      "learning_rate": 0.00035031277251866387,
      "loss": 1.6629,
      "step": 40249
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44437775015830994,
      "learning_rate": 0.0003503024684101619,
      "loss": 1.5548,
      "step": 40250
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4619297683238983,
      "learning_rate": 0.0003502921642406001,
      "loss": 1.6001,
      "step": 40251
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4585888981819153,
      "learning_rate": 0.00035028186000999115,
      "loss": 1.6478,
      "step": 40252
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47259578108787537,
      "learning_rate": 0.00035027155571834724,
      "loss": 1.6364,
      "step": 40253
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4694952964782715,
      "learning_rate": 0.00035026125136568124,
      "loss": 1.6566,
      "step": 40254
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4478643238544464,
      "learning_rate": 0.00035025094695200545,
      "loss": 1.5945,
      "step": 40255
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4514744281768799,
      "learning_rate": 0.0003502406424773324,
      "loss": 1.6034,
      "step": 40256
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4384770691394806,
      "learning_rate": 0.0003502303379416745,
      "loss": 1.6418,
      "step": 40257
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4605744183063507,
      "learning_rate": 0.0003502200333450445,
      "loss": 1.6135,
      "step": 40258
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4491172432899475,
      "learning_rate": 0.0003502097286874548,
      "loss": 1.5872,
      "step": 40259
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46869853138923645,
      "learning_rate": 0.00035019942396891785,
      "loss": 1.6315,
      "step": 40260
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.43962380290031433,
      "learning_rate": 0.0003501891191894461,
      "loss": 1.5803,
      "step": 40261
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4681825339794159,
      "learning_rate": 0.0003501788143490523,
      "loss": 1.5739,
      "step": 40262
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4572374224662781,
      "learning_rate": 0.00035016850944774873,
      "loss": 1.604,
      "step": 40263
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45902934670448303,
      "learning_rate": 0.000350158204485548,
      "loss": 1.5618,
      "step": 40264
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4734898507595062,
      "learning_rate": 0.00035014789946246266,
      "loss": 1.7034,
      "step": 40265
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.43754637241363525,
      "learning_rate": 0.0003501375943785051,
      "loss": 1.63,
      "step": 40266
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46250203251838684,
      "learning_rate": 0.0003501272892336878,
      "loss": 1.7983,
      "step": 40267
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46903786063194275,
      "learning_rate": 0.0003501169840280235,
      "loss": 1.643,
      "step": 40268
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46216246485710144,
      "learning_rate": 0.00035010667876152446,
      "loss": 1.5898,
      "step": 40269
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.6143103241920471,
      "learning_rate": 0.00035009637343420347,
      "loss": 1.6387,
      "step": 40270
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4748491048812866,
      "learning_rate": 0.0003500860680460726,
      "loss": 1.6558,
      "step": 40271
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4363877475261688,
      "learning_rate": 0.00035007576259714487,
      "loss": 1.607,
      "step": 40272
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4605788290500641,
      "learning_rate": 0.0003500654570874324,
      "loss": 1.5827,
      "step": 40273
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46461883187294006,
      "learning_rate": 0.00035005515151694785,
      "loss": 1.6588,
      "step": 40274
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4543185830116272,
      "learning_rate": 0.0003500448458857038,
      "loss": 1.6102,
      "step": 40275
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44429710507392883,
      "learning_rate": 0.00035003454019371256,
      "loss": 1.6094,
      "step": 40276
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47050318121910095,
      "learning_rate": 0.0003500242344409869,
      "loss": 1.5517,
      "step": 40277
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4652506113052368,
      "learning_rate": 0.000350013928627539,
      "loss": 1.6432,
      "step": 40278
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46066680550575256,
      "learning_rate": 0.00035000362275338173,
      "loss": 1.6337,
      "step": 40279
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4600067138671875,
      "learning_rate": 0.0003499933168185274,
      "loss": 1.6618,
      "step": 40280
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4440265893936157,
      "learning_rate": 0.0003499830108229885,
      "loss": 1.5722,
      "step": 40281
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.48354971408843994,
      "learning_rate": 0.0003499727047667776,
      "loss": 1.603,
      "step": 40282
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47462254762649536,
      "learning_rate": 0.00034996239864990724,
      "loss": 1.613,
      "step": 40283
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45709431171417236,
      "learning_rate": 0.00034995209247238993,
      "loss": 1.5911,
      "step": 40284
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4526505470275879,
      "learning_rate": 0.0003499417862342381,
      "loss": 1.6164,
      "step": 40285
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4729382395744324,
      "learning_rate": 0.00034993147993546425,
      "loss": 1.5928,
      "step": 40286
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44835397601127625,
      "learning_rate": 0.0003499211735760809,
      "loss": 1.555,
      "step": 40287
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4542694091796875,
      "learning_rate": 0.0003499108671561007,
      "loss": 1.6451,
      "step": 40288
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4600771367549896,
      "learning_rate": 0.000349900560675536,
      "loss": 1.6225,
      "step": 40289
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47846367955207825,
      "learning_rate": 0.00034989025413439945,
      "loss": 1.6992,
      "step": 40290
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47104358673095703,
      "learning_rate": 0.00034987994753270344,
      "loss": 1.6751,
      "step": 40291
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44101640582084656,
      "learning_rate": 0.0003498696408704605,
      "loss": 1.6217,
      "step": 40292
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.450345903635025,
      "learning_rate": 0.0003498593341476832,
      "loss": 1.6748,
      "step": 40293
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4460902214050293,
      "learning_rate": 0.000349849027364384,
      "loss": 1.5525,
      "step": 40294
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4333434998989105,
      "learning_rate": 0.0003498387205205755,
      "loss": 1.568,
      "step": 40295
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.6833062171936035,
      "learning_rate": 0.00034982841361627,
      "loss": 1.63,
      "step": 40296
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4643566906452179,
      "learning_rate": 0.0003498181066514802,
      "loss": 1.6258,
      "step": 40297
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4535234272480011,
      "learning_rate": 0.0003498077996262186,
      "loss": 1.5736,
      "step": 40298
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45197397470474243,
      "learning_rate": 0.0003497974925404976,
      "loss": 1.6159,
      "step": 40299
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46990498900413513,
      "learning_rate": 0.0003497871853943299,
      "loss": 1.6882,
      "step": 40300
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46749424934387207,
      "learning_rate": 0.00034977687818772766,
      "loss": 1.6875,
      "step": 40301
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4558376669883728,
      "learning_rate": 0.00034976657092070383,
      "loss": 1.6624,
      "step": 40302
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4594630002975464,
      "learning_rate": 0.0003497562635932706,
      "loss": 1.6423,
      "step": 40303
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4374966323375702,
      "learning_rate": 0.0003497459562054407,
      "loss": 1.6634,
      "step": 40304
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4516380727291107,
      "learning_rate": 0.00034973564875722654,
      "loss": 1.6019,
      "step": 40305
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.446959912776947,
      "learning_rate": 0.0003497253412486405,
      "loss": 1.6806,
      "step": 40306
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46787115931510925,
      "learning_rate": 0.00034971503367969543,
      "loss": 1.6402,
      "step": 40307
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4593733549118042,
      "learning_rate": 0.0003497047260504034,
      "loss": 1.6739,
      "step": 40308
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45814278721809387,
      "learning_rate": 0.00034969441836077734,
      "loss": 1.6348,
      "step": 40309
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45669567584991455,
      "learning_rate": 0.0003496841106108295,
      "loss": 1.5849,
      "step": 40310
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.451870858669281,
      "learning_rate": 0.0003496738028005725,
      "loss": 1.6217,
      "step": 40311
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4529431462287903,
      "learning_rate": 0.00034966349493001874,
      "loss": 1.668,
      "step": 40312
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47695329785346985,
      "learning_rate": 0.00034965318699918085,
      "loss": 1.64,
      "step": 40313
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46166911721229553,
      "learning_rate": 0.00034964287900807146,
      "loss": 1.613,
      "step": 40314
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4530032277107239,
      "learning_rate": 0.00034963257095670276,
      "loss": 1.6215,
      "step": 40315
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.42625415325164795,
      "learning_rate": 0.0003496222628450875,
      "loss": 1.5917,
      "step": 40316
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.43965211510658264,
      "learning_rate": 0.00034961195467323803,
      "loss": 1.5901,
      "step": 40317
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46741530299186707,
      "learning_rate": 0.00034960164644116704,
      "loss": 1.6552,
      "step": 40318
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45467838644981384,
      "learning_rate": 0.00034959133814888694,
      "loss": 1.6943,
      "step": 40319
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4572395086288452,
      "learning_rate": 0.0003495810297964103,
      "loss": 1.6382,
      "step": 40320
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47983893752098083,
      "learning_rate": 0.00034957072138374956,
      "loss": 1.6562,
      "step": 40321
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46711286902427673,
      "learning_rate": 0.0003495604129109172,
      "loss": 1.6783,
      "step": 40322
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.458164244890213,
      "learning_rate": 0.00034955010437792597,
      "loss": 1.5768,
      "step": 40323
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4461843967437744,
      "learning_rate": 0.00034953979578478806,
      "loss": 1.6259,
      "step": 40324
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4673711657524109,
      "learning_rate": 0.00034952948713151623,
      "loss": 1.663,
      "step": 40325
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44994768500328064,
      "learning_rate": 0.0003495191784181228,
      "loss": 1.5951,
      "step": 40326
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4807601273059845,
      "learning_rate": 0.0003495088696446205,
      "loss": 1.6378,
      "step": 40327
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4557977616786957,
      "learning_rate": 0.00034949856081102165,
      "loss": 1.6459,
      "step": 40328
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45289450883865356,
      "learning_rate": 0.0003494882519173389,
      "loss": 1.6571,
      "step": 40329
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4449043571949005,
      "learning_rate": 0.0003494779429635847,
      "loss": 1.5798,
      "step": 40330
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.461447149515152,
      "learning_rate": 0.00034946763394977143,
      "loss": 1.6947,
      "step": 40331
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4810635447502136,
      "learning_rate": 0.00034945732487591194,
      "loss": 1.5926,
      "step": 40332
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4920268654823303,
      "learning_rate": 0.0003494470157420184,
      "loss": 1.6195,
      "step": 40333
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4587576985359192,
      "learning_rate": 0.0003494367065481035,
      "loss": 1.6095,
      "step": 40334
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4593079090118408,
      "learning_rate": 0.00034942639729417977,
      "loss": 1.6301,
      "step": 40335
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4427757263183594,
      "learning_rate": 0.00034941608798025965,
      "loss": 1.6097,
      "step": 40336
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4754887819290161,
      "learning_rate": 0.00034940577860635567,
      "loss": 1.6136,
      "step": 40337
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.48065853118896484,
      "learning_rate": 0.00034939546917248034,
      "loss": 1.673,
      "step": 40338
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4665437638759613,
      "learning_rate": 0.00034938515967864624,
      "loss": 1.5975,
      "step": 40339
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45184004306793213,
      "learning_rate": 0.0003493748501248658,
      "loss": 1.6859,
      "step": 40340
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46349018812179565,
      "learning_rate": 0.0003493645405111516,
      "loss": 1.6697,
      "step": 40341
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4962595999240875,
      "learning_rate": 0.00034935423083751606,
      "loss": 1.6793,
      "step": 40342
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46516528725624084,
      "learning_rate": 0.0003493439211039718,
      "loss": 1.6294,
      "step": 40343
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4707128405570984,
      "learning_rate": 0.00034933361131053123,
      "loss": 1.6179,
      "step": 40344
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46116557717323303,
      "learning_rate": 0.0003493233014572071,
      "loss": 1.5242,
      "step": 40345
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4766165316104889,
      "learning_rate": 0.00034931299154401156,
      "loss": 1.6327,
      "step": 40346
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.5008105039596558,
      "learning_rate": 0.00034930268157095734,
      "loss": 1.6802,
      "step": 40347
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45325616002082825,
      "learning_rate": 0.000349292371538057,
      "loss": 1.5735,
      "step": 40348
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4784928858280182,
      "learning_rate": 0.0003492820614453229,
      "loss": 1.6472,
      "step": 40349
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4603461027145386,
      "learning_rate": 0.00034927175129276775,
      "loss": 1.6167,
      "step": 40350
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4494324326515198,
      "learning_rate": 0.0003492614410804038,
      "loss": 1.6427,
      "step": 40351
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44600483775138855,
      "learning_rate": 0.0003492511308082439,
      "loss": 1.5519,
      "step": 40352
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44842103123664856,
      "learning_rate": 0.0003492408204763003,
      "loss": 1.651,
      "step": 40353
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45993572473526,
      "learning_rate": 0.0003492305100845856,
      "loss": 1.6805,
      "step": 40354
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4531453847885132,
      "learning_rate": 0.00034922019963311225,
      "loss": 1.6645,
      "step": 40355
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4744507968425751,
      "learning_rate": 0.00034920988912189293,
      "loss": 1.686,
      "step": 40356
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45757248997688293,
      "learning_rate": 0.00034919957855094003,
      "loss": 1.587,
      "step": 40357
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4506445825099945,
      "learning_rate": 0.00034918926792026607,
      "loss": 1.5478,
      "step": 40358
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4459202289581299,
      "learning_rate": 0.00034917895722988364,
      "loss": 1.5963,
      "step": 40359
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46181684732437134,
      "learning_rate": 0.0003491686464798051,
      "loss": 1.6402,
      "step": 40360
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44569921493530273,
      "learning_rate": 0.0003491583356700431,
      "loss": 1.5546,
      "step": 40361
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45863524079322815,
      "learning_rate": 0.0003491480248006102,
      "loss": 1.6447,
      "step": 40362
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4513058066368103,
      "learning_rate": 0.0003491377138715187,
      "loss": 1.6152,
      "step": 40363
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4401901364326477,
      "learning_rate": 0.0003491274028827814,
      "loss": 1.6191,
      "step": 40364
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4874143600463867,
      "learning_rate": 0.00034911709183441054,
      "loss": 1.6166,
      "step": 40365
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46729129552841187,
      "learning_rate": 0.0003491067807264189,
      "loss": 1.6179,
      "step": 40366
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4752122461795807,
      "learning_rate": 0.0003490964695588188,
      "loss": 1.6483,
      "step": 40367
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.43050888180732727,
      "learning_rate": 0.0003490861583316228,
      "loss": 1.575,
      "step": 40368
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45487457513809204,
      "learning_rate": 0.0003490758470448435,
      "loss": 1.6586,
      "step": 40369
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4429088532924652,
      "learning_rate": 0.0003490655356984933,
      "loss": 1.6151,
      "step": 40370
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4475858807563782,
      "learning_rate": 0.00034905522429258475,
      "loss": 1.5965,
      "step": 40371
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4840603470802307,
      "learning_rate": 0.00034904491282713047,
      "loss": 1.6531,
      "step": 40372
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46334969997406006,
      "learning_rate": 0.0003490346013021428,
      "loss": 1.5684,
      "step": 40373
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46578678488731384,
      "learning_rate": 0.0003490242897176344,
      "loss": 1.6094,
      "step": 40374
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44402915239334106,
      "learning_rate": 0.00034901397807361766,
      "loss": 1.6019,
      "step": 40375
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4640558660030365,
      "learning_rate": 0.00034900366637010533,
      "loss": 1.6541,
      "step": 40376
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4729178547859192,
      "learning_rate": 0.00034899335460710965,
      "loss": 1.5839,
      "step": 40377
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4391612410545349,
      "learning_rate": 0.00034898304278464326,
      "loss": 1.5887,
      "step": 40378
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4384452998638153,
      "learning_rate": 0.00034897273090271874,
      "loss": 1.5517,
      "step": 40379
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47161754965782166,
      "learning_rate": 0.00034896241896134844,
      "loss": 1.6206,
      "step": 40380
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47113004326820374,
      "learning_rate": 0.00034895210696054505,
      "loss": 1.6678,
      "step": 40381
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4488293528556824,
      "learning_rate": 0.0003489417949003211,
      "loss": 1.4848,
      "step": 40382
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.49369287490844727,
      "learning_rate": 0.0003489314827806889,
      "loss": 1.6386,
      "step": 40383
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45333024859428406,
      "learning_rate": 0.00034892117060166103,
      "loss": 1.6749,
      "step": 40384
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4499000906944275,
      "learning_rate": 0.0003489108583632502,
      "loss": 1.5987,
      "step": 40385
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4450208842754364,
      "learning_rate": 0.0003489005460654687,
      "loss": 1.5539,
      "step": 40386
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4620346128940582,
      "learning_rate": 0.00034889023370832925,
      "loss": 1.6448,
      "step": 40387
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4537535607814789,
      "learning_rate": 0.0003488799212918441,
      "loss": 1.6173,
      "step": 40388
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47559690475463867,
      "learning_rate": 0.0003488696088160261,
      "loss": 1.6205,
      "step": 40389
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4544547200202942,
      "learning_rate": 0.00034885929628088755,
      "loss": 1.6088,
      "step": 40390
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.47045284509658813,
      "learning_rate": 0.0003488489836864409,
      "loss": 1.6549,
      "step": 40391
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4515823423862457,
      "learning_rate": 0.00034883867103269894,
      "loss": 1.6111,
      "step": 40392
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44577860832214355,
      "learning_rate": 0.00034882835831967393,
      "loss": 1.6385,
      "step": 40393
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4493657946586609,
      "learning_rate": 0.0003488180455473785,
      "loss": 1.6268,
      "step": 40394
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4483337104320526,
      "learning_rate": 0.0003488077327158251,
      "loss": 1.5725,
      "step": 40395
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45169392228126526,
      "learning_rate": 0.00034879741982502644,
      "loss": 1.6003,
      "step": 40396
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45250800251960754,
      "learning_rate": 0.00034878710687499484,
      "loss": 1.5536,
      "step": 40397
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4577274024486542,
      "learning_rate": 0.00034877679386574286,
      "loss": 1.6214,
      "step": 40398
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.452231228351593,
      "learning_rate": 0.00034876648079728304,
      "loss": 1.6213,
      "step": 40399
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4442703127861023,
      "learning_rate": 0.0003487561676696279,
      "loss": 1.6458,
      "step": 40400
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46052318811416626,
      "learning_rate": 0.00034874585448279,
      "loss": 1.5746,
      "step": 40401
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.435796320438385,
      "learning_rate": 0.00034873554123678177,
      "loss": 1.5627,
      "step": 40402
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4512691795825958,
      "learning_rate": 0.0003487252279316157,
      "loss": 1.5881,
      "step": 40403
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4553011953830719,
      "learning_rate": 0.0003487149145673045,
      "loss": 1.6418,
      "step": 40404
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4441506862640381,
      "learning_rate": 0.0003487046011438605,
      "loss": 1.5611,
      "step": 40405
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44586965441703796,
      "learning_rate": 0.00034869428766129635,
      "loss": 1.5861,
      "step": 40406
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45477521419525146,
      "learning_rate": 0.0003486839741196246,
      "loss": 1.6232,
      "step": 40407
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46145549416542053,
      "learning_rate": 0.0003486736605188575,
      "loss": 1.5758,
      "step": 40408
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4542841613292694,
      "learning_rate": 0.0003486633468590078,
      "loss": 1.588,
      "step": 40409
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45836013555526733,
      "learning_rate": 0.000348653033140088,
      "loss": 1.7119,
      "step": 40410
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.455646276473999,
      "learning_rate": 0.00034864271936211054,
      "loss": 1.6922,
      "step": 40411
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46886658668518066,
      "learning_rate": 0.00034863240552508804,
      "loss": 1.5571,
      "step": 40412
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45944133400917053,
      "learning_rate": 0.0003486220916290329,
      "loss": 1.6137,
      "step": 40413
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.454341858625412,
      "learning_rate": 0.00034861177767395776,
      "loss": 1.6582,
      "step": 40414
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44155704975128174,
      "learning_rate": 0.0003486014636598751,
      "loss": 1.615,
      "step": 40415
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4586698114871979,
      "learning_rate": 0.00034859114958679736,
      "loss": 1.6061,
      "step": 40416
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4398970305919647,
      "learning_rate": 0.0003485808354547372,
      "loss": 1.5956,
      "step": 40417
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.44806408882141113,
      "learning_rate": 0.00034857052126370704,
      "loss": 1.6534,
      "step": 40418
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4469781517982483,
      "learning_rate": 0.0003485602070137194,
      "loss": 1.6424,
      "step": 40419
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46191835403442383,
      "learning_rate": 0.00034854989270478675,
      "loss": 1.6373,
      "step": 40420
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45085763931274414,
      "learning_rate": 0.00034853957833692184,
      "loss": 1.5837,
      "step": 40421
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.46254193782806396,
      "learning_rate": 0.00034852926391013695,
      "loss": 1.6406,
      "step": 40422
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45002245903015137,
      "learning_rate": 0.0003485189494244447,
      "loss": 1.609,
      "step": 40423
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4561113119125366,
      "learning_rate": 0.00034850863487985765,
      "loss": 1.5765,
      "step": 40424
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.45959600806236267,
      "learning_rate": 0.0003484983202763881,
      "loss": 1.6398,
      "step": 40425
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.4340072274208069,
      "learning_rate": 0.0003484880056140488,
      "loss": 1.5184,
      "step": 40426
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.449375718832016,
      "learning_rate": 0.0003484776908928523,
      "loss": 1.5065,
      "step": 40427
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46086668968200684,
      "learning_rate": 0.00034846737611281096,
      "loss": 1.5763,
      "step": 40428
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4420343041419983,
      "learning_rate": 0.00034845706127393735,
      "loss": 1.5656,
      "step": 40429
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4526902735233307,
      "learning_rate": 0.000348446746376244,
      "loss": 1.6012,
      "step": 40430
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4689671993255615,
      "learning_rate": 0.00034843643141974355,
      "loss": 1.6425,
      "step": 40431
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47813981771469116,
      "learning_rate": 0.0003484261164044483,
      "loss": 1.5991,
      "step": 40432
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46243974566459656,
      "learning_rate": 0.0003484158013303709,
      "loss": 1.6633,
      "step": 40433
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47857996821403503,
      "learning_rate": 0.00034840548619752385,
      "loss": 1.6072,
      "step": 40434
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.49564188718795776,
      "learning_rate": 0.0003483951710059197,
      "loss": 1.6185,
      "step": 40435
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4648180603981018,
      "learning_rate": 0.0003483848557555709,
      "loss": 1.5585,
      "step": 40436
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44843176007270813,
      "learning_rate": 0.0003483745404464901,
      "loss": 1.5832,
      "step": 40437
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45734068751335144,
      "learning_rate": 0.0003483642250786896,
      "loss": 1.5823,
      "step": 40438
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47616881132125854,
      "learning_rate": 0.00034835390965218217,
      "loss": 1.5824,
      "step": 40439
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47956013679504395,
      "learning_rate": 0.00034834359416698014,
      "loss": 1.631,
      "step": 40440
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4923340380191803,
      "learning_rate": 0.0003483332786230961,
      "loss": 1.5937,
      "step": 40441
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43711012601852417,
      "learning_rate": 0.0003483229630205428,
      "loss": 1.6605,
      "step": 40442
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.470142126083374,
      "learning_rate": 0.00034831264735933225,
      "loss": 1.6257,
      "step": 40443
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45686075091362,
      "learning_rate": 0.0003483023316394774,
      "loss": 1.6333,
      "step": 40444
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44637224078178406,
      "learning_rate": 0.0003482920158609906,
      "loss": 1.5955,
      "step": 40445
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.459391713142395,
      "learning_rate": 0.00034828170002388443,
      "loss": 1.6625,
      "step": 40446
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46152281761169434,
      "learning_rate": 0.0003482713841281715,
      "loss": 1.6464,
      "step": 40447
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46557679772377014,
      "learning_rate": 0.000348261068173864,
      "loss": 1.6003,
      "step": 40448
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4530678987503052,
      "learning_rate": 0.00034825075216097487,
      "loss": 1.6503,
      "step": 40449
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45583638548851013,
      "learning_rate": 0.00034824043608951626,
      "loss": 1.6386,
      "step": 40450
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47580060362815857,
      "learning_rate": 0.00034823011995950104,
      "loss": 1.5969,
      "step": 40451
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.453050822019577,
      "learning_rate": 0.00034821980377094144,
      "loss": 1.6205,
      "step": 40452
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4404240846633911,
      "learning_rate": 0.00034820948752385016,
      "loss": 1.5624,
      "step": 40453
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4381910264492035,
      "learning_rate": 0.0003481991712182396,
      "loss": 1.6028,
      "step": 40454
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4520842730998993,
      "learning_rate": 0.0003481888548541225,
      "loss": 1.6422,
      "step": 40455
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45186734199523926,
      "learning_rate": 0.0003481785384315111,
      "loss": 1.6323,
      "step": 40456
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4510742425918579,
      "learning_rate": 0.0003481682219504181,
      "loss": 1.5783,
      "step": 40457
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46675339341163635,
      "learning_rate": 0.0003481579054108559,
      "loss": 1.6094,
      "step": 40458
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4662131071090698,
      "learning_rate": 0.0003481475888128372,
      "loss": 1.6709,
      "step": 40459
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45907941460609436,
      "learning_rate": 0.00034813727215637436,
      "loss": 1.6344,
      "step": 40460
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4654604494571686,
      "learning_rate": 0.00034812695544148,
      "loss": 1.5985,
      "step": 40461
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.48321953415870667,
      "learning_rate": 0.00034811663866816657,
      "loss": 1.5607,
      "step": 40462
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4537035822868347,
      "learning_rate": 0.00034810632183644664,
      "loss": 1.633,
      "step": 40463
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4444666802883148,
      "learning_rate": 0.0003480960049463328,
      "loss": 1.5893,
      "step": 40464
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44416096806526184,
      "learning_rate": 0.0003480856879978374,
      "loss": 1.6318,
      "step": 40465
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4543762803077698,
      "learning_rate": 0.00034807537099097307,
      "loss": 1.6337,
      "step": 40466
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4494782090187073,
      "learning_rate": 0.0003480650539257524,
      "loss": 1.6428,
      "step": 40467
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.472474604845047,
      "learning_rate": 0.0003480547368021877,
      "loss": 1.6731,
      "step": 40468
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4646033048629761,
      "learning_rate": 0.00034804441962029174,
      "loss": 1.6024,
      "step": 40469
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45117270946502686,
      "learning_rate": 0.0003480341023800769,
      "loss": 1.5819,
      "step": 40470
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.48100635409355164,
      "learning_rate": 0.0003480237850815558,
      "loss": 1.6099,
      "step": 40471
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46979451179504395,
      "learning_rate": 0.0003480134677247408,
      "loss": 1.5698,
      "step": 40472
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47278279066085815,
      "learning_rate": 0.00034800315030964455,
      "loss": 1.6154,
      "step": 40473
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4383343756198883,
      "learning_rate": 0.00034799283283627963,
      "loss": 1.6321,
      "step": 40474
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45098167657852173,
      "learning_rate": 0.0003479825153046583,
      "loss": 1.6204,
      "step": 40475
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.446129709482193,
      "learning_rate": 0.0003479721977147935,
      "loss": 1.6038,
      "step": 40476
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44358029961586,
      "learning_rate": 0.00034796188006669734,
      "loss": 1.5638,
      "step": 40477
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4638073444366455,
      "learning_rate": 0.00034795156236038264,
      "loss": 1.7636,
      "step": 40478
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4648769199848175,
      "learning_rate": 0.0003479412445958618,
      "loss": 1.6822,
      "step": 40479
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45996472239494324,
      "learning_rate": 0.00034793092677314725,
      "loss": 1.6569,
      "step": 40480
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43211326003074646,
      "learning_rate": 0.0003479206088922517,
      "loss": 1.6455,
      "step": 40481
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4496174156665802,
      "learning_rate": 0.0003479102909531875,
      "loss": 1.5536,
      "step": 40482
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44902974367141724,
      "learning_rate": 0.0003478999729559674,
      "loss": 1.5666,
      "step": 40483
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4490795135498047,
      "learning_rate": 0.0003478896549006037,
      "loss": 1.6278,
      "step": 40484
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45676472783088684,
      "learning_rate": 0.00034787933678710905,
      "loss": 1.5948,
      "step": 40485
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44691339135169983,
      "learning_rate": 0.00034786901861549597,
      "loss": 1.6376,
      "step": 40486
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45374172925949097,
      "learning_rate": 0.00034785870038577687,
      "loss": 1.668,
      "step": 40487
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44575926661491394,
      "learning_rate": 0.00034784838209796443,
      "loss": 1.6348,
      "step": 40488
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47079265117645264,
      "learning_rate": 0.00034783806375207106,
      "loss": 1.6098,
      "step": 40489
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.449739545583725,
      "learning_rate": 0.0003478277453481093,
      "loss": 1.5752,
      "step": 40490
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44816479086875916,
      "learning_rate": 0.00034781742688609184,
      "loss": 1.6442,
      "step": 40491
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43902772665023804,
      "learning_rate": 0.0003478071083660309,
      "loss": 1.5697,
      "step": 40492
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4563387632369995,
      "learning_rate": 0.0003477967897879393,
      "loss": 1.5669,
      "step": 40493
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4659203588962555,
      "learning_rate": 0.0003477864711518294,
      "loss": 1.5866,
      "step": 40494
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45983970165252686,
      "learning_rate": 0.00034777615245771377,
      "loss": 1.5787,
      "step": 40495
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44631171226501465,
      "learning_rate": 0.00034776583370560487,
      "loss": 1.6177,
      "step": 40496
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4706892967224121,
      "learning_rate": 0.0003477555148955154,
      "loss": 1.6275,
      "step": 40497
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47059884667396545,
      "learning_rate": 0.00034774519602745767,
      "loss": 1.5525,
      "step": 40498
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4798491895198822,
      "learning_rate": 0.0003477348771014444,
      "loss": 1.6291,
      "step": 40499
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4587228000164032,
      "learning_rate": 0.000347724558117488,
      "loss": 1.6785,
      "step": 40500
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46536344289779663,
      "learning_rate": 0.0003477142390756009,
      "loss": 1.6333,
      "step": 40501
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45691025257110596,
      "learning_rate": 0.0003477039199757959,
      "loss": 1.6051,
      "step": 40502
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45815667510032654,
      "learning_rate": 0.0003476936008180852,
      "loss": 1.6327,
      "step": 40503
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4568054974079132,
      "learning_rate": 0.0003476832816024817,
      "loss": 1.6202,
      "step": 40504
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44977930188179016,
      "learning_rate": 0.00034767296232899756,
      "loss": 1.6365,
      "step": 40505
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4548695683479309,
      "learning_rate": 0.00034766264299764557,
      "loss": 1.6215,
      "step": 40506
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4413962960243225,
      "learning_rate": 0.0003476523236084381,
      "loss": 1.5969,
      "step": 40507
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4325413703918457,
      "learning_rate": 0.0003476420041613877,
      "loss": 1.6307,
      "step": 40508
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4476955235004425,
      "learning_rate": 0.00034763168465650694,
      "loss": 1.5944,
      "step": 40509
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.458709180355072,
      "learning_rate": 0.0003476213650938084,
      "loss": 1.6204,
      "step": 40510
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4772593677043915,
      "learning_rate": 0.00034761104547330454,
      "loss": 1.7578,
      "step": 40511
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44455084204673767,
      "learning_rate": 0.00034760072579500775,
      "loss": 1.6032,
      "step": 40512
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5535693168640137,
      "learning_rate": 0.0003475904060589309,
      "loss": 1.7168,
      "step": 40513
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46319636702537537,
      "learning_rate": 0.0003475800862650861,
      "loss": 1.5965,
      "step": 40514
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4610919952392578,
      "learning_rate": 0.00034756976641348627,
      "loss": 1.6652,
      "step": 40515
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4570930004119873,
      "learning_rate": 0.0003475594465041436,
      "loss": 1.6198,
      "step": 40516
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45050689578056335,
      "learning_rate": 0.0003475491265370708,
      "loss": 1.6314,
      "step": 40517
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4587978720664978,
      "learning_rate": 0.00034753880651228045,
      "loss": 1.6379,
      "step": 40518
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46654632687568665,
      "learning_rate": 0.00034752848642978496,
      "loss": 1.6366,
      "step": 40519
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4638904333114624,
      "learning_rate": 0.0003475181662895969,
      "loss": 1.6763,
      "step": 40520
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4704274535179138,
      "learning_rate": 0.00034750784609172873,
      "loss": 1.6335,
      "step": 40521
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4654167890548706,
      "learning_rate": 0.00034749752583619305,
      "loss": 1.5812,
      "step": 40522
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46048882603645325,
      "learning_rate": 0.0003474872055230024,
      "loss": 1.5957,
      "step": 40523
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4472322165966034,
      "learning_rate": 0.0003474768851521693,
      "loss": 1.5218,
      "step": 40524
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4590923488140106,
      "learning_rate": 0.0003474665647237062,
      "loss": 1.5878,
      "step": 40525
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.447387158870697,
      "learning_rate": 0.0003474562442376258,
      "loss": 1.6664,
      "step": 40526
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45026034116744995,
      "learning_rate": 0.0003474459236939404,
      "loss": 1.6907,
      "step": 40527
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.49203693866729736,
      "learning_rate": 0.00034743560309266256,
      "loss": 1.6404,
      "step": 40528
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4733583629131317,
      "learning_rate": 0.00034742528243380513,
      "loss": 1.6316,
      "step": 40529
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46184656023979187,
      "learning_rate": 0.00034741496171738015,
      "loss": 1.5923,
      "step": 40530
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4465104639530182,
      "learning_rate": 0.0003474046409434005,
      "loss": 1.6692,
      "step": 40531
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4580036401748657,
      "learning_rate": 0.00034739432011187863,
      "loss": 1.5926,
      "step": 40532
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4697694480419159,
      "learning_rate": 0.000347383999222827,
      "loss": 1.5761,
      "step": 40533
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4563664197921753,
      "learning_rate": 0.00034737367827625823,
      "loss": 1.5782,
      "step": 40534
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44920748472213745,
      "learning_rate": 0.00034736335727218466,
      "loss": 1.5523,
      "step": 40535
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4661857485771179,
      "learning_rate": 0.00034735303621061914,
      "loss": 1.6967,
      "step": 40536
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4513756036758423,
      "learning_rate": 0.0003473427150915738,
      "loss": 1.6229,
      "step": 40537
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45405763387680054,
      "learning_rate": 0.00034733239391506154,
      "loss": 1.6224,
      "step": 40538
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4704139530658722,
      "learning_rate": 0.0003473220726810947,
      "loss": 1.6617,
      "step": 40539
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4871780276298523,
      "learning_rate": 0.0003473117513896858,
      "loss": 1.5775,
      "step": 40540
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4515484869480133,
      "learning_rate": 0.0003473014300408475,
      "loss": 1.5488,
      "step": 40541
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47096413373947144,
      "learning_rate": 0.000347291108634592,
      "loss": 1.5764,
      "step": 40542
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45212802290916443,
      "learning_rate": 0.00034728078717093233,
      "loss": 1.6236,
      "step": 40543
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4578078091144562,
      "learning_rate": 0.00034727046564988063,
      "loss": 1.587,
      "step": 40544
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.457687109708786,
      "learning_rate": 0.00034726014407144955,
      "loss": 1.5718,
      "step": 40545
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4545203447341919,
      "learning_rate": 0.0003472498224356516,
      "loss": 1.6378,
      "step": 40546
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46458443999290466,
      "learning_rate": 0.00034723950074249933,
      "loss": 1.6882,
      "step": 40547
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47052738070487976,
      "learning_rate": 0.00034722917899200536,
      "loss": 1.6643,
      "step": 40548
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45324060320854187,
      "learning_rate": 0.00034721885718418203,
      "loss": 1.6298,
      "step": 40549
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44695520401000977,
      "learning_rate": 0.00034720853531904197,
      "loss": 1.6495,
      "step": 40550
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45860859751701355,
      "learning_rate": 0.00034719821339659776,
      "loss": 1.6475,
      "step": 40551
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4724150598049164,
      "learning_rate": 0.0003471878914168618,
      "loss": 1.6108,
      "step": 40552
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47037220001220703,
      "learning_rate": 0.0003471775693798467,
      "loss": 1.624,
      "step": 40553
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47218960523605347,
      "learning_rate": 0.00034716724728556513,
      "loss": 1.6136,
      "step": 40554
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47814130783081055,
      "learning_rate": 0.00034715692513402933,
      "loss": 1.5536,
      "step": 40555
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4511820077896118,
      "learning_rate": 0.00034714660292525193,
      "loss": 1.6468,
      "step": 40556
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4532566964626312,
      "learning_rate": 0.0003471362806592456,
      "loss": 1.5864,
      "step": 40557
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4820774793624878,
      "learning_rate": 0.0003471259583360227,
      "loss": 1.6325,
      "step": 40558
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4785228669643402,
      "learning_rate": 0.0003471156359555959,
      "loss": 1.6357,
      "step": 40559
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4575548768043518,
      "learning_rate": 0.0003471053135179776,
      "loss": 1.669,
      "step": 40560
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.48078474402427673,
      "learning_rate": 0.00034709499102318045,
      "loss": 1.6897,
      "step": 40561
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45386162400245667,
      "learning_rate": 0.00034708466847121686,
      "loss": 1.5846,
      "step": 40562
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4593181014060974,
      "learning_rate": 0.00034707434586209944,
      "loss": 1.6344,
      "step": 40563
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4577360153198242,
      "learning_rate": 0.0003470640231958407,
      "loss": 1.6905,
      "step": 40564
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4695807099342346,
      "learning_rate": 0.00034705370047245315,
      "loss": 1.643,
      "step": 40565
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4781818687915802,
      "learning_rate": 0.00034704337769194944,
      "loss": 1.6565,
      "step": 40566
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4436039626598358,
      "learning_rate": 0.0003470330548543419,
      "loss": 1.627,
      "step": 40567
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4587146043777466,
      "learning_rate": 0.00034702273195964323,
      "loss": 1.5584,
      "step": 40568
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44426244497299194,
      "learning_rate": 0.00034701240900786583,
      "loss": 1.6028,
      "step": 40569
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4660104513168335,
      "learning_rate": 0.0003470020859990223,
      "loss": 1.6715,
      "step": 40570
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4551908075809479,
      "learning_rate": 0.00034699176293312515,
      "loss": 1.6766,
      "step": 40571
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5025204420089722,
      "learning_rate": 0.0003469814398101869,
      "loss": 1.6509,
      "step": 40572
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4684506058692932,
      "learning_rate": 0.0003469711166302203,
      "loss": 1.6419,
      "step": 40573
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45263445377349854,
      "learning_rate": 0.0003469607933932375,
      "loss": 1.5789,
      "step": 40574
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4654238224029541,
      "learning_rate": 0.00034695047009925125,
      "loss": 1.5942,
      "step": 40575
    },
    {
      "epoch": 1.35,
      "grad_norm": 1.0567004680633545,
      "learning_rate": 0.0003469401467482741,
      "loss": 1.6479,
      "step": 40576
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4486715793609619,
      "learning_rate": 0.0003469298233403184,
      "loss": 1.7091,
      "step": 40577
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4814656674861908,
      "learning_rate": 0.0003469194998753969,
      "loss": 1.5601,
      "step": 40578
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4429302215576172,
      "learning_rate": 0.000346909176353522,
      "loss": 1.634,
      "step": 40579
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4592542350292206,
      "learning_rate": 0.00034689885277470637,
      "loss": 1.6239,
      "step": 40580
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45618265867233276,
      "learning_rate": 0.00034688852913896236,
      "loss": 1.5043,
      "step": 40581
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4486313760280609,
      "learning_rate": 0.0003468782054463026,
      "loss": 1.6375,
      "step": 40582
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4465523660182953,
      "learning_rate": 0.0003468678816967396,
      "loss": 1.58,
      "step": 40583
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5667577981948853,
      "learning_rate": 0.00034685755789028595,
      "loss": 1.5948,
      "step": 40584
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43774640560150146,
      "learning_rate": 0.000346847234026954,
      "loss": 1.5335,
      "step": 40585
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45517054200172424,
      "learning_rate": 0.00034683691010675656,
      "loss": 1.643,
      "step": 40586
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4660191833972931,
      "learning_rate": 0.00034682658612970597,
      "loss": 1.7202,
      "step": 40587
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45075127482414246,
      "learning_rate": 0.0003468162620958147,
      "loss": 1.6958,
      "step": 40588
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4716724455356598,
      "learning_rate": 0.0003468059380050956,
      "loss": 1.6582,
      "step": 40589
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5497727990150452,
      "learning_rate": 0.00034679561385756076,
      "loss": 1.6692,
      "step": 40590
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4583973288536072,
      "learning_rate": 0.00034678528965322307,
      "loss": 1.5365,
      "step": 40591
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44560402631759644,
      "learning_rate": 0.00034677496539209477,
      "loss": 1.5375,
      "step": 40592
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4671233594417572,
      "learning_rate": 0.0003467646410741888,
      "loss": 1.6041,
      "step": 40593
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4460461139678955,
      "learning_rate": 0.00034675431669951726,
      "loss": 1.6436,
      "step": 40594
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4776337146759033,
      "learning_rate": 0.00034674399226809294,
      "loss": 1.6037,
      "step": 40595
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44281041622161865,
      "learning_rate": 0.0003467336677799283,
      "loss": 1.6084,
      "step": 40596
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4777476191520691,
      "learning_rate": 0.00034672334323503583,
      "loss": 1.5959,
      "step": 40597
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45753365755081177,
      "learning_rate": 0.00034671301863342825,
      "loss": 1.603,
      "step": 40598
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5658213496208191,
      "learning_rate": 0.0003467026939751177,
      "loss": 1.6239,
      "step": 40599
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44999560713768005,
      "learning_rate": 0.0003466923692601172,
      "loss": 1.6582,
      "step": 40600
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44651004672050476,
      "learning_rate": 0.0003466820444884389,
      "loss": 1.6222,
      "step": 40601
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45646047592163086,
      "learning_rate": 0.00034667171966009557,
      "loss": 1.6786,
      "step": 40602
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4695718586444855,
      "learning_rate": 0.00034666139477509966,
      "loss": 1.6797,
      "step": 40603
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44687551259994507,
      "learning_rate": 0.0003466510698334635,
      "loss": 1.639,
      "step": 40604
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.49742379784584045,
      "learning_rate": 0.00034664074483520003,
      "loss": 1.5455,
      "step": 40605
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4762158989906311,
      "learning_rate": 0.00034663041978032146,
      "loss": 1.676,
      "step": 40606
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45672523975372314,
      "learning_rate": 0.0003466200946688405,
      "loss": 1.654,
      "step": 40607
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45450130105018616,
      "learning_rate": 0.00034660976950076953,
      "loss": 1.5723,
      "step": 40608
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43744170665740967,
      "learning_rate": 0.00034659944427612116,
      "loss": 1.6096,
      "step": 40609
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5789136290550232,
      "learning_rate": 0.000346589118994908,
      "loss": 1.5862,
      "step": 40610
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.464807391166687,
      "learning_rate": 0.00034657879365714256,
      "loss": 1.62,
      "step": 40611
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4529915452003479,
      "learning_rate": 0.00034656846826283726,
      "loss": 1.661,
      "step": 40612
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44801434874534607,
      "learning_rate": 0.00034655814281200464,
      "loss": 1.5965,
      "step": 40613
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45643216371536255,
      "learning_rate": 0.0003465478173046574,
      "loss": 1.5879,
      "step": 40614
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4555346369743347,
      "learning_rate": 0.0003465374917408079,
      "loss": 1.5734,
      "step": 40615
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44969162344932556,
      "learning_rate": 0.0003465271661204688,
      "loss": 1.6437,
      "step": 40616
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4643559753894806,
      "learning_rate": 0.00034651684044365255,
      "loss": 1.6794,
      "step": 40617
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46243369579315186,
      "learning_rate": 0.00034650651471037166,
      "loss": 1.6385,
      "step": 40618
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47859862446784973,
      "learning_rate": 0.00034649618892063875,
      "loss": 1.6409,
      "step": 40619
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4710228145122528,
      "learning_rate": 0.00034648586307446633,
      "loss": 1.6629,
      "step": 40620
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46757832169532776,
      "learning_rate": 0.000346475537171867,
      "loss": 1.6113,
      "step": 40621
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45119524002075195,
      "learning_rate": 0.00034646521121285305,
      "loss": 1.6739,
      "step": 40622
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44214874505996704,
      "learning_rate": 0.00034645488519743727,
      "loss": 1.5937,
      "step": 40623
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46703505516052246,
      "learning_rate": 0.00034644455912563214,
      "loss": 1.7227,
      "step": 40624
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4741731882095337,
      "learning_rate": 0.00034643423299745007,
      "loss": 1.6762,
      "step": 40625
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45214951038360596,
      "learning_rate": 0.0003464239068129037,
      "loss": 1.6194,
      "step": 40626
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4450388550758362,
      "learning_rate": 0.00034641358057200557,
      "loss": 1.6231,
      "step": 40627
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44788575172424316,
      "learning_rate": 0.00034640325427476824,
      "loss": 1.5735,
      "step": 40628
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46722671389579773,
      "learning_rate": 0.00034639292792120407,
      "loss": 1.6292,
      "step": 40629
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45265209674835205,
      "learning_rate": 0.0003463826015113259,
      "loss": 1.5585,
      "step": 40630
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.49443960189819336,
      "learning_rate": 0.000346372275045146,
      "loss": 1.5861,
      "step": 40631
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4467448592185974,
      "learning_rate": 0.00034636194852267696,
      "loss": 1.6249,
      "step": 40632
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4463021457195282,
      "learning_rate": 0.0003463516219439313,
      "loss": 1.5562,
      "step": 40633
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4604187607765198,
      "learning_rate": 0.00034634129530892164,
      "loss": 1.5909,
      "step": 40634
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4908888339996338,
      "learning_rate": 0.00034633096861766063,
      "loss": 1.5709,
      "step": 40635
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45519664883613586,
      "learning_rate": 0.0003463206418701605,
      "loss": 1.634,
      "step": 40636
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44589361548423767,
      "learning_rate": 0.00034631031506643394,
      "loss": 1.6715,
      "step": 40637
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.462818443775177,
      "learning_rate": 0.00034629998820649347,
      "loss": 1.5984,
      "step": 40638
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45978832244873047,
      "learning_rate": 0.0003462896612903517,
      "loss": 1.7668,
      "step": 40639
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47136232256889343,
      "learning_rate": 0.000346279334318021,
      "loss": 1.6346,
      "step": 40640
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4623252749443054,
      "learning_rate": 0.0003462690072895141,
      "loss": 1.6501,
      "step": 40641
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47860202193260193,
      "learning_rate": 0.00034625868020484346,
      "loss": 1.5814,
      "step": 40642
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4538556635379791,
      "learning_rate": 0.00034624835306402155,
      "loss": 1.6267,
      "step": 40643
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45337975025177,
      "learning_rate": 0.00034623802586706095,
      "loss": 1.6195,
      "step": 40644
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44708067178726196,
      "learning_rate": 0.0003462276986139742,
      "loss": 1.6947,
      "step": 40645
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44778352975845337,
      "learning_rate": 0.00034621737130477394,
      "loss": 1.5507,
      "step": 40646
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4544563591480255,
      "learning_rate": 0.0003462070439394724,
      "loss": 1.6207,
      "step": 40647
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4631683826446533,
      "learning_rate": 0.00034619671651808245,
      "loss": 1.5558,
      "step": 40648
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43795517086982727,
      "learning_rate": 0.00034618638904061646,
      "loss": 1.6046,
      "step": 40649
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44853660464286804,
      "learning_rate": 0.00034617606150708704,
      "loss": 1.6199,
      "step": 40650
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46706292033195496,
      "learning_rate": 0.00034616573391750663,
      "loss": 1.5726,
      "step": 40651
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45443615317344666,
      "learning_rate": 0.0003461554062718878,
      "loss": 1.6522,
      "step": 40652
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46909406781196594,
      "learning_rate": 0.00034614507857024315,
      "loss": 1.6023,
      "step": 40653
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4407644271850586,
      "learning_rate": 0.0003461347508125851,
      "loss": 1.5646,
      "step": 40654
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45654505491256714,
      "learning_rate": 0.0003461244229989264,
      "loss": 1.6805,
      "step": 40655
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46562862396240234,
      "learning_rate": 0.00034611409512927936,
      "loss": 1.6345,
      "step": 40656
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4561511278152466,
      "learning_rate": 0.0003461037672036566,
      "loss": 1.6688,
      "step": 40657
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4630177617073059,
      "learning_rate": 0.0003460934392220708,
      "loss": 1.5478,
      "step": 40658
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.446625292301178,
      "learning_rate": 0.00034608311118453414,
      "loss": 1.6485,
      "step": 40659
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4527166783809662,
      "learning_rate": 0.0003460727830910595,
      "loss": 1.5958,
      "step": 40660
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4744054079055786,
      "learning_rate": 0.0003460624549416593,
      "loss": 1.6091,
      "step": 40661
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45047739148139954,
      "learning_rate": 0.000346052126736346,
      "loss": 1.5602,
      "step": 40662
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4576170742511749,
      "learning_rate": 0.0003460417984751322,
      "loss": 1.6785,
      "step": 40663
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.505374550819397,
      "learning_rate": 0.00034603147015803046,
      "loss": 1.6026,
      "step": 40664
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4603584408760071,
      "learning_rate": 0.00034602114178505333,
      "loss": 1.6361,
      "step": 40665
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47100481390953064,
      "learning_rate": 0.00034601081335621333,
      "loss": 1.5602,
      "step": 40666
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4556328058242798,
      "learning_rate": 0.0003460004848715229,
      "loss": 1.6294,
      "step": 40667
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46636641025543213,
      "learning_rate": 0.0003459901563309947,
      "loss": 1.5875,
      "step": 40668
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4677393138408661,
      "learning_rate": 0.00034597982773464125,
      "loss": 1.6013,
      "step": 40669
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4294481575489044,
      "learning_rate": 0.00034596949908247506,
      "loss": 1.611,
      "step": 40670
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4531944692134857,
      "learning_rate": 0.0003459591703745087,
      "loss": 1.5689,
      "step": 40671
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46124324202537537,
      "learning_rate": 0.00034594884161075456,
      "loss": 1.63,
      "step": 40672
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4500700831413269,
      "learning_rate": 0.0003459385127912254,
      "loss": 1.5564,
      "step": 40673
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45177045464515686,
      "learning_rate": 0.0003459281839159336,
      "loss": 1.6083,
      "step": 40674
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46203070878982544,
      "learning_rate": 0.00034591785498489175,
      "loss": 1.6602,
      "step": 40675
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43724367022514343,
      "learning_rate": 0.0003459075259981125,
      "loss": 1.5494,
      "step": 40676
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45122286677360535,
      "learning_rate": 0.00034589719695560814,
      "loss": 1.6538,
      "step": 40677
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.6755871772766113,
      "learning_rate": 0.0003458868678573914,
      "loss": 1.6723,
      "step": 40678
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45145857334136963,
      "learning_rate": 0.0003458765387034748,
      "loss": 1.7056,
      "step": 40679
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44301730394363403,
      "learning_rate": 0.00034586620949387083,
      "loss": 1.608,
      "step": 40680
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46046361327171326,
      "learning_rate": 0.00034585588022859195,
      "loss": 1.6125,
      "step": 40681
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46292704343795776,
      "learning_rate": 0.00034584555090765083,
      "loss": 1.6337,
      "step": 40682
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45744508504867554,
      "learning_rate": 0.00034583522153106006,
      "loss": 1.5288,
      "step": 40683
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43523749709129333,
      "learning_rate": 0.00034582489209883193,
      "loss": 1.5816,
      "step": 40684
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4571051001548767,
      "learning_rate": 0.0003458145626109793,
      "loss": 1.7232,
      "step": 40685
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4491897523403168,
      "learning_rate": 0.0003458042330675144,
      "loss": 1.5954,
      "step": 40686
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.49043193459510803,
      "learning_rate": 0.00034579390346845,
      "loss": 1.615,
      "step": 40687
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47985735535621643,
      "learning_rate": 0.0003457835738137985,
      "loss": 1.6242,
      "step": 40688
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46436819434165955,
      "learning_rate": 0.0003457732441035725,
      "loss": 1.5538,
      "step": 40689
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45045268535614014,
      "learning_rate": 0.0003457629143377846,
      "loss": 1.6478,
      "step": 40690
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.453177273273468,
      "learning_rate": 0.0003457525845164472,
      "loss": 1.6574,
      "step": 40691
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4639250338077545,
      "learning_rate": 0.00034574225463957284,
      "loss": 1.6505,
      "step": 40692
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46102723479270935,
      "learning_rate": 0.00034573192470717417,
      "loss": 1.6495,
      "step": 40693
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45941850543022156,
      "learning_rate": 0.0003457215947192637,
      "loss": 1.7038,
      "step": 40694
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46804580092430115,
      "learning_rate": 0.0003457112646758539,
      "loss": 1.6231,
      "step": 40695
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4548424780368805,
      "learning_rate": 0.0003457009345769575,
      "loss": 1.6613,
      "step": 40696
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4639211893081665,
      "learning_rate": 0.0003456906044225868,
      "loss": 1.6407,
      "step": 40697
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4398577809333801,
      "learning_rate": 0.00034568027421275435,
      "loss": 1.5899,
      "step": 40698
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4704141914844513,
      "learning_rate": 0.0003456699439474729,
      "loss": 1.669,
      "step": 40699
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4601036608219147,
      "learning_rate": 0.0003456596136267549,
      "loss": 1.6143,
      "step": 40700
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4452660083770752,
      "learning_rate": 0.00034564928325061275,
      "loss": 1.581,
      "step": 40701
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44416147470474243,
      "learning_rate": 0.0003456389528190591,
      "loss": 1.6727,
      "step": 40702
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4501638412475586,
      "learning_rate": 0.0003456286223321066,
      "loss": 1.5477,
      "step": 40703
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4517126679420471,
      "learning_rate": 0.00034561829178976754,
      "loss": 1.5924,
      "step": 40704
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4665795564651489,
      "learning_rate": 0.00034560796119205466,
      "loss": 1.6667,
      "step": 40705
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44759005308151245,
      "learning_rate": 0.00034559763053898046,
      "loss": 1.5984,
      "step": 40706
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4558729827404022,
      "learning_rate": 0.00034558729983055736,
      "loss": 1.6273,
      "step": 40707
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4537944197654724,
      "learning_rate": 0.0003455769690667981,
      "loss": 1.6083,
      "step": 40708
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.47043073177337646,
      "learning_rate": 0.00034556663824771505,
      "loss": 1.6503,
      "step": 40709
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45601508021354675,
      "learning_rate": 0.0003455563073733209,
      "loss": 1.6169,
      "step": 40710
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45057687163352966,
      "learning_rate": 0.000345545976443628,
      "loss": 1.6056,
      "step": 40711
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.48181474208831787,
      "learning_rate": 0.00034553564545864904,
      "loss": 1.6643,
      "step": 40712
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4930582344532013,
      "learning_rate": 0.00034552531441839655,
      "loss": 1.6838,
      "step": 40713
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4522213041782379,
      "learning_rate": 0.00034551498332288297,
      "loss": 1.5751,
      "step": 40714
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44384410977363586,
      "learning_rate": 0.000345504652172121,
      "loss": 1.6095,
      "step": 40715
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4734552800655365,
      "learning_rate": 0.000345494320966123,
      "loss": 1.6344,
      "step": 40716
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44224587082862854,
      "learning_rate": 0.00034548398970490164,
      "loss": 1.5865,
      "step": 40717
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.43657347559928894,
      "learning_rate": 0.0003454736583884694,
      "loss": 1.61,
      "step": 40718
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4567044973373413,
      "learning_rate": 0.00034546332701683886,
      "loss": 1.5719,
      "step": 40719
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44637492299079895,
      "learning_rate": 0.00034545299559002253,
      "loss": 1.5912,
      "step": 40720
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4499434530735016,
      "learning_rate": 0.0003454426641080329,
      "loss": 1.6637,
      "step": 40721
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.458240807056427,
      "learning_rate": 0.0003454323325708827,
      "loss": 1.5968,
      "step": 40722
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4335358440876007,
      "learning_rate": 0.0003454220009785842,
      "loss": 1.6668,
      "step": 40723
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.45541849732398987,
      "learning_rate": 0.00034541166933115013,
      "loss": 1.6675,
      "step": 40724
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4615904688835144,
      "learning_rate": 0.000345401337628593,
      "loss": 1.6191,
      "step": 40725
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.46858906745910645,
      "learning_rate": 0.00034539100587092534,
      "loss": 1.7174,
      "step": 40726
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.44409605860710144,
      "learning_rate": 0.0003453806740581597,
      "loss": 1.4914,
      "step": 40727
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4330478310585022,
      "learning_rate": 0.00034537034219030865,
      "loss": 1.6023,
      "step": 40728
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4479823708534241,
      "learning_rate": 0.00034536001026738456,
      "loss": 1.5309,
      "step": 40729
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4481496214866638,
      "learning_rate": 0.00034534967828940024,
      "loss": 1.5934,
      "step": 40730
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4431520104408264,
      "learning_rate": 0.000345339346256368,
      "loss": 1.6964,
      "step": 40731
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4326709806919098,
      "learning_rate": 0.0003453290141683005,
      "loss": 1.5662,
      "step": 40732
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45374420285224915,
      "learning_rate": 0.00034531868202521035,
      "loss": 1.6871,
      "step": 40733
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4667712450027466,
      "learning_rate": 0.00034530834982710983,
      "loss": 1.6276,
      "step": 40734
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4707624018192291,
      "learning_rate": 0.00034529801757401176,
      "loss": 1.662,
      "step": 40735
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4561024308204651,
      "learning_rate": 0.0003452876852659285,
      "loss": 1.6463,
      "step": 40736
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4647928476333618,
      "learning_rate": 0.0003452773529028727,
      "loss": 1.6108,
      "step": 40737
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45882028341293335,
      "learning_rate": 0.0003452670204848569,
      "loss": 1.6148,
      "step": 40738
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45300188660621643,
      "learning_rate": 0.0003452566880118935,
      "loss": 1.5386,
      "step": 40739
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46685150265693665,
      "learning_rate": 0.0003452463554839953,
      "loss": 1.6196,
      "step": 40740
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4615054428577423,
      "learning_rate": 0.00034523602290117457,
      "loss": 1.6122,
      "step": 40741
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4643298387527466,
      "learning_rate": 0.000345225690263444,
      "loss": 1.6342,
      "step": 40742
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47449031472206116,
      "learning_rate": 0.0003452153575708161,
      "loss": 1.6064,
      "step": 40743
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4571351408958435,
      "learning_rate": 0.0003452050248233034,
      "loss": 1.6377,
      "step": 40744
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.929307222366333,
      "learning_rate": 0.0003451946920209186,
      "loss": 1.5563,
      "step": 40745
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4459673762321472,
      "learning_rate": 0.00034518435916367396,
      "loss": 1.5782,
      "step": 40746
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4450267553329468,
      "learning_rate": 0.00034517402625158225,
      "loss": 1.6455,
      "step": 40747
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4478532373905182,
      "learning_rate": 0.0003451636932846558,
      "loss": 1.5941,
      "step": 40748
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47063350677490234,
      "learning_rate": 0.0003451533602629074,
      "loss": 1.5321,
      "step": 40749
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4656076431274414,
      "learning_rate": 0.00034514302718634943,
      "loss": 1.7072,
      "step": 40750
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4429507851600647,
      "learning_rate": 0.00034513269405499447,
      "loss": 1.6396,
      "step": 40751
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4432789087295532,
      "learning_rate": 0.00034512236086885515,
      "loss": 1.6515,
      "step": 40752
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4668462872505188,
      "learning_rate": 0.0003451120276279439,
      "loss": 1.5684,
      "step": 40753
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4514608383178711,
      "learning_rate": 0.0003451016943322732,
      "loss": 1.5688,
      "step": 40754
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.460821270942688,
      "learning_rate": 0.00034509136098185574,
      "loss": 1.6166,
      "step": 40755
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4598061740398407,
      "learning_rate": 0.00034508102757670406,
      "loss": 1.6218,
      "step": 40756
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46345585584640503,
      "learning_rate": 0.00034507069411683053,
      "loss": 1.5704,
      "step": 40757
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46172791719436646,
      "learning_rate": 0.000345060360602248,
      "loss": 1.5712,
      "step": 40758
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4507884979248047,
      "learning_rate": 0.00034505002703296876,
      "loss": 1.6718,
      "step": 40759
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45760294795036316,
      "learning_rate": 0.00034503969340900535,
      "loss": 1.6256,
      "step": 40760
    },
    {
      "epoch": 1.36,
      "grad_norm": 1.4564054012298584,
      "learning_rate": 0.00034502935973037044,
      "loss": 1.6677,
      "step": 40761
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4672256112098694,
      "learning_rate": 0.0003450190259970766,
      "loss": 1.5615,
      "step": 40762
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46699073910713196,
      "learning_rate": 0.0003450086922091362,
      "loss": 1.636,
      "step": 40763
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4470844864845276,
      "learning_rate": 0.0003449983583665618,
      "loss": 1.6191,
      "step": 40764
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45842599868774414,
      "learning_rate": 0.0003449880244693662,
      "loss": 1.5771,
      "step": 40765
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4368012845516205,
      "learning_rate": 0.00034497769051756164,
      "loss": 1.6389,
      "step": 40766
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4620632529258728,
      "learning_rate": 0.0003449673565111609,
      "loss": 1.5951,
      "step": 40767
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46835723519325256,
      "learning_rate": 0.0003449570224501764,
      "loss": 1.5745,
      "step": 40768
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46564409136772156,
      "learning_rate": 0.00034494668833462053,
      "loss": 1.5864,
      "step": 40769
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4442214369773865,
      "learning_rate": 0.00034493635416450616,
      "loss": 1.5713,
      "step": 40770
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45538344979286194,
      "learning_rate": 0.00034492601993984563,
      "loss": 1.6092,
      "step": 40771
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44663500785827637,
      "learning_rate": 0.0003449156856606516,
      "loss": 1.653,
      "step": 40772
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44814202189445496,
      "learning_rate": 0.00034490535132693646,
      "loss": 1.6177,
      "step": 40773
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48767319321632385,
      "learning_rate": 0.00034489501693871287,
      "loss": 1.6219,
      "step": 40774
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46982452273368835,
      "learning_rate": 0.00034488468249599337,
      "loss": 1.5894,
      "step": 40775
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4750992953777313,
      "learning_rate": 0.0003448743479987904,
      "loss": 1.5766,
      "step": 40776
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4462652802467346,
      "learning_rate": 0.0003448640134471167,
      "loss": 1.6042,
      "step": 40777
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4859400689601898,
      "learning_rate": 0.0003448536788409846,
      "loss": 1.6476,
      "step": 40778
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4608680009841919,
      "learning_rate": 0.00034484334418040684,
      "loss": 1.5316,
      "step": 40779
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46881189942359924,
      "learning_rate": 0.0003448330094653957,
      "loss": 1.6254,
      "step": 40780
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4508891999721527,
      "learning_rate": 0.00034482267469596403,
      "loss": 1.5604,
      "step": 40781
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4427510201931,
      "learning_rate": 0.00034481233987212426,
      "loss": 1.599,
      "step": 40782
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4702872037887573,
      "learning_rate": 0.0003448020049938889,
      "loss": 1.6052,
      "step": 40783
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48806577920913696,
      "learning_rate": 0.00034479167006127036,
      "loss": 1.6634,
      "step": 40784
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4345220923423767,
      "learning_rate": 0.0003447813350742815,
      "loss": 1.6015,
      "step": 40785
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4534027576446533,
      "learning_rate": 0.00034477100003293455,
      "loss": 1.596,
      "step": 40786
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4316733479499817,
      "learning_rate": 0.0003447606649372423,
      "loss": 1.5802,
      "step": 40787
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.456489622592926,
      "learning_rate": 0.00034475032978721723,
      "loss": 1.5952,
      "step": 40788
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4463666081428528,
      "learning_rate": 0.00034473999458287184,
      "loss": 1.6322,
      "step": 40789
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45679545402526855,
      "learning_rate": 0.00034472965932421865,
      "loss": 1.5724,
      "step": 40790
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4730249047279358,
      "learning_rate": 0.00034471932401127024,
      "loss": 1.6721,
      "step": 40791
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4403551518917084,
      "learning_rate": 0.00034470898864403913,
      "loss": 1.6328,
      "step": 40792
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44179385900497437,
      "learning_rate": 0.000344698653222538,
      "loss": 1.5386,
      "step": 40793
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4824582040309906,
      "learning_rate": 0.0003446883177467792,
      "loss": 1.7305,
      "step": 40794
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44589293003082275,
      "learning_rate": 0.0003446779822167754,
      "loss": 1.5914,
      "step": 40795
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4621003270149231,
      "learning_rate": 0.00034466764663253907,
      "loss": 1.6802,
      "step": 40796
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44985753297805786,
      "learning_rate": 0.00034465731099408287,
      "loss": 1.6233,
      "step": 40797
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4652875065803528,
      "learning_rate": 0.00034464697530141926,
      "loss": 1.6339,
      "step": 40798
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46239417791366577,
      "learning_rate": 0.00034463663955456073,
      "loss": 1.5771,
      "step": 40799
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4544222950935364,
      "learning_rate": 0.00034462630375351995,
      "loss": 1.6431,
      "step": 40800
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4584640860557556,
      "learning_rate": 0.0003446159678983094,
      "loss": 1.6271,
      "step": 40801
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.43370306491851807,
      "learning_rate": 0.00034460563198894165,
      "loss": 1.6102,
      "step": 40802
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.43169766664505005,
      "learning_rate": 0.00034459529602542927,
      "loss": 1.6405,
      "step": 40803
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46091535687446594,
      "learning_rate": 0.0003445849600077847,
      "loss": 1.6742,
      "step": 40804
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47015851736068726,
      "learning_rate": 0.0003445746239360206,
      "loss": 1.6471,
      "step": 40805
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44996923208236694,
      "learning_rate": 0.00034456428781014947,
      "loss": 1.6642,
      "step": 40806
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4478706121444702,
      "learning_rate": 0.0003445539516301839,
      "loss": 1.672,
      "step": 40807
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46413737535476685,
      "learning_rate": 0.00034454361539613634,
      "loss": 1.6304,
      "step": 40808
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4468446969985962,
      "learning_rate": 0.00034453327910801936,
      "loss": 1.5799,
      "step": 40809
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48613086342811584,
      "learning_rate": 0.0003445229427658456,
      "loss": 1.712,
      "step": 40810
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4403941333293915,
      "learning_rate": 0.0003445126063696275,
      "loss": 1.6028,
      "step": 40811
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4669693112373352,
      "learning_rate": 0.0003445022699193777,
      "loss": 1.6553,
      "step": 40812
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46632635593414307,
      "learning_rate": 0.00034449193341510876,
      "loss": 1.568,
      "step": 40813
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44838693737983704,
      "learning_rate": 0.0003444815968568331,
      "loss": 1.5356,
      "step": 40814
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4450647532939911,
      "learning_rate": 0.0003444712602445633,
      "loss": 1.6252,
      "step": 40815
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4553047716617584,
      "learning_rate": 0.00034446092357831197,
      "loss": 1.6169,
      "step": 40816
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46749287843704224,
      "learning_rate": 0.00034445058685809163,
      "loss": 1.6588,
      "step": 40817
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44497111439704895,
      "learning_rate": 0.0003444402500839149,
      "loss": 1.586,
      "step": 40818
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4916653633117676,
      "learning_rate": 0.0003444299132557941,
      "loss": 1.6738,
      "step": 40819
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45474135875701904,
      "learning_rate": 0.00034441957637374213,
      "loss": 1.5611,
      "step": 40820
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4474838376045227,
      "learning_rate": 0.0003444092394377712,
      "loss": 1.6181,
      "step": 40821
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4503900110721588,
      "learning_rate": 0.000344398902447894,
      "loss": 1.563,
      "step": 40822
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45013678073883057,
      "learning_rate": 0.0003443885654041232,
      "loss": 1.6288,
      "step": 40823
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46721351146698,
      "learning_rate": 0.00034437822830647106,
      "loss": 1.6689,
      "step": 40824
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4568350911140442,
      "learning_rate": 0.00034436789115495033,
      "loss": 1.5491,
      "step": 40825
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45910876989364624,
      "learning_rate": 0.00034435755394957355,
      "loss": 1.5895,
      "step": 40826
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46012166142463684,
      "learning_rate": 0.00034434721669035327,
      "loss": 1.5515,
      "step": 40827
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4714062511920929,
      "learning_rate": 0.0003443368793773019,
      "loss": 1.6439,
      "step": 40828
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46552222967147827,
      "learning_rate": 0.0003443265420104322,
      "loss": 1.6499,
      "step": 40829
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4811632037162781,
      "learning_rate": 0.0003443162045897566,
      "loss": 1.6902,
      "step": 40830
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45967453718185425,
      "learning_rate": 0.0003443058671152875,
      "loss": 1.6115,
      "step": 40831
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4452974498271942,
      "learning_rate": 0.0003442955295870378,
      "loss": 1.5804,
      "step": 40832
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4857103228569031,
      "learning_rate": 0.00034428519200501974,
      "loss": 1.6551,
      "step": 40833
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4573362469673157,
      "learning_rate": 0.000344274854369246,
      "loss": 1.6212,
      "step": 40834
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47027164697647095,
      "learning_rate": 0.00034426451667972916,
      "loss": 1.552,
      "step": 40835
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45844224095344543,
      "learning_rate": 0.0003442541789364817,
      "loss": 1.5563,
      "step": 40836
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4562026858329773,
      "learning_rate": 0.0003442438411395162,
      "loss": 1.6394,
      "step": 40837
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4725962281227112,
      "learning_rate": 0.0003442335032888451,
      "loss": 1.6083,
      "step": 40838
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4517352283000946,
      "learning_rate": 0.0003442231653844812,
      "loss": 1.5521,
      "step": 40839
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44466012716293335,
      "learning_rate": 0.00034421282742643676,
      "loss": 1.5919,
      "step": 40840
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44432520866394043,
      "learning_rate": 0.0003442024894147245,
      "loss": 1.6222,
      "step": 40841
    },
    {
      "epoch": 1.36,
      "grad_norm": 1.3876491785049438,
      "learning_rate": 0.000344192151349357,
      "loss": 1.6072,
      "step": 40842
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4619015157222748,
      "learning_rate": 0.00034418181323034666,
      "loss": 1.614,
      "step": 40843
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4680503308773041,
      "learning_rate": 0.00034417147505770617,
      "loss": 1.6306,
      "step": 40844
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.8766943216323853,
      "learning_rate": 0.000344161136831448,
      "loss": 1.6538,
      "step": 40845
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46161097288131714,
      "learning_rate": 0.0003441507985515846,
      "loss": 1.6288,
      "step": 40846
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44692373275756836,
      "learning_rate": 0.00034414046021812874,
      "loss": 1.5886,
      "step": 40847
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44469454884529114,
      "learning_rate": 0.00034413012183109285,
      "loss": 1.6467,
      "step": 40848
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4546171724796295,
      "learning_rate": 0.0003441197833904895,
      "loss": 1.589,
      "step": 40849
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.7046703696250916,
      "learning_rate": 0.00034410944489633125,
      "loss": 1.6944,
      "step": 40850
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45906883478164673,
      "learning_rate": 0.0003440991063486306,
      "loss": 1.6342,
      "step": 40851
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.43993905186653137,
      "learning_rate": 0.00034408876774740015,
      "loss": 1.6425,
      "step": 40852
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46382996439933777,
      "learning_rate": 0.00034407842909265246,
      "loss": 1.6164,
      "step": 40853
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4470808804035187,
      "learning_rate": 0.0003440680903844,
      "loss": 1.5979,
      "step": 40854
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4556441009044647,
      "learning_rate": 0.0003440577516226555,
      "loss": 1.6396,
      "step": 40855
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45838433504104614,
      "learning_rate": 0.00034404741280743114,
      "loss": 1.6521,
      "step": 40856
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46598586440086365,
      "learning_rate": 0.0003440370739387399,
      "loss": 1.6525,
      "step": 40857
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4678766131401062,
      "learning_rate": 0.0003440267350165941,
      "loss": 1.6136,
      "step": 40858
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45787885785102844,
      "learning_rate": 0.0003440163960410063,
      "loss": 1.6276,
      "step": 40859
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4807472825050354,
      "learning_rate": 0.0003440060570119891,
      "loss": 1.6165,
      "step": 40860
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4677508771419525,
      "learning_rate": 0.00034399571792955504,
      "loss": 1.5563,
      "step": 40861
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.43743422627449036,
      "learning_rate": 0.00034398537879371666,
      "loss": 1.5885,
      "step": 40862
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4640539288520813,
      "learning_rate": 0.00034397503960448646,
      "loss": 1.6455,
      "step": 40863
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4591069221496582,
      "learning_rate": 0.0003439647003618771,
      "loss": 1.6054,
      "step": 40864
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4642735719680786,
      "learning_rate": 0.0003439543610659011,
      "loss": 1.6045,
      "step": 40865
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45010820031166077,
      "learning_rate": 0.00034394402171657087,
      "loss": 1.6091,
      "step": 40866
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4685155749320984,
      "learning_rate": 0.0003439336823138991,
      "loss": 1.5498,
      "step": 40867
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.471140056848526,
      "learning_rate": 0.00034392334285789837,
      "loss": 1.6725,
      "step": 40868
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4648301899433136,
      "learning_rate": 0.00034391300334858123,
      "loss": 1.6002,
      "step": 40869
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.5588300228118896,
      "learning_rate": 0.00034390266378596005,
      "loss": 1.6033,
      "step": 40870
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4390943944454193,
      "learning_rate": 0.00034389232417004757,
      "loss": 1.6354,
      "step": 40871
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48092642426490784,
      "learning_rate": 0.00034388198450085625,
      "loss": 1.6643,
      "step": 40872
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45882657170295715,
      "learning_rate": 0.0003438716447783987,
      "loss": 1.6301,
      "step": 40873
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4549456536769867,
      "learning_rate": 0.0003438613050026874,
      "loss": 1.6765,
      "step": 40874
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4725617468357086,
      "learning_rate": 0.000343850965173735,
      "loss": 1.6292,
      "step": 40875
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4488215148448944,
      "learning_rate": 0.00034384062529155393,
      "loss": 1.6923,
      "step": 40876
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45039474964141846,
      "learning_rate": 0.0003438302853561568,
      "loss": 1.7187,
      "step": 40877
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4715055823326111,
      "learning_rate": 0.0003438199453675562,
      "loss": 1.656,
      "step": 40878
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4700522720813751,
      "learning_rate": 0.0003438096053257646,
      "loss": 1.6425,
      "step": 40879
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4554157555103302,
      "learning_rate": 0.0003437992652307946,
      "loss": 1.6002,
      "step": 40880
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44378358125686646,
      "learning_rate": 0.00034378892508265873,
      "loss": 1.7119,
      "step": 40881
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4520288109779358,
      "learning_rate": 0.0003437785848813696,
      "loss": 1.499,
      "step": 40882
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46050676703453064,
      "learning_rate": 0.0003437682446269397,
      "loss": 1.6048,
      "step": 40883
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45886704325675964,
      "learning_rate": 0.00034375790431938157,
      "loss": 1.6148,
      "step": 40884
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4765769839286804,
      "learning_rate": 0.00034374756395870795,
      "loss": 1.648,
      "step": 40885
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46384042501449585,
      "learning_rate": 0.00034373722354493104,
      "loss": 1.658,
      "step": 40886
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44970908761024475,
      "learning_rate": 0.00034372688307806367,
      "loss": 1.5923,
      "step": 40887
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45639568567276,
      "learning_rate": 0.0003437165425581182,
      "loss": 1.5432,
      "step": 40888
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46144917607307434,
      "learning_rate": 0.00034370620198510745,
      "loss": 1.6724,
      "step": 40889
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4685199558734894,
      "learning_rate": 0.00034369586135904375,
      "loss": 1.6246,
      "step": 40890
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4683900773525238,
      "learning_rate": 0.0003436855206799397,
      "loss": 1.5511,
      "step": 40891
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4631766974925995,
      "learning_rate": 0.0003436751799478079,
      "loss": 1.5681,
      "step": 40892
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45144689083099365,
      "learning_rate": 0.00034366483916266073,
      "loss": 1.5861,
      "step": 40893
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4536404013633728,
      "learning_rate": 0.00034365449832451104,
      "loss": 1.566,
      "step": 40894
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4693841338157654,
      "learning_rate": 0.00034364415743337113,
      "loss": 1.6827,
      "step": 40895
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46313217282295227,
      "learning_rate": 0.00034363381648925374,
      "loss": 1.6189,
      "step": 40896
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4648873805999756,
      "learning_rate": 0.00034362347549217123,
      "loss": 1.585,
      "step": 40897
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47154882550239563,
      "learning_rate": 0.0003436131344421363,
      "loss": 1.6147,
      "step": 40898
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46793532371520996,
      "learning_rate": 0.00034360279333916144,
      "loss": 1.5906,
      "step": 40899
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4454377293586731,
      "learning_rate": 0.00034359245218325914,
      "loss": 1.5839,
      "step": 40900
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44585391879081726,
      "learning_rate": 0.00034358211097444214,
      "loss": 1.5469,
      "step": 40901
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4529609680175781,
      "learning_rate": 0.0003435717697127228,
      "loss": 1.6135,
      "step": 40902
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.49360835552215576,
      "learning_rate": 0.00034356142839811374,
      "loss": 1.6151,
      "step": 40903
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44706639647483826,
      "learning_rate": 0.0003435510870306276,
      "loss": 1.6179,
      "step": 40904
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4584874212741852,
      "learning_rate": 0.0003435407456102769,
      "loss": 1.5772,
      "step": 40905
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4686727821826935,
      "learning_rate": 0.00034353040413707405,
      "loss": 1.5981,
      "step": 40906
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4680964946746826,
      "learning_rate": 0.00034352006261103164,
      "loss": 1.6595,
      "step": 40907
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4568921625614166,
      "learning_rate": 0.0003435097210321624,
      "loss": 1.6215,
      "step": 40908
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46761012077331543,
      "learning_rate": 0.00034349937940047874,
      "loss": 1.5475,
      "step": 40909
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4780656695365906,
      "learning_rate": 0.0003434890377159933,
      "loss": 1.6742,
      "step": 40910
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47162583470344543,
      "learning_rate": 0.0003434786959787185,
      "loss": 1.6517,
      "step": 40911
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.447329580783844,
      "learning_rate": 0.00034346835418866704,
      "loss": 1.6244,
      "step": 40912
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4559575915336609,
      "learning_rate": 0.00034345801234585133,
      "loss": 1.6396,
      "step": 40913
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4826011061668396,
      "learning_rate": 0.000343447670450284,
      "loss": 1.6976,
      "step": 40914
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4685623049736023,
      "learning_rate": 0.00034343732850197756,
      "loss": 1.564,
      "step": 40915
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4763094484806061,
      "learning_rate": 0.0003434269865009447,
      "loss": 1.5716,
      "step": 40916
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44865405559539795,
      "learning_rate": 0.0003434166444471979,
      "loss": 1.6054,
      "step": 40917
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4694371521472931,
      "learning_rate": 0.00034340630234074953,
      "loss": 1.6162,
      "step": 40918
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.467312216758728,
      "learning_rate": 0.0003433959601816124,
      "loss": 1.6483,
      "step": 40919
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45413270592689514,
      "learning_rate": 0.000343385617969799,
      "loss": 1.5804,
      "step": 40920
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47805431485176086,
      "learning_rate": 0.00034337527570532184,
      "loss": 1.6939,
      "step": 40921
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45708581805229187,
      "learning_rate": 0.0003433649333881935,
      "loss": 1.584,
      "step": 40922
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46016621589660645,
      "learning_rate": 0.0003433545910184264,
      "loss": 1.6136,
      "step": 40923
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4909108877182007,
      "learning_rate": 0.0003433442485960334,
      "loss": 1.6092,
      "step": 40924
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4611341655254364,
      "learning_rate": 0.00034333390612102676,
      "loss": 1.6676,
      "step": 40925
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4581657946109772,
      "learning_rate": 0.00034332356359341915,
      "loss": 1.6121,
      "step": 40926
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4538708031177521,
      "learning_rate": 0.0003433132210132231,
      "loss": 1.5985,
      "step": 40927
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46532195806503296,
      "learning_rate": 0.00034330287838045125,
      "loss": 1.648,
      "step": 40928
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48484447598457336,
      "learning_rate": 0.000343292535695116,
      "loss": 1.6583,
      "step": 40929
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46862757205963135,
      "learning_rate": 0.0003432821929572301,
      "loss": 1.6065,
      "step": 40930
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.43898409605026245,
      "learning_rate": 0.0003432718501668059,
      "loss": 1.6214,
      "step": 40931
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4508930444717407,
      "learning_rate": 0.0003432615073238561,
      "loss": 1.6116,
      "step": 40932
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48901429772377014,
      "learning_rate": 0.0003432511644283932,
      "loss": 1.5932,
      "step": 40933
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47130540013313293,
      "learning_rate": 0.00034324082148042966,
      "loss": 1.6103,
      "step": 40934
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4709734618663788,
      "learning_rate": 0.00034323047847997833,
      "loss": 1.6214,
      "step": 40935
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45556166768074036,
      "learning_rate": 0.0003432201354270514,
      "loss": 1.6515,
      "step": 40936
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45220816135406494,
      "learning_rate": 0.0003432097923216617,
      "loss": 1.5597,
      "step": 40937
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46213725209236145,
      "learning_rate": 0.0003431994491638216,
      "loss": 1.5716,
      "step": 40938
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4704084098339081,
      "learning_rate": 0.0003431891059535437,
      "loss": 1.6719,
      "step": 40939
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4618911147117615,
      "learning_rate": 0.00034317876269084074,
      "loss": 1.5939,
      "step": 40940
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4655008018016815,
      "learning_rate": 0.00034316841937572493,
      "loss": 1.6583,
      "step": 40941
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4628966450691223,
      "learning_rate": 0.0003431580760082092,
      "loss": 1.6872,
      "step": 40942
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.455941379070282,
      "learning_rate": 0.0003431477325883058,
      "loss": 1.6194,
      "step": 40943
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4369351863861084,
      "learning_rate": 0.0003431373891160275,
      "loss": 1.5944,
      "step": 40944
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4536748230457306,
      "learning_rate": 0.0003431270455913867,
      "loss": 1.6661,
      "step": 40945
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4667801558971405,
      "learning_rate": 0.0003431167020143961,
      "loss": 1.5954,
      "step": 40946
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4517369568347931,
      "learning_rate": 0.00034310635838506813,
      "loss": 1.5969,
      "step": 40947
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4488201141357422,
      "learning_rate": 0.0003430960147034153,
      "loss": 1.6318,
      "step": 40948
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45350709557533264,
      "learning_rate": 0.0003430856709694504,
      "loss": 1.619,
      "step": 40949
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4733918607234955,
      "learning_rate": 0.0003430753271831858,
      "loss": 1.6397,
      "step": 40950
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44556859135627747,
      "learning_rate": 0.00034306498334463404,
      "loss": 1.6264,
      "step": 40951
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4374050796031952,
      "learning_rate": 0.00034305463945380775,
      "loss": 1.5867,
      "step": 40952
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4491928815841675,
      "learning_rate": 0.00034304429551071955,
      "loss": 1.601,
      "step": 40953
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4448442757129669,
      "learning_rate": 0.0003430339515153819,
      "loss": 1.5792,
      "step": 40954
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48892858624458313,
      "learning_rate": 0.0003430236074678073,
      "loss": 1.7004,
      "step": 40955
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45661285519599915,
      "learning_rate": 0.0003430132633680085,
      "loss": 1.5519,
      "step": 40956
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4674783945083618,
      "learning_rate": 0.00034300291921599783,
      "loss": 1.6662,
      "step": 40957
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4613015055656433,
      "learning_rate": 0.00034299257501178794,
      "loss": 1.5697,
      "step": 40958
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45881661772727966,
      "learning_rate": 0.00034298223075539144,
      "loss": 1.6121,
      "step": 40959
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46137315034866333,
      "learning_rate": 0.00034297188644682086,
      "loss": 1.5971,
      "step": 40960
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.43829670548439026,
      "learning_rate": 0.0003429615420860887,
      "loss": 1.5784,
      "step": 40961
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47057682275772095,
      "learning_rate": 0.00034295119767320764,
      "loss": 1.6761,
      "step": 40962
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4639314115047455,
      "learning_rate": 0.00034294085320819005,
      "loss": 1.6223,
      "step": 40963
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44620221853256226,
      "learning_rate": 0.0003429305086910487,
      "loss": 1.5803,
      "step": 40964
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46904805302619934,
      "learning_rate": 0.00034292016412179594,
      "loss": 1.5397,
      "step": 40965
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4592057466506958,
      "learning_rate": 0.0003429098195004444,
      "loss": 1.6578,
      "step": 40966
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4653800427913666,
      "learning_rate": 0.00034289947482700684,
      "loss": 1.6015,
      "step": 40967
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4499240517616272,
      "learning_rate": 0.00034288913010149547,
      "loss": 1.6256,
      "step": 40968
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45854029059410095,
      "learning_rate": 0.0003428787853239231,
      "loss": 1.6366,
      "step": 40969
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45992228388786316,
      "learning_rate": 0.00034286844049430214,
      "loss": 1.5906,
      "step": 40970
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4754564166069031,
      "learning_rate": 0.0003428580956126452,
      "loss": 1.5343,
      "step": 40971
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46446067094802856,
      "learning_rate": 0.00034284775067896497,
      "loss": 1.6289,
      "step": 40972
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4593832790851593,
      "learning_rate": 0.00034283740569327376,
      "loss": 1.7166,
      "step": 40973
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45850664377212524,
      "learning_rate": 0.0003428270606555843,
      "loss": 1.5429,
      "step": 40974
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47151631116867065,
      "learning_rate": 0.00034281671556590906,
      "loss": 1.5595,
      "step": 40975
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4654732942581177,
      "learning_rate": 0.0003428063704242607,
      "loss": 1.5399,
      "step": 40976
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4589059054851532,
      "learning_rate": 0.00034279602523065164,
      "loss": 1.6186,
      "step": 40977
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4571378231048584,
      "learning_rate": 0.00034278567998509456,
      "loss": 1.6465,
      "step": 40978
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47318902611732483,
      "learning_rate": 0.00034277533468760204,
      "loss": 1.6067,
      "step": 40979
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46764639019966125,
      "learning_rate": 0.00034276498933818637,
      "loss": 1.5905,
      "step": 40980
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4398244023323059,
      "learning_rate": 0.0003427546439368605,
      "loss": 1.587,
      "step": 40981
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.44786930084228516,
      "learning_rate": 0.0003427442984836367,
      "loss": 1.688,
      "step": 40982
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47625789046287537,
      "learning_rate": 0.00034273395297852765,
      "loss": 1.6663,
      "step": 40983
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4721797704696655,
      "learning_rate": 0.00034272360742154586,
      "loss": 1.5624,
      "step": 40984
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.48564431071281433,
      "learning_rate": 0.00034271326181270386,
      "loss": 1.6048,
      "step": 40985
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4534177780151367,
      "learning_rate": 0.0003427029161520144,
      "loss": 1.5747,
      "step": 40986
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46158367395401,
      "learning_rate": 0.00034269257043948977,
      "loss": 1.6007,
      "step": 40987
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4726089835166931,
      "learning_rate": 0.0003426822246751426,
      "loss": 1.6267,
      "step": 40988
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.5041707754135132,
      "learning_rate": 0.0003426718788589856,
      "loss": 1.6246,
      "step": 40989
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4714042544364929,
      "learning_rate": 0.0003426615329910312,
      "loss": 1.5495,
      "step": 40990
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4744550585746765,
      "learning_rate": 0.000342651187071292,
      "loss": 1.6797,
      "step": 40991
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.453226774930954,
      "learning_rate": 0.00034264084109978055,
      "loss": 1.6037,
      "step": 40992
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45996785163879395,
      "learning_rate": 0.0003426304950765094,
      "loss": 1.6114,
      "step": 40993
    },
    {
      "epoch": 1.36,
      "grad_norm": 1.7038147449493408,
      "learning_rate": 0.0003426201490014911,
      "loss": 1.6261,
      "step": 40994
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4652118384838104,
      "learning_rate": 0.00034260980287473817,
      "loss": 1.6805,
      "step": 40995
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4790031909942627,
      "learning_rate": 0.0003425994566962632,
      "loss": 1.5568,
      "step": 40996
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4636106491088867,
      "learning_rate": 0.0003425891104660789,
      "loss": 1.6237,
      "step": 40997
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4477660655975342,
      "learning_rate": 0.00034257876418419754,
      "loss": 1.6391,
      "step": 40998
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4582446813583374,
      "learning_rate": 0.00034256841785063193,
      "loss": 1.6428,
      "step": 40999
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4695809483528137,
      "learning_rate": 0.00034255807146539455,
      "loss": 1.6747,
      "step": 41000
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4670267105102539,
      "learning_rate": 0.0003425477250284979,
      "loss": 1.7283,
      "step": 41001
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4448266327381134,
      "learning_rate": 0.00034253737853995466,
      "loss": 1.6206,
      "step": 41002
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4587404727935791,
      "learning_rate": 0.0003425270319997771,
      "loss": 1.5728,
      "step": 41003
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.435454785823822,
      "learning_rate": 0.00034251668540797816,
      "loss": 1.5929,
      "step": 41004
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4601370096206665,
      "learning_rate": 0.0003425063387645701,
      "loss": 1.5777,
      "step": 41005
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.47894248366355896,
      "learning_rate": 0.0003424959920695658,
      "loss": 1.6391,
      "step": 41006
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46522390842437744,
      "learning_rate": 0.0003424856453229775,
      "loss": 1.6356,
      "step": 41007
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.448559045791626,
      "learning_rate": 0.00034247529852481795,
      "loss": 1.6113,
      "step": 41008
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45292311906814575,
      "learning_rate": 0.0003424649516750996,
      "loss": 1.5294,
      "step": 41009
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4595104157924652,
      "learning_rate": 0.0003424546047738351,
      "loss": 1.7049,
      "step": 41010
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4679296016693115,
      "learning_rate": 0.0003424442578210369,
      "loss": 1.6425,
      "step": 41011
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.448565274477005,
      "learning_rate": 0.0003424339108167177,
      "loss": 1.6703,
      "step": 41012
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4629877507686615,
      "learning_rate": 0.00034242356376088987,
      "loss": 1.633,
      "step": 41013
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45817309617996216,
      "learning_rate": 0.0003424132166535662,
      "loss": 1.6255,
      "step": 41014
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4764147102832794,
      "learning_rate": 0.000342402869494759,
      "loss": 1.4987,
      "step": 41015
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4652259051799774,
      "learning_rate": 0.0003423925222844812,
      "loss": 1.5985,
      "step": 41016
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.481664776802063,
      "learning_rate": 0.00034238217502274496,
      "loss": 1.5987,
      "step": 41017
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4613833427429199,
      "learning_rate": 0.000342371827709563,
      "loss": 1.6289,
      "step": 41018
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45354172587394714,
      "learning_rate": 0.00034236148034494786,
      "loss": 1.6023,
      "step": 41019
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4658663868904114,
      "learning_rate": 0.0003423511329289122,
      "loss": 1.6679,
      "step": 41020
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4796448349952698,
      "learning_rate": 0.00034234078546146844,
      "loss": 1.5935,
      "step": 41021
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4625120460987091,
      "learning_rate": 0.0003423304379426293,
      "loss": 1.5798,
      "step": 41022
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4972778558731079,
      "learning_rate": 0.0003423200903724072,
      "loss": 1.676,
      "step": 41023
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46963950991630554,
      "learning_rate": 0.0003423097427508147,
      "loss": 1.636,
      "step": 41024
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.46400582790374756,
      "learning_rate": 0.00034229939507786437,
      "loss": 1.6392,
      "step": 41025
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4583061635494232,
      "learning_rate": 0.0003422890473535689,
      "loss": 1.5915,
      "step": 41026
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4491218030452728,
      "learning_rate": 0.00034227869957794083,
      "loss": 1.5162,
      "step": 41027
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45608898997306824,
      "learning_rate": 0.00034226835175099244,
      "loss": 1.6022,
      "step": 41028
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45358404517173767,
      "learning_rate": 0.0003422580038727367,
      "loss": 1.6597,
      "step": 41029
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4604607820510864,
      "learning_rate": 0.00034224765594318584,
      "loss": 1.6471,
      "step": 41030
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4625161290168762,
      "learning_rate": 0.00034223730796235257,
      "loss": 1.6252,
      "step": 41031
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46023696660995483,
      "learning_rate": 0.00034222695993024944,
      "loss": 1.5884,
      "step": 41032
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4513607323169708,
      "learning_rate": 0.00034221661184688897,
      "loss": 1.6681,
      "step": 41033
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4588414132595062,
      "learning_rate": 0.0003422062637122839,
      "loss": 1.6053,
      "step": 41034
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4531959295272827,
      "learning_rate": 0.0003421959155264465,
      "loss": 1.5818,
      "step": 41035
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.457183837890625,
      "learning_rate": 0.00034218556728938957,
      "loss": 1.6018,
      "step": 41036
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4521395266056061,
      "learning_rate": 0.00034217521900112546,
      "loss": 1.6902,
      "step": 41037
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4607945382595062,
      "learning_rate": 0.0003421648706616669,
      "loss": 1.5705,
      "step": 41038
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45995059609413147,
      "learning_rate": 0.00034215452227102645,
      "loss": 1.6641,
      "step": 41039
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45454323291778564,
      "learning_rate": 0.00034214417382921655,
      "loss": 1.6125,
      "step": 41040
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4678025245666504,
      "learning_rate": 0.00034213382533624997,
      "loss": 1.5839,
      "step": 41041
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45446616411209106,
      "learning_rate": 0.000342123476792139,
      "loss": 1.6515,
      "step": 41042
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46562281250953674,
      "learning_rate": 0.0003421131281968963,
      "loss": 1.6267,
      "step": 41043
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4447154402732849,
      "learning_rate": 0.00034210277955053453,
      "loss": 1.631,
      "step": 41044
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4517160952091217,
      "learning_rate": 0.00034209243085306623,
      "loss": 1.6115,
      "step": 41045
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46647071838378906,
      "learning_rate": 0.00034208208210450387,
      "loss": 1.6053,
      "step": 41046
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46325308084487915,
      "learning_rate": 0.0003420717333048601,
      "loss": 1.6022,
      "step": 41047
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45835861563682556,
      "learning_rate": 0.00034206138445414745,
      "loss": 1.636,
      "step": 41048
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4449637830257416,
      "learning_rate": 0.0003420510355523784,
      "loss": 1.6225,
      "step": 41049
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4691462516784668,
      "learning_rate": 0.0003420406865995656,
      "loss": 1.667,
      "step": 41050
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4595147967338562,
      "learning_rate": 0.00034203033759572167,
      "loss": 1.5393,
      "step": 41051
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44980499148368835,
      "learning_rate": 0.0003420199885408591,
      "loss": 1.5682,
      "step": 41052
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4387667775154114,
      "learning_rate": 0.00034200963943499036,
      "loss": 1.6295,
      "step": 41053
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4507214426994324,
      "learning_rate": 0.00034199929027812825,
      "loss": 1.6521,
      "step": 41054
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.451816201210022,
      "learning_rate": 0.0003419889410702851,
      "loss": 1.6737,
      "step": 41055
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4669082462787628,
      "learning_rate": 0.0003419785918114736,
      "loss": 1.5918,
      "step": 41056
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4522577226161957,
      "learning_rate": 0.00034196824250170627,
      "loss": 1.6328,
      "step": 41057
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4472971260547638,
      "learning_rate": 0.00034195789314099556,
      "loss": 1.514,
      "step": 41058
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4589330852031708,
      "learning_rate": 0.00034194754372935434,
      "loss": 1.6359,
      "step": 41059
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45230206847190857,
      "learning_rate": 0.00034193719426679476,
      "loss": 1.546,
      "step": 41060
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4687228500843048,
      "learning_rate": 0.00034192684475332983,
      "loss": 1.5605,
      "step": 41061
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4670413136482239,
      "learning_rate": 0.0003419164951889718,
      "loss": 1.514,
      "step": 41062
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4385404884815216,
      "learning_rate": 0.00034190614557373325,
      "loss": 1.6426,
      "step": 41063
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4521172046661377,
      "learning_rate": 0.000341895795907627,
      "loss": 1.5763,
      "step": 41064
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46468082070350647,
      "learning_rate": 0.0003418854461906652,
      "loss": 1.6138,
      "step": 41065
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46066150069236755,
      "learning_rate": 0.0003418750964228608,
      "loss": 1.632,
      "step": 41066
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4698168933391571,
      "learning_rate": 0.00034186474660422613,
      "loss": 1.6511,
      "step": 41067
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4770470857620239,
      "learning_rate": 0.00034185439673477383,
      "loss": 1.5715,
      "step": 41068
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46673375368118286,
      "learning_rate": 0.00034184404681451646,
      "loss": 1.5625,
      "step": 41069
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4505174458026886,
      "learning_rate": 0.00034183369684346666,
      "loss": 1.6079,
      "step": 41070
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4867510199546814,
      "learning_rate": 0.00034182334682163684,
      "loss": 1.6583,
      "step": 41071
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47008588910102844,
      "learning_rate": 0.0003418129967490397,
      "loss": 1.6299,
      "step": 41072
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45755651593208313,
      "learning_rate": 0.0003418026466256876,
      "loss": 1.6476,
      "step": 41073
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4683539569377899,
      "learning_rate": 0.00034179229645159336,
      "loss": 1.6535,
      "step": 41074
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4516374170780182,
      "learning_rate": 0.00034178194622676945,
      "loss": 1.5494,
      "step": 41075
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45849326252937317,
      "learning_rate": 0.00034177159595122835,
      "loss": 1.639,
      "step": 41076
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44421711564064026,
      "learning_rate": 0.00034176124562498275,
      "loss": 1.6635,
      "step": 41077
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46453651785850525,
      "learning_rate": 0.0003417508952480451,
      "loss": 1.707,
      "step": 41078
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45581260323524475,
      "learning_rate": 0.000341740544820428,
      "loss": 1.5964,
      "step": 41079
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4594554901123047,
      "learning_rate": 0.0003417301943421441,
      "loss": 1.6396,
      "step": 41080
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4580572843551636,
      "learning_rate": 0.0003417198438132058,
      "loss": 1.6074,
      "step": 41081
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4441906809806824,
      "learning_rate": 0.00034170949323362575,
      "loss": 1.5612,
      "step": 41082
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4734577536582947,
      "learning_rate": 0.00034169914260341665,
      "loss": 1.5555,
      "step": 41083
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4641984701156616,
      "learning_rate": 0.00034168879192259086,
      "loss": 1.5718,
      "step": 41084
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4636715352535248,
      "learning_rate": 0.000341678441191161,
      "loss": 1.6678,
      "step": 41085
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47488081455230713,
      "learning_rate": 0.0003416680904091397,
      "loss": 1.5973,
      "step": 41086
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4818376302719116,
      "learning_rate": 0.0003416577395765394,
      "loss": 1.6523,
      "step": 41087
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4831753671169281,
      "learning_rate": 0.00034164738869337283,
      "loss": 1.6631,
      "step": 41088
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4716813564300537,
      "learning_rate": 0.0003416370377596525,
      "loss": 1.5745,
      "step": 41089
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45656758546829224,
      "learning_rate": 0.0003416266867753908,
      "loss": 1.5986,
      "step": 41090
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45926809310913086,
      "learning_rate": 0.00034161633574060057,
      "loss": 1.5676,
      "step": 41091
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4640651345252991,
      "learning_rate": 0.00034160598465529413,
      "loss": 1.6167,
      "step": 41092
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4602811932563782,
      "learning_rate": 0.0003415956335194842,
      "loss": 1.5724,
      "step": 41093
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45877954363822937,
      "learning_rate": 0.0003415852823331833,
      "loss": 1.5995,
      "step": 41094
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4685668647289276,
      "learning_rate": 0.000341574931096404,
      "loss": 1.6066,
      "step": 41095
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45091021060943604,
      "learning_rate": 0.0003415645798091589,
      "loss": 1.5944,
      "step": 41096
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44549891352653503,
      "learning_rate": 0.0003415542284714604,
      "loss": 1.6116,
      "step": 41097
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4615541100502014,
      "learning_rate": 0.0003415438770833213,
      "loss": 1.5735,
      "step": 41098
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4620915949344635,
      "learning_rate": 0.000341533525644754,
      "loss": 1.6909,
      "step": 41099
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.454706609249115,
      "learning_rate": 0.0003415231741557712,
      "loss": 1.6,
      "step": 41100
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4762956500053406,
      "learning_rate": 0.0003415128226163853,
      "loss": 1.5838,
      "step": 41101
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4405002295970917,
      "learning_rate": 0.000341502471026609,
      "loss": 1.5874,
      "step": 41102
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47930800914764404,
      "learning_rate": 0.0003414921193864548,
      "loss": 1.6357,
      "step": 41103
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.457276850938797,
      "learning_rate": 0.0003414817676959353,
      "loss": 1.6526,
      "step": 41104
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46876680850982666,
      "learning_rate": 0.000341471415955063,
      "loss": 1.6392,
      "step": 41105
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4487646520137787,
      "learning_rate": 0.0003414610641638505,
      "loss": 1.6252,
      "step": 41106
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46674224734306335,
      "learning_rate": 0.0003414507123223104,
      "loss": 1.6855,
      "step": 41107
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44555768370628357,
      "learning_rate": 0.0003414403604304552,
      "loss": 1.5814,
      "step": 41108
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4435073733329773,
      "learning_rate": 0.00034143000848829767,
      "loss": 1.6361,
      "step": 41109
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4493689239025116,
      "learning_rate": 0.00034141965649585006,
      "loss": 1.6075,
      "step": 41110
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4525480568408966,
      "learning_rate": 0.0003414093044531252,
      "loss": 1.6354,
      "step": 41111
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4431256651878357,
      "learning_rate": 0.0003413989523601354,
      "loss": 1.6448,
      "step": 41112
    },
    {
      "epoch": 1.37,
      "grad_norm": 1.4848929643630981,
      "learning_rate": 0.00034138860021689347,
      "loss": 1.6104,
      "step": 41113
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4873179495334625,
      "learning_rate": 0.00034137824802341196,
      "loss": 1.5939,
      "step": 41114
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47586166858673096,
      "learning_rate": 0.00034136789577970315,
      "loss": 1.6698,
      "step": 41115
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48260149359703064,
      "learning_rate": 0.00034135754348577996,
      "loss": 1.7122,
      "step": 41116
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44878920912742615,
      "learning_rate": 0.0003413471911416548,
      "loss": 1.5849,
      "step": 41117
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44886651635169983,
      "learning_rate": 0.0003413368387473401,
      "loss": 1.5477,
      "step": 41118
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47090432047843933,
      "learning_rate": 0.00034132648630284877,
      "loss": 1.6558,
      "step": 41119
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45568469166755676,
      "learning_rate": 0.00034131613380819297,
      "loss": 1.625,
      "step": 41120
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45361006259918213,
      "learning_rate": 0.0003413057812633856,
      "loss": 1.6116,
      "step": 41121
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45569226145744324,
      "learning_rate": 0.00034129542866843905,
      "loss": 1.5576,
      "step": 41122
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4678303599357605,
      "learning_rate": 0.00034128507602336597,
      "loss": 1.5959,
      "step": 41123
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45918911695480347,
      "learning_rate": 0.00034127472332817885,
      "loss": 1.6947,
      "step": 41124
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46096307039260864,
      "learning_rate": 0.00034126437058289036,
      "loss": 1.5838,
      "step": 41125
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4597141146659851,
      "learning_rate": 0.00034125401778751304,
      "loss": 1.641,
      "step": 41126
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46105721592903137,
      "learning_rate": 0.0003412436649420593,
      "loss": 1.6007,
      "step": 41127
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4897262454032898,
      "learning_rate": 0.0003412333120465419,
      "loss": 1.6382,
      "step": 41128
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4696752429008484,
      "learning_rate": 0.0003412229591009733,
      "loss": 1.6017,
      "step": 41129
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4698643982410431,
      "learning_rate": 0.0003412126061053661,
      "loss": 1.6956,
      "step": 41130
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.458270788192749,
      "learning_rate": 0.00034120225305973287,
      "loss": 1.5728,
      "step": 41131
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4646735191345215,
      "learning_rate": 0.00034119189996408624,
      "loss": 1.6042,
      "step": 41132
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47241270542144775,
      "learning_rate": 0.00034118154681843865,
      "loss": 1.639,
      "step": 41133
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46203169226646423,
      "learning_rate": 0.00034117119362280277,
      "loss": 1.6465,
      "step": 41134
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4563707113265991,
      "learning_rate": 0.0003411608403771911,
      "loss": 1.6,
      "step": 41135
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4547027051448822,
      "learning_rate": 0.0003411504870816162,
      "loss": 1.5632,
      "step": 41136
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44036707282066345,
      "learning_rate": 0.0003411401337360907,
      "loss": 1.5989,
      "step": 41137
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4529668986797333,
      "learning_rate": 0.00034112978034062715,
      "loss": 1.5422,
      "step": 41138
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4553682506084442,
      "learning_rate": 0.0003411194268952381,
      "loss": 1.6243,
      "step": 41139
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4585048258304596,
      "learning_rate": 0.00034110907339993617,
      "loss": 1.6064,
      "step": 41140
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45859697461128235,
      "learning_rate": 0.0003410987198547338,
      "loss": 1.663,
      "step": 41141
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44943007826805115,
      "learning_rate": 0.00034108836625964373,
      "loss": 1.6385,
      "step": 41142
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4666093587875366,
      "learning_rate": 0.0003410780126146783,
      "loss": 1.7098,
      "step": 41143
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46293801069259644,
      "learning_rate": 0.0003410676589198504,
      "loss": 1.6289,
      "step": 41144
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4583593010902405,
      "learning_rate": 0.0003410573051751722,
      "loss": 1.5667,
      "step": 41145
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4868290424346924,
      "learning_rate": 0.00034104695138065667,
      "loss": 1.58,
      "step": 41146
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.461271196603775,
      "learning_rate": 0.00034103659753631613,
      "loss": 1.5694,
      "step": 41147
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4683540165424347,
      "learning_rate": 0.0003410262436421631,
      "loss": 1.6484,
      "step": 41148
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4822555184364319,
      "learning_rate": 0.0003410158896982104,
      "loss": 1.6227,
      "step": 41149
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4682844877243042,
      "learning_rate": 0.0003410055357044704,
      "loss": 1.6529,
      "step": 41150
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4685826897621155,
      "learning_rate": 0.0003409951816609558,
      "loss": 1.5842,
      "step": 41151
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47333070635795593,
      "learning_rate": 0.00034098482756767884,
      "loss": 1.6932,
      "step": 41152
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4532582461833954,
      "learning_rate": 0.00034097447342465264,
      "loss": 1.6274,
      "step": 41153
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47003158926963806,
      "learning_rate": 0.0003409641192318893,
      "loss": 1.6063,
      "step": 41154
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44156962633132935,
      "learning_rate": 0.0003409537649894016,
      "loss": 1.6205,
      "step": 41155
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47190266847610474,
      "learning_rate": 0.000340943410697202,
      "loss": 1.6701,
      "step": 41156
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4509933888912201,
      "learning_rate": 0.00034093305635530315,
      "loss": 1.6015,
      "step": 41157
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4505941867828369,
      "learning_rate": 0.00034092270196371774,
      "loss": 1.6029,
      "step": 41158
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44095295667648315,
      "learning_rate": 0.0003409123475224581,
      "loss": 1.6337,
      "step": 41159
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4419322609901428,
      "learning_rate": 0.0003409019930315369,
      "loss": 1.5098,
      "step": 41160
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45842742919921875,
      "learning_rate": 0.00034089163849096665,
      "loss": 1.6211,
      "step": 41161
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4775187075138092,
      "learning_rate": 0.00034088128390076,
      "loss": 1.6238,
      "step": 41162
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46243467926979065,
      "learning_rate": 0.00034087092926092955,
      "loss": 1.6608,
      "step": 41163
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45436230301856995,
      "learning_rate": 0.00034086057457148784,
      "loss": 1.5749,
      "step": 41164
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46436482667922974,
      "learning_rate": 0.0003408502198324473,
      "loss": 1.5831,
      "step": 41165
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44100940227508545,
      "learning_rate": 0.0003408398650438207,
      "loss": 1.5685,
      "step": 41166
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45610907673835754,
      "learning_rate": 0.0003408295102056205,
      "loss": 1.6223,
      "step": 41167
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47315943241119385,
      "learning_rate": 0.00034081915531785923,
      "loss": 1.6784,
      "step": 41168
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4598563611507416,
      "learning_rate": 0.0003408088003805496,
      "loss": 1.7377,
      "step": 41169
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47638601064682007,
      "learning_rate": 0.000340798445393704,
      "loss": 1.6424,
      "step": 41170
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4542093575000763,
      "learning_rate": 0.0003407880903573353,
      "loss": 1.6733,
      "step": 41171
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4502495229244232,
      "learning_rate": 0.0003407777352714557,
      "loss": 1.6258,
      "step": 41172
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4599860906600952,
      "learning_rate": 0.000340767380136078,
      "loss": 1.6169,
      "step": 41173
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4672560691833496,
      "learning_rate": 0.00034075702495121467,
      "loss": 1.5943,
      "step": 41174
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4617196321487427,
      "learning_rate": 0.00034074666971687826,
      "loss": 1.5896,
      "step": 41175
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4533067047595978,
      "learning_rate": 0.0003407363144330816,
      "loss": 1.5815,
      "step": 41176
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45776647329330444,
      "learning_rate": 0.0003407259590998368,
      "loss": 1.6185,
      "step": 41177
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4512427747249603,
      "learning_rate": 0.0003407156037171569,
      "loss": 1.5669,
      "step": 41178
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4620417654514313,
      "learning_rate": 0.00034070524828505415,
      "loss": 1.6326,
      "step": 41179
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45906102657318115,
      "learning_rate": 0.0003406948928035412,
      "loss": 1.5887,
      "step": 41180
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4667907655239105,
      "learning_rate": 0.00034068453727263074,
      "loss": 1.6562,
      "step": 41181
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4701259732246399,
      "learning_rate": 0.0003406741816923352,
      "loss": 1.6402,
      "step": 41182
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46321579813957214,
      "learning_rate": 0.00034066382606266716,
      "loss": 1.6101,
      "step": 41183
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46099063754081726,
      "learning_rate": 0.00034065347038363927,
      "loss": 1.6363,
      "step": 41184
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46455949544906616,
      "learning_rate": 0.0003406431146552641,
      "loss": 1.6081,
      "step": 41185
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45476722717285156,
      "learning_rate": 0.0003406327588775541,
      "loss": 1.6053,
      "step": 41186
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.5015171766281128,
      "learning_rate": 0.00034062240305052195,
      "loss": 1.6495,
      "step": 41187
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47723615169525146,
      "learning_rate": 0.0003406120471741802,
      "loss": 1.5718,
      "step": 41188
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4555552303791046,
      "learning_rate": 0.00034060169124854137,
      "loss": 1.6595,
      "step": 41189
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47452670335769653,
      "learning_rate": 0.00034059133527361806,
      "loss": 1.6689,
      "step": 41190
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4570898711681366,
      "learning_rate": 0.00034058097924942286,
      "loss": 1.6541,
      "step": 41191
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4710017144680023,
      "learning_rate": 0.00034057062317596835,
      "loss": 1.6699,
      "step": 41192
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46420523524284363,
      "learning_rate": 0.0003405602670532671,
      "loss": 1.6091,
      "step": 41193
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4557853639125824,
      "learning_rate": 0.0003405499108813317,
      "loss": 1.6088,
      "step": 41194
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48052507638931274,
      "learning_rate": 0.00034053955466017456,
      "loss": 1.7123,
      "step": 41195
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47257959842681885,
      "learning_rate": 0.0003405291983898084,
      "loss": 1.6509,
      "step": 41196
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46320879459381104,
      "learning_rate": 0.00034051884207024583,
      "loss": 1.6809,
      "step": 41197
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4649007320404053,
      "learning_rate": 0.0003405084857014993,
      "loss": 1.6596,
      "step": 41198
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46014848351478577,
      "learning_rate": 0.0003404981292835815,
      "loss": 1.6608,
      "step": 41199
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.43642711639404297,
      "learning_rate": 0.0003404877728165049,
      "loss": 1.566,
      "step": 41200
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4534430205821991,
      "learning_rate": 0.0003404774163002821,
      "loss": 1.58,
      "step": 41201
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4537551701068878,
      "learning_rate": 0.0003404670597349258,
      "loss": 1.5798,
      "step": 41202
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.8047251105308533,
      "learning_rate": 0.0003404567031204483,
      "loss": 1.6837,
      "step": 41203
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45581135153770447,
      "learning_rate": 0.00034044634645686233,
      "loss": 1.5754,
      "step": 41204
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4629359245300293,
      "learning_rate": 0.0003404359897441805,
      "loss": 1.5875,
      "step": 41205
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4489871859550476,
      "learning_rate": 0.00034042563298241534,
      "loss": 1.6683,
      "step": 41206
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47722169756889343,
      "learning_rate": 0.00034041527617157937,
      "loss": 1.6583,
      "step": 41207
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45016324520111084,
      "learning_rate": 0.00034040491931168525,
      "loss": 1.6552,
      "step": 41208
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46746397018432617,
      "learning_rate": 0.0003403945624027455,
      "loss": 1.6506,
      "step": 41209
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.485060453414917,
      "learning_rate": 0.00034038420544477274,
      "loss": 1.6253,
      "step": 41210
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45298364758491516,
      "learning_rate": 0.00034037384843777944,
      "loss": 1.5725,
      "step": 41211
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4453520178794861,
      "learning_rate": 0.00034036349138177825,
      "loss": 1.6315,
      "step": 41212
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4500286877155304,
      "learning_rate": 0.00034035313427678186,
      "loss": 1.6883,
      "step": 41213
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4486158788204193,
      "learning_rate": 0.0003403427771228025,
      "loss": 1.642,
      "step": 41214
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4653976261615753,
      "learning_rate": 0.00034033241991985317,
      "loss": 1.6705,
      "step": 41215
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4765256643295288,
      "learning_rate": 0.000340322062667946,
      "loss": 1.5762,
      "step": 41216
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4569258391857147,
      "learning_rate": 0.00034031170536709393,
      "loss": 1.5461,
      "step": 41217
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4397117793560028,
      "learning_rate": 0.00034030134801730935,
      "loss": 1.6142,
      "step": 41218
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45768973231315613,
      "learning_rate": 0.00034029099061860487,
      "loss": 1.6327,
      "step": 41219
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4656367599964142,
      "learning_rate": 0.00034028063317099316,
      "loss": 1.6447,
      "step": 41220
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4373911917209625,
      "learning_rate": 0.0003402702756744866,
      "loss": 1.5339,
      "step": 41221
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4820350706577301,
      "learning_rate": 0.00034025991812909785,
      "loss": 1.6708,
      "step": 41222
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4656495153903961,
      "learning_rate": 0.00034024956053483945,
      "loss": 1.6116,
      "step": 41223
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4472125470638275,
      "learning_rate": 0.0003402392028917241,
      "loss": 1.5956,
      "step": 41224
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4652060270309448,
      "learning_rate": 0.0003402288451997642,
      "loss": 1.6181,
      "step": 41225
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48443570733070374,
      "learning_rate": 0.0003402184874589726,
      "loss": 1.5545,
      "step": 41226
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4537266194820404,
      "learning_rate": 0.0003402081296693615,
      "loss": 1.591,
      "step": 41227
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4534406363964081,
      "learning_rate": 0.00034019777183094376,
      "loss": 1.5959,
      "step": 41228
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45773255825042725,
      "learning_rate": 0.00034018741394373176,
      "loss": 1.6711,
      "step": 41229
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4755841791629791,
      "learning_rate": 0.00034017705600773815,
      "loss": 1.6789,
      "step": 41230
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46313872933387756,
      "learning_rate": 0.00034016669802297567,
      "loss": 1.6543,
      "step": 41231
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45487266778945923,
      "learning_rate": 0.0003401563399894565,
      "loss": 1.6557,
      "step": 41232
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46110501885414124,
      "learning_rate": 0.00034014598190719366,
      "loss": 1.637,
      "step": 41233
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4655722677707672,
      "learning_rate": 0.0003401356237761994,
      "loss": 1.6061,
      "step": 41234
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4410769045352936,
      "learning_rate": 0.00034012526559648647,
      "loss": 1.5035,
      "step": 41235
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4857766032218933,
      "learning_rate": 0.0003401149073680674,
      "loss": 1.6316,
      "step": 41236
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.49094775319099426,
      "learning_rate": 0.00034010454909095454,
      "loss": 1.6334,
      "step": 41237
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4824664890766144,
      "learning_rate": 0.0003400941907651609,
      "loss": 1.5763,
      "step": 41238
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4499865770339966,
      "learning_rate": 0.00034008383239069866,
      "loss": 1.6545,
      "step": 41239
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4768686890602112,
      "learning_rate": 0.0003400734739675807,
      "loss": 1.6674,
      "step": 41240
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4501234292984009,
      "learning_rate": 0.00034006311549581933,
      "loss": 1.6686,
      "step": 41241
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47509804368019104,
      "learning_rate": 0.0003400527569754273,
      "loss": 1.5162,
      "step": 41242
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4787273108959198,
      "learning_rate": 0.00034004239840641716,
      "loss": 1.6644,
      "step": 41243
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47877004742622375,
      "learning_rate": 0.00034003203978880136,
      "loss": 1.631,
      "step": 41244
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4655230939388275,
      "learning_rate": 0.0003400216811225926,
      "loss": 1.6373,
      "step": 41245
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46707281470298767,
      "learning_rate": 0.0003400113224078034,
      "loss": 1.6117,
      "step": 41246
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4645312428474426,
      "learning_rate": 0.0003400009636444464,
      "loss": 1.6594,
      "step": 41247
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4780930280685425,
      "learning_rate": 0.0003399906048325341,
      "loss": 1.6348,
      "step": 41248
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4711005985736847,
      "learning_rate": 0.00033998024597207906,
      "loss": 1.6111,
      "step": 41249
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4532802700996399,
      "learning_rate": 0.000339969887063094,
      "loss": 1.6148,
      "step": 41250
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4602542817592621,
      "learning_rate": 0.0003399595281055913,
      "loss": 1.5934,
      "step": 41251
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4512760639190674,
      "learning_rate": 0.00033994916909958365,
      "loss": 1.5142,
      "step": 41252
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4670940637588501,
      "learning_rate": 0.0003399388100450835,
      "loss": 1.6699,
      "step": 41253
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45625653862953186,
      "learning_rate": 0.0003399284509421036,
      "loss": 1.5487,
      "step": 41254
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45793455839157104,
      "learning_rate": 0.00033991809179065644,
      "loss": 1.6377,
      "step": 41255
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4622654616832733,
      "learning_rate": 0.00033990773259075463,
      "loss": 1.5864,
      "step": 41256
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.5013540983200073,
      "learning_rate": 0.00033989737334241067,
      "loss": 1.6778,
      "step": 41257
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4655168354511261,
      "learning_rate": 0.0003398870140456372,
      "loss": 1.5945,
      "step": 41258
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46183547377586365,
      "learning_rate": 0.0003398766547004467,
      "loss": 1.5807,
      "step": 41259
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47276532649993896,
      "learning_rate": 0.0003398662953068519,
      "loss": 1.6917,
      "step": 41260
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45126068592071533,
      "learning_rate": 0.00033985593586486533,
      "loss": 1.5975,
      "step": 41261
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46288397908210754,
      "learning_rate": 0.00033984557637449937,
      "loss": 1.7063,
      "step": 41262
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4497514069080353,
      "learning_rate": 0.00033983521683576687,
      "loss": 1.6722,
      "step": 41263
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44590142369270325,
      "learning_rate": 0.0003398248572486803,
      "loss": 1.602,
      "step": 41264
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45255181193351746,
      "learning_rate": 0.00033981449761325217,
      "loss": 1.5957,
      "step": 41265
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45808306336402893,
      "learning_rate": 0.0003398041379294951,
      "loss": 1.5912,
      "step": 41266
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4804740250110626,
      "learning_rate": 0.0003397937781974216,
      "loss": 1.606,
      "step": 41267
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48466747999191284,
      "learning_rate": 0.0003397834184170445,
      "loss": 1.5667,
      "step": 41268
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4626518189907074,
      "learning_rate": 0.0003397730585883761,
      "loss": 1.5872,
      "step": 41269
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48256686329841614,
      "learning_rate": 0.00033976269871142906,
      "loss": 1.6834,
      "step": 41270
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4772591292858124,
      "learning_rate": 0.00033975233878621595,
      "loss": 1.5929,
      "step": 41271
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45728597044944763,
      "learning_rate": 0.0003397419788127494,
      "loss": 1.5804,
      "step": 41272
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4801425337791443,
      "learning_rate": 0.00033973161879104186,
      "loss": 1.5972,
      "step": 41273
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4798929691314697,
      "learning_rate": 0.0003397212587211061,
      "loss": 1.6964,
      "step": 41274
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47735193371772766,
      "learning_rate": 0.0003397108986029546,
      "loss": 1.708,
      "step": 41275
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4662056565284729,
      "learning_rate": 0.00033970053843659985,
      "loss": 1.5929,
      "step": 41276
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46094295382499695,
      "learning_rate": 0.00033969017822205443,
      "loss": 1.6501,
      "step": 41277
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44627735018730164,
      "learning_rate": 0.0003396798179593311,
      "loss": 1.5235,
      "step": 41278
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45759525895118713,
      "learning_rate": 0.0003396694576484422,
      "loss": 1.6538,
      "step": 41279
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4579925239086151,
      "learning_rate": 0.00033965909728940046,
      "loss": 1.5088,
      "step": 41280
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4501834213733673,
      "learning_rate": 0.0003396487368822185,
      "loss": 1.5854,
      "step": 41281
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45865365862846375,
      "learning_rate": 0.00033963837642690876,
      "loss": 1.5328,
      "step": 41282
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4897000789642334,
      "learning_rate": 0.0003396280159234839,
      "loss": 1.6627,
      "step": 41283
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45791497826576233,
      "learning_rate": 0.0003396176553719564,
      "loss": 1.5337,
      "step": 41284
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4454316794872284,
      "learning_rate": 0.000339607294772339,
      "loss": 1.5489,
      "step": 41285
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.49396491050720215,
      "learning_rate": 0.0003395969341246441,
      "loss": 1.5873,
      "step": 41286
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4632755517959595,
      "learning_rate": 0.00033958657342888436,
      "loss": 1.6647,
      "step": 41287
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4735657870769501,
      "learning_rate": 0.0003395762126850725,
      "loss": 1.6112,
      "step": 41288
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4576805830001831,
      "learning_rate": 0.00033956585189322074,
      "loss": 1.595,
      "step": 41289
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4675375819206238,
      "learning_rate": 0.000339555491053342,
      "loss": 1.5997,
      "step": 41290
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.460738867521286,
      "learning_rate": 0.00033954513016544864,
      "loss": 1.5985,
      "step": 41291
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4727577269077301,
      "learning_rate": 0.00033953476922955327,
      "loss": 1.676,
      "step": 41292
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47536176443099976,
      "learning_rate": 0.0003395244082456687,
      "loss": 1.6584,
      "step": 41293
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4707615375518799,
      "learning_rate": 0.00033951404721380715,
      "loss": 1.5983,
      "step": 41294
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4476493000984192,
      "learning_rate": 0.00033950368613398145,
      "loss": 1.581,
      "step": 41295
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47610804438591003,
      "learning_rate": 0.00033949332500620414,
      "loss": 1.6399,
      "step": 41296
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4704701006412506,
      "learning_rate": 0.00033948296383048764,
      "loss": 1.5663,
      "step": 41297
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45757606625556946,
      "learning_rate": 0.0003394726026068448,
      "loss": 1.5436,
      "step": 41298
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4608597755432129,
      "learning_rate": 0.00033946224133528786,
      "loss": 1.631,
      "step": 41299
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44608449935913086,
      "learning_rate": 0.00033945188001582963,
      "loss": 1.6024,
      "step": 41300
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4566747546195984,
      "learning_rate": 0.0003394415186484827,
      "loss": 1.6148,
      "step": 41301
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46807077527046204,
      "learning_rate": 0.0003394311572332595,
      "loss": 1.7102,
      "step": 41302
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4785052537918091,
      "learning_rate": 0.00033942079577017274,
      "loss": 1.5744,
      "step": 41303
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45650190114974976,
      "learning_rate": 0.00033941043425923486,
      "loss": 1.5789,
      "step": 41304
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47262975573539734,
      "learning_rate": 0.0003394000727004586,
      "loss": 1.6114,
      "step": 41305
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4565737843513489,
      "learning_rate": 0.00033938971109385643,
      "loss": 1.6073,
      "step": 41306
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48149168491363525,
      "learning_rate": 0.00033937934943944093,
      "loss": 1.6443,
      "step": 41307
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.44683629274368286,
      "learning_rate": 0.00033936898773722474,
      "loss": 1.6514,
      "step": 41308
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45513716340065,
      "learning_rate": 0.00033935862598722034,
      "loss": 1.6388,
      "step": 41309
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47511547803878784,
      "learning_rate": 0.0003393482641894404,
      "loss": 1.6821,
      "step": 41310
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.45695459842681885,
      "learning_rate": 0.00033933790234389757,
      "loss": 1.6882,
      "step": 41311
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46840769052505493,
      "learning_rate": 0.00033932754045060424,
      "loss": 1.6138,
      "step": 41312
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4626333713531494,
      "learning_rate": 0.000339317178509573,
      "loss": 1.6082,
      "step": 41313
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46582353115081787,
      "learning_rate": 0.00033930681652081656,
      "loss": 1.6219,
      "step": 41314
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4572567641735077,
      "learning_rate": 0.00033929645448434745,
      "loss": 1.6199,
      "step": 41315
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4524841010570526,
      "learning_rate": 0.0003392860924001783,
      "loss": 1.5661,
      "step": 41316
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.48975685238838196,
      "learning_rate": 0.00033927573026832145,
      "loss": 1.6391,
      "step": 41317
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4756675362586975,
      "learning_rate": 0.0003392653680887898,
      "loss": 1.6409,
      "step": 41318
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4580681025981903,
      "learning_rate": 0.00033925500586159566,
      "loss": 1.5694,
      "step": 41319
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4619174003601074,
      "learning_rate": 0.0003392446435867518,
      "loss": 1.6021,
      "step": 41320
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4638051390647888,
      "learning_rate": 0.00033923428126427066,
      "loss": 1.5824,
      "step": 41321
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47474583983421326,
      "learning_rate": 0.00033922391889416496,
      "loss": 1.597,
      "step": 41322
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4531784653663635,
      "learning_rate": 0.00033921355647644727,
      "loss": 1.6198,
      "step": 41323
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.47138917446136475,
      "learning_rate": 0.0003392031940111299,
      "loss": 1.5959,
      "step": 41324
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.462859183549881,
      "learning_rate": 0.0003391928314982258,
      "loss": 1.617,
      "step": 41325
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4732757806777954,
      "learning_rate": 0.0003391824689377473,
      "loss": 1.5588,
      "step": 41326
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4623040556907654,
      "learning_rate": 0.0003391721063297071,
      "loss": 1.6573,
      "step": 41327
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.46713122725486755,
      "learning_rate": 0.00033916174367411766,
      "loss": 1.4846,
      "step": 41328
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4653092622756958,
      "learning_rate": 0.00033915138097099167,
      "loss": 1.6596,
      "step": 41329
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46819913387298584,
      "learning_rate": 0.0003391410182203418,
      "loss": 1.5348,
      "step": 41330
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4824641942977905,
      "learning_rate": 0.0003391306554221803,
      "loss": 1.6014,
      "step": 41331
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47796353697776794,
      "learning_rate": 0.0003391202925765201,
      "loss": 1.6528,
      "step": 41332
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48793256282806396,
      "learning_rate": 0.00033910992968337345,
      "loss": 1.5649,
      "step": 41333
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4653361439704895,
      "learning_rate": 0.00033909956674275325,
      "loss": 1.5358,
      "step": 41334
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.49169033765792847,
      "learning_rate": 0.0003390892037546719,
      "loss": 1.6694,
      "step": 41335
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4670521914958954,
      "learning_rate": 0.000339078840719142,
      "loss": 1.6147,
      "step": 41336
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4802980422973633,
      "learning_rate": 0.00033906847763617626,
      "loss": 1.7009,
      "step": 41337
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47336068749427795,
      "learning_rate": 0.00033905811450578706,
      "loss": 1.6005,
      "step": 41338
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.49047425389289856,
      "learning_rate": 0.000339047751327987,
      "loss": 1.6939,
      "step": 41339
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.5987445712089539,
      "learning_rate": 0.00033903738810278877,
      "loss": 1.6734,
      "step": 41340
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.49414893984794617,
      "learning_rate": 0.0003390270248302049,
      "loss": 1.6586,
      "step": 41341
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4732871651649475,
      "learning_rate": 0.000339016661510248,
      "loss": 1.6497,
      "step": 41342
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47115376591682434,
      "learning_rate": 0.00033900629814293063,
      "loss": 1.6204,
      "step": 41343
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46128833293914795,
      "learning_rate": 0.00033899593472826536,
      "loss": 1.6144,
      "step": 41344
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48198896646499634,
      "learning_rate": 0.00033898557126626474,
      "loss": 1.6154,
      "step": 41345
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4871278703212738,
      "learning_rate": 0.00033897520775694136,
      "loss": 1.6382,
      "step": 41346
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47640374302864075,
      "learning_rate": 0.00033896484420030783,
      "loss": 1.6897,
      "step": 41347
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4512280225753784,
      "learning_rate": 0.0003389544805963768,
      "loss": 1.615,
      "step": 41348
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4596766531467438,
      "learning_rate": 0.0003389441169451607,
      "loss": 1.7015,
      "step": 41349
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45196110010147095,
      "learning_rate": 0.0003389337532466722,
      "loss": 1.6305,
      "step": 41350
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46484696865081787,
      "learning_rate": 0.0003389233895009238,
      "loss": 1.6032,
      "step": 41351
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4643765687942505,
      "learning_rate": 0.00033891302570792823,
      "loss": 1.55,
      "step": 41352
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45477208495140076,
      "learning_rate": 0.00033890266186769794,
      "loss": 1.6343,
      "step": 41353
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44882386922836304,
      "learning_rate": 0.0003388922979802455,
      "loss": 1.6126,
      "step": 41354
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4748769998550415,
      "learning_rate": 0.00033888193404558363,
      "loss": 1.69,
      "step": 41355
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4632287621498108,
      "learning_rate": 0.0003388715700637247,
      "loss": 1.6028,
      "step": 41356
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4465567171573639,
      "learning_rate": 0.00033886120603468154,
      "loss": 1.6026,
      "step": 41357
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48719319701194763,
      "learning_rate": 0.00033885084195846657,
      "loss": 1.6913,
      "step": 41358
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4676414132118225,
      "learning_rate": 0.0003388404778350924,
      "loss": 1.6438,
      "step": 41359
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4718979001045227,
      "learning_rate": 0.00033883011366457166,
      "loss": 1.5756,
      "step": 41360
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4646170139312744,
      "learning_rate": 0.00033881974944691677,
      "loss": 1.5786,
      "step": 41361
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45985764265060425,
      "learning_rate": 0.00033880938518214044,
      "loss": 1.6579,
      "step": 41362
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45675382018089294,
      "learning_rate": 0.0003387990208702553,
      "loss": 1.4914,
      "step": 41363
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47070640325546265,
      "learning_rate": 0.0003387886565112739,
      "loss": 1.608,
      "step": 41364
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4894257187843323,
      "learning_rate": 0.00033877829210520865,
      "loss": 1.6071,
      "step": 41365
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47707533836364746,
      "learning_rate": 0.00033876792765207236,
      "loss": 1.601,
      "step": 41366
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46558696031570435,
      "learning_rate": 0.00033875756315187753,
      "loss": 1.6298,
      "step": 41367
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.471296101808548,
      "learning_rate": 0.00033874719860463667,
      "loss": 1.6387,
      "step": 41368
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46952658891677856,
      "learning_rate": 0.00033873683401036247,
      "loss": 1.702,
      "step": 41369
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4757246673107147,
      "learning_rate": 0.0003387264693690674,
      "loss": 1.6885,
      "step": 41370
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4838827848434448,
      "learning_rate": 0.0003387161046807642,
      "loss": 1.6526,
      "step": 41371
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.471159964799881,
      "learning_rate": 0.0003387057399454652,
      "loss": 1.5728,
      "step": 41372
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44880542159080505,
      "learning_rate": 0.0003386953751631833,
      "loss": 1.675,
      "step": 41373
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46977609395980835,
      "learning_rate": 0.0003386850103339309,
      "loss": 1.5804,
      "step": 41374
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4540044963359833,
      "learning_rate": 0.00033867464545772055,
      "loss": 1.6402,
      "step": 41375
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4686932861804962,
      "learning_rate": 0.00033866428053456484,
      "loss": 1.5735,
      "step": 41376
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4461827278137207,
      "learning_rate": 0.0003386539155644764,
      "loss": 1.6422,
      "step": 41377
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45642513036727905,
      "learning_rate": 0.0003386435505474679,
      "loss": 1.5969,
      "step": 41378
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4695473313331604,
      "learning_rate": 0.00033863318548355166,
      "loss": 1.6574,
      "step": 41379
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4796375334262848,
      "learning_rate": 0.0003386228203727405,
      "loss": 1.645,
      "step": 41380
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44929051399230957,
      "learning_rate": 0.000338612455215047,
      "loss": 1.5956,
      "step": 41381
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4527603089809418,
      "learning_rate": 0.00033860209001048357,
      "loss": 1.5592,
      "step": 41382
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4526696801185608,
      "learning_rate": 0.00033859172475906294,
      "loss": 1.6204,
      "step": 41383
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4593779146671295,
      "learning_rate": 0.0003385813594607977,
      "loss": 1.5685,
      "step": 41384
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4655427038669586,
      "learning_rate": 0.0003385709941157003,
      "loss": 1.6414,
      "step": 41385
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47301238775253296,
      "learning_rate": 0.0003385606287237833,
      "loss": 1.6303,
      "step": 41386
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45941513776779175,
      "learning_rate": 0.00033855026328505957,
      "loss": 1.6307,
      "step": 41387
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45896512269973755,
      "learning_rate": 0.00033853989779954137,
      "loss": 1.6433,
      "step": 41388
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4740546941757202,
      "learning_rate": 0.00033852953226724147,
      "loss": 1.5848,
      "step": 41389
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.5422568917274475,
      "learning_rate": 0.0003385191666881724,
      "loss": 1.6046,
      "step": 41390
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4559858441352844,
      "learning_rate": 0.0003385088010623467,
      "loss": 1.637,
      "step": 41391
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45119574666023254,
      "learning_rate": 0.00033849843538977703,
      "loss": 1.6141,
      "step": 41392
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44797858595848083,
      "learning_rate": 0.0003384880696704759,
      "loss": 1.5756,
      "step": 41393
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4435696601867676,
      "learning_rate": 0.0003384777039044559,
      "loss": 1.5558,
      "step": 41394
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45135799050331116,
      "learning_rate": 0.00033846733809172964,
      "loss": 1.5439,
      "step": 41395
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4750096797943115,
      "learning_rate": 0.00033845697223230974,
      "loss": 1.6158,
      "step": 41396
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46693098545074463,
      "learning_rate": 0.00033844660632620876,
      "loss": 1.6526,
      "step": 41397
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4772592782974243,
      "learning_rate": 0.00033843624037343926,
      "loss": 1.6618,
      "step": 41398
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45593249797821045,
      "learning_rate": 0.00033842587437401384,
      "loss": 1.5713,
      "step": 41399
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.9967095851898193,
      "learning_rate": 0.00033841550832794495,
      "loss": 1.5876,
      "step": 41400
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44989991188049316,
      "learning_rate": 0.0003384051422352454,
      "loss": 1.7185,
      "step": 41401
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44747960567474365,
      "learning_rate": 0.00033839477609592765,
      "loss": 1.617,
      "step": 41402
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46135810017585754,
      "learning_rate": 0.0003383844099100044,
      "loss": 1.5795,
      "step": 41403
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4528684616088867,
      "learning_rate": 0.00033837404367748785,
      "loss": 1.6003,
      "step": 41404
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4842431843280792,
      "learning_rate": 0.0003383636773983911,
      "loss": 1.6101,
      "step": 41405
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.43812820315361023,
      "learning_rate": 0.00033835331107272645,
      "loss": 1.6526,
      "step": 41406
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46296560764312744,
      "learning_rate": 0.0003383429447005065,
      "loss": 1.6527,
      "step": 41407
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4727495610713959,
      "learning_rate": 0.000338332578281744,
      "loss": 1.5886,
      "step": 41408
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4849168360233307,
      "learning_rate": 0.00033832221181645116,
      "loss": 1.5454,
      "step": 41409
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45584988594055176,
      "learning_rate": 0.00033831184530464095,
      "loss": 1.6102,
      "step": 41410
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4658520519733429,
      "learning_rate": 0.00033830147874632573,
      "loss": 1.5359,
      "step": 41411
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47648483514785767,
      "learning_rate": 0.0003382911121415183,
      "loss": 1.6532,
      "step": 41412
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45878899097442627,
      "learning_rate": 0.00033828074549023096,
      "loss": 1.6492,
      "step": 41413
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46345624327659607,
      "learning_rate": 0.0003382703787924765,
      "loss": 1.6155,
      "step": 41414
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45490598678588867,
      "learning_rate": 0.00033826001204826744,
      "loss": 1.6053,
      "step": 41415
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47544845938682556,
      "learning_rate": 0.00033824964525761627,
      "loss": 1.6462,
      "step": 41416
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47244328260421753,
      "learning_rate": 0.00033823927842053587,
      "loss": 1.643,
      "step": 41417
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46525266766548157,
      "learning_rate": 0.0003382289115370384,
      "loss": 1.6472,
      "step": 41418
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45788201689720154,
      "learning_rate": 0.0003382185446071367,
      "loss": 1.6096,
      "step": 41419
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.451225608587265,
      "learning_rate": 0.00033820817763084346,
      "loss": 1.5704,
      "step": 41420
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47607165575027466,
      "learning_rate": 0.000338197810608171,
      "loss": 1.5101,
      "step": 41421
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4564943313598633,
      "learning_rate": 0.0003381874435391321,
      "loss": 1.6103,
      "step": 41422
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45934632420539856,
      "learning_rate": 0.0003381770764237392,
      "loss": 1.6643,
      "step": 41423
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4598037600517273,
      "learning_rate": 0.000338166709262005,
      "loss": 1.615,
      "step": 41424
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4739148020744324,
      "learning_rate": 0.000338156342053942,
      "loss": 1.6664,
      "step": 41425
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4750247597694397,
      "learning_rate": 0.0003381459747995629,
      "loss": 1.5988,
      "step": 41426
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4472414553165436,
      "learning_rate": 0.0003381356074988801,
      "loss": 1.6213,
      "step": 41427
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44821834564208984,
      "learning_rate": 0.00033812524015190644,
      "loss": 1.6292,
      "step": 41428
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4589746296405792,
      "learning_rate": 0.00033811487275865423,
      "loss": 1.5745,
      "step": 41429
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4480791389942169,
      "learning_rate": 0.0003381045053191362,
      "loss": 1.6664,
      "step": 41430
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4456717371940613,
      "learning_rate": 0.00033809413783336494,
      "loss": 1.5751,
      "step": 41431
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45735469460487366,
      "learning_rate": 0.00033808377030135296,
      "loss": 1.6236,
      "step": 41432
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4531359076499939,
      "learning_rate": 0.000338073402723113,
      "loss": 1.6334,
      "step": 41433
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46067675948143005,
      "learning_rate": 0.00033806303509865737,
      "loss": 1.5968,
      "step": 41434
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4651045799255371,
      "learning_rate": 0.00033805266742799897,
      "loss": 1.6502,
      "step": 41435
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45990362763404846,
      "learning_rate": 0.0003380422997111502,
      "loss": 1.5824,
      "step": 41436
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46675464510917664,
      "learning_rate": 0.0003380319319481237,
      "loss": 1.5893,
      "step": 41437
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4664038121700287,
      "learning_rate": 0.00033802156413893195,
      "loss": 1.582,
      "step": 41438
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47008273005485535,
      "learning_rate": 0.0003380111962835877,
      "loss": 1.6446,
      "step": 41439
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46433404088020325,
      "learning_rate": 0.0003380008283821035,
      "loss": 1.5558,
      "step": 41440
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45927780866622925,
      "learning_rate": 0.0003379904604344918,
      "loss": 1.5688,
      "step": 41441
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45517152547836304,
      "learning_rate": 0.00033798009244076537,
      "loss": 1.6536,
      "step": 41442
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47215116024017334,
      "learning_rate": 0.0003379697244009366,
      "loss": 1.5941,
      "step": 41443
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47535309195518494,
      "learning_rate": 0.00033795935631501827,
      "loss": 1.554,
      "step": 41444
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4854499399662018,
      "learning_rate": 0.0003379489881830228,
      "loss": 1.5893,
      "step": 41445
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4852609634399414,
      "learning_rate": 0.00033793862000496287,
      "loss": 1.6221,
      "step": 41446
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47345250844955444,
      "learning_rate": 0.00033792825178085114,
      "loss": 1.6757,
      "step": 41447
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4725000858306885,
      "learning_rate": 0.0003379178835106999,
      "loss": 1.6728,
      "step": 41448
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47682395577430725,
      "learning_rate": 0.00033790751519452216,
      "loss": 1.619,
      "step": 41449
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47093385457992554,
      "learning_rate": 0.00033789714683233013,
      "loss": 1.5859,
      "step": 41450
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4748688042163849,
      "learning_rate": 0.0003378867784241366,
      "loss": 1.6133,
      "step": 41451
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46117720007896423,
      "learning_rate": 0.00033787640996995406,
      "loss": 1.6469,
      "step": 41452
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4581696689128876,
      "learning_rate": 0.00033786604146979524,
      "loss": 1.5747,
      "step": 41453
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4653915464878082,
      "learning_rate": 0.0003378556729236726,
      "loss": 1.6546,
      "step": 41454
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45412057638168335,
      "learning_rate": 0.0003378453043315987,
      "loss": 1.64,
      "step": 41455
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44907787442207336,
      "learning_rate": 0.00033783493569358616,
      "loss": 1.5992,
      "step": 41456
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47017204761505127,
      "learning_rate": 0.0003378245670096476,
      "loss": 1.5625,
      "step": 41457
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45741158723831177,
      "learning_rate": 0.0003378141982797956,
      "loss": 1.6251,
      "step": 41458
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.460247665643692,
      "learning_rate": 0.00033780382950404273,
      "loss": 1.6108,
      "step": 41459
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4646312892436981,
      "learning_rate": 0.00033779346068240165,
      "loss": 1.6478,
      "step": 41460
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45984530448913574,
      "learning_rate": 0.0003377830918148849,
      "loss": 1.7281,
      "step": 41461
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48377087712287903,
      "learning_rate": 0.0003377727229015049,
      "loss": 1.6064,
      "step": 41462
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4564566910266876,
      "learning_rate": 0.0003377623539422744,
      "loss": 1.6632,
      "step": 41463
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45537593960762024,
      "learning_rate": 0.000337751984937206,
      "loss": 1.5985,
      "step": 41464
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4613436758518219,
      "learning_rate": 0.0003377416158863123,
      "loss": 1.6616,
      "step": 41465
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46023350954055786,
      "learning_rate": 0.00033773124678960576,
      "loss": 1.6182,
      "step": 41466
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45589059591293335,
      "learning_rate": 0.00033772087764709916,
      "loss": 1.6255,
      "step": 41467
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4338160753250122,
      "learning_rate": 0.00033771050845880486,
      "loss": 1.5654,
      "step": 41468
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4703884422779083,
      "learning_rate": 0.00033770013922473555,
      "loss": 1.6707,
      "step": 41469
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44203469157218933,
      "learning_rate": 0.00033768976994490396,
      "loss": 1.6473,
      "step": 41470
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4776809513568878,
      "learning_rate": 0.0003376794006193224,
      "loss": 1.6349,
      "step": 41471
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46645334362983704,
      "learning_rate": 0.00033766903124800366,
      "loss": 1.6672,
      "step": 41472
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46489349007606506,
      "learning_rate": 0.0003376586618309602,
      "loss": 1.639,
      "step": 41473
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4481008052825928,
      "learning_rate": 0.0003376482923682048,
      "loss": 1.6292,
      "step": 41474
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44837892055511475,
      "learning_rate": 0.0003376379228597499,
      "loss": 1.6211,
      "step": 41475
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46485018730163574,
      "learning_rate": 0.000337627553305608,
      "loss": 1.7033,
      "step": 41476
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47238782048225403,
      "learning_rate": 0.0003376171837057919,
      "loss": 1.6678,
      "step": 41477
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.452580988407135,
      "learning_rate": 0.00033760681406031396,
      "loss": 1.5936,
      "step": 41478
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.458202064037323,
      "learning_rate": 0.000337596444369187,
      "loss": 1.5596,
      "step": 41479
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46523475646972656,
      "learning_rate": 0.0003375860746324235,
      "loss": 1.6213,
      "step": 41480
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47525566816329956,
      "learning_rate": 0.000337575704850036,
      "loss": 1.6796,
      "step": 41481
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4723498821258545,
      "learning_rate": 0.0003375653350220371,
      "loss": 1.5898,
      "step": 41482
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47571492195129395,
      "learning_rate": 0.00033755496514843947,
      "loss": 1.6124,
      "step": 41483
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4714544415473938,
      "learning_rate": 0.0003375445952292557,
      "loss": 1.6358,
      "step": 41484
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45721369981765747,
      "learning_rate": 0.00033753422526449826,
      "loss": 1.5658,
      "step": 41485
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4628745913505554,
      "learning_rate": 0.0003375238552541797,
      "loss": 1.5646,
      "step": 41486
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4515443742275238,
      "learning_rate": 0.00033751348519831285,
      "loss": 1.605,
      "step": 41487
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4602438509464264,
      "learning_rate": 0.00033750311509691015,
      "loss": 1.6589,
      "step": 41488
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45156386494636536,
      "learning_rate": 0.0003374927449499841,
      "loss": 1.5962,
      "step": 41489
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46269121766090393,
      "learning_rate": 0.00033748237475754754,
      "loss": 1.6381,
      "step": 41490
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.43766969442367554,
      "learning_rate": 0.0003374720045196127,
      "loss": 1.5246,
      "step": 41491
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.43924450874328613,
      "learning_rate": 0.0003374616342361925,
      "loss": 1.5859,
      "step": 41492
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46574002504348755,
      "learning_rate": 0.00033745126390729934,
      "loss": 1.5809,
      "step": 41493
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4619624614715576,
      "learning_rate": 0.00033744089353294587,
      "loss": 1.6384,
      "step": 41494
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45706242322921753,
      "learning_rate": 0.00033743052311314476,
      "loss": 1.6293,
      "step": 41495
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4740210473537445,
      "learning_rate": 0.00033742015264790837,
      "loss": 1.6625,
      "step": 41496
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4856490194797516,
      "learning_rate": 0.00033740978213724955,
      "loss": 1.6145,
      "step": 41497
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4711798131465912,
      "learning_rate": 0.0003373994115811807,
      "loss": 1.6233,
      "step": 41498
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44721558690071106,
      "learning_rate": 0.00033738904097971447,
      "loss": 1.5187,
      "step": 41499
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4589579999446869,
      "learning_rate": 0.00033737867033286343,
      "loss": 1.509,
      "step": 41500
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4915023446083069,
      "learning_rate": 0.00033736829964064026,
      "loss": 1.6641,
      "step": 41501
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4696427285671234,
      "learning_rate": 0.0003373579289030575,
      "loss": 1.6008,
      "step": 41502
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4485320448875427,
      "learning_rate": 0.00033734755812012764,
      "loss": 1.6279,
      "step": 41503
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4773733615875244,
      "learning_rate": 0.0003373371872918634,
      "loss": 1.6552,
      "step": 41504
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4803343117237091,
      "learning_rate": 0.00033732681641827726,
      "loss": 1.5212,
      "step": 41505
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4763201177120209,
      "learning_rate": 0.0003373164454993819,
      "loss": 1.5685,
      "step": 41506
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45347997546195984,
      "learning_rate": 0.00033730607453518987,
      "loss": 1.6172,
      "step": 41507
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45161905884742737,
      "learning_rate": 0.0003372957035257137,
      "loss": 1.6803,
      "step": 41508
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47909295558929443,
      "learning_rate": 0.00033728533247096617,
      "loss": 1.6668,
      "step": 41509
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46899479627609253,
      "learning_rate": 0.00033727496137095966,
      "loss": 1.6318,
      "step": 41510
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47345125675201416,
      "learning_rate": 0.00033726459022570684,
      "loss": 1.625,
      "step": 41511
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4717370271682739,
      "learning_rate": 0.0003372542190352203,
      "loss": 1.7133,
      "step": 41512
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44809073209762573,
      "learning_rate": 0.0003372438477995127,
      "loss": 1.6688,
      "step": 41513
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46802109479904175,
      "learning_rate": 0.0003372334765185965,
      "loss": 1.5956,
      "step": 41514
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4678051471710205,
      "learning_rate": 0.00033722310519248433,
      "loss": 1.6187,
      "step": 41515
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4777485132217407,
      "learning_rate": 0.00033721273382118886,
      "loss": 1.6181,
      "step": 41516
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46527063846588135,
      "learning_rate": 0.00033720236240472254,
      "loss": 1.6253,
      "step": 41517
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4703531563282013,
      "learning_rate": 0.000337191990943098,
      "loss": 1.5678,
      "step": 41518
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4696451425552368,
      "learning_rate": 0.0003371816194363279,
      "loss": 1.5827,
      "step": 41519
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4858282506465912,
      "learning_rate": 0.0003371712478844249,
      "loss": 1.6679,
      "step": 41520
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4678555130958557,
      "learning_rate": 0.00033716087628740134,
      "loss": 1.5724,
      "step": 41521
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47070613503456116,
      "learning_rate": 0.00033715050464527005,
      "loss": 1.6032,
      "step": 41522
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48193278908729553,
      "learning_rate": 0.00033714013295804343,
      "loss": 1.6311,
      "step": 41523
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47224146127700806,
      "learning_rate": 0.00033712976122573417,
      "loss": 1.7089,
      "step": 41524
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4504622220993042,
      "learning_rate": 0.00033711938944835495,
      "loss": 1.631,
      "step": 41525
    },
    {
      "epoch": 1.38,
      "grad_norm": 1.2170424461364746,
      "learning_rate": 0.00033710901762591813,
      "loss": 1.5395,
      "step": 41526
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48157036304473877,
      "learning_rate": 0.0003370986457584366,
      "loss": 1.6185,
      "step": 41527
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4672878086566925,
      "learning_rate": 0.00033708827384592254,
      "loss": 1.5711,
      "step": 41528
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.6440796852111816,
      "learning_rate": 0.000337077901888389,
      "loss": 1.6831,
      "step": 41529
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46688318252563477,
      "learning_rate": 0.0003370675298858483,
      "loss": 1.5657,
      "step": 41530
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4514419138431549,
      "learning_rate": 0.00033705715783831293,
      "loss": 1.5485,
      "step": 41531
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4549679160118103,
      "learning_rate": 0.0003370467857457959,
      "loss": 1.5751,
      "step": 41532
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4688408076763153,
      "learning_rate": 0.00033703641360830925,
      "loss": 1.5615,
      "step": 41533
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44951725006103516,
      "learning_rate": 0.0003370260414258661,
      "loss": 1.5985,
      "step": 41534
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45543181896209717,
      "learning_rate": 0.0003370156691984786,
      "loss": 1.6046,
      "step": 41535
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4546520411968231,
      "learning_rate": 0.0003370052969261596,
      "loss": 1.6126,
      "step": 41536
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.49571043252944946,
      "learning_rate": 0.0003369949246089216,
      "loss": 1.613,
      "step": 41537
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.453581303358078,
      "learning_rate": 0.00033698455224677725,
      "loss": 1.6648,
      "step": 41538
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48658648133277893,
      "learning_rate": 0.00033697417983973916,
      "loss": 1.6369,
      "step": 41539
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4701955318450928,
      "learning_rate": 0.00033696380738781976,
      "loss": 1.6368,
      "step": 41540
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4569442570209503,
      "learning_rate": 0.0003369534348910318,
      "loss": 1.6132,
      "step": 41541
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4491613507270813,
      "learning_rate": 0.0003369430623493878,
      "loss": 1.6571,
      "step": 41542
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4558243453502655,
      "learning_rate": 0.0003369326897629003,
      "loss": 1.5973,
      "step": 41543
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4607987105846405,
      "learning_rate": 0.00033692231713158203,
      "loss": 1.6205,
      "step": 41544
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46298253536224365,
      "learning_rate": 0.00033691194445544556,
      "loss": 1.6573,
      "step": 41545
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4573151171207428,
      "learning_rate": 0.0003369015717345033,
      "loss": 1.5986,
      "step": 41546
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4582013785839081,
      "learning_rate": 0.000336891198968768,
      "loss": 1.6796,
      "step": 41547
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.464131236076355,
      "learning_rate": 0.00033688082615825223,
      "loss": 1.4996,
      "step": 41548
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46484842896461487,
      "learning_rate": 0.0003368704533029686,
      "loss": 1.5515,
      "step": 41549
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45997875928878784,
      "learning_rate": 0.0003368600804029298,
      "loss": 1.644,
      "step": 41550
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4581325054168701,
      "learning_rate": 0.000336849707458148,
      "loss": 1.6019,
      "step": 41551
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4897434413433075,
      "learning_rate": 0.00033683933446863635,
      "loss": 1.6278,
      "step": 41552
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47953587770462036,
      "learning_rate": 0.00033682896143440703,
      "loss": 1.6243,
      "step": 41553
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45862793922424316,
      "learning_rate": 0.00033681858835547286,
      "loss": 1.6343,
      "step": 41554
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4581072926521301,
      "learning_rate": 0.00033680821523184625,
      "loss": 1.5732,
      "step": 41555
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4446263313293457,
      "learning_rate": 0.00033679784206353994,
      "loss": 1.5784,
      "step": 41556
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46061867475509644,
      "learning_rate": 0.0003367874688505665,
      "loss": 1.6192,
      "step": 41557
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4877537786960602,
      "learning_rate": 0.00033677709559293837,
      "loss": 1.5598,
      "step": 41558
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4791716933250427,
      "learning_rate": 0.0003367667222906684,
      "loss": 1.7387,
      "step": 41559
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4559699296951294,
      "learning_rate": 0.000336756348943769,
      "loss": 1.6673,
      "step": 41560
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44967931509017944,
      "learning_rate": 0.00033674597555225286,
      "loss": 1.5634,
      "step": 41561
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47562211751937866,
      "learning_rate": 0.00033673560211613246,
      "loss": 1.6337,
      "step": 41562
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44249227643013,
      "learning_rate": 0.0003367252286354205,
      "loss": 1.5988,
      "step": 41563
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45445653796195984,
      "learning_rate": 0.0003367148551101295,
      "loss": 1.6332,
      "step": 41564
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46908679604530334,
      "learning_rate": 0.0003367044815402721,
      "loss": 1.5509,
      "step": 41565
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4480058550834656,
      "learning_rate": 0.0003366941079258608,
      "loss": 1.5755,
      "step": 41566
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4753859043121338,
      "learning_rate": 0.0003366837342669083,
      "loss": 1.6322,
      "step": 41567
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47539621591567993,
      "learning_rate": 0.0003366733605634271,
      "loss": 1.5785,
      "step": 41568
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45218610763549805,
      "learning_rate": 0.00033666298681542993,
      "loss": 1.6193,
      "step": 41569
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46355345845222473,
      "learning_rate": 0.00033665261302292924,
      "loss": 1.5871,
      "step": 41570
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.463765025138855,
      "learning_rate": 0.0003366422391859377,
      "loss": 1.6156,
      "step": 41571
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.474216490983963,
      "learning_rate": 0.0003366318653044679,
      "loss": 1.6812,
      "step": 41572
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4408387839794159,
      "learning_rate": 0.00033662149137853243,
      "loss": 1.5559,
      "step": 41573
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45761004090309143,
      "learning_rate": 0.00033661111740814376,
      "loss": 1.573,
      "step": 41574
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4942611753940582,
      "learning_rate": 0.0003366007433933146,
      "loss": 1.5907,
      "step": 41575
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47630780935287476,
      "learning_rate": 0.0003365903693340576,
      "loss": 1.616,
      "step": 41576
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4692460894584656,
      "learning_rate": 0.00033657999523038534,
      "loss": 1.6423,
      "step": 41577
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4759998619556427,
      "learning_rate": 0.00033656962108231025,
      "loss": 1.5892,
      "step": 41578
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4631701707839966,
      "learning_rate": 0.0003365592468898451,
      "loss": 1.5516,
      "step": 41579
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47425055503845215,
      "learning_rate": 0.0003365488726530023,
      "loss": 1.6886,
      "step": 41580
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47546374797821045,
      "learning_rate": 0.0003365384983717946,
      "loss": 1.6058,
      "step": 41581
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4617851674556732,
      "learning_rate": 0.00033652812404623466,
      "loss": 1.5651,
      "step": 41582
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4739373028278351,
      "learning_rate": 0.0003365177496763348,
      "loss": 1.6075,
      "step": 41583
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46825751662254333,
      "learning_rate": 0.0003365073752621079,
      "loss": 1.623,
      "step": 41584
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4511909782886505,
      "learning_rate": 0.00033649700080356636,
      "loss": 1.6725,
      "step": 41585
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4978649318218231,
      "learning_rate": 0.00033648662630072286,
      "loss": 1.6596,
      "step": 41586
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46358489990234375,
      "learning_rate": 0.00033647625175359003,
      "loss": 1.6347,
      "step": 41587
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4835931062698364,
      "learning_rate": 0.0003364658771621802,
      "loss": 1.609,
      "step": 41588
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4686241149902344,
      "learning_rate": 0.0003364555025265064,
      "loss": 1.6046,
      "step": 41589
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4732561707496643,
      "learning_rate": 0.00033644512784658076,
      "loss": 1.6058,
      "step": 41590
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4750974774360657,
      "learning_rate": 0.00033643475312241636,
      "loss": 1.6577,
      "step": 41591
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4645373821258545,
      "learning_rate": 0.0003364243783540254,
      "loss": 1.5987,
      "step": 41592
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.47824081778526306,
      "learning_rate": 0.0003364140035414206,
      "loss": 1.5703,
      "step": 41593
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4520179331302643,
      "learning_rate": 0.00033640362868461466,
      "loss": 1.5759,
      "step": 41594
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4351290762424469,
      "learning_rate": 0.0003363932537836199,
      "loss": 1.5636,
      "step": 41595
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4789949953556061,
      "learning_rate": 0.0003363828788384493,
      "loss": 1.574,
      "step": 41596
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45376908779144287,
      "learning_rate": 0.00033637250384911514,
      "loss": 1.6113,
      "step": 41597
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46440669894218445,
      "learning_rate": 0.00033636212881563014,
      "loss": 1.6059,
      "step": 41598
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4702935814857483,
      "learning_rate": 0.00033635175373800683,
      "loss": 1.635,
      "step": 41599
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46268025040626526,
      "learning_rate": 0.00033634137861625785,
      "loss": 1.578,
      "step": 41600
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4668077826499939,
      "learning_rate": 0.0003363310034503959,
      "loss": 1.5862,
      "step": 41601
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.43801987171173096,
      "learning_rate": 0.0003363206282404334,
      "loss": 1.6382,
      "step": 41602
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.51169353723526,
      "learning_rate": 0.00033631025298638297,
      "loss": 1.5327,
      "step": 41603
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4695284962654114,
      "learning_rate": 0.0003362998776882572,
      "loss": 1.5694,
      "step": 41604
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4490794539451599,
      "learning_rate": 0.00033628950234606885,
      "loss": 1.5582,
      "step": 41605
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45969223976135254,
      "learning_rate": 0.0003362791269598303,
      "loss": 1.62,
      "step": 41606
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46942010521888733,
      "learning_rate": 0.0003362687515295543,
      "loss": 1.6681,
      "step": 41607
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4637531340122223,
      "learning_rate": 0.0003362583760552534,
      "loss": 1.6011,
      "step": 41608
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46459710597991943,
      "learning_rate": 0.00033624800053694005,
      "loss": 1.5898,
      "step": 41609
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4627610146999359,
      "learning_rate": 0.0003362376249746271,
      "loss": 1.6528,
      "step": 41610
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4753885865211487,
      "learning_rate": 0.00033622724936832686,
      "loss": 1.6199,
      "step": 41611
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46304604411125183,
      "learning_rate": 0.00033621687371805225,
      "loss": 1.653,
      "step": 41612
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4673067331314087,
      "learning_rate": 0.0003362064980238155,
      "loss": 1.6286,
      "step": 41613
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45991724729537964,
      "learning_rate": 0.0003361961222856296,
      "loss": 1.5801,
      "step": 41614
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4777093231678009,
      "learning_rate": 0.00033618574650350687,
      "loss": 1.6063,
      "step": 41615
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.44398412108421326,
      "learning_rate": 0.00033617537067745994,
      "loss": 1.613,
      "step": 41616
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45677128434181213,
      "learning_rate": 0.0003361649948075015,
      "loss": 1.5575,
      "step": 41617
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46655577421188354,
      "learning_rate": 0.00033615461889364404,
      "loss": 1.642,
      "step": 41618
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4600602686405182,
      "learning_rate": 0.0003361442429359002,
      "loss": 1.6388,
      "step": 41619
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4468725025653839,
      "learning_rate": 0.0003361338669342825,
      "loss": 1.6444,
      "step": 41620
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4823482632637024,
      "learning_rate": 0.00033612349088880375,
      "loss": 1.5156,
      "step": 41621
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4706712067127228,
      "learning_rate": 0.0003361131147994763,
      "loss": 1.6242,
      "step": 41622
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46551603078842163,
      "learning_rate": 0.0003361027386663129,
      "loss": 1.5564,
      "step": 41623
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.49407386779785156,
      "learning_rate": 0.0003360923624893261,
      "loss": 1.5706,
      "step": 41624
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.45149338245391846,
      "learning_rate": 0.00033608198626852845,
      "loss": 1.5709,
      "step": 41625
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4771249294281006,
      "learning_rate": 0.00033607161000393264,
      "loss": 1.6734,
      "step": 41626
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4821464717388153,
      "learning_rate": 0.00033606123369555116,
      "loss": 1.6481,
      "step": 41627
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4826940894126892,
      "learning_rate": 0.0003360508573433967,
      "loss": 1.6532,
      "step": 41628
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4688262641429901,
      "learning_rate": 0.0003360404809474818,
      "loss": 1.5996,
      "step": 41629
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45436224341392517,
      "learning_rate": 0.000336030104507819,
      "loss": 1.5418,
      "step": 41630
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45522087812423706,
      "learning_rate": 0.00033601972802442103,
      "loss": 1.5903,
      "step": 41631
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4676141142845154,
      "learning_rate": 0.00033600935149730046,
      "loss": 1.5757,
      "step": 41632
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47238442301750183,
      "learning_rate": 0.00033599897492646975,
      "loss": 1.6169,
      "step": 41633
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.476940780878067,
      "learning_rate": 0.00033598859831194167,
      "loss": 1.6631,
      "step": 41634
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4640428125858307,
      "learning_rate": 0.00033597822165372864,
      "loss": 1.5712,
      "step": 41635
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4863060414791107,
      "learning_rate": 0.0003359678449518434,
      "loss": 1.6349,
      "step": 41636
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4733703136444092,
      "learning_rate": 0.0003359574682062985,
      "loss": 1.5679,
      "step": 41637
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4575599133968353,
      "learning_rate": 0.0003359470914171065,
      "loss": 1.6795,
      "step": 41638
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45570316910743713,
      "learning_rate": 0.00033593671458428015,
      "loss": 1.5979,
      "step": 41639
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45672672986984253,
      "learning_rate": 0.00033592633770783176,
      "loss": 1.5789,
      "step": 41640
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45970118045806885,
      "learning_rate": 0.0003359159607877742,
      "loss": 1.6209,
      "step": 41641
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4844995439052582,
      "learning_rate": 0.0003359055838241199,
      "loss": 1.5633,
      "step": 41642
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4837498664855957,
      "learning_rate": 0.00033589520681688145,
      "loss": 1.656,
      "step": 41643
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44874051213264465,
      "learning_rate": 0.0003358848297660716,
      "loss": 1.5894,
      "step": 41644
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4685758650302887,
      "learning_rate": 0.0003358744526717028,
      "loss": 1.636,
      "step": 41645
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48650580644607544,
      "learning_rate": 0.0003358640755337878,
      "loss": 1.6147,
      "step": 41646
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4619194269180298,
      "learning_rate": 0.00033585369835233906,
      "loss": 1.6223,
      "step": 41647
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4643770456314087,
      "learning_rate": 0.0003358433211273691,
      "loss": 1.6879,
      "step": 41648
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45710909366607666,
      "learning_rate": 0.00033583294385889083,
      "loss": 1.5135,
      "step": 41649
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4618671238422394,
      "learning_rate": 0.0003358225665469165,
      "loss": 1.5677,
      "step": 41650
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45749232172966003,
      "learning_rate": 0.0003358121891914589,
      "loss": 1.5752,
      "step": 41651
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48108598589897156,
      "learning_rate": 0.00033580181179253054,
      "loss": 1.6837,
      "step": 41652
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.461483895778656,
      "learning_rate": 0.00033579143435014407,
      "loss": 1.6036,
      "step": 41653
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47680485248565674,
      "learning_rate": 0.0003357810568643121,
      "loss": 1.603,
      "step": 41654
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4713161289691925,
      "learning_rate": 0.0003357706793350471,
      "loss": 1.6315,
      "step": 41655
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.460376501083374,
      "learning_rate": 0.00033576030176236195,
      "loss": 1.6492,
      "step": 41656
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4507370591163635,
      "learning_rate": 0.00033574992414626894,
      "loss": 1.5757,
      "step": 41657
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4652101695537567,
      "learning_rate": 0.0003357395464867808,
      "loss": 1.7222,
      "step": 41658
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4732840061187744,
      "learning_rate": 0.00033572916878391013,
      "loss": 1.5396,
      "step": 41659
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47795799374580383,
      "learning_rate": 0.00033571879103766944,
      "loss": 1.6379,
      "step": 41660
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4509284198284149,
      "learning_rate": 0.0003357084132480715,
      "loss": 1.582,
      "step": 41661
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47656822204589844,
      "learning_rate": 0.00033569803541512883,
      "loss": 1.6318,
      "step": 41662
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44955936074256897,
      "learning_rate": 0.0003356876575388539,
      "loss": 1.6601,
      "step": 41663
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46493756771087646,
      "learning_rate": 0.0003356772796192595,
      "loss": 1.6219,
      "step": 41664
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46534860134124756,
      "learning_rate": 0.00033566690165635806,
      "loss": 1.6557,
      "step": 41665
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4812878966331482,
      "learning_rate": 0.00033565652365016233,
      "loss": 1.6411,
      "step": 41666
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45606184005737305,
      "learning_rate": 0.0003356461456006849,
      "loss": 1.5633,
      "step": 41667
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46426671743392944,
      "learning_rate": 0.0003356357675079381,
      "loss": 1.6239,
      "step": 41668
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45420482754707336,
      "learning_rate": 0.00033562538937193485,
      "loss": 1.6245,
      "step": 41669
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.49845877289772034,
      "learning_rate": 0.0003356150111926876,
      "loss": 1.6841,
      "step": 41670
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46924981474876404,
      "learning_rate": 0.000335604632970209,
      "loss": 1.5496,
      "step": 41671
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4673631191253662,
      "learning_rate": 0.00033559425470451154,
      "loss": 1.6281,
      "step": 41672
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4671284854412079,
      "learning_rate": 0.000335583876395608,
      "loss": 1.6434,
      "step": 41673
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47538506984710693,
      "learning_rate": 0.0003355734980435109,
      "loss": 1.5941,
      "step": 41674
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4484763741493225,
      "learning_rate": 0.00033556311964823266,
      "loss": 1.5735,
      "step": 41675
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4473857879638672,
      "learning_rate": 0.00033555274120978623,
      "loss": 1.5189,
      "step": 41676
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46966567635536194,
      "learning_rate": 0.0003355423627281839,
      "loss": 1.582,
      "step": 41677
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4585784375667572,
      "learning_rate": 0.00033553198420343834,
      "loss": 1.5888,
      "step": 41678
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4602990448474884,
      "learning_rate": 0.00033552160563556224,
      "loss": 1.5665,
      "step": 41679
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4479201138019562,
      "learning_rate": 0.0003355112270245681,
      "loss": 1.5548,
      "step": 41680
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4628123342990875,
      "learning_rate": 0.0003355008483704687,
      "loss": 1.5817,
      "step": 41681
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45727160573005676,
      "learning_rate": 0.0003354904696732764,
      "loss": 1.558,
      "step": 41682
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46013984084129333,
      "learning_rate": 0.00033548009093300384,
      "loss": 1.5873,
      "step": 41683
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45039433240890503,
      "learning_rate": 0.00033546971214966375,
      "loss": 1.6109,
      "step": 41684
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4673748016357422,
      "learning_rate": 0.00033545933332326865,
      "loss": 1.6025,
      "step": 41685
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44845354557037354,
      "learning_rate": 0.00033544895445383115,
      "loss": 1.6113,
      "step": 41686
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45451775193214417,
      "learning_rate": 0.0003354385755413639,
      "loss": 1.6073,
      "step": 41687
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47264695167541504,
      "learning_rate": 0.0003354281965858794,
      "loss": 1.6746,
      "step": 41688
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47012341022491455,
      "learning_rate": 0.00033541781758739017,
      "loss": 1.6082,
      "step": 41689
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47812730073928833,
      "learning_rate": 0.00033540743854590903,
      "loss": 1.6024,
      "step": 41690
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4686329662799835,
      "learning_rate": 0.0003353970594614485,
      "loss": 1.6787,
      "step": 41691
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48397526144981384,
      "learning_rate": 0.00033538668033402107,
      "loss": 1.6301,
      "step": 41692
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48598870635032654,
      "learning_rate": 0.00033537630116363946,
      "loss": 1.5956,
      "step": 41693
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46090415120124817,
      "learning_rate": 0.00033536592195031634,
      "loss": 1.6337,
      "step": 41694
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4396587014198303,
      "learning_rate": 0.0003353555426940641,
      "loss": 1.6131,
      "step": 41695
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4634570777416229,
      "learning_rate": 0.0003353451633948954,
      "loss": 1.6155,
      "step": 41696
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46295756101608276,
      "learning_rate": 0.0003353347840528229,
      "loss": 1.6341,
      "step": 41697
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4713418781757355,
      "learning_rate": 0.00033532440466785924,
      "loss": 1.6472,
      "step": 41698
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4576031267642975,
      "learning_rate": 0.00033531402524001697,
      "loss": 1.6008,
      "step": 41699
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4641043245792389,
      "learning_rate": 0.0003353036457693086,
      "loss": 1.6735,
      "step": 41700
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46794626116752625,
      "learning_rate": 0.0003352932662557469,
      "loss": 1.5821,
      "step": 41701
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4642975628376007,
      "learning_rate": 0.0003352828866993442,
      "loss": 1.6219,
      "step": 41702
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45471054315567017,
      "learning_rate": 0.0003352725071001135,
      "loss": 1.5609,
      "step": 41703
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47004541754722595,
      "learning_rate": 0.00033526212745806707,
      "loss": 1.6517,
      "step": 41704
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4520299434661865,
      "learning_rate": 0.0003352517477732175,
      "loss": 1.6026,
      "step": 41705
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.7044937610626221,
      "learning_rate": 0.0003352413680455777,
      "loss": 1.5978,
      "step": 41706
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4543308615684509,
      "learning_rate": 0.00033523098827515984,
      "loss": 1.678,
      "step": 41707
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48326337337493896,
      "learning_rate": 0.00033522060846197704,
      "loss": 1.653,
      "step": 41708
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46526336669921875,
      "learning_rate": 0.0003352102286060414,
      "loss": 1.6287,
      "step": 41709
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45670685172080994,
      "learning_rate": 0.0003351998487073658,
      "loss": 1.5648,
      "step": 41710
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46035292744636536,
      "learning_rate": 0.0003351894687659628,
      "loss": 1.5866,
      "step": 41711
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.49374762177467346,
      "learning_rate": 0.0003351790887818449,
      "loss": 1.6784,
      "step": 41712
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44812339544296265,
      "learning_rate": 0.00033516870875502483,
      "loss": 1.5938,
      "step": 41713
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4526902139186859,
      "learning_rate": 0.00033515832868551506,
      "loss": 1.5712,
      "step": 41714
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4594636857509613,
      "learning_rate": 0.0003351479485733283,
      "loss": 1.6005,
      "step": 41715
    },
    {
      "epoch": 1.39,
      "grad_norm": 1.0856131315231323,
      "learning_rate": 0.0003351375684184771,
      "loss": 1.63,
      "step": 41716
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46456894278526306,
      "learning_rate": 0.0003351271882209741,
      "loss": 1.7199,
      "step": 41717
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44920438528060913,
      "learning_rate": 0.0003351168079808319,
      "loss": 1.6937,
      "step": 41718
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4760432839393616,
      "learning_rate": 0.000335106427698063,
      "loss": 1.7,
      "step": 41719
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4764876961708069,
      "learning_rate": 0.00033509604737268006,
      "loss": 1.581,
      "step": 41720
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4578203856945038,
      "learning_rate": 0.0003350856670046957,
      "loss": 1.6528,
      "step": 41721
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.461954802274704,
      "learning_rate": 0.0003350752865941225,
      "loss": 1.6004,
      "step": 41722
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46784111857414246,
      "learning_rate": 0.0003350649061409731,
      "loss": 1.6057,
      "step": 41723
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46203112602233887,
      "learning_rate": 0.0003350545256452601,
      "loss": 1.5707,
      "step": 41724
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4699048101902008,
      "learning_rate": 0.0003350441451069961,
      "loss": 1.5862,
      "step": 41725
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4569663405418396,
      "learning_rate": 0.00033503376452619354,
      "loss": 1.5602,
      "step": 41726
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48754245042800903,
      "learning_rate": 0.0003350233839028652,
      "loss": 1.6093,
      "step": 41727
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4702374339103699,
      "learning_rate": 0.0003350130032370237,
      "loss": 1.6245,
      "step": 41728
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4474866986274719,
      "learning_rate": 0.0003350026225286816,
      "loss": 1.5198,
      "step": 41729
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.461466521024704,
      "learning_rate": 0.00033499224177785126,
      "loss": 1.5694,
      "step": 41730
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48695236444473267,
      "learning_rate": 0.00033498186098454574,
      "loss": 1.6902,
      "step": 41731
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44828030467033386,
      "learning_rate": 0.0003349714801487773,
      "loss": 1.6201,
      "step": 41732
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4781697392463684,
      "learning_rate": 0.00033496109927055856,
      "loss": 1.6178,
      "step": 41733
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45990172028541565,
      "learning_rate": 0.0003349507183499023,
      "loss": 1.6714,
      "step": 41734
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45313602685928345,
      "learning_rate": 0.00033494033738682094,
      "loss": 1.6055,
      "step": 41735
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4817909002304077,
      "learning_rate": 0.00033492995638132725,
      "loss": 1.6574,
      "step": 41736
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4756769835948944,
      "learning_rate": 0.0003349195753334336,
      "loss": 1.6077,
      "step": 41737
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4933323562145233,
      "learning_rate": 0.00033490919424315285,
      "loss": 1.6506,
      "step": 41738
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4579010605812073,
      "learning_rate": 0.00033489881311049753,
      "loss": 1.572,
      "step": 41739
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46298500895500183,
      "learning_rate": 0.00033488843193548004,
      "loss": 1.6208,
      "step": 41740
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4666644334793091,
      "learning_rate": 0.00033487805071811324,
      "loss": 1.6292,
      "step": 41741
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4778195321559906,
      "learning_rate": 0.00033486766945840953,
      "loss": 1.5684,
      "step": 41742
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46538013219833374,
      "learning_rate": 0.0003348572881563817,
      "loss": 1.6461,
      "step": 41743
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46367475390434265,
      "learning_rate": 0.0003348469068120423,
      "loss": 1.6235,
      "step": 41744
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47160568833351135,
      "learning_rate": 0.00033483652542540374,
      "loss": 1.6362,
      "step": 41745
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4600714445114136,
      "learning_rate": 0.0003348261439964789,
      "loss": 1.6986,
      "step": 41746
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.460742712020874,
      "learning_rate": 0.00033481576252528014,
      "loss": 1.5919,
      "step": 41747
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45834216475486755,
      "learning_rate": 0.00033480538101182027,
      "loss": 1.7017,
      "step": 41748
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4977990686893463,
      "learning_rate": 0.00033479499945611186,
      "loss": 1.6159,
      "step": 41749
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46397528052330017,
      "learning_rate": 0.00033478461785816727,
      "loss": 1.6185,
      "step": 41750
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4533520042896271,
      "learning_rate": 0.0003347742362179994,
      "loss": 1.6061,
      "step": 41751
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46466296911239624,
      "learning_rate": 0.0003347638545356206,
      "loss": 1.6224,
      "step": 41752
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45738962292671204,
      "learning_rate": 0.00033475347281104376,
      "loss": 1.6277,
      "step": 41753
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4698895514011383,
      "learning_rate": 0.00033474309104428125,
      "loss": 1.5699,
      "step": 41754
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4882667064666748,
      "learning_rate": 0.00033473270923534566,
      "loss": 1.6092,
      "step": 41755
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47352153062820435,
      "learning_rate": 0.0003347223273842499,
      "loss": 1.5215,
      "step": 41756
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4550284445285797,
      "learning_rate": 0.0003347119454910062,
      "loss": 1.6036,
      "step": 41757
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4631907343864441,
      "learning_rate": 0.0003347015635556273,
      "loss": 1.6053,
      "step": 41758
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46043312549591064,
      "learning_rate": 0.0003346911815781259,
      "loss": 1.5695,
      "step": 41759
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47379961609840393,
      "learning_rate": 0.0003346807995585144,
      "loss": 1.6574,
      "step": 41760
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4628407955169678,
      "learning_rate": 0.0003346704174968057,
      "loss": 1.6833,
      "step": 41761
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46703365445137024,
      "learning_rate": 0.000334660035393012,
      "loss": 1.5731,
      "step": 41762
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4514027237892151,
      "learning_rate": 0.0003346496532471463,
      "loss": 1.6889,
      "step": 41763
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45648857951164246,
      "learning_rate": 0.00033463927105922093,
      "loss": 1.5935,
      "step": 41764
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4821625053882599,
      "learning_rate": 0.0003346288888292486,
      "loss": 1.6158,
      "step": 41765
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.465831458568573,
      "learning_rate": 0.00033461850655724197,
      "loss": 1.6554,
      "step": 41766
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4737672805786133,
      "learning_rate": 0.00033460812424321345,
      "loss": 1.6114,
      "step": 41767
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.445765882730484,
      "learning_rate": 0.0003345977418871759,
      "loss": 1.5931,
      "step": 41768
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.461518257856369,
      "learning_rate": 0.0003345873594891417,
      "loss": 1.5984,
      "step": 41769
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4628540873527527,
      "learning_rate": 0.0003345769770491235,
      "loss": 1.5968,
      "step": 41770
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4729882478713989,
      "learning_rate": 0.0003345665945671341,
      "loss": 1.5895,
      "step": 41771
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47179368138313293,
      "learning_rate": 0.0003345562120431858,
      "loss": 1.5987,
      "step": 41772
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46713393926620483,
      "learning_rate": 0.0003345458294772915,
      "loss": 1.5867,
      "step": 41773
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46935737133026123,
      "learning_rate": 0.0003345354468694636,
      "loss": 1.6137,
      "step": 41774
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4661067724227905,
      "learning_rate": 0.0003345250642197147,
      "loss": 1.6382,
      "step": 41775
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.464071124792099,
      "learning_rate": 0.00033451468152805746,
      "loss": 1.7078,
      "step": 41776
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4790535271167755,
      "learning_rate": 0.00033450429879450445,
      "loss": 1.6043,
      "step": 41777
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47882673144340515,
      "learning_rate": 0.0003344939160190684,
      "loss": 1.656,
      "step": 41778
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4561389982700348,
      "learning_rate": 0.0003344835332017618,
      "loss": 1.5563,
      "step": 41779
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.456438809633255,
      "learning_rate": 0.0003344731503425972,
      "loss": 1.6237,
      "step": 41780
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45666277408599854,
      "learning_rate": 0.00033446276744158733,
      "loss": 1.6342,
      "step": 41781
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44756031036376953,
      "learning_rate": 0.0003344523844987447,
      "loss": 1.542,
      "step": 41782
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4719986319541931,
      "learning_rate": 0.000334442001514082,
      "loss": 1.6606,
      "step": 41783
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4700920581817627,
      "learning_rate": 0.0003344316184876118,
      "loss": 1.6435,
      "step": 41784
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46106386184692383,
      "learning_rate": 0.0003344212354193466,
      "loss": 1.5627,
      "step": 41785
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4707760810852051,
      "learning_rate": 0.0003344108523092992,
      "loss": 1.5805,
      "step": 41786
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46623292565345764,
      "learning_rate": 0.00033440046915748207,
      "loss": 1.6302,
      "step": 41787
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46616455912590027,
      "learning_rate": 0.00033439008596390776,
      "loss": 1.6325,
      "step": 41788
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4777074456214905,
      "learning_rate": 0.000334379702728589,
      "loss": 1.6634,
      "step": 41789
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4674282371997833,
      "learning_rate": 0.00033436931945153835,
      "loss": 1.5385,
      "step": 41790
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.473114550113678,
      "learning_rate": 0.00033435893613276846,
      "loss": 1.5843,
      "step": 41791
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45940107107162476,
      "learning_rate": 0.0003343485527722918,
      "loss": 1.5239,
      "step": 41792
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45135751366615295,
      "learning_rate": 0.0003343381693701211,
      "loss": 1.6171,
      "step": 41793
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4594753384590149,
      "learning_rate": 0.0003343277859262689,
      "loss": 1.564,
      "step": 41794
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44331541657447815,
      "learning_rate": 0.0003343174024407478,
      "loss": 1.6436,
      "step": 41795
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47015708684921265,
      "learning_rate": 0.0003343070189135705,
      "loss": 1.6015,
      "step": 41796
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44425326585769653,
      "learning_rate": 0.0003342966353447495,
      "loss": 1.548,
      "step": 41797
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4800747036933899,
      "learning_rate": 0.0003342862517342975,
      "loss": 1.6224,
      "step": 41798
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45974645018577576,
      "learning_rate": 0.000334275868082227,
      "loss": 1.6141,
      "step": 41799
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45947378873825073,
      "learning_rate": 0.00033426548438855063,
      "loss": 1.594,
      "step": 41800
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4520393908023834,
      "learning_rate": 0.000334255100653281,
      "loss": 1.6706,
      "step": 41801
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4557134509086609,
      "learning_rate": 0.0003342447168764307,
      "loss": 1.6726,
      "step": 41802
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.44499173760414124,
      "learning_rate": 0.0003342343330580124,
      "loss": 1.6161,
      "step": 41803
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4449795186519623,
      "learning_rate": 0.0003342239491980387,
      "loss": 1.546,
      "step": 41804
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4662346839904785,
      "learning_rate": 0.00033421356529652214,
      "loss": 1.596,
      "step": 41805
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4562245309352875,
      "learning_rate": 0.0003342031813534753,
      "loss": 1.6239,
      "step": 41806
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45939621329307556,
      "learning_rate": 0.0003341927973689109,
      "loss": 1.6279,
      "step": 41807
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4536053538322449,
      "learning_rate": 0.00033418241334284143,
      "loss": 1.6514,
      "step": 41808
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4655473232269287,
      "learning_rate": 0.00033417202927527956,
      "loss": 1.6985,
      "step": 41809
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4661923944950104,
      "learning_rate": 0.0003341616451662379,
      "loss": 1.6337,
      "step": 41810
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4492666721343994,
      "learning_rate": 0.0003341512610157291,
      "loss": 1.6217,
      "step": 41811
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4642936885356903,
      "learning_rate": 0.0003341408768237656,
      "loss": 1.6847,
      "step": 41812
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47594180703163147,
      "learning_rate": 0.0003341304925903602,
      "loss": 1.6257,
      "step": 41813
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4597957730293274,
      "learning_rate": 0.0003341201083155253,
      "loss": 1.5739,
      "step": 41814
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47769883275032043,
      "learning_rate": 0.0003341097239992737,
      "loss": 1.6364,
      "step": 41815
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45772263407707214,
      "learning_rate": 0.0003340993396416179,
      "loss": 1.6282,
      "step": 41816
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46414077281951904,
      "learning_rate": 0.00033408895524257045,
      "loss": 1.6324,
      "step": 41817
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4667128324508667,
      "learning_rate": 0.0003340785708021441,
      "loss": 1.6313,
      "step": 41818
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4682396948337555,
      "learning_rate": 0.00033406818632035143,
      "loss": 1.679,
      "step": 41819
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4616215229034424,
      "learning_rate": 0.000334057801797205,
      "loss": 1.6092,
      "step": 41820
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47639188170433044,
      "learning_rate": 0.00033404741723271737,
      "loss": 1.6849,
      "step": 41821
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4704429507255554,
      "learning_rate": 0.0003340370326269011,
      "loss": 1.6169,
      "step": 41822
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4626162648200989,
      "learning_rate": 0.00033402664797976903,
      "loss": 1.6207,
      "step": 41823
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4429436922073364,
      "learning_rate": 0.00033401626329133353,
      "loss": 1.6512,
      "step": 41824
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4855133891105652,
      "learning_rate": 0.0003340058785616074,
      "loss": 1.6156,
      "step": 41825
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.49213331937789917,
      "learning_rate": 0.00033399549379060304,
      "loss": 1.6076,
      "step": 41826
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4837280213832855,
      "learning_rate": 0.0003339851089783332,
      "loss": 1.655,
      "step": 41827
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45208457112312317,
      "learning_rate": 0.0003339747241248106,
      "loss": 1.5937,
      "step": 41828
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4559553265571594,
      "learning_rate": 0.0003339643392300474,
      "loss": 1.6539,
      "step": 41829
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4601745903491974,
      "learning_rate": 0.0003339539542940567,
      "loss": 1.6417,
      "step": 41830
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4618566334247589,
      "learning_rate": 0.00033394356931685084,
      "loss": 1.6329,
      "step": 41831
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47378531098365784,
      "learning_rate": 0.0003339331842984425,
      "loss": 1.5799,
      "step": 41832
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46750959753990173,
      "learning_rate": 0.0003339227992388442,
      "loss": 1.6607,
      "step": 41833
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46498456597328186,
      "learning_rate": 0.0003339124141380687,
      "loss": 1.5898,
      "step": 41834
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4517357349395752,
      "learning_rate": 0.00033390202899612854,
      "loss": 1.5702,
      "step": 41835
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4455587863922119,
      "learning_rate": 0.0003338916438130363,
      "loss": 1.6203,
      "step": 41836
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4578830301761627,
      "learning_rate": 0.00033388125858880457,
      "loss": 1.6679,
      "step": 41837
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4525908827781677,
      "learning_rate": 0.000333870873323446,
      "loss": 1.5763,
      "step": 41838
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4715708792209625,
      "learning_rate": 0.00033386048801697314,
      "loss": 1.6645,
      "step": 41839
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4566057622432709,
      "learning_rate": 0.0003338501026693987,
      "loss": 1.6035,
      "step": 41840
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45599398016929626,
      "learning_rate": 0.00033383971728073524,
      "loss": 1.6606,
      "step": 41841
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46780815720558167,
      "learning_rate": 0.00033382933185099526,
      "loss": 1.6212,
      "step": 41842
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4711211919784546,
      "learning_rate": 0.0003338189463801915,
      "loss": 1.6172,
      "step": 41843
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4912896752357483,
      "learning_rate": 0.00033380856086833653,
      "loss": 1.6414,
      "step": 41844
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46337375044822693,
      "learning_rate": 0.00033379817531544294,
      "loss": 1.6395,
      "step": 41845
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45184460282325745,
      "learning_rate": 0.0003337877897215234,
      "loss": 1.5769,
      "step": 41846
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46181294322013855,
      "learning_rate": 0.0003337774040865903,
      "loss": 1.6233,
      "step": 41847
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46008914709091187,
      "learning_rate": 0.0003337670184106566,
      "loss": 1.5903,
      "step": 41848
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.460184782743454,
      "learning_rate": 0.00033375663269373464,
      "loss": 1.6084,
      "step": 41849
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4602665305137634,
      "learning_rate": 0.00033374624693583707,
      "loss": 1.6302,
      "step": 41850
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47009366750717163,
      "learning_rate": 0.00033373586113697655,
      "loss": 1.6094,
      "step": 41851
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48636195063591003,
      "learning_rate": 0.00033372547529716566,
      "loss": 1.6465,
      "step": 41852
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47615811228752136,
      "learning_rate": 0.00033371508941641703,
      "loss": 1.6404,
      "step": 41853
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47519606351852417,
      "learning_rate": 0.00033370470349474313,
      "loss": 1.6554,
      "step": 41854
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45386287569999695,
      "learning_rate": 0.0003336943175321569,
      "loss": 1.6219,
      "step": 41855
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45364028215408325,
      "learning_rate": 0.0003336839315286706,
      "loss": 1.589,
      "step": 41856
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4581884741783142,
      "learning_rate": 0.000333673545484297,
      "loss": 1.6499,
      "step": 41857
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4751650393009186,
      "learning_rate": 0.00033366315939904864,
      "loss": 1.595,
      "step": 41858
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4707939922809601,
      "learning_rate": 0.00033365277327293823,
      "loss": 1.6591,
      "step": 41859
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4558578133583069,
      "learning_rate": 0.0003336423871059783,
      "loss": 1.6024,
      "step": 41860
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4573591947555542,
      "learning_rate": 0.0003336320008981815,
      "loss": 1.698,
      "step": 41861
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4801749587059021,
      "learning_rate": 0.00033362161464956034,
      "loss": 1.6047,
      "step": 41862
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46462875604629517,
      "learning_rate": 0.00033361122836012745,
      "loss": 1.6468,
      "step": 41863
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4610596299171448,
      "learning_rate": 0.00033360084202989555,
      "loss": 1.6188,
      "step": 41864
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4566352665424347,
      "learning_rate": 0.00033359045565887715,
      "loss": 1.5823,
      "step": 41865
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4625324010848999,
      "learning_rate": 0.00033358006924708494,
      "loss": 1.6643,
      "step": 41866
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46851882338523865,
      "learning_rate": 0.00033356968279453145,
      "loss": 1.558,
      "step": 41867
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4633065164089203,
      "learning_rate": 0.0003335592963012293,
      "loss": 1.589,
      "step": 41868
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46885746717453003,
      "learning_rate": 0.00033354890976719113,
      "loss": 1.5794,
      "step": 41869
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4668841063976288,
      "learning_rate": 0.00033353852319242946,
      "loss": 1.6674,
      "step": 41870
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4651738107204437,
      "learning_rate": 0.0003335281365769571,
      "loss": 1.551,
      "step": 41871
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48336055874824524,
      "learning_rate": 0.0003335177499207863,
      "loss": 1.6664,
      "step": 41872
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47952836751937866,
      "learning_rate": 0.0003335073632239301,
      "loss": 1.7417,
      "step": 41873
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4656224250793457,
      "learning_rate": 0.00033349697648640077,
      "loss": 1.6378,
      "step": 41874
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4615187346935272,
      "learning_rate": 0.0003334865897082111,
      "loss": 1.6587,
      "step": 41875
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45390549302101135,
      "learning_rate": 0.0003334762028893737,
      "loss": 1.5787,
      "step": 41876
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.48141783475875854,
      "learning_rate": 0.000333465816029901,
      "loss": 1.5711,
      "step": 41877
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4595356583595276,
      "learning_rate": 0.0003334554291298059,
      "loss": 1.6477,
      "step": 41878
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47890418767929077,
      "learning_rate": 0.0003334450421891006,
      "loss": 1.5645,
      "step": 41879
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4687652587890625,
      "learning_rate": 0.00033343465520779814,
      "loss": 1.6822,
      "step": 41880
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47219547629356384,
      "learning_rate": 0.00033342426818591084,
      "loss": 1.6351,
      "step": 41881
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45265164971351624,
      "learning_rate": 0.00033341388112345145,
      "loss": 1.6233,
      "step": 41882
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4924011528491974,
      "learning_rate": 0.0003334034940204326,
      "loss": 1.6612,
      "step": 41883
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4990103244781494,
      "learning_rate": 0.00033339310687686665,
      "loss": 1.6356,
      "step": 41884
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46180710196495056,
      "learning_rate": 0.00033338271969276655,
      "loss": 1.6504,
      "step": 41885
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47236573696136475,
      "learning_rate": 0.00033337233246814467,
      "loss": 1.6659,
      "step": 41886
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4758279323577881,
      "learning_rate": 0.0003333619452030137,
      "loss": 1.7106,
      "step": 41887
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4881662428379059,
      "learning_rate": 0.00033335155789738623,
      "loss": 1.6418,
      "step": 41888
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4840954840183258,
      "learning_rate": 0.00033334117055127494,
      "loss": 1.6389,
      "step": 41889
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46579962968826294,
      "learning_rate": 0.0003333307831646924,
      "loss": 1.6914,
      "step": 41890
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4709298014640808,
      "learning_rate": 0.00033332039573765116,
      "loss": 1.5711,
      "step": 41891
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.457890123128891,
      "learning_rate": 0.00033331000827016376,
      "loss": 1.6875,
      "step": 41892
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47003528475761414,
      "learning_rate": 0.00033329962076224305,
      "loss": 1.5117,
      "step": 41893
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4659325182437897,
      "learning_rate": 0.0003332892332139015,
      "loss": 1.578,
      "step": 41894
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.468858003616333,
      "learning_rate": 0.00033327884562515167,
      "loss": 1.6367,
      "step": 41895
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4701220691204071,
      "learning_rate": 0.00033326845799600625,
      "loss": 1.5933,
      "step": 41896
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.467437744140625,
      "learning_rate": 0.0003332580703264779,
      "loss": 1.5794,
      "step": 41897
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4658863842487335,
      "learning_rate": 0.00033324768261657904,
      "loss": 1.6486,
      "step": 41898
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4697456657886505,
      "learning_rate": 0.0003332372948663224,
      "loss": 1.6485,
      "step": 41899
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46488720178604126,
      "learning_rate": 0.00033322690707572063,
      "loss": 1.5804,
      "step": 41900
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45736435055732727,
      "learning_rate": 0.00033321651924478633,
      "loss": 1.7581,
      "step": 41901
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45198044180870056,
      "learning_rate": 0.00033320613137353196,
      "loss": 1.5413,
      "step": 41902
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4626677632331848,
      "learning_rate": 0.0003331957434619703,
      "loss": 1.6063,
      "step": 41903
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4914134740829468,
      "learning_rate": 0.0003331853555101139,
      "loss": 1.5357,
      "step": 41904
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4512597918510437,
      "learning_rate": 0.00033317496751797534,
      "loss": 1.6096,
      "step": 41905
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45486342906951904,
      "learning_rate": 0.0003331645794855673,
      "loss": 1.6235,
      "step": 41906
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4558357298374176,
      "learning_rate": 0.0003331541914129023,
      "loss": 1.6843,
      "step": 41907
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47443312406539917,
      "learning_rate": 0.0003331438032999931,
      "loss": 1.6857,
      "step": 41908
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4639459252357483,
      "learning_rate": 0.00033313341514685206,
      "loss": 1.6464,
      "step": 41909
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4707823395729065,
      "learning_rate": 0.00033312302695349207,
      "loss": 1.6813,
      "step": 41910
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4663022458553314,
      "learning_rate": 0.00033311263871992547,
      "loss": 1.579,
      "step": 41911
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4748744070529938,
      "learning_rate": 0.00033310225044616505,
      "loss": 1.6245,
      "step": 41912
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4671226739883423,
      "learning_rate": 0.0003330918621322234,
      "loss": 1.6787,
      "step": 41913
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46314263343811035,
      "learning_rate": 0.0003330814737781131,
      "loss": 1.709,
      "step": 41914
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4740419387817383,
      "learning_rate": 0.00033307108538384685,
      "loss": 1.6309,
      "step": 41915
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4772413969039917,
      "learning_rate": 0.0003330606969494371,
      "loss": 1.6151,
      "step": 41916
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47987422347068787,
      "learning_rate": 0.0003330503084748965,
      "loss": 1.5974,
      "step": 41917
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4712299108505249,
      "learning_rate": 0.0003330399199602377,
      "loss": 1.6313,
      "step": 41918
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4576994776725769,
      "learning_rate": 0.0003330295314054733,
      "loss": 1.6027,
      "step": 41919
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.46664729714393616,
      "learning_rate": 0.00033301914281061597,
      "loss": 1.5805,
      "step": 41920
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4630214273929596,
      "learning_rate": 0.00033300875417567827,
      "loss": 1.5894,
      "step": 41921
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4651454985141754,
      "learning_rate": 0.0003329983655006728,
      "loss": 1.6881,
      "step": 41922
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.456422358751297,
      "learning_rate": 0.0003329879767856121,
      "loss": 1.5716,
      "step": 41923
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4588959217071533,
      "learning_rate": 0.0003329775880305089,
      "loss": 1.6389,
      "step": 41924
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4559299945831299,
      "learning_rate": 0.0003329671992353758,
      "loss": 1.7115,
      "step": 41925
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4654626250267029,
      "learning_rate": 0.0003329568104002254,
      "loss": 1.634,
      "step": 41926
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4677605926990509,
      "learning_rate": 0.00033294642152507015,
      "loss": 1.6941,
      "step": 41927
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.47739365696907043,
      "learning_rate": 0.000332936032609923,
      "loss": 1.6222,
      "step": 41928
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.45544448494911194,
      "learning_rate": 0.0003329256436547962,
      "loss": 1.6379,
      "step": 41929
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47453251481056213,
      "learning_rate": 0.0003329152546597026,
      "loss": 1.5218,
      "step": 41930
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.49381956458091736,
      "learning_rate": 0.00033290486562465466,
      "loss": 1.6792,
      "step": 41931
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4699000418186188,
      "learning_rate": 0.0003328944765496651,
      "loss": 1.6342,
      "step": 41932
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47197768092155457,
      "learning_rate": 0.00033288408743474654,
      "loss": 1.6366,
      "step": 41933
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4659055173397064,
      "learning_rate": 0.00033287369827991146,
      "loss": 1.598,
      "step": 41934
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4925943911075592,
      "learning_rate": 0.00033286330908517263,
      "loss": 1.606,
      "step": 41935
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48162129521369934,
      "learning_rate": 0.00033285291985054254,
      "loss": 1.6678,
      "step": 41936
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4770645499229431,
      "learning_rate": 0.00033284253057603387,
      "loss": 1.5895,
      "step": 41937
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47161099314689636,
      "learning_rate": 0.00033283214126165924,
      "loss": 1.6532,
      "step": 41938
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4668723940849304,
      "learning_rate": 0.0003328217519074311,
      "loss": 1.6198,
      "step": 41939
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47107431292533875,
      "learning_rate": 0.00033281136251336234,
      "loss": 1.5528,
      "step": 41940
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4743843078613281,
      "learning_rate": 0.0003328009730794652,
      "loss": 1.5781,
      "step": 41941
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48734796047210693,
      "learning_rate": 0.0003327905836057528,
      "loss": 1.4998,
      "step": 41942
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4616076350212097,
      "learning_rate": 0.0003327801940922373,
      "loss": 1.5852,
      "step": 41943
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5098414421081543,
      "learning_rate": 0.0003327698045389315,
      "loss": 1.678,
      "step": 41944
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48556941747665405,
      "learning_rate": 0.00033275941494584804,
      "loss": 1.5947,
      "step": 41945
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4555116593837738,
      "learning_rate": 0.00033274902531299933,
      "loss": 1.5912,
      "step": 41946
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46402493119239807,
      "learning_rate": 0.0003327386356403983,
      "loss": 1.6548,
      "step": 41947
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4708413779735565,
      "learning_rate": 0.0003327282459280573,
      "loss": 1.5654,
      "step": 41948
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47714805603027344,
      "learning_rate": 0.000332717856175989,
      "loss": 1.6712,
      "step": 41949
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4667952060699463,
      "learning_rate": 0.00033270746638420606,
      "loss": 1.5967,
      "step": 41950
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44894301891326904,
      "learning_rate": 0.0003326970765527211,
      "loss": 1.6009,
      "step": 41951
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47678515315055847,
      "learning_rate": 0.00033268668668154675,
      "loss": 1.613,
      "step": 41952
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46636879444122314,
      "learning_rate": 0.00033267629677069554,
      "loss": 1.6095,
      "step": 41953
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46946653723716736,
      "learning_rate": 0.00033266590682018015,
      "loss": 1.6785,
      "step": 41954
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4825863540172577,
      "learning_rate": 0.00033265551683001304,
      "loss": 1.6377,
      "step": 41955
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46802476048469543,
      "learning_rate": 0.00033264512680020706,
      "loss": 1.6271,
      "step": 41956
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.486033171415329,
      "learning_rate": 0.00033263473673077464,
      "loss": 1.6494,
      "step": 41957
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4632618725299835,
      "learning_rate": 0.0003326243466217286,
      "loss": 1.4466,
      "step": 41958
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4621869623661041,
      "learning_rate": 0.0003326139564730813,
      "loss": 1.6404,
      "step": 41959
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45326295495033264,
      "learning_rate": 0.0003326035662848454,
      "loss": 1.6611,
      "step": 41960
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.49054932594299316,
      "learning_rate": 0.0003325931760570337,
      "loss": 1.6349,
      "step": 41961
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4681813716888428,
      "learning_rate": 0.0003325827857896586,
      "loss": 1.6487,
      "step": 41962
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4609616696834564,
      "learning_rate": 0.0003325723954827329,
      "loss": 1.602,
      "step": 41963
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48600703477859497,
      "learning_rate": 0.00033256200513626897,
      "loss": 1.5572,
      "step": 41964
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4778665006160736,
      "learning_rate": 0.00033255161475027965,
      "loss": 1.6028,
      "step": 41965
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.473615437746048,
      "learning_rate": 0.0003325412243247775,
      "loss": 1.5775,
      "step": 41966
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4599784314632416,
      "learning_rate": 0.000332530833859775,
      "loss": 1.5942,
      "step": 41967
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4740748107433319,
      "learning_rate": 0.0003325204433552849,
      "loss": 1.6545,
      "step": 41968
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46301788091659546,
      "learning_rate": 0.00033251005281131977,
      "loss": 1.6101,
      "step": 41969
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4904125928878784,
      "learning_rate": 0.0003324996622278923,
      "loss": 1.6237,
      "step": 41970
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4709200859069824,
      "learning_rate": 0.00033248927160501484,
      "loss": 1.6264,
      "step": 41971
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46710291504859924,
      "learning_rate": 0.00033247888094270044,
      "loss": 1.5619,
      "step": 41972
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4608900547027588,
      "learning_rate": 0.0003324684902409613,
      "loss": 1.6588,
      "step": 41973
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4486062824726105,
      "learning_rate": 0.00033245809949981024,
      "loss": 1.6099,
      "step": 41974
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4737091064453125,
      "learning_rate": 0.00033244770871925986,
      "loss": 1.6347,
      "step": 41975
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4665839374065399,
      "learning_rate": 0.00033243731789932263,
      "loss": 1.5515,
      "step": 41976
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47743865847587585,
      "learning_rate": 0.00033242692704001147,
      "loss": 1.6471,
      "step": 41977
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46000322699546814,
      "learning_rate": 0.0003324165361413386,
      "loss": 1.6509,
      "step": 41978
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4566594064235687,
      "learning_rate": 0.00033240614520331697,
      "loss": 1.6088,
      "step": 41979
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4557802975177765,
      "learning_rate": 0.000332395754225959,
      "loss": 1.6584,
      "step": 41980
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4866027534008026,
      "learning_rate": 0.00033238536320927736,
      "loss": 1.6699,
      "step": 41981
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4839205741882324,
      "learning_rate": 0.00033237497215328466,
      "loss": 1.6994,
      "step": 41982
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4625305235385895,
      "learning_rate": 0.00033236458105799353,
      "loss": 1.6309,
      "step": 41983
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46617183089256287,
      "learning_rate": 0.00033235418992341655,
      "loss": 1.6203,
      "step": 41984
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5043500661849976,
      "learning_rate": 0.0003323437987495663,
      "loss": 1.6105,
      "step": 41985
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4723025858402252,
      "learning_rate": 0.00033233340753645557,
      "loss": 1.6753,
      "step": 41986
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4737389087677002,
      "learning_rate": 0.0003323230162840967,
      "loss": 1.6229,
      "step": 41987
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.501002848148346,
      "learning_rate": 0.00033231262499250255,
      "loss": 1.6234,
      "step": 41988
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5018836855888367,
      "learning_rate": 0.00033230223366168557,
      "loss": 1.5418,
      "step": 41989
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4671945869922638,
      "learning_rate": 0.0003322918422916585,
      "loss": 1.5669,
      "step": 41990
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44082674384117126,
      "learning_rate": 0.0003322814508824339,
      "loss": 1.5188,
      "step": 41991
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4577420651912689,
      "learning_rate": 0.0003322710594340243,
      "loss": 1.5374,
      "step": 41992
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48436859250068665,
      "learning_rate": 0.0003322606679464425,
      "loss": 1.5998,
      "step": 41993
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.502184271812439,
      "learning_rate": 0.0003322502764197009,
      "loss": 1.6482,
      "step": 41994
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4648681879043579,
      "learning_rate": 0.0003322398848538123,
      "loss": 1.6343,
      "step": 41995
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4576955735683441,
      "learning_rate": 0.0003322294932487891,
      "loss": 1.6416,
      "step": 41996
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4796398878097534,
      "learning_rate": 0.00033221910160464416,
      "loss": 1.6799,
      "step": 41997
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45185020565986633,
      "learning_rate": 0.00033220870992138997,
      "loss": 1.6129,
      "step": 41998
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4688746929168701,
      "learning_rate": 0.0003321983181990391,
      "loss": 1.6511,
      "step": 41999
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48875096440315247,
      "learning_rate": 0.0003321879264376043,
      "loss": 1.6126,
      "step": 42000
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47192367911338806,
      "learning_rate": 0.00033217753463709795,
      "loss": 1.6384,
      "step": 42001
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4751473069190979,
      "learning_rate": 0.00033216714279753293,
      "loss": 1.5611,
      "step": 42002
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4764651358127594,
      "learning_rate": 0.0003321567509189217,
      "loss": 1.5574,
      "step": 42003
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45373138785362244,
      "learning_rate": 0.00033214635900127696,
      "loss": 1.5964,
      "step": 42004
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4607137143611908,
      "learning_rate": 0.00033213596704461117,
      "loss": 1.6334,
      "step": 42005
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.6825698018074036,
      "learning_rate": 0.00033212557504893713,
      "loss": 1.7118,
      "step": 42006
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4615737199783325,
      "learning_rate": 0.0003321151830142675,
      "loss": 1.6109,
      "step": 42007
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4782637357711792,
      "learning_rate": 0.0003321047909406146,
      "loss": 1.5996,
      "step": 42008
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4719739258289337,
      "learning_rate": 0.0003320943988279912,
      "loss": 1.5658,
      "step": 42009
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.462212473154068,
      "learning_rate": 0.00033208400667641004,
      "loss": 1.6437,
      "step": 42010
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45875802636146545,
      "learning_rate": 0.0003320736144858835,
      "loss": 1.6295,
      "step": 42011
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4524557888507843,
      "learning_rate": 0.0003320632222564244,
      "loss": 1.5629,
      "step": 42012
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47800329327583313,
      "learning_rate": 0.00033205282998804525,
      "loss": 1.7102,
      "step": 42013
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4671083092689514,
      "learning_rate": 0.00033204243768075877,
      "loss": 1.5948,
      "step": 42014
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47442498803138733,
      "learning_rate": 0.00033203204533457736,
      "loss": 1.6719,
      "step": 42015
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4730841815471649,
      "learning_rate": 0.0003320216529495138,
      "loss": 1.5024,
      "step": 42016
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46229109168052673,
      "learning_rate": 0.0003320112605255807,
      "loss": 1.5809,
      "step": 42017
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4745464026927948,
      "learning_rate": 0.0003320008680627907,
      "loss": 1.5979,
      "step": 42018
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4653167128562927,
      "learning_rate": 0.0003319904755611562,
      "loss": 1.6604,
      "step": 42019
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4522983431816101,
      "learning_rate": 0.0003319800830206901,
      "loss": 1.621,
      "step": 42020
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4635915756225586,
      "learning_rate": 0.0003319696904414049,
      "loss": 1.5935,
      "step": 42021
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46502742171287537,
      "learning_rate": 0.0003319592978233131,
      "loss": 1.606,
      "step": 42022
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44817113876342773,
      "learning_rate": 0.00033194890516642753,
      "loss": 1.5841,
      "step": 42023
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4486352205276489,
      "learning_rate": 0.00033193851247076064,
      "loss": 1.5939,
      "step": 42024
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4607912600040436,
      "learning_rate": 0.00033192811973632524,
      "loss": 1.6376,
      "step": 42025
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4700483977794647,
      "learning_rate": 0.0003319177269631336,
      "loss": 1.6053,
      "step": 42026
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47213417291641235,
      "learning_rate": 0.0003319073341511987,
      "loss": 1.683,
      "step": 42027
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4639684855937958,
      "learning_rate": 0.0003318969413005329,
      "loss": 1.6799,
      "step": 42028
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4626516103744507,
      "learning_rate": 0.00033188654841114894,
      "loss": 1.6545,
      "step": 42029
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4504536986351013,
      "learning_rate": 0.0003318761554830594,
      "loss": 1.6045,
      "step": 42030
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45369547605514526,
      "learning_rate": 0.0003318657625162769,
      "loss": 1.5835,
      "step": 42031
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46054497361183167,
      "learning_rate": 0.00033185536951081413,
      "loss": 1.5455,
      "step": 42032
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4623124301433563,
      "learning_rate": 0.00033184497646668353,
      "loss": 1.5486,
      "step": 42033
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.492348849773407,
      "learning_rate": 0.00033183458338389787,
      "loss": 1.6782,
      "step": 42034
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46662917733192444,
      "learning_rate": 0.0003318241902624697,
      "loss": 1.6347,
      "step": 42035
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4911194443702698,
      "learning_rate": 0.0003318137971024117,
      "loss": 1.6247,
      "step": 42036
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4748675525188446,
      "learning_rate": 0.00033180340390373634,
      "loss": 1.604,
      "step": 42037
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4830332100391388,
      "learning_rate": 0.0003317930106664565,
      "loss": 1.617,
      "step": 42038
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45452579855918884,
      "learning_rate": 0.00033178261739058454,
      "loss": 1.6629,
      "step": 42039
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4892064034938812,
      "learning_rate": 0.0003317722240761331,
      "loss": 1.5634,
      "step": 42040
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4674057364463806,
      "learning_rate": 0.0003317618307231149,
      "loss": 1.628,
      "step": 42041
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47089555859565735,
      "learning_rate": 0.00033175143733154254,
      "loss": 1.5657,
      "step": 42042
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47317659854888916,
      "learning_rate": 0.0003317410439014287,
      "loss": 1.6775,
      "step": 42043
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4525560438632965,
      "learning_rate": 0.0003317306504327857,
      "loss": 1.6309,
      "step": 42044
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4776327610015869,
      "learning_rate": 0.0003317202569256266,
      "loss": 1.5832,
      "step": 42045
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47142258286476135,
      "learning_rate": 0.00033170986337996357,
      "loss": 1.5787,
      "step": 42046
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46044057607650757,
      "learning_rate": 0.00033169946979580954,
      "loss": 1.6022,
      "step": 42047
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4565134644508362,
      "learning_rate": 0.0003316890761731771,
      "loss": 1.5759,
      "step": 42048
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4860789477825165,
      "learning_rate": 0.00033167868251207866,
      "loss": 1.664,
      "step": 42049
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46034470200538635,
      "learning_rate": 0.00033166828881252703,
      "loss": 1.6045,
      "step": 42050
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5268576741218567,
      "learning_rate": 0.0003316578950745347,
      "loss": 1.6266,
      "step": 42051
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4635387063026428,
      "learning_rate": 0.0003316475012981144,
      "loss": 1.6391,
      "step": 42052
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.467817485332489,
      "learning_rate": 0.00033163710748327876,
      "loss": 1.5656,
      "step": 42053
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46532729268074036,
      "learning_rate": 0.00033162671363004017,
      "loss": 1.622,
      "step": 42054
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45875924825668335,
      "learning_rate": 0.0003316163197384116,
      "loss": 1.609,
      "step": 42055
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46321773529052734,
      "learning_rate": 0.0003316059258084053,
      "loss": 1.5955,
      "step": 42056
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4616636335849762,
      "learning_rate": 0.0003315955318400342,
      "loss": 1.6567,
      "step": 42057
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47230178117752075,
      "learning_rate": 0.0003315851378333107,
      "loss": 1.5565,
      "step": 42058
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4723450839519501,
      "learning_rate": 0.0003315747437882476,
      "loss": 1.6757,
      "step": 42059
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46956390142440796,
      "learning_rate": 0.00033156434970485726,
      "loss": 1.5851,
      "step": 42060
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4664578437805176,
      "learning_rate": 0.00033155395558315254,
      "loss": 1.6606,
      "step": 42061
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45640885829925537,
      "learning_rate": 0.00033154356142314604,
      "loss": 1.6707,
      "step": 42062
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4587165117263794,
      "learning_rate": 0.0003315331672248501,
      "loss": 1.5693,
      "step": 42063
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.462351530790329,
      "learning_rate": 0.0003315227729882777,
      "loss": 1.6053,
      "step": 42064
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4711155593395233,
      "learning_rate": 0.00033151237871344126,
      "loss": 1.6455,
      "step": 42065
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4679003953933716,
      "learning_rate": 0.0003315019844003534,
      "loss": 1.6027,
      "step": 42066
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46313318610191345,
      "learning_rate": 0.00033149159004902684,
      "loss": 1.6263,
      "step": 42067
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4802429974079132,
      "learning_rate": 0.0003314811956594741,
      "loss": 1.6367,
      "step": 42068
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48384520411491394,
      "learning_rate": 0.0003314708012317078,
      "loss": 1.6181,
      "step": 42069
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.6929291486740112,
      "learning_rate": 0.00033146040676574067,
      "loss": 1.6369,
      "step": 42070
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4721387028694153,
      "learning_rate": 0.0003314500122615851,
      "loss": 1.5877,
      "step": 42071
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4626440405845642,
      "learning_rate": 0.000331439617719254,
      "loss": 1.6571,
      "step": 42072
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47045597434043884,
      "learning_rate": 0.0003314292231387597,
      "loss": 1.657,
      "step": 42073
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48922470211982727,
      "learning_rate": 0.000331418828520115,
      "loss": 1.6259,
      "step": 42074
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4626402258872986,
      "learning_rate": 0.00033140843386333257,
      "loss": 1.5562,
      "step": 42075
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47004562616348267,
      "learning_rate": 0.00033139803916842485,
      "loss": 1.6845,
      "step": 42076
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4713728427886963,
      "learning_rate": 0.00033138764443540455,
      "loss": 1.5357,
      "step": 42077
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4802747666835785,
      "learning_rate": 0.0003313772496642842,
      "loss": 1.6684,
      "step": 42078
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46506646275520325,
      "learning_rate": 0.0003313668548550765,
      "loss": 1.6076,
      "step": 42079
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46490398049354553,
      "learning_rate": 0.0003313564600077942,
      "loss": 1.651,
      "step": 42080
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4809688925743103,
      "learning_rate": 0.00033134606512244964,
      "loss": 1.5462,
      "step": 42081
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4449375569820404,
      "learning_rate": 0.0003313356701990557,
      "loss": 1.5653,
      "step": 42082
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47225749492645264,
      "learning_rate": 0.0003313252752376248,
      "loss": 1.5969,
      "step": 42083
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46771568059921265,
      "learning_rate": 0.00033131488023816955,
      "loss": 1.6459,
      "step": 42084
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4641573429107666,
      "learning_rate": 0.0003313044852007028,
      "loss": 1.5711,
      "step": 42085
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47344982624053955,
      "learning_rate": 0.0003312940901252369,
      "loss": 1.6644,
      "step": 42086
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4931672513484955,
      "learning_rate": 0.00033128369501178465,
      "loss": 1.6194,
      "step": 42087
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4400246739387512,
      "learning_rate": 0.00033127329986035853,
      "loss": 1.5407,
      "step": 42088
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45003408193588257,
      "learning_rate": 0.00033126290467097136,
      "loss": 1.5536,
      "step": 42089
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.444626122713089,
      "learning_rate": 0.00033125250944363553,
      "loss": 1.5947,
      "step": 42090
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46877172589302063,
      "learning_rate": 0.0003312421141783638,
      "loss": 1.6138,
      "step": 42091
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45992302894592285,
      "learning_rate": 0.00033123171887516873,
      "loss": 1.5813,
      "step": 42092
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45064419507980347,
      "learning_rate": 0.00033122132353406296,
      "loss": 1.5877,
      "step": 42093
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45093435049057007,
      "learning_rate": 0.0003312109281550591,
      "loss": 1.6425,
      "step": 42094
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4493989944458008,
      "learning_rate": 0.0003312005327381698,
      "loss": 1.644,
      "step": 42095
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4511822462081909,
      "learning_rate": 0.0003311901372834076,
      "loss": 1.6434,
      "step": 42096
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45227333903312683,
      "learning_rate": 0.0003311797417907852,
      "loss": 1.6309,
      "step": 42097
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4607193171977997,
      "learning_rate": 0.00033116934626031515,
      "loss": 1.5885,
      "step": 42098
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.43843671679496765,
      "learning_rate": 0.0003311589506920101,
      "loss": 1.6237,
      "step": 42099
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46932753920555115,
      "learning_rate": 0.00033114855508588277,
      "loss": 1.6128,
      "step": 42100
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45554667711257935,
      "learning_rate": 0.0003311381594419456,
      "loss": 1.5796,
      "step": 42101
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.444874107837677,
      "learning_rate": 0.00033112776376021134,
      "loss": 1.5699,
      "step": 42102
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46207278966903687,
      "learning_rate": 0.0003311173680406925,
      "loss": 1.5828,
      "step": 42103
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45248568058013916,
      "learning_rate": 0.00033110697228340186,
      "loss": 1.6542,
      "step": 42104
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44825664162635803,
      "learning_rate": 0.0003310965764883519,
      "loss": 1.6232,
      "step": 42105
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4595627784729004,
      "learning_rate": 0.00033108618065555515,
      "loss": 1.5834,
      "step": 42106
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4529663026332855,
      "learning_rate": 0.0003310757847850245,
      "loss": 1.5562,
      "step": 42107
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4647592008113861,
      "learning_rate": 0.00033106538887677243,
      "loss": 1.5876,
      "step": 42108
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46708744764328003,
      "learning_rate": 0.00033105499293081147,
      "loss": 1.6231,
      "step": 42109
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4634871482849121,
      "learning_rate": 0.0003310445969471545,
      "loss": 1.605,
      "step": 42110
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46548303961753845,
      "learning_rate": 0.0003310342009258137,
      "loss": 1.6471,
      "step": 42111
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45128944516181946,
      "learning_rate": 0.00033102380486680217,
      "loss": 1.653,
      "step": 42112
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4720105528831482,
      "learning_rate": 0.0003310134087701321,
      "loss": 1.6043,
      "step": 42113
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45965254306793213,
      "learning_rate": 0.00033100301263581656,
      "loss": 1.6367,
      "step": 42114
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4599631428718567,
      "learning_rate": 0.0003309926164638678,
      "loss": 1.6661,
      "step": 42115
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47121575474739075,
      "learning_rate": 0.0003309822202542986,
      "loss": 1.605,
      "step": 42116
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4687502086162567,
      "learning_rate": 0.00033097182400712154,
      "loss": 1.6237,
      "step": 42117
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5195319652557373,
      "learning_rate": 0.0003309614277223492,
      "loss": 1.544,
      "step": 42118
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4678967297077179,
      "learning_rate": 0.0003309510313999944,
      "loss": 1.5617,
      "step": 42119
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4444744288921356,
      "learning_rate": 0.0003309406350400694,
      "loss": 1.5641,
      "step": 42120
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4521493911743164,
      "learning_rate": 0.0003309302386425872,
      "loss": 1.5842,
      "step": 42121
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46858692169189453,
      "learning_rate": 0.00033091984220756014,
      "loss": 1.5502,
      "step": 42122
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4650910198688507,
      "learning_rate": 0.000330909445735001,
      "loss": 1.6367,
      "step": 42123
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4690191447734833,
      "learning_rate": 0.0003308990492249224,
      "loss": 1.6406,
      "step": 42124
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4433443248271942,
      "learning_rate": 0.0003308886526773368,
      "loss": 1.5898,
      "step": 42125
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46511536836624146,
      "learning_rate": 0.00033087825609225694,
      "loss": 1.5745,
      "step": 42126
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4700401723384857,
      "learning_rate": 0.0003308678594696955,
      "loss": 1.561,
      "step": 42127
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47278401255607605,
      "learning_rate": 0.00033085746280966493,
      "loss": 1.6833,
      "step": 42128
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47038301825523376,
      "learning_rate": 0.000330847066112178,
      "loss": 1.6173,
      "step": 42129
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45944881439208984,
      "learning_rate": 0.0003308366693772473,
      "loss": 1.6013,
      "step": 42130
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47880494594573975,
      "learning_rate": 0.00033082627260488544,
      "loss": 1.5559,
      "step": 42131
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46192601323127747,
      "learning_rate": 0.000330815875795105,
      "loss": 1.6067,
      "step": 42132
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4605255126953125,
      "learning_rate": 0.00033080547894791853,
      "loss": 1.5721,
      "step": 42133
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47589409351348877,
      "learning_rate": 0.00033079508206333886,
      "loss": 1.6216,
      "step": 42134
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47879090905189514,
      "learning_rate": 0.0003307846851413785,
      "loss": 1.6188,
      "step": 42135
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4838932752609253,
      "learning_rate": 0.00033077428818205,
      "loss": 1.6788,
      "step": 42136
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45516231656074524,
      "learning_rate": 0.00033076389118536615,
      "loss": 1.5998,
      "step": 42137
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4469206929206848,
      "learning_rate": 0.0003307534941513394,
      "loss": 1.5864,
      "step": 42138
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4703783690929413,
      "learning_rate": 0.00033074309707998244,
      "loss": 1.6447,
      "step": 42139
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4729057848453522,
      "learning_rate": 0.00033073269997130784,
      "loss": 1.5602,
      "step": 42140
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4516087770462036,
      "learning_rate": 0.0003307223028253283,
      "loss": 1.6393,
      "step": 42141
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4547783136367798,
      "learning_rate": 0.00033071190564205655,
      "loss": 1.628,
      "step": 42142
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4835658073425293,
      "learning_rate": 0.0003307015084215049,
      "loss": 1.6178,
      "step": 42143
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47779664397239685,
      "learning_rate": 0.00033069111116368626,
      "loss": 1.638,
      "step": 42144
    },
    {
      "epoch": 1.4,
      "grad_norm": 1.8147923946380615,
      "learning_rate": 0.00033068071386861307,
      "loss": 1.6549,
      "step": 42145
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48606374859809875,
      "learning_rate": 0.00033067031653629796,
      "loss": 1.6791,
      "step": 42146
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4695689380168915,
      "learning_rate": 0.0003306599191667537,
      "loss": 1.6464,
      "step": 42147
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4877748489379883,
      "learning_rate": 0.0003306495217599927,
      "loss": 1.7072,
      "step": 42148
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.474497526884079,
      "learning_rate": 0.0003306391243160279,
      "loss": 1.605,
      "step": 42149
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46510985493659973,
      "learning_rate": 0.0003306287268348716,
      "loss": 1.6299,
      "step": 42150
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45548608899116516,
      "learning_rate": 0.00033061832931653647,
      "loss": 1.629,
      "step": 42151
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.473587304353714,
      "learning_rate": 0.0003306079317610353,
      "loss": 1.6207,
      "step": 42152
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4699544608592987,
      "learning_rate": 0.00033059753416838055,
      "loss": 1.6381,
      "step": 42153
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47200140357017517,
      "learning_rate": 0.0003305871365385849,
      "loss": 1.6069,
      "step": 42154
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4782893657684326,
      "learning_rate": 0.0003305767388716611,
      "loss": 1.6135,
      "step": 42155
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4486044645309448,
      "learning_rate": 0.0003305663411676215,
      "loss": 1.6042,
      "step": 42156
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46368610858917236,
      "learning_rate": 0.00033055594342647893,
      "loss": 1.6156,
      "step": 42157
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4764865040779114,
      "learning_rate": 0.0003305455456482459,
      "loss": 1.5951,
      "step": 42158
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4908788204193115,
      "learning_rate": 0.00033053514783293504,
      "loss": 1.5974,
      "step": 42159
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4740476906299591,
      "learning_rate": 0.00033052474998055916,
      "loss": 1.6474,
      "step": 42160
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45935702323913574,
      "learning_rate": 0.00033051435209113057,
      "loss": 1.5745,
      "step": 42161
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4592667818069458,
      "learning_rate": 0.00033050395416466216,
      "loss": 1.6192,
      "step": 42162
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47308021783828735,
      "learning_rate": 0.0003304935562011664,
      "loss": 1.5633,
      "step": 42163
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47287455201148987,
      "learning_rate": 0.000330483158200656,
      "loss": 1.6184,
      "step": 42164
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4954477548599243,
      "learning_rate": 0.00033047276016314354,
      "loss": 1.6471,
      "step": 42165
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45397377014160156,
      "learning_rate": 0.0003304623620886416,
      "loss": 1.5938,
      "step": 42166
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4597761034965515,
      "learning_rate": 0.00033045196397716285,
      "loss": 1.5451,
      "step": 42167
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.452400267124176,
      "learning_rate": 0.0003304415658287198,
      "loss": 1.6675,
      "step": 42168
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48313525319099426,
      "learning_rate": 0.00033043116764332534,
      "loss": 1.5872,
      "step": 42169
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4781310260295868,
      "learning_rate": 0.00033042076942099187,
      "loss": 1.5949,
      "step": 42170
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.470129132270813,
      "learning_rate": 0.00033041037116173205,
      "loss": 1.5706,
      "step": 42171
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47109729051589966,
      "learning_rate": 0.0003303999728655585,
      "loss": 1.554,
      "step": 42172
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5266871452331543,
      "learning_rate": 0.00033038957453248387,
      "loss": 1.6543,
      "step": 42173
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.49502718448638916,
      "learning_rate": 0.0003303791761625209,
      "loss": 1.6732,
      "step": 42174
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47491416335105896,
      "learning_rate": 0.00033036877775568184,
      "loss": 1.4981,
      "step": 42175
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4731813073158264,
      "learning_rate": 0.00033035837931197977,
      "loss": 1.6563,
      "step": 42176
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47474929690361023,
      "learning_rate": 0.000330347980831427,
      "loss": 1.5796,
      "step": 42177
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4658921957015991,
      "learning_rate": 0.0003303375823140363,
      "loss": 1.6311,
      "step": 42178
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4782898724079132,
      "learning_rate": 0.00033032718375982024,
      "loss": 1.6049,
      "step": 42179
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4749883711338043,
      "learning_rate": 0.0003303167851687914,
      "loss": 1.6486,
      "step": 42180
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4795920252799988,
      "learning_rate": 0.00033030638654096253,
      "loss": 1.5699,
      "step": 42181
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4635807275772095,
      "learning_rate": 0.00033029598787634614,
      "loss": 1.6088,
      "step": 42182
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47242674231529236,
      "learning_rate": 0.00033028558917495485,
      "loss": 1.5829,
      "step": 42183
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4690483808517456,
      "learning_rate": 0.0003302751904368013,
      "loss": 1.5767,
      "step": 42184
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4596785008907318,
      "learning_rate": 0.0003302647916618982,
      "loss": 1.5952,
      "step": 42185
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4695781469345093,
      "learning_rate": 0.0003302543928502581,
      "loss": 1.5983,
      "step": 42186
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5116744041442871,
      "learning_rate": 0.0003302439940018936,
      "loss": 1.6349,
      "step": 42187
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44919076561927795,
      "learning_rate": 0.0003302335951168173,
      "loss": 1.6283,
      "step": 42188
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4585377871990204,
      "learning_rate": 0.0003302231961950419,
      "loss": 1.6043,
      "step": 42189
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.48794591426849365,
      "learning_rate": 0.00033021279723658,
      "loss": 1.6737,
      "step": 42190
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46959197521209717,
      "learning_rate": 0.0003302023982414442,
      "loss": 1.5665,
      "step": 42191
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4739653766155243,
      "learning_rate": 0.00033019199920964723,
      "loss": 1.6379,
      "step": 42192
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4679245054721832,
      "learning_rate": 0.0003301816001412015,
      "loss": 1.6312,
      "step": 42193
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47363075613975525,
      "learning_rate": 0.0003301712010361198,
      "loss": 1.6463,
      "step": 42194
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4560297429561615,
      "learning_rate": 0.0003301608018944147,
      "loss": 1.6823,
      "step": 42195
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4619578719139099,
      "learning_rate": 0.00033015040271609883,
      "loss": 1.6459,
      "step": 42196
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47516947984695435,
      "learning_rate": 0.00033014000350118494,
      "loss": 1.5786,
      "step": 42197
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4546591341495514,
      "learning_rate": 0.0003301296042496853,
      "loss": 1.5561,
      "step": 42198
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4615645408630371,
      "learning_rate": 0.0003301192049616129,
      "loss": 1.5991,
      "step": 42199
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4451395571231842,
      "learning_rate": 0.00033010880563698016,
      "loss": 1.6041,
      "step": 42200
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44721508026123047,
      "learning_rate": 0.00033009840627579986,
      "loss": 1.552,
      "step": 42201
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46887484192848206,
      "learning_rate": 0.0003300880068780845,
      "loss": 1.5598,
      "step": 42202
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4856421947479248,
      "learning_rate": 0.00033007760744384665,
      "loss": 1.6275,
      "step": 42203
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47431859374046326,
      "learning_rate": 0.0003300672079730991,
      "loss": 1.6349,
      "step": 42204
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.459816038608551,
      "learning_rate": 0.0003300568084658543,
      "loss": 1.6586,
      "step": 42205
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4838603138923645,
      "learning_rate": 0.00033004640892212513,
      "loss": 1.6199,
      "step": 42206
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46408817172050476,
      "learning_rate": 0.00033003600934192396,
      "loss": 1.5538,
      "step": 42207
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4827556908130646,
      "learning_rate": 0.00033002560972526345,
      "loss": 1.6374,
      "step": 42208
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4791456460952759,
      "learning_rate": 0.00033001521007215625,
      "loss": 1.6935,
      "step": 42209
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.44949743151664734,
      "learning_rate": 0.000330004810382615,
      "loss": 1.5848,
      "step": 42210
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47774839401245117,
      "learning_rate": 0.0003299944106566525,
      "loss": 1.6183,
      "step": 42211
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4585326015949249,
      "learning_rate": 0.0003299840108942811,
      "loss": 1.5649,
      "step": 42212
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5082539916038513,
      "learning_rate": 0.00032997361109551355,
      "loss": 1.6493,
      "step": 42213
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4826144874095917,
      "learning_rate": 0.0003299632112603624,
      "loss": 1.5759,
      "step": 42214
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4624350070953369,
      "learning_rate": 0.00032995281138884034,
      "loss": 1.5129,
      "step": 42215
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46897512674331665,
      "learning_rate": 0.00032994241148096,
      "loss": 1.5938,
      "step": 42216
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4573635160923004,
      "learning_rate": 0.00032993201153673404,
      "loss": 1.5595,
      "step": 42217
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.49299466609954834,
      "learning_rate": 0.0003299216115561749,
      "loss": 1.5595,
      "step": 42218
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47864311933517456,
      "learning_rate": 0.0003299112115392954,
      "loss": 1.5598,
      "step": 42219
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46919748187065125,
      "learning_rate": 0.0003299008114861081,
      "loss": 1.6731,
      "step": 42220
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4584084451198578,
      "learning_rate": 0.00032989041139662564,
      "loss": 1.5585,
      "step": 42221
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.47514936327934265,
      "learning_rate": 0.00032988001127086066,
      "loss": 1.6334,
      "step": 42222
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4650448262691498,
      "learning_rate": 0.0003298696111088256,
      "loss": 1.5596,
      "step": 42223
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46606871485710144,
      "learning_rate": 0.0003298592109105334,
      "loss": 1.6372,
      "step": 42224
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4580717980861664,
      "learning_rate": 0.0003298488106759964,
      "loss": 1.6049,
      "step": 42225
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.46763670444488525,
      "learning_rate": 0.00032983841040522743,
      "loss": 1.6505,
      "step": 42226
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4743333160877228,
      "learning_rate": 0.000329828010098239,
      "loss": 1.6374,
      "step": 42227
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45860227942466736,
      "learning_rate": 0.00032981760975504365,
      "loss": 1.6422,
      "step": 42228
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.45810988545417786,
      "learning_rate": 0.0003298072093756543,
      "loss": 1.695,
      "step": 42229
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.4686363935470581,
      "learning_rate": 0.0003297968089600832,
      "loss": 1.6013,
      "step": 42230
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4742428660392761,
      "learning_rate": 0.00032978640850834335,
      "loss": 1.5224,
      "step": 42231
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4792468547821045,
      "learning_rate": 0.00032977600802044704,
      "loss": 1.6632,
      "step": 42232
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46619752049446106,
      "learning_rate": 0.0003297656074964071,
      "loss": 1.6414,
      "step": 42233
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46349474787712097,
      "learning_rate": 0.00032975520693623615,
      "loss": 1.6099,
      "step": 42234
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4628358483314514,
      "learning_rate": 0.00032974480633994667,
      "loss": 1.5853,
      "step": 42235
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45160162448883057,
      "learning_rate": 0.00032973440570755147,
      "loss": 1.6268,
      "step": 42236
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4604843556880951,
      "learning_rate": 0.000329724005039063,
      "loss": 1.6511,
      "step": 42237
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45423755049705505,
      "learning_rate": 0.00032971360433449405,
      "loss": 1.6266,
      "step": 42238
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45793092250823975,
      "learning_rate": 0.0003297032035938571,
      "loss": 1.5973,
      "step": 42239
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45668208599090576,
      "learning_rate": 0.00032969280281716477,
      "loss": 1.609,
      "step": 42240
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.471983402967453,
      "learning_rate": 0.00032968240200442994,
      "loss": 1.6035,
      "step": 42241
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46345269680023193,
      "learning_rate": 0.00032967200115566496,
      "loss": 1.5186,
      "step": 42242
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4686828851699829,
      "learning_rate": 0.00032966160027088245,
      "loss": 1.5527,
      "step": 42243
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48145338892936707,
      "learning_rate": 0.0003296511993500952,
      "loss": 1.6486,
      "step": 42244
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4589778184890747,
      "learning_rate": 0.0003296407983933158,
      "loss": 1.6517,
      "step": 42245
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4705895781517029,
      "learning_rate": 0.00032963039740055677,
      "loss": 1.6547,
      "step": 42246
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46732181310653687,
      "learning_rate": 0.00032961999637183087,
      "loss": 1.6431,
      "step": 42247
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.466986745595932,
      "learning_rate": 0.0003296095953071506,
      "loss": 1.6032,
      "step": 42248
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46204933524131775,
      "learning_rate": 0.0003295991942065287,
      "loss": 1.6106,
      "step": 42249
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4570314288139343,
      "learning_rate": 0.0003295887930699777,
      "loss": 1.5677,
      "step": 42250
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47859346866607666,
      "learning_rate": 0.0003295783918975103,
      "loss": 1.5286,
      "step": 42251
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46178773045539856,
      "learning_rate": 0.0003295679906891391,
      "loss": 1.6162,
      "step": 42252
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4646613895893097,
      "learning_rate": 0.0003295575894448766,
      "loss": 1.6416,
      "step": 42253
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4746655225753784,
      "learning_rate": 0.0003295471881647357,
      "loss": 1.5524,
      "step": 42254
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.469595730304718,
      "learning_rate": 0.0003295367868487287,
      "loss": 1.6206,
      "step": 42255
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48232266306877136,
      "learning_rate": 0.0003295263854968685,
      "loss": 1.5886,
      "step": 42256
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4770740568637848,
      "learning_rate": 0.0003295159841091676,
      "loss": 1.6436,
      "step": 42257
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4725535213947296,
      "learning_rate": 0.00032950558268563863,
      "loss": 1.5484,
      "step": 42258
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4650455713272095,
      "learning_rate": 0.00032949518122629435,
      "loss": 1.6147,
      "step": 42259
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47636792063713074,
      "learning_rate": 0.00032948477973114706,
      "loss": 1.6097,
      "step": 42260
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44312018156051636,
      "learning_rate": 0.0003294743782002097,
      "loss": 1.5729,
      "step": 42261
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4875476062297821,
      "learning_rate": 0.00032946397663349483,
      "loss": 1.7068,
      "step": 42262
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4639205038547516,
      "learning_rate": 0.00032945357503101494,
      "loss": 1.5857,
      "step": 42263
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.453492671251297,
      "learning_rate": 0.00032944317339278284,
      "loss": 1.5753,
      "step": 42264
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4678010940551758,
      "learning_rate": 0.0003294327717188109,
      "loss": 1.6359,
      "step": 42265
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.463081419467926,
      "learning_rate": 0.00032942237000911217,
      "loss": 1.6815,
      "step": 42266
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4689997136592865,
      "learning_rate": 0.0003294119682636988,
      "loss": 1.6299,
      "step": 42267
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46330562233924866,
      "learning_rate": 0.0003294015664825837,
      "loss": 1.5978,
      "step": 42268
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4554869830608368,
      "learning_rate": 0.0003293911646657795,
      "loss": 1.5813,
      "step": 42269
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47681480646133423,
      "learning_rate": 0.0003293807628132987,
      "loss": 1.6223,
      "step": 42270
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4721176326274872,
      "learning_rate": 0.00032937036092515397,
      "loss": 1.658,
      "step": 42271
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4537421762943268,
      "learning_rate": 0.00032935995900135797,
      "loss": 1.6369,
      "step": 42272
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48038631677627563,
      "learning_rate": 0.0003293495570419233,
      "loss": 1.6707,
      "step": 42273
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4547419846057892,
      "learning_rate": 0.0003293391550468626,
      "loss": 1.5746,
      "step": 42274
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.898464560508728,
      "learning_rate": 0.00032932875301618845,
      "loss": 1.6267,
      "step": 42275
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4679517447948456,
      "learning_rate": 0.00032931835094991355,
      "loss": 1.5974,
      "step": 42276
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4505936801433563,
      "learning_rate": 0.0003293079488480505,
      "loss": 1.5646,
      "step": 42277
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46626517176628113,
      "learning_rate": 0.00032929754671061183,
      "loss": 1.6255,
      "step": 42278
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45703792572021484,
      "learning_rate": 0.0003292871445376104,
      "loss": 1.6483,
      "step": 42279
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4623224139213562,
      "learning_rate": 0.0003292767423290586,
      "loss": 1.5897,
      "step": 42280
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47356483340263367,
      "learning_rate": 0.0003292663400849692,
      "loss": 1.6597,
      "step": 42281
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4539535343647003,
      "learning_rate": 0.0003292559378053547,
      "loss": 1.639,
      "step": 42282
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4610409438610077,
      "learning_rate": 0.0003292455354902279,
      "loss": 1.6557,
      "step": 42283
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4503292441368103,
      "learning_rate": 0.0003292351331396013,
      "loss": 1.6111,
      "step": 42284
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4642968475818634,
      "learning_rate": 0.00032922473075348743,
      "loss": 1.5972,
      "step": 42285
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4475521743297577,
      "learning_rate": 0.00032921432833189925,
      "loss": 1.5773,
      "step": 42286
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45445534586906433,
      "learning_rate": 0.00032920392587484904,
      "loss": 1.6064,
      "step": 42287
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4536116421222687,
      "learning_rate": 0.0003291935233823496,
      "loss": 1.6352,
      "step": 42288
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47057226300239563,
      "learning_rate": 0.0003291831208544136,
      "loss": 1.6006,
      "step": 42289
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4628359377384186,
      "learning_rate": 0.0003291727182910534,
      "loss": 1.5629,
      "step": 42290
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4650861322879791,
      "learning_rate": 0.000329162315692282,
      "loss": 1.5977,
      "step": 42291
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45037174224853516,
      "learning_rate": 0.0003291519130581117,
      "loss": 1.6122,
      "step": 42292
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46622776985168457,
      "learning_rate": 0.0003291415103885554,
      "loss": 1.6113,
      "step": 42293
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48672816157341003,
      "learning_rate": 0.00032913110768362556,
      "loss": 1.6151,
      "step": 42294
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4688686728477478,
      "learning_rate": 0.00032912070494333485,
      "loss": 1.5959,
      "step": 42295
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.49079954624176025,
      "learning_rate": 0.00032911030216769595,
      "loss": 1.6862,
      "step": 42296
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48339569568634033,
      "learning_rate": 0.00032909989935672127,
      "loss": 1.6797,
      "step": 42297
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4662790596485138,
      "learning_rate": 0.0003290894965104237,
      "loss": 1.6217,
      "step": 42298
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47842904925346375,
      "learning_rate": 0.00032907909362881577,
      "loss": 1.6283,
      "step": 42299
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4749179184436798,
      "learning_rate": 0.00032906869071191015,
      "loss": 1.6078,
      "step": 42300
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4761188328266144,
      "learning_rate": 0.00032905828775971934,
      "loss": 1.6697,
      "step": 42301
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46426478028297424,
      "learning_rate": 0.00032904788477225607,
      "loss": 1.638,
      "step": 42302
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48357197642326355,
      "learning_rate": 0.000329037481749533,
      "loss": 1.6978,
      "step": 42303
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.490539014339447,
      "learning_rate": 0.00032902707869156267,
      "loss": 1.6659,
      "step": 42304
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46491262316703796,
      "learning_rate": 0.00032901667559835776,
      "loss": 1.6096,
      "step": 42305
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47777876257896423,
      "learning_rate": 0.00032900627246993085,
      "loss": 1.5698,
      "step": 42306
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4681222438812256,
      "learning_rate": 0.00032899586930629465,
      "loss": 1.5454,
      "step": 42307
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47243228554725647,
      "learning_rate": 0.00032898546610746166,
      "loss": 1.6017,
      "step": 42308
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4931894540786743,
      "learning_rate": 0.00032897506287344464,
      "loss": 1.6531,
      "step": 42309
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4924946129322052,
      "learning_rate": 0.00032896465960425615,
      "loss": 1.6264,
      "step": 42310
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47275739908218384,
      "learning_rate": 0.0003289542562999088,
      "loss": 1.6287,
      "step": 42311
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45531901717185974,
      "learning_rate": 0.0003289438529604153,
      "loss": 1.5643,
      "step": 42312
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4602566957473755,
      "learning_rate": 0.0003289334495857882,
      "loss": 1.6089,
      "step": 42313
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4730619490146637,
      "learning_rate": 0.0003289230461760402,
      "loss": 1.6201,
      "step": 42314
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.5005887746810913,
      "learning_rate": 0.00032891264273118376,
      "loss": 1.5633,
      "step": 42315
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4783035218715668,
      "learning_rate": 0.0003289022392512318,
      "loss": 1.5607,
      "step": 42316
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47425973415374756,
      "learning_rate": 0.00032889183573619655,
      "loss": 1.6444,
      "step": 42317
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45372363924980164,
      "learning_rate": 0.0003288814321860911,
      "loss": 1.6014,
      "step": 42318
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4968966841697693,
      "learning_rate": 0.0003288710286009278,
      "loss": 1.5824,
      "step": 42319
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48538631200790405,
      "learning_rate": 0.00032886062498071924,
      "loss": 1.5859,
      "step": 42320
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.490138441324234,
      "learning_rate": 0.0003288502213254782,
      "loss": 1.6779,
      "step": 42321
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47271665930747986,
      "learning_rate": 0.00032883981763521717,
      "loss": 1.6172,
      "step": 42322
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4586004912853241,
      "learning_rate": 0.00032882941390994895,
      "loss": 1.6127,
      "step": 42323
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4685734510421753,
      "learning_rate": 0.000328819010149686,
      "loss": 1.623,
      "step": 42324
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47182345390319824,
      "learning_rate": 0.00032880860635444104,
      "loss": 1.555,
      "step": 42325
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4842537045478821,
      "learning_rate": 0.0003287982025242267,
      "loss": 1.6399,
      "step": 42326
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47691789269447327,
      "learning_rate": 0.00032878779865905554,
      "loss": 1.5189,
      "step": 42327
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46689310669898987,
      "learning_rate": 0.0003287773947589403,
      "loss": 1.6365,
      "step": 42328
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44674649834632874,
      "learning_rate": 0.0003287669908238935,
      "loss": 1.6094,
      "step": 42329
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4740491211414337,
      "learning_rate": 0.00032875658685392774,
      "loss": 1.569,
      "step": 42330
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46916475892066956,
      "learning_rate": 0.0003287461828490558,
      "loss": 1.5952,
      "step": 42331
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4715258777141571,
      "learning_rate": 0.00032873577880929025,
      "loss": 1.7514,
      "step": 42332
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4793866276741028,
      "learning_rate": 0.00032872537473464363,
      "loss": 1.6365,
      "step": 42333
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.471753865480423,
      "learning_rate": 0.00032871497062512874,
      "loss": 1.6685,
      "step": 42334
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47330284118652344,
      "learning_rate": 0.00032870456648075806,
      "loss": 1.6393,
      "step": 42335
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48511433601379395,
      "learning_rate": 0.00032869416230154426,
      "loss": 1.6497,
      "step": 42336
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4763592779636383,
      "learning_rate": 0.0003286837580874999,
      "loss": 1.6537,
      "step": 42337
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4905749261379242,
      "learning_rate": 0.0003286733538386377,
      "loss": 1.5929,
      "step": 42338
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4566429555416107,
      "learning_rate": 0.0003286629495549704,
      "loss": 1.5881,
      "step": 42339
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46885010600090027,
      "learning_rate": 0.00032865254523651037,
      "loss": 1.6205,
      "step": 42340
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4520505368709564,
      "learning_rate": 0.00032864214088327047,
      "loss": 1.6535,
      "step": 42341
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47391924262046814,
      "learning_rate": 0.0003286317364952632,
      "loss": 1.6117,
      "step": 42342
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.480398029088974,
      "learning_rate": 0.0003286213320725012,
      "loss": 1.5831,
      "step": 42343
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4805014431476593,
      "learning_rate": 0.00032861092761499714,
      "loss": 1.61,
      "step": 42344
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46854180097579956,
      "learning_rate": 0.0003286005231227636,
      "loss": 1.6787,
      "step": 42345
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46444961428642273,
      "learning_rate": 0.00032859011859581326,
      "loss": 1.6101,
      "step": 42346
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.5057596564292908,
      "learning_rate": 0.0003285797140341587,
      "loss": 1.593,
      "step": 42347
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47323745489120483,
      "learning_rate": 0.00032856930943781263,
      "loss": 1.6335,
      "step": 42348
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.455809086561203,
      "learning_rate": 0.00032855890480678755,
      "loss": 1.6315,
      "step": 42349
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46196460723876953,
      "learning_rate": 0.0003285485001410962,
      "loss": 1.6449,
      "step": 42350
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.501833975315094,
      "learning_rate": 0.0003285380954407513,
      "loss": 1.6818,
      "step": 42351
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.471299409866333,
      "learning_rate": 0.0003285276907057652,
      "loss": 1.612,
      "step": 42352
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48687782883644104,
      "learning_rate": 0.00032851728593615075,
      "loss": 1.6213,
      "step": 42353
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45619121193885803,
      "learning_rate": 0.0003285068811319205,
      "loss": 1.6553,
      "step": 42354
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44632816314697266,
      "learning_rate": 0.0003284964762930871,
      "loss": 1.5237,
      "step": 42355
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4705560803413391,
      "learning_rate": 0.00032848607141966316,
      "loss": 1.6415,
      "step": 42356
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4695752263069153,
      "learning_rate": 0.00032847566651166135,
      "loss": 1.6042,
      "step": 42357
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4750327467918396,
      "learning_rate": 0.0003284652615690943,
      "loss": 1.6381,
      "step": 42358
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4909290671348572,
      "learning_rate": 0.0003284548565919746,
      "loss": 1.6162,
      "step": 42359
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4667135775089264,
      "learning_rate": 0.00032844445158031486,
      "loss": 1.5524,
      "step": 42360
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4787953495979309,
      "learning_rate": 0.00032843404653412774,
      "loss": 1.6896,
      "step": 42361
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48951590061187744,
      "learning_rate": 0.00032842364145342596,
      "loss": 1.714,
      "step": 42362
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46946436166763306,
      "learning_rate": 0.000328413236338222,
      "loss": 1.6517,
      "step": 42363
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48154017329216003,
      "learning_rate": 0.0003284028311885286,
      "loss": 1.6426,
      "step": 42364
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45002827048301697,
      "learning_rate": 0.0003283924260043583,
      "loss": 1.6359,
      "step": 42365
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47667649388313293,
      "learning_rate": 0.0003283820207857238,
      "loss": 1.6322,
      "step": 42366
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4866270124912262,
      "learning_rate": 0.0003283716155326377,
      "loss": 1.6466,
      "step": 42367
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47729286551475525,
      "learning_rate": 0.00032836121024511266,
      "loss": 1.5828,
      "step": 42368
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4465908408164978,
      "learning_rate": 0.0003283508049231613,
      "loss": 1.6862,
      "step": 42369
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4526870846748352,
      "learning_rate": 0.00032834039956679614,
      "loss": 1.658,
      "step": 42370
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46592530608177185,
      "learning_rate": 0.00032832999417603005,
      "loss": 1.6354,
      "step": 42371
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4780004322528839,
      "learning_rate": 0.0003283195887508754,
      "loss": 1.6319,
      "step": 42372
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4863656163215637,
      "learning_rate": 0.0003283091832913451,
      "loss": 1.6443,
      "step": 42373
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46641355752944946,
      "learning_rate": 0.0003282987777974515,
      "loss": 1.657,
      "step": 42374
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4588242173194885,
      "learning_rate": 0.00032828837226920736,
      "loss": 1.6781,
      "step": 42375
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47134897112846375,
      "learning_rate": 0.00032827796670662537,
      "loss": 1.5964,
      "step": 42376
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45173731446266174,
      "learning_rate": 0.00032826756110971797,
      "loss": 1.5929,
      "step": 42377
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4783127009868622,
      "learning_rate": 0.00032825715547849806,
      "loss": 1.6238,
      "step": 42378
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4923871159553528,
      "learning_rate": 0.000328246749812978,
      "loss": 1.6786,
      "step": 42379
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4561840295791626,
      "learning_rate": 0.00032823634411317066,
      "loss": 1.5675,
      "step": 42380
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46476662158966064,
      "learning_rate": 0.0003282259383790885,
      "loss": 1.6779,
      "step": 42381
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4643353521823883,
      "learning_rate": 0.0003282155326107441,
      "loss": 1.6003,
      "step": 42382
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4759123623371124,
      "learning_rate": 0.0003282051268081504,
      "loss": 1.5661,
      "step": 42383
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4821678102016449,
      "learning_rate": 0.0003281947209713198,
      "loss": 1.5975,
      "step": 42384
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4760049879550934,
      "learning_rate": 0.0003281843151002649,
      "loss": 1.6288,
      "step": 42385
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45329099893569946,
      "learning_rate": 0.0003281739091949984,
      "loss": 1.567,
      "step": 42386
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4476315975189209,
      "learning_rate": 0.00032816350325553286,
      "loss": 1.5309,
      "step": 42387
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45731979608535767,
      "learning_rate": 0.00032815309728188104,
      "loss": 1.6529,
      "step": 42388
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48503589630126953,
      "learning_rate": 0.0003281426912740556,
      "loss": 1.6347,
      "step": 42389
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46906253695487976,
      "learning_rate": 0.000328132285232069,
      "loss": 1.6387,
      "step": 42390
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46625199913978577,
      "learning_rate": 0.00032812187915593394,
      "loss": 1.6382,
      "step": 42391
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46744006872177124,
      "learning_rate": 0.00032811147304566304,
      "loss": 1.5959,
      "step": 42392
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4625614583492279,
      "learning_rate": 0.00032810106690126894,
      "loss": 1.5723,
      "step": 42393
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4651809334754944,
      "learning_rate": 0.0003280906607227644,
      "loss": 1.6429,
      "step": 42394
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46541619300842285,
      "learning_rate": 0.0003280802545101618,
      "loss": 1.5867,
      "step": 42395
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45525357127189636,
      "learning_rate": 0.000328069848263474,
      "loss": 1.5398,
      "step": 42396
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44391176104545593,
      "learning_rate": 0.0003280594419827135,
      "loss": 1.5944,
      "step": 42397
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46950942277908325,
      "learning_rate": 0.00032804903566789297,
      "loss": 1.5958,
      "step": 42398
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4566968083381653,
      "learning_rate": 0.0003280386293190252,
      "loss": 1.6236,
      "step": 42399
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.5050234198570251,
      "learning_rate": 0.0003280282229361224,
      "loss": 1.6614,
      "step": 42400
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4786612391471863,
      "learning_rate": 0.00032801781651919763,
      "loss": 1.64,
      "step": 42401
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.6829382181167603,
      "learning_rate": 0.00032800741006826326,
      "loss": 1.6517,
      "step": 42402
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47094401717185974,
      "learning_rate": 0.0003279970035833321,
      "loss": 1.6145,
      "step": 42403
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47326913475990295,
      "learning_rate": 0.0003279865970644167,
      "loss": 1.611,
      "step": 42404
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46250537037849426,
      "learning_rate": 0.0003279761905115297,
      "loss": 1.6273,
      "step": 42405
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4582408666610718,
      "learning_rate": 0.00032796578392468373,
      "loss": 1.6412,
      "step": 42406
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4649299085140228,
      "learning_rate": 0.0003279553773038913,
      "loss": 1.6289,
      "step": 42407
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4741038680076599,
      "learning_rate": 0.0003279449706491653,
      "loss": 1.6465,
      "step": 42408
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4765205979347229,
      "learning_rate": 0.0003279345639605182,
      "loss": 1.5916,
      "step": 42409
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4611237645149231,
      "learning_rate": 0.0003279241572379626,
      "loss": 1.6373,
      "step": 42410
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4501344561576843,
      "learning_rate": 0.00032791375048151123,
      "loss": 1.6022,
      "step": 42411
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4567069411277771,
      "learning_rate": 0.00032790334369117664,
      "loss": 1.5579,
      "step": 42412
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4654105007648468,
      "learning_rate": 0.00032789293686697157,
      "loss": 1.5196,
      "step": 42413
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47966864705085754,
      "learning_rate": 0.00032788253000890855,
      "loss": 1.567,
      "step": 42414
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4615035951137543,
      "learning_rate": 0.00032787212311700026,
      "loss": 1.6004,
      "step": 42415
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.480885773897171,
      "learning_rate": 0.0003278617161912593,
      "loss": 1.6405,
      "step": 42416
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4586906433105469,
      "learning_rate": 0.0003278513092316983,
      "loss": 1.559,
      "step": 42417
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47614288330078125,
      "learning_rate": 0.0003278409022383299,
      "loss": 1.656,
      "step": 42418
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46134769916534424,
      "learning_rate": 0.00032783049521116676,
      "loss": 1.5556,
      "step": 42419
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4602849781513214,
      "learning_rate": 0.00032782008815022165,
      "loss": 1.614,
      "step": 42420
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.474647581577301,
      "learning_rate": 0.0003278096810555069,
      "loss": 1.6684,
      "step": 42421
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47586163878440857,
      "learning_rate": 0.0003277992739270353,
      "loss": 1.5296,
      "step": 42422
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4587997794151306,
      "learning_rate": 0.0003277888667648195,
      "loss": 1.634,
      "step": 42423
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4794583022594452,
      "learning_rate": 0.00032777845956887214,
      "loss": 1.6461,
      "step": 42424
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4574210047721863,
      "learning_rate": 0.0003277680523392057,
      "loss": 1.6209,
      "step": 42425
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4599961042404175,
      "learning_rate": 0.0003277576450758331,
      "loss": 1.6127,
      "step": 42426
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4648939371109009,
      "learning_rate": 0.00032774723777876676,
      "loss": 1.597,
      "step": 42427
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46048450469970703,
      "learning_rate": 0.0003277368304480193,
      "loss": 1.6078,
      "step": 42428
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4561655819416046,
      "learning_rate": 0.00032772642308360344,
      "loss": 1.6049,
      "step": 42429
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47716253995895386,
      "learning_rate": 0.00032771601568553184,
      "loss": 1.6681,
      "step": 42430
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46655499935150146,
      "learning_rate": 0.00032770560825381707,
      "loss": 1.6024,
      "step": 42431
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4539160132408142,
      "learning_rate": 0.00032769520078847165,
      "loss": 1.5907,
      "step": 42432
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45944878458976746,
      "learning_rate": 0.0003276847932895085,
      "loss": 1.6264,
      "step": 42433
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4818255305290222,
      "learning_rate": 0.0003276743857569399,
      "loss": 1.6342,
      "step": 42434
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47186562418937683,
      "learning_rate": 0.00032766397819077893,
      "loss": 1.6854,
      "step": 42435
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46409961581230164,
      "learning_rate": 0.0003276535705910378,
      "loss": 1.5748,
      "step": 42436
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47262850403785706,
      "learning_rate": 0.0003276431629577293,
      "loss": 1.5721,
      "step": 42437
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45907390117645264,
      "learning_rate": 0.0003276327552908662,
      "loss": 1.6745,
      "step": 42438
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4702399969100952,
      "learning_rate": 0.0003276223475904608,
      "loss": 1.5818,
      "step": 42439
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4641530513763428,
      "learning_rate": 0.00032761193985652616,
      "loss": 1.6445,
      "step": 42440
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46979784965515137,
      "learning_rate": 0.0003276015320890746,
      "loss": 1.6244,
      "step": 42441
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46793368458747864,
      "learning_rate": 0.0003275911242881188,
      "loss": 1.5703,
      "step": 42442
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47058144211769104,
      "learning_rate": 0.0003275807164536715,
      "loss": 1.6542,
      "step": 42443
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4644351899623871,
      "learning_rate": 0.00032757030858574524,
      "loss": 1.6813,
      "step": 42444
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4569914638996124,
      "learning_rate": 0.0003275599006843528,
      "loss": 1.5671,
      "step": 42445
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48968416452407837,
      "learning_rate": 0.00032754949274950657,
      "loss": 1.6523,
      "step": 42446
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48990681767463684,
      "learning_rate": 0.0003275390847812193,
      "loss": 1.6112,
      "step": 42447
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4638670086860657,
      "learning_rate": 0.0003275286767795037,
      "loss": 1.6211,
      "step": 42448
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4845050573348999,
      "learning_rate": 0.00032751826874437235,
      "loss": 1.5905,
      "step": 42449
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4582204222679138,
      "learning_rate": 0.00032750786067583783,
      "loss": 1.5912,
      "step": 42450
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45054835081100464,
      "learning_rate": 0.0003274974525739129,
      "loss": 1.5507,
      "step": 42451
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47491297125816345,
      "learning_rate": 0.00032748704443861,
      "loss": 1.6369,
      "step": 42452
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48025861382484436,
      "learning_rate": 0.000327476636269942,
      "loss": 1.605,
      "step": 42453
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46813148260116577,
      "learning_rate": 0.0003274662280679213,
      "loss": 1.5281,
      "step": 42454
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4411233067512512,
      "learning_rate": 0.00032745581983256077,
      "loss": 1.6125,
      "step": 42455
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46631869673728943,
      "learning_rate": 0.0003274454115638729,
      "loss": 1.5953,
      "step": 42456
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4618048369884491,
      "learning_rate": 0.00032743500326187016,
      "loss": 1.5877,
      "step": 42457
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46967998147010803,
      "learning_rate": 0.00032742459492656557,
      "loss": 1.6488,
      "step": 42458
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.49577561020851135,
      "learning_rate": 0.00032741418655797154,
      "loss": 1.616,
      "step": 42459
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46244993805885315,
      "learning_rate": 0.0003274037781561007,
      "loss": 1.6238,
      "step": 42460
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46545830368995667,
      "learning_rate": 0.0003273933697209657,
      "loss": 1.6925,
      "step": 42461
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4829946458339691,
      "learning_rate": 0.0003273829612525791,
      "loss": 1.6414,
      "step": 42462
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4780018925666809,
      "learning_rate": 0.0003273725527509537,
      "loss": 1.5979,
      "step": 42463
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47465115785598755,
      "learning_rate": 0.00032736214421610205,
      "loss": 1.5988,
      "step": 42464
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45242756605148315,
      "learning_rate": 0.00032735173564803677,
      "loss": 1.6226,
      "step": 42465
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4793316423892975,
      "learning_rate": 0.00032734132704677056,
      "loss": 1.6174,
      "step": 42466
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47116824984550476,
      "learning_rate": 0.00032733091841231595,
      "loss": 1.6362,
      "step": 42467
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4656066298484802,
      "learning_rate": 0.00032732050974468573,
      "loss": 1.595,
      "step": 42468
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44910120964050293,
      "learning_rate": 0.00032731010104389226,
      "loss": 1.582,
      "step": 42469
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4635234773159027,
      "learning_rate": 0.0003272996923099486,
      "loss": 1.6391,
      "step": 42470
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4755609631538391,
      "learning_rate": 0.00032728928354286695,
      "loss": 1.6536,
      "step": 42471
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46978524327278137,
      "learning_rate": 0.0003272788747426602,
      "loss": 1.5592,
      "step": 42472
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47316843271255493,
      "learning_rate": 0.00032726846590934086,
      "loss": 1.5896,
      "step": 42473
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4533173143863678,
      "learning_rate": 0.00032725805704292163,
      "loss": 1.6096,
      "step": 42474
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.468740850687027,
      "learning_rate": 0.0003272476481434152,
      "loss": 1.6494,
      "step": 42475
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45859473943710327,
      "learning_rate": 0.0003272372392108341,
      "loss": 1.6014,
      "step": 42476
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46220800280570984,
      "learning_rate": 0.000327226830245191,
      "loss": 1.5517,
      "step": 42477
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4694066643714905,
      "learning_rate": 0.0003272164212464986,
      "loss": 1.5399,
      "step": 42478
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4739173650741577,
      "learning_rate": 0.00032720601221476937,
      "loss": 1.6591,
      "step": 42479
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45899713039398193,
      "learning_rate": 0.00032719560315001606,
      "loss": 1.5255,
      "step": 42480
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4648023545742035,
      "learning_rate": 0.0003271851940522514,
      "loss": 1.6035,
      "step": 42481
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47497978806495667,
      "learning_rate": 0.0003271747849214878,
      "loss": 1.5752,
      "step": 42482
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47375521063804626,
      "learning_rate": 0.00032716437575773804,
      "loss": 1.6383,
      "step": 42483
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4868369400501251,
      "learning_rate": 0.0003271539665610148,
      "loss": 1.6097,
      "step": 42484
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4734300374984741,
      "learning_rate": 0.0003271435573313306,
      "loss": 1.6242,
      "step": 42485
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4540487825870514,
      "learning_rate": 0.00032713314806869816,
      "loss": 1.5752,
      "step": 42486
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4612630009651184,
      "learning_rate": 0.00032712273877313,
      "loss": 1.6146,
      "step": 42487
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45759135484695435,
      "learning_rate": 0.0003271123294446389,
      "loss": 1.5866,
      "step": 42488
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4762713313102722,
      "learning_rate": 0.0003271019200832373,
      "loss": 1.67,
      "step": 42489
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4522494971752167,
      "learning_rate": 0.00032709151068893814,
      "loss": 1.5707,
      "step": 42490
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4594894051551819,
      "learning_rate": 0.00032708110126175376,
      "loss": 1.5271,
      "step": 42491
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4706200659275055,
      "learning_rate": 0.000327070691801697,
      "loss": 1.5972,
      "step": 42492
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45860978960990906,
      "learning_rate": 0.0003270602823087804,
      "loss": 1.6131,
      "step": 42493
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46318578720092773,
      "learning_rate": 0.00032704987278301653,
      "loss": 1.5914,
      "step": 42494
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4685579538345337,
      "learning_rate": 0.00032703946322441813,
      "loss": 1.5304,
      "step": 42495
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4648231565952301,
      "learning_rate": 0.00032702905363299784,
      "loss": 1.6465,
      "step": 42496
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4486841857433319,
      "learning_rate": 0.0003270186440087682,
      "loss": 1.6069,
      "step": 42497
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45102155208587646,
      "learning_rate": 0.00032700823435174195,
      "loss": 1.5812,
      "step": 42498
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46673843264579773,
      "learning_rate": 0.00032699782466193166,
      "loss": 1.6037,
      "step": 42499
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46734920144081116,
      "learning_rate": 0.00032698741493935007,
      "loss": 1.6273,
      "step": 42500
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46782779693603516,
      "learning_rate": 0.0003269770051840096,
      "loss": 1.6119,
      "step": 42501
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4717491567134857,
      "learning_rate": 0.0003269665953959231,
      "loss": 1.6741,
      "step": 42502
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4735700190067291,
      "learning_rate": 0.00032695618557510313,
      "loss": 1.5932,
      "step": 42503
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48643872141838074,
      "learning_rate": 0.00032694577572156227,
      "loss": 1.6889,
      "step": 42504
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44369128346443176,
      "learning_rate": 0.0003269353658353132,
      "loss": 1.598,
      "step": 42505
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4577223062515259,
      "learning_rate": 0.0003269249559163687,
      "loss": 1.5693,
      "step": 42506
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4700355529785156,
      "learning_rate": 0.00032691454596474117,
      "loss": 1.637,
      "step": 42507
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4868573546409607,
      "learning_rate": 0.00032690413598044336,
      "loss": 1.6699,
      "step": 42508
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.45885995030403137,
      "learning_rate": 0.00032689372596348787,
      "loss": 1.657,
      "step": 42509
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4684087336063385,
      "learning_rate": 0.00032688331591388737,
      "loss": 1.6128,
      "step": 42510
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4737705886363983,
      "learning_rate": 0.0003268729058316545,
      "loss": 1.5958,
      "step": 42511
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4668785631656647,
      "learning_rate": 0.00032686249571680184,
      "loss": 1.6163,
      "step": 42512
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47703641653060913,
      "learning_rate": 0.0003268520855693422,
      "loss": 1.5572,
      "step": 42513
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.478324294090271,
      "learning_rate": 0.0003268416753892879,
      "loss": 1.6368,
      "step": 42514
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4765993654727936,
      "learning_rate": 0.0003268312651766519,
      "loss": 1.6006,
      "step": 42515
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46704280376434326,
      "learning_rate": 0.00032682085493144667,
      "loss": 1.5988,
      "step": 42516
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4786166250705719,
      "learning_rate": 0.00032681044465368477,
      "loss": 1.5838,
      "step": 42517
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4455862045288086,
      "learning_rate": 0.0003268000343433791,
      "loss": 1.5433,
      "step": 42518
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4613550007343292,
      "learning_rate": 0.00032678962400054196,
      "loss": 1.5075,
      "step": 42519
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4708023965358734,
      "learning_rate": 0.00032677921362518636,
      "loss": 1.5668,
      "step": 42520
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.48528459668159485,
      "learning_rate": 0.0003267688032173246,
      "loss": 1.5768,
      "step": 42521
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4743061065673828,
      "learning_rate": 0.0003267583927769695,
      "loss": 1.6037,
      "step": 42522
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4615384340286255,
      "learning_rate": 0.0003267479823041337,
      "loss": 1.6176,
      "step": 42523
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.47213611006736755,
      "learning_rate": 0.0003267375717988297,
      "loss": 1.4987,
      "step": 42524
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46723347902297974,
      "learning_rate": 0.0003267271612610703,
      "loss": 1.6833,
      "step": 42525
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4570006728172302,
      "learning_rate": 0.000326716750690868,
      "loss": 1.6148,
      "step": 42526
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4758731424808502,
      "learning_rate": 0.0003267063400882356,
      "loss": 1.5421,
      "step": 42527
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4755975604057312,
      "learning_rate": 0.00032669592945318553,
      "loss": 1.6338,
      "step": 42528
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4730216860771179,
      "learning_rate": 0.0003266855187857306,
      "loss": 1.6193,
      "step": 42529
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46501415967941284,
      "learning_rate": 0.00032667510808588335,
      "loss": 1.6006,
      "step": 42530
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4647032916545868,
      "learning_rate": 0.0003266646973536565,
      "loss": 1.6238,
      "step": 42531
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4596405327320099,
      "learning_rate": 0.00032665428658906255,
      "loss": 1.6481,
      "step": 42532
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4676269292831421,
      "learning_rate": 0.0003266438757921143,
      "loss": 1.5425,
      "step": 42533
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45745208859443665,
      "learning_rate": 0.0003266334649628242,
      "loss": 1.5915,
      "step": 42534
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4591852128505707,
      "learning_rate": 0.00032662305410120513,
      "loss": 1.6418,
      "step": 42535
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47968611121177673,
      "learning_rate": 0.0003266126432072696,
      "loss": 1.5595,
      "step": 42536
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47400060296058655,
      "learning_rate": 0.0003266022322810302,
      "loss": 1.6956,
      "step": 42537
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45471706986427307,
      "learning_rate": 0.0003265918213224996,
      "loss": 1.5975,
      "step": 42538
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47213855385780334,
      "learning_rate": 0.0003265814103316904,
      "loss": 1.6127,
      "step": 42539
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4769202768802643,
      "learning_rate": 0.0003265709993086153,
      "loss": 1.6869,
      "step": 42540
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4755081832408905,
      "learning_rate": 0.000326560588253287,
      "loss": 1.6801,
      "step": 42541
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48545506596565247,
      "learning_rate": 0.00032655017716571796,
      "loss": 1.6431,
      "step": 42542
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.468269020318985,
      "learning_rate": 0.000326539766045921,
      "loss": 1.5992,
      "step": 42543
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45486578345298767,
      "learning_rate": 0.0003265293548939086,
      "loss": 1.6535,
      "step": 42544
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46452778577804565,
      "learning_rate": 0.00032651894370969354,
      "loss": 1.6721,
      "step": 42545
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5557023286819458,
      "learning_rate": 0.0003265085324932884,
      "loss": 1.6939,
      "step": 42546
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4629819095134735,
      "learning_rate": 0.0003264981212447057,
      "loss": 1.6361,
      "step": 42547
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45920607447624207,
      "learning_rate": 0.0003264877099639583,
      "loss": 1.6056,
      "step": 42548
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47348496317863464,
      "learning_rate": 0.0003264772986510587,
      "loss": 1.6057,
      "step": 42549
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4678814709186554,
      "learning_rate": 0.00032646688730601954,
      "loss": 1.6027,
      "step": 42550
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46105191111564636,
      "learning_rate": 0.00032645647592885344,
      "loss": 1.5931,
      "step": 42551
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4781385660171509,
      "learning_rate": 0.0003264460645195731,
      "loss": 1.6028,
      "step": 42552
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4597164988517761,
      "learning_rate": 0.00032643565307819116,
      "loss": 1.6457,
      "step": 42553
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45011472702026367,
      "learning_rate": 0.00032642524160472026,
      "loss": 1.5986,
      "step": 42554
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4787009060382843,
      "learning_rate": 0.000326414830099173,
      "loss": 1.6054,
      "step": 42555
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4870072603225708,
      "learning_rate": 0.0003264044185615619,
      "loss": 1.5603,
      "step": 42556
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4669218957424164,
      "learning_rate": 0.0003263940069918999,
      "loss": 1.619,
      "step": 42557
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47430986166000366,
      "learning_rate": 0.00032638359539019935,
      "loss": 1.6419,
      "step": 42558
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4714803695678711,
      "learning_rate": 0.00032637318375647306,
      "loss": 1.5524,
      "step": 42559
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46278151869773865,
      "learning_rate": 0.00032636277209073354,
      "loss": 1.5797,
      "step": 42560
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4814552664756775,
      "learning_rate": 0.0003263523603929936,
      "loss": 1.5955,
      "step": 42561
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4598056375980377,
      "learning_rate": 0.00032634194866326574,
      "loss": 1.6111,
      "step": 42562
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47146257758140564,
      "learning_rate": 0.0003263315369015626,
      "loss": 1.5615,
      "step": 42563
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.44507330656051636,
      "learning_rate": 0.00032632112510789694,
      "loss": 1.5171,
      "step": 42564
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4650174379348755,
      "learning_rate": 0.00032631071328228123,
      "loss": 1.5606,
      "step": 42565
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46109527349472046,
      "learning_rate": 0.0003263003014247282,
      "loss": 1.5992,
      "step": 42566
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4520048499107361,
      "learning_rate": 0.0003262898895352505,
      "loss": 1.5486,
      "step": 42567
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4702926278114319,
      "learning_rate": 0.0003262794776138608,
      "loss": 1.5706,
      "step": 42568
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4508054852485657,
      "learning_rate": 0.00032626906566057156,
      "loss": 1.5775,
      "step": 42569
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4711516797542572,
      "learning_rate": 0.0003262586536753956,
      "loss": 1.6181,
      "step": 42570
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.44780635833740234,
      "learning_rate": 0.0003262482416583455,
      "loss": 1.574,
      "step": 42571
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47648242115974426,
      "learning_rate": 0.00032623782960943394,
      "loss": 1.5959,
      "step": 42572
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4654461145401001,
      "learning_rate": 0.0003262274175286736,
      "loss": 1.6306,
      "step": 42573
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45901772379875183,
      "learning_rate": 0.0003262170054160768,
      "loss": 1.6542,
      "step": 42574
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47325655817985535,
      "learning_rate": 0.0003262065932716566,
      "loss": 1.6147,
      "step": 42575
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45304492115974426,
      "learning_rate": 0.00032619618109542544,
      "loss": 1.6695,
      "step": 42576
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4669775366783142,
      "learning_rate": 0.0003261857688873959,
      "loss": 1.6063,
      "step": 42577
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47347843647003174,
      "learning_rate": 0.00032617535664758077,
      "loss": 1.5806,
      "step": 42578
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.44783103466033936,
      "learning_rate": 0.0003261649443759926,
      "loss": 1.5312,
      "step": 42579
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47634223103523254,
      "learning_rate": 0.0003261545320726441,
      "loss": 1.6582,
      "step": 42580
    },
    {
      "epoch": 1.42,
      "grad_norm": 1.1392910480499268,
      "learning_rate": 0.0003261441197375477,
      "loss": 1.64,
      "step": 42581
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45374131202697754,
      "learning_rate": 0.00032613370737071624,
      "loss": 1.6898,
      "step": 42582
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47761276364326477,
      "learning_rate": 0.00032612329497216236,
      "loss": 1.655,
      "step": 42583
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47169122099876404,
      "learning_rate": 0.0003261128825418986,
      "loss": 1.664,
      "step": 42584
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46453744173049927,
      "learning_rate": 0.00032610247007993775,
      "loss": 1.6423,
      "step": 42585
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4861230254173279,
      "learning_rate": 0.00032609205758629223,
      "loss": 1.6285,
      "step": 42586
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45611247420310974,
      "learning_rate": 0.0003260816450609749,
      "loss": 1.5704,
      "step": 42587
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45799168944358826,
      "learning_rate": 0.00032607123250399825,
      "loss": 1.5913,
      "step": 42588
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45544615387916565,
      "learning_rate": 0.0003260608199153749,
      "loss": 1.5403,
      "step": 42589
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4699602723121643,
      "learning_rate": 0.0003260504072951176,
      "loss": 1.6828,
      "step": 42590
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4692995846271515,
      "learning_rate": 0.00032603999464323895,
      "loss": 1.6761,
      "step": 42591
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.467654287815094,
      "learning_rate": 0.00032602958195975163,
      "loss": 1.6146,
      "step": 42592
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4725339114665985,
      "learning_rate": 0.0003260191692446682,
      "loss": 1.656,
      "step": 42593
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48678848147392273,
      "learning_rate": 0.0003260087564980013,
      "loss": 1.6347,
      "step": 42594
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4599377512931824,
      "learning_rate": 0.0003259983437197636,
      "loss": 1.5231,
      "step": 42595
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4833703935146332,
      "learning_rate": 0.0003259879309099678,
      "loss": 1.5698,
      "step": 42596
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45543327927589417,
      "learning_rate": 0.00032597751806862644,
      "loss": 1.5962,
      "step": 42597
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4446028769016266,
      "learning_rate": 0.0003259671051957522,
      "loss": 1.5446,
      "step": 42598
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45911461114883423,
      "learning_rate": 0.0003259566922913577,
      "loss": 1.6455,
      "step": 42599
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47734689712524414,
      "learning_rate": 0.0003259462793554557,
      "loss": 1.6381,
      "step": 42600
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4898107349872589,
      "learning_rate": 0.00032593586638805864,
      "loss": 1.6269,
      "step": 42601
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46383172273635864,
      "learning_rate": 0.0003259254533891793,
      "loss": 1.6138,
      "step": 42602
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4601457118988037,
      "learning_rate": 0.0003259150403588303,
      "loss": 1.6049,
      "step": 42603
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48165759444236755,
      "learning_rate": 0.00032590462729702413,
      "loss": 1.6053,
      "step": 42604
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4597820043563843,
      "learning_rate": 0.0003258942142037737,
      "loss": 1.6169,
      "step": 42605
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46334296464920044,
      "learning_rate": 0.0003258838010790914,
      "loss": 1.5638,
      "step": 42606
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.8233363628387451,
      "learning_rate": 0.0003258733879229901,
      "loss": 1.6313,
      "step": 42607
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46925708651542664,
      "learning_rate": 0.0003258629747354823,
      "loss": 1.6062,
      "step": 42608
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4760265350341797,
      "learning_rate": 0.0003258525615165806,
      "loss": 1.6349,
      "step": 42609
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4696764647960663,
      "learning_rate": 0.0003258421482662977,
      "loss": 1.6375,
      "step": 42610
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4697761833667755,
      "learning_rate": 0.00032583173498464623,
      "loss": 1.6162,
      "step": 42611
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46939897537231445,
      "learning_rate": 0.00032582132167163893,
      "loss": 1.6393,
      "step": 42612
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4875088930130005,
      "learning_rate": 0.0003258109083272882,
      "loss": 1.6929,
      "step": 42613
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4651053249835968,
      "learning_rate": 0.00032580049495160694,
      "loss": 1.5109,
      "step": 42614
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4697299599647522,
      "learning_rate": 0.00032579008154460766,
      "loss": 1.6621,
      "step": 42615
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4625306725502014,
      "learning_rate": 0.00032577966810630303,
      "loss": 1.5783,
      "step": 42616
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4657859802246094,
      "learning_rate": 0.0003257692546367057,
      "loss": 1.612,
      "step": 42617
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4714628756046295,
      "learning_rate": 0.0003257588411358283,
      "loss": 1.6675,
      "step": 42618
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48466765880584717,
      "learning_rate": 0.00032574842760368336,
      "loss": 1.631,
      "step": 42619
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4548625648021698,
      "learning_rate": 0.0003257380140402837,
      "loss": 1.5801,
      "step": 42620
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46208569407463074,
      "learning_rate": 0.00032572760044564193,
      "loss": 1.6339,
      "step": 42621
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4746941328048706,
      "learning_rate": 0.0003257171868197706,
      "loss": 1.6089,
      "step": 42622
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4600863456726074,
      "learning_rate": 0.0003257067731626824,
      "loss": 1.56,
      "step": 42623
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.454044371843338,
      "learning_rate": 0.0003256963594743899,
      "loss": 1.615,
      "step": 42624
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.455759197473526,
      "learning_rate": 0.00032568594575490585,
      "loss": 1.5378,
      "step": 42625
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.471428781747818,
      "learning_rate": 0.00032567553200424284,
      "loss": 1.6503,
      "step": 42626
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4602915644645691,
      "learning_rate": 0.0003256651182224135,
      "loss": 1.5912,
      "step": 42627
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45757144689559937,
      "learning_rate": 0.0003256547044094306,
      "loss": 1.5903,
      "step": 42628
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47795572876930237,
      "learning_rate": 0.0003256442905653065,
      "loss": 1.5775,
      "step": 42629
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4752628803253174,
      "learning_rate": 0.0003256338766900542,
      "loss": 1.5622,
      "step": 42630
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4703464210033417,
      "learning_rate": 0.00032562346278368603,
      "loss": 1.5802,
      "step": 42631
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47955161333084106,
      "learning_rate": 0.0003256130488462147,
      "loss": 1.6705,
      "step": 42632
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4583972692489624,
      "learning_rate": 0.00032560263487765303,
      "loss": 1.6128,
      "step": 42633
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48156067728996277,
      "learning_rate": 0.0003255922208780134,
      "loss": 1.5852,
      "step": 42634
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4650173485279083,
      "learning_rate": 0.0003255818068473087,
      "loss": 1.5684,
      "step": 42635
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4765276610851288,
      "learning_rate": 0.0003255713927855514,
      "loss": 1.546,
      "step": 42636
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46669986844062805,
      "learning_rate": 0.0003255609786927542,
      "loss": 1.6434,
      "step": 42637
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4579456150531769,
      "learning_rate": 0.00032555056456892977,
      "loss": 1.612,
      "step": 42638
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.49410220980644226,
      "learning_rate": 0.00032554015041409066,
      "loss": 1.7171,
      "step": 42639
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45527195930480957,
      "learning_rate": 0.0003255297362282497,
      "loss": 1.5963,
      "step": 42640
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47572195529937744,
      "learning_rate": 0.00032551932201141924,
      "loss": 1.6381,
      "step": 42641
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4670884609222412,
      "learning_rate": 0.0003255089077636122,
      "loss": 1.5814,
      "step": 42642
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4660201966762543,
      "learning_rate": 0.000325498493484841,
      "loss": 1.659,
      "step": 42643
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4510650038719177,
      "learning_rate": 0.00032548807917511847,
      "loss": 1.5363,
      "step": 42644
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4651924669742584,
      "learning_rate": 0.0003254776648344571,
      "loss": 1.6669,
      "step": 42645
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46389997005462646,
      "learning_rate": 0.00032546725046286965,
      "loss": 1.6683,
      "step": 42646
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4884639084339142,
      "learning_rate": 0.00032545683606036873,
      "loss": 1.6324,
      "step": 42647
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4770581126213074,
      "learning_rate": 0.00032544642162696697,
      "loss": 1.6185,
      "step": 42648
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46657606959342957,
      "learning_rate": 0.00032543600716267694,
      "loss": 1.6342,
      "step": 42649
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48126694560050964,
      "learning_rate": 0.0003254255926675113,
      "loss": 1.5749,
      "step": 42650
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5011509656906128,
      "learning_rate": 0.00032541517814148286,
      "loss": 1.6395,
      "step": 42651
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47835299372673035,
      "learning_rate": 0.0003254047635846041,
      "loss": 1.7093,
      "step": 42652
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47861507534980774,
      "learning_rate": 0.0003253943489968877,
      "loss": 1.6361,
      "step": 42653
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4721511900424957,
      "learning_rate": 0.0003253839343783463,
      "loss": 1.5691,
      "step": 42654
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48724982142448425,
      "learning_rate": 0.0003253735197289925,
      "loss": 1.5948,
      "step": 42655
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46881210803985596,
      "learning_rate": 0.00032536310504883905,
      "loss": 1.603,
      "step": 42656
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4653223156929016,
      "learning_rate": 0.00032535269033789844,
      "loss": 1.5528,
      "step": 42657
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4723092317581177,
      "learning_rate": 0.0003253422755961835,
      "loss": 1.6696,
      "step": 42658
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48144665360450745,
      "learning_rate": 0.00032533186082370663,
      "loss": 1.5247,
      "step": 42659
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47654348611831665,
      "learning_rate": 0.0003253214460204808,
      "loss": 1.5898,
      "step": 42660
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4804039001464844,
      "learning_rate": 0.00032531103118651827,
      "loss": 1.6072,
      "step": 42661
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45285916328430176,
      "learning_rate": 0.0003253006163218321,
      "loss": 1.5706,
      "step": 42662
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4680868685245514,
      "learning_rate": 0.00032529020142643456,
      "loss": 1.5842,
      "step": 42663
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4609280824661255,
      "learning_rate": 0.0003252797865003384,
      "loss": 1.6088,
      "step": 42664
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4647485911846161,
      "learning_rate": 0.0003252693715435565,
      "loss": 1.6162,
      "step": 42665
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46236762404441833,
      "learning_rate": 0.00032525895655610113,
      "loss": 1.596,
      "step": 42666
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4680600166320801,
      "learning_rate": 0.0003252485415379852,
      "loss": 1.5629,
      "step": 42667
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4567645192146301,
      "learning_rate": 0.00032523812648922116,
      "loss": 1.562,
      "step": 42668
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4745793342590332,
      "learning_rate": 0.0003252277114098218,
      "loss": 1.6102,
      "step": 42669
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4465518593788147,
      "learning_rate": 0.00032521729629979973,
      "loss": 1.6443,
      "step": 42670
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4645255208015442,
      "learning_rate": 0.0003252068811591676,
      "loss": 1.6564,
      "step": 42671
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4439747631549835,
      "learning_rate": 0.00032519646598793805,
      "loss": 1.6187,
      "step": 42672
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4879271388053894,
      "learning_rate": 0.0003251860507861236,
      "loss": 1.5818,
      "step": 42673
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5133904814720154,
      "learning_rate": 0.0003251756355537371,
      "loss": 1.5807,
      "step": 42674
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45684120059013367,
      "learning_rate": 0.000325165220290791,
      "loss": 1.5977,
      "step": 42675
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4746064245700836,
      "learning_rate": 0.0003251548049972981,
      "loss": 1.5858,
      "step": 42676
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4689777195453644,
      "learning_rate": 0.00032514438967327095,
      "loss": 1.7045,
      "step": 42677
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4691356122493744,
      "learning_rate": 0.0003251339743187222,
      "loss": 1.5861,
      "step": 42678
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47207170724868774,
      "learning_rate": 0.00032512355893366457,
      "loss": 1.6235,
      "step": 42679
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4676434099674225,
      "learning_rate": 0.0003251131435181106,
      "loss": 1.578,
      "step": 42680
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46344733238220215,
      "learning_rate": 0.000325102728072073,
      "loss": 1.6351,
      "step": 42681
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4491077661514282,
      "learning_rate": 0.0003250923125955643,
      "loss": 1.5691,
      "step": 42682
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45717740058898926,
      "learning_rate": 0.00032508189708859727,
      "loss": 1.6381,
      "step": 42683
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4686441719532013,
      "learning_rate": 0.0003250714815511845,
      "loss": 1.5882,
      "step": 42684
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4738234579563141,
      "learning_rate": 0.0003250610659833387,
      "loss": 1.6285,
      "step": 42685
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4766486585140228,
      "learning_rate": 0.00032505065038507247,
      "loss": 1.6169,
      "step": 42686
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4572690725326538,
      "learning_rate": 0.0003250402347563984,
      "loss": 1.6176,
      "step": 42687
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46973079442977905,
      "learning_rate": 0.00032502981909732914,
      "loss": 1.6704,
      "step": 42688
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.497503399848938,
      "learning_rate": 0.00032501940340787743,
      "loss": 1.5943,
      "step": 42689
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45910048484802246,
      "learning_rate": 0.00032500898768805586,
      "loss": 1.6317,
      "step": 42690
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45473718643188477,
      "learning_rate": 0.000324998571937877,
      "loss": 1.533,
      "step": 42691
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4722375273704529,
      "learning_rate": 0.00032498815615735366,
      "loss": 1.5957,
      "step": 42692
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48564016819000244,
      "learning_rate": 0.00032497774034649825,
      "loss": 1.6072,
      "step": 42693
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45534828305244446,
      "learning_rate": 0.0003249673245053236,
      "loss": 1.5271,
      "step": 42694
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4478987455368042,
      "learning_rate": 0.00032495690863384237,
      "loss": 1.5918,
      "step": 42695
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4582085907459259,
      "learning_rate": 0.00032494649273206696,
      "loss": 1.5764,
      "step": 42696
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4911435544490814,
      "learning_rate": 0.00032493607680001037,
      "loss": 1.5816,
      "step": 42697
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4832964539527893,
      "learning_rate": 0.0003249256608376849,
      "loss": 1.6075,
      "step": 42698
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47105738520622253,
      "learning_rate": 0.00032491524484510345,
      "loss": 1.5628,
      "step": 42699
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45701128244400024,
      "learning_rate": 0.00032490482882227854,
      "loss": 1.6557,
      "step": 42700
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4633467197418213,
      "learning_rate": 0.00032489441276922277,
      "loss": 1.5809,
      "step": 42701
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46755900979042053,
      "learning_rate": 0.00032488399668594904,
      "loss": 1.6305,
      "step": 42702
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4962208867073059,
      "learning_rate": 0.00032487358057246954,
      "loss": 1.621,
      "step": 42703
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4965144693851471,
      "learning_rate": 0.00032486316442879734,
      "loss": 1.5536,
      "step": 42704
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46684426069259644,
      "learning_rate": 0.0003248527482549449,
      "loss": 1.649,
      "step": 42705
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46397027373313904,
      "learning_rate": 0.00032484233205092494,
      "loss": 1.6432,
      "step": 42706
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4546037018299103,
      "learning_rate": 0.00032483191581674994,
      "loss": 1.5709,
      "step": 42707
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4815719723701477,
      "learning_rate": 0.00032482149955243266,
      "loss": 1.608,
      "step": 42708
    },
    {
      "epoch": 1.42,
      "grad_norm": 1.0681812763214111,
      "learning_rate": 0.0003248110832579859,
      "loss": 1.6682,
      "step": 42709
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4656403958797455,
      "learning_rate": 0.000324800666933422,
      "loss": 1.6173,
      "step": 42710
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47041934728622437,
      "learning_rate": 0.0003247902505787537,
      "loss": 1.6286,
      "step": 42711
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47670382261276245,
      "learning_rate": 0.0003247798341939938,
      "loss": 1.6128,
      "step": 42712
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4693128764629364,
      "learning_rate": 0.0003247694177791548,
      "loss": 1.5728,
      "step": 42713
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4633764624595642,
      "learning_rate": 0.00032475900133424927,
      "loss": 1.6528,
      "step": 42714
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46563392877578735,
      "learning_rate": 0.00032474858485929015,
      "loss": 1.6247,
      "step": 42715
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4575437605381012,
      "learning_rate": 0.00032473816835428974,
      "loss": 1.6451,
      "step": 42716
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4750451445579529,
      "learning_rate": 0.00032472775181926095,
      "loss": 1.6758,
      "step": 42717
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47528520226478577,
      "learning_rate": 0.00032471733525421624,
      "loss": 1.5849,
      "step": 42718
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47277843952178955,
      "learning_rate": 0.0003247069186591683,
      "loss": 1.6211,
      "step": 42719
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4598897099494934,
      "learning_rate": 0.00032469650203412995,
      "loss": 1.6463,
      "step": 42720
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4476568102836609,
      "learning_rate": 0.0003246860853791135,
      "loss": 1.5672,
      "step": 42721
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47326961159706116,
      "learning_rate": 0.0003246756686941319,
      "loss": 1.5756,
      "step": 42722
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.44286251068115234,
      "learning_rate": 0.00032466525197919757,
      "loss": 1.5431,
      "step": 42723
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46928390860557556,
      "learning_rate": 0.0003246548352343234,
      "loss": 1.623,
      "step": 42724
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4509446322917938,
      "learning_rate": 0.00032464441845952177,
      "loss": 1.5773,
      "step": 42725
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4808647334575653,
      "learning_rate": 0.0003246340016548055,
      "loss": 1.6585,
      "step": 42726
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47049909830093384,
      "learning_rate": 0.00032462358482018724,
      "loss": 1.6423,
      "step": 42727
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5150153636932373,
      "learning_rate": 0.00032461316795567944,
      "loss": 1.6364,
      "step": 42728
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46407753229141235,
      "learning_rate": 0.000324602751061295,
      "loss": 1.6657,
      "step": 42729
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4583817720413208,
      "learning_rate": 0.0003245923341370464,
      "loss": 1.6248,
      "step": 42730
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4735827147960663,
      "learning_rate": 0.00032458191718294635,
      "loss": 1.5946,
      "step": 42731
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46008962392807007,
      "learning_rate": 0.00032457150019900744,
      "loss": 1.564,
      "step": 42732
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4600153863430023,
      "learning_rate": 0.0003245610831852423,
      "loss": 1.5915,
      "step": 42733
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4679245948791504,
      "learning_rate": 0.00032455066614166375,
      "loss": 1.5929,
      "step": 42734
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46404802799224854,
      "learning_rate": 0.0003245402490682842,
      "loss": 1.5929,
      "step": 42735
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48251211643218994,
      "learning_rate": 0.0003245298319651165,
      "loss": 1.6648,
      "step": 42736
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4712100923061371,
      "learning_rate": 0.00032451941483217306,
      "loss": 1.6155,
      "step": 42737
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4778101146221161,
      "learning_rate": 0.0003245089976694668,
      "loss": 1.628,
      "step": 42738
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4776788055896759,
      "learning_rate": 0.0003244985804770101,
      "loss": 1.5973,
      "step": 42739
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47032901644706726,
      "learning_rate": 0.0003244881632548159,
      "loss": 1.6089,
      "step": 42740
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4787237048149109,
      "learning_rate": 0.0003244777460028966,
      "loss": 1.6069,
      "step": 42741
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.469389945268631,
      "learning_rate": 0.0003244673287212649,
      "loss": 1.6304,
      "step": 42742
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4778293967247009,
      "learning_rate": 0.00032445691140993346,
      "loss": 1.6218,
      "step": 42743
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46335068345069885,
      "learning_rate": 0.00032444649406891495,
      "loss": 1.618,
      "step": 42744
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4574885070323944,
      "learning_rate": 0.00032443607669822204,
      "loss": 1.6419,
      "step": 42745
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46546828746795654,
      "learning_rate": 0.0003244256592978672,
      "loss": 1.5953,
      "step": 42746
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46458664536476135,
      "learning_rate": 0.0003244152418678634,
      "loss": 1.6734,
      "step": 42747
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5065507888793945,
      "learning_rate": 0.000324404824408223,
      "loss": 1.5858,
      "step": 42748
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47401970624923706,
      "learning_rate": 0.0003243944069189587,
      "loss": 1.676,
      "step": 42749
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4699564576148987,
      "learning_rate": 0.0003243839894000833,
      "loss": 1.6775,
      "step": 42750
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4815131723880768,
      "learning_rate": 0.0003243735718516092,
      "loss": 1.6624,
      "step": 42751
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4860714077949524,
      "learning_rate": 0.0003243631542735492,
      "loss": 1.5788,
      "step": 42752
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46138104796409607,
      "learning_rate": 0.0003243527366659159,
      "loss": 1.5113,
      "step": 42753
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4750482439994812,
      "learning_rate": 0.0003243423190287221,
      "loss": 1.6194,
      "step": 42754
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47425344586372375,
      "learning_rate": 0.00032433190136198014,
      "loss": 1.5861,
      "step": 42755
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4488013684749603,
      "learning_rate": 0.0003243214836657029,
      "loss": 1.6376,
      "step": 42756
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4698924422264099,
      "learning_rate": 0.00032431106593990304,
      "loss": 1.5787,
      "step": 42757
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4775168001651764,
      "learning_rate": 0.00032430064818459304,
      "loss": 1.6382,
      "step": 42758
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46695083379745483,
      "learning_rate": 0.0003242902303997857,
      "loss": 1.5263,
      "step": 42759
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47389155626296997,
      "learning_rate": 0.0003242798125854936,
      "loss": 1.6322,
      "step": 42760
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46889376640319824,
      "learning_rate": 0.00032426939474172923,
      "loss": 1.6264,
      "step": 42761
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46812400221824646,
      "learning_rate": 0.0003242589768685056,
      "loss": 1.6187,
      "step": 42762
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4667137563228607,
      "learning_rate": 0.00032424855896583495,
      "loss": 1.6686,
      "step": 42763
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4615740478038788,
      "learning_rate": 0.0003242381410337303,
      "loss": 1.6633,
      "step": 42764
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4606185257434845,
      "learning_rate": 0.00032422772307220407,
      "loss": 1.6409,
      "step": 42765
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48513665795326233,
      "learning_rate": 0.0003242173050812689,
      "loss": 1.6872,
      "step": 42766
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47642773389816284,
      "learning_rate": 0.0003242068870609375,
      "loss": 1.6131,
      "step": 42767
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47210925817489624,
      "learning_rate": 0.00032419646901122256,
      "loss": 1.5488,
      "step": 42768
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45190107822418213,
      "learning_rate": 0.00032418605093213656,
      "loss": 1.6302,
      "step": 42769
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4766227900981903,
      "learning_rate": 0.00032417563282369243,
      "loss": 1.6427,
      "step": 42770
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47501882910728455,
      "learning_rate": 0.00032416521468590253,
      "loss": 1.6101,
      "step": 42771
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48235684633255005,
      "learning_rate": 0.00032415479651877964,
      "loss": 1.5763,
      "step": 42772
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46490320563316345,
      "learning_rate": 0.0003241443783223364,
      "loss": 1.5918,
      "step": 42773
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4862099885940552,
      "learning_rate": 0.00032413396009658535,
      "loss": 1.6114,
      "step": 42774
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.48776471614837646,
      "learning_rate": 0.00032412354184153936,
      "loss": 1.6087,
      "step": 42775
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.477431058883667,
      "learning_rate": 0.00032411312355721085,
      "loss": 1.6316,
      "step": 42776
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4458712637424469,
      "learning_rate": 0.00032410270524361264,
      "loss": 1.6194,
      "step": 42777
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45358338952064514,
      "learning_rate": 0.0003240922869007572,
      "loss": 1.6538,
      "step": 42778
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47111448645591736,
      "learning_rate": 0.0003240818685286574,
      "loss": 1.6469,
      "step": 42779
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5080720782279968,
      "learning_rate": 0.00032407145012732565,
      "loss": 1.7297,
      "step": 42780
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47085076570510864,
      "learning_rate": 0.0003240610316967747,
      "loss": 1.6566,
      "step": 42781
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45799893140792847,
      "learning_rate": 0.00032405061323701736,
      "loss": 1.636,
      "step": 42782
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4788390100002289,
      "learning_rate": 0.0003240401947480659,
      "loss": 1.619,
      "step": 42783
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47394800186157227,
      "learning_rate": 0.0003240297762299334,
      "loss": 1.5485,
      "step": 42784
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4808036684989929,
      "learning_rate": 0.0003240193576826321,
      "loss": 1.5864,
      "step": 42785
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47537946701049805,
      "learning_rate": 0.000324008939106175,
      "loss": 1.6284,
      "step": 42786
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4776647090911865,
      "learning_rate": 0.0003239985205005745,
      "loss": 1.6748,
      "step": 42787
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4567958116531372,
      "learning_rate": 0.00032398810186584333,
      "loss": 1.51,
      "step": 42788
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47136765718460083,
      "learning_rate": 0.0003239776832019942,
      "loss": 1.6112,
      "step": 42789
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4907591938972473,
      "learning_rate": 0.0003239672645090396,
      "loss": 1.6491,
      "step": 42790
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47038406133651733,
      "learning_rate": 0.00032395684578699234,
      "loss": 1.6171,
      "step": 42791
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5104506611824036,
      "learning_rate": 0.000323946427035865,
      "loss": 1.7119,
      "step": 42792
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4671880304813385,
      "learning_rate": 0.00032393600825567016,
      "loss": 1.6075,
      "step": 42793
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4802710711956024,
      "learning_rate": 0.0003239255894464206,
      "loss": 1.6861,
      "step": 42794
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46850720047950745,
      "learning_rate": 0.00032391517060812884,
      "loss": 1.5303,
      "step": 42795
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46276524662971497,
      "learning_rate": 0.0003239047517408077,
      "loss": 1.5736,
      "step": 42796
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47328948974609375,
      "learning_rate": 0.0003238943328444696,
      "loss": 1.5989,
      "step": 42797
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4656762182712555,
      "learning_rate": 0.00032388391391912735,
      "loss": 1.6226,
      "step": 42798
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45096543431282043,
      "learning_rate": 0.0003238734949647935,
      "loss": 1.5654,
      "step": 42799
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.469501256942749,
      "learning_rate": 0.0003238630759814808,
      "loss": 1.6296,
      "step": 42800
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4752878248691559,
      "learning_rate": 0.0003238526569692018,
      "loss": 1.5653,
      "step": 42801
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.8060723543167114,
      "learning_rate": 0.0003238422379279693,
      "loss": 1.6121,
      "step": 42802
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45702892541885376,
      "learning_rate": 0.0003238318188577957,
      "loss": 1.5862,
      "step": 42803
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4710259437561035,
      "learning_rate": 0.00032382139975869383,
      "loss": 1.6512,
      "step": 42804
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4687657356262207,
      "learning_rate": 0.0003238109806306763,
      "loss": 1.6588,
      "step": 42805
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4640360474586487,
      "learning_rate": 0.0003238005614737557,
      "loss": 1.62,
      "step": 42806
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46507567167282104,
      "learning_rate": 0.00032379014228794484,
      "loss": 1.6158,
      "step": 42807
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45879581570625305,
      "learning_rate": 0.00032377972307325606,
      "loss": 1.5436,
      "step": 42808
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4831841289997101,
      "learning_rate": 0.0003237693038297024,
      "loss": 1.5674,
      "step": 42809
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46116507053375244,
      "learning_rate": 0.0003237588845572962,
      "loss": 1.6153,
      "step": 42810
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46246668696403503,
      "learning_rate": 0.0003237484652560502,
      "loss": 1.5659,
      "step": 42811
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4822944700717926,
      "learning_rate": 0.0003237380459259772,
      "loss": 1.5674,
      "step": 42812
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47715312242507935,
      "learning_rate": 0.00032372762656708955,
      "loss": 1.6062,
      "step": 42813
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4563868045806885,
      "learning_rate": 0.00032371720717940016,
      "loss": 1.5241,
      "step": 42814
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4624462127685547,
      "learning_rate": 0.0003237067877629215,
      "loss": 1.6136,
      "step": 42815
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4856806695461273,
      "learning_rate": 0.00032369636831766635,
      "loss": 1.628,
      "step": 42816
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4758673310279846,
      "learning_rate": 0.00032368594884364725,
      "loss": 1.5693,
      "step": 42817
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46552354097366333,
      "learning_rate": 0.00032367552934087695,
      "loss": 1.6678,
      "step": 42818
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4820108115673065,
      "learning_rate": 0.0003236651098093681,
      "loss": 1.6694,
      "step": 42819
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4816761314868927,
      "learning_rate": 0.0003236546902491331,
      "loss": 1.6163,
      "step": 42820
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4709617793560028,
      "learning_rate": 0.0003236442706601849,
      "loss": 1.6159,
      "step": 42821
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4581049084663391,
      "learning_rate": 0.0003236338510425361,
      "loss": 1.5469,
      "step": 42822
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46985965967178345,
      "learning_rate": 0.00032362343139619924,
      "loss": 1.6417,
      "step": 42823
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4662877321243286,
      "learning_rate": 0.00032361301172118695,
      "loss": 1.567,
      "step": 42824
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5008476972579956,
      "learning_rate": 0.000323602592017512,
      "loss": 1.6279,
      "step": 42825
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.9114948511123657,
      "learning_rate": 0.000323592172285187,
      "loss": 1.7317,
      "step": 42826
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47789424657821655,
      "learning_rate": 0.0003235817525242246,
      "loss": 1.528,
      "step": 42827
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47103482484817505,
      "learning_rate": 0.00032357133273463735,
      "loss": 1.5499,
      "step": 42828
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4673590660095215,
      "learning_rate": 0.000323560912916438,
      "loss": 1.583,
      "step": 42829
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.47528478503227234,
      "learning_rate": 0.00032355049306963924,
      "loss": 1.602,
      "step": 42830
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.45243731141090393,
      "learning_rate": 0.0003235400731942536,
      "loss": 1.6152,
      "step": 42831
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4889180660247803,
      "learning_rate": 0.00032352965329029374,
      "loss": 1.6139,
      "step": 42832
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4648379683494568,
      "learning_rate": 0.0003235192333577723,
      "loss": 1.6009,
      "step": 42833
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4633588492870331,
      "learning_rate": 0.00032350881339670217,
      "loss": 1.5307,
      "step": 42834
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4668848216533661,
      "learning_rate": 0.00032349839340709566,
      "loss": 1.6344,
      "step": 42835
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4805487394332886,
      "learning_rate": 0.0003234879733889656,
      "loss": 1.6433,
      "step": 42836
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4778319001197815,
      "learning_rate": 0.00032347755334232467,
      "loss": 1.5813,
      "step": 42837
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4814906120300293,
      "learning_rate": 0.00032346713326718534,
      "loss": 1.5149,
      "step": 42838
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4594850242137909,
      "learning_rate": 0.00032345671316356045,
      "loss": 1.5839,
      "step": 42839
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4781458377838135,
      "learning_rate": 0.0003234462930314624,
      "loss": 1.7316,
      "step": 42840
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4838261306285858,
      "learning_rate": 0.0003234358728709042,
      "loss": 1.5779,
      "step": 42841
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46544477343559265,
      "learning_rate": 0.00032342545268189817,
      "loss": 1.6125,
      "step": 42842
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44926825165748596,
      "learning_rate": 0.0003234150324644572,
      "loss": 1.6211,
      "step": 42843
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45282357931137085,
      "learning_rate": 0.00032340461221859386,
      "loss": 1.597,
      "step": 42844
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45929497480392456,
      "learning_rate": 0.0003233941919443206,
      "loss": 1.5781,
      "step": 42845
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47186410427093506,
      "learning_rate": 0.0003233837716416504,
      "loss": 1.5408,
      "step": 42846
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4622303545475006,
      "learning_rate": 0.00032337335131059564,
      "loss": 1.5495,
      "step": 42847
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4846750497817993,
      "learning_rate": 0.00032336293095116907,
      "loss": 1.614,
      "step": 42848
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47326958179473877,
      "learning_rate": 0.00032335251056338346,
      "loss": 1.6347,
      "step": 42849
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4564586877822876,
      "learning_rate": 0.0003233420901472512,
      "loss": 1.5476,
      "step": 42850
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4957219362258911,
      "learning_rate": 0.00032333166970278525,
      "loss": 1.5972,
      "step": 42851
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4687993824481964,
      "learning_rate": 0.00032332124922999797,
      "loss": 1.5788,
      "step": 42852
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48926466703414917,
      "learning_rate": 0.0003233108287289021,
      "loss": 1.6184,
      "step": 42853
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4761037528514862,
      "learning_rate": 0.0003233004081995104,
      "loss": 1.6239,
      "step": 42854
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4882853925228119,
      "learning_rate": 0.0003232899876418354,
      "loss": 1.6171,
      "step": 42855
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4712364077568054,
      "learning_rate": 0.00032327956705588976,
      "loss": 1.6796,
      "step": 42856
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47005295753479004,
      "learning_rate": 0.00032326914644168625,
      "loss": 1.6942,
      "step": 42857
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4595007002353668,
      "learning_rate": 0.0003232587257992374,
      "loss": 1.6035,
      "step": 42858
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47778773307800293,
      "learning_rate": 0.0003232483051285558,
      "loss": 1.7013,
      "step": 42859
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4785589277744293,
      "learning_rate": 0.0003232378844296542,
      "loss": 1.6277,
      "step": 42860
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.8412380814552307,
      "learning_rate": 0.00032322746370254526,
      "loss": 1.658,
      "step": 42861
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4841550588607788,
      "learning_rate": 0.0003232170429472417,
      "loss": 1.5561,
      "step": 42862
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47277894616127014,
      "learning_rate": 0.0003232066221637559,
      "loss": 1.6271,
      "step": 42863
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.828528642654419,
      "learning_rate": 0.0003231962013521008,
      "loss": 1.6733,
      "step": 42864
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.7089248895645142,
      "learning_rate": 0.0003231857805122889,
      "loss": 1.5982,
      "step": 42865
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4554559588432312,
      "learning_rate": 0.00032317535964433285,
      "loss": 1.6176,
      "step": 42866
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5585001707077026,
      "learning_rate": 0.0003231649387482454,
      "loss": 1.62,
      "step": 42867
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.468330442905426,
      "learning_rate": 0.00032315451782403894,
      "loss": 1.6395,
      "step": 42868
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4741469919681549,
      "learning_rate": 0.00032314409687172655,
      "loss": 1.6886,
      "step": 42869
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4745542109012604,
      "learning_rate": 0.0003231336758913204,
      "loss": 1.5729,
      "step": 42870
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4743598997592926,
      "learning_rate": 0.0003231232548828336,
      "loss": 1.6779,
      "step": 42871
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44886836409568787,
      "learning_rate": 0.00032311283384627845,
      "loss": 1.6115,
      "step": 42872
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48062863945961,
      "learning_rate": 0.00032310241278166776,
      "loss": 1.659,
      "step": 42873
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44355547428131104,
      "learning_rate": 0.00032309199168901423,
      "loss": 1.6254,
      "step": 42874
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48404520750045776,
      "learning_rate": 0.00032308157056833023,
      "loss": 1.6675,
      "step": 42875
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.477694034576416,
      "learning_rate": 0.0003230711494196287,
      "loss": 1.6542,
      "step": 42876
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47166693210601807,
      "learning_rate": 0.0003230607282429222,
      "loss": 1.529,
      "step": 42877
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4844721257686615,
      "learning_rate": 0.0003230503070382234,
      "loss": 1.5928,
      "step": 42878
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4809568226337433,
      "learning_rate": 0.00032303988580554486,
      "loss": 1.6661,
      "step": 42879
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46686315536499023,
      "learning_rate": 0.0003230294645448993,
      "loss": 1.5944,
      "step": 42880
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4772260785102844,
      "learning_rate": 0.0003230190432562995,
      "loss": 1.5312,
      "step": 42881
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46337226033210754,
      "learning_rate": 0.00032300862193975784,
      "loss": 1.6375,
      "step": 42882
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4757094979286194,
      "learning_rate": 0.00032299820059528714,
      "loss": 1.6586,
      "step": 42883
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4833507835865021,
      "learning_rate": 0.00032298777922289997,
      "loss": 1.6035,
      "step": 42884
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4638606309890747,
      "learning_rate": 0.000322977357822609,
      "loss": 1.5543,
      "step": 42885
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4480815827846527,
      "learning_rate": 0.000322966936394427,
      "loss": 1.6054,
      "step": 42886
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45902612805366516,
      "learning_rate": 0.0003229565149383666,
      "loss": 1.6529,
      "step": 42887
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4808822572231293,
      "learning_rate": 0.0003229460934544402,
      "loss": 1.5675,
      "step": 42888
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44874897599220276,
      "learning_rate": 0.00032293567194266064,
      "loss": 1.6379,
      "step": 42889
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.450729638338089,
      "learning_rate": 0.0003229252504030406,
      "loss": 1.5157,
      "step": 42890
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4721319079399109,
      "learning_rate": 0.00032291482883559265,
      "loss": 1.5838,
      "step": 42891
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4868704080581665,
      "learning_rate": 0.0003229044072403296,
      "loss": 1.634,
      "step": 42892
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4711973965167999,
      "learning_rate": 0.00032289398561726374,
      "loss": 1.6542,
      "step": 42893
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4688311219215393,
      "learning_rate": 0.0003228835639664082,
      "loss": 1.5923,
      "step": 42894
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44998762011528015,
      "learning_rate": 0.00032287314228777515,
      "loss": 1.5432,
      "step": 42895
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4968924820423126,
      "learning_rate": 0.0003228627205813777,
      "loss": 1.6612,
      "step": 42896
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46645084023475647,
      "learning_rate": 0.00032285229884722815,
      "loss": 1.5201,
      "step": 42897
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49328160285949707,
      "learning_rate": 0.0003228418770853393,
      "loss": 1.6869,
      "step": 42898
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47446098923683167,
      "learning_rate": 0.00032283145529572385,
      "loss": 1.5751,
      "step": 42899
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4651794135570526,
      "learning_rate": 0.0003228210334783942,
      "loss": 1.6356,
      "step": 42900
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4597589671611786,
      "learning_rate": 0.00032281061163336335,
      "loss": 1.6244,
      "step": 42901
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47155481576919556,
      "learning_rate": 0.00032280018976064365,
      "loss": 1.6549,
      "step": 42902
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47099852561950684,
      "learning_rate": 0.00032278976786024796,
      "loss": 1.6777,
      "step": 42903
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46685129404067993,
      "learning_rate": 0.0003227793459321888,
      "loss": 1.6539,
      "step": 42904
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48975205421447754,
      "learning_rate": 0.0003227689239764789,
      "loss": 1.5594,
      "step": 42905
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4570048749446869,
      "learning_rate": 0.00032275850199313096,
      "loss": 1.5919,
      "step": 42906
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4935002326965332,
      "learning_rate": 0.00032274807998215743,
      "loss": 1.5884,
      "step": 42907
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45215243101119995,
      "learning_rate": 0.0003227376579435711,
      "loss": 1.5518,
      "step": 42908
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4848719835281372,
      "learning_rate": 0.00032272723587738466,
      "loss": 1.6169,
      "step": 42909
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4720243513584137,
      "learning_rate": 0.00032271681378361067,
      "loss": 1.6418,
      "step": 42910
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46322640776634216,
      "learning_rate": 0.0003227063916622619,
      "loss": 1.5963,
      "step": 42911
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4783245623111725,
      "learning_rate": 0.00032269596951335075,
      "loss": 1.5769,
      "step": 42912
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.455740362405777,
      "learning_rate": 0.0003226855473368902,
      "loss": 1.6006,
      "step": 42913
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47261959314346313,
      "learning_rate": 0.0003226751251328926,
      "loss": 1.5481,
      "step": 42914
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4674845039844513,
      "learning_rate": 0.0003226647029013708,
      "loss": 1.6437,
      "step": 42915
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45955604314804077,
      "learning_rate": 0.0003226542806423374,
      "loss": 1.5705,
      "step": 42916
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4691873788833618,
      "learning_rate": 0.00032264385835580506,
      "loss": 1.5607,
      "step": 42917
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47709158062934875,
      "learning_rate": 0.00032263343604178635,
      "loss": 1.6273,
      "step": 42918
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4854888617992401,
      "learning_rate": 0.00032262301370029406,
      "loss": 1.6123,
      "step": 42919
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46694937348365784,
      "learning_rate": 0.0003226125913313407,
      "loss": 1.659,
      "step": 42920
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4760964810848236,
      "learning_rate": 0.000322602168934939,
      "loss": 1.5832,
      "step": 42921
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4762322008609772,
      "learning_rate": 0.00032259174651110163,
      "loss": 1.5957,
      "step": 42922
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4621114432811737,
      "learning_rate": 0.0003225813240598412,
      "loss": 1.6143,
      "step": 42923
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45601579546928406,
      "learning_rate": 0.0003225709015811704,
      "loss": 1.6937,
      "step": 42924
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4696902334690094,
      "learning_rate": 0.00032256047907510175,
      "loss": 1.6295,
      "step": 42925
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4749583899974823,
      "learning_rate": 0.00032255005654164805,
      "loss": 1.5918,
      "step": 42926
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49513283371925354,
      "learning_rate": 0.00032253963398082194,
      "loss": 1.6287,
      "step": 42927
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4595646858215332,
      "learning_rate": 0.00032252921139263604,
      "loss": 1.5915,
      "step": 42928
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49005454778671265,
      "learning_rate": 0.000322518788777103,
      "loss": 1.6541,
      "step": 42929
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4452191889286041,
      "learning_rate": 0.00032250836613423534,
      "loss": 1.6608,
      "step": 42930
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.465526819229126,
      "learning_rate": 0.00032249794346404597,
      "loss": 1.6559,
      "step": 42931
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46414119005203247,
      "learning_rate": 0.0003224875207665473,
      "loss": 1.5653,
      "step": 42932
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45338141918182373,
      "learning_rate": 0.0003224770980417523,
      "loss": 1.5556,
      "step": 42933
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4881676137447357,
      "learning_rate": 0.0003224666752896732,
      "loss": 1.5478,
      "step": 42934
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4749418795108795,
      "learning_rate": 0.0003224562525103229,
      "loss": 1.5723,
      "step": 42935
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49494490027427673,
      "learning_rate": 0.00032244582970371413,
      "loss": 1.6902,
      "step": 42936
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.463134229183197,
      "learning_rate": 0.00032243540686985935,
      "loss": 1.6379,
      "step": 42937
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47095987200737,
      "learning_rate": 0.0003224249840087713,
      "loss": 1.6837,
      "step": 42938
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49843981862068176,
      "learning_rate": 0.0003224145611204627,
      "loss": 1.6011,
      "step": 42939
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5037120580673218,
      "learning_rate": 0.000322404138204946,
      "loss": 1.6907,
      "step": 42940
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47524985671043396,
      "learning_rate": 0.000322393715262234,
      "loss": 1.6803,
      "step": 42941
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4498541057109833,
      "learning_rate": 0.0003223832922923394,
      "loss": 1.592,
      "step": 42942
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.472287118434906,
      "learning_rate": 0.00032237286929527484,
      "loss": 1.6337,
      "step": 42943
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4810030460357666,
      "learning_rate": 0.00032236244627105275,
      "loss": 1.6075,
      "step": 42944
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4527454674243927,
      "learning_rate": 0.00032235202321968603,
      "loss": 1.6279,
      "step": 42945
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4881596565246582,
      "learning_rate": 0.0003223416001411872,
      "loss": 1.7029,
      "step": 42946
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4650394320487976,
      "learning_rate": 0.000322331177035569,
      "loss": 1.6104,
      "step": 42947
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4713040590286255,
      "learning_rate": 0.000322320753902844,
      "loss": 1.5848,
      "step": 42948
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47872769832611084,
      "learning_rate": 0.000322310330743025,
      "loss": 1.6538,
      "step": 42949
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46560558676719666,
      "learning_rate": 0.00032229990755612434,
      "loss": 1.6445,
      "step": 42950
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47180235385894775,
      "learning_rate": 0.0003222894843421551,
      "loss": 1.6092,
      "step": 42951
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47147873044013977,
      "learning_rate": 0.0003222790611011296,
      "loss": 1.5748,
      "step": 42952
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4737532436847687,
      "learning_rate": 0.00032226863783306063,
      "loss": 1.7123,
      "step": 42953
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4837763011455536,
      "learning_rate": 0.0003222582145379609,
      "loss": 1.6415,
      "step": 42954
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4617776572704315,
      "learning_rate": 0.0003222477912158428,
      "loss": 1.6547,
      "step": 42955
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48007941246032715,
      "learning_rate": 0.00032223736786671925,
      "loss": 1.6557,
      "step": 42956
    },
    {
      "epoch": 1.43,
      "grad_norm": 1.5768195390701294,
      "learning_rate": 0.00032222694449060275,
      "loss": 1.6495,
      "step": 42957
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4876033365726471,
      "learning_rate": 0.0003222165210875061,
      "loss": 1.613,
      "step": 42958
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48424962162971497,
      "learning_rate": 0.0003222060976574418,
      "loss": 1.593,
      "step": 42959
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4734644889831543,
      "learning_rate": 0.00032219567420042265,
      "loss": 1.6085,
      "step": 42960
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4723859429359436,
      "learning_rate": 0.0003221852507164612,
      "loss": 1.6617,
      "step": 42961
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4679037034511566,
      "learning_rate": 0.00032217482720557004,
      "loss": 1.6085,
      "step": 42962
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4734664857387543,
      "learning_rate": 0.00032216440366776203,
      "loss": 1.6349,
      "step": 42963
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49044671654701233,
      "learning_rate": 0.00032215398010304965,
      "loss": 1.6056,
      "step": 42964
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46383142471313477,
      "learning_rate": 0.0003221435565114456,
      "loss": 1.6428,
      "step": 42965
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4882071912288666,
      "learning_rate": 0.00032213313289296253,
      "loss": 1.5676,
      "step": 42966
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4662199318408966,
      "learning_rate": 0.00032212270924761305,
      "loss": 1.6188,
      "step": 42967
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46803396940231323,
      "learning_rate": 0.00032211228557540994,
      "loss": 1.5911,
      "step": 42968
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.468231737613678,
      "learning_rate": 0.0003221018618763657,
      "loss": 1.581,
      "step": 42969
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4723060429096222,
      "learning_rate": 0.00032209143815049314,
      "loss": 1.538,
      "step": 42970
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4786529839038849,
      "learning_rate": 0.0003220810143978048,
      "loss": 1.623,
      "step": 42971
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4727092981338501,
      "learning_rate": 0.00032207059061831336,
      "loss": 1.593,
      "step": 42972
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46610742807388306,
      "learning_rate": 0.0003220601668120314,
      "loss": 1.637,
      "step": 42973
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47133535146713257,
      "learning_rate": 0.00032204974297897173,
      "loss": 1.6388,
      "step": 42974
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48201677203178406,
      "learning_rate": 0.0003220393191191469,
      "loss": 1.5777,
      "step": 42975
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4745961129665375,
      "learning_rate": 0.0003220288952325696,
      "loss": 1.587,
      "step": 42976
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4667770564556122,
      "learning_rate": 0.00032201847131925243,
      "loss": 1.6812,
      "step": 42977
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45499250292778015,
      "learning_rate": 0.00032200804737920807,
      "loss": 1.6438,
      "step": 42978
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46543025970458984,
      "learning_rate": 0.00032199762341244935,
      "loss": 1.5857,
      "step": 42979
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46140462160110474,
      "learning_rate": 0.0003219871994189885,
      "loss": 1.6479,
      "step": 42980
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4512118399143219,
      "learning_rate": 0.0003219767753988386,
      "loss": 1.5244,
      "step": 42981
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46714138984680176,
      "learning_rate": 0.0003219663513520121,
      "loss": 1.6002,
      "step": 42982
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4611145555973053,
      "learning_rate": 0.0003219559272785216,
      "loss": 1.6224,
      "step": 42983
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46494510769844055,
      "learning_rate": 0.00032194550317838,
      "loss": 1.5906,
      "step": 42984
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4797329604625702,
      "learning_rate": 0.0003219350790515996,
      "loss": 1.642,
      "step": 42985
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49135273694992065,
      "learning_rate": 0.0003219246548981934,
      "loss": 1.6307,
      "step": 42986
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47204601764678955,
      "learning_rate": 0.0003219142307181738,
      "loss": 1.6249,
      "step": 42987
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47644394636154175,
      "learning_rate": 0.0003219038065115537,
      "loss": 1.6803,
      "step": 42988
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4534602165222168,
      "learning_rate": 0.00032189338227834544,
      "loss": 1.5965,
      "step": 42989
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46042507886886597,
      "learning_rate": 0.00032188295801856195,
      "loss": 1.6223,
      "step": 42990
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4932790696620941,
      "learning_rate": 0.0003218725337322157,
      "loss": 1.5978,
      "step": 42991
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45696187019348145,
      "learning_rate": 0.0003218621094193194,
      "loss": 1.6656,
      "step": 42992
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4577431380748749,
      "learning_rate": 0.0003218516850798858,
      "loss": 1.6615,
      "step": 42993
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45944181084632874,
      "learning_rate": 0.0003218412607139275,
      "loss": 1.6642,
      "step": 42994
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4865734875202179,
      "learning_rate": 0.00032183083632145697,
      "loss": 1.6035,
      "step": 42995
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48945924639701843,
      "learning_rate": 0.00032182041190248717,
      "loss": 1.587,
      "step": 42996
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46366000175476074,
      "learning_rate": 0.0003218099874570305,
      "loss": 1.6686,
      "step": 42997
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4621870517730713,
      "learning_rate": 0.00032179956298509984,
      "loss": 1.6939,
      "step": 42998
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46590960025787354,
      "learning_rate": 0.0003217891384867077,
      "loss": 1.674,
      "step": 42999
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46638354659080505,
      "learning_rate": 0.00032177871396186667,
      "loss": 1.6358,
      "step": 43000
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4648483693599701,
      "learning_rate": 0.0003217682894105895,
      "loss": 1.7418,
      "step": 43001
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47634682059288025,
      "learning_rate": 0.00032175786483288883,
      "loss": 1.6597,
      "step": 43002
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4851253032684326,
      "learning_rate": 0.00032174744022877736,
      "loss": 1.6413,
      "step": 43003
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4773344397544861,
      "learning_rate": 0.00032173701559826774,
      "loss": 1.6891,
      "step": 43004
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46594056487083435,
      "learning_rate": 0.00032172659094137254,
      "loss": 1.5447,
      "step": 43005
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.463296502828598,
      "learning_rate": 0.00032171616625810445,
      "loss": 1.5678,
      "step": 43006
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46147817373275757,
      "learning_rate": 0.00032170574154847615,
      "loss": 1.6139,
      "step": 43007
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49453508853912354,
      "learning_rate": 0.00032169531681250027,
      "loss": 1.7008,
      "step": 43008
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46604853868484497,
      "learning_rate": 0.0003216848920501895,
      "loss": 1.6075,
      "step": 43009
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49648794531822205,
      "learning_rate": 0.0003216744672615564,
      "loss": 1.6598,
      "step": 43010
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4742583632469177,
      "learning_rate": 0.00032166404244661376,
      "loss": 1.5397,
      "step": 43011
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49128562211990356,
      "learning_rate": 0.0003216536176053741,
      "loss": 1.5831,
      "step": 43012
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4762599468231201,
      "learning_rate": 0.00032164319273785024,
      "loss": 1.6062,
      "step": 43013
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4737989604473114,
      "learning_rate": 0.0003216327678440546,
      "loss": 1.5606,
      "step": 43014
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47034767270088196,
      "learning_rate": 0.00032162234292400005,
      "loss": 1.5622,
      "step": 43015
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4757186770439148,
      "learning_rate": 0.0003216119179776992,
      "loss": 1.595,
      "step": 43016
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46367987990379333,
      "learning_rate": 0.00032160149300516455,
      "loss": 1.6692,
      "step": 43017
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.461251437664032,
      "learning_rate": 0.00032159106800640897,
      "loss": 1.6118,
      "step": 43018
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.479729026556015,
      "learning_rate": 0.00032158064298144496,
      "loss": 1.5729,
      "step": 43019
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46626412868499756,
      "learning_rate": 0.0003215702179302853,
      "loss": 1.5764,
      "step": 43020
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.466533362865448,
      "learning_rate": 0.0003215597928529425,
      "loss": 1.6036,
      "step": 43021
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.466036856174469,
      "learning_rate": 0.00032154936774942924,
      "loss": 1.7261,
      "step": 43022
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46800726652145386,
      "learning_rate": 0.00032153894261975835,
      "loss": 1.6086,
      "step": 43023
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47662919759750366,
      "learning_rate": 0.0003215285174639422,
      "loss": 1.5616,
      "step": 43024
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.473391592502594,
      "learning_rate": 0.00032151809228199375,
      "loss": 1.6052,
      "step": 43025
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4643060564994812,
      "learning_rate": 0.00032150766707392546,
      "loss": 1.5169,
      "step": 43026
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4785778224468231,
      "learning_rate": 0.00032149724183975006,
      "loss": 1.6269,
      "step": 43027
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4541473388671875,
      "learning_rate": 0.00032148681657948015,
      "loss": 1.6091,
      "step": 43028
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4719947576522827,
      "learning_rate": 0.00032147639129312833,
      "loss": 1.5834,
      "step": 43029
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.456396222114563,
      "learning_rate": 0.00032146596598070753,
      "loss": 1.5536,
      "step": 43030
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4554257392883301,
      "learning_rate": 0.00032145554064223005,
      "loss": 1.585,
      "step": 43031
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4528951942920685,
      "learning_rate": 0.0003214451152777088,
      "loss": 1.5904,
      "step": 43032
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4622257351875305,
      "learning_rate": 0.00032143468988715624,
      "loss": 1.5781,
      "step": 43033
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4676898121833801,
      "learning_rate": 0.00032142426447058514,
      "loss": 1.5325,
      "step": 43034
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46766966581344604,
      "learning_rate": 0.00032141383902800814,
      "loss": 1.6139,
      "step": 43035
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4582865834236145,
      "learning_rate": 0.000321403413559438,
      "loss": 1.5762,
      "step": 43036
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4756435751914978,
      "learning_rate": 0.0003213929880648872,
      "loss": 1.6905,
      "step": 43037
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46901535987854004,
      "learning_rate": 0.00032138256254436845,
      "loss": 1.5699,
      "step": 43038
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45589524507522583,
      "learning_rate": 0.0003213721369978944,
      "loss": 1.5426,
      "step": 43039
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4869641661643982,
      "learning_rate": 0.00032136171142547776,
      "loss": 1.5815,
      "step": 43040
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47446534037590027,
      "learning_rate": 0.00032135128582713116,
      "loss": 1.6514,
      "step": 43041
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4879681169986725,
      "learning_rate": 0.00032134086020286714,
      "loss": 1.636,
      "step": 43042
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45916232466697693,
      "learning_rate": 0.00032133043455269866,
      "loss": 1.6215,
      "step": 43043
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4630804657936096,
      "learning_rate": 0.000321320008876638,
      "loss": 1.5619,
      "step": 43044
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4628373980522156,
      "learning_rate": 0.0003213095831746981,
      "loss": 1.6151,
      "step": 43045
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47427478432655334,
      "learning_rate": 0.00032129915744689145,
      "loss": 1.6171,
      "step": 43046
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46651744842529297,
      "learning_rate": 0.0003212887316932308,
      "loss": 1.6447,
      "step": 43047
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44791826605796814,
      "learning_rate": 0.0003212783059137287,
      "loss": 1.5875,
      "step": 43048
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47727179527282715,
      "learning_rate": 0.00032126788010839786,
      "loss": 1.5729,
      "step": 43049
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.472476989030838,
      "learning_rate": 0.00032125745427725105,
      "loss": 1.6335,
      "step": 43050
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4732379615306854,
      "learning_rate": 0.0003212470284203007,
      "loss": 1.6809,
      "step": 43051
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.463021844625473,
      "learning_rate": 0.0003212366025375597,
      "loss": 1.6189,
      "step": 43052
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45826420187950134,
      "learning_rate": 0.0003212261766290406,
      "loss": 1.5978,
      "step": 43053
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47468602657318115,
      "learning_rate": 0.00032121575069475594,
      "loss": 1.6416,
      "step": 43054
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44985395669937134,
      "learning_rate": 0.0003212053247347186,
      "loss": 1.6099,
      "step": 43055
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4641169607639313,
      "learning_rate": 0.00032119489874894106,
      "loss": 1.6718,
      "step": 43056
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4818126857280731,
      "learning_rate": 0.00032118447273743597,
      "loss": 1.631,
      "step": 43057
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5054841637611389,
      "learning_rate": 0.00032117404670021615,
      "loss": 1.5615,
      "step": 43058
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47087204456329346,
      "learning_rate": 0.0003211636206372942,
      "loss": 1.6208,
      "step": 43059
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5243563652038574,
      "learning_rate": 0.00032115319454868263,
      "loss": 1.6359,
      "step": 43060
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46625739336013794,
      "learning_rate": 0.00032114276843439425,
      "loss": 1.6236,
      "step": 43061
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46560993790626526,
      "learning_rate": 0.00032113234229444167,
      "loss": 1.5858,
      "step": 43062
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4563240110874176,
      "learning_rate": 0.00032112191612883745,
      "loss": 1.6584,
      "step": 43063
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45128220319747925,
      "learning_rate": 0.0003211114899375944,
      "loss": 1.6117,
      "step": 43064
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45597970485687256,
      "learning_rate": 0.0003211010637207251,
      "loss": 1.6206,
      "step": 43065
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4786846935749054,
      "learning_rate": 0.0003210906374782423,
      "loss": 1.6075,
      "step": 43066
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46042829751968384,
      "learning_rate": 0.0003210802112101584,
      "loss": 1.5966,
      "step": 43067
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48712828755378723,
      "learning_rate": 0.0003210697849164864,
      "loss": 1.5861,
      "step": 43068
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4688650965690613,
      "learning_rate": 0.00032105935859723866,
      "loss": 1.6754,
      "step": 43069
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46305134892463684,
      "learning_rate": 0.000321048932252428,
      "loss": 1.6605,
      "step": 43070
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44927912950515747,
      "learning_rate": 0.00032103850588206714,
      "loss": 1.6165,
      "step": 43071
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4929618239402771,
      "learning_rate": 0.00032102807948616846,
      "loss": 1.6522,
      "step": 43072
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4869470000267029,
      "learning_rate": 0.00032101765306474496,
      "loss": 1.6503,
      "step": 43073
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49057719111442566,
      "learning_rate": 0.00032100722661780904,
      "loss": 1.5452,
      "step": 43074
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45158150792121887,
      "learning_rate": 0.00032099680014537345,
      "loss": 1.6374,
      "step": 43075
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4831728935241699,
      "learning_rate": 0.0003209863736474508,
      "loss": 1.5761,
      "step": 43076
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4930071234703064,
      "learning_rate": 0.00032097594712405386,
      "loss": 1.6502,
      "step": 43077
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47062456607818604,
      "learning_rate": 0.00032096552057519524,
      "loss": 1.6167,
      "step": 43078
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.500215470790863,
      "learning_rate": 0.0003209550940008874,
      "loss": 1.6092,
      "step": 43079
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4828665852546692,
      "learning_rate": 0.0003209446674011433,
      "loss": 1.5809,
      "step": 43080
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4762149751186371,
      "learning_rate": 0.0003209342407759754,
      "loss": 1.5732,
      "step": 43081
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4884307086467743,
      "learning_rate": 0.00032092381412539647,
      "loss": 1.6042,
      "step": 43082
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49315908551216125,
      "learning_rate": 0.0003209133874494191,
      "loss": 1.6365,
      "step": 43083
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4683923125267029,
      "learning_rate": 0.00032090296074805595,
      "loss": 1.5944,
      "step": 43084
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46735680103302,
      "learning_rate": 0.0003208925340213197,
      "loss": 1.6272,
      "step": 43085
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47949743270874023,
      "learning_rate": 0.00032088210726922295,
      "loss": 1.6466,
      "step": 43086
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5039249658584595,
      "learning_rate": 0.0003208716804917784,
      "loss": 1.5784,
      "step": 43087
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49082207679748535,
      "learning_rate": 0.00032086125368899877,
      "loss": 1.6737,
      "step": 43088
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47983846068382263,
      "learning_rate": 0.00032085082686089656,
      "loss": 1.6429,
      "step": 43089
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4798309803009033,
      "learning_rate": 0.0003208404000074845,
      "loss": 1.6753,
      "step": 43090
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46725183725357056,
      "learning_rate": 0.00032082997312877544,
      "loss": 1.5602,
      "step": 43091
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4751744270324707,
      "learning_rate": 0.00032081954622478173,
      "loss": 1.6666,
      "step": 43092
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4546075761318207,
      "learning_rate": 0.00032080911929551614,
      "loss": 1.5876,
      "step": 43093
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.48050662875175476,
      "learning_rate": 0.0003207986923409914,
      "loss": 1.6999,
      "step": 43094
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.466219425201416,
      "learning_rate": 0.00032078826536122005,
      "loss": 1.6085,
      "step": 43095
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4559461772441864,
      "learning_rate": 0.00032077783835621497,
      "loss": 1.5846,
      "step": 43096
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4980403482913971,
      "learning_rate": 0.0003207674113259885,
      "loss": 1.5532,
      "step": 43097
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4721411466598511,
      "learning_rate": 0.0003207569842705535,
      "loss": 1.5765,
      "step": 43098
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46253302693367004,
      "learning_rate": 0.0003207465571899226,
      "loss": 1.571,
      "step": 43099
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.44989970326423645,
      "learning_rate": 0.0003207361300841083,
      "loss": 1.6301,
      "step": 43100
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4595653712749481,
      "learning_rate": 0.0003207257029531236,
      "loss": 1.4953,
      "step": 43101
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.471619188785553,
      "learning_rate": 0.0003207152757969808,
      "loss": 1.5733,
      "step": 43102
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4726089835166931,
      "learning_rate": 0.00032070484861569285,
      "loss": 1.5923,
      "step": 43103
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4631320536136627,
      "learning_rate": 0.00032069442140927206,
      "loss": 1.6559,
      "step": 43104
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4818918704986572,
      "learning_rate": 0.00032068399417773145,
      "loss": 1.6204,
      "step": 43105
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5038793087005615,
      "learning_rate": 0.0003206735669210835,
      "loss": 1.6,
      "step": 43106
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4731083810329437,
      "learning_rate": 0.0003206631396393408,
      "loss": 1.6156,
      "step": 43107
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46764323115348816,
      "learning_rate": 0.0003206527123325162,
      "loss": 1.5462,
      "step": 43108
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4793185591697693,
      "learning_rate": 0.00032064228500062217,
      "loss": 1.6289,
      "step": 43109
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46397164463996887,
      "learning_rate": 0.0003206318576436715,
      "loss": 1.567,
      "step": 43110
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49983441829681396,
      "learning_rate": 0.0003206214302616768,
      "loss": 1.589,
      "step": 43111
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47545525431632996,
      "learning_rate": 0.0003206110028546507,
      "loss": 1.6451,
      "step": 43112
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47042179107666016,
      "learning_rate": 0.00032060057542260587,
      "loss": 1.5791,
      "step": 43113
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4805701673030853,
      "learning_rate": 0.000320590147965555,
      "loss": 1.6811,
      "step": 43114
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4546416997909546,
      "learning_rate": 0.0003205797204835107,
      "loss": 1.6057,
      "step": 43115
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45439842343330383,
      "learning_rate": 0.0003205692929764857,
      "loss": 1.5776,
      "step": 43116
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47441938519477844,
      "learning_rate": 0.0003205588654444926,
      "loss": 1.6177,
      "step": 43117
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4852542579174042,
      "learning_rate": 0.00032054843788754397,
      "loss": 1.6577,
      "step": 43118
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46922966837882996,
      "learning_rate": 0.00032053801030565264,
      "loss": 1.6396,
      "step": 43119
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46761125326156616,
      "learning_rate": 0.00032052758269883116,
      "loss": 1.5594,
      "step": 43120
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4497649073600769,
      "learning_rate": 0.00032051715506709234,
      "loss": 1.6037,
      "step": 43121
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4733768701553345,
      "learning_rate": 0.00032050672741044847,
      "loss": 1.6665,
      "step": 43122
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4689416289329529,
      "learning_rate": 0.0003204962997289127,
      "loss": 1.5814,
      "step": 43123
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47222259640693665,
      "learning_rate": 0.0003204858720224973,
      "loss": 1.6242,
      "step": 43124
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45556482672691345,
      "learning_rate": 0.0003204754442912151,
      "loss": 1.5928,
      "step": 43125
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46589985489845276,
      "learning_rate": 0.0003204650165350788,
      "loss": 1.5759,
      "step": 43126
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.47063830494880676,
      "learning_rate": 0.0003204545887541009,
      "loss": 1.6023,
      "step": 43127
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.46966350078582764,
      "learning_rate": 0.00032044416094829416,
      "loss": 1.5933,
      "step": 43128
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5039958357810974,
      "learning_rate": 0.0003204337331176712,
      "loss": 1.6693,
      "step": 43129
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4783284366130829,
      "learning_rate": 0.00032042330526224475,
      "loss": 1.6015,
      "step": 43130
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.45382922887802124,
      "learning_rate": 0.00032041287738202744,
      "loss": 1.4931,
      "step": 43131
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4714530110359192,
      "learning_rate": 0.0003204024494770319,
      "loss": 1.5927,
      "step": 43132
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4924829304218292,
      "learning_rate": 0.00032039202154727077,
      "loss": 1.5983,
      "step": 43133
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4818216562271118,
      "learning_rate": 0.0003203815935927566,
      "loss": 1.5833,
      "step": 43134
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49198347330093384,
      "learning_rate": 0.00032037116561350236,
      "loss": 1.6121,
      "step": 43135
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47631528973579407,
      "learning_rate": 0.00032036073760952045,
      "loss": 1.647,
      "step": 43136
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4685678780078888,
      "learning_rate": 0.00032035030958082355,
      "loss": 1.6086,
      "step": 43137
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4782463312149048,
      "learning_rate": 0.0003203398815274245,
      "loss": 1.6272,
      "step": 43138
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4716874063014984,
      "learning_rate": 0.00032032945344933575,
      "loss": 1.6061,
      "step": 43139
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47970786690711975,
      "learning_rate": 0.0003203190253465701,
      "loss": 1.5568,
      "step": 43140
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48984894156455994,
      "learning_rate": 0.0003203085972191401,
      "loss": 1.6301,
      "step": 43141
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45642492175102234,
      "learning_rate": 0.0003202981690670585,
      "loss": 1.5845,
      "step": 43142
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4528316557407379,
      "learning_rate": 0.0003202877408903378,
      "loss": 1.5692,
      "step": 43143
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4713759422302246,
      "learning_rate": 0.0003202773126889908,
      "loss": 1.6077,
      "step": 43144
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47656264901161194,
      "learning_rate": 0.0003202668844630302,
      "loss": 1.6013,
      "step": 43145
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4722050726413727,
      "learning_rate": 0.00032025645621246856,
      "loss": 1.6179,
      "step": 43146
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.464469850063324,
      "learning_rate": 0.00032024602793731863,
      "loss": 1.6083,
      "step": 43147
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45353472232818604,
      "learning_rate": 0.00032023559963759293,
      "loss": 1.5947,
      "step": 43148
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46803298592567444,
      "learning_rate": 0.0003202251713133042,
      "loss": 1.5971,
      "step": 43149
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4738086760044098,
      "learning_rate": 0.0003202147429644651,
      "loss": 1.675,
      "step": 43150
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5091501474380493,
      "learning_rate": 0.0003202043145910883,
      "loss": 1.6482,
      "step": 43151
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4814668595790863,
      "learning_rate": 0.0003201938861931864,
      "loss": 1.6459,
      "step": 43152
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4663064777851105,
      "learning_rate": 0.0003201834577707721,
      "loss": 1.6359,
      "step": 43153
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4721203148365021,
      "learning_rate": 0.0003201730293238581,
      "loss": 1.5685,
      "step": 43154
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.486473023891449,
      "learning_rate": 0.000320162600852457,
      "loss": 1.5987,
      "step": 43155
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.474271297454834,
      "learning_rate": 0.00032015217235658146,
      "loss": 1.6079,
      "step": 43156
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4629816710948944,
      "learning_rate": 0.0003201417438362441,
      "loss": 1.5987,
      "step": 43157
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47391951084136963,
      "learning_rate": 0.0003201313152914578,
      "loss": 1.6334,
      "step": 43158
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5080495476722717,
      "learning_rate": 0.0003201208867222348,
      "loss": 1.6043,
      "step": 43159
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4926683008670807,
      "learning_rate": 0.0003201104581285882,
      "loss": 1.6289,
      "step": 43160
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4785003066062927,
      "learning_rate": 0.00032010002951053044,
      "loss": 1.5472,
      "step": 43161
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.44536522030830383,
      "learning_rate": 0.0003200896008680741,
      "loss": 1.6057,
      "step": 43162
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45772355794906616,
      "learning_rate": 0.0003200791722012321,
      "loss": 1.577,
      "step": 43163
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47255757451057434,
      "learning_rate": 0.00032006874351001686,
      "loss": 1.6136,
      "step": 43164
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4594132900238037,
      "learning_rate": 0.00032005831479444113,
      "loss": 1.5967,
      "step": 43165
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47509458661079407,
      "learning_rate": 0.0003200478860545175,
      "loss": 1.6478,
      "step": 43166
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.461201548576355,
      "learning_rate": 0.0003200374572902588,
      "loss": 1.6422,
      "step": 43167
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46889182925224304,
      "learning_rate": 0.0003200270285016775,
      "loss": 1.56,
      "step": 43168
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4731258451938629,
      "learning_rate": 0.0003200165996887864,
      "loss": 1.6745,
      "step": 43169
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5014424920082092,
      "learning_rate": 0.00032000617085159807,
      "loss": 1.6372,
      "step": 43170
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4736488163471222,
      "learning_rate": 0.00031999574199012516,
      "loss": 1.6373,
      "step": 43171
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4516240060329437,
      "learning_rate": 0.00031998531310438043,
      "loss": 1.6356,
      "step": 43172
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45972028374671936,
      "learning_rate": 0.0003199748841943764,
      "loss": 1.5355,
      "step": 43173
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4654793441295624,
      "learning_rate": 0.0003199644552601259,
      "loss": 1.6361,
      "step": 43174
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46330195665359497,
      "learning_rate": 0.0003199540263016413,
      "loss": 1.5651,
      "step": 43175
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48666343092918396,
      "learning_rate": 0.00031994359731893563,
      "loss": 1.5993,
      "step": 43176
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.447811096906662,
      "learning_rate": 0.00031993316831202133,
      "loss": 1.637,
      "step": 43177
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46771469712257385,
      "learning_rate": 0.00031992273928091116,
      "loss": 1.717,
      "step": 43178
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4805503189563751,
      "learning_rate": 0.00031991231022561765,
      "loss": 1.565,
      "step": 43179
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4516594111919403,
      "learning_rate": 0.0003199018811461535,
      "loss": 1.671,
      "step": 43180
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47156837582588196,
      "learning_rate": 0.00031989145204253144,
      "loss": 1.5913,
      "step": 43181
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4623718559741974,
      "learning_rate": 0.00031988102291476405,
      "loss": 1.6237,
      "step": 43182
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4630429446697235,
      "learning_rate": 0.0003198705937628641,
      "loss": 1.6063,
      "step": 43183
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47384268045425415,
      "learning_rate": 0.00031986016458684414,
      "loss": 1.637,
      "step": 43184
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4856009781360626,
      "learning_rate": 0.0003198497353867169,
      "loss": 1.6398,
      "step": 43185
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47829470038414,
      "learning_rate": 0.0003198393061624949,
      "loss": 1.6346,
      "step": 43186
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4555259943008423,
      "learning_rate": 0.00031982887691419103,
      "loss": 1.6237,
      "step": 43187
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4728887677192688,
      "learning_rate": 0.0003198184476418178,
      "loss": 1.5646,
      "step": 43188
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47213855385780334,
      "learning_rate": 0.0003198080183453878,
      "loss": 1.6172,
      "step": 43189
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47607535123825073,
      "learning_rate": 0.00031979758902491394,
      "loss": 1.5884,
      "step": 43190
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46364083886146545,
      "learning_rate": 0.0003197871596804085,
      "loss": 1.625,
      "step": 43191
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46844756603240967,
      "learning_rate": 0.0003197767303118846,
      "loss": 1.7024,
      "step": 43192
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4600280523300171,
      "learning_rate": 0.0003197663009193545,
      "loss": 1.5602,
      "step": 43193
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4792160987854004,
      "learning_rate": 0.00031975587150283113,
      "loss": 1.5631,
      "step": 43194
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4495517909526825,
      "learning_rate": 0.00031974544206232703,
      "loss": 1.6474,
      "step": 43195
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4493502974510193,
      "learning_rate": 0.0003197350125978548,
      "loss": 1.5653,
      "step": 43196
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.486939013004303,
      "learning_rate": 0.00031972458310942724,
      "loss": 1.5668,
      "step": 43197
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47256821393966675,
      "learning_rate": 0.0003197141535970569,
      "loss": 1.6537,
      "step": 43198
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46520060300827026,
      "learning_rate": 0.0003197037240607565,
      "loss": 1.6232,
      "step": 43199
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4663997292518616,
      "learning_rate": 0.0003196932945005387,
      "loss": 1.5321,
      "step": 43200
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4664972722530365,
      "learning_rate": 0.0003196828649164161,
      "loss": 1.5791,
      "step": 43201
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46565911173820496,
      "learning_rate": 0.0003196724353084015,
      "loss": 1.5973,
      "step": 43202
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4424801766872406,
      "learning_rate": 0.00031966200567650735,
      "loss": 1.5888,
      "step": 43203
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46586063504219055,
      "learning_rate": 0.00031965157602074646,
      "loss": 1.6025,
      "step": 43204
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4921310842037201,
      "learning_rate": 0.00031964114634113144,
      "loss": 1.6001,
      "step": 43205
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4746885597705841,
      "learning_rate": 0.00031963071663767493,
      "loss": 1.5864,
      "step": 43206
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4578123688697815,
      "learning_rate": 0.00031962028691038966,
      "loss": 1.616,
      "step": 43207
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4678141176700592,
      "learning_rate": 0.00031960985715928837,
      "loss": 1.5964,
      "step": 43208
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.465602308511734,
      "learning_rate": 0.0003195994273843834,
      "loss": 1.5919,
      "step": 43209
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.44776466488838196,
      "learning_rate": 0.0003195889975856877,
      "loss": 1.6193,
      "step": 43210
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47033047676086426,
      "learning_rate": 0.00031957856776321393,
      "loss": 1.624,
      "step": 43211
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.471736341714859,
      "learning_rate": 0.0003195681379169745,
      "loss": 1.4557,
      "step": 43212
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48110654950141907,
      "learning_rate": 0.00031955770804698236,
      "loss": 1.7237,
      "step": 43213
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.462989866733551,
      "learning_rate": 0.00031954727815324994,
      "loss": 1.6174,
      "step": 43214
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4914907217025757,
      "learning_rate": 0.00031953684823579013,
      "loss": 1.566,
      "step": 43215
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48844224214553833,
      "learning_rate": 0.0003195264182946154,
      "loss": 1.6546,
      "step": 43216
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4612368047237396,
      "learning_rate": 0.00031951598832973845,
      "loss": 1.6134,
      "step": 43217
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4908931255340576,
      "learning_rate": 0.0003195055583411721,
      "loss": 1.6425,
      "step": 43218
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5122777223587036,
      "learning_rate": 0.0003194951283289287,
      "loss": 1.5904,
      "step": 43219
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48712754249572754,
      "learning_rate": 0.00031948469829302115,
      "loss": 1.5793,
      "step": 43220
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4698634147644043,
      "learning_rate": 0.00031947426823346196,
      "loss": 1.6129,
      "step": 43221
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4705396294593811,
      "learning_rate": 0.00031946383815026406,
      "loss": 1.6333,
      "step": 43222
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47705334424972534,
      "learning_rate": 0.00031945340804343984,
      "loss": 1.6303,
      "step": 43223
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4734831750392914,
      "learning_rate": 0.000319442977913002,
      "loss": 1.5937,
      "step": 43224
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46121808886528015,
      "learning_rate": 0.0003194325477589634,
      "loss": 1.6763,
      "step": 43225
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4957696199417114,
      "learning_rate": 0.0003194221175813363,
      "loss": 1.613,
      "step": 43226
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47043538093566895,
      "learning_rate": 0.00031941168738013385,
      "loss": 1.6369,
      "step": 43227
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48228704929351807,
      "learning_rate": 0.00031940125715536837,
      "loss": 1.6603,
      "step": 43228
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4735434055328369,
      "learning_rate": 0.0003193908269070526,
      "loss": 1.6231,
      "step": 43229
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48528164625167847,
      "learning_rate": 0.00031938039663519926,
      "loss": 1.611,
      "step": 43230
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5006159543991089,
      "learning_rate": 0.00031936996633982095,
      "loss": 1.6977,
      "step": 43231
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4840438961982727,
      "learning_rate": 0.0003193595360209304,
      "loss": 1.6524,
      "step": 43232
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4929465055465698,
      "learning_rate": 0.0003193491056785402,
      "loss": 1.6852,
      "step": 43233
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4641914367675781,
      "learning_rate": 0.000319338675312663,
      "loss": 1.6022,
      "step": 43234
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4844833016395569,
      "learning_rate": 0.0003193282449233115,
      "loss": 1.6175,
      "step": 43235
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.513027548789978,
      "learning_rate": 0.0003193178145104985,
      "loss": 1.5306,
      "step": 43236
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49040746688842773,
      "learning_rate": 0.0003193073840742363,
      "loss": 1.6245,
      "step": 43237
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46582868695259094,
      "learning_rate": 0.000319296953614538,
      "loss": 1.542,
      "step": 43238
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48188719153404236,
      "learning_rate": 0.00031928652313141585,
      "loss": 1.6183,
      "step": 43239
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49033141136169434,
      "learning_rate": 0.00031927609262488287,
      "loss": 1.6665,
      "step": 43240
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49660804867744446,
      "learning_rate": 0.0003192656620949514,
      "loss": 1.6856,
      "step": 43241
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4751657247543335,
      "learning_rate": 0.00031925523154163434,
      "loss": 1.6258,
      "step": 43242
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5028294920921326,
      "learning_rate": 0.0003192448009649443,
      "loss": 1.6521,
      "step": 43243
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48192664980888367,
      "learning_rate": 0.00031923437036489376,
      "loss": 1.6322,
      "step": 43244
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5039805769920349,
      "learning_rate": 0.0003192239397414957,
      "loss": 1.6877,
      "step": 43245
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48640063405036926,
      "learning_rate": 0.0003192135090947625,
      "loss": 1.6708,
      "step": 43246
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.481376975774765,
      "learning_rate": 0.000319203078424707,
      "loss": 1.6412,
      "step": 43247
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48054882884025574,
      "learning_rate": 0.0003191926477313417,
      "loss": 1.6404,
      "step": 43248
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47991180419921875,
      "learning_rate": 0.00031918221701467944,
      "loss": 1.5709,
      "step": 43249
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.50191330909729,
      "learning_rate": 0.0003191717862747328,
      "loss": 1.5681,
      "step": 43250
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45682477951049805,
      "learning_rate": 0.00031916135551151437,
      "loss": 1.5632,
      "step": 43251
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48396357893943787,
      "learning_rate": 0.0003191509247250369,
      "loss": 1.6383,
      "step": 43252
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4667731821537018,
      "learning_rate": 0.00031914049391531304,
      "loss": 1.5938,
      "step": 43253
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4596780240535736,
      "learning_rate": 0.00031913006308235546,
      "loss": 1.5804,
      "step": 43254
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47781237959861755,
      "learning_rate": 0.0003191196322261768,
      "loss": 1.6029,
      "step": 43255
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4738360643386841,
      "learning_rate": 0.0003191092013467897,
      "loss": 1.6118,
      "step": 43256
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45770490169525146,
      "learning_rate": 0.0003190987704442069,
      "loss": 1.5927,
      "step": 43257
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4672183692455292,
      "learning_rate": 0.00031908833951844095,
      "loss": 1.5467,
      "step": 43258
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49001604318618774,
      "learning_rate": 0.00031907790856950454,
      "loss": 1.5684,
      "step": 43259
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4476531445980072,
      "learning_rate": 0.0003190674775974104,
      "loss": 1.5685,
      "step": 43260
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48708412051200867,
      "learning_rate": 0.0003190570466021711,
      "loss": 1.6887,
      "step": 43261
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5052255392074585,
      "learning_rate": 0.00031904661558379945,
      "loss": 1.5647,
      "step": 43262
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45017513632774353,
      "learning_rate": 0.000319036184542308,
      "loss": 1.616,
      "step": 43263
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4504518508911133,
      "learning_rate": 0.0003190257534777094,
      "loss": 1.632,
      "step": 43264
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4744676351547241,
      "learning_rate": 0.00031901532239001623,
      "loss": 1.588,
      "step": 43265
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46734321117401123,
      "learning_rate": 0.0003190048912792414,
      "loss": 1.6534,
      "step": 43266
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46362385153770447,
      "learning_rate": 0.00031899446014539744,
      "loss": 1.641,
      "step": 43267
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4767489433288574,
      "learning_rate": 0.0003189840289884969,
      "loss": 1.6196,
      "step": 43268
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47828859090805054,
      "learning_rate": 0.0003189735978085526,
      "loss": 1.6312,
      "step": 43269
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46216917037963867,
      "learning_rate": 0.0003189631666055772,
      "loss": 1.6622,
      "step": 43270
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4860178828239441,
      "learning_rate": 0.00031895273537958324,
      "loss": 1.5583,
      "step": 43271
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48644447326660156,
      "learning_rate": 0.00031894230413058347,
      "loss": 1.6182,
      "step": 43272
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4593522548675537,
      "learning_rate": 0.0003189318728585906,
      "loss": 1.5313,
      "step": 43273
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48996326327323914,
      "learning_rate": 0.0003189214415636171,
      "loss": 1.6171,
      "step": 43274
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.833340585231781,
      "learning_rate": 0.00031891101024567585,
      "loss": 1.6451,
      "step": 43275
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4879744052886963,
      "learning_rate": 0.0003189005789047793,
      "loss": 1.7099,
      "step": 43276
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46584638953208923,
      "learning_rate": 0.0003188901475409404,
      "loss": 1.5745,
      "step": 43277
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5260365009307861,
      "learning_rate": 0.0003188797161541716,
      "loss": 1.6407,
      "step": 43278
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4858902096748352,
      "learning_rate": 0.00031886928474448553,
      "loss": 1.6743,
      "step": 43279
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48599013686180115,
      "learning_rate": 0.00031885885331189504,
      "loss": 1.6663,
      "step": 43280
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46489477157592773,
      "learning_rate": 0.00031884842185641253,
      "loss": 1.6226,
      "step": 43281
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46850141882896423,
      "learning_rate": 0.000318837990378051,
      "loss": 1.536,
      "step": 43282
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4720754623413086,
      "learning_rate": 0.0003188275588768227,
      "loss": 1.5761,
      "step": 43283
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4827057123184204,
      "learning_rate": 0.0003188171273527407,
      "loss": 1.6599,
      "step": 43284
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.476545125246048,
      "learning_rate": 0.00031880669580581746,
      "loss": 1.5986,
      "step": 43285
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46725380420684814,
      "learning_rate": 0.0003187962642360656,
      "loss": 1.5897,
      "step": 43286
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4592156410217285,
      "learning_rate": 0.0003187858326434979,
      "loss": 1.6476,
      "step": 43287
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4784983992576599,
      "learning_rate": 0.00031877540102812687,
      "loss": 1.655,
      "step": 43288
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4755477011203766,
      "learning_rate": 0.00031876496938996535,
      "loss": 1.6233,
      "step": 43289
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4927595257759094,
      "learning_rate": 0.0003187545377290259,
      "loss": 1.5917,
      "step": 43290
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48315152525901794,
      "learning_rate": 0.0003187441060453212,
      "loss": 1.5864,
      "step": 43291
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46438413858413696,
      "learning_rate": 0.00031873367433886396,
      "loss": 1.5946,
      "step": 43292
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46053004264831543,
      "learning_rate": 0.00031872324260966676,
      "loss": 1.604,
      "step": 43293
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.469821959733963,
      "learning_rate": 0.0003187128108577423,
      "loss": 1.5584,
      "step": 43294
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4778469204902649,
      "learning_rate": 0.0003187023790831033,
      "loss": 1.5657,
      "step": 43295
    },
    {
      "epoch": 1.44,
      "grad_norm": 1.5556890964508057,
      "learning_rate": 0.00031869194728576227,
      "loss": 1.694,
      "step": 43296
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4754241108894348,
      "learning_rate": 0.000318681515465732,
      "loss": 1.579,
      "step": 43297
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4788312613964081,
      "learning_rate": 0.00031867108362302514,
      "loss": 1.571,
      "step": 43298
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46768999099731445,
      "learning_rate": 0.00031866065175765437,
      "loss": 1.605,
      "step": 43299
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4738459885120392,
      "learning_rate": 0.00031865021986963234,
      "loss": 1.6197,
      "step": 43300
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4625449776649475,
      "learning_rate": 0.0003186397879589715,
      "loss": 1.6386,
      "step": 43301
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49055561423301697,
      "learning_rate": 0.0003186293560256849,
      "loss": 1.6158,
      "step": 43302
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4634879529476166,
      "learning_rate": 0.000318618924069785,
      "loss": 1.5874,
      "step": 43303
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45982998609542847,
      "learning_rate": 0.00031860849209128434,
      "loss": 1.6245,
      "step": 43304
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4902535080909729,
      "learning_rate": 0.0003185980600901959,
      "loss": 1.6882,
      "step": 43305
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5023613572120667,
      "learning_rate": 0.00031858762806653195,
      "loss": 1.5794,
      "step": 43306
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47983518242836,
      "learning_rate": 0.0003185771960203056,
      "loss": 1.5808,
      "step": 43307
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4839363694190979,
      "learning_rate": 0.000318566763951529,
      "loss": 1.6148,
      "step": 43308
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4706241190433502,
      "learning_rate": 0.00031855633186021526,
      "loss": 1.6389,
      "step": 43309
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4806220829486847,
      "learning_rate": 0.00031854589974637684,
      "loss": 1.5977,
      "step": 43310
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4724021553993225,
      "learning_rate": 0.00031853546761002633,
      "loss": 1.5799,
      "step": 43311
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4595368802547455,
      "learning_rate": 0.0003185250354511766,
      "loss": 1.6559,
      "step": 43312
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47890087962150574,
      "learning_rate": 0.00031851460326984016,
      "loss": 1.5622,
      "step": 43313
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4868825674057007,
      "learning_rate": 0.0003185041710660298,
      "loss": 1.5258,
      "step": 43314
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48695430159568787,
      "learning_rate": 0.00031849373883975797,
      "loss": 1.6158,
      "step": 43315
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47785377502441406,
      "learning_rate": 0.0003184833065910376,
      "loss": 1.6341,
      "step": 43316
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47884637117385864,
      "learning_rate": 0.0003184728743198811,
      "loss": 1.5948,
      "step": 43317
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4582706391811371,
      "learning_rate": 0.0003184624420263013,
      "loss": 1.6341,
      "step": 43318
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4807375371456146,
      "learning_rate": 0.0003184520097103109,
      "loss": 1.63,
      "step": 43319
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47717031836509705,
      "learning_rate": 0.00031844157737192244,
      "loss": 1.7011,
      "step": 43320
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46855780482292175,
      "learning_rate": 0.0003184311450111485,
      "loss": 1.541,
      "step": 43321
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4733961522579193,
      "learning_rate": 0.00031842071262800194,
      "loss": 1.5925,
      "step": 43322
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45681247115135193,
      "learning_rate": 0.00031841028022249536,
      "loss": 1.5887,
      "step": 43323
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4734383523464203,
      "learning_rate": 0.00031839984779464143,
      "loss": 1.555,
      "step": 43324
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4927774965763092,
      "learning_rate": 0.0003183894153444528,
      "loss": 1.5728,
      "step": 43325
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4781688153743744,
      "learning_rate": 0.0003183789828719421,
      "loss": 1.5332,
      "step": 43326
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4779675006866455,
      "learning_rate": 0.000318368550377122,
      "loss": 1.6093,
      "step": 43327
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46100085973739624,
      "learning_rate": 0.0003183581178600052,
      "loss": 1.6156,
      "step": 43328
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5106525421142578,
      "learning_rate": 0.0003183476853206044,
      "loss": 1.5921,
      "step": 43329
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4867169260978699,
      "learning_rate": 0.00031833725275893224,
      "loss": 1.6809,
      "step": 43330
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47684016823768616,
      "learning_rate": 0.0003183268201750012,
      "loss": 1.5624,
      "step": 43331
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4657769203186035,
      "learning_rate": 0.0003183163875688243,
      "loss": 1.633,
      "step": 43332
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45519232749938965,
      "learning_rate": 0.00031830595494041386,
      "loss": 1.5581,
      "step": 43333
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4775599241256714,
      "learning_rate": 0.0003182955222897827,
      "loss": 1.6052,
      "step": 43334
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4649865925312042,
      "learning_rate": 0.0003182850896169436,
      "loss": 1.5871,
      "step": 43335
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5125389695167542,
      "learning_rate": 0.0003182746569219089,
      "loss": 1.6832,
      "step": 43336
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4843590259552002,
      "learning_rate": 0.0003182642242046916,
      "loss": 1.5998,
      "step": 43337
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48754000663757324,
      "learning_rate": 0.00031825379146530416,
      "loss": 1.6267,
      "step": 43338
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4814577102661133,
      "learning_rate": 0.00031824335870375936,
      "loss": 1.701,
      "step": 43339
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4824989140033722,
      "learning_rate": 0.00031823292592006973,
      "loss": 1.5668,
      "step": 43340
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4997949004173279,
      "learning_rate": 0.00031822249311424806,
      "loss": 1.6044,
      "step": 43341
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.44864603877067566,
      "learning_rate": 0.00031821206028630704,
      "loss": 1.676,
      "step": 43342
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4794473946094513,
      "learning_rate": 0.00031820162743625914,
      "loss": 1.7014,
      "step": 43343
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47543713450431824,
      "learning_rate": 0.0003181911945641172,
      "loss": 1.6515,
      "step": 43344
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5039710402488708,
      "learning_rate": 0.00031818076166989387,
      "loss": 1.6977,
      "step": 43345
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46434828639030457,
      "learning_rate": 0.0003181703287536017,
      "loss": 1.5536,
      "step": 43346
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46321722865104675,
      "learning_rate": 0.0003181598958152534,
      "loss": 1.5985,
      "step": 43347
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5061150193214417,
      "learning_rate": 0.00031814946285486174,
      "loss": 1.5708,
      "step": 43348
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4879605770111084,
      "learning_rate": 0.00031813902987243926,
      "loss": 1.6036,
      "step": 43349
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5011184215545654,
      "learning_rate": 0.0003181285968679988,
      "loss": 1.5954,
      "step": 43350
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4987249970436096,
      "learning_rate": 0.00031811816384155273,
      "loss": 1.7296,
      "step": 43351
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.478982537984848,
      "learning_rate": 0.000318107730793114,
      "loss": 1.6037,
      "step": 43352
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4619143307209015,
      "learning_rate": 0.00031809729772269506,
      "loss": 1.5545,
      "step": 43353
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4738578200340271,
      "learning_rate": 0.0003180868646303087,
      "loss": 1.6086,
      "step": 43354
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4830019772052765,
      "learning_rate": 0.0003180764315159676,
      "loss": 1.6229,
      "step": 43355
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48364874720573425,
      "learning_rate": 0.0003180659983796843,
      "loss": 1.665,
      "step": 43356
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47359099984169006,
      "learning_rate": 0.0003180555652214716,
      "loss": 1.6623,
      "step": 43357
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47755226492881775,
      "learning_rate": 0.00031804513204134203,
      "loss": 1.5352,
      "step": 43358
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5308758020401001,
      "learning_rate": 0.0003180346988393084,
      "loss": 1.602,
      "step": 43359
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46408048272132874,
      "learning_rate": 0.0003180242656153833,
      "loss": 1.5962,
      "step": 43360
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4675583839416504,
      "learning_rate": 0.00031801383236957926,
      "loss": 1.6273,
      "step": 43361
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47510164976119995,
      "learning_rate": 0.00031800339910190926,
      "loss": 1.6018,
      "step": 43362
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46981993317604065,
      "learning_rate": 0.00031799296581238565,
      "loss": 1.6219,
      "step": 43363
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4836146831512451,
      "learning_rate": 0.0003179825325010213,
      "loss": 1.5739,
      "step": 43364
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.465348482131958,
      "learning_rate": 0.00031797209916782887,
      "loss": 1.537,
      "step": 43365
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4615188241004944,
      "learning_rate": 0.00031796166581282085,
      "loss": 1.6342,
      "step": 43366
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4758452773094177,
      "learning_rate": 0.0003179512324360102,
      "loss": 1.6649,
      "step": 43367
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49736475944519043,
      "learning_rate": 0.0003179407990374091,
      "loss": 1.5753,
      "step": 43368
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4592435956001282,
      "learning_rate": 0.0003179303656170308,
      "loss": 1.5636,
      "step": 43369
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4879821538925171,
      "learning_rate": 0.00031791993217488747,
      "loss": 1.6692,
      "step": 43370
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48172467947006226,
      "learning_rate": 0.0003179094987109921,
      "loss": 1.6776,
      "step": 43371
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4741534888744354,
      "learning_rate": 0.0003178990652253572,
      "loss": 1.6142,
      "step": 43372
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4685201942920685,
      "learning_rate": 0.0003178886317179954,
      "loss": 1.5518,
      "step": 43373
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47399136424064636,
      "learning_rate": 0.0003178781981889196,
      "loss": 1.6737,
      "step": 43374
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46500059962272644,
      "learning_rate": 0.0003178677646381422,
      "loss": 1.5877,
      "step": 43375
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47983863949775696,
      "learning_rate": 0.0003178573310656759,
      "loss": 1.6087,
      "step": 43376
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.482749879360199,
      "learning_rate": 0.00031784689747153355,
      "loss": 1.5606,
      "step": 43377
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46173396706581116,
      "learning_rate": 0.0003178364638557277,
      "loss": 1.6071,
      "step": 43378
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4865773320198059,
      "learning_rate": 0.0003178260302182709,
      "loss": 1.6014,
      "step": 43379
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.471457302570343,
      "learning_rate": 0.000317815596559176,
      "loss": 1.5982,
      "step": 43380
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47552382946014404,
      "learning_rate": 0.0003178051628784556,
      "loss": 1.5766,
      "step": 43381
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45635083317756653,
      "learning_rate": 0.0003177947291761223,
      "loss": 1.6123,
      "step": 43382
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4704967737197876,
      "learning_rate": 0.0003177842954521889,
      "loss": 1.5765,
      "step": 43383
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4951013922691345,
      "learning_rate": 0.0003177738617066679,
      "loss": 1.6034,
      "step": 43384
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.488728791475296,
      "learning_rate": 0.0003177634279395722,
      "loss": 1.5864,
      "step": 43385
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46112060546875,
      "learning_rate": 0.0003177529941509141,
      "loss": 1.6097,
      "step": 43386
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46561384201049805,
      "learning_rate": 0.00031774256034070665,
      "loss": 1.5562,
      "step": 43387
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48186826705932617,
      "learning_rate": 0.00031773212650896225,
      "loss": 1.5538,
      "step": 43388
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48551324009895325,
      "learning_rate": 0.00031772169265569374,
      "loss": 1.6099,
      "step": 43389
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4796723425388336,
      "learning_rate": 0.00031771125878091367,
      "loss": 1.6319,
      "step": 43390
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46606844663619995,
      "learning_rate": 0.0003177008248846347,
      "loss": 1.5766,
      "step": 43391
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.44695812463760376,
      "learning_rate": 0.00031769039096686964,
      "loss": 1.5968,
      "step": 43392
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.478337824344635,
      "learning_rate": 0.0003176799570276309,
      "loss": 1.6195,
      "step": 43393
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4656742811203003,
      "learning_rate": 0.0003176695230669314,
      "loss": 1.6347,
      "step": 43394
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4769265651702881,
      "learning_rate": 0.0003176590890847837,
      "loss": 1.6392,
      "step": 43395
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4720097482204437,
      "learning_rate": 0.00031764865508120046,
      "loss": 1.5599,
      "step": 43396
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47190016508102417,
      "learning_rate": 0.00031763822105619437,
      "loss": 1.5929,
      "step": 43397
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.7744591236114502,
      "learning_rate": 0.000317627787009778,
      "loss": 1.6187,
      "step": 43398
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47766125202178955,
      "learning_rate": 0.0003176173529419642,
      "loss": 1.6429,
      "step": 43399
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47330421209335327,
      "learning_rate": 0.0003176069188527654,
      "loss": 1.5832,
      "step": 43400
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4758651852607727,
      "learning_rate": 0.00031759648474219453,
      "loss": 1.5297,
      "step": 43401
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45862025022506714,
      "learning_rate": 0.00031758605061026404,
      "loss": 1.6546,
      "step": 43402
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.49167269468307495,
      "learning_rate": 0.0003175756164569867,
      "loss": 1.5831,
      "step": 43403
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4751831889152527,
      "learning_rate": 0.0003175651822823752,
      "loss": 1.6638,
      "step": 43404
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47546887397766113,
      "learning_rate": 0.0003175547480864421,
      "loss": 1.6547,
      "step": 43405
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46362578868865967,
      "learning_rate": 0.0003175443138692001,
      "loss": 1.6042,
      "step": 43406
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4709032475948334,
      "learning_rate": 0.0003175338796306619,
      "loss": 1.5336,
      "step": 43407
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4779306650161743,
      "learning_rate": 0.0003175234453708402,
      "loss": 1.5696,
      "step": 43408
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4885965883731842,
      "learning_rate": 0.00031751301108974756,
      "loss": 1.5803,
      "step": 43409
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47430071234703064,
      "learning_rate": 0.0003175025767873967,
      "loss": 1.6423,
      "step": 43410
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4628172814846039,
      "learning_rate": 0.00031749214246380036,
      "loss": 1.5741,
      "step": 43411
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45940637588500977,
      "learning_rate": 0.0003174817081189711,
      "loss": 1.6428,
      "step": 43412
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.48685720562934875,
      "learning_rate": 0.00031747127375292164,
      "loss": 1.6635,
      "step": 43413
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4879741966724396,
      "learning_rate": 0.00031746083936566463,
      "loss": 1.5999,
      "step": 43414
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4717034697532654,
      "learning_rate": 0.00031745040495721267,
      "loss": 1.6059,
      "step": 43415
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4603676497936249,
      "learning_rate": 0.00031743997052757853,
      "loss": 1.5811,
      "step": 43416
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5011993050575256,
      "learning_rate": 0.00031742953607677486,
      "loss": 1.5874,
      "step": 43417
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47122812271118164,
      "learning_rate": 0.0003174191016048143,
      "loss": 1.6134,
      "step": 43418
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4850448966026306,
      "learning_rate": 0.0003174086671117095,
      "loss": 1.6481,
      "step": 43419
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4787258207798004,
      "learning_rate": 0.0003173982325974731,
      "loss": 1.5715,
      "step": 43420
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4662587642669678,
      "learning_rate": 0.0003173877980621179,
      "loss": 1.5363,
      "step": 43421
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.45697420835494995,
      "learning_rate": 0.0003173773635056565,
      "loss": 1.602,
      "step": 43422
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47104355692863464,
      "learning_rate": 0.00031736692892810135,
      "loss": 1.5694,
      "step": 43423
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4731810688972473,
      "learning_rate": 0.00031735649432946547,
      "loss": 1.585,
      "step": 43424
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4794781804084778,
      "learning_rate": 0.00031734605970976126,
      "loss": 1.6312,
      "step": 43425
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4798318147659302,
      "learning_rate": 0.0003173356250690016,
      "loss": 1.6051,
      "step": 43426
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46617230772972107,
      "learning_rate": 0.000317325190407199,
      "loss": 1.5917,
      "step": 43427
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4592271149158478,
      "learning_rate": 0.00031731475572436613,
      "loss": 1.6313,
      "step": 43428
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.46207472681999207,
      "learning_rate": 0.0003173043210205158,
      "loss": 1.5945,
      "step": 43429
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47550076246261597,
      "learning_rate": 0.0003172938862956604,
      "loss": 1.5355,
      "step": 43430
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4732467830181122,
      "learning_rate": 0.00031728345154981297,
      "loss": 1.6367,
      "step": 43431
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.47869762778282166,
      "learning_rate": 0.00031727301678298583,
      "loss": 1.6221,
      "step": 43432
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46564996242523193,
      "learning_rate": 0.00031726258199519185,
      "loss": 1.6428,
      "step": 43433
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46902549266815186,
      "learning_rate": 0.00031725214718644366,
      "loss": 1.6286,
      "step": 43434
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48837658762931824,
      "learning_rate": 0.0003172417123567539,
      "loss": 1.6352,
      "step": 43435
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46339085698127747,
      "learning_rate": 0.0003172312775061352,
      "loss": 1.6465,
      "step": 43436
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4540438652038574,
      "learning_rate": 0.0003172208426346003,
      "loss": 1.5779,
      "step": 43437
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4799807071685791,
      "learning_rate": 0.00031721040774216176,
      "loss": 1.5683,
      "step": 43438
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45854151248931885,
      "learning_rate": 0.0003171999728288324,
      "loss": 1.5924,
      "step": 43439
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49421393871307373,
      "learning_rate": 0.0003171895378946248,
      "loss": 1.675,
      "step": 43440
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45346322655677795,
      "learning_rate": 0.00031717910293955164,
      "loss": 1.5718,
      "step": 43441
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46938949823379517,
      "learning_rate": 0.0003171686679636256,
      "loss": 1.5901,
      "step": 43442
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4796590209007263,
      "learning_rate": 0.0003171582329668593,
      "loss": 1.5509,
      "step": 43443
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47692346572875977,
      "learning_rate": 0.0003171477979492654,
      "loss": 1.6083,
      "step": 43444
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4661531150341034,
      "learning_rate": 0.00031713736291085664,
      "loss": 1.5911,
      "step": 43445
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46501147747039795,
      "learning_rate": 0.0003171269278516456,
      "loss": 1.5877,
      "step": 43446
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46916723251342773,
      "learning_rate": 0.0003171164927716451,
      "loss": 1.5829,
      "step": 43447
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4640159010887146,
      "learning_rate": 0.00031710605767086753,
      "loss": 1.6099,
      "step": 43448
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4719024896621704,
      "learning_rate": 0.0003170956225493259,
      "loss": 1.6384,
      "step": 43449
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48826515674591064,
      "learning_rate": 0.00031708518740703254,
      "loss": 1.6498,
      "step": 43450
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.726332426071167,
      "learning_rate": 0.0003170747522440004,
      "loss": 1.665,
      "step": 43451
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4731106758117676,
      "learning_rate": 0.00031706431706024203,
      "loss": 1.6186,
      "step": 43452
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46767914295196533,
      "learning_rate": 0.00031705388185576997,
      "loss": 1.5507,
      "step": 43453
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45232120156288147,
      "learning_rate": 0.0003170434466305972,
      "loss": 1.6067,
      "step": 43454
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4659556448459625,
      "learning_rate": 0.000317033011384736,
      "loss": 1.6353,
      "step": 43455
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4745325446128845,
      "learning_rate": 0.0003170225761181994,
      "loss": 1.611,
      "step": 43456
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46824920177459717,
      "learning_rate": 0.0003170121408309998,
      "loss": 1.6612,
      "step": 43457
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46235090494155884,
      "learning_rate": 0.00031700170552314996,
      "loss": 1.664,
      "step": 43458
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4642505645751953,
      "learning_rate": 0.0003169912701946627,
      "loss": 1.5923,
      "step": 43459
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4699644446372986,
      "learning_rate": 0.00031698083484555035,
      "loss": 1.5724,
      "step": 43460
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48537150025367737,
      "learning_rate": 0.00031697039947582587,
      "loss": 1.6633,
      "step": 43461
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47987261414527893,
      "learning_rate": 0.0003169599640855018,
      "loss": 1.6979,
      "step": 43462
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47795867919921875,
      "learning_rate": 0.0003169495286745908,
      "loss": 1.6115,
      "step": 43463
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4846402704715729,
      "learning_rate": 0.0003169390932431056,
      "loss": 1.6077,
      "step": 43464
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48519808053970337,
      "learning_rate": 0.00031692865779105883,
      "loss": 1.5668,
      "step": 43465
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48186469078063965,
      "learning_rate": 0.0003169182223184632,
      "loss": 1.6901,
      "step": 43466
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48214149475097656,
      "learning_rate": 0.0003169077868253313,
      "loss": 1.5938,
      "step": 43467
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4808720052242279,
      "learning_rate": 0.0003168973513116759,
      "loss": 1.6122,
      "step": 43468
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.6092569828033447,
      "learning_rate": 0.0003168869157775095,
      "loss": 1.6455,
      "step": 43469
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4860299527645111,
      "learning_rate": 0.00031687648022284495,
      "loss": 1.5841,
      "step": 43470
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4819057285785675,
      "learning_rate": 0.00031686604464769484,
      "loss": 1.5807,
      "step": 43471
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46283677220344543,
      "learning_rate": 0.00031685560905207185,
      "loss": 1.5747,
      "step": 43472
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45677506923675537,
      "learning_rate": 0.0003168451734359885,
      "loss": 1.5557,
      "step": 43473
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48397114872932434,
      "learning_rate": 0.0003168347377994578,
      "loss": 1.699,
      "step": 43474
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45059922337532043,
      "learning_rate": 0.0003168243021424921,
      "loss": 1.5591,
      "step": 43475
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4874640703201294,
      "learning_rate": 0.00031681386646510414,
      "loss": 1.5695,
      "step": 43476
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46033933758735657,
      "learning_rate": 0.00031680343076730675,
      "loss": 1.6186,
      "step": 43477
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4585627019405365,
      "learning_rate": 0.0003167929950491123,
      "loss": 1.6026,
      "step": 43478
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4723607897758484,
      "learning_rate": 0.00031678255931053375,
      "loss": 1.5974,
      "step": 43479
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45664095878601074,
      "learning_rate": 0.00031677212355158356,
      "loss": 1.6174,
      "step": 43480
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46941250562667847,
      "learning_rate": 0.0003167616877722746,
      "loss": 1.6137,
      "step": 43481
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48412060737609863,
      "learning_rate": 0.0003167512519726193,
      "loss": 1.6221,
      "step": 43482
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4672841727733612,
      "learning_rate": 0.0003167408161526305,
      "loss": 1.6061,
      "step": 43483
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4583176076412201,
      "learning_rate": 0.0003167303803123209,
      "loss": 1.6375,
      "step": 43484
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4630237817764282,
      "learning_rate": 0.0003167199444517029,
      "loss": 1.6113,
      "step": 43485
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5031195282936096,
      "learning_rate": 0.0003167095085707895,
      "loss": 1.6691,
      "step": 43486
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45840147137641907,
      "learning_rate": 0.00031669907266959315,
      "loss": 1.5948,
      "step": 43487
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48270729184150696,
      "learning_rate": 0.00031668863674812664,
      "loss": 1.641,
      "step": 43488
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4787822663784027,
      "learning_rate": 0.0003166782008064025,
      "loss": 1.5625,
      "step": 43489
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4622957408428192,
      "learning_rate": 0.0003166677648444335,
      "loss": 1.5366,
      "step": 43490
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4710499346256256,
      "learning_rate": 0.00031665732886223245,
      "loss": 1.5659,
      "step": 43491
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46924760937690735,
      "learning_rate": 0.00031664689285981166,
      "loss": 1.6338,
      "step": 43492
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45677343010902405,
      "learning_rate": 0.00031663645683718404,
      "loss": 1.6204,
      "step": 43493
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4679509103298187,
      "learning_rate": 0.0003166260207943623,
      "loss": 1.6439,
      "step": 43494
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.464955598115921,
      "learning_rate": 0.0003166155847313589,
      "loss": 1.5961,
      "step": 43495
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48588451743125916,
      "learning_rate": 0.00031660514864818666,
      "loss": 1.674,
      "step": 43496
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46397528052330017,
      "learning_rate": 0.0003165947125448583,
      "loss": 1.573,
      "step": 43497
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47152718901634216,
      "learning_rate": 0.00031658427642138634,
      "loss": 1.5623,
      "step": 43498
    },
    {
      "epoch": 1.45,
      "grad_norm": 1.2351160049438477,
      "learning_rate": 0.0003165738402777835,
      "loss": 1.6722,
      "step": 43499
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47224149107933044,
      "learning_rate": 0.00031656340411406254,
      "loss": 1.5517,
      "step": 43500
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4565480649471283,
      "learning_rate": 0.0003165529679302359,
      "loss": 1.5031,
      "step": 43501
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46936631202697754,
      "learning_rate": 0.0003165425317263165,
      "loss": 1.6272,
      "step": 43502
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46536532044410706,
      "learning_rate": 0.0003165320955023169,
      "loss": 1.6693,
      "step": 43503
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48822689056396484,
      "learning_rate": 0.00031652165925824977,
      "loss": 1.6015,
      "step": 43504
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48318907618522644,
      "learning_rate": 0.0003165112229941278,
      "loss": 1.6337,
      "step": 43505
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4660225510597229,
      "learning_rate": 0.00031650078670996355,
      "loss": 1.5937,
      "step": 43506
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47765132784843445,
      "learning_rate": 0.0003164903504057699,
      "loss": 1.5565,
      "step": 43507
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45604899525642395,
      "learning_rate": 0.00031647991408155924,
      "loss": 1.6062,
      "step": 43508
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47252368927001953,
      "learning_rate": 0.0003164694777373445,
      "loss": 1.6139,
      "step": 43509
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47845032811164856,
      "learning_rate": 0.0003164590413731382,
      "loss": 1.5574,
      "step": 43510
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47401008009910583,
      "learning_rate": 0.0003164486049889531,
      "loss": 1.6334,
      "step": 43511
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4660145044326782,
      "learning_rate": 0.0003164381685848018,
      "loss": 1.6265,
      "step": 43512
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5502399206161499,
      "learning_rate": 0.00031642773216069696,
      "loss": 1.6701,
      "step": 43513
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4612886607646942,
      "learning_rate": 0.0003164172957166513,
      "loss": 1.6302,
      "step": 43514
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47292035818099976,
      "learning_rate": 0.00031640685925267734,
      "loss": 1.5756,
      "step": 43515
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4752373993396759,
      "learning_rate": 0.00031639642276878806,
      "loss": 1.6171,
      "step": 43516
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47203558683395386,
      "learning_rate": 0.0003163859862649958,
      "loss": 1.6492,
      "step": 43517
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4833625257015228,
      "learning_rate": 0.0003163755497413135,
      "loss": 1.6019,
      "step": 43518
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4648206830024719,
      "learning_rate": 0.00031636511319775356,
      "loss": 1.6701,
      "step": 43519
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4773780107498169,
      "learning_rate": 0.00031635467663432884,
      "loss": 1.5828,
      "step": 43520
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47553765773773193,
      "learning_rate": 0.000316344240051052,
      "loss": 1.58,
      "step": 43521
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4773351550102234,
      "learning_rate": 0.0003163338034479356,
      "loss": 1.6005,
      "step": 43522
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4894754886627197,
      "learning_rate": 0.0003163233668249924,
      "loss": 1.6477,
      "step": 43523
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47398561239242554,
      "learning_rate": 0.000316312930182235,
      "loss": 1.5974,
      "step": 43524
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4715946614742279,
      "learning_rate": 0.0003163024935196761,
      "loss": 1.603,
      "step": 43525
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47325563430786133,
      "learning_rate": 0.00031629205683732844,
      "loss": 1.6058,
      "step": 43526
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4842134118080139,
      "learning_rate": 0.0003162816201352046,
      "loss": 1.6129,
      "step": 43527
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4940885007381439,
      "learning_rate": 0.00031627118341331716,
      "loss": 1.6344,
      "step": 43528
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46510952711105347,
      "learning_rate": 0.0003162607466716791,
      "loss": 1.5756,
      "step": 43529
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4741419553756714,
      "learning_rate": 0.00031625030991030273,
      "loss": 1.6709,
      "step": 43530
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5002158880233765,
      "learning_rate": 0.000316239873129201,
      "loss": 1.643,
      "step": 43531
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4907311797142029,
      "learning_rate": 0.00031622943632838636,
      "loss": 1.6341,
      "step": 43532
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47751444578170776,
      "learning_rate": 0.0003162189995078716,
      "loss": 1.6294,
      "step": 43533
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.491818368434906,
      "learning_rate": 0.0003162085626676694,
      "loss": 1.5553,
      "step": 43534
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4829345941543579,
      "learning_rate": 0.0003161981258077923,
      "loss": 1.5742,
      "step": 43535
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4684560298919678,
      "learning_rate": 0.0003161876889282532,
      "loss": 1.5152,
      "step": 43536
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4706342816352844,
      "learning_rate": 0.0003161772520290645,
      "loss": 1.6444,
      "step": 43537
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4853130877017975,
      "learning_rate": 0.00031616681511023907,
      "loss": 1.66,
      "step": 43538
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4699331820011139,
      "learning_rate": 0.00031615637817178956,
      "loss": 1.6143,
      "step": 43539
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4704764485359192,
      "learning_rate": 0.0003161459412137285,
      "loss": 1.6727,
      "step": 43540
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4851713180541992,
      "learning_rate": 0.00031613550423606864,
      "loss": 1.6026,
      "step": 43541
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48586997389793396,
      "learning_rate": 0.0003161250672388227,
      "loss": 1.5966,
      "step": 43542
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46695494651794434,
      "learning_rate": 0.00031611463022200326,
      "loss": 1.5917,
      "step": 43543
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46085280179977417,
      "learning_rate": 0.00031610419318562304,
      "loss": 1.6581,
      "step": 43544
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4591878354549408,
      "learning_rate": 0.00031609375612969476,
      "loss": 1.5372,
      "step": 43545
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47851282358169556,
      "learning_rate": 0.00031608331905423105,
      "loss": 1.6123,
      "step": 43546
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4764682948589325,
      "learning_rate": 0.00031607288195924444,
      "loss": 1.6317,
      "step": 43547
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46143805980682373,
      "learning_rate": 0.0003160624448447478,
      "loss": 1.6528,
      "step": 43548
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4798012375831604,
      "learning_rate": 0.00031605200771075374,
      "loss": 1.5871,
      "step": 43549
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4668923318386078,
      "learning_rate": 0.00031604157055727485,
      "loss": 1.6375,
      "step": 43550
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.499497652053833,
      "learning_rate": 0.00031603113338432386,
      "loss": 1.6465,
      "step": 43551
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48506635427474976,
      "learning_rate": 0.00031602069619191344,
      "loss": 1.5781,
      "step": 43552
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5244173407554626,
      "learning_rate": 0.00031601025898005635,
      "loss": 1.6305,
      "step": 43553
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46434301137924194,
      "learning_rate": 0.0003159998217487651,
      "loss": 1.6547,
      "step": 43554
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45667901635169983,
      "learning_rate": 0.0003159893844980524,
      "loss": 1.6343,
      "step": 43555
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45780834555625916,
      "learning_rate": 0.000315978947227931,
      "loss": 1.5836,
      "step": 43556
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4692803919315338,
      "learning_rate": 0.00031596850993841335,
      "loss": 1.6428,
      "step": 43557
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4918842613697052,
      "learning_rate": 0.0003159580726295124,
      "loss": 1.5506,
      "step": 43558
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48010262846946716,
      "learning_rate": 0.0003159476353012407,
      "loss": 1.6202,
      "step": 43559
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.483456552028656,
      "learning_rate": 0.000315937197953611,
      "loss": 1.6975,
      "step": 43560
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4567457437515259,
      "learning_rate": 0.0003159267605866358,
      "loss": 1.6009,
      "step": 43561
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.494271844625473,
      "learning_rate": 0.00031591632320032784,
      "loss": 1.6624,
      "step": 43562
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4605731964111328,
      "learning_rate": 0.00031590588579469986,
      "loss": 1.5806,
      "step": 43563
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47205162048339844,
      "learning_rate": 0.0003158954483697645,
      "loss": 1.6362,
      "step": 43564
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47260087728500366,
      "learning_rate": 0.00031588501092553426,
      "loss": 1.6549,
      "step": 43565
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4792931377887726,
      "learning_rate": 0.0003158745734620221,
      "loss": 1.5938,
      "step": 43566
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49687620997428894,
      "learning_rate": 0.0003158641359792405,
      "loss": 1.5855,
      "step": 43567
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49431538581848145,
      "learning_rate": 0.0003158536984772022,
      "loss": 1.5947,
      "step": 43568
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48445630073547363,
      "learning_rate": 0.00031584326095591986,
      "loss": 1.5957,
      "step": 43569
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4828776717185974,
      "learning_rate": 0.00031583282341540606,
      "loss": 1.5877,
      "step": 43570
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48682358860969543,
      "learning_rate": 0.00031582238585567364,
      "loss": 1.6103,
      "step": 43571
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.450156033039093,
      "learning_rate": 0.00031581194827673506,
      "loss": 1.572,
      "step": 43572
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48725205659866333,
      "learning_rate": 0.00031580151067860324,
      "loss": 1.5751,
      "step": 43573
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4911459684371948,
      "learning_rate": 0.0003157910730612906,
      "loss": 1.5674,
      "step": 43574
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48560258746147156,
      "learning_rate": 0.0003157806354248099,
      "loss": 1.6136,
      "step": 43575
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48792263865470886,
      "learning_rate": 0.000315770197769174,
      "loss": 1.6096,
      "step": 43576
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4729996621608734,
      "learning_rate": 0.00031575976009439523,
      "loss": 1.6382,
      "step": 43577
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47315388917922974,
      "learning_rate": 0.0003157493224004866,
      "loss": 1.5576,
      "step": 43578
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.470041424036026,
      "learning_rate": 0.00031573888468746053,
      "loss": 1.6215,
      "step": 43579
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4878920316696167,
      "learning_rate": 0.0003157284469553297,
      "loss": 1.6019,
      "step": 43580
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48176974058151245,
      "learning_rate": 0.000315718009204107,
      "loss": 1.6419,
      "step": 43581
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4592079222202301,
      "learning_rate": 0.0003157075714338048,
      "loss": 1.6242,
      "step": 43582
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4785177409648895,
      "learning_rate": 0.000315697133644436,
      "loss": 1.56,
      "step": 43583
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5038386583328247,
      "learning_rate": 0.00031568669583601324,
      "loss": 1.5932,
      "step": 43584
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4818938076496124,
      "learning_rate": 0.0003156762580085491,
      "loss": 1.641,
      "step": 43585
    },
    {
      "epoch": 1.45,
      "grad_norm": 1.1245322227478027,
      "learning_rate": 0.00031566582016205624,
      "loss": 1.5909,
      "step": 43586
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49294373393058777,
      "learning_rate": 0.0003156553822965474,
      "loss": 1.5934,
      "step": 43587
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4484350383281708,
      "learning_rate": 0.00031564494441203524,
      "loss": 1.5726,
      "step": 43588
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4533017575740814,
      "learning_rate": 0.0003156345065085325,
      "loss": 1.5516,
      "step": 43589
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47410205006599426,
      "learning_rate": 0.00031562406858605163,
      "loss": 1.678,
      "step": 43590
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47444018721580505,
      "learning_rate": 0.0003156136306446056,
      "loss": 1.6241,
      "step": 43591
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48195260763168335,
      "learning_rate": 0.0003156031926842069,
      "loss": 1.6805,
      "step": 43592
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4755747616291046,
      "learning_rate": 0.0003155927547048681,
      "loss": 1.6761,
      "step": 43593
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4736877679824829,
      "learning_rate": 0.00031558231670660215,
      "loss": 1.5883,
      "step": 43594
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4714396893978119,
      "learning_rate": 0.00031557187868942136,
      "loss": 1.5792,
      "step": 43595
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4750901460647583,
      "learning_rate": 0.0003155614406533388,
      "loss": 1.5608,
      "step": 43596
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47551295161247253,
      "learning_rate": 0.0003155510025983668,
      "loss": 1.5981,
      "step": 43597
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4820351302623749,
      "learning_rate": 0.0003155405645245183,
      "loss": 1.5704,
      "step": 43598
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4751828908920288,
      "learning_rate": 0.00031553012643180574,
      "loss": 1.5712,
      "step": 43599
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48548609018325806,
      "learning_rate": 0.00031551968832024195,
      "loss": 1.6328,
      "step": 43600
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47222065925598145,
      "learning_rate": 0.00031550925018983955,
      "loss": 1.6255,
      "step": 43601
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4818807542324066,
      "learning_rate": 0.0003154988120406111,
      "loss": 1.6208,
      "step": 43602
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4509652554988861,
      "learning_rate": 0.00031548837387256957,
      "loss": 1.6088,
      "step": 43603
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45802122354507446,
      "learning_rate": 0.0003154779356857273,
      "loss": 1.6257,
      "step": 43604
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4898645877838135,
      "learning_rate": 0.00031546749748009715,
      "loss": 1.614,
      "step": 43605
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.473755419254303,
      "learning_rate": 0.00031545705925569166,
      "loss": 1.6163,
      "step": 43606
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4783098101615906,
      "learning_rate": 0.0003154466210125237,
      "loss": 1.6071,
      "step": 43607
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47682803869247437,
      "learning_rate": 0.00031543618275060577,
      "loss": 1.6032,
      "step": 43608
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4879612326622009,
      "learning_rate": 0.0003154257444699505,
      "loss": 1.6047,
      "step": 43609
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4568003714084625,
      "learning_rate": 0.0003154153061705707,
      "loss": 1.6577,
      "step": 43610
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4685378670692444,
      "learning_rate": 0.00031540486785247904,
      "loss": 1.5664,
      "step": 43611
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4730467200279236,
      "learning_rate": 0.00031539442951568814,
      "loss": 1.5617,
      "step": 43612
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48303595185279846,
      "learning_rate": 0.00031538399116021063,
      "loss": 1.5699,
      "step": 43613
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4829808473587036,
      "learning_rate": 0.0003153735527860592,
      "loss": 1.6758,
      "step": 43614
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49648863077163696,
      "learning_rate": 0.00031536311439324665,
      "loss": 1.5505,
      "step": 43615
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.478283554315567,
      "learning_rate": 0.00031535267598178544,
      "loss": 1.6791,
      "step": 43616
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4871082603931427,
      "learning_rate": 0.00031534223755168837,
      "loss": 1.6208,
      "step": 43617
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4912944734096527,
      "learning_rate": 0.000315331799102968,
      "loss": 1.6154,
      "step": 43618
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4785360097885132,
      "learning_rate": 0.00031532136063563726,
      "loss": 1.6162,
      "step": 43619
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4814002513885498,
      "learning_rate": 0.0003153109221497085,
      "loss": 1.6303,
      "step": 43620
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.468463271856308,
      "learning_rate": 0.00031530048364519466,
      "loss": 1.6286,
      "step": 43621
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46217674016952515,
      "learning_rate": 0.0003152900451221082,
      "loss": 1.6204,
      "step": 43622
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4637499749660492,
      "learning_rate": 0.00031527960658046187,
      "loss": 1.5516,
      "step": 43623
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4616377353668213,
      "learning_rate": 0.00031526916802026845,
      "loss": 1.5002,
      "step": 43624
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4707939028739929,
      "learning_rate": 0.00031525872944154033,
      "loss": 1.6081,
      "step": 43625
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.481593519449234,
      "learning_rate": 0.0003152482908442905,
      "loss": 1.5868,
      "step": 43626
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4688833951950073,
      "learning_rate": 0.0003152378522285314,
      "loss": 1.5843,
      "step": 43627
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45308125019073486,
      "learning_rate": 0.0003152274135942759,
      "loss": 1.5154,
      "step": 43628
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5033957362174988,
      "learning_rate": 0.0003152169749415365,
      "loss": 1.5868,
      "step": 43629
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4774620234966278,
      "learning_rate": 0.00031520653627032595,
      "loss": 1.5789,
      "step": 43630
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47348836064338684,
      "learning_rate": 0.00031519609758065694,
      "loss": 1.5728,
      "step": 43631
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5021353363990784,
      "learning_rate": 0.000315185658872542,
      "loss": 1.6407,
      "step": 43632
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45744743943214417,
      "learning_rate": 0.00031517522014599405,
      "loss": 1.6543,
      "step": 43633
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47625306248664856,
      "learning_rate": 0.0003151647814010255,
      "loss": 1.66,
      "step": 43634
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5961156487464905,
      "learning_rate": 0.0003151543426376492,
      "loss": 1.6194,
      "step": 43635
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47964245080947876,
      "learning_rate": 0.0003151439038558777,
      "loss": 1.6622,
      "step": 43636
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5303124189376831,
      "learning_rate": 0.0003151334650557238,
      "loss": 1.6301,
      "step": 43637
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4880537688732147,
      "learning_rate": 0.0003151230262372001,
      "loss": 1.5429,
      "step": 43638
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4807802736759186,
      "learning_rate": 0.00031511258740031924,
      "loss": 1.6148,
      "step": 43639
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47870251536369324,
      "learning_rate": 0.000315102148545094,
      "loss": 1.638,
      "step": 43640
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45959264039993286,
      "learning_rate": 0.0003150917096715369,
      "loss": 1.653,
      "step": 43641
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46793821454048157,
      "learning_rate": 0.00031508127077966067,
      "loss": 1.5907,
      "step": 43642
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4752022624015808,
      "learning_rate": 0.00031507083186947806,
      "loss": 1.5447,
      "step": 43643
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.493348091840744,
      "learning_rate": 0.00031506039294100166,
      "loss": 1.6405,
      "step": 43644
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4830271005630493,
      "learning_rate": 0.0003150499539942441,
      "loss": 1.582,
      "step": 43645
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47931134700775146,
      "learning_rate": 0.00031503951502921825,
      "loss": 1.5521,
      "step": 43646
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4586183726787567,
      "learning_rate": 0.00031502907604593657,
      "loss": 1.6078,
      "step": 43647
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47076180577278137,
      "learning_rate": 0.00031501863704441177,
      "loss": 1.6555,
      "step": 43648
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4751316010951996,
      "learning_rate": 0.0003150081980246566,
      "loss": 1.6168,
      "step": 43649
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49951133131980896,
      "learning_rate": 0.0003149977589866837,
      "loss": 1.6313,
      "step": 43650
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48622050881385803,
      "learning_rate": 0.0003149873199305057,
      "loss": 1.5382,
      "step": 43651
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46345335245132446,
      "learning_rate": 0.0003149768808561353,
      "loss": 1.5647,
      "step": 43652
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4849703013896942,
      "learning_rate": 0.0003149664417635852,
      "loss": 1.6057,
      "step": 43653
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5139052867889404,
      "learning_rate": 0.000314956002652868,
      "loss": 1.7005,
      "step": 43654
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5071956515312195,
      "learning_rate": 0.00031494556352399647,
      "loss": 1.6211,
      "step": 43655
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49195295572280884,
      "learning_rate": 0.0003149351243769833,
      "loss": 1.6132,
      "step": 43656
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47628358006477356,
      "learning_rate": 0.0003149246852118409,
      "loss": 1.6065,
      "step": 43657
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4695783257484436,
      "learning_rate": 0.0003149142460285823,
      "loss": 1.637,
      "step": 43658
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47320207953453064,
      "learning_rate": 0.0003149038068272198,
      "loss": 1.5641,
      "step": 43659
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4652285575866699,
      "learning_rate": 0.00031489336760776645,
      "loss": 1.5542,
      "step": 43660
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47179874777793884,
      "learning_rate": 0.0003148829283702347,
      "loss": 1.6393,
      "step": 43661
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46763667464256287,
      "learning_rate": 0.00031487248911463725,
      "loss": 1.6082,
      "step": 43662
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4624151885509491,
      "learning_rate": 0.00031486204984098687,
      "loss": 1.6707,
      "step": 43663
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4828000068664551,
      "learning_rate": 0.000314851610549296,
      "loss": 1.6353,
      "step": 43664
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4806644320487976,
      "learning_rate": 0.0003148411712395776,
      "loss": 1.551,
      "step": 43665
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.480238676071167,
      "learning_rate": 0.0003148307319118442,
      "loss": 1.586,
      "step": 43666
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48309075832366943,
      "learning_rate": 0.00031482029256610844,
      "loss": 1.6937,
      "step": 43667
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47289982438087463,
      "learning_rate": 0.0003148098532023829,
      "loss": 1.6471,
      "step": 43668
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4921495020389557,
      "learning_rate": 0.0003147994138206805,
      "loss": 1.6183,
      "step": 43669
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46235761046409607,
      "learning_rate": 0.00031478897442101386,
      "loss": 1.6721,
      "step": 43670
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4710746109485626,
      "learning_rate": 0.0003147785350033956,
      "loss": 1.5715,
      "step": 43671
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49384868144989014,
      "learning_rate": 0.00031476809556783825,
      "loss": 1.6713,
      "step": 43672
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46657538414001465,
      "learning_rate": 0.0003147576561143546,
      "loss": 1.6457,
      "step": 43673
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4450496733188629,
      "learning_rate": 0.00031474721664295736,
      "loss": 1.5986,
      "step": 43674
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4715414345264435,
      "learning_rate": 0.0003147367771536592,
      "loss": 1.682,
      "step": 43675
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4664817154407501,
      "learning_rate": 0.00031472633764647283,
      "loss": 1.6501,
      "step": 43676
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45257991552352905,
      "learning_rate": 0.00031471589812141076,
      "loss": 1.5842,
      "step": 43677
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4539431035518646,
      "learning_rate": 0.00031470545857848576,
      "loss": 1.5426,
      "step": 43678
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48417794704437256,
      "learning_rate": 0.0003146950190177105,
      "loss": 1.6205,
      "step": 43679
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4849657416343689,
      "learning_rate": 0.0003146845794390977,
      "loss": 1.61,
      "step": 43680
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4733275771141052,
      "learning_rate": 0.00031467413984266005,
      "loss": 1.6095,
      "step": 43681
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5122916102409363,
      "learning_rate": 0.00031466370022840994,
      "loss": 1.5692,
      "step": 43682
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46089473366737366,
      "learning_rate": 0.0003146532605963605,
      "loss": 1.543,
      "step": 43683
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4527444839477539,
      "learning_rate": 0.000314642820946524,
      "loss": 1.6127,
      "step": 43684
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4748086631298065,
      "learning_rate": 0.0003146323812789133,
      "loss": 1.6447,
      "step": 43685
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4786529839038849,
      "learning_rate": 0.0003146219415935411,
      "loss": 1.6071,
      "step": 43686
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49302923679351807,
      "learning_rate": 0.0003146115018904199,
      "loss": 1.6509,
      "step": 43687
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47947150468826294,
      "learning_rate": 0.0003146010621695626,
      "loss": 1.6616,
      "step": 43688
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47516730427742004,
      "learning_rate": 0.00031459062243098166,
      "loss": 1.5942,
      "step": 43689
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47151243686676025,
      "learning_rate": 0.00031458018267469,
      "loss": 1.6176,
      "step": 43690
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47821059823036194,
      "learning_rate": 0.00031456974290070005,
      "loss": 1.618,
      "step": 43691
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4805043637752533,
      "learning_rate": 0.0003145593031090246,
      "loss": 1.5446,
      "step": 43692
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4797205328941345,
      "learning_rate": 0.00031454886329967637,
      "loss": 1.6612,
      "step": 43693
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49111491441726685,
      "learning_rate": 0.0003145384234726678,
      "loss": 1.6164,
      "step": 43694
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47581353783607483,
      "learning_rate": 0.0003145279836280119,
      "loss": 1.6919,
      "step": 43695
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46991705894470215,
      "learning_rate": 0.0003145175437657211,
      "loss": 1.5647,
      "step": 43696
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45225992798805237,
      "learning_rate": 0.0003145071038858081,
      "loss": 1.6436,
      "step": 43697
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4590509235858917,
      "learning_rate": 0.0003144966639882856,
      "loss": 1.5694,
      "step": 43698
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47955140471458435,
      "learning_rate": 0.0003144862240731663,
      "loss": 1.5846,
      "step": 43699
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47623172402381897,
      "learning_rate": 0.0003144757841404629,
      "loss": 1.602,
      "step": 43700
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4756860136985779,
      "learning_rate": 0.0003144653441901881,
      "loss": 1.6911,
      "step": 43701
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4589182734489441,
      "learning_rate": 0.0003144549042223544,
      "loss": 1.6007,
      "step": 43702
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4709973931312561,
      "learning_rate": 0.0003144444642369746,
      "loss": 1.5205,
      "step": 43703
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47889283299446106,
      "learning_rate": 0.0003144340242340613,
      "loss": 1.6109,
      "step": 43704
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4765065610408783,
      "learning_rate": 0.00031442358421362727,
      "loss": 1.643,
      "step": 43705
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49544045329093933,
      "learning_rate": 0.0003144131441756852,
      "loss": 1.5838,
      "step": 43706
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47684672474861145,
      "learning_rate": 0.0003144027041202476,
      "loss": 1.6193,
      "step": 43707
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.5080443024635315,
      "learning_rate": 0.0003143922640473273,
      "loss": 1.6554,
      "step": 43708
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4700238108634949,
      "learning_rate": 0.0003143818239569369,
      "loss": 1.5499,
      "step": 43709
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4805607199668884,
      "learning_rate": 0.000314371383849089,
      "loss": 1.5945,
      "step": 43710
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48236963152885437,
      "learning_rate": 0.0003143609437237965,
      "loss": 1.6049,
      "step": 43711
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4724794626235962,
      "learning_rate": 0.0003143505035810718,
      "loss": 1.5909,
      "step": 43712
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4791422188282013,
      "learning_rate": 0.0003143400634209278,
      "loss": 1.5631,
      "step": 43713
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46304255723953247,
      "learning_rate": 0.0003143296232433769,
      "loss": 1.5899,
      "step": 43714
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46340441703796387,
      "learning_rate": 0.0003143191830484321,
      "loss": 1.6604,
      "step": 43715
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4949222803115845,
      "learning_rate": 0.00031430874283610595,
      "loss": 1.6655,
      "step": 43716
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.469221293926239,
      "learning_rate": 0.00031429830260641103,
      "loss": 1.6378,
      "step": 43717
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4657612144947052,
      "learning_rate": 0.00031428786235936014,
      "loss": 1.6528,
      "step": 43718
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4516308605670929,
      "learning_rate": 0.00031427742209496576,
      "loss": 1.5653,
      "step": 43719
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4955158531665802,
      "learning_rate": 0.0003142669818132409,
      "loss": 1.5837,
      "step": 43720
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4838225841522217,
      "learning_rate": 0.00031425654151419786,
      "loss": 1.5723,
      "step": 43721
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4722670316696167,
      "learning_rate": 0.0003142461011978495,
      "loss": 1.5319,
      "step": 43722
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4675799310207367,
      "learning_rate": 0.0003142356608642085,
      "loss": 1.6479,
      "step": 43723
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.48376935720443726,
      "learning_rate": 0.0003142252205132875,
      "loss": 1.5637,
      "step": 43724
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4749320149421692,
      "learning_rate": 0.00031421478014509924,
      "loss": 1.5118,
      "step": 43725
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47541284561157227,
      "learning_rate": 0.00031420433975965623,
      "loss": 1.6755,
      "step": 43726
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.481446236371994,
      "learning_rate": 0.00031419389935697127,
      "loss": 1.6235,
      "step": 43727
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.46990782022476196,
      "learning_rate": 0.00031418345893705703,
      "loss": 1.6357,
      "step": 43728
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4636189043521881,
      "learning_rate": 0.00031417301849992615,
      "loss": 1.5879,
      "step": 43729
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4880613684654236,
      "learning_rate": 0.0003141625780455913,
      "loss": 1.6056,
      "step": 43730
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.47824013233184814,
      "learning_rate": 0.00031415213757406526,
      "loss": 1.5939,
      "step": 43731
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.45977166295051575,
      "learning_rate": 0.0003141416970853605,
      "loss": 1.5292,
      "step": 43732
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48225995898246765,
      "learning_rate": 0.0003141312565794898,
      "loss": 1.6811,
      "step": 43733
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49990320205688477,
      "learning_rate": 0.00031412081605646587,
      "loss": 1.6448,
      "step": 43734
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4727988541126251,
      "learning_rate": 0.00031411037551630136,
      "loss": 1.6207,
      "step": 43735
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49050796031951904,
      "learning_rate": 0.00031409993495900895,
      "loss": 1.6672,
      "step": 43736
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4654305577278137,
      "learning_rate": 0.0003140894943846012,
      "loss": 1.6038,
      "step": 43737
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48396429419517517,
      "learning_rate": 0.00031407905379309106,
      "loss": 1.5984,
      "step": 43738
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49720197916030884,
      "learning_rate": 0.00031406861318449084,
      "loss": 1.6787,
      "step": 43739
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48007652163505554,
      "learning_rate": 0.0003140581725588135,
      "loss": 1.6395,
      "step": 43740
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4674208462238312,
      "learning_rate": 0.0003140477319160716,
      "loss": 1.5621,
      "step": 43741
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4875434637069702,
      "learning_rate": 0.00031403729125627775,
      "loss": 1.603,
      "step": 43742
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4672855734825134,
      "learning_rate": 0.0003140268505794448,
      "loss": 1.5765,
      "step": 43743
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48623019456863403,
      "learning_rate": 0.0003140164098855852,
      "loss": 1.5844,
      "step": 43744
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46360206604003906,
      "learning_rate": 0.0003140059691747119,
      "loss": 1.59,
      "step": 43745
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.506587564945221,
      "learning_rate": 0.00031399552844683736,
      "loss": 1.5594,
      "step": 43746
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48190587759017944,
      "learning_rate": 0.00031398508770197423,
      "loss": 1.6847,
      "step": 43747
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48686766624450684,
      "learning_rate": 0.0003139746469401354,
      "loss": 1.6299,
      "step": 43748
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47184106707572937,
      "learning_rate": 0.00031396420616133325,
      "loss": 1.5996,
      "step": 43749
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46642589569091797,
      "learning_rate": 0.00031395376536558076,
      "loss": 1.5938,
      "step": 43750
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49579426646232605,
      "learning_rate": 0.00031394332455289027,
      "loss": 1.6002,
      "step": 43751
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47978344559669495,
      "learning_rate": 0.0003139328837232748,
      "loss": 1.6043,
      "step": 43752
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4805956482887268,
      "learning_rate": 0.0003139224428767468,
      "loss": 1.6317,
      "step": 43753
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46679747104644775,
      "learning_rate": 0.00031391200201331905,
      "loss": 1.5952,
      "step": 43754
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48644742369651794,
      "learning_rate": 0.0003139015611330041,
      "loss": 1.6198,
      "step": 43755
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48118075728416443,
      "learning_rate": 0.00031389112023581475,
      "loss": 1.5898,
      "step": 43756
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45765069127082825,
      "learning_rate": 0.00031388067932176366,
      "loss": 1.5559,
      "step": 43757
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48908719420433044,
      "learning_rate": 0.0003138702383908634,
      "loss": 1.6706,
      "step": 43758
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4748697280883789,
      "learning_rate": 0.00031385979744312677,
      "loss": 1.6431,
      "step": 43759
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4598372280597687,
      "learning_rate": 0.0003138493564785664,
      "loss": 1.6221,
      "step": 43760
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46436598896980286,
      "learning_rate": 0.0003138389154971949,
      "loss": 1.5639,
      "step": 43761
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4779600501060486,
      "learning_rate": 0.000313828474499025,
      "loss": 1.6167,
      "step": 43762
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5015033483505249,
      "learning_rate": 0.00031381803348406946,
      "loss": 1.5284,
      "step": 43763
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4822508692741394,
      "learning_rate": 0.00031380759245234075,
      "loss": 1.556,
      "step": 43764
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4842699468135834,
      "learning_rate": 0.0003137971514038517,
      "loss": 1.6012,
      "step": 43765
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4680423438549042,
      "learning_rate": 0.00031378671033861495,
      "loss": 1.6121,
      "step": 43766
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.8002043962478638,
      "learning_rate": 0.0003137762692566431,
      "loss": 1.6066,
      "step": 43767
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.473500519990921,
      "learning_rate": 0.00031376582815794904,
      "loss": 1.5965,
      "step": 43768
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49565643072128296,
      "learning_rate": 0.00031375538704254513,
      "loss": 1.6084,
      "step": 43769
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4946443438529968,
      "learning_rate": 0.00031374494591044434,
      "loss": 1.6322,
      "step": 43770
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4792589843273163,
      "learning_rate": 0.0003137345047616591,
      "loss": 1.6663,
      "step": 43771
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45758822560310364,
      "learning_rate": 0.00031372406359620223,
      "loss": 1.5857,
      "step": 43772
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48272496461868286,
      "learning_rate": 0.00031371362241408644,
      "loss": 1.6203,
      "step": 43773
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4834428131580353,
      "learning_rate": 0.0003137031812153242,
      "loss": 1.6103,
      "step": 43774
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49013498425483704,
      "learning_rate": 0.00031369273999992843,
      "loss": 1.6563,
      "step": 43775
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47408509254455566,
      "learning_rate": 0.00031368229876791153,
      "loss": 1.6208,
      "step": 43776
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4735579490661621,
      "learning_rate": 0.0003136718575192866,
      "loss": 1.5909,
      "step": 43777
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4607546925544739,
      "learning_rate": 0.00031366141625406585,
      "loss": 1.6065,
      "step": 43778
    },
    {
      "epoch": 1.46,
      "grad_norm": 1.0694814920425415,
      "learning_rate": 0.00031365097497226217,
      "loss": 1.596,
      "step": 43779
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.518616795539856,
      "learning_rate": 0.00031364053367388835,
      "loss": 1.6182,
      "step": 43780
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47663062810897827,
      "learning_rate": 0.00031363009235895676,
      "loss": 1.6428,
      "step": 43781
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4752228260040283,
      "learning_rate": 0.0003136196510274804,
      "loss": 1.5621,
      "step": 43782
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45483481884002686,
      "learning_rate": 0.00031360920967947166,
      "loss": 1.6383,
      "step": 43783
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49186450242996216,
      "learning_rate": 0.0003135987683149434,
      "loss": 1.5737,
      "step": 43784
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49572989344596863,
      "learning_rate": 0.00031358832693390823,
      "loss": 1.6852,
      "step": 43785
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46655386686325073,
      "learning_rate": 0.0003135778855363788,
      "loss": 1.6131,
      "step": 43786
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4587801694869995,
      "learning_rate": 0.00031356744412236795,
      "loss": 1.5777,
      "step": 43787
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.471437007188797,
      "learning_rate": 0.0003135570026918881,
      "loss": 1.6519,
      "step": 43788
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4874756336212158,
      "learning_rate": 0.0003135465612449521,
      "loss": 1.5938,
      "step": 43789
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4689365327358246,
      "learning_rate": 0.0003135361197815725,
      "loss": 1.6189,
      "step": 43790
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4553234875202179,
      "learning_rate": 0.0003135256783017621,
      "loss": 1.5701,
      "step": 43791
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4708489775657654,
      "learning_rate": 0.0003135152368055335,
      "loss": 1.6004,
      "step": 43792
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4840959906578064,
      "learning_rate": 0.00031350479529289945,
      "loss": 1.6405,
      "step": 43793
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4787041246891022,
      "learning_rate": 0.0003134943537638725,
      "loss": 1.6195,
      "step": 43794
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4680784344673157,
      "learning_rate": 0.0003134839122184654,
      "loss": 1.6227,
      "step": 43795
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4713901877403259,
      "learning_rate": 0.00031347347065669085,
      "loss": 1.6277,
      "step": 43796
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4744352102279663,
      "learning_rate": 0.0003134630290785615,
      "loss": 1.6587,
      "step": 43797
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.474523663520813,
      "learning_rate": 0.00031345258748409,
      "loss": 1.5437,
      "step": 43798
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46067941188812256,
      "learning_rate": 0.00031344214587328896,
      "loss": 1.63,
      "step": 43799
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4915468990802765,
      "learning_rate": 0.0003134317042461713,
      "loss": 1.6162,
      "step": 43800
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.6319559216499329,
      "learning_rate": 0.00031342126260274937,
      "loss": 1.5364,
      "step": 43801
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5021660327911377,
      "learning_rate": 0.0003134108209430361,
      "loss": 1.613,
      "step": 43802
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46969175338745117,
      "learning_rate": 0.0003134003792670441,
      "loss": 1.6185,
      "step": 43803
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47854557633399963,
      "learning_rate": 0.0003133899375747859,
      "loss": 1.5494,
      "step": 43804
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49960267543792725,
      "learning_rate": 0.0003133794958662744,
      "loss": 1.6526,
      "step": 43805
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47872453927993774,
      "learning_rate": 0.000313369054141522,
      "loss": 1.5758,
      "step": 43806
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49602141976356506,
      "learning_rate": 0.0003133586124005417,
      "loss": 1.6211,
      "step": 43807
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4869272708892822,
      "learning_rate": 0.00031334817064334594,
      "loss": 1.5943,
      "step": 43808
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49616461992263794,
      "learning_rate": 0.0003133377288699475,
      "loss": 1.6004,
      "step": 43809
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4787409007549286,
      "learning_rate": 0.000313327287080359,
      "loss": 1.6046,
      "step": 43810
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4713435471057892,
      "learning_rate": 0.0003133168452745931,
      "loss": 1.5725,
      "step": 43811
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4838006794452667,
      "learning_rate": 0.0003133064034526627,
      "loss": 1.5288,
      "step": 43812
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48067283630371094,
      "learning_rate": 0.0003132959616145801,
      "loss": 1.6196,
      "step": 43813
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4726194441318512,
      "learning_rate": 0.0003132855197603582,
      "loss": 1.5066,
      "step": 43814
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4626830220222473,
      "learning_rate": 0.00031327507789000967,
      "loss": 1.5565,
      "step": 43815
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46147987246513367,
      "learning_rate": 0.0003132646360035471,
      "loss": 1.6024,
      "step": 43816
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4959140717983246,
      "learning_rate": 0.00031325419410098323,
      "loss": 1.6791,
      "step": 43817
    },
    {
      "epoch": 1.46,
      "grad_norm": 1.2163602113723755,
      "learning_rate": 0.00031324375218233074,
      "loss": 1.5925,
      "step": 43818
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4929330050945282,
      "learning_rate": 0.0003132333102476023,
      "loss": 1.5645,
      "step": 43819
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4840441346168518,
      "learning_rate": 0.00031322286829681053,
      "loss": 1.665,
      "step": 43820
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4689622223377228,
      "learning_rate": 0.0003132124263299682,
      "loss": 1.6237,
      "step": 43821
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46088477969169617,
      "learning_rate": 0.0003132019843470878,
      "loss": 1.6188,
      "step": 43822
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48655709624290466,
      "learning_rate": 0.00031319154234818236,
      "loss": 1.6333,
      "step": 43823
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47078052163124084,
      "learning_rate": 0.0003131811003332641,
      "loss": 1.5701,
      "step": 43824
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4702264070510864,
      "learning_rate": 0.0003131706583023461,
      "loss": 1.6079,
      "step": 43825
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4763888716697693,
      "learning_rate": 0.00031316021625544074,
      "loss": 1.598,
      "step": 43826
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49751484394073486,
      "learning_rate": 0.0003131497741925609,
      "loss": 1.6605,
      "step": 43827
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47781047224998474,
      "learning_rate": 0.00031313933211371916,
      "loss": 1.7067,
      "step": 43828
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4785456955432892,
      "learning_rate": 0.00031312889001892816,
      "loss": 1.5827,
      "step": 43829
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48493853211402893,
      "learning_rate": 0.0003131184479082007,
      "loss": 1.5787,
      "step": 43830
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46405765414237976,
      "learning_rate": 0.0003131080057815492,
      "loss": 1.6726,
      "step": 43831
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48193204402923584,
      "learning_rate": 0.00031309756363898675,
      "loss": 1.6306,
      "step": 43832
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4665493965148926,
      "learning_rate": 0.0003130871214805257,
      "loss": 1.582,
      "step": 43833
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4778667092323303,
      "learning_rate": 0.00031307667930617877,
      "loss": 1.6258,
      "step": 43834
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4542887806892395,
      "learning_rate": 0.00031306623711595873,
      "loss": 1.6289,
      "step": 43835
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4770600199699402,
      "learning_rate": 0.00031305579490987806,
      "loss": 1.6679,
      "step": 43836
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4738728106021881,
      "learning_rate": 0.0003130453526879497,
      "loss": 1.573,
      "step": 43837
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4675031900405884,
      "learning_rate": 0.0003130349104501863,
      "loss": 1.5742,
      "step": 43838
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46656346321105957,
      "learning_rate": 0.00031302446819660027,
      "loss": 1.6042,
      "step": 43839
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45633628964424133,
      "learning_rate": 0.00031301402592720447,
      "loss": 1.6119,
      "step": 43840
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4865492284297943,
      "learning_rate": 0.00031300358364201163,
      "loss": 1.563,
      "step": 43841
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4621468782424927,
      "learning_rate": 0.0003129931413410344,
      "loss": 1.6754,
      "step": 43842
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46903035044670105,
      "learning_rate": 0.00031298269902428535,
      "loss": 1.6216,
      "step": 43843
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46349653601646423,
      "learning_rate": 0.00031297225669177717,
      "loss": 1.6436,
      "step": 43844
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4610675573348999,
      "learning_rate": 0.00031296181434352263,
      "loss": 1.65,
      "step": 43845
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.526128888130188,
      "learning_rate": 0.0003129513719795343,
      "loss": 1.4909,
      "step": 43846
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4690178632736206,
      "learning_rate": 0.000312940929599825,
      "loss": 1.6189,
      "step": 43847
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4616274833679199,
      "learning_rate": 0.0003129304872044073,
      "loss": 1.6154,
      "step": 43848
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4768922030925751,
      "learning_rate": 0.00031292004479329386,
      "loss": 1.6146,
      "step": 43849
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46560826897621155,
      "learning_rate": 0.00031290960236649744,
      "loss": 1.5759,
      "step": 43850
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46460872888565063,
      "learning_rate": 0.0003128991599240306,
      "loss": 1.6391,
      "step": 43851
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4842003583908081,
      "learning_rate": 0.00031288871746590607,
      "loss": 1.6348,
      "step": 43852
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49183952808380127,
      "learning_rate": 0.00031287827499213664,
      "loss": 1.5784,
      "step": 43853
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4599611759185791,
      "learning_rate": 0.00031286783250273476,
      "loss": 1.6237,
      "step": 43854
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4628930687904358,
      "learning_rate": 0.0003128573899977133,
      "loss": 1.6617,
      "step": 43855
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4707217514514923,
      "learning_rate": 0.00031284694747708483,
      "loss": 1.6017,
      "step": 43856
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47194337844848633,
      "learning_rate": 0.0003128365049408621,
      "loss": 1.601,
      "step": 43857
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4904163181781769,
      "learning_rate": 0.0003128260623890578,
      "loss": 1.5778,
      "step": 43858
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47216570377349854,
      "learning_rate": 0.00031281561982168435,
      "loss": 1.6285,
      "step": 43859
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4865420162677765,
      "learning_rate": 0.0003128051772387548,
      "loss": 1.6066,
      "step": 43860
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47795647382736206,
      "learning_rate": 0.0003127947346402815,
      "loss": 1.6979,
      "step": 43861
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4885399341583252,
      "learning_rate": 0.0003127842920262775,
      "loss": 1.5229,
      "step": 43862
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47885391116142273,
      "learning_rate": 0.0003127738493967551,
      "loss": 1.6405,
      "step": 43863
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4621940851211548,
      "learning_rate": 0.00031276340675172716,
      "loss": 1.5905,
      "step": 43864
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4723878502845764,
      "learning_rate": 0.0003127529640912064,
      "loss": 1.6197,
      "step": 43865
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4667786657810211,
      "learning_rate": 0.00031274252141520525,
      "loss": 1.5666,
      "step": 43866
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4688170552253723,
      "learning_rate": 0.0003127320787237367,
      "loss": 1.5877,
      "step": 43867
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4690539538860321,
      "learning_rate": 0.0003127216360168132,
      "loss": 1.6181,
      "step": 43868
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4662685692310333,
      "learning_rate": 0.0003127111932944476,
      "loss": 1.6687,
      "step": 43869
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4552585184574127,
      "learning_rate": 0.0003127007505566523,
      "loss": 1.6056,
      "step": 43870
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4699685275554657,
      "learning_rate": 0.0003126903078034403,
      "loss": 1.5998,
      "step": 43871
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47957441210746765,
      "learning_rate": 0.00031267986503482416,
      "loss": 1.6632,
      "step": 43872
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46495118737220764,
      "learning_rate": 0.00031266942225081646,
      "loss": 1.5429,
      "step": 43873
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4746946692466736,
      "learning_rate": 0.00031265897945143006,
      "loss": 1.5533,
      "step": 43874
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4789908230304718,
      "learning_rate": 0.0003126485366366774,
      "loss": 1.5782,
      "step": 43875
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4884282946586609,
      "learning_rate": 0.00031263809380657135,
      "loss": 1.5944,
      "step": 43876
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5000100135803223,
      "learning_rate": 0.0003126276509611244,
      "loss": 1.6234,
      "step": 43877
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45277905464172363,
      "learning_rate": 0.0003126172081003495,
      "loss": 1.5763,
      "step": 43878
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47665515542030334,
      "learning_rate": 0.00031260676522425906,
      "loss": 1.6446,
      "step": 43879
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47413456439971924,
      "learning_rate": 0.00031259632233286597,
      "loss": 1.5519,
      "step": 43880
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48893067240715027,
      "learning_rate": 0.00031258587942618274,
      "loss": 1.5769,
      "step": 43881
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47301924228668213,
      "learning_rate": 0.00031257543650422214,
      "loss": 1.5955,
      "step": 43882
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47959578037261963,
      "learning_rate": 0.00031256499356699667,
      "loss": 1.63,
      "step": 43883
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48704856634140015,
      "learning_rate": 0.00031255455061451925,
      "loss": 1.655,
      "step": 43884
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4711552858352661,
      "learning_rate": 0.00031254410764680254,
      "loss": 1.541,
      "step": 43885
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4632112979888916,
      "learning_rate": 0.000312533664663859,
      "loss": 1.6151,
      "step": 43886
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45959174633026123,
      "learning_rate": 0.0003125232216657015,
      "loss": 1.6002,
      "step": 43887
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47245529294013977,
      "learning_rate": 0.00031251277865234267,
      "loss": 1.6638,
      "step": 43888
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4811437129974365,
      "learning_rate": 0.0003125023356237952,
      "loss": 1.5876,
      "step": 43889
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4783800542354584,
      "learning_rate": 0.0003124918925800717,
      "loss": 1.6816,
      "step": 43890
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.482246071100235,
      "learning_rate": 0.00031248144952118474,
      "loss": 1.6009,
      "step": 43891
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4618033766746521,
      "learning_rate": 0.0003124710064471474,
      "loss": 1.5862,
      "step": 43892
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4711359441280365,
      "learning_rate": 0.0003124605633579718,
      "loss": 1.6649,
      "step": 43893
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4730095863342285,
      "learning_rate": 0.00031245012025367115,
      "loss": 1.6619,
      "step": 43894
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47275999188423157,
      "learning_rate": 0.0003124396771342578,
      "loss": 1.5768,
      "step": 43895
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46832311153411865,
      "learning_rate": 0.0003124292339997445,
      "loss": 1.5367,
      "step": 43896
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5032851696014404,
      "learning_rate": 0.000312418790850144,
      "loss": 1.5392,
      "step": 43897
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4897103011608124,
      "learning_rate": 0.00031240834768546887,
      "loss": 1.6812,
      "step": 43898
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46335646510124207,
      "learning_rate": 0.0003123979045057319,
      "loss": 1.5727,
      "step": 43899
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5042153000831604,
      "learning_rate": 0.0003123874613109456,
      "loss": 1.6903,
      "step": 43900
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4856027066707611,
      "learning_rate": 0.0003123770181011228,
      "loss": 1.6331,
      "step": 43901
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4884963035583496,
      "learning_rate": 0.0003123665748762761,
      "loss": 1.6334,
      "step": 43902
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47485941648483276,
      "learning_rate": 0.0003123561316364182,
      "loss": 1.6818,
      "step": 43903
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4781562089920044,
      "learning_rate": 0.0003123456883815619,
      "loss": 1.608,
      "step": 43904
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48131880164146423,
      "learning_rate": 0.0003123352451117196,
      "loss": 1.5864,
      "step": 43905
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47079998254776,
      "learning_rate": 0.0003123248018269042,
      "loss": 1.6079,
      "step": 43906
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4762175381183624,
      "learning_rate": 0.0003123143585271283,
      "loss": 1.6609,
      "step": 43907
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4710524082183838,
      "learning_rate": 0.00031230391521240455,
      "loss": 1.6071,
      "step": 43908
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5059932470321655,
      "learning_rate": 0.00031229347188274566,
      "loss": 1.6758,
      "step": 43909
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4701537489891052,
      "learning_rate": 0.0003122830285381644,
      "loss": 1.619,
      "step": 43910
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5048043131828308,
      "learning_rate": 0.0003122725851786733,
      "loss": 1.5228,
      "step": 43911
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4918198883533478,
      "learning_rate": 0.000312262141804285,
      "loss": 1.6541,
      "step": 43912
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4650624692440033,
      "learning_rate": 0.00031225169841501234,
      "loss": 1.6212,
      "step": 43913
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47407522797584534,
      "learning_rate": 0.00031224125501086794,
      "loss": 1.5765,
      "step": 43914
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46847593784332275,
      "learning_rate": 0.0003122308115918645,
      "loss": 1.5949,
      "step": 43915
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5078641772270203,
      "learning_rate": 0.0003122203681580145,
      "loss": 1.6889,
      "step": 43916
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46497443318367004,
      "learning_rate": 0.00031220992470933095,
      "loss": 1.7231,
      "step": 43917
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4741384983062744,
      "learning_rate": 0.0003121994812458262,
      "loss": 1.5824,
      "step": 43918
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46973225474357605,
      "learning_rate": 0.0003121890377675131,
      "loss": 1.6811,
      "step": 43919
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.6328316926956177,
      "learning_rate": 0.00031217859427440446,
      "loss": 1.6082,
      "step": 43920
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4860459864139557,
      "learning_rate": 0.00031216815076651265,
      "loss": 1.5611,
      "step": 43921
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47048452496528625,
      "learning_rate": 0.0003121577072438506,
      "loss": 1.5965,
      "step": 43922
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48590099811553955,
      "learning_rate": 0.0003121472637064307,
      "loss": 1.5979,
      "step": 43923
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.470647394657135,
      "learning_rate": 0.00031213682015426603,
      "loss": 1.6165,
      "step": 43924
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4789939522743225,
      "learning_rate": 0.0003121263765873689,
      "loss": 1.562,
      "step": 43925
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48141980171203613,
      "learning_rate": 0.0003121159330057522,
      "loss": 1.5704,
      "step": 43926
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48979368805885315,
      "learning_rate": 0.00031210548940942853,
      "loss": 1.6325,
      "step": 43927
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4909640848636627,
      "learning_rate": 0.0003120950457984106,
      "loss": 1.5707,
      "step": 43928
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4823121130466461,
      "learning_rate": 0.00031208460217271107,
      "loss": 1.6631,
      "step": 43929
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4604684114456177,
      "learning_rate": 0.0003120741585323426,
      "loss": 1.5253,
      "step": 43930
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4793153703212738,
      "learning_rate": 0.0003120637148773179,
      "loss": 1.5932,
      "step": 43931
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4628351926803589,
      "learning_rate": 0.00031205327120764956,
      "loss": 1.6243,
      "step": 43932
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48321741819381714,
      "learning_rate": 0.00031204282752335036,
      "loss": 1.5739,
      "step": 43933
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4761590361595154,
      "learning_rate": 0.0003120323838244329,
      "loss": 1.6277,
      "step": 43934
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4736196994781494,
      "learning_rate": 0.00031202194011091,
      "loss": 1.5409,
      "step": 43935
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4937593638896942,
      "learning_rate": 0.0003120114963827942,
      "loss": 1.6131,
      "step": 43936
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4747623801231384,
      "learning_rate": 0.0003120010526400982,
      "loss": 1.5519,
      "step": 43937
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48813217878341675,
      "learning_rate": 0.00031199060888283467,
      "loss": 1.6377,
      "step": 43938
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46499890089035034,
      "learning_rate": 0.00031198016511101634,
      "loss": 1.5689,
      "step": 43939
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48205238580703735,
      "learning_rate": 0.00031196972132465587,
      "loss": 1.5938,
      "step": 43940
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46566885709762573,
      "learning_rate": 0.0003119592775237658,
      "loss": 1.6321,
      "step": 43941
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49215370416641235,
      "learning_rate": 0.00031194883370835907,
      "loss": 1.5741,
      "step": 43942
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4716183543205261,
      "learning_rate": 0.00031193838987844815,
      "loss": 1.6709,
      "step": 43943
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4699482321739197,
      "learning_rate": 0.0003119279460340458,
      "loss": 1.6299,
      "step": 43944
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4582262337207794,
      "learning_rate": 0.0003119175021751648,
      "loss": 1.5571,
      "step": 43945
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4727655351161957,
      "learning_rate": 0.00031190705830181747,
      "loss": 1.6502,
      "step": 43946
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4668891727924347,
      "learning_rate": 0.0003118966144140169,
      "loss": 1.6338,
      "step": 43947
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4590894877910614,
      "learning_rate": 0.0003118861705117755,
      "loss": 1.6336,
      "step": 43948
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4751630127429962,
      "learning_rate": 0.0003118757265951061,
      "loss": 1.5851,
      "step": 43949
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47661954164505005,
      "learning_rate": 0.0003118652826640213,
      "loss": 1.6706,
      "step": 43950
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46671825647354126,
      "learning_rate": 0.0003118548387185338,
      "loss": 1.5771,
      "step": 43951
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47667041420936584,
      "learning_rate": 0.00031184439475865624,
      "loss": 1.5947,
      "step": 43952
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4600844383239746,
      "learning_rate": 0.0003118339507844013,
      "loss": 1.6219,
      "step": 43953
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4714353084564209,
      "learning_rate": 0.00031182350679578185,
      "loss": 1.5667,
      "step": 43954
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4795618951320648,
      "learning_rate": 0.00031181306279281026,
      "loss": 1.5983,
      "step": 43955
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46628373861312866,
      "learning_rate": 0.0003118026187754994,
      "loss": 1.6697,
      "step": 43956
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48267650604248047,
      "learning_rate": 0.0003117921747438619,
      "loss": 1.5782,
      "step": 43957
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4564116299152374,
      "learning_rate": 0.0003117817306979104,
      "loss": 1.6646,
      "step": 43958
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4625808000564575,
      "learning_rate": 0.0003117712866376577,
      "loss": 1.6362,
      "step": 43959
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46244657039642334,
      "learning_rate": 0.0003117608425631163,
      "loss": 1.5858,
      "step": 43960
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47905829548835754,
      "learning_rate": 0.000311750398474299,
      "loss": 1.6178,
      "step": 43961
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4757837653160095,
      "learning_rate": 0.0003117399543712184,
      "loss": 1.5591,
      "step": 43962
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46883624792099,
      "learning_rate": 0.0003117295102538873,
      "loss": 1.5711,
      "step": 43963
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4762749671936035,
      "learning_rate": 0.00031171906612231825,
      "loss": 1.7136,
      "step": 43964
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4863642156124115,
      "learning_rate": 0.0003117086219765241,
      "loss": 1.5902,
      "step": 43965
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4775412082672119,
      "learning_rate": 0.0003116981778165173,
      "loss": 1.6223,
      "step": 43966
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4661756753921509,
      "learning_rate": 0.00031168773364231064,
      "loss": 1.5885,
      "step": 43967
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4697684645652771,
      "learning_rate": 0.0003116772894539168,
      "loss": 1.6396,
      "step": 43968
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.469903826713562,
      "learning_rate": 0.00031166684525134845,
      "loss": 1.6021,
      "step": 43969
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4602562189102173,
      "learning_rate": 0.00031165640103461833,
      "loss": 1.4949,
      "step": 43970
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49017134308815,
      "learning_rate": 0.0003116459568037389,
      "loss": 1.6045,
      "step": 43971
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4792364835739136,
      "learning_rate": 0.0003116355125587232,
      "loss": 1.6071,
      "step": 43972
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4646965563297272,
      "learning_rate": 0.0003116250682995836,
      "loss": 1.5313,
      "step": 43973
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4711805284023285,
      "learning_rate": 0.0003116146240263328,
      "loss": 1.671,
      "step": 43974
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4629155397415161,
      "learning_rate": 0.0003116041797389837,
      "loss": 1.5702,
      "step": 43975
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47665098309516907,
      "learning_rate": 0.00031159373543754873,
      "loss": 1.6046,
      "step": 43976
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4837883412837982,
      "learning_rate": 0.0003115832911220408,
      "loss": 1.6134,
      "step": 43977
    },
    {
      "epoch": 1.46,
      "grad_norm": 1.2652742862701416,
      "learning_rate": 0.0003115728467924723,
      "loss": 1.6013,
      "step": 43978
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4946470856666565,
      "learning_rate": 0.0003115624024488562,
      "loss": 1.6603,
      "step": 43979
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4809217154979706,
      "learning_rate": 0.0003115519580912049,
      "loss": 1.6649,
      "step": 43980
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4894385039806366,
      "learning_rate": 0.00031154151371953136,
      "loss": 1.599,
      "step": 43981
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47575172781944275,
      "learning_rate": 0.00031153106933384805,
      "loss": 1.5752,
      "step": 43982
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4943147897720337,
      "learning_rate": 0.0003115206249341678,
      "loss": 1.6843,
      "step": 43983
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4847322106361389,
      "learning_rate": 0.0003115101805205032,
      "loss": 1.6202,
      "step": 43984
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4906008839607239,
      "learning_rate": 0.0003114997360928669,
      "loss": 1.668,
      "step": 43985
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47914373874664307,
      "learning_rate": 0.00031148929165127157,
      "loss": 1.6741,
      "step": 43986
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.5085213780403137,
      "learning_rate": 0.00031147884719573,
      "loss": 1.7075,
      "step": 43987
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47024017572402954,
      "learning_rate": 0.0003114684027262547,
      "loss": 1.611,
      "step": 43988
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46795517206192017,
      "learning_rate": 0.00031145795824285855,
      "loss": 1.5699,
      "step": 43989
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4771691858768463,
      "learning_rate": 0.0003114475137455542,
      "loss": 1.6465,
      "step": 43990
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4694371223449707,
      "learning_rate": 0.00031143706923435406,
      "loss": 1.6082,
      "step": 43991
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4940626919269562,
      "learning_rate": 0.00031142662470927114,
      "loss": 1.5576,
      "step": 43992
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46615421772003174,
      "learning_rate": 0.00031141618017031797,
      "loss": 1.6016,
      "step": 43993
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4753532111644745,
      "learning_rate": 0.0003114057356175072,
      "loss": 1.6234,
      "step": 43994
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48712801933288574,
      "learning_rate": 0.0003113952910508515,
      "loss": 1.5869,
      "step": 43995
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45677584409713745,
      "learning_rate": 0.0003113848464703637,
      "loss": 1.6266,
      "step": 43996
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4691566228866577,
      "learning_rate": 0.0003113744018760563,
      "loss": 1.6308,
      "step": 43997
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45732900500297546,
      "learning_rate": 0.0003113639572679421,
      "loss": 1.6048,
      "step": 43998
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47612234950065613,
      "learning_rate": 0.0003113535126460337,
      "loss": 1.6311,
      "step": 43999
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47375407814979553,
      "learning_rate": 0.00031134306801034383,
      "loss": 1.6334,
      "step": 44000
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4660975933074951,
      "learning_rate": 0.0003113326233608851,
      "loss": 1.5874,
      "step": 44001
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.468925416469574,
      "learning_rate": 0.0003113221786976703,
      "loss": 1.6934,
      "step": 44002
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4838402569293976,
      "learning_rate": 0.00031131173402071204,
      "loss": 1.628,
      "step": 44003
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4546457529067993,
      "learning_rate": 0.00031130128933002293,
      "loss": 1.5505,
      "step": 44004
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46401625871658325,
      "learning_rate": 0.0003112908446256158,
      "loss": 1.5818,
      "step": 44005
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48941871523857117,
      "learning_rate": 0.00031128039990750315,
      "loss": 1.601,
      "step": 44006
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45677074790000916,
      "learning_rate": 0.00031126995517569795,
      "loss": 1.622,
      "step": 44007
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47984960675239563,
      "learning_rate": 0.0003112595104302125,
      "loss": 1.6117,
      "step": 44008
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48083630204200745,
      "learning_rate": 0.0003112490656710597,
      "loss": 1.5972,
      "step": 44009
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46751296520233154,
      "learning_rate": 0.0003112386208982522,
      "loss": 1.6051,
      "step": 44010
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47706472873687744,
      "learning_rate": 0.00031122817611180275,
      "loss": 1.5631,
      "step": 44011
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4838954210281372,
      "learning_rate": 0.0003112177313117238,
      "loss": 1.728,
      "step": 44012
    },
    {
      "epoch": 1.46,
      "grad_norm": 1.116126537322998,
      "learning_rate": 0.0003112072864980283,
      "loss": 1.6847,
      "step": 44013
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4776674211025238,
      "learning_rate": 0.00031119684167072874,
      "loss": 1.6379,
      "step": 44014
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4888398051261902,
      "learning_rate": 0.00031118639682983784,
      "loss": 1.6145,
      "step": 44015
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4767650365829468,
      "learning_rate": 0.00031117595197536845,
      "loss": 1.5221,
      "step": 44016
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4721054136753082,
      "learning_rate": 0.000311165507107333,
      "loss": 1.5618,
      "step": 44017
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.481731116771698,
      "learning_rate": 0.0003111550622257442,
      "loss": 1.5702,
      "step": 44018
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4708629846572876,
      "learning_rate": 0.00031114461733061486,
      "loss": 1.5878,
      "step": 44019
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4963371157646179,
      "learning_rate": 0.0003111341724219576,
      "loss": 1.619,
      "step": 44020
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49490058422088623,
      "learning_rate": 0.0003111237274997852,
      "loss": 1.5954,
      "step": 44021
    },
    {
      "epoch": 1.46,
      "grad_norm": 1.5475443601608276,
      "learning_rate": 0.0003111132825641101,
      "loss": 1.6451,
      "step": 44022
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.45996278524398804,
      "learning_rate": 0.00031110283761494507,
      "loss": 1.6034,
      "step": 44023
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48289215564727783,
      "learning_rate": 0.000311092392652303,
      "loss": 1.6079,
      "step": 44024
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4756847321987152,
      "learning_rate": 0.00031108194767619625,
      "loss": 1.6275,
      "step": 44025
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4806426763534546,
      "learning_rate": 0.00031107150268663765,
      "loss": 1.647,
      "step": 44026
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.48642274737358093,
      "learning_rate": 0.00031106105768364005,
      "loss": 1.6173,
      "step": 44027
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49598416686058044,
      "learning_rate": 0.0003110506126672158,
      "loss": 1.6057,
      "step": 44028
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.46040433645248413,
      "learning_rate": 0.0003110401676373778,
      "loss": 1.5484,
      "step": 44029
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4610848128795624,
      "learning_rate": 0.0003110297225941386,
      "loss": 1.6167,
      "step": 44030
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.49644577503204346,
      "learning_rate": 0.000311019277537511,
      "loss": 1.5466,
      "step": 44031
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4657557010650635,
      "learning_rate": 0.0003110088324675076,
      "loss": 1.6671,
      "step": 44032
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.47225096821784973,
      "learning_rate": 0.00031099838738414103,
      "loss": 1.6082,
      "step": 44033
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47182968258857727,
      "learning_rate": 0.0003109879422874242,
      "loss": 1.6707,
      "step": 44034
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48541826009750366,
      "learning_rate": 0.00031097749717736947,
      "loss": 1.5694,
      "step": 44035
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48047736287117004,
      "learning_rate": 0.00031096705205398975,
      "loss": 1.5651,
      "step": 44036
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4869691729545593,
      "learning_rate": 0.0003109566069172977,
      "loss": 1.6317,
      "step": 44037
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48454147577285767,
      "learning_rate": 0.0003109461617673058,
      "loss": 1.6563,
      "step": 44038
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4979872703552246,
      "learning_rate": 0.00031093571660402696,
      "loss": 1.6361,
      "step": 44039
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.493566632270813,
      "learning_rate": 0.0003109252714274737,
      "loss": 1.6245,
      "step": 44040
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47203847765922546,
      "learning_rate": 0.0003109148262376589,
      "loss": 1.5734,
      "step": 44041
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4881579875946045,
      "learning_rate": 0.0003109043810345951,
      "loss": 1.6535,
      "step": 44042
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4619138240814209,
      "learning_rate": 0.00031089393581829484,
      "loss": 1.5736,
      "step": 44043
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.500654399394989,
      "learning_rate": 0.0003108834905887711,
      "loss": 1.6577,
      "step": 44044
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46526414155960083,
      "learning_rate": 0.00031087304534603626,
      "loss": 1.5867,
      "step": 44045
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4911183714866638,
      "learning_rate": 0.0003108626000901033,
      "loss": 1.6095,
      "step": 44046
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49149322509765625,
      "learning_rate": 0.0003108521548209846,
      "loss": 1.6866,
      "step": 44047
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5175066590309143,
      "learning_rate": 0.0003108417095386931,
      "loss": 1.6777,
      "step": 44048
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4776083827018738,
      "learning_rate": 0.0003108312642432413,
      "loss": 1.6309,
      "step": 44049
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46874555945396423,
      "learning_rate": 0.00031082081893464195,
      "loss": 1.5538,
      "step": 44050
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49031710624694824,
      "learning_rate": 0.0003108103736129077,
      "loss": 1.6463,
      "step": 44051
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46774670481681824,
      "learning_rate": 0.0003107999282780513,
      "loss": 1.5516,
      "step": 44052
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4837088882923126,
      "learning_rate": 0.00031078948293008536,
      "loss": 1.5975,
      "step": 44053
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4884992837905884,
      "learning_rate": 0.0003107790375690226,
      "loss": 1.5614,
      "step": 44054
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4944072961807251,
      "learning_rate": 0.00031076859219487566,
      "loss": 1.6248,
      "step": 44055
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4622504413127899,
      "learning_rate": 0.0003107581468076572,
      "loss": 1.6253,
      "step": 44056
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5109590888023376,
      "learning_rate": 0.00031074770140738004,
      "loss": 1.5421,
      "step": 44057
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4766024053096771,
      "learning_rate": 0.0003107372559940566,
      "loss": 1.6904,
      "step": 44058
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45571574568748474,
      "learning_rate": 0.0003107268105676998,
      "loss": 1.6539,
      "step": 44059
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4578675627708435,
      "learning_rate": 0.0003107163651283222,
      "loss": 1.6082,
      "step": 44060
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47672903537750244,
      "learning_rate": 0.0003107059196759365,
      "loss": 1.6463,
      "step": 44061
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47949129343032837,
      "learning_rate": 0.00031069547421055553,
      "loss": 1.6092,
      "step": 44062
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47311773896217346,
      "learning_rate": 0.00031068502873219165,
      "loss": 1.6007,
      "step": 44063
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47356313467025757,
      "learning_rate": 0.00031067458324085783,
      "loss": 1.6029,
      "step": 44064
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4669886529445648,
      "learning_rate": 0.0003106641377365665,
      "loss": 1.5717,
      "step": 44065
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49486133456230164,
      "learning_rate": 0.00031065369221933067,
      "loss": 1.6709,
      "step": 44066
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4832606911659241,
      "learning_rate": 0.00031064324668916274,
      "loss": 1.5577,
      "step": 44067
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.467898964881897,
      "learning_rate": 0.00031063280114607545,
      "loss": 1.6159,
      "step": 44068
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4524206519126892,
      "learning_rate": 0.0003106223555900815,
      "loss": 1.4997,
      "step": 44069
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45486313104629517,
      "learning_rate": 0.0003106119100211936,
      "loss": 1.5054,
      "step": 44070
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4944538474082947,
      "learning_rate": 0.00031060146443942445,
      "loss": 1.6919,
      "step": 44071
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4694789946079254,
      "learning_rate": 0.0003105910188447866,
      "loss": 1.5522,
      "step": 44072
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4895060956478119,
      "learning_rate": 0.0003105805732372929,
      "loss": 1.5773,
      "step": 44073
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4771568775177002,
      "learning_rate": 0.0003105701276169559,
      "loss": 1.6611,
      "step": 44074
    },
    {
      "epoch": 1.47,
      "grad_norm": 1.4803080558776855,
      "learning_rate": 0.0003105596819837883,
      "loss": 1.6736,
      "step": 44075
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4878959059715271,
      "learning_rate": 0.00031054923633780287,
      "loss": 1.6544,
      "step": 44076
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47877463698387146,
      "learning_rate": 0.00031053879067901213,
      "loss": 1.5663,
      "step": 44077
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4711458086967468,
      "learning_rate": 0.0003105283450074289,
      "loss": 1.5906,
      "step": 44078
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47854071855545044,
      "learning_rate": 0.0003105178993230658,
      "loss": 1.6106,
      "step": 44079
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4876575469970703,
      "learning_rate": 0.00031050745362593555,
      "loss": 1.5952,
      "step": 44080
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46317243576049805,
      "learning_rate": 0.00031049700791605075,
      "loss": 1.621,
      "step": 44081
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4675954580307007,
      "learning_rate": 0.0003104865621934242,
      "loss": 1.6154,
      "step": 44082
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4852464199066162,
      "learning_rate": 0.00031047611645806846,
      "loss": 1.627,
      "step": 44083
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4700568914413452,
      "learning_rate": 0.0003104656707099963,
      "loss": 1.548,
      "step": 44084
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48848602175712585,
      "learning_rate": 0.00031045522494922023,
      "loss": 1.6451,
      "step": 44085
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48797839879989624,
      "learning_rate": 0.00031044477917575316,
      "loss": 1.6851,
      "step": 44086
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48328253626823425,
      "learning_rate": 0.0003104343333896077,
      "loss": 1.5541,
      "step": 44087
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4989165663719177,
      "learning_rate": 0.00031042388759079637,
      "loss": 1.6337,
      "step": 44088
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5151965022087097,
      "learning_rate": 0.00031041344177933214,
      "loss": 1.638,
      "step": 44089
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47491002082824707,
      "learning_rate": 0.0003104029959552274,
      "loss": 1.5716,
      "step": 44090
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47712820768356323,
      "learning_rate": 0.000310392550118495,
      "loss": 1.6834,
      "step": 44091
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4862911105155945,
      "learning_rate": 0.0003103821042691476,
      "loss": 1.5624,
      "step": 44092
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4645750820636749,
      "learning_rate": 0.0003103716584071978,
      "loss": 1.522,
      "step": 44093
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47081413865089417,
      "learning_rate": 0.00031036121253265846,
      "loss": 1.6401,
      "step": 44094
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4781366288661957,
      "learning_rate": 0.00031035076664554195,
      "loss": 1.583,
      "step": 44095
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.482107013463974,
      "learning_rate": 0.0003103403207458612,
      "loss": 1.6045,
      "step": 44096
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49171552062034607,
      "learning_rate": 0.0003103298748336289,
      "loss": 1.6763,
      "step": 44097
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5021800398826599,
      "learning_rate": 0.0003103194289088576,
      "loss": 1.591,
      "step": 44098
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48960328102111816,
      "learning_rate": 0.00031030898297156,
      "loss": 1.5851,
      "step": 44099
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4645437002182007,
      "learning_rate": 0.0003102985370217488,
      "loss": 1.5784,
      "step": 44100
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48618361353874207,
      "learning_rate": 0.00031028809105943683,
      "loss": 1.6084,
      "step": 44101
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4810181260108948,
      "learning_rate": 0.0003102776450846365,
      "loss": 1.678,
      "step": 44102
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49835821986198425,
      "learning_rate": 0.0003102671990973607,
      "loss": 1.6142,
      "step": 44103
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4820777177810669,
      "learning_rate": 0.000310256753097622,
      "loss": 1.5531,
      "step": 44104
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4730178117752075,
      "learning_rate": 0.0003102463070854331,
      "loss": 1.5632,
      "step": 44105
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47968095541000366,
      "learning_rate": 0.0003102358610608067,
      "loss": 1.6603,
      "step": 44106
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4785383641719818,
      "learning_rate": 0.00031022541502375556,
      "loss": 1.6671,
      "step": 44107
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48631131649017334,
      "learning_rate": 0.00031021496897429214,
      "loss": 1.6171,
      "step": 44108
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.469514936208725,
      "learning_rate": 0.0003102045229124293,
      "loss": 1.6354,
      "step": 44109
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47020095586776733,
      "learning_rate": 0.0003101940768381797,
      "loss": 1.5516,
      "step": 44110
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4649941623210907,
      "learning_rate": 0.000310183630751556,
      "loss": 1.562,
      "step": 44111
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.463829904794693,
      "learning_rate": 0.00031017318465257086,
      "loss": 1.6145,
      "step": 44112
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.465374618768692,
      "learning_rate": 0.0003101627385412369,
      "loss": 1.5564,
      "step": 44113
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4614028334617615,
      "learning_rate": 0.00031015229241756695,
      "loss": 1.6871,
      "step": 44114
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48125290870666504,
      "learning_rate": 0.0003101418462815736,
      "loss": 1.6247,
      "step": 44115
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.473263144493103,
      "learning_rate": 0.0003101314001332695,
      "loss": 1.571,
      "step": 44116
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49286583065986633,
      "learning_rate": 0.00031012095397266745,
      "loss": 1.6581,
      "step": 44117
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48993736505508423,
      "learning_rate": 0.0003101105077997799,
      "loss": 1.5704,
      "step": 44118
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4706725478172302,
      "learning_rate": 0.00031010006161461993,
      "loss": 1.649,
      "step": 44119
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.486378014087677,
      "learning_rate": 0.0003100896154171998,
      "loss": 1.5741,
      "step": 44120
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47332102060317993,
      "learning_rate": 0.0003100791692075324,
      "loss": 1.5621,
      "step": 44121
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4660014808177948,
      "learning_rate": 0.0003100687229856304,
      "loss": 1.636,
      "step": 44122
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4527992606163025,
      "learning_rate": 0.0003100582767515064,
      "loss": 1.6609,
      "step": 44123
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5017475485801697,
      "learning_rate": 0.0003100478305051732,
      "loss": 1.5532,
      "step": 44124
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46584466099739075,
      "learning_rate": 0.00031003738424664333,
      "loss": 1.5675,
      "step": 44125
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4623638391494751,
      "learning_rate": 0.00031002693797592965,
      "loss": 1.63,
      "step": 44126
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4933663308620453,
      "learning_rate": 0.00031001649169304466,
      "loss": 1.5774,
      "step": 44127
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4813257157802582,
      "learning_rate": 0.0003100060453980012,
      "loss": 1.612,
      "step": 44128
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47798869013786316,
      "learning_rate": 0.0003099955990908118,
      "loss": 1.5587,
      "step": 44129
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4781271517276764,
      "learning_rate": 0.00030998515277148923,
      "loss": 1.5823,
      "step": 44130
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46561378240585327,
      "learning_rate": 0.0003099747064400463,
      "loss": 1.5699,
      "step": 44131
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46924135088920593,
      "learning_rate": 0.0003099642600964953,
      "loss": 1.5954,
      "step": 44132
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46363112330436707,
      "learning_rate": 0.00030995381374084935,
      "loss": 1.5356,
      "step": 44133
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5058138370513916,
      "learning_rate": 0.0003099433673731209,
      "loss": 1.6042,
      "step": 44134
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4944547116756439,
      "learning_rate": 0.0003099329209933226,
      "loss": 1.6402,
      "step": 44135
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49222198128700256,
      "learning_rate": 0.0003099224746014672,
      "loss": 1.6311,
      "step": 44136
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4756240248680115,
      "learning_rate": 0.00030991202819756735,
      "loss": 1.6014,
      "step": 44137
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48517918586730957,
      "learning_rate": 0.00030990158178163595,
      "loss": 1.5715,
      "step": 44138
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48098835349082947,
      "learning_rate": 0.00030989113535368536,
      "loss": 1.6517,
      "step": 44139
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45927050709724426,
      "learning_rate": 0.00030988068891372837,
      "loss": 1.6176,
      "step": 44140
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48022109270095825,
      "learning_rate": 0.00030987024246177766,
      "loss": 1.6012,
      "step": 44141
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4977244734764099,
      "learning_rate": 0.000309859795997846,
      "loss": 1.5742,
      "step": 44142
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4899584949016571,
      "learning_rate": 0.00030984934952194595,
      "loss": 1.5762,
      "step": 44143
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46259036660194397,
      "learning_rate": 0.00030983890303409026,
      "loss": 1.5282,
      "step": 44144
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4997243881225586,
      "learning_rate": 0.0003098284565342916,
      "loss": 1.6099,
      "step": 44145
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48100215196609497,
      "learning_rate": 0.0003098180100225626,
      "loss": 1.6175,
      "step": 44146
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4827273190021515,
      "learning_rate": 0.000309807563498916,
      "loss": 1.598,
      "step": 44147
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4671589732170105,
      "learning_rate": 0.00030979711696336445,
      "loss": 1.5589,
      "step": 44148
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4735172986984253,
      "learning_rate": 0.0003097866704159208,
      "loss": 1.5754,
      "step": 44149
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45876064896583557,
      "learning_rate": 0.0003097762238565973,
      "loss": 1.5429,
      "step": 44150
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47956448793411255,
      "learning_rate": 0.0003097657772854072,
      "loss": 1.5739,
      "step": 44151
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47718873620033264,
      "learning_rate": 0.0003097553307023627,
      "loss": 1.638,
      "step": 44152
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4950982332229614,
      "learning_rate": 0.0003097448841074766,
      "loss": 1.5695,
      "step": 44153
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4834083318710327,
      "learning_rate": 0.0003097344375007618,
      "loss": 1.6319,
      "step": 44154
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4685433804988861,
      "learning_rate": 0.00030972399088223073,
      "loss": 1.5805,
      "step": 44155
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4647118151187897,
      "learning_rate": 0.0003097135442518963,
      "loss": 1.583,
      "step": 44156
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48822274804115295,
      "learning_rate": 0.00030970309760977084,
      "loss": 1.5752,
      "step": 44157
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5040384531021118,
      "learning_rate": 0.00030969265095586747,
      "loss": 1.5933,
      "step": 44158
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47354087233543396,
      "learning_rate": 0.00030968220429019856,
      "loss": 1.6222,
      "step": 44159
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5373880863189697,
      "learning_rate": 0.0003096717576127769,
      "loss": 1.6322,
      "step": 44160
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48686593770980835,
      "learning_rate": 0.0003096613109236151,
      "loss": 1.5313,
      "step": 44161
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48225054144859314,
      "learning_rate": 0.0003096508642227259,
      "loss": 1.6521,
      "step": 44162
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4916648268699646,
      "learning_rate": 0.00030964041751012204,
      "loss": 1.6013,
      "step": 44163
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4891909956932068,
      "learning_rate": 0.0003096299707858161,
      "loss": 1.6505,
      "step": 44164
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4659242033958435,
      "learning_rate": 0.00030961952404982075,
      "loss": 1.5532,
      "step": 44165
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48824891448020935,
      "learning_rate": 0.0003096090773021487,
      "loss": 1.6224,
      "step": 44166
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4739364683628082,
      "learning_rate": 0.00030959863054281275,
      "loss": 1.6005,
      "step": 44167
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48725515604019165,
      "learning_rate": 0.0003095881837718254,
      "loss": 1.6949,
      "step": 44168
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46874144673347473,
      "learning_rate": 0.0003095777369891995,
      "loss": 1.6211,
      "step": 44169
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4676267206668854,
      "learning_rate": 0.00030956729019494757,
      "loss": 1.6474,
      "step": 44170
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4836519658565521,
      "learning_rate": 0.0003095568433890823,
      "loss": 1.6459,
      "step": 44171
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4844517111778259,
      "learning_rate": 0.0003095463965716165,
      "loss": 1.6217,
      "step": 44172
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48511776328086853,
      "learning_rate": 0.00030953594974256275,
      "loss": 1.618,
      "step": 44173
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.457194060087204,
      "learning_rate": 0.00030952550290193386,
      "loss": 1.5768,
      "step": 44174
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47788891196250916,
      "learning_rate": 0.0003095150560497422,
      "loss": 1.606,
      "step": 44175
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48914194107055664,
      "learning_rate": 0.00030950460918600085,
      "loss": 1.6566,
      "step": 44176
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48742249608039856,
      "learning_rate": 0.00030949416231072226,
      "loss": 1.5943,
      "step": 44177
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48353028297424316,
      "learning_rate": 0.0003094837154239192,
      "loss": 1.6116,
      "step": 44178
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4702915847301483,
      "learning_rate": 0.0003094732685256043,
      "loss": 1.5903,
      "step": 44179
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4689622223377228,
      "learning_rate": 0.0003094628216157901,
      "loss": 1.6705,
      "step": 44180
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46652543544769287,
      "learning_rate": 0.00030945237469448956,
      "loss": 1.6196,
      "step": 44181
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.481813907623291,
      "learning_rate": 0.00030944192776171514,
      "loss": 1.6301,
      "step": 44182
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45611572265625,
      "learning_rate": 0.0003094314808174798,
      "loss": 1.5754,
      "step": 44183
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48536211252212524,
      "learning_rate": 0.00030942103386179585,
      "loss": 1.6388,
      "step": 44184
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46346116065979004,
      "learning_rate": 0.0003094105868946762,
      "loss": 1.6137,
      "step": 44185
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47664308547973633,
      "learning_rate": 0.00030940013991613357,
      "loss": 1.667,
      "step": 44186
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47073179483413696,
      "learning_rate": 0.0003093896929261804,
      "loss": 1.5279,
      "step": 44187
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4750830829143524,
      "learning_rate": 0.00030937924592482963,
      "loss": 1.6101,
      "step": 44188
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4629659354686737,
      "learning_rate": 0.0003093687989120938,
      "loss": 1.6032,
      "step": 44189
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4870641231536865,
      "learning_rate": 0.00030935835188798563,
      "loss": 1.649,
      "step": 44190
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.467521995306015,
      "learning_rate": 0.00030934790485251775,
      "loss": 1.6326,
      "step": 44191
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4760182499885559,
      "learning_rate": 0.000309337457805703,
      "loss": 1.6161,
      "step": 44192
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4792391061782837,
      "learning_rate": 0.0003093270107475539,
      "loss": 1.6148,
      "step": 44193
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4974803328514099,
      "learning_rate": 0.0003093165636780832,
      "loss": 1.5933,
      "step": 44194
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4661499857902527,
      "learning_rate": 0.00030930611659730356,
      "loss": 1.6391,
      "step": 44195
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45707839727401733,
      "learning_rate": 0.00030929566950522764,
      "loss": 1.6019,
      "step": 44196
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4792352020740509,
      "learning_rate": 0.00030928522240186815,
      "loss": 1.6065,
      "step": 44197
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48422515392303467,
      "learning_rate": 0.0003092747752872378,
      "loss": 1.6635,
      "step": 44198
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46698516607284546,
      "learning_rate": 0.0003092643281613493,
      "loss": 1.6238,
      "step": 44199
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4729856252670288,
      "learning_rate": 0.00030925388102421517,
      "loss": 1.6158,
      "step": 44200
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.7423380613327026,
      "learning_rate": 0.0003092434338758482,
      "loss": 1.6369,
      "step": 44201
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4876117706298828,
      "learning_rate": 0.000309232986716261,
      "loss": 1.679,
      "step": 44202
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48041361570358276,
      "learning_rate": 0.0003092225395454664,
      "loss": 1.6544,
      "step": 44203
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4697670042514801,
      "learning_rate": 0.00030921209236347706,
      "loss": 1.6011,
      "step": 44204
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4526028037071228,
      "learning_rate": 0.0003092016451703054,
      "loss": 1.5961,
      "step": 44205
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.45606446266174316,
      "learning_rate": 0.00030919119796596453,
      "loss": 1.569,
      "step": 44206
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4698580801486969,
      "learning_rate": 0.0003091807507504668,
      "loss": 1.5253,
      "step": 44207
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4628206491470337,
      "learning_rate": 0.0003091703035238249,
      "loss": 1.5764,
      "step": 44208
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4658800959587097,
      "learning_rate": 0.00030915985628605176,
      "loss": 1.5321,
      "step": 44209
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4636324942111969,
      "learning_rate": 0.00030914940903715977,
      "loss": 1.6054,
      "step": 44210
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4790247082710266,
      "learning_rate": 0.00030913896177716185,
      "loss": 1.6008,
      "step": 44211
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4666164815425873,
      "learning_rate": 0.00030912851450607044,
      "loss": 1.5665,
      "step": 44212
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4784453809261322,
      "learning_rate": 0.00030911806722389853,
      "loss": 1.6246,
      "step": 44213
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48327696323394775,
      "learning_rate": 0.00030910761993065855,
      "loss": 1.6189,
      "step": 44214
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4727186858654022,
      "learning_rate": 0.0003090971726263632,
      "loss": 1.5517,
      "step": 44215
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48528221249580383,
      "learning_rate": 0.0003090867253110253,
      "loss": 1.5967,
      "step": 44216
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4613826870918274,
      "learning_rate": 0.00030907627798465746,
      "loss": 1.5659,
      "step": 44217
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4741973578929901,
      "learning_rate": 0.0003090658306472724,
      "loss": 1.5934,
      "step": 44218
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4704640209674835,
      "learning_rate": 0.0003090553832988826,
      "loss": 1.5984,
      "step": 44219
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4929584860801697,
      "learning_rate": 0.00030904493593950105,
      "loss": 1.6372,
      "step": 44220
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4836996793746948,
      "learning_rate": 0.0003090344885691402,
      "loss": 1.6261,
      "step": 44221
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4717797338962555,
      "learning_rate": 0.00030902404118781285,
      "loss": 1.5706,
      "step": 44222
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47228384017944336,
      "learning_rate": 0.0003090135937955316,
      "loss": 1.6739,
      "step": 44223
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47111424803733826,
      "learning_rate": 0.00030900314639230927,
      "loss": 1.6932,
      "step": 44224
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4839668869972229,
      "learning_rate": 0.00030899269897815835,
      "loss": 1.5892,
      "step": 44225
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47626063227653503,
      "learning_rate": 0.00030898225155309163,
      "loss": 1.5851,
      "step": 44226
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4786455035209656,
      "learning_rate": 0.0003089718041171218,
      "loss": 1.667,
      "step": 44227
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.454211950302124,
      "learning_rate": 0.00030896135667026153,
      "loss": 1.5523,
      "step": 44228
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4940186142921448,
      "learning_rate": 0.0003089509092125235,
      "loss": 1.6836,
      "step": 44229
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48397764563560486,
      "learning_rate": 0.0003089404617439203,
      "loss": 1.6535,
      "step": 44230
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46516814827919006,
      "learning_rate": 0.0003089300142644648,
      "loss": 1.6568,
      "step": 44231
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49026772379875183,
      "learning_rate": 0.0003089195667741696,
      "loss": 1.6251,
      "step": 44232
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49372953176498413,
      "learning_rate": 0.00030890911927304723,
      "loss": 1.5586,
      "step": 44233
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4854331910610199,
      "learning_rate": 0.00030889867176111066,
      "loss": 1.577,
      "step": 44234
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5026612877845764,
      "learning_rate": 0.00030888822423837223,
      "loss": 1.6448,
      "step": 44235
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4833602011203766,
      "learning_rate": 0.00030887777670484496,
      "loss": 1.6388,
      "step": 44236
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46658381819725037,
      "learning_rate": 0.00030886732916054127,
      "loss": 1.617,
      "step": 44237
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4709475040435791,
      "learning_rate": 0.00030885688160547405,
      "loss": 1.5332,
      "step": 44238
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4772554039955139,
      "learning_rate": 0.00030884643403965577,
      "loss": 1.6039,
      "step": 44239
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4750517010688782,
      "learning_rate": 0.0003088359864630993,
      "loss": 1.6089,
      "step": 44240
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47583743929862976,
      "learning_rate": 0.00030882553887581727,
      "loss": 1.5742,
      "step": 44241
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47517043352127075,
      "learning_rate": 0.00030881509127782226,
      "loss": 1.6559,
      "step": 44242
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4899631440639496,
      "learning_rate": 0.0003088046436691271,
      "loss": 1.6352,
      "step": 44243
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48255106806755066,
      "learning_rate": 0.0003087941960497443,
      "loss": 1.5673,
      "step": 44244
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5149629712104797,
      "learning_rate": 0.0003087837484196867,
      "loss": 1.684,
      "step": 44245
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4724012017250061,
      "learning_rate": 0.000308773300778967,
      "loss": 1.5703,
      "step": 44246
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5226593613624573,
      "learning_rate": 0.0003087628531275977,
      "loss": 1.6349,
      "step": 44247
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4783911108970642,
      "learning_rate": 0.00030875240546559163,
      "loss": 1.5812,
      "step": 44248
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4703950583934784,
      "learning_rate": 0.00030874195779296133,
      "loss": 1.628,
      "step": 44249
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48965781927108765,
      "learning_rate": 0.00030873151010971973,
      "loss": 1.5663,
      "step": 44250
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4832018315792084,
      "learning_rate": 0.00030872106241587935,
      "loss": 1.6156,
      "step": 44251
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.471299409866333,
      "learning_rate": 0.0003087106147114528,
      "loss": 1.5923,
      "step": 44252
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4770047962665558,
      "learning_rate": 0.0003087001669964529,
      "loss": 1.6412,
      "step": 44253
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46482422947883606,
      "learning_rate": 0.00030868971927089226,
      "loss": 1.5622,
      "step": 44254
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4847833216190338,
      "learning_rate": 0.00030867927153478366,
      "loss": 1.6014,
      "step": 44255
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46846628189086914,
      "learning_rate": 0.0003086688237881396,
      "loss": 1.5471,
      "step": 44256
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4738772213459015,
      "learning_rate": 0.0003086583760309729,
      "loss": 1.5777,
      "step": 44257
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4789521396160126,
      "learning_rate": 0.00030864792826329615,
      "loss": 1.5551,
      "step": 44258
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4829542636871338,
      "learning_rate": 0.0003086374804851222,
      "loss": 1.599,
      "step": 44259
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49196958541870117,
      "learning_rate": 0.00030862703269646355,
      "loss": 1.5894,
      "step": 44260
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4770851135253906,
      "learning_rate": 0.000308616584897333,
      "loss": 1.6804,
      "step": 44261
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.484514981508255,
      "learning_rate": 0.0003086061370877432,
      "loss": 1.7,
      "step": 44262
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49123361706733704,
      "learning_rate": 0.0003085956892677067,
      "loss": 1.6241,
      "step": 44263
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49813592433929443,
      "learning_rate": 0.0003085852414372363,
      "loss": 1.5564,
      "step": 44264
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5034735202789307,
      "learning_rate": 0.00030857479359634477,
      "loss": 1.6017,
      "step": 44265
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4965181052684784,
      "learning_rate": 0.0003085643457450448,
      "loss": 1.6595,
      "step": 44266
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4669877290725708,
      "learning_rate": 0.0003085538978833487,
      "loss": 1.6113,
      "step": 44267
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47783124446868896,
      "learning_rate": 0.0003085434500112697,
      "loss": 1.5812,
      "step": 44268
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4808865487575531,
      "learning_rate": 0.0003085330021288201,
      "loss": 1.6054,
      "step": 44269
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49714767932891846,
      "learning_rate": 0.00030852255423601265,
      "loss": 1.6381,
      "step": 44270
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.485383540391922,
      "learning_rate": 0.0003085121063328601,
      "loss": 1.58,
      "step": 44271
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48286330699920654,
      "learning_rate": 0.00030850165841937515,
      "loss": 1.5895,
      "step": 44272
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46919840574264526,
      "learning_rate": 0.0003084912104955705,
      "loss": 1.6328,
      "step": 44273
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4795375168323517,
      "learning_rate": 0.00030848076256145856,
      "loss": 1.6159,
      "step": 44274
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4810684323310852,
      "learning_rate": 0.0003084703146170524,
      "loss": 1.5781,
      "step": 44275
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4652160406112671,
      "learning_rate": 0.0003084598666623645,
      "loss": 1.5534,
      "step": 44276
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47607672214508057,
      "learning_rate": 0.0003084494186974075,
      "loss": 1.5694,
      "step": 44277
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.466321736574173,
      "learning_rate": 0.0003084389707221942,
      "loss": 1.602,
      "step": 44278
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4735950529575348,
      "learning_rate": 0.0003084285227367372,
      "loss": 1.5854,
      "step": 44279
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4746180474758148,
      "learning_rate": 0.0003084180747410493,
      "loss": 1.6519,
      "step": 44280
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5721007585525513,
      "learning_rate": 0.0003084076267351431,
      "loss": 1.6256,
      "step": 44281
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4733051359653473,
      "learning_rate": 0.00030839717871903113,
      "loss": 1.6045,
      "step": 44282
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47837549448013306,
      "learning_rate": 0.00030838673069272633,
      "loss": 1.6534,
      "step": 44283
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47559449076652527,
      "learning_rate": 0.00030837628265624126,
      "loss": 1.6688,
      "step": 44284
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4766145944595337,
      "learning_rate": 0.0003083658346095886,
      "loss": 1.5455,
      "step": 44285
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46808427572250366,
      "learning_rate": 0.0003083553865527811,
      "loss": 1.5801,
      "step": 44286
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4752628803253174,
      "learning_rate": 0.0003083449384858313,
      "loss": 1.6438,
      "step": 44287
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47309428453445435,
      "learning_rate": 0.0003083344904087521,
      "loss": 1.5676,
      "step": 44288
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4646773040294647,
      "learning_rate": 0.00030832404232155594,
      "loss": 1.5883,
      "step": 44289
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4917380213737488,
      "learning_rate": 0.0003083135942242557,
      "loss": 1.6058,
      "step": 44290
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4715525209903717,
      "learning_rate": 0.00030830314611686395,
      "loss": 1.6106,
      "step": 44291
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47071507573127747,
      "learning_rate": 0.00030829269799939336,
      "loss": 1.5885,
      "step": 44292
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4745990037918091,
      "learning_rate": 0.00030828224987185677,
      "loss": 1.5698,
      "step": 44293
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4952247142791748,
      "learning_rate": 0.00030827180173426664,
      "loss": 1.6196,
      "step": 44294
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4820983111858368,
      "learning_rate": 0.00030826135358663577,
      "loss": 1.6479,
      "step": 44295
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46657121181488037,
      "learning_rate": 0.00030825090542897695,
      "loss": 1.5904,
      "step": 44296
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4708229899406433,
      "learning_rate": 0.00030824045726130254,
      "loss": 1.6166,
      "step": 44297
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47818082571029663,
      "learning_rate": 0.00030823000908362567,
      "loss": 1.609,
      "step": 44298
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47386130690574646,
      "learning_rate": 0.0003082195608959585,
      "loss": 1.6611,
      "step": 44299
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47051456570625305,
      "learning_rate": 0.00030820911269831427,
      "loss": 1.6218,
      "step": 44300
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4727630019187927,
      "learning_rate": 0.0003081986644907052,
      "loss": 1.6657,
      "step": 44301
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5001097917556763,
      "learning_rate": 0.00030818821627314423,
      "loss": 1.6123,
      "step": 44302
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4734855592250824,
      "learning_rate": 0.0003081777680456441,
      "loss": 1.5996,
      "step": 44303
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4782222807407379,
      "learning_rate": 0.00030816731980821716,
      "loss": 1.7021,
      "step": 44304
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46294498443603516,
      "learning_rate": 0.0003081568715608764,
      "loss": 1.5509,
      "step": 44305
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46911099553108215,
      "learning_rate": 0.0003081464233036344,
      "loss": 1.5765,
      "step": 44306
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4690527617931366,
      "learning_rate": 0.00030813597503650376,
      "loss": 1.5944,
      "step": 44307
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48227158188819885,
      "learning_rate": 0.0003081255267594973,
      "loss": 1.6339,
      "step": 44308
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46706175804138184,
      "learning_rate": 0.0003081150784726276,
      "loss": 1.6258,
      "step": 44309
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4661679267883301,
      "learning_rate": 0.00030810463017590757,
      "loss": 1.64,
      "step": 44310
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47253918647766113,
      "learning_rate": 0.00030809418186934957,
      "loss": 1.6156,
      "step": 44311
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48707276582717896,
      "learning_rate": 0.00030808373355296643,
      "loss": 1.6107,
      "step": 44312
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47281405329704285,
      "learning_rate": 0.00030807328522677077,
      "loss": 1.5581,
      "step": 44313
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4951515197753906,
      "learning_rate": 0.00030806283689077544,
      "loss": 1.6094,
      "step": 44314
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4798416495323181,
      "learning_rate": 0.00030805238854499296,
      "loss": 1.6212,
      "step": 44315
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4706469178199768,
      "learning_rate": 0.0003080419401894361,
      "loss": 1.5958,
      "step": 44316
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4934442937374115,
      "learning_rate": 0.00030803149182411746,
      "loss": 1.6101,
      "step": 44317
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47655826807022095,
      "learning_rate": 0.00030802104344904987,
      "loss": 1.6141,
      "step": 44318
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4738653004169464,
      "learning_rate": 0.00030801059506424576,
      "loss": 1.6079,
      "step": 44319
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4788703918457031,
      "learning_rate": 0.00030800014666971804,
      "loss": 1.6056,
      "step": 44320
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.48581552505493164,
      "learning_rate": 0.0003079896982654794,
      "loss": 1.5426,
      "step": 44321
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4663710296154022,
      "learning_rate": 0.00030797924985154234,
      "loss": 1.5819,
      "step": 44322
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5049645900726318,
      "learning_rate": 0.00030796880142791973,
      "loss": 1.6847,
      "step": 44323
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4650130271911621,
      "learning_rate": 0.0003079583529946241,
      "loss": 1.6121,
      "step": 44324
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4577566683292389,
      "learning_rate": 0.00030794790455166825,
      "loss": 1.5942,
      "step": 44325
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.50611811876297,
      "learning_rate": 0.0003079374560990647,
      "loss": 1.6694,
      "step": 44326
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4665144979953766,
      "learning_rate": 0.0003079270076368264,
      "loss": 1.5895,
      "step": 44327
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47372058033943176,
      "learning_rate": 0.0003079165591649659,
      "loss": 1.6121,
      "step": 44328
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4740987718105316,
      "learning_rate": 0.00030790611068349567,
      "loss": 1.5648,
      "step": 44329
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.47948604822158813,
      "learning_rate": 0.00030789566219242874,
      "loss": 1.6098,
      "step": 44330
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.4695606529712677,
      "learning_rate": 0.00030788521369177764,
      "loss": 1.5887,
      "step": 44331
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.46287548542022705,
      "learning_rate": 0.00030787476518155497,
      "loss": 1.6855,
      "step": 44332
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5035357475280762,
      "learning_rate": 0.00030786431666177355,
      "loss": 1.6581,
      "step": 44333
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.6436100602149963,
      "learning_rate": 0.00030785386813244594,
      "loss": 1.6065,
      "step": 44334
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47604942321777344,
      "learning_rate": 0.000307843419593585,
      "loss": 1.6477,
      "step": 44335
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47507625818252563,
      "learning_rate": 0.00030783297104520325,
      "loss": 1.4738,
      "step": 44336
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4598267078399658,
      "learning_rate": 0.0003078225224873134,
      "loss": 1.6655,
      "step": 44337
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48430299758911133,
      "learning_rate": 0.00030781207391992815,
      "loss": 1.6685,
      "step": 44338
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4777523875236511,
      "learning_rate": 0.00030780162534306023,
      "loss": 1.6612,
      "step": 44339
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4868391752243042,
      "learning_rate": 0.0003077911767567223,
      "loss": 1.5795,
      "step": 44340
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.51655513048172,
      "learning_rate": 0.0003077807281609271,
      "loss": 1.6302,
      "step": 44341
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4965060353279114,
      "learning_rate": 0.0003077702795556871,
      "loss": 1.5636,
      "step": 44342
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4854733645915985,
      "learning_rate": 0.0003077598309410152,
      "loss": 1.6734,
      "step": 44343
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4794937074184418,
      "learning_rate": 0.00030774938231692395,
      "loss": 1.612,
      "step": 44344
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4997140169143677,
      "learning_rate": 0.00030773893368342615,
      "loss": 1.6182,
      "step": 44345
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4762747585773468,
      "learning_rate": 0.0003077284850405345,
      "loss": 1.6778,
      "step": 44346
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5180744528770447,
      "learning_rate": 0.00030771803638826145,
      "loss": 1.6326,
      "step": 44347
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5138015151023865,
      "learning_rate": 0.0003077075877266199,
      "loss": 1.6386,
      "step": 44348
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5031454563140869,
      "learning_rate": 0.00030769713905562254,
      "loss": 1.6779,
      "step": 44349
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4786054193973541,
      "learning_rate": 0.0003076866903752819,
      "loss": 1.6176,
      "step": 44350
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4730834364891052,
      "learning_rate": 0.0003076762416856108,
      "loss": 1.5709,
      "step": 44351
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5222496390342712,
      "learning_rate": 0.0003076657929866218,
      "loss": 1.6117,
      "step": 44352
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4805487096309662,
      "learning_rate": 0.0003076553442783278,
      "loss": 1.581,
      "step": 44353
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4752528667449951,
      "learning_rate": 0.00030764489556074116,
      "loss": 1.5856,
      "step": 44354
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46371570229530334,
      "learning_rate": 0.00030763444683387485,
      "loss": 1.5527,
      "step": 44355
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47443756461143494,
      "learning_rate": 0.0003076239980977415,
      "loss": 1.607,
      "step": 44356
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5377089977264404,
      "learning_rate": 0.00030761354935235363,
      "loss": 1.5743,
      "step": 44357
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.509678065776825,
      "learning_rate": 0.0003076031005977241,
      "loss": 1.5466,
      "step": 44358
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5294915437698364,
      "learning_rate": 0.00030759265183386545,
      "loss": 1.6693,
      "step": 44359
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4992697536945343,
      "learning_rate": 0.00030758220306079055,
      "loss": 1.5352,
      "step": 44360
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5112993717193604,
      "learning_rate": 0.0003075717542785118,
      "loss": 1.5694,
      "step": 44361
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5117065906524658,
      "learning_rate": 0.00030756130548704227,
      "loss": 1.6333,
      "step": 44362
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5030808448791504,
      "learning_rate": 0.0003075508566863943,
      "loss": 1.6411,
      "step": 44363
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49165382981300354,
      "learning_rate": 0.00030754040787658074,
      "loss": 1.6288,
      "step": 44364
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48472970724105835,
      "learning_rate": 0.00030752995905761427,
      "loss": 1.6554,
      "step": 44365
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4998311996459961,
      "learning_rate": 0.0003075195102295074,
      "loss": 1.616,
      "step": 44366
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49470627307891846,
      "learning_rate": 0.00030750906139227313,
      "loss": 1.6814,
      "step": 44367
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4893510937690735,
      "learning_rate": 0.00030749861254592383,
      "loss": 1.6799,
      "step": 44368
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4883621633052826,
      "learning_rate": 0.0003074881636904724,
      "loss": 1.6284,
      "step": 44369
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47943001985549927,
      "learning_rate": 0.00030747771482593137,
      "loss": 1.5168,
      "step": 44370
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.488087922334671,
      "learning_rate": 0.0003074672659523136,
      "loss": 1.5745,
      "step": 44371
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47132608294487,
      "learning_rate": 0.00030745681706963163,
      "loss": 1.5927,
      "step": 44372
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4932710528373718,
      "learning_rate": 0.0003074463681778982,
      "loss": 1.6192,
      "step": 44373
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47071823477745056,
      "learning_rate": 0.0003074359192771259,
      "loss": 1.6072,
      "step": 44374
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5334466099739075,
      "learning_rate": 0.00030742547036732745,
      "loss": 1.5863,
      "step": 44375
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4782584607601166,
      "learning_rate": 0.00030741502144851566,
      "loss": 1.6937,
      "step": 44376
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5004727840423584,
      "learning_rate": 0.0003074045725207031,
      "loss": 1.5592,
      "step": 44377
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4818781018257141,
      "learning_rate": 0.00030739412358390256,
      "loss": 1.6671,
      "step": 44378
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48993462324142456,
      "learning_rate": 0.0003073836746381266,
      "loss": 1.6934,
      "step": 44379
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49548906087875366,
      "learning_rate": 0.0003073732256833879,
      "loss": 1.6224,
      "step": 44380
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48023685812950134,
      "learning_rate": 0.0003073627767196992,
      "loss": 1.6162,
      "step": 44381
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4725865125656128,
      "learning_rate": 0.0003073523277470732,
      "loss": 1.5491,
      "step": 44382
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4721759557723999,
      "learning_rate": 0.00030734187876552257,
      "loss": 1.6841,
      "step": 44383
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4796208441257477,
      "learning_rate": 0.00030733142977505993,
      "loss": 1.5207,
      "step": 44384
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46918320655822754,
      "learning_rate": 0.0003073209807756981,
      "loss": 1.5783,
      "step": 44385
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4895300269126892,
      "learning_rate": 0.00030731053176744966,
      "loss": 1.6715,
      "step": 44386
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4937162697315216,
      "learning_rate": 0.00030730008275032725,
      "loss": 1.6242,
      "step": 44387
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49317631125450134,
      "learning_rate": 0.00030728963372434354,
      "loss": 1.5976,
      "step": 44388
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46847212314605713,
      "learning_rate": 0.00030727918468951144,
      "loss": 1.6361,
      "step": 44389
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4855157136917114,
      "learning_rate": 0.0003072687356458435,
      "loss": 1.6099,
      "step": 44390
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47857263684272766,
      "learning_rate": 0.0003072582865933522,
      "loss": 1.6195,
      "step": 44391
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4598689079284668,
      "learning_rate": 0.0003072478375320506,
      "loss": 1.6158,
      "step": 44392
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4757254421710968,
      "learning_rate": 0.0003072373884619511,
      "loss": 1.6656,
      "step": 44393
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5077497959136963,
      "learning_rate": 0.00030722693938306647,
      "loss": 1.5441,
      "step": 44394
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4690569341182709,
      "learning_rate": 0.00030721649029540944,
      "loss": 1.646,
      "step": 44395
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46068495512008667,
      "learning_rate": 0.00030720604119899265,
      "loss": 1.6108,
      "step": 44396
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47561848163604736,
      "learning_rate": 0.00030719559209382884,
      "loss": 1.6637,
      "step": 44397
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48104819655418396,
      "learning_rate": 0.0003071851429799306,
      "loss": 1.5831,
      "step": 44398
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46725550293922424,
      "learning_rate": 0.0003071746938573106,
      "loss": 1.5996,
      "step": 44399
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49212995171546936,
      "learning_rate": 0.00030716424472598163,
      "loss": 1.6382,
      "step": 44400
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47238847613334656,
      "learning_rate": 0.0003071537955859563,
      "loss": 1.6152,
      "step": 44401
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4723241627216339,
      "learning_rate": 0.0003071433464372473,
      "loss": 1.5545,
      "step": 44402
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5047661662101746,
      "learning_rate": 0.00030713289727986743,
      "loss": 1.6056,
      "step": 44403
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4763116240501404,
      "learning_rate": 0.0003071224481138291,
      "loss": 1.5834,
      "step": 44404
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4732370972633362,
      "learning_rate": 0.00030711199893914526,
      "loss": 1.6319,
      "step": 44405
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4712626338005066,
      "learning_rate": 0.00030710154975582853,
      "loss": 1.5747,
      "step": 44406
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4709678888320923,
      "learning_rate": 0.00030709110056389153,
      "loss": 1.6684,
      "step": 44407
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4645940959453583,
      "learning_rate": 0.00030708065136334704,
      "loss": 1.6656,
      "step": 44408
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4873831272125244,
      "learning_rate": 0.00030707020215420754,
      "loss": 1.6428,
      "step": 44409
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47602730989456177,
      "learning_rate": 0.000307059752936486,
      "loss": 1.6173,
      "step": 44410
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4846801459789276,
      "learning_rate": 0.0003070493037101949,
      "loss": 1.7078,
      "step": 44411
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.459853857755661,
      "learning_rate": 0.000307038854475347,
      "loss": 1.5765,
      "step": 44412
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47157543897628784,
      "learning_rate": 0.000307028405231955,
      "loss": 1.612,
      "step": 44413
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.45995447039604187,
      "learning_rate": 0.00030701795598003144,
      "loss": 1.5515,
      "step": 44414
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47294604778289795,
      "learning_rate": 0.0003070075067195893,
      "loss": 1.6095,
      "step": 44415
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46572747826576233,
      "learning_rate": 0.0003069970574506408,
      "loss": 1.6331,
      "step": 44416
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47973474860191345,
      "learning_rate": 0.00030698660817319917,
      "loss": 1.6403,
      "step": 44417
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4905640780925751,
      "learning_rate": 0.0003069761588872767,
      "loss": 1.6543,
      "step": 44418
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4801630675792694,
      "learning_rate": 0.0003069657095928862,
      "loss": 1.5858,
      "step": 44419
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4768989682197571,
      "learning_rate": 0.0003069552602900405,
      "loss": 1.6623,
      "step": 44420
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46766820549964905,
      "learning_rate": 0.00030694481097875195,
      "loss": 1.7158,
      "step": 44421
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4529763162136078,
      "learning_rate": 0.00030693436165903353,
      "loss": 1.6243,
      "step": 44422
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4682029187679291,
      "learning_rate": 0.0003069239123308978,
      "loss": 1.6668,
      "step": 44423
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49069035053253174,
      "learning_rate": 0.0003069134629943574,
      "loss": 1.5234,
      "step": 44424
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46997353434562683,
      "learning_rate": 0.0003069030136494251,
      "loss": 1.6718,
      "step": 44425
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46635183691978455,
      "learning_rate": 0.0003068925642961136,
      "loss": 1.5567,
      "step": 44426
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4487296938896179,
      "learning_rate": 0.0003068821149344355,
      "loss": 1.6083,
      "step": 44427
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4666280448436737,
      "learning_rate": 0.0003068716655644036,
      "loss": 1.5743,
      "step": 44428
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4706677198410034,
      "learning_rate": 0.0003068612161860304,
      "loss": 1.5679,
      "step": 44429
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5009729266166687,
      "learning_rate": 0.0003068507667993288,
      "loss": 1.6358,
      "step": 44430
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47799015045166016,
      "learning_rate": 0.00030684031740431123,
      "loss": 1.6426,
      "step": 44431
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4777452051639557,
      "learning_rate": 0.00030682986800099064,
      "loss": 1.6395,
      "step": 44432
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48481038212776184,
      "learning_rate": 0.00030681941858937963,
      "loss": 1.5824,
      "step": 44433
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48838886618614197,
      "learning_rate": 0.0003068089691694908,
      "loss": 1.6344,
      "step": 44434
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4730297923088074,
      "learning_rate": 0.00030679851974133694,
      "loss": 1.629,
      "step": 44435
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4791809916496277,
      "learning_rate": 0.00030678807030493056,
      "loss": 1.6254,
      "step": 44436
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48129189014434814,
      "learning_rate": 0.0003067776208602845,
      "loss": 1.6496,
      "step": 44437
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5228317379951477,
      "learning_rate": 0.0003067671714074115,
      "loss": 1.548,
      "step": 44438
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49163728952407837,
      "learning_rate": 0.000306756721946324,
      "loss": 1.6766,
      "step": 44439
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48376208543777466,
      "learning_rate": 0.000306746272477035,
      "loss": 1.6452,
      "step": 44440
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5117989182472229,
      "learning_rate": 0.0003067358229995569,
      "loss": 1.5977,
      "step": 44441
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49260181188583374,
      "learning_rate": 0.0003067253735139025,
      "loss": 1.6282,
      "step": 44442
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.481318861246109,
      "learning_rate": 0.0003067149240200846,
      "loss": 1.6395,
      "step": 44443
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48415613174438477,
      "learning_rate": 0.00030670447451811565,
      "loss": 1.6765,
      "step": 44444
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48685234785079956,
      "learning_rate": 0.0003066940250080085,
      "loss": 1.594,
      "step": 44445
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48179176449775696,
      "learning_rate": 0.00030668357548977577,
      "loss": 1.6159,
      "step": 44446
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.45961010456085205,
      "learning_rate": 0.0003066731259634302,
      "loss": 1.5935,
      "step": 44447
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5020751953125,
      "learning_rate": 0.00030666267642898447,
      "loss": 1.6316,
      "step": 44448
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4691677987575531,
      "learning_rate": 0.00030665222688645117,
      "loss": 1.6672,
      "step": 44449
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47612956166267395,
      "learning_rate": 0.00030664177733584307,
      "loss": 1.5502,
      "step": 44450
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4722903072834015,
      "learning_rate": 0.0003066313277771728,
      "loss": 1.6166,
      "step": 44451
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4808458089828491,
      "learning_rate": 0.00030662087821045316,
      "loss": 1.7036,
      "step": 44452
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4780305027961731,
      "learning_rate": 0.00030661042863569667,
      "loss": 1.6139,
      "step": 44453
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4744890332221985,
      "learning_rate": 0.0003065999790529161,
      "loss": 1.6495,
      "step": 44454
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47967851161956787,
      "learning_rate": 0.0003065895294621241,
      "loss": 1.6401,
      "step": 44455
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4699619710445404,
      "learning_rate": 0.00030657907986333347,
      "loss": 1.585,
      "step": 44456
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.476902037858963,
      "learning_rate": 0.0003065686302565567,
      "loss": 1.6283,
      "step": 44457
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4619957506656647,
      "learning_rate": 0.00030655818064180676,
      "loss": 1.531,
      "step": 44458
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47318941354751587,
      "learning_rate": 0.000306547731019096,
      "loss": 1.5629,
      "step": 44459
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4903935492038727,
      "learning_rate": 0.0003065372813884373,
      "loss": 1.6021,
      "step": 44460
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4749731123447418,
      "learning_rate": 0.0003065268317498433,
      "loss": 1.6323,
      "step": 44461
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4808274507522583,
      "learning_rate": 0.0003065163821033267,
      "loss": 1.5994,
      "step": 44462
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4692392349243164,
      "learning_rate": 0.0003065059324489002,
      "loss": 1.633,
      "step": 44463
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4793141484260559,
      "learning_rate": 0.00030649548278657634,
      "loss": 1.6554,
      "step": 44464
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4716673791408539,
      "learning_rate": 0.000306485033116368,
      "loss": 1.5375,
      "step": 44465
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4738936424255371,
      "learning_rate": 0.00030647458343828775,
      "loss": 1.4983,
      "step": 44466
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4970599114894867,
      "learning_rate": 0.00030646413375234833,
      "loss": 1.682,
      "step": 44467
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4801871180534363,
      "learning_rate": 0.00030645368405856255,
      "loss": 1.6029,
      "step": 44468
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4890192747116089,
      "learning_rate": 0.00030644323435694275,
      "loss": 1.649,
      "step": 44469
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4848991632461548,
      "learning_rate": 0.0003064327846475019,
      "loss": 1.6214,
      "step": 44470
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48921141028404236,
      "learning_rate": 0.00030642233493025247,
      "loss": 1.5993,
      "step": 44471
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49296462535858154,
      "learning_rate": 0.00030641188520520745,
      "loss": 1.6283,
      "step": 44472
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47897869348526,
      "learning_rate": 0.0003064014354723793,
      "loss": 1.6529,
      "step": 44473
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49433910846710205,
      "learning_rate": 0.0003063909857317807,
      "loss": 1.6121,
      "step": 44474
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.470549076795578,
      "learning_rate": 0.00030638053598342445,
      "loss": 1.5797,
      "step": 44475
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4744373857975006,
      "learning_rate": 0.000306370086227323,
      "loss": 1.583,
      "step": 44476
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5001106858253479,
      "learning_rate": 0.00030635963646348947,
      "loss": 1.6426,
      "step": 44477
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4618426263332367,
      "learning_rate": 0.0003063491866919361,
      "loss": 1.6054,
      "step": 44478
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4727281928062439,
      "learning_rate": 0.0003063387369126758,
      "loss": 1.5249,
      "step": 44479
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49236539006233215,
      "learning_rate": 0.0003063282871257212,
      "loss": 1.609,
      "step": 44480
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4879611134529114,
      "learning_rate": 0.0003063178373310849,
      "loss": 1.5637,
      "step": 44481
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47710612416267395,
      "learning_rate": 0.00030630738752877987,
      "loss": 1.6132,
      "step": 44482
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4765772223472595,
      "learning_rate": 0.00030629693771881846,
      "loss": 1.581,
      "step": 44483
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47383013367652893,
      "learning_rate": 0.00030628648790121353,
      "loss": 1.6317,
      "step": 44484
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.45839154720306396,
      "learning_rate": 0.0003062760380759778,
      "loss": 1.5785,
      "step": 44485
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47302114963531494,
      "learning_rate": 0.0003062655882431238,
      "loss": 1.6092,
      "step": 44486
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46425244212150574,
      "learning_rate": 0.00030625513840266424,
      "loss": 1.6291,
      "step": 44487
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46311748027801514,
      "learning_rate": 0.000306244688554612,
      "loss": 1.6424,
      "step": 44488
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4890834093093872,
      "learning_rate": 0.00030623423869897965,
      "loss": 1.5895,
      "step": 44489
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4715445637702942,
      "learning_rate": 0.00030622378883577974,
      "loss": 1.5679,
      "step": 44490
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4764067530632019,
      "learning_rate": 0.0003062133389650251,
      "loss": 1.6647,
      "step": 44491
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47052526473999023,
      "learning_rate": 0.00030620288908672833,
      "loss": 1.5177,
      "step": 44492
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49110323190689087,
      "learning_rate": 0.0003061924392009022,
      "loss": 1.6792,
      "step": 44493
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4797356426715851,
      "learning_rate": 0.00030618198930755936,
      "loss": 1.6355,
      "step": 44494
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47106969356536865,
      "learning_rate": 0.0003061715394067126,
      "loss": 1.643,
      "step": 44495
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46218857169151306,
      "learning_rate": 0.0003061610894983744,
      "loss": 1.5348,
      "step": 44496
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5085514187812805,
      "learning_rate": 0.00030615063958255753,
      "loss": 1.6384,
      "step": 44497
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4638230800628662,
      "learning_rate": 0.0003061401896592747,
      "loss": 1.6117,
      "step": 44498
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47807633876800537,
      "learning_rate": 0.00030612973972853866,
      "loss": 1.5674,
      "step": 44499
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.466060072183609,
      "learning_rate": 0.000306119289790362,
      "loss": 1.575,
      "step": 44500
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4806719720363617,
      "learning_rate": 0.0003061088398447573,
      "loss": 1.5763,
      "step": 44501
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4559513032436371,
      "learning_rate": 0.00030609838989173753,
      "loss": 1.5701,
      "step": 44502
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4865776300430298,
      "learning_rate": 0.00030608793993131515,
      "loss": 1.6344,
      "step": 44503
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.487030953168869,
      "learning_rate": 0.00030607748996350285,
      "loss": 1.6511,
      "step": 44504
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49315062165260315,
      "learning_rate": 0.0003060670399883134,
      "loss": 1.6036,
      "step": 44505
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4995895326137543,
      "learning_rate": 0.00030605659000575944,
      "loss": 1.6626,
      "step": 44506
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4713402986526489,
      "learning_rate": 0.0003060461400158538,
      "loss": 1.6443,
      "step": 44507
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4665205776691437,
      "learning_rate": 0.00030603569001860884,
      "loss": 1.6096,
      "step": 44508
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48379385471343994,
      "learning_rate": 0.00030602524001403764,
      "loss": 1.6645,
      "step": 44509
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4739055633544922,
      "learning_rate": 0.00030601479000215263,
      "loss": 1.5922,
      "step": 44510
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.8848150968551636,
      "learning_rate": 0.00030600433998296644,
      "loss": 1.6114,
      "step": 44511
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5072492361068726,
      "learning_rate": 0.000305993889956492,
      "loss": 1.5388,
      "step": 44512
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4856834411621094,
      "learning_rate": 0.00030598343992274175,
      "loss": 1.6075,
      "step": 44513
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4837132692337036,
      "learning_rate": 0.00030597298988172856,
      "loss": 1.562,
      "step": 44514
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4812336266040802,
      "learning_rate": 0.00030596253983346505,
      "loss": 1.5737,
      "step": 44515
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4871394634246826,
      "learning_rate": 0.0003059520897779639,
      "loss": 1.6287,
      "step": 44516
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47047850489616394,
      "learning_rate": 0.0003059416397152377,
      "loss": 1.5858,
      "step": 44517
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4874649941921234,
      "learning_rate": 0.00030593118964529926,
      "loss": 1.6049,
      "step": 44518
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4742203652858734,
      "learning_rate": 0.0003059207395681612,
      "loss": 1.582,
      "step": 44519
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.486335813999176,
      "learning_rate": 0.00030591028948383643,
      "loss": 1.6356,
      "step": 44520
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49550867080688477,
      "learning_rate": 0.0003058998393923372,
      "loss": 1.629,
      "step": 44521
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48686879873275757,
      "learning_rate": 0.00030588938929367656,
      "loss": 1.7012,
      "step": 44522
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47427862882614136,
      "learning_rate": 0.00030587893918786706,
      "loss": 1.5845,
      "step": 44523
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48149368166923523,
      "learning_rate": 0.00030586848907492134,
      "loss": 1.6251,
      "step": 44524
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5046693682670593,
      "learning_rate": 0.00030585803895485225,
      "loss": 1.6988,
      "step": 44525
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5097857713699341,
      "learning_rate": 0.0003058475888276722,
      "loss": 1.5936,
      "step": 44526
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4798278212547302,
      "learning_rate": 0.00030583713869339416,
      "loss": 1.5834,
      "step": 44527
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4911430776119232,
      "learning_rate": 0.00030582668855203064,
      "loss": 1.5936,
      "step": 44528
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4894407391548157,
      "learning_rate": 0.0003058162384035944,
      "loss": 1.5917,
      "step": 44529
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46662935614585876,
      "learning_rate": 0.00030580578824809817,
      "loss": 1.5446,
      "step": 44530
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4982536733150482,
      "learning_rate": 0.0003057953380855544,
      "loss": 1.612,
      "step": 44531
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49330052733421326,
      "learning_rate": 0.0003057848879159761,
      "loss": 1.6433,
      "step": 44532
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4678109586238861,
      "learning_rate": 0.00030577443773937565,
      "loss": 1.6284,
      "step": 44533
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5374459624290466,
      "learning_rate": 0.0003057639875557661,
      "loss": 1.6959,
      "step": 44534
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5008364915847778,
      "learning_rate": 0.0003057535373651597,
      "loss": 1.6696,
      "step": 44535
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47237423062324524,
      "learning_rate": 0.00030574308716756947,
      "loss": 1.6626,
      "step": 44536
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4714234471321106,
      "learning_rate": 0.00030573263696300797,
      "loss": 1.6029,
      "step": 44537
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5238015055656433,
      "learning_rate": 0.00030572218675148783,
      "loss": 1.6218,
      "step": 44538
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5061152577400208,
      "learning_rate": 0.00030571173653302187,
      "loss": 1.612,
      "step": 44539
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48740094900131226,
      "learning_rate": 0.0003057012863076227,
      "loss": 1.5629,
      "step": 44540
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4744005799293518,
      "learning_rate": 0.0003056908360753029,
      "loss": 1.6193,
      "step": 44541
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47732552886009216,
      "learning_rate": 0.00030568038583607534,
      "loss": 1.6166,
      "step": 44542
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4773918092250824,
      "learning_rate": 0.00030566993558995274,
      "loss": 1.5467,
      "step": 44543
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5005664229393005,
      "learning_rate": 0.00030565948533694756,
      "loss": 1.6126,
      "step": 44544
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49479928612709045,
      "learning_rate": 0.0003056490350770726,
      "loss": 1.5881,
      "step": 44545
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5083733201026917,
      "learning_rate": 0.00030563858481034057,
      "loss": 1.6414,
      "step": 44546
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48720112442970276,
      "learning_rate": 0.00030562813453676406,
      "loss": 1.6977,
      "step": 44547
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4807722270488739,
      "learning_rate": 0.0003056176842563559,
      "loss": 1.5635,
      "step": 44548
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4718970060348511,
      "learning_rate": 0.0003056072339691287,
      "loss": 1.6109,
      "step": 44549
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4669981896877289,
      "learning_rate": 0.00030559678367509513,
      "loss": 1.5993,
      "step": 44550
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47464677691459656,
      "learning_rate": 0.00030558633337426786,
      "loss": 1.6295,
      "step": 44551
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46302273869514465,
      "learning_rate": 0.00030557588306665966,
      "loss": 1.6898,
      "step": 44552
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48182162642478943,
      "learning_rate": 0.00030556543275228306,
      "loss": 1.6951,
      "step": 44553
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4782109558582306,
      "learning_rate": 0.00030555498243115095,
      "loss": 1.591,
      "step": 44554
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49815502762794495,
      "learning_rate": 0.00030554453210327587,
      "loss": 1.5622,
      "step": 44555
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4891768991947174,
      "learning_rate": 0.0003055340817686705,
      "loss": 1.601,
      "step": 44556
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4839590787887573,
      "learning_rate": 0.00030552363142734767,
      "loss": 1.6199,
      "step": 44557
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4862123727798462,
      "learning_rate": 0.00030551318107931993,
      "loss": 1.5714,
      "step": 44558
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48343992233276367,
      "learning_rate": 0.00030550273072459995,
      "loss": 1.7226,
      "step": 44559
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48536282777786255,
      "learning_rate": 0.0003054922803632004,
      "loss": 1.5923,
      "step": 44560
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4806654453277588,
      "learning_rate": 0.0003054818299951342,
      "loss": 1.5261,
      "step": 44561
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47666051983833313,
      "learning_rate": 0.0003054713796204138,
      "loss": 1.626,
      "step": 44562
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4732813239097595,
      "learning_rate": 0.0003054609292390519,
      "loss": 1.647,
      "step": 44563
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4601563513278961,
      "learning_rate": 0.0003054504788510613,
      "loss": 1.6071,
      "step": 44564
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4832358956336975,
      "learning_rate": 0.0003054400284564546,
      "loss": 1.6445,
      "step": 44565
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46246498823165894,
      "learning_rate": 0.00030542957805524453,
      "loss": 1.5927,
      "step": 44566
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4822078347206116,
      "learning_rate": 0.0003054191276474437,
      "loss": 1.6177,
      "step": 44567
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4778392016887665,
      "learning_rate": 0.00030540867723306483,
      "loss": 1.578,
      "step": 44568
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48049527406692505,
      "learning_rate": 0.0003053982268121208,
      "loss": 1.6559,
      "step": 44569
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49530938267707825,
      "learning_rate": 0.00030538777638462397,
      "loss": 1.5966,
      "step": 44570
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46857473254203796,
      "learning_rate": 0.0003053773259505872,
      "loss": 1.5832,
      "step": 44571
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4749070107936859,
      "learning_rate": 0.0003053668755100231,
      "loss": 1.5986,
      "step": 44572
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4731331467628479,
      "learning_rate": 0.0003053564250629445,
      "loss": 1.5651,
      "step": 44573
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4616626501083374,
      "learning_rate": 0.0003053459746093638,
      "loss": 1.5961,
      "step": 44574
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4762378931045532,
      "learning_rate": 0.0003053355241492941,
      "loss": 1.6188,
      "step": 44575
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4797027111053467,
      "learning_rate": 0.0003053250736827478,
      "loss": 1.5373,
      "step": 44576
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4842187166213989,
      "learning_rate": 0.00030531462320973756,
      "loss": 1.6486,
      "step": 44577
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46885645389556885,
      "learning_rate": 0.0003053041727302762,
      "loss": 1.5958,
      "step": 44578
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4857249855995178,
      "learning_rate": 0.0003052937222443764,
      "loss": 1.6852,
      "step": 44579
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47016778588294983,
      "learning_rate": 0.0003052832717520508,
      "loss": 1.6117,
      "step": 44580
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47031521797180176,
      "learning_rate": 0.000305272821253312,
      "loss": 1.5475,
      "step": 44581
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48589637875556946,
      "learning_rate": 0.0003052623707481728,
      "loss": 1.58,
      "step": 44582
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4825817346572876,
      "learning_rate": 0.00030525192023664587,
      "loss": 1.5954,
      "step": 44583
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4585554897785187,
      "learning_rate": 0.0003052414697187439,
      "loss": 1.5175,
      "step": 44584
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4720924496650696,
      "learning_rate": 0.0003052310191944796,
      "loss": 1.5927,
      "step": 44585
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4709245264530182,
      "learning_rate": 0.00030522056866386544,
      "loss": 1.6039,
      "step": 44586
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47299814224243164,
      "learning_rate": 0.00030521011812691454,
      "loss": 1.6356,
      "step": 44587
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4717470705509186,
      "learning_rate": 0.0003051996675836391,
      "loss": 1.6311,
      "step": 44588
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48431846499443054,
      "learning_rate": 0.0003051892170340521,
      "loss": 1.7007,
      "step": 44589
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47682517766952515,
      "learning_rate": 0.00030517876647816617,
      "loss": 1.6425,
      "step": 44590
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5141096711158752,
      "learning_rate": 0.000305168315915994,
      "loss": 1.5688,
      "step": 44591
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5539930462837219,
      "learning_rate": 0.00030515786534754825,
      "loss": 1.6133,
      "step": 44592
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47802093625068665,
      "learning_rate": 0.0003051474147728416,
      "loss": 1.5142,
      "step": 44593
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48070842027664185,
      "learning_rate": 0.0003051369641918868,
      "loss": 1.5744,
      "step": 44594
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5140268802642822,
      "learning_rate": 0.00030512651360469634,
      "loss": 1.6606,
      "step": 44595
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49982914328575134,
      "learning_rate": 0.0003051160630112832,
      "loss": 1.606,
      "step": 44596
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4882949888706207,
      "learning_rate": 0.0003051056124116598,
      "loss": 1.5641,
      "step": 44597
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.497031033039093,
      "learning_rate": 0.000305095161805839,
      "loss": 1.5625,
      "step": 44598
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.490528404712677,
      "learning_rate": 0.0003050847111938335,
      "loss": 1.619,
      "step": 44599
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48160257935523987,
      "learning_rate": 0.00030507426057565574,
      "loss": 1.5955,
      "step": 44600
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4759434461593628,
      "learning_rate": 0.00030506380995131864,
      "loss": 1.5426,
      "step": 44601
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4938250780105591,
      "learning_rate": 0.00030505335932083487,
      "loss": 1.6355,
      "step": 44602
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48451316356658936,
      "learning_rate": 0.00030504290868421695,
      "loss": 1.6056,
      "step": 44603
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4738832414150238,
      "learning_rate": 0.0003050324580414778,
      "loss": 1.6348,
      "step": 44604
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4841943383216858,
      "learning_rate": 0.0003050220073926299,
      "loss": 1.6235,
      "step": 44605
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5116298794746399,
      "learning_rate": 0.00030501155673768617,
      "loss": 1.6375,
      "step": 44606
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46894416213035583,
      "learning_rate": 0.000305001106076659,
      "loss": 1.6444,
      "step": 44607
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5020387172698975,
      "learning_rate": 0.0003049906554095613,
      "loss": 1.6748,
      "step": 44608
    },
    {
      "epoch": 1.48,
      "grad_norm": 1.004697561264038,
      "learning_rate": 0.00030498020473640567,
      "loss": 1.707,
      "step": 44609
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4883215129375458,
      "learning_rate": 0.00030496975405720474,
      "loss": 1.6417,
      "step": 44610
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46548590064048767,
      "learning_rate": 0.00030495930337197136,
      "loss": 1.5995,
      "step": 44611
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4718272089958191,
      "learning_rate": 0.0003049488526807181,
      "loss": 1.6508,
      "step": 44612
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4944981634616852,
      "learning_rate": 0.00030493840198345763,
      "loss": 1.6815,
      "step": 44613
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46961742639541626,
      "learning_rate": 0.00030492795128020264,
      "loss": 1.5555,
      "step": 44614
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47180745005607605,
      "learning_rate": 0.0003049175005709659,
      "loss": 1.6856,
      "step": 44615
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.46392735838890076,
      "learning_rate": 0.00030490704985576,
      "loss": 1.6703,
      "step": 44616
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4897431433200836,
      "learning_rate": 0.00030489659913459765,
      "loss": 1.6076,
      "step": 44617
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4686880111694336,
      "learning_rate": 0.00030488614840749157,
      "loss": 1.6032,
      "step": 44618
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47905072569847107,
      "learning_rate": 0.0003048756976744545,
      "loss": 1.5595,
      "step": 44619
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4801827371120453,
      "learning_rate": 0.00030486524693549893,
      "loss": 1.5836,
      "step": 44620
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4727794826030731,
      "learning_rate": 0.00030485479619063774,
      "loss": 1.5912,
      "step": 44621
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4937748312950134,
      "learning_rate": 0.0003048443454398835,
      "loss": 1.6027,
      "step": 44622
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.47843629121780396,
      "learning_rate": 0.00030483389468324894,
      "loss": 1.5854,
      "step": 44623
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4890819191932678,
      "learning_rate": 0.0003048234439207468,
      "loss": 1.6234,
      "step": 44624
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4982130229473114,
      "learning_rate": 0.00030481299315238965,
      "loss": 1.6781,
      "step": 44625
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.477293998003006,
      "learning_rate": 0.0003048025423781903,
      "loss": 1.6548,
      "step": 44626
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49864110350608826,
      "learning_rate": 0.0003047920915981613,
      "loss": 1.5738,
      "step": 44627
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4732099175453186,
      "learning_rate": 0.00030478164081231544,
      "loss": 1.5731,
      "step": 44628
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.49125945568084717,
      "learning_rate": 0.0003047711900206654,
      "loss": 1.6283,
      "step": 44629
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.48464515805244446,
      "learning_rate": 0.00030476073922322376,
      "loss": 1.6341,
      "step": 44630
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5197281837463379,
      "learning_rate": 0.0003047502884200034,
      "loss": 1.6486,
      "step": 44631
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4914001226425171,
      "learning_rate": 0.0003047398376110168,
      "loss": 1.5785,
      "step": 44632
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.481646865606308,
      "learning_rate": 0.00030472938679627676,
      "loss": 1.6078,
      "step": 44633
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.486078679561615,
      "learning_rate": 0.0003047189359757959,
      "loss": 1.6558,
      "step": 44634
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4794003665447235,
      "learning_rate": 0.000304708485149587,
      "loss": 1.5857,
      "step": 44635
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5076525807380676,
      "learning_rate": 0.0003046980343176627,
      "loss": 1.642,
      "step": 44636
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49657440185546875,
      "learning_rate": 0.0003046875834800357,
      "loss": 1.6532,
      "step": 44637
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5010205507278442,
      "learning_rate": 0.00030467713263671855,
      "loss": 1.6875,
      "step": 44638
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4803905487060547,
      "learning_rate": 0.0003046666817877242,
      "loss": 1.5985,
      "step": 44639
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4756529629230499,
      "learning_rate": 0.00030465623093306503,
      "loss": 1.5708,
      "step": 44640
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5038365125656128,
      "learning_rate": 0.00030464578007275404,
      "loss": 1.552,
      "step": 44641
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4779362380504608,
      "learning_rate": 0.00030463532920680373,
      "loss": 1.5229,
      "step": 44642
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47160711884498596,
      "learning_rate": 0.00030462487833522663,
      "loss": 1.5423,
      "step": 44643
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4739643335342407,
      "learning_rate": 0.0003046144274580358,
      "loss": 1.5922,
      "step": 44644
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47036269307136536,
      "learning_rate": 0.0003046039765752437,
      "loss": 1.6389,
      "step": 44645
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48130613565444946,
      "learning_rate": 0.000304593525686863,
      "loss": 1.5876,
      "step": 44646
    },
    {
      "epoch": 1.49,
      "grad_norm": 1.0479520559310913,
      "learning_rate": 0.0003045830747929065,
      "loss": 1.6996,
      "step": 44647
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4892079532146454,
      "learning_rate": 0.0003045726238933867,
      "loss": 1.607,
      "step": 44648
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49697375297546387,
      "learning_rate": 0.00030456217298831657,
      "loss": 1.5837,
      "step": 44649
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49079370498657227,
      "learning_rate": 0.0003045517220777085,
      "loss": 1.621,
      "step": 44650
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4737790822982788,
      "learning_rate": 0.0003045412711615754,
      "loss": 1.5351,
      "step": 44651
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47959545254707336,
      "learning_rate": 0.00030453082023992986,
      "loss": 1.6207,
      "step": 44652
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46887171268463135,
      "learning_rate": 0.0003045203693127845,
      "loss": 1.5963,
      "step": 44653
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4871974587440491,
      "learning_rate": 0.0003045099183801522,
      "loss": 1.6365,
      "step": 44654
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.470044881105423,
      "learning_rate": 0.0003044994674420453,
      "loss": 1.5917,
      "step": 44655
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5124678611755371,
      "learning_rate": 0.000304489016498477,
      "loss": 1.5553,
      "step": 44656
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.45079919695854187,
      "learning_rate": 0.00030447856554945954,
      "loss": 1.5559,
      "step": 44657
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49263426661491394,
      "learning_rate": 0.00030446811459500575,
      "loss": 1.6403,
      "step": 44658
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46726712584495544,
      "learning_rate": 0.0003044576636351283,
      "loss": 1.5678,
      "step": 44659
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5095669031143188,
      "learning_rate": 0.00030444721266984,
      "loss": 1.6734,
      "step": 44660
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49791812896728516,
      "learning_rate": 0.0003044367616991534,
      "loss": 1.6159,
      "step": 44661
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4789924621582031,
      "learning_rate": 0.0003044263107230813,
      "loss": 1.657,
      "step": 44662
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47430306673049927,
      "learning_rate": 0.0003044158597416361,
      "loss": 1.5723,
      "step": 44663
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4833632707595825,
      "learning_rate": 0.0003044054087548308,
      "loss": 1.5954,
      "step": 44664
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4712173640727997,
      "learning_rate": 0.00030439495776267807,
      "loss": 1.5736,
      "step": 44665
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49285319447517395,
      "learning_rate": 0.0003043845067651904,
      "loss": 1.6947,
      "step": 44666
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47520241141319275,
      "learning_rate": 0.0003043740557623807,
      "loss": 1.5867,
      "step": 44667
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46902284026145935,
      "learning_rate": 0.00030436360475426147,
      "loss": 1.6508,
      "step": 44668
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4961777329444885,
      "learning_rate": 0.0003043531537408455,
      "loss": 1.674,
      "step": 44669
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48028188943862915,
      "learning_rate": 0.0003043427027221454,
      "loss": 1.5683,
      "step": 44670
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4759536385536194,
      "learning_rate": 0.0003043322516981739,
      "loss": 1.6449,
      "step": 44671
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.485339492559433,
      "learning_rate": 0.0003043218006689437,
      "loss": 1.6605,
      "step": 44672
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47799965739250183,
      "learning_rate": 0.0003043113496344674,
      "loss": 1.5427,
      "step": 44673
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4644603133201599,
      "learning_rate": 0.0003043008985947579,
      "loss": 1.5734,
      "step": 44674
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4933263957500458,
      "learning_rate": 0.00030429044754982763,
      "loss": 1.6093,
      "step": 44675
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47323498129844666,
      "learning_rate": 0.0003042799964996895,
      "loss": 1.554,
      "step": 44676
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4814690351486206,
      "learning_rate": 0.00030426954544435594,
      "loss": 1.5455,
      "step": 44677
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4689030945301056,
      "learning_rate": 0.00030425909438383986,
      "loss": 1.5247,
      "step": 44678
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.50043123960495,
      "learning_rate": 0.0003042486433181539,
      "loss": 1.5482,
      "step": 44679
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5045039653778076,
      "learning_rate": 0.00030423819224731054,
      "loss": 1.5815,
      "step": 44680
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4686835706233978,
      "learning_rate": 0.0003042277411713229,
      "loss": 1.5926,
      "step": 44681
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46388813853263855,
      "learning_rate": 0.00030421729009020323,
      "loss": 1.6579,
      "step": 44682
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4725489616394043,
      "learning_rate": 0.00030420683900396446,
      "loss": 1.6646,
      "step": 44683
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49587684869766235,
      "learning_rate": 0.0003041963879126192,
      "loss": 1.6229,
      "step": 44684
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4814907908439636,
      "learning_rate": 0.00030418593681618,
      "loss": 1.5626,
      "step": 44685
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47616904973983765,
      "learning_rate": 0.00030417548571465996,
      "loss": 1.6518,
      "step": 44686
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47458675503730774,
      "learning_rate": 0.00030416503460807136,
      "loss": 1.5381,
      "step": 44687
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.489602655172348,
      "learning_rate": 0.00030415458349642696,
      "loss": 1.6022,
      "step": 44688
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4830772876739502,
      "learning_rate": 0.00030414413237973956,
      "loss": 1.5615,
      "step": 44689
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4941197335720062,
      "learning_rate": 0.0003041336812580218,
      "loss": 1.5746,
      "step": 44690
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46912676095962524,
      "learning_rate": 0.0003041232301312863,
      "loss": 1.6329,
      "step": 44691
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4786917269229889,
      "learning_rate": 0.00030411277899954596,
      "loss": 1.6174,
      "step": 44692
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48751458525657654,
      "learning_rate": 0.0003041023278628132,
      "loss": 1.6065,
      "step": 44693
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4816855490207672,
      "learning_rate": 0.00030409187672110087,
      "loss": 1.5544,
      "step": 44694
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4765162467956543,
      "learning_rate": 0.0003040814255744215,
      "loss": 1.6137,
      "step": 44695
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4697205126285553,
      "learning_rate": 0.00030407097442278794,
      "loss": 1.6618,
      "step": 44696
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47416451573371887,
      "learning_rate": 0.0003040605232662129,
      "loss": 1.5514,
      "step": 44697
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4789397418498993,
      "learning_rate": 0.0003040500721047088,
      "loss": 1.6383,
      "step": 44698
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47347113490104675,
      "learning_rate": 0.0003040396209382887,
      "loss": 1.6185,
      "step": 44699
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48976171016693115,
      "learning_rate": 0.000304029169766965,
      "loss": 1.607,
      "step": 44700
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4844852089881897,
      "learning_rate": 0.00030401871859075046,
      "loss": 1.5754,
      "step": 44701
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5133955478668213,
      "learning_rate": 0.0003040082674096579,
      "loss": 1.6051,
      "step": 44702
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47058236598968506,
      "learning_rate": 0.00030399781622369976,
      "loss": 1.6387,
      "step": 44703
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4822836220264435,
      "learning_rate": 0.000303987365032889,
      "loss": 1.4951,
      "step": 44704
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4727027118206024,
      "learning_rate": 0.00030397691383723794,
      "loss": 1.6766,
      "step": 44705
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4955349564552307,
      "learning_rate": 0.00030396646263675965,
      "loss": 1.5782,
      "step": 44706
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4822624623775482,
      "learning_rate": 0.0003039560114314667,
      "loss": 1.6496,
      "step": 44707
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.503817081451416,
      "learning_rate": 0.00030394556022137164,
      "loss": 1.6085,
      "step": 44708
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48906683921813965,
      "learning_rate": 0.00030393510900648735,
      "loss": 1.6002,
      "step": 44709
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4932968318462372,
      "learning_rate": 0.0003039246577868263,
      "loss": 1.607,
      "step": 44710
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.508925199508667,
      "learning_rate": 0.0003039142065624014,
      "loss": 1.6988,
      "step": 44711
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5092157125473022,
      "learning_rate": 0.0003039037553332252,
      "loss": 1.6105,
      "step": 44712
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47673657536506653,
      "learning_rate": 0.00030389330409931036,
      "loss": 1.6111,
      "step": 44713
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4641475975513458,
      "learning_rate": 0.0003038828528606696,
      "loss": 1.5915,
      "step": 44714
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4933978021144867,
      "learning_rate": 0.0003038724016173157,
      "loss": 1.5544,
      "step": 44715
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48719799518585205,
      "learning_rate": 0.00030386195036926137,
      "loss": 1.5344,
      "step": 44716
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46513885259628296,
      "learning_rate": 0.00030385149911651906,
      "loss": 1.5384,
      "step": 44717
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46926215291023254,
      "learning_rate": 0.0003038410478591016,
      "loss": 1.5545,
      "step": 44718
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4970221221446991,
      "learning_rate": 0.0003038305965970217,
      "loss": 1.5798,
      "step": 44719
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4720577001571655,
      "learning_rate": 0.000303820145330292,
      "loss": 1.5828,
      "step": 44720
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4960958957672119,
      "learning_rate": 0.0003038096940589253,
      "loss": 1.5891,
      "step": 44721
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47155144810676575,
      "learning_rate": 0.0003037992427829341,
      "loss": 1.6571,
      "step": 44722
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4798873960971832,
      "learning_rate": 0.0003037887915023312,
      "loss": 1.5143,
      "step": 44723
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49698173999786377,
      "learning_rate": 0.00030377834021712925,
      "loss": 1.6223,
      "step": 44724
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4716739356517792,
      "learning_rate": 0.000303767888927341,
      "loss": 1.616,
      "step": 44725
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4698922038078308,
      "learning_rate": 0.00030375743763297905,
      "loss": 1.5044,
      "step": 44726
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4749048948287964,
      "learning_rate": 0.00030374698633405607,
      "loss": 1.6249,
      "step": 44727
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48548826575279236,
      "learning_rate": 0.0003037365350305849,
      "loss": 1.6514,
      "step": 44728
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.502098023891449,
      "learning_rate": 0.0003037260837225781,
      "loss": 1.6608,
      "step": 44729
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4734479486942291,
      "learning_rate": 0.0003037156324100484,
      "loss": 1.6227,
      "step": 44730
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48354655504226685,
      "learning_rate": 0.00030370518109300846,
      "loss": 1.6256,
      "step": 44731
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4995102882385254,
      "learning_rate": 0.000303694729771471,
      "loss": 1.6811,
      "step": 44732
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.50413578748703,
      "learning_rate": 0.0003036842784454486,
      "loss": 1.654,
      "step": 44733
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4886510968208313,
      "learning_rate": 0.00030367382711495413,
      "loss": 1.6655,
      "step": 44734
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47870901226997375,
      "learning_rate": 0.00030366337578,
      "loss": 1.639,
      "step": 44735
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5095942616462708,
      "learning_rate": 0.0003036529244405993,
      "loss": 1.5811,
      "step": 44736
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4920075833797455,
      "learning_rate": 0.00030364247309676436,
      "loss": 1.5734,
      "step": 44737
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4684576392173767,
      "learning_rate": 0.00030363202174850797,
      "loss": 1.4825,
      "step": 44738
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4784742295742035,
      "learning_rate": 0.0003036215703958429,
      "loss": 1.5822,
      "step": 44739
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5074847340583801,
      "learning_rate": 0.0003036111190387817,
      "loss": 1.5422,
      "step": 44740
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4862220883369446,
      "learning_rate": 0.00030360066767733725,
      "loss": 1.6989,
      "step": 44741
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48525872826576233,
      "learning_rate": 0.000303590216311522,
      "loss": 1.5801,
      "step": 44742
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49619022011756897,
      "learning_rate": 0.0003035797649413489,
      "loss": 1.6129,
      "step": 44743
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4733308255672455,
      "learning_rate": 0.0003035693135668304,
      "loss": 1.556,
      "step": 44744
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4976309537887573,
      "learning_rate": 0.00030355886218797927,
      "loss": 1.6466,
      "step": 44745
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4978109300136566,
      "learning_rate": 0.0003035484108048082,
      "loss": 1.5955,
      "step": 44746
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47924718260765076,
      "learning_rate": 0.00030353795941732997,
      "loss": 1.6108,
      "step": 44747
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46855300664901733,
      "learning_rate": 0.0003035275080255571,
      "loss": 1.6756,
      "step": 44748
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4986880123615265,
      "learning_rate": 0.0003035170566295024,
      "loss": 1.5448,
      "step": 44749
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46558529138565063,
      "learning_rate": 0.00030350660522917845,
      "loss": 1.6056,
      "step": 44750
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49593135714530945,
      "learning_rate": 0.000303496153824598,
      "loss": 1.5275,
      "step": 44751
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48356303572654724,
      "learning_rate": 0.00030348570241577375,
      "loss": 1.6051,
      "step": 44752
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4844355285167694,
      "learning_rate": 0.00030347525100271844,
      "loss": 1.5517,
      "step": 44753
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.472827672958374,
      "learning_rate": 0.00030346479958544466,
      "loss": 1.5575,
      "step": 44754
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4732138514518738,
      "learning_rate": 0.0003034543481639651,
      "loss": 1.5404,
      "step": 44755
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46813929080963135,
      "learning_rate": 0.00030344389673829243,
      "loss": 1.5672,
      "step": 44756
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5271793603897095,
      "learning_rate": 0.0003034334453084394,
      "loss": 1.5938,
      "step": 44757
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5127014517784119,
      "learning_rate": 0.0003034229938744187,
      "loss": 1.6287,
      "step": 44758
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49937018752098083,
      "learning_rate": 0.0003034125424362431,
      "loss": 1.6465,
      "step": 44759
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5024263858795166,
      "learning_rate": 0.00030340209099392494,
      "loss": 1.6305,
      "step": 44760
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48623567819595337,
      "learning_rate": 0.00030339163954747734,
      "loss": 1.6574,
      "step": 44761
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49071088433265686,
      "learning_rate": 0.00030338118809691264,
      "loss": 1.6498,
      "step": 44762
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49875470995903015,
      "learning_rate": 0.00030337073664224375,
      "loss": 1.6236,
      "step": 44763
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49533557891845703,
      "learning_rate": 0.0003033602851834833,
      "loss": 1.6411,
      "step": 44764
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48234128952026367,
      "learning_rate": 0.00030334983372064386,
      "loss": 1.6141,
      "step": 44765
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46521854400634766,
      "learning_rate": 0.0003033393822537384,
      "loss": 1.5628,
      "step": 44766
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4813641607761383,
      "learning_rate": 0.0003033289307827792,
      "loss": 1.6138,
      "step": 44767
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.473371684551239,
      "learning_rate": 0.00030331847930777935,
      "loss": 1.6192,
      "step": 44768
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4862864911556244,
      "learning_rate": 0.00030330802782875126,
      "loss": 1.6128,
      "step": 44769
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4875950217247009,
      "learning_rate": 0.00030329757634570777,
      "loss": 1.6275,
      "step": 44770
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48010414838790894,
      "learning_rate": 0.00030328712485866145,
      "loss": 1.5921,
      "step": 44771
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4838172495365143,
      "learning_rate": 0.00030327667336762506,
      "loss": 1.6608,
      "step": 44772
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4957011044025421,
      "learning_rate": 0.00030326622187261133,
      "loss": 1.6536,
      "step": 44773
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4650174081325531,
      "learning_rate": 0.0003032557703736328,
      "loss": 1.6048,
      "step": 44774
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4744168817996979,
      "learning_rate": 0.0003032453188707023,
      "loss": 1.5993,
      "step": 44775
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48560068011283875,
      "learning_rate": 0.0003032348673638324,
      "loss": 1.5927,
      "step": 44776
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4990617632865906,
      "learning_rate": 0.0003032244158530359,
      "loss": 1.5939,
      "step": 44777
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5101434588432312,
      "learning_rate": 0.0003032139643383255,
      "loss": 1.6431,
      "step": 44778
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4923783838748932,
      "learning_rate": 0.0003032035128197137,
      "loss": 1.6641,
      "step": 44779
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4781428873538971,
      "learning_rate": 0.00030319306129721334,
      "loss": 1.5901,
      "step": 44780
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4712454676628113,
      "learning_rate": 0.0003031826097708371,
      "loss": 1.6121,
      "step": 44781
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47909271717071533,
      "learning_rate": 0.0003031721582405976,
      "loss": 1.588,
      "step": 44782
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48089268803596497,
      "learning_rate": 0.00030316170670650764,
      "loss": 1.5549,
      "step": 44783
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49850550293922424,
      "learning_rate": 0.0003031512551685798,
      "loss": 1.5894,
      "step": 44784
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4882124960422516,
      "learning_rate": 0.0003031408036268268,
      "loss": 1.6116,
      "step": 44785
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47407299280166626,
      "learning_rate": 0.0003031303520812613,
      "loss": 1.6105,
      "step": 44786
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46743062138557434,
      "learning_rate": 0.000303119900531896,
      "loss": 1.5999,
      "step": 44787
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5018805265426636,
      "learning_rate": 0.0003031094489787437,
      "loss": 1.6617,
      "step": 44788
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4789958596229553,
      "learning_rate": 0.00030309899742181687,
      "loss": 1.5299,
      "step": 44789
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47526565194129944,
      "learning_rate": 0.0003030885458611283,
      "loss": 1.5812,
      "step": 44790
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5197516083717346,
      "learning_rate": 0.00030307809429669087,
      "loss": 1.6827,
      "step": 44791
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49019864201545715,
      "learning_rate": 0.00030306764272851696,
      "loss": 1.6311,
      "step": 44792
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48654037714004517,
      "learning_rate": 0.00030305719115661936,
      "loss": 1.5861,
      "step": 44793
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5011793971061707,
      "learning_rate": 0.00030304673958101087,
      "loss": 1.6515,
      "step": 44794
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5005824565887451,
      "learning_rate": 0.000303036288001704,
      "loss": 1.6668,
      "step": 44795
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4846037030220032,
      "learning_rate": 0.0003030258364187116,
      "loss": 1.5765,
      "step": 44796
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4865624010562897,
      "learning_rate": 0.0003030153848320461,
      "loss": 1.7525,
      "step": 44797
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4858262538909912,
      "learning_rate": 0.00030300493324172056,
      "loss": 1.632,
      "step": 44798
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48303458094596863,
      "learning_rate": 0.0003029944816477474,
      "loss": 1.6738,
      "step": 44799
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4910125434398651,
      "learning_rate": 0.00030298403005013947,
      "loss": 1.6933,
      "step": 44800
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4996693432331085,
      "learning_rate": 0.0003029735784489092,
      "loss": 1.6194,
      "step": 44801
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4799504578113556,
      "learning_rate": 0.0003029631268440696,
      "loss": 1.5837,
      "step": 44802
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48041674494743347,
      "learning_rate": 0.00030295267523563314,
      "loss": 1.6346,
      "step": 44803
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49327540397644043,
      "learning_rate": 0.0003029422236236126,
      "loss": 1.6587,
      "step": 44804
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49471354484558105,
      "learning_rate": 0.00030293177200802054,
      "loss": 1.6475,
      "step": 44805
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4927128553390503,
      "learning_rate": 0.00030292132038886984,
      "loss": 1.5775,
      "step": 44806
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4600573182106018,
      "learning_rate": 0.000302910868766173,
      "loss": 1.5642,
      "step": 44807
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.482798308134079,
      "learning_rate": 0.00030290041713994286,
      "loss": 1.6593,
      "step": 44808
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49456024169921875,
      "learning_rate": 0.0003028899655101921,
      "loss": 1.594,
      "step": 44809
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48632919788360596,
      "learning_rate": 0.00030287951387693323,
      "loss": 1.6364,
      "step": 44810
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46111202239990234,
      "learning_rate": 0.00030286906224017915,
      "loss": 1.5815,
      "step": 44811
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47895318269729614,
      "learning_rate": 0.00030285861059994233,
      "loss": 1.6222,
      "step": 44812
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5073170065879822,
      "learning_rate": 0.00030284815895623564,
      "loss": 1.5455,
      "step": 44813
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47529521584510803,
      "learning_rate": 0.00030283770730907175,
      "loss": 1.6876,
      "step": 44814
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46806272864341736,
      "learning_rate": 0.0003028272556584632,
      "loss": 1.5884,
      "step": 44815
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47922903299331665,
      "learning_rate": 0.00030281680400442285,
      "loss": 1.5656,
      "step": 44816
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4740894138813019,
      "learning_rate": 0.0003028063523469633,
      "loss": 1.5923,
      "step": 44817
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4792962670326233,
      "learning_rate": 0.0003027959006860973,
      "loss": 1.5958,
      "step": 44818
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4703079164028168,
      "learning_rate": 0.0003027854490218375,
      "loss": 1.5346,
      "step": 44819
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4773082137107849,
      "learning_rate": 0.0003027749973541965,
      "loss": 1.4852,
      "step": 44820
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5095618963241577,
      "learning_rate": 0.0003027645456831871,
      "loss": 1.7202,
      "step": 44821
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46749016642570496,
      "learning_rate": 0.0003027540940088218,
      "loss": 1.5851,
      "step": 44822
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49393221735954285,
      "learning_rate": 0.00030274364233111366,
      "loss": 1.6323,
      "step": 44823
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48229435086250305,
      "learning_rate": 0.000302733190650075,
      "loss": 1.5711,
      "step": 44824
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4771655201911926,
      "learning_rate": 0.0003027227389657187,
      "loss": 1.5878,
      "step": 44825
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.506638765335083,
      "learning_rate": 0.0003027122872780575,
      "loss": 1.6455,
      "step": 44826
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4693453013896942,
      "learning_rate": 0.0003027018355871038,
      "loss": 1.6423,
      "step": 44827
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4974842369556427,
      "learning_rate": 0.00030269138389287057,
      "loss": 1.566,
      "step": 44828
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46212637424468994,
      "learning_rate": 0.00030268093219537037,
      "loss": 1.634,
      "step": 44829
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46629464626312256,
      "learning_rate": 0.0003026704804946159,
      "loss": 1.5815,
      "step": 44830
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4784143567085266,
      "learning_rate": 0.0003026600287906199,
      "loss": 1.6469,
      "step": 44831
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4921085834503174,
      "learning_rate": 0.00030264957708339495,
      "loss": 1.6393,
      "step": 44832
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.471574604511261,
      "learning_rate": 0.0003026391253729539,
      "loss": 1.6219,
      "step": 44833
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47557011246681213,
      "learning_rate": 0.00030262867365930926,
      "loss": 1.5917,
      "step": 44834
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4698653817176819,
      "learning_rate": 0.0003026182219424739,
      "loss": 1.6534,
      "step": 44835
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46672794222831726,
      "learning_rate": 0.0003026077702224603,
      "loss": 1.5961,
      "step": 44836
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49365440011024475,
      "learning_rate": 0.0003025973184992812,
      "loss": 1.5808,
      "step": 44837
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4854150414466858,
      "learning_rate": 0.00030258686677294946,
      "loss": 1.6275,
      "step": 44838
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47168999910354614,
      "learning_rate": 0.00030257641504347765,
      "loss": 1.6401,
      "step": 44839
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4781731367111206,
      "learning_rate": 0.0003025659633108784,
      "loss": 1.5542,
      "step": 44840
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5006373524665833,
      "learning_rate": 0.0003025555115751644,
      "loss": 1.5621,
      "step": 44841
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49516037106513977,
      "learning_rate": 0.0003025450598363485,
      "loss": 1.6522,
      "step": 44842
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4664240777492523,
      "learning_rate": 0.0003025346080944432,
      "loss": 1.7031,
      "step": 44843
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4588538110256195,
      "learning_rate": 0.00030252415634946124,
      "loss": 1.5632,
      "step": 44844
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46580779552459717,
      "learning_rate": 0.0003025137046014153,
      "loss": 1.6043,
      "step": 44845
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4879010021686554,
      "learning_rate": 0.0003025032528503183,
      "loss": 1.6528,
      "step": 44846
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4870816171169281,
      "learning_rate": 0.0003024928010961825,
      "loss": 1.6256,
      "step": 44847
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5028281211853027,
      "learning_rate": 0.0003024823493390209,
      "loss": 1.6767,
      "step": 44848
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49438098073005676,
      "learning_rate": 0.000302471897578846,
      "loss": 1.5778,
      "step": 44849
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46555811166763306,
      "learning_rate": 0.0003024614458156707,
      "loss": 1.5636,
      "step": 44850
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47169435024261475,
      "learning_rate": 0.00030245099404950754,
      "loss": 1.5303,
      "step": 44851
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4997401535511017,
      "learning_rate": 0.00030244054228036917,
      "loss": 1.6022,
      "step": 44852
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48770028352737427,
      "learning_rate": 0.00030243009050826843,
      "loss": 1.6297,
      "step": 44853
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4804697632789612,
      "learning_rate": 0.0003024196387332179,
      "loss": 1.5983,
      "step": 44854
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48482778668403625,
      "learning_rate": 0.0003024091869552302,
      "loss": 1.6429,
      "step": 44855
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4898548126220703,
      "learning_rate": 0.0003023987351743182,
      "loss": 1.6227,
      "step": 44856
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4751218855381012,
      "learning_rate": 0.00030238828339049435,
      "loss": 1.6302,
      "step": 44857
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48507723212242126,
      "learning_rate": 0.0003023778316037717,
      "loss": 1.6381,
      "step": 44858
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.477193683385849,
      "learning_rate": 0.0003023673798141625,
      "loss": 1.6065,
      "step": 44859
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48851004242897034,
      "learning_rate": 0.0003023569280216798,
      "loss": 1.5922,
      "step": 44860
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46835044026374817,
      "learning_rate": 0.00030234647622633603,
      "loss": 1.5543,
      "step": 44861
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4704686105251312,
      "learning_rate": 0.0003023360244281441,
      "loss": 1.5927,
      "step": 44862
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47222933173179626,
      "learning_rate": 0.0003023255726271164,
      "loss": 1.6232,
      "step": 44863
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48708292841911316,
      "learning_rate": 0.00030231512082326594,
      "loss": 1.5127,
      "step": 44864
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4702293574810028,
      "learning_rate": 0.0003023046690166053,
      "loss": 1.5605,
      "step": 44865
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4789271354675293,
      "learning_rate": 0.000302294217207147,
      "loss": 1.6583,
      "step": 44866
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4786631166934967,
      "learning_rate": 0.00030228376539490396,
      "loss": 1.5594,
      "step": 44867
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4678809642791748,
      "learning_rate": 0.00030227331357988866,
      "loss": 1.5651,
      "step": 44868
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4891221821308136,
      "learning_rate": 0.000302262861762114,
      "loss": 1.5545,
      "step": 44869
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4821709096431732,
      "learning_rate": 0.0003022524099415925,
      "loss": 1.6471,
      "step": 44870
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46277979016304016,
      "learning_rate": 0.0003022419581183369,
      "loss": 1.5652,
      "step": 44871
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4605724513530731,
      "learning_rate": 0.00030223150629235995,
      "loss": 1.5685,
      "step": 44872
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5146545767784119,
      "learning_rate": 0.0003022210544636742,
      "loss": 1.6253,
      "step": 44873
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.470756858587265,
      "learning_rate": 0.0003022106026322925,
      "loss": 1.6369,
      "step": 44874
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4873617887496948,
      "learning_rate": 0.00030220015079822745,
      "loss": 1.5654,
      "step": 44875
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47851407527923584,
      "learning_rate": 0.00030218969896149173,
      "loss": 1.6069,
      "step": 44876
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4763108789920807,
      "learning_rate": 0.000302179247122098,
      "loss": 1.619,
      "step": 44877
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47549405694007874,
      "learning_rate": 0.000302168795280059,
      "loss": 1.6158,
      "step": 44878
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4759507179260254,
      "learning_rate": 0.0003021583434353874,
      "loss": 1.5285,
      "step": 44879
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4956541359424591,
      "learning_rate": 0.0003021478915880959,
      "loss": 1.5948,
      "step": 44880
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4973485469818115,
      "learning_rate": 0.00030213743973819726,
      "loss": 1.5765,
      "step": 44881
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.500370979309082,
      "learning_rate": 0.0003021269878857039,
      "loss": 1.6239,
      "step": 44882
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46479591727256775,
      "learning_rate": 0.0003021165360306288,
      "loss": 1.5946,
      "step": 44883
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4753834307193756,
      "learning_rate": 0.00030210608417298446,
      "loss": 1.6946,
      "step": 44884
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4855005145072937,
      "learning_rate": 0.0003020956323127838,
      "loss": 1.6673,
      "step": 44885
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47028931975364685,
      "learning_rate": 0.00030208518045003925,
      "loss": 1.6088,
      "step": 44886
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4726710021495819,
      "learning_rate": 0.00030207472858476353,
      "loss": 1.5888,
      "step": 44887
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4809848666191101,
      "learning_rate": 0.0003020642767169695,
      "loss": 1.5537,
      "step": 44888
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4992294907569885,
      "learning_rate": 0.0003020538248466697,
      "loss": 1.6128,
      "step": 44889
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4831601083278656,
      "learning_rate": 0.0003020433729738769,
      "loss": 1.5995,
      "step": 44890
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47700151801109314,
      "learning_rate": 0.0003020329210986037,
      "loss": 1.578,
      "step": 44891
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4790154993534088,
      "learning_rate": 0.00030202246922086284,
      "loss": 1.5838,
      "step": 44892
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4824175536632538,
      "learning_rate": 0.000302012017340667,
      "loss": 1.704,
      "step": 44893
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48951226472854614,
      "learning_rate": 0.0003020015654580288,
      "loss": 1.661,
      "step": 44894
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4981219470500946,
      "learning_rate": 0.0003019911135729612,
      "loss": 1.6263,
      "step": 44895
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47737011313438416,
      "learning_rate": 0.0003019806616854765,
      "loss": 1.5453,
      "step": 44896
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5036869645118713,
      "learning_rate": 0.0003019702097955877,
      "loss": 1.7269,
      "step": 44897
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.6953135132789612,
      "learning_rate": 0.0003019597579033072,
      "loss": 1.6185,
      "step": 44898
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48289942741394043,
      "learning_rate": 0.0003019493060086479,
      "loss": 1.6043,
      "step": 44899
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47242942452430725,
      "learning_rate": 0.00030193885411162243,
      "loss": 1.5704,
      "step": 44900
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4999024271965027,
      "learning_rate": 0.00030192840221224357,
      "loss": 1.6703,
      "step": 44901
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47450587153434753,
      "learning_rate": 0.0003019179503105238,
      "loss": 1.6186,
      "step": 44902
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5068457722663879,
      "learning_rate": 0.00030190749840647594,
      "loss": 1.5893,
      "step": 44903
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4744131565093994,
      "learning_rate": 0.0003018970465001127,
      "loss": 1.721,
      "step": 44904
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4983918368816376,
      "learning_rate": 0.0003018865945914467,
      "loss": 1.618,
      "step": 44905
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4981401562690735,
      "learning_rate": 0.00030187614268049076,
      "loss": 1.5982,
      "step": 44906
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4609648585319519,
      "learning_rate": 0.00030186569076725726,
      "loss": 1.5704,
      "step": 44907
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4938410222530365,
      "learning_rate": 0.00030185523885175924,
      "loss": 1.5598,
      "step": 44908
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4898589253425598,
      "learning_rate": 0.00030184478693400917,
      "loss": 1.5911,
      "step": 44909
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47170108556747437,
      "learning_rate": 0.0003018343350140198,
      "loss": 1.5349,
      "step": 44910
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4948400557041168,
      "learning_rate": 0.0003018238830918038,
      "loss": 1.5626,
      "step": 44911
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4736059308052063,
      "learning_rate": 0.0003018134311673739,
      "loss": 1.6009,
      "step": 44912
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49195224046707153,
      "learning_rate": 0.0003018029792407428,
      "loss": 1.5792,
      "step": 44913
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48424801230430603,
      "learning_rate": 0.0003017925273119231,
      "loss": 1.6518,
      "step": 44914
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.482954204082489,
      "learning_rate": 0.0003017820753809276,
      "loss": 1.6492,
      "step": 44915
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.46000850200653076,
      "learning_rate": 0.0003017716234477688,
      "loss": 1.6126,
      "step": 44916
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47980204224586487,
      "learning_rate": 0.00030176117151245956,
      "loss": 1.6359,
      "step": 44917
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48143452405929565,
      "learning_rate": 0.00030175071957501247,
      "loss": 1.6309,
      "step": 44918
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47328218817710876,
      "learning_rate": 0.0003017402676354404,
      "loss": 1.5255,
      "step": 44919
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49612700939178467,
      "learning_rate": 0.00030172981569375585,
      "loss": 1.6917,
      "step": 44920
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48477301001548767,
      "learning_rate": 0.00030171936374997154,
      "loss": 1.6408,
      "step": 44921
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4740481376647949,
      "learning_rate": 0.00030170891180410014,
      "loss": 1.5698,
      "step": 44922
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4846007823944092,
      "learning_rate": 0.0003016984598561544,
      "loss": 1.584,
      "step": 44923
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49085187911987305,
      "learning_rate": 0.00030168800790614697,
      "loss": 1.641,
      "step": 44924
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4650292694568634,
      "learning_rate": 0.0003016775559540906,
      "loss": 1.6103,
      "step": 44925
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.49092814326286316,
      "learning_rate": 0.00030166710399999794,
      "loss": 1.5122,
      "step": 44926
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47389042377471924,
      "learning_rate": 0.0003016566520438816,
      "loss": 1.5941,
      "step": 44927
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.47651606798171997,
      "learning_rate": 0.0003016462000857543,
      "loss": 1.5593,
      "step": 44928
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4857686161994934,
      "learning_rate": 0.0003016357481256288,
      "loss": 1.6049,
      "step": 44929
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.471248060464859,
      "learning_rate": 0.00030162529616351773,
      "loss": 1.5659,
      "step": 44930
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.70103919506073,
      "learning_rate": 0.00030161484419943384,
      "loss": 1.6763,
      "step": 44931
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.48352745175361633,
      "learning_rate": 0.00030160439223338967,
      "loss": 1.5722,
      "step": 44932
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5132136344909668,
      "learning_rate": 0.0003015939402653981,
      "loss": 1.6614,
      "step": 44933
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4838095009326935,
      "learning_rate": 0.00030158348829547167,
      "loss": 1.5992,
      "step": 44934
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4793213903903961,
      "learning_rate": 0.0003015730363236231,
      "loss": 1.5944,
      "step": 44935
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4807872474193573,
      "learning_rate": 0.00030156258434986516,
      "loss": 1.5869,
      "step": 44936
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49129587411880493,
      "learning_rate": 0.0003015521323742104,
      "loss": 1.5751,
      "step": 44937
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4851432144641876,
      "learning_rate": 0.0003015416803966717,
      "loss": 1.5723,
      "step": 44938
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4851641356945038,
      "learning_rate": 0.00030153122841726146,
      "loss": 1.6085,
      "step": 44939
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4925193786621094,
      "learning_rate": 0.00030152077643599265,
      "loss": 1.623,
      "step": 44940
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47206372022628784,
      "learning_rate": 0.0003015103244528778,
      "loss": 1.5969,
      "step": 44941
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46460115909576416,
      "learning_rate": 0.00030149987246792966,
      "loss": 1.5729,
      "step": 44942
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48232078552246094,
      "learning_rate": 0.00030148942048116096,
      "loss": 1.7026,
      "step": 44943
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4874446988105774,
      "learning_rate": 0.00030147896849258413,
      "loss": 1.6235,
      "step": 44944
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47445613145828247,
      "learning_rate": 0.00030146851650221225,
      "loss": 1.5941,
      "step": 44945
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4791848063468933,
      "learning_rate": 0.00030145806451005767,
      "loss": 1.6147,
      "step": 44946
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47482407093048096,
      "learning_rate": 0.0003014476125161333,
      "loss": 1.6345,
      "step": 44947
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4666256606578827,
      "learning_rate": 0.00030143716052045174,
      "loss": 1.5652,
      "step": 44948
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5027461647987366,
      "learning_rate": 0.00030142670852302555,
      "loss": 1.579,
      "step": 44949
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47676733136177063,
      "learning_rate": 0.00030141625652386773,
      "loss": 1.6287,
      "step": 44950
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5084964036941528,
      "learning_rate": 0.00030140580452299074,
      "loss": 1.6419,
      "step": 44951
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.45638662576675415,
      "learning_rate": 0.00030139535252040727,
      "loss": 1.6168,
      "step": 44952
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.514401912689209,
      "learning_rate": 0.00030138490051612995,
      "loss": 1.6446,
      "step": 44953
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4852915406227112,
      "learning_rate": 0.00030137444851017174,
      "loss": 1.6436,
      "step": 44954
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4871891736984253,
      "learning_rate": 0.00030136399650254505,
      "loss": 1.558,
      "step": 44955
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4728555679321289,
      "learning_rate": 0.00030135354449326273,
      "loss": 1.6384,
      "step": 44956
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47656744718551636,
      "learning_rate": 0.00030134309248233736,
      "loss": 1.6515,
      "step": 44957
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4740593731403351,
      "learning_rate": 0.00030133264046978167,
      "loss": 1.6229,
      "step": 44958
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48535647988319397,
      "learning_rate": 0.00030132218845560835,
      "loss": 1.5948,
      "step": 44959
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4792707562446594,
      "learning_rate": 0.0003013117364398301,
      "loss": 1.5923,
      "step": 44960
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47226837277412415,
      "learning_rate": 0.00030130128442245967,
      "loss": 1.5531,
      "step": 44961
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47806116938591003,
      "learning_rate": 0.00030129083240350947,
      "loss": 1.6105,
      "step": 44962
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4737664461135864,
      "learning_rate": 0.0003012803803829926,
      "loss": 1.5709,
      "step": 44963
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47438809275627136,
      "learning_rate": 0.0003012699283609215,
      "loss": 1.7097,
      "step": 44964
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48060178756713867,
      "learning_rate": 0.0003012594763373088,
      "loss": 1.6547,
      "step": 44965
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4956669509410858,
      "learning_rate": 0.0003012490243121673,
      "loss": 1.6462,
      "step": 44966
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49158886075019836,
      "learning_rate": 0.00030123857228550973,
      "loss": 1.5796,
      "step": 44967
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4913847744464874,
      "learning_rate": 0.0003012281202573487,
      "loss": 1.6318,
      "step": 44968
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48194020986557007,
      "learning_rate": 0.00030121766822769686,
      "loss": 1.5788,
      "step": 44969
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4890148937702179,
      "learning_rate": 0.00030120721619656706,
      "loss": 1.604,
      "step": 44970
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47469595074653625,
      "learning_rate": 0.0003011967641639718,
      "loss": 1.6371,
      "step": 44971
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4894447922706604,
      "learning_rate": 0.0003011863121299238,
      "loss": 1.6245,
      "step": 44972
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4770854413509369,
      "learning_rate": 0.0003011758600944359,
      "loss": 1.6248,
      "step": 44973
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4765622317790985,
      "learning_rate": 0.0003011654080575206,
      "loss": 1.6041,
      "step": 44974
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.3687585592269897,
      "learning_rate": 0.00030115495601919066,
      "loss": 1.6452,
      "step": 44975
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47703954577445984,
      "learning_rate": 0.0003011445039794588,
      "loss": 1.5633,
      "step": 44976
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47266945242881775,
      "learning_rate": 0.0003011340519383377,
      "loss": 1.5313,
      "step": 44977
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4707202613353729,
      "learning_rate": 0.00030112359989584,
      "loss": 1.5849,
      "step": 44978
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4787696599960327,
      "learning_rate": 0.0003011131478519785,
      "loss": 1.5166,
      "step": 44979
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4848546087741852,
      "learning_rate": 0.00030110269580676564,
      "loss": 1.564,
      "step": 44980
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47892478108406067,
      "learning_rate": 0.00030109224376021436,
      "loss": 1.6419,
      "step": 44981
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48404979705810547,
      "learning_rate": 0.00030108179171233737,
      "loss": 1.5424,
      "step": 44982
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4689917266368866,
      "learning_rate": 0.0003010713396631471,
      "loss": 1.5973,
      "step": 44983
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.473509818315506,
      "learning_rate": 0.00030106088761265636,
      "loss": 1.5845,
      "step": 44984
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48091772198677063,
      "learning_rate": 0.00030105043556087786,
      "loss": 1.6618,
      "step": 44985
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49169355630874634,
      "learning_rate": 0.00030103998350782435,
      "loss": 1.6149,
      "step": 44986
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.485734224319458,
      "learning_rate": 0.00030102953145350845,
      "loss": 1.5993,
      "step": 44987
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4727543294429779,
      "learning_rate": 0.00030101907939794294,
      "loss": 1.6519,
      "step": 44988
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5034984946250916,
      "learning_rate": 0.00030100862734114026,
      "loss": 1.7043,
      "step": 44989
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4561130106449127,
      "learning_rate": 0.00030099817528311335,
      "loss": 1.6155,
      "step": 44990
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4558885395526886,
      "learning_rate": 0.0003009877232238747,
      "loss": 1.5353,
      "step": 44991
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.476116806268692,
      "learning_rate": 0.00030097727116343715,
      "loss": 1.6319,
      "step": 44992
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4746035635471344,
      "learning_rate": 0.0003009668191018134,
      "loss": 1.5112,
      "step": 44993
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48164913058280945,
      "learning_rate": 0.000300956367039016,
      "loss": 1.6027,
      "step": 44994
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49248573184013367,
      "learning_rate": 0.00030094591497505774,
      "loss": 1.6443,
      "step": 44995
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47900718450546265,
      "learning_rate": 0.0003009354629099513,
      "loss": 1.6346,
      "step": 44996
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46719855070114136,
      "learning_rate": 0.0003009250108437093,
      "loss": 1.6443,
      "step": 44997
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48660704493522644,
      "learning_rate": 0.0003009145587763446,
      "loss": 1.6503,
      "step": 44998
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46234795451164246,
      "learning_rate": 0.0003009041067078696,
      "loss": 1.6297,
      "step": 44999
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47421228885650635,
      "learning_rate": 0.0003008936546382972,
      "loss": 1.5969,
      "step": 45000
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47086384892463684,
      "learning_rate": 0.00030088320256763996,
      "loss": 1.5562,
      "step": 45001
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4920200705528259,
      "learning_rate": 0.0003008727504959108,
      "loss": 1.62,
      "step": 45002
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4967353940010071,
      "learning_rate": 0.0003008622984231222,
      "loss": 1.6516,
      "step": 45003
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48632562160491943,
      "learning_rate": 0.0003008518463492868,
      "loss": 1.6449,
      "step": 45004
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47825348377227783,
      "learning_rate": 0.0003008413942744175,
      "loss": 1.6003,
      "step": 45005
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47836339473724365,
      "learning_rate": 0.00030083094219852675,
      "loss": 1.6842,
      "step": 45006
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4843744933605194,
      "learning_rate": 0.0003008204901216275,
      "loss": 1.5514,
      "step": 45007
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4887304902076721,
      "learning_rate": 0.00030081003804373216,
      "loss": 1.5922,
      "step": 45008
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4745536148548126,
      "learning_rate": 0.00030079958596485366,
      "loss": 1.607,
      "step": 45009
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4759371876716614,
      "learning_rate": 0.0003007891338850045,
      "loss": 1.5915,
      "step": 45010
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4751887917518616,
      "learning_rate": 0.0003007786818041975,
      "loss": 1.6475,
      "step": 45011
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4681722819805145,
      "learning_rate": 0.00030076822972244536,
      "loss": 1.6037,
      "step": 45012
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48899373412132263,
      "learning_rate": 0.0003007577776397606,
      "loss": 1.6159,
      "step": 45013
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4838593006134033,
      "learning_rate": 0.00030074732555615606,
      "loss": 1.5973,
      "step": 45014
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48264279961586,
      "learning_rate": 0.00030073687347164426,
      "loss": 1.6335,
      "step": 45015
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.503793478012085,
      "learning_rate": 0.0003007264213862381,
      "loss": 1.5851,
      "step": 45016
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48098641633987427,
      "learning_rate": 0.00030071596929995016,
      "loss": 1.6313,
      "step": 45017
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46994447708129883,
      "learning_rate": 0.0003007055172127933,
      "loss": 1.6133,
      "step": 45018
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47040820121765137,
      "learning_rate": 0.00030069506512477983,
      "loss": 1.5818,
      "step": 45019
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4681422710418701,
      "learning_rate": 0.0003006846130359227,
      "loss": 1.5087,
      "step": 45020
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5178326368331909,
      "learning_rate": 0.00030067416094623454,
      "loss": 1.5873,
      "step": 45021
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4889216125011444,
      "learning_rate": 0.000300663708855728,
      "loss": 1.5638,
      "step": 45022
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.45687103271484375,
      "learning_rate": 0.000300653256764416,
      "loss": 1.6391,
      "step": 45023
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.486319363117218,
      "learning_rate": 0.0003006428046723109,
      "loss": 1.5735,
      "step": 45024
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47492071986198425,
      "learning_rate": 0.00030063235257942557,
      "loss": 1.5928,
      "step": 45025
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4653630256652832,
      "learning_rate": 0.00030062190048577264,
      "loss": 1.5754,
      "step": 45026
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47633296251296997,
      "learning_rate": 0.00030061144839136484,
      "loss": 1.6404,
      "step": 45027
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47875386476516724,
      "learning_rate": 0.0003006009962962148,
      "loss": 1.5097,
      "step": 45028
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49258020520210266,
      "learning_rate": 0.00030059054420033523,
      "loss": 1.6374,
      "step": 45029
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4957410991191864,
      "learning_rate": 0.00030058009210373897,
      "loss": 1.5618,
      "step": 45030
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4773275554180145,
      "learning_rate": 0.0003005696400064383,
      "loss": 1.6587,
      "step": 45031
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4909667372703552,
      "learning_rate": 0.0003005591879084464,
      "loss": 1.6037,
      "step": 45032
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4674600660800934,
      "learning_rate": 0.0003005487358097756,
      "loss": 1.5902,
      "step": 45033
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47562500834465027,
      "learning_rate": 0.00030053828371043876,
      "loss": 1.5573,
      "step": 45034
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49668627977371216,
      "learning_rate": 0.00030052783161044856,
      "loss": 1.6391,
      "step": 45035
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4768289625644684,
      "learning_rate": 0.00030051737950981754,
      "loss": 1.4886,
      "step": 45036
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46671339869499207,
      "learning_rate": 0.00030050692740855867,
      "loss": 1.5596,
      "step": 45037
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4801817238330841,
      "learning_rate": 0.0003004964753066843,
      "loss": 1.6374,
      "step": 45038
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4746224880218506,
      "learning_rate": 0.00030048602320420736,
      "loss": 1.6174,
      "step": 45039
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48071539402008057,
      "learning_rate": 0.00030047557110114047,
      "loss": 1.5805,
      "step": 45040
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4891185164451599,
      "learning_rate": 0.0003004651189974962,
      "loss": 1.6774,
      "step": 45041
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4835188090801239,
      "learning_rate": 0.00030045466689328747,
      "loss": 1.5222,
      "step": 45042
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4643344581127167,
      "learning_rate": 0.00030044421478852683,
      "loss": 1.5938,
      "step": 45043
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49208205938339233,
      "learning_rate": 0.0003004337626832269,
      "loss": 1.6561,
      "step": 45044
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4768298268318176,
      "learning_rate": 0.00030042331057740057,
      "loss": 1.6419,
      "step": 45045
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4867207109928131,
      "learning_rate": 0.00030041285847106025,
      "loss": 1.6164,
      "step": 45046
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.6147474646568298,
      "learning_rate": 0.0003004024063642189,
      "loss": 1.6262,
      "step": 45047
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48019659519195557,
      "learning_rate": 0.00030039195425688906,
      "loss": 1.575,
      "step": 45048
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4953695237636566,
      "learning_rate": 0.0003003815021490834,
      "loss": 1.6834,
      "step": 45049
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.7633535265922546,
      "learning_rate": 0.0003003710500408147,
      "loss": 1.5825,
      "step": 45050
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5037885904312134,
      "learning_rate": 0.00030036059793209555,
      "loss": 1.6211,
      "step": 45051
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49893030524253845,
      "learning_rate": 0.00030035014582293875,
      "loss": 1.6839,
      "step": 45052
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49301066994667053,
      "learning_rate": 0.00030033969371335694,
      "loss": 1.6666,
      "step": 45053
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49499213695526123,
      "learning_rate": 0.00030032924160336265,
      "loss": 1.6194,
      "step": 45054
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4768507480621338,
      "learning_rate": 0.0003003187894929689,
      "loss": 1.5983,
      "step": 45055
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4659273326396942,
      "learning_rate": 0.000300308337382188,
      "loss": 1.6265,
      "step": 45056
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4885890483856201,
      "learning_rate": 0.000300297885271033,
      "loss": 1.6758,
      "step": 45057
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.484066903591156,
      "learning_rate": 0.00030028743315951633,
      "loss": 1.6239,
      "step": 45058
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4686442017555237,
      "learning_rate": 0.0003002769810476507,
      "loss": 1.6319,
      "step": 45059
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46483665704727173,
      "learning_rate": 0.000300266528935449,
      "loss": 1.6451,
      "step": 45060
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49937498569488525,
      "learning_rate": 0.0003002560768229236,
      "loss": 1.6253,
      "step": 45061
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48990708589553833,
      "learning_rate": 0.0003002456247100875,
      "loss": 1.6435,
      "step": 45062
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49201643466949463,
      "learning_rate": 0.00030023517259695316,
      "loss": 1.5827,
      "step": 45063
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48931699991226196,
      "learning_rate": 0.00030022472048353343,
      "loss": 1.6714,
      "step": 45064
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4788401126861572,
      "learning_rate": 0.0003002142683698408,
      "loss": 1.6191,
      "step": 45065
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49864745140075684,
      "learning_rate": 0.0003002038162558882,
      "loss": 1.6742,
      "step": 45066
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48720887303352356,
      "learning_rate": 0.0003001933641416882,
      "loss": 1.6483,
      "step": 45067
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48713570833206177,
      "learning_rate": 0.00030018291202725344,
      "loss": 1.6261,
      "step": 45068
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.6968186497688293,
      "learning_rate": 0.00030017245991259664,
      "loss": 1.6425,
      "step": 45069
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4919309616088867,
      "learning_rate": 0.0003001620077977305,
      "loss": 1.5892,
      "step": 45070
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47205716371536255,
      "learning_rate": 0.0003001515556826677,
      "loss": 1.6191,
      "step": 45071
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4786469340324402,
      "learning_rate": 0.00030014110356742094,
      "loss": 1.5705,
      "step": 45072
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4869277775287628,
      "learning_rate": 0.000300130651452003,
      "loss": 1.6754,
      "step": 45073
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47909796237945557,
      "learning_rate": 0.00030012019933642635,
      "loss": 1.5457,
      "step": 45074
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4874975383281708,
      "learning_rate": 0.0003001097472207038,
      "loss": 1.5633,
      "step": 45075
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47500574588775635,
      "learning_rate": 0.00030009929510484807,
      "loss": 1.5569,
      "step": 45076
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47332605719566345,
      "learning_rate": 0.0003000888429888718,
      "loss": 1.5462,
      "step": 45077
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47465911507606506,
      "learning_rate": 0.0003000783908727877,
      "loss": 1.5656,
      "step": 45078
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48214277625083923,
      "learning_rate": 0.0003000679387566084,
      "loss": 1.56,
      "step": 45079
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4815080761909485,
      "learning_rate": 0.0003000574866403467,
      "loss": 1.6552,
      "step": 45080
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48986831307411194,
      "learning_rate": 0.0003000470345240152,
      "loss": 1.6923,
      "step": 45081
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5126088857650757,
      "learning_rate": 0.0003000365824076265,
      "loss": 1.6269,
      "step": 45082
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48065319657325745,
      "learning_rate": 0.00030002613029119353,
      "loss": 1.6499,
      "step": 45083
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48938024044036865,
      "learning_rate": 0.00030001567817472877,
      "loss": 1.5867,
      "step": 45084
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4770173728466034,
      "learning_rate": 0.00030000522605824504,
      "loss": 1.6271,
      "step": 45085
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48263227939605713,
      "learning_rate": 0.00029999477394175496,
      "loss": 1.6418,
      "step": 45086
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47637200355529785,
      "learning_rate": 0.0002999843218252712,
      "loss": 1.6094,
      "step": 45087
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48031818866729736,
      "learning_rate": 0.0002999738697088065,
      "loss": 1.5735,
      "step": 45088
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5061154365539551,
      "learning_rate": 0.00029996341759237354,
      "loss": 1.5452,
      "step": 45089
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47986534237861633,
      "learning_rate": 0.00029995296547598484,
      "loss": 1.5455,
      "step": 45090
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4732326567173004,
      "learning_rate": 0.00029994251335965327,
      "loss": 1.6532,
      "step": 45091
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48487162590026855,
      "learning_rate": 0.00029993206124339153,
      "loss": 1.615,
      "step": 45092
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49430981278419495,
      "learning_rate": 0.00029992160912721235,
      "loss": 1.5874,
      "step": 45093
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4984892010688782,
      "learning_rate": 0.0002999111570111282,
      "loss": 1.6328,
      "step": 45094
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5304571986198425,
      "learning_rate": 0.00029990070489515193,
      "loss": 1.6327,
      "step": 45095
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4856537878513336,
      "learning_rate": 0.0002998902527792962,
      "loss": 1.5817,
      "step": 45096
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48792585730552673,
      "learning_rate": 0.00029987980066357366,
      "loss": 1.5858,
      "step": 45097
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4803677201271057,
      "learning_rate": 0.000299869348547997,
      "loss": 1.594,
      "step": 45098
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4757908582687378,
      "learning_rate": 0.00029985889643257906,
      "loss": 1.6051,
      "step": 45099
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48731881380081177,
      "learning_rate": 0.0002998484443173323,
      "loss": 1.6195,
      "step": 45100
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49081000685691833,
      "learning_rate": 0.0002998379922022695,
      "loss": 1.5887,
      "step": 45101
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4800097644329071,
      "learning_rate": 0.0002998275400874033,
      "loss": 1.54,
      "step": 45102
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48092710971832275,
      "learning_rate": 0.0002998170879727466,
      "loss": 1.5868,
      "step": 45103
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4890606701374054,
      "learning_rate": 0.0002998066358583118,
      "loss": 1.5199,
      "step": 45104
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5059848427772522,
      "learning_rate": 0.00029979618374411174,
      "loss": 1.6504,
      "step": 45105
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48747488856315613,
      "learning_rate": 0.00029978573163015913,
      "loss": 1.5815,
      "step": 45106
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46746015548706055,
      "learning_rate": 0.0002997752795164666,
      "loss": 1.6354,
      "step": 45107
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5325268507003784,
      "learning_rate": 0.00029976482740304685,
      "loss": 1.5226,
      "step": 45108
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5043293833732605,
      "learning_rate": 0.0002997543752899126,
      "loss": 1.635,
      "step": 45109
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4778342545032501,
      "learning_rate": 0.0002997439231770764,
      "loss": 1.554,
      "step": 45110
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4875514507293701,
      "learning_rate": 0.000299733471064551,
      "loss": 1.7005,
      "step": 45111
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4767032861709595,
      "learning_rate": 0.0002997230189523492,
      "loss": 1.5739,
      "step": 45112
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5053343176841736,
      "learning_rate": 0.0002997125668404837,
      "loss": 1.5924,
      "step": 45113
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47837117314338684,
      "learning_rate": 0.000299702114728967,
      "loss": 1.5158,
      "step": 45114
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48211199045181274,
      "learning_rate": 0.00029969166261781195,
      "loss": 1.6049,
      "step": 45115
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5070805549621582,
      "learning_rate": 0.0002996812105070312,
      "loss": 1.6656,
      "step": 45116
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4923200309276581,
      "learning_rate": 0.0002996707583966373,
      "loss": 1.6318,
      "step": 45117
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4802113175392151,
      "learning_rate": 0.00029966030628664306,
      "loss": 1.5651,
      "step": 45118
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.3383190631866455,
      "learning_rate": 0.0002996498541770613,
      "loss": 1.6539,
      "step": 45119
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47823500633239746,
      "learning_rate": 0.0002996394020679044,
      "loss": 1.6245,
      "step": 45120
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47078678011894226,
      "learning_rate": 0.0002996289499591853,
      "loss": 1.5593,
      "step": 45121
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4836565852165222,
      "learning_rate": 0.00029961849785091656,
      "loss": 1.5708,
      "step": 45122
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4914834201335907,
      "learning_rate": 0.000299608045743111,
      "loss": 1.6637,
      "step": 45123
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4711970090866089,
      "learning_rate": 0.0002995975936357811,
      "loss": 1.5917,
      "step": 45124
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4913410246372223,
      "learning_rate": 0.00029958714152893964,
      "loss": 1.6261,
      "step": 45125
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48595118522644043,
      "learning_rate": 0.0002995766894225995,
      "loss": 1.5306,
      "step": 45126
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48547178506851196,
      "learning_rate": 0.00029956623731677303,
      "loss": 1.6194,
      "step": 45127
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47312942147254944,
      "learning_rate": 0.0002995557852114731,
      "loss": 1.5713,
      "step": 45128
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47837916016578674,
      "learning_rate": 0.00029954533310671253,
      "loss": 1.5736,
      "step": 45129
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47394007444381714,
      "learning_rate": 0.00029953488100250376,
      "loss": 1.5738,
      "step": 45130
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48530909419059753,
      "learning_rate": 0.00029952442889885953,
      "loss": 1.5555,
      "step": 45131
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47776663303375244,
      "learning_rate": 0.0002995139767957926,
      "loss": 1.589,
      "step": 45132
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48515042662620544,
      "learning_rate": 0.0002995035246933157,
      "loss": 1.6099,
      "step": 45133
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4793785810470581,
      "learning_rate": 0.00029949307259144134,
      "loss": 1.6705,
      "step": 45134
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4944944679737091,
      "learning_rate": 0.00029948262049018235,
      "loss": 1.6438,
      "step": 45135
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47866570949554443,
      "learning_rate": 0.0002994721683895515,
      "loss": 1.6137,
      "step": 45136
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46971428394317627,
      "learning_rate": 0.0002994617162895612,
      "loss": 1.7273,
      "step": 45137
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4850425720214844,
      "learning_rate": 0.0002994512641902244,
      "loss": 1.6351,
      "step": 45138
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.45951834321022034,
      "learning_rate": 0.00029944081209155366,
      "loss": 1.5786,
      "step": 45139
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49187421798706055,
      "learning_rate": 0.00029943035999356165,
      "loss": 1.5854,
      "step": 45140
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4961472749710083,
      "learning_rate": 0.0002994199078962611,
      "loss": 1.5744,
      "step": 45141
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49084019660949707,
      "learning_rate": 0.00029940945579966466,
      "loss": 1.6305,
      "step": 45142
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4864004850387573,
      "learning_rate": 0.00029939900370378516,
      "loss": 1.6313,
      "step": 45143
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4701179563999176,
      "learning_rate": 0.00029938855160863517,
      "loss": 1.505,
      "step": 45144
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47325652837753296,
      "learning_rate": 0.0002993780995142273,
      "loss": 1.5651,
      "step": 45145
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4849822521209717,
      "learning_rate": 0.0002993676474205745,
      "loss": 1.5866,
      "step": 45146
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4972064197063446,
      "learning_rate": 0.0002993571953276891,
      "loss": 1.5762,
      "step": 45147
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49599871039390564,
      "learning_rate": 0.00029934674323558395,
      "loss": 1.6008,
      "step": 45148
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48902976512908936,
      "learning_rate": 0.00029933629114427187,
      "loss": 1.6525,
      "step": 45149
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46768173575401306,
      "learning_rate": 0.00029932583905376546,
      "loss": 1.5393,
      "step": 45150
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46783721446990967,
      "learning_rate": 0.0002993153869640773,
      "loss": 1.5418,
      "step": 45151
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48672452569007874,
      "learning_rate": 0.00029930493487522017,
      "loss": 1.605,
      "step": 45152
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47446396946907043,
      "learning_rate": 0.00029929448278720683,
      "loss": 1.6177,
      "step": 45153
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4860159456729889,
      "learning_rate": 0.0002992840307000498,
      "loss": 1.5927,
      "step": 45154
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48211854696273804,
      "learning_rate": 0.0002992735786137618,
      "loss": 1.5727,
      "step": 45155
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4831106960773468,
      "learning_rate": 0.00029926312652835574,
      "loss": 1.6089,
      "step": 45156
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5086012482643127,
      "learning_rate": 0.00029925267444384394,
      "loss": 1.6009,
      "step": 45157
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4868461787700653,
      "learning_rate": 0.0002992422223602394,
      "loss": 1.5928,
      "step": 45158
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4725381135940552,
      "learning_rate": 0.00029923177027755464,
      "loss": 1.6446,
      "step": 45159
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4846996068954468,
      "learning_rate": 0.00029922131819580246,
      "loss": 1.6141,
      "step": 45160
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5051551461219788,
      "learning_rate": 0.00029921086611499543,
      "loss": 1.627,
      "step": 45161
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4702257513999939,
      "learning_rate": 0.00029920041403514624,
      "loss": 1.5817,
      "step": 45162
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4965183436870575,
      "learning_rate": 0.00029918996195626784,
      "loss": 1.5519,
      "step": 45163
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4856245517730713,
      "learning_rate": 0.0002991795098783725,
      "loss": 1.5782,
      "step": 45164
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4736669659614563,
      "learning_rate": 0.00029916905780147314,
      "loss": 1.5968,
      "step": 45165
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48788589239120483,
      "learning_rate": 0.00029915860572558254,
      "loss": 1.6061,
      "step": 45166
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48124295473098755,
      "learning_rate": 0.0002991481536507132,
      "loss": 1.6467,
      "step": 45167
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5097455978393555,
      "learning_rate": 0.00029913770157687786,
      "loss": 1.6498,
      "step": 45168
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.497004896402359,
      "learning_rate": 0.00029912724950408915,
      "loss": 1.5738,
      "step": 45169
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5102577209472656,
      "learning_rate": 0.00029911679743236004,
      "loss": 1.6438,
      "step": 45170
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4858504831790924,
      "learning_rate": 0.00029910634536170277,
      "loss": 1.5455,
      "step": 45171
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4855356812477112,
      "learning_rate": 0.00029909589329213035,
      "loss": 1.4983,
      "step": 45172
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47069618105888367,
      "learning_rate": 0.00029908544122365547,
      "loss": 1.5816,
      "step": 45173
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5083163380622864,
      "learning_rate": 0.00029907498915629065,
      "loss": 1.6276,
      "step": 45174
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4946742653846741,
      "learning_rate": 0.0002990645370900487,
      "loss": 1.5927,
      "step": 45175
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48491203784942627,
      "learning_rate": 0.00029905408502494226,
      "loss": 1.5563,
      "step": 45176
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4857172966003418,
      "learning_rate": 0.000299043632960984,
      "loss": 1.6011,
      "step": 45177
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4731657803058624,
      "learning_rate": 0.00029903318089818655,
      "loss": 1.5871,
      "step": 45178
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4736379086971283,
      "learning_rate": 0.00029902272883656274,
      "loss": 1.7052,
      "step": 45179
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47446414828300476,
      "learning_rate": 0.00029901227677612527,
      "loss": 1.5572,
      "step": 45180
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5041207075119019,
      "learning_rate": 0.00029900182471688665,
      "loss": 1.5969,
      "step": 45181
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46894705295562744,
      "learning_rate": 0.0002989913726588597,
      "loss": 1.6055,
      "step": 45182
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4954376816749573,
      "learning_rate": 0.00029898092060205717,
      "loss": 1.6633,
      "step": 45183
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4980577826499939,
      "learning_rate": 0.0002989704685464915,
      "loss": 1.5622,
      "step": 45184
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47707533836364746,
      "learning_rate": 0.00029896001649217554,
      "loss": 1.6501,
      "step": 45185
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47590330243110657,
      "learning_rate": 0.00029894956443912214,
      "loss": 1.6673,
      "step": 45186
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4814590811729431,
      "learning_rate": 0.0002989391123873436,
      "loss": 1.6403,
      "step": 45187
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48617714643478394,
      "learning_rate": 0.0002989286603368529,
      "loss": 1.6322,
      "step": 45188
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4964337944984436,
      "learning_rate": 0.0002989182082876627,
      "loss": 1.5152,
      "step": 45189
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48307642340660095,
      "learning_rate": 0.0002989077562397856,
      "loss": 1.6249,
      "step": 45190
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4906332790851593,
      "learning_rate": 0.0002988973041932343,
      "loss": 1.6125,
      "step": 45191
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4774411916732788,
      "learning_rate": 0.00029888685214802147,
      "loss": 1.5855,
      "step": 45192
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46745842695236206,
      "learning_rate": 0.00029887640010416,
      "loss": 1.597,
      "step": 45193
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4874765872955322,
      "learning_rate": 0.00029886594806166226,
      "loss": 1.6449,
      "step": 45194
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47407081723213196,
      "learning_rate": 0.00029885549602054115,
      "loss": 1.5821,
      "step": 45195
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4807770252227783,
      "learning_rate": 0.00029884504398080934,
      "loss": 1.6114,
      "step": 45196
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48277074098587036,
      "learning_rate": 0.00029883459194247945,
      "loss": 1.6247,
      "step": 45197
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47489839792251587,
      "learning_rate": 0.00029882413990556413,
      "loss": 1.5963,
      "step": 45198
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.473100483417511,
      "learning_rate": 0.0002988136878700761,
      "loss": 1.6471,
      "step": 45199
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5081132650375366,
      "learning_rate": 0.0002988032358360282,
      "loss": 1.6426,
      "step": 45200
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4968813955783844,
      "learning_rate": 0.00029879278380343295,
      "loss": 1.6988,
      "step": 45201
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4756404459476471,
      "learning_rate": 0.00029878233177230303,
      "loss": 1.57,
      "step": 45202
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4733825623989105,
      "learning_rate": 0.0002987718797426513,
      "loss": 1.5931,
      "step": 45203
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4740287661552429,
      "learning_rate": 0.00029876142771449027,
      "loss": 1.5918,
      "step": 45204
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48674535751342773,
      "learning_rate": 0.00029875097568783264,
      "loss": 1.5602,
      "step": 45205
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.8227003812789917,
      "learning_rate": 0.00029874052366269126,
      "loss": 1.6089,
      "step": 45206
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47835636138916016,
      "learning_rate": 0.0002987300716390785,
      "loss": 1.5485,
      "step": 45207
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4692252576351166,
      "learning_rate": 0.00029871961961700736,
      "loss": 1.5585,
      "step": 45208
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46291249990463257,
      "learning_rate": 0.00029870916759649037,
      "loss": 1.5633,
      "step": 45209
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49855953454971313,
      "learning_rate": 0.0002986987155775404,
      "loss": 1.6541,
      "step": 45210
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4893920421600342,
      "learning_rate": 0.0002986882635601699,
      "loss": 1.5732,
      "step": 45211
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48524266481399536,
      "learning_rate": 0.0002986778115443916,
      "loss": 1.6251,
      "step": 45212
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47639235854148865,
      "learning_rate": 0.0002986673595302184,
      "loss": 1.5675,
      "step": 45213
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48019173741340637,
      "learning_rate": 0.0002986569075176626,
      "loss": 1.459,
      "step": 45214
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4861901104450226,
      "learning_rate": 0.00029864645550673727,
      "loss": 1.6261,
      "step": 45215
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5137180089950562,
      "learning_rate": 0.00029863600349745495,
      "loss": 1.6644,
      "step": 45216
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.485489159822464,
      "learning_rate": 0.00029862555148982826,
      "loss": 1.513,
      "step": 45217
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.46270090341567993,
      "learning_rate": 0.00029861509948387,
      "loss": 1.5805,
      "step": 45218
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4538244903087616,
      "learning_rate": 0.0002986046474795927,
      "loss": 1.53,
      "step": 45219
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48595482110977173,
      "learning_rate": 0.0002985941954770093,
      "loss": 1.6081,
      "step": 45220
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47791650891304016,
      "learning_rate": 0.0002985837434761322,
      "loss": 1.5906,
      "step": 45221
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4932759404182434,
      "learning_rate": 0.0002985732914769743,
      "loss": 1.5679,
      "step": 45222
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4775702953338623,
      "learning_rate": 0.0002985628394795483,
      "loss": 1.6128,
      "step": 45223
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4998772442340851,
      "learning_rate": 0.00029855238748386666,
      "loss": 1.6537,
      "step": 45224
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5019457340240479,
      "learning_rate": 0.0002985419354899423,
      "loss": 1.664,
      "step": 45225
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47685953974723816,
      "learning_rate": 0.0002985314834977878,
      "loss": 1.615,
      "step": 45226
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49873432517051697,
      "learning_rate": 0.0002985210315074158,
      "loss": 1.5453,
      "step": 45227
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4595852196216583,
      "learning_rate": 0.00029851057951883904,
      "loss": 1.5585,
      "step": 45228
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.47993403673171997,
      "learning_rate": 0.0002985001275320703,
      "loss": 1.5442,
      "step": 45229
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4884089231491089,
      "learning_rate": 0.0002984896755471222,
      "loss": 1.6395,
      "step": 45230
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49132803082466125,
      "learning_rate": 0.0002984792235640073,
      "loss": 1.6099,
      "step": 45231
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4799078106880188,
      "learning_rate": 0.0002984687715827385,
      "loss": 1.5825,
      "step": 45232
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49826326966285706,
      "learning_rate": 0.0002984583196033284,
      "loss": 1.5938,
      "step": 45233
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.48754242062568665,
      "learning_rate": 0.0002984478676257896,
      "loss": 1.5463,
      "step": 45234
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.49068185687065125,
      "learning_rate": 0.0002984374156501348,
      "loss": 1.6136,
      "step": 45235
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48784857988357544,
      "learning_rate": 0.00029842696367637694,
      "loss": 1.6343,
      "step": 45236
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49021998047828674,
      "learning_rate": 0.00029841651170452833,
      "loss": 1.6258,
      "step": 45237
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4732001721858978,
      "learning_rate": 0.0002984060597346019,
      "loss": 1.5645,
      "step": 45238
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49842557311058044,
      "learning_rate": 0.0002983956077666103,
      "loss": 1.5723,
      "step": 45239
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4834649860858917,
      "learning_rate": 0.0002983851558005662,
      "loss": 1.5886,
      "step": 45240
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4935636818408966,
      "learning_rate": 0.0002983747038364822,
      "loss": 1.5822,
      "step": 45241
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47695502638816833,
      "learning_rate": 0.0002983642518743711,
      "loss": 1.5991,
      "step": 45242
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4787936508655548,
      "learning_rate": 0.00029835379991424574,
      "loss": 1.6107,
      "step": 45243
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47164997458457947,
      "learning_rate": 0.0002983433479561184,
      "loss": 1.5671,
      "step": 45244
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4730277359485626,
      "learning_rate": 0.00029833289600000206,
      "loss": 1.6018,
      "step": 45245
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4845837652683258,
      "learning_rate": 0.0002983224440459094,
      "loss": 1.5918,
      "step": 45246
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4794173836708069,
      "learning_rate": 0.000298311992093853,
      "loss": 1.5342,
      "step": 45247
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4836202561855316,
      "learning_rate": 0.00029830154014384556,
      "loss": 1.6388,
      "step": 45248
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4995536208152771,
      "learning_rate": 0.00029829108819589976,
      "loss": 1.5619,
      "step": 45249
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4832771420478821,
      "learning_rate": 0.0002982806362500285,
      "loss": 1.6454,
      "step": 45250
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4771961271762848,
      "learning_rate": 0.00029827018430624415,
      "loss": 1.5811,
      "step": 45251
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5065133571624756,
      "learning_rate": 0.00029825973236455956,
      "loss": 1.6532,
      "step": 45252
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5131416320800781,
      "learning_rate": 0.0002982492804249875,
      "loss": 1.6404,
      "step": 45253
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49113699793815613,
      "learning_rate": 0.00029823882848754044,
      "loss": 1.6312,
      "step": 45254
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4911001920700073,
      "learning_rate": 0.0002982283765522312,
      "loss": 1.6401,
      "step": 45255
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5053172707557678,
      "learning_rate": 0.00029821792461907253,
      "loss": 1.5871,
      "step": 45256
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5115798115730286,
      "learning_rate": 0.000298207472688077,
      "loss": 1.5287,
      "step": 45257
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4940105676651001,
      "learning_rate": 0.0002981970207592572,
      "loss": 1.5364,
      "step": 45258
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47665706276893616,
      "learning_rate": 0.00029818656883262606,
      "loss": 1.5213,
      "step": 45259
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4949299395084381,
      "learning_rate": 0.0002981761169081962,
      "loss": 1.6508,
      "step": 45260
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5181765556335449,
      "learning_rate": 0.0002981656649859802,
      "loss": 1.6349,
      "step": 45261
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5075388550758362,
      "learning_rate": 0.00029815521306599083,
      "loss": 1.5729,
      "step": 45262
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48304271697998047,
      "learning_rate": 0.0002981447611482408,
      "loss": 1.6035,
      "step": 45263
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5065050721168518,
      "learning_rate": 0.00029813430923274274,
      "loss": 1.6158,
      "step": 45264
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48529577255249023,
      "learning_rate": 0.00029812385731950924,
      "loss": 1.6181,
      "step": 45265
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5064124464988708,
      "learning_rate": 0.0002981134054085533,
      "loss": 1.6291,
      "step": 45266
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4739450514316559,
      "learning_rate": 0.0002981029534998873,
      "loss": 1.6023,
      "step": 45267
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4958846867084503,
      "learning_rate": 0.000298092501593524,
      "loss": 1.5727,
      "step": 45268
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.6812742948532104,
      "learning_rate": 0.00029808204968947614,
      "loss": 1.5638,
      "step": 45269
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49539676308631897,
      "learning_rate": 0.00029807159778775643,
      "loss": 1.6096,
      "step": 45270
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4763204753398895,
      "learning_rate": 0.0002980611458883775,
      "loss": 1.5608,
      "step": 45271
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.6113730072975159,
      "learning_rate": 0.000298050693991352,
      "loss": 1.557,
      "step": 45272
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49173277616500854,
      "learning_rate": 0.00029804024209669286,
      "loss": 1.5963,
      "step": 45273
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4969887137413025,
      "learning_rate": 0.0002980297902044124,
      "loss": 1.5803,
      "step": 45274
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47059643268585205,
      "learning_rate": 0.00029801933831452343,
      "loss": 1.5769,
      "step": 45275
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5017497539520264,
      "learning_rate": 0.0002980088864270388,
      "loss": 1.6432,
      "step": 45276
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46629568934440613,
      "learning_rate": 0.00029799843454197115,
      "loss": 1.5317,
      "step": 45277
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4945183992385864,
      "learning_rate": 0.00029798798265933296,
      "loss": 1.6357,
      "step": 45278
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.530306339263916,
      "learning_rate": 0.0002979775307791371,
      "loss": 1.5669,
      "step": 45279
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.478715181350708,
      "learning_rate": 0.0002979670789013964,
      "loss": 1.6995,
      "step": 45280
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48706990480422974,
      "learning_rate": 0.00029795662702612307,
      "loss": 1.5605,
      "step": 45281
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4777292013168335,
      "learning_rate": 0.00029794617515333026,
      "loss": 1.6074,
      "step": 45282
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4859411120414734,
      "learning_rate": 0.0002979357232830305,
      "loss": 1.5572,
      "step": 45283
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47490593791007996,
      "learning_rate": 0.00029792527141523647,
      "loss": 1.6851,
      "step": 45284
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4895778000354767,
      "learning_rate": 0.0002979148195499608,
      "loss": 1.6679,
      "step": 45285
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4680498242378235,
      "learning_rate": 0.00029790436768721616,
      "loss": 1.5669,
      "step": 45286
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48831599950790405,
      "learning_rate": 0.00029789391582701554,
      "loss": 1.5913,
      "step": 45287
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4727992117404938,
      "learning_rate": 0.0002978834639693712,
      "loss": 1.5457,
      "step": 45288
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49537622928619385,
      "learning_rate": 0.00029787301211429604,
      "loss": 1.5304,
      "step": 45289
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49188587069511414,
      "learning_rate": 0.00029786256026180285,
      "loss": 1.5818,
      "step": 45290
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.481874018907547,
      "learning_rate": 0.0002978521084119041,
      "loss": 1.5938,
      "step": 45291
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47971540689468384,
      "learning_rate": 0.0002978416565646126,
      "loss": 1.586,
      "step": 45292
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47995424270629883,
      "learning_rate": 0.00029783120471994106,
      "loss": 1.66,
      "step": 45293
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4909903407096863,
      "learning_rate": 0.000297820752877902,
      "loss": 1.5603,
      "step": 45294
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5051186680793762,
      "learning_rate": 0.0002978103010385082,
      "loss": 1.6484,
      "step": 45295
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4923282563686371,
      "learning_rate": 0.0002977998492017725,
      "loss": 1.6263,
      "step": 45296
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47847533226013184,
      "learning_rate": 0.0002977893973677075,
      "loss": 1.6327,
      "step": 45297
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48314353823661804,
      "learning_rate": 0.00029777894553632573,
      "loss": 1.6628,
      "step": 45298
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4651114344596863,
      "learning_rate": 0.00029776849370764,
      "loss": 1.5877,
      "step": 45299
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47448739409446716,
      "learning_rate": 0.0002977580418816631,
      "loss": 1.5487,
      "step": 45300
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48065781593322754,
      "learning_rate": 0.0002977475900584075,
      "loss": 1.6253,
      "step": 45301
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5030472874641418,
      "learning_rate": 0.00029773713823788594,
      "loss": 1.6432,
      "step": 45302
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47533732652664185,
      "learning_rate": 0.0002977266864201113,
      "loss": 1.6255,
      "step": 45303
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4799472689628601,
      "learning_rate": 0.00029771623460509605,
      "loss": 1.5581,
      "step": 45304
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48483964800834656,
      "learning_rate": 0.00029770578279285294,
      "loss": 1.6124,
      "step": 45305
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4661692678928375,
      "learning_rate": 0.0002976953309833947,
      "loss": 1.5502,
      "step": 45306
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4770824611186981,
      "learning_rate": 0.00029768487917673406,
      "loss": 1.6155,
      "step": 45307
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47864052653312683,
      "learning_rate": 0.00029767442737288355,
      "loss": 1.5843,
      "step": 45308
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47316300868988037,
      "learning_rate": 0.00029766397557185587,
      "loss": 1.6285,
      "step": 45309
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4975523054599762,
      "learning_rate": 0.0002976535237736639,
      "loss": 1.6478,
      "step": 45310
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47419273853302,
      "learning_rate": 0.00029764307197832016,
      "loss": 1.5263,
      "step": 45311
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4679669141769409,
      "learning_rate": 0.00029763262018583746,
      "loss": 1.6173,
      "step": 45312
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4931166172027588,
      "learning_rate": 0.0002976221683962284,
      "loss": 1.6295,
      "step": 45313
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.487789124250412,
      "learning_rate": 0.0002976117166095056,
      "loss": 1.6482,
      "step": 45314
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49144643545150757,
      "learning_rate": 0.0002976012648256818,
      "loss": 1.6358,
      "step": 45315
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49116113781929016,
      "learning_rate": 0.0002975908130447697,
      "loss": 1.6431,
      "step": 45316
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48007526993751526,
      "learning_rate": 0.00029758036126678215,
      "loss": 1.5584,
      "step": 45317
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4983059763908386,
      "learning_rate": 0.00029756990949173157,
      "loss": 1.6101,
      "step": 45318
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4704231023788452,
      "learning_rate": 0.0002975594577196308,
      "loss": 1.5511,
      "step": 45319
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4865838587284088,
      "learning_rate": 0.0002975490059504925,
      "loss": 1.6206,
      "step": 45320
    },
    {
      "epoch": 1.51,
      "grad_norm": 1.3483034372329712,
      "learning_rate": 0.0002975385541843293,
      "loss": 1.6773,
      "step": 45321
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.6615419387817383,
      "learning_rate": 0.00029752810242115394,
      "loss": 1.593,
      "step": 45322
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5262777209281921,
      "learning_rate": 0.0002975176506609792,
      "loss": 1.543,
      "step": 45323
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48596644401550293,
      "learning_rate": 0.0002975071989038175,
      "loss": 1.6227,
      "step": 45324
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48220759630203247,
      "learning_rate": 0.00029749674714968176,
      "loss": 1.5412,
      "step": 45325
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5085907578468323,
      "learning_rate": 0.00029748629539858457,
      "loss": 1.6266,
      "step": 45326
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5090707540512085,
      "learning_rate": 0.00029747584365053876,
      "loss": 1.6113,
      "step": 45327
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47844576835632324,
      "learning_rate": 0.00029746539190555685,
      "loss": 1.5585,
      "step": 45328
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49688050150871277,
      "learning_rate": 0.00029745494016365147,
      "loss": 1.6397,
      "step": 45329
    },
    {
      "epoch": 1.51,
      "grad_norm": 1.1956274509429932,
      "learning_rate": 0.00029744448842483563,
      "loss": 1.6148,
      "step": 45330
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4976329505443573,
      "learning_rate": 0.0002974340366891216,
      "loss": 1.5838,
      "step": 45331
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48159340023994446,
      "learning_rate": 0.00029742358495652235,
      "loss": 1.571,
      "step": 45332
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4798009395599365,
      "learning_rate": 0.00029741313322705055,
      "loss": 1.631,
      "step": 45333
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47220662236213684,
      "learning_rate": 0.00029740268150071876,
      "loss": 1.6464,
      "step": 45334
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4923858344554901,
      "learning_rate": 0.0002973922297775397,
      "loss": 1.6524,
      "step": 45335
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4883994162082672,
      "learning_rate": 0.00029738177805752606,
      "loss": 1.6579,
      "step": 45336
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5054080486297607,
      "learning_rate": 0.0002973713263406908,
      "loss": 1.5092,
      "step": 45337
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5093417763710022,
      "learning_rate": 0.00029736087462704607,
      "loss": 1.626,
      "step": 45338
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47671329975128174,
      "learning_rate": 0.000297350422916605,
      "loss": 1.5828,
      "step": 45339
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47452348470687866,
      "learning_rate": 0.0002973399712093801,
      "loss": 1.5898,
      "step": 45340
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5087907314300537,
      "learning_rate": 0.00029732951950538406,
      "loss": 1.5595,
      "step": 45341
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4777349829673767,
      "learning_rate": 0.00029731906780462963,
      "loss": 1.5733,
      "step": 45342
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4862001836299896,
      "learning_rate": 0.0002973086161071295,
      "loss": 1.6358,
      "step": 45343
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4814653992652893,
      "learning_rate": 0.0002972981644128962,
      "loss": 1.6042,
      "step": 45344
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5019345879554749,
      "learning_rate": 0.00029728771272194253,
      "loss": 1.6142,
      "step": 45345
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5073213577270508,
      "learning_rate": 0.0002972772610342812,
      "loss": 1.5429,
      "step": 45346
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49205631017684937,
      "learning_rate": 0.00029726680934992494,
      "loss": 1.6225,
      "step": 45347
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.506282389163971,
      "learning_rate": 0.00029725635766888634,
      "loss": 1.5556,
      "step": 45348
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4822368621826172,
      "learning_rate": 0.0002972459059911781,
      "loss": 1.6065,
      "step": 45349
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4820341169834137,
      "learning_rate": 0.000297235454316813,
      "loss": 1.5958,
      "step": 45350
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47312232851982117,
      "learning_rate": 0.0002972250026458036,
      "loss": 1.6569,
      "step": 45351
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4720618724822998,
      "learning_rate": 0.0002972145509781625,
      "loss": 1.6061,
      "step": 45352
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46719732880592346,
      "learning_rate": 0.0002972040993139028,
      "loss": 1.5731,
      "step": 45353
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48783981800079346,
      "learning_rate": 0.00029719364765303663,
      "loss": 1.6223,
      "step": 45354
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4788770377635956,
      "learning_rate": 0.0002971831959955771,
      "loss": 1.6488,
      "step": 45355
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4661464989185333,
      "learning_rate": 0.0002971727443415367,
      "loss": 1.5507,
      "step": 45356
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5137902498245239,
      "learning_rate": 0.0002971622926909283,
      "loss": 1.6282,
      "step": 45357
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48767536878585815,
      "learning_rate": 0.00029715184104376436,
      "loss": 1.5611,
      "step": 45358
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4972105026245117,
      "learning_rate": 0.0002971413894000576,
      "loss": 1.5914,
      "step": 45359
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49753445386886597,
      "learning_rate": 0.00029713093775982096,
      "loss": 1.6256,
      "step": 45360
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4799305498600006,
      "learning_rate": 0.00029712048612306677,
      "loss": 1.5457,
      "step": 45361
    },
    {
      "epoch": 1.51,
      "grad_norm": 1.016539454460144,
      "learning_rate": 0.0002971100344898079,
      "loss": 1.6376,
      "step": 45362
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46483081579208374,
      "learning_rate": 0.00029709958286005714,
      "loss": 1.6028,
      "step": 45363
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4976363480091095,
      "learning_rate": 0.000297089131233827,
      "loss": 1.5701,
      "step": 45364
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4895922541618347,
      "learning_rate": 0.00029707867961113017,
      "loss": 1.5955,
      "step": 45365
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5060185790061951,
      "learning_rate": 0.00029706822799197935,
      "loss": 1.6,
      "step": 45366
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46862348914146423,
      "learning_rate": 0.0002970577763763875,
      "loss": 1.6251,
      "step": 45367
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4748506546020508,
      "learning_rate": 0.0002970473247643668,
      "loss": 1.5826,
      "step": 45368
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5055552124977112,
      "learning_rate": 0.00029703687315593035,
      "loss": 1.5565,
      "step": 45369
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5074570775032043,
      "learning_rate": 0.00029702642155109073,
      "loss": 1.6616,
      "step": 45370
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4878300428390503,
      "learning_rate": 0.0002970159699498606,
      "loss": 1.6306,
      "step": 45371
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4696866273880005,
      "learning_rate": 0.00029700551835225254,
      "loss": 1.6133,
      "step": 45372
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4810488224029541,
      "learning_rate": 0.00029699506675827944,
      "loss": 1.5868,
      "step": 45373
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5006985068321228,
      "learning_rate": 0.0002969846151679538,
      "loss": 1.5965,
      "step": 45374
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.480072021484375,
      "learning_rate": 0.0002969741635812884,
      "loss": 1.5563,
      "step": 45375
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4950356185436249,
      "learning_rate": 0.00029696371199829596,
      "loss": 1.642,
      "step": 45376
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.485258013010025,
      "learning_rate": 0.0002969532604189892,
      "loss": 1.6293,
      "step": 45377
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4900350868701935,
      "learning_rate": 0.00029694280884338064,
      "loss": 1.6004,
      "step": 45378
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4686810076236725,
      "learning_rate": 0.00029693235727148304,
      "loss": 1.6467,
      "step": 45379
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.9079749584197998,
      "learning_rate": 0.0002969219057033092,
      "loss": 1.6724,
      "step": 45380
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4710369408130646,
      "learning_rate": 0.00029691145413887165,
      "loss": 1.5722,
      "step": 45381
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46748605370521545,
      "learning_rate": 0.0002969010025781831,
      "loss": 1.6464,
      "step": 45382
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4774194657802582,
      "learning_rate": 0.0002968905510212564,
      "loss": 1.5403,
      "step": 45383
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49468570947647095,
      "learning_rate": 0.00029688009946810396,
      "loss": 1.6004,
      "step": 45384
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4956708252429962,
      "learning_rate": 0.0002968696479187387,
      "loss": 1.708,
      "step": 45385
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48068052530288696,
      "learning_rate": 0.0002968591963731732,
      "loss": 1.5659,
      "step": 45386
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46183010935783386,
      "learning_rate": 0.00029684874483142023,
      "loss": 1.599,
      "step": 45387
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5178267955780029,
      "learning_rate": 0.00029683829329349236,
      "loss": 1.6449,
      "step": 45388
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47760412096977234,
      "learning_rate": 0.0002968278417594023,
      "loss": 1.5534,
      "step": 45389
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4809684753417969,
      "learning_rate": 0.00029681739022916295,
      "loss": 1.602,
      "step": 45390
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49301981925964355,
      "learning_rate": 0.0002968069387027866,
      "loss": 1.6265,
      "step": 45391
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46856796741485596,
      "learning_rate": 0.0002967964871802863,
      "loss": 1.5868,
      "step": 45392
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48253074288368225,
      "learning_rate": 0.0002967860356616745,
      "loss": 1.6453,
      "step": 45393
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48232147097587585,
      "learning_rate": 0.0002967755841469641,
      "loss": 1.54,
      "step": 45394
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47359856963157654,
      "learning_rate": 0.00029676513263616756,
      "loss": 1.6263,
      "step": 45395
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4626381993293762,
      "learning_rate": 0.00029675468112929764,
      "loss": 1.5501,
      "step": 45396
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47297313809394836,
      "learning_rate": 0.00029674422962636723,
      "loss": 1.6294,
      "step": 45397
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4922296404838562,
      "learning_rate": 0.0002967337781273887,
      "loss": 1.6693,
      "step": 45398
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4866533875465393,
      "learning_rate": 0.0002967233266323749,
      "loss": 1.6005,
      "step": 45399
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5115365386009216,
      "learning_rate": 0.00029671287514133855,
      "loss": 1.6237,
      "step": 45400
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4839271306991577,
      "learning_rate": 0.0002967024236542923,
      "loss": 1.5739,
      "step": 45401
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48895561695098877,
      "learning_rate": 0.0002966919721712487,
      "loss": 1.5676,
      "step": 45402
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4798436760902405,
      "learning_rate": 0.0002966815206922206,
      "loss": 1.5808,
      "step": 45403
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.475504994392395,
      "learning_rate": 0.00029667106921722075,
      "loss": 1.5756,
      "step": 45404
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4664008617401123,
      "learning_rate": 0.0002966606177462616,
      "loss": 1.6145,
      "step": 45405
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5051580667495728,
      "learning_rate": 0.00029665016627935603,
      "loss": 1.6284,
      "step": 45406
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4645077884197235,
      "learning_rate": 0.0002966397148165167,
      "loss": 1.5975,
      "step": 45407
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46421319246292114,
      "learning_rate": 0.00029662926335775625,
      "loss": 1.5589,
      "step": 45408
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47793418169021606,
      "learning_rate": 0.0002966188119030873,
      "loss": 1.6086,
      "step": 45409
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5001583695411682,
      "learning_rate": 0.00029660836045252277,
      "loss": 1.5781,
      "step": 45410
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48507991433143616,
      "learning_rate": 0.00029659790900607506,
      "loss": 1.6466,
      "step": 45411
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4930548369884491,
      "learning_rate": 0.00029658745756375697,
      "loss": 1.6127,
      "step": 45412
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47453343868255615,
      "learning_rate": 0.00029657700612558123,
      "loss": 1.5713,
      "step": 45413
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48023292422294617,
      "learning_rate": 0.00029656655469156054,
      "loss": 1.5881,
      "step": 45414
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47943320870399475,
      "learning_rate": 0.0002965561032617075,
      "loss": 1.612,
      "step": 45415
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48249897360801697,
      "learning_rate": 0.0002965456518360349,
      "loss": 1.6102,
      "step": 45416
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49126067757606506,
      "learning_rate": 0.0002965352004145554,
      "loss": 1.5005,
      "step": 45417
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4923233985900879,
      "learning_rate": 0.00029652474899728156,
      "loss": 1.6458,
      "step": 45418
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4760904610157013,
      "learning_rate": 0.00029651429758422614,
      "loss": 1.5888,
      "step": 45419
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49442607164382935,
      "learning_rate": 0.000296503846175402,
      "loss": 1.6771,
      "step": 45420
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4828956425189972,
      "learning_rate": 0.0002964933947708215,
      "loss": 1.6513,
      "step": 45421
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.487505704164505,
      "learning_rate": 0.0002964829433704976,
      "loss": 1.5811,
      "step": 45422
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4926084578037262,
      "learning_rate": 0.00029647249197444284,
      "loss": 1.6778,
      "step": 45423
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49045422673225403,
      "learning_rate": 0.0002964620405826701,
      "loss": 1.5738,
      "step": 45424
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47612136602401733,
      "learning_rate": 0.00029645158919519175,
      "loss": 1.6327,
      "step": 45425
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4819200336933136,
      "learning_rate": 0.00029644113781202063,
      "loss": 1.5685,
      "step": 45426
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5213618278503418,
      "learning_rate": 0.0002964306864331696,
      "loss": 1.4753,
      "step": 45427
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4755237102508545,
      "learning_rate": 0.0002964202350586511,
      "loss": 1.6124,
      "step": 45428
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4917130470275879,
      "learning_rate": 0.0002964097836884779,
      "loss": 1.6297,
      "step": 45429
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5092471241950989,
      "learning_rate": 0.0002963993323226628,
      "loss": 1.6661,
      "step": 45430
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4981635808944702,
      "learning_rate": 0.0002963888809612183,
      "loss": 1.6367,
      "step": 45431
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4900321066379547,
      "learning_rate": 0.0002963784296041571,
      "loss": 1.5582,
      "step": 45432
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49087515473365784,
      "learning_rate": 0.00029636797825149193,
      "loss": 1.5034,
      "step": 45433
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4837527871131897,
      "learning_rate": 0.0002963575269032357,
      "loss": 1.582,
      "step": 45434
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.466051310300827,
      "learning_rate": 0.0002963470755594007,
      "loss": 1.5699,
      "step": 45435
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.487356573343277,
      "learning_rate": 0.0002963366242199999,
      "loss": 1.5702,
      "step": 45436
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4789752662181854,
      "learning_rate": 0.00029632617288504593,
      "loss": 1.5658,
      "step": 45437
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4977029263973236,
      "learning_rate": 0.00029631572155455136,
      "loss": 1.6787,
      "step": 45438
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4701452851295471,
      "learning_rate": 0.000296305270228529,
      "loss": 1.6015,
      "step": 45439
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48536980152130127,
      "learning_rate": 0.0002962948189069916,
      "loss": 1.6074,
      "step": 45440
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47947487235069275,
      "learning_rate": 0.00029628436758995154,
      "loss": 1.6008,
      "step": 45441
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4611266553401947,
      "learning_rate": 0.00029627391627742183,
      "loss": 1.6123,
      "step": 45442
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4809834361076355,
      "learning_rate": 0.00029626346496941503,
      "loss": 1.6542,
      "step": 45443
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4930407404899597,
      "learning_rate": 0.0002962530136659439,
      "loss": 1.631,
      "step": 45444
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46874943375587463,
      "learning_rate": 0.0002962425623670209,
      "loss": 1.6215,
      "step": 45445
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49016672372817993,
      "learning_rate": 0.0002962321110726589,
      "loss": 1.5928,
      "step": 45446
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5679079294204712,
      "learning_rate": 0.00029622165978287075,
      "loss": 1.5748,
      "step": 45447
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49212202429771423,
      "learning_rate": 0.0002962112084976688,
      "loss": 1.6078,
      "step": 45448
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4916374981403351,
      "learning_rate": 0.00029620075721706584,
      "loss": 1.6021,
      "step": 45449
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.475477010011673,
      "learning_rate": 0.0002961903059410747,
      "loss": 1.7166,
      "step": 45450
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4803180396556854,
      "learning_rate": 0.000296179854669708,
      "loss": 1.6226,
      "step": 45451
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.46696576476097107,
      "learning_rate": 0.0002961694034029783,
      "loss": 1.5474,
      "step": 45452
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48223116993904114,
      "learning_rate": 0.00029615895214089833,
      "loss": 1.5608,
      "step": 45453
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5055122375488281,
      "learning_rate": 0.000296148500883481,
      "loss": 1.6493,
      "step": 45454
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5040345191955566,
      "learning_rate": 0.00029613804963073864,
      "loss": 1.6458,
      "step": 45455
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5060820579528809,
      "learning_rate": 0.0002961275983826842,
      "loss": 1.6794,
      "step": 45456
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4719482958316803,
      "learning_rate": 0.0002961171471393303,
      "loss": 1.6463,
      "step": 45457
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4803566038608551,
      "learning_rate": 0.00029610669590068964,
      "loss": 1.5667,
      "step": 45458
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4774872660636902,
      "learning_rate": 0.00029609624466677483,
      "loss": 1.6278,
      "step": 45459
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5005333423614502,
      "learning_rate": 0.0002960857934375987,
      "loss": 1.6657,
      "step": 45460
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.474886953830719,
      "learning_rate": 0.0002960753422131737,
      "loss": 1.5846,
      "step": 45461
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4806562066078186,
      "learning_rate": 0.00029606489099351266,
      "loss": 1.59,
      "step": 45462
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47640374302864075,
      "learning_rate": 0.00029605443977862825,
      "loss": 1.5451,
      "step": 45463
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4806402921676636,
      "learning_rate": 0.0002960439885685333,
      "loss": 1.5953,
      "step": 45464
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4805569052696228,
      "learning_rate": 0.0002960335373632403,
      "loss": 1.5993,
      "step": 45465
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47703054547309875,
      "learning_rate": 0.00029602308616276195,
      "loss": 1.5676,
      "step": 45466
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48712870478630066,
      "learning_rate": 0.00029601263496711113,
      "loss": 1.6957,
      "step": 45467
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4754466116428375,
      "learning_rate": 0.00029600218377630024,
      "loss": 1.598,
      "step": 45468
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4601392447948456,
      "learning_rate": 0.0002959917325903421,
      "loss": 1.5811,
      "step": 45469
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5031387805938721,
      "learning_rate": 0.0002959812814092496,
      "loss": 1.6707,
      "step": 45470
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5037133693695068,
      "learning_rate": 0.000295970830233035,
      "loss": 1.6366,
      "step": 45471
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47174325585365295,
      "learning_rate": 0.0002959603790617113,
      "loss": 1.5881,
      "step": 45472
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4804821014404297,
      "learning_rate": 0.00029594992789529114,
      "loss": 1.5932,
      "step": 45473
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4771100878715515,
      "learning_rate": 0.00029593947673378716,
      "loss": 1.5615,
      "step": 45474
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4845990240573883,
      "learning_rate": 0.000295929025577212,
      "loss": 1.6093,
      "step": 45475
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4840305745601654,
      "learning_rate": 0.0002959185744255784,
      "loss": 1.5588,
      "step": 45476
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4959210455417633,
      "learning_rate": 0.00029590812327889924,
      "loss": 1.6564,
      "step": 45477
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47785091400146484,
      "learning_rate": 0.00029589767213718677,
      "loss": 1.6462,
      "step": 45478
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4992862939834595,
      "learning_rate": 0.00029588722100045404,
      "loss": 1.5066,
      "step": 45479
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47495007514953613,
      "learning_rate": 0.00029587676986871363,
      "loss": 1.5638,
      "step": 45480
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4887748062610626,
      "learning_rate": 0.0002958663187419782,
      "loss": 1.617,
      "step": 45481
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4934599697589874,
      "learning_rate": 0.00029585586762026045,
      "loss": 1.5571,
      "step": 45482
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48102685809135437,
      "learning_rate": 0.000295845416503573,
      "loss": 1.6052,
      "step": 45483
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48642563819885254,
      "learning_rate": 0.0002958349653919287,
      "loss": 1.5408,
      "step": 45484
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47791221737861633,
      "learning_rate": 0.00029582451428534004,
      "loss": 1.6212,
      "step": 45485
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4738011956214905,
      "learning_rate": 0.0002958140631838198,
      "loss": 1.5627,
      "step": 45486
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4772702157497406,
      "learning_rate": 0.00029580361208738086,
      "loss": 1.5465,
      "step": 45487
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.477608323097229,
      "learning_rate": 0.00029579316099603555,
      "loss": 1.5803,
      "step": 45488
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4705831706523895,
      "learning_rate": 0.0002957827099097967,
      "loss": 1.6718,
      "step": 45489
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48582375049591064,
      "learning_rate": 0.00029577225882867716,
      "loss": 1.5533,
      "step": 45490
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4747924208641052,
      "learning_rate": 0.0002957618077526894,
      "loss": 1.6309,
      "step": 45491
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4906373620033264,
      "learning_rate": 0.0002957513566818461,
      "loss": 1.5893,
      "step": 45492
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4802004098892212,
      "learning_rate": 0.0002957409056161601,
      "loss": 1.5835,
      "step": 45493
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4954899549484253,
      "learning_rate": 0.000295730454555644,
      "loss": 1.7116,
      "step": 45494
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4871255159378052,
      "learning_rate": 0.0002957200035003106,
      "loss": 1.6253,
      "step": 45495
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49068009853363037,
      "learning_rate": 0.0002957095524501723,
      "loss": 1.6243,
      "step": 45496
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4807248115539551,
      "learning_rate": 0.00029569910140524213,
      "loss": 1.6327,
      "step": 45497
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4887242317199707,
      "learning_rate": 0.00029568865036553254,
      "loss": 1.5727,
      "step": 45498
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4771176874637604,
      "learning_rate": 0.0002956781993310563,
      "loss": 1.6169,
      "step": 45499
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.477948397397995,
      "learning_rate": 0.00029566774830182616,
      "loss": 1.5892,
      "step": 45500
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49491626024246216,
      "learning_rate": 0.0002956572972778546,
      "loss": 1.5409,
      "step": 45501
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4917786717414856,
      "learning_rate": 0.0002956468462591545,
      "loss": 1.5908,
      "step": 45502
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49282631278038025,
      "learning_rate": 0.0002956363952457385,
      "loss": 1.6665,
      "step": 45503
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5034674406051636,
      "learning_rate": 0.00029562594423761934,
      "loss": 1.6458,
      "step": 45504
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4823375344276428,
      "learning_rate": 0.00029561549323480954,
      "loss": 1.5718,
      "step": 45505
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5079489350318909,
      "learning_rate": 0.0002956050422373219,
      "loss": 1.5788,
      "step": 45506
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49009543657302856,
      "learning_rate": 0.0002955945912451692,
      "loss": 1.6205,
      "step": 45507
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49636995792388916,
      "learning_rate": 0.00029558414025836384,
      "loss": 1.6117,
      "step": 45508
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4937901198863983,
      "learning_rate": 0.0002955736892769188,
      "loss": 1.641,
      "step": 45509
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4878596365451813,
      "learning_rate": 0.00029556323830084666,
      "loss": 1.6595,
      "step": 45510
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4861162304878235,
      "learning_rate": 0.00029555278733016003,
      "loss": 1.5895,
      "step": 45511
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4824548065662384,
      "learning_rate": 0.00029554233636487165,
      "loss": 1.6318,
      "step": 45512
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4918345808982849,
      "learning_rate": 0.0002955318854049942,
      "loss": 1.6178,
      "step": 45513
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48359763622283936,
      "learning_rate": 0.00029552143445054057,
      "loss": 1.5119,
      "step": 45514
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5017129182815552,
      "learning_rate": 0.00029551098350152303,
      "loss": 1.682,
      "step": 45515
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.5058667063713074,
      "learning_rate": 0.0002955005325579546,
      "loss": 1.7134,
      "step": 45516
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48181426525115967,
      "learning_rate": 0.00029549008161984785,
      "loss": 1.6319,
      "step": 45517
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.885330855846405,
      "learning_rate": 0.0002954796306872155,
      "loss": 1.6571,
      "step": 45518
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4767118990421295,
      "learning_rate": 0.00029546917976007014,
      "loss": 1.6099,
      "step": 45519
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48377081751823425,
      "learning_rate": 0.0002954587288384245,
      "loss": 1.629,
      "step": 45520
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4861210286617279,
      "learning_rate": 0.0002954482779222915,
      "loss": 1.5271,
      "step": 45521
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4891393482685089,
      "learning_rate": 0.00029543782701168343,
      "loss": 1.5516,
      "step": 45522
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.48485276103019714,
      "learning_rate": 0.0002954273761066132,
      "loss": 1.5683,
      "step": 45523
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4884369671344757,
      "learning_rate": 0.00029541692520709356,
      "loss": 1.6181,
      "step": 45524
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4774461090564728,
      "learning_rate": 0.000295406474313137,
      "loss": 1.5896,
      "step": 45525
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47257938981056213,
      "learning_rate": 0.00029539602342475635,
      "loss": 1.609,
      "step": 45526
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4738188683986664,
      "learning_rate": 0.00029538557254196426,
      "loss": 1.659,
      "step": 45527
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.49451950192451477,
      "learning_rate": 0.0002953751216647733,
      "loss": 1.6259,
      "step": 45528
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47925177216529846,
      "learning_rate": 0.0002953646707931963,
      "loss": 1.6137,
      "step": 45529
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47882118821144104,
      "learning_rate": 0.0002953542199272459,
      "loss": 1.5917,
      "step": 45530
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4771978557109833,
      "learning_rate": 0.0002953437690669349,
      "loss": 1.6584,
      "step": 45531
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4688691794872284,
      "learning_rate": 0.0002953333182122758,
      "loss": 1.6237,
      "step": 45532
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4763399064540863,
      "learning_rate": 0.0002953228673632814,
      "loss": 1.5999,
      "step": 45533
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4942995011806488,
      "learning_rate": 0.00029531241651996435,
      "loss": 1.6906,
      "step": 45534
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.47857752442359924,
      "learning_rate": 0.0002953019656823373,
      "loss": 1.6463,
      "step": 45535
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4967834949493408,
      "learning_rate": 0.0002952915148504129,
      "loss": 1.5791,
      "step": 45536
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5170654654502869,
      "learning_rate": 0.00029528106402420406,
      "loss": 1.6394,
      "step": 45537
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.468705952167511,
      "learning_rate": 0.00029527061320372324,
      "loss": 1.6214,
      "step": 45538
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.889093816280365,
      "learning_rate": 0.00029526016238898316,
      "loss": 1.5976,
      "step": 45539
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4862310290336609,
      "learning_rate": 0.00029524971157999656,
      "loss": 1.599,
      "step": 45540
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5085231065750122,
      "learning_rate": 0.0002952392607767762,
      "loss": 1.6559,
      "step": 45541
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4842245876789093,
      "learning_rate": 0.0002952288099793346,
      "loss": 1.5984,
      "step": 45542
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4933454394340515,
      "learning_rate": 0.0002952183591876845,
      "loss": 1.6237,
      "step": 45543
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49070876836776733,
      "learning_rate": 0.0002952079084018387,
      "loss": 1.6098,
      "step": 45544
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.488737553358078,
      "learning_rate": 0.0002951974576218097,
      "loss": 1.5677,
      "step": 45545
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46560728549957275,
      "learning_rate": 0.0002951870068476103,
      "loss": 1.6109,
      "step": 45546
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49511289596557617,
      "learning_rate": 0.00029517655607925325,
      "loss": 1.5329,
      "step": 45547
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5080525875091553,
      "learning_rate": 0.00029516610531675106,
      "loss": 1.6694,
      "step": 45548
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5107754468917847,
      "learning_rate": 0.00029515565456011647,
      "loss": 1.6168,
      "step": 45549
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4636382460594177,
      "learning_rate": 0.0002951452038093622,
      "loss": 1.6375,
      "step": 45550
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4736013412475586,
      "learning_rate": 0.000295134753064501,
      "loss": 1.5448,
      "step": 45551
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5001956820487976,
      "learning_rate": 0.00029512430232554553,
      "loss": 1.6223,
      "step": 45552
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4867263436317444,
      "learning_rate": 0.0002951138515925084,
      "loss": 1.604,
      "step": 45553
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4920770823955536,
      "learning_rate": 0.00029510340086540235,
      "loss": 1.6071,
      "step": 45554
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49490484595298767,
      "learning_rate": 0.00029509295014424003,
      "loss": 1.6014,
      "step": 45555
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4736082851886749,
      "learning_rate": 0.0002950824994290341,
      "loss": 1.6484,
      "step": 45556
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4889795482158661,
      "learning_rate": 0.0002950720487197974,
      "loss": 1.5823,
      "step": 45557
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48248904943466187,
      "learning_rate": 0.00029506159801654237,
      "loss": 1.6031,
      "step": 45558
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49930211901664734,
      "learning_rate": 0.0002950511473192819,
      "loss": 1.6286,
      "step": 45559
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4635341763496399,
      "learning_rate": 0.0002950406966280286,
      "loss": 1.5764,
      "step": 45560
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48509475588798523,
      "learning_rate": 0.0002950302459427952,
      "loss": 1.6662,
      "step": 45561
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5017197728157043,
      "learning_rate": 0.00029501979526359433,
      "loss": 1.6011,
      "step": 45562
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46629050374031067,
      "learning_rate": 0.0002950093445904386,
      "loss": 1.57,
      "step": 45563
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48936498165130615,
      "learning_rate": 0.000294998893923341,
      "loss": 1.5725,
      "step": 45564
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49224653840065,
      "learning_rate": 0.0002949884432623138,
      "loss": 1.6528,
      "step": 45565
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47661980986595154,
      "learning_rate": 0.00029497799260737,
      "loss": 1.5778,
      "step": 45566
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.6285367012023926,
      "learning_rate": 0.00029496754195852215,
      "loss": 1.6072,
      "step": 45567
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5151618123054504,
      "learning_rate": 0.000294957091315783,
      "loss": 1.6632,
      "step": 45568
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46291863918304443,
      "learning_rate": 0.00029494664067916513,
      "loss": 1.5999,
      "step": 45569
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47360527515411377,
      "learning_rate": 0.00029493619004868126,
      "loss": 1.62,
      "step": 45570
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4904474914073944,
      "learning_rate": 0.00029492573942434426,
      "loss": 1.5265,
      "step": 45571
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49781227111816406,
      "learning_rate": 0.00029491528880616657,
      "loss": 1.6372,
      "step": 45572
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4979686737060547,
      "learning_rate": 0.00029490483819416096,
      "loss": 1.5877,
      "step": 45573
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4753654897212982,
      "learning_rate": 0.0002948943875883402,
      "loss": 1.6351,
      "step": 45574
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47329291701316833,
      "learning_rate": 0.00029488393698871683,
      "loss": 1.6145,
      "step": 45575
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47250640392303467,
      "learning_rate": 0.0002948734863953036,
      "loss": 1.6154,
      "step": 45576
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4962935149669647,
      "learning_rate": 0.0002948630358081133,
      "loss": 1.6026,
      "step": 45577
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49741867184638977,
      "learning_rate": 0.0002948525852271584,
      "loss": 1.7068,
      "step": 45578
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48772960901260376,
      "learning_rate": 0.0002948421346524517,
      "loss": 1.5627,
      "step": 45579
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.486815482378006,
      "learning_rate": 0.0002948316840840059,
      "loss": 1.6774,
      "step": 45580
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.484555721282959,
      "learning_rate": 0.0002948212335218338,
      "loss": 1.6141,
      "step": 45581
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49464309215545654,
      "learning_rate": 0.00029481078296594783,
      "loss": 1.612,
      "step": 45582
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48358261585235596,
      "learning_rate": 0.00029480033241636083,
      "loss": 1.5983,
      "step": 45583
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4877725839614868,
      "learning_rate": 0.0002947898818730855,
      "loss": 1.5485,
      "step": 45584
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4892924726009369,
      "learning_rate": 0.0002947794313361345,
      "loss": 1.5991,
      "step": 45585
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4880520701408386,
      "learning_rate": 0.00029476898080552035,
      "loss": 1.6937,
      "step": 45586
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47587305307388306,
      "learning_rate": 0.00029475853028125613,
      "loss": 1.5979,
      "step": 45587
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47648781538009644,
      "learning_rate": 0.0002947480797633541,
      "loss": 1.6146,
      "step": 45588
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5204909443855286,
      "learning_rate": 0.0002947376292518271,
      "loss": 1.5673,
      "step": 45589
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4964115023612976,
      "learning_rate": 0.00029472717874668797,
      "loss": 1.6582,
      "step": 45590
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48383772373199463,
      "learning_rate": 0.0002947167282479493,
      "loss": 1.7153,
      "step": 45591
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48075708746910095,
      "learning_rate": 0.0002947062777556236,
      "loss": 1.5174,
      "step": 45592
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4762434661388397,
      "learning_rate": 0.00029469582726972374,
      "loss": 1.6119,
      "step": 45593
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5056168437004089,
      "learning_rate": 0.0002946853767902625,
      "loss": 1.6199,
      "step": 45594
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.45771005749702454,
      "learning_rate": 0.0002946749263172522,
      "loss": 1.5952,
      "step": 45595
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4857127368450165,
      "learning_rate": 0.0002946644758507059,
      "loss": 1.5793,
      "step": 45596
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46761563420295715,
      "learning_rate": 0.00029465402539063614,
      "loss": 1.6568,
      "step": 45597
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4811452031135559,
      "learning_rate": 0.00029464357493705557,
      "loss": 1.5957,
      "step": 45598
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4777153432369232,
      "learning_rate": 0.0002946331244899769,
      "loss": 1.6111,
      "step": 45599
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48528265953063965,
      "learning_rate": 0.0002946226740494128,
      "loss": 1.6671,
      "step": 45600
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4989311695098877,
      "learning_rate": 0.0002946122236153761,
      "loss": 1.5553,
      "step": 45601
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.482551246881485,
      "learning_rate": 0.0002946017731878792,
      "loss": 1.6061,
      "step": 45602
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47157222032546997,
      "learning_rate": 0.000294591322766935,
      "loss": 1.5759,
      "step": 45603
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4805113673210144,
      "learning_rate": 0.00029458087235255626,
      "loss": 1.5882,
      "step": 45604
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46555304527282715,
      "learning_rate": 0.00029457042194475547,
      "loss": 1.6421,
      "step": 45605
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4806114733219147,
      "learning_rate": 0.00029455997154354533,
      "loss": 1.493,
      "step": 45606
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49207741022109985,
      "learning_rate": 0.0002945495211489387,
      "loss": 1.6555,
      "step": 45607
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4715791940689087,
      "learning_rate": 0.00029453907076094807,
      "loss": 1.5268,
      "step": 45608
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47479188442230225,
      "learning_rate": 0.00029452862037958615,
      "loss": 1.6001,
      "step": 45609
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49451977014541626,
      "learning_rate": 0.0002945181700048657,
      "loss": 1.6269,
      "step": 45610
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47658196091651917,
      "learning_rate": 0.00029450771963679954,
      "loss": 1.5514,
      "step": 45611
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4673997759819031,
      "learning_rate": 0.00029449726927540006,
      "loss": 1.5921,
      "step": 45612
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47823601961135864,
      "learning_rate": 0.0002944868189206801,
      "loss": 1.6012,
      "step": 45613
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48052850365638733,
      "learning_rate": 0.0002944763685726524,
      "loss": 1.5477,
      "step": 45614
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4844414293766022,
      "learning_rate": 0.0002944659182313295,
      "loss": 1.6886,
      "step": 45615
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5415980815887451,
      "learning_rate": 0.0002944554678967241,
      "loss": 1.5763,
      "step": 45616
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4793842136859894,
      "learning_rate": 0.0002944450175688491,
      "loss": 1.6036,
      "step": 45617
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4642075300216675,
      "learning_rate": 0.0002944345672477169,
      "loss": 1.5732,
      "step": 45618
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5008524060249329,
      "learning_rate": 0.00029442411693334034,
      "loss": 1.5503,
      "step": 45619
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4769118130207062,
      "learning_rate": 0.0002944136666257321,
      "loss": 1.5869,
      "step": 45620
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47866982221603394,
      "learning_rate": 0.0002944032163249049,
      "loss": 1.6063,
      "step": 45621
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49162599444389343,
      "learning_rate": 0.0002943927660308713,
      "loss": 1.6059,
      "step": 45622
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4835774600505829,
      "learning_rate": 0.000294382315743644,
      "loss": 1.6133,
      "step": 45623
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49048522114753723,
      "learning_rate": 0.00029437186546323594,
      "loss": 1.6217,
      "step": 45624
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49281489849090576,
      "learning_rate": 0.00029436141518965944,
      "loss": 1.6489,
      "step": 45625
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47858837246894836,
      "learning_rate": 0.00029435096492292734,
      "loss": 1.6473,
      "step": 45626
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4804835319519043,
      "learning_rate": 0.0002943405146630525,
      "loss": 1.6014,
      "step": 45627
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4888562858104706,
      "learning_rate": 0.0002943300644100473,
      "loss": 1.5381,
      "step": 45628
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49306684732437134,
      "learning_rate": 0.0002943196141639246,
      "loss": 1.6864,
      "step": 45629
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5143007040023804,
      "learning_rate": 0.0002943091639246969,
      "loss": 1.5801,
      "step": 45630
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5048913955688477,
      "learning_rate": 0.00029429871369237735,
      "loss": 1.6156,
      "step": 45631
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5171594023704529,
      "learning_rate": 0.0002942882634669781,
      "loss": 1.6207,
      "step": 45632
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47159436345100403,
      "learning_rate": 0.0002942778132485121,
      "loss": 1.5716,
      "step": 45633
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4777306318283081,
      "learning_rate": 0.00029426736303699204,
      "loss": 1.5696,
      "step": 45634
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5021263957023621,
      "learning_rate": 0.00029425691283243053,
      "loss": 1.5622,
      "step": 45635
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.477664977312088,
      "learning_rate": 0.0002942464626348403,
      "loss": 1.5589,
      "step": 45636
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4882560670375824,
      "learning_rate": 0.00029423601244423387,
      "loss": 1.5939,
      "step": 45637
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47467726469039917,
      "learning_rate": 0.00029422556226062435,
      "loss": 1.6421,
      "step": 45638
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49324509501457214,
      "learning_rate": 0.0002942151120840239,
      "loss": 1.6672,
      "step": 45639
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4962054491043091,
      "learning_rate": 0.0002942046619144455,
      "loss": 1.5968,
      "step": 45640
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49488765001296997,
      "learning_rate": 0.00029419421175190194,
      "loss": 1.6401,
      "step": 45641
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5095218420028687,
      "learning_rate": 0.00029418376159640557,
      "loss": 1.5812,
      "step": 45642
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4928668737411499,
      "learning_rate": 0.00029417331144796936,
      "loss": 1.6944,
      "step": 45643
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47467365860939026,
      "learning_rate": 0.0002941628613066059,
      "loss": 1.5506,
      "step": 45644
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5089966654777527,
      "learning_rate": 0.0002941524111723278,
      "loss": 1.6501,
      "step": 45645
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5074650049209595,
      "learning_rate": 0.00029414196104514775,
      "loss": 1.5703,
      "step": 45646
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5130701661109924,
      "learning_rate": 0.00029413151092507855,
      "loss": 1.5452,
      "step": 45647
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5010614395141602,
      "learning_rate": 0.00029412106081213294,
      "loss": 1.6095,
      "step": 45648
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47629377245903015,
      "learning_rate": 0.0002941106107063234,
      "loss": 1.5465,
      "step": 45649
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4585702419281006,
      "learning_rate": 0.00029410016060766274,
      "loss": 1.5831,
      "step": 45650
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46764710545539856,
      "learning_rate": 0.0002940897105161637,
      "loss": 1.6147,
      "step": 45651
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5038527846336365,
      "learning_rate": 0.00029407926043183873,
      "loss": 1.6089,
      "step": 45652
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4988078773021698,
      "learning_rate": 0.00029406881035470064,
      "loss": 1.6769,
      "step": 45653
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48223498463630676,
      "learning_rate": 0.0002940583602847623,
      "loss": 1.6099,
      "step": 45654
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48002269864082336,
      "learning_rate": 0.0002940479102220361,
      "loss": 1.6131,
      "step": 45655
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4820783734321594,
      "learning_rate": 0.0002940374601665349,
      "loss": 1.606,
      "step": 45656
    },
    {
      "epoch": 1.52,
      "grad_norm": 1.0828487873077393,
      "learning_rate": 0.0002940270101182714,
      "loss": 1.6216,
      "step": 45657
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4755916893482208,
      "learning_rate": 0.0002940165600772582,
      "loss": 1.6602,
      "step": 45658
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48263415694236755,
      "learning_rate": 0.00029400611004350803,
      "loss": 1.5845,
      "step": 45659
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5006542801856995,
      "learning_rate": 0.00029399566001703345,
      "loss": 1.544,
      "step": 45660
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5073610544204712,
      "learning_rate": 0.00029398520999784737,
      "loss": 1.6062,
      "step": 45661
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4809400141239166,
      "learning_rate": 0.0002939747599859623,
      "loss": 1.6921,
      "step": 45662
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47128790616989136,
      "learning_rate": 0.000293964309981391,
      "loss": 1.6225,
      "step": 45663
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49702996015548706,
      "learning_rate": 0.00029395385998414624,
      "loss": 1.5521,
      "step": 45664
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4647395610809326,
      "learning_rate": 0.0002939434099942405,
      "loss": 1.5676,
      "step": 45665
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4847288131713867,
      "learning_rate": 0.0002939329600116866,
      "loss": 1.5871,
      "step": 45666
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4851868152618408,
      "learning_rate": 0.00029392251003649704,
      "loss": 1.6291,
      "step": 45667
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49387213587760925,
      "learning_rate": 0.00029391206006868485,
      "loss": 1.6487,
      "step": 45668
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4817756116390228,
      "learning_rate": 0.00029390161010826247,
      "loss": 1.5951,
      "step": 45669
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.500809371471405,
      "learning_rate": 0.00029389116015524265,
      "loss": 1.5838,
      "step": 45670
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48640888929367065,
      "learning_rate": 0.00029388071020963806,
      "loss": 1.6163,
      "step": 45671
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4979252517223358,
      "learning_rate": 0.00029387026027146134,
      "loss": 1.6021,
      "step": 45672
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47252634167671204,
      "learning_rate": 0.00029385981034072523,
      "loss": 1.5818,
      "step": 45673
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47819221019744873,
      "learning_rate": 0.0002938493604174425,
      "loss": 1.5922,
      "step": 45674
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4719880223274231,
      "learning_rate": 0.0002938389105016256,
      "loss": 1.6331,
      "step": 45675
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47491252422332764,
      "learning_rate": 0.0002938284605932874,
      "loss": 1.5185,
      "step": 45676
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49769532680511475,
      "learning_rate": 0.00029381801069244053,
      "loss": 1.6175,
      "step": 45677
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48597174882888794,
      "learning_rate": 0.00029380756079909774,
      "loss": 1.5088,
      "step": 45678
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4914093315601349,
      "learning_rate": 0.0002937971109132716,
      "loss": 1.6397,
      "step": 45679
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4822827875614166,
      "learning_rate": 0.00029378666103497484,
      "loss": 1.6551,
      "step": 45680
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4992162883281708,
      "learning_rate": 0.0002937762111642203,
      "loss": 1.6057,
      "step": 45681
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4845978319644928,
      "learning_rate": 0.0002937657613010204,
      "loss": 1.6187,
      "step": 45682
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4671803116798401,
      "learning_rate": 0.00029375531144538796,
      "loss": 1.5881,
      "step": 45683
    },
    {
      "epoch": 1.52,
      "grad_norm": 1.628787636756897,
      "learning_rate": 0.0002937448615973357,
      "loss": 1.6804,
      "step": 45684
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47638216614723206,
      "learning_rate": 0.00029373441175687624,
      "loss": 1.6009,
      "step": 45685
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47157740592956543,
      "learning_rate": 0.0002937239619240222,
      "loss": 1.6183,
      "step": 45686
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4972689151763916,
      "learning_rate": 0.00029371351209878636,
      "loss": 1.5738,
      "step": 45687
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4891924262046814,
      "learning_rate": 0.00029370306228118154,
      "loss": 1.5659,
      "step": 45688
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4789429008960724,
      "learning_rate": 0.0002936926124712201,
      "loss": 1.6265,
      "step": 45689
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47320184111595154,
      "learning_rate": 0.00029368216266891493,
      "loss": 1.6116,
      "step": 45690
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4758175313472748,
      "learning_rate": 0.00029367171287427883,
      "loss": 1.5594,
      "step": 45691
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4853249192237854,
      "learning_rate": 0.0002936612630873242,
      "loss": 1.6521,
      "step": 45692
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5135828852653503,
      "learning_rate": 0.00029365081330806386,
      "loss": 1.5602,
      "step": 45693
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5082064270973206,
      "learning_rate": 0.0002936403635365106,
      "loss": 1.5645,
      "step": 45694
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49926498532295227,
      "learning_rate": 0.00029362991377267694,
      "loss": 1.6613,
      "step": 45695
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4755352735519409,
      "learning_rate": 0.00029361946401657555,
      "loss": 1.5975,
      "step": 45696
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47573694586753845,
      "learning_rate": 0.00029360901426821927,
      "loss": 1.5714,
      "step": 45697
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47875598073005676,
      "learning_rate": 0.0002935985645276207,
      "loss": 1.597,
      "step": 45698
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47855430841445923,
      "learning_rate": 0.00029358811479479255,
      "loss": 1.615,
      "step": 45699
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5213972926139832,
      "learning_rate": 0.00029357766506974743,
      "loss": 1.6742,
      "step": 45700
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4969676733016968,
      "learning_rate": 0.00029356721535249815,
      "loss": 1.5638,
      "step": 45701
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4868330657482147,
      "learning_rate": 0.0002935567656430573,
      "loss": 1.5464,
      "step": 45702
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4704195261001587,
      "learning_rate": 0.00029354631594143745,
      "loss": 1.5743,
      "step": 45703
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5149579048156738,
      "learning_rate": 0.00029353586624765167,
      "loss": 1.593,
      "step": 45704
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47471368312835693,
      "learning_rate": 0.0002935254165617122,
      "loss": 1.6084,
      "step": 45705
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5008692145347595,
      "learning_rate": 0.00029351496688363195,
      "loss": 1.5854,
      "step": 45706
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46514222025871277,
      "learning_rate": 0.0002935045172134236,
      "loss": 1.5872,
      "step": 45707
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49625903367996216,
      "learning_rate": 0.0002934940675510999,
      "loss": 1.7323,
      "step": 45708
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48637598752975464,
      "learning_rate": 0.0002934836178966733,
      "loss": 1.5251,
      "step": 45709
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49564144015312195,
      "learning_rate": 0.00029347316825015663,
      "loss": 1.6325,
      "step": 45710
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4823739230632782,
      "learning_rate": 0.00029346271861156276,
      "loss": 1.5856,
      "step": 45711
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47553306818008423,
      "learning_rate": 0.000293452268980904,
      "loss": 1.5742,
      "step": 45712
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5058260560035706,
      "learning_rate": 0.00029344181935819324,
      "loss": 1.6911,
      "step": 45713
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48556235432624817,
      "learning_rate": 0.00029343136974344325,
      "loss": 1.5624,
      "step": 45714
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47033488750457764,
      "learning_rate": 0.00029342092013666653,
      "loss": 1.6401,
      "step": 45715
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4803731143474579,
      "learning_rate": 0.00029341047053787583,
      "loss": 1.7344,
      "step": 45716
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46841785311698914,
      "learning_rate": 0.0002934000209470838,
      "loss": 1.607,
      "step": 45717
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4984365403652191,
      "learning_rate": 0.0002933895713643034,
      "loss": 1.5648,
      "step": 45718
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48766350746154785,
      "learning_rate": 0.00029337912178954684,
      "loss": 1.5403,
      "step": 45719
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4799373149871826,
      "learning_rate": 0.0002933686722228271,
      "loss": 1.5805,
      "step": 45720
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48212486505508423,
      "learning_rate": 0.00029335822266415693,
      "loss": 1.6356,
      "step": 45721
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48271822929382324,
      "learning_rate": 0.00029334777311354883,
      "loss": 1.696,
      "step": 45722
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5037477016448975,
      "learning_rate": 0.00029333732357101554,
      "loss": 1.6403,
      "step": 45723
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4872642159461975,
      "learning_rate": 0.0002933268740365698,
      "loss": 1.6301,
      "step": 45724
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47694915533065796,
      "learning_rate": 0.00029331642451022424,
      "loss": 1.5376,
      "step": 45725
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48451563715934753,
      "learning_rate": 0.00029330597499199144,
      "loss": 1.5761,
      "step": 45726
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4866769313812256,
      "learning_rate": 0.0002932955254818843,
      "loss": 1.628,
      "step": 45727
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48259925842285156,
      "learning_rate": 0.00029328507597991546,
      "loss": 1.617,
      "step": 45728
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48031678795814514,
      "learning_rate": 0.0002932746264860974,
      "loss": 1.5481,
      "step": 45729
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48539403080940247,
      "learning_rate": 0.00029326417700044306,
      "loss": 1.6599,
      "step": 45730
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4699036180973053,
      "learning_rate": 0.0002932537275229651,
      "loss": 1.5948,
      "step": 45731
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48821112513542175,
      "learning_rate": 0.000293243278053676,
      "loss": 1.5919,
      "step": 45732
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4795573055744171,
      "learning_rate": 0.00029323282859258846,
      "loss": 1.6069,
      "step": 45733
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4718329906463623,
      "learning_rate": 0.00029322237913971555,
      "loss": 1.6829,
      "step": 45734
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.480459600687027,
      "learning_rate": 0.00029321192969506945,
      "loss": 1.6364,
      "step": 45735
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4803844690322876,
      "learning_rate": 0.0002932014802586631,
      "loss": 1.614,
      "step": 45736
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4815096855163574,
      "learning_rate": 0.0002931910308305092,
      "loss": 1.6195,
      "step": 45737
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49956783652305603,
      "learning_rate": 0.0002931805814106204,
      "loss": 1.6027,
      "step": 45738
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4685838520526886,
      "learning_rate": 0.0002931701319990093,
      "loss": 1.6416,
      "step": 45739
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49420365691185,
      "learning_rate": 0.0002931596825956886,
      "loss": 1.6151,
      "step": 45740
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4779324531555176,
      "learning_rate": 0.0002931492332006713,
      "loss": 1.5637,
      "step": 45741
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4786117672920227,
      "learning_rate": 0.00029313878381396954,
      "loss": 1.5882,
      "step": 45742
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4971095025539398,
      "learning_rate": 0.0002931283344355964,
      "loss": 1.6215,
      "step": 45743
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47451841831207275,
      "learning_rate": 0.00029311788506556453,
      "loss": 1.5209,
      "step": 45744
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4790463149547577,
      "learning_rate": 0.0002931074357038864,
      "loss": 1.56,
      "step": 45745
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4909270405769348,
      "learning_rate": 0.00029309698635057485,
      "loss": 1.64,
      "step": 45746
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4886368215084076,
      "learning_rate": 0.00029308653700564256,
      "loss": 1.575,
      "step": 45747
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4929664134979248,
      "learning_rate": 0.0002930760876691023,
      "loss": 1.6277,
      "step": 45748
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5049899220466614,
      "learning_rate": 0.00029306563834096647,
      "loss": 1.5097,
      "step": 45749
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5002415180206299,
      "learning_rate": 0.000293055189021248,
      "loss": 1.6492,
      "step": 45750
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49040326476097107,
      "learning_rate": 0.0002930447397099595,
      "loss": 1.6197,
      "step": 45751
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4884403347969055,
      "learning_rate": 0.00029303429040711373,
      "loss": 1.5627,
      "step": 45752
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49558544158935547,
      "learning_rate": 0.00029302384111272326,
      "loss": 1.5905,
      "step": 45753
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4976607859134674,
      "learning_rate": 0.0002930133918268007,
      "loss": 1.601,
      "step": 45754
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4944147765636444,
      "learning_rate": 0.00029300294254935914,
      "loss": 1.6122,
      "step": 45755
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4903792142868042,
      "learning_rate": 0.0002929924932804107,
      "loss": 1.5753,
      "step": 45756
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4868829846382141,
      "learning_rate": 0.00029298204401996845,
      "loss": 1.6304,
      "step": 45757
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49635517597198486,
      "learning_rate": 0.00029297159476804503,
      "loss": 1.635,
      "step": 45758
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4856746196746826,
      "learning_rate": 0.000292961145524653,
      "loss": 1.6249,
      "step": 45759
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5036465525627136,
      "learning_rate": 0.00029295069628980505,
      "loss": 1.6526,
      "step": 45760
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4891497790813446,
      "learning_rate": 0.000292940247063514,
      "loss": 1.523,
      "step": 45761
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47277212142944336,
      "learning_rate": 0.0002929297978457924,
      "loss": 1.5451,
      "step": 45762
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5077073574066162,
      "learning_rate": 0.0002929193486366529,
      "loss": 1.5834,
      "step": 45763
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48561760783195496,
      "learning_rate": 0.0002929088994361084,
      "loss": 1.5665,
      "step": 45764
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48613834381103516,
      "learning_rate": 0.00029289845024417147,
      "loss": 1.6206,
      "step": 45765
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48473429679870605,
      "learning_rate": 0.0002928880010608547,
      "loss": 1.5827,
      "step": 45766
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4864630699157715,
      "learning_rate": 0.00029287755188617086,
      "loss": 1.6664,
      "step": 45767
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4780450761318207,
      "learning_rate": 0.0002928671027201327,
      "loss": 1.5511,
      "step": 45768
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48475655913352966,
      "learning_rate": 0.0002928566535627527,
      "loss": 1.5574,
      "step": 45769
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4894162714481354,
      "learning_rate": 0.00029284620441404367,
      "loss": 1.6163,
      "step": 45770
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48122087121009827,
      "learning_rate": 0.0002928357552740184,
      "loss": 1.6049,
      "step": 45771
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4922638535499573,
      "learning_rate": 0.0002928253061426894,
      "loss": 1.5449,
      "step": 45772
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5022799372673035,
      "learning_rate": 0.00029281485702006946,
      "loss": 1.5931,
      "step": 45773
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4707976281642914,
      "learning_rate": 0.00029280440790617116,
      "loss": 1.5695,
      "step": 45774
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.494571715593338,
      "learning_rate": 0.00029279395880100735,
      "loss": 1.6172,
      "step": 45775
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4842924177646637,
      "learning_rate": 0.0002927835097045905,
      "loss": 1.5815,
      "step": 45776
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4826931953430176,
      "learning_rate": 0.00029277306061693337,
      "loss": 1.6075,
      "step": 45777
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4922245740890503,
      "learning_rate": 0.00029276261153804884,
      "loss": 1.6681,
      "step": 45778
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5022801756858826,
      "learning_rate": 0.0002927521624679494,
      "loss": 1.5182,
      "step": 45779
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48185497522354126,
      "learning_rate": 0.00029274171340664773,
      "loss": 1.5842,
      "step": 45780
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4941837191581726,
      "learning_rate": 0.0002927312643541566,
      "loss": 1.5584,
      "step": 45781
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4951179027557373,
      "learning_rate": 0.00029272081531048856,
      "loss": 1.6151,
      "step": 45782
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4869212508201599,
      "learning_rate": 0.0002927103662756564,
      "loss": 1.602,
      "step": 45783
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5135272145271301,
      "learning_rate": 0.0002926999172496727,
      "loss": 1.6263,
      "step": 45784
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5070553421974182,
      "learning_rate": 0.0002926894682325504,
      "loss": 1.5782,
      "step": 45785
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49150893092155457,
      "learning_rate": 0.0002926790192243019,
      "loss": 1.5761,
      "step": 45786
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4841882586479187,
      "learning_rate": 0.00029266857022494,
      "loss": 1.5524,
      "step": 45787
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.502663254737854,
      "learning_rate": 0.00029265812123447743,
      "loss": 1.6001,
      "step": 45788
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49322450160980225,
      "learning_rate": 0.00029264767225292677,
      "loss": 1.5514,
      "step": 45789
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47932204604148865,
      "learning_rate": 0.00029263722328030066,
      "loss": 1.6369,
      "step": 45790
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4904322028160095,
      "learning_rate": 0.00029262677431661217,
      "loss": 1.6027,
      "step": 45791
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47869783639907837,
      "learning_rate": 0.0002926163253618734,
      "loss": 1.6069,
      "step": 45792
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48580482602119446,
      "learning_rate": 0.0002926058764160974,
      "loss": 1.6486,
      "step": 45793
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47316911816596985,
      "learning_rate": 0.0002925954274792968,
      "loss": 1.6376,
      "step": 45794
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4937649369239807,
      "learning_rate": 0.0002925849785514843,
      "loss": 1.6143,
      "step": 45795
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5149198770523071,
      "learning_rate": 0.0002925745296326725,
      "loss": 1.5543,
      "step": 45796
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47279253602027893,
      "learning_rate": 0.00029256408072287406,
      "loss": 1.5434,
      "step": 45797
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4670558273792267,
      "learning_rate": 0.00029255363182210194,
      "loss": 1.5178,
      "step": 45798
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.501499354839325,
      "learning_rate": 0.00029254318293036837,
      "loss": 1.6338,
      "step": 45799
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49865075945854187,
      "learning_rate": 0.0002925327340476864,
      "loss": 1.6084,
      "step": 45800
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48431625962257385,
      "learning_rate": 0.0002925222851740686,
      "loss": 1.6116,
      "step": 45801
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.6031833291053772,
      "learning_rate": 0.0002925118363095276,
      "loss": 1.6232,
      "step": 45802
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4821489751338959,
      "learning_rate": 0.0002925013874540761,
      "loss": 1.5579,
      "step": 45803
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48881611227989197,
      "learning_rate": 0.0002924909386077268,
      "loss": 1.6899,
      "step": 45804
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5149256587028503,
      "learning_rate": 0.00029248048977049257,
      "loss": 1.6928,
      "step": 45805
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5087856650352478,
      "learning_rate": 0.00029247004094238574,
      "loss": 1.622,
      "step": 45806
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4829609990119934,
      "learning_rate": 0.0002924595921234192,
      "loss": 1.6399,
      "step": 45807
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4874889850616455,
      "learning_rate": 0.0002924491433136057,
      "loss": 1.6836,
      "step": 45808
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48145124316215515,
      "learning_rate": 0.00029243869451295773,
      "loss": 1.5823,
      "step": 45809
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48653125762939453,
      "learning_rate": 0.0002924282457214881,
      "loss": 1.5944,
      "step": 45810
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4857892394065857,
      "learning_rate": 0.0002924177969392095,
      "loss": 1.6244,
      "step": 45811
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.46788492798805237,
      "learning_rate": 0.00029240734816613455,
      "loss": 1.5173,
      "step": 45812
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49236467480659485,
      "learning_rate": 0.00029239689940227585,
      "loss": 1.5949,
      "step": 45813
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4980400502681732,
      "learning_rate": 0.00029238645064764626,
      "loss": 1.5804,
      "step": 45814
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4755803048610687,
      "learning_rate": 0.0002923760019022585,
      "loss": 1.5654,
      "step": 45815
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4860900342464447,
      "learning_rate": 0.0002923655531661251,
      "loss": 1.6195,
      "step": 45816
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4936542510986328,
      "learning_rate": 0.0002923551044392588,
      "loss": 1.534,
      "step": 45817
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4938533306121826,
      "learning_rate": 0.00029234465572167226,
      "loss": 1.55,
      "step": 45818
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.485095739364624,
      "learning_rate": 0.00029233420701337817,
      "loss": 1.5911,
      "step": 45819
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5027865767478943,
      "learning_rate": 0.00029232375831438913,
      "loss": 1.642,
      "step": 45820
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5000626444816589,
      "learning_rate": 0.00029231330962471816,
      "loss": 1.5708,
      "step": 45821
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47946488857269287,
      "learning_rate": 0.00029230286094437746,
      "loss": 1.6064,
      "step": 45822
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5024616718292236,
      "learning_rate": 0.00029229241227338,
      "loss": 1.579,
      "step": 45823
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4758151173591614,
      "learning_rate": 0.0002922819636117385,
      "loss": 1.6403,
      "step": 45824
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.47971111536026,
      "learning_rate": 0.00029227151495946557,
      "loss": 1.5963,
      "step": 45825
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49168816208839417,
      "learning_rate": 0.0002922610663165738,
      "loss": 1.6383,
      "step": 45826
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5090548396110535,
      "learning_rate": 0.00029225061768307594,
      "loss": 1.6086,
      "step": 45827
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.489056795835495,
      "learning_rate": 0.00029224016905898484,
      "loss": 1.5729,
      "step": 45828
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48862209916114807,
      "learning_rate": 0.00029222972044431285,
      "loss": 1.6378,
      "step": 45829
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49351099133491516,
      "learning_rate": 0.00029221927183907293,
      "loss": 1.6037,
      "step": 45830
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.49963295459747314,
      "learning_rate": 0.00029220882324327766,
      "loss": 1.5848,
      "step": 45831
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5019657611846924,
      "learning_rate": 0.0002921983746569397,
      "loss": 1.5643,
      "step": 45832
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.48080235719680786,
      "learning_rate": 0.0002921879260800718,
      "loss": 1.6073,
      "step": 45833
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4924677908420563,
      "learning_rate": 0.00029217747751268653,
      "loss": 1.6024,
      "step": 45834
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.5045455694198608,
      "learning_rate": 0.0002921670289547968,
      "loss": 1.596,
      "step": 45835
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4755481779575348,
      "learning_rate": 0.000292156580406415,
      "loss": 1.6165,
      "step": 45836
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49291977286338806,
      "learning_rate": 0.00029214613186755395,
      "loss": 1.649,
      "step": 45837
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4842308759689331,
      "learning_rate": 0.00029213568333822645,
      "loss": 1.6108,
      "step": 45838
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4964885413646698,
      "learning_rate": 0.00029212523481844503,
      "loss": 1.6208,
      "step": 45839
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48455575108528137,
      "learning_rate": 0.0002921147863082224,
      "loss": 1.6046,
      "step": 45840
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48432624340057373,
      "learning_rate": 0.0002921043378075713,
      "loss": 1.6763,
      "step": 45841
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4808693826198578,
      "learning_rate": 0.00029209388931650433,
      "loss": 1.5939,
      "step": 45842
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5136122107505798,
      "learning_rate": 0.00029208344083503417,
      "loss": 1.6455,
      "step": 45843
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4836624264717102,
      "learning_rate": 0.0002920729923631735,
      "loss": 1.5881,
      "step": 45844
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49962317943573,
      "learning_rate": 0.00029206254390093525,
      "loss": 1.5955,
      "step": 45845
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49118849635124207,
      "learning_rate": 0.00029205209544833175,
      "loss": 1.5721,
      "step": 45846
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4838319420814514,
      "learning_rate": 0.00029204164700537586,
      "loss": 1.6498,
      "step": 45847
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5170142650604248,
      "learning_rate": 0.0002920311985720803,
      "loss": 1.6674,
      "step": 45848
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47788432240486145,
      "learning_rate": 0.00029202075014845766,
      "loss": 1.6011,
      "step": 45849
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4826613664627075,
      "learning_rate": 0.00029201030173452055,
      "loss": 1.6136,
      "step": 45850
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47626248002052307,
      "learning_rate": 0.00029199985333028196,
      "loss": 1.6398,
      "step": 45851
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5007529854774475,
      "learning_rate": 0.00029198940493575424,
      "loss": 1.6899,
      "step": 45852
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5034927129745483,
      "learning_rate": 0.0002919789565509502,
      "loss": 1.6097,
      "step": 45853
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49021467566490173,
      "learning_rate": 0.0002919685081758825,
      "loss": 1.6456,
      "step": 45854
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4892074465751648,
      "learning_rate": 0.00029195805981056393,
      "loss": 1.5418,
      "step": 45855
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4859215319156647,
      "learning_rate": 0.00029194761145500704,
      "loss": 1.591,
      "step": 45856
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4834093749523163,
      "learning_rate": 0.0002919371631092245,
      "loss": 1.6907,
      "step": 45857
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4796783924102783,
      "learning_rate": 0.00029192671477322923,
      "loss": 1.6287,
      "step": 45858
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4825741946697235,
      "learning_rate": 0.0002919162664470336,
      "loss": 1.6484,
      "step": 45859
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49971890449523926,
      "learning_rate": 0.0002919058181306505,
      "loss": 1.5666,
      "step": 45860
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4861525297164917,
      "learning_rate": 0.00029189536982409254,
      "loss": 1.5814,
      "step": 45861
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4859558045864105,
      "learning_rate": 0.0002918849215273723,
      "loss": 1.5879,
      "step": 45862
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4986925423145294,
      "learning_rate": 0.0002918744732405027,
      "loss": 1.5721,
      "step": 45863
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5060160160064697,
      "learning_rate": 0.00029186402496349614,
      "loss": 1.6258,
      "step": 45864
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4875686466693878,
      "learning_rate": 0.0002918535766963657,
      "loss": 1.5402,
      "step": 45865
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4824684262275696,
      "learning_rate": 0.00029184312843912356,
      "loss": 1.5676,
      "step": 45866
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5237812399864197,
      "learning_rate": 0.0002918326801917828,
      "loss": 1.5884,
      "step": 45867
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5193638801574707,
      "learning_rate": 0.00029182223195435596,
      "loss": 1.5201,
      "step": 45868
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5141698122024536,
      "learning_rate": 0.0002918117837268557,
      "loss": 1.6022,
      "step": 45869
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.499404639005661,
      "learning_rate": 0.0002918013355092947,
      "loss": 1.7148,
      "step": 45870
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.472971111536026,
      "learning_rate": 0.0002917908873016858,
      "loss": 1.6144,
      "step": 45871
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5035399794578552,
      "learning_rate": 0.00029178043910404143,
      "loss": 1.6071,
      "step": 45872
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5172485113143921,
      "learning_rate": 0.00029176999091637434,
      "loss": 1.6723,
      "step": 45873
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5101988911628723,
      "learning_rate": 0.00029175954273869735,
      "loss": 1.6366,
      "step": 45874
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4911738634109497,
      "learning_rate": 0.0002917490945710231,
      "loss": 1.6598,
      "step": 45875
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5004879236221313,
      "learning_rate": 0.0002917386464133642,
      "loss": 1.6076,
      "step": 45876
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5609447360038757,
      "learning_rate": 0.00029172819826573336,
      "loss": 1.5338,
      "step": 45877
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49130779504776,
      "learning_rate": 0.0002917177501281433,
      "loss": 1.5664,
      "step": 45878
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4815486967563629,
      "learning_rate": 0.00029170730200060664,
      "loss": 1.5916,
      "step": 45879
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5167396664619446,
      "learning_rate": 0.000291696853883136,
      "loss": 1.5218,
      "step": 45880
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4854808449745178,
      "learning_rate": 0.00029168640577574426,
      "loss": 1.5933,
      "step": 45881
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5455310344696045,
      "learning_rate": 0.00029167595767844406,
      "loss": 1.6098,
      "step": 45882
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5206605792045593,
      "learning_rate": 0.00029166550959124787,
      "loss": 1.6529,
      "step": 45883
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4862464964389801,
      "learning_rate": 0.00029165506151416864,
      "loss": 1.6199,
      "step": 45884
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4974300265312195,
      "learning_rate": 0.00029164461344721894,
      "loss": 1.5766,
      "step": 45885
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4756825864315033,
      "learning_rate": 0.0002916341653904114,
      "loss": 1.5971,
      "step": 45886
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4835830330848694,
      "learning_rate": 0.0002916237173437587,
      "loss": 1.6943,
      "step": 45887
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5045281052589417,
      "learning_rate": 0.00029161326930727367,
      "loss": 1.5637,
      "step": 45888
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5055488348007202,
      "learning_rate": 0.0002916028212809688,
      "loss": 1.5718,
      "step": 45889
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4985305666923523,
      "learning_rate": 0.0002915923732648569,
      "loss": 1.6324,
      "step": 45890
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5058385729789734,
      "learning_rate": 0.0002915819252589507,
      "loss": 1.5748,
      "step": 45891
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.502848744392395,
      "learning_rate": 0.00029157147726326273,
      "loss": 1.5914,
      "step": 45892
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5090609192848206,
      "learning_rate": 0.0002915610292778058,
      "loss": 1.5948,
      "step": 45893
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4914195239543915,
      "learning_rate": 0.0002915505813025924,
      "loss": 1.5786,
      "step": 45894
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4870782196521759,
      "learning_rate": 0.0002915401333376355,
      "loss": 1.6551,
      "step": 45895
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47620314359664917,
      "learning_rate": 0.00029152968538294756,
      "loss": 1.5801,
      "step": 45896
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4821109473705292,
      "learning_rate": 0.0002915192374385414,
      "loss": 1.622,
      "step": 45897
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5017786622047424,
      "learning_rate": 0.0002915087895044296,
      "loss": 1.6333,
      "step": 45898
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5186077952384949,
      "learning_rate": 0.00029149834158062485,
      "loss": 1.561,
      "step": 45899
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5118494629859924,
      "learning_rate": 0.00029148789366713985,
      "loss": 1.6056,
      "step": 45900
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4887840151786804,
      "learning_rate": 0.00029147744576398725,
      "loss": 1.612,
      "step": 45901
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4919484257698059,
      "learning_rate": 0.0002914669978711799,
      "loss": 1.5663,
      "step": 45902
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4980011284351349,
      "learning_rate": 0.0002914565499887303,
      "loss": 1.574,
      "step": 45903
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.506700873374939,
      "learning_rate": 0.0002914461021166512,
      "loss": 1.5967,
      "step": 45904
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4734562039375305,
      "learning_rate": 0.0002914356542549553,
      "loss": 1.6481,
      "step": 45905
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5006275773048401,
      "learning_rate": 0.0002914252064036552,
      "loss": 1.6326,
      "step": 45906
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4864638149738312,
      "learning_rate": 0.0002914147585627636,
      "loss": 1.6043,
      "step": 45907
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.489227831363678,
      "learning_rate": 0.0002914043107322934,
      "loss": 1.6193,
      "step": 45908
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4839937388896942,
      "learning_rate": 0.0002913938629122569,
      "loss": 1.6283,
      "step": 45909
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46817880868911743,
      "learning_rate": 0.000291383415102667,
      "loss": 1.5588,
      "step": 45910
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49418073892593384,
      "learning_rate": 0.0002913729673035364,
      "loss": 1.6202,
      "step": 45911
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49226152896881104,
      "learning_rate": 0.0002913625195148778,
      "loss": 1.632,
      "step": 45912
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5073001384735107,
      "learning_rate": 0.0002913520717367038,
      "loss": 1.628,
      "step": 45913
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48884034156799316,
      "learning_rate": 0.00029134162396902703,
      "loss": 1.5498,
      "step": 45914
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5050044655799866,
      "learning_rate": 0.00029133117621186046,
      "loss": 1.6143,
      "step": 45915
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4784313440322876,
      "learning_rate": 0.00029132072846521634,
      "loss": 1.6594,
      "step": 45916
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4830702245235443,
      "learning_rate": 0.0002913102807291077,
      "loss": 1.611,
      "step": 45917
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5067147612571716,
      "learning_rate": 0.0002912998330035471,
      "loss": 1.5963,
      "step": 45918
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46793681383132935,
      "learning_rate": 0.0002912893852885472,
      "loss": 1.6308,
      "step": 45919
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4820687472820282,
      "learning_rate": 0.00029127893758412065,
      "loss": 1.5096,
      "step": 45920
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49368155002593994,
      "learning_rate": 0.0002912684898902801,
      "loss": 1.6801,
      "step": 45921
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5112805366516113,
      "learning_rate": 0.0002912580422070386,
      "loss": 1.5965,
      "step": 45922
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49172449111938477,
      "learning_rate": 0.0002912475945344083,
      "loss": 1.5629,
      "step": 45923
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4861985146999359,
      "learning_rate": 0.0002912371468724022,
      "loss": 1.6519,
      "step": 45924
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48561766743659973,
      "learning_rate": 0.000291226699221033,
      "loss": 1.6027,
      "step": 45925
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.491260826587677,
      "learning_rate": 0.00029121625158031323,
      "loss": 1.5936,
      "step": 45926
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4810589849948883,
      "learning_rate": 0.0002912058039502556,
      "loss": 1.6041,
      "step": 45927
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5595538020133972,
      "learning_rate": 0.00029119535633087296,
      "loss": 1.5902,
      "step": 45928
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4956709146499634,
      "learning_rate": 0.00029118490872217774,
      "loss": 1.6429,
      "step": 45929
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4860287308692932,
      "learning_rate": 0.0002911744611241827,
      "loss": 1.6162,
      "step": 45930
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4930315613746643,
      "learning_rate": 0.0002911640135369006,
      "loss": 1.5799,
      "step": 45931
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48698389530181885,
      "learning_rate": 0.0002911535659603442,
      "loss": 1.635,
      "step": 45932
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.488102525472641,
      "learning_rate": 0.00029114311839452595,
      "loss": 1.5917,
      "step": 45933
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46903079748153687,
      "learning_rate": 0.0002911326708394587,
      "loss": 1.5509,
      "step": 45934
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48500630259513855,
      "learning_rate": 0.00029112222329515504,
      "loss": 1.6313,
      "step": 45935
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48615318536758423,
      "learning_rate": 0.00029111177576162777,
      "loss": 1.6137,
      "step": 45936
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48493173718452454,
      "learning_rate": 0.00029110132823888935,
      "loss": 1.6069,
      "step": 45937
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47317084670066833,
      "learning_rate": 0.0002910908807269528,
      "loss": 1.5863,
      "step": 45938
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46839088201522827,
      "learning_rate": 0.0002910804332258304,
      "loss": 1.6163,
      "step": 45939
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4739680886268616,
      "learning_rate": 0.00029106998573553516,
      "loss": 1.6278,
      "step": 45940
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49059322476387024,
      "learning_rate": 0.0002910595382560796,
      "loss": 1.5658,
      "step": 45941
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4835507869720459,
      "learning_rate": 0.00029104909078747653,
      "loss": 1.6087,
      "step": 45942
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47326773405075073,
      "learning_rate": 0.0002910386433297385,
      "loss": 1.5893,
      "step": 45943
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4714212417602539,
      "learning_rate": 0.00029102819588287815,
      "loss": 1.6174,
      "step": 45944
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4926169216632843,
      "learning_rate": 0.0002910177484469084,
      "loss": 1.5914,
      "step": 45945
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4895818829536438,
      "learning_rate": 0.00029100730102184165,
      "loss": 1.5501,
      "step": 45946
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49177590012550354,
      "learning_rate": 0.00029099685360769073,
      "loss": 1.617,
      "step": 45947
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4723092019557953,
      "learning_rate": 0.0002909864062044684,
      "loss": 1.6101,
      "step": 45948
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48470339179039,
      "learning_rate": 0.00029097595881218716,
      "loss": 1.5046,
      "step": 45949
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47287797927856445,
      "learning_rate": 0.0002909655114308598,
      "loss": 1.6114,
      "step": 45950
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4910993278026581,
      "learning_rate": 0.0002909550640604989,
      "loss": 1.6256,
      "step": 45951
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47283414006233215,
      "learning_rate": 0.00029094461670111743,
      "loss": 1.611,
      "step": 45952
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5816713571548462,
      "learning_rate": 0.0002909341693527276,
      "loss": 1.6096,
      "step": 45953
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4763399064540863,
      "learning_rate": 0.0002909237220153425,
      "loss": 1.617,
      "step": 45954
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48200470209121704,
      "learning_rate": 0.00029091327468897465,
      "loss": 1.5906,
      "step": 45955
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48206856846809387,
      "learning_rate": 0.0002909028273736368,
      "loss": 1.6363,
      "step": 45956
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47711238265037537,
      "learning_rate": 0.00029089238006934146,
      "loss": 1.649,
      "step": 45957
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4775424003601074,
      "learning_rate": 0.0002908819327761015,
      "loss": 1.6225,
      "step": 45958
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5030360221862793,
      "learning_rate": 0.0002908714854939295,
      "loss": 1.5813,
      "step": 45959
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49099811911582947,
      "learning_rate": 0.0002908610382228381,
      "loss": 1.5977,
      "step": 45960
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5008443593978882,
      "learning_rate": 0.00029085059096284013,
      "loss": 1.5417,
      "step": 45961
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4629911184310913,
      "learning_rate": 0.0002908401437139483,
      "loss": 1.6657,
      "step": 45962
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5004575252532959,
      "learning_rate": 0.00029082969647617506,
      "loss": 1.6029,
      "step": 45963
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5186240673065186,
      "learning_rate": 0.0002908192492495332,
      "loss": 1.628,
      "step": 45964
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4822600483894348,
      "learning_rate": 0.0002908088020340356,
      "loss": 1.6135,
      "step": 45965
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48988547921180725,
      "learning_rate": 0.0002907983548296946,
      "loss": 1.6138,
      "step": 45966
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4915827214717865,
      "learning_rate": 0.00029078790763652294,
      "loss": 1.5726,
      "step": 45967
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5070225596427917,
      "learning_rate": 0.00029077746045453364,
      "loss": 1.5855,
      "step": 45968
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49843817949295044,
      "learning_rate": 0.00029076701328373895,
      "loss": 1.6334,
      "step": 45969
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4926745593547821,
      "learning_rate": 0.0002907565661241518,
      "loss": 1.6145,
      "step": 45970
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5078421235084534,
      "learning_rate": 0.0002907461189757849,
      "loss": 1.5423,
      "step": 45971
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4881783723831177,
      "learning_rate": 0.0002907356718386508,
      "loss": 1.6121,
      "step": 45972
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4801313579082489,
      "learning_rate": 0.0002907252247127622,
      "loss": 1.6974,
      "step": 45973
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49473536014556885,
      "learning_rate": 0.0002907147775981318,
      "loss": 1.6348,
      "step": 45974
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.491826593875885,
      "learning_rate": 0.0002907043304947724,
      "loss": 1.5079,
      "step": 45975
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5182608366012573,
      "learning_rate": 0.00029069388340269644,
      "loss": 1.6496,
      "step": 45976
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47612515091896057,
      "learning_rate": 0.00029068343632191677,
      "loss": 1.6925,
      "step": 45977
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48571857810020447,
      "learning_rate": 0.0002906729892524461,
      "loss": 1.595,
      "step": 45978
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5028945207595825,
      "learning_rate": 0.000290662542194297,
      "loss": 1.6889,
      "step": 45979
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4812541604042053,
      "learning_rate": 0.0002906520951474822,
      "loss": 1.5621,
      "step": 45980
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.6758935451507568,
      "learning_rate": 0.0002906416481120143,
      "loss": 1.6443,
      "step": 45981
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4911523461341858,
      "learning_rate": 0.00029063120108790627,
      "loss": 1.6479,
      "step": 45982
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4982026517391205,
      "learning_rate": 0.00029062075407517037,
      "loss": 1.6132,
      "step": 45983
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48181819915771484,
      "learning_rate": 0.00029061030707381956,
      "loss": 1.63,
      "step": 45984
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49920934438705444,
      "learning_rate": 0.00029059986008386654,
      "loss": 1.6251,
      "step": 45985
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4841136038303375,
      "learning_rate": 0.00029058941310532377,
      "loss": 1.6577,
      "step": 45986
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5032626390457153,
      "learning_rate": 0.00029057896613820416,
      "loss": 1.5882,
      "step": 45987
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5002977848052979,
      "learning_rate": 0.0002905685191825203,
      "loss": 1.5805,
      "step": 45988
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48774704337120056,
      "learning_rate": 0.0002905580722382848,
      "loss": 1.6115,
      "step": 45989
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49666664004325867,
      "learning_rate": 0.0002905476253055104,
      "loss": 1.6121,
      "step": 45990
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47105035185813904,
      "learning_rate": 0.0002905371783842098,
      "loss": 1.5747,
      "step": 45991
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5077934861183167,
      "learning_rate": 0.0002905267314743958,
      "loss": 1.6197,
      "step": 45992
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5013365149497986,
      "learning_rate": 0.00029051628457608085,
      "loss": 1.5403,
      "step": 45993
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5221445560455322,
      "learning_rate": 0.0002905058376892777,
      "loss": 1.6341,
      "step": 45994
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5022838115692139,
      "learning_rate": 0.00029049539081399915,
      "loss": 1.6748,
      "step": 45995
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5146849751472473,
      "learning_rate": 0.00029048494395025773,
      "loss": 1.7389,
      "step": 45996
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47251322865486145,
      "learning_rate": 0.00029047449709806614,
      "loss": 1.5947,
      "step": 45997
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5015929341316223,
      "learning_rate": 0.00029046405025743714,
      "loss": 1.5458,
      "step": 45998
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.50888592004776,
      "learning_rate": 0.00029045360342838347,
      "loss": 1.6276,
      "step": 45999
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47130268812179565,
      "learning_rate": 0.0002904431566109177,
      "loss": 1.6173,
      "step": 46000
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.500355064868927,
      "learning_rate": 0.00029043270980505244,
      "loss": 1.5297,
      "step": 46001
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.490457683801651,
      "learning_rate": 0.00029042226301080056,
      "loss": 1.5697,
      "step": 46002
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49067267775535583,
      "learning_rate": 0.0002904118162281746,
      "loss": 1.5395,
      "step": 46003
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4872579276561737,
      "learning_rate": 0.0002904013694571872,
      "loss": 1.6336,
      "step": 46004
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4935581088066101,
      "learning_rate": 0.00029039092269785125,
      "loss": 1.6075,
      "step": 46005
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4753209054470062,
      "learning_rate": 0.00029038047595017925,
      "loss": 1.5962,
      "step": 46006
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4720073938369751,
      "learning_rate": 0.0002903700292141839,
      "loss": 1.5916,
      "step": 46007
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.503861665725708,
      "learning_rate": 0.0002903595824898779,
      "loss": 1.6475,
      "step": 46008
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4864956736564636,
      "learning_rate": 0.0002903491357772741,
      "loss": 1.6341,
      "step": 46009
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49680355191230774,
      "learning_rate": 0.0002903386890763849,
      "loss": 1.5778,
      "step": 46010
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4916100800037384,
      "learning_rate": 0.00029032824238722305,
      "loss": 1.657,
      "step": 46011
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46276938915252686,
      "learning_rate": 0.00029031779570980144,
      "loss": 1.5968,
      "step": 46012
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5013723373413086,
      "learning_rate": 0.00029030734904413253,
      "loss": 1.6106,
      "step": 46013
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48993170261383057,
      "learning_rate": 0.000290296902390229,
      "loss": 1.6608,
      "step": 46014
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5150460600852966,
      "learning_rate": 0.00029028645574810376,
      "loss": 1.5913,
      "step": 46015
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4911484718322754,
      "learning_rate": 0.0002902760091177692,
      "loss": 1.5926,
      "step": 46016
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46488314867019653,
      "learning_rate": 0.0002902655624992382,
      "loss": 1.6412,
      "step": 46017
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4882102608680725,
      "learning_rate": 0.0002902551158925233,
      "loss": 1.6355,
      "step": 46018
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4950234293937683,
      "learning_rate": 0.0002902446692976373,
      "loss": 1.494,
      "step": 46019
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5075604319572449,
      "learning_rate": 0.00029023422271459286,
      "loss": 1.6337,
      "step": 46020
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48529350757598877,
      "learning_rate": 0.0002902237761434026,
      "loss": 1.5402,
      "step": 46021
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5235921740531921,
      "learning_rate": 0.0002902133295840793,
      "loss": 1.6582,
      "step": 46022
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4879392683506012,
      "learning_rate": 0.0002902028830366355,
      "loss": 1.5484,
      "step": 46023
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4992051422595978,
      "learning_rate": 0.00029019243650108386,
      "loss": 1.5666,
      "step": 46024
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4809533357620239,
      "learning_rate": 0.0002901819899774374,
      "loss": 1.6273,
      "step": 46025
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46843230724334717,
      "learning_rate": 0.0002901715434657084,
      "loss": 1.5913,
      "step": 46026
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4936886429786682,
      "learning_rate": 0.0002901610969659097,
      "loss": 1.5717,
      "step": 46027
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48741912841796875,
      "learning_rate": 0.000290150650478054,
      "loss": 1.5785,
      "step": 46028
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48515835404396057,
      "learning_rate": 0.000290140204002154,
      "loss": 1.5954,
      "step": 46029
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.475302129983902,
      "learning_rate": 0.0002901297575382223,
      "loss": 1.6926,
      "step": 46030
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46636784076690674,
      "learning_rate": 0.0002901193110862716,
      "loss": 1.6805,
      "step": 46031
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4999440014362335,
      "learning_rate": 0.00029010886464631475,
      "loss": 1.5811,
      "step": 46032
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.489259272813797,
      "learning_rate": 0.00029009841821836405,
      "loss": 1.6209,
      "step": 46033
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4853946566581726,
      "learning_rate": 0.0002900879718024325,
      "loss": 1.6314,
      "step": 46034
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49193403124809265,
      "learning_rate": 0.00029007752539853275,
      "loss": 1.6187,
      "step": 46035
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48923805356025696,
      "learning_rate": 0.00029006707900667737,
      "loss": 1.6221,
      "step": 46036
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5051699280738831,
      "learning_rate": 0.0002900566326268791,
      "loss": 1.6215,
      "step": 46037
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4863586723804474,
      "learning_rate": 0.0002900461862591506,
      "loss": 1.6695,
      "step": 46038
    },
    {
      "epoch": 1.53,
      "grad_norm": 1.6273319721221924,
      "learning_rate": 0.0002900357399035047,
      "loss": 1.6556,
      "step": 46039
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4964337646961212,
      "learning_rate": 0.0002900252935599537,
      "loss": 1.6196,
      "step": 46040
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4839651882648468,
      "learning_rate": 0.00029001484722851066,
      "loss": 1.6115,
      "step": 46041
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4999658465385437,
      "learning_rate": 0.00029000440090918813,
      "loss": 1.6082,
      "step": 46042
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5031313300132751,
      "learning_rate": 0.0002899939546019988,
      "loss": 1.5431,
      "step": 46043
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4992607831954956,
      "learning_rate": 0.0002899835083069553,
      "loss": 1.5904,
      "step": 46044
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4885462820529938,
      "learning_rate": 0.0002899730620240704,
      "loss": 1.5843,
      "step": 46045
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4708799719810486,
      "learning_rate": 0.00028996261575335667,
      "loss": 1.6118,
      "step": 46046
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5066450834274292,
      "learning_rate": 0.00028995216949482676,
      "loss": 1.6736,
      "step": 46047
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48787131905555725,
      "learning_rate": 0.00028994172324849353,
      "loss": 1.7014,
      "step": 46048
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4610210657119751,
      "learning_rate": 0.0002899312770143696,
      "loss": 1.6302,
      "step": 46049
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.8162249326705933,
      "learning_rate": 0.0002899208307924676,
      "loss": 1.6569,
      "step": 46050
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4891963303089142,
      "learning_rate": 0.00028991038458280017,
      "loss": 1.5321,
      "step": 46051
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4924074709415436,
      "learning_rate": 0.0002898999383853801,
      "loss": 1.6088,
      "step": 46052
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4942116439342499,
      "learning_rate": 0.00028988949220022,
      "loss": 1.563,
      "step": 46053
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4948282539844513,
      "learning_rate": 0.0002898790460273325,
      "loss": 1.5901,
      "step": 46054
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48301756381988525,
      "learning_rate": 0.00028986859986673054,
      "loss": 1.5784,
      "step": 46055
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.51055908203125,
      "learning_rate": 0.0002898581537184264,
      "loss": 1.6711,
      "step": 46056
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5046765208244324,
      "learning_rate": 0.000289847707582433,
      "loss": 1.6276,
      "step": 46057
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4872124195098877,
      "learning_rate": 0.00028983726145876304,
      "loss": 1.5327,
      "step": 46058
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48368456959724426,
      "learning_rate": 0.0002898268153474292,
      "loss": 1.6799,
      "step": 46059
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5150735378265381,
      "learning_rate": 0.00028981636924844403,
      "loss": 1.6293,
      "step": 46060
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49393409490585327,
      "learning_rate": 0.00028980592316182023,
      "loss": 1.6601,
      "step": 46061
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4798179864883423,
      "learning_rate": 0.0002897954770875707,
      "loss": 1.6301,
      "step": 46062
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47076350450515747,
      "learning_rate": 0.0002897850310257078,
      "loss": 1.66,
      "step": 46063
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49333062767982483,
      "learning_rate": 0.00028977458497624444,
      "loss": 1.5908,
      "step": 46064
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5155743360519409,
      "learning_rate": 0.0002897641389391933,
      "loss": 1.7147,
      "step": 46065
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5000730156898499,
      "learning_rate": 0.0002897536929145669,
      "loss": 1.6192,
      "step": 46066
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4672386348247528,
      "learning_rate": 0.00028974324690237796,
      "loss": 1.5819,
      "step": 46067
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5075825452804565,
      "learning_rate": 0.0002897328009026392,
      "loss": 1.5981,
      "step": 46068
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5021158456802368,
      "learning_rate": 0.0002897223549153635,
      "loss": 1.6562,
      "step": 46069
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4734839200973511,
      "learning_rate": 0.0002897119089405631,
      "loss": 1.5743,
      "step": 46070
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49684634804725647,
      "learning_rate": 0.00028970146297825107,
      "loss": 1.5885,
      "step": 46071
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5103546380996704,
      "learning_rate": 0.00028969101702844,
      "loss": 1.6777,
      "step": 46072
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4875853955745697,
      "learning_rate": 0.00028968057109114237,
      "loss": 1.6652,
      "step": 46073
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.521901547908783,
      "learning_rate": 0.0002896701251663711,
      "loss": 1.5678,
      "step": 46074
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49955856800079346,
      "learning_rate": 0.00028965967925413883,
      "loss": 1.6338,
      "step": 46075
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48051896691322327,
      "learning_rate": 0.00028964923335445805,
      "loss": 1.5764,
      "step": 46076
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4879782795906067,
      "learning_rate": 0.00028963878746734155,
      "loss": 1.6458,
      "step": 46077
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4873587489128113,
      "learning_rate": 0.0002896283415928021,
      "loss": 1.5882,
      "step": 46078
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49095943570137024,
      "learning_rate": 0.0002896178957308524,
      "loss": 1.5206,
      "step": 46079
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4912831783294678,
      "learning_rate": 0.0002896074498815049,
      "loss": 1.5928,
      "step": 46080
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5019515156745911,
      "learning_rate": 0.00028959700404477255,
      "loss": 1.6577,
      "step": 46081
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48113784193992615,
      "learning_rate": 0.0002895865582206679,
      "loss": 1.6034,
      "step": 46082
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48627403378486633,
      "learning_rate": 0.0002895761124092036,
      "loss": 1.626,
      "step": 46083
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49295058846473694,
      "learning_rate": 0.0002895656666103923,
      "loss": 1.5697,
      "step": 46084
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47977715730667114,
      "learning_rate": 0.0002895552208242469,
      "loss": 1.5688,
      "step": 46085
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48425695300102234,
      "learning_rate": 0.0002895447750507797,
      "loss": 1.6227,
      "step": 46086
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5050196051597595,
      "learning_rate": 0.0002895343292900037,
      "loss": 1.5555,
      "step": 46087
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4843747615814209,
      "learning_rate": 0.00028952388354193154,
      "loss": 1.5663,
      "step": 46088
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5036900639533997,
      "learning_rate": 0.00028951343780657585,
      "loss": 1.6239,
      "step": 46089
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49298369884490967,
      "learning_rate": 0.00028950299208394925,
      "loss": 1.587,
      "step": 46090
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5179204940795898,
      "learning_rate": 0.0002894925463740644,
      "loss": 1.6205,
      "step": 46091
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5002642869949341,
      "learning_rate": 0.0002894821006769342,
      "loss": 1.5692,
      "step": 46092
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4936676621437073,
      "learning_rate": 0.00028947165499257105,
      "loss": 1.6178,
      "step": 46093
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4920010268688202,
      "learning_rate": 0.0002894612093209878,
      "loss": 1.6177,
      "step": 46094
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4898708462715149,
      "learning_rate": 0.0002894507636621972,
      "loss": 1.5539,
      "step": 46095
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4807697534561157,
      "learning_rate": 0.0002894403180162117,
      "loss": 1.4973,
      "step": 46096
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4835018515586853,
      "learning_rate": 0.0002894298723830441,
      "loss": 1.5241,
      "step": 46097
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48902246356010437,
      "learning_rate": 0.00028941942676270706,
      "loss": 1.5937,
      "step": 46098
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46648088097572327,
      "learning_rate": 0.0002894089811552134,
      "loss": 1.5699,
      "step": 46099
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4666489064693451,
      "learning_rate": 0.0002893985355605755,
      "loss": 1.5719,
      "step": 46100
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4646209478378296,
      "learning_rate": 0.0002893880899788063,
      "loss": 1.5547,
      "step": 46101
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.46261516213417053,
      "learning_rate": 0.0002893776444099185,
      "loss": 1.5002,
      "step": 46102
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48030149936676025,
      "learning_rate": 0.00028936719885392455,
      "loss": 1.6414,
      "step": 46103
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48103123903274536,
      "learning_rate": 0.0002893567533108373,
      "loss": 1.5481,
      "step": 46104
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4890117049217224,
      "learning_rate": 0.0002893463077806694,
      "loss": 1.5371,
      "step": 46105
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4749501943588257,
      "learning_rate": 0.00028933586226343345,
      "loss": 1.6403,
      "step": 46106
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48087066411972046,
      "learning_rate": 0.00028932541675914217,
      "loss": 1.5616,
      "step": 46107
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4733877182006836,
      "learning_rate": 0.0002893149712678083,
      "loss": 1.5646,
      "step": 46108
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49396035075187683,
      "learning_rate": 0.00028930452578944453,
      "loss": 1.5896,
      "step": 46109
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4801658093929291,
      "learning_rate": 0.0002892940803240634,
      "loss": 1.6266,
      "step": 46110
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49713897705078125,
      "learning_rate": 0.0002892836348716778,
      "loss": 1.6511,
      "step": 46111
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4875810444355011,
      "learning_rate": 0.00028927318943230024,
      "loss": 1.6483,
      "step": 46112
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4661639928817749,
      "learning_rate": 0.0002892627440059434,
      "loss": 1.534,
      "step": 46113
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49208468198776245,
      "learning_rate": 0.00028925229859261996,
      "loss": 1.5611,
      "step": 46114
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48632100224494934,
      "learning_rate": 0.0002892418531923428,
      "loss": 1.6482,
      "step": 46115
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48569315671920776,
      "learning_rate": 0.00028923140780512434,
      "loss": 1.6538,
      "step": 46116
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4788433611392975,
      "learning_rate": 0.0002892209624309774,
      "loss": 1.6164,
      "step": 46117
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49124032258987427,
      "learning_rate": 0.0002892105170699146,
      "loss": 1.5711,
      "step": 46118
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5052235722541809,
      "learning_rate": 0.00028920007172194873,
      "loss": 1.6289,
      "step": 46119
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.479898065328598,
      "learning_rate": 0.00028918962638709223,
      "loss": 1.5876,
      "step": 46120
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.492983877658844,
      "learning_rate": 0.00028917918106535794,
      "loss": 1.5941,
      "step": 46121
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49285319447517395,
      "learning_rate": 0.00028916873575675865,
      "loss": 1.5896,
      "step": 46122
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.7655975818634033,
      "learning_rate": 0.0002891582904613069,
      "loss": 1.5581,
      "step": 46123
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48741188645362854,
      "learning_rate": 0.00028914784517901533,
      "loss": 1.618,
      "step": 46124
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49086910486221313,
      "learning_rate": 0.00028913739990989667,
      "loss": 1.6151,
      "step": 46125
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5006092190742493,
      "learning_rate": 0.0002891269546539637,
      "loss": 1.6237,
      "step": 46126
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4887879490852356,
      "learning_rate": 0.0002891165094112289,
      "loss": 1.6417,
      "step": 46127
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4983087480068207,
      "learning_rate": 0.00028910606418170506,
      "loss": 1.5837,
      "step": 46128
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.48929744958877563,
      "learning_rate": 0.00028909561896540493,
      "loss": 1.6175,
      "step": 46129
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4794071912765503,
      "learning_rate": 0.00028908517376234106,
      "loss": 1.6134,
      "step": 46130
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4747665822505951,
      "learning_rate": 0.0002890747285725262,
      "loss": 1.6038,
      "step": 46131
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5030512809753418,
      "learning_rate": 0.00028906428339597304,
      "loss": 1.5604,
      "step": 46132
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.47537052631378174,
      "learning_rate": 0.0002890538382326942,
      "loss": 1.643,
      "step": 46133
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49014389514923096,
      "learning_rate": 0.0002890433930827023,
      "loss": 1.6015,
      "step": 46134
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4755871891975403,
      "learning_rate": 0.00028903294794601015,
      "loss": 1.6804,
      "step": 46135
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.508208155632019,
      "learning_rate": 0.0002890225028226305,
      "loss": 1.5605,
      "step": 46136
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.49186408519744873,
      "learning_rate": 0.0002890120577125758,
      "loss": 1.4952,
      "step": 46137
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48979997634887695,
      "learning_rate": 0.00028900161261585886,
      "loss": 1.6558,
      "step": 46138
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49101588129997253,
      "learning_rate": 0.00028899116753249243,
      "loss": 1.6096,
      "step": 46139
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5071887373924255,
      "learning_rate": 0.000288980722462489,
      "loss": 1.5752,
      "step": 46140
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4961632788181305,
      "learning_rate": 0.0002889702774058613,
      "loss": 1.5525,
      "step": 46141
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5138248801231384,
      "learning_rate": 0.0002889598323626223,
      "loss": 1.6456,
      "step": 46142
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4857504665851593,
      "learning_rate": 0.00028894938733278416,
      "loss": 1.6436,
      "step": 46143
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48638010025024414,
      "learning_rate": 0.00028893894231635996,
      "loss": 1.5756,
      "step": 46144
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49440470337867737,
      "learning_rate": 0.0002889284973133622,
      "loss": 1.5918,
      "step": 46145
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47400394082069397,
      "learning_rate": 0.00028891805232380375,
      "loss": 1.5975,
      "step": 46146
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4871162474155426,
      "learning_rate": 0.000288907607347697,
      "loss": 1.5819,
      "step": 46147
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4854954481124878,
      "learning_rate": 0.00028889716238505477,
      "loss": 1.5406,
      "step": 46148
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.9338691234588623,
      "learning_rate": 0.00028888671743588996,
      "loss": 1.6269,
      "step": 46149
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48004746437072754,
      "learning_rate": 0.0002888762725002148,
      "loss": 1.5951,
      "step": 46150
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49225929379463196,
      "learning_rate": 0.0002888658275780423,
      "loss": 1.5453,
      "step": 46151
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.46541354060173035,
      "learning_rate": 0.00028885538266938514,
      "loss": 1.613,
      "step": 46152
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48972877860069275,
      "learning_rate": 0.0002888449377742557,
      "loss": 1.5765,
      "step": 46153
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48515111207962036,
      "learning_rate": 0.000288834492892667,
      "loss": 1.6225,
      "step": 46154
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5007748007774353,
      "learning_rate": 0.0002888240480246315,
      "loss": 1.6316,
      "step": 46155
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4698932468891144,
      "learning_rate": 0.0002888136031701621,
      "loss": 1.6175,
      "step": 46156
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4707910120487213,
      "learning_rate": 0.0002888031583292712,
      "loss": 1.5444,
      "step": 46157
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4866809844970703,
      "learning_rate": 0.00028879271350197165,
      "loss": 1.6532,
      "step": 46158
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4675905108451843,
      "learning_rate": 0.0002887822686882762,
      "loss": 1.58,
      "step": 46159
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49265217781066895,
      "learning_rate": 0.0002887718238881973,
      "loss": 1.7134,
      "step": 46160
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5247510075569153,
      "learning_rate": 0.0002887613791017477,
      "loss": 1.5986,
      "step": 46161
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5021517276763916,
      "learning_rate": 0.00028875093432894033,
      "loss": 1.6136,
      "step": 46162
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49329718947410583,
      "learning_rate": 0.00028874048956978755,
      "loss": 1.5549,
      "step": 46163
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5171299576759338,
      "learning_rate": 0.00028873004482430205,
      "loss": 1.6051,
      "step": 46164
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4947061538696289,
      "learning_rate": 0.0002887196000924967,
      "loss": 1.591,
      "step": 46165
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5081828832626343,
      "learning_rate": 0.00028870915537438415,
      "loss": 1.5251,
      "step": 46166
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48970165848731995,
      "learning_rate": 0.000288698710669977,
      "loss": 1.5578,
      "step": 46167
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4811745285987854,
      "learning_rate": 0.0002886882659792879,
      "loss": 1.6053,
      "step": 46168
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4884093701839447,
      "learning_rate": 0.00028867782130232974,
      "loss": 1.5225,
      "step": 46169
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5074764490127563,
      "learning_rate": 0.00028866737663911485,
      "loss": 1.661,
      "step": 46170
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48584607243537903,
      "learning_rate": 0.0002886569319896561,
      "loss": 1.603,
      "step": 46171
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4884374439716339,
      "learning_rate": 0.00028864648735396636,
      "loss": 1.615,
      "step": 46172
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4905132055282593,
      "learning_rate": 0.0002886360427320579,
      "loss": 1.6413,
      "step": 46173
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48317357897758484,
      "learning_rate": 0.00028862559812394364,
      "loss": 1.6356,
      "step": 46174
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5172827243804932,
      "learning_rate": 0.00028861515352963626,
      "loss": 1.6676,
      "step": 46175
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4861084520816803,
      "learning_rate": 0.0002886047089491485,
      "loss": 1.6403,
      "step": 46176
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4883989691734314,
      "learning_rate": 0.0002885942643824928,
      "loss": 1.6272,
      "step": 46177
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47899582982063293,
      "learning_rate": 0.000288583819829682,
      "loss": 1.6902,
      "step": 46178
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.479854941368103,
      "learning_rate": 0.0002885733752907289,
      "loss": 1.57,
      "step": 46179
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4970494210720062,
      "learning_rate": 0.0002885629307656459,
      "loss": 1.6513,
      "step": 46180
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4797324240207672,
      "learning_rate": 0.0002885524862544458,
      "loss": 1.5065,
      "step": 46181
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4787791669368744,
      "learning_rate": 0.00028854204175714145,
      "loss": 1.5871,
      "step": 46182
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48030415177345276,
      "learning_rate": 0.00028853159727374524,
      "loss": 1.6283,
      "step": 46183
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.470900297164917,
      "learning_rate": 0.00028852115280427,
      "loss": 1.5952,
      "step": 46184
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.6302454471588135,
      "learning_rate": 0.0002885107083487284,
      "loss": 1.62,
      "step": 46185
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48725003004074097,
      "learning_rate": 0.0002885002639071332,
      "loss": 1.5603,
      "step": 46186
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49150627851486206,
      "learning_rate": 0.0002884898194794968,
      "loss": 1.5726,
      "step": 46187
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48120060563087463,
      "learning_rate": 0.00028847937506583214,
      "loss": 1.571,
      "step": 46188
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4802517890930176,
      "learning_rate": 0.0002884689306661519,
      "loss": 1.5574,
      "step": 46189
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49730268120765686,
      "learning_rate": 0.00028845848628046865,
      "loss": 1.681,
      "step": 46190
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49713605642318726,
      "learning_rate": 0.000288448041908795,
      "loss": 1.6357,
      "step": 46191
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48034873604774475,
      "learning_rate": 0.0002884375975511439,
      "loss": 1.5588,
      "step": 46192
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4769134819507599,
      "learning_rate": 0.00028842715320752773,
      "loss": 1.5823,
      "step": 46193
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.494351327419281,
      "learning_rate": 0.0002884167088779592,
      "loss": 1.6352,
      "step": 46194
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5016952157020569,
      "learning_rate": 0.0002884062645624512,
      "loss": 1.5234,
      "step": 46195
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.504343569278717,
      "learning_rate": 0.00028839582026101633,
      "loss": 1.6347,
      "step": 46196
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48399829864501953,
      "learning_rate": 0.00028838537597366713,
      "loss": 1.609,
      "step": 46197
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4846183657646179,
      "learning_rate": 0.00028837493170041646,
      "loss": 1.6284,
      "step": 46198
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49503952264785767,
      "learning_rate": 0.0002883644874412769,
      "loss": 1.6283,
      "step": 46199
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4842654764652252,
      "learning_rate": 0.0002883540431962611,
      "loss": 1.6094,
      "step": 46200
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49079546332359314,
      "learning_rate": 0.0002883435989653817,
      "loss": 1.6134,
      "step": 46201
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49055197834968567,
      "learning_rate": 0.0002883331547486516,
      "loss": 1.6041,
      "step": 46202
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5023400187492371,
      "learning_rate": 0.0002883227105460832,
      "loss": 1.655,
      "step": 46203
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5122462511062622,
      "learning_rate": 0.00028831226635768936,
      "loss": 1.6162,
      "step": 46204
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4971137046813965,
      "learning_rate": 0.0002883018221834827,
      "loss": 1.5426,
      "step": 46205
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47978878021240234,
      "learning_rate": 0.000288291378023476,
      "loss": 1.554,
      "step": 46206
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48405343294143677,
      "learning_rate": 0.0002882809338776817,
      "loss": 1.5891,
      "step": 46207
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4887482225894928,
      "learning_rate": 0.0002882704897461126,
      "loss": 1.6415,
      "step": 46208
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4924916625022888,
      "learning_rate": 0.0002882600456287816,
      "loss": 1.6622,
      "step": 46209
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4960893392562866,
      "learning_rate": 0.000288249601525701,
      "loss": 1.6685,
      "step": 46210
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48992595076560974,
      "learning_rate": 0.0002882391574368837,
      "loss": 1.5946,
      "step": 46211
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5344569087028503,
      "learning_rate": 0.0002882287133623424,
      "loss": 1.5817,
      "step": 46212
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5252403616905212,
      "learning_rate": 0.0002882182693020896,
      "loss": 1.6772,
      "step": 46213
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4836234152317047,
      "learning_rate": 0.0002882078252561381,
      "loss": 1.6335,
      "step": 46214
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4929732382297516,
      "learning_rate": 0.00028819738122450055,
      "loss": 1.5947,
      "step": 46215
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5006644129753113,
      "learning_rate": 0.0002881869372071898,
      "loss": 1.627,
      "step": 46216
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49952155351638794,
      "learning_rate": 0.00028817649320421815,
      "loss": 1.6,
      "step": 46217
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4857935309410095,
      "learning_rate": 0.0002881660492155986,
      "loss": 1.5955,
      "step": 46218
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4897075593471527,
      "learning_rate": 0.00028815560524134376,
      "loss": 1.5444,
      "step": 46219
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48383185267448425,
      "learning_rate": 0.0002881451612814662,
      "loss": 1.6062,
      "step": 46220
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4928157329559326,
      "learning_rate": 0.0002881347173359787,
      "loss": 1.6831,
      "step": 46221
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5036199688911438,
      "learning_rate": 0.00028812427340489395,
      "loss": 1.6513,
      "step": 46222
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5026797652244568,
      "learning_rate": 0.0002881138294882245,
      "loss": 1.5481,
      "step": 46223
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47225221991539,
      "learning_rate": 0.00028810338558598307,
      "loss": 1.5508,
      "step": 46224
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4951111972332001,
      "learning_rate": 0.0002880929416981825,
      "loss": 1.6756,
      "step": 46225
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4816499650478363,
      "learning_rate": 0.0002880824978248353,
      "loss": 1.6,
      "step": 46226
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48536697030067444,
      "learning_rate": 0.00028807205396595416,
      "loss": 1.5729,
      "step": 46227
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4921277165412903,
      "learning_rate": 0.0002880616101215518,
      "loss": 1.5471,
      "step": 46228
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49231523275375366,
      "learning_rate": 0.00028805116629164094,
      "loss": 1.6362,
      "step": 46229
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4977034628391266,
      "learning_rate": 0.00028804072247623415,
      "loss": 1.6195,
      "step": 46230
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4650084674358368,
      "learning_rate": 0.00028803027867534413,
      "loss": 1.6369,
      "step": 46231
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48404473066329956,
      "learning_rate": 0.00028801983488898367,
      "loss": 1.6626,
      "step": 46232
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5208355188369751,
      "learning_rate": 0.00028800939111716533,
      "loss": 1.628,
      "step": 46233
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4695429801940918,
      "learning_rate": 0.0002879989473599018,
      "loss": 1.6836,
      "step": 46234
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4832240045070648,
      "learning_rate": 0.0002879885036172058,
      "loss": 1.5908,
      "step": 46235
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.7909602522850037,
      "learning_rate": 0.00028797805988909,
      "loss": 1.6507,
      "step": 46236
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49230456352233887,
      "learning_rate": 0.00028796761617556703,
      "loss": 1.5808,
      "step": 46237
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49310627579689026,
      "learning_rate": 0.0002879571724766496,
      "loss": 1.6151,
      "step": 46238
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5111548900604248,
      "learning_rate": 0.00028794672879235044,
      "loss": 1.6791,
      "step": 46239
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.46254611015319824,
      "learning_rate": 0.0002879362851226821,
      "loss": 1.5953,
      "step": 46240
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49194371700286865,
      "learning_rate": 0.0002879258414676574,
      "loss": 1.5895,
      "step": 46241
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49129459261894226,
      "learning_rate": 0.0002879153978272889,
      "loss": 1.6053,
      "step": 46242
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4893563389778137,
      "learning_rate": 0.0002879049542015894,
      "loss": 1.5478,
      "step": 46243
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48184043169021606,
      "learning_rate": 0.00028789451059057147,
      "loss": 1.6465,
      "step": 46244
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5005269646644592,
      "learning_rate": 0.00028788406699424774,
      "loss": 1.5977,
      "step": 46245
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49224719405174255,
      "learning_rate": 0.00028787362341263105,
      "loss": 1.5603,
      "step": 46246
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.46897244453430176,
      "learning_rate": 0.00028786317984573397,
      "loss": 1.5849,
      "step": 46247
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5005406737327576,
      "learning_rate": 0.0002878527362935692,
      "loss": 1.6473,
      "step": 46248
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48908016085624695,
      "learning_rate": 0.00028784229275614947,
      "loss": 1.5582,
      "step": 46249
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4828518331050873,
      "learning_rate": 0.00028783184923348735,
      "loss": 1.5756,
      "step": 46250
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47742760181427,
      "learning_rate": 0.0002878214057255955,
      "loss": 1.5926,
      "step": 46251
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48105138540267944,
      "learning_rate": 0.0002878109622324867,
      "loss": 1.5938,
      "step": 46252
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4814835488796234,
      "learning_rate": 0.0002878005187541738,
      "loss": 1.6337,
      "step": 46253
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48383188247680664,
      "learning_rate": 0.0002877900752906691,
      "loss": 1.5235,
      "step": 46254
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.473629891872406,
      "learning_rate": 0.00028777963184198547,
      "loss": 1.6286,
      "step": 46255
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.46959078311920166,
      "learning_rate": 0.00028776918840813556,
      "loss": 1.5888,
      "step": 46256
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.8025119304656982,
      "learning_rate": 0.00028775874498913206,
      "loss": 1.6193,
      "step": 46257
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4917899966239929,
      "learning_rate": 0.00028774830158498756,
      "loss": 1.6406,
      "step": 46258
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48180562257766724,
      "learning_rate": 0.00028773785819571505,
      "loss": 1.6259,
      "step": 46259
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4857749044895172,
      "learning_rate": 0.00028772741482132675,
      "loss": 1.6168,
      "step": 46260
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48573124408721924,
      "learning_rate": 0.0002877169714618356,
      "loss": 1.5991,
      "step": 46261
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48891112208366394,
      "learning_rate": 0.0002877065281172543,
      "loss": 1.59,
      "step": 46262
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4932177662849426,
      "learning_rate": 0.00028769608478759545,
      "loss": 1.5922,
      "step": 46263
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4883606731891632,
      "learning_rate": 0.0002876856414728717,
      "loss": 1.6094,
      "step": 46264
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48141998052597046,
      "learning_rate": 0.0002876751981730957,
      "loss": 1.621,
      "step": 46265
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5165356397628784,
      "learning_rate": 0.0002876647548882804,
      "loss": 1.5613,
      "step": 46266
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.479098916053772,
      "learning_rate": 0.00028765431161843807,
      "loss": 1.6372,
      "step": 46267
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48240113258361816,
      "learning_rate": 0.00028764386836358164,
      "loss": 1.582,
      "step": 46268
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5000872611999512,
      "learning_rate": 0.00028763342512372385,
      "loss": 1.6398,
      "step": 46269
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5109053254127502,
      "learning_rate": 0.00028762298189887717,
      "loss": 1.6323,
      "step": 46270
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5200092196464539,
      "learning_rate": 0.0002876125386890543,
      "loss": 1.5271,
      "step": 46271
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.480751097202301,
      "learning_rate": 0.000287602095494268,
      "loss": 1.5372,
      "step": 46272
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48592743277549744,
      "learning_rate": 0.00028759165231453113,
      "loss": 1.6283,
      "step": 46273
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48710328340530396,
      "learning_rate": 0.00028758120914985593,
      "loss": 1.5553,
      "step": 46274
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4806952476501465,
      "learning_rate": 0.0002875707660002554,
      "loss": 1.6261,
      "step": 46275
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4885121285915375,
      "learning_rate": 0.0002875603228657422,
      "loss": 1.5783,
      "step": 46276
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48262718319892883,
      "learning_rate": 0.00028754987974632885,
      "loss": 1.5737,
      "step": 46277
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47374409437179565,
      "learning_rate": 0.0002875394366420281,
      "loss": 1.684,
      "step": 46278
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4818832278251648,
      "learning_rate": 0.0002875289935528527,
      "loss": 1.6072,
      "step": 46279
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4709780514240265,
      "learning_rate": 0.0002875185504788152,
      "loss": 1.5914,
      "step": 46280
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4982713758945465,
      "learning_rate": 0.00028750810741992827,
      "loss": 1.6218,
      "step": 46281
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4906370937824249,
      "learning_rate": 0.00028749766437620477,
      "loss": 1.6704,
      "step": 46282
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47733089327812195,
      "learning_rate": 0.0002874872213476573,
      "loss": 1.6028,
      "step": 46283
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49666401743888855,
      "learning_rate": 0.00028747677833429843,
      "loss": 1.5254,
      "step": 46284
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5045109391212463,
      "learning_rate": 0.0002874663353361409,
      "loss": 1.6253,
      "step": 46285
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5241445302963257,
      "learning_rate": 0.0002874558923531975,
      "loss": 1.6267,
      "step": 46286
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48678091168403625,
      "learning_rate": 0.0002874454493854807,
      "loss": 1.5612,
      "step": 46287
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48195207118988037,
      "learning_rate": 0.00028743500643300317,
      "loss": 1.5934,
      "step": 46288
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48961520195007324,
      "learning_rate": 0.00028742456349577797,
      "loss": 1.5838,
      "step": 46289
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48784157633781433,
      "learning_rate": 0.00028741412057381726,
      "loss": 1.6637,
      "step": 46290
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49495670199394226,
      "learning_rate": 0.000287403677667134,
      "loss": 1.6068,
      "step": 46291
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4937012493610382,
      "learning_rate": 0.00028739323477574083,
      "loss": 1.5278,
      "step": 46292
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48134472966194153,
      "learning_rate": 0.0002873827918996505,
      "loss": 1.5855,
      "step": 46293
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4863041937351227,
      "learning_rate": 0.00028737234903887553,
      "loss": 1.5933,
      "step": 46294
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.501412034034729,
      "learning_rate": 0.0002873619061934286,
      "loss": 1.6523,
      "step": 46295
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49002277851104736,
      "learning_rate": 0.0002873514633633227,
      "loss": 1.6604,
      "step": 46296
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4872693121433258,
      "learning_rate": 0.00028734102054856994,
      "loss": 1.5964,
      "step": 46297
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4958594739437103,
      "learning_rate": 0.0002873305777491835,
      "loss": 1.6377,
      "step": 46298
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5027031302452087,
      "learning_rate": 0.00028732013496517584,
      "loss": 1.6432,
      "step": 46299
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4882994294166565,
      "learning_rate": 0.0002873096921965597,
      "loss": 1.5508,
      "step": 46300
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4717407524585724,
      "learning_rate": 0.0002872992494433476,
      "loss": 1.6158,
      "step": 46301
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4863658547401428,
      "learning_rate": 0.00028728880670555237,
      "loss": 1.5993,
      "step": 46302
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48696401715278625,
      "learning_rate": 0.0002872783639831869,
      "loss": 1.7007,
      "step": 46303
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4788353443145752,
      "learning_rate": 0.0002872679212762633,
      "loss": 1.6969,
      "step": 46304
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47020581364631653,
      "learning_rate": 0.0002872574785847947,
      "loss": 1.5654,
      "step": 46305
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48837193846702576,
      "learning_rate": 0.0002872470359087937,
      "loss": 1.5128,
      "step": 46306
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4779047966003418,
      "learning_rate": 0.00028723659324827284,
      "loss": 1.5242,
      "step": 46307
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4867527484893799,
      "learning_rate": 0.00028722615060324485,
      "loss": 1.6158,
      "step": 46308
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.481640100479126,
      "learning_rate": 0.00028721570797372257,
      "loss": 1.6554,
      "step": 46309
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.506615161895752,
      "learning_rate": 0.0002872052653597184,
      "loss": 1.619,
      "step": 46310
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4866218864917755,
      "learning_rate": 0.00028719482276124515,
      "loss": 1.6178,
      "step": 46311
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4687991440296173,
      "learning_rate": 0.00028718438017831554,
      "loss": 1.5734,
      "step": 46312
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47875019907951355,
      "learning_rate": 0.0002871739376109423,
      "loss": 1.6441,
      "step": 46313
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.504784345626831,
      "learning_rate": 0.00028716349505913784,
      "loss": 1.6789,
      "step": 46314
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49212929606437683,
      "learning_rate": 0.0002871530525229151,
      "loss": 1.6265,
      "step": 46315
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48772770166397095,
      "learning_rate": 0.00028714261000228674,
      "loss": 1.5433,
      "step": 46316
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4997793734073639,
      "learning_rate": 0.00028713216749726525,
      "loss": 1.5933,
      "step": 46317
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4735264480113983,
      "learning_rate": 0.0002871217250078633,
      "loss": 1.6255,
      "step": 46318
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48816320300102234,
      "learning_rate": 0.00028711128253409394,
      "loss": 1.629,
      "step": 46319
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5065309405326843,
      "learning_rate": 0.0002871008400759694,
      "loss": 1.6289,
      "step": 46320
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4775560200214386,
      "learning_rate": 0.00028709039763350256,
      "loss": 1.5986,
      "step": 46321
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5000407695770264,
      "learning_rate": 0.0002870799552067061,
      "loss": 1.5688,
      "step": 46322
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48964938521385193,
      "learning_rate": 0.0002870695127955927,
      "loss": 1.6692,
      "step": 46323
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48736968636512756,
      "learning_rate": 0.000287059070400175,
      "loss": 1.5401,
      "step": 46324
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47189223766326904,
      "learning_rate": 0.0002870486280204656,
      "loss": 1.5738,
      "step": 46325
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.504627525806427,
      "learning_rate": 0.0002870381856564774,
      "loss": 1.6084,
      "step": 46326
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4988110363483429,
      "learning_rate": 0.0002870277433082228,
      "loss": 1.6117,
      "step": 46327
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.6346490979194641,
      "learning_rate": 0.00028701730097571465,
      "loss": 1.5544,
      "step": 46328
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49191850423812866,
      "learning_rate": 0.0002870068586589656,
      "loss": 1.6437,
      "step": 46329
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5106723308563232,
      "learning_rate": 0.0002869964163579883,
      "loss": 1.5656,
      "step": 46330
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4829777181148529,
      "learning_rate": 0.0002869859740727955,
      "loss": 1.6734,
      "step": 46331
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4798864424228668,
      "learning_rate": 0.0002869755318033996,
      "loss": 1.61,
      "step": 46332
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.478122740983963,
      "learning_rate": 0.00028696508954981383,
      "loss": 1.5753,
      "step": 46333
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5159271359443665,
      "learning_rate": 0.0002869546473120502,
      "loss": 1.689,
      "step": 46334
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4846556782722473,
      "learning_rate": 0.00028694420509012183,
      "loss": 1.6874,
      "step": 46335
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4859605133533478,
      "learning_rate": 0.0002869337628840413,
      "loss": 1.6183,
      "step": 46336
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.487031489610672,
      "learning_rate": 0.0002869233206938213,
      "loss": 1.5856,
      "step": 46337
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5056213140487671,
      "learning_rate": 0.00028691287851947435,
      "loss": 1.5756,
      "step": 46338
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48919227719306946,
      "learning_rate": 0.0002869024363610133,
      "loss": 1.6719,
      "step": 46339
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47227880358695984,
      "learning_rate": 0.0002868919942184508,
      "loss": 1.5825,
      "step": 46340
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4839017391204834,
      "learning_rate": 0.0002868815520917993,
      "loss": 1.6503,
      "step": 46341
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4768148362636566,
      "learning_rate": 0.0002868711099810718,
      "loss": 1.579,
      "step": 46342
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48422691226005554,
      "learning_rate": 0.0002868606678862809,
      "loss": 1.5267,
      "step": 46343
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5013750195503235,
      "learning_rate": 0.0002868502258074391,
      "loss": 1.555,
      "step": 46344
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4891408085823059,
      "learning_rate": 0.0002868397837445592,
      "loss": 1.5709,
      "step": 46345
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5007236003875732,
      "learning_rate": 0.00028682934169765395,
      "loss": 1.6063,
      "step": 46346
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4814187288284302,
      "learning_rate": 0.0002868188996667359,
      "loss": 1.608,
      "step": 46347
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4842882752418518,
      "learning_rate": 0.00028680845765181764,
      "loss": 1.6017,
      "step": 46348
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49796342849731445,
      "learning_rate": 0.0002867980156529121,
      "loss": 1.6475,
      "step": 46349
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.6930981278419495,
      "learning_rate": 0.0002867875736700318,
      "loss": 1.6942,
      "step": 46350
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48980361223220825,
      "learning_rate": 0.0002867771317031895,
      "loss": 1.5903,
      "step": 46351
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48170018196105957,
      "learning_rate": 0.0002867666897523977,
      "loss": 1.6101,
      "step": 46352
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5111902952194214,
      "learning_rate": 0.0002867562478176693,
      "loss": 1.6756,
      "step": 46353
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5060410499572754,
      "learning_rate": 0.00028674580589901677,
      "loss": 1.5944,
      "step": 46354
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4680747389793396,
      "learning_rate": 0.00028673536399645286,
      "loss": 1.5867,
      "step": 46355
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4969443082809448,
      "learning_rate": 0.0002867249221099904,
      "loss": 1.5913,
      "step": 46356
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4799124300479889,
      "learning_rate": 0.00028671448023964176,
      "loss": 1.6243,
      "step": 46357
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49470290541648865,
      "learning_rate": 0.0002867040383854199,
      "loss": 1.6293,
      "step": 46358
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4839976131916046,
      "learning_rate": 0.0002866935965473374,
      "loss": 1.6346,
      "step": 46359
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4841246008872986,
      "learning_rate": 0.00028668315472540684,
      "loss": 1.6254,
      "step": 46360
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5036185383796692,
      "learning_rate": 0.000286672712919641,
      "loss": 1.6056,
      "step": 46361
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47547224164009094,
      "learning_rate": 0.0002866622711300524,
      "loss": 1.6199,
      "step": 46362
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47519803047180176,
      "learning_rate": 0.000286651829356654,
      "loss": 1.6448,
      "step": 46363
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4896159768104553,
      "learning_rate": 0.00028664138759945825,
      "loss": 1.5854,
      "step": 46364
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48271211981773376,
      "learning_rate": 0.00028663094585847787,
      "loss": 1.5741,
      "step": 46365
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49680402874946594,
      "learning_rate": 0.00028662050413372567,
      "loss": 1.5479,
      "step": 46366
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4940783381462097,
      "learning_rate": 0.0002866100624252141,
      "loss": 1.5921,
      "step": 46367
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4830179214477539,
      "learning_rate": 0.0002865996207329559,
      "loss": 1.6342,
      "step": 46368
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5072894096374512,
      "learning_rate": 0.0002865891790569638,
      "loss": 1.6848,
      "step": 46369
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4914051592350006,
      "learning_rate": 0.0002865787373972506,
      "loss": 1.5452,
      "step": 46370
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5017882585525513,
      "learning_rate": 0.0002865682957538287,
      "loss": 1.637,
      "step": 46371
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5022844076156616,
      "learning_rate": 0.00028655785412671093,
      "loss": 1.6014,
      "step": 46372
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4888648986816406,
      "learning_rate": 0.00028654741251591005,
      "loss": 1.6343,
      "step": 46373
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4849901795387268,
      "learning_rate": 0.0002865369709214385,
      "loss": 1.5501,
      "step": 46374
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4923133850097656,
      "learning_rate": 0.00028652652934330904,
      "loss": 1.5865,
      "step": 46375
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4819529056549072,
      "learning_rate": 0.0002865160877815346,
      "loss": 1.6063,
      "step": 46376
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47758591175079346,
      "learning_rate": 0.00028650564623612743,
      "loss": 1.591,
      "step": 46377
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49185696244239807,
      "learning_rate": 0.0002864952047071005,
      "loss": 1.6117,
      "step": 46378
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49889662861824036,
      "learning_rate": 0.00028648476319446644,
      "loss": 1.5949,
      "step": 46379
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5039299130439758,
      "learning_rate": 0.00028647432169823787,
      "loss": 1.616,
      "step": 46380
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5034863948822021,
      "learning_rate": 0.0002864638802184275,
      "loss": 1.5639,
      "step": 46381
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.490246444940567,
      "learning_rate": 0.00028645343875504785,
      "loss": 1.5401,
      "step": 46382
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4907803535461426,
      "learning_rate": 0.00028644299730811194,
      "loss": 1.7033,
      "step": 46383
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4928579330444336,
      "learning_rate": 0.00028643255587763205,
      "loss": 1.5706,
      "step": 46384
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49522721767425537,
      "learning_rate": 0.0002864221144636211,
      "loss": 1.6265,
      "step": 46385
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5044731497764587,
      "learning_rate": 0.0002864116730660917,
      "loss": 1.5245,
      "step": 46386
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5155231952667236,
      "learning_rate": 0.0002864012316850566,
      "loss": 1.5917,
      "step": 46387
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.516227662563324,
      "learning_rate": 0.0002863907903205283,
      "loss": 1.6043,
      "step": 46388
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4851815402507782,
      "learning_rate": 0.00028638034897251953,
      "loss": 1.535,
      "step": 46389
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5135515332221985,
      "learning_rate": 0.00028636990764104324,
      "loss": 1.5873,
      "step": 46390
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49209609627723694,
      "learning_rate": 0.00028635946632611165,
      "loss": 1.6029,
      "step": 46391
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5069470405578613,
      "learning_rate": 0.00028634902502773773,
      "loss": 1.6585,
      "step": 46392
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5037639141082764,
      "learning_rate": 0.0002863385837459341,
      "loss": 1.5298,
      "step": 46393
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4866209924221039,
      "learning_rate": 0.00028632814248071345,
      "loss": 1.5527,
      "step": 46394
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5027534365653992,
      "learning_rate": 0.0002863177012320883,
      "loss": 1.6432,
      "step": 46395
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4820999503135681,
      "learning_rate": 0.0002863072600000716,
      "loss": 1.6847,
      "step": 46396
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48959267139434814,
      "learning_rate": 0.00028629681878467576,
      "loss": 1.5588,
      "step": 46397
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48393741250038147,
      "learning_rate": 0.0002862863775859135,
      "loss": 1.6597,
      "step": 46398
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4776730239391327,
      "learning_rate": 0.0002862759364037977,
      "loss": 1.6068,
      "step": 46399
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5066803097724915,
      "learning_rate": 0.00028626549523834085,
      "loss": 1.588,
      "step": 46400
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5077129602432251,
      "learning_rate": 0.00028625505408955566,
      "loss": 1.5732,
      "step": 46401
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5083004236221313,
      "learning_rate": 0.0002862446129574548,
      "loss": 1.7111,
      "step": 46402
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48489826917648315,
      "learning_rate": 0.000286234171842051,
      "loss": 1.6265,
      "step": 46403
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4852916896343231,
      "learning_rate": 0.00028622373074335683,
      "loss": 1.5346,
      "step": 46404
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.604453980922699,
      "learning_rate": 0.000286213289661385,
      "loss": 1.6759,
      "step": 46405
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47655758261680603,
      "learning_rate": 0.0002862028485961483,
      "loss": 1.5497,
      "step": 46406
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.510726273059845,
      "learning_rate": 0.0002861924075476592,
      "loss": 1.5725,
      "step": 46407
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5270455479621887,
      "learning_rate": 0.00028618196651593054,
      "loss": 1.5904,
      "step": 46408
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4841037094593048,
      "learning_rate": 0.0002861715255009749,
      "loss": 1.6384,
      "step": 46409
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5072932839393616,
      "learning_rate": 0.0002861610845028051,
      "loss": 1.5454,
      "step": 46410
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48359641432762146,
      "learning_rate": 0.00028615064352143356,
      "loss": 1.5432,
      "step": 46411
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4884219169616699,
      "learning_rate": 0.0002861402025568731,
      "loss": 1.5106,
      "step": 46412
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5013437271118164,
      "learning_rate": 0.0002861297616091366,
      "loss": 1.4972,
      "step": 46413
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5147468447685242,
      "learning_rate": 0.0002861193206782363,
      "loss": 1.6077,
      "step": 46414
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5033297538757324,
      "learning_rate": 0.00028610887976418515,
      "loss": 1.5818,
      "step": 46415
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5000967979431152,
      "learning_rate": 0.0002860984388669959,
      "loss": 1.5703,
      "step": 46416
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.502356767654419,
      "learning_rate": 0.00028608799798668095,
      "loss": 1.5902,
      "step": 46417
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48719316720962524,
      "learning_rate": 0.00028607755712325316,
      "loss": 1.5932,
      "step": 46418
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48383548855781555,
      "learning_rate": 0.0002860671162767251,
      "loss": 1.575,
      "step": 46419
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49249112606048584,
      "learning_rate": 0.0002860566754471097,
      "loss": 1.5503,
      "step": 46420
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48677563667297363,
      "learning_rate": 0.00028604623463441924,
      "loss": 1.6603,
      "step": 46421
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5116732120513916,
      "learning_rate": 0.0002860357938386667,
      "loss": 1.6332,
      "step": 46422
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5029866099357605,
      "learning_rate": 0.0002860253530598647,
      "loss": 1.6032,
      "step": 46423
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48673540353775024,
      "learning_rate": 0.0002860149122980257,
      "loss": 1.5908,
      "step": 46424
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5065195560455322,
      "learning_rate": 0.00028600447155316264,
      "loss": 1.6096,
      "step": 46425
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5022387504577637,
      "learning_rate": 0.00028599403082528815,
      "loss": 1.6228,
      "step": 46426
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47849175333976746,
      "learning_rate": 0.00028598359011441476,
      "loss": 1.6,
      "step": 46427
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4906698763370514,
      "learning_rate": 0.00028597314942055516,
      "loss": 1.6446,
      "step": 46428
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4958254098892212,
      "learning_rate": 0.00028596270874372214,
      "loss": 1.5431,
      "step": 46429
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4923258125782013,
      "learning_rate": 0.0002859522680839284,
      "loss": 1.6049,
      "step": 46430
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48205330967903137,
      "learning_rate": 0.0002859418274411865,
      "loss": 1.6035,
      "step": 46431
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47453704476356506,
      "learning_rate": 0.0002859313868155091,
      "loss": 1.5363,
      "step": 46432
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4745790958404541,
      "learning_rate": 0.000285920946206909,
      "loss": 1.5553,
      "step": 46433
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4905323386192322,
      "learning_rate": 0.00028591050561539873,
      "loss": 1.587,
      "step": 46434
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47944843769073486,
      "learning_rate": 0.000285900065040991,
      "loss": 1.6178,
      "step": 46435
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.48332926630973816,
      "learning_rate": 0.0002858896244836987,
      "loss": 1.6234,
      "step": 46436
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.49474865198135376,
      "learning_rate": 0.0002858791839435341,
      "loss": 1.5841,
      "step": 46437
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.46437567472457886,
      "learning_rate": 0.00028586874342051015,
      "loss": 1.5823,
      "step": 46438
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4978257119655609,
      "learning_rate": 0.0002858583029146395,
      "loss": 1.6146,
      "step": 46439
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4701773226261139,
      "learning_rate": 0.0002858478624259348,
      "loss": 1.5673,
      "step": 46440
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47905439138412476,
      "learning_rate": 0.0002858374219544087,
      "loss": 1.5604,
      "step": 46441
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48124921321868896,
      "learning_rate": 0.0002858269815000738,
      "loss": 1.5483,
      "step": 46442
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4903261661529541,
      "learning_rate": 0.00028581654106294303,
      "loss": 1.6304,
      "step": 46443
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4877272844314575,
      "learning_rate": 0.0002858061006430287,
      "loss": 1.6577,
      "step": 46444
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49371472001075745,
      "learning_rate": 0.0002857956602403437,
      "loss": 1.5561,
      "step": 46445
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48107728362083435,
      "learning_rate": 0.0002857852198549008,
      "loss": 1.5448,
      "step": 46446
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47853830456733704,
      "learning_rate": 0.0002857747794867125,
      "loss": 1.5559,
      "step": 46447
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4865267872810364,
      "learning_rate": 0.0002857643391357915,
      "loss": 1.6738,
      "step": 46448
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4864628314971924,
      "learning_rate": 0.0002857538988021504,
      "loss": 1.5549,
      "step": 46449
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4950118362903595,
      "learning_rate": 0.0002857434584858022,
      "loss": 1.6178,
      "step": 46450
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.515340268611908,
      "learning_rate": 0.00028573301818675916,
      "loss": 1.6802,
      "step": 46451
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4792598783969879,
      "learning_rate": 0.00028572257790503413,
      "loss": 1.5943,
      "step": 46452
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4855685234069824,
      "learning_rate": 0.00028571213764063986,
      "loss": 1.5641,
      "step": 46453
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49922749400138855,
      "learning_rate": 0.0002857016973935889,
      "loss": 1.6664,
      "step": 46454
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4894188642501831,
      "learning_rate": 0.00028569125716389405,
      "loss": 1.6447,
      "step": 46455
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.46516743302345276,
      "learning_rate": 0.0002856808169515679,
      "loss": 1.5846,
      "step": 46456
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48994359374046326,
      "learning_rate": 0.00028567037675662305,
      "loss": 1.6085,
      "step": 46457
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48289957642555237,
      "learning_rate": 0.00028565993657907223,
      "loss": 1.5458,
      "step": 46458
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4860294461250305,
      "learning_rate": 0.00028564949641892817,
      "loss": 1.6073,
      "step": 46459
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48940950632095337,
      "learning_rate": 0.0002856390562762036,
      "loss": 1.6348,
      "step": 46460
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49117106199264526,
      "learning_rate": 0.00028562861615091096,
      "loss": 1.559,
      "step": 46461
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48862984776496887,
      "learning_rate": 0.0002856181760430631,
      "loss": 1.6025,
      "step": 46462
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4900926351547241,
      "learning_rate": 0.0002856077359526728,
      "loss": 1.669,
      "step": 46463
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48299741744995117,
      "learning_rate": 0.00028559729587975246,
      "loss": 1.6148,
      "step": 46464
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4835050404071808,
      "learning_rate": 0.0002855868558243148,
      "loss": 1.5748,
      "step": 46465
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4742416739463806,
      "learning_rate": 0.00028557641578637273,
      "loss": 1.6063,
      "step": 46466
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4920049011707306,
      "learning_rate": 0.00028556597576593864,
      "loss": 1.6133,
      "step": 46467
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49231183528900146,
      "learning_rate": 0.0002855555357630254,
      "loss": 1.546,
      "step": 46468
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49366459250450134,
      "learning_rate": 0.0002855450957776456,
      "loss": 1.6896,
      "step": 46469
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.498069167137146,
      "learning_rate": 0.00028553465580981194,
      "loss": 1.5884,
      "step": 46470
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49463188648223877,
      "learning_rate": 0.00028552421585953706,
      "loss": 1.6283,
      "step": 46471
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49714305996894836,
      "learning_rate": 0.00028551377592683357,
      "loss": 1.5746,
      "step": 46472
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5014489889144897,
      "learning_rate": 0.0002855033360117144,
      "loss": 1.5177,
      "step": 46473
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47394296526908875,
      "learning_rate": 0.0002854928961141919,
      "loss": 1.6133,
      "step": 46474
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4864264130592346,
      "learning_rate": 0.0002854824562342789,
      "loss": 1.6101,
      "step": 46475
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5084037184715271,
      "learning_rate": 0.0002854720163719882,
      "loss": 1.6935,
      "step": 46476
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4813873767852783,
      "learning_rate": 0.00028546157652733215,
      "loss": 1.5564,
      "step": 46477
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48602837324142456,
      "learning_rate": 0.00028545113670032363,
      "loss": 1.5774,
      "step": 46478
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5106975436210632,
      "learning_rate": 0.0002854406968909753,
      "loss": 1.6253,
      "step": 46479
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.46920084953308105,
      "learning_rate": 0.00028543025709929995,
      "loss": 1.6063,
      "step": 46480
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5038871169090271,
      "learning_rate": 0.00028541981732531,
      "loss": 1.6581,
      "step": 46481
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4715842306613922,
      "learning_rate": 0.00028540937756901824,
      "loss": 1.5831,
      "step": 46482
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47870904207229614,
      "learning_rate": 0.0002853989378304374,
      "loss": 1.6228,
      "step": 46483
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48826974630355835,
      "learning_rate": 0.0002853884981095801,
      "loss": 1.5317,
      "step": 46484
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4879193603992462,
      "learning_rate": 0.0002853780584064589,
      "loss": 1.6353,
      "step": 46485
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4810802936553955,
      "learning_rate": 0.00028536761872108665,
      "loss": 1.6193,
      "step": 46486
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.481349915266037,
      "learning_rate": 0.000285357179053476,
      "loss": 1.6111,
      "step": 46487
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4897266626358032,
      "learning_rate": 0.00028534673940363957,
      "loss": 1.6223,
      "step": 46488
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47517129778862,
      "learning_rate": 0.00028533629977159,
      "loss": 1.5791,
      "step": 46489
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4957139492034912,
      "learning_rate": 0.00028532586015734006,
      "loss": 1.5409,
      "step": 46490
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5059013366699219,
      "learning_rate": 0.0002853154205609023,
      "loss": 1.6114,
      "step": 46491
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49038827419281006,
      "learning_rate": 0.0002853049809822894,
      "loss": 1.651,
      "step": 46492
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47874340415000916,
      "learning_rate": 0.0002852945414215143,
      "loss": 1.6095,
      "step": 46493
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5066366791725159,
      "learning_rate": 0.00028528410187858924,
      "loss": 1.5634,
      "step": 46494
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5135594606399536,
      "learning_rate": 0.0002852736623535271,
      "loss": 1.6391,
      "step": 46495
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4809054732322693,
      "learning_rate": 0.0002852632228463407,
      "loss": 1.507,
      "step": 46496
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.486704021692276,
      "learning_rate": 0.0002852527833570426,
      "loss": 1.5907,
      "step": 46497
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4866477847099304,
      "learning_rate": 0.0002852423438856454,
      "loss": 1.593,
      "step": 46498
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.7453649044036865,
      "learning_rate": 0.0002852319044321617,
      "loss": 1.6215,
      "step": 46499
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.476012647151947,
      "learning_rate": 0.0002852214649966045,
      "loss": 1.538,
      "step": 46500
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49282073974609375,
      "learning_rate": 0.0002852110255789861,
      "loss": 1.5866,
      "step": 46501
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48353829979896545,
      "learning_rate": 0.0002852005861793194,
      "loss": 1.6176,
      "step": 46502
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48893794417381287,
      "learning_rate": 0.00028519014679761703,
      "loss": 1.5784,
      "step": 46503
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4788963794708252,
      "learning_rate": 0.0002851797074338916,
      "loss": 1.5823,
      "step": 46504
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5014497637748718,
      "learning_rate": 0.00028516926808815583,
      "loss": 1.6161,
      "step": 46505
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4975578784942627,
      "learning_rate": 0.0002851588287604223,
      "loss": 1.589,
      "step": 46506
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4685181975364685,
      "learning_rate": 0.00028514838945070393,
      "loss": 1.6145,
      "step": 46507
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5106769800186157,
      "learning_rate": 0.0002851379501590131,
      "loss": 1.6166,
      "step": 46508
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49113884568214417,
      "learning_rate": 0.00028512751088536264,
      "loss": 1.657,
      "step": 46509
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49885934591293335,
      "learning_rate": 0.00028511707162976526,
      "loss": 1.5528,
      "step": 46510
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49530264735221863,
      "learning_rate": 0.0002851066323922335,
      "loss": 1.6168,
      "step": 46511
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5226936936378479,
      "learning_rate": 0.0002850961931727801,
      "loss": 1.5591,
      "step": 46512
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5300424695014954,
      "learning_rate": 0.00028508575397141777,
      "loss": 1.6483,
      "step": 46513
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48558342456817627,
      "learning_rate": 0.0002850753147881591,
      "loss": 1.6137,
      "step": 46514
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5012388229370117,
      "learning_rate": 0.00028506487562301677,
      "loss": 1.61,
      "step": 46515
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4829058349132538,
      "learning_rate": 0.0002850544364760035,
      "loss": 1.6094,
      "step": 46516
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4841727912425995,
      "learning_rate": 0.000285043997347132,
      "loss": 1.6677,
      "step": 46517
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48492321372032166,
      "learning_rate": 0.0002850335582364148,
      "loss": 1.6353,
      "step": 46518
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48626911640167236,
      "learning_rate": 0.00028502311914386467,
      "loss": 1.6245,
      "step": 46519
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4629932940006256,
      "learning_rate": 0.00028501268006949433,
      "loss": 1.6169,
      "step": 46520
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48478078842163086,
      "learning_rate": 0.0002850022410133163,
      "loss": 1.6058,
      "step": 46521
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4919460117816925,
      "learning_rate": 0.00028499180197534335,
      "loss": 1.6586,
      "step": 46522
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4936828315258026,
      "learning_rate": 0.00028498136295558823,
      "loss": 1.5707,
      "step": 46523
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4960499703884125,
      "learning_rate": 0.00028497092395406344,
      "loss": 1.5723,
      "step": 46524
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4743983745574951,
      "learning_rate": 0.00028496048497078175,
      "loss": 1.6012,
      "step": 46525
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.46755850315093994,
      "learning_rate": 0.0002849500460057558,
      "loss": 1.6447,
      "step": 46526
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48417285084724426,
      "learning_rate": 0.00028493960705899834,
      "loss": 1.66,
      "step": 46527
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4899280369281769,
      "learning_rate": 0.00028492916813052194,
      "loss": 1.6018,
      "step": 46528
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5304197669029236,
      "learning_rate": 0.0002849187292203392,
      "loss": 1.6931,
      "step": 46529
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5001230835914612,
      "learning_rate": 0.00028490829032846315,
      "loss": 1.6413,
      "step": 46530
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48336663842201233,
      "learning_rate": 0.000284897851454906,
      "loss": 1.537,
      "step": 46531
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48001307249069214,
      "learning_rate": 0.00028488741259968066,
      "loss": 1.5269,
      "step": 46532
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5023422241210938,
      "learning_rate": 0.00028487697376279993,
      "loss": 1.5874,
      "step": 46533
    },
    {
      "epoch": 1.55,
      "grad_norm": 1.1662229299545288,
      "learning_rate": 0.00028486653494427615,
      "loss": 1.5841,
      "step": 46534
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4902062714099884,
      "learning_rate": 0.00028485609614412223,
      "loss": 1.6476,
      "step": 46535
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47770652174949646,
      "learning_rate": 0.0002848456573623507,
      "loss": 1.5749,
      "step": 46536
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47992444038391113,
      "learning_rate": 0.0002848352185989745,
      "loss": 1.6359,
      "step": 46537
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48916879296302795,
      "learning_rate": 0.00028482477985400595,
      "loss": 1.4972,
      "step": 46538
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49106335639953613,
      "learning_rate": 0.00028481434112745787,
      "loss": 1.5562,
      "step": 46539
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4781720042228699,
      "learning_rate": 0.0002848039024193431,
      "loss": 1.594,
      "step": 46540
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4856280982494354,
      "learning_rate": 0.00028479346372967405,
      "loss": 1.5862,
      "step": 46541
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49890273809432983,
      "learning_rate": 0.0002847830250584635,
      "loss": 1.7008,
      "step": 46542
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5077499151229858,
      "learning_rate": 0.00028477258640572414,
      "loss": 1.6216,
      "step": 46543
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4868601858615875,
      "learning_rate": 0.0002847621477714686,
      "loss": 1.6284,
      "step": 46544
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4913906753063202,
      "learning_rate": 0.00028475170915570944,
      "loss": 1.6792,
      "step": 46545
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5088300108909607,
      "learning_rate": 0.00028474127055845956,
      "loss": 1.5973,
      "step": 46546
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4989062547683716,
      "learning_rate": 0.00028473083197973166,
      "loss": 1.5679,
      "step": 46547
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4924551844596863,
      "learning_rate": 0.00028472039341953813,
      "loss": 1.6189,
      "step": 46548
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49461808800697327,
      "learning_rate": 0.00028470995487789183,
      "loss": 1.586,
      "step": 46549
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48193779587745667,
      "learning_rate": 0.00028469951635480545,
      "loss": 1.6469,
      "step": 46550
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.50034499168396,
      "learning_rate": 0.0002846890778502915,
      "loss": 1.4778,
      "step": 46551
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5066071152687073,
      "learning_rate": 0.0002846786393643627,
      "loss": 1.6648,
      "step": 46552
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4934307634830475,
      "learning_rate": 0.000284668200897032,
      "loss": 1.6416,
      "step": 46553
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5067635774612427,
      "learning_rate": 0.00028465776244831164,
      "loss": 1.5222,
      "step": 46554
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4952963888645172,
      "learning_rate": 0.00028464732401821456,
      "loss": 1.6028,
      "step": 46555
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4957176744937897,
      "learning_rate": 0.00028463688560675335,
      "loss": 1.6034,
      "step": 46556
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4768235683441162,
      "learning_rate": 0.0002846264472139408,
      "loss": 1.549,
      "step": 46557
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.492430716753006,
      "learning_rate": 0.0002846160088397894,
      "loss": 1.6982,
      "step": 46558
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4900180697441101,
      "learning_rate": 0.0002846055704843118,
      "loss": 1.6652,
      "step": 46559
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49528589844703674,
      "learning_rate": 0.000284595132147521,
      "loss": 1.6142,
      "step": 46560
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5091174244880676,
      "learning_rate": 0.00028458469382942924,
      "loss": 1.5732,
      "step": 46561
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4924880862236023,
      "learning_rate": 0.00028457425553004943,
      "loss": 1.5996,
      "step": 46562
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49216803908348083,
      "learning_rate": 0.0002845638172493943,
      "loss": 1.5993,
      "step": 46563
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5031872987747192,
      "learning_rate": 0.00028455337898747633,
      "loss": 1.5882,
      "step": 46564
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4884970784187317,
      "learning_rate": 0.0002845429407443083,
      "loss": 1.6791,
      "step": 46565
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47127488255500793,
      "learning_rate": 0.0002845325025199028,
      "loss": 1.5917,
      "step": 46566
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47731906175613403,
      "learning_rate": 0.0002845220643142727,
      "loss": 1.5595,
      "step": 46567
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4948802590370178,
      "learning_rate": 0.00028451162612743043,
      "loss": 1.5329,
      "step": 46568
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4971168041229248,
      "learning_rate": 0.00028450118795938877,
      "loss": 1.599,
      "step": 46569
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4920472502708435,
      "learning_rate": 0.0002844907498101605,
      "loss": 1.6771,
      "step": 46570
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48475953936576843,
      "learning_rate": 0.00028448031167975805,
      "loss": 1.5791,
      "step": 46571
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4922175109386444,
      "learning_rate": 0.0002844698735681942,
      "loss": 1.5797,
      "step": 46572
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4876144528388977,
      "learning_rate": 0.0002844594354754818,
      "loss": 1.5901,
      "step": 46573
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.493977427482605,
      "learning_rate": 0.0002844489974016332,
      "loss": 1.6381,
      "step": 46574
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47047385573387146,
      "learning_rate": 0.0002844385593466612,
      "loss": 1.6034,
      "step": 46575
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48524338006973267,
      "learning_rate": 0.00028442812131057853,
      "loss": 1.6126,
      "step": 46576
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48772671818733215,
      "learning_rate": 0.00028441768329339796,
      "loss": 1.5608,
      "step": 46577
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47663289308547974,
      "learning_rate": 0.0002844072452951319,
      "loss": 1.6241,
      "step": 46578
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4921611547470093,
      "learning_rate": 0.0002843968073157932,
      "loss": 1.6455,
      "step": 46579
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4912034869194031,
      "learning_rate": 0.00028438636935539444,
      "loss": 1.5739,
      "step": 46580
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5083926320075989,
      "learning_rate": 0.0002843759314139483,
      "loss": 1.647,
      "step": 46581
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49073758721351624,
      "learning_rate": 0.00028436549349146744,
      "loss": 1.6192,
      "step": 46582
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4831056594848633,
      "learning_rate": 0.00028435505558796476,
      "loss": 1.6049,
      "step": 46583
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4725278913974762,
      "learning_rate": 0.0002843446177034526,
      "loss": 1.5526,
      "step": 46584
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4912598729133606,
      "learning_rate": 0.0002843341798379437,
      "loss": 1.5637,
      "step": 46585
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5052765011787415,
      "learning_rate": 0.00028432374199145093,
      "loss": 1.61,
      "step": 46586
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49393564462661743,
      "learning_rate": 0.0002843133041639868,
      "loss": 1.6063,
      "step": 46587
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5097099542617798,
      "learning_rate": 0.000284302866355564,
      "loss": 1.6145,
      "step": 46588
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49219730496406555,
      "learning_rate": 0.0002842924285661951,
      "loss": 1.6406,
      "step": 46589
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.510994017124176,
      "learning_rate": 0.00028428199079589303,
      "loss": 1.5922,
      "step": 46590
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47657686471939087,
      "learning_rate": 0.00028427155304467023,
      "loss": 1.5427,
      "step": 46591
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.46320125460624695,
      "learning_rate": 0.0002842611153125395,
      "loss": 1.5912,
      "step": 46592
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.499099999666214,
      "learning_rate": 0.00028425067759951344,
      "loss": 1.5975,
      "step": 46593
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4841586947441101,
      "learning_rate": 0.0002842402399056047,
      "loss": 1.5542,
      "step": 46594
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48748430609703064,
      "learning_rate": 0.0002842298022308259,
      "loss": 1.6117,
      "step": 46595
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48540961742401123,
      "learning_rate": 0.00028421936457518997,
      "loss": 1.6221,
      "step": 46596
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4858154356479645,
      "learning_rate": 0.00028420892693870937,
      "loss": 1.6431,
      "step": 46597
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48553866147994995,
      "learning_rate": 0.00028419848932139676,
      "loss": 1.5827,
      "step": 46598
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47550061345100403,
      "learning_rate": 0.0002841880517232649,
      "loss": 1.6152,
      "step": 46599
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49771127104759216,
      "learning_rate": 0.0002841776141443264,
      "loss": 1.6197,
      "step": 46600
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4872356653213501,
      "learning_rate": 0.0002841671765845939,
      "loss": 1.5895,
      "step": 46601
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4890001118183136,
      "learning_rate": 0.0002841567390440801,
      "loss": 1.653,
      "step": 46602
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.493510901927948,
      "learning_rate": 0.0002841463015227977,
      "loss": 1.6101,
      "step": 46603
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49295321106910706,
      "learning_rate": 0.0002841358640207595,
      "loss": 1.6113,
      "step": 46604
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48422592878341675,
      "learning_rate": 0.0002841254265379779,
      "loss": 1.6156,
      "step": 46605
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4856865704059601,
      "learning_rate": 0.00028411498907446564,
      "loss": 1.6163,
      "step": 46606
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4815230369567871,
      "learning_rate": 0.00028410455163023555,
      "loss": 1.6191,
      "step": 46607
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48493024706840515,
      "learning_rate": 0.00028409411420530015,
      "loss": 1.5665,
      "step": 46608
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49578213691711426,
      "learning_rate": 0.0002840836767996721,
      "loss": 1.5648,
      "step": 46609
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4795016050338745,
      "learning_rate": 0.00028407323941336427,
      "loss": 1.5694,
      "step": 46610
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49289074540138245,
      "learning_rate": 0.000284062802046389,
      "loss": 1.6132,
      "step": 46611
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.46870550513267517,
      "learning_rate": 0.0002840523646987592,
      "loss": 1.6154,
      "step": 46612
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5079343914985657,
      "learning_rate": 0.0002840419273704875,
      "loss": 1.5925,
      "step": 46613
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4865414798259735,
      "learning_rate": 0.0002840314900615866,
      "loss": 1.5627,
      "step": 46614
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48242413997650146,
      "learning_rate": 0.0002840210527720691,
      "loss": 1.5953,
      "step": 46615
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4913606643676758,
      "learning_rate": 0.00028401061550194755,
      "loss": 1.6304,
      "step": 46616
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47458577156066895,
      "learning_rate": 0.00028400017825123497,
      "loss": 1.6335,
      "step": 46617
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48701128363609314,
      "learning_rate": 0.00028398974101994366,
      "loss": 1.6836,
      "step": 46618
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4905506372451782,
      "learning_rate": 0.00028397930380808645,
      "loss": 1.6253,
      "step": 46619
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49527624249458313,
      "learning_rate": 0.00028396886661567614,
      "loss": 1.5155,
      "step": 46620
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49793973565101624,
      "learning_rate": 0.0002839584294427251,
      "loss": 1.5908,
      "step": 46621
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5546156764030457,
      "learning_rate": 0.00028394799228924627,
      "loss": 1.5257,
      "step": 46622
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5043708086013794,
      "learning_rate": 0.0002839375551552521,
      "loss": 1.5543,
      "step": 46623
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47795984148979187,
      "learning_rate": 0.00028392711804075556,
      "loss": 1.546,
      "step": 46624
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4992406666278839,
      "learning_rate": 0.00028391668094576895,
      "loss": 1.5911,
      "step": 46625
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5066893100738525,
      "learning_rate": 0.00028390624387030514,
      "loss": 1.6315,
      "step": 46626
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5029618740081787,
      "learning_rate": 0.0002838958068143769,
      "loss": 1.5666,
      "step": 46627
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4784662425518036,
      "learning_rate": 0.0002838853697779967,
      "loss": 1.5447,
      "step": 46628
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48773589730262756,
      "learning_rate": 0.00028387493276117726,
      "loss": 1.6373,
      "step": 46629
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4764852523803711,
      "learning_rate": 0.00028386449576393136,
      "loss": 1.5775,
      "step": 46630
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4958323538303375,
      "learning_rate": 0.00028385405878627153,
      "loss": 1.5269,
      "step": 46631
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5041311979293823,
      "learning_rate": 0.00028384362182821044,
      "loss": 1.5923,
      "step": 46632
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5209848880767822,
      "learning_rate": 0.00028383318488976083,
      "loss": 1.5812,
      "step": 46633
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49141955375671387,
      "learning_rate": 0.00028382274797093544,
      "loss": 1.626,
      "step": 46634
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5051201581954956,
      "learning_rate": 0.0002838123110717468,
      "loss": 1.5686,
      "step": 46635
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4898134171962738,
      "learning_rate": 0.00028380187419220764,
      "loss": 1.6258,
      "step": 46636
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4785725772380829,
      "learning_rate": 0.00028379143733233065,
      "loss": 1.5636,
      "step": 46637
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4884146749973297,
      "learning_rate": 0.0002837810004921284,
      "loss": 1.5765,
      "step": 46638
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.509684681892395,
      "learning_rate": 0.0002837705636716136,
      "loss": 1.5116,
      "step": 46639
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4986989498138428,
      "learning_rate": 0.0002837601268707991,
      "loss": 1.6443,
      "step": 46640
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48504242300987244,
      "learning_rate": 0.0002837496900896972,
      "loss": 1.5556,
      "step": 46641
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5074904561042786,
      "learning_rate": 0.0002837392533283209,
      "loss": 1.5511,
      "step": 46642
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49718087911605835,
      "learning_rate": 0.00028372881658668273,
      "loss": 1.5845,
      "step": 46643
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5039393305778503,
      "learning_rate": 0.00028371837986479546,
      "loss": 1.6086,
      "step": 46644
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47765666246414185,
      "learning_rate": 0.00028370794316267157,
      "loss": 1.6528,
      "step": 46645
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5341867804527283,
      "learning_rate": 0.0002836975064803238,
      "loss": 1.6108,
      "step": 46646
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48518654704093933,
      "learning_rate": 0.00028368706981776504,
      "loss": 1.6021,
      "step": 46647
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4794929325580597,
      "learning_rate": 0.0002836766331750076,
      "loss": 1.5872,
      "step": 46648
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4915463626384735,
      "learning_rate": 0.00028366619655206436,
      "loss": 1.4942,
      "step": 46649
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47258812189102173,
      "learning_rate": 0.00028365575994894807,
      "loss": 1.5929,
      "step": 46650
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4983251094818115,
      "learning_rate": 0.00028364532336567117,
      "loss": 1.6455,
      "step": 46651
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4726560115814209,
      "learning_rate": 0.0002836348868022464,
      "loss": 1.546,
      "step": 46652
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5012854933738708,
      "learning_rate": 0.00028362445025868646,
      "loss": 1.7122,
      "step": 46653
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4956260025501251,
      "learning_rate": 0.0002836140137350042,
      "loss": 1.6332,
      "step": 46654
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4965329170227051,
      "learning_rate": 0.0002836035772312119,
      "loss": 1.5786,
      "step": 46655
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.51754230260849,
      "learning_rate": 0.00028359314074732255,
      "loss": 1.6409,
      "step": 46656
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4931409955024719,
      "learning_rate": 0.00028358270428334876,
      "loss": 1.5177,
      "step": 46657
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4871504604816437,
      "learning_rate": 0.0002835722678393031,
      "loss": 1.5077,
      "step": 46658
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48994848132133484,
      "learning_rate": 0.00028356183141519824,
      "loss": 1.5204,
      "step": 46659
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4666747450828552,
      "learning_rate": 0.000283551395011047,
      "loss": 1.5253,
      "step": 46660
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48235559463500977,
      "learning_rate": 0.0002835409586268618,
      "loss": 1.624,
      "step": 46661
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.507660448551178,
      "learning_rate": 0.0002835305222626554,
      "loss": 1.5765,
      "step": 46662
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4912232458591461,
      "learning_rate": 0.0002835200859184407,
      "loss": 1.6356,
      "step": 46663
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4790976345539093,
      "learning_rate": 0.00028350964959423017,
      "loss": 1.651,
      "step": 46664
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5094118714332581,
      "learning_rate": 0.0002834992132900364,
      "loss": 1.6007,
      "step": 46665
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4983699917793274,
      "learning_rate": 0.0002834887770058722,
      "loss": 1.6579,
      "step": 46666
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5009385943412781,
      "learning_rate": 0.0002834783407417503,
      "loss": 1.6218,
      "step": 46667
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.498806357383728,
      "learning_rate": 0.0002834679044976831,
      "loss": 1.5794,
      "step": 46668
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4802780747413635,
      "learning_rate": 0.0002834574682736834,
      "loss": 1.5327,
      "step": 46669
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5205969214439392,
      "learning_rate": 0.00028344703206976415,
      "loss": 1.6781,
      "step": 46670
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4901348650455475,
      "learning_rate": 0.0002834365958859375,
      "loss": 1.5952,
      "step": 46671
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4798419773578644,
      "learning_rate": 0.00028342615972221644,
      "loss": 1.5823,
      "step": 46672
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5031202435493469,
      "learning_rate": 0.0002834157235786136,
      "loss": 1.6353,
      "step": 46673
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47886452078819275,
      "learning_rate": 0.00028340528745514175,
      "loss": 1.5607,
      "step": 46674
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4886745810508728,
      "learning_rate": 0.00028339485135181334,
      "loss": 1.6266,
      "step": 46675
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48021411895751953,
      "learning_rate": 0.000283384415268641,
      "loss": 1.6219,
      "step": 46676
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5062480568885803,
      "learning_rate": 0.0002833739792056378,
      "loss": 1.7489,
      "step": 46677
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48249417543411255,
      "learning_rate": 0.0002833635431628159,
      "loss": 1.6099,
      "step": 46678
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5073075294494629,
      "learning_rate": 0.0002833531071401883,
      "loss": 1.6199,
      "step": 46679
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4948820471763611,
      "learning_rate": 0.00028334267113776766,
      "loss": 1.5587,
      "step": 46680
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.46641474962234497,
      "learning_rate": 0.0002833322351555664,
      "loss": 1.4982,
      "step": 46681
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4906155467033386,
      "learning_rate": 0.0002833217991935975,
      "loss": 1.5305,
      "step": 46682
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49230754375457764,
      "learning_rate": 0.0002833113632518733,
      "loss": 1.575,
      "step": 46683
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49138951301574707,
      "learning_rate": 0.00028330092733040686,
      "loss": 1.5928,
      "step": 46684
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5027126669883728,
      "learning_rate": 0.0002832904914292105,
      "loss": 1.5995,
      "step": 46685
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47729671001434326,
      "learning_rate": 0.00028328005554829704,
      "loss": 1.6408,
      "step": 46686
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5005465745925903,
      "learning_rate": 0.0002832696196876792,
      "loss": 1.6143,
      "step": 46687
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48751935362815857,
      "learning_rate": 0.00028325918384736946,
      "loss": 1.6324,
      "step": 46688
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.486836701631546,
      "learning_rate": 0.0002832487480273807,
      "loss": 1.5996,
      "step": 46689
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4825231432914734,
      "learning_rate": 0.0002832383122277255,
      "loss": 1.5371,
      "step": 46690
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5055866837501526,
      "learning_rate": 0.00028322787644841644,
      "loss": 1.5958,
      "step": 46691
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5028632879257202,
      "learning_rate": 0.0002832174406894662,
      "loss": 1.5419,
      "step": 46692
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4920518696308136,
      "learning_rate": 0.00028320700495088763,
      "loss": 1.5439,
      "step": 46693
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49611133337020874,
      "learning_rate": 0.0002831965692326933,
      "loss": 1.6214,
      "step": 46694
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4654623568058014,
      "learning_rate": 0.00028318613353489586,
      "loss": 1.5278,
      "step": 46695
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4948174059391022,
      "learning_rate": 0.00028317569785750793,
      "loss": 1.6047,
      "step": 46696
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4984920918941498,
      "learning_rate": 0.0002831652622005423,
      "loss": 1.5771,
      "step": 46697
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4807794988155365,
      "learning_rate": 0.00028315482656401144,
      "loss": 1.5835,
      "step": 46698
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4706266224384308,
      "learning_rate": 0.00028314439094792815,
      "loss": 1.5427,
      "step": 46699
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4844237267971039,
      "learning_rate": 0.00028313395535230516,
      "loss": 1.5936,
      "step": 46700
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5093166828155518,
      "learning_rate": 0.000283123519777155,
      "loss": 1.6634,
      "step": 46701
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5023303031921387,
      "learning_rate": 0.00028311308422249046,
      "loss": 1.5655,
      "step": 46702
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4992341101169586,
      "learning_rate": 0.0002831026486883241,
      "loss": 1.6239,
      "step": 46703
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4833509624004364,
      "learning_rate": 0.0002830922131746687,
      "loss": 1.5824,
      "step": 46704
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4692184627056122,
      "learning_rate": 0.0002830817776815368,
      "loss": 1.5412,
      "step": 46705
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4942317008972168,
      "learning_rate": 0.0002830713422089411,
      "loss": 1.5611,
      "step": 46706
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5159743428230286,
      "learning_rate": 0.00028306090675689436,
      "loss": 1.6474,
      "step": 46707
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5146903991699219,
      "learning_rate": 0.00028305047132540917,
      "loss": 1.6324,
      "step": 46708
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.47164180874824524,
      "learning_rate": 0.00028304003591449824,
      "loss": 1.5898,
      "step": 46709
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48050135374069214,
      "learning_rate": 0.0002830296005241742,
      "loss": 1.6214,
      "step": 46710
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5107956528663635,
      "learning_rate": 0.0002830191651544497,
      "loss": 1.6652,
      "step": 46711
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5059108734130859,
      "learning_rate": 0.0002830087298053373,
      "loss": 1.6078,
      "step": 46712
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5035977959632874,
      "learning_rate": 0.00028299829447684993,
      "loss": 1.6931,
      "step": 46713
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4895865023136139,
      "learning_rate": 0.0002829878591690002,
      "loss": 1.6297,
      "step": 46714
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4958032965660095,
      "learning_rate": 0.0002829774238818006,
      "loss": 1.6252,
      "step": 46715
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.497631698846817,
      "learning_rate": 0.0002829669886152639,
      "loss": 1.6295,
      "step": 46716
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.561565101146698,
      "learning_rate": 0.0002829565533694029,
      "loss": 1.4923,
      "step": 46717
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49505624175071716,
      "learning_rate": 0.00028294611814423,
      "loss": 1.6213,
      "step": 46718
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4870304465293884,
      "learning_rate": 0.0002829356829397579,
      "loss": 1.571,
      "step": 46719
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4896007180213928,
      "learning_rate": 0.0002829252477559997,
      "loss": 1.6062,
      "step": 46720
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4996444284915924,
      "learning_rate": 0.0002829148125929674,
      "loss": 1.5729,
      "step": 46721
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4941181540489197,
      "learning_rate": 0.0002829043774506741,
      "loss": 1.6656,
      "step": 46722
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5128976702690125,
      "learning_rate": 0.0002828939423291324,
      "loss": 1.6482,
      "step": 46723
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4917086660861969,
      "learning_rate": 0.00028288350722835496,
      "loss": 1.6668,
      "step": 46724
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4962819218635559,
      "learning_rate": 0.0002828730721483544,
      "loss": 1.537,
      "step": 46725
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.8664266467094421,
      "learning_rate": 0.0002828626370891433,
      "loss": 1.5693,
      "step": 46726
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4877219498157501,
      "learning_rate": 0.00028285220205073465,
      "loss": 1.5157,
      "step": 46727
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5027078986167908,
      "learning_rate": 0.0002828417670331407,
      "loss": 1.5027,
      "step": 46728
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5088902115821838,
      "learning_rate": 0.0002828313320363744,
      "loss": 1.5349,
      "step": 46729
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5370843410491943,
      "learning_rate": 0.0002828208970604483,
      "loss": 1.6994,
      "step": 46730
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48071321845054626,
      "learning_rate": 0.00028281046210537516,
      "loss": 1.6055,
      "step": 46731
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.49186718463897705,
      "learning_rate": 0.00028280002717116754,
      "loss": 1.5994,
      "step": 46732
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5144710540771484,
      "learning_rate": 0.00028278959225783813,
      "loss": 1.5787,
      "step": 46733
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.48953986167907715,
      "learning_rate": 0.0002827791573653997,
      "loss": 1.5226,
      "step": 46734
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5004426836967468,
      "learning_rate": 0.0002827687224938648,
      "loss": 1.6565,
      "step": 46735
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4925955832004547,
      "learning_rate": 0.00028275828764324606,
      "loss": 1.6105,
      "step": 46736
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5522325038909912,
      "learning_rate": 0.00028274785281355634,
      "loss": 1.6675,
      "step": 46737
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5015207529067993,
      "learning_rate": 0.00028273741800480815,
      "loss": 1.6153,
      "step": 46738
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4980265200138092,
      "learning_rate": 0.0002827269832170141,
      "loss": 1.5301,
      "step": 46739
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4817376732826233,
      "learning_rate": 0.000282716548450187,
      "loss": 1.6164,
      "step": 46740
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4857097566127777,
      "learning_rate": 0.0002827061137043396,
      "loss": 1.5577,
      "step": 46741
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5065354704856873,
      "learning_rate": 0.0002826956789794842,
      "loss": 1.6452,
      "step": 46742
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4818897247314453,
      "learning_rate": 0.0002826852442756338,
      "loss": 1.5732,
      "step": 46743
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5085131525993347,
      "learning_rate": 0.000282674809592801,
      "loss": 1.6945,
      "step": 46744
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5066491365432739,
      "learning_rate": 0.0002826643749309984,
      "loss": 1.6137,
      "step": 46745
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4967503547668457,
      "learning_rate": 0.0002826539402902387,
      "loss": 1.6512,
      "step": 46746
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4842301309108734,
      "learning_rate": 0.0002826435056705346,
      "loss": 1.5917,
      "step": 46747
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4841707944869995,
      "learning_rate": 0.00028263307107189865,
      "loss": 1.629,
      "step": 46748
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4878217279911041,
      "learning_rate": 0.0002826226364943435,
      "loss": 1.5617,
      "step": 46749
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5106121301651001,
      "learning_rate": 0.00028261220193788206,
      "loss": 1.5648,
      "step": 46750
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5032362341880798,
      "learning_rate": 0.00028260176740252683,
      "loss": 1.6221,
      "step": 46751
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.513170063495636,
      "learning_rate": 0.00028259133288829045,
      "loss": 1.6542,
      "step": 46752
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4660152792930603,
      "learning_rate": 0.00028258089839518566,
      "loss": 1.6211,
      "step": 46753
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48587360978126526,
      "learning_rate": 0.00028257046392322514,
      "loss": 1.5806,
      "step": 46754
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5095175504684448,
      "learning_rate": 0.0002825600294724214,
      "loss": 1.6754,
      "step": 46755
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4793625473976135,
      "learning_rate": 0.00028254959504278723,
      "loss": 1.5987,
      "step": 46756
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49012133479118347,
      "learning_rate": 0.0002825391606343354,
      "loss": 1.6033,
      "step": 46757
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49392467737197876,
      "learning_rate": 0.0002825287262470783,
      "loss": 1.6177,
      "step": 46758
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5003231763839722,
      "learning_rate": 0.00028251829188102884,
      "loss": 1.591,
      "step": 46759
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.512506902217865,
      "learning_rate": 0.0002825078575361996,
      "loss": 1.6016,
      "step": 46760
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.481823205947876,
      "learning_rate": 0.00028249742321260324,
      "loss": 1.6083,
      "step": 46761
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4842524826526642,
      "learning_rate": 0.00028248698891025244,
      "loss": 1.6623,
      "step": 46762
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4959704279899597,
      "learning_rate": 0.00028247655462915975,
      "loss": 1.6389,
      "step": 46763
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.7489174604415894,
      "learning_rate": 0.00028246612036933813,
      "loss": 1.5966,
      "step": 46764
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49024224281311035,
      "learning_rate": 0.00028245568613079983,
      "loss": 1.597,
      "step": 46765
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4854221045970917,
      "learning_rate": 0.00028244525191355787,
      "loss": 1.5657,
      "step": 46766
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.479438453912735,
      "learning_rate": 0.00028243481771762487,
      "loss": 1.6176,
      "step": 46767
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49686670303344727,
      "learning_rate": 0.0002824243835430133,
      "loss": 1.6447,
      "step": 46768
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4971223473548889,
      "learning_rate": 0.0002824139493897359,
      "loss": 1.6224,
      "step": 46769
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.494239866733551,
      "learning_rate": 0.0002824035152578054,
      "loss": 1.6414,
      "step": 46770
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4926413297653198,
      "learning_rate": 0.0002823930811472346,
      "loss": 1.6692,
      "step": 46771
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49347764253616333,
      "learning_rate": 0.0002823826470580358,
      "loss": 1.6081,
      "step": 46772
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5012959837913513,
      "learning_rate": 0.00028237221299022195,
      "loss": 1.6188,
      "step": 46773
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48228582739830017,
      "learning_rate": 0.00028236177894380563,
      "loss": 1.5849,
      "step": 46774
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5085811614990234,
      "learning_rate": 0.00028235134491879954,
      "loss": 1.6116,
      "step": 46775
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4724690616130829,
      "learning_rate": 0.00028234091091521626,
      "loss": 1.5625,
      "step": 46776
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5018326044082642,
      "learning_rate": 0.00028233047693306863,
      "loss": 1.5939,
      "step": 46777
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4986231327056885,
      "learning_rate": 0.00028232004297236907,
      "loss": 1.7509,
      "step": 46778
    },
    {
      "epoch": 1.56,
      "grad_norm": 1.4552887678146362,
      "learning_rate": 0.00028230960903313036,
      "loss": 1.5975,
      "step": 46779
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48648586869239807,
      "learning_rate": 0.0002822991751153652,
      "loss": 1.6292,
      "step": 46780
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48277026414871216,
      "learning_rate": 0.00028228874121908633,
      "loss": 1.635,
      "step": 46781
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4856579303741455,
      "learning_rate": 0.00028227830734430627,
      "loss": 1.5786,
      "step": 46782
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.461770236492157,
      "learning_rate": 0.0002822678734910377,
      "loss": 1.5436,
      "step": 46783
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48292431235313416,
      "learning_rate": 0.0002822574396592934,
      "loss": 1.5746,
      "step": 46784
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48438262939453125,
      "learning_rate": 0.0002822470058490859,
      "loss": 1.6564,
      "step": 46785
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4763326346874237,
      "learning_rate": 0.0002822365720604278,
      "loss": 1.5721,
      "step": 46786
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4913874864578247,
      "learning_rate": 0.00028222613829333214,
      "loss": 1.558,
      "step": 46787
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49155116081237793,
      "learning_rate": 0.0002822157045478111,
      "loss": 1.5807,
      "step": 46788
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47707465291023254,
      "learning_rate": 0.00028220527082387765,
      "loss": 1.6293,
      "step": 46789
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48424839973449707,
      "learning_rate": 0.00028219483712154433,
      "loss": 1.5966,
      "step": 46790
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4805019795894623,
      "learning_rate": 0.00028218440344082404,
      "loss": 1.5454,
      "step": 46791
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4825665354728699,
      "learning_rate": 0.0002821739697817291,
      "loss": 1.6065,
      "step": 46792
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4667230546474457,
      "learning_rate": 0.00028216353614427225,
      "loss": 1.5888,
      "step": 46793
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4701230823993683,
      "learning_rate": 0.0002821531025284665,
      "loss": 1.5574,
      "step": 46794
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4793986678123474,
      "learning_rate": 0.00028214266893432404,
      "loss": 1.5632,
      "step": 46795
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48341041803359985,
      "learning_rate": 0.0002821322353618578,
      "loss": 1.5529,
      "step": 46796
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48267510533332825,
      "learning_rate": 0.00028212180181108045,
      "loss": 1.6772,
      "step": 46797
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48237350583076477,
      "learning_rate": 0.00028211136828200454,
      "loss": 1.5279,
      "step": 46798
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49221643805503845,
      "learning_rate": 0.0002821009347746428,
      "loss": 1.53,
      "step": 46799
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4946407675743103,
      "learning_rate": 0.00028209050128900784,
      "loss": 1.5966,
      "step": 46800
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4869867265224457,
      "learning_rate": 0.00028208006782511253,
      "loss": 1.6518,
      "step": 46801
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4972742199897766,
      "learning_rate": 0.00028206963438296925,
      "loss": 1.5928,
      "step": 46802
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48642054200172424,
      "learning_rate": 0.0002820592009625908,
      "loss": 1.502,
      "step": 46803
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5132388472557068,
      "learning_rate": 0.00028204876756398993,
      "loss": 1.624,
      "step": 46804
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47478240728378296,
      "learning_rate": 0.0002820383341871791,
      "loss": 1.5417,
      "step": 46805
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4777991473674774,
      "learning_rate": 0.00028202790083217113,
      "loss": 1.5614,
      "step": 46806
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5168439149856567,
      "learning_rate": 0.0002820174674989787,
      "loss": 1.5997,
      "step": 46807
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49225911498069763,
      "learning_rate": 0.0002820070341876143,
      "loss": 1.604,
      "step": 46808
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4989616572856903,
      "learning_rate": 0.0002819966008980907,
      "loss": 1.6821,
      "step": 46809
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4900122284889221,
      "learning_rate": 0.00028198616763042063,
      "loss": 1.5919,
      "step": 46810
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4843040406703949,
      "learning_rate": 0.00028197573438461677,
      "loss": 1.6661,
      "step": 46811
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4947088956832886,
      "learning_rate": 0.0002819653011606916,
      "loss": 1.6433,
      "step": 46812
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4847361445426941,
      "learning_rate": 0.0002819548679586579,
      "loss": 1.641,
      "step": 46813
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49852457642555237,
      "learning_rate": 0.00028194443477852846,
      "loss": 1.5765,
      "step": 46814
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46605223417282104,
      "learning_rate": 0.00028193400162031577,
      "loss": 1.6175,
      "step": 46815
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4984999895095825,
      "learning_rate": 0.0002819235684840324,
      "loss": 1.615,
      "step": 46816
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49677878618240356,
      "learning_rate": 0.0002819131353696913,
      "loss": 1.5318,
      "step": 46817
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4768599271774292,
      "learning_rate": 0.00028190270227730494,
      "loss": 1.6148,
      "step": 46818
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46568286418914795,
      "learning_rate": 0.000281892269206886,
      "loss": 1.6435,
      "step": 46819
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49488887190818787,
      "learning_rate": 0.0002818818361584472,
      "loss": 1.5839,
      "step": 46820
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48362454771995544,
      "learning_rate": 0.00028187140313200125,
      "loss": 1.5743,
      "step": 46821
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.479697585105896,
      "learning_rate": 0.0002818609701275607,
      "loss": 1.6219,
      "step": 46822
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4996660351753235,
      "learning_rate": 0.0002818505371451382,
      "loss": 1.6445,
      "step": 46823
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4855690002441406,
      "learning_rate": 0.00028184010418474655,
      "loss": 1.6433,
      "step": 46824
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4881752133369446,
      "learning_rate": 0.0002818296712463983,
      "loss": 1.6452,
      "step": 46825
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49431732296943665,
      "learning_rate": 0.00028181923833010613,
      "loss": 1.6419,
      "step": 46826
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4855912923812866,
      "learning_rate": 0.00028180880543588285,
      "loss": 1.5858,
      "step": 46827
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4881434738636017,
      "learning_rate": 0.0002817983725637409,
      "loss": 1.5947,
      "step": 46828
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49007099866867065,
      "learning_rate": 0.00028178793971369296,
      "loss": 1.556,
      "step": 46829
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4849449694156647,
      "learning_rate": 0.00028177750688575183,
      "loss": 1.5483,
      "step": 46830
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48751547932624817,
      "learning_rate": 0.0002817670740799302,
      "loss": 1.5397,
      "step": 46831
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49012336134910583,
      "learning_rate": 0.00028175664129624064,
      "loss": 1.5439,
      "step": 46832
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5160927772521973,
      "learning_rate": 0.0002817462085346958,
      "loss": 1.5472,
      "step": 46833
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4883827567100525,
      "learning_rate": 0.00028173577579530845,
      "loss": 1.7097,
      "step": 46834
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5353507399559021,
      "learning_rate": 0.0002817253430780911,
      "loss": 1.5576,
      "step": 46835
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4931143522262573,
      "learning_rate": 0.0002817149103830564,
      "loss": 1.5737,
      "step": 46836
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49524983763694763,
      "learning_rate": 0.00028170447771021733,
      "loss": 1.6065,
      "step": 46837
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4913317561149597,
      "learning_rate": 0.00028169404505958614,
      "loss": 1.5785,
      "step": 46838
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48328596353530884,
      "learning_rate": 0.0002816836124311757,
      "loss": 1.5815,
      "step": 46839
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5046446323394775,
      "learning_rate": 0.0002816731798249987,
      "loss": 1.5801,
      "step": 46840
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4928354322910309,
      "learning_rate": 0.0002816627472410678,
      "loss": 1.5553,
      "step": 46841
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4756940007209778,
      "learning_rate": 0.00028165231467939557,
      "loss": 1.5992,
      "step": 46842
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4944148361682892,
      "learning_rate": 0.00028164188213999463,
      "loss": 1.5661,
      "step": 46843
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48295682668685913,
      "learning_rate": 0.000281631449622878,
      "loss": 1.6456,
      "step": 46844
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4951053559780121,
      "learning_rate": 0.00028162101712805784,
      "loss": 1.5974,
      "step": 46845
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4805043637752533,
      "learning_rate": 0.00028161058465554713,
      "loss": 1.6471,
      "step": 46846
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5063724517822266,
      "learning_rate": 0.00028160015220535847,
      "loss": 1.6471,
      "step": 46847
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4953191578388214,
      "learning_rate": 0.0002815897197775046,
      "loss": 1.5828,
      "step": 46848
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4868510365486145,
      "learning_rate": 0.000281579287371998,
      "loss": 1.6297,
      "step": 46849
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4970647990703583,
      "learning_rate": 0.00028156885498885136,
      "loss": 1.6432,
      "step": 46850
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49015718698501587,
      "learning_rate": 0.00028155842262807767,
      "loss": 1.5983,
      "step": 46851
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49910739064216614,
      "learning_rate": 0.00028154799028968906,
      "loss": 1.6922,
      "step": 46852
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47306278347969055,
      "learning_rate": 0.0002815375579736986,
      "loss": 1.5832,
      "step": 46853
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5046756267547607,
      "learning_rate": 0.0002815271256801189,
      "loss": 1.5775,
      "step": 46854
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4898258149623871,
      "learning_rate": 0.0002815166934089624,
      "loss": 1.6327,
      "step": 46855
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49582263827323914,
      "learning_rate": 0.000281506261160242,
      "loss": 1.587,
      "step": 46856
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5006210207939148,
      "learning_rate": 0.0002814958289339701,
      "loss": 1.5418,
      "step": 46857
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5122770667076111,
      "learning_rate": 0.00028148539673015984,
      "loss": 1.5802,
      "step": 46858
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46942102909088135,
      "learning_rate": 0.00028147496454882334,
      "loss": 1.5653,
      "step": 46859
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5055181384086609,
      "learning_rate": 0.00028146453238997357,
      "loss": 1.5934,
      "step": 46860
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5028776526451111,
      "learning_rate": 0.00028145410025362316,
      "loss": 1.5981,
      "step": 46861
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5062309503555298,
      "learning_rate": 0.00028144366813978475,
      "loss": 1.6062,
      "step": 46862
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5296882390975952,
      "learning_rate": 0.00028143323604847096,
      "loss": 1.5606,
      "step": 46863
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5396336913108826,
      "learning_rate": 0.00028142280397969454,
      "loss": 1.7137,
      "step": 46864
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4799755811691284,
      "learning_rate": 0.00028141237193346806,
      "loss": 1.537,
      "step": 46865
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5073540210723877,
      "learning_rate": 0.0002814019399098041,
      "loss": 1.6447,
      "step": 46866
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5143262147903442,
      "learning_rate": 0.0002813915079087155,
      "loss": 1.6773,
      "step": 46867
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5029603242874146,
      "learning_rate": 0.000281381075930215,
      "loss": 1.5636,
      "step": 46868
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5221489667892456,
      "learning_rate": 0.00028137064397431503,
      "loss": 1.5929,
      "step": 46869
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4869561195373535,
      "learning_rate": 0.0002813602120410284,
      "loss": 1.6178,
      "step": 46870
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49117782711982727,
      "learning_rate": 0.0002813497801303677,
      "loss": 1.5741,
      "step": 46871
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49141132831573486,
      "learning_rate": 0.00028133934824234563,
      "loss": 1.6701,
      "step": 46872
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4925757944583893,
      "learning_rate": 0.00028132891637697475,
      "loss": 1.4912,
      "step": 46873
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4824874997138977,
      "learning_rate": 0.00028131848453426803,
      "loss": 1.5992,
      "step": 46874
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5083528757095337,
      "learning_rate": 0.0002813080527142377,
      "loss": 1.6134,
      "step": 46875
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48024871945381165,
      "learning_rate": 0.0002812976209168967,
      "loss": 1.5374,
      "step": 46876
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5091909170150757,
      "learning_rate": 0.00028128718914225765,
      "loss": 1.5898,
      "step": 46877
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4866046607494354,
      "learning_rate": 0.00028127675739033324,
      "loss": 1.5984,
      "step": 46878
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47641223669052124,
      "learning_rate": 0.0002812663256611361,
      "loss": 1.5822,
      "step": 46879
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5095430612564087,
      "learning_rate": 0.0002812558939546787,
      "loss": 1.633,
      "step": 46880
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4887354075908661,
      "learning_rate": 0.00028124546227097417,
      "loss": 1.6453,
      "step": 46881
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4741617441177368,
      "learning_rate": 0.0002812350306100346,
      "loss": 1.5401,
      "step": 46882
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49214890599250793,
      "learning_rate": 0.0002812245989718731,
      "loss": 1.6227,
      "step": 46883
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5003471970558167,
      "learning_rate": 0.00028121416735650215,
      "loss": 1.6359,
      "step": 46884
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4836256206035614,
      "learning_rate": 0.0002812037357639344,
      "loss": 1.5839,
      "step": 46885
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4926489293575287,
      "learning_rate": 0.0002811933041941826,
      "loss": 1.495,
      "step": 46886
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5150991082191467,
      "learning_rate": 0.00028118287264725924,
      "loss": 1.6641,
      "step": 46887
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48294252157211304,
      "learning_rate": 0.00028117244112317726,
      "loss": 1.6202,
      "step": 46888
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5012552738189697,
      "learning_rate": 0.000281162009621949,
      "loss": 1.6081,
      "step": 46889
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4861658811569214,
      "learning_rate": 0.00028115157814358736,
      "loss": 1.5871,
      "step": 46890
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48996543884277344,
      "learning_rate": 0.00028114114668810497,
      "loss": 1.5918,
      "step": 46891
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.484524667263031,
      "learning_rate": 0.0002811307152555144,
      "loss": 1.4819,
      "step": 46892
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48781269788742065,
      "learning_rate": 0.0002811202838458284,
      "loss": 1.6016,
      "step": 46893
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5269321799278259,
      "learning_rate": 0.00028110985245905965,
      "loss": 1.6459,
      "step": 46894
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48454686999320984,
      "learning_rate": 0.00028109942109522064,
      "loss": 1.5949,
      "step": 46895
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4980912208557129,
      "learning_rate": 0.0002810889897543241,
      "loss": 1.6274,
      "step": 46896
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5068802237510681,
      "learning_rate": 0.00028107855843638284,
      "loss": 1.6966,
      "step": 46897
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5088281035423279,
      "learning_rate": 0.0002810681271414095,
      "loss": 1.5863,
      "step": 46898
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.494858056306839,
      "learning_rate": 0.0002810576958694165,
      "loss": 1.5794,
      "step": 46899
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5052379369735718,
      "learning_rate": 0.0002810472646204167,
      "loss": 1.6334,
      "step": 46900
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4703061580657959,
      "learning_rate": 0.00028103683339442283,
      "loss": 1.5684,
      "step": 46901
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48089683055877686,
      "learning_rate": 0.0002810264021914474,
      "loss": 1.6377,
      "step": 46902
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4900539219379425,
      "learning_rate": 0.000281015971011503,
      "loss": 1.6217,
      "step": 46903
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4810212552547455,
      "learning_rate": 0.00028100553985460267,
      "loss": 1.5755,
      "step": 46904
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5212821364402771,
      "learning_rate": 0.00028099510872075855,
      "loss": 1.5855,
      "step": 46905
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47779449820518494,
      "learning_rate": 0.0002809846776099837,
      "loss": 1.5864,
      "step": 46906
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5038377046585083,
      "learning_rate": 0.0002809742465222906,
      "loss": 1.6057,
      "step": 46907
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46827173233032227,
      "learning_rate": 0.00028096381545769205,
      "loss": 1.6307,
      "step": 46908
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4734400808811188,
      "learning_rate": 0.00028095338441620055,
      "loss": 1.6275,
      "step": 46909
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49998021125793457,
      "learning_rate": 0.0002809429533978288,
      "loss": 1.663,
      "step": 46910
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49889448285102844,
      "learning_rate": 0.0002809325224025897,
      "loss": 1.6153,
      "step": 46911
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.9646061658859253,
      "learning_rate": 0.0002809220914304954,
      "loss": 1.6996,
      "step": 46912
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5677343010902405,
      "learning_rate": 0.00028091166048155905,
      "loss": 1.6618,
      "step": 46913
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4813378155231476,
      "learning_rate": 0.00028090122955579317,
      "loss": 1.5822,
      "step": 46914
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48720163106918335,
      "learning_rate": 0.0002808907986532103,
      "loss": 1.5937,
      "step": 46915
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4800020158290863,
      "learning_rate": 0.00028088036777382323,
      "loss": 1.6267,
      "step": 46916
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4899604022502899,
      "learning_rate": 0.00028086993691764443,
      "loss": 1.6836,
      "step": 46917
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4897841811180115,
      "learning_rate": 0.00028085950608468696,
      "loss": 1.6576,
      "step": 46918
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49369385838508606,
      "learning_rate": 0.00028084907527496303,
      "loss": 1.594,
      "step": 46919
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4940780699253082,
      "learning_rate": 0.0002808386444884856,
      "loss": 1.5728,
      "step": 46920
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4761863648891449,
      "learning_rate": 0.00028082821372526725,
      "loss": 1.5744,
      "step": 46921
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47722306847572327,
      "learning_rate": 0.00028081778298532056,
      "loss": 1.5667,
      "step": 46922
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4845169186592102,
      "learning_rate": 0.00028080735226865825,
      "loss": 1.4861,
      "step": 46923
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48247042298316956,
      "learning_rate": 0.00028079692157529306,
      "loss": 1.6764,
      "step": 46924
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48832476139068604,
      "learning_rate": 0.0002807864909052375,
      "loss": 1.5954,
      "step": 46925
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4916800260543823,
      "learning_rate": 0.0002807760602585043,
      "loss": 1.5193,
      "step": 46926
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4770450294017792,
      "learning_rate": 0.00028076562963510614,
      "loss": 1.5683,
      "step": 46927
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.481544554233551,
      "learning_rate": 0.0002807551990350558,
      "loss": 1.5585,
      "step": 46928
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4838356673717499,
      "learning_rate": 0.00028074476845836566,
      "loss": 1.652,
      "step": 46929
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5007843375205994,
      "learning_rate": 0.00028073433790504855,
      "loss": 1.6192,
      "step": 46930
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47469791769981384,
      "learning_rate": 0.00028072390737511724,
      "loss": 1.5602,
      "step": 46931
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4901275932788849,
      "learning_rate": 0.00028071347686858415,
      "loss": 1.5493,
      "step": 46932
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5075778365135193,
      "learning_rate": 0.00028070304638546197,
      "loss": 1.6474,
      "step": 46933
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.487322062253952,
      "learning_rate": 0.00028069261592576365,
      "loss": 1.6191,
      "step": 46934
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4921860694885254,
      "learning_rate": 0.00028068218548950156,
      "loss": 1.5944,
      "step": 46935
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4732966423034668,
      "learning_rate": 0.0002806717550766884,
      "loss": 1.5735,
      "step": 46936
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46933865547180176,
      "learning_rate": 0.00028066132468733694,
      "loss": 1.6275,
      "step": 46937
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48054739832878113,
      "learning_rate": 0.00028065089432145984,
      "loss": 1.5567,
      "step": 46938
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48218435049057007,
      "learning_rate": 0.0002806404639790696,
      "loss": 1.6282,
      "step": 46939
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48434391617774963,
      "learning_rate": 0.00028063003366017895,
      "loss": 1.6175,
      "step": 46940
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47427427768707275,
      "learning_rate": 0.00028061960336480074,
      "loss": 1.574,
      "step": 46941
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5138872861862183,
      "learning_rate": 0.0002806091730929474,
      "loss": 1.5566,
      "step": 46942
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4754136800765991,
      "learning_rate": 0.00028059874284463163,
      "loss": 1.574,
      "step": 46943
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47862356901168823,
      "learning_rate": 0.0002805883126198662,
      "loss": 1.5635,
      "step": 46944
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48699721693992615,
      "learning_rate": 0.00028057788241866365,
      "loss": 1.5668,
      "step": 46945
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5052778720855713,
      "learning_rate": 0.0002805674522410366,
      "loss": 1.5978,
      "step": 46946
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49508973956108093,
      "learning_rate": 0.00028055702208699794,
      "loss": 1.5547,
      "step": 46947
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4876849055290222,
      "learning_rate": 0.00028054659195656017,
      "loss": 1.625,
      "step": 46948
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49585533142089844,
      "learning_rate": 0.00028053616184973594,
      "loss": 1.5593,
      "step": 46949
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4907062351703644,
      "learning_rate": 0.00028052573176653794,
      "loss": 1.59,
      "step": 46950
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4734295904636383,
      "learning_rate": 0.0002805153017069789,
      "loss": 1.5894,
      "step": 46951
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49584025144577026,
      "learning_rate": 0.00028050487167107137,
      "loss": 1.585,
      "step": 46952
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49399080872535706,
      "learning_rate": 0.00028049444165882795,
      "loss": 1.5698,
      "step": 46953
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4905332326889038,
      "learning_rate": 0.00028048401167026155,
      "loss": 1.5912,
      "step": 46954
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5047890543937683,
      "learning_rate": 0.0002804735817053846,
      "loss": 1.6259,
      "step": 46955
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4983428120613098,
      "learning_rate": 0.00028046315176420987,
      "loss": 1.637,
      "step": 46956
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4959280788898468,
      "learning_rate": 0.00028045272184674995,
      "loss": 1.5593,
      "step": 46957
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5096500515937805,
      "learning_rate": 0.00028044229195301764,
      "loss": 1.5522,
      "step": 46958
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4905133843421936,
      "learning_rate": 0.00028043186208302545,
      "loss": 1.5398,
      "step": 46959
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5018609166145325,
      "learning_rate": 0.000280421432236786,
      "loss": 1.5911,
      "step": 46960
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4730551838874817,
      "learning_rate": 0.0002804110024143123,
      "loss": 1.6206,
      "step": 46961
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46734458208084106,
      "learning_rate": 0.00028040057261561653,
      "loss": 1.5196,
      "step": 46962
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.7492115497589111,
      "learning_rate": 0.0002803901428407117,
      "loss": 1.6521,
      "step": 46963
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4953595697879791,
      "learning_rate": 0.0002803797130896103,
      "loss": 1.588,
      "step": 46964
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.519744336605072,
      "learning_rate": 0.000280369283362325,
      "loss": 1.6396,
      "step": 46965
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4839177131652832,
      "learning_rate": 0.00028035885365886856,
      "loss": 1.5745,
      "step": 46966
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48931220173835754,
      "learning_rate": 0.0002803484239792535,
      "loss": 1.6197,
      "step": 46967
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5189031958580017,
      "learning_rate": 0.0002803379943234927,
      "loss": 1.685,
      "step": 46968
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48597487807273865,
      "learning_rate": 0.0002803275646915985,
      "loss": 1.5872,
      "step": 46969
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.501732349395752,
      "learning_rate": 0.0002803171350835838,
      "loss": 1.5473,
      "step": 46970
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46872881054878235,
      "learning_rate": 0.0002803067054994613,
      "loss": 1.5534,
      "step": 46971
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4981100857257843,
      "learning_rate": 0.0002802962759392435,
      "loss": 1.599,
      "step": 46972
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5264913439750671,
      "learning_rate": 0.00028028584640294303,
      "loss": 1.6186,
      "step": 46973
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5221477746963501,
      "learning_rate": 0.00028027541689057265,
      "loss": 1.6198,
      "step": 46974
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.51751309633255,
      "learning_rate": 0.0002802649874021452,
      "loss": 1.6331,
      "step": 46975
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4957834482192993,
      "learning_rate": 0.00028025455793767297,
      "loss": 1.6518,
      "step": 46976
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49579405784606934,
      "learning_rate": 0.00028024412849716877,
      "loss": 1.5769,
      "step": 46977
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5124905109405518,
      "learning_rate": 0.00028023369908064543,
      "loss": 1.6661,
      "step": 46978
    },
    {
      "epoch": 1.56,
      "grad_norm": 1.2151118516921997,
      "learning_rate": 0.0002802232696881154,
      "loss": 1.5759,
      "step": 46979
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4934721291065216,
      "learning_rate": 0.00028021284031959137,
      "loss": 1.5946,
      "step": 46980
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4881362020969391,
      "learning_rate": 0.0002802024109750861,
      "loss": 1.6369,
      "step": 46981
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5030664205551147,
      "learning_rate": 0.00028019198165461215,
      "loss": 1.6541,
      "step": 46982
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49376794695854187,
      "learning_rate": 0.00028018155235818215,
      "loss": 1.5491,
      "step": 46983
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49887320399284363,
      "learning_rate": 0.0002801711230858089,
      "loss": 1.5649,
      "step": 46984
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47974875569343567,
      "learning_rate": 0.00028016069383750503,
      "loss": 1.5989,
      "step": 46985
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49203285574913025,
      "learning_rate": 0.00028015026461328306,
      "loss": 1.6396,
      "step": 46986
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48161810636520386,
      "learning_rate": 0.0002801398354131558,
      "loss": 1.5967,
      "step": 46987
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48902004957199097,
      "learning_rate": 0.0002801294062371359,
      "loss": 1.5666,
      "step": 46988
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5042482018470764,
      "learning_rate": 0.0002801189770852359,
      "loss": 1.537,
      "step": 46989
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48977741599082947,
      "learning_rate": 0.0002801085479574685,
      "loss": 1.5891,
      "step": 46990
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48690086603164673,
      "learning_rate": 0.0002800981188538465,
      "loss": 1.6191,
      "step": 46991
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48264992237091064,
      "learning_rate": 0.00028008768977438235,
      "loss": 1.5931,
      "step": 46992
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4895128607749939,
      "learning_rate": 0.00028007726071908884,
      "loss": 1.6479,
      "step": 46993
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49404028058052063,
      "learning_rate": 0.0002800668316879786,
      "loss": 1.6503,
      "step": 46994
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49981242418289185,
      "learning_rate": 0.0002800564026810643,
      "loss": 1.6098,
      "step": 46995
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48389920592308044,
      "learning_rate": 0.00028004597369835863,
      "loss": 1.6503,
      "step": 46996
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48823606967926025,
      "learning_rate": 0.00028003554473987407,
      "loss": 1.571,
      "step": 46997
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4880077838897705,
      "learning_rate": 0.00028002511580562365,
      "loss": 1.592,
      "step": 46998
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5016313195228577,
      "learning_rate": 0.0002800146868956196,
      "loss": 1.6395,
      "step": 46999
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49021390080451965,
      "learning_rate": 0.0002800042580098748,
      "loss": 1.611,
      "step": 47000
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47444143891334534,
      "learning_rate": 0.000279993829148402,
      "loss": 1.6223,
      "step": 47001
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4985904097557068,
      "learning_rate": 0.0002799834003112136,
      "loss": 1.6287,
      "step": 47002
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5044122338294983,
      "learning_rate": 0.00027997297149832246,
      "loss": 1.608,
      "step": 47003
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4804007411003113,
      "learning_rate": 0.00027996254270974116,
      "loss": 1.5969,
      "step": 47004
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4747917652130127,
      "learning_rate": 0.00027995211394548253,
      "loss": 1.6013,
      "step": 47005
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4724079370498657,
      "learning_rate": 0.00027994168520555887,
      "loss": 1.5559,
      "step": 47006
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49084174633026123,
      "learning_rate": 0.0002799312564899831,
      "loss": 1.5273,
      "step": 47007
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48563891649246216,
      "learning_rate": 0.0002799208277987679,
      "loss": 1.5553,
      "step": 47008
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.46266838908195496,
      "learning_rate": 0.00027991039913192583,
      "loss": 1.615,
      "step": 47009
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48841896653175354,
      "learning_rate": 0.00027989997048946956,
      "loss": 1.6182,
      "step": 47010
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4884673058986664,
      "learning_rate": 0.00027988954187141185,
      "loss": 1.6375,
      "step": 47011
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4968329668045044,
      "learning_rate": 0.0002798791132777652,
      "loss": 1.6651,
      "step": 47012
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5207877159118652,
      "learning_rate": 0.0002798686847085422,
      "loss": 1.6012,
      "step": 47013
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4759829044342041,
      "learning_rate": 0.0002798582561637558,
      "loss": 1.6316,
      "step": 47014
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4814980626106262,
      "learning_rate": 0.00027984782764341854,
      "loss": 1.5771,
      "step": 47015
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5027353763580322,
      "learning_rate": 0.000279837399147543,
      "loss": 1.6037,
      "step": 47016
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4829534590244293,
      "learning_rate": 0.0002798269706761419,
      "loss": 1.6591,
      "step": 47017
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.48839500546455383,
      "learning_rate": 0.0002798165422292279,
      "loss": 1.5873,
      "step": 47018
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4819549322128296,
      "learning_rate": 0.0002798061138068136,
      "loss": 1.6038,
      "step": 47019
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47897443175315857,
      "learning_rate": 0.00027979568540891165,
      "loss": 1.5469,
      "step": 47020
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49139297008514404,
      "learning_rate": 0.00027978525703553495,
      "loss": 1.5661,
      "step": 47021
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4978276491165161,
      "learning_rate": 0.0002797748286866958,
      "loss": 1.5963,
      "step": 47022
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5018907189369202,
      "learning_rate": 0.00027976440036240707,
      "loss": 1.5969,
      "step": 47023
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5050765872001648,
      "learning_rate": 0.00027975397206268137,
      "loss": 1.577,
      "step": 47024
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4880915880203247,
      "learning_rate": 0.00027974354378753144,
      "loss": 1.6336,
      "step": 47025
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4949958026409149,
      "learning_rate": 0.0002797331155369698,
      "loss": 1.6361,
      "step": 47026
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4979383051395416,
      "learning_rate": 0.00027972268731100904,
      "loss": 1.6251,
      "step": 47027
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4629005491733551,
      "learning_rate": 0.00027971225910966227,
      "loss": 1.5748,
      "step": 47028
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49503833055496216,
      "learning_rate": 0.0002797018309329415,
      "loss": 1.5743,
      "step": 47029
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49070245027542114,
      "learning_rate": 0.00027969140278085987,
      "loss": 1.6905,
      "step": 47030
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4927782714366913,
      "learning_rate": 0.00027968097465342994,
      "loss": 1.5963,
      "step": 47031
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5077075362205505,
      "learning_rate": 0.00027967054655066425,
      "loss": 1.6738,
      "step": 47032
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4846011996269226,
      "learning_rate": 0.0002796601184725755,
      "loss": 1.5926,
      "step": 47033
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47425150871276855,
      "learning_rate": 0.0002796496904191763,
      "loss": 1.5916,
      "step": 47034
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.47955790162086487,
      "learning_rate": 0.0002796392623904796,
      "loss": 1.7058,
      "step": 47035
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4828803241252899,
      "learning_rate": 0.00027962883438649764,
      "loss": 1.6032,
      "step": 47036
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5022925734519958,
      "learning_rate": 0.0002796184064072433,
      "loss": 1.655,
      "step": 47037
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.5015771985054016,
      "learning_rate": 0.0002796079784527293,
      "loss": 1.6056,
      "step": 47038
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4935280978679657,
      "learning_rate": 0.00027959755052296817,
      "loss": 1.5689,
      "step": 47039
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48750466108322144,
      "learning_rate": 0.00027958712261797256,
      "loss": 1.5638,
      "step": 47040
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49138471484184265,
      "learning_rate": 0.00027957669473775525,
      "loss": 1.586,
      "step": 47041
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5015637278556824,
      "learning_rate": 0.00027956626688232876,
      "loss": 1.5538,
      "step": 47042
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4884933531284332,
      "learning_rate": 0.0002795558390517058,
      "loss": 1.5612,
      "step": 47043
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5055568218231201,
      "learning_rate": 0.000279545411245899,
      "loss": 1.6555,
      "step": 47044
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5157843232154846,
      "learning_rate": 0.0002795349834649212,
      "loss": 1.5596,
      "step": 47045
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49015772342681885,
      "learning_rate": 0.00027952455570878483,
      "loss": 1.5814,
      "step": 47046
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49273091554641724,
      "learning_rate": 0.00027951412797750264,
      "loss": 1.6377,
      "step": 47047
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.47928398847579956,
      "learning_rate": 0.0002795037002710874,
      "loss": 1.5986,
      "step": 47048
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49923646450042725,
      "learning_rate": 0.0002794932725895515,
      "loss": 1.593,
      "step": 47049
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4884197413921356,
      "learning_rate": 0.0002794828449329077,
      "loss": 1.5646,
      "step": 47050
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49073299765586853,
      "learning_rate": 0.00027947241730116884,
      "loss": 1.5958,
      "step": 47051
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4859201908111572,
      "learning_rate": 0.00027946198969434736,
      "loss": 1.5643,
      "step": 47052
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4825748801231384,
      "learning_rate": 0.00027945156211245603,
      "loss": 1.5749,
      "step": 47053
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49481523036956787,
      "learning_rate": 0.0002794411345555074,
      "loss": 1.5872,
      "step": 47054
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4923190772533417,
      "learning_rate": 0.0002794307070235144,
      "loss": 1.6918,
      "step": 47055
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.485712468624115,
      "learning_rate": 0.0002794202795164893,
      "loss": 1.595,
      "step": 47056
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5030286312103271,
      "learning_rate": 0.00027940985203444495,
      "loss": 1.6274,
      "step": 47057
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5049489736557007,
      "learning_rate": 0.00027939942457739413,
      "loss": 1.6006,
      "step": 47058
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5097723603248596,
      "learning_rate": 0.0002793889971453493,
      "loss": 1.6608,
      "step": 47059
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48922017216682434,
      "learning_rate": 0.0002793785697383232,
      "loss": 1.6277,
      "step": 47060
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4804210960865021,
      "learning_rate": 0.0002793681423563285,
      "loss": 1.5713,
      "step": 47061
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4621034562587738,
      "learning_rate": 0.0002793577149993778,
      "loss": 1.5639,
      "step": 47062
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.47803133726119995,
      "learning_rate": 0.00027934728766748374,
      "loss": 1.5576,
      "step": 47063
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4940013289451599,
      "learning_rate": 0.00027933686036065906,
      "loss": 1.5197,
      "step": 47064
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4875454008579254,
      "learning_rate": 0.00027932643307891647,
      "loss": 1.5741,
      "step": 47065
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4789651036262512,
      "learning_rate": 0.00027931600582226855,
      "loss": 1.505,
      "step": 47066
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4948270618915558,
      "learning_rate": 0.00027930557859072783,
      "loss": 1.6361,
      "step": 47067
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.6331014633178711,
      "learning_rate": 0.00027929515138430726,
      "loss": 1.6252,
      "step": 47068
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4954259693622589,
      "learning_rate": 0.00027928472420301915,
      "loss": 1.591,
      "step": 47069
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49352627992630005,
      "learning_rate": 0.0002792742970468764,
      "loss": 1.5983,
      "step": 47070
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4786386787891388,
      "learning_rate": 0.0002792638699158917,
      "loss": 1.549,
      "step": 47071
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.47466427087783813,
      "learning_rate": 0.00027925344281007743,
      "loss": 1.5672,
      "step": 47072
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.493436723947525,
      "learning_rate": 0.0002792430157294465,
      "loss": 1.6294,
      "step": 47073
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.51121586561203,
      "learning_rate": 0.00027923258867401147,
      "loss": 1.5452,
      "step": 47074
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48437368869781494,
      "learning_rate": 0.0002792221616437851,
      "loss": 1.5425,
      "step": 47075
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49338364601135254,
      "learning_rate": 0.0002792117346387799,
      "loss": 1.6582,
      "step": 47076
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48191457986831665,
      "learning_rate": 0.0002792013076590085,
      "loss": 1.6254,
      "step": 47077
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5064098834991455,
      "learning_rate": 0.00027919088070448386,
      "loss": 1.6464,
      "step": 47078
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48253268003463745,
      "learning_rate": 0.00027918045377521827,
      "loss": 1.571,
      "step": 47079
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4765557050704956,
      "learning_rate": 0.00027917002687122456,
      "loss": 1.5509,
      "step": 47080
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4798905849456787,
      "learning_rate": 0.00027915959999251543,
      "loss": 1.6046,
      "step": 47081
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5018835663795471,
      "learning_rate": 0.00027914917313910344,
      "loss": 1.6082,
      "step": 47082
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5072183012962341,
      "learning_rate": 0.00027913874631100124,
      "loss": 1.6864,
      "step": 47083
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5159421563148499,
      "learning_rate": 0.0002791283195082215,
      "loss": 1.6518,
      "step": 47084
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48848509788513184,
      "learning_rate": 0.0002791178927307771,
      "loss": 1.531,
      "step": 47085
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4812456965446472,
      "learning_rate": 0.0002791074659786803,
      "loss": 1.5858,
      "step": 47086
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49926668405532837,
      "learning_rate": 0.000279097039251944,
      "loss": 1.5433,
      "step": 47087
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.508046567440033,
      "learning_rate": 0.0002790866125505809,
      "loss": 1.5252,
      "step": 47088
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4876897931098938,
      "learning_rate": 0.0002790761858746035,
      "loss": 1.6141,
      "step": 47089
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5009666085243225,
      "learning_rate": 0.0002790657592240245,
      "loss": 1.5597,
      "step": 47090
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5042581558227539,
      "learning_rate": 0.00027905533259885655,
      "loss": 1.6347,
      "step": 47091
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5079240798950195,
      "learning_rate": 0.0002790449059991126,
      "loss": 1.6739,
      "step": 47092
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4841095805168152,
      "learning_rate": 0.00027903447942480476,
      "loss": 1.589,
      "step": 47093
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48750218749046326,
      "learning_rate": 0.0002790240528759461,
      "loss": 1.5547,
      "step": 47094
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4963521361351013,
      "learning_rate": 0.00027901362635254914,
      "loss": 1.5731,
      "step": 47095
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.481558233499527,
      "learning_rate": 0.0002790031998546265,
      "loss": 1.569,
      "step": 47096
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5051210522651672,
      "learning_rate": 0.0002789927733821909,
      "loss": 1.6157,
      "step": 47097
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49815601110458374,
      "learning_rate": 0.00027898234693525504,
      "loss": 1.5898,
      "step": 47098
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5246185660362244,
      "learning_rate": 0.0002789719205138315,
      "loss": 1.5706,
      "step": 47099
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4875424802303314,
      "learning_rate": 0.0002789614941179328,
      "loss": 1.461,
      "step": 47100
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4942246973514557,
      "learning_rate": 0.00027895106774757187,
      "loss": 1.5945,
      "step": 47101
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5005537271499634,
      "learning_rate": 0.0002789406414027613,
      "loss": 1.6191,
      "step": 47102
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48834502696990967,
      "learning_rate": 0.0002789302150835136,
      "loss": 1.5855,
      "step": 47103
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5012630224227905,
      "learning_rate": 0.0002789197887898415,
      "loss": 1.5315,
      "step": 47104
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.6610140204429626,
      "learning_rate": 0.00027890936252175777,
      "loss": 1.653,
      "step": 47105
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4955472946166992,
      "learning_rate": 0.0002788989362792749,
      "loss": 1.6024,
      "step": 47106
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4786892533302307,
      "learning_rate": 0.00027888851006240554,
      "loss": 1.6095,
      "step": 47107
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49710503220558167,
      "learning_rate": 0.0002788780838711626,
      "loss": 1.6356,
      "step": 47108
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48635992407798767,
      "learning_rate": 0.0002788676577055584,
      "loss": 1.5537,
      "step": 47109
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5099824666976929,
      "learning_rate": 0.00027885723156560575,
      "loss": 1.5398,
      "step": 47110
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.47787442803382874,
      "learning_rate": 0.00027884680545131737,
      "loss": 1.5245,
      "step": 47111
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5095640420913696,
      "learning_rate": 0.0002788363793627059,
      "loss": 1.6045,
      "step": 47112
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5051365494728088,
      "learning_rate": 0.0002788259532997838,
      "loss": 1.6192,
      "step": 47113
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4852442145347595,
      "learning_rate": 0.00027881552726256387,
      "loss": 1.6159,
      "step": 47114
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4904578626155853,
      "learning_rate": 0.000278805101251059,
      "loss": 1.6223,
      "step": 47115
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48801544308662415,
      "learning_rate": 0.0002787946752652814,
      "loss": 1.6025,
      "step": 47116
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5208304524421692,
      "learning_rate": 0.000278784249305244,
      "loss": 1.5733,
      "step": 47117
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49892956018447876,
      "learning_rate": 0.0002787738233709594,
      "loss": 1.578,
      "step": 47118
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.509169340133667,
      "learning_rate": 0.0002787633974624403,
      "loss": 1.6612,
      "step": 47119
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5192834734916687,
      "learning_rate": 0.00027875297157969924,
      "loss": 1.676,
      "step": 47120
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5221061110496521,
      "learning_rate": 0.00027874254572274885,
      "loss": 1.5576,
      "step": 47121
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48045459389686584,
      "learning_rate": 0.0002787321198916021,
      "loss": 1.5957,
      "step": 47122
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5021114945411682,
      "learning_rate": 0.00027872169408627126,
      "loss": 1.5777,
      "step": 47123
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.500092089176178,
      "learning_rate": 0.00027871126830676917,
      "loss": 1.6524,
      "step": 47124
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.501526415348053,
      "learning_rate": 0.00027870084255310855,
      "loss": 1.5696,
      "step": 47125
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4893563389778137,
      "learning_rate": 0.0002786904168253019,
      "loss": 1.573,
      "step": 47126
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48474159836769104,
      "learning_rate": 0.000278679991123362,
      "loss": 1.6663,
      "step": 47127
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49407628178596497,
      "learning_rate": 0.00027866956544730145,
      "loss": 1.5602,
      "step": 47128
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48767298460006714,
      "learning_rate": 0.0002786591397971328,
      "loss": 1.6301,
      "step": 47129
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48166802525520325,
      "learning_rate": 0.0002786487141728688,
      "loss": 1.5845,
      "step": 47130
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5060613751411438,
      "learning_rate": 0.0002786382885745222,
      "loss": 1.5904,
      "step": 47131
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5306649804115295,
      "learning_rate": 0.0002786278630021056,
      "loss": 1.6969,
      "step": 47132
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49301785230636597,
      "learning_rate": 0.00027861743745563155,
      "loss": 1.588,
      "step": 47133
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4996316432952881,
      "learning_rate": 0.00027860701193511283,
      "loss": 1.6061,
      "step": 47134
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5402863025665283,
      "learning_rate": 0.00027859658644056206,
      "loss": 1.6708,
      "step": 47135
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48774394392967224,
      "learning_rate": 0.0002785861609719918,
      "loss": 1.6077,
      "step": 47136
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5010276436805725,
      "learning_rate": 0.00027857573552941475,
      "loss": 1.6344,
      "step": 47137
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4848055839538574,
      "learning_rate": 0.00027856531011284387,
      "loss": 1.5596,
      "step": 47138
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5168352127075195,
      "learning_rate": 0.0002785548847222912,
      "loss": 1.572,
      "step": 47139
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5018879175186157,
      "learning_rate": 0.0002785444593577699,
      "loss": 1.6031,
      "step": 47140
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4894143342971802,
      "learning_rate": 0.00027853403401929247,
      "loss": 1.5887,
      "step": 47141
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48638275265693665,
      "learning_rate": 0.0002785236087068716,
      "loss": 1.6375,
      "step": 47142
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.481498122215271,
      "learning_rate": 0.00027851318342051986,
      "loss": 1.5684,
      "step": 47143
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5015882849693298,
      "learning_rate": 0.0002785027581602499,
      "loss": 1.5434,
      "step": 47144
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5089946985244751,
      "learning_rate": 0.00027849233292607454,
      "loss": 1.6056,
      "step": 47145
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5032801032066345,
      "learning_rate": 0.0002784819077180062,
      "loss": 1.6615,
      "step": 47146
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5035327076911926,
      "learning_rate": 0.0002784714825360577,
      "loss": 1.6261,
      "step": 47147
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5056748986244202,
      "learning_rate": 0.0002784610573802417,
      "loss": 1.5818,
      "step": 47148
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5117060542106628,
      "learning_rate": 0.0002784506322505707,
      "loss": 1.6249,
      "step": 47149
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5147194266319275,
      "learning_rate": 0.0002784402071470575,
      "loss": 1.6211,
      "step": 47150
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49135902523994446,
      "learning_rate": 0.00027842978206971467,
      "loss": 1.5799,
      "step": 47151
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5010592341423035,
      "learning_rate": 0.0002784193570185551,
      "loss": 1.5825,
      "step": 47152
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.513104259967804,
      "learning_rate": 0.00027840893199359103,
      "loss": 1.6478,
      "step": 47153
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4911188781261444,
      "learning_rate": 0.0002783985069948354,
      "loss": 1.6484,
      "step": 47154
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4890372157096863,
      "learning_rate": 0.0002783880820223008,
      "loss": 1.5887,
      "step": 47155
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4922870695590973,
      "learning_rate": 0.00027837765707599996,
      "loss": 1.6202,
      "step": 47156
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4976976215839386,
      "learning_rate": 0.00027836723215594536,
      "loss": 1.6536,
      "step": 47157
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5116247534751892,
      "learning_rate": 0.0002783568072621498,
      "loss": 1.6362,
      "step": 47158
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4812622368335724,
      "learning_rate": 0.0002783463823946259,
      "loss": 1.552,
      "step": 47159
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4931876063346863,
      "learning_rate": 0.0002783359575533862,
      "loss": 1.6047,
      "step": 47160
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.503578245639801,
      "learning_rate": 0.00027832553273844353,
      "loss": 1.6231,
      "step": 47161
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5052756071090698,
      "learning_rate": 0.0002783151079498105,
      "loss": 1.6068,
      "step": 47162
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48478829860687256,
      "learning_rate": 0.0002783046831874997,
      "loss": 1.6029,
      "step": 47163
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4945189952850342,
      "learning_rate": 0.00027829425845152386,
      "loss": 1.623,
      "step": 47164
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.6516792178153992,
      "learning_rate": 0.00027828383374189556,
      "loss": 1.6047,
      "step": 47165
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.6095820069313049,
      "learning_rate": 0.0002782734090586275,
      "loss": 1.5666,
      "step": 47166
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5020931363105774,
      "learning_rate": 0.0002782629844017322,
      "loss": 1.6472,
      "step": 47167
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4774491786956787,
      "learning_rate": 0.00027825255977122264,
      "loss": 1.6631,
      "step": 47168
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48663389682769775,
      "learning_rate": 0.0002782421351671111,
      "loss": 1.5659,
      "step": 47169
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5152145624160767,
      "learning_rate": 0.0002782317105894105,
      "loss": 1.5377,
      "step": 47170
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.474366158246994,
      "learning_rate": 0.00027822128603813333,
      "loss": 1.5402,
      "step": 47171
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4995814263820648,
      "learning_rate": 0.00027821086151329243,
      "loss": 1.5875,
      "step": 47172
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4858575761318207,
      "learning_rate": 0.00027820043701490016,
      "loss": 1.59,
      "step": 47173
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5228353142738342,
      "learning_rate": 0.0002781900125429694,
      "loss": 1.6701,
      "step": 47174
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5090457797050476,
      "learning_rate": 0.00027817958809751283,
      "loss": 1.6253,
      "step": 47175
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5033705234527588,
      "learning_rate": 0.000278169163678543,
      "loss": 1.6182,
      "step": 47176
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49770280718803406,
      "learning_rate": 0.00027815873928607255,
      "loss": 1.6022,
      "step": 47177
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4938000440597534,
      "learning_rate": 0.0002781483149201142,
      "loss": 1.6113,
      "step": 47178
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4843127727508545,
      "learning_rate": 0.00027813789058068057,
      "loss": 1.5508,
      "step": 47179
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4867843687534332,
      "learning_rate": 0.00027812746626778423,
      "loss": 1.5525,
      "step": 47180
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4935964345932007,
      "learning_rate": 0.000278117041981438,
      "loss": 1.5207,
      "step": 47181
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48810893297195435,
      "learning_rate": 0.00027810661772165456,
      "loss": 1.5476,
      "step": 47182
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4977671802043915,
      "learning_rate": 0.0002780961934884463,
      "loss": 1.6201,
      "step": 47183
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5040283203125,
      "learning_rate": 0.00027808576928182614,
      "loss": 1.6479,
      "step": 47184
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49103429913520813,
      "learning_rate": 0.00027807534510180664,
      "loss": 1.5003,
      "step": 47185
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5176102519035339,
      "learning_rate": 0.00027806492094840034,
      "loss": 1.6309,
      "step": 47186
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5190325975418091,
      "learning_rate": 0.00027805449682162,
      "loss": 1.6142,
      "step": 47187
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4918874204158783,
      "learning_rate": 0.00027804407272147844,
      "loss": 1.61,
      "step": 47188
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5074220299720764,
      "learning_rate": 0.00027803364864798793,
      "loss": 1.6442,
      "step": 47189
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4981679916381836,
      "learning_rate": 0.00027802322460116136,
      "loss": 1.5466,
      "step": 47190
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5291600227355957,
      "learning_rate": 0.00027801280058101143,
      "loss": 1.6264,
      "step": 47191
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5077197551727295,
      "learning_rate": 0.00027800237658755076,
      "loss": 1.6215,
      "step": 47192
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5306227207183838,
      "learning_rate": 0.0002779919526207919,
      "loss": 1.6022,
      "step": 47193
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49091675877571106,
      "learning_rate": 0.0002779815286807475,
      "loss": 1.6075,
      "step": 47194
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4918261766433716,
      "learning_rate": 0.0002779711047674304,
      "loss": 1.6711,
      "step": 47195
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5214846134185791,
      "learning_rate": 0.00027796068088085306,
      "loss": 1.5988,
      "step": 47196
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5439139008522034,
      "learning_rate": 0.0002779502570210282,
      "loss": 1.6056,
      "step": 47197
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5045430064201355,
      "learning_rate": 0.0002779398331879686,
      "loss": 1.6039,
      "step": 47198
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48611119389533997,
      "learning_rate": 0.0002779294093816867,
      "loss": 1.5949,
      "step": 47199
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4821109473705292,
      "learning_rate": 0.0002779189856021952,
      "loss": 1.5214,
      "step": 47200
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4798755347728729,
      "learning_rate": 0.0002779085618495068,
      "loss": 1.5368,
      "step": 47201
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5110039710998535,
      "learning_rate": 0.0002778981381236343,
      "loss": 1.633,
      "step": 47202
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48137855529785156,
      "learning_rate": 0.00027788771442459,
      "loss": 1.6183,
      "step": 47203
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48347315192222595,
      "learning_rate": 0.00027787729075238684,
      "loss": 1.6303,
      "step": 47204
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.490018755197525,
      "learning_rate": 0.00027786686710703747,
      "loss": 1.5812,
      "step": 47205
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.509048581123352,
      "learning_rate": 0.0002778564434885544,
      "loss": 1.5693,
      "step": 47206
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.8630586862564087,
      "learning_rate": 0.00027784601989695035,
      "loss": 1.6371,
      "step": 47207
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.479343444108963,
      "learning_rate": 0.000277835596332238,
      "loss": 1.6798,
      "step": 47208
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4954397976398468,
      "learning_rate": 0.0002778251727944299,
      "loss": 1.5866,
      "step": 47209
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49635595083236694,
      "learning_rate": 0.00027781474928353873,
      "loss": 1.5976,
      "step": 47210
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5094932317733765,
      "learning_rate": 0.00027780432579957724,
      "loss": 1.6236,
      "step": 47211
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4900996685028076,
      "learning_rate": 0.0002777939023425581,
      "loss": 1.6555,
      "step": 47212
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49925726652145386,
      "learning_rate": 0.00027778347891249384,
      "loss": 1.5895,
      "step": 47213
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49283334612846375,
      "learning_rate": 0.00027777305550939714,
      "loss": 1.5918,
      "step": 47214
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4826733469963074,
      "learning_rate": 0.00027776263213328075,
      "loss": 1.583,
      "step": 47215
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.480714350938797,
      "learning_rate": 0.0002777522087841572,
      "loss": 1.6318,
      "step": 47216
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5063349008560181,
      "learning_rate": 0.00027774178546203913,
      "loss": 1.6746,
      "step": 47217
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49242717027664185,
      "learning_rate": 0.00027773136216693926,
      "loss": 1.6339,
      "step": 47218
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4914295971393585,
      "learning_rate": 0.00027772093889887034,
      "loss": 1.5354,
      "step": 47219
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4723201394081116,
      "learning_rate": 0.00027771051565784484,
      "loss": 1.5415,
      "step": 47220
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4709871709346771,
      "learning_rate": 0.0002777000924438755,
      "loss": 1.5515,
      "step": 47221
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4797874093055725,
      "learning_rate": 0.00027768966925697505,
      "loss": 1.6409,
      "step": 47222
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5080623626708984,
      "learning_rate": 0.00027767924609715597,
      "loss": 1.6334,
      "step": 47223
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5123181939125061,
      "learning_rate": 0.00027766882296443093,
      "loss": 1.5885,
      "step": 47224
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49200427532196045,
      "learning_rate": 0.00027765839985881285,
      "loss": 1.6897,
      "step": 47225
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4967527389526367,
      "learning_rate": 0.000277647976780314,
      "loss": 1.6959,
      "step": 47226
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4971522092819214,
      "learning_rate": 0.0002776375537289472,
      "loss": 1.6302,
      "step": 47227
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5105226039886475,
      "learning_rate": 0.0002776271307047252,
      "loss": 1.6624,
      "step": 47228
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49310892820358276,
      "learning_rate": 0.0002776167077076606,
      "loss": 1.579,
      "step": 47229
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49476271867752075,
      "learning_rate": 0.00027760628473776593,
      "loss": 1.6092,
      "step": 47230
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5395726561546326,
      "learning_rate": 0.0002775958617950539,
      "loss": 1.5847,
      "step": 47231
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49099233746528625,
      "learning_rate": 0.0002775854388795374,
      "loss": 1.6754,
      "step": 47232
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4914538264274597,
      "learning_rate": 0.00027757501599122864,
      "loss": 1.5595,
      "step": 47233
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49233943223953247,
      "learning_rate": 0.0002775645931301406,
      "loss": 1.5682,
      "step": 47234
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5004643201828003,
      "learning_rate": 0.00027755417029628587,
      "loss": 1.6499,
      "step": 47235
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48981139063835144,
      "learning_rate": 0.0002775437474896771,
      "loss": 1.6354,
      "step": 47236
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5046597719192505,
      "learning_rate": 0.0002775333247103268,
      "loss": 1.5922,
      "step": 47237
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.475026935338974,
      "learning_rate": 0.00027752290195824766,
      "loss": 1.5607,
      "step": 47238
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5065762400627136,
      "learning_rate": 0.00027751247923345267,
      "loss": 1.6195,
      "step": 47239
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4739847183227539,
      "learning_rate": 0.00027750205653595403,
      "loss": 1.5884,
      "step": 47240
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5057379603385925,
      "learning_rate": 0.0002774916338657646,
      "loss": 1.6096,
      "step": 47241
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5165131092071533,
      "learning_rate": 0.0002774812112228971,
      "loss": 1.6698,
      "step": 47242
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48535043001174927,
      "learning_rate": 0.000277470788607364,
      "loss": 1.5888,
      "step": 47243
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48935437202453613,
      "learning_rate": 0.00027746036601917806,
      "loss": 1.5911,
      "step": 47244
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5106598138809204,
      "learning_rate": 0.00027744994345835195,
      "loss": 1.6015,
      "step": 47245
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49395668506622314,
      "learning_rate": 0.00027743952092489825,
      "loss": 1.5303,
      "step": 47246
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5144596695899963,
      "learning_rate": 0.0002774290984188296,
      "loss": 1.566,
      "step": 47247
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5004881024360657,
      "learning_rate": 0.00027741867594015875,
      "loss": 1.5998,
      "step": 47248
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4820716381072998,
      "learning_rate": 0.00027740825348889837,
      "loss": 1.6239,
      "step": 47249
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48706841468811035,
      "learning_rate": 0.0002773978310650609,
      "loss": 1.5766,
      "step": 47250
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5130141973495483,
      "learning_rate": 0.0002773874086686593,
      "loss": 1.5521,
      "step": 47251
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5035018920898438,
      "learning_rate": 0.000277376986299706,
      "loss": 1.5731,
      "step": 47252
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4910973012447357,
      "learning_rate": 0.00027736656395821365,
      "loss": 1.5887,
      "step": 47253
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.500066339969635,
      "learning_rate": 0.0002773561416441949,
      "loss": 1.5628,
      "step": 47254
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49140191078186035,
      "learning_rate": 0.00027734571935766265,
      "loss": 1.6646,
      "step": 47255
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5038877725601196,
      "learning_rate": 0.00027733529709862915,
      "loss": 1.6575,
      "step": 47256
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5048683285713196,
      "learning_rate": 0.0002773248748671073,
      "loss": 1.6025,
      "step": 47257
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5061352849006653,
      "learning_rate": 0.0002773144526631098,
      "loss": 1.6214,
      "step": 47258
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.615597128868103,
      "learning_rate": 0.00027730403048664926,
      "loss": 1.573,
      "step": 47259
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49998509883880615,
      "learning_rate": 0.00027729360833773816,
      "loss": 1.6396,
      "step": 47260
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5284706354141235,
      "learning_rate": 0.0002772831862163892,
      "loss": 1.5517,
      "step": 47261
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4955759346485138,
      "learning_rate": 0.0002772727641226154,
      "loss": 1.6468,
      "step": 47262
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.508437991142273,
      "learning_rate": 0.0002772623420564288,
      "loss": 1.6494,
      "step": 47263
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.7021778225898743,
      "learning_rate": 0.0002772519200178425,
      "loss": 1.5635,
      "step": 47264
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49089354276657104,
      "learning_rate": 0.00027724149800686904,
      "loss": 1.5432,
      "step": 47265
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5032346844673157,
      "learning_rate": 0.00027723107602352104,
      "loss": 1.6456,
      "step": 47266
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5141294002532959,
      "learning_rate": 0.00027722065406781115,
      "loss": 1.5115,
      "step": 47267
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5098289847373962,
      "learning_rate": 0.00027721023213975193,
      "loss": 1.6053,
      "step": 47268
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4907812774181366,
      "learning_rate": 0.00027719981023935635,
      "loss": 1.542,
      "step": 47269
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4862070381641388,
      "learning_rate": 0.00027718938836663665,
      "loss": 1.6066,
      "step": 47270
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4754481613636017,
      "learning_rate": 0.00027717896652160575,
      "loss": 1.5986,
      "step": 47271
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48632484674453735,
      "learning_rate": 0.0002771685447042762,
      "loss": 1.5755,
      "step": 47272
    },
    {
      "epoch": 1.57,
      "grad_norm": 2.2120370864868164,
      "learning_rate": 0.0002771581229146607,
      "loss": 1.6283,
      "step": 47273
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5011159181594849,
      "learning_rate": 0.00027714770115277185,
      "loss": 1.6353,
      "step": 47274
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48097336292266846,
      "learning_rate": 0.0002771372794186224,
      "loss": 1.6021,
      "step": 47275
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4789678156375885,
      "learning_rate": 0.0002771268577122248,
      "loss": 1.6141,
      "step": 47276
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48665228486061096,
      "learning_rate": 0.0002771164360335918,
      "loss": 1.6074,
      "step": 47277
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48413482308387756,
      "learning_rate": 0.00027710601438273616,
      "loss": 1.6305,
      "step": 47278
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4920817017555237,
      "learning_rate": 0.0002770955927596705,
      "loss": 1.6159,
      "step": 47279
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5028268098831177,
      "learning_rate": 0.0002770851711644073,
      "loss": 1.6667,
      "step": 47280
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4848233461380005,
      "learning_rate": 0.0002770747495969594,
      "loss": 1.594,
      "step": 47281
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5083715915679932,
      "learning_rate": 0.00027706432805733937,
      "loss": 1.6305,
      "step": 47282
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5189440846443176,
      "learning_rate": 0.0002770539065455598,
      "loss": 1.6013,
      "step": 47283
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48382464051246643,
      "learning_rate": 0.0002770434850616335,
      "loss": 1.6036,
      "step": 47284
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.9783423542976379,
      "learning_rate": 0.000277033063605573,
      "loss": 1.6688,
      "step": 47285
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48852866888046265,
      "learning_rate": 0.00027702264217739094,
      "loss": 1.6182,
      "step": 47286
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49511441588401794,
      "learning_rate": 0.0002770122207771,
      "loss": 1.5594,
      "step": 47287
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4793342053890228,
      "learning_rate": 0.00027700179940471286,
      "loss": 1.5503,
      "step": 47288
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49036911129951477,
      "learning_rate": 0.0002769913780602422,
      "loss": 1.582,
      "step": 47289
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5118645429611206,
      "learning_rate": 0.0002769809567437005,
      "loss": 1.6391,
      "step": 47290
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4995150864124298,
      "learning_rate": 0.0002769705354551006,
      "loss": 1.5403,
      "step": 47291
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4931228756904602,
      "learning_rate": 0.0002769601141944551,
      "loss": 1.5978,
      "step": 47292
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4958514869213104,
      "learning_rate": 0.0002769496929617766,
      "loss": 1.5974,
      "step": 47293
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5231884121894836,
      "learning_rate": 0.00027693927175707775,
      "loss": 1.6081,
      "step": 47294
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49268463253974915,
      "learning_rate": 0.0002769288505803713,
      "loss": 1.6197,
      "step": 47295
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49896907806396484,
      "learning_rate": 0.00027691842943166977,
      "loss": 1.5888,
      "step": 47296
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5065968632698059,
      "learning_rate": 0.0002769080083109858,
      "loss": 1.6628,
      "step": 47297
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48105350136756897,
      "learning_rate": 0.00027689758721833214,
      "loss": 1.5843,
      "step": 47298
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5137377977371216,
      "learning_rate": 0.0002768871661537215,
      "loss": 1.6351,
      "step": 47299
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48185399174690247,
      "learning_rate": 0.0002768767451171664,
      "loss": 1.5917,
      "step": 47300
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5132507085800171,
      "learning_rate": 0.00027686632410867947,
      "loss": 1.6442,
      "step": 47301
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5040819048881531,
      "learning_rate": 0.0002768559031282735,
      "loss": 1.5547,
      "step": 47302
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49494093656539917,
      "learning_rate": 0.000276845482175961,
      "loss": 1.627,
      "step": 47303
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4833715856075287,
      "learning_rate": 0.0002768350612517546,
      "loss": 1.485,
      "step": 47304
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.501200258731842,
      "learning_rate": 0.0002768246403556672,
      "loss": 1.6115,
      "step": 47305
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5240400433540344,
      "learning_rate": 0.0002768142194877111,
      "loss": 1.5923,
      "step": 47306
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5341376066207886,
      "learning_rate": 0.00027680379864789917,
      "loss": 1.6347,
      "step": 47307
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4836544394493103,
      "learning_rate": 0.000276793377836244,
      "loss": 1.6137,
      "step": 47308
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5190781354904175,
      "learning_rate": 0.0002767829570527584,
      "loss": 1.6495,
      "step": 47309
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4994579553604126,
      "learning_rate": 0.0002767725362974547,
      "loss": 1.6289,
      "step": 47310
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5201329588890076,
      "learning_rate": 0.00027676211557034567,
      "loss": 1.5511,
      "step": 47311
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5142160058021545,
      "learning_rate": 0.00027675169487144423,
      "loss": 1.5737,
      "step": 47312
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5173153281211853,
      "learning_rate": 0.0002767412742007626,
      "loss": 1.5453,
      "step": 47313
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5071060657501221,
      "learning_rate": 0.0002767308535583137,
      "loss": 1.6294,
      "step": 47314
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.47805503010749817,
      "learning_rate": 0.0002767204329441102,
      "loss": 1.5371,
      "step": 47315
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5211543440818787,
      "learning_rate": 0.0002767100123581646,
      "loss": 1.6353,
      "step": 47316
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5064631700515747,
      "learning_rate": 0.00027669959180048957,
      "loss": 1.6282,
      "step": 47317
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5193686485290527,
      "learning_rate": 0.0002766891712710978,
      "loss": 1.5922,
      "step": 47318
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5266132950782776,
      "learning_rate": 0.0002766787507700021,
      "loss": 1.6264,
      "step": 47319
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49860167503356934,
      "learning_rate": 0.00027666833029721475,
      "loss": 1.6363,
      "step": 47320
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5021864771842957,
      "learning_rate": 0.00027665790985274873,
      "loss": 1.576,
      "step": 47321
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5084162950515747,
      "learning_rate": 0.00027664748943661654,
      "loss": 1.6948,
      "step": 47322
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48902061581611633,
      "learning_rate": 0.0002766370690488309,
      "loss": 1.5955,
      "step": 47323
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5032171607017517,
      "learning_rate": 0.0002766266486894043,
      "loss": 1.6272,
      "step": 47324
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4948078989982605,
      "learning_rate": 0.0002766162283583497,
      "loss": 1.6426,
      "step": 47325
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48763737082481384,
      "learning_rate": 0.0002766058080556794,
      "loss": 1.5782,
      "step": 47326
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5021781325340271,
      "learning_rate": 0.00027659538778140614,
      "loss": 1.5433,
      "step": 47327
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5031394958496094,
      "learning_rate": 0.00027658496753554275,
      "loss": 1.5832,
      "step": 47328
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4889427423477173,
      "learning_rate": 0.0002765745473181018,
      "loss": 1.4895,
      "step": 47329
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4736623466014862,
      "learning_rate": 0.00027656412712909575,
      "loss": 1.4805,
      "step": 47330
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4953485131263733,
      "learning_rate": 0.0002765537069685375,
      "loss": 1.7217,
      "step": 47331
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48737403750419617,
      "learning_rate": 0.00027654328683643966,
      "loss": 1.5406,
      "step": 47332
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.7171605825424194,
      "learning_rate": 0.0002765328667328147,
      "loss": 1.5624,
      "step": 47333
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4856167435646057,
      "learning_rate": 0.00027652244665767533,
      "loss": 1.5926,
      "step": 47334
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.47023865580558777,
      "learning_rate": 0.0002765120266110343,
      "loss": 1.596,
      "step": 47335
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.48027268052101135,
      "learning_rate": 0.00027650160659290434,
      "loss": 1.5506,
      "step": 47336
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5108067989349365,
      "learning_rate": 0.00027649118660329783,
      "loss": 1.6465,
      "step": 47337
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4827490448951721,
      "learning_rate": 0.0002764807666422276,
      "loss": 1.5152,
      "step": 47338
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49623027443885803,
      "learning_rate": 0.00027647034670970626,
      "loss": 1.557,
      "step": 47339
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48186203837394714,
      "learning_rate": 0.00027645992680574646,
      "loss": 1.6038,
      "step": 47340
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4798944294452667,
      "learning_rate": 0.0002764495069303607,
      "loss": 1.5929,
      "step": 47341
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48058485984802246,
      "learning_rate": 0.000276439087083562,
      "loss": 1.5398,
      "step": 47342
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49309542775154114,
      "learning_rate": 0.00027642866726536265,
      "loss": 1.5528,
      "step": 47343
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5121296048164368,
      "learning_rate": 0.0002764182474757754,
      "loss": 1.6069,
      "step": 47344
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4908766448497772,
      "learning_rate": 0.0002764078277148129,
      "loss": 1.5881,
      "step": 47345
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4955330193042755,
      "learning_rate": 0.00027639740798248797,
      "loss": 1.6107,
      "step": 47346
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48534297943115234,
      "learning_rate": 0.000276386988278813,
      "loss": 1.6676,
      "step": 47347
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4874821603298187,
      "learning_rate": 0.0002763765686038007,
      "loss": 1.6496,
      "step": 47348
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47261419892311096,
      "learning_rate": 0.00027636614895746393,
      "loss": 1.5969,
      "step": 47349
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4694771468639374,
      "learning_rate": 0.00027635572933981504,
      "loss": 1.5634,
      "step": 47350
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5092642307281494,
      "learning_rate": 0.0002763453097508668,
      "loss": 1.5661,
      "step": 47351
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4864719808101654,
      "learning_rate": 0.00027633489019063197,
      "loss": 1.6787,
      "step": 47352
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49513232707977295,
      "learning_rate": 0.00027632447065912305,
      "loss": 1.604,
      "step": 47353
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49327459931373596,
      "learning_rate": 0.00027631405115635275,
      "loss": 1.5996,
      "step": 47354
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4835217297077179,
      "learning_rate": 0.0002763036316823336,
      "loss": 1.5568,
      "step": 47355
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4862564504146576,
      "learning_rate": 0.00027629321223707854,
      "loss": 1.5379,
      "step": 47356
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4911147952079773,
      "learning_rate": 0.00027628279282059984,
      "loss": 1.4908,
      "step": 47357
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.492470920085907,
      "learning_rate": 0.0002762723734329104,
      "loss": 1.5939,
      "step": 47358
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4981883764266968,
      "learning_rate": 0.00027626195407402283,
      "loss": 1.4972,
      "step": 47359
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5106913447380066,
      "learning_rate": 0.00027625153474394973,
      "loss": 1.4808,
      "step": 47360
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.494821161031723,
      "learning_rate": 0.0002762411154427038,
      "loss": 1.5928,
      "step": 47361
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5088819265365601,
      "learning_rate": 0.00027623069617029765,
      "loss": 1.6763,
      "step": 47362
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4803369343280792,
      "learning_rate": 0.0002762202769267439,
      "loss": 1.5895,
      "step": 47363
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49304184317588806,
      "learning_rate": 0.00027620985771205516,
      "loss": 1.6302,
      "step": 47364
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.509680449962616,
      "learning_rate": 0.0002761994385262442,
      "loss": 1.6147,
      "step": 47365
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49767518043518066,
      "learning_rate": 0.0002761890193693237,
      "loss": 1.5995,
      "step": 47366
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5347592234611511,
      "learning_rate": 0.0002761786002413062,
      "loss": 1.5889,
      "step": 47367
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4830535054206848,
      "learning_rate": 0.0002761681811422043,
      "loss": 1.5924,
      "step": 47368
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5070452690124512,
      "learning_rate": 0.00027615776207203077,
      "loss": 1.5809,
      "step": 47369
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5003775954246521,
      "learning_rate": 0.0002761473430307982,
      "loss": 1.5708,
      "step": 47370
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5020637512207031,
      "learning_rate": 0.00027613692401851916,
      "loss": 1.6177,
      "step": 47371
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49480167031288147,
      "learning_rate": 0.00027612650503520655,
      "loss": 1.639,
      "step": 47372
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.506012499332428,
      "learning_rate": 0.00027611608608087265,
      "loss": 1.6503,
      "step": 47373
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4989812970161438,
      "learning_rate": 0.0002761056671555304,
      "loss": 1.6103,
      "step": 47374
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4886152446269989,
      "learning_rate": 0.0002760952482591923,
      "loss": 1.6392,
      "step": 47375
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4883541166782379,
      "learning_rate": 0.00027608482939187116,
      "loss": 1.558,
      "step": 47376
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5046879053115845,
      "learning_rate": 0.00027607441055357943,
      "loss": 1.6232,
      "step": 47377
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48000434041023254,
      "learning_rate": 0.0002760639917443298,
      "loss": 1.5352,
      "step": 47378
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4813101887702942,
      "learning_rate": 0.0002760535729641351,
      "loss": 1.562,
      "step": 47379
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5084509253501892,
      "learning_rate": 0.0002760431542130076,
      "loss": 1.5915,
      "step": 47380
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4955817461013794,
      "learning_rate": 0.00027603273549096035,
      "loss": 1.6531,
      "step": 47381
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5013647675514221,
      "learning_rate": 0.00027602231679800586,
      "loss": 1.6388,
      "step": 47382
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5083367824554443,
      "learning_rate": 0.00027601189813415667,
      "loss": 1.6333,
      "step": 47383
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49330270290374756,
      "learning_rate": 0.0002760014794994255,
      "loss": 1.549,
      "step": 47384
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48057952523231506,
      "learning_rate": 0.00027599106089382493,
      "loss": 1.5727,
      "step": 47385
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4961622953414917,
      "learning_rate": 0.0002759806423173679,
      "loss": 1.5323,
      "step": 47386
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5172192454338074,
      "learning_rate": 0.0002759702237700666,
      "loss": 1.656,
      "step": 47387
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5117093324661255,
      "learning_rate": 0.00027595980525193397,
      "loss": 1.5738,
      "step": 47388
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5010315775871277,
      "learning_rate": 0.0002759493867629827,
      "loss": 1.5738,
      "step": 47389
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5189681053161621,
      "learning_rate": 0.00027593896830322524,
      "loss": 1.5835,
      "step": 47390
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49815309047698975,
      "learning_rate": 0.0002759285498726743,
      "loss": 1.6135,
      "step": 47391
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5077728033065796,
      "learning_rate": 0.00027591813147134265,
      "loss": 1.6557,
      "step": 47392
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5190852880477905,
      "learning_rate": 0.0002759077130992428,
      "loss": 1.6099,
      "step": 47393
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49836552143096924,
      "learning_rate": 0.0002758972947563873,
      "loss": 1.5954,
      "step": 47394
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.512550950050354,
      "learning_rate": 0.00027588687644278904,
      "loss": 1.6208,
      "step": 47395
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49252912402153015,
      "learning_rate": 0.00027587645815846065,
      "loss": 1.6006,
      "step": 47396
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4838760495185852,
      "learning_rate": 0.0002758660399034146,
      "loss": 1.6519,
      "step": 47397
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4896462857723236,
      "learning_rate": 0.0002758556216776636,
      "loss": 1.5464,
      "step": 47398
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4855884611606598,
      "learning_rate": 0.0002758452034812204,
      "loss": 1.6068,
      "step": 47399
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48091503977775574,
      "learning_rate": 0.00027583478531409747,
      "loss": 1.5635,
      "step": 47400
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48210659623146057,
      "learning_rate": 0.00027582436717630757,
      "loss": 1.6035,
      "step": 47401
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.493157297372818,
      "learning_rate": 0.0002758139490678634,
      "loss": 1.6058,
      "step": 47402
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49660640954971313,
      "learning_rate": 0.00027580353098877744,
      "loss": 1.5493,
      "step": 47403
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5026264190673828,
      "learning_rate": 0.0002757931129390625,
      "loss": 1.604,
      "step": 47404
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4902585446834564,
      "learning_rate": 0.00027578269491873104,
      "loss": 1.5851,
      "step": 47405
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5078486800193787,
      "learning_rate": 0.000275772276927796,
      "loss": 1.5748,
      "step": 47406
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49717438220977783,
      "learning_rate": 0.00027576185896626966,
      "loss": 1.5545,
      "step": 47407
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4825865626335144,
      "learning_rate": 0.0002757514410341649,
      "loss": 1.5498,
      "step": 47408
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5240069031715393,
      "learning_rate": 0.00027574102313149447,
      "loss": 1.6214,
      "step": 47409
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49981239438056946,
      "learning_rate": 0.0002757306052582707,
      "loss": 1.6118,
      "step": 47410
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48754850029945374,
      "learning_rate": 0.0002757201874145064,
      "loss": 1.5414,
      "step": 47411
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4909014403820038,
      "learning_rate": 0.00027570976960021435,
      "loss": 1.6344,
      "step": 47412
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5035365223884583,
      "learning_rate": 0.00027569935181540696,
      "loss": 1.6205,
      "step": 47413
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.523492693901062,
      "learning_rate": 0.0002756889340600969,
      "loss": 1.5904,
      "step": 47414
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5290691256523132,
      "learning_rate": 0.000275678516334297,
      "loss": 1.6527,
      "step": 47415
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5071510076522827,
      "learning_rate": 0.0002756680986380198,
      "loss": 1.676,
      "step": 47416
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4787008762359619,
      "learning_rate": 0.00027565768097127796,
      "loss": 1.6078,
      "step": 47417
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5519964694976807,
      "learning_rate": 0.00027564726333408404,
      "loss": 1.7167,
      "step": 47418
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5068663954734802,
      "learning_rate": 0.00027563684572645084,
      "loss": 1.6717,
      "step": 47419
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4830050766468048,
      "learning_rate": 0.0002756264281483908,
      "loss": 1.5504,
      "step": 47420
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5010363459587097,
      "learning_rate": 0.00027561601059991674,
      "loss": 1.6037,
      "step": 47421
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5138770341873169,
      "learning_rate": 0.00027560559308104136,
      "loss": 1.611,
      "step": 47422
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5009106397628784,
      "learning_rate": 0.000275595175591777,
      "loss": 1.5797,
      "step": 47423
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.474862664937973,
      "learning_rate": 0.0002755847581321366,
      "loss": 1.609,
      "step": 47424
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47859063744544983,
      "learning_rate": 0.0002755743407021327,
      "loss": 1.5511,
      "step": 47425
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4687446653842926,
      "learning_rate": 0.000275563923301778,
      "loss": 1.5782,
      "step": 47426
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48452916741371155,
      "learning_rate": 0.00027555350593108505,
      "loss": 1.5377,
      "step": 47427
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49108579754829407,
      "learning_rate": 0.0002755430885900665,
      "loss": 1.5989,
      "step": 47428
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5002776384353638,
      "learning_rate": 0.00027553267127873517,
      "loss": 1.5967,
      "step": 47429
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4937119483947754,
      "learning_rate": 0.0002755222539971034,
      "loss": 1.6058,
      "step": 47430
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49158260226249695,
      "learning_rate": 0.0002755118367451841,
      "loss": 1.601,
      "step": 47431
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5092418789863586,
      "learning_rate": 0.00027550141952298985,
      "loss": 1.6301,
      "step": 47432
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4888376295566559,
      "learning_rate": 0.0002754910023305332,
      "loss": 1.6147,
      "step": 47433
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5009841322898865,
      "learning_rate": 0.0002754805851678269,
      "loss": 1.5074,
      "step": 47434
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.486446350812912,
      "learning_rate": 0.00027547016803488347,
      "loss": 1.6119,
      "step": 47435
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49552300572395325,
      "learning_rate": 0.0002754597509317158,
      "loss": 1.6165,
      "step": 47436
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4830702543258667,
      "learning_rate": 0.00027544933385833625,
      "loss": 1.6847,
      "step": 47437
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49691763520240784,
      "learning_rate": 0.0002754389168147576,
      "loss": 1.5219,
      "step": 47438
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5189241766929626,
      "learning_rate": 0.0002754284998009926,
      "loss": 1.578,
      "step": 47439
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4890974760055542,
      "learning_rate": 0.0002754180828170537,
      "loss": 1.5979,
      "step": 47440
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4825015664100647,
      "learning_rate": 0.0002754076658629536,
      "loss": 1.6018,
      "step": 47441
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5053832530975342,
      "learning_rate": 0.000275397248938705,
      "loss": 1.616,
      "step": 47442
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5082979798316956,
      "learning_rate": 0.00027538683204432056,
      "loss": 1.5932,
      "step": 47443
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5062726736068726,
      "learning_rate": 0.00027537641517981276,
      "loss": 1.6215,
      "step": 47444
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4983806908130646,
      "learning_rate": 0.00027536599834519445,
      "loss": 1.5987,
      "step": 47445
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4910992383956909,
      "learning_rate": 0.0002753555815404782,
      "loss": 1.6042,
      "step": 47446
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5270055532455444,
      "learning_rate": 0.0002753451647656766,
      "loss": 1.564,
      "step": 47447
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.518494188785553,
      "learning_rate": 0.0002753347480208024,
      "loss": 1.5959,
      "step": 47448
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49758073687553406,
      "learning_rate": 0.0002753243313058682,
      "loss": 1.5956,
      "step": 47449
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5072709321975708,
      "learning_rate": 0.0002753139146208865,
      "loss": 1.5936,
      "step": 47450
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4943293035030365,
      "learning_rate": 0.00027530349796587005,
      "loss": 1.5549,
      "step": 47451
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.536291241645813,
      "learning_rate": 0.0002752930813408317,
      "loss": 1.7203,
      "step": 47452
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48913368582725525,
      "learning_rate": 0.00027528266474578377,
      "loss": 1.6069,
      "step": 47453
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4707317352294922,
      "learning_rate": 0.00027527224818073905,
      "loss": 1.6066,
      "step": 47454
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5202857851982117,
      "learning_rate": 0.0002752618316457102,
      "loss": 1.5947,
      "step": 47455
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.505553662776947,
      "learning_rate": 0.0002752514151407099,
      "loss": 1.5772,
      "step": 47456
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5180796980857849,
      "learning_rate": 0.0002752409986657507,
      "loss": 1.6157,
      "step": 47457
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.514078676700592,
      "learning_rate": 0.00027523058222084516,
      "loss": 1.6506,
      "step": 47458
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5254912376403809,
      "learning_rate": 0.00027522016580600625,
      "loss": 1.6,
      "step": 47459
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4984447956085205,
      "learning_rate": 0.00027520974942124625,
      "loss": 1.6673,
      "step": 47460
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4919368624687195,
      "learning_rate": 0.000275199333066578,
      "loss": 1.6219,
      "step": 47461
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.502957284450531,
      "learning_rate": 0.0002751889167420141,
      "loss": 1.5945,
      "step": 47462
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5041036009788513,
      "learning_rate": 0.0002751785004475673,
      "loss": 1.5461,
      "step": 47463
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4999385178089142,
      "learning_rate": 0.00027516808418325006,
      "loss": 1.6089,
      "step": 47464
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5000063180923462,
      "learning_rate": 0.000275157667949075,
      "loss": 1.631,
      "step": 47465
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5022174715995789,
      "learning_rate": 0.00027514725174505514,
      "loss": 1.6088,
      "step": 47466
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49990493059158325,
      "learning_rate": 0.0002751368355712026,
      "loss": 1.5543,
      "step": 47467
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.46580377221107483,
      "learning_rate": 0.00027512641942753035,
      "loss": 1.5936,
      "step": 47468
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4942325949668884,
      "learning_rate": 0.0002751160033140511,
      "loss": 1.6194,
      "step": 47469
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.7155030369758606,
      "learning_rate": 0.0002751055872307772,
      "loss": 1.6546,
      "step": 47470
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5034803748130798,
      "learning_rate": 0.00027509517117772146,
      "loss": 1.5965,
      "step": 47471
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5130687952041626,
      "learning_rate": 0.00027508475515489644,
      "loss": 1.6442,
      "step": 47472
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49131450057029724,
      "learning_rate": 0.00027507433916231514,
      "loss": 1.5313,
      "step": 47473
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49878740310668945,
      "learning_rate": 0.00027506392319998963,
      "loss": 1.6074,
      "step": 47474
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5136629343032837,
      "learning_rate": 0.00027505350726793294,
      "loss": 1.6367,
      "step": 47475
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47368359565734863,
      "learning_rate": 0.0002750430913661577,
      "loss": 1.6094,
      "step": 47476
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49893730878829956,
      "learning_rate": 0.0002750326754946764,
      "loss": 1.584,
      "step": 47477
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5205470323562622,
      "learning_rate": 0.0002750222596535017,
      "loss": 1.5757,
      "step": 47478
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4832361936569214,
      "learning_rate": 0.00027501184384264645,
      "loss": 1.5296,
      "step": 47479
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4862605631351471,
      "learning_rate": 0.000275001428062123,
      "loss": 1.5741,
      "step": 47480
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.532505452632904,
      "learning_rate": 0.0002749910123119441,
      "loss": 1.5759,
      "step": 47481
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4971350431442261,
      "learning_rate": 0.00027498059659212246,
      "loss": 1.5769,
      "step": 47482
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48524248600006104,
      "learning_rate": 0.0002749701809026708,
      "loss": 1.5898,
      "step": 47483
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5027579665184021,
      "learning_rate": 0.0002749597652436016,
      "loss": 1.6371,
      "step": 47484
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5026719570159912,
      "learning_rate": 0.00027494934961492753,
      "loss": 1.6558,
      "step": 47485
    },
    {
      "epoch": 1.58,
      "grad_norm": 1.017748236656189,
      "learning_rate": 0.0002749389340166613,
      "loss": 1.6408,
      "step": 47486
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4881373941898346,
      "learning_rate": 0.0002749285184488154,
      "loss": 1.5762,
      "step": 47487
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5425659418106079,
      "learning_rate": 0.0002749181029114026,
      "loss": 1.6269,
      "step": 47488
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4853192865848541,
      "learning_rate": 0.00027490768740443574,
      "loss": 1.6219,
      "step": 47489
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5029664635658264,
      "learning_rate": 0.000274897271927927,
      "loss": 1.6123,
      "step": 47490
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5124118328094482,
      "learning_rate": 0.0002748868564818894,
      "loss": 1.56,
      "step": 47491
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5089520215988159,
      "learning_rate": 0.0002748764410663354,
      "loss": 1.6751,
      "step": 47492
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5105230212211609,
      "learning_rate": 0.00027486602568127776,
      "loss": 1.5919,
      "step": 47493
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5209770798683167,
      "learning_rate": 0.000274855610326729,
      "loss": 1.5335,
      "step": 47494
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4971865117549896,
      "learning_rate": 0.0002748451950027018,
      "loss": 1.6176,
      "step": 47495
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5025456547737122,
      "learning_rate": 0.000274834779709209,
      "loss": 1.6865,
      "step": 47496
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4773542284965515,
      "learning_rate": 0.0002748243644462629,
      "loss": 1.5821,
      "step": 47497
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48861122131347656,
      "learning_rate": 0.0002748139492138763,
      "loss": 1.5603,
      "step": 47498
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.520144522190094,
      "learning_rate": 0.00027480353401206195,
      "loss": 1.6254,
      "step": 47499
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5100840926170349,
      "learning_rate": 0.00027479311884083237,
      "loss": 1.5802,
      "step": 47500
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49797600507736206,
      "learning_rate": 0.0002747827037002002,
      "loss": 1.63,
      "step": 47501
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4960499703884125,
      "learning_rate": 0.00027477228859017807,
      "loss": 1.5757,
      "step": 47502
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49398040771484375,
      "learning_rate": 0.00027476187351077884,
      "loss": 1.6253,
      "step": 47503
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5131924748420715,
      "learning_rate": 0.00027475145846201477,
      "loss": 1.5889,
      "step": 47504
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5032316446304321,
      "learning_rate": 0.0002747410434438988,
      "loss": 1.6604,
      "step": 47505
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49342721700668335,
      "learning_rate": 0.00027473062845644356,
      "loss": 1.6037,
      "step": 47506
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5859869718551636,
      "learning_rate": 0.0002747202134996615,
      "loss": 1.58,
      "step": 47507
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4757416248321533,
      "learning_rate": 0.00027470979857356544,
      "loss": 1.5229,
      "step": 47508
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4858643114566803,
      "learning_rate": 0.000274699383678168,
      "loss": 1.6026,
      "step": 47509
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5049804449081421,
      "learning_rate": 0.0002746889688134817,
      "loss": 1.5391,
      "step": 47510
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5048788785934448,
      "learning_rate": 0.0002746785539795192,
      "loss": 1.5935,
      "step": 47511
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.50294429063797,
      "learning_rate": 0.00027466813917629326,
      "loss": 1.6801,
      "step": 47512
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49351319670677185,
      "learning_rate": 0.00027465772440381654,
      "loss": 1.601,
      "step": 47513
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48134300112724304,
      "learning_rate": 0.00027464730966210156,
      "loss": 1.5959,
      "step": 47514
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5046771168708801,
      "learning_rate": 0.00027463689495116095,
      "loss": 1.5931,
      "step": 47515
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48768311738967896,
      "learning_rate": 0.0002746264802710075,
      "loss": 1.6096,
      "step": 47516
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49618473649024963,
      "learning_rate": 0.0002746160656216537,
      "loss": 1.5605,
      "step": 47517
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.513704776763916,
      "learning_rate": 0.0002746056510031123,
      "loss": 1.6074,
      "step": 47518
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5076413154602051,
      "learning_rate": 0.0002745952364153959,
      "loss": 1.6802,
      "step": 47519
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.517063558101654,
      "learning_rate": 0.00027458482185851714,
      "loss": 1.5608,
      "step": 47520
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49678555130958557,
      "learning_rate": 0.0002745744073324886,
      "loss": 1.5961,
      "step": 47521
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.50004643201828,
      "learning_rate": 0.00027456399283732306,
      "loss": 1.6248,
      "step": 47522
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5097419023513794,
      "learning_rate": 0.0002745535783730331,
      "loss": 1.6171,
      "step": 47523
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49434322118759155,
      "learning_rate": 0.0002745431639396312,
      "loss": 1.6024,
      "step": 47524
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4902918040752411,
      "learning_rate": 0.00027453274953713025,
      "loss": 1.5703,
      "step": 47525
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4947553277015686,
      "learning_rate": 0.00027452233516554286,
      "loss": 1.6269,
      "step": 47526
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4860520660877228,
      "learning_rate": 0.00027451192082488153,
      "loss": 1.5585,
      "step": 47527
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49621084332466125,
      "learning_rate": 0.00027450150651515894,
      "loss": 1.5401,
      "step": 47528
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48789849877357483,
      "learning_rate": 0.0002744910922363879,
      "loss": 1.6227,
      "step": 47529
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4949444532394409,
      "learning_rate": 0.00027448067798858077,
      "loss": 1.569,
      "step": 47530
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5002095699310303,
      "learning_rate": 0.0002744702637717503,
      "loss": 1.6856,
      "step": 47531
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4882014989852905,
      "learning_rate": 0.00027445984958590923,
      "loss": 1.5599,
      "step": 47532
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49982401728630066,
      "learning_rate": 0.00027444943543107023,
      "loss": 1.5451,
      "step": 47533
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4835672080516815,
      "learning_rate": 0.00027443902130724576,
      "loss": 1.5864,
      "step": 47534
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4958206117153168,
      "learning_rate": 0.00027442860721444855,
      "loss": 1.595,
      "step": 47535
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4938986003398895,
      "learning_rate": 0.00027441819315269134,
      "loss": 1.5585,
      "step": 47536
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4977726340293884,
      "learning_rate": 0.00027440777912198655,
      "loss": 1.6459,
      "step": 47537
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4948946535587311,
      "learning_rate": 0.0002743973651223469,
      "loss": 1.6406,
      "step": 47538
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49827978014945984,
      "learning_rate": 0.00027438695115378534,
      "loss": 1.5848,
      "step": 47539
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4848899841308594,
      "learning_rate": 0.000274376537216314,
      "loss": 1.6077,
      "step": 47540
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4928763210773468,
      "learning_rate": 0.0002743661233099458,
      "loss": 1.5479,
      "step": 47541
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4940122067928314,
      "learning_rate": 0.00027435570943469344,
      "loss": 1.6326,
      "step": 47542
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5031014680862427,
      "learning_rate": 0.00027434529559056944,
      "loss": 1.6303,
      "step": 47543
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5095521807670593,
      "learning_rate": 0.00027433488177758643,
      "loss": 1.6162,
      "step": 47544
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4925161600112915,
      "learning_rate": 0.00027432446799575705,
      "loss": 1.5665,
      "step": 47545
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49284523725509644,
      "learning_rate": 0.0002743140542450942,
      "loss": 1.6075,
      "step": 47546
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48405617475509644,
      "learning_rate": 0.00027430364052561003,
      "loss": 1.5727,
      "step": 47547
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48940250277519226,
      "learning_rate": 0.0002742932268373176,
      "loss": 1.6026,
      "step": 47548
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5130095481872559,
      "learning_rate": 0.00027428281318022947,
      "loss": 1.6069,
      "step": 47549
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4954086244106293,
      "learning_rate": 0.00027427239955435807,
      "loss": 1.5525,
      "step": 47550
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4752885401248932,
      "learning_rate": 0.00027426198595971625,
      "loss": 1.6228,
      "step": 47551
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4949539601802826,
      "learning_rate": 0.0002742515723963165,
      "loss": 1.591,
      "step": 47552
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5111377239227295,
      "learning_rate": 0.00027424115886417176,
      "loss": 1.7029,
      "step": 47553
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4811080992221832,
      "learning_rate": 0.00027423074536329423,
      "loss": 1.5458,
      "step": 47554
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5041640996932983,
      "learning_rate": 0.00027422033189369687,
      "loss": 1.6289,
      "step": 47555
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4870986342430115,
      "learning_rate": 0.0002742099184553923,
      "loss": 1.5591,
      "step": 47556
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5225580334663391,
      "learning_rate": 0.000274199505048393,
      "loss": 1.6584,
      "step": 47557
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5088512301445007,
      "learning_rate": 0.0002741890916727117,
      "loss": 1.6072,
      "step": 47558
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48838505148887634,
      "learning_rate": 0.0002741786783283612,
      "loss": 1.603,
      "step": 47559
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.511673629283905,
      "learning_rate": 0.0002741682650153538,
      "loss": 1.7081,
      "step": 47560
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.46299901604652405,
      "learning_rate": 0.00027415785173370226,
      "loss": 1.5978,
      "step": 47561
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5004187226295471,
      "learning_rate": 0.00027414743848341936,
      "loss": 1.6305,
      "step": 47562
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49349671602249146,
      "learning_rate": 0.0002741370252645177,
      "loss": 1.6342,
      "step": 47563
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4951087534427643,
      "learning_rate": 0.00027412661207700987,
      "loss": 1.6064,
      "step": 47564
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5044556856155396,
      "learning_rate": 0.00027411619892090853,
      "loss": 1.516,
      "step": 47565
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49493667483329773,
      "learning_rate": 0.00027410578579622634,
      "loss": 1.5748,
      "step": 47566
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5105697512626648,
      "learning_rate": 0.0002740953727029758,
      "loss": 1.5875,
      "step": 47567
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48643141984939575,
      "learning_rate": 0.0002740849596411697,
      "loss": 1.5944,
      "step": 47568
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47612905502319336,
      "learning_rate": 0.0002740745466108208,
      "loss": 1.578,
      "step": 47569
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.491123765707016,
      "learning_rate": 0.00027406413361194136,
      "loss": 1.567,
      "step": 47570
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5016639232635498,
      "learning_rate": 0.0002740537206445443,
      "loss": 1.609,
      "step": 47571
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4792017936706543,
      "learning_rate": 0.0002740433077086422,
      "loss": 1.6388,
      "step": 47572
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.536625862121582,
      "learning_rate": 0.0002740328948042478,
      "loss": 1.6389,
      "step": 47573
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5033621191978455,
      "learning_rate": 0.0002740224819313736,
      "loss": 1.6504,
      "step": 47574
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4794226288795471,
      "learning_rate": 0.00027401206909003216,
      "loss": 1.6358,
      "step": 47575
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4924129247665405,
      "learning_rate": 0.00027400165628023643,
      "loss": 1.5543,
      "step": 47576
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4841083884239197,
      "learning_rate": 0.0002739912435019987,
      "loss": 1.6256,
      "step": 47577
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5049318671226501,
      "learning_rate": 0.0002739808307553318,
      "loss": 1.61,
      "step": 47578
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5029082298278809,
      "learning_rate": 0.0002739704180402483,
      "loss": 1.5973,
      "step": 47579
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5051771998405457,
      "learning_rate": 0.000273960005356761,
      "loss": 1.5927,
      "step": 47580
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.490247517824173,
      "learning_rate": 0.00027394959270488236,
      "loss": 1.5894,
      "step": 47581
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4970536231994629,
      "learning_rate": 0.000273939180084625,
      "loss": 1.6167,
      "step": 47582
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5012370347976685,
      "learning_rate": 0.0002739287674960018,
      "loss": 1.619,
      "step": 47583
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4955606162548065,
      "learning_rate": 0.0002739183549390251,
      "loss": 1.6134,
      "step": 47584
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4700355529785156,
      "learning_rate": 0.0002739079424137077,
      "loss": 1.5288,
      "step": 47585
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49119725823402405,
      "learning_rate": 0.00027389752992006225,
      "loss": 1.6671,
      "step": 47586
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4994920790195465,
      "learning_rate": 0.00027388711745810135,
      "loss": 1.5708,
      "step": 47587
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5055103302001953,
      "learning_rate": 0.0002738767050278376,
      "loss": 1.6521,
      "step": 47588
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5002797245979309,
      "learning_rate": 0.00027386629262928365,
      "loss": 1.6151,
      "step": 47589
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.507460355758667,
      "learning_rate": 0.0002738558802624523,
      "loss": 1.6648,
      "step": 47590
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4882071614265442,
      "learning_rate": 0.000273845467927356,
      "loss": 1.5797,
      "step": 47591
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5133048892021179,
      "learning_rate": 0.00027383505562400735,
      "loss": 1.5761,
      "step": 47592
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4949972927570343,
      "learning_rate": 0.00027382464335241923,
      "loss": 1.5819,
      "step": 47593
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5002901554107666,
      "learning_rate": 0.0002738142311126041,
      "loss": 1.5741,
      "step": 47594
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5211926698684692,
      "learning_rate": 0.00027380381890457456,
      "loss": 1.6149,
      "step": 47595
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.503027081489563,
      "learning_rate": 0.00027379340672834343,
      "loss": 1.5673,
      "step": 47596
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5108563899993896,
      "learning_rate": 0.00027378299458392317,
      "loss": 1.5884,
      "step": 47597
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47906365990638733,
      "learning_rate": 0.00027377258247132647,
      "loss": 1.5776,
      "step": 47598
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4917456805706024,
      "learning_rate": 0.00027376217039056595,
      "loss": 1.6201,
      "step": 47599
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5152676701545715,
      "learning_rate": 0.0002737517583416545,
      "loss": 1.6319,
      "step": 47600
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5055989027023315,
      "learning_rate": 0.0002737413463246044,
      "loss": 1.6074,
      "step": 47601
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48695600032806396,
      "learning_rate": 0.0002737309343394284,
      "loss": 1.5874,
      "step": 47602
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4831242859363556,
      "learning_rate": 0.0002737205223861393,
      "loss": 1.6301,
      "step": 47603
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.488333135843277,
      "learning_rate": 0.0002737101104647495,
      "loss": 1.6049,
      "step": 47604
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48366355895996094,
      "learning_rate": 0.0002736996985752717,
      "loss": 1.6109,
      "step": 47605
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5093958973884583,
      "learning_rate": 0.0002736892867177188,
      "loss": 1.5852,
      "step": 47606
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4971524477005005,
      "learning_rate": 0.00027367887489210306,
      "loss": 1.6475,
      "step": 47607
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5055734515190125,
      "learning_rate": 0.00027366846309843733,
      "loss": 1.601,
      "step": 47608
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47991907596588135,
      "learning_rate": 0.0002736580513367342,
      "loss": 1.5785,
      "step": 47609
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4811057448387146,
      "learning_rate": 0.00027364763960700643,
      "loss": 1.5789,
      "step": 47610
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5013591647148132,
      "learning_rate": 0.0002736372279092664,
      "loss": 1.5858,
      "step": 47611
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49793919920921326,
      "learning_rate": 0.0002736268162435269,
      "loss": 1.5736,
      "step": 47612
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4933415651321411,
      "learning_rate": 0.0002736164046098007,
      "loss": 1.6379,
      "step": 47613
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49475035071372986,
      "learning_rate": 0.0002736059930081001,
      "loss": 1.6378,
      "step": 47614
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48378774523735046,
      "learning_rate": 0.000273595581438438,
      "loss": 1.5558,
      "step": 47615
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48599034547805786,
      "learning_rate": 0.00027358516990082704,
      "loss": 1.5783,
      "step": 47616
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5177016854286194,
      "learning_rate": 0.00027357475839527974,
      "loss": 1.6636,
      "step": 47617
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4887738823890686,
      "learning_rate": 0.0002735643469218088,
      "loss": 1.5927,
      "step": 47618
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4953613579273224,
      "learning_rate": 0.0002735539354804268,
      "loss": 1.5704,
      "step": 47619
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5155370831489563,
      "learning_rate": 0.00027354352407114657,
      "loss": 1.6867,
      "step": 47620
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49265164136886597,
      "learning_rate": 0.00027353311269398046,
      "loss": 1.5665,
      "step": 47621
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4876948893070221,
      "learning_rate": 0.00027352270134894127,
      "loss": 1.5687,
      "step": 47622
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48570218682289124,
      "learning_rate": 0.0002735122900360417,
      "loss": 1.5916,
      "step": 47623
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5207836627960205,
      "learning_rate": 0.0002735018787552943,
      "loss": 1.5881,
      "step": 47624
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48929697275161743,
      "learning_rate": 0.0002734914675067116,
      "loss": 1.6617,
      "step": 47625
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4949282705783844,
      "learning_rate": 0.0002734810562903065,
      "loss": 1.6421,
      "step": 47626
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.48725712299346924,
      "learning_rate": 0.00027347064510609137,
      "loss": 1.6313,
      "step": 47627
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5052206516265869,
      "learning_rate": 0.00027346023395407893,
      "loss": 1.6698,
      "step": 47628
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5174738168716431,
      "learning_rate": 0.000273449822834282,
      "loss": 1.5556,
      "step": 47629
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5011913776397705,
      "learning_rate": 0.000273439411746713,
      "loss": 1.5203,
      "step": 47630
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5085820555686951,
      "learning_rate": 0.00027342900069138467,
      "loss": 1.5641,
      "step": 47631
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.47429758310317993,
      "learning_rate": 0.00027341858966830956,
      "loss": 1.5507,
      "step": 47632
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4898340702056885,
      "learning_rate": 0.00027340817867750047,
      "loss": 1.5629,
      "step": 47633
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.537039577960968,
      "learning_rate": 0.0002733977677189698,
      "loss": 1.6056,
      "step": 47634
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.4933106601238251,
      "learning_rate": 0.0002733873567927304,
      "loss": 1.5608,
      "step": 47635
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49425745010375977,
      "learning_rate": 0.0002733769458987948,
      "loss": 1.5402,
      "step": 47636
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.49193036556243896,
      "learning_rate": 0.00027336653503717574,
      "loss": 1.5572,
      "step": 47637
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5109164714813232,
      "learning_rate": 0.0002733561242078857,
      "loss": 1.6798,
      "step": 47638
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5071946978569031,
      "learning_rate": 0.0002733457134109374,
      "loss": 1.5863,
      "step": 47639
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.5102307200431824,
      "learning_rate": 0.00027333530264634357,
      "loss": 1.5908,
      "step": 47640
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4911985993385315,
      "learning_rate": 0.0002733248919141166,
      "loss": 1.6399,
      "step": 47641
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4989273250102997,
      "learning_rate": 0.00027331448121426937,
      "loss": 1.6036,
      "step": 47642
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5069027543067932,
      "learning_rate": 0.00027330407054681447,
      "loss": 1.6451,
      "step": 47643
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4996317923069,
      "learning_rate": 0.0002732936599117644,
      "loss": 1.6116,
      "step": 47644
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4875548779964447,
      "learning_rate": 0.00027328324930913197,
      "loss": 1.5301,
      "step": 47645
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5162647366523743,
      "learning_rate": 0.00027327283873892973,
      "loss": 1.655,
      "step": 47646
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5302292108535767,
      "learning_rate": 0.00027326242820117035,
      "loss": 1.6323,
      "step": 47647
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49134010076522827,
      "learning_rate": 0.0002732520176958663,
      "loss": 1.6153,
      "step": 47648
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49830058217048645,
      "learning_rate": 0.0002732416072230304,
      "loss": 1.5702,
      "step": 47649
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5140118598937988,
      "learning_rate": 0.0002732311967826754,
      "loss": 1.5122,
      "step": 47650
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5030527710914612,
      "learning_rate": 0.00027322078637481364,
      "loss": 1.5737,
      "step": 47651
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5049248933792114,
      "learning_rate": 0.00027321037599945794,
      "loss": 1.5582,
      "step": 47652
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5063146352767944,
      "learning_rate": 0.000273199965656621,
      "loss": 1.6575,
      "step": 47653
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4839792847633362,
      "learning_rate": 0.0002731895553463152,
      "loss": 1.5309,
      "step": 47654
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4916294515132904,
      "learning_rate": 0.0002731791450685533,
      "loss": 1.5823,
      "step": 47655
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4861075282096863,
      "learning_rate": 0.0002731687348233482,
      "loss": 1.536,
      "step": 47656
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49714165925979614,
      "learning_rate": 0.000273158324610712,
      "loss": 1.5877,
      "step": 47657
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.47832971811294556,
      "learning_rate": 0.00027314791443065783,
      "loss": 1.581,
      "step": 47658
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4799145758152008,
      "learning_rate": 0.0002731375042831981,
      "loss": 1.6068,
      "step": 47659
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4731517434120178,
      "learning_rate": 0.0002731270941683455,
      "loss": 1.5586,
      "step": 47660
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4979281425476074,
      "learning_rate": 0.00027311668408611263,
      "loss": 1.6351,
      "step": 47661
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49170318245887756,
      "learning_rate": 0.0002731062740365121,
      "loss": 1.6726,
      "step": 47662
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.519283652305603,
      "learning_rate": 0.0002730958640195567,
      "loss": 1.5783,
      "step": 47663
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4921709895133972,
      "learning_rate": 0.00027308545403525883,
      "loss": 1.5429,
      "step": 47664
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5070084929466248,
      "learning_rate": 0.0002730750440836313,
      "loss": 1.6116,
      "step": 47665
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49464982748031616,
      "learning_rate": 0.00027306463416468675,
      "loss": 1.6721,
      "step": 47666
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4959248900413513,
      "learning_rate": 0.00027305422427843773,
      "loss": 1.6008,
      "step": 47667
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49981576204299927,
      "learning_rate": 0.0002730438144248969,
      "loss": 1.542,
      "step": 47668
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5048396587371826,
      "learning_rate": 0.0002730334046040768,
      "loss": 1.6232,
      "step": 47669
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4863543212413788,
      "learning_rate": 0.0002730229948159904,
      "loss": 1.6002,
      "step": 47670
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.498529314994812,
      "learning_rate": 0.00027301258506064993,
      "loss": 1.5967,
      "step": 47671
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4935113191604614,
      "learning_rate": 0.0002730021753380683,
      "loss": 1.6434,
      "step": 47672
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4863423705101013,
      "learning_rate": 0.00027299176564825805,
      "loss": 1.6467,
      "step": 47673
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49976783990859985,
      "learning_rate": 0.00027298135599123177,
      "loss": 1.6605,
      "step": 47674
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48144111037254333,
      "learning_rate": 0.00027297094636700216,
      "loss": 1.5692,
      "step": 47675
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5116083025932312,
      "learning_rate": 0.0002729605367755819,
      "loss": 1.6,
      "step": 47676
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.47196969389915466,
      "learning_rate": 0.0002729501272169835,
      "loss": 1.5423,
      "step": 47677
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49316221475601196,
      "learning_rate": 0.0002729397176912196,
      "loss": 1.5149,
      "step": 47678
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4968208372592926,
      "learning_rate": 0.00027292930819830297,
      "loss": 1.5965,
      "step": 47679
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4940752387046814,
      "learning_rate": 0.0002729188987382462,
      "loss": 1.5894,
      "step": 47680
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5356649160385132,
      "learning_rate": 0.00027290848931106187,
      "loss": 1.6818,
      "step": 47681
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.485485315322876,
      "learning_rate": 0.0002728980799167626,
      "loss": 1.5998,
      "step": 47682
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4964272081851959,
      "learning_rate": 0.00027288767055536116,
      "loss": 1.619,
      "step": 47683
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4967575669288635,
      "learning_rate": 0.00027287726122687003,
      "loss": 1.6294,
      "step": 47684
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5038806796073914,
      "learning_rate": 0.0002728668519313018,
      "loss": 1.5837,
      "step": 47685
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5122514367103577,
      "learning_rate": 0.00027285644266866944,
      "loss": 1.5365,
      "step": 47686
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49976402521133423,
      "learning_rate": 0.0002728460334389852,
      "loss": 1.5318,
      "step": 47687
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5382506251335144,
      "learning_rate": 0.0002728356242422619,
      "loss": 1.6108,
      "step": 47688
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4906710982322693,
      "learning_rate": 0.00027282521507851216,
      "loss": 1.6615,
      "step": 47689
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5026967525482178,
      "learning_rate": 0.00027281480594774866,
      "loss": 1.67,
      "step": 47690
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5060909986495972,
      "learning_rate": 0.00027280439684998394,
      "loss": 1.5552,
      "step": 47691
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4937267303466797,
      "learning_rate": 0.0002727939877852306,
      "loss": 1.6528,
      "step": 47692
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4928610026836395,
      "learning_rate": 0.0002727835787535015,
      "loss": 1.6417,
      "step": 47693
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5068883895874023,
      "learning_rate": 0.000272773169754809,
      "loss": 1.5646,
      "step": 47694
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.46955519914627075,
      "learning_rate": 0.0002727627607891659,
      "loss": 1.5956,
      "step": 47695
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5044418573379517,
      "learning_rate": 0.00027275235185658474,
      "loss": 1.5486,
      "step": 47696
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5213170647621155,
      "learning_rate": 0.0002727419429570783,
      "loss": 1.6986,
      "step": 47697
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5011927485466003,
      "learning_rate": 0.00027273153409065914,
      "loss": 1.5586,
      "step": 47698
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4949263036251068,
      "learning_rate": 0.00027272112525733973,
      "loss": 1.5075,
      "step": 47699
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5052567720413208,
      "learning_rate": 0.0002727107164571331,
      "loss": 1.5953,
      "step": 47700
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4846436679363251,
      "learning_rate": 0.0002727003076900514,
      "loss": 1.6096,
      "step": 47701
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.6861960291862488,
      "learning_rate": 0.0002726898989561076,
      "loss": 1.6939,
      "step": 47702
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4766780436038971,
      "learning_rate": 0.00027267949025531433,
      "loss": 1.575,
      "step": 47703
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4974871277809143,
      "learning_rate": 0.000272669081587684,
      "loss": 1.5147,
      "step": 47704
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49391138553619385,
      "learning_rate": 0.00027265867295322944,
      "loss": 1.5588,
      "step": 47705
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5137566924095154,
      "learning_rate": 0.00027264826435196307,
      "loss": 1.672,
      "step": 47706
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5219642519950867,
      "learning_rate": 0.000272637855783898,
      "loss": 1.619,
      "step": 47707
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5119913816452026,
      "learning_rate": 0.00027262744724904623,
      "loss": 1.5388,
      "step": 47708
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48322975635528564,
      "learning_rate": 0.00027261703874742086,
      "loss": 1.607,
      "step": 47709
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49015694856643677,
      "learning_rate": 0.00027260663027903437,
      "loss": 1.6829,
      "step": 47710
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5152044296264648,
      "learning_rate": 0.0002725962218438994,
      "loss": 1.5253,
      "step": 47711
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5072663426399231,
      "learning_rate": 0.0002725858134420285,
      "loss": 1.5545,
      "step": 47712
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5050742626190186,
      "learning_rate": 0.0002725754050734345,
      "loss": 1.5722,
      "step": 47713
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5153420567512512,
      "learning_rate": 0.0002725649967381298,
      "loss": 1.6391,
      "step": 47714
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5040392875671387,
      "learning_rate": 0.00027255458843612713,
      "loss": 1.5957,
      "step": 47715
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5123797059059143,
      "learning_rate": 0.0002725441801674392,
      "loss": 1.5284,
      "step": 47716
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5546150803565979,
      "learning_rate": 0.00027253377193207863,
      "loss": 1.6154,
      "step": 47717
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4952048659324646,
      "learning_rate": 0.000272523363730058,
      "loss": 1.604,
      "step": 47718
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4964107871055603,
      "learning_rate": 0.0002725129555613899,
      "loss": 1.6035,
      "step": 47719
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5050314664840698,
      "learning_rate": 0.00027250254742608714,
      "loss": 1.6154,
      "step": 47720
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4969525635242462,
      "learning_rate": 0.00027249213932416217,
      "loss": 1.6311,
      "step": 47721
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4996732175350189,
      "learning_rate": 0.0002724817312556276,
      "loss": 1.6247,
      "step": 47722
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5106292963027954,
      "learning_rate": 0.0002724713232204963,
      "loss": 1.5612,
      "step": 47723
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.6382765173912048,
      "learning_rate": 0.0002724609152187806,
      "loss": 1.6434,
      "step": 47724
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48253899812698364,
      "learning_rate": 0.00027245050725049344,
      "loss": 1.534,
      "step": 47725
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.47991040349006653,
      "learning_rate": 0.0002724400993156472,
      "loss": 1.5285,
      "step": 47726
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49039724469184875,
      "learning_rate": 0.0002724296914142547,
      "loss": 1.5907,
      "step": 47727
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4928821921348572,
      "learning_rate": 0.0002724192835463285,
      "loss": 1.6121,
      "step": 47728
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4911849796772003,
      "learning_rate": 0.0002724088757118811,
      "loss": 1.642,
      "step": 47729
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5173048973083496,
      "learning_rate": 0.0002723984679109254,
      "loss": 1.5594,
      "step": 47730
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5108749866485596,
      "learning_rate": 0.0002723880601434738,
      "loss": 1.656,
      "step": 47731
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5024308562278748,
      "learning_rate": 0.00027237765240953907,
      "loss": 1.6757,
      "step": 47732
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4894939363002777,
      "learning_rate": 0.00027236724470913385,
      "loss": 1.6141,
      "step": 47733
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4788206219673157,
      "learning_rate": 0.00027235683704227064,
      "loss": 1.5827,
      "step": 47734
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49229684472084045,
      "learning_rate": 0.0002723464294089622,
      "loss": 1.5854,
      "step": 47735
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5069200992584229,
      "learning_rate": 0.000272336021809221,
      "loss": 1.6142,
      "step": 47736
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5148549675941467,
      "learning_rate": 0.00027232561424306,
      "loss": 1.6601,
      "step": 47737
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5082797408103943,
      "learning_rate": 0.00027231520671049147,
      "loss": 1.6273,
      "step": 47738
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5992751121520996,
      "learning_rate": 0.00027230479921152824,
      "loss": 1.6116,
      "step": 47739
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4966118037700653,
      "learning_rate": 0.000272294391746183,
      "loss": 1.6037,
      "step": 47740
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5154584050178528,
      "learning_rate": 0.00027228398431446816,
      "loss": 1.7452,
      "step": 47741
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49904564023017883,
      "learning_rate": 0.00027227357691639656,
      "loss": 1.6179,
      "step": 47742
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4923619329929352,
      "learning_rate": 0.00027226316955198076,
      "loss": 1.639,
      "step": 47743
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4991672933101654,
      "learning_rate": 0.00027225276222123324,
      "loss": 1.5929,
      "step": 47744
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.7449637055397034,
      "learning_rate": 0.0002722423549241669,
      "loss": 1.5902,
      "step": 47745
    },
    {
      "epoch": 1.59,
      "grad_norm": 1.021303653717041,
      "learning_rate": 0.0002722319476607942,
      "loss": 1.592,
      "step": 47746
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4900369644165039,
      "learning_rate": 0.0002722215404311279,
      "loss": 1.6249,
      "step": 47747
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5072453022003174,
      "learning_rate": 0.0002722111332351805,
      "loss": 1.5964,
      "step": 47748
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5093176960945129,
      "learning_rate": 0.00027220072607296467,
      "loss": 1.6168,
      "step": 47749
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4986998438835144,
      "learning_rate": 0.00027219031894449317,
      "loss": 1.614,
      "step": 47750
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4928782284259796,
      "learning_rate": 0.00027217991184977835,
      "loss": 1.5621,
      "step": 47751
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48990702629089355,
      "learning_rate": 0.0002721695047888331,
      "loss": 1.59,
      "step": 47752
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5279288291931152,
      "learning_rate": 0.0002721590977616701,
      "loss": 1.5797,
      "step": 47753
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48862752318382263,
      "learning_rate": 0.0002721486907683017,
      "loss": 1.5574,
      "step": 47754
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5141608715057373,
      "learning_rate": 0.0002721382838087407,
      "loss": 1.5238,
      "step": 47755
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4961960017681122,
      "learning_rate": 0.00027212787688299974,
      "loss": 1.5727,
      "step": 47756
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4955342411994934,
      "learning_rate": 0.00027211746999109145,
      "loss": 1.5595,
      "step": 47757
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5019401907920837,
      "learning_rate": 0.0002721070631330284,
      "loss": 1.5921,
      "step": 47758
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5153177380561829,
      "learning_rate": 0.00027209665630882325,
      "loss": 1.5426,
      "step": 47759
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5038213729858398,
      "learning_rate": 0.00027208624951848877,
      "loss": 1.5991,
      "step": 47760
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.512710690498352,
      "learning_rate": 0.0002720758427620374,
      "loss": 1.6036,
      "step": 47761
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4933520257472992,
      "learning_rate": 0.0002720654360394818,
      "loss": 1.6148,
      "step": 47762
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49566179513931274,
      "learning_rate": 0.0002720550293508347,
      "loss": 1.5489,
      "step": 47763
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49228155612945557,
      "learning_rate": 0.00027204462269610864,
      "loss": 1.5577,
      "step": 47764
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4985804259777069,
      "learning_rate": 0.00027203421607531627,
      "loss": 1.606,
      "step": 47765
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5280557870864868,
      "learning_rate": 0.00027202380948847027,
      "loss": 1.5432,
      "step": 47766
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.482589989900589,
      "learning_rate": 0.00027201340293558327,
      "loss": 1.5264,
      "step": 47767
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4882858991622925,
      "learning_rate": 0.00027200299641666785,
      "loss": 1.6244,
      "step": 47768
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5004612803459167,
      "learning_rate": 0.0002719925899317367,
      "loss": 1.5418,
      "step": 47769
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48335978388786316,
      "learning_rate": 0.0002719821834808024,
      "loss": 1.596,
      "step": 47770
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.472954660654068,
      "learning_rate": 0.0002719717770638776,
      "loss": 1.5661,
      "step": 47771
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5184574723243713,
      "learning_rate": 0.0002719613706809749,
      "loss": 1.6146,
      "step": 47772
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.508491575717926,
      "learning_rate": 0.00027195096433210703,
      "loss": 1.5858,
      "step": 47773
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4769459664821625,
      "learning_rate": 0.00027194055801728643,
      "loss": 1.5969,
      "step": 47774
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4955240786075592,
      "learning_rate": 0.00027193015173652594,
      "loss": 1.5072,
      "step": 47775
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49314260482788086,
      "learning_rate": 0.0002719197454898381,
      "loss": 1.5877,
      "step": 47776
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49684810638427734,
      "learning_rate": 0.0002719093392772356,
      "loss": 1.5788,
      "step": 47777
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4958546757698059,
      "learning_rate": 0.000271898933098731,
      "loss": 1.6584,
      "step": 47778
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49597254395484924,
      "learning_rate": 0.0002718885269543369,
      "loss": 1.5697,
      "step": 47779
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4860173761844635,
      "learning_rate": 0.0002718781208440662,
      "loss": 1.5799,
      "step": 47780
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5365890264511108,
      "learning_rate": 0.000271867714767931,
      "loss": 1.6296,
      "step": 47781
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5002294182777405,
      "learning_rate": 0.0002718573087259444,
      "loss": 1.5648,
      "step": 47782
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5553022623062134,
      "learning_rate": 0.0002718469027181189,
      "loss": 1.7098,
      "step": 47783
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49963846802711487,
      "learning_rate": 0.0002718364967444671,
      "loss": 1.6109,
      "step": 47784
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.47606417536735535,
      "learning_rate": 0.0002718260908050016,
      "loss": 1.6163,
      "step": 47785
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5189420580863953,
      "learning_rate": 0.00027181568489973503,
      "loss": 1.6405,
      "step": 47786
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5163444876670837,
      "learning_rate": 0.0002718052790286803,
      "loss": 1.6222,
      "step": 47787
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4949420690536499,
      "learning_rate": 0.00027179487319184956,
      "loss": 1.6114,
      "step": 47788
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49042996764183044,
      "learning_rate": 0.00027178446738925573,
      "loss": 1.5994,
      "step": 47789
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4727674126625061,
      "learning_rate": 0.0002717740616209115,
      "loss": 1.5781,
      "step": 47790
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4914137125015259,
      "learning_rate": 0.00027176365588682934,
      "loss": 1.6746,
      "step": 47791
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4998725354671478,
      "learning_rate": 0.00027175325018702194,
      "loss": 1.5842,
      "step": 47792
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5274347066879272,
      "learning_rate": 0.000271742844521502,
      "loss": 1.6107,
      "step": 47793
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5051396489143372,
      "learning_rate": 0.00027173243889028203,
      "loss": 1.6365,
      "step": 47794
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4892755150794983,
      "learning_rate": 0.00027172203329337463,
      "loss": 1.597,
      "step": 47795
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5182585716247559,
      "learning_rate": 0.0002717116277307926,
      "loss": 1.6398,
      "step": 47796
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48417335748672485,
      "learning_rate": 0.0002717012222025485,
      "loss": 1.6321,
      "step": 47797
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5056822896003723,
      "learning_rate": 0.0002716908167086549,
      "loss": 1.5871,
      "step": 47798
    },
    {
      "epoch": 1.59,
      "grad_norm": 1.1542437076568604,
      "learning_rate": 0.00027168041124912454,
      "loss": 1.5788,
      "step": 47799
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5040919184684753,
      "learning_rate": 0.00027167000582396995,
      "loss": 1.5461,
      "step": 47800
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5105932354927063,
      "learning_rate": 0.0002716596004332038,
      "loss": 1.6183,
      "step": 47801
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4870857894420624,
      "learning_rate": 0.00027164919507683864,
      "loss": 1.516,
      "step": 47802
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5077825784683228,
      "learning_rate": 0.0002716387897548874,
      "loss": 1.6032,
      "step": 47803
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49585407972335815,
      "learning_rate": 0.0002716283844673623,
      "loss": 1.5745,
      "step": 47804
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5238112807273865,
      "learning_rate": 0.00027161797921427616,
      "loss": 1.6757,
      "step": 47805
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5236833691596985,
      "learning_rate": 0.00027160757399564164,
      "loss": 1.6368,
      "step": 47806
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49577754735946655,
      "learning_rate": 0.0002715971688114714,
      "loss": 1.5303,
      "step": 47807
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5038176774978638,
      "learning_rate": 0.000271586763661778,
      "loss": 1.6126,
      "step": 47808
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4887714087963104,
      "learning_rate": 0.000271576358546574,
      "loss": 1.635,
      "step": 47809
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5113310813903809,
      "learning_rate": 0.00027156595346587226,
      "loss": 1.5476,
      "step": 47810
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.509090781211853,
      "learning_rate": 0.0002715555484196851,
      "loss": 1.5897,
      "step": 47811
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5006751418113708,
      "learning_rate": 0.00027154514340802535,
      "loss": 1.5753,
      "step": 47812
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4932827353477478,
      "learning_rate": 0.0002715347384309057,
      "loss": 1.5959,
      "step": 47813
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5038126707077026,
      "learning_rate": 0.0002715243334883386,
      "loss": 1.5874,
      "step": 47814
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5591009855270386,
      "learning_rate": 0.00027151392858033684,
      "loss": 1.5921,
      "step": 47815
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4954170882701874,
      "learning_rate": 0.00027150352370691283,
      "loss": 1.6309,
      "step": 47816
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48009419441223145,
      "learning_rate": 0.00027149311886807953,
      "loss": 1.6573,
      "step": 47817
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.539484441280365,
      "learning_rate": 0.0002714827140638492,
      "loss": 1.6485,
      "step": 47818
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4806768298149109,
      "learning_rate": 0.00027147230929423473,
      "loss": 1.5367,
      "step": 47819
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4911837577819824,
      "learning_rate": 0.00027146190455924876,
      "loss": 1.6021,
      "step": 47820
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48963725566864014,
      "learning_rate": 0.00027145149985890375,
      "loss": 1.6697,
      "step": 47821
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5008235573768616,
      "learning_rate": 0.0002714410951932124,
      "loss": 1.5407,
      "step": 47822
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4866923689842224,
      "learning_rate": 0.0002714306905621873,
      "loss": 1.6334,
      "step": 47823
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49211034178733826,
      "learning_rate": 0.0002714202859658413,
      "loss": 1.6502,
      "step": 47824
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5037042498588562,
      "learning_rate": 0.0002714098814041867,
      "loss": 1.6354,
      "step": 47825
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4991058111190796,
      "learning_rate": 0.00027139947687723634,
      "loss": 1.6287,
      "step": 47826
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5226200222969055,
      "learning_rate": 0.00027138907238500286,
      "loss": 1.598,
      "step": 47827
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4844779074192047,
      "learning_rate": 0.0002713786679274988,
      "loss": 1.6329,
      "step": 47828
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4916629195213318,
      "learning_rate": 0.00027136826350473677,
      "loss": 1.6075,
      "step": 47829
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4963051378726959,
      "learning_rate": 0.0002713578591167296,
      "loss": 1.5802,
      "step": 47830
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5091126561164856,
      "learning_rate": 0.00027134745476348963,
      "loss": 1.5998,
      "step": 47831
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5032305121421814,
      "learning_rate": 0.0002713370504450295,
      "loss": 1.6084,
      "step": 47832
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5154048800468445,
      "learning_rate": 0.00027132664616136217,
      "loss": 1.6485,
      "step": 47833
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48553967475891113,
      "learning_rate": 0.0002713162419125001,
      "loss": 1.577,
      "step": 47834
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4962831437587738,
      "learning_rate": 0.0002713058376984558,
      "loss": 1.6308,
      "step": 47835
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4963127374649048,
      "learning_rate": 0.00027129543351924195,
      "loss": 1.5761,
      "step": 47836
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5017937421798706,
      "learning_rate": 0.0002712850293748713,
      "loss": 1.5833,
      "step": 47837
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48495161533355713,
      "learning_rate": 0.0002712746252653563,
      "loss": 1.5881,
      "step": 47838
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4938356280326843,
      "learning_rate": 0.0002712642211907097,
      "loss": 1.5942,
      "step": 47839
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5063164830207825,
      "learning_rate": 0.0002712538171509442,
      "loss": 1.665,
      "step": 47840
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.516610324382782,
      "learning_rate": 0.0002712434131460722,
      "loss": 1.5858,
      "step": 47841
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4954097867012024,
      "learning_rate": 0.0002712330091761065,
      "loss": 1.6,
      "step": 47842
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4856448471546173,
      "learning_rate": 0.0002712226052410597,
      "loss": 1.5959,
      "step": 47843
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48445767164230347,
      "learning_rate": 0.00027121220134094446,
      "loss": 1.6582,
      "step": 47844
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48885196447372437,
      "learning_rate": 0.0002712017974757733,
      "loss": 1.6037,
      "step": 47845
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49406930804252625,
      "learning_rate": 0.00027119139364555886,
      "loss": 1.6111,
      "step": 47846
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5076685547828674,
      "learning_rate": 0.000271180989850314,
      "loss": 1.5687,
      "step": 47847
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4944351017475128,
      "learning_rate": 0.000271170586090051,
      "loss": 1.6641,
      "step": 47848
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.6018303632736206,
      "learning_rate": 0.0002711601823647827,
      "loss": 1.6453,
      "step": 47849
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4926695227622986,
      "learning_rate": 0.0002711497786745218,
      "loss": 1.5511,
      "step": 47850
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5037068724632263,
      "learning_rate": 0.00027113937501928076,
      "loss": 1.6831,
      "step": 47851
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.564478874206543,
      "learning_rate": 0.0002711289713990722,
      "loss": 1.6614,
      "step": 47852
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4832848608493805,
      "learning_rate": 0.0002711185678139088,
      "loss": 1.5753,
      "step": 47853
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5024790167808533,
      "learning_rate": 0.0002711081642638034,
      "loss": 1.5454,
      "step": 47854
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5081852674484253,
      "learning_rate": 0.0002710977607487682,
      "loss": 1.667,
      "step": 47855
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4949101507663727,
      "learning_rate": 0.00027108735726881614,
      "loss": 1.5751,
      "step": 47856
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49325186014175415,
      "learning_rate": 0.00027107695382395984,
      "loss": 1.6104,
      "step": 47857
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.46872133016586304,
      "learning_rate": 0.0002710665504142118,
      "loss": 1.5612,
      "step": 47858
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4893414080142975,
      "learning_rate": 0.0002710561470395847,
      "loss": 1.5479,
      "step": 47859
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.504641592502594,
      "learning_rate": 0.00027104574370009123,
      "loss": 1.5817,
      "step": 47860
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4920899569988251,
      "learning_rate": 0.0002710353403957438,
      "loss": 1.6085,
      "step": 47861
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4878218472003937,
      "learning_rate": 0.0002710249371265553,
      "loss": 1.542,
      "step": 47862
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5023274421691895,
      "learning_rate": 0.0002710145338925383,
      "loss": 1.6259,
      "step": 47863
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49928975105285645,
      "learning_rate": 0.0002710041306937054,
      "loss": 1.5912,
      "step": 47864
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4867301881313324,
      "learning_rate": 0.00027099372753006915,
      "loss": 1.6471,
      "step": 47865
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5299479961395264,
      "learning_rate": 0.00027098332440164224,
      "loss": 1.5732,
      "step": 47866
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5224916934967041,
      "learning_rate": 0.0002709729213084374,
      "loss": 1.5898,
      "step": 47867
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5056408047676086,
      "learning_rate": 0.0002709625182504669,
      "loss": 1.572,
      "step": 47868
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49373024702072144,
      "learning_rate": 0.00027095211522774383,
      "loss": 1.6525,
      "step": 47869
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48554983735084534,
      "learning_rate": 0.00027094171224028066,
      "loss": 1.6173,
      "step": 47870
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48835039138793945,
      "learning_rate": 0.00027093130928808985,
      "loss": 1.6031,
      "step": 47871
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5177419781684875,
      "learning_rate": 0.0002709209063711842,
      "loss": 1.5984,
      "step": 47872
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49208417534828186,
      "learning_rate": 0.0002709105034895762,
      "loss": 1.4738,
      "step": 47873
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4968796968460083,
      "learning_rate": 0.0002709001006432787,
      "loss": 1.5825,
      "step": 47874
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5326399207115173,
      "learning_rate": 0.00027088969783230406,
      "loss": 1.5229,
      "step": 47875
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.496303915977478,
      "learning_rate": 0.0002708792950566651,
      "loss": 1.5867,
      "step": 47876
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48457056283950806,
      "learning_rate": 0.00027086889231637445,
      "loss": 1.6464,
      "step": 47877
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.494962602853775,
      "learning_rate": 0.00027085848961144456,
      "loss": 1.5688,
      "step": 47878
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5092809796333313,
      "learning_rate": 0.0002708480869418882,
      "loss": 1.6444,
      "step": 47879
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5057031512260437,
      "learning_rate": 0.0002708376843077181,
      "loss": 1.6433,
      "step": 47880
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4905790090560913,
      "learning_rate": 0.00027082728170894655,
      "loss": 1.5523,
      "step": 47881
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5049656629562378,
      "learning_rate": 0.0002708168791455864,
      "loss": 1.678,
      "step": 47882
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5011763572692871,
      "learning_rate": 0.0002708064766176503,
      "loss": 1.5802,
      "step": 47883
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5021579265594482,
      "learning_rate": 0.00027079607412515096,
      "loss": 1.6568,
      "step": 47884
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5047157406806946,
      "learning_rate": 0.00027078567166810075,
      "loss": 1.5477,
      "step": 47885
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4891812205314636,
      "learning_rate": 0.00027077526924651246,
      "loss": 1.5834,
      "step": 47886
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5078145861625671,
      "learning_rate": 0.00027076486686039873,
      "loss": 1.5883,
      "step": 47887
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4953923523426056,
      "learning_rate": 0.0002707544645097721,
      "loss": 1.6482,
      "step": 47888
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4910999834537506,
      "learning_rate": 0.0002707440621946452,
      "loss": 1.6143,
      "step": 47889
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4941463768482208,
      "learning_rate": 0.0002707336599150309,
      "loss": 1.6188,
      "step": 47890
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4939282238483429,
      "learning_rate": 0.00027072325767094134,
      "loss": 1.5746,
      "step": 47891
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4930828809738159,
      "learning_rate": 0.00027071285546238956,
      "loss": 1.6008,
      "step": 47892
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5193213820457458,
      "learning_rate": 0.00027070245328938806,
      "loss": 1.5529,
      "step": 47893
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4910672903060913,
      "learning_rate": 0.00027069205115194954,
      "loss": 1.6539,
      "step": 47894
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.50155109167099,
      "learning_rate": 0.00027068164905008646,
      "loss": 1.5931,
      "step": 47895
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49293893575668335,
      "learning_rate": 0.00027067124698381144,
      "loss": 1.5657,
      "step": 47896
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4967429041862488,
      "learning_rate": 0.00027066084495313745,
      "loss": 1.6934,
      "step": 47897
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49521493911743164,
      "learning_rate": 0.0002706504429580767,
      "loss": 1.665,
      "step": 47898
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5067534446716309,
      "learning_rate": 0.000270640040998642,
      "loss": 1.6004,
      "step": 47899
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5114348530769348,
      "learning_rate": 0.00027062963907484604,
      "loss": 1.569,
      "step": 47900
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5186079144477844,
      "learning_rate": 0.0002706192371867013,
      "loss": 1.561,
      "step": 47901
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49299976229667664,
      "learning_rate": 0.0002706088353342205,
      "loss": 1.5986,
      "step": 47902
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48210111260414124,
      "learning_rate": 0.0002705984335174162,
      "loss": 1.5603,
      "step": 47903
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.49161216616630554,
      "learning_rate": 0.00027058803173630124,
      "loss": 1.6429,
      "step": 47904
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4886268377304077,
      "learning_rate": 0.00027057762999088783,
      "loss": 1.5722,
      "step": 47905
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5096608400344849,
      "learning_rate": 0.00027056722828118897,
      "loss": 1.5862,
      "step": 47906
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5013911724090576,
      "learning_rate": 0.0002705568266072172,
      "loss": 1.5564,
      "step": 47907
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48368164896965027,
      "learning_rate": 0.000270546424968985,
      "loss": 1.6009,
      "step": 47908
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4967128038406372,
      "learning_rate": 0.00027053602336650517,
      "loss": 1.5942,
      "step": 47909
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4985014796257019,
      "learning_rate": 0.0002705256217997903,
      "loss": 1.5969,
      "step": 47910
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4920077621936798,
      "learning_rate": 0.00027051522026885294,
      "loss": 1.6313,
      "step": 47911
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5070767998695374,
      "learning_rate": 0.0002705048187737057,
      "loss": 1.6232,
      "step": 47912
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5176452994346619,
      "learning_rate": 0.00027049441731436127,
      "loss": 1.543,
      "step": 47913
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5023903846740723,
      "learning_rate": 0.00027048401589083236,
      "loss": 1.5866,
      "step": 47914
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4861361086368561,
      "learning_rate": 0.00027047361450313146,
      "loss": 1.6484,
      "step": 47915
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4935312569141388,
      "learning_rate": 0.00027046321315127124,
      "loss": 1.6273,
      "step": 47916
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5000176429748535,
      "learning_rate": 0.0002704528118352644,
      "loss": 1.677,
      "step": 47917
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5072068572044373,
      "learning_rate": 0.0002704424105551234,
      "loss": 1.5481,
      "step": 47918
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5146069526672363,
      "learning_rate": 0.0002704320093108609,
      "loss": 1.6255,
      "step": 47919
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5047560334205627,
      "learning_rate": 0.0002704216081024898,
      "loss": 1.5885,
      "step": 47920
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4942972660064697,
      "learning_rate": 0.0002704112069300223,
      "loss": 1.553,
      "step": 47921
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4961619973182678,
      "learning_rate": 0.0002704008057934713,
      "loss": 1.6075,
      "step": 47922
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4974594712257385,
      "learning_rate": 0.00027039040469284935,
      "loss": 1.6797,
      "step": 47923
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5033302903175354,
      "learning_rate": 0.0002703800036281692,
      "loss": 1.6122,
      "step": 47924
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4889281988143921,
      "learning_rate": 0.00027036960259944323,
      "loss": 1.5274,
      "step": 47925
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4965893030166626,
      "learning_rate": 0.00027035920160668416,
      "loss": 1.5864,
      "step": 47926
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5039502382278442,
      "learning_rate": 0.00027034880064990484,
      "loss": 1.6297,
      "step": 47927
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5108804106712341,
      "learning_rate": 0.0002703383997291175,
      "loss": 1.5657,
      "step": 47928
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4885466694831848,
      "learning_rate": 0.00027032799884433504,
      "loss": 1.6064,
      "step": 47929
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5097970962524414,
      "learning_rate": 0.0002703175979955701,
      "loss": 1.5791,
      "step": 47930
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.512315034866333,
      "learning_rate": 0.0002703071971828352,
      "loss": 1.6194,
      "step": 47931
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5106963515281677,
      "learning_rate": 0.0002702967964061429,
      "loss": 1.5626,
      "step": 47932
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.48797518014907837,
      "learning_rate": 0.0002702863956655059,
      "loss": 1.5382,
      "step": 47933
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5032477378845215,
      "learning_rate": 0.00027027599496093704,
      "loss": 1.5679,
      "step": 47934
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4989756941795349,
      "learning_rate": 0.00027026559429244853,
      "loss": 1.5431,
      "step": 47935
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5112080574035645,
      "learning_rate": 0.0002702551936600533,
      "loss": 1.6068,
      "step": 47936
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4961448013782501,
      "learning_rate": 0.00027024479306376385,
      "loss": 1.5651,
      "step": 47937
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5068385601043701,
      "learning_rate": 0.0002702343925035929,
      "loss": 1.6279,
      "step": 47938
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.5256296396255493,
      "learning_rate": 0.0002702239919795529,
      "loss": 1.5419,
      "step": 47939
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4919928014278412,
      "learning_rate": 0.0002702135914916566,
      "loss": 1.6028,
      "step": 47940
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5051443576812744,
      "learning_rate": 0.0002702031910399168,
      "loss": 1.604,
      "step": 47941
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5056653618812561,
      "learning_rate": 0.0002701927906243457,
      "loss": 1.594,
      "step": 47942
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4892348349094391,
      "learning_rate": 0.00027018239024495625,
      "loss": 1.6025,
      "step": 47943
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49949267506599426,
      "learning_rate": 0.0002701719899017611,
      "loss": 1.6458,
      "step": 47944
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.501929521560669,
      "learning_rate": 0.0002701615895947726,
      "loss": 1.608,
      "step": 47945
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.492519736289978,
      "learning_rate": 0.0002701511893240036,
      "loss": 1.5913,
      "step": 47946
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5200322270393372,
      "learning_rate": 0.00027014078908946666,
      "loss": 1.7351,
      "step": 47947
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5077264308929443,
      "learning_rate": 0.0002701303888911744,
      "loss": 1.6419,
      "step": 47948
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.506793737411499,
      "learning_rate": 0.00027011998872913934,
      "loss": 1.5451,
      "step": 47949
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4963485598564148,
      "learning_rate": 0.0002701095886033743,
      "loss": 1.6117,
      "step": 47950
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48827946186065674,
      "learning_rate": 0.0002700991885138919,
      "loss": 1.5517,
      "step": 47951
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5051770806312561,
      "learning_rate": 0.00027008878846070453,
      "loss": 1.6439,
      "step": 47952
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.509182870388031,
      "learning_rate": 0.00027007838844382505,
      "loss": 1.6418,
      "step": 47953
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48717090487480164,
      "learning_rate": 0.000270067988463266,
      "loss": 1.6497,
      "step": 47954
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5173824429512024,
      "learning_rate": 0.00027005758851904,
      "loss": 1.5574,
      "step": 47955
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5203438997268677,
      "learning_rate": 0.0002700471886111596,
      "loss": 1.5781,
      "step": 47956
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5242438912391663,
      "learning_rate": 0.00027003678873963765,
      "loss": 1.5576,
      "step": 47957
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4726117253303528,
      "learning_rate": 0.00027002638890448645,
      "loss": 1.5435,
      "step": 47958
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5244327187538147,
      "learning_rate": 0.0002700159891057189,
      "loss": 1.5876,
      "step": 47959
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5287640690803528,
      "learning_rate": 0.0002700055893433475,
      "loss": 1.6065,
      "step": 47960
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5032826662063599,
      "learning_rate": 0.0002699951896173849,
      "loss": 1.5929,
      "step": 47961
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4742829501628876,
      "learning_rate": 0.0002699847899278437,
      "loss": 1.6193,
      "step": 47962
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4940870404243469,
      "learning_rate": 0.0002699743902747365,
      "loss": 1.6735,
      "step": 47963
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5027449131011963,
      "learning_rate": 0.00026996399065807615,
      "loss": 1.5789,
      "step": 47964
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5115182399749756,
      "learning_rate": 0.0002699535910778749,
      "loss": 1.5942,
      "step": 47965
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48561960458755493,
      "learning_rate": 0.0002699431915341456,
      "loss": 1.6167,
      "step": 47966
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4814349412918091,
      "learning_rate": 0.0002699327920269009,
      "loss": 1.6846,
      "step": 47967
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4936974346637726,
      "learning_rate": 0.0002699223925561533,
      "loss": 1.63,
      "step": 47968
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5271638631820679,
      "learning_rate": 0.0002699119931219155,
      "loss": 1.5409,
      "step": 47969
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5233436822891235,
      "learning_rate": 0.00026990159372420003,
      "loss": 1.621,
      "step": 47970
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.47402018308639526,
      "learning_rate": 0.0002698911943630198,
      "loss": 1.5759,
      "step": 47971
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5005814433097839,
      "learning_rate": 0.000269880795038387,
      "loss": 1.6307,
      "step": 47972
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5037178993225098,
      "learning_rate": 0.00026987039575031464,
      "loss": 1.5896,
      "step": 47973
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4890691339969635,
      "learning_rate": 0.0002698599964988151,
      "loss": 1.4938,
      "step": 47974
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4891480505466461,
      "learning_rate": 0.0002698495972839011,
      "loss": 1.6852,
      "step": 47975
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4899842441082001,
      "learning_rate": 0.0002698391981055853,
      "loss": 1.5904,
      "step": 47976
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5067002177238464,
      "learning_rate": 0.0002698287989638802,
      "loss": 1.5655,
      "step": 47977
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4769105315208435,
      "learning_rate": 0.0002698183998587985,
      "loss": 1.5235,
      "step": 47978
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5123423337936401,
      "learning_rate": 0.0002698080007903527,
      "loss": 1.6236,
      "step": 47979
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.47835931181907654,
      "learning_rate": 0.0002697976017585557,
      "loss": 1.6137,
      "step": 47980
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48297396302223206,
      "learning_rate": 0.00026978720276342,
      "loss": 1.5442,
      "step": 47981
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49540993571281433,
      "learning_rate": 0.0002697768038049581,
      "loss": 1.5371,
      "step": 47982
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5097082853317261,
      "learning_rate": 0.00026976640488318265,
      "loss": 1.6136,
      "step": 47983
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5129132866859436,
      "learning_rate": 0.0002697560059981065,
      "loss": 1.5359,
      "step": 47984
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5056309700012207,
      "learning_rate": 0.0002697456071497419,
      "loss": 1.5721,
      "step": 47985
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5022972822189331,
      "learning_rate": 0.00026973520833810177,
      "loss": 1.5717,
      "step": 47986
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49373263120651245,
      "learning_rate": 0.0002697248095631987,
      "loss": 1.5772,
      "step": 47987
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4842098653316498,
      "learning_rate": 0.00026971441082504515,
      "loss": 1.5697,
      "step": 47988
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4883965253829956,
      "learning_rate": 0.00026970401212365387,
      "loss": 1.6284,
      "step": 47989
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4972165822982788,
      "learning_rate": 0.00026969361345903747,
      "loss": 1.5818,
      "step": 47990
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4957447350025177,
      "learning_rate": 0.0002696832148312086,
      "loss": 1.5833,
      "step": 47991
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.503979504108429,
      "learning_rate": 0.0002696728162401797,
      "loss": 1.5658,
      "step": 47992
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5216478705406189,
      "learning_rate": 0.0002696624176859636,
      "loss": 1.6015,
      "step": 47993
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49863559007644653,
      "learning_rate": 0.000269652019168573,
      "loss": 1.5969,
      "step": 47994
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4798424243927002,
      "learning_rate": 0.00026964162068802023,
      "loss": 1.618,
      "step": 47995
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49108263850212097,
      "learning_rate": 0.0002696312222443181,
      "loss": 1.5491,
      "step": 47996
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.517278254032135,
      "learning_rate": 0.0002696208238374792,
      "loss": 1.5633,
      "step": 47997
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49359607696533203,
      "learning_rate": 0.00026961042546751613,
      "loss": 1.5826,
      "step": 47998
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5272009968757629,
      "learning_rate": 0.00026960002713444144,
      "loss": 1.5945,
      "step": 47999
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5027840733528137,
      "learning_rate": 0.0002695896288382679,
      "loss": 1.6661,
      "step": 48000
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5045463442802429,
      "learning_rate": 0.00026957923057900813,
      "loss": 1.5373,
      "step": 48001
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49297356605529785,
      "learning_rate": 0.0002695688323566746,
      "loss": 1.589,
      "step": 48002
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49164503812789917,
      "learning_rate": 0.00026955843417128013,
      "loss": 1.6355,
      "step": 48003
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5042555928230286,
      "learning_rate": 0.0002695480360228372,
      "loss": 1.518,
      "step": 48004
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5944409370422363,
      "learning_rate": 0.0002695376379113584,
      "loss": 1.6355,
      "step": 48005
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5134199261665344,
      "learning_rate": 0.0002695272398368564,
      "loss": 1.5866,
      "step": 48006
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5036363005638123,
      "learning_rate": 0.00026951684179934407,
      "loss": 1.6091,
      "step": 48007
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5130029916763306,
      "learning_rate": 0.00026950644379883354,
      "loss": 1.6407,
      "step": 48008
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5002906918525696,
      "learning_rate": 0.0002694960458353378,
      "loss": 1.5574,
      "step": 48009
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4904530644416809,
      "learning_rate": 0.0002694856479088693,
      "loss": 1.5542,
      "step": 48010
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.51805180311203,
      "learning_rate": 0.0002694752500194409,
      "loss": 1.602,
      "step": 48011
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4883282780647278,
      "learning_rate": 0.0002694648521670649,
      "loss": 1.5719,
      "step": 48012
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5198477506637573,
      "learning_rate": 0.000269454454351754,
      "loss": 1.717,
      "step": 48013
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5399818420410156,
      "learning_rate": 0.0002694440565735211,
      "loss": 1.6234,
      "step": 48014
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5869925618171692,
      "learning_rate": 0.0002694336588323785,
      "loss": 1.6437,
      "step": 48015
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4936836063861847,
      "learning_rate": 0.0002694232611283389,
      "loss": 1.5637,
      "step": 48016
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5399638414382935,
      "learning_rate": 0.00026941286346141507,
      "loss": 1.5762,
      "step": 48017
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4933813214302063,
      "learning_rate": 0.00026940246583161945,
      "loss": 1.5834,
      "step": 48018
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.483132541179657,
      "learning_rate": 0.0002693920682389647,
      "loss": 1.5369,
      "step": 48019
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.514275312423706,
      "learning_rate": 0.0002693816706834634,
      "loss": 1.4995,
      "step": 48020
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5216171145439148,
      "learning_rate": 0.00026937127316512845,
      "loss": 1.5285,
      "step": 48021
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4912254214286804,
      "learning_rate": 0.00026936087568397207,
      "loss": 1.5997,
      "step": 48022
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5199137926101685,
      "learning_rate": 0.0002693504782400071,
      "loss": 1.5977,
      "step": 48023
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5170778036117554,
      "learning_rate": 0.0002693400808332463,
      "loss": 1.56,
      "step": 48024
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5193067193031311,
      "learning_rate": 0.000269329683463702,
      "loss": 1.6082,
      "step": 48025
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5258074402809143,
      "learning_rate": 0.00026931928613138694,
      "loss": 1.6592,
      "step": 48026
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5100855827331543,
      "learning_rate": 0.0002693088888363138,
      "loss": 1.5955,
      "step": 48027
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.501201868057251,
      "learning_rate": 0.0002692984915784951,
      "loss": 1.6518,
      "step": 48028
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5013821721076965,
      "learning_rate": 0.00026928809435794346,
      "loss": 1.581,
      "step": 48029
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5259680151939392,
      "learning_rate": 0.00026927769717467157,
      "loss": 1.6325,
      "step": 48030
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5241919755935669,
      "learning_rate": 0.0002692673000286921,
      "loss": 1.6464,
      "step": 48031
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4987783432006836,
      "learning_rate": 0.00026925690292001756,
      "loss": 1.5626,
      "step": 48032
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4949178099632263,
      "learning_rate": 0.0002692465058486606,
      "loss": 1.6136,
      "step": 48033
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49763205647468567,
      "learning_rate": 0.0002692361088146339,
      "loss": 1.6142,
      "step": 48034
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5000460743904114,
      "learning_rate": 0.00026922571181794996,
      "loss": 1.5776,
      "step": 48035
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4918375015258789,
      "learning_rate": 0.00026921531485862144,
      "loss": 1.5734,
      "step": 48036
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5109595060348511,
      "learning_rate": 0.0002692049179366612,
      "loss": 1.6212,
      "step": 48037
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5141321420669556,
      "learning_rate": 0.0002691945210520814,
      "loss": 1.5443,
      "step": 48038
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4796140491962433,
      "learning_rate": 0.000269184124204895,
      "loss": 1.6223,
      "step": 48039
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4994830787181854,
      "learning_rate": 0.00026917372739511457,
      "loss": 1.5757,
      "step": 48040
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5087717771530151,
      "learning_rate": 0.00026916333062275275,
      "loss": 1.6324,
      "step": 48041
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5040323138237,
      "learning_rate": 0.000269152933887822,
      "loss": 1.6189,
      "step": 48042
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5091814398765564,
      "learning_rate": 0.00026914253719033496,
      "loss": 1.6935,
      "step": 48043
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5163128972053528,
      "learning_rate": 0.00026913214053030457,
      "loss": 1.6423,
      "step": 48044
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49937063455581665,
      "learning_rate": 0.000269121743907743,
      "loss": 1.6004,
      "step": 48045
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5025166273117065,
      "learning_rate": 0.0002691113473226632,
      "loss": 1.5735,
      "step": 48046
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5062830448150635,
      "learning_rate": 0.0002691009507750777,
      "loss": 1.5702,
      "step": 48047
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49400097131729126,
      "learning_rate": 0.000269090554264999,
      "loss": 1.6605,
      "step": 48048
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4969765841960907,
      "learning_rate": 0.0002690801577924398,
      "loss": 1.598,
      "step": 48049
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.504470705986023,
      "learning_rate": 0.00026906976135741275,
      "loss": 1.61,
      "step": 48050
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.510784924030304,
      "learning_rate": 0.0002690593649599306,
      "loss": 1.6129,
      "step": 48051
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5281090140342712,
      "learning_rate": 0.0002690489686000056,
      "loss": 1.6126,
      "step": 48052
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49613451957702637,
      "learning_rate": 0.0002690385722776507,
      "loss": 1.6643,
      "step": 48053
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.501616895198822,
      "learning_rate": 0.00026902817599287846,
      "loss": 1.5496,
      "step": 48054
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5249070525169373,
      "learning_rate": 0.0002690177797457014,
      "loss": 1.6276,
      "step": 48055
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5183479189872742,
      "learning_rate": 0.0002690073835361322,
      "loss": 1.5648,
      "step": 48056
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5146308541297913,
      "learning_rate": 0.0002689969873641835,
      "loss": 1.5768,
      "step": 48057
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48745614290237427,
      "learning_rate": 0.00026898659122986783,
      "loss": 1.6185,
      "step": 48058
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5036560893058777,
      "learning_rate": 0.00026897619513319783,
      "loss": 1.6521,
      "step": 48059
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5176839828491211,
      "learning_rate": 0.00026896579907418624,
      "loss": 1.5813,
      "step": 48060
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5147774815559387,
      "learning_rate": 0.0002689554030528456,
      "loss": 1.6593,
      "step": 48061
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4900422990322113,
      "learning_rate": 0.0002689450070691885,
      "loss": 1.5722,
      "step": 48062
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4862291216850281,
      "learning_rate": 0.00026893461112322757,
      "loss": 1.6022,
      "step": 48063
    },
    {
      "epoch": 1.6,
      "grad_norm": 1.2829526662826538,
      "learning_rate": 0.0002689242152149755,
      "loss": 1.6062,
      "step": 48064
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4912714958190918,
      "learning_rate": 0.0002689138193444448,
      "loss": 1.6038,
      "step": 48065
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4988475739955902,
      "learning_rate": 0.0002689034235116481,
      "loss": 1.6251,
      "step": 48066
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48927947878837585,
      "learning_rate": 0.0002688930277165981,
      "loss": 1.5668,
      "step": 48067
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4856576919555664,
      "learning_rate": 0.00026888263195930744,
      "loss": 1.5905,
      "step": 48068
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.493617445230484,
      "learning_rate": 0.0002688722362397886,
      "loss": 1.5699,
      "step": 48069
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4977661371231079,
      "learning_rate": 0.0002688618405580543,
      "loss": 1.5867,
      "step": 48070
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4763818681240082,
      "learning_rate": 0.0002688514449141173,
      "loss": 1.5668,
      "step": 48071
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4909554719924927,
      "learning_rate": 0.00026884104930798984,
      "loss": 1.5957,
      "step": 48072
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48665013909339905,
      "learning_rate": 0.00026883065373968474,
      "loss": 1.6614,
      "step": 48073
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49592259526252747,
      "learning_rate": 0.0002688202582092149,
      "loss": 1.5984,
      "step": 48074
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49929776787757874,
      "learning_rate": 0.00026880986271659235,
      "loss": 1.5179,
      "step": 48075
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.504233717918396,
      "learning_rate": 0.0002687994672618302,
      "loss": 1.6028,
      "step": 48076
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48911669850349426,
      "learning_rate": 0.0002687890718449409,
      "loss": 1.5733,
      "step": 48077
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5000052452087402,
      "learning_rate": 0.0002687786764659371,
      "loss": 1.5728,
      "step": 48078
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4915509819984436,
      "learning_rate": 0.00026876828112483127,
      "loss": 1.5219,
      "step": 48079
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5015743970870972,
      "learning_rate": 0.00026875788582163615,
      "loss": 1.5975,
      "step": 48080
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4871673583984375,
      "learning_rate": 0.0002687474905563645,
      "loss": 1.5554,
      "step": 48081
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4900509715080261,
      "learning_rate": 0.00026873709532902865,
      "loss": 1.5531,
      "step": 48082
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4809929132461548,
      "learning_rate": 0.0002687267001396414,
      "loss": 1.6146,
      "step": 48083
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5103024244308472,
      "learning_rate": 0.00026871630498821535,
      "loss": 1.6165,
      "step": 48084
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.516041100025177,
      "learning_rate": 0.0002687059098747631,
      "loss": 1.5864,
      "step": 48085
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5001281499862671,
      "learning_rate": 0.00026869551479929727,
      "loss": 1.6247,
      "step": 48086
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4880521893501282,
      "learning_rate": 0.00026868511976183034,
      "loss": 1.577,
      "step": 48087
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4990621507167816,
      "learning_rate": 0.0002686747247623752,
      "loss": 1.5573,
      "step": 48088
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.516176164150238,
      "learning_rate": 0.0002686643298009443,
      "loss": 1.5662,
      "step": 48089
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5019335746765137,
      "learning_rate": 0.0002686539348775503,
      "loss": 1.635,
      "step": 48090
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5295913815498352,
      "learning_rate": 0.00026864353999220584,
      "loss": 1.6991,
      "step": 48091
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5055548548698425,
      "learning_rate": 0.0002686331451449234,
      "loss": 1.6056,
      "step": 48092
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5095716118812561,
      "learning_rate": 0.00026862275033571575,
      "loss": 1.6459,
      "step": 48093
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.47968026995658875,
      "learning_rate": 0.00026861235556459556,
      "loss": 1.6064,
      "step": 48094
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48382651805877686,
      "learning_rate": 0.00026860196083157515,
      "loss": 1.6685,
      "step": 48095
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5024784207344055,
      "learning_rate": 0.00026859156613666743,
      "loss": 1.5977,
      "step": 48096
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49228137731552124,
      "learning_rate": 0.0002685811714798849,
      "loss": 1.5841,
      "step": 48097
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5110766291618347,
      "learning_rate": 0.00026857077686124025,
      "loss": 1.6263,
      "step": 48098
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5310782194137573,
      "learning_rate": 0.00026856038228074606,
      "loss": 1.6339,
      "step": 48099
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5006210207939148,
      "learning_rate": 0.00026854998773841486,
      "loss": 1.5623,
      "step": 48100
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48006007075309753,
      "learning_rate": 0.00026853959323425944,
      "loss": 1.6087,
      "step": 48101
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.504214346408844,
      "learning_rate": 0.0002685291987682921,
      "loss": 1.6148,
      "step": 48102
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5135185122489929,
      "learning_rate": 0.00026851880434052586,
      "loss": 1.6395,
      "step": 48103
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5086328983306885,
      "learning_rate": 0.00026850840995097316,
      "loss": 1.5803,
      "step": 48104
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5064877867698669,
      "learning_rate": 0.00026849801559964656,
      "loss": 1.607,
      "step": 48105
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4840591251850128,
      "learning_rate": 0.00026848762128655875,
      "loss": 1.5858,
      "step": 48106
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5090288519859314,
      "learning_rate": 0.00026847722701172223,
      "loss": 1.5317,
      "step": 48107
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5419830679893494,
      "learning_rate": 0.00026846683277514987,
      "loss": 1.6908,
      "step": 48108
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5721877813339233,
      "learning_rate": 0.000268456438576854,
      "loss": 1.6366,
      "step": 48109
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4886358678340912,
      "learning_rate": 0.0002684460444168474,
      "loss": 1.5506,
      "step": 48110
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5307019352912903,
      "learning_rate": 0.0002684356502951427,
      "loss": 1.5928,
      "step": 48111
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5221542119979858,
      "learning_rate": 0.0002684252562117524,
      "loss": 1.5657,
      "step": 48112
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4937938153743744,
      "learning_rate": 0.00026841486216668925,
      "loss": 1.5811,
      "step": 48113
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5023840069770813,
      "learning_rate": 0.0002684044681599658,
      "loss": 1.5754,
      "step": 48114
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5220170021057129,
      "learning_rate": 0.00026839407419159463,
      "loss": 1.6017,
      "step": 48115
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5048454403877258,
      "learning_rate": 0.0002683836802615884,
      "loss": 1.6368,
      "step": 48116
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5135284662246704,
      "learning_rate": 0.0002683732863699597,
      "loss": 1.6312,
      "step": 48117
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5007703304290771,
      "learning_rate": 0.0002683628925167213,
      "loss": 1.5233,
      "step": 48118
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49186933040618896,
      "learning_rate": 0.0002683524987018856,
      "loss": 1.5682,
      "step": 48119
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5061034560203552,
      "learning_rate": 0.0002683421049254652,
      "loss": 1.6243,
      "step": 48120
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5140528678894043,
      "learning_rate": 0.000268331711187473,
      "loss": 1.5408,
      "step": 48121
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5011643767356873,
      "learning_rate": 0.00026832131748792134,
      "loss": 1.5606,
      "step": 48122
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5069882273674011,
      "learning_rate": 0.0002683109238268229,
      "loss": 1.637,
      "step": 48123
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5000423192977905,
      "learning_rate": 0.00026830053020419046,
      "loss": 1.5744,
      "step": 48124
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.506011426448822,
      "learning_rate": 0.0002682901366200364,
      "loss": 1.5684,
      "step": 48125
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4937247335910797,
      "learning_rate": 0.0002682797430743734,
      "loss": 1.5505,
      "step": 48126
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49840742349624634,
      "learning_rate": 0.0002682693495672142,
      "loss": 1.5511,
      "step": 48127
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48821234703063965,
      "learning_rate": 0.00026825895609857136,
      "loss": 1.6185,
      "step": 48128
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4947405159473419,
      "learning_rate": 0.0002682485626684574,
      "loss": 1.6232,
      "step": 48129
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.506264865398407,
      "learning_rate": 0.000268238169276885,
      "loss": 1.6286,
      "step": 48130
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5059033632278442,
      "learning_rate": 0.00026822777592386694,
      "loss": 1.671,
      "step": 48131
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5349278450012207,
      "learning_rate": 0.00026821738260941546,
      "loss": 1.6684,
      "step": 48132
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4845917522907257,
      "learning_rate": 0.0002682069893335435,
      "loss": 1.5797,
      "step": 48133
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48658719658851624,
      "learning_rate": 0.0002681965960962636,
      "loss": 1.5619,
      "step": 48134
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5182285904884338,
      "learning_rate": 0.00026818620289758834,
      "loss": 1.6038,
      "step": 48135
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49059802293777466,
      "learning_rate": 0.0002681758097375303,
      "loss": 1.577,
      "step": 48136
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5113226771354675,
      "learning_rate": 0.00026816541661610203,
      "loss": 1.6591,
      "step": 48137
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49521318078041077,
      "learning_rate": 0.0002681550235333165,
      "loss": 1.5156,
      "step": 48138
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5008091330528259,
      "learning_rate": 0.00026814463048918587,
      "loss": 1.594,
      "step": 48139
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4887198805809021,
      "learning_rate": 0.000268134237483723,
      "loss": 1.5718,
      "step": 48140
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5018914937973022,
      "learning_rate": 0.00026812384451694064,
      "loss": 1.52,
      "step": 48141
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4920671880245209,
      "learning_rate": 0.00026811345158885106,
      "loss": 1.6466,
      "step": 48142
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5132982730865479,
      "learning_rate": 0.0002681030586994671,
      "loss": 1.5707,
      "step": 48143
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49773740768432617,
      "learning_rate": 0.0002680926658488014,
      "loss": 1.6224,
      "step": 48144
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5075340867042542,
      "learning_rate": 0.00026808227303686644,
      "loss": 1.563,
      "step": 48145
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5240450501441956,
      "learning_rate": 0.00026807188026367477,
      "loss": 1.6464,
      "step": 48146
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5151678919792175,
      "learning_rate": 0.00026806148752923925,
      "loss": 1.6062,
      "step": 48147
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5072286128997803,
      "learning_rate": 0.0002680510948335724,
      "loss": 1.5346,
      "step": 48148
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4941469132900238,
      "learning_rate": 0.00026804070217668685,
      "loss": 1.6177,
      "step": 48149
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5043321847915649,
      "learning_rate": 0.0002680303095585951,
      "loss": 1.6901,
      "step": 48150
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5549789667129517,
      "learning_rate": 0.0002680199169793099,
      "loss": 1.593,
      "step": 48151
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5033592581748962,
      "learning_rate": 0.0002680095244388438,
      "loss": 1.536,
      "step": 48152
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49725282192230225,
      "learning_rate": 0.0002679991319372093,
      "loss": 1.5467,
      "step": 48153
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5098477005958557,
      "learning_rate": 0.00026798873947441934,
      "loss": 1.6058,
      "step": 48154
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49867433309555054,
      "learning_rate": 0.00026797834705048616,
      "loss": 1.5843,
      "step": 48155
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49824434518814087,
      "learning_rate": 0.00026796795466542265,
      "loss": 1.5958,
      "step": 48156
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5160974860191345,
      "learning_rate": 0.0002679575623192413,
      "loss": 1.5448,
      "step": 48157
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5037747621536255,
      "learning_rate": 0.00026794717001195475,
      "loss": 1.6195,
      "step": 48158
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5104922652244568,
      "learning_rate": 0.0002679367777435756,
      "loss": 1.5781,
      "step": 48159
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4864647090435028,
      "learning_rate": 0.00026792638551411643,
      "loss": 1.6114,
      "step": 48160
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4933070242404938,
      "learning_rate": 0.0002679159933235901,
      "loss": 1.6144,
      "step": 48161
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5056963562965393,
      "learning_rate": 0.00026790560117200874,
      "loss": 1.6082,
      "step": 48162
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.513933539390564,
      "learning_rate": 0.0002678952090593854,
      "loss": 1.6404,
      "step": 48163
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48308065533638,
      "learning_rate": 0.0002678848169857326,
      "loss": 1.5471,
      "step": 48164
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5039491653442383,
      "learning_rate": 0.0002678744249510628,
      "loss": 1.6564,
      "step": 48165
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5305103063583374,
      "learning_rate": 0.0002678640329553888,
      "loss": 1.5799,
      "step": 48166
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49172496795654297,
      "learning_rate": 0.000267853640998723,
      "loss": 1.5848,
      "step": 48167
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48936110734939575,
      "learning_rate": 0.00026784324908107833,
      "loss": 1.586,
      "step": 48168
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4976002871990204,
      "learning_rate": 0.000267832857202467,
      "loss": 1.5506,
      "step": 48169
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4768771529197693,
      "learning_rate": 0.000267822465362902,
      "loss": 1.5673,
      "step": 48170
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4879221022129059,
      "learning_rate": 0.0002678120735623958,
      "loss": 1.6093,
      "step": 48171
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5000917911529541,
      "learning_rate": 0.00026780168180096087,
      "loss": 1.6202,
      "step": 48172
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5151469111442566,
      "learning_rate": 0.00026779129007861003,
      "loss": 1.6538,
      "step": 48173
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5090908408164978,
      "learning_rate": 0.00026778089839535584,
      "loss": 1.5968,
      "step": 48174
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49666929244995117,
      "learning_rate": 0.0002677705067512109,
      "loss": 1.6316,
      "step": 48175
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.47317689657211304,
      "learning_rate": 0.0002677601151461877,
      "loss": 1.511,
      "step": 48176
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.502557635307312,
      "learning_rate": 0.00026774972358029905,
      "loss": 1.6202,
      "step": 48177
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48597872257232666,
      "learning_rate": 0.0002677393320535575,
      "loss": 1.5395,
      "step": 48178
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5372545123100281,
      "learning_rate": 0.00026772894056597565,
      "loss": 1.6921,
      "step": 48179
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49653518199920654,
      "learning_rate": 0.00026771854911756605,
      "loss": 1.587,
      "step": 48180
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4950049817562103,
      "learning_rate": 0.0002677081577083415,
      "loss": 1.5332,
      "step": 48181
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49001362919807434,
      "learning_rate": 0.0002676977663383144,
      "loss": 1.5914,
      "step": 48182
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4824335277080536,
      "learning_rate": 0.0002676873750074974,
      "loss": 1.5386,
      "step": 48183
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.501321017742157,
      "learning_rate": 0.0002676769837159032,
      "loss": 1.6396,
      "step": 48184
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5006408095359802,
      "learning_rate": 0.0002676665924635445,
      "loss": 1.5747,
      "step": 48185
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5020937323570251,
      "learning_rate": 0.00026765620125043365,
      "loss": 1.5908,
      "step": 48186
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5099961757659912,
      "learning_rate": 0.00026764581007658345,
      "loss": 1.6008,
      "step": 48187
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5067756175994873,
      "learning_rate": 0.00026763541894200653,
      "loss": 1.5805,
      "step": 48188
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48471009731292725,
      "learning_rate": 0.0002676250278467154,
      "loss": 1.5476,
      "step": 48189
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4965900480747223,
      "learning_rate": 0.0002676146367907226,
      "loss": 1.5954,
      "step": 48190
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4940012991428375,
      "learning_rate": 0.00026760424577404105,
      "loss": 1.644,
      "step": 48191
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.507195770740509,
      "learning_rate": 0.00026759385479668303,
      "loss": 1.6499,
      "step": 48192
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.487853467464447,
      "learning_rate": 0.00026758346385866134,
      "loss": 1.5765,
      "step": 48193
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4909401535987854,
      "learning_rate": 0.00026757307295998854,
      "loss": 1.6235,
      "step": 48194
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4914955794811249,
      "learning_rate": 0.0002675626821006773,
      "loss": 1.607,
      "step": 48195
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5149340033531189,
      "learning_rate": 0.00026755229128074014,
      "loss": 1.6305,
      "step": 48196
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4843604564666748,
      "learning_rate": 0.00026754190050018965,
      "loss": 1.5462,
      "step": 48197
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48405516147613525,
      "learning_rate": 0.00026753150975903874,
      "loss": 1.5485,
      "step": 48198
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5007670521736145,
      "learning_rate": 0.00026752111905729956,
      "loss": 1.5846,
      "step": 48199
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5075289011001587,
      "learning_rate": 0.000267510728394985,
      "loss": 1.6521,
      "step": 48200
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.483522891998291,
      "learning_rate": 0.00026750033777210775,
      "loss": 1.5868,
      "step": 48201
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5188902020454407,
      "learning_rate": 0.00026748994718868023,
      "loss": 1.6057,
      "step": 48202
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5017480254173279,
      "learning_rate": 0.00026747955664471507,
      "loss": 1.5561,
      "step": 48203
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49694913625717163,
      "learning_rate": 0.00026746916614022495,
      "loss": 1.6007,
      "step": 48204
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5023014545440674,
      "learning_rate": 0.00026745877567522255,
      "loss": 1.6034,
      "step": 48205
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4914083182811737,
      "learning_rate": 0.0002674483852497203,
      "loss": 1.6736,
      "step": 48206
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5005745887756348,
      "learning_rate": 0.000267437994863731,
      "loss": 1.6033,
      "step": 48207
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48903924226760864,
      "learning_rate": 0.0002674276045172672,
      "loss": 1.6121,
      "step": 48208
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5224115252494812,
      "learning_rate": 0.0002674172142103414,
      "loss": 1.5731,
      "step": 48209
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5050640106201172,
      "learning_rate": 0.0002674068239429663,
      "loss": 1.5261,
      "step": 48210
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5083828568458557,
      "learning_rate": 0.0002673964337151546,
      "loss": 1.5828,
      "step": 48211
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4945272207260132,
      "learning_rate": 0.00026738604352691866,
      "loss": 1.6266,
      "step": 48212
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4943429231643677,
      "learning_rate": 0.0002673756533782714,
      "loss": 1.6541,
      "step": 48213
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49126124382019043,
      "learning_rate": 0.00026736526326922525,
      "loss": 1.5386,
      "step": 48214
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5068095922470093,
      "learning_rate": 0.0002673548731997929,
      "loss": 1.6104,
      "step": 48215
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5014501214027405,
      "learning_rate": 0.0002673444831699869,
      "loss": 1.5775,
      "step": 48216
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49291688203811646,
      "learning_rate": 0.00026733409317981986,
      "loss": 1.6117,
      "step": 48217
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5083978176116943,
      "learning_rate": 0.00026732370322930446,
      "loss": 1.606,
      "step": 48218
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4700184762477875,
      "learning_rate": 0.0002673133133184532,
      "loss": 1.6399,
      "step": 48219
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49801164865493774,
      "learning_rate": 0.0002673029234472788,
      "loss": 1.5923,
      "step": 48220
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48811057209968567,
      "learning_rate": 0.0002672925336157939,
      "loss": 1.5579,
      "step": 48221
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.498848557472229,
      "learning_rate": 0.00026728214382401095,
      "loss": 1.6059,
      "step": 48222
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49975651502609253,
      "learning_rate": 0.0002672717540719427,
      "loss": 1.6178,
      "step": 48223
    },
    {
      "epoch": 1.6,
      "grad_norm": 2.1024365425109863,
      "learning_rate": 0.0002672613643596017,
      "loss": 1.6054,
      "step": 48224
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.6259362697601318,
      "learning_rate": 0.00026725097468700067,
      "loss": 1.7114,
      "step": 48225
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4925718307495117,
      "learning_rate": 0.00026724058505415196,
      "loss": 1.5071,
      "step": 48226
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5019136071205139,
      "learning_rate": 0.0002672301954610685,
      "loss": 1.6898,
      "step": 48227
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5086614489555359,
      "learning_rate": 0.0002672198059077627,
      "loss": 1.6044,
      "step": 48228
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5020644068717957,
      "learning_rate": 0.0002672094163942472,
      "loss": 1.6394,
      "step": 48229
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48881256580352783,
      "learning_rate": 0.0002671990269205347,
      "loss": 1.5128,
      "step": 48230
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4971214532852173,
      "learning_rate": 0.0002671886374866377,
      "loss": 1.5205,
      "step": 48231
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.504227876663208,
      "learning_rate": 0.00026717824809256886,
      "loss": 1.6502,
      "step": 48232
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4770074784755707,
      "learning_rate": 0.00026716785873834076,
      "loss": 1.5541,
      "step": 48233
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5129427313804626,
      "learning_rate": 0.0002671574694239661,
      "loss": 1.6026,
      "step": 48234
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.48678669333457947,
      "learning_rate": 0.0002671470801494574,
      "loss": 1.5695,
      "step": 48235
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4935832619667053,
      "learning_rate": 0.0002671366909148273,
      "loss": 1.5353,
      "step": 48236
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5364481210708618,
      "learning_rate": 0.00026712630172008844,
      "loss": 1.5756,
      "step": 48237
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49474284052848816,
      "learning_rate": 0.00026711591256525346,
      "loss": 1.6166,
      "step": 48238
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4967239201068878,
      "learning_rate": 0.0002671055234503349,
      "loss": 1.6573,
      "step": 48239
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.49244576692581177,
      "learning_rate": 0.00026709513437534523,
      "loss": 1.597,
      "step": 48240
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5197914242744446,
      "learning_rate": 0.00026708474534029746,
      "loss": 1.551,
      "step": 48241
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5004872679710388,
      "learning_rate": 0.00026707435634520374,
      "loss": 1.4933,
      "step": 48242
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49303144216537476,
      "learning_rate": 0.000267063967390077,
      "loss": 1.5451,
      "step": 48243
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5107018351554871,
      "learning_rate": 0.0002670535784749297,
      "loss": 1.582,
      "step": 48244
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48597368597984314,
      "learning_rate": 0.00026704318959977464,
      "loss": 1.5699,
      "step": 48245
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5658265948295593,
      "learning_rate": 0.00026703280076462415,
      "loss": 1.6838,
      "step": 48246
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49232324957847595,
      "learning_rate": 0.00026702241196949097,
      "loss": 1.5161,
      "step": 48247
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.515112042427063,
      "learning_rate": 0.0002670120232143879,
      "loss": 1.6825,
      "step": 48248
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5094340443611145,
      "learning_rate": 0.0002670016344993272,
      "loss": 1.533,
      "step": 48249
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5225542783737183,
      "learning_rate": 0.0002669912458243217,
      "loss": 1.5505,
      "step": 48250
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.516124963760376,
      "learning_rate": 0.00026698085718938403,
      "loss": 1.5901,
      "step": 48251
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49730849266052246,
      "learning_rate": 0.0002669704685945267,
      "loss": 1.6034,
      "step": 48252
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5110165476799011,
      "learning_rate": 0.00026696008003976226,
      "loss": 1.5582,
      "step": 48253
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4932977557182312,
      "learning_rate": 0.00026694969152510345,
      "loss": 1.5782,
      "step": 48254
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4928450882434845,
      "learning_rate": 0.000266939303050563,
      "loss": 1.6096,
      "step": 48255
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.487644225358963,
      "learning_rate": 0.00026692891461615315,
      "loss": 1.5697,
      "step": 48256
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.503370463848114,
      "learning_rate": 0.0002669185262218868,
      "loss": 1.5991,
      "step": 48257
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48907074332237244,
      "learning_rate": 0.00026690813786777655,
      "loss": 1.5855,
      "step": 48258
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49286916851997375,
      "learning_rate": 0.0002668977495538349,
      "loss": 1.5247,
      "step": 48259
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5083014965057373,
      "learning_rate": 0.0002668873612800745,
      "loss": 1.6113,
      "step": 48260
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5129024386405945,
      "learning_rate": 0.00026687697304650804,
      "loss": 1.6654,
      "step": 48261
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.519767701625824,
      "learning_rate": 0.000266866584853148,
      "loss": 1.6249,
      "step": 48262
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5046577453613281,
      "learning_rate": 0.0002668561967000069,
      "loss": 1.649,
      "step": 48263
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5286847949028015,
      "learning_rate": 0.00026684580858709765,
      "loss": 1.6495,
      "step": 48264
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5038849115371704,
      "learning_rate": 0.0002668354205144327,
      "loss": 1.6178,
      "step": 48265
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5053739547729492,
      "learning_rate": 0.00026682503248202466,
      "loss": 1.615,
      "step": 48266
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4759269952774048,
      "learning_rate": 0.0002668146444898861,
      "loss": 1.6252,
      "step": 48267
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5086886882781982,
      "learning_rate": 0.00026680425653802974,
      "loss": 1.5968,
      "step": 48268
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5060365796089172,
      "learning_rate": 0.0002667938686264681,
      "loss": 1.5786,
      "step": 48269
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4958290457725525,
      "learning_rate": 0.00026678348075521367,
      "loss": 1.6251,
      "step": 48270
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5112135410308838,
      "learning_rate": 0.0002667730929242794,
      "loss": 1.6498,
      "step": 48271
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5226834416389465,
      "learning_rate": 0.00026676270513367755,
      "loss": 1.645,
      "step": 48272
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49753135442733765,
      "learning_rate": 0.00026675231738342096,
      "loss": 1.5618,
      "step": 48273
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4789816439151764,
      "learning_rate": 0.0002667419296735221,
      "loss": 1.6797,
      "step": 48274
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5094685554504395,
      "learning_rate": 0.00026673154200399375,
      "loss": 1.6213,
      "step": 48275
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4710225462913513,
      "learning_rate": 0.00026672115437484834,
      "loss": 1.61,
      "step": 48276
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4817349910736084,
      "learning_rate": 0.00026671076678609846,
      "loss": 1.6539,
      "step": 48277
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.693349301815033,
      "learning_rate": 0.000266700379237757,
      "loss": 1.6517,
      "step": 48278
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48785802721977234,
      "learning_rate": 0.0002666899917298362,
      "loss": 1.6645,
      "step": 48279
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49857762455940247,
      "learning_rate": 0.00026667960426234884,
      "loss": 1.6067,
      "step": 48280
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5050452351570129,
      "learning_rate": 0.00026666921683530766,
      "loss": 1.6201,
      "step": 48281
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49366387724876404,
      "learning_rate": 0.00026665882944872506,
      "loss": 1.6324,
      "step": 48282
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5096294283866882,
      "learning_rate": 0.0002666484421026137,
      "loss": 1.5657,
      "step": 48283
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49159935116767883,
      "learning_rate": 0.0002666380547969862,
      "loss": 1.5464,
      "step": 48284
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4974585473537445,
      "learning_rate": 0.00026662766753185533,
      "loss": 1.6198,
      "step": 48285
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5279520153999329,
      "learning_rate": 0.00026661728030723345,
      "loss": 1.6213,
      "step": 48286
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5026315450668335,
      "learning_rate": 0.0002666068931231333,
      "loss": 1.5514,
      "step": 48287
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5074841976165771,
      "learning_rate": 0.00026659650597956746,
      "loss": 1.5821,
      "step": 48288
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5248526334762573,
      "learning_rate": 0.00026658611887654855,
      "loss": 1.6071,
      "step": 48289
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5099020600318909,
      "learning_rate": 0.0002665757318140891,
      "loss": 1.6089,
      "step": 48290
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4982689917087555,
      "learning_rate": 0.0002665653447922019,
      "loss": 1.5967,
      "step": 48291
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5306670069694519,
      "learning_rate": 0.0002665549578108994,
      "loss": 1.5448,
      "step": 48292
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5135595798492432,
      "learning_rate": 0.0002665445708701941,
      "loss": 1.6224,
      "step": 48293
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49141088128089905,
      "learning_rate": 0.00026653418397009894,
      "loss": 1.6256,
      "step": 48294
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.544651985168457,
      "learning_rate": 0.0002665237971106263,
      "loss": 1.6039,
      "step": 48295
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.551461398601532,
      "learning_rate": 0.00026651341029178884,
      "loss": 1.5533,
      "step": 48296
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49109527468681335,
      "learning_rate": 0.0002665030235135992,
      "loss": 1.6068,
      "step": 48297
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5108993053436279,
      "learning_rate": 0.00026649263677607,
      "loss": 1.5638,
      "step": 48298
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4833752512931824,
      "learning_rate": 0.0002664822500792137,
      "loss": 1.6202,
      "step": 48299
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5415984988212585,
      "learning_rate": 0.0002664718634230429,
      "loss": 1.6743,
      "step": 48300
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5360727906227112,
      "learning_rate": 0.0002664614768075706,
      "loss": 1.5854,
      "step": 48301
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.6824008226394653,
      "learning_rate": 0.0002664510902328089,
      "loss": 1.5478,
      "step": 48302
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5053884983062744,
      "learning_rate": 0.0002664407036987707,
      "loss": 1.5615,
      "step": 48303
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5089333653450012,
      "learning_rate": 0.00026643031720546855,
      "loss": 1.5818,
      "step": 48304
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5263621807098389,
      "learning_rate": 0.0002664199307529151,
      "loss": 1.6468,
      "step": 48305
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.515081524848938,
      "learning_rate": 0.00026640954434112285,
      "loss": 1.5315,
      "step": 48306
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4980888068675995,
      "learning_rate": 0.0002663991579701044,
      "loss": 1.6388,
      "step": 48307
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4884863793849945,
      "learning_rate": 0.0002663887716398726,
      "loss": 1.5625,
      "step": 48308
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5161712765693665,
      "learning_rate": 0.0002663783853504397,
      "loss": 1.6153,
      "step": 48309
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5172325372695923,
      "learning_rate": 0.0002663679991018185,
      "loss": 1.5447,
      "step": 48310
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5133314728736877,
      "learning_rate": 0.00026635761289402166,
      "loss": 1.6525,
      "step": 48311
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5148219466209412,
      "learning_rate": 0.00026634722672706177,
      "loss": 1.6072,
      "step": 48312
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5092102289199829,
      "learning_rate": 0.00026633684060095136,
      "loss": 1.6411,
      "step": 48313
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5324423909187317,
      "learning_rate": 0.00026632645451570296,
      "loss": 1.5728,
      "step": 48314
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5225144624710083,
      "learning_rate": 0.0002663160684713294,
      "loss": 1.6409,
      "step": 48315
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.513643205165863,
      "learning_rate": 0.0002663056824678431,
      "loss": 1.6695,
      "step": 48316
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5069853067398071,
      "learning_rate": 0.00026629529650525676,
      "loss": 1.5865,
      "step": 48317
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4854813516139984,
      "learning_rate": 0.000266284910583583,
      "loss": 1.5564,
      "step": 48318
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48766568303108215,
      "learning_rate": 0.00026627452470283434,
      "loss": 1.5599,
      "step": 48319
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5147974491119385,
      "learning_rate": 0.00026626413886302345,
      "loss": 1.6891,
      "step": 48320
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5190355777740479,
      "learning_rate": 0.0002662537530641629,
      "loss": 1.6189,
      "step": 48321
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4917314052581787,
      "learning_rate": 0.00026624336730626536,
      "loss": 1.5509,
      "step": 48322
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4797925055027008,
      "learning_rate": 0.00026623298158934337,
      "loss": 1.5896,
      "step": 48323
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4919910132884979,
      "learning_rate": 0.0002662225959134096,
      "loss": 1.6141,
      "step": 48324
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5049465298652649,
      "learning_rate": 0.0002662122102784767,
      "loss": 1.6052,
      "step": 48325
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4849086105823517,
      "learning_rate": 0.00026620182468455706,
      "loss": 1.6028,
      "step": 48326
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5013125538825989,
      "learning_rate": 0.00026619143913166347,
      "loss": 1.5923,
      "step": 48327
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5094704627990723,
      "learning_rate": 0.00026618105361980856,
      "loss": 1.5917,
      "step": 48328
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48297253251075745,
      "learning_rate": 0.0002661706681490047,
      "loss": 1.5809,
      "step": 48329
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4943181276321411,
      "learning_rate": 0.00026616028271926476,
      "loss": 1.6074,
      "step": 48330
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48783764243125916,
      "learning_rate": 0.00026614989733060124,
      "loss": 1.6465,
      "step": 48331
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5046860575675964,
      "learning_rate": 0.00026613951198302686,
      "loss": 1.6566,
      "step": 48332
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.47616708278656006,
      "learning_rate": 0.000266129126676554,
      "loss": 1.5784,
      "step": 48333
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5038866400718689,
      "learning_rate": 0.0002661187414111954,
      "loss": 1.6027,
      "step": 48334
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5060110688209534,
      "learning_rate": 0.00026610835618696375,
      "loss": 1.6759,
      "step": 48335
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4998781681060791,
      "learning_rate": 0.0002660979710038714,
      "loss": 1.6062,
      "step": 48336
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48422476649284363,
      "learning_rate": 0.0002660875858619312,
      "loss": 1.5479,
      "step": 48337
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48642534017562866,
      "learning_rate": 0.0002660772007611558,
      "loss": 1.6423,
      "step": 48338
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.6198311448097229,
      "learning_rate": 0.00026606681570155754,
      "loss": 1.5737,
      "step": 48339
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49095577001571655,
      "learning_rate": 0.0002660564306831491,
      "loss": 1.6194,
      "step": 48340
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49340465664863586,
      "learning_rate": 0.0002660460457059433,
      "loss": 1.5808,
      "step": 48341
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5126509070396423,
      "learning_rate": 0.00026603566076995256,
      "loss": 1.6165,
      "step": 48342
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49931102991104126,
      "learning_rate": 0.0002660252758751894,
      "loss": 1.556,
      "step": 48343
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5116664171218872,
      "learning_rate": 0.0002660148910216667,
      "loss": 1.6575,
      "step": 48344
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5006567239761353,
      "learning_rate": 0.0002660045062093969,
      "loss": 1.5496,
      "step": 48345
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5027491450309753,
      "learning_rate": 0.0002659941214383926,
      "loss": 1.5991,
      "step": 48346
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49736982583999634,
      "learning_rate": 0.00026598373670866637,
      "loss": 1.6078,
      "step": 48347
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5012744069099426,
      "learning_rate": 0.00026597335202023097,
      "loss": 1.6013,
      "step": 48348
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5390768647193909,
      "learning_rate": 0.00026596296737309885,
      "loss": 1.6025,
      "step": 48349
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.47841233015060425,
      "learning_rate": 0.0002659525827672826,
      "loss": 1.6475,
      "step": 48350
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5060263872146606,
      "learning_rate": 0.00026594219820279497,
      "loss": 1.6961,
      "step": 48351
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5086684226989746,
      "learning_rate": 0.0002659318136796486,
      "loss": 1.5744,
      "step": 48352
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5095385313034058,
      "learning_rate": 0.0002659214291978558,
      "loss": 1.7075,
      "step": 48353
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48324790596961975,
      "learning_rate": 0.00026591104475742945,
      "loss": 1.6871,
      "step": 48354
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5129056572914124,
      "learning_rate": 0.00026590066035838214,
      "loss": 1.5575,
      "step": 48355
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.478595495223999,
      "learning_rate": 0.0002658902760007263,
      "loss": 1.5489,
      "step": 48356
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5013004541397095,
      "learning_rate": 0.00026587989168447464,
      "loss": 1.6204,
      "step": 48357
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5100793838500977,
      "learning_rate": 0.0002658695074096399,
      "loss": 1.621,
      "step": 48358
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4897937476634979,
      "learning_rate": 0.00026585912317623437,
      "loss": 1.6913,
      "step": 48359
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5091301798820496,
      "learning_rate": 0.00026584873898427086,
      "loss": 1.5388,
      "step": 48360
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4810933470726013,
      "learning_rate": 0.000265838354833762,
      "loss": 1.6707,
      "step": 48361
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5154823064804077,
      "learning_rate": 0.0002658279707247204,
      "loss": 1.5805,
      "step": 48362
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5195285081863403,
      "learning_rate": 0.00026581758665715857,
      "loss": 1.628,
      "step": 48363
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4953750669956207,
      "learning_rate": 0.00026580720263108906,
      "loss": 1.6055,
      "step": 48364
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4931093156337738,
      "learning_rate": 0.0002657968186465247,
      "loss": 1.5954,
      "step": 48365
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.497784823179245,
      "learning_rate": 0.00026578643470347786,
      "loss": 1.6406,
      "step": 48366
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5150161981582642,
      "learning_rate": 0.0002657760508019613,
      "loss": 1.621,
      "step": 48367
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5166105031967163,
      "learning_rate": 0.0002657656669419876,
      "loss": 1.5416,
      "step": 48368
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5091881155967712,
      "learning_rate": 0.0002657552831235693,
      "loss": 1.5234,
      "step": 48369
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5078777074813843,
      "learning_rate": 0.000265744899346719,
      "loss": 1.6259,
      "step": 48370
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5122581720352173,
      "learning_rate": 0.0002657345156114493,
      "loss": 1.5863,
      "step": 48371
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5123368501663208,
      "learning_rate": 0.0002657241319177731,
      "loss": 1.5967,
      "step": 48372
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49881136417388916,
      "learning_rate": 0.0002657137482657025,
      "loss": 1.7331,
      "step": 48373
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5107468366622925,
      "learning_rate": 0.0002657033646552504,
      "loss": 1.5879,
      "step": 48374
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4932580292224884,
      "learning_rate": 0.0002656929810864295,
      "loss": 1.5546,
      "step": 48375
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4994918406009674,
      "learning_rate": 0.00026568259755925213,
      "loss": 1.5316,
      "step": 48376
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.494339257478714,
      "learning_rate": 0.00026567221407373107,
      "loss": 1.5022,
      "step": 48377
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.487635999917984,
      "learning_rate": 0.00026566183062987894,
      "loss": 1.5807,
      "step": 48378
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4962983727455139,
      "learning_rate": 0.00026565144722770826,
      "loss": 1.5662,
      "step": 48379
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.485993891954422,
      "learning_rate": 0.0002656410638672315,
      "loss": 1.5086,
      "step": 48380
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5009767413139343,
      "learning_rate": 0.0002656306805484616,
      "loss": 1.5619,
      "step": 48381
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49455562233924866,
      "learning_rate": 0.000265620297271411,
      "loss": 1.5958,
      "step": 48382
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5116469264030457,
      "learning_rate": 0.0002656099140360922,
      "loss": 1.6179,
      "step": 48383
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5249722599983215,
      "learning_rate": 0.00026559953084251794,
      "loss": 1.6,
      "step": 48384
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5064742565155029,
      "learning_rate": 0.0002655891476907008,
      "loss": 1.5247,
      "step": 48385
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.47897422313690186,
      "learning_rate": 0.0002655787645806534,
      "loss": 1.5651,
      "step": 48386
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.6605656147003174,
      "learning_rate": 0.0002655683815123882,
      "loss": 1.6209,
      "step": 48387
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.532443642616272,
      "learning_rate": 0.00026555799848591806,
      "loss": 1.5984,
      "step": 48388
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.51287442445755,
      "learning_rate": 0.00026554761550125525,
      "loss": 1.5811,
      "step": 48389
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49388012290000916,
      "learning_rate": 0.0002655372325584127,
      "loss": 1.5922,
      "step": 48390
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.493710994720459,
      "learning_rate": 0.00026552684965740274,
      "loss": 1.5959,
      "step": 48391
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5137303471565247,
      "learning_rate": 0.00026551646679823823,
      "loss": 1.6038,
      "step": 48392
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49488112330436707,
      "learning_rate": 0.0002655060839809316,
      "loss": 1.644,
      "step": 48393
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5161466002464294,
      "learning_rate": 0.00026549570120549545,
      "loss": 1.5674,
      "step": 48394
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5024539828300476,
      "learning_rate": 0.00026548531847194265,
      "loss": 1.4812,
      "step": 48395
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5047393441200256,
      "learning_rate": 0.0002654749357802853,
      "loss": 1.6385,
      "step": 48396
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4808303713798523,
      "learning_rate": 0.00026546455313053647,
      "loss": 1.6266,
      "step": 48397
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48339831829071045,
      "learning_rate": 0.00026545417052270857,
      "loss": 1.512,
      "step": 48398
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49465787410736084,
      "learning_rate": 0.0002654437879568142,
      "loss": 1.6508,
      "step": 48399
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5041341781616211,
      "learning_rate": 0.0002654334054328659,
      "loss": 1.6184,
      "step": 48400
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5150720477104187,
      "learning_rate": 0.0002654230229508763,
      "loss": 1.6397,
      "step": 48401
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.494640976190567,
      "learning_rate": 0.00026541264051085835,
      "loss": 1.5933,
      "step": 48402
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.490604966878891,
      "learning_rate": 0.00026540225811282406,
      "loss": 1.6061,
      "step": 48403
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5407900214195251,
      "learning_rate": 0.0002653918757567865,
      "loss": 1.6282,
      "step": 48404
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4959864616394043,
      "learning_rate": 0.0002653814934427581,
      "loss": 1.6186,
      "step": 48405
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4899330735206604,
      "learning_rate": 0.0002653711111707514,
      "loss": 1.6391,
      "step": 48406
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49388182163238525,
      "learning_rate": 0.00026536072894077907,
      "loss": 1.52,
      "step": 48407
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4880211055278778,
      "learning_rate": 0.0002653503467528538,
      "loss": 1.574,
      "step": 48408
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5052923560142517,
      "learning_rate": 0.000265339964606988,
      "loss": 1.545,
      "step": 48409
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5071337819099426,
      "learning_rate": 0.00026532958250319435,
      "loss": 1.5306,
      "step": 48410
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4907791018486023,
      "learning_rate": 0.0002653192004414855,
      "loss": 1.563,
      "step": 48411
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48558810353279114,
      "learning_rate": 0.0002653088184218741,
      "loss": 1.5552,
      "step": 48412
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5242062211036682,
      "learning_rate": 0.0002652984364443727,
      "loss": 1.6744,
      "step": 48413
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.513059675693512,
      "learning_rate": 0.0002652880545089938,
      "loss": 1.6343,
      "step": 48414
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.511077880859375,
      "learning_rate": 0.00026527767261575017,
      "loss": 1.5559,
      "step": 48415
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5212711691856384,
      "learning_rate": 0.0002652672907646543,
      "loss": 1.5787,
      "step": 48416
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5073087811470032,
      "learning_rate": 0.0002652569089557187,
      "loss": 1.5775,
      "step": 48417
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4844716489315033,
      "learning_rate": 0.00026524652718895635,
      "loss": 1.5218,
      "step": 48418
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48892074823379517,
      "learning_rate": 0.00026523614546437933,
      "loss": 1.5971,
      "step": 48419
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4944080412387848,
      "learning_rate": 0.0002652257637820006,
      "loss": 1.5183,
      "step": 48420
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48852866888046265,
      "learning_rate": 0.0002652153821418327,
      "loss": 1.4695,
      "step": 48421
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5104730129241943,
      "learning_rate": 0.00026520500054388825,
      "loss": 1.5443,
      "step": 48422
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49990707635879517,
      "learning_rate": 0.00026519461898817973,
      "loss": 1.5416,
      "step": 48423
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.494120717048645,
      "learning_rate": 0.00026518423747471975,
      "loss": 1.5826,
      "step": 48424
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.477813184261322,
      "learning_rate": 0.00026517385600352116,
      "loss": 1.5202,
      "step": 48425
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5022023916244507,
      "learning_rate": 0.0002651634745745962,
      "loss": 1.5866,
      "step": 48426
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5191635489463806,
      "learning_rate": 0.00026515309318795774,
      "loss": 1.7094,
      "step": 48427
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5058805346488953,
      "learning_rate": 0.00026514271184361823,
      "loss": 1.5998,
      "step": 48428
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5148797631263733,
      "learning_rate": 0.0002651323305415904,
      "loss": 1.5653,
      "step": 48429
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5228712558746338,
      "learning_rate": 0.00026512194928188677,
      "loss": 1.5393,
      "step": 48430
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4883837103843689,
      "learning_rate": 0.00026511156806451985,
      "loss": 1.5878,
      "step": 48431
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49824878573417664,
      "learning_rate": 0.0002651011868895026,
      "loss": 1.5742,
      "step": 48432
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5036337375640869,
      "learning_rate": 0.0002650908057568471,
      "loss": 1.6281,
      "step": 48433
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5036336779594421,
      "learning_rate": 0.0002650804246665663,
      "loss": 1.6087,
      "step": 48434
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5032816529273987,
      "learning_rate": 0.0002650700436186728,
      "loss": 1.579,
      "step": 48435
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5114337801933289,
      "learning_rate": 0.00026505966261317906,
      "loss": 1.6095,
      "step": 48436
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5123639106750488,
      "learning_rate": 0.0002650492816500977,
      "loss": 1.6105,
      "step": 48437
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5116258263587952,
      "learning_rate": 0.00026503890072944133,
      "loss": 1.5675,
      "step": 48438
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5035509467124939,
      "learning_rate": 0.0002650285198512227,
      "loss": 1.6427,
      "step": 48439
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49472907185554504,
      "learning_rate": 0.00026501813901545426,
      "loss": 1.5631,
      "step": 48440
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5095916390419006,
      "learning_rate": 0.00026500775822214863,
      "loss": 1.6166,
      "step": 48441
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4920933246612549,
      "learning_rate": 0.00026499737747131847,
      "loss": 1.5922,
      "step": 48442
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49246466159820557,
      "learning_rate": 0.0002649869967629763,
      "loss": 1.4822,
      "step": 48443
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4990946650505066,
      "learning_rate": 0.0002649766160971347,
      "loss": 1.6372,
      "step": 48444
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49287617206573486,
      "learning_rate": 0.00026496623547380647,
      "loss": 1.5618,
      "step": 48445
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4836733043193817,
      "learning_rate": 0.0002649558548930039,
      "loss": 1.5001,
      "step": 48446
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.510365903377533,
      "learning_rate": 0.00026494547435473983,
      "loss": 1.5402,
      "step": 48447
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49781927466392517,
      "learning_rate": 0.0002649350938590268,
      "loss": 1.6673,
      "step": 48448
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4828045964241028,
      "learning_rate": 0.00026492471340587744,
      "loss": 1.6193,
      "step": 48449
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4950593113899231,
      "learning_rate": 0.0002649143329953043,
      "loss": 1.5275,
      "step": 48450
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5092599391937256,
      "learning_rate": 0.00026490395262731994,
      "loss": 1.6303,
      "step": 48451
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5080931782722473,
      "learning_rate": 0.00026489357230193706,
      "loss": 1.5872,
      "step": 48452
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49316534399986267,
      "learning_rate": 0.0002648831920191681,
      "loss": 1.549,
      "step": 48453
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4749715030193329,
      "learning_rate": 0.0002648728117790258,
      "loss": 1.6267,
      "step": 48454
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5085693597793579,
      "learning_rate": 0.0002648624315815229,
      "loss": 1.5907,
      "step": 48455
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5098555088043213,
      "learning_rate": 0.00026485205142667167,
      "loss": 1.5951,
      "step": 48456
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5084467530250549,
      "learning_rate": 0.0002648416713144849,
      "loss": 1.6114,
      "step": 48457
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5052029490470886,
      "learning_rate": 0.0002648312912449751,
      "loss": 1.5804,
      "step": 48458
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5071260929107666,
      "learning_rate": 0.0002648209112181551,
      "loss": 1.6164,
      "step": 48459
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5037417411804199,
      "learning_rate": 0.0002648105312340372,
      "loss": 1.6152,
      "step": 48460
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5001087188720703,
      "learning_rate": 0.00026480015129263417,
      "loss": 1.6112,
      "step": 48461
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5067501068115234,
      "learning_rate": 0.00026478977139395856,
      "loss": 1.5474,
      "step": 48462
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5195127129554749,
      "learning_rate": 0.000264779391538023,
      "loss": 1.5292,
      "step": 48463
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5187791585922241,
      "learning_rate": 0.00026476901172484,
      "loss": 1.6538,
      "step": 48464
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4990744888782501,
      "learning_rate": 0.00026475863195442236,
      "loss": 1.6425,
      "step": 48465
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49072831869125366,
      "learning_rate": 0.00026474825222678246,
      "loss": 1.5203,
      "step": 48466
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5086787939071655,
      "learning_rate": 0.00026473787254193294,
      "loss": 1.6121,
      "step": 48467
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49775493144989014,
      "learning_rate": 0.00026472749289988646,
      "loss": 1.6968,
      "step": 48468
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5278025269508362,
      "learning_rate": 0.00026471711330065573,
      "loss": 1.6153,
      "step": 48469
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48676225543022156,
      "learning_rate": 0.00026470673374425315,
      "loss": 1.5898,
      "step": 48470
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.501207172870636,
      "learning_rate": 0.00026469635423069136,
      "loss": 1.5913,
      "step": 48471
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49642905592918396,
      "learning_rate": 0.0002646859747599831,
      "loss": 1.6499,
      "step": 48472
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.47878947854042053,
      "learning_rate": 0.00026467559533214076,
      "loss": 1.5762,
      "step": 48473
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4897826313972473,
      "learning_rate": 0.000264665215947177,
      "loss": 1.5995,
      "step": 48474
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5361363887786865,
      "learning_rate": 0.0002646548366051046,
      "loss": 1.5684,
      "step": 48475
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5902624726295471,
      "learning_rate": 0.0002646444573059359,
      "loss": 1.5515,
      "step": 48476
    },
    {
      "epoch": 1.61,
      "grad_norm": 1.1691657304763794,
      "learning_rate": 0.00026463407804968366,
      "loss": 1.6842,
      "step": 48477
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.47830069065093994,
      "learning_rate": 0.00026462369883636043,
      "loss": 1.6609,
      "step": 48478
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4861311614513397,
      "learning_rate": 0.00026461331966597893,
      "loss": 1.5794,
      "step": 48479
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49875596165657043,
      "learning_rate": 0.0002646029405385515,
      "loss": 1.586,
      "step": 48480
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5236342549324036,
      "learning_rate": 0.0002645925614540909,
      "loss": 1.662,
      "step": 48481
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4880923926830292,
      "learning_rate": 0.0002645821824126099,
      "loss": 1.6126,
      "step": 48482
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49565815925598145,
      "learning_rate": 0.00026457180341412067,
      "loss": 1.6059,
      "step": 48483
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4961012303829193,
      "learning_rate": 0.0002645614244586361,
      "loss": 1.5976,
      "step": 48484
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5029950737953186,
      "learning_rate": 0.00026455104554616886,
      "loss": 1.5949,
      "step": 48485
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5002199411392212,
      "learning_rate": 0.00026454066667673136,
      "loss": 1.5984,
      "step": 48486
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5003469586372375,
      "learning_rate": 0.0002645302878503362,
      "loss": 1.5334,
      "step": 48487
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4775654673576355,
      "learning_rate": 0.000264519909066996,
      "loss": 1.6434,
      "step": 48488
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5101803541183472,
      "learning_rate": 0.0002645095303267237,
      "loss": 1.6745,
      "step": 48489
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4883202314376831,
      "learning_rate": 0.00026449915162953127,
      "loss": 1.5981,
      "step": 48490
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4937034547328949,
      "learning_rate": 0.0002644887729754318,
      "loss": 1.5763,
      "step": 48491
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5141748189926147,
      "learning_rate": 0.00026447839436443776,
      "loss": 1.6189,
      "step": 48492
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4843462407588959,
      "learning_rate": 0.0002644680157965616,
      "loss": 1.5847,
      "step": 48493
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5063313245773315,
      "learning_rate": 0.0002644576372718161,
      "loss": 1.6348,
      "step": 48494
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.48386478424072266,
      "learning_rate": 0.0002644472587902138,
      "loss": 1.5676,
      "step": 48495
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.513675332069397,
      "learning_rate": 0.0002644368803517673,
      "loss": 1.6099,
      "step": 48496
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4924769103527069,
      "learning_rate": 0.0002644265019564891,
      "loss": 1.5198,
      "step": 48497
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5156119465827942,
      "learning_rate": 0.0002644161236043919,
      "loss": 1.6499,
      "step": 48498
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4963790774345398,
      "learning_rate": 0.0002644057452954884,
      "loss": 1.562,
      "step": 48499
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4940531849861145,
      "learning_rate": 0.000264395367029791,
      "loss": 1.5609,
      "step": 48500
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4996330142021179,
      "learning_rate": 0.00026438498880731234,
      "loss": 1.5882,
      "step": 48501
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.505902886390686,
      "learning_rate": 0.0002643746106280652,
      "loss": 1.6312,
      "step": 48502
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.485206663608551,
      "learning_rate": 0.0002643642324920619,
      "loss": 1.5867,
      "step": 48503
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4862549602985382,
      "learning_rate": 0.0002643538543993152,
      "loss": 1.6449,
      "step": 48504
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4996291399002075,
      "learning_rate": 0.0002643434763498377,
      "loss": 1.6254,
      "step": 48505
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4881267547607422,
      "learning_rate": 0.0002643330983436419,
      "loss": 1.6446,
      "step": 48506
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4954412579536438,
      "learning_rate": 0.00026432272038074046,
      "loss": 1.5763,
      "step": 48507
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4844908118247986,
      "learning_rate": 0.00026431234246114603,
      "loss": 1.5434,
      "step": 48508
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49900951981544495,
      "learning_rate": 0.0002643019645848712,
      "loss": 1.5829,
      "step": 48509
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4854058027267456,
      "learning_rate": 0.0002642915867519285,
      "loss": 1.5658,
      "step": 48510
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5045983195304871,
      "learning_rate": 0.0002642812089623304,
      "loss": 1.5884,
      "step": 48511
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5176326632499695,
      "learning_rate": 0.0002642708312160899,
      "loss": 1.6195,
      "step": 48512
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49861758947372437,
      "learning_rate": 0.0002642604535132192,
      "loss": 1.5689,
      "step": 48513
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.506105899810791,
      "learning_rate": 0.00026425007585373106,
      "loss": 1.6138,
      "step": 48514
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4978310167789459,
      "learning_rate": 0.0002642396982376381,
      "loss": 1.594,
      "step": 48515
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5131964683532715,
      "learning_rate": 0.00026422932066495286,
      "loss": 1.6108,
      "step": 48516
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5013855695724487,
      "learning_rate": 0.0002642189431356879,
      "loss": 1.5973,
      "step": 48517
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4999019503593445,
      "learning_rate": 0.0002642085656498559,
      "loss": 1.6104,
      "step": 48518
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4816962778568268,
      "learning_rate": 0.0002641981882074695,
      "loss": 1.5421,
      "step": 48519
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.46444928646087646,
      "learning_rate": 0.00026418781080854106,
      "loss": 1.5419,
      "step": 48520
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49372777342796326,
      "learning_rate": 0.00026417743345308347,
      "loss": 1.6284,
      "step": 48521
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5163674354553223,
      "learning_rate": 0.0002641670561411092,
      "loss": 1.6683,
      "step": 48522
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5229465961456299,
      "learning_rate": 0.00026415667887263084,
      "loss": 1.6659,
      "step": 48523
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5020200610160828,
      "learning_rate": 0.00026414630164766094,
      "loss": 1.6077,
      "step": 48524
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5038268566131592,
      "learning_rate": 0.0002641359244662122,
      "loss": 1.6194,
      "step": 48525
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4871625006198883,
      "learning_rate": 0.00026412554732829714,
      "loss": 1.6267,
      "step": 48526
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5171456336975098,
      "learning_rate": 0.00026411517023392834,
      "loss": 1.6512,
      "step": 48527
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5063629150390625,
      "learning_rate": 0.00026410479318311845,
      "loss": 1.6666,
      "step": 48528
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4951643645763397,
      "learning_rate": 0.00026409441617588014,
      "loss": 1.5912,
      "step": 48529
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4980986416339874,
      "learning_rate": 0.00026408403921222585,
      "loss": 1.5418,
      "step": 48530
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5055655837059021,
      "learning_rate": 0.0002640736622921682,
      "loss": 1.61,
      "step": 48531
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5040672421455383,
      "learning_rate": 0.00026406328541571996,
      "loss": 1.5562,
      "step": 48532
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5138542652130127,
      "learning_rate": 0.00026405290858289346,
      "loss": 1.6325,
      "step": 48533
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49584224820137024,
      "learning_rate": 0.00026404253179370145,
      "loss": 1.5252,
      "step": 48534
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5084744095802307,
      "learning_rate": 0.00026403215504815664,
      "loss": 1.5852,
      "step": 48535
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5155834555625916,
      "learning_rate": 0.00026402177834627136,
      "loss": 1.6245,
      "step": 48536
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4923929274082184,
      "learning_rate": 0.0002640114016880584,
      "loss": 1.6161,
      "step": 48537
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5023057460784912,
      "learning_rate": 0.0002640010250735302,
      "loss": 1.6104,
      "step": 48538
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4983442723751068,
      "learning_rate": 0.0002639906485026996,
      "loss": 1.5911,
      "step": 48539
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.49855366349220276,
      "learning_rate": 0.00026398027197557897,
      "loss": 1.5182,
      "step": 48540
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4993699789047241,
      "learning_rate": 0.00026396989549218086,
      "loss": 1.5442,
      "step": 48541
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.4936996400356293,
      "learning_rate": 0.0002639595190525183,
      "loss": 1.5943,
      "step": 48542
    },
    {
      "epoch": 1.62,
      "grad_norm": 1.6706857681274414,
      "learning_rate": 0.00026394914265660325,
      "loss": 1.6651,
      "step": 48543
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5189728140830994,
      "learning_rate": 0.0002639387663044488,
      "loss": 1.6209,
      "step": 48544
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49428418278694153,
      "learning_rate": 0.0002639283899960673,
      "loss": 1.5665,
      "step": 48545
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5004990696907043,
      "learning_rate": 0.00026391801373147156,
      "loss": 1.5184,
      "step": 48546
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5263733267784119,
      "learning_rate": 0.0002639076375106739,
      "loss": 1.5682,
      "step": 48547
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5098609924316406,
      "learning_rate": 0.00026389726133368703,
      "loss": 1.4998,
      "step": 48548
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4995925724506378,
      "learning_rate": 0.0002638868852005236,
      "loss": 1.6071,
      "step": 48549
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49484962224960327,
      "learning_rate": 0.00026387650911119625,
      "loss": 1.5987,
      "step": 48550
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4986632168292999,
      "learning_rate": 0.00026386613306571743,
      "loss": 1.6054,
      "step": 48551
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5168863534927368,
      "learning_rate": 0.00026385575706409985,
      "loss": 1.5757,
      "step": 48552
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4969070553779602,
      "learning_rate": 0.000263845381106356,
      "loss": 1.574,
      "step": 48553
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5099181532859802,
      "learning_rate": 0.00026383500519249853,
      "loss": 1.5942,
      "step": 48554
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4937613308429718,
      "learning_rate": 0.00026382462932253995,
      "loss": 1.6413,
      "step": 48555
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5029999613761902,
      "learning_rate": 0.00026381425349649313,
      "loss": 1.6306,
      "step": 48556
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5059208869934082,
      "learning_rate": 0.0002638038777143703,
      "loss": 1.7128,
      "step": 48557
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.6496700048446655,
      "learning_rate": 0.0002637935019761843,
      "loss": 1.6115,
      "step": 48558
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5077658295631409,
      "learning_rate": 0.00026378312628194775,
      "loss": 1.6319,
      "step": 48559
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.545409083366394,
      "learning_rate": 0.0002637727506316731,
      "loss": 1.5678,
      "step": 48560
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5204241871833801,
      "learning_rate": 0.0002637623750253729,
      "loss": 1.5734,
      "step": 48561
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.47775909304618835,
      "learning_rate": 0.00026375199946305995,
      "loss": 1.5324,
      "step": 48562
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5245381593704224,
      "learning_rate": 0.0002637416239447466,
      "loss": 1.6518,
      "step": 48563
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.501620352268219,
      "learning_rate": 0.0002637312484704457,
      "loss": 1.6177,
      "step": 48564
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5316823720932007,
      "learning_rate": 0.0002637208730401696,
      "loss": 1.6151,
      "step": 48565
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4904192090034485,
      "learning_rate": 0.0002637104976539312,
      "loss": 1.6321,
      "step": 48566
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49101942777633667,
      "learning_rate": 0.0002637001223117427,
      "loss": 1.5541,
      "step": 48567
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4904397130012512,
      "learning_rate": 0.00026368974701361704,
      "loss": 1.5641,
      "step": 48568
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5164521932601929,
      "learning_rate": 0.00026367937175956666,
      "loss": 1.6524,
      "step": 48569
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5310181379318237,
      "learning_rate": 0.0002636689965496041,
      "loss": 1.5435,
      "step": 48570
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.510844349861145,
      "learning_rate": 0.00026365862138374204,
      "loss": 1.6473,
      "step": 48571
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48474061489105225,
      "learning_rate": 0.00026364824626199317,
      "loss": 1.622,
      "step": 48572
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5264991521835327,
      "learning_rate": 0.00026363787118436987,
      "loss": 1.6595,
      "step": 48573
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.517738938331604,
      "learning_rate": 0.00026362749615088486,
      "loss": 1.5423,
      "step": 48574
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5013644695281982,
      "learning_rate": 0.00026361712116155063,
      "loss": 1.6357,
      "step": 48575
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49401190876960754,
      "learning_rate": 0.00026360674621638,
      "loss": 1.5699,
      "step": 48576
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5129528045654297,
      "learning_rate": 0.00026359637131538534,
      "loss": 1.5397,
      "step": 48577
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5204503536224365,
      "learning_rate": 0.0002635859964585793,
      "loss": 1.6031,
      "step": 48578
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5002154111862183,
      "learning_rate": 0.0002635756216459746,
      "loss": 1.5967,
      "step": 48579
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5100762248039246,
      "learning_rate": 0.00026356524687758364,
      "loss": 1.6369,
      "step": 48580
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5243231654167175,
      "learning_rate": 0.0002635548721534191,
      "loss": 1.5606,
      "step": 48581
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48908931016921997,
      "learning_rate": 0.00026354449747349366,
      "loss": 1.6131,
      "step": 48582
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5041539669036865,
      "learning_rate": 0.0002635341228378197,
      "loss": 1.5652,
      "step": 48583
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49367666244506836,
      "learning_rate": 0.00026352374824640997,
      "loss": 1.595,
      "step": 48584
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49380359053611755,
      "learning_rate": 0.0002635133736992771,
      "loss": 1.5375,
      "step": 48585
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5170750617980957,
      "learning_rate": 0.0002635029991964336,
      "loss": 1.5518,
      "step": 48586
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5166158676147461,
      "learning_rate": 0.00026349262473789205,
      "loss": 1.6831,
      "step": 48587
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5261064171791077,
      "learning_rate": 0.0002634822503236651,
      "loss": 1.6013,
      "step": 48588
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5047315955162048,
      "learning_rate": 0.00026347187595376535,
      "loss": 1.5962,
      "step": 48589
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.503201961517334,
      "learning_rate": 0.0002634615016282053,
      "loss": 1.5589,
      "step": 48590
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5062777996063232,
      "learning_rate": 0.0002634511273469976,
      "loss": 1.6405,
      "step": 48591
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5478806495666504,
      "learning_rate": 0.00026344075311015495,
      "loss": 1.5761,
      "step": 48592
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4910091757774353,
      "learning_rate": 0.0002634303789176897,
      "loss": 1.6122,
      "step": 48593
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5238350033760071,
      "learning_rate": 0.00026342000476961466,
      "loss": 1.506,
      "step": 48594
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5038511753082275,
      "learning_rate": 0.0002634096306659423,
      "loss": 1.555,
      "step": 48595
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49603399634361267,
      "learning_rate": 0.0002633992566066853,
      "loss": 1.5873,
      "step": 48596
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5225580930709839,
      "learning_rate": 0.0002633888825918562,
      "loss": 1.6116,
      "step": 48597
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4913979172706604,
      "learning_rate": 0.0002633785086214675,
      "loss": 1.645,
      "step": 48598
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49296876788139343,
      "learning_rate": 0.0002633681346955321,
      "loss": 1.6517,
      "step": 48599
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4866253435611725,
      "learning_rate": 0.00026335776081406223,
      "loss": 1.5784,
      "step": 48600
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4967287480831146,
      "learning_rate": 0.0002633473869770707,
      "loss": 1.6076,
      "step": 48601
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5143511891365051,
      "learning_rate": 0.00026333701318457007,
      "loss": 1.5884,
      "step": 48602
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49455153942108154,
      "learning_rate": 0.00026332663943657284,
      "loss": 1.5512,
      "step": 48603
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5078847408294678,
      "learning_rate": 0.0002633162657330917,
      "loss": 1.5906,
      "step": 48604
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5017659664154053,
      "learning_rate": 0.0002633058920741391,
      "loss": 1.6473,
      "step": 48605
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4919642508029938,
      "learning_rate": 0.000263295518459728,
      "loss": 1.6206,
      "step": 48606
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4941714406013489,
      "learning_rate": 0.0002632851448898705,
      "loss": 1.5915,
      "step": 48607
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5101531147956848,
      "learning_rate": 0.00026327477136457944,
      "loss": 1.6286,
      "step": 48608
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5113109946250916,
      "learning_rate": 0.0002632643978838675,
      "loss": 1.6375,
      "step": 48609
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4978354573249817,
      "learning_rate": 0.0002632540244477471,
      "loss": 1.6533,
      "step": 48610
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49409106373786926,
      "learning_rate": 0.0002632436510562309,
      "loss": 1.6328,
      "step": 48611
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4955204129219055,
      "learning_rate": 0.0002632332777093316,
      "loss": 1.5641,
      "step": 48612
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5047268271446228,
      "learning_rate": 0.0002632229044070616,
      "loss": 1.5918,
      "step": 48613
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4895875155925751,
      "learning_rate": 0.0002632125311494335,
      "loss": 1.5843,
      "step": 48614
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49069616198539734,
      "learning_rate": 0.00026320215793646,
      "loss": 1.6374,
      "step": 48615
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.496620237827301,
      "learning_rate": 0.00026319178476815375,
      "loss": 1.583,
      "step": 48616
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4876842498779297,
      "learning_rate": 0.0002631814116445272,
      "loss": 1.6044,
      "step": 48617
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.507347583770752,
      "learning_rate": 0.00026317103856559297,
      "loss": 1.5687,
      "step": 48618
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5080862641334534,
      "learning_rate": 0.0002631606655313637,
      "loss": 1.5786,
      "step": 48619
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5108870267868042,
      "learning_rate": 0.00026315029254185193,
      "loss": 1.4924,
      "step": 48620
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5421992540359497,
      "learning_rate": 0.0002631399195970702,
      "loss": 1.6054,
      "step": 48621
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4873144328594208,
      "learning_rate": 0.0002631295466970314,
      "loss": 1.5473,
      "step": 48622
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4953272044658661,
      "learning_rate": 0.0002631191738417477,
      "loss": 1.5677,
      "step": 48623
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5196850895881653,
      "learning_rate": 0.0002631088010312319,
      "loss": 1.614,
      "step": 48624
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5022689700126648,
      "learning_rate": 0.00026309842826549665,
      "loss": 1.5846,
      "step": 48625
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.8551897406578064,
      "learning_rate": 0.0002630880555445545,
      "loss": 1.6278,
      "step": 48626
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5398027896881104,
      "learning_rate": 0.00026307768286841797,
      "loss": 1.6542,
      "step": 48627
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5106919407844543,
      "learning_rate": 0.0002630673102370996,
      "loss": 1.5612,
      "step": 48628
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4820830523967743,
      "learning_rate": 0.00026305693765061233,
      "loss": 1.6324,
      "step": 48629
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49287542700767517,
      "learning_rate": 0.0002630465651089682,
      "loss": 1.5546,
      "step": 48630
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49579399824142456,
      "learning_rate": 0.00026303619261218024,
      "loss": 1.5786,
      "step": 48631
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5159503817558289,
      "learning_rate": 0.00026302582016026095,
      "loss": 1.5146,
      "step": 48632
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5026044249534607,
      "learning_rate": 0.0002630154477532227,
      "loss": 1.6455,
      "step": 48633
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5149878263473511,
      "learning_rate": 0.0002630050753910784,
      "loss": 1.6964,
      "step": 48634
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4962477684020996,
      "learning_rate": 0.0002629947030738403,
      "loss": 1.5883,
      "step": 48635
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5048304200172424,
      "learning_rate": 0.00026298433080152144,
      "loss": 1.5981,
      "step": 48636
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.490753710269928,
      "learning_rate": 0.000262973958574134,
      "loss": 1.5893,
      "step": 48637
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5248727202415466,
      "learning_rate": 0.00026296358639169064,
      "loss": 1.622,
      "step": 48638
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5134345889091492,
      "learning_rate": 0.0002629532142542042,
      "loss": 1.6655,
      "step": 48639
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.51677405834198,
      "learning_rate": 0.000262942842161687,
      "loss": 1.6195,
      "step": 48640
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5171101093292236,
      "learning_rate": 0.00026293247011415177,
      "loss": 1.6001,
      "step": 48641
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4928843080997467,
      "learning_rate": 0.000262922098111611,
      "loss": 1.5959,
      "step": 48642
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5060298442840576,
      "learning_rate": 0.0002629117261540774,
      "loss": 1.5775,
      "step": 48643
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5142346024513245,
      "learning_rate": 0.00026290135424156345,
      "loss": 1.6351,
      "step": 48644
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49685850739479065,
      "learning_rate": 0.00026289098237408177,
      "loss": 1.5702,
      "step": 48645
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4842867851257324,
      "learning_rate": 0.00026288061055164505,
      "loss": 1.5539,
      "step": 48646
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.521014392375946,
      "learning_rate": 0.0002628702387742658,
      "loss": 1.6128,
      "step": 48647
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.500826895236969,
      "learning_rate": 0.00026285986704195657,
      "loss": 1.5846,
      "step": 48648
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5265516638755798,
      "learning_rate": 0.00026284949535473006,
      "loss": 1.6413,
      "step": 48649
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5107697248458862,
      "learning_rate": 0.0002628391237125987,
      "loss": 1.5572,
      "step": 48650
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5034422874450684,
      "learning_rate": 0.0002628287521155751,
      "loss": 1.676,
      "step": 48651
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4920072853565216,
      "learning_rate": 0.00026281838056367216,
      "loss": 1.5917,
      "step": 48652
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.497710257768631,
      "learning_rate": 0.000262808009056902,
      "loss": 1.6794,
      "step": 48653
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5019744634628296,
      "learning_rate": 0.0002627976375952775,
      "loss": 1.5326,
      "step": 48654
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5185412168502808,
      "learning_rate": 0.0002627872661788112,
      "loss": 1.6178,
      "step": 48655
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5249590873718262,
      "learning_rate": 0.00026277689480751573,
      "loss": 1.6256,
      "step": 48656
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5013034343719482,
      "learning_rate": 0.00026276652348140357,
      "loss": 1.5077,
      "step": 48657
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49589258432388306,
      "learning_rate": 0.00026275615220048724,
      "loss": 1.6016,
      "step": 48658
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.506109356880188,
      "learning_rate": 0.0002627457809647797,
      "loss": 1.5447,
      "step": 48659
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5332458019256592,
      "learning_rate": 0.0002627354097742931,
      "loss": 1.6316,
      "step": 48660
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.487222820520401,
      "learning_rate": 0.0002627250386290403,
      "loss": 1.6029,
      "step": 48661
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5095701813697815,
      "learning_rate": 0.0002627146675290339,
      "loss": 1.6051,
      "step": 48662
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48328959941864014,
      "learning_rate": 0.00026270429647428625,
      "loss": 1.6548,
      "step": 48663
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.513099193572998,
      "learning_rate": 0.00026269392546481013,
      "loss": 1.5662,
      "step": 48664
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4885549247264862,
      "learning_rate": 0.00026268355450061805,
      "loss": 1.53,
      "step": 48665
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5042749047279358,
      "learning_rate": 0.00026267318358172274,
      "loss": 1.5695,
      "step": 48666
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5263108015060425,
      "learning_rate": 0.0002626628127081366,
      "loss": 1.6075,
      "step": 48667
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48262959718704224,
      "learning_rate": 0.0002626524418798723,
      "loss": 1.5668,
      "step": 48668
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5085427165031433,
      "learning_rate": 0.00026264207109694257,
      "loss": 1.6421,
      "step": 48669
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5050236582756042,
      "learning_rate": 0.00026263170035935974,
      "loss": 1.5661,
      "step": 48670
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.47451460361480713,
      "learning_rate": 0.0002626213296671365,
      "loss": 1.604,
      "step": 48671
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49634864926338196,
      "learning_rate": 0.0002626109590202855,
      "loss": 1.4978,
      "step": 48672
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.52549147605896,
      "learning_rate": 0.0002626005884188193,
      "loss": 1.5491,
      "step": 48673
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5063888430595398,
      "learning_rate": 0.00026259021786275046,
      "loss": 1.5639,
      "step": 48674
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4858236610889435,
      "learning_rate": 0.0002625798473520916,
      "loss": 1.4941,
      "step": 48675
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5094544887542725,
      "learning_rate": 0.0002625694768868553,
      "loss": 1.5963,
      "step": 48676
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.540679931640625,
      "learning_rate": 0.0002625591064670541,
      "loss": 1.6439,
      "step": 48677
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5032336711883545,
      "learning_rate": 0.0002625487360927006,
      "loss": 1.5627,
      "step": 48678
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5037142038345337,
      "learning_rate": 0.0002625383657638075,
      "loss": 1.5313,
      "step": 48679
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5057913661003113,
      "learning_rate": 0.0002625279954803872,
      "loss": 1.5169,
      "step": 48680
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49077141284942627,
      "learning_rate": 0.0002625176252424525,
      "loss": 1.5932,
      "step": 48681
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5057219862937927,
      "learning_rate": 0.0002625072550500158,
      "loss": 1.5614,
      "step": 48682
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5002017021179199,
      "learning_rate": 0.0002624968849030899,
      "loss": 1.6427,
      "step": 48683
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5383239984512329,
      "learning_rate": 0.00026248651480168715,
      "loss": 1.6633,
      "step": 48684
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49731650948524475,
      "learning_rate": 0.00026247614474582024,
      "loss": 1.5685,
      "step": 48685
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5100753307342529,
      "learning_rate": 0.00026246577473550185,
      "loss": 1.6252,
      "step": 48686
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5086033344268799,
      "learning_rate": 0.0002624554047707443,
      "loss": 1.6293,
      "step": 48687
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4807344973087311,
      "learning_rate": 0.0002624450348515605,
      "loss": 1.6357,
      "step": 48688
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5069727301597595,
      "learning_rate": 0.00026243466497796286,
      "loss": 1.6158,
      "step": 48689
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5208796858787537,
      "learning_rate": 0.00026242429514996396,
      "loss": 1.6239,
      "step": 48690
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5029816627502441,
      "learning_rate": 0.0002624139253675765,
      "loss": 1.5728,
      "step": 48691
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5198116302490234,
      "learning_rate": 0.00026240355563081287,
      "loss": 1.6382,
      "step": 48692
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4987037479877472,
      "learning_rate": 0.000262393185939686,
      "loss": 1.5799,
      "step": 48693
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4898076057434082,
      "learning_rate": 0.0002623828162942081,
      "loss": 1.5558,
      "step": 48694
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5096495151519775,
      "learning_rate": 0.0002623724466943919,
      "loss": 1.5751,
      "step": 48695
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5091769099235535,
      "learning_rate": 0.0002623620771402501,
      "loss": 1.5315,
      "step": 48696
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5137452483177185,
      "learning_rate": 0.00026235170763179514,
      "loss": 1.5443,
      "step": 48697
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5179756879806519,
      "learning_rate": 0.00026234133816903973,
      "loss": 1.6101,
      "step": 48698
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48860424757003784,
      "learning_rate": 0.00026233096875199634,
      "loss": 1.5313,
      "step": 48699
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5278612375259399,
      "learning_rate": 0.0002623205993806776,
      "loss": 1.655,
      "step": 48700
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5072240233421326,
      "learning_rate": 0.00026231023005509604,
      "loss": 1.6044,
      "step": 48701
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5148882269859314,
      "learning_rate": 0.00026229986077526434,
      "loss": 1.5764,
      "step": 48702
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49357837438583374,
      "learning_rate": 0.00026228949154119514,
      "loss": 1.5823,
      "step": 48703
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5223467350006104,
      "learning_rate": 0.0002622791223529009,
      "loss": 1.6058,
      "step": 48704
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.593743622303009,
      "learning_rate": 0.0002622687532103942,
      "loss": 1.5909,
      "step": 48705
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.521742045879364,
      "learning_rate": 0.0002622583841136877,
      "loss": 1.6241,
      "step": 48706
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5218654274940491,
      "learning_rate": 0.000262248015062794,
      "loss": 1.6567,
      "step": 48707
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4856686294078827,
      "learning_rate": 0.0002622376460577255,
      "loss": 1.5568,
      "step": 48708
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49712350964546204,
      "learning_rate": 0.00026222727709849516,
      "loss": 1.6457,
      "step": 48709
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5032380819320679,
      "learning_rate": 0.0002622169081851152,
      "loss": 1.5455,
      "step": 48710
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4967208802700043,
      "learning_rate": 0.0002622065393175983,
      "loss": 1.549,
      "step": 48711
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.496604859828949,
      "learning_rate": 0.00026219617049595716,
      "loss": 1.6129,
      "step": 48712
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4918050765991211,
      "learning_rate": 0.0002621858017202044,
      "loss": 1.6077,
      "step": 48713
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.487820565700531,
      "learning_rate": 0.00026217543299035236,
      "loss": 1.639,
      "step": 48714
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5303254127502441,
      "learning_rate": 0.00026216506430641373,
      "loss": 1.5716,
      "step": 48715
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4874792695045471,
      "learning_rate": 0.00026215469566840137,
      "loss": 1.57,
      "step": 48716
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5141077041625977,
      "learning_rate": 0.0002621443270763274,
      "loss": 1.6168,
      "step": 48717
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48468270897865295,
      "learning_rate": 0.0002621339585302047,
      "loss": 1.5683,
      "step": 48718
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5048242211341858,
      "learning_rate": 0.0002621235900300459,
      "loss": 1.597,
      "step": 48719
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5006405711174011,
      "learning_rate": 0.00026211322157586336,
      "loss": 1.585,
      "step": 48720
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5215709805488586,
      "learning_rate": 0.0002621028531676698,
      "loss": 1.6123,
      "step": 48721
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5148338079452515,
      "learning_rate": 0.0002620924848054778,
      "loss": 1.5749,
      "step": 48722
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48213645815849304,
      "learning_rate": 0.00026208211648930005,
      "loss": 1.6197,
      "step": 48723
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5024667978286743,
      "learning_rate": 0.00026207174821914886,
      "loss": 1.5904,
      "step": 48724
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49783429503440857,
      "learning_rate": 0.000262061379995037,
      "loss": 1.5564,
      "step": 48725
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5019760727882385,
      "learning_rate": 0.0002620510118169772,
      "loss": 1.5908,
      "step": 48726
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4950680136680603,
      "learning_rate": 0.00026204064368498173,
      "loss": 1.5877,
      "step": 48727
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5125775933265686,
      "learning_rate": 0.0002620302755990634,
      "loss": 1.5639,
      "step": 48728
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49464038014411926,
      "learning_rate": 0.00026201990755923474,
      "loss": 1.604,
      "step": 48729
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5050633549690247,
      "learning_rate": 0.0002620095395655082,
      "loss": 1.5856,
      "step": 48730
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5113812685012817,
      "learning_rate": 0.0002619991716178965,
      "loss": 1.5884,
      "step": 48731
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.502660870552063,
      "learning_rate": 0.0002619888037164122,
      "loss": 1.5701,
      "step": 48732
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5030010342597961,
      "learning_rate": 0.000261978435861068,
      "loss": 1.6469,
      "step": 48733
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49813559651374817,
      "learning_rate": 0.00026196806805187626,
      "loss": 1.634,
      "step": 48734
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4849033057689667,
      "learning_rate": 0.0002619577002888498,
      "loss": 1.6412,
      "step": 48735
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4997106194496155,
      "learning_rate": 0.00026194733257200103,
      "loss": 1.6177,
      "step": 48736
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5052340626716614,
      "learning_rate": 0.00026193696490134263,
      "loss": 1.5509,
      "step": 48737
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5213954448699951,
      "learning_rate": 0.000261926597276887,
      "loss": 1.6642,
      "step": 48738
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4999809265136719,
      "learning_rate": 0.0002619162296986471,
      "loss": 1.5363,
      "step": 48739
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5001825094223022,
      "learning_rate": 0.00026190586216663506,
      "loss": 1.5874,
      "step": 48740
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49542391300201416,
      "learning_rate": 0.00026189549468086376,
      "loss": 1.6061,
      "step": 48741
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4995516836643219,
      "learning_rate": 0.0002618851272413457,
      "loss": 1.6063,
      "step": 48742
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.523025631904602,
      "learning_rate": 0.0002618747598480937,
      "loss": 1.6688,
      "step": 48743
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4894888401031494,
      "learning_rate": 0.0002618643925011199,
      "loss": 1.5824,
      "step": 48744
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5377495288848877,
      "learning_rate": 0.00026185402520043706,
      "loss": 1.515,
      "step": 48745
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5121796131134033,
      "learning_rate": 0.00026184365794605803,
      "loss": 1.5915,
      "step": 48746
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5016679763793945,
      "learning_rate": 0.000261833290737995,
      "loss": 1.5434,
      "step": 48747
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5117430090904236,
      "learning_rate": 0.00026182292357626076,
      "loss": 1.6113,
      "step": 48748
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5242213606834412,
      "learning_rate": 0.00026181255646086794,
      "loss": 1.6397,
      "step": 48749
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5019106268882751,
      "learning_rate": 0.000261802189391829,
      "loss": 1.5844,
      "step": 48750
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5017743110656738,
      "learning_rate": 0.0002617918223691566,
      "loss": 1.5876,
      "step": 48751
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5114910006523132,
      "learning_rate": 0.00026178145539286317,
      "loss": 1.5465,
      "step": 48752
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4985519051551819,
      "learning_rate": 0.0002617710884629616,
      "loss": 1.5434,
      "step": 48753
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5162612199783325,
      "learning_rate": 0.0002617607215794642,
      "loss": 1.5902,
      "step": 48754
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5131749510765076,
      "learning_rate": 0.0002617503547423836,
      "loss": 1.638,
      "step": 48755
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4909922480583191,
      "learning_rate": 0.0002617399879517326,
      "loss": 1.6228,
      "step": 48756
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49782606959342957,
      "learning_rate": 0.0002617296212075235,
      "loss": 1.5991,
      "step": 48757
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4921897053718567,
      "learning_rate": 0.000261719254509769,
      "loss": 1.57,
      "step": 48758
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.501592218875885,
      "learning_rate": 0.0002617088878584818,
      "loss": 1.575,
      "step": 48759
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5170943737030029,
      "learning_rate": 0.0002616985212536742,
      "loss": 1.6294,
      "step": 48760
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5225151777267456,
      "learning_rate": 0.000261688154695359,
      "loss": 1.5465,
      "step": 48761
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.504664957523346,
      "learning_rate": 0.00026167778818354874,
      "loss": 1.6058,
      "step": 48762
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.491560161113739,
      "learning_rate": 0.0002616674217182561,
      "loss": 1.5889,
      "step": 48763
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4909195899963379,
      "learning_rate": 0.0002616570552994935,
      "loss": 1.6109,
      "step": 48764
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49314871430397034,
      "learning_rate": 0.00026164668892727355,
      "loss": 1.5125,
      "step": 48765
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5205092430114746,
      "learning_rate": 0.0002616363226016089,
      "loss": 1.659,
      "step": 48766
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5184231996536255,
      "learning_rate": 0.0002616259563225121,
      "loss": 1.6583,
      "step": 48767
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49495646357536316,
      "learning_rate": 0.0002616155900899956,
      "loss": 1.6297,
      "step": 48768
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5143705606460571,
      "learning_rate": 0.0002616052239040724,
      "loss": 1.643,
      "step": 48769
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5188417434692383,
      "learning_rate": 0.00026159485776475455,
      "loss": 1.5683,
      "step": 48770
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.512982189655304,
      "learning_rate": 0.000261584491672055,
      "loss": 1.5944,
      "step": 48771
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4990343749523163,
      "learning_rate": 0.00026157412562598616,
      "loss": 1.6182,
      "step": 48772
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48727771639823914,
      "learning_rate": 0.00026156375962656074,
      "loss": 1.5945,
      "step": 48773
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5216764211654663,
      "learning_rate": 0.00026155339367379125,
      "loss": 1.653,
      "step": 48774
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5028231739997864,
      "learning_rate": 0.00026154302776769015,
      "loss": 1.5765,
      "step": 48775
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5209265947341919,
      "learning_rate": 0.00026153266190827036,
      "loss": 1.5882,
      "step": 48776
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5143570899963379,
      "learning_rate": 0.00026152229609554406,
      "loss": 1.5338,
      "step": 48777
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48762762546539307,
      "learning_rate": 0.00026151193032952405,
      "loss": 1.6322,
      "step": 48778
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5206927061080933,
      "learning_rate": 0.000261501564610223,
      "loss": 1.6182,
      "step": 48779
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5057229995727539,
      "learning_rate": 0.00026149119893765333,
      "loss": 1.5545,
      "step": 48780
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5277358889579773,
      "learning_rate": 0.0002614808333118276,
      "loss": 1.5732,
      "step": 48781
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5412258505821228,
      "learning_rate": 0.0002614704677327584,
      "loss": 1.6207,
      "step": 48782
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.495987206697464,
      "learning_rate": 0.0002614601022004586,
      "loss": 1.6048,
      "step": 48783
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.520176351070404,
      "learning_rate": 0.0002614497367149404,
      "loss": 1.5973,
      "step": 48784
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.510868489742279,
      "learning_rate": 0.0002614393712762166,
      "loss": 1.6614,
      "step": 48785
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48072701692581177,
      "learning_rate": 0.00026142900588429975,
      "loss": 1.605,
      "step": 48786
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5102207660675049,
      "learning_rate": 0.0002614186405392024,
      "loss": 1.5577,
      "step": 48787
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5188431739807129,
      "learning_rate": 0.000261408275240937,
      "loss": 1.5976,
      "step": 48788
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5059968829154968,
      "learning_rate": 0.0002613979099895163,
      "loss": 1.5803,
      "step": 48789
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.496291846036911,
      "learning_rate": 0.000261387544784953,
      "loss": 1.5631,
      "step": 48790
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4802268147468567,
      "learning_rate": 0.00026137717962725944,
      "loss": 1.5754,
      "step": 48791
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5002580285072327,
      "learning_rate": 0.0002613668145164483,
      "loss": 1.5705,
      "step": 48792
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4829684793949127,
      "learning_rate": 0.0002613564494525322,
      "loss": 1.553,
      "step": 48793
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49788084626197815,
      "learning_rate": 0.0002613460844355236,
      "loss": 1.5398,
      "step": 48794
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.526312530040741,
      "learning_rate": 0.00026133571946543516,
      "loss": 1.6241,
      "step": 48795
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5343039631843567,
      "learning_rate": 0.00026132535454227956,
      "loss": 1.6423,
      "step": 48796
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48980724811553955,
      "learning_rate": 0.0002613149896660691,
      "loss": 1.6449,
      "step": 48797
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5116081237792969,
      "learning_rate": 0.00026130462483681664,
      "loss": 1.6634,
      "step": 48798
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.517923891544342,
      "learning_rate": 0.0002612942600545346,
      "loss": 1.5688,
      "step": 48799
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49551916122436523,
      "learning_rate": 0.0002612838953192358,
      "loss": 1.585,
      "step": 48800
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4949573874473572,
      "learning_rate": 0.00026127353063093255,
      "loss": 1.6168,
      "step": 48801
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49169662594795227,
      "learning_rate": 0.0002612631659896375,
      "loss": 1.5755,
      "step": 48802
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.507982611656189,
      "learning_rate": 0.00026125280139536333,
      "loss": 1.6166,
      "step": 48803
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5213876366615295,
      "learning_rate": 0.0002612424368481224,
      "loss": 1.5865,
      "step": 48804
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5024883151054382,
      "learning_rate": 0.0002612320723479276,
      "loss": 1.5812,
      "step": 48805
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48322755098342896,
      "learning_rate": 0.0002612217078947913,
      "loss": 1.6626,
      "step": 48806
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4926533102989197,
      "learning_rate": 0.00026121134348872614,
      "loss": 1.6156,
      "step": 48807
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5305980443954468,
      "learning_rate": 0.0002612009791297447,
      "loss": 1.5512,
      "step": 48808
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.48937979340553284,
      "learning_rate": 0.0002611906148178594,
      "loss": 1.6468,
      "step": 48809
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5239725708961487,
      "learning_rate": 0.00026118025055308323,
      "loss": 1.5516,
      "step": 48810
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5075275897979736,
      "learning_rate": 0.00026116988633542834,
      "loss": 1.5748,
      "step": 48811
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5017845630645752,
      "learning_rate": 0.0002611595221649075,
      "loss": 1.6045,
      "step": 48812
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5087277889251709,
      "learning_rate": 0.0002611491580415334,
      "loss": 1.5208,
      "step": 48813
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5366299152374268,
      "learning_rate": 0.0002611387939653184,
      "loss": 1.5977,
      "step": 48814
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5178610682487488,
      "learning_rate": 0.0002611284299362752,
      "loss": 1.5992,
      "step": 48815
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5112398862838745,
      "learning_rate": 0.0002611180659544164,
      "loss": 1.6226,
      "step": 48816
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5108919739723206,
      "learning_rate": 0.00026110770201975445,
      "loss": 1.533,
      "step": 48817
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5069875121116638,
      "learning_rate": 0.000261097338132302,
      "loss": 1.6187,
      "step": 48818
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4902665615081787,
      "learning_rate": 0.0002610869742920717,
      "loss": 1.6031,
      "step": 48819
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4991101324558258,
      "learning_rate": 0.00026107661049907616,
      "loss": 1.6309,
      "step": 48820
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5152696967124939,
      "learning_rate": 0.0002610662467533278,
      "loss": 1.6409,
      "step": 48821
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49219074845314026,
      "learning_rate": 0.00026105588305483927,
      "loss": 1.567,
      "step": 48822
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5151064991950989,
      "learning_rate": 0.00026104551940362325,
      "loss": 1.6015,
      "step": 48823
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4829413592815399,
      "learning_rate": 0.00026103515579969217,
      "loss": 1.5776,
      "step": 48824
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4935271441936493,
      "learning_rate": 0.00026102479224305854,
      "loss": 1.6478,
      "step": 48825
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5301034450531006,
      "learning_rate": 0.00026101442873373537,
      "loss": 1.5781,
      "step": 48826
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5045604109764099,
      "learning_rate": 0.00026100406527173464,
      "loss": 1.6177,
      "step": 48827
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4921475648880005,
      "learning_rate": 0.00026099370185706937,
      "loss": 1.6153,
      "step": 48828
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5019497275352478,
      "learning_rate": 0.0002609833384897519,
      "loss": 1.6076,
      "step": 48829
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5022983551025391,
      "learning_rate": 0.00026097297516979506,
      "loss": 1.6227,
      "step": 48830
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.509597897529602,
      "learning_rate": 0.0002609626118972112,
      "loss": 1.5219,
      "step": 48831
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4963339865207672,
      "learning_rate": 0.0002609522486720129,
      "loss": 1.5152,
      "step": 48832
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5206988453865051,
      "learning_rate": 0.00026094188549421305,
      "loss": 1.5947,
      "step": 48833
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5080615282058716,
      "learning_rate": 0.00026093152236382374,
      "loss": 1.554,
      "step": 48834
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49202921986579895,
      "learning_rate": 0.00026092115928085793,
      "loss": 1.5459,
      "step": 48835
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5120810866355896,
      "learning_rate": 0.0002609107962453281,
      "loss": 1.6161,
      "step": 48836
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5109649896621704,
      "learning_rate": 0.00026090043325724676,
      "loss": 1.6942,
      "step": 48837
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4937826991081238,
      "learning_rate": 0.0002608900703166265,
      "loss": 1.505,
      "step": 48838
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49284425377845764,
      "learning_rate": 0.00026087970742347987,
      "loss": 1.5696,
      "step": 48839
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.509056568145752,
      "learning_rate": 0.0002608693445778197,
      "loss": 1.5238,
      "step": 48840
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5136339068412781,
      "learning_rate": 0.00026085898177965826,
      "loss": 1.5468,
      "step": 48841
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4904487431049347,
      "learning_rate": 0.0002608486190290082,
      "loss": 1.5944,
      "step": 48842
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5114220976829529,
      "learning_rate": 0.0002608382563258823,
      "loss": 1.5873,
      "step": 48843
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5278565287590027,
      "learning_rate": 0.0002608278936702929,
      "loss": 1.5945,
      "step": 48844
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5009152293205261,
      "learning_rate": 0.00026081753106225265,
      "loss": 1.6255,
      "step": 48845
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5058584213256836,
      "learning_rate": 0.0002608071685017742,
      "loss": 1.6605,
      "step": 48846
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49739259481430054,
      "learning_rate": 0.00026079680598887003,
      "loss": 1.581,
      "step": 48847
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5206958651542664,
      "learning_rate": 0.00026078644352355273,
      "loss": 1.582,
      "step": 48848
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5166134834289551,
      "learning_rate": 0.00026077608110583494,
      "loss": 1.4684,
      "step": 48849
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.496086448431015,
      "learning_rate": 0.0002607657187357293,
      "loss": 1.5878,
      "step": 48850
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5258638858795166,
      "learning_rate": 0.0002607553564132482,
      "loss": 1.6586,
      "step": 48851
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5419542193412781,
      "learning_rate": 0.0002607449941384043,
      "loss": 1.6944,
      "step": 48852
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5429442524909973,
      "learning_rate": 0.00026073463191121025,
      "loss": 1.6302,
      "step": 48853
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5214523077011108,
      "learning_rate": 0.00026072426973167855,
      "loss": 1.6778,
      "step": 48854
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.48987719416618347,
      "learning_rate": 0.0002607139075998217,
      "loss": 1.5881,
      "step": 48855
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.520306408405304,
      "learning_rate": 0.0002607035455156526,
      "loss": 1.6184,
      "step": 48856
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.51641446352005,
      "learning_rate": 0.0002606931834791834,
      "loss": 1.6685,
      "step": 48857
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5065313577651978,
      "learning_rate": 0.00026068282149042693,
      "loss": 1.6257,
      "step": 48858
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5295652747154236,
      "learning_rate": 0.00026067245954939576,
      "loss": 1.635,
      "step": 48859
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.499342679977417,
      "learning_rate": 0.0002606620976561025,
      "loss": 1.5557,
      "step": 48860
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49303755164146423,
      "learning_rate": 0.00026065173581055955,
      "loss": 1.5955,
      "step": 48861
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5018470883369446,
      "learning_rate": 0.00026064137401277956,
      "loss": 1.5681,
      "step": 48862
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5052945017814636,
      "learning_rate": 0.0002606310122627753,
      "loss": 1.5227,
      "step": 48863
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5164379477500916,
      "learning_rate": 0.000260620650560559,
      "loss": 1.5938,
      "step": 48864
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5030581951141357,
      "learning_rate": 0.0002606102889061435,
      "loss": 1.5498,
      "step": 48865
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4906182289123535,
      "learning_rate": 0.00026059992729954144,
      "loss": 1.574,
      "step": 48866
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5341891646385193,
      "learning_rate": 0.00026058956574076514,
      "loss": 1.6413,
      "step": 48867
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4963298439979553,
      "learning_rate": 0.0002605792042298273,
      "loss": 1.5557,
      "step": 48868
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5123911499977112,
      "learning_rate": 0.00026056884276674043,
      "loss": 1.5365,
      "step": 48869
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4967501759529114,
      "learning_rate": 0.0002605584813515174,
      "loss": 1.5858,
      "step": 48870
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5096302628517151,
      "learning_rate": 0.0002605481199841703,
      "loss": 1.6068,
      "step": 48871
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5130380392074585,
      "learning_rate": 0.0002605377586647121,
      "loss": 1.5615,
      "step": 48872
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5047797560691833,
      "learning_rate": 0.0002605273973931553,
      "loss": 1.6157,
      "step": 48873
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49973174929618835,
      "learning_rate": 0.0002605170361695123,
      "loss": 1.6757,
      "step": 48874
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4885837435722351,
      "learning_rate": 0.00026050667499379586,
      "loss": 1.57,
      "step": 48875
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49505871534347534,
      "learning_rate": 0.00026049631386601855,
      "loss": 1.6162,
      "step": 48876
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4957078695297241,
      "learning_rate": 0.00026048595278619285,
      "loss": 1.6204,
      "step": 48877
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5079563856124878,
      "learning_rate": 0.00026047559175433133,
      "loss": 1.5622,
      "step": 48878
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4884689450263977,
      "learning_rate": 0.00026046523077044657,
      "loss": 1.5697,
      "step": 48879
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5030225515365601,
      "learning_rate": 0.00026045486983455136,
      "loss": 1.5869,
      "step": 48880
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4894692003726959,
      "learning_rate": 0.00026044450894665807,
      "loss": 1.5992,
      "step": 48881
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4825267493724823,
      "learning_rate": 0.00026043414810677926,
      "loss": 1.6089,
      "step": 48882
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5046712756156921,
      "learning_rate": 0.00026042378731492763,
      "loss": 1.5339,
      "step": 48883
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5130323171615601,
      "learning_rate": 0.00026041342657111564,
      "loss": 1.5671,
      "step": 48884
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5335348844528198,
      "learning_rate": 0.0002604030658753558,
      "loss": 1.6065,
      "step": 48885
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5051668882369995,
      "learning_rate": 0.00026039270522766107,
      "loss": 1.6013,
      "step": 48886
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4984204173088074,
      "learning_rate": 0.0002603823446280436,
      "loss": 1.6464,
      "step": 48887
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5161300301551819,
      "learning_rate": 0.0002603719840765161,
      "loss": 1.6116,
      "step": 48888
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5291789174079895,
      "learning_rate": 0.0002603616235730912,
      "loss": 1.5691,
      "step": 48889
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.540134608745575,
      "learning_rate": 0.0002603512631177815,
      "loss": 1.6502,
      "step": 48890
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5284169912338257,
      "learning_rate": 0.0002603409027105995,
      "loss": 1.6465,
      "step": 48891
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.524722158908844,
      "learning_rate": 0.00026033054235155773,
      "loss": 1.5471,
      "step": 48892
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5098347067832947,
      "learning_rate": 0.0002603201820406689,
      "loss": 1.6479,
      "step": 48893
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5340285301208496,
      "learning_rate": 0.0002603098217779455,
      "loss": 1.6214,
      "step": 48894
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5184215903282166,
      "learning_rate": 0.00026029946156340015,
      "loss": 1.6244,
      "step": 48895
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5268474221229553,
      "learning_rate": 0.0002602891013970455,
      "loss": 1.591,
      "step": 48896
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5061640739440918,
      "learning_rate": 0.0002602787412788939,
      "loss": 1.5708,
      "step": 48897
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.497158408164978,
      "learning_rate": 0.0002602683812089581,
      "loss": 1.5776,
      "step": 48898
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4921407401561737,
      "learning_rate": 0.00026025802118725055,
      "loss": 1.5291,
      "step": 48899
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5298686027526855,
      "learning_rate": 0.000260247661213784,
      "loss": 1.5546,
      "step": 48900
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5433008670806885,
      "learning_rate": 0.0002602373012885709,
      "loss": 1.6649,
      "step": 48901
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5020430684089661,
      "learning_rate": 0.00026022694141162385,
      "loss": 1.6401,
      "step": 48902
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5107054710388184,
      "learning_rate": 0.00026021658158295553,
      "loss": 1.5216,
      "step": 48903
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5203463435173035,
      "learning_rate": 0.00026020622180257833,
      "loss": 1.6472,
      "step": 48904
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5136599540710449,
      "learning_rate": 0.0002601958620705049,
      "loss": 1.6348,
      "step": 48905
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5037599205970764,
      "learning_rate": 0.0002601855023867479,
      "loss": 1.5137,
      "step": 48906
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.531805694103241,
      "learning_rate": 0.0002601751427513197,
      "loss": 1.5532,
      "step": 48907
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5029225945472717,
      "learning_rate": 0.0002601647831642331,
      "loss": 1.5355,
      "step": 48908
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5032207369804382,
      "learning_rate": 0.0002601544236255005,
      "loss": 1.6337,
      "step": 48909
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5256998538970947,
      "learning_rate": 0.0002601440641351347,
      "loss": 1.6479,
      "step": 48910
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5036506652832031,
      "learning_rate": 0.0002601337046931481,
      "loss": 1.5711,
      "step": 48911
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5095961689949036,
      "learning_rate": 0.00026012334529955324,
      "loss": 1.6142,
      "step": 48912
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5219541788101196,
      "learning_rate": 0.00026011298595436286,
      "loss": 1.5178,
      "step": 48913
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5288050174713135,
      "learning_rate": 0.00026010262665758933,
      "loss": 1.5554,
      "step": 48914
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5112966299057007,
      "learning_rate": 0.0002600922674092453,
      "loss": 1.6089,
      "step": 48915
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5070258975028992,
      "learning_rate": 0.00026008190820934346,
      "loss": 1.6161,
      "step": 48916
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5156742334365845,
      "learning_rate": 0.0002600715490578964,
      "loss": 1.5815,
      "step": 48917
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5011230111122131,
      "learning_rate": 0.00026006118995491645,
      "loss": 1.5622,
      "step": 48918
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5057663321495056,
      "learning_rate": 0.0002600508309004163,
      "loss": 1.5934,
      "step": 48919
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5165428519248962,
      "learning_rate": 0.00026004047189440876,
      "loss": 1.5802,
      "step": 48920
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49709439277648926,
      "learning_rate": 0.000260030112936906,
      "loss": 1.6163,
      "step": 48921
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49991661310195923,
      "learning_rate": 0.00026001975402792084,
      "loss": 1.6402,
      "step": 48922
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49815237522125244,
      "learning_rate": 0.00026000939516746587,
      "loss": 1.5528,
      "step": 48923
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5266454815864563,
      "learning_rate": 0.00025999903635555357,
      "loss": 1.6481,
      "step": 48924
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5143234729766846,
      "learning_rate": 0.00025998867759219655,
      "loss": 1.588,
      "step": 48925
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49195247888565063,
      "learning_rate": 0.0002599783188774073,
      "loss": 1.5668,
      "step": 48926
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5036648511886597,
      "learning_rate": 0.00025996796021119864,
      "loss": 1.5824,
      "step": 48927
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49759015440940857,
      "learning_rate": 0.0002599576015935828,
      "loss": 1.6204,
      "step": 48928
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4953267276287079,
      "learning_rate": 0.0002599472430245726,
      "loss": 1.6526,
      "step": 48929
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49038997292518616,
      "learning_rate": 0.0002599368845041806,
      "loss": 1.6059,
      "step": 48930
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4841563105583191,
      "learning_rate": 0.0002599265260324193,
      "loss": 1.6078,
      "step": 48931
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5057225823402405,
      "learning_rate": 0.00025991616760930123,
      "loss": 1.6386,
      "step": 48932
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4984792470932007,
      "learning_rate": 0.00025990580923483913,
      "loss": 1.6459,
      "step": 48933
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.48151978850364685,
      "learning_rate": 0.0002598954509090454,
      "loss": 1.6261,
      "step": 48934
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5018131136894226,
      "learning_rate": 0.0002598850926319326,
      "loss": 1.6254,
      "step": 48935
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49821510910987854,
      "learning_rate": 0.0002598747344035135,
      "loss": 1.5629,
      "step": 48936
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49156615138053894,
      "learning_rate": 0.0002598643762238006,
      "loss": 1.5723,
      "step": 48937
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.505520224571228,
      "learning_rate": 0.00025985401809280634,
      "loss": 1.6169,
      "step": 48938
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4906856417655945,
      "learning_rate": 0.0002598436600105434,
      "loss": 1.57,
      "step": 48939
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4782024621963501,
      "learning_rate": 0.0002598333019770244,
      "loss": 1.5353,
      "step": 48940
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5061691999435425,
      "learning_rate": 0.0002598229439922618,
      "loss": 1.6444,
      "step": 48941
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.514907956123352,
      "learning_rate": 0.0002598125860562682,
      "loss": 1.6124,
      "step": 48942
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4968043267726898,
      "learning_rate": 0.00025980222816905635,
      "loss": 1.6653,
      "step": 48943
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5053055882453918,
      "learning_rate": 0.00025979187033063844,
      "loss": 1.5889,
      "step": 48944
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5056782960891724,
      "learning_rate": 0.0002597815125410274,
      "loss": 1.5571,
      "step": 48945
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5027519464492798,
      "learning_rate": 0.0002597711548002356,
      "loss": 1.5562,
      "step": 48946
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5090728402137756,
      "learning_rate": 0.00025976079710827586,
      "loss": 1.613,
      "step": 48947
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5114488005638123,
      "learning_rate": 0.0002597504394651605,
      "loss": 1.593,
      "step": 48948
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5075584053993225,
      "learning_rate": 0.0002597400818709021,
      "loss": 1.5543,
      "step": 48949
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5024830102920532,
      "learning_rate": 0.00025972972432551346,
      "loss": 1.6458,
      "step": 48950
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5070048570632935,
      "learning_rate": 0.00025971936682900684,
      "loss": 1.539,
      "step": 48951
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5086362957954407,
      "learning_rate": 0.000259709009381395,
      "loss": 1.565,
      "step": 48952
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5241305828094482,
      "learning_rate": 0.0002596986519826906,
      "loss": 1.5326,
      "step": 48953
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4997195899486542,
      "learning_rate": 0.00025968829463290607,
      "loss": 1.6141,
      "step": 48954
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49797797203063965,
      "learning_rate": 0.0002596779373320539,
      "loss": 1.6325,
      "step": 48955
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5121241807937622,
      "learning_rate": 0.0002596675800801468,
      "loss": 1.6488,
      "step": 48956
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5084134936332703,
      "learning_rate": 0.0002596572228771975,
      "loss": 1.6331,
      "step": 48957
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.509758472442627,
      "learning_rate": 0.00025964686572321814,
      "loss": 1.5824,
      "step": 48958
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5109770894050598,
      "learning_rate": 0.00025963650861822164,
      "loss": 1.6647,
      "step": 48959
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4987931251525879,
      "learning_rate": 0.0002596261515622205,
      "loss": 1.5445,
      "step": 48960
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49647262692451477,
      "learning_rate": 0.00025961579455522726,
      "loss": 1.5836,
      "step": 48961
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5035973191261292,
      "learning_rate": 0.00025960543759725443,
      "loss": 1.6023,
      "step": 48962
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5062732100486755,
      "learning_rate": 0.00025959508068831475,
      "loss": 1.5912,
      "step": 48963
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.515807032585144,
      "learning_rate": 0.00025958472382842064,
      "loss": 1.592,
      "step": 48964
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5033299922943115,
      "learning_rate": 0.0002595743670175846,
      "loss": 1.6324,
      "step": 48965
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5228564739227295,
      "learning_rate": 0.00025956401025581947,
      "loss": 1.5402,
      "step": 48966
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49057698249816895,
      "learning_rate": 0.00025955365354313767,
      "loss": 1.5501,
      "step": 48967
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4932716190814972,
      "learning_rate": 0.00025954329687955175,
      "loss": 1.4855,
      "step": 48968
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4907395541667938,
      "learning_rate": 0.0002595329402650743,
      "loss": 1.6154,
      "step": 48969
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5027718544006348,
      "learning_rate": 0.0002595225836997179,
      "loss": 1.5628,
      "step": 48970
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5005519986152649,
      "learning_rate": 0.0002595122271834951,
      "loss": 1.6135,
      "step": 48971
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5227091312408447,
      "learning_rate": 0.00025950187071641843,
      "loss": 1.5938,
      "step": 48972
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.505682110786438,
      "learning_rate": 0.0002594915142985007,
      "loss": 1.6358,
      "step": 48973
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5069578289985657,
      "learning_rate": 0.00025948115792975417,
      "loss": 1.6269,
      "step": 48974
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4935668110847473,
      "learning_rate": 0.00025947080161019156,
      "loss": 1.536,
      "step": 48975
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5118162035942078,
      "learning_rate": 0.0002594604453398254,
      "loss": 1.5825,
      "step": 48976
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.485727459192276,
      "learning_rate": 0.0002594500891186684,
      "loss": 1.6902,
      "step": 48977
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4984484910964966,
      "learning_rate": 0.0002594397329467329,
      "loss": 1.5727,
      "step": 48978
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5178837180137634,
      "learning_rate": 0.00025942937682403154,
      "loss": 1.5652,
      "step": 48979
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5188972353935242,
      "learning_rate": 0.0002594190207505772,
      "loss": 1.6091,
      "step": 48980
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.538416862487793,
      "learning_rate": 0.0002594086647263819,
      "loss": 1.6403,
      "step": 48981
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.501136302947998,
      "learning_rate": 0.00025939830875145863,
      "loss": 1.6111,
      "step": 48982
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5014861822128296,
      "learning_rate": 0.0002593879528258199,
      "loss": 1.6229,
      "step": 48983
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5190151929855347,
      "learning_rate": 0.0002593775969494781,
      "loss": 1.5941,
      "step": 48984
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5107962489128113,
      "learning_rate": 0.0002593672411224459,
      "loss": 1.6374,
      "step": 48985
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5012995004653931,
      "learning_rate": 0.00025935688534473587,
      "loss": 1.5782,
      "step": 48986
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5071744322776794,
      "learning_rate": 0.0002593465296163608,
      "loss": 1.6525,
      "step": 48987
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5273274183273315,
      "learning_rate": 0.0002593361739373328,
      "loss": 1.5625,
      "step": 48988
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5103419423103333,
      "learning_rate": 0.00025932581830766477,
      "loss": 1.5816,
      "step": 48989
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4915142357349396,
      "learning_rate": 0.00025931546272736926,
      "loss": 1.6032,
      "step": 48990
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4943988025188446,
      "learning_rate": 0.0002593051071964588,
      "loss": 1.5716,
      "step": 48991
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5002448558807373,
      "learning_rate": 0.00025929475171494585,
      "loss": 1.6148,
      "step": 48992
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.6501079201698303,
      "learning_rate": 0.00025928439628284316,
      "loss": 1.6368,
      "step": 48993
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4953431785106659,
      "learning_rate": 0.0002592740409001631,
      "loss": 1.6287,
      "step": 48994
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4970147907733917,
      "learning_rate": 0.0002592636855669184,
      "loss": 1.6257,
      "step": 48995
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5142980217933655,
      "learning_rate": 0.00025925333028312163,
      "loss": 1.6293,
      "step": 48996
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.9228328466415405,
      "learning_rate": 0.00025924297504878533,
      "loss": 1.6113,
      "step": 48997
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49910956621170044,
      "learning_rate": 0.000259232619863922,
      "loss": 1.5787,
      "step": 48998
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5088375210762024,
      "learning_rate": 0.0002592222647285443,
      "loss": 1.6001,
      "step": 48999
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4933919608592987,
      "learning_rate": 0.00025921190964266476,
      "loss": 1.5741,
      "step": 49000
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.515143632888794,
      "learning_rate": 0.0002592015546062959,
      "loss": 1.5421,
      "step": 49001
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49778202176094055,
      "learning_rate": 0.00025919119961945034,
      "loss": 1.5705,
      "step": 49002
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49346038699150085,
      "learning_rate": 0.00025918084468214077,
      "loss": 1.6274,
      "step": 49003
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.497078537940979,
      "learning_rate": 0.0002591704897943795,
      "loss": 1.6325,
      "step": 49004
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5191683173179626,
      "learning_rate": 0.0002591601349561793,
      "loss": 1.5977,
      "step": 49005
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.518358588218689,
      "learning_rate": 0.00025914978016755265,
      "loss": 1.6289,
      "step": 49006
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4938986897468567,
      "learning_rate": 0.0002591394254285122,
      "loss": 1.6205,
      "step": 49007
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.48233965039253235,
      "learning_rate": 0.00025912907073907045,
      "loss": 1.5597,
      "step": 49008
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4955604374408722,
      "learning_rate": 0.00025911871609923993,
      "loss": 1.5525,
      "step": 49009
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5041016340255737,
      "learning_rate": 0.0002591083615090333,
      "loss": 1.6524,
      "step": 49010
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4951798617839813,
      "learning_rate": 0.0002590980069684631,
      "loss": 1.5961,
      "step": 49011
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4873366057872772,
      "learning_rate": 0.0002590876524775419,
      "loss": 1.637,
      "step": 49012
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4944658577442169,
      "learning_rate": 0.0002590772980362823,
      "loss": 1.4985,
      "step": 49013
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4898929297924042,
      "learning_rate": 0.0002590669436446968,
      "loss": 1.591,
      "step": 49014
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5209525227546692,
      "learning_rate": 0.00025905658930279793,
      "loss": 1.5736,
      "step": 49015
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.7849148511886597,
      "learning_rate": 0.00025904623501059836,
      "loss": 1.5837,
      "step": 49016
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5059618949890137,
      "learning_rate": 0.0002590358807681107,
      "loss": 1.7514,
      "step": 49017
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5005192160606384,
      "learning_rate": 0.00025902552657534737,
      "loss": 1.5836,
      "step": 49018
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.7221165299415588,
      "learning_rate": 0.000259015172432321,
      "loss": 1.6997,
      "step": 49019
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5119087100028992,
      "learning_rate": 0.00025900481833904433,
      "loss": 1.6208,
      "step": 49020
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5157800316810608,
      "learning_rate": 0.0002589944642955296,
      "loss": 1.659,
      "step": 49021
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5049923658370972,
      "learning_rate": 0.0002589841103017896,
      "loss": 1.5293,
      "step": 49022
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.9856904745101929,
      "learning_rate": 0.0002589737563578369,
      "loss": 1.584,
      "step": 49023
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5111014246940613,
      "learning_rate": 0.0002589634024636839,
      "loss": 1.5896,
      "step": 49024
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5228618383407593,
      "learning_rate": 0.00025895304861934333,
      "loss": 1.6385,
      "step": 49025
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5383831858634949,
      "learning_rate": 0.00025894269482482773,
      "loss": 1.6033,
      "step": 49026
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5019740462303162,
      "learning_rate": 0.00025893234108014966,
      "loss": 1.5925,
      "step": 49027
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5023286938667297,
      "learning_rate": 0.0002589219873853217,
      "loss": 1.5525,
      "step": 49028
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5325542688369751,
      "learning_rate": 0.0002589116337403563,
      "loss": 1.597,
      "step": 49029
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5038623213768005,
      "learning_rate": 0.0002589012801452662,
      "loss": 1.638,
      "step": 49030
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5194769501686096,
      "learning_rate": 0.00025889092660006383,
      "loss": 1.6468,
      "step": 49031
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.48467686772346497,
      "learning_rate": 0.00025888057310476185,
      "loss": 1.6052,
      "step": 49032
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5177775621414185,
      "learning_rate": 0.0002588702196593728,
      "loss": 1.6294,
      "step": 49033
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5120824575424194,
      "learning_rate": 0.0002588598662639093,
      "loss": 1.5748,
      "step": 49034
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5073530077934265,
      "learning_rate": 0.0002588495129183838,
      "loss": 1.5326,
      "step": 49035
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5109632611274719,
      "learning_rate": 0.00025883915962280886,
      "loss": 1.5781,
      "step": 49036
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5041611194610596,
      "learning_rate": 0.00025882880637719734,
      "loss": 1.519,
      "step": 49037
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5192264318466187,
      "learning_rate": 0.0002588184531815613,
      "loss": 1.57,
      "step": 49038
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5198586583137512,
      "learning_rate": 0.0002588081000359137,
      "loss": 1.6822,
      "step": 49039
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5036591291427612,
      "learning_rate": 0.0002587977469402671,
      "loss": 1.5339,
      "step": 49040
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5027521252632141,
      "learning_rate": 0.0002587873938946339,
      "loss": 1.6422,
      "step": 49041
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5106257796287537,
      "learning_rate": 0.00025877704089902664,
      "loss": 1.5812,
      "step": 49042
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49287861585617065,
      "learning_rate": 0.00025876668795345804,
      "loss": 1.6141,
      "step": 49043
    },
    {
      "epoch": 1.63,
      "grad_norm": 1.7670964002609253,
      "learning_rate": 0.0002587563350579407,
      "loss": 1.6204,
      "step": 49044
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5224444270133972,
      "learning_rate": 0.00025874598221248697,
      "loss": 1.5892,
      "step": 49045
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5165789127349854,
      "learning_rate": 0.00025873562941710953,
      "loss": 1.5937,
      "step": 49046
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5212178230285645,
      "learning_rate": 0.0002587252766718211,
      "loss": 1.5449,
      "step": 49047
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5020657777786255,
      "learning_rate": 0.000258714923976634,
      "loss": 1.6028,
      "step": 49048
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5145435929298401,
      "learning_rate": 0.0002587045713315609,
      "loss": 1.5963,
      "step": 49049
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4853513240814209,
      "learning_rate": 0.0002586942187366144,
      "loss": 1.5626,
      "step": 49050
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5223808884620667,
      "learning_rate": 0.000258683866191807,
      "loss": 1.6459,
      "step": 49051
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5052974820137024,
      "learning_rate": 0.00025867351369715123,
      "loss": 1.6135,
      "step": 49052
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5139170289039612,
      "learning_rate": 0.0002586631612526598,
      "loss": 1.6416,
      "step": 49053
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5122805833816528,
      "learning_rate": 0.00025865280885834527,
      "loss": 1.6134,
      "step": 49054
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4877065122127533,
      "learning_rate": 0.00025864245651422004,
      "loss": 1.5628,
      "step": 49055
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5022749900817871,
      "learning_rate": 0.0002586321042202968,
      "loss": 1.6526,
      "step": 49056
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5064651370048523,
      "learning_rate": 0.00025862175197658815,
      "loss": 1.527,
      "step": 49057
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5060637593269348,
      "learning_rate": 0.00025861139978310653,
      "loss": 1.5789,
      "step": 49058
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.499837189912796,
      "learning_rate": 0.0002586010476398645,
      "loss": 1.6102,
      "step": 49059
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49431276321411133,
      "learning_rate": 0.0002585906955468749,
      "loss": 1.5714,
      "step": 49060
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5098086595535278,
      "learning_rate": 0.0002585803435041499,
      "loss": 1.6011,
      "step": 49061
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5007465481758118,
      "learning_rate": 0.00025856999151170233,
      "loss": 1.5598,
      "step": 49062
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.48922282457351685,
      "learning_rate": 0.0002585596395695447,
      "loss": 1.5348,
      "step": 49063
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5229801535606384,
      "learning_rate": 0.00025854928767768957,
      "loss": 1.5987,
      "step": 49064
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5003281235694885,
      "learning_rate": 0.00025853893583614946,
      "loss": 1.5927,
      "step": 49065
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5257459878921509,
      "learning_rate": 0.0002585285840449369,
      "loss": 1.6105,
      "step": 49066
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4875715374946594,
      "learning_rate": 0.00025851823230406477,
      "loss": 1.5441,
      "step": 49067
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5106306076049805,
      "learning_rate": 0.0002585078806135452,
      "loss": 1.6148,
      "step": 49068
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5158332586288452,
      "learning_rate": 0.00025849752897339097,
      "loss": 1.5152,
      "step": 49069
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5133848786354065,
      "learning_rate": 0.0002584871773836147,
      "loss": 1.6609,
      "step": 49070
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5061694979667664,
      "learning_rate": 0.0002584768258442288,
      "loss": 1.5999,
      "step": 49071
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5166489481925964,
      "learning_rate": 0.00025846647435524595,
      "loss": 1.5123,
      "step": 49072
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.511927604675293,
      "learning_rate": 0.0002584561229166786,
      "loss": 1.5987,
      "step": 49073
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5065671801567078,
      "learning_rate": 0.00025844577152853957,
      "loss": 1.5484,
      "step": 49074
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4995418190956116,
      "learning_rate": 0.0002584354201908411,
      "loss": 1.5734,
      "step": 49075
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5075796246528625,
      "learning_rate": 0.00025842506890359594,
      "loss": 1.6275,
      "step": 49076
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5245167016983032,
      "learning_rate": 0.0002584147176668167,
      "loss": 1.5837,
      "step": 49077
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5084962248802185,
      "learning_rate": 0.0002584043664805158,
      "loss": 1.6695,
      "step": 49078
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.48486602306365967,
      "learning_rate": 0.0002583940153447058,
      "loss": 1.5553,
      "step": 49079
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5017995834350586,
      "learning_rate": 0.0002583836642593995,
      "loss": 1.5838,
      "step": 49080
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4971330761909485,
      "learning_rate": 0.00025837331322460923,
      "loss": 1.5778,
      "step": 49081
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.7451828122138977,
      "learning_rate": 0.0002583629622403475,
      "loss": 1.6495,
      "step": 49082
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49806198477745056,
      "learning_rate": 0.0002583526113066271,
      "loss": 1.627,
      "step": 49083
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5120047926902771,
      "learning_rate": 0.0002583422604234605,
      "loss": 1.5563,
      "step": 49084
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5144427418708801,
      "learning_rate": 0.00025833190959086025,
      "loss": 1.5496,
      "step": 49085
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5123175978660583,
      "learning_rate": 0.00025832155880883893,
      "loss": 1.6416,
      "step": 49086
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5091782212257385,
      "learning_rate": 0.00025831120807740914,
      "loss": 1.5418,
      "step": 49087
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5010461211204529,
      "learning_rate": 0.00025830085739658335,
      "loss": 1.5609,
      "step": 49088
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5047919750213623,
      "learning_rate": 0.0002582905067663741,
      "loss": 1.6088,
      "step": 49089
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.515433669090271,
      "learning_rate": 0.00025828015618679424,
      "loss": 1.5639,
      "step": 49090
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49725767970085144,
      "learning_rate": 0.00025826980565785596,
      "loss": 1.626,
      "step": 49091
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5138295292854309,
      "learning_rate": 0.000258259455179572,
      "loss": 1.6853,
      "step": 49092
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5019933581352234,
      "learning_rate": 0.0002582491047519549,
      "loss": 1.6568,
      "step": 49093
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4887354075908661,
      "learning_rate": 0.0002582387543750173,
      "loss": 1.6283,
      "step": 49094
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5092931985855103,
      "learning_rate": 0.00025822840404877165,
      "loss": 1.6542,
      "step": 49095
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5016915202140808,
      "learning_rate": 0.0002582180537732305,
      "loss": 1.6081,
      "step": 49096
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5144340395927429,
      "learning_rate": 0.0002582077035484067,
      "loss": 1.5731,
      "step": 49097
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5031523704528809,
      "learning_rate": 0.00025819735337431234,
      "loss": 1.6158,
      "step": 49098
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5007367134094238,
      "learning_rate": 0.0002581870032509603,
      "loss": 1.6343,
      "step": 49099
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49654412269592285,
      "learning_rate": 0.00025817665317836317,
      "loss": 1.5883,
      "step": 49100
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.7229064702987671,
      "learning_rate": 0.00025816630315653335,
      "loss": 1.6485,
      "step": 49101
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49513185024261475,
      "learning_rate": 0.0002581559531854835,
      "loss": 1.5369,
      "step": 49102
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5061920285224915,
      "learning_rate": 0.00025814560326522607,
      "loss": 1.5284,
      "step": 49103
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.516614556312561,
      "learning_rate": 0.0002581352533957739,
      "loss": 1.6179,
      "step": 49104
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5290142893791199,
      "learning_rate": 0.0002581249035771392,
      "loss": 1.5958,
      "step": 49105
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.503229022026062,
      "learning_rate": 0.0002581145538093347,
      "loss": 1.5472,
      "step": 49106
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5173622965812683,
      "learning_rate": 0.0002581042040923731,
      "loss": 1.6355,
      "step": 49107
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5115453004837036,
      "learning_rate": 0.0002580938544262667,
      "loss": 1.5989,
      "step": 49108
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5154656767845154,
      "learning_rate": 0.0002580835048110282,
      "loss": 1.7166,
      "step": 49109
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5107196569442749,
      "learning_rate": 0.0002580731552466702,
      "loss": 1.6118,
      "step": 49110
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49917668104171753,
      "learning_rate": 0.0002580628057332052,
      "loss": 1.5752,
      "step": 49111
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4881063401699066,
      "learning_rate": 0.00025805245627064566,
      "loss": 1.5945,
      "step": 49112
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5281034111976624,
      "learning_rate": 0.00025804210685900433,
      "loss": 1.589,
      "step": 49113
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5163452625274658,
      "learning_rate": 0.0002580317574982938,
      "loss": 1.6002,
      "step": 49114
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.498735249042511,
      "learning_rate": 0.0002580214081885264,
      "loss": 1.6797,
      "step": 49115
    },
    {
      "epoch": 1.63,
      "grad_norm": 1.0859582424163818,
      "learning_rate": 0.0002580110589297149,
      "loss": 1.6417,
      "step": 49116
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49781063199043274,
      "learning_rate": 0.0002580007097218718,
      "loss": 1.5922,
      "step": 49117
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5057423114776611,
      "learning_rate": 0.00025799036056500964,
      "loss": 1.6117,
      "step": 49118
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4920506775379181,
      "learning_rate": 0.00025798001145914087,
      "loss": 1.5795,
      "step": 49119
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5224447846412659,
      "learning_rate": 0.0002579696624042784,
      "loss": 1.7045,
      "step": 49120
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5049038529396057,
      "learning_rate": 0.00025795931340043434,
      "loss": 1.4936,
      "step": 49121
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4818115532398224,
      "learning_rate": 0.00025794896444762157,
      "loss": 1.4721,
      "step": 49122
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5320719480514526,
      "learning_rate": 0.00025793861554585255,
      "loss": 1.6261,
      "step": 49123
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5189934968948364,
      "learning_rate": 0.0002579282666951399,
      "loss": 1.5008,
      "step": 49124
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5048174262046814,
      "learning_rate": 0.00025791791789549613,
      "loss": 1.5187,
      "step": 49125
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5017204284667969,
      "learning_rate": 0.0002579075691469337,
      "loss": 1.6107,
      "step": 49126
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5227838754653931,
      "learning_rate": 0.0002578972204494654,
      "loss": 1.565,
      "step": 49127
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5181978940963745,
      "learning_rate": 0.00025788687180310364,
      "loss": 1.6531,
      "step": 49128
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5029594302177429,
      "learning_rate": 0.000257876523207861,
      "loss": 1.5658,
      "step": 49129
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5000609159469604,
      "learning_rate": 0.00025786617466375014,
      "loss": 1.6361,
      "step": 49130
    },
    {
      "epoch": 1.63,
      "grad_norm": 1.8240374326705933,
      "learning_rate": 0.00025785582617078345,
      "loss": 1.5723,
      "step": 49131
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5087156295776367,
      "learning_rate": 0.00025784547772897355,
      "loss": 1.6063,
      "step": 49132
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5161389708518982,
      "learning_rate": 0.000257835129338333,
      "loss": 1.6322,
      "step": 49133
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4876958131790161,
      "learning_rate": 0.0002578247809988745,
      "loss": 1.5703,
      "step": 49134
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.501529335975647,
      "learning_rate": 0.0002578144327106105,
      "loss": 1.5676,
      "step": 49135
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5123268365859985,
      "learning_rate": 0.00025780408447355346,
      "loss": 1.622,
      "step": 49136
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4922429621219635,
      "learning_rate": 0.00025779373628771616,
      "loss": 1.5808,
      "step": 49137
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5137379169464111,
      "learning_rate": 0.000257783388153111,
      "loss": 1.5529,
      "step": 49138
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5152531862258911,
      "learning_rate": 0.0002577730400697505,
      "loss": 1.6582,
      "step": 49139
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.49335289001464844,
      "learning_rate": 0.0002577626920376475,
      "loss": 1.5532,
      "step": 49140
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4975701570510864,
      "learning_rate": 0.00025775234405681416,
      "loss": 1.6113,
      "step": 49141
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4875205159187317,
      "learning_rate": 0.00025774199612726333,
      "loss": 1.5381,
      "step": 49142
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5109849572181702,
      "learning_rate": 0.0002577316482490075,
      "loss": 1.6668,
      "step": 49143
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.491341233253479,
      "learning_rate": 0.0002577213004220592,
      "loss": 1.6,
      "step": 49144
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49654272198677063,
      "learning_rate": 0.00025771095264643106,
      "loss": 1.663,
      "step": 49145
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4981694519519806,
      "learning_rate": 0.0002577006049221356,
      "loss": 1.547,
      "step": 49146
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4821797311306,
      "learning_rate": 0.00025769025724918537,
      "loss": 1.5204,
      "step": 49147
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5063560009002686,
      "learning_rate": 0.00025767990962759284,
      "loss": 1.6136,
      "step": 49148
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5011916756629944,
      "learning_rate": 0.00025766956205737067,
      "loss": 1.6325,
      "step": 49149
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4934675395488739,
      "learning_rate": 0.00025765921453853156,
      "loss": 1.6094,
      "step": 49150
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5103975534439087,
      "learning_rate": 0.0002576488670710878,
      "loss": 1.5823,
      "step": 49151
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5100279450416565,
      "learning_rate": 0.00025763851965505215,
      "loss": 1.5467,
      "step": 49152
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.517457127571106,
      "learning_rate": 0.00025762817229043694,
      "loss": 1.5845,
      "step": 49153
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49773168563842773,
      "learning_rate": 0.00025761782497725515,
      "loss": 1.6115,
      "step": 49154
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.517926037311554,
      "learning_rate": 0.00025760747771551886,
      "loss": 1.6483,
      "step": 49155
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5203891396522522,
      "learning_rate": 0.00025759713050524087,
      "loss": 1.6227,
      "step": 49156
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5033048391342163,
      "learning_rate": 0.0002575867833464338,
      "loss": 1.588,
      "step": 49157
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5014349818229675,
      "learning_rate": 0.0002575764362391101,
      "loss": 1.5954,
      "step": 49158
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49059805274009705,
      "learning_rate": 0.0002575660891832823,
      "loss": 1.6289,
      "step": 49159
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4913092255592346,
      "learning_rate": 0.000257555742178963,
      "loss": 1.5978,
      "step": 49160
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5151244401931763,
      "learning_rate": 0.000257545395226165,
      "loss": 1.5825,
      "step": 49161
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.500450849533081,
      "learning_rate": 0.0002575350483249003,
      "loss": 1.602,
      "step": 49162
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4973217248916626,
      "learning_rate": 0.000257524701475182,
      "loss": 1.5356,
      "step": 49163
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48655080795288086,
      "learning_rate": 0.0002575143546770224,
      "loss": 1.5352,
      "step": 49164
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.527908980846405,
      "learning_rate": 0.0002575040079304342,
      "loss": 1.6031,
      "step": 49165
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4944744408130646,
      "learning_rate": 0.00025749366123542977,
      "loss": 1.61,
      "step": 49166
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5099039077758789,
      "learning_rate": 0.00025748331459202184,
      "loss": 1.6605,
      "step": 49167
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5021933913230896,
      "learning_rate": 0.00025747296800022286,
      "loss": 1.6506,
      "step": 49168
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48179319500923157,
      "learning_rate": 0.0002574626214600454,
      "loss": 1.572,
      "step": 49169
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49372267723083496,
      "learning_rate": 0.00025745227497150203,
      "loss": 1.527,
      "step": 49170
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5163627862930298,
      "learning_rate": 0.00025744192853460545,
      "loss": 1.5819,
      "step": 49171
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5126498937606812,
      "learning_rate": 0.000257431582149368,
      "loss": 1.5245,
      "step": 49172
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5107614994049072,
      "learning_rate": 0.00025742123581580235,
      "loss": 1.5667,
      "step": 49173
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.508754551410675,
      "learning_rate": 0.00025741088953392115,
      "loss": 1.574,
      "step": 49174
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5068879723548889,
      "learning_rate": 0.00025740054330373677,
      "loss": 1.5463,
      "step": 49175
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5199866890907288,
      "learning_rate": 0.0002573901971252618,
      "loss": 1.5924,
      "step": 49176
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5126892924308777,
      "learning_rate": 0.000257379850998509,
      "loss": 1.5041,
      "step": 49177
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5099776387214661,
      "learning_rate": 0.00025736950492349063,
      "loss": 1.66,
      "step": 49178
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5034143924713135,
      "learning_rate": 0.0002573591589002194,
      "loss": 1.4873,
      "step": 49179
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5075350999832153,
      "learning_rate": 0.00025734881292870793,
      "loss": 1.601,
      "step": 49180
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5020207166671753,
      "learning_rate": 0.00025733846700896874,
      "loss": 1.6225,
      "step": 49181
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5100626349449158,
      "learning_rate": 0.00025732812114101435,
      "loss": 1.5694,
      "step": 49182
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.531287670135498,
      "learning_rate": 0.00025731777532485723,
      "loss": 1.6689,
      "step": 49183
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5342670679092407,
      "learning_rate": 0.0002573074295605103,
      "loss": 1.6167,
      "step": 49184
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5001650452613831,
      "learning_rate": 0.0002572970838479856,
      "loss": 1.5269,
      "step": 49185
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5079821944236755,
      "learning_rate": 0.00025728673818729603,
      "loss": 1.566,
      "step": 49186
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5122939348220825,
      "learning_rate": 0.00025727639257845414,
      "loss": 1.6069,
      "step": 49187
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5424594879150391,
      "learning_rate": 0.00025726604702147235,
      "loss": 1.5289,
      "step": 49188
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5243905782699585,
      "learning_rate": 0.00025725570151636324,
      "loss": 1.6268,
      "step": 49189
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5171471834182739,
      "learning_rate": 0.0002572453560631394,
      "loss": 1.5845,
      "step": 49190
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5395974516868591,
      "learning_rate": 0.0002572350106618136,
      "loss": 1.5585,
      "step": 49191
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4991169571876526,
      "learning_rate": 0.00025722466531239796,
      "loss": 1.6205,
      "step": 49192
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5030892491340637,
      "learning_rate": 0.00025721432001490533,
      "loss": 1.567,
      "step": 49193
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5145818591117859,
      "learning_rate": 0.0002572039747693483,
      "loss": 1.5825,
      "step": 49194
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5115435719490051,
      "learning_rate": 0.00025719362957573927,
      "loss": 1.5465,
      "step": 49195
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5139876008033752,
      "learning_rate": 0.0002571832844340909,
      "loss": 1.6742,
      "step": 49196
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5153787136077881,
      "learning_rate": 0.00025717293934441574,
      "loss": 1.6869,
      "step": 49197
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5160263180732727,
      "learning_rate": 0.00025716259430672624,
      "loss": 1.5792,
      "step": 49198
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4953641891479492,
      "learning_rate": 0.000257152249321035,
      "loss": 1.5684,
      "step": 49199
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5108456015586853,
      "learning_rate": 0.0002571419043873547,
      "loss": 1.6288,
      "step": 49200
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5235458016395569,
      "learning_rate": 0.0002571315595056978,
      "loss": 1.5148,
      "step": 49201
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.511623203754425,
      "learning_rate": 0.0002571212146760769,
      "loss": 1.5649,
      "step": 49202
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5715332627296448,
      "learning_rate": 0.0002571108698985045,
      "loss": 1.5824,
      "step": 49203
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5306498408317566,
      "learning_rate": 0.0002571005251729932,
      "loss": 1.5804,
      "step": 49204
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5097216367721558,
      "learning_rate": 0.00025709018049955554,
      "loss": 1.6473,
      "step": 49205
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49635881185531616,
      "learning_rate": 0.000257079835878204,
      "loss": 1.5178,
      "step": 49206
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5322561860084534,
      "learning_rate": 0.0002570694913089514,
      "loss": 1.6186,
      "step": 49207
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5009874701499939,
      "learning_rate": 0.0002570591467918099,
      "loss": 1.5777,
      "step": 49208
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5214478969573975,
      "learning_rate": 0.00025704880232679236,
      "loss": 1.5878,
      "step": 49209
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49639642238616943,
      "learning_rate": 0.00025703845791391123,
      "loss": 1.5902,
      "step": 49210
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49673813581466675,
      "learning_rate": 0.00025702811355317914,
      "loss": 1.5929,
      "step": 49211
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5255991816520691,
      "learning_rate": 0.00025701776924460856,
      "loss": 1.6319,
      "step": 49212
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5171287059783936,
      "learning_rate": 0.000257007424988212,
      "loss": 1.6647,
      "step": 49213
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5205100178718567,
      "learning_rate": 0.00025699708078400223,
      "loss": 1.6192,
      "step": 49214
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5201730132102966,
      "learning_rate": 0.0002569867366319915,
      "loss": 1.5973,
      "step": 49215
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5139816999435425,
      "learning_rate": 0.00025697639253219264,
      "loss": 1.5956,
      "step": 49216
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5193988084793091,
      "learning_rate": 0.00025696604848461814,
      "loss": 1.5387,
      "step": 49217
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5222415328025818,
      "learning_rate": 0.00025695570448928045,
      "loss": 1.6087,
      "step": 49218
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5260749459266663,
      "learning_rate": 0.0002569453605461922,
      "loss": 1.6118,
      "step": 49219
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5027118921279907,
      "learning_rate": 0.00025693501665536585,
      "loss": 1.5382,
      "step": 49220
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49452877044677734,
      "learning_rate": 0.00025692467281681426,
      "loss": 1.5901,
      "step": 49221
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5268849730491638,
      "learning_rate": 0.0002569143290305496,
      "loss": 1.6084,
      "step": 49222
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5114325284957886,
      "learning_rate": 0.0002569039852965846,
      "loss": 1.589,
      "step": 49223
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5116913914680481,
      "learning_rate": 0.00025689364161493193,
      "loss": 1.5035,
      "step": 49224
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4935145676136017,
      "learning_rate": 0.0002568832979856039,
      "loss": 1.5052,
      "step": 49225
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5171725749969482,
      "learning_rate": 0.0002568729544086133,
      "loss": 1.6652,
      "step": 49226
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5503907203674316,
      "learning_rate": 0.00025686261088397254,
      "loss": 1.5588,
      "step": 49227
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5018336772918701,
      "learning_rate": 0.0002568522674116942,
      "loss": 1.5703,
      "step": 49228
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5184860229492188,
      "learning_rate": 0.0002568419239917908,
      "loss": 1.673,
      "step": 49229
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5030065774917603,
      "learning_rate": 0.00025683158062427496,
      "loss": 1.5203,
      "step": 49230
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.494167298078537,
      "learning_rate": 0.0002568212373091593,
      "loss": 1.5609,
      "step": 49231
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.503273606300354,
      "learning_rate": 0.0002568108940464563,
      "loss": 1.5728,
      "step": 49232
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5171083211898804,
      "learning_rate": 0.00025680055083617844,
      "loss": 1.582,
      "step": 49233
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5126898884773254,
      "learning_rate": 0.0002567902076783384,
      "loss": 1.5706,
      "step": 49234
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.517638623714447,
      "learning_rate": 0.0002567798645729486,
      "loss": 1.5813,
      "step": 49235
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.515760064125061,
      "learning_rate": 0.0002567695215200217,
      "loss": 1.5575,
      "step": 49236
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5053001642227173,
      "learning_rate": 0.0002567591785195703,
      "loss": 1.5786,
      "step": 49237
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5051828026771545,
      "learning_rate": 0.00025674883557160686,
      "loss": 1.5762,
      "step": 49238
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5190214514732361,
      "learning_rate": 0.00025673849267614387,
      "loss": 1.6445,
      "step": 49239
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5140380859375,
      "learning_rate": 0.00025672814983319404,
      "loss": 1.5858,
      "step": 49240
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5005694627761841,
      "learning_rate": 0.00025671780704276996,
      "loss": 1.6225,
      "step": 49241
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4974729120731354,
      "learning_rate": 0.000256707464304884,
      "loss": 1.5619,
      "step": 49242
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5147836804389954,
      "learning_rate": 0.0002566971216195487,
      "loss": 1.7491,
      "step": 49243
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.504260778427124,
      "learning_rate": 0.00025668677898677683,
      "loss": 1.6122,
      "step": 49244
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49909597635269165,
      "learning_rate": 0.0002566764364065808,
      "loss": 1.5614,
      "step": 49245
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5070918798446655,
      "learning_rate": 0.0002566660938789732,
      "loss": 1.4975,
      "step": 49246
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4897426962852478,
      "learning_rate": 0.0002566557514039666,
      "loss": 1.551,
      "step": 49247
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48998722434043884,
      "learning_rate": 0.00025664540898157355,
      "loss": 1.6152,
      "step": 49248
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5049052238464355,
      "learning_rate": 0.0002566350666118065,
      "loss": 1.5997,
      "step": 49249
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5126667022705078,
      "learning_rate": 0.0002566247242946781,
      "loss": 1.6185,
      "step": 49250
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5088824033737183,
      "learning_rate": 0.00025661438203020094,
      "loss": 1.5465,
      "step": 49251
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5013827681541443,
      "learning_rate": 0.00025660403981838753,
      "loss": 1.5649,
      "step": 49252
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5002583861351013,
      "learning_rate": 0.00025659369765925036,
      "loss": 1.6172,
      "step": 49253
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5276464819908142,
      "learning_rate": 0.00025658335555280216,
      "loss": 1.5849,
      "step": 49254
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5060117244720459,
      "learning_rate": 0.0002565730134990553,
      "loss": 1.5663,
      "step": 49255
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5112628936767578,
      "learning_rate": 0.0002565626714980224,
      "loss": 1.6394,
      "step": 49256
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48886317014694214,
      "learning_rate": 0.0002565523295497161,
      "loss": 1.5255,
      "step": 49257
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5079734325408936,
      "learning_rate": 0.0002565419876541487,
      "loss": 1.627,
      "step": 49258
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48629993200302124,
      "learning_rate": 0.00025653164581133296,
      "loss": 1.6058,
      "step": 49259
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49836599826812744,
      "learning_rate": 0.00025652130402128146,
      "loss": 1.5972,
      "step": 49260
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.508953869342804,
      "learning_rate": 0.0002565109622840067,
      "loss": 1.6322,
      "step": 49261
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4964321255683899,
      "learning_rate": 0.0002565006205995212,
      "loss": 1.5813,
      "step": 49262
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49910277128219604,
      "learning_rate": 0.0002564902789678375,
      "loss": 1.5724,
      "step": 49263
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5192257761955261,
      "learning_rate": 0.00025647993738896836,
      "loss": 1.5464,
      "step": 49264
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5027147531509399,
      "learning_rate": 0.00025646959586292595,
      "loss": 1.6213,
      "step": 49265
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5100444555282593,
      "learning_rate": 0.0002564592543897231,
      "loss": 1.554,
      "step": 49266
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5124791860580444,
      "learning_rate": 0.0002564489129693724,
      "loss": 1.6634,
      "step": 49267
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5029942989349365,
      "learning_rate": 0.0002564385716018862,
      "loss": 1.5727,
      "step": 49268
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.519135594367981,
      "learning_rate": 0.00025642823028727715,
      "loss": 1.5835,
      "step": 49269
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5231794714927673,
      "learning_rate": 0.0002564178890255578,
      "loss": 1.5845,
      "step": 49270
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49845802783966064,
      "learning_rate": 0.00025640754781674086,
      "loss": 1.5465,
      "step": 49271
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5133565068244934,
      "learning_rate": 0.0002563972066608385,
      "loss": 1.5948,
      "step": 49272
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5077417492866516,
      "learning_rate": 0.00025638686555786366,
      "loss": 1.5611,
      "step": 49273
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5236234664916992,
      "learning_rate": 0.00025637652450782877,
      "loss": 1.6375,
      "step": 49274
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5077862739562988,
      "learning_rate": 0.0002563661835107463,
      "loss": 1.6286,
      "step": 49275
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5390610694885254,
      "learning_rate": 0.0002563558425666288,
      "loss": 1.6052,
      "step": 49276
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5322675108909607,
      "learning_rate": 0.00025634550167548886,
      "loss": 1.618,
      "step": 49277
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5240290760993958,
      "learning_rate": 0.0002563351608373392,
      "loss": 1.6139,
      "step": 49278
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5170152187347412,
      "learning_rate": 0.0002563248200521921,
      "loss": 1.5733,
      "step": 49279
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5384575724601746,
      "learning_rate": 0.00025631447932006026,
      "loss": 1.6117,
      "step": 49280
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5020777583122253,
      "learning_rate": 0.00025630413864095625,
      "loss": 1.638,
      "step": 49281
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5060629844665527,
      "learning_rate": 0.00025629379801489255,
      "loss": 1.6389,
      "step": 49282
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4975462257862091,
      "learning_rate": 0.00025628345744188174,
      "loss": 1.6693,
      "step": 49283
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5522355437278748,
      "learning_rate": 0.0002562731169219364,
      "loss": 1.501,
      "step": 49284
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49710214138031006,
      "learning_rate": 0.00025626277645506896,
      "loss": 1.6143,
      "step": 49285
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5021893978118896,
      "learning_rate": 0.0002562524360412921,
      "loss": 1.6065,
      "step": 49286
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4960572421550751,
      "learning_rate": 0.0002562420956806183,
      "loss": 1.586,
      "step": 49287
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4975281357765198,
      "learning_rate": 0.00025623175537306026,
      "loss": 1.6233,
      "step": 49288
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5124183893203735,
      "learning_rate": 0.00025622141511863033,
      "loss": 1.5664,
      "step": 49289
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5028412938117981,
      "learning_rate": 0.0002562110749173412,
      "loss": 1.5544,
      "step": 49290
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5232707262039185,
      "learning_rate": 0.00025620073476920543,
      "loss": 1.5664,
      "step": 49291
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4979056119918823,
      "learning_rate": 0.00025619039467423546,
      "loss": 1.5224,
      "step": 49292
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4943690299987793,
      "learning_rate": 0.00025618005463244375,
      "loss": 1.6548,
      "step": 49293
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5097439885139465,
      "learning_rate": 0.00025616971464384323,
      "loss": 1.4948,
      "step": 49294
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4964945912361145,
      "learning_rate": 0.0002561593747084461,
      "loss": 1.4913,
      "step": 49295
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5271828770637512,
      "learning_rate": 0.00025614903482626503,
      "loss": 1.5847,
      "step": 49296
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5180442333221436,
      "learning_rate": 0.0002561386949973125,
      "loss": 1.5849,
      "step": 49297
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5051549673080444,
      "learning_rate": 0.0002561283552216013,
      "loss": 1.5668,
      "step": 49298
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5092073082923889,
      "learning_rate": 0.00025611801549914375,
      "loss": 1.5707,
      "step": 49299
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5207566022872925,
      "learning_rate": 0.0002561076758299523,
      "loss": 1.6046,
      "step": 49300
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5213665962219238,
      "learning_rate": 0.00025609733621403995,
      "loss": 1.5953,
      "step": 49301
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5165175199508667,
      "learning_rate": 0.00025608699665141877,
      "loss": 1.5988,
      "step": 49302
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5074853301048279,
      "learning_rate": 0.0002560766571421015,
      "loss": 1.5534,
      "step": 49303
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5273264050483704,
      "learning_rate": 0.00025606631768610084,
      "loss": 1.6429,
      "step": 49304
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49138498306274414,
      "learning_rate": 0.00025605597828342913,
      "loss": 1.6332,
      "step": 49305
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5160359144210815,
      "learning_rate": 0.0002560456389340989,
      "loss": 1.6555,
      "step": 49306
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5076111555099487,
      "learning_rate": 0.0002560352996381228,
      "loss": 1.6257,
      "step": 49307
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5143298506736755,
      "learning_rate": 0.0002560249603955136,
      "loss": 1.6626,
      "step": 49308
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5121533274650574,
      "learning_rate": 0.00025601462120628335,
      "loss": 1.6152,
      "step": 49309
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5166226625442505,
      "learning_rate": 0.0002560042820704449,
      "loss": 1.5697,
      "step": 49310
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4987570643424988,
      "learning_rate": 0.0002559939429880109,
      "loss": 1.5937,
      "step": 49311
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5083561539649963,
      "learning_rate": 0.0002559836039589937,
      "loss": 1.5587,
      "step": 49312
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5134817361831665,
      "learning_rate": 0.0002559732649834059,
      "loss": 1.6403,
      "step": 49313
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5008834004402161,
      "learning_rate": 0.00025596292606126016,
      "loss": 1.5634,
      "step": 49314
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4944312274456024,
      "learning_rate": 0.00025595258719256887,
      "loss": 1.5297,
      "step": 49315
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5147968530654907,
      "learning_rate": 0.0002559422483773445,
      "loss": 1.6379,
      "step": 49316
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5185055136680603,
      "learning_rate": 0.0002559319096155999,
      "loss": 1.6027,
      "step": 49317
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5394383072853088,
      "learning_rate": 0.00025592157090734754,
      "loss": 1.7093,
      "step": 49318
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5191841125488281,
      "learning_rate": 0.0002559112322525998,
      "loss": 1.5246,
      "step": 49319
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5076223015785217,
      "learning_rate": 0.00025590089365136936,
      "loss": 1.5749,
      "step": 49320
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.513127326965332,
      "learning_rate": 0.00025589055510366875,
      "loss": 1.6247,
      "step": 49321
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.506069540977478,
      "learning_rate": 0.0002558802166095105,
      "loss": 1.5931,
      "step": 49322
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5057944655418396,
      "learning_rate": 0.00025586987816890704,
      "loss": 1.5354,
      "step": 49323
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5236597061157227,
      "learning_rate": 0.0002558595397818713,
      "loss": 1.6327,
      "step": 49324
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49166396260261536,
      "learning_rate": 0.00025584920144841535,
      "loss": 1.6218,
      "step": 49325
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5190776586532593,
      "learning_rate": 0.0002558388631685521,
      "loss": 1.6301,
      "step": 49326
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5079382061958313,
      "learning_rate": 0.00025582852494229383,
      "loss": 1.6179,
      "step": 49327
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48502928018569946,
      "learning_rate": 0.0002558181867696534,
      "loss": 1.5836,
      "step": 49328
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.706920862197876,
      "learning_rate": 0.00025580784865064307,
      "loss": 1.5677,
      "step": 49329
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5673710703849792,
      "learning_rate": 0.00025579751058527544,
      "loss": 1.5803,
      "step": 49330
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49195346236228943,
      "learning_rate": 0.0002557871725735633,
      "loss": 1.6293,
      "step": 49331
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5011506080627441,
      "learning_rate": 0.0002557768346155188,
      "loss": 1.6582,
      "step": 49332
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5087217092514038,
      "learning_rate": 0.00025576649671115484,
      "loss": 1.6429,
      "step": 49333
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5068603157997131,
      "learning_rate": 0.00025575615886048385,
      "loss": 1.643,
      "step": 49334
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4891066551208496,
      "learning_rate": 0.0002557458210635183,
      "loss": 1.5424,
      "step": 49335
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5136888027191162,
      "learning_rate": 0.00025573548332027084,
      "loss": 1.6171,
      "step": 49336
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.493986576795578,
      "learning_rate": 0.00025572514563075387,
      "loss": 1.6254,
      "step": 49337
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5011969804763794,
      "learning_rate": 0.00025571480799498026,
      "loss": 1.6011,
      "step": 49338
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.513227641582489,
      "learning_rate": 0.0002557044704129622,
      "loss": 1.6426,
      "step": 49339
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5017342567443848,
      "learning_rate": 0.0002556941328847124,
      "loss": 1.6252,
      "step": 49340
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5087372064590454,
      "learning_rate": 0.00025568379541024346,
      "loss": 1.5535,
      "step": 49341
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5158476829528809,
      "learning_rate": 0.0002556734579895678,
      "loss": 1.5895,
      "step": 49342
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5141214728355408,
      "learning_rate": 0.000255663120622698,
      "loss": 1.6058,
      "step": 49343
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5087267756462097,
      "learning_rate": 0.00025565278330964684,
      "loss": 1.586,
      "step": 49344
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4908265471458435,
      "learning_rate": 0.00025564244605042646,
      "loss": 1.5987,
      "step": 49345
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5013465881347656,
      "learning_rate": 0.0002556321088450496,
      "loss": 1.6518,
      "step": 49346
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5043993592262268,
      "learning_rate": 0.0002556217716935289,
      "loss": 1.5995,
      "step": 49347
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.509751558303833,
      "learning_rate": 0.00025561143459587685,
      "loss": 1.597,
      "step": 49348
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5101717114448547,
      "learning_rate": 0.000255601097552106,
      "loss": 1.5864,
      "step": 49349
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49982908368110657,
      "learning_rate": 0.0002555907605622288,
      "loss": 1.6426,
      "step": 49350
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5566143989562988,
      "learning_rate": 0.0002555804236262579,
      "loss": 1.6379,
      "step": 49351
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4934777021408081,
      "learning_rate": 0.00025557008674420583,
      "loss": 1.584,
      "step": 49352
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.506044328212738,
      "learning_rate": 0.00025555974991608505,
      "loss": 1.5749,
      "step": 49353
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5091758966445923,
      "learning_rate": 0.0002555494131419083,
      "loss": 1.6291,
      "step": 49354
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5145277380943298,
      "learning_rate": 0.000255539076421688,
      "loss": 1.5802,
      "step": 49355
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4899485409259796,
      "learning_rate": 0.00025552873975543663,
      "loss": 1.536,
      "step": 49356
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5030859112739563,
      "learning_rate": 0.0002555184031431669,
      "loss": 1.628,
      "step": 49357
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.512124240398407,
      "learning_rate": 0.0002555080665848913,
      "loss": 1.5947,
      "step": 49358
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5010071992874146,
      "learning_rate": 0.00025549773008062224,
      "loss": 1.6462,
      "step": 49359
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5165971517562866,
      "learning_rate": 0.00025548739363037237,
      "loss": 1.6159,
      "step": 49360
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4975338578224182,
      "learning_rate": 0.00025547705723415437,
      "loss": 1.5592,
      "step": 49361
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.488991916179657,
      "learning_rate": 0.0002554667208919806,
      "loss": 1.591,
      "step": 49362
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5048633217811584,
      "learning_rate": 0.00025545638460386366,
      "loss": 1.6159,
      "step": 49363
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.6928766369819641,
      "learning_rate": 0.0002554460483698161,
      "loss": 1.5804,
      "step": 49364
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5136072635650635,
      "learning_rate": 0.00025543571218985053,
      "loss": 1.631,
      "step": 49365
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5601689219474792,
      "learning_rate": 0.00025542537606397937,
      "loss": 1.6881,
      "step": 49366
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49715691804885864,
      "learning_rate": 0.0002554150399922152,
      "loss": 1.5829,
      "step": 49367
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.8101674318313599,
      "learning_rate": 0.00025540470397457073,
      "loss": 1.524,
      "step": 49368
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5242455005645752,
      "learning_rate": 0.0002553943680110583,
      "loss": 1.5475,
      "step": 49369
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4990323781967163,
      "learning_rate": 0.00025538403210169055,
      "loss": 1.6174,
      "step": 49370
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5045225620269775,
      "learning_rate": 0.00025537369624648005,
      "loss": 1.5708,
      "step": 49371
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4923042953014374,
      "learning_rate": 0.00025536336044543927,
      "loss": 1.5379,
      "step": 49372
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5163465142250061,
      "learning_rate": 0.0002553530246985808,
      "loss": 1.6809,
      "step": 49373
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4799347221851349,
      "learning_rate": 0.0002553426890059172,
      "loss": 1.5752,
      "step": 49374
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49429556727409363,
      "learning_rate": 0.0002553323533674609,
      "loss": 1.5837,
      "step": 49375
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5236913561820984,
      "learning_rate": 0.0002553220177832246,
      "loss": 1.5247,
      "step": 49376
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5189729332923889,
      "learning_rate": 0.00025531168225322075,
      "loss": 1.5772,
      "step": 49377
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5305900573730469,
      "learning_rate": 0.00025530134677746204,
      "loss": 1.5964,
      "step": 49378
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5268546938896179,
      "learning_rate": 0.00025529101135596087,
      "loss": 1.5547,
      "step": 49379
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5067626237869263,
      "learning_rate": 0.0002552806759887297,
      "loss": 1.5744,
      "step": 49380
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5231388807296753,
      "learning_rate": 0.0002552703406757814,
      "loss": 1.6554,
      "step": 49381
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48788806796073914,
      "learning_rate": 0.00025526000541712816,
      "loss": 1.5453,
      "step": 49382
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5000964403152466,
      "learning_rate": 0.0002552496702127827,
      "loss": 1.5338,
      "step": 49383
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5281011462211609,
      "learning_rate": 0.0002552393350627577,
      "loss": 1.5767,
      "step": 49384
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5059602856636047,
      "learning_rate": 0.0002552289999670654,
      "loss": 1.6112,
      "step": 49385
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5042238235473633,
      "learning_rate": 0.0002552186649257185,
      "loss": 1.572,
      "step": 49386
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4992065131664276,
      "learning_rate": 0.0002552083299387295,
      "loss": 1.612,
      "step": 49387
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5092097520828247,
      "learning_rate": 0.0002551979950061112,
      "loss": 1.5734,
      "step": 49388
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5161367058753967,
      "learning_rate": 0.00025518766012787574,
      "loss": 1.6174,
      "step": 49389
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4882694184780121,
      "learning_rate": 0.00025517732530403587,
      "loss": 1.6026,
      "step": 49390
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5117064714431763,
      "learning_rate": 0.00025516699053460424,
      "loss": 1.5456,
      "step": 49391
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.47350504994392395,
      "learning_rate": 0.00025515665581959317,
      "loss": 1.589,
      "step": 49392
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5265817046165466,
      "learning_rate": 0.0002551463211590154,
      "loss": 1.585,
      "step": 49393
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5094833970069885,
      "learning_rate": 0.0002551359865528832,
      "loss": 1.5178,
      "step": 49394
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.514319896697998,
      "learning_rate": 0.00025512565200120957,
      "loss": 1.5429,
      "step": 49395
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48642653226852417,
      "learning_rate": 0.0002551153175040066,
      "loss": 1.6182,
      "step": 49396
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5023878812789917,
      "learning_rate": 0.0002551049830612871,
      "loss": 1.6159,
      "step": 49397
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5080636143684387,
      "learning_rate": 0.00025509464867306354,
      "loss": 1.5451,
      "step": 49398
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5232104659080505,
      "learning_rate": 0.00025508431433934843,
      "loss": 1.5828,
      "step": 49399
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5062897801399231,
      "learning_rate": 0.0002550739800601543,
      "loss": 1.5863,
      "step": 49400
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49697574973106384,
      "learning_rate": 0.00025506364583549384,
      "loss": 1.5742,
      "step": 49401
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5291809439659119,
      "learning_rate": 0.0002550533116653794,
      "loss": 1.6114,
      "step": 49402
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5386833548545837,
      "learning_rate": 0.0002550429775498236,
      "loss": 1.6346,
      "step": 49403
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5093286037445068,
      "learning_rate": 0.00025503264348883907,
      "loss": 1.6271,
      "step": 49404
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.522379994392395,
      "learning_rate": 0.0002550223094824383,
      "loss": 1.6543,
      "step": 49405
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5221972465515137,
      "learning_rate": 0.0002550119755306338,
      "loss": 1.6151,
      "step": 49406
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49900659918785095,
      "learning_rate": 0.0002550016416334381,
      "loss": 1.6131,
      "step": 49407
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49935662746429443,
      "learning_rate": 0.00025499130779086385,
      "loss": 1.6337,
      "step": 49408
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4995129704475403,
      "learning_rate": 0.00025498097400292343,
      "loss": 1.5582,
      "step": 49409
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5180395841598511,
      "learning_rate": 0.00025497064026962945,
      "loss": 1.5875,
      "step": 49410
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5040123462677002,
      "learning_rate": 0.00025496030659099466,
      "loss": 1.584,
      "step": 49411
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5013643503189087,
      "learning_rate": 0.00025494997296703124,
      "loss": 1.6203,
      "step": 49412
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5122604370117188,
      "learning_rate": 0.000254939639397752,
      "loss": 1.6673,
      "step": 49413
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5014170408248901,
      "learning_rate": 0.0002549293058831693,
      "loss": 1.5766,
      "step": 49414
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5031062960624695,
      "learning_rate": 0.00025491897242329594,
      "loss": 1.6358,
      "step": 49415
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5318198800086975,
      "learning_rate": 0.00025490863901814426,
      "loss": 1.5654,
      "step": 49416
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49381354451179504,
      "learning_rate": 0.0002548983056677267,
      "loss": 1.6231,
      "step": 49417
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5167121291160583,
      "learning_rate": 0.0002548879723720562,
      "loss": 1.5819,
      "step": 49418
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5177150368690491,
      "learning_rate": 0.00025487763913114485,
      "loss": 1.6503,
      "step": 49419
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5123789310455322,
      "learning_rate": 0.0002548673059450054,
      "loss": 1.6901,
      "step": 49420
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5090590715408325,
      "learning_rate": 0.00025485697281365057,
      "loss": 1.5551,
      "step": 49421
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5142770409584045,
      "learning_rate": 0.00025484663973709254,
      "loss": 1.5888,
      "step": 49422
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.505892813205719,
      "learning_rate": 0.00025483630671534413,
      "loss": 1.5335,
      "step": 49423
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5323361158370972,
      "learning_rate": 0.0002548259737484177,
      "loss": 1.598,
      "step": 49424
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4956854283809662,
      "learning_rate": 0.00025481564083632604,
      "loss": 1.619,
      "step": 49425
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5191634297370911,
      "learning_rate": 0.0002548053079790814,
      "loss": 1.6333,
      "step": 49426
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5096597671508789,
      "learning_rate": 0.0002547949751766965,
      "loss": 1.5702,
      "step": 49427
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5154837965965271,
      "learning_rate": 0.0002547846424291839,
      "loss": 1.6051,
      "step": 49428
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5203506350517273,
      "learning_rate": 0.000254774309736556,
      "loss": 1.6051,
      "step": 49429
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5120782256126404,
      "learning_rate": 0.0002547639770988254,
      "loss": 1.5788,
      "step": 49430
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5265822410583496,
      "learning_rate": 0.0002547536445160048,
      "loss": 1.645,
      "step": 49431
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5130718946456909,
      "learning_rate": 0.00025474331198810645,
      "loss": 1.548,
      "step": 49432
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.47681742906570435,
      "learning_rate": 0.00025473297951514307,
      "loss": 1.6256,
      "step": 49433
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5259308815002441,
      "learning_rate": 0.0002547226470971272,
      "loss": 1.5149,
      "step": 49434
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.498015820980072,
      "learning_rate": 0.00025471231473407147,
      "loss": 1.5726,
      "step": 49435
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.48302900791168213,
      "learning_rate": 0.0002547019824259883,
      "loss": 1.5623,
      "step": 49436
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.49285414814949036,
      "learning_rate": 0.0002546916501728901,
      "loss": 1.61,
      "step": 49437
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5081253051757812,
      "learning_rate": 0.00025468131797478976,
      "loss": 1.6744,
      "step": 49438
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4887436032295227,
      "learning_rate": 0.0002546709858316995,
      "loss": 1.5886,
      "step": 49439
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5078597068786621,
      "learning_rate": 0.00025466065374363196,
      "loss": 1.6059,
      "step": 49440
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.4983412027359009,
      "learning_rate": 0.0002546503217105998,
      "loss": 1.5499,
      "step": 49441
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5164279341697693,
      "learning_rate": 0.0002546399897326154,
      "loss": 1.5511,
      "step": 49442
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5255178213119507,
      "learning_rate": 0.00025462965780969135,
      "loss": 1.5968,
      "step": 49443
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4965223968029022,
      "learning_rate": 0.00025461932594184023,
      "loss": 1.5996,
      "step": 49444
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.8262288570404053,
      "learning_rate": 0.0002546089941290746,
      "loss": 1.6195,
      "step": 49445
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.503376841545105,
      "learning_rate": 0.00025459866237140694,
      "loss": 1.5818,
      "step": 49446
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4910662770271301,
      "learning_rate": 0.00025458833066884976,
      "loss": 1.5426,
      "step": 49447
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.7809914946556091,
      "learning_rate": 0.0002545779990214158,
      "loss": 1.6177,
      "step": 49448
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49730873107910156,
      "learning_rate": 0.0002545676674291173,
      "loss": 1.539,
      "step": 49449
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5058812499046326,
      "learning_rate": 0.00025455733589196705,
      "loss": 1.6158,
      "step": 49450
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5136846303939819,
      "learning_rate": 0.0002545470044099775,
      "loss": 1.5577,
      "step": 49451
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5216278433799744,
      "learning_rate": 0.00025453667298316115,
      "loss": 1.6119,
      "step": 49452
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.512504518032074,
      "learning_rate": 0.0002545263416115306,
      "loss": 1.5869,
      "step": 49453
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5215028524398804,
      "learning_rate": 0.00025451601029509826,
      "loss": 1.6298,
      "step": 49454
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5098469257354736,
      "learning_rate": 0.000254505679033877,
      "loss": 1.5616,
      "step": 49455
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5313641428947449,
      "learning_rate": 0.000254495347827879,
      "loss": 1.6129,
      "step": 49456
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4888087213039398,
      "learning_rate": 0.0002544850166771169,
      "loss": 1.5773,
      "step": 49457
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5109785199165344,
      "learning_rate": 0.00025447468558160345,
      "loss": 1.574,
      "step": 49458
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5642307996749878,
      "learning_rate": 0.0002544643545413509,
      "loss": 1.6439,
      "step": 49459
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4890561103820801,
      "learning_rate": 0.00025445402355637195,
      "loss": 1.5184,
      "step": 49460
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5001217722892761,
      "learning_rate": 0.0002544436926266792,
      "loss": 1.5734,
      "step": 49461
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5059988498687744,
      "learning_rate": 0.00025443336175228496,
      "loss": 1.5972,
      "step": 49462
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5040309429168701,
      "learning_rate": 0.00025442303093320184,
      "loss": 1.5766,
      "step": 49463
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.504591703414917,
      "learning_rate": 0.00025441270016944253,
      "loss": 1.5488,
      "step": 49464
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5397999286651611,
      "learning_rate": 0.00025440236946101954,
      "loss": 1.6103,
      "step": 49465
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4927193820476532,
      "learning_rate": 0.0002543920388079453,
      "loss": 1.5799,
      "step": 49466
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.518592119216919,
      "learning_rate": 0.0002543817082102324,
      "loss": 1.6071,
      "step": 49467
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5179169774055481,
      "learning_rate": 0.00025437137766789347,
      "loss": 1.6138,
      "step": 49468
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5136362314224243,
      "learning_rate": 0.0002543610471809409,
      "loss": 1.5969,
      "step": 49469
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49410855770111084,
      "learning_rate": 0.0002543507167493872,
      "loss": 1.6198,
      "step": 49470
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5418694019317627,
      "learning_rate": 0.0002543403863732451,
      "loss": 1.5932,
      "step": 49471
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5133107304573059,
      "learning_rate": 0.0002543300560525271,
      "loss": 1.5839,
      "step": 49472
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5030677318572998,
      "learning_rate": 0.0002543197257872456,
      "loss": 1.5924,
      "step": 49473
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4832604229450226,
      "learning_rate": 0.0002543093955774132,
      "loss": 1.5612,
      "step": 49474
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5019667148590088,
      "learning_rate": 0.00025429906542304257,
      "loss": 1.5291,
      "step": 49475
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5061753988265991,
      "learning_rate": 0.00025428873532414606,
      "loss": 1.6041,
      "step": 49476
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.507398247718811,
      "learning_rate": 0.00025427840528073625,
      "loss": 1.6551,
      "step": 49477
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49829527735710144,
      "learning_rate": 0.00025426807529282583,
      "loss": 1.6117,
      "step": 49478
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5115866661071777,
      "learning_rate": 0.00025425774536042716,
      "loss": 1.6621,
      "step": 49479
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.503982424736023,
      "learning_rate": 0.0002542474154835528,
      "loss": 1.5603,
      "step": 49480
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5096338987350464,
      "learning_rate": 0.0002542370856622155,
      "loss": 1.6303,
      "step": 49481
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5221880674362183,
      "learning_rate": 0.0002542267558964275,
      "loss": 1.6293,
      "step": 49482
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5021273493766785,
      "learning_rate": 0.0002542164261862015,
      "loss": 1.5728,
      "step": 49483
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5138113498687744,
      "learning_rate": 0.00025420609653154994,
      "loss": 1.5216,
      "step": 49484
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5029406547546387,
      "learning_rate": 0.00025419576693248554,
      "loss": 1.6042,
      "step": 49485
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4968316853046417,
      "learning_rate": 0.0002541854373890207,
      "loss": 1.5064,
      "step": 49486
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5057545304298401,
      "learning_rate": 0.000254175107901168,
      "loss": 1.5982,
      "step": 49487
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4919852316379547,
      "learning_rate": 0.00025416477846894,
      "loss": 1.55,
      "step": 49488
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49467045068740845,
      "learning_rate": 0.0002541544490923491,
      "loss": 1.5379,
      "step": 49489
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5369926691055298,
      "learning_rate": 0.00025414411977140805,
      "loss": 1.5258,
      "step": 49490
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5175737142562866,
      "learning_rate": 0.0002541337905061293,
      "loss": 1.6288,
      "step": 49491
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5108416080474854,
      "learning_rate": 0.0002541234612965252,
      "loss": 1.5902,
      "step": 49492
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49228981137275696,
      "learning_rate": 0.0002541131321426085,
      "loss": 1.6661,
      "step": 49493
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5013256669044495,
      "learning_rate": 0.0002541028030443918,
      "loss": 1.6305,
      "step": 49494
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49417591094970703,
      "learning_rate": 0.0002540924740018876,
      "loss": 1.6442,
      "step": 49495
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5266129374504089,
      "learning_rate": 0.0002540821450151082,
      "loss": 1.6189,
      "step": 49496
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5294421315193176,
      "learning_rate": 0.0002540718160840663,
      "loss": 1.6091,
      "step": 49497
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5124366879463196,
      "learning_rate": 0.00025406148720877466,
      "loss": 1.5654,
      "step": 49498
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5140033960342407,
      "learning_rate": 0.0002540511583892454,
      "loss": 1.5427,
      "step": 49499
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5370973348617554,
      "learning_rate": 0.0002540408296254913,
      "loss": 1.6061,
      "step": 49500
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49510273337364197,
      "learning_rate": 0.000254030500917525,
      "loss": 1.6027,
      "step": 49501
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4891160726547241,
      "learning_rate": 0.00025402017226535875,
      "loss": 1.563,
      "step": 49502
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4957941174507141,
      "learning_rate": 0.0002540098436690053,
      "loss": 1.6104,
      "step": 49503
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5099417567253113,
      "learning_rate": 0.00025399951512847696,
      "loss": 1.5614,
      "step": 49504
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5098143219947815,
      "learning_rate": 0.0002539891866437867,
      "loss": 1.6348,
      "step": 49505
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.506282389163971,
      "learning_rate": 0.0002539788582149466,
      "loss": 1.6266,
      "step": 49506
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5126803517341614,
      "learning_rate": 0.0002539685298419695,
      "loss": 1.5724,
      "step": 49507
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5093201994895935,
      "learning_rate": 0.00025395820152486774,
      "loss": 1.5655,
      "step": 49508
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5082870721817017,
      "learning_rate": 0.000253947873263654,
      "loss": 1.5597,
      "step": 49509
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4993043541908264,
      "learning_rate": 0.0002539375450583407,
      "loss": 1.5534,
      "step": 49510
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5178242325782776,
      "learning_rate": 0.00025392721690894055,
      "loss": 1.6213,
      "step": 49511
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5081208944320679,
      "learning_rate": 0.00025391688881546586,
      "loss": 1.5696,
      "step": 49512
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5056955814361572,
      "learning_rate": 0.0002539065607779292,
      "loss": 1.5841,
      "step": 49513
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.518088698387146,
      "learning_rate": 0.00025389623279634333,
      "loss": 1.6077,
      "step": 49514
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5176067352294922,
      "learning_rate": 0.0002538859048707206,
      "loss": 1.6499,
      "step": 49515
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49387410283088684,
      "learning_rate": 0.0002538755770010735,
      "loss": 1.5893,
      "step": 49516
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5113142132759094,
      "learning_rate": 0.0002538652491874148,
      "loss": 1.613,
      "step": 49517
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49253883957862854,
      "learning_rate": 0.00025385492142975685,
      "loss": 1.5908,
      "step": 49518
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5123255252838135,
      "learning_rate": 0.0002538445937281122,
      "loss": 1.6314,
      "step": 49519
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5015373826026917,
      "learning_rate": 0.0002538342660824933,
      "loss": 1.5725,
      "step": 49520
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.520877480506897,
      "learning_rate": 0.0002538239384929129,
      "loss": 1.6683,
      "step": 49521
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5186196565628052,
      "learning_rate": 0.00025381361095938354,
      "loss": 1.5608,
      "step": 49522
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5016653537750244,
      "learning_rate": 0.00025380328348191756,
      "loss": 1.599,
      "step": 49523
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4977317154407501,
      "learning_rate": 0.00025379295606052754,
      "loss": 1.5814,
      "step": 49524
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5134280323982239,
      "learning_rate": 0.00025378262869522617,
      "loss": 1.5623,
      "step": 49525
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5314962863922119,
      "learning_rate": 0.00025377230138602576,
      "loss": 1.5837,
      "step": 49526
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5085892677307129,
      "learning_rate": 0.000253761974132939,
      "loss": 1.575,
      "step": 49527
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4922795593738556,
      "learning_rate": 0.0002537516469359785,
      "loss": 1.6183,
      "step": 49528
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5050389766693115,
      "learning_rate": 0.00025374131979515654,
      "loss": 1.5436,
      "step": 49529
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5032005906105042,
      "learning_rate": 0.00025373099271048583,
      "loss": 1.6016,
      "step": 49530
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5003864765167236,
      "learning_rate": 0.00025372066568197886,
      "loss": 1.6059,
      "step": 49531
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5241186618804932,
      "learning_rate": 0.00025371033870964836,
      "loss": 1.682,
      "step": 49532
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5146029591560364,
      "learning_rate": 0.00025370001179350653,
      "loss": 1.6444,
      "step": 49533
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5122265815734863,
      "learning_rate": 0.000253689684933566,
      "loss": 1.5811,
      "step": 49534
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4869287312030792,
      "learning_rate": 0.00025367935812983957,
      "loss": 1.5631,
      "step": 49535
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.48962047696113586,
      "learning_rate": 0.0002536690313823394,
      "loss": 1.627,
      "step": 49536
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.510200023651123,
      "learning_rate": 0.00025365870469107825,
      "loss": 1.555,
      "step": 49537
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5149305462837219,
      "learning_rate": 0.00025364837805606864,
      "loss": 1.5902,
      "step": 49538
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5129435658454895,
      "learning_rate": 0.00025363805147732304,
      "loss": 1.504,
      "step": 49539
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5019407272338867,
      "learning_rate": 0.000253627724954854,
      "loss": 1.6665,
      "step": 49540
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.48965689539909363,
      "learning_rate": 0.000253617398488674,
      "loss": 1.5161,
      "step": 49541
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4993530213832855,
      "learning_rate": 0.0002536070720787959,
      "loss": 1.6181,
      "step": 49542
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5038663744926453,
      "learning_rate": 0.00025359674572523176,
      "loss": 1.5853,
      "step": 49543
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5069890022277832,
      "learning_rate": 0.0002535864194279943,
      "loss": 1.5797,
      "step": 49544
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5110484957695007,
      "learning_rate": 0.00025357609318709626,
      "loss": 1.6255,
      "step": 49545
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4953421950340271,
      "learning_rate": 0.00025356576700254994,
      "loss": 1.5757,
      "step": 49546
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5000471472740173,
      "learning_rate": 0.00025355544087436786,
      "loss": 1.5627,
      "step": 49547
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5072463154792786,
      "learning_rate": 0.00025354511480256273,
      "loss": 1.6474,
      "step": 49548
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5045458078384399,
      "learning_rate": 0.00025353478878714696,
      "loss": 1.6909,
      "step": 49549
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.507243812084198,
      "learning_rate": 0.000253524462828133,
      "loss": 1.5546,
      "step": 49550
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5030778050422668,
      "learning_rate": 0.00025351413692553356,
      "loss": 1.6114,
      "step": 49551
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5001569390296936,
      "learning_rate": 0.00025350381107936125,
      "loss": 1.5894,
      "step": 49552
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4944486916065216,
      "learning_rate": 0.0002534934852896283,
      "loss": 1.5886,
      "step": 49553
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5131262540817261,
      "learning_rate": 0.00025348315955634745,
      "loss": 1.6112,
      "step": 49554
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49760010838508606,
      "learning_rate": 0.00025347283387953126,
      "loss": 1.5893,
      "step": 49555
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4980521500110626,
      "learning_rate": 0.00025346250825919215,
      "loss": 1.5569,
      "step": 49556
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49873650074005127,
      "learning_rate": 0.00025345218269534256,
      "loss": 1.5791,
      "step": 49557
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49545979499816895,
      "learning_rate": 0.0002534418571879954,
      "loss": 1.5136,
      "step": 49558
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5142226815223694,
      "learning_rate": 0.00025343153173716274,
      "loss": 1.6163,
      "step": 49559
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5094246864318848,
      "learning_rate": 0.00025342120634285744,
      "loss": 1.6566,
      "step": 49560
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5086185336112976,
      "learning_rate": 0.00025341088100509193,
      "loss": 1.5964,
      "step": 49561
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.502554714679718,
      "learning_rate": 0.0002534005557238788,
      "loss": 1.5662,
      "step": 49562
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.6591983437538147,
      "learning_rate": 0.00025339023049923047,
      "loss": 1.539,
      "step": 49563
    },
    {
      "epoch": 1.65,
      "grad_norm": 1.2656569480895996,
      "learning_rate": 0.00025337990533115946,
      "loss": 1.5479,
      "step": 49564
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5345879793167114,
      "learning_rate": 0.0002533695802196786,
      "loss": 1.6076,
      "step": 49565
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5235252976417542,
      "learning_rate": 0.00025335925516479997,
      "loss": 1.6298,
      "step": 49566
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5095660090446472,
      "learning_rate": 0.0002533489301665364,
      "loss": 1.6311,
      "step": 49567
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5070990324020386,
      "learning_rate": 0.00025333860522490045,
      "loss": 1.5563,
      "step": 49568
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.514503002166748,
      "learning_rate": 0.0002533282803399045,
      "loss": 1.5737,
      "step": 49569
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5080832242965698,
      "learning_rate": 0.00025331795551156107,
      "loss": 1.6236,
      "step": 49570
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5113065242767334,
      "learning_rate": 0.0002533076307398827,
      "loss": 1.5313,
      "step": 49571
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5140649676322937,
      "learning_rate": 0.0002532973060248823,
      "loss": 1.5766,
      "step": 49572
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5177355408668518,
      "learning_rate": 0.00025328698136657175,
      "loss": 1.591,
      "step": 49573
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.48600971698760986,
      "learning_rate": 0.00025327665676496406,
      "loss": 1.5347,
      "step": 49574
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.512237012386322,
      "learning_rate": 0.0002532663322200717,
      "loss": 1.5871,
      "step": 49575
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4909898638725281,
      "learning_rate": 0.00025325600773190706,
      "loss": 1.5519,
      "step": 49576
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5028226971626282,
      "learning_rate": 0.0002532456833004827,
      "loss": 1.5404,
      "step": 49577
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5133382678031921,
      "learning_rate": 0.00025323535892581126,
      "loss": 1.6433,
      "step": 49578
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.52138751745224,
      "learning_rate": 0.0002532250346079052,
      "loss": 1.6243,
      "step": 49579
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5011334419250488,
      "learning_rate": 0.00025321471034677693,
      "loss": 1.5392,
      "step": 49580
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5067501068115234,
      "learning_rate": 0.0002532043861424392,
      "loss": 1.6042,
      "step": 49581
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5094910264015198,
      "learning_rate": 0.00025319406199490453,
      "loss": 1.6544,
      "step": 49582
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4969685673713684,
      "learning_rate": 0.00025318373790418527,
      "loss": 1.5387,
      "step": 49583
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5126845240592957,
      "learning_rate": 0.0002531734138702941,
      "loss": 1.5788,
      "step": 49584
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5202893614768982,
      "learning_rate": 0.0002531630898932435,
      "loss": 1.6579,
      "step": 49585
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5258179306983948,
      "learning_rate": 0.000253152765973046,
      "loss": 1.6291,
      "step": 49586
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5214443206787109,
      "learning_rate": 0.000253142442109714,
      "loss": 1.6347,
      "step": 49587
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5018149018287659,
      "learning_rate": 0.0002531321183032604,
      "loss": 1.5411,
      "step": 49588
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49122732877731323,
      "learning_rate": 0.0002531217945536974,
      "loss": 1.5736,
      "step": 49589
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5048620104789734,
      "learning_rate": 0.0002531114708610376,
      "loss": 1.6318,
      "step": 49590
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5367642641067505,
      "learning_rate": 0.00025310114722529363,
      "loss": 1.5851,
      "step": 49591
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49713367223739624,
      "learning_rate": 0.000253090823646478,
      "loss": 1.5256,
      "step": 49592
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5405599474906921,
      "learning_rate": 0.00025308050012460306,
      "loss": 1.6084,
      "step": 49593
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5126000642776489,
      "learning_rate": 0.0002530701766596815,
      "loss": 1.6321,
      "step": 49594
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5283396244049072,
      "learning_rate": 0.000253059853251726,
      "loss": 1.645,
      "step": 49595
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5128424763679504,
      "learning_rate": 0.00025304952990074875,
      "loss": 1.6118,
      "step": 49596
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5185316205024719,
      "learning_rate": 0.0002530392066067625,
      "loss": 1.5816,
      "step": 49597
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.529658317565918,
      "learning_rate": 0.0002530288833697798,
      "loss": 1.6481,
      "step": 49598
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5034710764884949,
      "learning_rate": 0.00025301856018981303,
      "loss": 1.5607,
      "step": 49599
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4911152422428131,
      "learning_rate": 0.0002530082370668748,
      "loss": 1.5357,
      "step": 49600
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4925512373447418,
      "learning_rate": 0.00025299791400097764,
      "loss": 1.5755,
      "step": 49601
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5223051905632019,
      "learning_rate": 0.0002529875909921342,
      "loss": 1.5991,
      "step": 49602
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5053995847702026,
      "learning_rate": 0.00025297726804035677,
      "loss": 1.5788,
      "step": 49603
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5048616528511047,
      "learning_rate": 0.00025296694514565806,
      "loss": 1.6278,
      "step": 49604
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5153610706329346,
      "learning_rate": 0.0002529566223080506,
      "loss": 1.5806,
      "step": 49605
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5279703140258789,
      "learning_rate": 0.0002529462995275468,
      "loss": 1.5719,
      "step": 49606
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5293850302696228,
      "learning_rate": 0.0002529359768041593,
      "loss": 1.6097,
      "step": 49607
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5260098576545715,
      "learning_rate": 0.00025292565413790057,
      "loss": 1.6297,
      "step": 49608
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5275354385375977,
      "learning_rate": 0.0002529153315287831,
      "loss": 1.5595,
      "step": 49609
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.524262547492981,
      "learning_rate": 0.0002529050089768195,
      "loss": 1.567,
      "step": 49610
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5228105187416077,
      "learning_rate": 0.00025289468648202236,
      "loss": 1.6513,
      "step": 49611
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5356155633926392,
      "learning_rate": 0.00025288436404440415,
      "loss": 1.5299,
      "step": 49612
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.501973569393158,
      "learning_rate": 0.00025287404166397727,
      "loss": 1.6225,
      "step": 49613
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4921463429927826,
      "learning_rate": 0.0002528637193407543,
      "loss": 1.5925,
      "step": 49614
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5283294320106506,
      "learning_rate": 0.00025285339707474807,
      "loss": 1.5552,
      "step": 49615
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5270828604698181,
      "learning_rate": 0.0002528430748659707,
      "loss": 1.5973,
      "step": 49616
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5218111872673035,
      "learning_rate": 0.0002528327527144349,
      "loss": 1.5401,
      "step": 49617
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5078582167625427,
      "learning_rate": 0.00025282243062015324,
      "loss": 1.5711,
      "step": 49618
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49001559615135193,
      "learning_rate": 0.0002528121085831382,
      "loss": 1.5803,
      "step": 49619
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5155156850814819,
      "learning_rate": 0.00025280178660340224,
      "loss": 1.6512,
      "step": 49620
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49939680099487305,
      "learning_rate": 0.0002527914646809579,
      "loss": 1.589,
      "step": 49621
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49493706226348877,
      "learning_rate": 0.000252781142815818,
      "loss": 1.6023,
      "step": 49622
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4951329827308655,
      "learning_rate": 0.00025277082100799464,
      "loss": 1.5851,
      "step": 49623
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4963058531284332,
      "learning_rate": 0.0002527604992575006,
      "loss": 1.5791,
      "step": 49624
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5006970167160034,
      "learning_rate": 0.00025275017756434836,
      "loss": 1.6191,
      "step": 49625
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.517746090888977,
      "learning_rate": 0.00025273985592855046,
      "loss": 1.6211,
      "step": 49626
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5018524527549744,
      "learning_rate": 0.00025272953435011937,
      "loss": 1.5839,
      "step": 49627
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5039576292037964,
      "learning_rate": 0.00025271921282906773,
      "loss": 1.5995,
      "step": 49628
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5138189196586609,
      "learning_rate": 0.00025270889136540795,
      "loss": 1.6218,
      "step": 49629
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4825189411640167,
      "learning_rate": 0.0002526985699591525,
      "loss": 1.5563,
      "step": 49630
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.48974427580833435,
      "learning_rate": 0.00025268824861031413,
      "loss": 1.6257,
      "step": 49631
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5173838138580322,
      "learning_rate": 0.0002526779273189053,
      "loss": 1.5978,
      "step": 49632
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5049713253974915,
      "learning_rate": 0.0002526676060849384,
      "loss": 1.581,
      "step": 49633
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5181788206100464,
      "learning_rate": 0.0002526572849084261,
      "loss": 1.6134,
      "step": 49634
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5048307180404663,
      "learning_rate": 0.00025264696378938097,
      "loss": 1.592,
      "step": 49635
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5186677575111389,
      "learning_rate": 0.0002526366427278153,
      "loss": 1.5498,
      "step": 49636
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5111936926841736,
      "learning_rate": 0.00025262632172374177,
      "loss": 1.6957,
      "step": 49637
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5103855133056641,
      "learning_rate": 0.0002526160007771729,
      "loss": 1.5923,
      "step": 49638
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5142790079116821,
      "learning_rate": 0.0002526056798881213,
      "loss": 1.5556,
      "step": 49639
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5188266634941101,
      "learning_rate": 0.00025259535905659944,
      "loss": 1.5653,
      "step": 49640
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5302542448043823,
      "learning_rate": 0.0002525850382826198,
      "loss": 1.6596,
      "step": 49641
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5025853514671326,
      "learning_rate": 0.000252574717566195,
      "loss": 1.5728,
      "step": 49642
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5161604881286621,
      "learning_rate": 0.0002525643969073374,
      "loss": 1.5997,
      "step": 49643
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5357890725135803,
      "learning_rate": 0.00025255407630605956,
      "loss": 1.5556,
      "step": 49644
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5361498594284058,
      "learning_rate": 0.0002525437557623743,
      "loss": 1.5502,
      "step": 49645
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5176216959953308,
      "learning_rate": 0.00025253343527629373,
      "loss": 1.5817,
      "step": 49646
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5236550569534302,
      "learning_rate": 0.0002525231148478307,
      "loss": 1.6725,
      "step": 49647
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5329094529151917,
      "learning_rate": 0.0002525127944769975,
      "loss": 1.5799,
      "step": 49648
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5233805775642395,
      "learning_rate": 0.0002525024741638069,
      "loss": 1.6281,
      "step": 49649
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5148372650146484,
      "learning_rate": 0.0002524921539082712,
      "loss": 1.6344,
      "step": 49650
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5095279812812805,
      "learning_rate": 0.00025248183371040305,
      "loss": 1.5219,
      "step": 49651
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49478209018707275,
      "learning_rate": 0.0002524715135702151,
      "loss": 1.6333,
      "step": 49652
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5107393264770508,
      "learning_rate": 0.0002524611934877195,
      "loss": 1.5824,
      "step": 49653
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5017015933990479,
      "learning_rate": 0.0002524508734629291,
      "loss": 1.6066,
      "step": 49654
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5076075196266174,
      "learning_rate": 0.00025244055349585634,
      "loss": 1.6527,
      "step": 49655
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5051486492156982,
      "learning_rate": 0.00025243023358651373,
      "loss": 1.5623,
      "step": 49656
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5126907825469971,
      "learning_rate": 0.00025241991373491383,
      "loss": 1.5153,
      "step": 49657
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49532586336135864,
      "learning_rate": 0.00025240959394106906,
      "loss": 1.6273,
      "step": 49658
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5104859471321106,
      "learning_rate": 0.0002523992742049922,
      "loss": 1.6582,
      "step": 49659
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.531519889831543,
      "learning_rate": 0.0002523889545266954,
      "loss": 1.6478,
      "step": 49660
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5182611346244812,
      "learning_rate": 0.0002523786349061915,
      "loss": 1.5879,
      "step": 49661
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5003624558448792,
      "learning_rate": 0.000252368315343493,
      "loss": 1.5618,
      "step": 49662
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5137106776237488,
      "learning_rate": 0.00025235799583861224,
      "loss": 1.5996,
      "step": 49663
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5117753148078918,
      "learning_rate": 0.0002523476763915619,
      "loss": 1.6653,
      "step": 49664
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5310052037239075,
      "learning_rate": 0.0002523373570023545,
      "loss": 1.6018,
      "step": 49665
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5122465491294861,
      "learning_rate": 0.00025232703767100244,
      "loss": 1.5844,
      "step": 49666
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5106746554374695,
      "learning_rate": 0.0002523167183975183,
      "loss": 1.5726,
      "step": 49667
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49333202838897705,
      "learning_rate": 0.0002523063991819147,
      "loss": 1.506,
      "step": 49668
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4967210590839386,
      "learning_rate": 0.0002522960800242041,
      "loss": 1.6388,
      "step": 49669
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5046310424804688,
      "learning_rate": 0.00025228576092439905,
      "loss": 1.557,
      "step": 49670
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5076755881309509,
      "learning_rate": 0.0002522754418825121,
      "loss": 1.6364,
      "step": 49671
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5205209255218506,
      "learning_rate": 0.0002522651228985557,
      "loss": 1.5797,
      "step": 49672
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4995204508304596,
      "learning_rate": 0.00025225480397254234,
      "loss": 1.6008,
      "step": 49673
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4980723261833191,
      "learning_rate": 0.00025224448510448457,
      "loss": 1.5612,
      "step": 49674
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4897496700286865,
      "learning_rate": 0.00025223416629439514,
      "loss": 1.5604,
      "step": 49675
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5355684161186218,
      "learning_rate": 0.00025222384754228623,
      "loss": 1.5855,
      "step": 49676
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5317943096160889,
      "learning_rate": 0.0002522135288481706,
      "loss": 1.5938,
      "step": 49677
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5093167424201965,
      "learning_rate": 0.00025220321021206065,
      "loss": 1.6163,
      "step": 49678
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5077307820320129,
      "learning_rate": 0.00025219289163396906,
      "loss": 1.6041,
      "step": 49679
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5192999839782715,
      "learning_rate": 0.0002521825731139082,
      "loss": 1.6442,
      "step": 49680
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.509797990322113,
      "learning_rate": 0.00025217225465189055,
      "loss": 1.5367,
      "step": 49681
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5035127401351929,
      "learning_rate": 0.000252161936247929,
      "loss": 1.5762,
      "step": 49682
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4941498041152954,
      "learning_rate": 0.0002521516179020356,
      "loss": 1.5442,
      "step": 49683
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4970228374004364,
      "learning_rate": 0.0002521412996142231,
      "loss": 1.6006,
      "step": 49684
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.513205885887146,
      "learning_rate": 0.0002521309813845041,
      "loss": 1.6554,
      "step": 49685
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5437107086181641,
      "learning_rate": 0.00025212066321289096,
      "loss": 1.6039,
      "step": 49686
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5116178393363953,
      "learning_rate": 0.00025211034509939627,
      "loss": 1.511,
      "step": 49687
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49491819739341736,
      "learning_rate": 0.00025210002704403254,
      "loss": 1.6293,
      "step": 49688
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49619153141975403,
      "learning_rate": 0.00025208970904681247,
      "loss": 1.6096,
      "step": 49689
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5123106837272644,
      "learning_rate": 0.0002520793911077483,
      "loss": 1.6411,
      "step": 49690
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5134500861167908,
      "learning_rate": 0.0002520690732268527,
      "loss": 1.6405,
      "step": 49691
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5081431865692139,
      "learning_rate": 0.00025205875540413827,
      "loss": 1.5687,
      "step": 49692
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5209395885467529,
      "learning_rate": 0.0002520484376396174,
      "loss": 1.5746,
      "step": 49693
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5086545348167419,
      "learning_rate": 0.0002520381199333026,
      "loss": 1.6023,
      "step": 49694
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5261790156364441,
      "learning_rate": 0.0002520278022852066,
      "loss": 1.6248,
      "step": 49695
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5172281861305237,
      "learning_rate": 0.00025201748469534164,
      "loss": 1.6053,
      "step": 49696
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5281155705451965,
      "learning_rate": 0.00025200716716372037,
      "loss": 1.5489,
      "step": 49697
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49397048354148865,
      "learning_rate": 0.0002519968496903554,
      "loss": 1.6121,
      "step": 49698
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5138986706733704,
      "learning_rate": 0.0002519865322752592,
      "loss": 1.6599,
      "step": 49699
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5208449363708496,
      "learning_rate": 0.0002519762149184442,
      "loss": 1.5655,
      "step": 49700
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5203971266746521,
      "learning_rate": 0.00025196589761992304,
      "loss": 1.589,
      "step": 49701
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4929160177707672,
      "learning_rate": 0.00025195558037970826,
      "loss": 1.6347,
      "step": 49702
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5003969073295593,
      "learning_rate": 0.0002519452631978123,
      "loss": 1.5927,
      "step": 49703
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5212279558181763,
      "learning_rate": 0.0002519349460742476,
      "loss": 1.6719,
      "step": 49704
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4969693124294281,
      "learning_rate": 0.0002519246290090269,
      "loss": 1.5754,
      "step": 49705
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5067917704582214,
      "learning_rate": 0.0002519143120021626,
      "loss": 1.5965,
      "step": 49706
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5244718194007874,
      "learning_rate": 0.0002519039950536672,
      "loss": 1.535,
      "step": 49707
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5154137015342712,
      "learning_rate": 0.0002518936781635533,
      "loss": 1.5857,
      "step": 49708
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5066829323768616,
      "learning_rate": 0.00025188336133183343,
      "loss": 1.5633,
      "step": 49709
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5089355111122131,
      "learning_rate": 0.00025187304455852,
      "loss": 1.5683,
      "step": 49710
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5003860592842102,
      "learning_rate": 0.0002518627278436256,
      "loss": 1.5412,
      "step": 49711
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.555675745010376,
      "learning_rate": 0.00025185241118716277,
      "loss": 1.5666,
      "step": 49712
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.49208971858024597,
      "learning_rate": 0.00025184209458914403,
      "loss": 1.6294,
      "step": 49713
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5046041011810303,
      "learning_rate": 0.0002518317780495819,
      "loss": 1.5457,
      "step": 49714
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5176294445991516,
      "learning_rate": 0.00025182146156848894,
      "loss": 1.5749,
      "step": 49715
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5066917538642883,
      "learning_rate": 0.00025181114514587753,
      "loss": 1.6437,
      "step": 49716
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5292922854423523,
      "learning_rate": 0.00025180082878176034,
      "loss": 1.594,
      "step": 49717
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5037447810173035,
      "learning_rate": 0.00025179051247614973,
      "loss": 1.6044,
      "step": 49718
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5349534749984741,
      "learning_rate": 0.0002517801962290585,
      "loss": 1.5608,
      "step": 49719
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5161188244819641,
      "learning_rate": 0.00025176988004049896,
      "loss": 1.6194,
      "step": 49720
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5163127183914185,
      "learning_rate": 0.0002517595639104837,
      "loss": 1.6195,
      "step": 49721
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.529797375202179,
      "learning_rate": 0.0002517492478390252,
      "loss": 1.5971,
      "step": 49722
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5097154974937439,
      "learning_rate": 0.000251738931826136,
      "loss": 1.5509,
      "step": 49723
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5120450854301453,
      "learning_rate": 0.00025172861587182847,
      "loss": 1.6015,
      "step": 49724
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5108557343482971,
      "learning_rate": 0.00025171829997611557,
      "loss": 1.6116,
      "step": 49725
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5042672753334045,
      "learning_rate": 0.0002517079841390093,
      "loss": 1.5694,
      "step": 49726
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5181633234024048,
      "learning_rate": 0.0002516976683605225,
      "loss": 1.6367,
      "step": 49727
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5204280018806458,
      "learning_rate": 0.0002516873526406677,
      "loss": 1.6176,
      "step": 49728
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5114663243293762,
      "learning_rate": 0.0002516770369794573,
      "loss": 1.5887,
      "step": 49729
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5188104510307312,
      "learning_rate": 0.00025166672137690385,
      "loss": 1.5993,
      "step": 49730
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.524804413318634,
      "learning_rate": 0.00025165640583301975,
      "loss": 1.5377,
      "step": 49731
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5097934007644653,
      "learning_rate": 0.0002516460903478179,
      "loss": 1.6516,
      "step": 49732
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.534113883972168,
      "learning_rate": 0.00025163577492131033,
      "loss": 1.6456,
      "step": 49733
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5521376729011536,
      "learning_rate": 0.0002516254595535099,
      "loss": 1.6439,
      "step": 49734
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5110242366790771,
      "learning_rate": 0.0002516151442444291,
      "loss": 1.5979,
      "step": 49735
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5054597854614258,
      "learning_rate": 0.0002516048289940803,
      "loss": 1.6144,
      "step": 49736
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5232160687446594,
      "learning_rate": 0.00025159451380247616,
      "loss": 1.5347,
      "step": 49737
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5670825839042664,
      "learning_rate": 0.00025158419866962904,
      "loss": 1.5777,
      "step": 49738
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4957018494606018,
      "learning_rate": 0.0002515738835955517,
      "loss": 1.5777,
      "step": 49739
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5059452056884766,
      "learning_rate": 0.00025156356858025645,
      "loss": 1.626,
      "step": 49740
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5333915948867798,
      "learning_rate": 0.0002515532536237559,
      "loss": 1.6495,
      "step": 49741
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5306510925292969,
      "learning_rate": 0.0002515429387260626,
      "loss": 1.6286,
      "step": 49742
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.522571325302124,
      "learning_rate": 0.00025153262388718904,
      "loss": 1.5944,
      "step": 49743
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.5013065934181213,
      "learning_rate": 0.00025152230910714766,
      "loss": 1.5514,
      "step": 49744
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49520161747932434,
      "learning_rate": 0.0002515119943859512,
      "loss": 1.615,
      "step": 49745
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5015305280685425,
      "learning_rate": 0.0002515016797236119,
      "loss": 1.5693,
      "step": 49746
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5086402893066406,
      "learning_rate": 0.0002514913651201424,
      "loss": 1.5953,
      "step": 49747
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5462656021118164,
      "learning_rate": 0.00025148105057555526,
      "loss": 1.6338,
      "step": 49748
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5010049939155579,
      "learning_rate": 0.00025147073608986306,
      "loss": 1.5897,
      "step": 49749
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.504987895488739,
      "learning_rate": 0.00025146042166307816,
      "loss": 1.5791,
      "step": 49750
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5188379287719727,
      "learning_rate": 0.0002514501072952132,
      "loss": 1.63,
      "step": 49751
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5434824824333191,
      "learning_rate": 0.00025143979298628065,
      "loss": 1.5848,
      "step": 49752
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5348861217498779,
      "learning_rate": 0.000251429478736293,
      "loss": 1.5731,
      "step": 49753
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.500786542892456,
      "learning_rate": 0.00025141916454526274,
      "loss": 1.5621,
      "step": 49754
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.511760950088501,
      "learning_rate": 0.00025140885041320264,
      "loss": 1.5986,
      "step": 49755
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5272564888000488,
      "learning_rate": 0.0002513985363401249,
      "loss": 1.6106,
      "step": 49756
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5073006749153137,
      "learning_rate": 0.0002513882223260422,
      "loss": 1.5833,
      "step": 49757
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5082398653030396,
      "learning_rate": 0.00025137790837096704,
      "loss": 1.5239,
      "step": 49758
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5021718740463257,
      "learning_rate": 0.00025136759447491196,
      "loss": 1.5774,
      "step": 49759
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5207257866859436,
      "learning_rate": 0.00025135728063788946,
      "loss": 1.6389,
      "step": 49760
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5258817672729492,
      "learning_rate": 0.0002513469668599119,
      "loss": 1.6376,
      "step": 49761
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5439286231994629,
      "learning_rate": 0.0002513366531409922,
      "loss": 1.568,
      "step": 49762
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5110979676246643,
      "learning_rate": 0.00025132633948114243,
      "loss": 1.6029,
      "step": 49763
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49808910489082336,
      "learning_rate": 0.00025131602588037544,
      "loss": 1.6118,
      "step": 49764
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5096673965454102,
      "learning_rate": 0.00025130571233870355,
      "loss": 1.6079,
      "step": 49765
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5226625800132751,
      "learning_rate": 0.0002512953988561394,
      "loss": 1.5328,
      "step": 49766
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5137509107589722,
      "learning_rate": 0.00025128508543269544,
      "loss": 1.5765,
      "step": 49767
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48933565616607666,
      "learning_rate": 0.0002512747720683841,
      "loss": 1.6041,
      "step": 49768
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49597975611686707,
      "learning_rate": 0.0002512644587632183,
      "loss": 1.5392,
      "step": 49769
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5071026086807251,
      "learning_rate": 0.00025125414551721,
      "loss": 1.6606,
      "step": 49770
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5066164135932922,
      "learning_rate": 0.00025124383233037206,
      "loss": 1.5693,
      "step": 49771
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.507559061050415,
      "learning_rate": 0.00025123351920271696,
      "loss": 1.5937,
      "step": 49772
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5371317267417908,
      "learning_rate": 0.0002512232061342572,
      "loss": 1.6038,
      "step": 49773
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4995653033256531,
      "learning_rate": 0.00025121289312500517,
      "loss": 1.6072,
      "step": 49774
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5130621790885925,
      "learning_rate": 0.0002512025801749735,
      "loss": 1.5838,
      "step": 49775
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5029573440551758,
      "learning_rate": 0.0002511922672841749,
      "loss": 1.6304,
      "step": 49776
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5151380300521851,
      "learning_rate": 0.0002511819544526215,
      "loss": 1.5971,
      "step": 49777
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5054084062576294,
      "learning_rate": 0.000251171641680326,
      "loss": 1.6051,
      "step": 49778
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5117048025131226,
      "learning_rate": 0.0002511613289673011,
      "loss": 1.6675,
      "step": 49779
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4829634428024292,
      "learning_rate": 0.0002511510163135591,
      "loss": 1.6083,
      "step": 49780
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4872613549232483,
      "learning_rate": 0.00025114070371911245,
      "loss": 1.5722,
      "step": 49781
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49741750955581665,
      "learning_rate": 0.00025113039118397396,
      "loss": 1.5421,
      "step": 49782
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5007637739181519,
      "learning_rate": 0.00025112007870815585,
      "loss": 1.6349,
      "step": 49783
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5065428614616394,
      "learning_rate": 0.00025110976629167075,
      "loss": 1.6203,
      "step": 49784
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.512692928314209,
      "learning_rate": 0.0002510994539345312,
      "loss": 1.6765,
      "step": 49785
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5073464512825012,
      "learning_rate": 0.00025108914163674977,
      "loss": 1.5642,
      "step": 49786
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5059689879417419,
      "learning_rate": 0.0002510788293983389,
      "loss": 1.6437,
      "step": 49787
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5232911109924316,
      "learning_rate": 0.0002510685172193111,
      "loss": 1.61,
      "step": 49788
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5211272239685059,
      "learning_rate": 0.000251058205099679,
      "loss": 1.5145,
      "step": 49789
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5184838175773621,
      "learning_rate": 0.00025104789303945495,
      "loss": 1.5895,
      "step": 49790
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.508470892906189,
      "learning_rate": 0.00025103758103865145,
      "loss": 1.5468,
      "step": 49791
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.501150906085968,
      "learning_rate": 0.0002510272690972813,
      "loss": 1.5207,
      "step": 49792
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5001496076583862,
      "learning_rate": 0.0002510169572153567,
      "loss": 1.5433,
      "step": 49793
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5125591158866882,
      "learning_rate": 0.0002510066453928903,
      "loss": 1.5831,
      "step": 49794
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5211797952651978,
      "learning_rate": 0.0002509963336298946,
      "loss": 1.6371,
      "step": 49795
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5262766480445862,
      "learning_rate": 0.0002509860219263823,
      "loss": 1.5848,
      "step": 49796
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5103506445884705,
      "learning_rate": 0.0002509757102823656,
      "loss": 1.5452,
      "step": 49797
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5001829266548157,
      "learning_rate": 0.0002509653986978571,
      "loss": 1.6046,
      "step": 49798
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5025151968002319,
      "learning_rate": 0.0002509550871728696,
      "loss": 1.5809,
      "step": 49799
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5261719822883606,
      "learning_rate": 0.0002509447757074152,
      "loss": 1.5621,
      "step": 49800
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4941870868206024,
      "learning_rate": 0.00025093446430150666,
      "loss": 1.6167,
      "step": 49801
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48712044954299927,
      "learning_rate": 0.00025092415295515654,
      "loss": 1.5791,
      "step": 49802
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5091344714164734,
      "learning_rate": 0.00025091384166837715,
      "loss": 1.5081,
      "step": 49803
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5139546394348145,
      "learning_rate": 0.0002509035304411812,
      "loss": 1.6317,
      "step": 49804
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5289048552513123,
      "learning_rate": 0.000250893219273581,
      "loss": 1.5457,
      "step": 49805
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5061333775520325,
      "learning_rate": 0.00025088290816558946,
      "loss": 1.6305,
      "step": 49806
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5225957036018372,
      "learning_rate": 0.0002508725971172186,
      "loss": 1.5935,
      "step": 49807
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5080015659332275,
      "learning_rate": 0.0002508622861284812,
      "loss": 1.6127,
      "step": 49808
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5083327293395996,
      "learning_rate": 0.00025085197519938984,
      "loss": 1.5911,
      "step": 49809
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4954296350479126,
      "learning_rate": 0.0002508416643299569,
      "loss": 1.5569,
      "step": 49810
    },
    {
      "epoch": 1.66,
      "grad_norm": 1.0992177724838257,
      "learning_rate": 0.0002508313535201949,
      "loss": 1.6597,
      "step": 49811
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5189318060874939,
      "learning_rate": 0.00025082104277011647,
      "loss": 1.601,
      "step": 49812
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5084938406944275,
      "learning_rate": 0.000250810732079734,
      "loss": 1.5236,
      "step": 49813
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4992811381816864,
      "learning_rate": 0.0002508004214490599,
      "loss": 1.5877,
      "step": 49814
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5063013434410095,
      "learning_rate": 0.000250790110878107,
      "loss": 1.6309,
      "step": 49815
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4881622791290283,
      "learning_rate": 0.0002507798003668877,
      "loss": 1.5487,
      "step": 49816
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4990079998970032,
      "learning_rate": 0.0002507694899154144,
      "loss": 1.6724,
      "step": 49817
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5036781430244446,
      "learning_rate": 0.0002507591795236997,
      "loss": 1.563,
      "step": 49818
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4869605600833893,
      "learning_rate": 0.0002507488691917562,
      "loss": 1.6095,
      "step": 49819
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5206061601638794,
      "learning_rate": 0.0002507385589195961,
      "loss": 1.5665,
      "step": 49820
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49386435747146606,
      "learning_rate": 0.0002507282487072322,
      "loss": 1.5963,
      "step": 49821
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5036050081253052,
      "learning_rate": 0.0002507179385546771,
      "loss": 1.6306,
      "step": 49822
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48514291644096375,
      "learning_rate": 0.000250707628461943,
      "loss": 1.6324,
      "step": 49823
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5193150639533997,
      "learning_rate": 0.0002506973184290426,
      "loss": 1.5635,
      "step": 49824
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5001833438873291,
      "learning_rate": 0.00025068700845598844,
      "loss": 1.5823,
      "step": 49825
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4915167987346649,
      "learning_rate": 0.000250676698542793,
      "loss": 1.5819,
      "step": 49826
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5033363103866577,
      "learning_rate": 0.0002506663886894687,
      "loss": 1.629,
      "step": 49827
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5017282366752625,
      "learning_rate": 0.00025065607889602815,
      "loss": 1.5407,
      "step": 49828
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48780640959739685,
      "learning_rate": 0.00025064576916248395,
      "loss": 1.5839,
      "step": 49829
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4879608154296875,
      "learning_rate": 0.0002506354594888484,
      "loss": 1.5458,
      "step": 49830
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5346723794937134,
      "learning_rate": 0.00025062514987513415,
      "loss": 1.6949,
      "step": 49831
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5104510188102722,
      "learning_rate": 0.00025061484032135376,
      "loss": 1.5606,
      "step": 49832
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5045554041862488,
      "learning_rate": 0.00025060453082751966,
      "loss": 1.6529,
      "step": 49833
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5086581110954285,
      "learning_rate": 0.00025059422139364434,
      "loss": 1.5313,
      "step": 49834
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4948287904262543,
      "learning_rate": 0.0002505839120197403,
      "loss": 1.6192,
      "step": 49835
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4974702000617981,
      "learning_rate": 0.00025057360270582023,
      "loss": 1.5593,
      "step": 49836
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5047735571861267,
      "learning_rate": 0.00025056329345189644,
      "loss": 1.6554,
      "step": 49837
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5036159157752991,
      "learning_rate": 0.00025055298425798156,
      "loss": 1.6862,
      "step": 49838
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5106111168861389,
      "learning_rate": 0.0002505426751240881,
      "loss": 1.5899,
      "step": 49839
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4973362684249878,
      "learning_rate": 0.0002505323660502285,
      "loss": 1.6055,
      "step": 49840
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4899795651435852,
      "learning_rate": 0.0002505220570364153,
      "loss": 1.5954,
      "step": 49841
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.510001003742218,
      "learning_rate": 0.00025051174808266117,
      "loss": 1.6249,
      "step": 49842
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5090234279632568,
      "learning_rate": 0.00025050143918897835,
      "loss": 1.5558,
      "step": 49843
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49808940291404724,
      "learning_rate": 0.0002504911303553795,
      "loss": 1.4675,
      "step": 49844
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5136600732803345,
      "learning_rate": 0.00025048082158187716,
      "loss": 1.5898,
      "step": 49845
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5057805776596069,
      "learning_rate": 0.0002504705128684838,
      "loss": 1.5729,
      "step": 49846
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5328875184059143,
      "learning_rate": 0.00025046020421521194,
      "loss": 1.635,
      "step": 49847
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5058261752128601,
      "learning_rate": 0.000250449895622074,
      "loss": 1.6144,
      "step": 49848
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5062940120697021,
      "learning_rate": 0.0002504395870890828,
      "loss": 1.6089,
      "step": 49849
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5009210109710693,
      "learning_rate": 0.00025042927861625044,
      "loss": 1.535,
      "step": 49850
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5139501690864563,
      "learning_rate": 0.0002504189702035897,
      "loss": 1.6294,
      "step": 49851
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5000147819519043,
      "learning_rate": 0.00025040866185111306,
      "loss": 1.5514,
      "step": 49852
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5039174556732178,
      "learning_rate": 0.00025039835355883296,
      "loss": 1.5976,
      "step": 49853
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5128768086433411,
      "learning_rate": 0.0002503880453267619,
      "loss": 1.6462,
      "step": 49854
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5151652693748474,
      "learning_rate": 0.00025037773715491245,
      "loss": 1.5456,
      "step": 49855
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5080193281173706,
      "learning_rate": 0.0002503674290432973,
      "loss": 1.6004,
      "step": 49856
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5097863674163818,
      "learning_rate": 0.0002503571209919286,
      "loss": 1.6037,
      "step": 49857
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5096766352653503,
      "learning_rate": 0.00025034681300081904,
      "loss": 1.6254,
      "step": 49858
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5082802772521973,
      "learning_rate": 0.0002503365050699812,
      "loss": 1.5963,
      "step": 49859
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5067411661148071,
      "learning_rate": 0.0002503261971994275,
      "loss": 1.5568,
      "step": 49860
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49894478917121887,
      "learning_rate": 0.00025031588938917047,
      "loss": 1.5553,
      "step": 49861
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5074566006660461,
      "learning_rate": 0.0002503055816392227,
      "loss": 1.5537,
      "step": 49862
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5042943954467773,
      "learning_rate": 0.00025029527394959656,
      "loss": 1.5989,
      "step": 49863
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5204228758811951,
      "learning_rate": 0.00025028496632030457,
      "loss": 1.5364,
      "step": 49864
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5306646823883057,
      "learning_rate": 0.0002502746587513594,
      "loss": 1.5781,
      "step": 49865
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5068725943565369,
      "learning_rate": 0.00025026435124277346,
      "loss": 1.5542,
      "step": 49866
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4994657337665558,
      "learning_rate": 0.0002502540437945593,
      "loss": 1.6166,
      "step": 49867
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5045726299285889,
      "learning_rate": 0.0002502437364067293,
      "loss": 1.6542,
      "step": 49868
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.51929771900177,
      "learning_rate": 0.00025023342907929617,
      "loss": 1.6098,
      "step": 49869
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5321571230888367,
      "learning_rate": 0.0002502231218122723,
      "loss": 1.5389,
      "step": 49870
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5040516257286072,
      "learning_rate": 0.0002502128146056701,
      "loss": 1.5241,
      "step": 49871
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5128433704376221,
      "learning_rate": 0.00025020250745950247,
      "loss": 1.5497,
      "step": 49872
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.6546207070350647,
      "learning_rate": 0.0002501922003737814,
      "loss": 1.6726,
      "step": 49873
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4884231984615326,
      "learning_rate": 0.00025018189334851976,
      "loss": 1.5512,
      "step": 49874
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5165718197822571,
      "learning_rate": 0.00025017158638372997,
      "loss": 1.5949,
      "step": 49875
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5074790716171265,
      "learning_rate": 0.00025016127947942457,
      "loss": 1.582,
      "step": 49876
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5014001131057739,
      "learning_rate": 0.00025015097263561596,
      "loss": 1.5842,
      "step": 49877
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.9100276827812195,
      "learning_rate": 0.00025014066585231674,
      "loss": 1.5742,
      "step": 49878
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5076634883880615,
      "learning_rate": 0.0002501303591295395,
      "loss": 1.5378,
      "step": 49879
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5046896934509277,
      "learning_rate": 0.0002501200524672965,
      "loss": 1.5264,
      "step": 49880
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5047671794891357,
      "learning_rate": 0.0002501097458656005,
      "loss": 1.5515,
      "step": 49881
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49648359417915344,
      "learning_rate": 0.0002500994393244639,
      "loss": 1.5796,
      "step": 49882
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5075947642326355,
      "learning_rate": 0.0002500891328438993,
      "loss": 1.6044,
      "step": 49883
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5258473753929138,
      "learning_rate": 0.00025007882642391903,
      "loss": 1.5686,
      "step": 49884
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.504948079586029,
      "learning_rate": 0.00025006852006453564,
      "loss": 1.5376,
      "step": 49885
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5079999566078186,
      "learning_rate": 0.000250058213765762,
      "loss": 1.5473,
      "step": 49886
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5054172873497009,
      "learning_rate": 0.00025004790752761007,
      "loss": 1.6024,
      "step": 49887
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.513365626335144,
      "learning_rate": 0.00025003760135009265,
      "loss": 1.5498,
      "step": 49888
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5156061053276062,
      "learning_rate": 0.00025002729523322236,
      "loss": 1.6124,
      "step": 49889
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5417224764823914,
      "learning_rate": 0.00025001698917701145,
      "loss": 1.6701,
      "step": 49890
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5259740948677063,
      "learning_rate": 0.0002500066831814726,
      "loss": 1.5619,
      "step": 49891
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5151671171188354,
      "learning_rate": 0.00024999637724661816,
      "loss": 1.6073,
      "step": 49892
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5053833723068237,
      "learning_rate": 0.00024998607137246095,
      "loss": 1.556,
      "step": 49893
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5042999386787415,
      "learning_rate": 0.0002499757655590131,
      "loss": 1.596,
      "step": 49894
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5055914521217346,
      "learning_rate": 0.0002499654598062874,
      "loss": 1.5994,
      "step": 49895
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4999145269393921,
      "learning_rate": 0.00024995515411429625,
      "loss": 1.5997,
      "step": 49896
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5045634508132935,
      "learning_rate": 0.00024994484848305215,
      "loss": 1.5476,
      "step": 49897
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5204101800918579,
      "learning_rate": 0.0002499345429125676,
      "loss": 1.644,
      "step": 49898
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49987560510635376,
      "learning_rate": 0.00024992423740285524,
      "loss": 1.5552,
      "step": 49899
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5062593221664429,
      "learning_rate": 0.0002499139319539273,
      "loss": 1.5597,
      "step": 49900
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48084867000579834,
      "learning_rate": 0.0002499036265657966,
      "loss": 1.5589,
      "step": 49901
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5054742097854614,
      "learning_rate": 0.00024989332123847544,
      "loss": 1.5374,
      "step": 49902
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5212547779083252,
      "learning_rate": 0.0002498830159719765,
      "loss": 1.6145,
      "step": 49903
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.523807168006897,
      "learning_rate": 0.0002498727107663121,
      "loss": 1.6446,
      "step": 49904
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5054618716239929,
      "learning_rate": 0.0002498624056214949,
      "loss": 1.5677,
      "step": 49905
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5064710378646851,
      "learning_rate": 0.0002498521005375374,
      "loss": 1.5885,
      "step": 49906
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5145726203918457,
      "learning_rate": 0.000249841795514452,
      "loss": 1.5253,
      "step": 49907
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5141941905021667,
      "learning_rate": 0.0002498314905522512,
      "loss": 1.5526,
      "step": 49908
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5173199772834778,
      "learning_rate": 0.00024982118565094775,
      "loss": 1.5581,
      "step": 49909
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5002112984657288,
      "learning_rate": 0.00024981088081055383,
      "loss": 1.55,
      "step": 49910
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5003433227539062,
      "learning_rate": 0.00024980057603108215,
      "loss": 1.5265,
      "step": 49911
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5016298294067383,
      "learning_rate": 0.0002497902713125452,
      "loss": 1.5534,
      "step": 49912
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5132020711898804,
      "learning_rate": 0.0002497799666549555,
      "loss": 1.591,
      "step": 49913
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5088462233543396,
      "learning_rate": 0.0002497696620583254,
      "loss": 1.5465,
      "step": 49914
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.51155686378479,
      "learning_rate": 0.00024975935752266756,
      "loss": 1.5618,
      "step": 49915
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5033767819404602,
      "learning_rate": 0.00024974905304799466,
      "loss": 1.598,
      "step": 49916
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5320624709129333,
      "learning_rate": 0.0002497387486343187,
      "loss": 1.5946,
      "step": 49917
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5080060958862305,
      "learning_rate": 0.00024972844428165265,
      "loss": 1.636,
      "step": 49918
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5318424105644226,
      "learning_rate": 0.0002497181399900089,
      "loss": 1.5837,
      "step": 49919
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5079283714294434,
      "learning_rate": 0.00024970783575939984,
      "loss": 1.5442,
      "step": 49920
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.506397008895874,
      "learning_rate": 0.00024969753158983807,
      "loss": 1.666,
      "step": 49921
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5160772800445557,
      "learning_rate": 0.000249687227481336,
      "loss": 1.6883,
      "step": 49922
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5535700917243958,
      "learning_rate": 0.0002496769234339065,
      "loss": 1.6188,
      "step": 49923
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.527222216129303,
      "learning_rate": 0.00024966661944756155,
      "loss": 1.6231,
      "step": 49924
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5148040056228638,
      "learning_rate": 0.00024965631552231396,
      "loss": 1.5868,
      "step": 49925
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5316067934036255,
      "learning_rate": 0.0002496460116581763,
      "loss": 1.6011,
      "step": 49926
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5180141925811768,
      "learning_rate": 0.00024963570785516083,
      "loss": 1.6134,
      "step": 49927
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5196026563644409,
      "learning_rate": 0.00024962540411328023,
      "loss": 1.5926,
      "step": 49928
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5164020657539368,
      "learning_rate": 0.00024961510043254695,
      "loss": 1.5502,
      "step": 49929
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5062232613563538,
      "learning_rate": 0.00024960479681297357,
      "loss": 1.5381,
      "step": 49930
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5164966583251953,
      "learning_rate": 0.0002495944932545724,
      "loss": 1.6347,
      "step": 49931
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5048271417617798,
      "learning_rate": 0.00024958418975735616,
      "loss": 1.6401,
      "step": 49932
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5107356309890747,
      "learning_rate": 0.0002495738863213374,
      "loss": 1.6247,
      "step": 49933
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4886972904205322,
      "learning_rate": 0.0002495635829465284,
      "loss": 1.5996,
      "step": 49934
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5399256348609924,
      "learning_rate": 0.0002495532796329418,
      "loss": 1.6135,
      "step": 49935
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4871533215045929,
      "learning_rate": 0.00024954297638059015,
      "loss": 1.5914,
      "step": 49936
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4961269199848175,
      "learning_rate": 0.00024953267318948583,
      "loss": 1.5246,
      "step": 49937
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5027510523796082,
      "learning_rate": 0.0002495223700596413,
      "loss": 1.5647,
      "step": 49938
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5019672513008118,
      "learning_rate": 0.0002495120669910694,
      "loss": 1.583,
      "step": 49939
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5401071310043335,
      "learning_rate": 0.0002495017639837823,
      "loss": 1.6064,
      "step": 49940
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5231945514678955,
      "learning_rate": 0.00024949146103779254,
      "loss": 1.7006,
      "step": 49941
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5082868933677673,
      "learning_rate": 0.0002494811581531128,
      "loss": 1.5803,
      "step": 49942
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5039222240447998,
      "learning_rate": 0.0002494708553297555,
      "loss": 1.5341,
      "step": 49943
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49075448513031006,
      "learning_rate": 0.0002494605525677331,
      "loss": 1.576,
      "step": 49944
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5148048400878906,
      "learning_rate": 0.00024945024986705805,
      "loss": 1.5957,
      "step": 49945
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49396371841430664,
      "learning_rate": 0.00024943994722774314,
      "loss": 1.6204,
      "step": 49946
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49883314967155457,
      "learning_rate": 0.00024942964464980057,
      "loss": 1.5713,
      "step": 49947
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49395260214805603,
      "learning_rate": 0.000249419342133243,
      "loss": 1.5217,
      "step": 49948
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49780285358428955,
      "learning_rate": 0.0002494090396780829,
      "loss": 1.5724,
      "step": 49949
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5208697319030762,
      "learning_rate": 0.0002493987372843327,
      "loss": 1.5667,
      "step": 49950
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.7401338815689087,
      "learning_rate": 0.00024938843495200504,
      "loss": 1.6521,
      "step": 49951
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49465447664260864,
      "learning_rate": 0.0002493781326811123,
      "loss": 1.6427,
      "step": 49952
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49502018094062805,
      "learning_rate": 0.00024936783047166714,
      "loss": 1.6507,
      "step": 49953
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5289665460586548,
      "learning_rate": 0.00024935752832368197,
      "loss": 1.5879,
      "step": 49954
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.514278769493103,
      "learning_rate": 0.0002493472262371692,
      "loss": 1.6286,
      "step": 49955
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5038595795631409,
      "learning_rate": 0.00024933692421214156,
      "loss": 1.6446,
      "step": 49956
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5055415630340576,
      "learning_rate": 0.0002493266222486113,
      "loss": 1.4951,
      "step": 49957
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5159491896629333,
      "learning_rate": 0.0002493163203465911,
      "loss": 1.5993,
      "step": 49958
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4877608120441437,
      "learning_rate": 0.00024930601850609355,
      "loss": 1.5973,
      "step": 49959
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.503258228302002,
      "learning_rate": 0.00024929571672713084,
      "loss": 1.5799,
      "step": 49960
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5332998633384705,
      "learning_rate": 0.00024928541500971574,
      "loss": 1.5749,
      "step": 49961
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49847322702407837,
      "learning_rate": 0.0002492751133538606,
      "loss": 1.5824,
      "step": 49962
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48723408579826355,
      "learning_rate": 0.00024926481175957814,
      "loss": 1.5279,
      "step": 49963
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.52144855260849,
      "learning_rate": 0.0002492545102268806,
      "loss": 1.642,
      "step": 49964
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5149468183517456,
      "learning_rate": 0.0002492442087557806,
      "loss": 1.5835,
      "step": 49965
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5183615684509277,
      "learning_rate": 0.00024923390734629084,
      "loss": 1.5841,
      "step": 49966
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49210432171821594,
      "learning_rate": 0.00024922360599842345,
      "loss": 1.5302,
      "step": 49967
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5002777576446533,
      "learning_rate": 0.00024921330471219116,
      "loss": 1.5878,
      "step": 49968
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49776366353034973,
      "learning_rate": 0.00024920300348760645,
      "loss": 1.6099,
      "step": 49969
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.514750599861145,
      "learning_rate": 0.0002491927023246818,
      "loss": 1.6396,
      "step": 49970
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5212969779968262,
      "learning_rate": 0.0002491824012234297,
      "loss": 1.5731,
      "step": 49971
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5151679515838623,
      "learning_rate": 0.00024917210018386265,
      "loss": 1.6114,
      "step": 49972
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4976847469806671,
      "learning_rate": 0.0002491617992059934,
      "loss": 1.5353,
      "step": 49973
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4933481514453888,
      "learning_rate": 0.000249151498289834,
      "loss": 1.5476,
      "step": 49974
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4957475960254669,
      "learning_rate": 0.0002491411974353972,
      "loss": 1.6893,
      "step": 49975
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5108431577682495,
      "learning_rate": 0.0002491308966426956,
      "loss": 1.6029,
      "step": 49976
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5193222165107727,
      "learning_rate": 0.0002491205959117416,
      "loss": 1.573,
      "step": 49977
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.512033224105835,
      "learning_rate": 0.0002491102952425476,
      "loss": 1.5748,
      "step": 49978
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4953998625278473,
      "learning_rate": 0.0002490999946351263,
      "loss": 1.571,
      "step": 49979
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4896893799304962,
      "learning_rate": 0.00024908969408949007,
      "loss": 1.5875,
      "step": 49980
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4979771077632904,
      "learning_rate": 0.00024907939360565136,
      "loss": 1.4853,
      "step": 49981
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5193021893501282,
      "learning_rate": 0.00024906909318362286,
      "loss": 1.4992,
      "step": 49982
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5253418684005737,
      "learning_rate": 0.00024905879282341697,
      "loss": 1.6656,
      "step": 49983
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4975906014442444,
      "learning_rate": 0.00024904849252504617,
      "loss": 1.5315,
      "step": 49984
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4973103702068329,
      "learning_rate": 0.00024903819228852303,
      "loss": 1.6548,
      "step": 49985
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4952780306339264,
      "learning_rate": 0.0002490278921138601,
      "loss": 1.5694,
      "step": 49986
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5160590410232544,
      "learning_rate": 0.0002490175920010696,
      "loss": 1.5399,
      "step": 49987
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49451568722724915,
      "learning_rate": 0.0002490072919501643,
      "loss": 1.5185,
      "step": 49988
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48361238837242126,
      "learning_rate": 0.0002489969919611568,
      "loss": 1.605,
      "step": 49989
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4818856418132782,
      "learning_rate": 0.0002489866920340592,
      "loss": 1.5809,
      "step": 49990
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5297560691833496,
      "learning_rate": 0.0002489763921688843,
      "loss": 1.6138,
      "step": 49991
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5106949210166931,
      "learning_rate": 0.00024896609236564463,
      "loss": 1.5985,
      "step": 49992
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4992612302303314,
      "learning_rate": 0.0002489557926243526,
      "loss": 1.5272,
      "step": 49993
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48542487621307373,
      "learning_rate": 0.00024894549294502067,
      "loss": 1.5883,
      "step": 49994
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49764284491539,
      "learning_rate": 0.00024893519332766127,
      "loss": 1.5893,
      "step": 49995
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5167508721351624,
      "learning_rate": 0.0002489248937722873,
      "loss": 1.6539,
      "step": 49996
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.6124104857444763,
      "learning_rate": 0.00024891459427891073,
      "loss": 1.5946,
      "step": 49997
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5144209861755371,
      "learning_rate": 0.0002489042948475444,
      "loss": 1.5865,
      "step": 49998
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49945124983787537,
      "learning_rate": 0.0002488939954782008,
      "loss": 1.6378,
      "step": 49999
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5083903074264526,
      "learning_rate": 0.0002488836961708923,
      "loss": 1.624,
      "step": 50000
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5225176215171814,
      "learning_rate": 0.00024887339692563146,
      "loss": 1.5753,
      "step": 50001
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5194723010063171,
      "learning_rate": 0.0002488630977424307,
      "loss": 1.6521,
      "step": 50002
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5168884992599487,
      "learning_rate": 0.0002488527986213028,
      "loss": 1.66,
      "step": 50003
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5193284153938293,
      "learning_rate": 0.00024884249956225987,
      "loss": 1.5693,
      "step": 50004
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.509570837020874,
      "learning_rate": 0.0002488322005653147,
      "loss": 1.5485,
      "step": 50005
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5059599876403809,
      "learning_rate": 0.0002488219016304797,
      "loss": 1.6127,
      "step": 50006
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4930950701236725,
      "learning_rate": 0.00024881160275776735,
      "loss": 1.534,
      "step": 50007
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5150805115699768,
      "learning_rate": 0.00024880130394719016,
      "loss": 1.6175,
      "step": 50008
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5232342481613159,
      "learning_rate": 0.00024879100519876064,
      "loss": 1.6753,
      "step": 50009
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5139948725700378,
      "learning_rate": 0.0002487807065124914,
      "loss": 1.5868,
      "step": 50010
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5261098146438599,
      "learning_rate": 0.0002487704078883947,
      "loss": 1.5973,
      "step": 50011
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.506653368473053,
      "learning_rate": 0.00024876010932648325,
      "loss": 1.6285,
      "step": 50012
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5126814842224121,
      "learning_rate": 0.0002487498108267695,
      "loss": 1.5434,
      "step": 50013
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5015202164649963,
      "learning_rate": 0.0002487395123892659,
      "loss": 1.5213,
      "step": 50014
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5212767124176025,
      "learning_rate": 0.0002487292140139849,
      "loss": 1.6133,
      "step": 50015
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4977431297302246,
      "learning_rate": 0.0002487189157009392,
      "loss": 1.4913,
      "step": 50016
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5078624486923218,
      "learning_rate": 0.00024870861745014114,
      "loss": 1.576,
      "step": 50017
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5409751534461975,
      "learning_rate": 0.00024869831926160315,
      "loss": 1.5536,
      "step": 50018
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5343805551528931,
      "learning_rate": 0.00024868802113533795,
      "loss": 1.649,
      "step": 50019
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5108208656311035,
      "learning_rate": 0.000248677723071358,
      "loss": 1.6253,
      "step": 50020
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4972899556159973,
      "learning_rate": 0.00024866742506967563,
      "loss": 1.5661,
      "step": 50021
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49283891916275024,
      "learning_rate": 0.0002486571271303034,
      "loss": 1.6213,
      "step": 50022
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5031844973564148,
      "learning_rate": 0.000248646829253254,
      "loss": 1.571,
      "step": 50023
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5081238150596619,
      "learning_rate": 0.0002486365314385397,
      "loss": 1.6173,
      "step": 50024
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5104219317436218,
      "learning_rate": 0.000248626233686173,
      "loss": 1.6275,
      "step": 50025
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5030072331428528,
      "learning_rate": 0.00024861593599616674,
      "loss": 1.5792,
      "step": 50026
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5224459171295166,
      "learning_rate": 0.0002486056383685329,
      "loss": 1.5147,
      "step": 50027
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5017716288566589,
      "learning_rate": 0.0002485953408032843,
      "loss": 1.583,
      "step": 50028
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5047754049301147,
      "learning_rate": 0.0002485850433004334,
      "loss": 1.6637,
      "step": 50029
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5051871538162231,
      "learning_rate": 0.0002485747458599928,
      "loss": 1.5587,
      "step": 50030
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5067564249038696,
      "learning_rate": 0.00024856444848197476,
      "loss": 1.5675,
      "step": 50031
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5001814365386963,
      "learning_rate": 0.0002485541511663918,
      "loss": 1.5626,
      "step": 50032
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5006729960441589,
      "learning_rate": 0.0002485438539132568,
      "loss": 1.6107,
      "step": 50033
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5009137988090515,
      "learning_rate": 0.0002485335567225817,
      "loss": 1.6613,
      "step": 50034
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.518069863319397,
      "learning_rate": 0.0002485232595943794,
      "loss": 1.5899,
      "step": 50035
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5273547172546387,
      "learning_rate": 0.00024851296252866235,
      "loss": 1.5229,
      "step": 50036
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.516086220741272,
      "learning_rate": 0.0002485026655254429,
      "loss": 1.5667,
      "step": 50037
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5117208957672119,
      "learning_rate": 0.0002484923685847336,
      "loss": 1.5807,
      "step": 50038
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5071306824684143,
      "learning_rate": 0.0002484820717065469,
      "loss": 1.6006,
      "step": 50039
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5231273770332336,
      "learning_rate": 0.0002484717748908956,
      "loss": 1.5693,
      "step": 50040
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5277052521705627,
      "learning_rate": 0.0002484614781377918,
      "loss": 1.6042,
      "step": 50041
    },
    {
      "epoch": 1.66,
      "grad_norm": 1.5671881437301636,
      "learning_rate": 0.00024845118144724824,
      "loss": 1.7003,
      "step": 50042
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.49299004673957825,
      "learning_rate": 0.00024844088481927736,
      "loss": 1.5725,
      "step": 50043
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5054436326026917,
      "learning_rate": 0.0002484305882538916,
      "loss": 1.6129,
      "step": 50044
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4948183596134186,
      "learning_rate": 0.00024842029175110354,
      "loss": 1.5587,
      "step": 50045
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5087198615074158,
      "learning_rate": 0.0002484099953109257,
      "loss": 1.5598,
      "step": 50046
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4955598711967468,
      "learning_rate": 0.00024839969893337044,
      "loss": 1.6332,
      "step": 50047
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5119432210922241,
      "learning_rate": 0.00024838940261845025,
      "loss": 1.6224,
      "step": 50048
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5110322833061218,
      "learning_rate": 0.00024837910636617787,
      "loss": 1.6189,
      "step": 50049
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.502647340297699,
      "learning_rate": 0.00024836881017656565,
      "loss": 1.6627,
      "step": 50050
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5009718537330627,
      "learning_rate": 0.000248358514049626,
      "loss": 1.5395,
      "step": 50051
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49711036682128906,
      "learning_rate": 0.0002483482179853716,
      "loss": 1.5524,
      "step": 50052
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4999694526195526,
      "learning_rate": 0.0002483379219838149,
      "loss": 1.5648,
      "step": 50053
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5086358785629272,
      "learning_rate": 0.0002483276260449682,
      "loss": 1.5449,
      "step": 50054
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.508093535900116,
      "learning_rate": 0.0002483173301688441,
      "loss": 1.5873,
      "step": 50055
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5160309672355652,
      "learning_rate": 0.00024830703435545535,
      "loss": 1.6213,
      "step": 50056
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.48765701055526733,
      "learning_rate": 0.0002482967386048141,
      "loss": 1.5454,
      "step": 50057
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5208927989006042,
      "learning_rate": 0.00024828644291693307,
      "loss": 1.579,
      "step": 50058
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5007476210594177,
      "learning_rate": 0.0002482761472918246,
      "loss": 1.601,
      "step": 50059
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5140928030014038,
      "learning_rate": 0.0002482658517295014,
      "loss": 1.6025,
      "step": 50060
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5093933939933777,
      "learning_rate": 0.00024825555622997567,
      "loss": 1.6314,
      "step": 50061
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5073122382164001,
      "learning_rate": 0.0002482452607932601,
      "loss": 1.5909,
      "step": 50062
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5368800759315491,
      "learning_rate": 0.00024823496541936723,
      "loss": 1.5148,
      "step": 50063
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5248467326164246,
      "learning_rate": 0.0002482246701083095,
      "loss": 1.6124,
      "step": 50064
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5249853730201721,
      "learning_rate": 0.0002482143748600993,
      "loss": 1.5797,
      "step": 50065
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5129462480545044,
      "learning_rate": 0.00024820407967474935,
      "loss": 1.6112,
      "step": 50066
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5106596350669861,
      "learning_rate": 0.0002481937845522719,
      "loss": 1.6328,
      "step": 50067
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.504261314868927,
      "learning_rate": 0.00024818348949267954,
      "loss": 1.5941,
      "step": 50068
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5060256123542786,
      "learning_rate": 0.0002481731944959848,
      "loss": 1.5574,
      "step": 50069
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5045841336250305,
      "learning_rate": 0.0002481628995622003,
      "loss": 1.5239,
      "step": 50070
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5231273174285889,
      "learning_rate": 0.0002481526046913383,
      "loss": 1.5808,
      "step": 50071
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4949479103088379,
      "learning_rate": 0.0002481423098834114,
      "loss": 1.6342,
      "step": 50072
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5251721739768982,
      "learning_rate": 0.00024813201513843215,
      "loss": 1.5348,
      "step": 50073
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5174693465232849,
      "learning_rate": 0.00024812172045641297,
      "loss": 1.6831,
      "step": 50074
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5009901523590088,
      "learning_rate": 0.00024811142583736626,
      "loss": 1.5412,
      "step": 50075
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5068464279174805,
      "learning_rate": 0.0002481011312813048,
      "loss": 1.6156,
      "step": 50076
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5035302639007568,
      "learning_rate": 0.0002480908367882408,
      "loss": 1.5679,
      "step": 50077
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5291487574577332,
      "learning_rate": 0.0002480805423581869,
      "loss": 1.6194,
      "step": 50078
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5230512619018555,
      "learning_rate": 0.00024807024799115563,
      "loss": 1.5908,
      "step": 50079
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5294443368911743,
      "learning_rate": 0.00024805995368715943,
      "loss": 1.609,
      "step": 50080
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5177733898162842,
      "learning_rate": 0.0002480496594462107,
      "loss": 1.6511,
      "step": 50081
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.518622100353241,
      "learning_rate": 0.0002480393652683221,
      "loss": 1.6284,
      "step": 50082
    },
    {
      "epoch": 1.67,
      "grad_norm": 1.094805359840393,
      "learning_rate": 0.00024802907115350614,
      "loss": 1.6784,
      "step": 50083
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5045188069343567,
      "learning_rate": 0.00024801877710177504,
      "loss": 1.5114,
      "step": 50084
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5192998051643372,
      "learning_rate": 0.00024800848311314153,
      "loss": 1.5887,
      "step": 50085
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5300172567367554,
      "learning_rate": 0.0002479981891876182,
      "loss": 1.4931,
      "step": 50086
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5147859454154968,
      "learning_rate": 0.0002479878953252173,
      "loss": 1.6034,
      "step": 50087
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5225335955619812,
      "learning_rate": 0.0002479776015259514,
      "loss": 1.587,
      "step": 50088
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.519616425037384,
      "learning_rate": 0.000247967307789833,
      "loss": 1.559,
      "step": 50089
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5159651637077332,
      "learning_rate": 0.0002479570141168748,
      "loss": 1.6048,
      "step": 50090
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5318353772163391,
      "learning_rate": 0.00024794672050708897,
      "loss": 1.5933,
      "step": 50091
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5055474638938904,
      "learning_rate": 0.0002479364269604882,
      "loss": 1.6114,
      "step": 50092
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4980436861515045,
      "learning_rate": 0.00024792613347708495,
      "loss": 1.6206,
      "step": 50093
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5152078866958618,
      "learning_rate": 0.00024791584005689164,
      "loss": 1.6246,
      "step": 50094
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5077754259109497,
      "learning_rate": 0.0002479055466999209,
      "loss": 1.6783,
      "step": 50095
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5067023634910583,
      "learning_rate": 0.0002478952534061852,
      "loss": 1.5305,
      "step": 50096
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5051754713058472,
      "learning_rate": 0.00024788496017569685,
      "loss": 1.5235,
      "step": 50097
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.513816773891449,
      "learning_rate": 0.00024787466700846846,
      "loss": 1.5843,
      "step": 50098
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5039365887641907,
      "learning_rate": 0.0002478643739045126,
      "loss": 1.6058,
      "step": 50099
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5088822245597839,
      "learning_rate": 0.00024785408086384176,
      "loss": 1.5894,
      "step": 50100
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.50160151720047,
      "learning_rate": 0.00024784378788646834,
      "loss": 1.524,
      "step": 50101
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5057902336120605,
      "learning_rate": 0.0002478334949724049,
      "loss": 1.598,
      "step": 50102
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5214259028434753,
      "learning_rate": 0.0002478232021216639,
      "loss": 1.662,
      "step": 50103
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.556854784488678,
      "learning_rate": 0.00024781290933425783,
      "loss": 1.6251,
      "step": 50104
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5204869508743286,
      "learning_rate": 0.00024780261661019914,
      "loss": 1.5478,
      "step": 50105
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5374503135681152,
      "learning_rate": 0.00024779232394950057,
      "loss": 1.6495,
      "step": 50106
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5102676749229431,
      "learning_rate": 0.0002477820313521742,
      "loss": 1.6273,
      "step": 50107
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5294398665428162,
      "learning_rate": 0.00024777173881823287,
      "loss": 1.6122,
      "step": 50108
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5250455141067505,
      "learning_rate": 0.00024776144634768894,
      "loss": 1.6076,
      "step": 50109
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5030530691146851,
      "learning_rate": 0.00024775115394055496,
      "loss": 1.5974,
      "step": 50110
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5321742296218872,
      "learning_rate": 0.00024774086159684333,
      "loss": 1.6344,
      "step": 50111
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5298258662223816,
      "learning_rate": 0.0002477305693165665,
      "loss": 1.5377,
      "step": 50112
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5382542610168457,
      "learning_rate": 0.0002477202770997373,
      "loss": 1.6236,
      "step": 50113
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5297401547431946,
      "learning_rate": 0.0002477099849463677,
      "loss": 1.5219,
      "step": 50114
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5133384466171265,
      "learning_rate": 0.00024769969285647064,
      "loss": 1.5881,
      "step": 50115
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5169877409934998,
      "learning_rate": 0.0002476894008300585,
      "loss": 1.5352,
      "step": 50116
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.521536648273468,
      "learning_rate": 0.0002476791088671436,
      "loss": 1.6483,
      "step": 50117
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5222880840301514,
      "learning_rate": 0.0002476688169677386,
      "loss": 1.6004,
      "step": 50118
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5080100893974304,
      "learning_rate": 0.00024765852513185585,
      "loss": 1.551,
      "step": 50119
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5118216872215271,
      "learning_rate": 0.00024764823335950815,
      "loss": 1.5963,
      "step": 50120
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5183860063552856,
      "learning_rate": 0.0002476379416507076,
      "loss": 1.5953,
      "step": 50121
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5167451500892639,
      "learning_rate": 0.00024762765000546687,
      "loss": 1.6441,
      "step": 50122
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5046292543411255,
      "learning_rate": 0.00024761735842379856,
      "loss": 1.5044,
      "step": 50123
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5196458101272583,
      "learning_rate": 0.000247607066905715,
      "loss": 1.5468,
      "step": 50124
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5068524479866028,
      "learning_rate": 0.0002475967754512288,
      "loss": 1.5699,
      "step": 50125
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4979797899723053,
      "learning_rate": 0.00024758648406035224,
      "loss": 1.6155,
      "step": 50126
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4971686601638794,
      "learning_rate": 0.0002475761927330982,
      "loss": 1.6667,
      "step": 50127
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5011589527130127,
      "learning_rate": 0.0002475659014694787,
      "loss": 1.5751,
      "step": 50128
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.530476450920105,
      "learning_rate": 0.0002475556102695066,
      "loss": 1.5844,
      "step": 50129
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5270980596542358,
      "learning_rate": 0.0002475453191331943,
      "loss": 1.6444,
      "step": 50130
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5066120028495789,
      "learning_rate": 0.0002475350280605542,
      "loss": 1.5959,
      "step": 50131
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5148001909255981,
      "learning_rate": 0.0002475247370515988,
      "loss": 1.6697,
      "step": 50132
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5257434248924255,
      "learning_rate": 0.0002475144461063408,
      "loss": 1.6106,
      "step": 50133
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5081973075866699,
      "learning_rate": 0.00024750415522479234,
      "loss": 1.5287,
      "step": 50134
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5140050649642944,
      "learning_rate": 0.00024749386440696614,
      "loss": 1.6525,
      "step": 50135
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5201646685600281,
      "learning_rate": 0.00024748357365287466,
      "loss": 1.6213,
      "step": 50136
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5030778646469116,
      "learning_rate": 0.0002474732829625304,
      "loss": 1.5607,
      "step": 50137
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5079687833786011,
      "learning_rate": 0.0002474629923359459,
      "loss": 1.5506,
      "step": 50138
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5100913047790527,
      "learning_rate": 0.0002474527017731335,
      "loss": 1.5735,
      "step": 50139
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5041502118110657,
      "learning_rate": 0.0002474424112741058,
      "loss": 1.5905,
      "step": 50140
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49939897656440735,
      "learning_rate": 0.00024743212083887527,
      "loss": 1.5183,
      "step": 50141
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5018808245658875,
      "learning_rate": 0.00024742183046745435,
      "loss": 1.6019,
      "step": 50142
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5258461236953735,
      "learning_rate": 0.00024741154015985576,
      "loss": 1.5548,
      "step": 50143
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.500596821308136,
      "learning_rate": 0.0002474012499160916,
      "loss": 1.5933,
      "step": 50144
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5087968111038208,
      "learning_rate": 0.00024739095973617465,
      "loss": 1.5914,
      "step": 50145
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5271896719932556,
      "learning_rate": 0.00024738066962011734,
      "loss": 1.6151,
      "step": 50146
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5230671167373657,
      "learning_rate": 0.00024737037956793216,
      "loss": 1.5371,
      "step": 50147
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5082953572273254,
      "learning_rate": 0.00024736008957963154,
      "loss": 1.5468,
      "step": 50148
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.514758825302124,
      "learning_rate": 0.000247349799655228,
      "loss": 1.5902,
      "step": 50149
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5045114755630493,
      "learning_rate": 0.0002473395097947342,
      "loss": 1.6027,
      "step": 50150
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5059961676597595,
      "learning_rate": 0.0002473292199981623,
      "loss": 1.5107,
      "step": 50151
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4969940483570099,
      "learning_rate": 0.000247318930265525,
      "loss": 1.5664,
      "step": 50152
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5151309967041016,
      "learning_rate": 0.0002473086405968348,
      "loss": 1.5336,
      "step": 50153
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4910065233707428,
      "learning_rate": 0.0002472983509921041,
      "loss": 1.4893,
      "step": 50154
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5107247829437256,
      "learning_rate": 0.00024728806145134544,
      "loss": 1.537,
      "step": 50155
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5209326148033142,
      "learning_rate": 0.0002472777719745713,
      "loss": 1.6128,
      "step": 50156
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5127084255218506,
      "learning_rate": 0.0002472674825617943,
      "loss": 1.5008,
      "step": 50157
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5205436944961548,
      "learning_rate": 0.00024725719321302665,
      "loss": 1.6014,
      "step": 50158
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5398969650268555,
      "learning_rate": 0.00024724690392828103,
      "loss": 1.5718,
      "step": 50159
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5430736541748047,
      "learning_rate": 0.00024723661470757,
      "loss": 1.5841,
      "step": 50160
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5161229372024536,
      "learning_rate": 0.00024722632555090586,
      "loss": 1.6246,
      "step": 50161
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5027680397033691,
      "learning_rate": 0.0002472160364583012,
      "loss": 1.598,
      "step": 50162
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5128263235092163,
      "learning_rate": 0.0002472057474297685,
      "loss": 1.6152,
      "step": 50163
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5132251977920532,
      "learning_rate": 0.00024719545846532025,
      "loss": 1.5582,
      "step": 50164
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.508061945438385,
      "learning_rate": 0.0002471851695649688,
      "loss": 1.5581,
      "step": 50165
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5147850513458252,
      "learning_rate": 0.0002471748807287269,
      "loss": 1.6846,
      "step": 50166
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.515878438949585,
      "learning_rate": 0.00024716459195660696,
      "loss": 1.5678,
      "step": 50167
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5260645747184753,
      "learning_rate": 0.00024715430324862134,
      "loss": 1.5811,
      "step": 50168
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5174171924591064,
      "learning_rate": 0.00024714401460478264,
      "loss": 1.6373,
      "step": 50169
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5102840662002563,
      "learning_rate": 0.00024713372602510334,
      "loss": 1.6773,
      "step": 50170
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5301708579063416,
      "learning_rate": 0.00024712343750959585,
      "loss": 1.5786,
      "step": 50171
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5218595266342163,
      "learning_rate": 0.0002471131490582727,
      "loss": 1.6295,
      "step": 50172
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5017650723457336,
      "learning_rate": 0.00024710286067114646,
      "loss": 1.6022,
      "step": 50173
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4913756251335144,
      "learning_rate": 0.00024709257234822955,
      "loss": 1.6237,
      "step": 50174
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5030723810195923,
      "learning_rate": 0.00024708228408953437,
      "loss": 1.5419,
      "step": 50175
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5020276308059692,
      "learning_rate": 0.00024707199589507357,
      "loss": 1.6196,
      "step": 50176
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.550964891910553,
      "learning_rate": 0.00024706170776485966,
      "loss": 1.6309,
      "step": 50177
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5207616686820984,
      "learning_rate": 0.0002470514196989049,
      "loss": 1.5773,
      "step": 50178
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5103040933609009,
      "learning_rate": 0.0002470411316972219,
      "loss": 1.5995,
      "step": 50179
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5236797332763672,
      "learning_rate": 0.0002470308437598233,
      "loss": 1.6295,
      "step": 50180
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49507850408554077,
      "learning_rate": 0.00024702055588672134,
      "loss": 1.6417,
      "step": 50181
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5187094211578369,
      "learning_rate": 0.00024701026807792865,
      "loss": 1.6259,
      "step": 50182
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5113047957420349,
      "learning_rate": 0.0002469999803334578,
      "loss": 1.6218,
      "step": 50183
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5103046298027039,
      "learning_rate": 0.00024698969265332096,
      "loss": 1.6651,
      "step": 50184
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4993581771850586,
      "learning_rate": 0.00024697940503753084,
      "loss": 1.6257,
      "step": 50185
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.502303421497345,
      "learning_rate": 0.0002469691174861,
      "loss": 1.5865,
      "step": 50186
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.512465238571167,
      "learning_rate": 0.0002469588299990409,
      "loss": 1.5943,
      "step": 50187
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5308071970939636,
      "learning_rate": 0.00024694854257636587,
      "loss": 1.563,
      "step": 50188
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49154728651046753,
      "learning_rate": 0.0002469382552180875,
      "loss": 1.6199,
      "step": 50189
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4825044274330139,
      "learning_rate": 0.0002469279679242183,
      "loss": 1.5839,
      "step": 50190
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5156404972076416,
      "learning_rate": 0.0002469176806947707,
      "loss": 1.5709,
      "step": 50191
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5095407366752625,
      "learning_rate": 0.00024690739352975716,
      "loss": 1.6644,
      "step": 50192
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5039556622505188,
      "learning_rate": 0.00024689710642919043,
      "loss": 1.5264,
      "step": 50193
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5214856863021851,
      "learning_rate": 0.00024688681939308255,
      "loss": 1.5709,
      "step": 50194
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5259171724319458,
      "learning_rate": 0.0002468765324214463,
      "loss": 1.5572,
      "step": 50195
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5035344362258911,
      "learning_rate": 0.00024686624551429416,
      "loss": 1.5732,
      "step": 50196
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5073984861373901,
      "learning_rate": 0.00024685595867163864,
      "loss": 1.5786,
      "step": 50197
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.53824782371521,
      "learning_rate": 0.00024684567189349206,
      "loss": 1.586,
      "step": 50198
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5112055540084839,
      "learning_rate": 0.00024683538517986694,
      "loss": 1.6076,
      "step": 50199
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.50872802734375,
      "learning_rate": 0.00024682509853077604,
      "loss": 1.6026,
      "step": 50200
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5479174256324768,
      "learning_rate": 0.00024681481194623137,
      "loss": 1.5853,
      "step": 50201
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5067206025123596,
      "learning_rate": 0.00024680452542624585,
      "loss": 1.5462,
      "step": 50202
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.535090982913971,
      "learning_rate": 0.0002467942389708318,
      "loss": 1.6208,
      "step": 50203
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5070232152938843,
      "learning_rate": 0.0002467839525800016,
      "loss": 1.5945,
      "step": 50204
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5234075784683228,
      "learning_rate": 0.00024677366625376797,
      "loss": 1.578,
      "step": 50205
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5657034516334534,
      "learning_rate": 0.0002467633799921431,
      "loss": 1.6989,
      "step": 50206
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5188441276550293,
      "learning_rate": 0.00024675309379513984,
      "loss": 1.5659,
      "step": 50207
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5320133566856384,
      "learning_rate": 0.0002467428076627703,
      "loss": 1.5926,
      "step": 50208
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5237960815429688,
      "learning_rate": 0.00024673252159504726,
      "loss": 1.6238,
      "step": 50209
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5186948180198669,
      "learning_rate": 0.0002467222355919831,
      "loss": 1.5692,
      "step": 50210
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49068060517311096,
      "learning_rate": 0.00024671194965359024,
      "loss": 1.5441,
      "step": 50211
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4961499869823456,
      "learning_rate": 0.00024670166377988126,
      "loss": 1.5756,
      "step": 50212
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5064647793769836,
      "learning_rate": 0.00024669137797086863,
      "loss": 1.6345,
      "step": 50213
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5210988521575928,
      "learning_rate": 0.00024668109222656477,
      "loss": 1.5123,
      "step": 50214
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5122771859169006,
      "learning_rate": 0.00024667080654698214,
      "loss": 1.576,
      "step": 50215
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5179678797721863,
      "learning_rate": 0.0002466605209321333,
      "loss": 1.6121,
      "step": 50216
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5276572108268738,
      "learning_rate": 0.0002466502353820309,
      "loss": 1.5744,
      "step": 50217
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5176145434379578,
      "learning_rate": 0.0002466399498966871,
      "loss": 1.5415,
      "step": 50218
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.501398503780365,
      "learning_rate": 0.00024662966447611454,
      "loss": 1.6046,
      "step": 50219
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5773380994796753,
      "learning_rate": 0.0002466193791203258,
      "loss": 1.6473,
      "step": 50220
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5076532363891602,
      "learning_rate": 0.0002466090938293332,
      "loss": 1.6506,
      "step": 50221
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5143560767173767,
      "learning_rate": 0.00024659880860314923,
      "loss": 1.561,
      "step": 50222
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5295882821083069,
      "learning_rate": 0.0002465885234417866,
      "loss": 1.649,
      "step": 50223
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49811357259750366,
      "learning_rate": 0.0002465782383452575,
      "loss": 1.5689,
      "step": 50224
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5157721638679504,
      "learning_rate": 0.0002465679533135746,
      "loss": 1.609,
      "step": 50225
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5015843510627747,
      "learning_rate": 0.0002465576683467503,
      "loss": 1.6452,
      "step": 50226
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5326054692268372,
      "learning_rate": 0.0002465473834447972,
      "loss": 1.5335,
      "step": 50227
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5105020403862,
      "learning_rate": 0.00024653709860772763,
      "loss": 1.5892,
      "step": 50228
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5097430348396301,
      "learning_rate": 0.0002465268138355541,
      "loss": 1.6189,
      "step": 50229
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.500845193862915,
      "learning_rate": 0.0002465165291282893,
      "loss": 1.5778,
      "step": 50230
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5158493518829346,
      "learning_rate": 0.00024650624448594534,
      "loss": 1.5774,
      "step": 50231
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.514454185962677,
      "learning_rate": 0.00024649595990853504,
      "loss": 1.6099,
      "step": 50232
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5116718411445618,
      "learning_rate": 0.0002464856753960708,
      "loss": 1.5663,
      "step": 50233
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5128074288368225,
      "learning_rate": 0.000246475390948565,
      "loss": 1.5758,
      "step": 50234
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5143740773200989,
      "learning_rate": 0.00024646510656603016,
      "loss": 1.5353,
      "step": 50235
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.510185182094574,
      "learning_rate": 0.0002464548222484788,
      "loss": 1.5813,
      "step": 50236
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5148395895957947,
      "learning_rate": 0.00024644453799592354,
      "loss": 1.6078,
      "step": 50237
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5101413726806641,
      "learning_rate": 0.0002464342538083765,
      "loss": 1.5489,
      "step": 50238
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5059599876403809,
      "learning_rate": 0.0002464239696858505,
      "loss": 1.5964,
      "step": 50239
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5089083909988403,
      "learning_rate": 0.000246413685628358,
      "loss": 1.5711,
      "step": 50240
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5045415759086609,
      "learning_rate": 0.00024640340163591123,
      "loss": 1.6281,
      "step": 50241
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5061066746711731,
      "learning_rate": 0.00024639311770852286,
      "loss": 1.6417,
      "step": 50242
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5020120739936829,
      "learning_rate": 0.0002463828338462055,
      "loss": 1.6252,
      "step": 50243
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.488721638917923,
      "learning_rate": 0.0002463725500489713,
      "loss": 1.4805,
      "step": 50244
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5095735788345337,
      "learning_rate": 0.00024636226631683287,
      "loss": 1.5726,
      "step": 50245
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.513518750667572,
      "learning_rate": 0.0002463519826498029,
      "loss": 1.6487,
      "step": 50246
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5330405235290527,
      "learning_rate": 0.0002463416990478937,
      "loss": 1.5454,
      "step": 50247
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5115594863891602,
      "learning_rate": 0.0002463314155111177,
      "loss": 1.602,
      "step": 50248
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5001872777938843,
      "learning_rate": 0.00024632113203948755,
      "loss": 1.6418,
      "step": 50249
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.509739875793457,
      "learning_rate": 0.0002463108486330156,
      "loss": 1.568,
      "step": 50250
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5295485258102417,
      "learning_rate": 0.0002463005652917144,
      "loss": 1.6116,
      "step": 50251
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5359702706336975,
      "learning_rate": 0.00024629028201559623,
      "loss": 1.5861,
      "step": 50252
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5223087668418884,
      "learning_rate": 0.00024627999880467386,
      "loss": 1.6928,
      "step": 50253
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4928942024707794,
      "learning_rate": 0.00024626971565895974,
      "loss": 1.5782,
      "step": 50254
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5367205142974854,
      "learning_rate": 0.0002462594325784662,
      "loss": 1.5737,
      "step": 50255
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.511029064655304,
      "learning_rate": 0.00024624914956320577,
      "loss": 1.5666,
      "step": 50256
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4987053871154785,
      "learning_rate": 0.000246238866613191,
      "loss": 1.6318,
      "step": 50257
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4988030791282654,
      "learning_rate": 0.00024622858372843427,
      "loss": 1.5689,
      "step": 50258
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5287735462188721,
      "learning_rate": 0.0002462183009089481,
      "loss": 1.4889,
      "step": 50259
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49412068724632263,
      "learning_rate": 0.00024620801815474516,
      "loss": 1.5333,
      "step": 50260
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.505948007106781,
      "learning_rate": 0.0002461977354658375,
      "loss": 1.6207,
      "step": 50261
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5011781454086304,
      "learning_rate": 0.00024618745284223797,
      "loss": 1.5313,
      "step": 50262
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5030038952827454,
      "learning_rate": 0.000246177170283959,
      "loss": 1.5505,
      "step": 50263
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5039598345756531,
      "learning_rate": 0.00024616688779101304,
      "loss": 1.6638,
      "step": 50264
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4935130178928375,
      "learning_rate": 0.0002461566053634124,
      "loss": 1.5585,
      "step": 50265
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5142869353294373,
      "learning_rate": 0.00024614632300116974,
      "loss": 1.6329,
      "step": 50266
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5147990584373474,
      "learning_rate": 0.0002461360407042977,
      "loss": 1.5732,
      "step": 50267
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5036721229553223,
      "learning_rate": 0.00024612575847280836,
      "loss": 1.568,
      "step": 50268
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4918261766433716,
      "learning_rate": 0.0002461154763067145,
      "loss": 1.5589,
      "step": 50269
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5086235404014587,
      "learning_rate": 0.0002461051942060285,
      "loss": 1.5624,
      "step": 50270
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5249700546264648,
      "learning_rate": 0.0002460949121707629,
      "loss": 1.6492,
      "step": 50271
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49840807914733887,
      "learning_rate": 0.00024608463020093005,
      "loss": 1.5301,
      "step": 50272
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5031048655509949,
      "learning_rate": 0.0002460743482965425,
      "loss": 1.6213,
      "step": 50273
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4900546669960022,
      "learning_rate": 0.00024606406645761284,
      "loss": 1.5619,
      "step": 50274
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5020528435707092,
      "learning_rate": 0.00024605378468415336,
      "loss": 1.5659,
      "step": 50275
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5100305080413818,
      "learning_rate": 0.0002460435029761767,
      "loss": 1.579,
      "step": 50276
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4889466166496277,
      "learning_rate": 0.0002460332213336953,
      "loss": 1.6003,
      "step": 50277
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5106127858161926,
      "learning_rate": 0.0002460229397567216,
      "loss": 1.6561,
      "step": 50278
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4860675036907196,
      "learning_rate": 0.000246012658245268,
      "loss": 1.5755,
      "step": 50279
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5334334969520569,
      "learning_rate": 0.00024600237679934725,
      "loss": 1.6332,
      "step": 50280
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5024763941764832,
      "learning_rate": 0.00024599209541897155,
      "loss": 1.5561,
      "step": 50281
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5049129128456116,
      "learning_rate": 0.00024598181410415344,
      "loss": 1.5568,
      "step": 50282
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5457912087440491,
      "learning_rate": 0.0002459715328549055,
      "loss": 1.6088,
      "step": 50283
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5001782774925232,
      "learning_rate": 0.0002459612516712402,
      "loss": 1.4949,
      "step": 50284
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5133095979690552,
      "learning_rate": 0.00024595097055316994,
      "loss": 1.596,
      "step": 50285
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49283263087272644,
      "learning_rate": 0.00024594068950070723,
      "loss": 1.5517,
      "step": 50286
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5090869665145874,
      "learning_rate": 0.00024593040851386466,
      "loss": 1.6152,
      "step": 50287
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5152990221977234,
      "learning_rate": 0.0002459201275926545,
      "loss": 1.624,
      "step": 50288
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5098627209663391,
      "learning_rate": 0.0002459098467370893,
      "loss": 1.5862,
      "step": 50289
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5300273299217224,
      "learning_rate": 0.00024589956594718164,
      "loss": 1.5897,
      "step": 50290
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49727141857147217,
      "learning_rate": 0.00024588928522294395,
      "loss": 1.571,
      "step": 50291
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5247434377670288,
      "learning_rate": 0.0002458790045643887,
      "loss": 1.6298,
      "step": 50292
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5146502256393433,
      "learning_rate": 0.0002458687239715283,
      "loss": 1.5516,
      "step": 50293
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.536323606967926,
      "learning_rate": 0.00024585844344437535,
      "loss": 1.5447,
      "step": 50294
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5273830890655518,
      "learning_rate": 0.00024584816298294225,
      "loss": 1.5761,
      "step": 50295
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49061229825019836,
      "learning_rate": 0.00024583788258724146,
      "loss": 1.5506,
      "step": 50296
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5579850673675537,
      "learning_rate": 0.00024582760225728555,
      "loss": 1.6936,
      "step": 50297
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5072124004364014,
      "learning_rate": 0.00024581732199308693,
      "loss": 1.6107,
      "step": 50298
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.526462733745575,
      "learning_rate": 0.00024580704179465813,
      "loss": 1.5611,
      "step": 50299
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5243821144104004,
      "learning_rate": 0.0002457967616620117,
      "loss": 1.5131,
      "step": 50300
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5216712355613708,
      "learning_rate": 0.0002457864815951598,
      "loss": 1.5784,
      "step": 50301
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5216676592826843,
      "learning_rate": 0.00024577620159411517,
      "loss": 1.5438,
      "step": 50302
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5109144449234009,
      "learning_rate": 0.00024576592165889027,
      "loss": 1.6152,
      "step": 50303
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5028753876686096,
      "learning_rate": 0.0002457556417894976,
      "loss": 1.5555,
      "step": 50304
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5446551442146301,
      "learning_rate": 0.0002457453619859496,
      "loss": 1.6178,
      "step": 50305
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5184487104415894,
      "learning_rate": 0.0002457350822482587,
      "loss": 1.6183,
      "step": 50306
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4935709834098816,
      "learning_rate": 0.00024572480257643745,
      "loss": 1.6077,
      "step": 50307
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5219553709030151,
      "learning_rate": 0.0002457145229704982,
      "loss": 1.6347,
      "step": 50308
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5333981513977051,
      "learning_rate": 0.0002457042434304535,
      "loss": 1.5978,
      "step": 50309
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5230129957199097,
      "learning_rate": 0.00024569396395631604,
      "loss": 1.5576,
      "step": 50310
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49937760829925537,
      "learning_rate": 0.0002456836845480979,
      "loss": 1.5928,
      "step": 50311
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4975704550743103,
      "learning_rate": 0.00024567340520581185,
      "loss": 1.5605,
      "step": 50312
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5172488689422607,
      "learning_rate": 0.00024566312592947027,
      "loss": 1.6025,
      "step": 50313
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5064793229103088,
      "learning_rate": 0.0002456528467190857,
      "loss": 1.6189,
      "step": 50314
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.524187445640564,
      "learning_rate": 0.0002456425675746705,
      "loss": 1.5939,
      "step": 50315
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5124278664588928,
      "learning_rate": 0.0002456322884962372,
      "loss": 1.5525,
      "step": 50316
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5190864205360413,
      "learning_rate": 0.0002456220094837985,
      "loss": 1.553,
      "step": 50317
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5065302848815918,
      "learning_rate": 0.0002456117305373664,
      "loss": 1.6686,
      "step": 50318
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.507209062576294,
      "learning_rate": 0.00024560145165695367,
      "loss": 1.6124,
      "step": 50319
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4974828362464905,
      "learning_rate": 0.0002455911728425729,
      "loss": 1.5329,
      "step": 50320
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5068361759185791,
      "learning_rate": 0.0002455808940942364,
      "loss": 1.6249,
      "step": 50321
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5110562443733215,
      "learning_rate": 0.0002455706154119566,
      "loss": 1.5798,
      "step": 50322
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5179964900016785,
      "learning_rate": 0.00024556033679574605,
      "loss": 1.5426,
      "step": 50323
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49406880140304565,
      "learning_rate": 0.0002455500582456174,
      "loss": 1.5926,
      "step": 50324
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4982420802116394,
      "learning_rate": 0.00024553977976158274,
      "loss": 1.5588,
      "step": 50325
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.6286190748214722,
      "learning_rate": 0.0002455295013436548,
      "loss": 1.6322,
      "step": 50326
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5296841859817505,
      "learning_rate": 0.00024551922299184616,
      "loss": 1.6003,
      "step": 50327
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5415793657302856,
      "learning_rate": 0.00024550894470616905,
      "loss": 1.6314,
      "step": 50328
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5027825832366943,
      "learning_rate": 0.0002454986664866361,
      "loss": 1.6231,
      "step": 50329
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5080198645591736,
      "learning_rate": 0.00024548838833325973,
      "loss": 1.578,
      "step": 50330
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5107068419456482,
      "learning_rate": 0.0002454781102460524,
      "loss": 1.6118,
      "step": 50331
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.506888747215271,
      "learning_rate": 0.00024546783222502655,
      "loss": 1.5107,
      "step": 50332
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5189446210861206,
      "learning_rate": 0.00024545755427019477,
      "loss": 1.6485,
      "step": 50333
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5173709988594055,
      "learning_rate": 0.0002454472763815696,
      "loss": 1.5722,
      "step": 50334
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5082470774650574,
      "learning_rate": 0.0002454369985591633,
      "loss": 1.7017,
      "step": 50335
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5110064148902893,
      "learning_rate": 0.00024542672080298835,
      "loss": 1.544,
      "step": 50336
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.49498289823532104,
      "learning_rate": 0.00024541644311305746,
      "loss": 1.5991,
      "step": 50337
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5131140947341919,
      "learning_rate": 0.00024540616548938293,
      "loss": 1.5703,
      "step": 50338
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5213104486465454,
      "learning_rate": 0.00024539588793197716,
      "loss": 1.541,
      "step": 50339
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5250583291053772,
      "learning_rate": 0.00024538561044085296,
      "loss": 1.574,
      "step": 50340
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5284962058067322,
      "learning_rate": 0.0002453753330160224,
      "loss": 1.5735,
      "step": 50341
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5167504549026489,
      "learning_rate": 0.0002453650556574982,
      "loss": 1.6498,
      "step": 50342
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5208756923675537,
      "learning_rate": 0.0002453547783652927,
      "loss": 1.6404,
      "step": 50343
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5121332406997681,
      "learning_rate": 0.0002453445011394186,
      "loss": 1.5766,
      "step": 50344
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5119898319244385,
      "learning_rate": 0.0002453342239798881,
      "loss": 1.6239,
      "step": 50345
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5196057558059692,
      "learning_rate": 0.00024532394688671377,
      "loss": 1.6388,
      "step": 50346
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5379352569580078,
      "learning_rate": 0.0002453136698599083,
      "loss": 1.6443,
      "step": 50347
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49348053336143494,
      "learning_rate": 0.0002453033928994838,
      "loss": 1.5792,
      "step": 50348
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4930122494697571,
      "learning_rate": 0.00024529311600545296,
      "loss": 1.5525,
      "step": 50349
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5220364928245544,
      "learning_rate": 0.00024528283917782823,
      "loss": 1.5959,
      "step": 50350
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5293384194374084,
      "learning_rate": 0.0002452725624166221,
      "loss": 1.537,
      "step": 50351
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5233450531959534,
      "learning_rate": 0.00024526228572184695,
      "loss": 1.67,
      "step": 50352
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5258693099021912,
      "learning_rate": 0.0002452520090935153,
      "loss": 1.669,
      "step": 50353
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4866621792316437,
      "learning_rate": 0.0002452417325316398,
      "loss": 1.5563,
      "step": 50354
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.48311856389045715,
      "learning_rate": 0.0002452314560362326,
      "loss": 1.5908,
      "step": 50355
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5023899078369141,
      "learning_rate": 0.0002452211796073064,
      "loss": 1.5716,
      "step": 50356
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5099207758903503,
      "learning_rate": 0.0002452109032448737,
      "loss": 1.6079,
      "step": 50357
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5019543766975403,
      "learning_rate": 0.0002452006269489468,
      "loss": 1.6768,
      "step": 50358
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.528566300868988,
      "learning_rate": 0.00024519035071953827,
      "loss": 1.5646,
      "step": 50359
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5091943144798279,
      "learning_rate": 0.00024518007455666066,
      "loss": 1.5647,
      "step": 50360
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5170845985412598,
      "learning_rate": 0.0002451697984603263,
      "loss": 1.5434,
      "step": 50361
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5148501992225647,
      "learning_rate": 0.0002451595224305476,
      "loss": 1.6247,
      "step": 50362
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5064771175384521,
      "learning_rate": 0.00024514924646733727,
      "loss": 1.6525,
      "step": 50363
    },
    {
      "epoch": 1.68,
      "grad_norm": 1.1438337564468384,
      "learning_rate": 0.00024513897057070773,
      "loss": 1.6437,
      "step": 50364
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5116499662399292,
      "learning_rate": 0.00024512869474067135,
      "loss": 1.5843,
      "step": 50365
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5107400417327881,
      "learning_rate": 0.0002451184189772406,
      "loss": 1.6508,
      "step": 50366
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49078160524368286,
      "learning_rate": 0.0002451081432804281,
      "loss": 1.5386,
      "step": 50367
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5189571976661682,
      "learning_rate": 0.0002450978676502462,
      "loss": 1.6013,
      "step": 50368
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5193521976470947,
      "learning_rate": 0.00024508759208670725,
      "loss": 1.7273,
      "step": 50369
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5033608675003052,
      "learning_rate": 0.00024507731658982403,
      "loss": 1.5292,
      "step": 50370
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5153279900550842,
      "learning_rate": 0.0002450670411596089,
      "loss": 1.5897,
      "step": 50371
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4984544515609741,
      "learning_rate": 0.0002450567657960742,
      "loss": 1.5875,
      "step": 50372
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5056969523429871,
      "learning_rate": 0.0002450464904992325,
      "loss": 1.5983,
      "step": 50373
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49981871247291565,
      "learning_rate": 0.0002450362152690963,
      "loss": 1.658,
      "step": 50374
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5401049256324768,
      "learning_rate": 0.000245025940105678,
      "loss": 1.6186,
      "step": 50375
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5400578379631042,
      "learning_rate": 0.00024501566500899,
      "loss": 1.5925,
      "step": 50376
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5050290822982788,
      "learning_rate": 0.0002450053899790451,
      "loss": 1.6159,
      "step": 50377
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5171413421630859,
      "learning_rate": 0.00024499511501585537,
      "loss": 1.5546,
      "step": 50378
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49813175201416016,
      "learning_rate": 0.00024498484011943356,
      "loss": 1.609,
      "step": 50379
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5170708894729614,
      "learning_rate": 0.000244974565289792,
      "loss": 1.6082,
      "step": 50380
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5074203014373779,
      "learning_rate": 0.0002449642905269433,
      "loss": 1.6189,
      "step": 50381
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5036206841468811,
      "learning_rate": 0.00024495401583089977,
      "loss": 1.5539,
      "step": 50382
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5097272396087646,
      "learning_rate": 0.0002449437412016739,
      "loss": 1.5853,
      "step": 50383
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5150321125984192,
      "learning_rate": 0.0002449334666392784,
      "loss": 1.5675,
      "step": 50384
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5036500096321106,
      "learning_rate": 0.0002449231921437254,
      "loss": 1.5817,
      "step": 50385
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49232903122901917,
      "learning_rate": 0.0002449129177150275,
      "loss": 1.5389,
      "step": 50386
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5015442967414856,
      "learning_rate": 0.00024490264335319734,
      "loss": 1.5537,
      "step": 50387
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5086213946342468,
      "learning_rate": 0.00024489236905824715,
      "loss": 1.5625,
      "step": 50388
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5076544284820557,
      "learning_rate": 0.0002448820948301895,
      "loss": 1.6087,
      "step": 50389
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49792835116386414,
      "learning_rate": 0.00024487182066903687,
      "loss": 1.6669,
      "step": 50390
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5190927982330322,
      "learning_rate": 0.0002448615465748019,
      "loss": 1.63,
      "step": 50391
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5080386400222778,
      "learning_rate": 0.00024485127254749665,
      "loss": 1.5242,
      "step": 50392
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.518186092376709,
      "learning_rate": 0.0002448409985871339,
      "loss": 1.5855,
      "step": 50393
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5091649889945984,
      "learning_rate": 0.00024483072469372617,
      "loss": 1.634,
      "step": 50394
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5271013379096985,
      "learning_rate": 0.0002448204508672857,
      "loss": 1.6184,
      "step": 50395
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5237779021263123,
      "learning_rate": 0.0002448101771078251,
      "loss": 1.5585,
      "step": 50396
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5184252858161926,
      "learning_rate": 0.00024479990341535687,
      "loss": 1.6761,
      "step": 50397
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5107589364051819,
      "learning_rate": 0.0002447896297898933,
      "loss": 1.5495,
      "step": 50398
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5071916580200195,
      "learning_rate": 0.000244779356231447,
      "loss": 1.6329,
      "step": 50399
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4978644549846649,
      "learning_rate": 0.0002447690827400304,
      "loss": 1.5197,
      "step": 50400
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49842387437820435,
      "learning_rate": 0.00024475880931565613,
      "loss": 1.5991,
      "step": 50401
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5005826354026794,
      "learning_rate": 0.00024474853595833645,
      "loss": 1.5859,
      "step": 50402
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5077876448631287,
      "learning_rate": 0.00024473826266808394,
      "loss": 1.5628,
      "step": 50403
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5041908025741577,
      "learning_rate": 0.00024472798944491107,
      "loss": 1.5436,
      "step": 50404
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5009163022041321,
      "learning_rate": 0.00024471771628883015,
      "loss": 1.5906,
      "step": 50405
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4909854829311371,
      "learning_rate": 0.0002447074431998538,
      "loss": 1.5631,
      "step": 50406
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5216579437255859,
      "learning_rate": 0.00024469717017799457,
      "loss": 1.5724,
      "step": 50407
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5100325345993042,
      "learning_rate": 0.00024468689722326474,
      "loss": 1.6052,
      "step": 50408
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5283002257347107,
      "learning_rate": 0.0002446766243356769,
      "loss": 1.5603,
      "step": 50409
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5126585960388184,
      "learning_rate": 0.0002446663515152435,
      "loss": 1.5513,
      "step": 50410
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5091764330863953,
      "learning_rate": 0.000244656078761977,
      "loss": 1.5746,
      "step": 50411
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5138362050056458,
      "learning_rate": 0.00024464580607588983,
      "loss": 1.6348,
      "step": 50412
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.499660462141037,
      "learning_rate": 0.00024463553345699444,
      "loss": 1.668,
      "step": 50413
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5138007998466492,
      "learning_rate": 0.0002446252609053035,
      "loss": 1.5762,
      "step": 50414
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5100790858268738,
      "learning_rate": 0.0002446149884208292,
      "loss": 1.5895,
      "step": 50415
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5141400694847107,
      "learning_rate": 0.0002446047160035842,
      "loss": 1.5982,
      "step": 50416
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4968668222427368,
      "learning_rate": 0.000244594443653581,
      "loss": 1.5803,
      "step": 50417
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49661996960639954,
      "learning_rate": 0.0002445841713708319,
      "loss": 1.6042,
      "step": 50418
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5211527347564697,
      "learning_rate": 0.00024457389915534934,
      "loss": 1.6479,
      "step": 50419
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5142402648925781,
      "learning_rate": 0.00024456362700714607,
      "loss": 1.5706,
      "step": 50420
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5174288153648376,
      "learning_rate": 0.00024455335492623435,
      "loss": 1.5555,
      "step": 50421
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4975750744342804,
      "learning_rate": 0.00024454308291262664,
      "loss": 1.5666,
      "step": 50422
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.506542980670929,
      "learning_rate": 0.0002445328109663355,
      "loss": 1.617,
      "step": 50423
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49977296590805054,
      "learning_rate": 0.0002445225390873734,
      "loss": 1.6192,
      "step": 50424
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5208807587623596,
      "learning_rate": 0.00024451226727575264,
      "loss": 1.6016,
      "step": 50425
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5129491686820984,
      "learning_rate": 0.0002445019955314858,
      "loss": 1.6374,
      "step": 50426
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4949144124984741,
      "learning_rate": 0.00024449172385458554,
      "loss": 1.5804,
      "step": 50427
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5106009244918823,
      "learning_rate": 0.000244481452245064,
      "loss": 1.5713,
      "step": 50428
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5303187370300293,
      "learning_rate": 0.0002444711807029338,
      "loss": 1.5975,
      "step": 50429
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.48930588364601135,
      "learning_rate": 0.00024446090922820743,
      "loss": 1.5874,
      "step": 50430
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5332384705543518,
      "learning_rate": 0.0002444506378208974,
      "loss": 1.6275,
      "step": 50431
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5495840311050415,
      "learning_rate": 0.000244440366481016,
      "loss": 1.5986,
      "step": 50432
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5196642875671387,
      "learning_rate": 0.00024443009520857585,
      "loss": 1.675,
      "step": 50433
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5155377984046936,
      "learning_rate": 0.0002444198240035895,
      "loss": 1.5931,
      "step": 50434
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5236735343933105,
      "learning_rate": 0.00024440955286606907,
      "loss": 1.5967,
      "step": 50435
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5323425531387329,
      "learning_rate": 0.0002443992817960274,
      "loss": 1.5713,
      "step": 50436
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.520369827747345,
      "learning_rate": 0.0002443890107934768,
      "loss": 1.6136,
      "step": 50437
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5180923342704773,
      "learning_rate": 0.00024437873985842974,
      "loss": 1.5845,
      "step": 50438
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5140369534492493,
      "learning_rate": 0.00024436846899089865,
      "loss": 1.5497,
      "step": 50439
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5151237845420837,
      "learning_rate": 0.000244358198190896,
      "loss": 1.577,
      "step": 50440
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5136370658874512,
      "learning_rate": 0.0002443479274584345,
      "loss": 1.5813,
      "step": 50441
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5122901201248169,
      "learning_rate": 0.0002443376567935262,
      "loss": 1.578,
      "step": 50442
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5157597661018372,
      "learning_rate": 0.0002443273861961839,
      "loss": 1.5737,
      "step": 50443
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5252860188484192,
      "learning_rate": 0.00024431711566641994,
      "loss": 1.5448,
      "step": 50444
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5034762024879456,
      "learning_rate": 0.0002443068452042467,
      "loss": 1.5687,
      "step": 50445
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5351926684379578,
      "learning_rate": 0.0002442965748096769,
      "loss": 1.5993,
      "step": 50446
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5301644206047058,
      "learning_rate": 0.0002442863044827228,
      "loss": 1.5865,
      "step": 50447
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5200603008270264,
      "learning_rate": 0.0002442760342233968,
      "loss": 1.5478,
      "step": 50448
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5217682719230652,
      "learning_rate": 0.00024426576403171156,
      "loss": 1.6265,
      "step": 50449
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49883028864860535,
      "learning_rate": 0.00024425549390767943,
      "loss": 1.6058,
      "step": 50450
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5259273052215576,
      "learning_rate": 0.00024424522385131306,
      "loss": 1.5982,
      "step": 50451
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5389907360076904,
      "learning_rate": 0.00024423495386262465,
      "loss": 1.5877,
      "step": 50452
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5267008543014526,
      "learning_rate": 0.00024422468394162683,
      "loss": 1.5719,
      "step": 50453
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5012719631195068,
      "learning_rate": 0.00024421441408833207,
      "loss": 1.5575,
      "step": 50454
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.503998339176178,
      "learning_rate": 0.0002442041443027527,
      "loss": 1.5558,
      "step": 50455
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5460096001625061,
      "learning_rate": 0.00024419387458490127,
      "loss": 1.6292,
      "step": 50456
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5197424292564392,
      "learning_rate": 0.0002441836049347904,
      "loss": 1.5461,
      "step": 50457
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5266551375389099,
      "learning_rate": 0.0002441733353524322,
      "loss": 1.6069,
      "step": 50458
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.9274485111236572,
      "learning_rate": 0.00024416306583783945,
      "loss": 1.6627,
      "step": 50459
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5102897882461548,
      "learning_rate": 0.00024415279639102455,
      "loss": 1.5487,
      "step": 50460
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49865713715553284,
      "learning_rate": 0.00024414252701199994,
      "loss": 1.6258,
      "step": 50461
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5612275004386902,
      "learning_rate": 0.000244132257700778,
      "loss": 1.6036,
      "step": 50462
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5209594368934631,
      "learning_rate": 0.0002441219884573712,
      "loss": 1.6021,
      "step": 50463
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5163416266441345,
      "learning_rate": 0.00024411171928179228,
      "loss": 1.5809,
      "step": 50464
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5297918319702148,
      "learning_rate": 0.00024410145017405332,
      "loss": 1.527,
      "step": 50465
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5479240417480469,
      "learning_rate": 0.000244091181134167,
      "loss": 1.6091,
      "step": 50466
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49543076753616333,
      "learning_rate": 0.00024408091216214582,
      "loss": 1.5327,
      "step": 50467
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.503499448299408,
      "learning_rate": 0.00024407064325800213,
      "loss": 1.6214,
      "step": 50468
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5057644248008728,
      "learning_rate": 0.00024406037442174843,
      "loss": 1.5665,
      "step": 50469
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5121321082115173,
      "learning_rate": 0.0002440501056533971,
      "loss": 1.6373,
      "step": 50470
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5333604216575623,
      "learning_rate": 0.00024403983695296094,
      "loss": 1.6009,
      "step": 50471
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5048337578773499,
      "learning_rate": 0.00024402956832045194,
      "loss": 1.6328,
      "step": 50472
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5078903436660767,
      "learning_rate": 0.00024401929975588284,
      "loss": 1.6139,
      "step": 50473
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5221108794212341,
      "learning_rate": 0.00024400903125926617,
      "loss": 1.5929,
      "step": 50474
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5239629745483398,
      "learning_rate": 0.00024399876283061426,
      "loss": 1.561,
      "step": 50475
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.501102089881897,
      "learning_rate": 0.00024398849446993954,
      "loss": 1.5302,
      "step": 50476
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5144643187522888,
      "learning_rate": 0.0002439782261772546,
      "loss": 1.5464,
      "step": 50477
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5233701467514038,
      "learning_rate": 0.0002439679579525718,
      "loss": 1.6052,
      "step": 50478
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5335006713867188,
      "learning_rate": 0.00024395768979590352,
      "loss": 1.5989,
      "step": 50479
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5316867232322693,
      "learning_rate": 0.00024394742170726248,
      "loss": 1.5296,
      "step": 50480
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5117806792259216,
      "learning_rate": 0.00024393715368666106,
      "loss": 1.6414,
      "step": 50481
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5458589196205139,
      "learning_rate": 0.0002439268857341116,
      "loss": 1.6569,
      "step": 50482
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5281209349632263,
      "learning_rate": 0.00024391661784962666,
      "loss": 1.5856,
      "step": 50483
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5305630564689636,
      "learning_rate": 0.00024390635003321872,
      "loss": 1.5819,
      "step": 50484
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49493327736854553,
      "learning_rate": 0.00024389608228490015,
      "loss": 1.5331,
      "step": 50485
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5201658606529236,
      "learning_rate": 0.0002438858146046834,
      "loss": 1.5737,
      "step": 50486
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5089640021324158,
      "learning_rate": 0.00024387554699258106,
      "loss": 1.6036,
      "step": 50487
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5134941339492798,
      "learning_rate": 0.00024386527944860562,
      "loss": 1.6179,
      "step": 50488
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5222702622413635,
      "learning_rate": 0.00024385501197276936,
      "loss": 1.5523,
      "step": 50489
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5181823372840881,
      "learning_rate": 0.0002438447445650849,
      "loss": 1.6434,
      "step": 50490
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4985206425189972,
      "learning_rate": 0.00024383447722556469,
      "loss": 1.57,
      "step": 50491
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5099563002586365,
      "learning_rate": 0.00024382420995422107,
      "loss": 1.5878,
      "step": 50492
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5209993124008179,
      "learning_rate": 0.00024381394275106654,
      "loss": 1.5154,
      "step": 50493
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.518465518951416,
      "learning_rate": 0.0002438036756161138,
      "loss": 1.6504,
      "step": 50494
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5296276211738586,
      "learning_rate": 0.00024379340854937485,
      "loss": 1.6229,
      "step": 50495
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5080401301383972,
      "learning_rate": 0.00024378314155086255,
      "loss": 1.5812,
      "step": 50496
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4895225167274475,
      "learning_rate": 0.00024377287462058923,
      "loss": 1.5245,
      "step": 50497
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5154002904891968,
      "learning_rate": 0.00024376260775856742,
      "loss": 1.5326,
      "step": 50498
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5091196298599243,
      "learning_rate": 0.00024375234096480944,
      "loss": 1.5764,
      "step": 50499
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4938559830188751,
      "learning_rate": 0.0002437420742393278,
      "loss": 1.6069,
      "step": 50500
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5175655484199524,
      "learning_rate": 0.00024373180758213516,
      "loss": 1.5884,
      "step": 50501
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5228419899940491,
      "learning_rate": 0.0002437215409932436,
      "loss": 1.6884,
      "step": 50502
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5074117183685303,
      "learning_rate": 0.0002437112744726659,
      "loss": 1.5833,
      "step": 50503
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5070413947105408,
      "learning_rate": 0.00024370100802041447,
      "loss": 1.6197,
      "step": 50504
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5125387907028198,
      "learning_rate": 0.00024369074163650166,
      "loss": 1.6065,
      "step": 50505
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5068217515945435,
      "learning_rate": 0.00024368047532093997,
      "loss": 1.6172,
      "step": 50506
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5190638303756714,
      "learning_rate": 0.00024367020907374183,
      "loss": 1.5829,
      "step": 50507
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5195352435112,
      "learning_rate": 0.00024365994289491996,
      "loss": 1.5866,
      "step": 50508
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.502065896987915,
      "learning_rate": 0.00024364967678448644,
      "loss": 1.4958,
      "step": 50509
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5075778961181641,
      "learning_rate": 0.00024363941074245394,
      "loss": 1.5733,
      "step": 50510
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5308078527450562,
      "learning_rate": 0.00024362914476883498,
      "loss": 1.5421,
      "step": 50511
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5109366178512573,
      "learning_rate": 0.00024361887886364185,
      "loss": 1.5619,
      "step": 50512
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5232502818107605,
      "learning_rate": 0.0002436086130268871,
      "loss": 1.6074,
      "step": 50513
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5131614208221436,
      "learning_rate": 0.00024359834725858322,
      "loss": 1.5629,
      "step": 50514
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5200284719467163,
      "learning_rate": 0.0002435880815587426,
      "loss": 1.6157,
      "step": 50515
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5084834694862366,
      "learning_rate": 0.0002435778159273777,
      "loss": 1.5694,
      "step": 50516
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5204176902770996,
      "learning_rate": 0.00024356755036450105,
      "loss": 1.6033,
      "step": 50517
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5068552494049072,
      "learning_rate": 0.00024355728487012517,
      "loss": 1.575,
      "step": 50518
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5194061398506165,
      "learning_rate": 0.00024354701944426235,
      "loss": 1.5841,
      "step": 50519
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5151254534721375,
      "learning_rate": 0.0002435367540869251,
      "loss": 1.5962,
      "step": 50520
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5095695853233337,
      "learning_rate": 0.000243526488798126,
      "loss": 1.5607,
      "step": 50521
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5091441869735718,
      "learning_rate": 0.0002435162235778774,
      "loss": 1.6222,
      "step": 50522
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.506186842918396,
      "learning_rate": 0.00024350595842619166,
      "loss": 1.5198,
      "step": 50523
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5323163866996765,
      "learning_rate": 0.00024349569334308153,
      "loss": 1.6478,
      "step": 50524
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.504541277885437,
      "learning_rate": 0.0002434854283285592,
      "loss": 1.5427,
      "step": 50525
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5175793766975403,
      "learning_rate": 0.00024347516338263722,
      "loss": 1.5758,
      "step": 50526
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5042949914932251,
      "learning_rate": 0.00024346489850532812,
      "loss": 1.6307,
      "step": 50527
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5124104619026184,
      "learning_rate": 0.00024345463369664433,
      "loss": 1.6216,
      "step": 50528
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5129261016845703,
      "learning_rate": 0.00024344436895659818,
      "loss": 1.5581,
      "step": 50529
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5182888507843018,
      "learning_rate": 0.00024343410428520225,
      "loss": 1.632,
      "step": 50530
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.515645444393158,
      "learning_rate": 0.00024342383968246908,
      "loss": 1.6343,
      "step": 50531
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5176984071731567,
      "learning_rate": 0.000243413575148411,
      "loss": 1.5964,
      "step": 50532
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5421596765518188,
      "learning_rate": 0.00024340331068304047,
      "loss": 1.6609,
      "step": 50533
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5405494570732117,
      "learning_rate": 0.00024339304628637003,
      "loss": 1.578,
      "step": 50534
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5297036170959473,
      "learning_rate": 0.00024338278195841205,
      "loss": 1.6791,
      "step": 50535
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5249280333518982,
      "learning_rate": 0.00024337251769917896,
      "loss": 1.6127,
      "step": 50536
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5351274609565735,
      "learning_rate": 0.00024336225350868334,
      "loss": 1.5596,
      "step": 50537
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5127795934677124,
      "learning_rate": 0.00024335198938693766,
      "loss": 1.5883,
      "step": 50538
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5072935223579407,
      "learning_rate": 0.0002433417253339543,
      "loss": 1.6338,
      "step": 50539
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49477148056030273,
      "learning_rate": 0.0002433314613497457,
      "loss": 1.5629,
      "step": 50540
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5138638615608215,
      "learning_rate": 0.00024332119743432443,
      "loss": 1.6044,
      "step": 50541
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5428236126899719,
      "learning_rate": 0.0002433109335877028,
      "loss": 1.6076,
      "step": 50542
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5057352781295776,
      "learning_rate": 0.0002433006698098933,
      "loss": 1.5921,
      "step": 50543
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5153394341468811,
      "learning_rate": 0.0002432904061009086,
      "loss": 1.5892,
      "step": 50544
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5212461352348328,
      "learning_rate": 0.00024328014246076081,
      "loss": 1.5709,
      "step": 50545
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5215451121330261,
      "learning_rate": 0.00024326987888946262,
      "loss": 1.6561,
      "step": 50546
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5352132320404053,
      "learning_rate": 0.0002432596153870265,
      "loss": 1.6161,
      "step": 50547
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5179136395454407,
      "learning_rate": 0.00024324935195346484,
      "loss": 1.5331,
      "step": 50548
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5007566213607788,
      "learning_rate": 0.00024323908858879008,
      "loss": 1.5901,
      "step": 50549
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5516452193260193,
      "learning_rate": 0.00024322882529301463,
      "loss": 1.64,
      "step": 50550
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5116404891014099,
      "learning_rate": 0.00024321856206615118,
      "loss": 1.5592,
      "step": 50551
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5333389043807983,
      "learning_rate": 0.00024320829890821187,
      "loss": 1.5606,
      "step": 50552
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5067927837371826,
      "learning_rate": 0.00024319803581920939,
      "loss": 1.5554,
      "step": 50553
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4831885099411011,
      "learning_rate": 0.00024318777279915614,
      "loss": 1.5919,
      "step": 50554
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49829965829849243,
      "learning_rate": 0.00024317750984806456,
      "loss": 1.5337,
      "step": 50555
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5446111559867859,
      "learning_rate": 0.0002431672469659471,
      "loss": 1.6429,
      "step": 50556
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5360245108604431,
      "learning_rate": 0.00024315698415281611,
      "loss": 1.5565,
      "step": 50557
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5058013200759888,
      "learning_rate": 0.0002431467214086844,
      "loss": 1.534,
      "step": 50558
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4913410246372223,
      "learning_rate": 0.00024313645873356402,
      "loss": 1.536,
      "step": 50559
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5155920386314392,
      "learning_rate": 0.00024312619612746765,
      "loss": 1.6094,
      "step": 50560
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5053078532218933,
      "learning_rate": 0.00024311593359040777,
      "loss": 1.6776,
      "step": 50561
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5098267793655396,
      "learning_rate": 0.00024310567112239667,
      "loss": 1.5417,
      "step": 50562
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5002221465110779,
      "learning_rate": 0.0002430954087234469,
      "loss": 1.5333,
      "step": 50563
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5240026712417603,
      "learning_rate": 0.00024308514639357102,
      "loss": 1.6207,
      "step": 50564
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5012009143829346,
      "learning_rate": 0.0002430748841327813,
      "loss": 1.5815,
      "step": 50565
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5131810307502747,
      "learning_rate": 0.00024306462194109024,
      "loss": 1.5741,
      "step": 50566
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5295158624649048,
      "learning_rate": 0.00024305435981851036,
      "loss": 1.6014,
      "step": 50567
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5208380818367004,
      "learning_rate": 0.0002430440977650542,
      "loss": 1.6369,
      "step": 50568
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49557268619537354,
      "learning_rate": 0.00024303383578073404,
      "loss": 1.5155,
      "step": 50569
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5159150958061218,
      "learning_rate": 0.00024302357386556242,
      "loss": 1.5683,
      "step": 50570
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5262163281440735,
      "learning_rate": 0.0002430133120195518,
      "loss": 1.6597,
      "step": 50571
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5306439399719238,
      "learning_rate": 0.00024300305024271463,
      "loss": 1.6271,
      "step": 50572
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.521853506565094,
      "learning_rate": 0.00024299278853506326,
      "loss": 1.5959,
      "step": 50573
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5294553637504578,
      "learning_rate": 0.00024298252689661042,
      "loss": 1.5646,
      "step": 50574
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5073599219322205,
      "learning_rate": 0.00024297226532736822,
      "loss": 1.543,
      "step": 50575
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5383700132369995,
      "learning_rate": 0.00024296200382734935,
      "loss": 1.5919,
      "step": 50576
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5116624236106873,
      "learning_rate": 0.00024295174239656622,
      "loss": 1.5957,
      "step": 50577
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5016825199127197,
      "learning_rate": 0.00024294148103503132,
      "loss": 1.6025,
      "step": 50578
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5112269520759583,
      "learning_rate": 0.00024293121974275697,
      "loss": 1.6841,
      "step": 50579
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5195449590682983,
      "learning_rate": 0.00024292095851975566,
      "loss": 1.653,
      "step": 50580
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5237034559249878,
      "learning_rate": 0.0002429106973660401,
      "loss": 1.5704,
      "step": 50581
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5158759355545044,
      "learning_rate": 0.00024290043628162234,
      "loss": 1.6324,
      "step": 50582
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5228479504585266,
      "learning_rate": 0.00024289017526651511,
      "loss": 1.5696,
      "step": 50583
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5297614336013794,
      "learning_rate": 0.00024287991432073082,
      "loss": 1.5965,
      "step": 50584
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.538451075553894,
      "learning_rate": 0.0002428696534442819,
      "loss": 1.6601,
      "step": 50585
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5347731709480286,
      "learning_rate": 0.00024285939263718074,
      "loss": 1.6042,
      "step": 50586
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.7429684996604919,
      "learning_rate": 0.0002428491318994398,
      "loss": 1.5944,
      "step": 50587
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5213965773582458,
      "learning_rate": 0.00024283887123107182,
      "loss": 1.5447,
      "step": 50588
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5208494067192078,
      "learning_rate": 0.00024282861063208884,
      "loss": 1.609,
      "step": 50589
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.512427568435669,
      "learning_rate": 0.00024281835010250353,
      "loss": 1.5977,
      "step": 50590
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5319180488586426,
      "learning_rate": 0.0002428080896423284,
      "loss": 1.5061,
      "step": 50591
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5230793356895447,
      "learning_rate": 0.00024279782925157575,
      "loss": 1.6563,
      "step": 50592
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5183219909667969,
      "learning_rate": 0.0002427875689302581,
      "loss": 1.6838,
      "step": 50593
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5417288541793823,
      "learning_rate": 0.000242777308678388,
      "loss": 1.5959,
      "step": 50594
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5052717328071594,
      "learning_rate": 0.00024276704849597773,
      "loss": 1.5496,
      "step": 50595
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4978400468826294,
      "learning_rate": 0.0002427567883830398,
      "loss": 1.608,
      "step": 50596
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5070407390594482,
      "learning_rate": 0.00024274652833958674,
      "loss": 1.6167,
      "step": 50597
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5167106986045837,
      "learning_rate": 0.000242736268365631,
      "loss": 1.6685,
      "step": 50598
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5049260854721069,
      "learning_rate": 0.00024272600846118495,
      "loss": 1.6281,
      "step": 50599
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.528396487236023,
      "learning_rate": 0.00024271574862626106,
      "loss": 1.6275,
      "step": 50600
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5148768424987793,
      "learning_rate": 0.0002427054888608719,
      "loss": 1.632,
      "step": 50601
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4979589879512787,
      "learning_rate": 0.00024269522916502983,
      "loss": 1.5864,
      "step": 50602
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5059751272201538,
      "learning_rate": 0.00024268496953874715,
      "loss": 1.6061,
      "step": 50603
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5183771252632141,
      "learning_rate": 0.0002426747099820367,
      "loss": 1.5934,
      "step": 50604
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5484233498573303,
      "learning_rate": 0.0002426644504949105,
      "loss": 1.4828,
      "step": 50605
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.529962956905365,
      "learning_rate": 0.00024265419107738132,
      "loss": 1.5725,
      "step": 50606
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5041176080703735,
      "learning_rate": 0.00024264393172946145,
      "loss": 1.5269,
      "step": 50607
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5245544910430908,
      "learning_rate": 0.00024263367245116348,
      "loss": 1.6171,
      "step": 50608
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5143706202507019,
      "learning_rate": 0.00024262341324249968,
      "loss": 1.5561,
      "step": 50609
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49571922421455383,
      "learning_rate": 0.00024261315410348255,
      "loss": 1.5252,
      "step": 50610
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4814443290233612,
      "learning_rate": 0.00024260289503412482,
      "loss": 1.6039,
      "step": 50611
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5128523111343384,
      "learning_rate": 0.00024259263603443855,
      "loss": 1.627,
      "step": 50612
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.560416579246521,
      "learning_rate": 0.00024258237710443636,
      "loss": 1.6044,
      "step": 50613
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5316194891929626,
      "learning_rate": 0.00024257211824413075,
      "loss": 1.5322,
      "step": 50614
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5232765674591064,
      "learning_rate": 0.0002425618594535342,
      "loss": 1.614,
      "step": 50615
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5039324164390564,
      "learning_rate": 0.00024255160073265896,
      "loss": 1.5354,
      "step": 50616
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5053368806838989,
      "learning_rate": 0.0002425413420815176,
      "loss": 1.5275,
      "step": 50617
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5202410221099854,
      "learning_rate": 0.00024253108350012276,
      "loss": 1.7075,
      "step": 50618
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5309219360351562,
      "learning_rate": 0.00024252082498848654,
      "loss": 1.5338,
      "step": 50619
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.49814295768737793,
      "learning_rate": 0.0002425105665466216,
      "loss": 1.5296,
      "step": 50620
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5003605484962463,
      "learning_rate": 0.00024250030817454048,
      "loss": 1.5608,
      "step": 50621
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5129527449607849,
      "learning_rate": 0.0002424900498722554,
      "loss": 1.6246,
      "step": 50622
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5048114657402039,
      "learning_rate": 0.00024247979163977894,
      "loss": 1.6618,
      "step": 50623
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5232258439064026,
      "learning_rate": 0.0002424695334771235,
      "loss": 1.6993,
      "step": 50624
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5057636499404907,
      "learning_rate": 0.0002424592753843017,
      "loss": 1.6177,
      "step": 50625
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5045750141143799,
      "learning_rate": 0.00024244901736132572,
      "loss": 1.6313,
      "step": 50626
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5142194628715515,
      "learning_rate": 0.00024243875940820823,
      "loss": 1.6315,
      "step": 50627
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.48598113656044006,
      "learning_rate": 0.00024242850152496163,
      "loss": 1.4998,
      "step": 50628
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5292302966117859,
      "learning_rate": 0.0002424182437115983,
      "loss": 1.6069,
      "step": 50629
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.514838457107544,
      "learning_rate": 0.00024240798596813072,
      "loss": 1.6139,
      "step": 50630
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5739580988883972,
      "learning_rate": 0.00024239772829457142,
      "loss": 1.5821,
      "step": 50631
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5265823602676392,
      "learning_rate": 0.00024238747069093279,
      "loss": 1.6428,
      "step": 50632
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5128228068351746,
      "learning_rate": 0.00024237721315722714,
      "loss": 1.5306,
      "step": 50633
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4970393478870392,
      "learning_rate": 0.00024236695569346717,
      "loss": 1.5561,
      "step": 50634
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5444142818450928,
      "learning_rate": 0.00024235669829966527,
      "loss": 1.6703,
      "step": 50635
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5256157517433167,
      "learning_rate": 0.00024234644097583378,
      "loss": 1.6299,
      "step": 50636
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.520207941532135,
      "learning_rate": 0.00024233618372198522,
      "loss": 1.6286,
      "step": 50637
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5142130255699158,
      "learning_rate": 0.00024232592653813213,
      "loss": 1.5789,
      "step": 50638
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5370586514472961,
      "learning_rate": 0.00024231566942428678,
      "loss": 1.5933,
      "step": 50639
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5224883556365967,
      "learning_rate": 0.00024230541238046163,
      "loss": 1.5692,
      "step": 50640
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5557262897491455,
      "learning_rate": 0.00024229515540666934,
      "loss": 1.5577,
      "step": 50641
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5109212398529053,
      "learning_rate": 0.00024228489850292216,
      "loss": 1.521,
      "step": 50642
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5054353475570679,
      "learning_rate": 0.00024227464166923265,
      "loss": 1.6313,
      "step": 50643
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5311447978019714,
      "learning_rate": 0.0002422643849056132,
      "loss": 1.6003,
      "step": 50644
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.4952819049358368,
      "learning_rate": 0.00024225412821207633,
      "loss": 1.6586,
      "step": 50645
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5051983594894409,
      "learning_rate": 0.0002422438715886343,
      "loss": 1.5683,
      "step": 50646
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5214996337890625,
      "learning_rate": 0.0002422336150352998,
      "loss": 1.5765,
      "step": 50647
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5040964484214783,
      "learning_rate": 0.00024222335855208523,
      "loss": 1.6395,
      "step": 50648
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5294936895370483,
      "learning_rate": 0.0002422131021390029,
      "loss": 1.6028,
      "step": 50649
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5162115693092346,
      "learning_rate": 0.00024220284579606538,
      "loss": 1.5948,
      "step": 50650
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.537494957447052,
      "learning_rate": 0.00024219258952328516,
      "loss": 1.6263,
      "step": 50651
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5216172933578491,
      "learning_rate": 0.00024218233332067452,
      "loss": 1.6199,
      "step": 50652
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5144500732421875,
      "learning_rate": 0.00024217207718824597,
      "loss": 1.5374,
      "step": 50653
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5341364741325378,
      "learning_rate": 0.00024216182112601203,
      "loss": 1.5853,
      "step": 50654
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5205640196800232,
      "learning_rate": 0.00024215156513398523,
      "loss": 1.6381,
      "step": 50655
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5201662182807922,
      "learning_rate": 0.00024214130921217783,
      "loss": 1.5823,
      "step": 50656
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5066240429878235,
      "learning_rate": 0.00024213105336060234,
      "loss": 1.5687,
      "step": 50657
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5156940221786499,
      "learning_rate": 0.00024212079757927128,
      "loss": 1.5738,
      "step": 50658
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5083121657371521,
      "learning_rate": 0.000242110541868197,
      "loss": 1.5953,
      "step": 50659
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5013411045074463,
      "learning_rate": 0.00024210028622739192,
      "loss": 1.5318,
      "step": 50660
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5126557946205139,
      "learning_rate": 0.00024209003065686873,
      "loss": 1.5211,
      "step": 50661
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5132576823234558,
      "learning_rate": 0.00024207977515663956,
      "loss": 1.6064,
      "step": 50662
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4979586899280548,
      "learning_rate": 0.00024206951972671704,
      "loss": 1.6044,
      "step": 50663
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5055015683174133,
      "learning_rate": 0.00024205926436711363,
      "loss": 1.6104,
      "step": 50664
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5201915502548218,
      "learning_rate": 0.00024204900907784176,
      "loss": 1.5658,
      "step": 50665
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5029162764549255,
      "learning_rate": 0.00024203875385891377,
      "loss": 1.6063,
      "step": 50666
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5201820731163025,
      "learning_rate": 0.00024202849871034218,
      "loss": 1.5849,
      "step": 50667
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5330458283424377,
      "learning_rate": 0.00024201824363213962,
      "loss": 1.5458,
      "step": 50668
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5069491267204285,
      "learning_rate": 0.00024200798862431818,
      "loss": 1.5072,
      "step": 50669
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5188497304916382,
      "learning_rate": 0.00024199773368689057,
      "loss": 1.5916,
      "step": 50670
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5254535675048828,
      "learning_rate": 0.00024198747881986924,
      "loss": 1.5009,
      "step": 50671
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5125423073768616,
      "learning_rate": 0.00024197722402326645,
      "loss": 1.643,
      "step": 50672
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5202922821044922,
      "learning_rate": 0.0002419669692970948,
      "loss": 1.5465,
      "step": 50673
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.534102201461792,
      "learning_rate": 0.00024195671464136663,
      "loss": 1.6232,
      "step": 50674
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5055045485496521,
      "learning_rate": 0.00024194646005609464,
      "loss": 1.5415,
      "step": 50675
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5071346759796143,
      "learning_rate": 0.0002419362055412909,
      "loss": 1.6257,
      "step": 50676
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5106257200241089,
      "learning_rate": 0.00024192595109696812,
      "loss": 1.6137,
      "step": 50677
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5351446866989136,
      "learning_rate": 0.00024191569672313873,
      "loss": 1.5818,
      "step": 50678
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5083199143409729,
      "learning_rate": 0.0002419054424198151,
      "loss": 1.5886,
      "step": 50679
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5058162808418274,
      "learning_rate": 0.00024189518818700965,
      "loss": 1.4905,
      "step": 50680
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.510634183883667,
      "learning_rate": 0.000241884934024735,
      "loss": 1.6115,
      "step": 50681
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5130988359451294,
      "learning_rate": 0.00024187467993300337,
      "loss": 1.5261,
      "step": 50682
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4984595477581024,
      "learning_rate": 0.0002418644259118273,
      "loss": 1.6005,
      "step": 50683
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.49522072076797485,
      "learning_rate": 0.00024185417196121925,
      "loss": 1.5216,
      "step": 50684
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.502201497554779,
      "learning_rate": 0.00024184391808119177,
      "loss": 1.6003,
      "step": 50685
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5241584181785583,
      "learning_rate": 0.00024183366427175715,
      "loss": 1.634,
      "step": 50686
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5079003572463989,
      "learning_rate": 0.00024182341053292786,
      "loss": 1.5612,
      "step": 50687
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5198708176612854,
      "learning_rate": 0.00024181315686471646,
      "loss": 1.6678,
      "step": 50688
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5062651634216309,
      "learning_rate": 0.00024180290326713524,
      "loss": 1.5881,
      "step": 50689
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4756496548652649,
      "learning_rate": 0.00024179264974019665,
      "loss": 1.5823,
      "step": 50690
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5125892162322998,
      "learning_rate": 0.00024178239628391344,
      "loss": 1.5901,
      "step": 50691
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5068495273590088,
      "learning_rate": 0.00024177214289829757,
      "loss": 1.6307,
      "step": 50692
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5361447334289551,
      "learning_rate": 0.00024176188958336184,
      "loss": 1.6145,
      "step": 50693
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5029804706573486,
      "learning_rate": 0.00024175163633911862,
      "loss": 1.5768,
      "step": 50694
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5047746300697327,
      "learning_rate": 0.00024174138316558033,
      "loss": 1.5167,
      "step": 50695
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4870951771736145,
      "learning_rate": 0.0002417311300627594,
      "loss": 1.5485,
      "step": 50696
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5122551918029785,
      "learning_rate": 0.00024172087703066823,
      "loss": 1.6147,
      "step": 50697
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5082934498786926,
      "learning_rate": 0.00024171062406931948,
      "loss": 1.5823,
      "step": 50698
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5368630886077881,
      "learning_rate": 0.00024170037117872528,
      "loss": 1.5604,
      "step": 50699
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5048815011978149,
      "learning_rate": 0.0002416901183588983,
      "loss": 1.5724,
      "step": 50700
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5322369933128357,
      "learning_rate": 0.000241679865609851,
      "loss": 1.5568,
      "step": 50701
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5090007185935974,
      "learning_rate": 0.0002416696129315957,
      "loss": 1.5446,
      "step": 50702
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5249611735343933,
      "learning_rate": 0.00024165936032414487,
      "loss": 1.6378,
      "step": 50703
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5223369002342224,
      "learning_rate": 0.00024164910778751088,
      "loss": 1.5797,
      "step": 50704
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5198609232902527,
      "learning_rate": 0.00024163885532170652,
      "loss": 1.6111,
      "step": 50705
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5204746127128601,
      "learning_rate": 0.0002416286029267438,
      "loss": 1.6131,
      "step": 50706
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5308150053024292,
      "learning_rate": 0.0002416183506026354,
      "loss": 1.5858,
      "step": 50707
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.510179340839386,
      "learning_rate": 0.00024160809834939377,
      "loss": 1.5674,
      "step": 50708
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5323219895362854,
      "learning_rate": 0.00024159784616703127,
      "loss": 1.5295,
      "step": 50709
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5104878544807434,
      "learning_rate": 0.00024158759405556036,
      "loss": 1.5576,
      "step": 50710
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5119971036911011,
      "learning_rate": 0.0002415773420149936,
      "loss": 1.61,
      "step": 50711
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5098950266838074,
      "learning_rate": 0.00024156709004534324,
      "loss": 1.5446,
      "step": 50712
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5206491947174072,
      "learning_rate": 0.00024155683814662177,
      "loss": 1.5549,
      "step": 50713
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.511903703212738,
      "learning_rate": 0.00024154658631884174,
      "loss": 1.5996,
      "step": 50714
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5207880139350891,
      "learning_rate": 0.0002415363345620156,
      "loss": 1.5599,
      "step": 50715
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5241857171058655,
      "learning_rate": 0.00024152608287615574,
      "loss": 1.5612,
      "step": 50716
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5241957306861877,
      "learning_rate": 0.00024151583126127453,
      "loss": 1.5132,
      "step": 50717
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5193053483963013,
      "learning_rate": 0.00024150557971738457,
      "loss": 1.5462,
      "step": 50718
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.519328236579895,
      "learning_rate": 0.00024149532824449814,
      "loss": 1.5884,
      "step": 50719
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5315284132957458,
      "learning_rate": 0.00024148507684262772,
      "loss": 1.6309,
      "step": 50720
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5000555515289307,
      "learning_rate": 0.00024147482551178598,
      "loss": 1.5834,
      "step": 50721
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5148193836212158,
      "learning_rate": 0.00024146457425198496,
      "loss": 1.5671,
      "step": 50722
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5102371573448181,
      "learning_rate": 0.00024145432306323743,
      "loss": 1.6006,
      "step": 50723
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.49133870005607605,
      "learning_rate": 0.00024144407194555572,
      "loss": 1.6281,
      "step": 50724
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5291883945465088,
      "learning_rate": 0.0002414338208989523,
      "loss": 1.5948,
      "step": 50725
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5130306482315063,
      "learning_rate": 0.00024142356992343957,
      "loss": 1.6044,
      "step": 50726
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5090729594230652,
      "learning_rate": 0.0002414133190190299,
      "loss": 1.6159,
      "step": 50727
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5104878544807434,
      "learning_rate": 0.000241403068185736,
      "loss": 1.5755,
      "step": 50728
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5084870457649231,
      "learning_rate": 0.00024139281742357002,
      "loss": 1.5524,
      "step": 50729
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.529413104057312,
      "learning_rate": 0.00024138256673254455,
      "loss": 1.5777,
      "step": 50730
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5189377665519714,
      "learning_rate": 0.000241372316112672,
      "loss": 1.5956,
      "step": 50731
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.509020209312439,
      "learning_rate": 0.0002413620655639649,
      "loss": 1.6596,
      "step": 50732
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4834662973880768,
      "learning_rate": 0.00024135181508643552,
      "loss": 1.6544,
      "step": 50733
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5188056826591492,
      "learning_rate": 0.00024134156468009636,
      "loss": 1.6521,
      "step": 50734
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5168676972389221,
      "learning_rate": 0.0002413313143449601,
      "loss": 1.568,
      "step": 50735
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.516054093837738,
      "learning_rate": 0.00024132106408103875,
      "loss": 1.6257,
      "step": 50736
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4922695755958557,
      "learning_rate": 0.00024131081388834507,
      "loss": 1.5713,
      "step": 50737
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5004802346229553,
      "learning_rate": 0.0002413005637668915,
      "loss": 1.5859,
      "step": 50738
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5097084045410156,
      "learning_rate": 0.00024129031371669028,
      "loss": 1.5747,
      "step": 50739
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5140544176101685,
      "learning_rate": 0.000241280063737754,
      "loss": 1.56,
      "step": 50740
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5222122073173523,
      "learning_rate": 0.00024126981383009504,
      "loss": 1.6156,
      "step": 50741
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5263243913650513,
      "learning_rate": 0.000241259563993726,
      "loss": 1.633,
      "step": 50742
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5218346118927002,
      "learning_rate": 0.00024124931422865904,
      "loss": 1.5997,
      "step": 50743
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4940640330314636,
      "learning_rate": 0.0002412390645349068,
      "loss": 1.5702,
      "step": 50744
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5097491145133972,
      "learning_rate": 0.00024122881491248175,
      "loss": 1.5379,
      "step": 50745
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5217468738555908,
      "learning_rate": 0.0002412185653613962,
      "loss": 1.6281,
      "step": 50746
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5100010633468628,
      "learning_rate": 0.00024120831588166265,
      "loss": 1.5848,
      "step": 50747
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5299953818321228,
      "learning_rate": 0.0002411980664732936,
      "loss": 1.5667,
      "step": 50748
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5036407709121704,
      "learning_rate": 0.00024118781713630135,
      "loss": 1.6328,
      "step": 50749
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.49469247460365295,
      "learning_rate": 0.0002411775678706984,
      "loss": 1.544,
      "step": 50750
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5250653028488159,
      "learning_rate": 0.00024116731867649728,
      "loss": 1.6921,
      "step": 50751
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5062552690505981,
      "learning_rate": 0.0002411570695537104,
      "loss": 1.5587,
      "step": 50752
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.524511992931366,
      "learning_rate": 0.0002411468205023501,
      "loss": 1.5975,
      "step": 50753
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5233901739120483,
      "learning_rate": 0.00024113657152242891,
      "loss": 1.617,
      "step": 50754
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5379122495651245,
      "learning_rate": 0.00024112632261395932,
      "loss": 1.629,
      "step": 50755
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.504772961139679,
      "learning_rate": 0.00024111607377695364,
      "loss": 1.6503,
      "step": 50756
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5100027918815613,
      "learning_rate": 0.00024110582501142428,
      "loss": 1.508,
      "step": 50757
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5105108022689819,
      "learning_rate": 0.00024109557631738393,
      "loss": 1.5687,
      "step": 50758
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5629153847694397,
      "learning_rate": 0.00024108532769484477,
      "loss": 1.5807,
      "step": 50759
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.538128674030304,
      "learning_rate": 0.00024107507914381934,
      "loss": 1.6398,
      "step": 50760
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5114992260932922,
      "learning_rate": 0.0002410648306643201,
      "loss": 1.6545,
      "step": 50761
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5140470266342163,
      "learning_rate": 0.00024105458225635957,
      "loss": 1.6116,
      "step": 50762
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5103617906570435,
      "learning_rate": 0.0002410443339199499,
      "loss": 1.553,
      "step": 50763
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5245216488838196,
      "learning_rate": 0.0002410340856551038,
      "loss": 1.6151,
      "step": 50764
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5042016506195068,
      "learning_rate": 0.00024102383746183373,
      "loss": 1.6023,
      "step": 50765
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5122085213661194,
      "learning_rate": 0.00024101358934015195,
      "loss": 1.5777,
      "step": 50766
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5294672846794128,
      "learning_rate": 0.00024100334129007096,
      "loss": 1.5218,
      "step": 50767
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5410400629043579,
      "learning_rate": 0.00024099309331160332,
      "loss": 1.6197,
      "step": 50768
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5042239427566528,
      "learning_rate": 0.0002409828454047613,
      "loss": 1.5786,
      "step": 50769
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5133910775184631,
      "learning_rate": 0.00024097259756955734,
      "loss": 1.5886,
      "step": 50770
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5126685500144958,
      "learning_rate": 0.000240962349806004,
      "loss": 1.5673,
      "step": 50771
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5171759128570557,
      "learning_rate": 0.00024095210211411372,
      "loss": 1.6006,
      "step": 50772
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5021156668663025,
      "learning_rate": 0.00024094185449389887,
      "loss": 1.6113,
      "step": 50773
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5195490717887878,
      "learning_rate": 0.0002409316069453719,
      "loss": 1.5488,
      "step": 50774
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5162697434425354,
      "learning_rate": 0.0002409213594685453,
      "loss": 1.6635,
      "step": 50775
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5180531740188599,
      "learning_rate": 0.0002409111120634314,
      "loss": 1.638,
      "step": 50776
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5336230993270874,
      "learning_rate": 0.00024090086473004262,
      "loss": 1.5996,
      "step": 50777
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5051994919776917,
      "learning_rate": 0.00024089061746839172,
      "loss": 1.5265,
      "step": 50778
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5072456002235413,
      "learning_rate": 0.00024088037027849066,
      "loss": 1.6106,
      "step": 50779
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5123091340065002,
      "learning_rate": 0.0002408701231603522,
      "loss": 1.5618,
      "step": 50780
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5271595120429993,
      "learning_rate": 0.0002408598761139887,
      "loss": 1.6121,
      "step": 50781
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5035794973373413,
      "learning_rate": 0.00024084962913941272,
      "loss": 1.5355,
      "step": 50782
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5449341535568237,
      "learning_rate": 0.00024083938223663643,
      "loss": 1.6399,
      "step": 50783
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4848843514919281,
      "learning_rate": 0.0002408291354056724,
      "loss": 1.5299,
      "step": 50784
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5308568477630615,
      "learning_rate": 0.00024081888864653324,
      "loss": 1.5741,
      "step": 50785
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5232878923416138,
      "learning_rate": 0.00024080864195923107,
      "loss": 1.5343,
      "step": 50786
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5138816237449646,
      "learning_rate": 0.00024079839534377851,
      "loss": 1.5411,
      "step": 50787
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5330321788787842,
      "learning_rate": 0.00024078814880018807,
      "loss": 1.6071,
      "step": 50788
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5034793615341187,
      "learning_rate": 0.00024077790232847202,
      "loss": 1.5449,
      "step": 50789
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.524230420589447,
      "learning_rate": 0.00024076765592864286,
      "loss": 1.5943,
      "step": 50790
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5268546938896179,
      "learning_rate": 0.00024075740960071297,
      "loss": 1.6313,
      "step": 50791
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5426324605941772,
      "learning_rate": 0.0002407471633446951,
      "loss": 1.5483,
      "step": 50792
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5182247757911682,
      "learning_rate": 0.00024073691716060118,
      "loss": 1.6371,
      "step": 50793
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4962817132472992,
      "learning_rate": 0.00024072667104844402,
      "loss": 1.6721,
      "step": 50794
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5267353653907776,
      "learning_rate": 0.000240716425008236,
      "loss": 1.6192,
      "step": 50795
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5020147562026978,
      "learning_rate": 0.00024070617903998947,
      "loss": 1.6045,
      "step": 50796
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5239089131355286,
      "learning_rate": 0.00024069593314371684,
      "loss": 1.6022,
      "step": 50797
    },
    {
      "epoch": 1.69,
      "grad_norm": 1.4323089122772217,
      "learning_rate": 0.00024068568731943073,
      "loss": 1.5979,
      "step": 50798
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5173035264015198,
      "learning_rate": 0.00024067544156714335,
      "loss": 1.5216,
      "step": 50799
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5196682810783386,
      "learning_rate": 0.00024066519588686718,
      "loss": 1.6519,
      "step": 50800
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5088169574737549,
      "learning_rate": 0.0002406549502786148,
      "loss": 1.5252,
      "step": 50801
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5195155739784241,
      "learning_rate": 0.00024064470474239864,
      "loss": 1.5828,
      "step": 50802
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5291428565979004,
      "learning_rate": 0.000240634459278231,
      "loss": 1.5579,
      "step": 50803
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5290343165397644,
      "learning_rate": 0.00024062421388612435,
      "loss": 1.5785,
      "step": 50804
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.526078999042511,
      "learning_rate": 0.00024061396856609124,
      "loss": 1.4699,
      "step": 50805
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5323033928871155,
      "learning_rate": 0.00024060372331814395,
      "loss": 1.6664,
      "step": 50806
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5606513619422913,
      "learning_rate": 0.00024059347814229493,
      "loss": 1.6812,
      "step": 50807
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5079728960990906,
      "learning_rate": 0.00024058323303855687,
      "loss": 1.5935,
      "step": 50808
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5100387334823608,
      "learning_rate": 0.00024057298800694184,
      "loss": 1.5225,
      "step": 50809
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5509380102157593,
      "learning_rate": 0.00024056274304746247,
      "loss": 1.5479,
      "step": 50810
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5164436101913452,
      "learning_rate": 0.0002405524981601312,
      "loss": 1.5938,
      "step": 50811
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5195605754852295,
      "learning_rate": 0.0002405422533449605,
      "loss": 1.6225,
      "step": 50812
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5220456123352051,
      "learning_rate": 0.00024053200860196266,
      "loss": 1.5459,
      "step": 50813
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5553268790245056,
      "learning_rate": 0.00024052176393115016,
      "loss": 1.5299,
      "step": 50814
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5238829851150513,
      "learning_rate": 0.0002405115193325356,
      "loss": 1.611,
      "step": 50815
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5332293510437012,
      "learning_rate": 0.0002405012748061312,
      "loss": 1.6202,
      "step": 50816
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.517467200756073,
      "learning_rate": 0.00024049103035194945,
      "loss": 1.5307,
      "step": 50817
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5150139331817627,
      "learning_rate": 0.00024048078597000295,
      "loss": 1.6394,
      "step": 50818
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.520722508430481,
      "learning_rate": 0.00024047054166030394,
      "loss": 1.6346,
      "step": 50819
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5266025066375732,
      "learning_rate": 0.0002404602974228649,
      "loss": 1.6077,
      "step": 50820
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5335171222686768,
      "learning_rate": 0.00024045005325769824,
      "loss": 1.6252,
      "step": 50821
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5068218111991882,
      "learning_rate": 0.00024043980916481662,
      "loss": 1.628,
      "step": 50822
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5087928175926208,
      "learning_rate": 0.0002404295651442321,
      "loss": 1.6376,
      "step": 50823
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5184959769248962,
      "learning_rate": 0.00024041932119595738,
      "loss": 1.6215,
      "step": 50824
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5057746767997742,
      "learning_rate": 0.0002404090773200049,
      "loss": 1.5818,
      "step": 50825
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5049712061882019,
      "learning_rate": 0.00024039883351638694,
      "loss": 1.6046,
      "step": 50826
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5155301690101624,
      "learning_rate": 0.00024038858978511603,
      "loss": 1.6319,
      "step": 50827
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.6266629099845886,
      "learning_rate": 0.00024037834612620462,
      "loss": 1.6416,
      "step": 50828
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5235739946365356,
      "learning_rate": 0.0002403681025396651,
      "loss": 1.5874,
      "step": 50829
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5406265258789062,
      "learning_rate": 0.0002403578590255098,
      "loss": 1.6154,
      "step": 50830
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5281035900115967,
      "learning_rate": 0.00024034761558375137,
      "loss": 1.6395,
      "step": 50831
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5099834203720093,
      "learning_rate": 0.0002403373722144022,
      "loss": 1.5605,
      "step": 50832
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5013957023620605,
      "learning_rate": 0.00024032712891747463,
      "loss": 1.6461,
      "step": 50833
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5180509090423584,
      "learning_rate": 0.00024031688569298108,
      "loss": 1.5816,
      "step": 50834
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5227684378623962,
      "learning_rate": 0.00024030664254093411,
      "loss": 1.5438,
      "step": 50835
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.520693302154541,
      "learning_rate": 0.00024029639946134606,
      "loss": 1.6189,
      "step": 50836
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5089511275291443,
      "learning_rate": 0.0002402861564542293,
      "loss": 1.5781,
      "step": 50837
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5074995756149292,
      "learning_rate": 0.00024027591351959656,
      "loss": 1.6889,
      "step": 50838
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.49399346113204956,
      "learning_rate": 0.00024026567065745983,
      "loss": 1.6385,
      "step": 50839
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5065044164657593,
      "learning_rate": 0.00024025542786783186,
      "loss": 1.4855,
      "step": 50840
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5330023765563965,
      "learning_rate": 0.00024024518515072498,
      "loss": 1.5232,
      "step": 50841
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.7250003814697266,
      "learning_rate": 0.00024023494250615171,
      "loss": 1.6545,
      "step": 50842
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4942542016506195,
      "learning_rate": 0.00024022469993412434,
      "loss": 1.6277,
      "step": 50843
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.517840564250946,
      "learning_rate": 0.00024021445743465535,
      "loss": 1.5773,
      "step": 50844
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5112830400466919,
      "learning_rate": 0.00024020421500775739,
      "loss": 1.5735,
      "step": 50845
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5073798894882202,
      "learning_rate": 0.00024019397265344247,
      "loss": 1.6238,
      "step": 50846
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.540389895439148,
      "learning_rate": 0.00024018373037172335,
      "loss": 1.5791,
      "step": 50847
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5036923289299011,
      "learning_rate": 0.00024017348816261243,
      "loss": 1.608,
      "step": 50848
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5089343786239624,
      "learning_rate": 0.000240163246026122,
      "loss": 1.5868,
      "step": 50849
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.501725971698761,
      "learning_rate": 0.00024015300396226457,
      "loss": 1.6003,
      "step": 50850
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5260013341903687,
      "learning_rate": 0.00024014276197105252,
      "loss": 1.6537,
      "step": 50851
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5465768575668335,
      "learning_rate": 0.0002401325200524985,
      "loss": 1.5413,
      "step": 50852
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5097535848617554,
      "learning_rate": 0.00024012227820661468,
      "loss": 1.5575,
      "step": 50853
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5177310109138489,
      "learning_rate": 0.00024011203643341359,
      "loss": 1.6875,
      "step": 50854
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5025821328163147,
      "learning_rate": 0.0002401017947329077,
      "loss": 1.5515,
      "step": 50855
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.519730269908905,
      "learning_rate": 0.0002400915531051094,
      "loss": 1.604,
      "step": 50856
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5155242085456848,
      "learning_rate": 0.0002400813115500311,
      "loss": 1.6201,
      "step": 50857
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5017098784446716,
      "learning_rate": 0.00024007107006768517,
      "loss": 1.5588,
      "step": 50858
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5242521166801453,
      "learning_rate": 0.00024006082865808437,
      "loss": 1.6134,
      "step": 50859
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5048717260360718,
      "learning_rate": 0.0002400505873212407,
      "loss": 1.5608,
      "step": 50860
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4907783269882202,
      "learning_rate": 0.00024004034605716682,
      "loss": 1.596,
      "step": 50861
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5181863307952881,
      "learning_rate": 0.00024003010486587517,
      "loss": 1.6275,
      "step": 50862
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5075914859771729,
      "learning_rate": 0.0002400198637473781,
      "loss": 1.5976,
      "step": 50863
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5127346515655518,
      "learning_rate": 0.0002400096227016881,
      "loss": 1.5869,
      "step": 50864
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5142248272895813,
      "learning_rate": 0.0002399993817288176,
      "loss": 1.6456,
      "step": 50865
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5130945444107056,
      "learning_rate": 0.00023998914082877895,
      "loss": 1.5601,
      "step": 50866
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5128841996192932,
      "learning_rate": 0.0002399789000015846,
      "loss": 1.6565,
      "step": 50867
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5274512767791748,
      "learning_rate": 0.00023996865924724711,
      "loss": 1.6277,
      "step": 50868
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5074292421340942,
      "learning_rate": 0.00023995841856577885,
      "loss": 1.6034,
      "step": 50869
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5411070585250854,
      "learning_rate": 0.00023994817795719217,
      "loss": 1.704,
      "step": 50870
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.505487859249115,
      "learning_rate": 0.00023993793742149955,
      "loss": 1.5745,
      "step": 50871
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5231119394302368,
      "learning_rate": 0.00023992769695871345,
      "loss": 1.5837,
      "step": 50872
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4979253113269806,
      "learning_rate": 0.0002399174565688462,
      "loss": 1.5036,
      "step": 50873
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.49799442291259766,
      "learning_rate": 0.00023990721625191037,
      "loss": 1.5336,
      "step": 50874
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5190051794052124,
      "learning_rate": 0.00023989697600791836,
      "loss": 1.5395,
      "step": 50875
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5217854976654053,
      "learning_rate": 0.0002398867358368825,
      "loss": 1.6051,
      "step": 50876
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.510284960269928,
      "learning_rate": 0.00023987649573881532,
      "loss": 1.6109,
      "step": 50877
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.507784903049469,
      "learning_rate": 0.00023986625571372917,
      "loss": 1.5752,
      "step": 50878
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5186974406242371,
      "learning_rate": 0.0002398560157616366,
      "loss": 1.6114,
      "step": 50879
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5349300503730774,
      "learning_rate": 0.00023984577588254986,
      "loss": 1.5796,
      "step": 50880
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5144069194793701,
      "learning_rate": 0.00023983553607648156,
      "loss": 1.5585,
      "step": 50881
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5095567107200623,
      "learning_rate": 0.0002398252963434441,
      "loss": 1.5761,
      "step": 50882
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5184909105300903,
      "learning_rate": 0.00023981505668344978,
      "loss": 1.6985,
      "step": 50883
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5245795249938965,
      "learning_rate": 0.00023980481709651112,
      "loss": 1.5242,
      "step": 50884
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.519468367099762,
      "learning_rate": 0.0002397945775826406,
      "loss": 1.576,
      "step": 50885
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5240789651870728,
      "learning_rate": 0.00023978433814185056,
      "loss": 1.5531,
      "step": 50886
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5046812891960144,
      "learning_rate": 0.0002397740987741534,
      "loss": 1.6153,
      "step": 50887
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5003848671913147,
      "learning_rate": 0.00023976385947956165,
      "loss": 1.6052,
      "step": 50888
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.484154611825943,
      "learning_rate": 0.00023975362025808778,
      "loss": 1.5502,
      "step": 50889
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5012874603271484,
      "learning_rate": 0.00023974338110974408,
      "loss": 1.5481,
      "step": 50890
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5193181037902832,
      "learning_rate": 0.000239733142034543,
      "loss": 1.5945,
      "step": 50891
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5222543478012085,
      "learning_rate": 0.00023972290303249708,
      "loss": 1.5547,
      "step": 50892
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5115135908126831,
      "learning_rate": 0.00023971266410361864,
      "loss": 1.6121,
      "step": 50893
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5183447599411011,
      "learning_rate": 0.00023970242524792005,
      "loss": 1.5716,
      "step": 50894
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5182213187217712,
      "learning_rate": 0.00023969218646541403,
      "loss": 1.6746,
      "step": 50895
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5006905198097229,
      "learning_rate": 0.00023968194775611263,
      "loss": 1.6208,
      "step": 50896
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5274403095245361,
      "learning_rate": 0.0002396717091200285,
      "loss": 1.6104,
      "step": 50897
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5236670970916748,
      "learning_rate": 0.00023966147055717402,
      "loss": 1.6258,
      "step": 50898
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5060646533966064,
      "learning_rate": 0.00023965123206756174,
      "loss": 1.5841,
      "step": 50899
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5095565915107727,
      "learning_rate": 0.00023964099365120386,
      "loss": 1.5764,
      "step": 50900
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5368272066116333,
      "learning_rate": 0.00023963075530811288,
      "loss": 1.5281,
      "step": 50901
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5117160677909851,
      "learning_rate": 0.00023962051703830143,
      "loss": 1.5774,
      "step": 50902
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5161104798316956,
      "learning_rate": 0.00023961027884178163,
      "loss": 1.6108,
      "step": 50903
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.48808616399765015,
      "learning_rate": 0.0002396000407185661,
      "loss": 1.542,
      "step": 50904
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5171654224395752,
      "learning_rate": 0.00023958980266866728,
      "loss": 1.6715,
      "step": 50905
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5016833543777466,
      "learning_rate": 0.00023957956469209744,
      "loss": 1.5761,
      "step": 50906
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5338247418403625,
      "learning_rate": 0.00023956932678886913,
      "loss": 1.6064,
      "step": 50907
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4966129660606384,
      "learning_rate": 0.0002395590889589947,
      "loss": 1.5925,
      "step": 50908
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.513446033000946,
      "learning_rate": 0.00023954885120248682,
      "loss": 1.6007,
      "step": 50909
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5201347470283508,
      "learning_rate": 0.00023953861351935755,
      "loss": 1.6501,
      "step": 50910
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5112335085868835,
      "learning_rate": 0.00023952837590961954,
      "loss": 1.5233,
      "step": 50911
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.536773681640625,
      "learning_rate": 0.00023951813837328528,
      "loss": 1.5825,
      "step": 50912
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5296801924705505,
      "learning_rate": 0.00023950790091036695,
      "loss": 1.5925,
      "step": 50913
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5092648267745972,
      "learning_rate": 0.00023949766352087713,
      "loss": 1.5271,
      "step": 50914
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5053180456161499,
      "learning_rate": 0.00023948742620482833,
      "loss": 1.584,
      "step": 50915
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5057349801063538,
      "learning_rate": 0.00023947718896223278,
      "loss": 1.5375,
      "step": 50916
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5269253253936768,
      "learning_rate": 0.000239466951793103,
      "loss": 1.5793,
      "step": 50917
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5125394463539124,
      "learning_rate": 0.0002394567146974514,
      "loss": 1.5157,
      "step": 50918
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5601702332496643,
      "learning_rate": 0.00023944647767529056,
      "loss": 1.599,
      "step": 50919
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5068319439888,
      "learning_rate": 0.00023943624072663268,
      "loss": 1.6488,
      "step": 50920
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5235608816146851,
      "learning_rate": 0.0002394260038514903,
      "loss": 1.5607,
      "step": 50921
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.539811909198761,
      "learning_rate": 0.00023941576704987588,
      "loss": 1.6265,
      "step": 50922
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5277791023254395,
      "learning_rate": 0.00023940553032180173,
      "loss": 1.577,
      "step": 50923
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.530821681022644,
      "learning_rate": 0.00023939529366728024,
      "loss": 1.56,
      "step": 50924
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.4952240288257599,
      "learning_rate": 0.00023938505708632417,
      "loss": 1.5619,
      "step": 50925
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.505662202835083,
      "learning_rate": 0.00023937482057894552,
      "loss": 1.559,
      "step": 50926
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5104528069496155,
      "learning_rate": 0.00023936458414515694,
      "loss": 1.6317,
      "step": 50927
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.981837809085846,
      "learning_rate": 0.00023935434778497085,
      "loss": 1.5408,
      "step": 50928
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5238202214241028,
      "learning_rate": 0.00023934411149839968,
      "loss": 1.6123,
      "step": 50929
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5030336380004883,
      "learning_rate": 0.00023933387528545576,
      "loss": 1.5994,
      "step": 50930
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5242376327514648,
      "learning_rate": 0.00023932363914615153,
      "loss": 1.5867,
      "step": 50931
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5148784518241882,
      "learning_rate": 0.00023931340308049967,
      "loss": 1.57,
      "step": 50932
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5251347422599792,
      "learning_rate": 0.00023930316708851217,
      "loss": 1.6231,
      "step": 50933
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5184629559516907,
      "learning_rate": 0.00023929293117020176,
      "loss": 1.5548,
      "step": 50934
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5047653913497925,
      "learning_rate": 0.00023928269532558084,
      "loss": 1.5404,
      "step": 50935
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.524042546749115,
      "learning_rate": 0.00023927245955466175,
      "loss": 1.6768,
      "step": 50936
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.52741539478302,
      "learning_rate": 0.0002392622238574569,
      "loss": 1.5542,
      "step": 50937
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5211551785469055,
      "learning_rate": 0.00023925198823397873,
      "loss": 1.4836,
      "step": 50938
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.532234251499176,
      "learning_rate": 0.0002392417526842399,
      "loss": 1.6333,
      "step": 50939
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.49495095014572144,
      "learning_rate": 0.00023923151720825237,
      "loss": 1.5932,
      "step": 50940
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5251564383506775,
      "learning_rate": 0.00023922128180602894,
      "loss": 1.5625,
      "step": 50941
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5216017961502075,
      "learning_rate": 0.00023921104647758198,
      "loss": 1.5274,
      "step": 50942
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5388479232788086,
      "learning_rate": 0.00023920081122292378,
      "loss": 1.624,
      "step": 50943
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.527313232421875,
      "learning_rate": 0.00023919057604206685,
      "loss": 1.5687,
      "step": 50944
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5254952311515808,
      "learning_rate": 0.00023918034093502367,
      "loss": 1.6133,
      "step": 50945
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5214224457740784,
      "learning_rate": 0.0002391701059018065,
      "loss": 1.5749,
      "step": 50946
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5104657411575317,
      "learning_rate": 0.0002391598709424278,
      "loss": 1.567,
      "step": 50947
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5044587850570679,
      "learning_rate": 0.00023914963605690013,
      "loss": 1.5815,
      "step": 50948
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5395308136940002,
      "learning_rate": 0.0002391394012452359,
      "loss": 1.5627,
      "step": 50949
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5305604338645935,
      "learning_rate": 0.0002391291665074474,
      "loss": 1.579,
      "step": 50950
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5438191890716553,
      "learning_rate": 0.00023911893184354715,
      "loss": 1.5464,
      "step": 50951
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5431835055351257,
      "learning_rate": 0.00023910869725354757,
      "loss": 1.5375,
      "step": 50952
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5234814286231995,
      "learning_rate": 0.00023909846273746104,
      "loss": 1.4872,
      "step": 50953
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5276726484298706,
      "learning_rate": 0.00023908822829529989,
      "loss": 1.5946,
      "step": 50954
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.539127767086029,
      "learning_rate": 0.00023907799392707685,
      "loss": 1.6281,
      "step": 50955
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5268731117248535,
      "learning_rate": 0.000239067759632804,
      "loss": 1.6147,
      "step": 50956
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5137430429458618,
      "learning_rate": 0.00023905752541249393,
      "loss": 1.5983,
      "step": 50957
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49828049540519714,
      "learning_rate": 0.00023904729126615908,
      "loss": 1.645,
      "step": 50958
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5468460917472839,
      "learning_rate": 0.0002390370571938119,
      "loss": 1.6136,
      "step": 50959
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.520402729511261,
      "learning_rate": 0.00023902682319546466,
      "loss": 1.6248,
      "step": 50960
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5089757442474365,
      "learning_rate": 0.00023901658927112982,
      "loss": 1.5746,
      "step": 50961
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5506616830825806,
      "learning_rate": 0.00023900635542082005,
      "loss": 1.5807,
      "step": 50962
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5119797587394714,
      "learning_rate": 0.00023899612164454738,
      "loss": 1.6048,
      "step": 50963
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5050998330116272,
      "learning_rate": 0.0002389858879423245,
      "loss": 1.4977,
      "step": 50964
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5279282331466675,
      "learning_rate": 0.00023897565431416383,
      "loss": 1.5087,
      "step": 50965
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.526300847530365,
      "learning_rate": 0.00023896542076007766,
      "loss": 1.6204,
      "step": 50966
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.526265561580658,
      "learning_rate": 0.00023895518728007844,
      "loss": 1.5757,
      "step": 50967
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5157331228256226,
      "learning_rate": 0.0002389449538741786,
      "loss": 1.4766,
      "step": 50968
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5092316269874573,
      "learning_rate": 0.00023893472054239078,
      "loss": 1.6105,
      "step": 50969
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.549672544002533,
      "learning_rate": 0.00023892448728472703,
      "loss": 1.6312,
      "step": 50970
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5207263231277466,
      "learning_rate": 0.00023891425410120003,
      "loss": 1.6019,
      "step": 50971
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5179447531700134,
      "learning_rate": 0.00023890402099182215,
      "loss": 1.5974,
      "step": 50972
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5132579803466797,
      "learning_rate": 0.00023889378795660573,
      "loss": 1.5784,
      "step": 50973
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5287944674491882,
      "learning_rate": 0.00023888355499556324,
      "loss": 1.6373,
      "step": 50974
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49850091338157654,
      "learning_rate": 0.00023887332210870707,
      "loss": 1.5466,
      "step": 50975
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5200116038322449,
      "learning_rate": 0.00023886308929604985,
      "loss": 1.5244,
      "step": 50976
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5333139896392822,
      "learning_rate": 0.00023885285655760364,
      "loss": 1.5894,
      "step": 50977
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4959140717983246,
      "learning_rate": 0.00023884262389338115,
      "loss": 1.5509,
      "step": 50978
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5138989686965942,
      "learning_rate": 0.00023883239130339476,
      "loss": 1.6051,
      "step": 50979
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5220075249671936,
      "learning_rate": 0.00023882215878765677,
      "loss": 1.6342,
      "step": 50980
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5143114924430847,
      "learning_rate": 0.00023881192634617963,
      "loss": 1.5016,
      "step": 50981
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5138283371925354,
      "learning_rate": 0.0002388016939789759,
      "loss": 1.631,
      "step": 50982
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5264458656311035,
      "learning_rate": 0.0002387914616860578,
      "loss": 1.6091,
      "step": 50983
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5263091325759888,
      "learning_rate": 0.00023878122946743778,
      "loss": 1.6047,
      "step": 50984
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5283480286598206,
      "learning_rate": 0.0002387709973231284,
      "loss": 1.6026,
      "step": 50985
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5203914642333984,
      "learning_rate": 0.00023876076525314207,
      "loss": 1.5227,
      "step": 50986
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49545204639434814,
      "learning_rate": 0.0002387505332574911,
      "loss": 1.5847,
      "step": 50987
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5048879981040955,
      "learning_rate": 0.00023874030133618797,
      "loss": 1.5799,
      "step": 50988
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.512109100818634,
      "learning_rate": 0.00023873006948924513,
      "loss": 1.5347,
      "step": 50989
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5000188946723938,
      "learning_rate": 0.0002387198377166748,
      "loss": 1.5628,
      "step": 50990
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5366098880767822,
      "learning_rate": 0.00023870960601848966,
      "loss": 1.5831,
      "step": 50991
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5349770188331604,
      "learning_rate": 0.0002386993743947021,
      "loss": 1.5924,
      "step": 50992
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5304038524627686,
      "learning_rate": 0.00023868914284532437,
      "loss": 1.5468,
      "step": 50993
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4787837564945221,
      "learning_rate": 0.00023867891137036902,
      "loss": 1.6189,
      "step": 50994
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5013593435287476,
      "learning_rate": 0.00023866867996984842,
      "loss": 1.5732,
      "step": 50995
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5127351880073547,
      "learning_rate": 0.00023865844864377506,
      "loss": 1.5954,
      "step": 50996
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5174989104270935,
      "learning_rate": 0.0002386482173921612,
      "loss": 1.6312,
      "step": 50997
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5224320888519287,
      "learning_rate": 0.00023863798621501944,
      "loss": 1.6153,
      "step": 50998
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5220504403114319,
      "learning_rate": 0.00023862775511236217,
      "loss": 1.618,
      "step": 50999
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.527569055557251,
      "learning_rate": 0.00023861752408420165,
      "loss": 1.5584,
      "step": 51000
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.494027704000473,
      "learning_rate": 0.00023860729313055046,
      "loss": 1.6038,
      "step": 51001
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5321491360664368,
      "learning_rate": 0.00023859706225142104,
      "loss": 1.5923,
      "step": 51002
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5091999769210815,
      "learning_rate": 0.00023858683144682564,
      "loss": 1.5676,
      "step": 51003
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5338312983512878,
      "learning_rate": 0.00023857660071677678,
      "loss": 1.6085,
      "step": 51004
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5097737908363342,
      "learning_rate": 0.00023856637006128688,
      "loss": 1.5188,
      "step": 51005
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5132333040237427,
      "learning_rate": 0.00023855613948036846,
      "loss": 1.6226,
      "step": 51006
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5392830967903137,
      "learning_rate": 0.00023854590897403374,
      "loss": 1.5646,
      "step": 51007
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5123185515403748,
      "learning_rate": 0.0002385356785422952,
      "loss": 1.6684,
      "step": 51008
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5100481510162354,
      "learning_rate": 0.0002385254481851654,
      "loss": 1.6757,
      "step": 51009
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5243771076202393,
      "learning_rate": 0.00023851521790265657,
      "loss": 1.5634,
      "step": 51010
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5049141049385071,
      "learning_rate": 0.00023850498769478114,
      "loss": 1.5764,
      "step": 51011
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5275465846061707,
      "learning_rate": 0.0002384947575615518,
      "loss": 1.6649,
      "step": 51012
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5229232311248779,
      "learning_rate": 0.00023848452750298058,
      "loss": 1.6856,
      "step": 51013
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5088050961494446,
      "learning_rate": 0.0002384742975190801,
      "loss": 1.5317,
      "step": 51014
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5134272575378418,
      "learning_rate": 0.00023846406760986283,
      "loss": 1.6432,
      "step": 51015
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5152161717414856,
      "learning_rate": 0.00023845383777534111,
      "loss": 1.5637,
      "step": 51016
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5194559097290039,
      "learning_rate": 0.00023844360801552735,
      "loss": 1.6335,
      "step": 51017
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5119684338569641,
      "learning_rate": 0.00023843337833043387,
      "loss": 1.5649,
      "step": 51018
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5046142339706421,
      "learning_rate": 0.0002384231487200734,
      "loss": 1.5596,
      "step": 51019
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5221512913703918,
      "learning_rate": 0.000238412919184458,
      "loss": 1.6146,
      "step": 51020
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5027477741241455,
      "learning_rate": 0.00023840268972360025,
      "loss": 1.5986,
      "step": 51021
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5269467830657959,
      "learning_rate": 0.00023839246033751266,
      "loss": 1.5807,
      "step": 51022
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5232556462287903,
      "learning_rate": 0.00023838223102620748,
      "loss": 1.5423,
      "step": 51023
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5310099720954895,
      "learning_rate": 0.00023837200178969718,
      "loss": 1.5526,
      "step": 51024
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5125153660774231,
      "learning_rate": 0.00023836177262799414,
      "loss": 1.6823,
      "step": 51025
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5336907505989075,
      "learning_rate": 0.00023835154354111097,
      "loss": 1.6021,
      "step": 51026
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5051145553588867,
      "learning_rate": 0.00023834131452905982,
      "loss": 1.544,
      "step": 51027
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5187028050422668,
      "learning_rate": 0.00023833108559185326,
      "loss": 1.5411,
      "step": 51028
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5271441340446472,
      "learning_rate": 0.00023832085672950373,
      "loss": 1.5803,
      "step": 51029
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5082461833953857,
      "learning_rate": 0.00023831062794202353,
      "loss": 1.5668,
      "step": 51030
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.516647458076477,
      "learning_rate": 0.00023830039922942517,
      "loss": 1.6457,
      "step": 51031
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5157445669174194,
      "learning_rate": 0.00023829017059172106,
      "loss": 1.5389,
      "step": 51032
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5231762528419495,
      "learning_rate": 0.00023827994202892355,
      "loss": 1.5725,
      "step": 51033
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5192471146583557,
      "learning_rate": 0.00023826971354104503,
      "loss": 1.5718,
      "step": 51034
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5166792869567871,
      "learning_rate": 0.000238259485128098,
      "loss": 1.6412,
      "step": 51035
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5122390985488892,
      "learning_rate": 0.00023824925679009497,
      "loss": 1.5101,
      "step": 51036
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5220102667808533,
      "learning_rate": 0.00023823902852704816,
      "loss": 1.5652,
      "step": 51037
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.531146764755249,
      "learning_rate": 0.00023822880033897012,
      "loss": 1.6524,
      "step": 51038
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.522786021232605,
      "learning_rate": 0.00023821857222587324,
      "loss": 1.5684,
      "step": 51039
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.515755832195282,
      "learning_rate": 0.00023820834418776982,
      "loss": 1.5989,
      "step": 51040
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5228388905525208,
      "learning_rate": 0.00023819811622467234,
      "loss": 1.539,
      "step": 51041
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5090726613998413,
      "learning_rate": 0.00023818788833659341,
      "loss": 1.6041,
      "step": 51042
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.522248387336731,
      "learning_rate": 0.0002381776605235451,
      "loss": 1.5785,
      "step": 51043
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5687793493270874,
      "learning_rate": 0.00023816743278554006,
      "loss": 1.5194,
      "step": 51044
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4993130564689636,
      "learning_rate": 0.00023815720512259062,
      "loss": 1.6043,
      "step": 51045
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5334241986274719,
      "learning_rate": 0.00023814697753470935,
      "loss": 1.5639,
      "step": 51046
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5055832862854004,
      "learning_rate": 0.00023813675002190842,
      "loss": 1.5523,
      "step": 51047
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49475541710853577,
      "learning_rate": 0.0002381265225842003,
      "loss": 1.5679,
      "step": 51048
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5264062881469727,
      "learning_rate": 0.00023811629522159768,
      "loss": 1.5665,
      "step": 51049
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5308669805526733,
      "learning_rate": 0.00023810606793411255,
      "loss": 1.6403,
      "step": 51050
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5107113122940063,
      "learning_rate": 0.00023809584072175758,
      "loss": 1.668,
      "step": 51051
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5027499794960022,
      "learning_rate": 0.00023808561358454526,
      "loss": 1.5795,
      "step": 51052
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5173673033714294,
      "learning_rate": 0.00023807538652248776,
      "loss": 1.6011,
      "step": 51053
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5141966938972473,
      "learning_rate": 0.00023806515953559763,
      "loss": 1.6367,
      "step": 51054
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.513776421546936,
      "learning_rate": 0.0002380549326238872,
      "loss": 1.553,
      "step": 51055
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5250033736228943,
      "learning_rate": 0.0002380447057873692,
      "loss": 1.6644,
      "step": 51056
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5095807909965515,
      "learning_rate": 0.00023803447902605553,
      "loss": 1.5816,
      "step": 51057
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5295718908309937,
      "learning_rate": 0.00023802425233995897,
      "loss": 1.5643,
      "step": 51058
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.522700846195221,
      "learning_rate": 0.00023801402572909194,
      "loss": 1.5846,
      "step": 51059
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5052594542503357,
      "learning_rate": 0.00023800379919346665,
      "loss": 1.5845,
      "step": 51060
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5114001035690308,
      "learning_rate": 0.00023799357273309558,
      "loss": 1.545,
      "step": 51061
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5022831559181213,
      "learning_rate": 0.0002379833463479913,
      "loss": 1.551,
      "step": 51062
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5151176452636719,
      "learning_rate": 0.00023797312003816598,
      "loss": 1.5718,
      "step": 51063
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5347719192504883,
      "learning_rate": 0.00023796289380363214,
      "loss": 1.5277,
      "step": 51064
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5288669466972351,
      "learning_rate": 0.00023795266764440224,
      "loss": 1.5206,
      "step": 51065
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5099034905433655,
      "learning_rate": 0.00023794244156048874,
      "loss": 1.4635,
      "step": 51066
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5482522249221802,
      "learning_rate": 0.0002379322155519039,
      "loss": 1.5682,
      "step": 51067
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5220766663551331,
      "learning_rate": 0.00023792198961866017,
      "loss": 1.6435,
      "step": 51068
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5154466032981873,
      "learning_rate": 0.00023791176376077012,
      "loss": 1.6289,
      "step": 51069
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5294162034988403,
      "learning_rate": 0.00023790153797824596,
      "loss": 1.6293,
      "step": 51070
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5367867946624756,
      "learning_rate": 0.00023789131227110012,
      "loss": 1.6212,
      "step": 51071
    },
    {
      "epoch": 1.7,
      "grad_norm": 1.1897445917129517,
      "learning_rate": 0.00023788108663934523,
      "loss": 1.5603,
      "step": 51072
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5372320413589478,
      "learning_rate": 0.0002378708610829934,
      "loss": 1.5726,
      "step": 51073
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5047372579574585,
      "learning_rate": 0.0002378606356020572,
      "loss": 1.5742,
      "step": 51074
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4988698959350586,
      "learning_rate": 0.0002378504101965491,
      "loss": 1.5851,
      "step": 51075
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5014982223510742,
      "learning_rate": 0.00023784018486648148,
      "loss": 1.5735,
      "step": 51076
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5075828433036804,
      "learning_rate": 0.00023782995961186667,
      "loss": 1.569,
      "step": 51077
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.514968991279602,
      "learning_rate": 0.00023781973443271704,
      "loss": 1.5568,
      "step": 51078
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5078684091567993,
      "learning_rate": 0.0002378095093290453,
      "loss": 1.682,
      "step": 51079
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5151646137237549,
      "learning_rate": 0.00023779928430086344,
      "loss": 1.5562,
      "step": 51080
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49608004093170166,
      "learning_rate": 0.00023778905934818416,
      "loss": 1.5623,
      "step": 51081
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4944803714752197,
      "learning_rate": 0.00023777883447101983,
      "loss": 1.5283,
      "step": 51082
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5157389640808105,
      "learning_rate": 0.0002377686096693828,
      "loss": 1.5147,
      "step": 51083
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5146409869194031,
      "learning_rate": 0.00023775838494328555,
      "loss": 1.5789,
      "step": 51084
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.523633599281311,
      "learning_rate": 0.00023774816029274032,
      "loss": 1.5584,
      "step": 51085
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5522117018699646,
      "learning_rate": 0.00023773793571775983,
      "loss": 1.6517,
      "step": 51086
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5241049528121948,
      "learning_rate": 0.00023772771121835618,
      "loss": 1.5486,
      "step": 51087
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5123231410980225,
      "learning_rate": 0.00023771748679454193,
      "loss": 1.5272,
      "step": 51088
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5431439876556396,
      "learning_rate": 0.00023770726244632957,
      "loss": 1.6098,
      "step": 51089
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5040311217308044,
      "learning_rate": 0.00023769703817373133,
      "loss": 1.6151,
      "step": 51090
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5199505090713501,
      "learning_rate": 0.00023768681397675972,
      "loss": 1.5778,
      "step": 51091
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5506460070610046,
      "learning_rate": 0.0002376765898554272,
      "loss": 1.5989,
      "step": 51092
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5235708951950073,
      "learning_rate": 0.00023766636580974603,
      "loss": 1.5928,
      "step": 51093
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5272225737571716,
      "learning_rate": 0.00023765614183972865,
      "loss": 1.5644,
      "step": 51094
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5189129114151001,
      "learning_rate": 0.0002376459179453876,
      "loss": 1.5555,
      "step": 51095
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5161410570144653,
      "learning_rate": 0.00023763569412673527,
      "loss": 1.5878,
      "step": 51096
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5253953337669373,
      "learning_rate": 0.00023762547038378397,
      "loss": 1.5093,
      "step": 51097
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5045130848884583,
      "learning_rate": 0.00023761524671654614,
      "loss": 1.5979,
      "step": 51098
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.517845094203949,
      "learning_rate": 0.0002376050231250343,
      "loss": 1.6152,
      "step": 51099
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5389711856842041,
      "learning_rate": 0.00023759479960926068,
      "loss": 1.6726,
      "step": 51100
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5285080075263977,
      "learning_rate": 0.00023758457616923775,
      "loss": 1.5745,
      "step": 51101
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.518817663192749,
      "learning_rate": 0.000237574352804978,
      "loss": 1.557,
      "step": 51102
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5121437311172485,
      "learning_rate": 0.0002375641295164938,
      "loss": 1.5496,
      "step": 51103
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5042368769645691,
      "learning_rate": 0.00023755390630379755,
      "loss": 1.5188,
      "step": 51104
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5081977844238281,
      "learning_rate": 0.00023754368316690163,
      "loss": 1.5062,
      "step": 51105
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5146161913871765,
      "learning_rate": 0.00023753346010581852,
      "loss": 1.6003,
      "step": 51106
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5128059387207031,
      "learning_rate": 0.0002375232371205605,
      "loss": 1.5909,
      "step": 51107
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5101822018623352,
      "learning_rate": 0.00023751301421114012,
      "loss": 1.5741,
      "step": 51108
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5221363306045532,
      "learning_rate": 0.00023750279137756976,
      "loss": 1.6058,
      "step": 51109
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5375627279281616,
      "learning_rate": 0.0002374925686198618,
      "loss": 1.5635,
      "step": 51110
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.521364688873291,
      "learning_rate": 0.00023748234593802856,
      "loss": 1.6218,
      "step": 51111
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5112948417663574,
      "learning_rate": 0.00023747212333208263,
      "loss": 1.507,
      "step": 51112
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5719715356826782,
      "learning_rate": 0.00023746190080203638,
      "loss": 1.6335,
      "step": 51113
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5137116312980652,
      "learning_rate": 0.000237451678347902,
      "loss": 1.5929,
      "step": 51114
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5210173726081848,
      "learning_rate": 0.00023744145596969214,
      "loss": 1.6144,
      "step": 51115
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.516448438167572,
      "learning_rate": 0.00023743123366741923,
      "loss": 1.5986,
      "step": 51116
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5362243056297302,
      "learning_rate": 0.0002374210114410955,
      "loss": 1.5748,
      "step": 51117
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5594267845153809,
      "learning_rate": 0.0002374107892907334,
      "loss": 1.5534,
      "step": 51118
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5330963730812073,
      "learning_rate": 0.0002374005672163455,
      "loss": 1.5652,
      "step": 51119
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49778324365615845,
      "learning_rate": 0.00023739034521794402,
      "loss": 1.5626,
      "step": 51120
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5427751541137695,
      "learning_rate": 0.00023738012329554132,
      "loss": 1.6052,
      "step": 51121
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5120111107826233,
      "learning_rate": 0.00023736990144915002,
      "loss": 1.5933,
      "step": 51122
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5133278965950012,
      "learning_rate": 0.00023735967967878252,
      "loss": 1.5689,
      "step": 51123
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.525759756565094,
      "learning_rate": 0.00023734945798445107,
      "loss": 1.5717,
      "step": 51124
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5408526659011841,
      "learning_rate": 0.0002373392363661681,
      "loss": 1.7032,
      "step": 51125
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5146780014038086,
      "learning_rate": 0.00023732901482394618,
      "loss": 1.5623,
      "step": 51126
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.507483184337616,
      "learning_rate": 0.00023731879335779754,
      "loss": 1.5445,
      "step": 51127
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5517681241035461,
      "learning_rate": 0.00023730857196773455,
      "loss": 1.5597,
      "step": 51128
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5203337073326111,
      "learning_rate": 0.00023729835065376993,
      "loss": 1.5724,
      "step": 51129
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4982542395591736,
      "learning_rate": 0.00023728812941591567,
      "loss": 1.5999,
      "step": 51130
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5176257491111755,
      "learning_rate": 0.00023727790825418447,
      "loss": 1.5934,
      "step": 51131
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.533227801322937,
      "learning_rate": 0.0002372676871685886,
      "loss": 1.6312,
      "step": 51132
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5626752376556396,
      "learning_rate": 0.00023725746615914063,
      "loss": 1.6382,
      "step": 51133
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5247259140014648,
      "learning_rate": 0.00023724724522585275,
      "loss": 1.6017,
      "step": 51134
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5242471694946289,
      "learning_rate": 0.0002372370243687374,
      "loss": 1.5934,
      "step": 51135
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.6903012990951538,
      "learning_rate": 0.00023722680358780727,
      "loss": 1.6392,
      "step": 51136
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5149867534637451,
      "learning_rate": 0.00023721658288307435,
      "loss": 1.5969,
      "step": 51137
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5324733257293701,
      "learning_rate": 0.00023720636225455134,
      "loss": 1.5551,
      "step": 51138
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5073904395103455,
      "learning_rate": 0.00023719614170225058,
      "loss": 1.6455,
      "step": 51139
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5263805389404297,
      "learning_rate": 0.0002371859212261844,
      "loss": 1.5437,
      "step": 51140
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5263537168502808,
      "learning_rate": 0.00023717570082636523,
      "loss": 1.6118,
      "step": 51141
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5131635069847107,
      "learning_rate": 0.00023716548050280547,
      "loss": 1.5846,
      "step": 51142
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5059076547622681,
      "learning_rate": 0.00023715526025551775,
      "loss": 1.5571,
      "step": 51143
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5612814426422119,
      "learning_rate": 0.00023714504008451412,
      "loss": 1.5791,
      "step": 51144
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5226798057556152,
      "learning_rate": 0.00023713481998980716,
      "loss": 1.6091,
      "step": 51145
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5183084607124329,
      "learning_rate": 0.00023712459997140935,
      "loss": 1.4676,
      "step": 51146
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5206723809242249,
      "learning_rate": 0.00023711438002933295,
      "loss": 1.5766,
      "step": 51147
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5793432593345642,
      "learning_rate": 0.00023710416016359042,
      "loss": 1.5471,
      "step": 51148
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5096203684806824,
      "learning_rate": 0.00023709394037419425,
      "loss": 1.5944,
      "step": 51149
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.6958669424057007,
      "learning_rate": 0.0002370837206611567,
      "loss": 1.6123,
      "step": 51150
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5998102426528931,
      "learning_rate": 0.00023707350102449018,
      "loss": 1.6405,
      "step": 51151
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5175331830978394,
      "learning_rate": 0.00023706328146420722,
      "loss": 1.6036,
      "step": 51152
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5041314363479614,
      "learning_rate": 0.00023705306198032022,
      "loss": 1.5799,
      "step": 51153
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.519761323928833,
      "learning_rate": 0.00023704284257284144,
      "loss": 1.5485,
      "step": 51154
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5141574740409851,
      "learning_rate": 0.0002370326232417834,
      "loss": 1.5735,
      "step": 51155
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5150057077407837,
      "learning_rate": 0.00023702240398715857,
      "loss": 1.6123,
      "step": 51156
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5313019156455994,
      "learning_rate": 0.00023701218480897914,
      "loss": 1.6686,
      "step": 51157
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5085693001747131,
      "learning_rate": 0.00023700196570725763,
      "loss": 1.6008,
      "step": 51158
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5233476758003235,
      "learning_rate": 0.0002369917466820066,
      "loss": 1.5597,
      "step": 51159
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5283621549606323,
      "learning_rate": 0.00023698152773323812,
      "loss": 1.6039,
      "step": 51160
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5107583999633789,
      "learning_rate": 0.00023697130886096487,
      "loss": 1.596,
      "step": 51161
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5096705555915833,
      "learning_rate": 0.00023696109006519914,
      "loss": 1.5816,
      "step": 51162
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5125732421875,
      "learning_rate": 0.0002369508713459534,
      "loss": 1.6674,
      "step": 51163
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5090296268463135,
      "learning_rate": 0.00023694065270324,
      "loss": 1.5853,
      "step": 51164
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.530786395072937,
      "learning_rate": 0.0002369304341370713,
      "loss": 1.653,
      "step": 51165
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.527488112449646,
      "learning_rate": 0.00023692021564745988,
      "loss": 1.5201,
      "step": 51166
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5220675468444824,
      "learning_rate": 0.0002369099972344179,
      "loss": 1.5882,
      "step": 51167
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5251161456108093,
      "learning_rate": 0.00023689977889795793,
      "loss": 1.6226,
      "step": 51168
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.506992518901825,
      "learning_rate": 0.00023688956063809238,
      "loss": 1.5784,
      "step": 51169
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5297694206237793,
      "learning_rate": 0.00023687934245483357,
      "loss": 1.5722,
      "step": 51170
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5287888050079346,
      "learning_rate": 0.00023686912434819392,
      "loss": 1.531,
      "step": 51171
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5280036926269531,
      "learning_rate": 0.00023685890631818576,
      "loss": 1.5746,
      "step": 51172
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5246146321296692,
      "learning_rate": 0.0002368486883648218,
      "loss": 1.5196,
      "step": 51173
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5248209834098816,
      "learning_rate": 0.00023683847048811406,
      "loss": 1.5619,
      "step": 51174
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5157361030578613,
      "learning_rate": 0.00023682825268807513,
      "loss": 1.5332,
      "step": 51175
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5377951264381409,
      "learning_rate": 0.00023681803496471748,
      "loss": 1.6649,
      "step": 51176
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.49912312626838684,
      "learning_rate": 0.00023680781731805336,
      "loss": 1.5434,
      "step": 51177
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5312889218330383,
      "learning_rate": 0.00023679759974809525,
      "loss": 1.6499,
      "step": 51178
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5205428600311279,
      "learning_rate": 0.00023678738225485558,
      "loss": 1.5557,
      "step": 51179
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5149939060211182,
      "learning_rate": 0.0002367771648383467,
      "loss": 1.639,
      "step": 51180
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5130324363708496,
      "learning_rate": 0.0002367669474985809,
      "loss": 1.5021,
      "step": 51181
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4899672865867615,
      "learning_rate": 0.0002367567302355708,
      "loss": 1.4927,
      "step": 51182
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5107606649398804,
      "learning_rate": 0.00023674651304932877,
      "loss": 1.4981,
      "step": 51183
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5292825698852539,
      "learning_rate": 0.0002367362959398671,
      "loss": 1.5733,
      "step": 51184
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5364041924476624,
      "learning_rate": 0.00023672607890719822,
      "loss": 1.526,
      "step": 51185
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5033630132675171,
      "learning_rate": 0.00023671586195133466,
      "loss": 1.6136,
      "step": 51186
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5406582951545715,
      "learning_rate": 0.00023670564507228864,
      "loss": 1.6484,
      "step": 51187
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5088973641395569,
      "learning_rate": 0.0002366954282700726,
      "loss": 1.6021,
      "step": 51188
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.502316415309906,
      "learning_rate": 0.00023668521154469914,
      "loss": 1.4861,
      "step": 51189
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5426177382469177,
      "learning_rate": 0.00023667499489618034,
      "loss": 1.618,
      "step": 51190
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5012723207473755,
      "learning_rate": 0.00023666477832452878,
      "loss": 1.5766,
      "step": 51191
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4998989701271057,
      "learning_rate": 0.00023665456182975686,
      "loss": 1.6411,
      "step": 51192
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5036502480506897,
      "learning_rate": 0.0002366443454118771,
      "loss": 1.5647,
      "step": 51193
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4914964437484741,
      "learning_rate": 0.00023663412907090162,
      "loss": 1.566,
      "step": 51194
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.528002142906189,
      "learning_rate": 0.00023662391280684296,
      "loss": 1.5496,
      "step": 51195
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5183385610580444,
      "learning_rate": 0.0002366136966197137,
      "loss": 1.5719,
      "step": 51196
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.548685610294342,
      "learning_rate": 0.00023660348050952588,
      "loss": 1.643,
      "step": 51197
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5333325862884521,
      "learning_rate": 0.0002365932644762922,
      "loss": 1.6604,
      "step": 51198
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.537140965461731,
      "learning_rate": 0.00023658304852002495,
      "loss": 1.6228,
      "step": 51199
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.539202868938446,
      "learning_rate": 0.00023657283264073652,
      "loss": 1.6524,
      "step": 51200
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5251134037971497,
      "learning_rate": 0.00023656261683843932,
      "loss": 1.5563,
      "step": 51201
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5309511423110962,
      "learning_rate": 0.00023655240111314566,
      "loss": 1.6386,
      "step": 51202
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4992128014564514,
      "learning_rate": 0.00023654218546486825,
      "loss": 1.5589,
      "step": 51203
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5321440696716309,
      "learning_rate": 0.00023653196989361906,
      "loss": 1.5877,
      "step": 51204
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5219283699989319,
      "learning_rate": 0.00023652175439941081,
      "loss": 1.5466,
      "step": 51205
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5245135426521301,
      "learning_rate": 0.00023651153898225587,
      "loss": 1.6214,
      "step": 51206
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5126932263374329,
      "learning_rate": 0.00023650132364216644,
      "loss": 1.5275,
      "step": 51207
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5099440813064575,
      "learning_rate": 0.0002364911083791551,
      "loss": 1.5537,
      "step": 51208
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5116205215454102,
      "learning_rate": 0.00023648089319323426,
      "loss": 1.5855,
      "step": 51209
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5142239332199097,
      "learning_rate": 0.0002364706780844162,
      "loss": 1.6241,
      "step": 51210
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5039759874343872,
      "learning_rate": 0.0002364604630527133,
      "loss": 1.5772,
      "step": 51211
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.509190559387207,
      "learning_rate": 0.0002364502480981381,
      "loss": 1.5092,
      "step": 51212
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5208250880241394,
      "learning_rate": 0.00023644003322070297,
      "loss": 1.6115,
      "step": 51213
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4988774061203003,
      "learning_rate": 0.00023642981842042022,
      "loss": 1.5758,
      "step": 51214
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5109969973564148,
      "learning_rate": 0.00023641960369730233,
      "loss": 1.5461,
      "step": 51215
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.526391327381134,
      "learning_rate": 0.00023640938905136172,
      "loss": 1.5324,
      "step": 51216
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5221964716911316,
      "learning_rate": 0.0002363991744826106,
      "loss": 1.6099,
      "step": 51217
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5077601075172424,
      "learning_rate": 0.00023638895999106158,
      "loss": 1.5743,
      "step": 51218
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5185640454292297,
      "learning_rate": 0.000236378745576727,
      "loss": 1.5343,
      "step": 51219
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.526611328125,
      "learning_rate": 0.00023636853123961934,
      "loss": 1.5423,
      "step": 51220
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5142790675163269,
      "learning_rate": 0.00023635831697975084,
      "loss": 1.586,
      "step": 51221
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5365407466888428,
      "learning_rate": 0.00023634810279713392,
      "loss": 1.5604,
      "step": 51222
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5051432251930237,
      "learning_rate": 0.00023633788869178112,
      "loss": 1.5828,
      "step": 51223
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5021455883979797,
      "learning_rate": 0.0002363276746637046,
      "loss": 1.5387,
      "step": 51224
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4973059296607971,
      "learning_rate": 0.00023631746071291698,
      "loss": 1.5659,
      "step": 51225
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5390816330909729,
      "learning_rate": 0.00023630724683943065,
      "loss": 1.5887,
      "step": 51226
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5027269721031189,
      "learning_rate": 0.00023629703304325783,
      "loss": 1.6013,
      "step": 51227
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.533539354801178,
      "learning_rate": 0.00023628681932441107,
      "loss": 1.5751,
      "step": 51228
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5056331157684326,
      "learning_rate": 0.0002362766056829027,
      "loss": 1.6065,
      "step": 51229
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5123476386070251,
      "learning_rate": 0.00023626639211874522,
      "loss": 1.5974,
      "step": 51230
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5459358096122742,
      "learning_rate": 0.00023625617863195082,
      "loss": 1.6082,
      "step": 51231
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4909771978855133,
      "learning_rate": 0.00023624596522253208,
      "loss": 1.5221,
      "step": 51232
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5127109289169312,
      "learning_rate": 0.00023623575189050144,
      "loss": 1.6527,
      "step": 51233
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5189544558525085,
      "learning_rate": 0.00023622553863587108,
      "loss": 1.5923,
      "step": 51234
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5116564631462097,
      "learning_rate": 0.00023621532545865356,
      "loss": 1.6274,
      "step": 51235
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5214023590087891,
      "learning_rate": 0.0002362051123588613,
      "loss": 1.6137,
      "step": 51236
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.547285258769989,
      "learning_rate": 0.00023619489933650656,
      "loss": 1.6365,
      "step": 51237
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5269399881362915,
      "learning_rate": 0.00023618468639160177,
      "loss": 1.6831,
      "step": 51238
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5167216062545776,
      "learning_rate": 0.00023617447352415938,
      "loss": 1.636,
      "step": 51239
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5177117586135864,
      "learning_rate": 0.00023616426073419188,
      "loss": 1.5746,
      "step": 51240
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5340052843093872,
      "learning_rate": 0.00023615404802171153,
      "loss": 1.5988,
      "step": 51241
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5142195820808411,
      "learning_rate": 0.0002361438353867307,
      "loss": 1.6322,
      "step": 51242
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5213163495063782,
      "learning_rate": 0.0002361336228292619,
      "loss": 1.6223,
      "step": 51243
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5311302542686462,
      "learning_rate": 0.00023612341034931743,
      "loss": 1.6009,
      "step": 51244
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5135325193405151,
      "learning_rate": 0.0002361131979469097,
      "loss": 1.6361,
      "step": 51245
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5198151469230652,
      "learning_rate": 0.00023610298562205128,
      "loss": 1.5969,
      "step": 51246
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5129331350326538,
      "learning_rate": 0.00023609277337475424,
      "loss": 1.5649,
      "step": 51247
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5099886655807495,
      "learning_rate": 0.0002360825612050312,
      "loss": 1.5052,
      "step": 51248
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5140513777732849,
      "learning_rate": 0.00023607234911289456,
      "loss": 1.5524,
      "step": 51249
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5301850438117981,
      "learning_rate": 0.00023606213709835672,
      "loss": 1.6366,
      "step": 51250
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5139598846435547,
      "learning_rate": 0.00023605192516142998,
      "loss": 1.5723,
      "step": 51251
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5171147584915161,
      "learning_rate": 0.00023604171330212666,
      "loss": 1.5554,
      "step": 51252
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5079523921012878,
      "learning_rate": 0.0002360315015204595,
      "loss": 1.5757,
      "step": 51253
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5123491883277893,
      "learning_rate": 0.00023602128981644048,
      "loss": 1.5949,
      "step": 51254
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.49871447682380676,
      "learning_rate": 0.00023601107819008226,
      "loss": 1.5625,
      "step": 51255
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5009706616401672,
      "learning_rate": 0.00023600086664139717,
      "loss": 1.5865,
      "step": 51256
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5089235901832581,
      "learning_rate": 0.0002359906551703976,
      "loss": 1.6393,
      "step": 51257
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4961443841457367,
      "learning_rate": 0.0002359804437770959,
      "loss": 1.5856,
      "step": 51258
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5018717646598816,
      "learning_rate": 0.00023597023246150448,
      "loss": 1.5288,
      "step": 51259
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5468845963478088,
      "learning_rate": 0.00023596002122363595,
      "loss": 1.5914,
      "step": 51260
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5278868675231934,
      "learning_rate": 0.0002359498100635023,
      "loss": 1.5961,
      "step": 51261
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5194071531295776,
      "learning_rate": 0.00023593959898111623,
      "loss": 1.519,
      "step": 51262
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5010389089584351,
      "learning_rate": 0.0002359293879764901,
      "loss": 1.6119,
      "step": 51263
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5050693154335022,
      "learning_rate": 0.0002359191770496362,
      "loss": 1.6465,
      "step": 51264
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5157710313796997,
      "learning_rate": 0.000235908966200567,
      "loss": 1.6124,
      "step": 51265
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5347011685371399,
      "learning_rate": 0.0002358987554292949,
      "loss": 1.6284,
      "step": 51266
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5156993865966797,
      "learning_rate": 0.0002358885447358322,
      "loss": 1.6703,
      "step": 51267
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5225170850753784,
      "learning_rate": 0.00023587833412019128,
      "loss": 1.6154,
      "step": 51268
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5197755098342896,
      "learning_rate": 0.00023586812358238472,
      "loss": 1.6592,
      "step": 51269
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5301257371902466,
      "learning_rate": 0.00023585791312242486,
      "loss": 1.6592,
      "step": 51270
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5022967457771301,
      "learning_rate": 0.00023584770274032396,
      "loss": 1.5671,
      "step": 51271
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5043954253196716,
      "learning_rate": 0.00023583749243609453,
      "loss": 1.5937,
      "step": 51272
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5116453170776367,
      "learning_rate": 0.00023582728220974898,
      "loss": 1.5716,
      "step": 51273
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5180733799934387,
      "learning_rate": 0.0002358170720612996,
      "loss": 1.6256,
      "step": 51274
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5663350224494934,
      "learning_rate": 0.00023580686199075874,
      "loss": 1.6435,
      "step": 51275
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5105003714561462,
      "learning_rate": 0.0002357966519981391,
      "loss": 1.585,
      "step": 51276
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5300813913345337,
      "learning_rate": 0.00023578644208345267,
      "loss": 1.6003,
      "step": 51277
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.526178240776062,
      "learning_rate": 0.00023577623224671214,
      "loss": 1.5493,
      "step": 51278
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5293651223182678,
      "learning_rate": 0.00023576602248792975,
      "loss": 1.5735,
      "step": 51279
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.535233199596405,
      "learning_rate": 0.00023575581280711803,
      "loss": 1.6086,
      "step": 51280
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5208228826522827,
      "learning_rate": 0.0002357456032042892,
      "loss": 1.5821,
      "step": 51281
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5204979181289673,
      "learning_rate": 0.00023573539367945573,
      "loss": 1.5883,
      "step": 51282
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5257095694541931,
      "learning_rate": 0.00023572518423263018,
      "loss": 1.5069,
      "step": 51283
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.49758827686309814,
      "learning_rate": 0.00023571497486382458,
      "loss": 1.6497,
      "step": 51284
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.550847589969635,
      "learning_rate": 0.00023570476557305161,
      "loss": 1.5643,
      "step": 51285
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5240643620491028,
      "learning_rate": 0.00023569455636032364,
      "loss": 1.6214,
      "step": 51286
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5044991970062256,
      "learning_rate": 0.00023568434722565296,
      "loss": 1.6533,
      "step": 51287
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5089322924613953,
      "learning_rate": 0.00023567413816905197,
      "loss": 1.526,
      "step": 51288
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5077295899391174,
      "learning_rate": 0.00023566392919053308,
      "loss": 1.5367,
      "step": 51289
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.554813027381897,
      "learning_rate": 0.00023565372029010884,
      "loss": 1.6254,
      "step": 51290
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5372515320777893,
      "learning_rate": 0.00023564351146779136,
      "loss": 1.5715,
      "step": 51291
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5153802037239075,
      "learning_rate": 0.0002356333027235932,
      "loss": 1.6629,
      "step": 51292
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5265064239501953,
      "learning_rate": 0.00023562309405752679,
      "loss": 1.5393,
      "step": 51293
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5321792960166931,
      "learning_rate": 0.00023561288546960444,
      "loss": 1.5792,
      "step": 51294
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5275905728340149,
      "learning_rate": 0.0002356026769598385,
      "loss": 1.5723,
      "step": 51295
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5203932523727417,
      "learning_rate": 0.00023559246852824153,
      "loss": 1.6467,
      "step": 51296
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4972125291824341,
      "learning_rate": 0.00023558226017482574,
      "loss": 1.5485,
      "step": 51297
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5020160675048828,
      "learning_rate": 0.0002355720518996035,
      "loss": 1.5834,
      "step": 51298
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5227828025817871,
      "learning_rate": 0.0002355618437025874,
      "loss": 1.6475,
      "step": 51299
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5233010649681091,
      "learning_rate": 0.00023555163558378978,
      "loss": 1.5159,
      "step": 51300
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4975096583366394,
      "learning_rate": 0.0002355414275432229,
      "loss": 1.5877,
      "step": 51301
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5275938510894775,
      "learning_rate": 0.00023553121958089926,
      "loss": 1.6356,
      "step": 51302
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5242264270782471,
      "learning_rate": 0.00023552101169683126,
      "loss": 1.5878,
      "step": 51303
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5415387749671936,
      "learning_rate": 0.0002355108038910312,
      "loss": 1.6253,
      "step": 51304
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.509077787399292,
      "learning_rate": 0.00023550059616351144,
      "loss": 1.5397,
      "step": 51305
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.503200113773346,
      "learning_rate": 0.00023549038851428466,
      "loss": 1.5474,
      "step": 51306
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5229625701904297,
      "learning_rate": 0.00023548018094336285,
      "loss": 1.6075,
      "step": 51307
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4999898076057434,
      "learning_rate": 0.00023546997345075865,
      "loss": 1.6031,
      "step": 51308
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5133479237556458,
      "learning_rate": 0.0002354597660364844,
      "loss": 1.6029,
      "step": 51309
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5073000192642212,
      "learning_rate": 0.00023544955870055255,
      "loss": 1.556,
      "step": 51310
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5264483094215393,
      "learning_rate": 0.00023543935144297536,
      "loss": 1.6381,
      "step": 51311
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5002703070640564,
      "learning_rate": 0.0002354291442637652,
      "loss": 1.5022,
      "step": 51312
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5238635540008545,
      "learning_rate": 0.00023541893716293478,
      "loss": 1.5776,
      "step": 51313
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5166568756103516,
      "learning_rate": 0.00023540873014049602,
      "loss": 1.5782,
      "step": 51314
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5264016389846802,
      "learning_rate": 0.00023539852319646163,
      "loss": 1.6174,
      "step": 51315
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5022873282432556,
      "learning_rate": 0.00023538831633084398,
      "loss": 1.5908,
      "step": 51316
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5272639989852905,
      "learning_rate": 0.0002353781095436553,
      "loss": 1.6687,
      "step": 51317
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5351749062538147,
      "learning_rate": 0.00023536790283490812,
      "loss": 1.6084,
      "step": 51318
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5094956159591675,
      "learning_rate": 0.0002353576962046147,
      "loss": 1.5785,
      "step": 51319
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5046526789665222,
      "learning_rate": 0.0002353474896527877,
      "loss": 1.6225,
      "step": 51320
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5132438540458679,
      "learning_rate": 0.0002353372831794391,
      "loss": 1.5962,
      "step": 51321
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.519420862197876,
      "learning_rate": 0.00023532707678458161,
      "loss": 1.5994,
      "step": 51322
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5394426584243774,
      "learning_rate": 0.0002353168704682276,
      "loss": 1.566,
      "step": 51323
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5199512243270874,
      "learning_rate": 0.00023530666423038932,
      "loss": 1.6283,
      "step": 51324
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.496487021446228,
      "learning_rate": 0.00023529645807107916,
      "loss": 1.5445,
      "step": 51325
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5205072164535522,
      "learning_rate": 0.00023528625199030966,
      "loss": 1.6339,
      "step": 51326
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5329472422599792,
      "learning_rate": 0.00023527604598809306,
      "loss": 1.6341,
      "step": 51327
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5330460667610168,
      "learning_rate": 0.00023526584006444172,
      "loss": 1.6256,
      "step": 51328
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5038970112800598,
      "learning_rate": 0.00023525563421936818,
      "loss": 1.5018,
      "step": 51329
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.524601399898529,
      "learning_rate": 0.00023524542845288485,
      "loss": 1.5549,
      "step": 51330
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5011869668960571,
      "learning_rate": 0.00023523522276500393,
      "loss": 1.5315,
      "step": 51331
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5145646333694458,
      "learning_rate": 0.00023522501715573792,
      "loss": 1.5261,
      "step": 51332
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.49359452724456787,
      "learning_rate": 0.00023521481162509927,
      "loss": 1.6052,
      "step": 51333
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5170736312866211,
      "learning_rate": 0.00023520460617310017,
      "loss": 1.4831,
      "step": 51334
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5293641686439514,
      "learning_rate": 0.00023519440079975318,
      "loss": 1.5855,
      "step": 51335
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5239913463592529,
      "learning_rate": 0.00023518419550507062,
      "loss": 1.5989,
      "step": 51336
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5202437043190002,
      "learning_rate": 0.000235173990289065,
      "loss": 1.6232,
      "step": 51337
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5240951776504517,
      "learning_rate": 0.00023516378515174853,
      "loss": 1.5465,
      "step": 51338
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5141636729240417,
      "learning_rate": 0.00023515358009313365,
      "loss": 1.5602,
      "step": 51339
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.525703489780426,
      "learning_rate": 0.00023514337511323287,
      "loss": 1.5836,
      "step": 51340
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5091459155082703,
      "learning_rate": 0.0002351331702120583,
      "loss": 1.5503,
      "step": 51341
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.511854350566864,
      "learning_rate": 0.0002351229653896226,
      "loss": 1.6053,
      "step": 51342
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.49784427881240845,
      "learning_rate": 0.0002351127606459381,
      "loss": 1.5334,
      "step": 51343
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5235427021980286,
      "learning_rate": 0.0002351025559810171,
      "loss": 1.5643,
      "step": 51344
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5271481871604919,
      "learning_rate": 0.00023509235139487205,
      "loss": 1.676,
      "step": 51345
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5478171110153198,
      "learning_rate": 0.0002350821468875153,
      "loss": 1.4837,
      "step": 51346
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5245767831802368,
      "learning_rate": 0.00023507194245895934,
      "loss": 1.63,
      "step": 51347
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5151041150093079,
      "learning_rate": 0.00023506173810921636,
      "loss": 1.6218,
      "step": 51348
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5258983969688416,
      "learning_rate": 0.00023505153383829888,
      "loss": 1.6497,
      "step": 51349
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.524997889995575,
      "learning_rate": 0.00023504132964621938,
      "loss": 1.5506,
      "step": 51350
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5409402847290039,
      "learning_rate": 0.00023503112553299003,
      "loss": 1.6442,
      "step": 51351
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5336298942565918,
      "learning_rate": 0.00023502092149862335,
      "loss": 1.6148,
      "step": 51352
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5349289774894714,
      "learning_rate": 0.00023501071754313172,
      "loss": 1.6256,
      "step": 51353
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5203352570533752,
      "learning_rate": 0.0002350005136665275,
      "loss": 1.5327,
      "step": 51354
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5042834281921387,
      "learning_rate": 0.00023499030986882295,
      "loss": 1.4863,
      "step": 51355
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5322703123092651,
      "learning_rate": 0.00023498010615003072,
      "loss": 1.5771,
      "step": 51356
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5365139245986938,
      "learning_rate": 0.00023496990251016309,
      "loss": 1.59,
      "step": 51357
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5252926349639893,
      "learning_rate": 0.0002349596989492323,
      "loss": 1.5121,
      "step": 51358
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5379319190979004,
      "learning_rate": 0.00023494949546725092,
      "loss": 1.647,
      "step": 51359
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5076126456260681,
      "learning_rate": 0.00023493929206423132,
      "loss": 1.6083,
      "step": 51360
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5335195660591125,
      "learning_rate": 0.00023492908874018573,
      "loss": 1.5916,
      "step": 51361
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5195058584213257,
      "learning_rate": 0.00023491888549512664,
      "loss": 1.6645,
      "step": 51362
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5161792039871216,
      "learning_rate": 0.0002349086823290666,
      "loss": 1.5861,
      "step": 51363
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5186118483543396,
      "learning_rate": 0.0002348984792420176,
      "loss": 1.5849,
      "step": 51364
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5151094794273376,
      "learning_rate": 0.00023488827623399235,
      "loss": 1.5257,
      "step": 51365
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5160491466522217,
      "learning_rate": 0.00023487807330500315,
      "loss": 1.5293,
      "step": 51366
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.521698534488678,
      "learning_rate": 0.00023486787045506243,
      "loss": 1.5727,
      "step": 51367
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5164769887924194,
      "learning_rate": 0.00023485766768418246,
      "loss": 1.5954,
      "step": 51368
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5238888263702393,
      "learning_rate": 0.0002348474649923756,
      "loss": 1.5945,
      "step": 51369
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5044262409210205,
      "learning_rate": 0.00023483726237965452,
      "loss": 1.6335,
      "step": 51370
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5220255255699158,
      "learning_rate": 0.0002348270598460312,
      "loss": 1.5599,
      "step": 51371
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5052383542060852,
      "learning_rate": 0.0002348168573915183,
      "loss": 1.6315,
      "step": 51372
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5251129865646362,
      "learning_rate": 0.0002348066550161282,
      "loss": 1.5603,
      "step": 51373
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.518109917640686,
      "learning_rate": 0.00023479645271987312,
      "loss": 1.6283,
      "step": 51374
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5303101539611816,
      "learning_rate": 0.00023478625050276557,
      "loss": 1.6653,
      "step": 51375
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5113112330436707,
      "learning_rate": 0.00023477604836481784,
      "loss": 1.5665,
      "step": 51376
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5187447667121887,
      "learning_rate": 0.00023476584630604259,
      "loss": 1.6306,
      "step": 51377
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5237277150154114,
      "learning_rate": 0.00023475564432645174,
      "loss": 1.7347,
      "step": 51378
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5140448212623596,
      "learning_rate": 0.00023474544242605802,
      "loss": 1.577,
      "step": 51379
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5328435301780701,
      "learning_rate": 0.00023473524060487377,
      "loss": 1.6009,
      "step": 51380
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5086013078689575,
      "learning_rate": 0.0002347250388629113,
      "loss": 1.5461,
      "step": 51381
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5036072134971619,
      "learning_rate": 0.00023471483720018297,
      "loss": 1.5875,
      "step": 51382
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5062300562858582,
      "learning_rate": 0.00023470463561670128,
      "loss": 1.5739,
      "step": 51383
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5276604294776917,
      "learning_rate": 0.0002346944341124785,
      "loss": 1.593,
      "step": 51384
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5102107524871826,
      "learning_rate": 0.00023468423268752694,
      "loss": 1.6334,
      "step": 51385
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5126708149909973,
      "learning_rate": 0.0002346740313418592,
      "loss": 1.6351,
      "step": 51386
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5185514092445374,
      "learning_rate": 0.00023466383007548762,
      "loss": 1.5434,
      "step": 51387
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5276059508323669,
      "learning_rate": 0.00023465362888842447,
      "loss": 1.6154,
      "step": 51388
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5110693573951721,
      "learning_rate": 0.00023464342778068217,
      "loss": 1.5318,
      "step": 51389
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5069398880004883,
      "learning_rate": 0.0002346332267522732,
      "loss": 1.6112,
      "step": 51390
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5420898199081421,
      "learning_rate": 0.00023462302580320977,
      "loss": 1.6044,
      "step": 51391
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5078846216201782,
      "learning_rate": 0.0002346128249335043,
      "loss": 1.5533,
      "step": 51392
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5067650079727173,
      "learning_rate": 0.00023460262414316945,
      "loss": 1.5738,
      "step": 51393
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.504926323890686,
      "learning_rate": 0.00023459242343221715,
      "loss": 1.5232,
      "step": 51394
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5048801302909851,
      "learning_rate": 0.00023458222280066008,
      "loss": 1.5411,
      "step": 51395
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5183375477790833,
      "learning_rate": 0.00023457202224851057,
      "loss": 1.5827,
      "step": 51396
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5171034336090088,
      "learning_rate": 0.00023456182177578102,
      "loss": 1.5965,
      "step": 51397
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5110127329826355,
      "learning_rate": 0.00023455162138248374,
      "loss": 1.5358,
      "step": 51398
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5117551684379578,
      "learning_rate": 0.00023454142106863106,
      "loss": 1.5698,
      "step": 51399
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5269529819488525,
      "learning_rate": 0.00023453122083423567,
      "loss": 1.5995,
      "step": 51400
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5092065930366516,
      "learning_rate": 0.00023452102067930954,
      "loss": 1.5817,
      "step": 51401
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5177271366119385,
      "learning_rate": 0.00023451082060386524,
      "loss": 1.5265,
      "step": 51402
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4973841905593872,
      "learning_rate": 0.00023450062060791533,
      "loss": 1.564,
      "step": 51403
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5129696726799011,
      "learning_rate": 0.00023449042069147185,
      "loss": 1.6393,
      "step": 51404
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5188426971435547,
      "learning_rate": 0.00023448022085454742,
      "loss": 1.5664,
      "step": 51405
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5013256669044495,
      "learning_rate": 0.00023447002109715424,
      "loss": 1.5796,
      "step": 51406
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.514504075050354,
      "learning_rate": 0.000234459821419305,
      "loss": 1.6516,
      "step": 51407
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5131993889808655,
      "learning_rate": 0.0002344496218210117,
      "loss": 1.6475,
      "step": 51408
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5078200697898865,
      "learning_rate": 0.00023443942230228694,
      "loss": 1.6343,
      "step": 51409
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5309977531433105,
      "learning_rate": 0.00023442922286314314,
      "loss": 1.6441,
      "step": 51410
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5230689644813538,
      "learning_rate": 0.00023441902350359255,
      "loss": 1.5563,
      "step": 51411
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.4863334894180298,
      "learning_rate": 0.0002344088242236476,
      "loss": 1.6079,
      "step": 51412
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5361034274101257,
      "learning_rate": 0.00023439862502332073,
      "loss": 1.5727,
      "step": 51413
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5252692103385925,
      "learning_rate": 0.0002343884259026242,
      "loss": 1.5966,
      "step": 51414
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5081067085266113,
      "learning_rate": 0.0002343782268615704,
      "loss": 1.5184,
      "step": 51415
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4982389509677887,
      "learning_rate": 0.0002343680279001718,
      "loss": 1.5834,
      "step": 51416
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5308208465576172,
      "learning_rate": 0.00023435782901844082,
      "loss": 1.5142,
      "step": 51417
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5237893462181091,
      "learning_rate": 0.0002343476302163897,
      "loss": 1.5891,
      "step": 51418
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5136183500289917,
      "learning_rate": 0.0002343374314940309,
      "loss": 1.6337,
      "step": 51419
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5042557120323181,
      "learning_rate": 0.00023432723285137685,
      "loss": 1.5806,
      "step": 51420
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.671701967716217,
      "learning_rate": 0.00023431703428843976,
      "loss": 1.6304,
      "step": 51421
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5152688026428223,
      "learning_rate": 0.0002343068358052321,
      "loss": 1.5651,
      "step": 51422
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5082575678825378,
      "learning_rate": 0.0002342966374017664,
      "loss": 1.6119,
      "step": 51423
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5034018754959106,
      "learning_rate": 0.0002342864390780547,
      "loss": 1.5759,
      "step": 51424
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5133658647537231,
      "learning_rate": 0.0002342762408341097,
      "loss": 1.6282,
      "step": 51425
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5251238346099854,
      "learning_rate": 0.00023426604266994365,
      "loss": 1.5917,
      "step": 51426
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5381284952163696,
      "learning_rate": 0.00023425584458556902,
      "loss": 1.5359,
      "step": 51427
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5304778814315796,
      "learning_rate": 0.000234245646580998,
      "loss": 1.594,
      "step": 51428
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5343515872955322,
      "learning_rate": 0.00023423544865624303,
      "loss": 1.5443,
      "step": 51429
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5143055319786072,
      "learning_rate": 0.00023422525081131672,
      "loss": 1.5802,
      "step": 51430
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5060920715332031,
      "learning_rate": 0.00023421505304623108,
      "loss": 1.5242,
      "step": 51431
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5230990052223206,
      "learning_rate": 0.00023420485536099873,
      "loss": 1.5692,
      "step": 51432
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.526880145072937,
      "learning_rate": 0.00023419465775563207,
      "loss": 1.5925,
      "step": 51433
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5154693126678467,
      "learning_rate": 0.00023418446023014332,
      "loss": 1.5916,
      "step": 51434
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5150091052055359,
      "learning_rate": 0.0002341742627845449,
      "loss": 1.5762,
      "step": 51435
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5250773429870605,
      "learning_rate": 0.00023416406541884924,
      "loss": 1.6368,
      "step": 51436
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5210865139961243,
      "learning_rate": 0.00023415386813306884,
      "loss": 1.5731,
      "step": 51437
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5524836778640747,
      "learning_rate": 0.00023414367092721577,
      "loss": 1.5801,
      "step": 51438
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5096405148506165,
      "learning_rate": 0.00023413347380130264,
      "loss": 1.6573,
      "step": 51439
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.516526997089386,
      "learning_rate": 0.00023412327675534185,
      "loss": 1.5152,
      "step": 51440
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5726965069770813,
      "learning_rate": 0.00023411307978934564,
      "loss": 1.6391,
      "step": 51441
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5285025238990784,
      "learning_rate": 0.0002341028829033264,
      "loss": 1.5772,
      "step": 51442
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5051383376121521,
      "learning_rate": 0.00023409268609729663,
      "loss": 1.5773,
      "step": 51443
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5483983755111694,
      "learning_rate": 0.00023408248937126856,
      "loss": 1.5854,
      "step": 51444
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.524514377117157,
      "learning_rate": 0.0002340722927252546,
      "loss": 1.5971,
      "step": 51445
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5381922125816345,
      "learning_rate": 0.0002340620961592672,
      "loss": 1.6736,
      "step": 51446
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5190405249595642,
      "learning_rate": 0.00023405189967331877,
      "loss": 1.5326,
      "step": 51447
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5141335129737854,
      "learning_rate": 0.00023404170326742156,
      "loss": 1.6068,
      "step": 51448
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5589296817779541,
      "learning_rate": 0.000234031506941588,
      "loss": 1.6078,
      "step": 51449
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5328580141067505,
      "learning_rate": 0.00023402131069583053,
      "loss": 1.6332,
      "step": 51450
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5014498233795166,
      "learning_rate": 0.00023401111453016135,
      "loss": 1.6026,
      "step": 51451
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5161862373352051,
      "learning_rate": 0.000234000918444593,
      "loss": 1.5354,
      "step": 51452
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5188483595848083,
      "learning_rate": 0.0002339907224391379,
      "loss": 1.6789,
      "step": 51453
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5521483421325684,
      "learning_rate": 0.00023398052651380825,
      "loss": 1.6276,
      "step": 51454
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5293943285942078,
      "learning_rate": 0.00023397033066861652,
      "loss": 1.5976,
      "step": 51455
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5026764273643494,
      "learning_rate": 0.00023396013490357506,
      "loss": 1.6535,
      "step": 51456
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5189272165298462,
      "learning_rate": 0.00023394993921869637,
      "loss": 1.5053,
      "step": 51457
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5281640291213989,
      "learning_rate": 0.00023393974361399258,
      "loss": 1.5944,
      "step": 51458
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5323576331138611,
      "learning_rate": 0.00023392954808947627,
      "loss": 1.5081,
      "step": 51459
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5024582743644714,
      "learning_rate": 0.00023391935264515979,
      "loss": 1.5268,
      "step": 51460
    },
    {
      "epoch": 1.71,
      "grad_norm": 2.2804226875305176,
      "learning_rate": 0.00023390915728105545,
      "loss": 1.5637,
      "step": 51461
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5673166513442993,
      "learning_rate": 0.00023389896199717565,
      "loss": 1.5913,
      "step": 51462
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5499619841575623,
      "learning_rate": 0.00023388876679353274,
      "loss": 1.5893,
      "step": 51463
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5121801495552063,
      "learning_rate": 0.0002338785716701392,
      "loss": 1.507,
      "step": 51464
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5196822285652161,
      "learning_rate": 0.00023386837662700723,
      "loss": 1.5985,
      "step": 51465
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5276630520820618,
      "learning_rate": 0.0002338581816641494,
      "loss": 1.5441,
      "step": 51466
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5313142538070679,
      "learning_rate": 0.000233847986781578,
      "loss": 1.6453,
      "step": 51467
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5101748108863831,
      "learning_rate": 0.00023383779197930533,
      "loss": 1.619,
      "step": 51468
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5512643456459045,
      "learning_rate": 0.00023382759725734388,
      "loss": 1.5535,
      "step": 51469
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5270819067955017,
      "learning_rate": 0.000233817402615706,
      "loss": 1.6044,
      "step": 51470
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5136864185333252,
      "learning_rate": 0.00023380720805440397,
      "loss": 1.623,
      "step": 51471
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5164851546287537,
      "learning_rate": 0.0002337970135734502,
      "loss": 1.6226,
      "step": 51472
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5423409938812256,
      "learning_rate": 0.00023378681917285717,
      "loss": 1.6505,
      "step": 51473
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5251149535179138,
      "learning_rate": 0.0002337766248526372,
      "loss": 1.5514,
      "step": 51474
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.524502694606781,
      "learning_rate": 0.00023376643061280263,
      "loss": 1.5997,
      "step": 51475
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.511337399482727,
      "learning_rate": 0.00023375623645336584,
      "loss": 1.5787,
      "step": 51476
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5137654542922974,
      "learning_rate": 0.0002337460423743393,
      "loss": 1.5824,
      "step": 51477
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.532788097858429,
      "learning_rate": 0.00023373584837573525,
      "loss": 1.6177,
      "step": 51478
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5183699727058411,
      "learning_rate": 0.000233725654457566,
      "loss": 1.5476,
      "step": 51479
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5311043858528137,
      "learning_rate": 0.00023371546061984425,
      "loss": 1.5817,
      "step": 51480
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5194041728973389,
      "learning_rate": 0.000233705266862582,
      "loss": 1.5543,
      "step": 51481
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5411338210105896,
      "learning_rate": 0.0002336950731857918,
      "loss": 1.6021,
      "step": 51482
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5040628910064697,
      "learning_rate": 0.0002336848795894861,
      "loss": 1.5457,
      "step": 51483
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5429788827896118,
      "learning_rate": 0.00023367468607367718,
      "loss": 1.7106,
      "step": 51484
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5112617015838623,
      "learning_rate": 0.00023366449263837738,
      "loss": 1.5281,
      "step": 51485
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5228986144065857,
      "learning_rate": 0.000233654299283599,
      "loss": 1.6267,
      "step": 51486
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5414559245109558,
      "learning_rate": 0.00023364410600935478,
      "loss": 1.6254,
      "step": 51487
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5110092759132385,
      "learning_rate": 0.0002336339128156566,
      "loss": 1.5796,
      "step": 51488
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5359451174736023,
      "learning_rate": 0.00023362371970251717,
      "loss": 1.5774,
      "step": 51489
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5286675095558167,
      "learning_rate": 0.00023361352666994884,
      "loss": 1.6552,
      "step": 51490
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5245392322540283,
      "learning_rate": 0.00023360333371796378,
      "loss": 1.5922,
      "step": 51491
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5037403702735901,
      "learning_rate": 0.00023359314084657457,
      "loss": 1.475,
      "step": 51492
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5102604627609253,
      "learning_rate": 0.00023358294805579338,
      "loss": 1.5652,
      "step": 51493
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5327929258346558,
      "learning_rate": 0.0002335727553456329,
      "loss": 1.5303,
      "step": 51494
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5177426934242249,
      "learning_rate": 0.00023356256271610514,
      "loss": 1.6672,
      "step": 51495
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5208368897438049,
      "learning_rate": 0.00023355237016722268,
      "loss": 1.5604,
      "step": 51496
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5203431844711304,
      "learning_rate": 0.00023354217769899793,
      "loss": 1.6481,
      "step": 51497
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5257033109664917,
      "learning_rate": 0.00023353198531144312,
      "loss": 1.647,
      "step": 51498
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5362744331359863,
      "learning_rate": 0.0002335217930045707,
      "loss": 1.5724,
      "step": 51499
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5292860865592957,
      "learning_rate": 0.0002335116007783931,
      "loss": 1.532,
      "step": 51500
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5265674591064453,
      "learning_rate": 0.00023350140863292247,
      "loss": 1.5894,
      "step": 51501
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.519280195236206,
      "learning_rate": 0.00023349121656817136,
      "loss": 1.6142,
      "step": 51502
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5191448926925659,
      "learning_rate": 0.00023348102458415213,
      "loss": 1.5222,
      "step": 51503
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.4947551488876343,
      "learning_rate": 0.00023347083268087724,
      "loss": 1.6021,
      "step": 51504
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5127785801887512,
      "learning_rate": 0.00023346064085835887,
      "loss": 1.7005,
      "step": 51505
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.525463879108429,
      "learning_rate": 0.00023345044911660947,
      "loss": 1.6275,
      "step": 51506
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5121845006942749,
      "learning_rate": 0.00023344025745564148,
      "loss": 1.5991,
      "step": 51507
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5238080620765686,
      "learning_rate": 0.00023343006587546716,
      "loss": 1.5193,
      "step": 51508
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5479252934455872,
      "learning_rate": 0.00023341987437609888,
      "loss": 1.5334,
      "step": 51509
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5284419655799866,
      "learning_rate": 0.00023340968295754923,
      "loss": 1.5882,
      "step": 51510
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5164491534233093,
      "learning_rate": 0.00023339949161983023,
      "loss": 1.5952,
      "step": 51511
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5299124717712402,
      "learning_rate": 0.00023338930036295448,
      "loss": 1.5608,
      "step": 51512
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5323121547698975,
      "learning_rate": 0.00023337910918693434,
      "loss": 1.525,
      "step": 51513
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5251628160476685,
      "learning_rate": 0.00023336891809178217,
      "loss": 1.5926,
      "step": 51514
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5031566619873047,
      "learning_rate": 0.0002333587270775103,
      "loss": 1.5481,
      "step": 51515
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5438944697380066,
      "learning_rate": 0.000233348536144131,
      "loss": 1.6567,
      "step": 51516
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5367066860198975,
      "learning_rate": 0.00023333834529165698,
      "loss": 1.6397,
      "step": 51517
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5462321639060974,
      "learning_rate": 0.0002333281545201002,
      "loss": 1.6631,
      "step": 51518
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5002688765525818,
      "learning_rate": 0.00023331796382947327,
      "loss": 1.5443,
      "step": 51519
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5119940638542175,
      "learning_rate": 0.00023330777321978858,
      "loss": 1.6324,
      "step": 51520
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5091975331306458,
      "learning_rate": 0.00023329758269105834,
      "loss": 1.5537,
      "step": 51521
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5350533127784729,
      "learning_rate": 0.00023328739224329502,
      "loss": 1.546,
      "step": 51522
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5262192487716675,
      "learning_rate": 0.00023327720187651092,
      "loss": 1.5579,
      "step": 51523
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5238600969314575,
      "learning_rate": 0.00023326701159071862,
      "loss": 1.5766,
      "step": 51524
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5020045042037964,
      "learning_rate": 0.0002332568213859302,
      "loss": 1.5625,
      "step": 51525
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5349128842353821,
      "learning_rate": 0.00023324663126215818,
      "loss": 1.5949,
      "step": 51526
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5428354144096375,
      "learning_rate": 0.000233236441219415,
      "loss": 1.5842,
      "step": 51527
    },
    {
      "epoch": 1.71,
      "grad_norm": 2.0393786430358887,
      "learning_rate": 0.0002332262512577129,
      "loss": 1.5844,
      "step": 51528
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5481184124946594,
      "learning_rate": 0.00023321606137706428,
      "loss": 1.5734,
      "step": 51529
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.505500853061676,
      "learning_rate": 0.00023320587157748157,
      "loss": 1.6164,
      "step": 51530
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5542222857475281,
      "learning_rate": 0.00023319568185897706,
      "loss": 1.5526,
      "step": 51531
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.516876757144928,
      "learning_rate": 0.00023318549222156303,
      "loss": 1.5732,
      "step": 51532
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5389730930328369,
      "learning_rate": 0.00023317530266525206,
      "loss": 1.5705,
      "step": 51533
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5806735157966614,
      "learning_rate": 0.0002331651131900565,
      "loss": 1.6162,
      "step": 51534
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5134227871894836,
      "learning_rate": 0.00023315492379598858,
      "loss": 1.5574,
      "step": 51535
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.524761438369751,
      "learning_rate": 0.0002331447344830607,
      "loss": 1.5763,
      "step": 51536
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5211449265480042,
      "learning_rate": 0.00023313454525128536,
      "loss": 1.5989,
      "step": 51537
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5450383424758911,
      "learning_rate": 0.00023312435610067477,
      "loss": 1.5767,
      "step": 51538
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5275809168815613,
      "learning_rate": 0.00023311416703124127,
      "loss": 1.6045,
      "step": 51539
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5247880220413208,
      "learning_rate": 0.00023310397804299752,
      "loss": 1.5575,
      "step": 51540
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5266811847686768,
      "learning_rate": 0.0002330937891359555,
      "loss": 1.6752,
      "step": 51541
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5040723085403442,
      "learning_rate": 0.00023308360031012778,
      "loss": 1.5929,
      "step": 51542
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5530421137809753,
      "learning_rate": 0.00023307341156552676,
      "loss": 1.5865,
      "step": 51543
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5317299365997314,
      "learning_rate": 0.00023306322290216484,
      "loss": 1.5647,
      "step": 51544
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5490549802780151,
      "learning_rate": 0.00023305303432005417,
      "loss": 1.5186,
      "step": 51545
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5217903256416321,
      "learning_rate": 0.00023304284581920724,
      "loss": 1.5724,
      "step": 51546
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5420593023300171,
      "learning_rate": 0.00023303265739963661,
      "loss": 1.5719,
      "step": 51547
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.530147135257721,
      "learning_rate": 0.00023302246906135426,
      "loss": 1.4894,
      "step": 51548
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.526924729347229,
      "learning_rate": 0.00023301228080437286,
      "loss": 1.5856,
      "step": 51549
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5071606040000916,
      "learning_rate": 0.0002330020926287047,
      "loss": 1.6563,
      "step": 51550
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5107693672180176,
      "learning_rate": 0.00023299190453436212,
      "loss": 1.5935,
      "step": 51551
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5021567940711975,
      "learning_rate": 0.00023298171652135746,
      "loss": 1.6456,
      "step": 51552
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5217038989067078,
      "learning_rate": 0.00023297152858970304,
      "loss": 1.6641,
      "step": 51553
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5109314322471619,
      "learning_rate": 0.00023296134073941152,
      "loss": 1.5736,
      "step": 51554
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5494111180305481,
      "learning_rate": 0.00023295115297049487,
      "loss": 1.6106,
      "step": 51555
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5147805213928223,
      "learning_rate": 0.0002329409652829657,
      "loss": 1.5488,
      "step": 51556
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5285899639129639,
      "learning_rate": 0.00023293077767683637,
      "loss": 1.6182,
      "step": 51557
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5201141834259033,
      "learning_rate": 0.00023292059015211913,
      "loss": 1.5995,
      "step": 51558
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5062402486801147,
      "learning_rate": 0.00023291040270882643,
      "loss": 1.6233,
      "step": 51559
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5138625502586365,
      "learning_rate": 0.0002329002153469707,
      "loss": 1.5989,
      "step": 51560
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5323315858840942,
      "learning_rate": 0.00023289002806656413,
      "loss": 1.7282,
      "step": 51561
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5315138101577759,
      "learning_rate": 0.0002328798408676191,
      "loss": 1.5481,
      "step": 51562
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5275629758834839,
      "learning_rate": 0.00023286965375014811,
      "loss": 1.6184,
      "step": 51563
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5207812190055847,
      "learning_rate": 0.00023285946671416355,
      "loss": 1.552,
      "step": 51564
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5364972352981567,
      "learning_rate": 0.00023284927975967767,
      "loss": 1.617,
      "step": 51565
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5325435996055603,
      "learning_rate": 0.00023283909288670284,
      "loss": 1.5979,
      "step": 51566
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5315916538238525,
      "learning_rate": 0.0002328289060952515,
      "loss": 1.5923,
      "step": 51567
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5176753401756287,
      "learning_rate": 0.00023281871938533587,
      "loss": 1.5701,
      "step": 51568
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5146803259849548,
      "learning_rate": 0.0002328085327569685,
      "loss": 1.5747,
      "step": 51569
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5029172301292419,
      "learning_rate": 0.00023279834621016168,
      "loss": 1.5199,
      "step": 51570
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5034874677658081,
      "learning_rate": 0.00023278815974492773,
      "loss": 1.5554,
      "step": 51571
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5211551189422607,
      "learning_rate": 0.00023277797336127907,
      "loss": 1.5787,
      "step": 51572
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5156223773956299,
      "learning_rate": 0.00023276778705922803,
      "loss": 1.5231,
      "step": 51573
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5225270986557007,
      "learning_rate": 0.00023275760083878703,
      "loss": 1.5446,
      "step": 51574
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5099944472312927,
      "learning_rate": 0.0002327474146999683,
      "loss": 1.582,
      "step": 51575
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5295954346656799,
      "learning_rate": 0.00023273722864278434,
      "loss": 1.5898,
      "step": 51576
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5051488876342773,
      "learning_rate": 0.00023272704266724757,
      "loss": 1.5894,
      "step": 51577
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5014764666557312,
      "learning_rate": 0.00023271685677337016,
      "loss": 1.6358,
      "step": 51578
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5170825719833374,
      "learning_rate": 0.0002327066709611646,
      "loss": 1.5716,
      "step": 51579
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5268928408622742,
      "learning_rate": 0.0002326964852306432,
      "loss": 1.5444,
      "step": 51580
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.49762505292892456,
      "learning_rate": 0.00023268629958181846,
      "loss": 1.5351,
      "step": 51581
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5381559133529663,
      "learning_rate": 0.00023267611401470246,
      "loss": 1.6218,
      "step": 51582
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5396059155464172,
      "learning_rate": 0.0002326659285293078,
      "loss": 1.5701,
      "step": 51583
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5214643478393555,
      "learning_rate": 0.00023265574312564686,
      "loss": 1.5672,
      "step": 51584
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5103603005409241,
      "learning_rate": 0.00023264555780373188,
      "loss": 1.617,
      "step": 51585
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5100577473640442,
      "learning_rate": 0.00023263537256357523,
      "loss": 1.5373,
      "step": 51586
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5393944978713989,
      "learning_rate": 0.0002326251874051894,
      "loss": 1.6447,
      "step": 51587
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5100181698799133,
      "learning_rate": 0.0002326150023285866,
      "loss": 1.531,
      "step": 51588
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5161775946617126,
      "learning_rate": 0.0002326048173337792,
      "loss": 1.5843,
      "step": 51589
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5312857627868652,
      "learning_rate": 0.00023259463242077967,
      "loss": 1.6021,
      "step": 51590
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5453640818595886,
      "learning_rate": 0.00023258444758960043,
      "loss": 1.5128,
      "step": 51591
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5285037755966187,
      "learning_rate": 0.0002325742628402536,
      "loss": 1.6509,
      "step": 51592
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5106368064880371,
      "learning_rate": 0.00023256407817275174,
      "loss": 1.6312,
      "step": 51593
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5057803988456726,
      "learning_rate": 0.0002325538935871072,
      "loss": 1.6168,
      "step": 51594
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5077770352363586,
      "learning_rate": 0.0002325437090833322,
      "loss": 1.5451,
      "step": 51595
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5508967041969299,
      "learning_rate": 0.0002325335246614392,
      "loss": 1.5647,
      "step": 51596
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5369263291358948,
      "learning_rate": 0.0002325233403214407,
      "loss": 1.5362,
      "step": 51597
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.514654815196991,
      "learning_rate": 0.00023251315606334874,
      "loss": 1.6593,
      "step": 51598
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.49688252806663513,
      "learning_rate": 0.00023250297188717593,
      "loss": 1.5731,
      "step": 51599
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5355629324913025,
      "learning_rate": 0.0002324927877929346,
      "loss": 1.5693,
      "step": 51600
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.521282970905304,
      "learning_rate": 0.0002324826037806371,
      "loss": 1.571,
      "step": 51601
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5283263325691223,
      "learning_rate": 0.0002324724198502957,
      "loss": 1.6501,
      "step": 51602
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5377054214477539,
      "learning_rate": 0.0002324622360019228,
      "loss": 1.6024,
      "step": 51603
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5072253346443176,
      "learning_rate": 0.00023245205223553097,
      "loss": 1.5627,
      "step": 51604
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4933909773826599,
      "learning_rate": 0.00023244186855113223,
      "loss": 1.5109,
      "step": 51605
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5083515644073486,
      "learning_rate": 0.00023243168494873915,
      "loss": 1.5392,
      "step": 51606
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5297943353652954,
      "learning_rate": 0.0002324215014283641,
      "loss": 1.6027,
      "step": 51607
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5207052230834961,
      "learning_rate": 0.00023241131799001935,
      "loss": 1.6192,
      "step": 51608
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5339902639389038,
      "learning_rate": 0.0002324011346337173,
      "loss": 1.5776,
      "step": 51609
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5088863372802734,
      "learning_rate": 0.00023239095135947022,
      "loss": 1.5617,
      "step": 51610
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5023103952407837,
      "learning_rate": 0.00023238076816729078,
      "loss": 1.5146,
      "step": 51611
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5365023016929626,
      "learning_rate": 0.00023237058505719093,
      "loss": 1.6148,
      "step": 51612
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5312556028366089,
      "learning_rate": 0.00023236040202918328,
      "loss": 1.6347,
      "step": 51613
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5290316343307495,
      "learning_rate": 0.00023235021908328023,
      "loss": 1.5287,
      "step": 51614
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5323688983917236,
      "learning_rate": 0.00023234003621949394,
      "loss": 1.5848,
      "step": 51615
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5130641460418701,
      "learning_rate": 0.0002323298534378369,
      "loss": 1.587,
      "step": 51616
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5296575427055359,
      "learning_rate": 0.00023231967073832153,
      "loss": 1.6667,
      "step": 51617
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5064913630485535,
      "learning_rate": 0.00023230948812095998,
      "loss": 1.5765,
      "step": 51618
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5220723152160645,
      "learning_rate": 0.00023229930558576472,
      "loss": 1.6405,
      "step": 51619
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5136246681213379,
      "learning_rate": 0.00023228912313274816,
      "loss": 1.5986,
      "step": 51620
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5371952056884766,
      "learning_rate": 0.00023227894076192272,
      "loss": 1.6612,
      "step": 51621
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5353753566741943,
      "learning_rate": 0.00023226875847330062,
      "loss": 1.662,
      "step": 51622
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5252924561500549,
      "learning_rate": 0.00023225857626689423,
      "loss": 1.6098,
      "step": 51623
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5103288292884827,
      "learning_rate": 0.00023224839414271603,
      "loss": 1.5948,
      "step": 51624
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5285296440124512,
      "learning_rate": 0.00023223821210077825,
      "loss": 1.6298,
      "step": 51625
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5038393139839172,
      "learning_rate": 0.00023222803014109322,
      "loss": 1.569,
      "step": 51626
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5150882005691528,
      "learning_rate": 0.00023221784826367358,
      "loss": 1.6033,
      "step": 51627
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5293842554092407,
      "learning_rate": 0.00023220766646853125,
      "loss": 1.6318,
      "step": 51628
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5112770795822144,
      "learning_rate": 0.0002321974847556789,
      "loss": 1.5702,
      "step": 51629
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5007221102714539,
      "learning_rate": 0.00023218730312512883,
      "loss": 1.5561,
      "step": 51630
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5323481559753418,
      "learning_rate": 0.00023217712157689346,
      "loss": 1.5514,
      "step": 51631
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5093106627464294,
      "learning_rate": 0.00023216694011098498,
      "loss": 1.6067,
      "step": 51632
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.49851518869400024,
      "learning_rate": 0.0002321567587274158,
      "loss": 1.554,
      "step": 51633
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.523277223110199,
      "learning_rate": 0.00023214657742619849,
      "loss": 1.6182,
      "step": 51634
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5153341293334961,
      "learning_rate": 0.00023213639620734504,
      "loss": 1.5857,
      "step": 51635
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5166959762573242,
      "learning_rate": 0.00023212621507086808,
      "loss": 1.5419,
      "step": 51636
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4998699426651001,
      "learning_rate": 0.00023211603401677996,
      "loss": 1.5339,
      "step": 51637
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5244050025939941,
      "learning_rate": 0.00023210585304509293,
      "loss": 1.5786,
      "step": 51638
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5027310848236084,
      "learning_rate": 0.00023209567215581937,
      "loss": 1.576,
      "step": 51639
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.49248892068862915,
      "learning_rate": 0.00023208549134897159,
      "loss": 1.5894,
      "step": 51640
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5172995924949646,
      "learning_rate": 0.0002320753106245622,
      "loss": 1.5386,
      "step": 51641
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5192968845367432,
      "learning_rate": 0.00023206512998260318,
      "loss": 1.6381,
      "step": 51642
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5405452251434326,
      "learning_rate": 0.00023205494942310717,
      "loss": 1.5957,
      "step": 51643
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.51629638671875,
      "learning_rate": 0.0002320447689460865,
      "loss": 1.6364,
      "step": 51644
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5165743231773376,
      "learning_rate": 0.00023203458855155338,
      "loss": 1.6598,
      "step": 51645
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5189993977546692,
      "learning_rate": 0.00023202440823952029,
      "loss": 1.5861,
      "step": 51646
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5721258521080017,
      "learning_rate": 0.0002320142280099996,
      "loss": 1.5414,
      "step": 51647
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5401521921157837,
      "learning_rate": 0.00023200404786300356,
      "loss": 1.5936,
      "step": 51648
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5033068656921387,
      "learning_rate": 0.00023199386779854453,
      "loss": 1.533,
      "step": 51649
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.527464747428894,
      "learning_rate": 0.00023198368781663498,
      "loss": 1.6044,
      "step": 51650
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5470491051673889,
      "learning_rate": 0.00023197350791728726,
      "loss": 1.6075,
      "step": 51651
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5333450436592102,
      "learning_rate": 0.00023196332810051362,
      "loss": 1.5685,
      "step": 51652
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.8576205372810364,
      "learning_rate": 0.0002319531483663265,
      "loss": 1.7024,
      "step": 51653
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.517863929271698,
      "learning_rate": 0.0002319429687147383,
      "loss": 1.623,
      "step": 51654
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.520778477191925,
      "learning_rate": 0.0002319327891457612,
      "loss": 1.5356,
      "step": 51655
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5481383204460144,
      "learning_rate": 0.0002319226096594076,
      "loss": 1.6828,
      "step": 51656
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5207232236862183,
      "learning_rate": 0.00023191243025569018,
      "loss": 1.6555,
      "step": 51657
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5208275318145752,
      "learning_rate": 0.00023190225093462077,
      "loss": 1.6093,
      "step": 51658
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5402284264564514,
      "learning_rate": 0.0002318920716962121,
      "loss": 1.5674,
      "step": 51659
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5138775706291199,
      "learning_rate": 0.00023188189254047642,
      "loss": 1.5759,
      "step": 51660
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5383862853050232,
      "learning_rate": 0.00023187171346742615,
      "loss": 1.5926,
      "step": 51661
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5659396052360535,
      "learning_rate": 0.0002318615344770735,
      "loss": 1.5731,
      "step": 51662
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5233877897262573,
      "learning_rate": 0.00023185135556943082,
      "loss": 1.5988,
      "step": 51663
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.518041729927063,
      "learning_rate": 0.00023184117674451078,
      "loss": 1.6314,
      "step": 51664
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5461322069168091,
      "learning_rate": 0.00023183099800232535,
      "loss": 1.6256,
      "step": 51665
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5241686105728149,
      "learning_rate": 0.00023182081934288703,
      "loss": 1.5791,
      "step": 51666
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5321927070617676,
      "learning_rate": 0.0002318106407662083,
      "loss": 1.5226,
      "step": 51667
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5548238754272461,
      "learning_rate": 0.00023180046227230133,
      "loss": 1.5383,
      "step": 51668
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5438225865364075,
      "learning_rate": 0.00023179028386117857,
      "loss": 1.5992,
      "step": 51669
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5217601656913757,
      "learning_rate": 0.0002317801055328523,
      "loss": 1.6071,
      "step": 51670
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5181794762611389,
      "learning_rate": 0.00023176992728733508,
      "loss": 1.597,
      "step": 51671
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5843261480331421,
      "learning_rate": 0.00023175974912463895,
      "loss": 1.5887,
      "step": 51672
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5124090313911438,
      "learning_rate": 0.00023174957104477647,
      "loss": 1.5594,
      "step": 51673
    },
    {
      "epoch": 1.72,
      "grad_norm": 1.5641790628433228,
      "learning_rate": 0.00023173939304776004,
      "loss": 1.5766,
      "step": 51674
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5886825323104858,
      "learning_rate": 0.00023172921513360187,
      "loss": 1.7184,
      "step": 51675
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5324462652206421,
      "learning_rate": 0.00023171903730231434,
      "loss": 1.5828,
      "step": 51676
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5389456152915955,
      "learning_rate": 0.00023170885955390994,
      "loss": 1.6004,
      "step": 51677
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5714862942695618,
      "learning_rate": 0.00023169868188840077,
      "loss": 1.612,
      "step": 51678
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5261985063552856,
      "learning_rate": 0.00023168850430579943,
      "loss": 1.6095,
      "step": 51679
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5274134874343872,
      "learning_rate": 0.00023167832680611814,
      "loss": 1.6131,
      "step": 51680
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5129058957099915,
      "learning_rate": 0.00023166814938936937,
      "loss": 1.615,
      "step": 51681
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.523198127746582,
      "learning_rate": 0.00023165797205556532,
      "loss": 1.6001,
      "step": 51682
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5194670557975769,
      "learning_rate": 0.00023164779480471846,
      "loss": 1.608,
      "step": 51683
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5210637450218201,
      "learning_rate": 0.00023163761763684117,
      "loss": 1.5308,
      "step": 51684
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5322297215461731,
      "learning_rate": 0.00023162744055194557,
      "loss": 1.626,
      "step": 51685
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.523076057434082,
      "learning_rate": 0.0002316172635500443,
      "loss": 1.5627,
      "step": 51686
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5094616413116455,
      "learning_rate": 0.00023160708663114962,
      "loss": 1.6034,
      "step": 51687
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5262144804000854,
      "learning_rate": 0.00023159690979527382,
      "loss": 1.5521,
      "step": 51688
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5237330198287964,
      "learning_rate": 0.0002315867330424293,
      "loss": 1.6046,
      "step": 51689
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5337471961975098,
      "learning_rate": 0.00023157655637262835,
      "loss": 1.54,
      "step": 51690
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.521718442440033,
      "learning_rate": 0.0002315663797858835,
      "loss": 1.5283,
      "step": 51691
    },
    {
      "epoch": 1.72,
      "grad_norm": 1.3594251871109009,
      "learning_rate": 0.00023155620328220683,
      "loss": 1.5484,
      "step": 51692
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5238045454025269,
      "learning_rate": 0.0002315460268616109,
      "loss": 1.5421,
      "step": 51693
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5133817195892334,
      "learning_rate": 0.0002315358505241081,
      "loss": 1.5845,
      "step": 51694
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5261977910995483,
      "learning_rate": 0.00023152567426971063,
      "loss": 1.5401,
      "step": 51695
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5204087495803833,
      "learning_rate": 0.00023151549809843086,
      "loss": 1.5935,
      "step": 51696
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5102232694625854,
      "learning_rate": 0.00023150532201028127,
      "loss": 1.5618,
      "step": 51697
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5236856341362,
      "learning_rate": 0.00023149514600527408,
      "loss": 1.6102,
      "step": 51698
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5295249819755554,
      "learning_rate": 0.0002314849700834216,
      "loss": 1.6024,
      "step": 51699
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5000566244125366,
      "learning_rate": 0.00023147479424473635,
      "loss": 1.608,
      "step": 51700
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5289553999900818,
      "learning_rate": 0.00023146461848923066,
      "loss": 1.5693,
      "step": 51701
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5238322019577026,
      "learning_rate": 0.00023145444281691676,
      "loss": 1.5864,
      "step": 51702
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.520613431930542,
      "learning_rate": 0.00023144426722780705,
      "loss": 1.6064,
      "step": 51703
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5235381126403809,
      "learning_rate": 0.000231434091721914,
      "loss": 1.601,
      "step": 51704
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.521188497543335,
      "learning_rate": 0.00023142391629924977,
      "loss": 1.5775,
      "step": 51705
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5145703554153442,
      "learning_rate": 0.00023141374095982673,
      "loss": 1.5065,
      "step": 51706
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5253331065177917,
      "learning_rate": 0.00023140356570365737,
      "loss": 1.6048,
      "step": 51707
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5296164751052856,
      "learning_rate": 0.00023139339053075407,
      "loss": 1.5904,
      "step": 51708
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5057697296142578,
      "learning_rate": 0.000231383215441129,
      "loss": 1.5125,
      "step": 51709
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.49941131472587585,
      "learning_rate": 0.00023137304043479461,
      "loss": 1.5676,
      "step": 51710
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.530198335647583,
      "learning_rate": 0.0002313628655117633,
      "loss": 1.6205,
      "step": 51711
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5424617528915405,
      "learning_rate": 0.00023135269067204724,
      "loss": 1.6672,
      "step": 51712
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5304576754570007,
      "learning_rate": 0.00023134251591565888,
      "loss": 1.5837,
      "step": 51713
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5245294570922852,
      "learning_rate": 0.0002313323412426108,
      "loss": 1.5781,
      "step": 51714
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5295976400375366,
      "learning_rate": 0.0002313221666529149,
      "loss": 1.634,
      "step": 51715
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5398831367492676,
      "learning_rate": 0.00023131199214658385,
      "loss": 1.6209,
      "step": 51716
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5259528756141663,
      "learning_rate": 0.00023130181772362997,
      "loss": 1.6488,
      "step": 51717
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5305850505828857,
      "learning_rate": 0.0002312916433840656,
      "loss": 1.6104,
      "step": 51718
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5275853276252747,
      "learning_rate": 0.00023128146912790296,
      "loss": 1.6229,
      "step": 51719
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.525755763053894,
      "learning_rate": 0.00023127129495515442,
      "loss": 1.5457,
      "step": 51720
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5181657671928406,
      "learning_rate": 0.0002312611208658326,
      "loss": 1.6055,
      "step": 51721
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5064249634742737,
      "learning_rate": 0.00023125094685994948,
      "loss": 1.6881,
      "step": 51722
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4925979673862457,
      "learning_rate": 0.00023124077293751766,
      "loss": 1.5561,
      "step": 51723
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5250781774520874,
      "learning_rate": 0.00023123059909854944,
      "loss": 1.6184,
      "step": 51724
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5212530493736267,
      "learning_rate": 0.00023122042534305708,
      "loss": 1.5271,
      "step": 51725
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5129467248916626,
      "learning_rate": 0.00023121025167105298,
      "loss": 1.6087,
      "step": 51726
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5142489075660706,
      "learning_rate": 0.00023120007808254947,
      "loss": 1.5542,
      "step": 51727
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5317149758338928,
      "learning_rate": 0.00023118990457755912,
      "loss": 1.5524,
      "step": 51728
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5085486769676208,
      "learning_rate": 0.00023117973115609387,
      "loss": 1.6112,
      "step": 51729
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5230251550674438,
      "learning_rate": 0.00023116955781816634,
      "loss": 1.628,
      "step": 51730
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5141836404800415,
      "learning_rate": 0.0002311593845637889,
      "loss": 1.5807,
      "step": 51731
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.512217104434967,
      "learning_rate": 0.00023114921139297378,
      "loss": 1.6445,
      "step": 51732
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5274295806884766,
      "learning_rate": 0.00023113903830573334,
      "loss": 1.6419,
      "step": 51733
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5101231336593628,
      "learning_rate": 0.00023112886530208008,
      "loss": 1.5582,
      "step": 51734
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.7154703140258789,
      "learning_rate": 0.00023111869238202614,
      "loss": 1.5896,
      "step": 51735
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5270501971244812,
      "learning_rate": 0.00023110851954558385,
      "loss": 1.58,
      "step": 51736
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5375774502754211,
      "learning_rate": 0.0002310983467927658,
      "loss": 1.6544,
      "step": 51737
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5546550750732422,
      "learning_rate": 0.0002310881741235842,
      "loss": 1.5753,
      "step": 51738
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5517895817756653,
      "learning_rate": 0.00023107800153805138,
      "loss": 1.5417,
      "step": 51739
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.52814781665802,
      "learning_rate": 0.00023106782903617974,
      "loss": 1.5367,
      "step": 51740
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5307957530021667,
      "learning_rate": 0.00023105765661798162,
      "loss": 1.66,
      "step": 51741
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5348682403564453,
      "learning_rate": 0.0002310474842834693,
      "loss": 1.6307,
      "step": 51742
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5274831056594849,
      "learning_rate": 0.00023103731203265508,
      "loss": 1.5701,
      "step": 51743
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5242775678634644,
      "learning_rate": 0.0002310271398655516,
      "loss": 1.5334,
      "step": 51744
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.52894526720047,
      "learning_rate": 0.00023101696778217082,
      "loss": 1.5468,
      "step": 51745
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5010989904403687,
      "learning_rate": 0.00023100679578252537,
      "loss": 1.5452,
      "step": 51746
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5330342054367065,
      "learning_rate": 0.0002309966238666275,
      "loss": 1.6146,
      "step": 51747
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5167152285575867,
      "learning_rate": 0.0002309864520344896,
      "loss": 1.5834,
      "step": 51748
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.514828085899353,
      "learning_rate": 0.00023097628028612393,
      "loss": 1.5098,
      "step": 51749
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5319116711616516,
      "learning_rate": 0.0002309661086215428,
      "loss": 1.5823,
      "step": 51750
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5490677356719971,
      "learning_rate": 0.00023095593704075887,
      "loss": 1.5767,
      "step": 51751
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5169315934181213,
      "learning_rate": 0.00023094576554378405,
      "loss": 1.5366,
      "step": 51752
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5319218039512634,
      "learning_rate": 0.00023093559413063096,
      "loss": 1.5519,
      "step": 51753
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5654604434967041,
      "learning_rate": 0.0002309254228013119,
      "loss": 1.6605,
      "step": 51754
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5233287811279297,
      "learning_rate": 0.00023091525155583922,
      "loss": 1.604,
      "step": 51755
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5349739789962769,
      "learning_rate": 0.0002309050803942252,
      "loss": 1.5235,
      "step": 51756
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5306216478347778,
      "learning_rate": 0.0002308949093164822,
      "loss": 1.6247,
      "step": 51757
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5387855768203735,
      "learning_rate": 0.00023088473832262273,
      "loss": 1.581,
      "step": 51758
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5300809741020203,
      "learning_rate": 0.00023087456741265888,
      "loss": 1.6302,
      "step": 51759
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.528369128704071,
      "learning_rate": 0.0002308643965866031,
      "loss": 1.6241,
      "step": 51760
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.561360239982605,
      "learning_rate": 0.0002308542258444679,
      "loss": 1.6231,
      "step": 51761
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5096099376678467,
      "learning_rate": 0.00023084405518626538,
      "loss": 1.5388,
      "step": 51762
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5433558821678162,
      "learning_rate": 0.000230833884612008,
      "loss": 1.5632,
      "step": 51763
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5088520050048828,
      "learning_rate": 0.00023082371412170815,
      "loss": 1.6016,
      "step": 51764
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5073397755622864,
      "learning_rate": 0.00023081354371537807,
      "loss": 1.604,
      "step": 51765
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5221290588378906,
      "learning_rate": 0.00023080337339303006,
      "loss": 1.6135,
      "step": 51766
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.7331987023353577,
      "learning_rate": 0.00023079320315467665,
      "loss": 1.5285,
      "step": 51767
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5270452499389648,
      "learning_rate": 0.00023078303300033017,
      "loss": 1.562,
      "step": 51768
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5249069929122925,
      "learning_rate": 0.00023077286293000278,
      "loss": 1.4795,
      "step": 51769
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5107765197753906,
      "learning_rate": 0.00023076269294370697,
      "loss": 1.549,
      "step": 51770
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5068005919456482,
      "learning_rate": 0.0002307525230414551,
      "loss": 1.5472,
      "step": 51771
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5144391655921936,
      "learning_rate": 0.0002307423532232594,
      "loss": 1.5547,
      "step": 51772
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.512392520904541,
      "learning_rate": 0.0002307321834891322,
      "loss": 1.6301,
      "step": 51773
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5286998748779297,
      "learning_rate": 0.00023072201383908615,
      "loss": 1.6268,
      "step": 51774
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5430436730384827,
      "learning_rate": 0.00023071184427313316,
      "loss": 1.5643,
      "step": 51775
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5383467078208923,
      "learning_rate": 0.00023070167479128585,
      "loss": 1.596,
      "step": 51776
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5129040479660034,
      "learning_rate": 0.00023069150539355648,
      "loss": 1.593,
      "step": 51777
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5371578931808472,
      "learning_rate": 0.00023068133607995748,
      "loss": 1.5701,
      "step": 51778
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5048713088035583,
      "learning_rate": 0.00023067116685050105,
      "loss": 1.5762,
      "step": 51779
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5345178246498108,
      "learning_rate": 0.00023066099770519953,
      "loss": 1.5852,
      "step": 51780
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5089006423950195,
      "learning_rate": 0.00023065082864406558,
      "loss": 1.5171,
      "step": 51781
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.514537513256073,
      "learning_rate": 0.00023064065966711108,
      "loss": 1.5356,
      "step": 51782
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5573701858520508,
      "learning_rate": 0.0002306304907743487,
      "loss": 1.5721,
      "step": 51783
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5705848336219788,
      "learning_rate": 0.0002306203219657907,
      "loss": 1.5941,
      "step": 51784
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5137794613838196,
      "learning_rate": 0.00023061015324144939,
      "loss": 1.5189,
      "step": 51785
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5424558520317078,
      "learning_rate": 0.00023059998460133713,
      "loss": 1.5289,
      "step": 51786
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5261672735214233,
      "learning_rate": 0.00023058981604546616,
      "loss": 1.5655,
      "step": 51787
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5303267240524292,
      "learning_rate": 0.00023057964757384913,
      "loss": 1.5513,
      "step": 51788
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5111060738563538,
      "learning_rate": 0.000230569479186498,
      "loss": 1.6113,
      "step": 51789
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5024337768554688,
      "learning_rate": 0.00023055931088342537,
      "loss": 1.5855,
      "step": 51790
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5336928963661194,
      "learning_rate": 0.00023054914266464353,
      "loss": 1.5666,
      "step": 51791
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5142879486083984,
      "learning_rate": 0.00023053897453016476,
      "loss": 1.6209,
      "step": 51792
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5053825378417969,
      "learning_rate": 0.0002305288064800014,
      "loss": 1.576,
      "step": 51793
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5077575445175171,
      "learning_rate": 0.00023051863851416597,
      "loss": 1.5831,
      "step": 51794
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5190202593803406,
      "learning_rate": 0.00023050847063267049,
      "loss": 1.641,
      "step": 51795
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5403111577033997,
      "learning_rate": 0.00023049830283552756,
      "loss": 1.662,
      "step": 51796
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5457298755645752,
      "learning_rate": 0.0002304881351227495,
      "loss": 1.5414,
      "step": 51797
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5195770859718323,
      "learning_rate": 0.0002304779674943486,
      "loss": 1.5642,
      "step": 51798
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5113013982772827,
      "learning_rate": 0.00023046779995033716,
      "loss": 1.5518,
      "step": 51799
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.504412829875946,
      "learning_rate": 0.00023045763249072756,
      "loss": 1.5921,
      "step": 51800
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5341188311576843,
      "learning_rate": 0.00023044746511553221,
      "loss": 1.6309,
      "step": 51801
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5268810391426086,
      "learning_rate": 0.00023043729782476328,
      "loss": 1.6462,
      "step": 51802
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4969750642776489,
      "learning_rate": 0.0002304271306184333,
      "loss": 1.5607,
      "step": 51803
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5112757086753845,
      "learning_rate": 0.00023041696349655456,
      "loss": 1.5665,
      "step": 51804
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5246694087982178,
      "learning_rate": 0.00023040679645913934,
      "loss": 1.591,
      "step": 51805
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5282309055328369,
      "learning_rate": 0.00023039662950619997,
      "loss": 1.5268,
      "step": 51806
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5201771855354309,
      "learning_rate": 0.00023038646263774887,
      "loss": 1.5898,
      "step": 51807
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5179511308670044,
      "learning_rate": 0.00023037629585379843,
      "loss": 1.5467,
      "step": 51808
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5296886563301086,
      "learning_rate": 0.00023036612915436073,
      "loss": 1.6458,
      "step": 51809
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5300942063331604,
      "learning_rate": 0.00023035596253944836,
      "loss": 1.6511,
      "step": 51810
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5123772025108337,
      "learning_rate": 0.00023034579600907367,
      "loss": 1.5406,
      "step": 51811
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5130684971809387,
      "learning_rate": 0.0002303356295632489,
      "loss": 1.553,
      "step": 51812
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5142156481742859,
      "learning_rate": 0.00023032546320198632,
      "loss": 1.6062,
      "step": 51813
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5246800780296326,
      "learning_rate": 0.0002303152969252985,
      "loss": 1.586,
      "step": 51814
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5058879256248474,
      "learning_rate": 0.00023030513073319755,
      "loss": 1.661,
      "step": 51815
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5067930817604065,
      "learning_rate": 0.00023029496462569584,
      "loss": 1.5861,
      "step": 51816
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.523359477519989,
      "learning_rate": 0.00023028479860280585,
      "loss": 1.5065,
      "step": 51817
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5003055930137634,
      "learning_rate": 0.00023027463266453988,
      "loss": 1.5708,
      "step": 51818
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5163276195526123,
      "learning_rate": 0.00023026446681091017,
      "loss": 1.5791,
      "step": 51819
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5170325636863708,
      "learning_rate": 0.00023025430104192915,
      "loss": 1.5777,
      "step": 51820
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5113427639007568,
      "learning_rate": 0.00023024413535760918,
      "loss": 1.6058,
      "step": 51821
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5204615592956543,
      "learning_rate": 0.00023023396975796248,
      "loss": 1.6532,
      "step": 51822
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5147563219070435,
      "learning_rate": 0.00023022380424300143,
      "loss": 1.5059,
      "step": 51823
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5276621580123901,
      "learning_rate": 0.00023021363881273844,
      "loss": 1.6264,
      "step": 51824
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5562670826911926,
      "learning_rate": 0.00023020347346718587,
      "loss": 1.6277,
      "step": 51825
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.513753354549408,
      "learning_rate": 0.00023019330820635593,
      "loss": 1.6537,
      "step": 51826
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.543398380279541,
      "learning_rate": 0.00023018314303026107,
      "loss": 1.5762,
      "step": 51827
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5249066352844238,
      "learning_rate": 0.0002301729779389136,
      "loss": 1.5711,
      "step": 51828
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5251805186271667,
      "learning_rate": 0.00023016281293232582,
      "loss": 1.6014,
      "step": 51829
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5451188087463379,
      "learning_rate": 0.00023015264801051,
      "loss": 1.6395,
      "step": 51830
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.526738166809082,
      "learning_rate": 0.00023014248317347879,
      "loss": 1.6105,
      "step": 51831
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5371395945549011,
      "learning_rate": 0.0002301323184212441,
      "loss": 1.6215,
      "step": 51832
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5077323317527771,
      "learning_rate": 0.00023012215375381855,
      "loss": 1.5471,
      "step": 51833
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5190703272819519,
      "learning_rate": 0.0002301119891712144,
      "loss": 1.553,
      "step": 51834
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5090855956077576,
      "learning_rate": 0.0002301018246734441,
      "loss": 1.6216,
      "step": 51835
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5477734804153442,
      "learning_rate": 0.0002300916602605198,
      "loss": 1.6092,
      "step": 51836
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5105422735214233,
      "learning_rate": 0.00023008149593245383,
      "loss": 1.5618,
      "step": 51837
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5265551209449768,
      "learning_rate": 0.00023007133168925886,
      "loss": 1.5682,
      "step": 51838
    },
    {
      "epoch": 1.72,
      "grad_norm": 1.74350905418396,
      "learning_rate": 0.00023006116753094673,
      "loss": 1.636,
      "step": 51839
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5239381790161133,
      "learning_rate": 0.00023005100345753018,
      "loss": 1.6175,
      "step": 51840
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5481266379356384,
      "learning_rate": 0.00023004083946902146,
      "loss": 1.5561,
      "step": 51841
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5242319107055664,
      "learning_rate": 0.00023003067556543274,
      "loss": 1.5839,
      "step": 51842
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.533228874206543,
      "learning_rate": 0.00023002051174677652,
      "loss": 1.5707,
      "step": 51843
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5122190713882446,
      "learning_rate": 0.00023001034801306498,
      "loss": 1.5826,
      "step": 51844
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.500917911529541,
      "learning_rate": 0.00023000018436431077,
      "loss": 1.5526,
      "step": 51845
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5194036364555359,
      "learning_rate": 0.00022999002080052586,
      "loss": 1.6383,
      "step": 51846
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5178235173225403,
      "learning_rate": 0.0002299798573217228,
      "loss": 1.5486,
      "step": 51847
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5521373748779297,
      "learning_rate": 0.00022996969392791392,
      "loss": 1.6324,
      "step": 51848
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5227633118629456,
      "learning_rate": 0.0002299595306191115,
      "loss": 1.5407,
      "step": 51849
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.505656898021698,
      "learning_rate": 0.00022994936739532783,
      "loss": 1.5544,
      "step": 51850
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5198718905448914,
      "learning_rate": 0.00022993920425657538,
      "loss": 1.6114,
      "step": 51851
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5278245210647583,
      "learning_rate": 0.00022992904120286634,
      "loss": 1.5996,
      "step": 51852
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5397337675094604,
      "learning_rate": 0.0002299188782342131,
      "loss": 1.5563,
      "step": 51853
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5352988839149475,
      "learning_rate": 0.00022990871535062807,
      "loss": 1.6259,
      "step": 51854
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5320703983306885,
      "learning_rate": 0.00022989855255212358,
      "loss": 1.5514,
      "step": 51855
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5320013761520386,
      "learning_rate": 0.00022988838983871183,
      "loss": 1.5651,
      "step": 51856
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5176505446434021,
      "learning_rate": 0.00022987822721040529,
      "loss": 1.6361,
      "step": 51857
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5122962594032288,
      "learning_rate": 0.0002298680646672163,
      "loss": 1.6334,
      "step": 51858
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5374348759651184,
      "learning_rate": 0.00022985790220915708,
      "loss": 1.6493,
      "step": 51859
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5353401899337769,
      "learning_rate": 0.00022984773983623997,
      "loss": 1.549,
      "step": 51860
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5196788907051086,
      "learning_rate": 0.00022983757754847754,
      "loss": 1.4905,
      "step": 51861
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5176060795783997,
      "learning_rate": 0.00022982741534588179,
      "loss": 1.5615,
      "step": 51862
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.4953652620315552,
      "learning_rate": 0.00022981725322846527,
      "loss": 1.6333,
      "step": 51863
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5020493268966675,
      "learning_rate": 0.00022980709119624026,
      "loss": 1.5623,
      "step": 51864
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5153180360794067,
      "learning_rate": 0.00022979692924921915,
      "loss": 1.606,
      "step": 51865
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5401708483695984,
      "learning_rate": 0.00022978676738741416,
      "loss": 1.6172,
      "step": 51866
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5243586897850037,
      "learning_rate": 0.00022977660561083766,
      "loss": 1.6245,
      "step": 51867
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5190830826759338,
      "learning_rate": 0.0002297664439195022,
      "loss": 1.6702,
      "step": 51868
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5125672817230225,
      "learning_rate": 0.0002297562823134197,
      "loss": 1.635,
      "step": 51869
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5254541635513306,
      "learning_rate": 0.00022974612079260283,
      "loss": 1.6238,
      "step": 51870
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.49146613478660583,
      "learning_rate": 0.00022973595935706385,
      "loss": 1.4861,
      "step": 51871
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5081634521484375,
      "learning_rate": 0.00022972579800681502,
      "loss": 1.4959,
      "step": 51872
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.523149311542511,
      "learning_rate": 0.0002297156367418687,
      "loss": 1.5577,
      "step": 51873
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5163106918334961,
      "learning_rate": 0.00022970547556223718,
      "loss": 1.5353,
      "step": 51874
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5214371681213379,
      "learning_rate": 0.00022969531446793306,
      "loss": 1.6101,
      "step": 51875
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5117159485816956,
      "learning_rate": 0.00022968515345896825,
      "loss": 1.6157,
      "step": 51876
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5203037858009338,
      "learning_rate": 0.0002296749925353554,
      "loss": 1.6359,
      "step": 51877
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5124730467796326,
      "learning_rate": 0.0002296648316971068,
      "loss": 1.4998,
      "step": 51878
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5339375734329224,
      "learning_rate": 0.00022965467094423467,
      "loss": 1.5992,
      "step": 51879
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5352193713188171,
      "learning_rate": 0.0002296445102767514,
      "loss": 1.5965,
      "step": 51880
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5066516399383545,
      "learning_rate": 0.00022963434969466937,
      "loss": 1.6006,
      "step": 51881
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5319573283195496,
      "learning_rate": 0.00022962418919800082,
      "loss": 1.5578,
      "step": 51882
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5133754014968872,
      "learning_rate": 0.00022961402878675808,
      "loss": 1.5435,
      "step": 51883
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5365064740180969,
      "learning_rate": 0.00022960386846095361,
      "loss": 1.5417,
      "step": 51884
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5021067261695862,
      "learning_rate": 0.00022959370822059973,
      "loss": 1.5539,
      "step": 51885
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5607664585113525,
      "learning_rate": 0.00022958354806570865,
      "loss": 1.6094,
      "step": 51886
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5197874307632446,
      "learning_rate": 0.00022957338799629276,
      "loss": 1.5371,
      "step": 51887
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5138891935348511,
      "learning_rate": 0.00022956322801236448,
      "loss": 1.6327,
      "step": 51888
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.53032386302948,
      "learning_rate": 0.000229553068113936,
      "loss": 1.6532,
      "step": 51889
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5259096026420593,
      "learning_rate": 0.00022954290830101964,
      "loss": 1.527,
      "step": 51890
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5181196331977844,
      "learning_rate": 0.00022953274857362798,
      "loss": 1.6215,
      "step": 51891
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5422057509422302,
      "learning_rate": 0.00022952258893177297,
      "loss": 1.5821,
      "step": 51892
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5105178356170654,
      "learning_rate": 0.00022951242937546728,
      "loss": 1.6045,
      "step": 51893
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5250216126441956,
      "learning_rate": 0.00022950226990472306,
      "loss": 1.5686,
      "step": 51894
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5102309584617615,
      "learning_rate": 0.0002294921105195528,
      "loss": 1.5429,
      "step": 51895
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5076561570167542,
      "learning_rate": 0.00022948195121996867,
      "loss": 1.4937,
      "step": 51896
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5106677412986755,
      "learning_rate": 0.00022947179200598299,
      "loss": 1.6003,
      "step": 51897
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.514697253704071,
      "learning_rate": 0.00022946163287760834,
      "loss": 1.5621,
      "step": 51898
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5106379389762878,
      "learning_rate": 0.00022945147383485667,
      "loss": 1.6419,
      "step": 51899
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5312103629112244,
      "learning_rate": 0.00022944131487774062,
      "loss": 1.593,
      "step": 51900
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5019924640655518,
      "learning_rate": 0.00022943115600627245,
      "loss": 1.5378,
      "step": 51901
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5280826687812805,
      "learning_rate": 0.0002294209972204644,
      "loss": 1.5974,
      "step": 51902
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5083306431770325,
      "learning_rate": 0.00022941083852032887,
      "loss": 1.5438,
      "step": 51903
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5347143411636353,
      "learning_rate": 0.0002294006799058781,
      "loss": 1.6454,
      "step": 51904
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5024064779281616,
      "learning_rate": 0.0002293905213771247,
      "loss": 1.4775,
      "step": 51905
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5239898562431335,
      "learning_rate": 0.00022938036293408063,
      "loss": 1.6023,
      "step": 51906
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5486866235733032,
      "learning_rate": 0.00022937020457675843,
      "loss": 1.6004,
      "step": 51907
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.530815839767456,
      "learning_rate": 0.00022936004630517049,
      "loss": 1.5947,
      "step": 51908
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5147426724433899,
      "learning_rate": 0.00022934988811932898,
      "loss": 1.5544,
      "step": 51909
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.515080988407135,
      "learning_rate": 0.0002293397300192463,
      "loss": 1.5791,
      "step": 51910
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.514880359172821,
      "learning_rate": 0.00022932957200493478,
      "loss": 1.5598,
      "step": 51911
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5460056662559509,
      "learning_rate": 0.00022931941407640667,
      "loss": 1.5857,
      "step": 51912
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5257838368415833,
      "learning_rate": 0.00022930925623367444,
      "loss": 1.5775,
      "step": 51913
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5422021150588989,
      "learning_rate": 0.00022929909847675036,
      "loss": 1.5625,
      "step": 51914
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5247060060501099,
      "learning_rate": 0.0002292889408056468,
      "loss": 1.643,
      "step": 51915
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5555477142333984,
      "learning_rate": 0.00022927878322037597,
      "loss": 1.5512,
      "step": 51916
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5094943046569824,
      "learning_rate": 0.00022926862572095032,
      "loss": 1.5725,
      "step": 51917
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.527794361114502,
      "learning_rate": 0.00022925846830738216,
      "loss": 1.5808,
      "step": 51918
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5073862075805664,
      "learning_rate": 0.0002292483109796837,
      "loss": 1.5755,
      "step": 51919
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5295549035072327,
      "learning_rate": 0.00022923815373786742,
      "loss": 1.6457,
      "step": 51920
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5127713680267334,
      "learning_rate": 0.00022922799658194566,
      "loss": 1.6378,
      "step": 51921
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5309117436408997,
      "learning_rate": 0.0002292178395119306,
      "loss": 1.5983,
      "step": 51922
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.515271782875061,
      "learning_rate": 0.00022920768252783467,
      "loss": 1.582,
      "step": 51923
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.524402379989624,
      "learning_rate": 0.0002291975256296702,
      "loss": 1.6536,
      "step": 51924
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5102941393852234,
      "learning_rate": 0.00022918736881744954,
      "loss": 1.5563,
      "step": 51925
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5315861701965332,
      "learning_rate": 0.00022917721209118487,
      "loss": 1.6344,
      "step": 51926
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.53307044506073,
      "learning_rate": 0.00022916705545088868,
      "loss": 1.6317,
      "step": 51927
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5117073059082031,
      "learning_rate": 0.00022915689889657333,
      "loss": 1.5344,
      "step": 51928
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.506925642490387,
      "learning_rate": 0.00022914674242825096,
      "loss": 1.5775,
      "step": 51929
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5002139210700989,
      "learning_rate": 0.00022913658604593407,
      "loss": 1.6311,
      "step": 51930
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5215792655944824,
      "learning_rate": 0.00022912642974963495,
      "loss": 1.609,
      "step": 51931
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5302911400794983,
      "learning_rate": 0.00022911627353936585,
      "loss": 1.6572,
      "step": 51932
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5125515460968018,
      "learning_rate": 0.00022910611741513905,
      "loss": 1.6245,
      "step": 51933
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5165510773658752,
      "learning_rate": 0.00022909596137696706,
      "loss": 1.6058,
      "step": 51934
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5448728203773499,
      "learning_rate": 0.00022908580542486224,
      "loss": 1.5816,
      "step": 51935
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5154903531074524,
      "learning_rate": 0.00022907564955883668,
      "loss": 1.5065,
      "step": 51936
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5332376956939697,
      "learning_rate": 0.00022906549377890283,
      "loss": 1.6083,
      "step": 51937
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5284862518310547,
      "learning_rate": 0.0002290553380850731,
      "loss": 1.5251,
      "step": 51938
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5564619898796082,
      "learning_rate": 0.00022904518247735968,
      "loss": 1.5722,
      "step": 51939
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5294682383537292,
      "learning_rate": 0.00022903502695577487,
      "loss": 1.5906,
      "step": 51940
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5244951248168945,
      "learning_rate": 0.0002290248715203313,
      "loss": 1.5707,
      "step": 51941
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5255575180053711,
      "learning_rate": 0.00022901471617104086,
      "loss": 1.5498,
      "step": 51942
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5404506921768188,
      "learning_rate": 0.0002290045609079162,
      "loss": 1.6135,
      "step": 51943
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5233270525932312,
      "learning_rate": 0.0002289944057309695,
      "loss": 1.5933,
      "step": 51944
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.6398937702178955,
      "learning_rate": 0.00022898425064021323,
      "loss": 1.5287,
      "step": 51945
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5191492438316345,
      "learning_rate": 0.0002289740956356595,
      "loss": 1.6151,
      "step": 51946
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5285285115242004,
      "learning_rate": 0.00022896394071732074,
      "loss": 1.6081,
      "step": 51947
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5190201997756958,
      "learning_rate": 0.00022895378588520945,
      "loss": 1.5455,
      "step": 51948
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5258850455284119,
      "learning_rate": 0.00022894363113933763,
      "loss": 1.6328,
      "step": 51949
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.512641191482544,
      "learning_rate": 0.00022893347647971778,
      "loss": 1.5282,
      "step": 51950
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5354745388031006,
      "learning_rate": 0.00022892332190636226,
      "loss": 1.5619,
      "step": 51951
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5406467914581299,
      "learning_rate": 0.0002289131674192834,
      "loss": 1.6028,
      "step": 51952
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5209102034568787,
      "learning_rate": 0.00022890301301849346,
      "loss": 1.6211,
      "step": 51953
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.6682714819908142,
      "learning_rate": 0.0002288928587040047,
      "loss": 1.7048,
      "step": 51954
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5129290223121643,
      "learning_rate": 0.0002288827044758297,
      "loss": 1.5627,
      "step": 51955
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5142123699188232,
      "learning_rate": 0.00022887255033398045,
      "loss": 1.5451,
      "step": 51956
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.501099705696106,
      "learning_rate": 0.00022886239627846952,
      "loss": 1.5914,
      "step": 51957
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5254281759262085,
      "learning_rate": 0.00022885224230930918,
      "loss": 1.5605,
      "step": 51958
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5313665866851807,
      "learning_rate": 0.0002288420884265117,
      "loss": 1.5616,
      "step": 51959
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.526018500328064,
      "learning_rate": 0.00022883193463008945,
      "loss": 1.5862,
      "step": 51960
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5380167365074158,
      "learning_rate": 0.00022882178092005465,
      "loss": 1.5609,
      "step": 51961
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5132104158401489,
      "learning_rate": 0.00022881162729641993,
      "loss": 1.6326,
      "step": 51962
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5120935440063477,
      "learning_rate": 0.00022880147375919723,
      "loss": 1.5456,
      "step": 51963
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5042765736579895,
      "learning_rate": 0.0002287913203083991,
      "loss": 1.5308,
      "step": 51964
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.4964926838874817,
      "learning_rate": 0.0002287811669440379,
      "loss": 1.6836,
      "step": 51965
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.489998459815979,
      "learning_rate": 0.00022877101366612578,
      "loss": 1.5219,
      "step": 51966
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5065518617630005,
      "learning_rate": 0.00022876086047467515,
      "loss": 1.5904,
      "step": 51967
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5034951567649841,
      "learning_rate": 0.00022875070736969838,
      "loss": 1.5673,
      "step": 51968
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.514907717704773,
      "learning_rate": 0.00022874055435120774,
      "loss": 1.5574,
      "step": 51969
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5253785848617554,
      "learning_rate": 0.0002287304014192155,
      "loss": 1.5384,
      "step": 51970
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5161863565444946,
      "learning_rate": 0.0002287202485737341,
      "loss": 1.5611,
      "step": 51971
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5307671427726746,
      "learning_rate": 0.00022871009581477584,
      "loss": 1.5739,
      "step": 51972
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5305488109588623,
      "learning_rate": 0.00022869994314235302,
      "loss": 1.5781,
      "step": 51973
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5247077941894531,
      "learning_rate": 0.0002286897905564779,
      "loss": 1.5758,
      "step": 51974
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.520921528339386,
      "learning_rate": 0.000228679638057163,
      "loss": 1.6121,
      "step": 51975
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5157899260520935,
      "learning_rate": 0.0002286694856444204,
      "loss": 1.4935,
      "step": 51976
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5055669546127319,
      "learning_rate": 0.00022865933331826248,
      "loss": 1.6466,
      "step": 51977
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5084842443466187,
      "learning_rate": 0.00022864918107870185,
      "loss": 1.5978,
      "step": 51978
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5373091697692871,
      "learning_rate": 0.00022863902892575038,
      "loss": 1.5373,
      "step": 51979
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.564189612865448,
      "learning_rate": 0.00022862887685942064,
      "loss": 1.5397,
      "step": 51980
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5465607047080994,
      "learning_rate": 0.00022861872487972497,
      "loss": 1.6245,
      "step": 51981
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5155597925186157,
      "learning_rate": 0.0002286085729866757,
      "loss": 1.5411,
      "step": 51982
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5332360863685608,
      "learning_rate": 0.00022859842118028506,
      "loss": 1.561,
      "step": 51983
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.517615020275116,
      "learning_rate": 0.00022858826946056533,
      "loss": 1.5861,
      "step": 51984
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5374943614006042,
      "learning_rate": 0.0002285781178275291,
      "loss": 1.5633,
      "step": 51985
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5208216309547424,
      "learning_rate": 0.00022856796628118836,
      "loss": 1.5663,
      "step": 51986
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.522216796875,
      "learning_rate": 0.0002285578148215556,
      "loss": 1.5515,
      "step": 51987
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5165614485740662,
      "learning_rate": 0.00022854766344864322,
      "loss": 1.5998,
      "step": 51988
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5051722526550293,
      "learning_rate": 0.0002285375121624634,
      "loss": 1.5256,
      "step": 51989
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.498483270406723,
      "learning_rate": 0.00022852736096302847,
      "loss": 1.559,
      "step": 51990
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5141931772232056,
      "learning_rate": 0.00022851720985035077,
      "loss": 1.6061,
      "step": 51991
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5126365423202515,
      "learning_rate": 0.00022850705882444282,
      "loss": 1.5562,
      "step": 51992
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.538705587387085,
      "learning_rate": 0.00022849690788531656,
      "loss": 1.5456,
      "step": 51993
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5204648971557617,
      "learning_rate": 0.0002284867570329846,
      "loss": 1.6169,
      "step": 51994
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5283040404319763,
      "learning_rate": 0.0002284766062674592,
      "loss": 1.5365,
      "step": 51995
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5287597179412842,
      "learning_rate": 0.00022846645558875265,
      "loss": 1.5667,
      "step": 51996
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5379200577735901,
      "learning_rate": 0.00022845630499687726,
      "loss": 1.5867,
      "step": 51997
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5171151161193848,
      "learning_rate": 0.00022844615449184547,
      "loss": 1.5793,
      "step": 51998
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5257824659347534,
      "learning_rate": 0.0002284360040736694,
      "loss": 1.5276,
      "step": 51999
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5302620530128479,
      "learning_rate": 0.00022842585374236143,
      "loss": 1.57,
      "step": 52000
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.6157205700874329,
      "learning_rate": 0.00022841570349793402,
      "loss": 1.575,
      "step": 52001
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5735325217247009,
      "learning_rate": 0.0002284055533403994,
      "loss": 1.5877,
      "step": 52002
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5279755592346191,
      "learning_rate": 0.00022839540326976987,
      "loss": 1.6328,
      "step": 52003
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5476239323616028,
      "learning_rate": 0.00022838525328605777,
      "loss": 1.4699,
      "step": 52004
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5319914817810059,
      "learning_rate": 0.00022837510338927545,
      "loss": 1.6196,
      "step": 52005
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5389413833618164,
      "learning_rate": 0.0002283649535794352,
      "loss": 1.5932,
      "step": 52006
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.542380690574646,
      "learning_rate": 0.00022835480385654923,
      "loss": 1.58,
      "step": 52007
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5278394818305969,
      "learning_rate": 0.00022834465422063015,
      "loss": 1.5859,
      "step": 52008
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.521855354309082,
      "learning_rate": 0.00022833450467168995,
      "loss": 1.5931,
      "step": 52009
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5133482813835144,
      "learning_rate": 0.00022832435520974111,
      "loss": 1.5727,
      "step": 52010
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5240682363510132,
      "learning_rate": 0.00022831420583479598,
      "loss": 1.5726,
      "step": 52011
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5170025825500488,
      "learning_rate": 0.00022830405654686694,
      "loss": 1.5705,
      "step": 52012
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.51241534948349,
      "learning_rate": 0.0002282939073459661,
      "loss": 1.5883,
      "step": 52013
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5510169863700867,
      "learning_rate": 0.00022828375823210584,
      "loss": 1.6351,
      "step": 52014
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5179057121276855,
      "learning_rate": 0.0002282736092052987,
      "loss": 1.5913,
      "step": 52015
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5256853699684143,
      "learning_rate": 0.00022826346026555669,
      "loss": 1.608,
      "step": 52016
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5206740498542786,
      "learning_rate": 0.00022825331141289228,
      "loss": 1.5164,
      "step": 52017
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5393209457397461,
      "learning_rate": 0.00022824316264731786,
      "loss": 1.5147,
      "step": 52018
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5297806262969971,
      "learning_rate": 0.00022823301396884563,
      "loss": 1.5206,
      "step": 52019
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5272281169891357,
      "learning_rate": 0.00022822286537748791,
      "loss": 1.5988,
      "step": 52020
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5107110738754272,
      "learning_rate": 0.00022821271687325703,
      "loss": 1.5256,
      "step": 52021
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5232550501823425,
      "learning_rate": 0.00022820256845616544,
      "loss": 1.6411,
      "step": 52022
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5277459025382996,
      "learning_rate": 0.00022819242012622529,
      "loss": 1.5528,
      "step": 52023
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.551632821559906,
      "learning_rate": 0.00022818227188344892,
      "loss": 1.6206,
      "step": 52024
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5231647491455078,
      "learning_rate": 0.0002281721237278488,
      "loss": 1.6258,
      "step": 52025
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5457816123962402,
      "learning_rate": 0.00022816197565943708,
      "loss": 1.5964,
      "step": 52026
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5099040269851685,
      "learning_rate": 0.00022815182767822612,
      "loss": 1.5542,
      "step": 52027
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5350543856620789,
      "learning_rate": 0.00022814167978422835,
      "loss": 1.5498,
      "step": 52028
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5356855988502502,
      "learning_rate": 0.00022813153197745584,
      "loss": 1.549,
      "step": 52029
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5255042314529419,
      "learning_rate": 0.00022812138425792113,
      "loss": 1.5405,
      "step": 52030
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5089265704154968,
      "learning_rate": 0.00022811123662563646,
      "loss": 1.5981,
      "step": 52031
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5011081695556641,
      "learning_rate": 0.00022810108908061423,
      "loss": 1.548,
      "step": 52032
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.545743465423584,
      "learning_rate": 0.00022809094162286659,
      "loss": 1.5732,
      "step": 52033
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5298386216163635,
      "learning_rate": 0.00022808079425240598,
      "loss": 1.6373,
      "step": 52034
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5195735096931458,
      "learning_rate": 0.00022807064696924476,
      "loss": 1.5714,
      "step": 52035
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.513882040977478,
      "learning_rate": 0.00022806049977339504,
      "loss": 1.6252,
      "step": 52036
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.518001914024353,
      "learning_rate": 0.00022805035266486933,
      "loss": 1.6186,
      "step": 52037
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5206578969955444,
      "learning_rate": 0.00022804020564367997,
      "loss": 1.5793,
      "step": 52038
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.532899022102356,
      "learning_rate": 0.0002280300587098391,
      "loss": 1.6169,
      "step": 52039
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5389371514320374,
      "learning_rate": 0.00022801991186335917,
      "loss": 1.6244,
      "step": 52040
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5345025062561035,
      "learning_rate": 0.00022800976510425246,
      "loss": 1.5803,
      "step": 52041
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5196921229362488,
      "learning_rate": 0.00022799961843253134,
      "loss": 1.4965,
      "step": 52042
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5388490557670593,
      "learning_rate": 0.00022798947184820791,
      "loss": 1.5184,
      "step": 52043
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5257397890090942,
      "learning_rate": 0.00022797932535129474,
      "loss": 1.4963,
      "step": 52044
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5361727476119995,
      "learning_rate": 0.00022796917894180415,
      "loss": 1.6022,
      "step": 52045
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5256531238555908,
      "learning_rate": 0.00022795903261974828,
      "loss": 1.573,
      "step": 52046
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5245388746261597,
      "learning_rate": 0.00022794888638513953,
      "loss": 1.6359,
      "step": 52047
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.531114399433136,
      "learning_rate": 0.00022793874023799027,
      "loss": 1.6377,
      "step": 52048
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5291022658348083,
      "learning_rate": 0.00022792859417831272,
      "loss": 1.6045,
      "step": 52049
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5444848537445068,
      "learning_rate": 0.0002279184482061192,
      "loss": 1.6374,
      "step": 52050
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5011640191078186,
      "learning_rate": 0.00022790830232142207,
      "loss": 1.5584,
      "step": 52051
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5066284537315369,
      "learning_rate": 0.0002278981565242337,
      "loss": 1.5868,
      "step": 52052
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5257109999656677,
      "learning_rate": 0.00022788801081456632,
      "loss": 1.5858,
      "step": 52053
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5270329117774963,
      "learning_rate": 0.00022787786519243227,
      "loss": 1.5332,
      "step": 52054
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5321642756462097,
      "learning_rate": 0.0002278677196578439,
      "loss": 1.6258,
      "step": 52055
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5272600054740906,
      "learning_rate": 0.00022785757421081343,
      "loss": 1.5583,
      "step": 52056
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5311335325241089,
      "learning_rate": 0.00022784742885135318,
      "loss": 1.5145,
      "step": 52057
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5374553203582764,
      "learning_rate": 0.0002278372835794757,
      "loss": 1.6558,
      "step": 52058
    },
    {
      "epoch": 1.73,
      "grad_norm": 1.3573009967803955,
      "learning_rate": 0.00022782713839519296,
      "loss": 1.6725,
      "step": 52059
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.537743091583252,
      "learning_rate": 0.00022781699329851748,
      "loss": 1.5863,
      "step": 52060
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5145940184593201,
      "learning_rate": 0.00022780684828946156,
      "loss": 1.4901,
      "step": 52061
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5157560706138611,
      "learning_rate": 0.00022779670336803753,
      "loss": 1.6459,
      "step": 52062
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.519050657749176,
      "learning_rate": 0.00022778655853425759,
      "loss": 1.6528,
      "step": 52063
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.49397704005241394,
      "learning_rate": 0.00022777641378813408,
      "loss": 1.5288,
      "step": 52064
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5160425901412964,
      "learning_rate": 0.00022776626912967955,
      "loss": 1.5984,
      "step": 52065
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5359148383140564,
      "learning_rate": 0.00022775612455890593,
      "loss": 1.5929,
      "step": 52066
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5047042369842529,
      "learning_rate": 0.00022774598007582582,
      "loss": 1.549,
      "step": 52067
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5192127227783203,
      "learning_rate": 0.00022773583568045142,
      "loss": 1.5501,
      "step": 52068
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5098735094070435,
      "learning_rate": 0.00022772569137279513,
      "loss": 1.6178,
      "step": 52069
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.49636536836624146,
      "learning_rate": 0.00022771554715286915,
      "loss": 1.6236,
      "step": 52070
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5106149315834045,
      "learning_rate": 0.00022770540302068578,
      "loss": 1.5594,
      "step": 52071
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5438867807388306,
      "learning_rate": 0.0002276952589762576,
      "loss": 1.579,
      "step": 52072
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.529091477394104,
      "learning_rate": 0.0002276851150195965,
      "loss": 1.5768,
      "step": 52073
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5182716250419617,
      "learning_rate": 0.00022767497115071508,
      "loss": 1.6261,
      "step": 52074
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5282502770423889,
      "learning_rate": 0.0002276648273696257,
      "loss": 1.6151,
      "step": 52075
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5552834868431091,
      "learning_rate": 0.00022765468367634046,
      "loss": 1.6167,
      "step": 52076
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5222824215888977,
      "learning_rate": 0.00022764454007087178,
      "loss": 1.588,
      "step": 52077
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5100587606430054,
      "learning_rate": 0.0002276343965532319,
      "loss": 1.5143,
      "step": 52078
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5166240930557251,
      "learning_rate": 0.0002276242531234334,
      "loss": 1.5409,
      "step": 52079
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5282018780708313,
      "learning_rate": 0.0002276141097814882,
      "loss": 1.5439,
      "step": 52080
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5158087611198425,
      "learning_rate": 0.00022760396652740886,
      "loss": 1.5889,
      "step": 52081
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.4999418258666992,
      "learning_rate": 0.0002275938233612077,
      "loss": 1.5067,
      "step": 52082
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5293236970901489,
      "learning_rate": 0.0002275836802828969,
      "loss": 1.5889,
      "step": 52083
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.531467616558075,
      "learning_rate": 0.00022757353729248886,
      "loss": 1.6589,
      "step": 52084
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5143427848815918,
      "learning_rate": 0.00022756339438999594,
      "loss": 1.6286,
      "step": 52085
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5213117599487305,
      "learning_rate": 0.0002275532515754303,
      "loss": 1.5992,
      "step": 52086
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5052845478057861,
      "learning_rate": 0.0002275431088488043,
      "loss": 1.5334,
      "step": 52087
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5156255960464478,
      "learning_rate": 0.00022753296621013034,
      "loss": 1.5628,
      "step": 52088
    },
    {
      "epoch": 1.73,
      "grad_norm": 1.23868727684021,
      "learning_rate": 0.00022752282365942075,
      "loss": 1.6381,
      "step": 52089
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5324719548225403,
      "learning_rate": 0.0002275126811966877,
      "loss": 1.5992,
      "step": 52090
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5486125349998474,
      "learning_rate": 0.00022750253882194358,
      "loss": 1.6357,
      "step": 52091
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5439081788063049,
      "learning_rate": 0.00022749239653520076,
      "loss": 1.582,
      "step": 52092
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5388396382331848,
      "learning_rate": 0.00022748225433647144,
      "loss": 1.6175,
      "step": 52093
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5021529197692871,
      "learning_rate": 0.0002274721122257679,
      "loss": 1.5678,
      "step": 52094
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5071006417274475,
      "learning_rate": 0.0002274619702031027,
      "loss": 1.5021,
      "step": 52095
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5428301095962524,
      "learning_rate": 0.0002274518282684878,
      "loss": 1.5437,
      "step": 52096
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5120359659194946,
      "learning_rate": 0.00022744168642193578,
      "loss": 1.5157,
      "step": 52097
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5401603579521179,
      "learning_rate": 0.00022743154466345886,
      "loss": 1.6466,
      "step": 52098
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5104383826255798,
      "learning_rate": 0.0002274214029930694,
      "loss": 1.6156,
      "step": 52099
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5144981145858765,
      "learning_rate": 0.00022741126141077961,
      "loss": 1.5723,
      "step": 52100
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.7071191072463989,
      "learning_rate": 0.00022740111991660178,
      "loss": 1.5786,
      "step": 52101
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5382378697395325,
      "learning_rate": 0.00022739097851054847,
      "loss": 1.5814,
      "step": 52102
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5272579193115234,
      "learning_rate": 0.00022738083719263163,
      "loss": 1.6471,
      "step": 52103
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5328568816184998,
      "learning_rate": 0.00022737069596286382,
      "loss": 1.5997,
      "step": 52104
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5521135926246643,
      "learning_rate": 0.00022736055482125737,
      "loss": 1.5935,
      "step": 52105
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5205385088920593,
      "learning_rate": 0.0002273504137678244,
      "loss": 1.5632,
      "step": 52106
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5320454835891724,
      "learning_rate": 0.00022734027280257735,
      "loss": 1.6277,
      "step": 52107
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5119792819023132,
      "learning_rate": 0.00022733013192552842,
      "loss": 1.551,
      "step": 52108
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5378026366233826,
      "learning_rate": 0.00022731999113669024,
      "loss": 1.5532,
      "step": 52109
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5218465924263,
      "learning_rate": 0.00022730985043607465,
      "loss": 1.5316,
      "step": 52110
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5243065357208252,
      "learning_rate": 0.00022729970982369427,
      "loss": 1.5844,
      "step": 52111
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5329540371894836,
      "learning_rate": 0.0002272895692995614,
      "loss": 1.556,
      "step": 52112
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5232944488525391,
      "learning_rate": 0.00022727942886368818,
      "loss": 1.6038,
      "step": 52113
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5406845211982727,
      "learning_rate": 0.00022726928851608705,
      "loss": 1.5294,
      "step": 52114
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5227758884429932,
      "learning_rate": 0.0002272591482567703,
      "loss": 1.5262,
      "step": 52115
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5337347984313965,
      "learning_rate": 0.00022724900808575023,
      "loss": 1.586,
      "step": 52116
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5246309638023376,
      "learning_rate": 0.00022723886800303907,
      "loss": 1.6355,
      "step": 52117
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5100435018539429,
      "learning_rate": 0.00022722872800864924,
      "loss": 1.5808,
      "step": 52118
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5299520492553711,
      "learning_rate": 0.00022721858810259308,
      "loss": 1.6081,
      "step": 52119
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5527666807174683,
      "learning_rate": 0.0002272084482848828,
      "loss": 1.6103,
      "step": 52120
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5298513174057007,
      "learning_rate": 0.00022719830855553072,
      "loss": 1.5722,
      "step": 52121
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5292910933494568,
      "learning_rate": 0.0002271881689145492,
      "loss": 1.7032,
      "step": 52122
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5337573289871216,
      "learning_rate": 0.0002271780293619505,
      "loss": 1.5996,
      "step": 52123
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5287219882011414,
      "learning_rate": 0.00022716788989774684,
      "loss": 1.6567,
      "step": 52124
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5563682913780212,
      "learning_rate": 0.00022715775052195084,
      "loss": 1.5553,
      "step": 52125
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5290767550468445,
      "learning_rate": 0.0002271476112345744,
      "loss": 1.5882,
      "step": 52126
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.509302020072937,
      "learning_rate": 0.0002271374720356301,
      "loss": 1.5786,
      "step": 52127
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5393334031105042,
      "learning_rate": 0.00022712733292513015,
      "loss": 1.6222,
      "step": 52128
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5591522455215454,
      "learning_rate": 0.000227117193903087,
      "loss": 1.5609,
      "step": 52129
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5172603130340576,
      "learning_rate": 0.0002271070549695127,
      "loss": 1.5946,
      "step": 52130
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5080623626708984,
      "learning_rate": 0.00022709691612441966,
      "loss": 1.5275,
      "step": 52131
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5107645392417908,
      "learning_rate": 0.00022708677736782044,
      "loss": 1.5154,
      "step": 52132
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5144031643867493,
      "learning_rate": 0.0002270766386997269,
      "loss": 1.6104,
      "step": 52133
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5367637276649475,
      "learning_rate": 0.00022706650012015164,
      "loss": 1.4966,
      "step": 52134
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5303256511688232,
      "learning_rate": 0.00022705636162910698,
      "loss": 1.5488,
      "step": 52135
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5026245713233948,
      "learning_rate": 0.0002270462232266051,
      "loss": 1.5505,
      "step": 52136
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5157532095909119,
      "learning_rate": 0.00022703608491265832,
      "loss": 1.5684,
      "step": 52137
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5117582678794861,
      "learning_rate": 0.00022702594668727895,
      "loss": 1.5663,
      "step": 52138
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5092243552207947,
      "learning_rate": 0.00022701580855047945,
      "loss": 1.5489,
      "step": 52139
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5315627455711365,
      "learning_rate": 0.00022700567050227196,
      "loss": 1.5991,
      "step": 52140
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5428867340087891,
      "learning_rate": 0.00022699553254266878,
      "loss": 1.6322,
      "step": 52141
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5072062611579895,
      "learning_rate": 0.0002269853946716824,
      "loss": 1.5209,
      "step": 52142
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5155091285705566,
      "learning_rate": 0.00022697525688932486,
      "loss": 1.5808,
      "step": 52143
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5347355604171753,
      "learning_rate": 0.00022696511919560866,
      "loss": 1.5959,
      "step": 52144
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5325719714164734,
      "learning_rate": 0.00022695498159054604,
      "loss": 1.5767,
      "step": 52145
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5358276963233948,
      "learning_rate": 0.00022694484407414923,
      "loss": 1.604,
      "step": 52146
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5251644849777222,
      "learning_rate": 0.00022693470664643067,
      "loss": 1.6393,
      "step": 52147
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.49879807233810425,
      "learning_rate": 0.0002269245693074026,
      "loss": 1.5252,
      "step": 52148
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5700900554656982,
      "learning_rate": 0.00022691443205707741,
      "loss": 1.5448,
      "step": 52149
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5219361782073975,
      "learning_rate": 0.00022690429489546725,
      "loss": 1.6578,
      "step": 52150
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5251660943031311,
      "learning_rate": 0.00022689415782258454,
      "loss": 1.5733,
      "step": 52151
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5290602445602417,
      "learning_rate": 0.00022688402083844157,
      "loss": 1.6023,
      "step": 52152
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5421096682548523,
      "learning_rate": 0.0002268738839430505,
      "loss": 1.6061,
      "step": 52153
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.8846755027770996,
      "learning_rate": 0.00022686374713642385,
      "loss": 1.6277,
      "step": 52154
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5116441249847412,
      "learning_rate": 0.00022685361041857393,
      "loss": 1.6276,
      "step": 52155
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5292999148368835,
      "learning_rate": 0.00022684347378951281,
      "loss": 1.5599,
      "step": 52156
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.550329864025116,
      "learning_rate": 0.00022683333724925298,
      "loss": 1.6243,
      "step": 52157
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5282373428344727,
      "learning_rate": 0.0002268232007978067,
      "loss": 1.5806,
      "step": 52158
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5237805247306824,
      "learning_rate": 0.00022681306443518632,
      "loss": 1.6681,
      "step": 52159
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5353996157646179,
      "learning_rate": 0.000226802928161404,
      "loss": 1.6,
      "step": 52160
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5702055096626282,
      "learning_rate": 0.00022679279197647216,
      "loss": 1.5558,
      "step": 52161
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5272312760353088,
      "learning_rate": 0.00022678265588040318,
      "loss": 1.5772,
      "step": 52162
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5367765426635742,
      "learning_rate": 0.00022677251987320918,
      "loss": 1.5557,
      "step": 52163
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5340678691864014,
      "learning_rate": 0.00022676238395490258,
      "loss": 1.6445,
      "step": 52164
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5104596614837646,
      "learning_rate": 0.0002267522481254957,
      "loss": 1.4966,
      "step": 52165
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5391615033149719,
      "learning_rate": 0.00022674211238500074,
      "loss": 1.5658,
      "step": 52166
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5090757012367249,
      "learning_rate": 0.00022673197673343,
      "loss": 1.548,
      "step": 52167
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.566778302192688,
      "learning_rate": 0.00022672184117079587,
      "loss": 1.6644,
      "step": 52168
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5352662205696106,
      "learning_rate": 0.00022671170569711074,
      "loss": 1.605,
      "step": 52169
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5616458654403687,
      "learning_rate": 0.00022670157031238672,
      "loss": 1.6194,
      "step": 52170
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5277243852615356,
      "learning_rate": 0.00022669143501663619,
      "loss": 1.5725,
      "step": 52171
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.532325029373169,
      "learning_rate": 0.00022668129980987154,
      "loss": 1.5373,
      "step": 52172
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5306854844093323,
      "learning_rate": 0.00022667116469210488,
      "loss": 1.5954,
      "step": 52173
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.521455705165863,
      "learning_rate": 0.00022666102966334862,
      "loss": 1.5755,
      "step": 52174
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5173800587654114,
      "learning_rate": 0.0002266508947236152,
      "loss": 1.5814,
      "step": 52175
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.511165976524353,
      "learning_rate": 0.0002266407598729166,
      "loss": 1.5213,
      "step": 52176
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5374996066093445,
      "learning_rate": 0.00022663062511126542,
      "loss": 1.5905,
      "step": 52177
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5367664098739624,
      "learning_rate": 0.0002266204904386738,
      "loss": 1.5803,
      "step": 52178
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5389092564582825,
      "learning_rate": 0.00022661035585515418,
      "loss": 1.6442,
      "step": 52179
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5161603689193726,
      "learning_rate": 0.00022660022136071871,
      "loss": 1.5357,
      "step": 52180
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5320795178413391,
      "learning_rate": 0.0002265900869553797,
      "loss": 1.6028,
      "step": 52181
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5225234031677246,
      "learning_rate": 0.0002265799526391497,
      "loss": 1.6746,
      "step": 52182
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.532646656036377,
      "learning_rate": 0.00022656981841204062,
      "loss": 1.5689,
      "step": 52183
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5230759978294373,
      "learning_rate": 0.00022655968427406502,
      "loss": 1.6084,
      "step": 52184
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5322843194007874,
      "learning_rate": 0.0002265495502252352,
      "loss": 1.5399,
      "step": 52185
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.51710045337677,
      "learning_rate": 0.00022653941626556335,
      "loss": 1.5464,
      "step": 52186
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.6950833201408386,
      "learning_rate": 0.00022652928239506182,
      "loss": 1.6402,
      "step": 52187
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5302881598472595,
      "learning_rate": 0.00022651914861374284,
      "loss": 1.6152,
      "step": 52188
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.535723865032196,
      "learning_rate": 0.00022650901492161902,
      "loss": 1.533,
      "step": 52189
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5132535099983215,
      "learning_rate": 0.00022649888131870218,
      "loss": 1.5808,
      "step": 52190
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5237477421760559,
      "learning_rate": 0.000226488747805005,
      "loss": 1.5775,
      "step": 52191
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5142031311988831,
      "learning_rate": 0.00022647861438053964,
      "loss": 1.5872,
      "step": 52192
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5277906060218811,
      "learning_rate": 0.0002264684810453184,
      "loss": 1.5278,
      "step": 52193
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5311989784240723,
      "learning_rate": 0.00022645834779935355,
      "loss": 1.5334,
      "step": 52194
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.507696270942688,
      "learning_rate": 0.00022644821464265738,
      "loss": 1.531,
      "step": 52195
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5328004956245422,
      "learning_rate": 0.00022643808157524244,
      "loss": 1.5659,
      "step": 52196
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5189725160598755,
      "learning_rate": 0.00022642794859712066,
      "loss": 1.5936,
      "step": 52197
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5317716598510742,
      "learning_rate": 0.00022641781570830453,
      "loss": 1.6565,
      "step": 52198
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5214884281158447,
      "learning_rate": 0.0002264076829088064,
      "loss": 1.5664,
      "step": 52199
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5312456488609314,
      "learning_rate": 0.00022639755019863845,
      "loss": 1.5923,
      "step": 52200
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.49500828981399536,
      "learning_rate": 0.00022638741757781308,
      "loss": 1.5916,
      "step": 52201
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5646500587463379,
      "learning_rate": 0.00022637728504634253,
      "loss": 1.5281,
      "step": 52202
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5244230031967163,
      "learning_rate": 0.00022636715260423906,
      "loss": 1.6614,
      "step": 52203
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5382425785064697,
      "learning_rate": 0.00022635702025151493,
      "loss": 1.5317,
      "step": 52204
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5310145020484924,
      "learning_rate": 0.00022634688798818265,
      "loss": 1.5775,
      "step": 52205
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5427548885345459,
      "learning_rate": 0.0002263367558142544,
      "loss": 1.5844,
      "step": 52206
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5308869481086731,
      "learning_rate": 0.00022632662372974247,
      "loss": 1.5314,
      "step": 52207
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5060409903526306,
      "learning_rate": 0.00022631649173465913,
      "loss": 1.6201,
      "step": 52208
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.542879581451416,
      "learning_rate": 0.0002263063598290168,
      "loss": 1.598,
      "step": 52209
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5289463400840759,
      "learning_rate": 0.00022629622801282758,
      "loss": 1.5613,
      "step": 52210
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5258521437644958,
      "learning_rate": 0.00022628609628610384,
      "loss": 1.6098,
      "step": 52211
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5476880073547363,
      "learning_rate": 0.00022627596464885815,
      "loss": 1.5957,
      "step": 52212
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5551125407218933,
      "learning_rate": 0.0002262658331011023,
      "loss": 1.571,
      "step": 52213
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.508897066116333,
      "learning_rate": 0.00022625570164284896,
      "loss": 1.6289,
      "step": 52214
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.4998088777065277,
      "learning_rate": 0.00022624557027411038,
      "loss": 1.5245,
      "step": 52215
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5206624865531921,
      "learning_rate": 0.00022623543899489884,
      "loss": 1.6004,
      "step": 52216
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5379899740219116,
      "learning_rate": 0.00022622530780522652,
      "loss": 1.6655,
      "step": 52217
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.52057284116745,
      "learning_rate": 0.00022621517670510575,
      "loss": 1.6018,
      "step": 52218
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5261085033416748,
      "learning_rate": 0.00022620504569454913,
      "loss": 1.6662,
      "step": 52219
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5187557935714722,
      "learning_rate": 0.00022619491477356848,
      "loss": 1.5548,
      "step": 52220
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5399459600448608,
      "learning_rate": 0.00022618478394217638,
      "loss": 1.5659,
      "step": 52221
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5183666944503784,
      "learning_rate": 0.00022617465320038516,
      "loss": 1.5796,
      "step": 52222
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.48687803745269775,
      "learning_rate": 0.000226164522548207,
      "loss": 1.5926,
      "step": 52223
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5158962607383728,
      "learning_rate": 0.00022615439198565417,
      "loss": 1.5416,
      "step": 52224
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.48900437355041504,
      "learning_rate": 0.000226144261512739,
      "loss": 1.5499,
      "step": 52225
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5235995650291443,
      "learning_rate": 0.000226134131129474,
      "loss": 1.5771,
      "step": 52226
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5154208540916443,
      "learning_rate": 0.00022612400083587105,
      "loss": 1.5395,
      "step": 52227
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5062389373779297,
      "learning_rate": 0.0002261138706319428,
      "loss": 1.5494,
      "step": 52228
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5347195267677307,
      "learning_rate": 0.00022610374051770148,
      "loss": 1.5438,
      "step": 52229
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5299049019813538,
      "learning_rate": 0.00022609361049315925,
      "loss": 1.5612,
      "step": 52230
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5171172022819519,
      "learning_rate": 0.00022608348055832848,
      "loss": 1.6513,
      "step": 52231
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5375354886054993,
      "learning_rate": 0.00022607335071322154,
      "loss": 1.5706,
      "step": 52232
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5154420733451843,
      "learning_rate": 0.0002260632209578506,
      "loss": 1.622,
      "step": 52233
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5227305293083191,
      "learning_rate": 0.00022605309129222797,
      "loss": 1.5934,
      "step": 52234
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5218849778175354,
      "learning_rate": 0.00022604296171636602,
      "loss": 1.5748,
      "step": 52235
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5273949503898621,
      "learning_rate": 0.0002260328322302771,
      "loss": 1.5529,
      "step": 52236
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5257184505462646,
      "learning_rate": 0.00022602270283397338,
      "loss": 1.5802,
      "step": 52237
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5375959873199463,
      "learning_rate": 0.00022601257352746715,
      "loss": 1.5392,
      "step": 52238
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5115005373954773,
      "learning_rate": 0.00022600244431077087,
      "loss": 1.5661,
      "step": 52239
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5222188830375671,
      "learning_rate": 0.00022599231518389664,
      "loss": 1.5915,
      "step": 52240
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5210072994232178,
      "learning_rate": 0.00022598218614685675,
      "loss": 1.6024,
      "step": 52241
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5351353883743286,
      "learning_rate": 0.0002259720571996638,
      "loss": 1.6726,
      "step": 52242
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5227493047714233,
      "learning_rate": 0.00022596192834232963,
      "loss": 1.6192,
      "step": 52243
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5160273313522339,
      "learning_rate": 0.00022595179957486685,
      "loss": 1.5842,
      "step": 52244
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5130923390388489,
      "learning_rate": 0.00022594167089728771,
      "loss": 1.6111,
      "step": 52245
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5071555376052856,
      "learning_rate": 0.00022593154230960452,
      "loss": 1.6258,
      "step": 52246
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5030418634414673,
      "learning_rate": 0.00022592141381182941,
      "loss": 1.5727,
      "step": 52247
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5543433427810669,
      "learning_rate": 0.0002259112854039748,
      "loss": 1.5671,
      "step": 52248
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5363233685493469,
      "learning_rate": 0.00022590115708605313,
      "loss": 1.6327,
      "step": 52249
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5456824898719788,
      "learning_rate": 0.00022589102885807634,
      "loss": 1.6179,
      "step": 52250
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.521122932434082,
      "learning_rate": 0.000225880900720057,
      "loss": 1.5723,
      "step": 52251
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5108954906463623,
      "learning_rate": 0.00022587077267200738,
      "loss": 1.5054,
      "step": 52252
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5296517610549927,
      "learning_rate": 0.00022586064471393966,
      "loss": 1.6336,
      "step": 52253
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5219854712486267,
      "learning_rate": 0.0002258505168458662,
      "loss": 1.5893,
      "step": 52254
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5058196187019348,
      "learning_rate": 0.0002258403890677992,
      "loss": 1.5782,
      "step": 52255
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5432323813438416,
      "learning_rate": 0.0002258302613797512,
      "loss": 1.5677,
      "step": 52256
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5166110992431641,
      "learning_rate": 0.00022582013378173426,
      "loss": 1.5644,
      "step": 52257
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5405783653259277,
      "learning_rate": 0.0002258100062737607,
      "loss": 1.6028,
      "step": 52258
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5267773270606995,
      "learning_rate": 0.000225799878855843,
      "loss": 1.5832,
      "step": 52259
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5233123302459717,
      "learning_rate": 0.0002257897515279932,
      "loss": 1.5555,
      "step": 52260
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5307037234306335,
      "learning_rate": 0.0002257796242902237,
      "loss": 1.62,
      "step": 52261
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5096521377563477,
      "learning_rate": 0.0002257694971425469,
      "loss": 1.5373,
      "step": 52262
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5405677556991577,
      "learning_rate": 0.00022575937008497486,
      "loss": 1.6468,
      "step": 52263
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5245699286460876,
      "learning_rate": 0.00022574924311752006,
      "loss": 1.5815,
      "step": 52264
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5345351696014404,
      "learning_rate": 0.00022573911624019472,
      "loss": 1.6434,
      "step": 52265
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5361613035202026,
      "learning_rate": 0.00022572898945301124,
      "loss": 1.5821,
      "step": 52266
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5336698889732361,
      "learning_rate": 0.00022571886275598175,
      "loss": 1.6244,
      "step": 52267
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5207981467247009,
      "learning_rate": 0.0002257087361491186,
      "loss": 1.585,
      "step": 52268
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.513737142086029,
      "learning_rate": 0.00022569860963243422,
      "loss": 1.5694,
      "step": 52269
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5338912606239319,
      "learning_rate": 0.00022568848320594063,
      "loss": 1.6329,
      "step": 52270
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5237406492233276,
      "learning_rate": 0.0002256783568696503,
      "loss": 1.5418,
      "step": 52271
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5205159187316895,
      "learning_rate": 0.0002256682306235756,
      "loss": 1.5746,
      "step": 52272
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5140964388847351,
      "learning_rate": 0.00022565810446772863,
      "loss": 1.5573,
      "step": 52273
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5126909613609314,
      "learning_rate": 0.00022564797840212173,
      "loss": 1.5893,
      "step": 52274
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5028567910194397,
      "learning_rate": 0.0002256378524267673,
      "loss": 1.5401,
      "step": 52275
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5377486944198608,
      "learning_rate": 0.00022562772654167757,
      "loss": 1.6424,
      "step": 52276
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5655125379562378,
      "learning_rate": 0.00022561760074686472,
      "loss": 1.5545,
      "step": 52277
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5300502181053162,
      "learning_rate": 0.00022560747504234122,
      "loss": 1.606,
      "step": 52278
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5304185152053833,
      "learning_rate": 0.00022559734942811932,
      "loss": 1.6108,
      "step": 52279
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5123019218444824,
      "learning_rate": 0.0002255872239042112,
      "loss": 1.5848,
      "step": 52280
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5177901387214661,
      "learning_rate": 0.00022557709847062927,
      "loss": 1.5987,
      "step": 52281
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5376731753349304,
      "learning_rate": 0.00022556697312738584,
      "loss": 1.5409,
      "step": 52282
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5633948445320129,
      "learning_rate": 0.00022555684787449305,
      "loss": 1.6662,
      "step": 52283
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5575252771377563,
      "learning_rate": 0.00022554672271196316,
      "loss": 1.5944,
      "step": 52284
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5581250190734863,
      "learning_rate": 0.00022553659763980874,
      "loss": 1.6253,
      "step": 52285
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5229120850563049,
      "learning_rate": 0.00022552647265804195,
      "loss": 1.5033,
      "step": 52286
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5568142533302307,
      "learning_rate": 0.00022551634776667495,
      "loss": 1.573,
      "step": 52287
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5403658747673035,
      "learning_rate": 0.00022550622296572015,
      "loss": 1.6552,
      "step": 52288
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5441063046455383,
      "learning_rate": 0.00022549609825518987,
      "loss": 1.5831,
      "step": 52289
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5344172716140747,
      "learning_rate": 0.0002254859736350963,
      "loss": 1.5693,
      "step": 52290
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5228502750396729,
      "learning_rate": 0.00022547584910545174,
      "loss": 1.5324,
      "step": 52291
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5203127264976501,
      "learning_rate": 0.0002254657246662687,
      "loss": 1.5657,
      "step": 52292
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5437393188476562,
      "learning_rate": 0.0002254556003175591,
      "loss": 1.6065,
      "step": 52293
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5173813104629517,
      "learning_rate": 0.00022544547605933546,
      "loss": 1.5476,
      "step": 52294
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5758955478668213,
      "learning_rate": 0.00022543535189161002,
      "loss": 1.569,
      "step": 52295
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5592970848083496,
      "learning_rate": 0.00022542522781439516,
      "loss": 1.5723,
      "step": 52296
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5156551003456116,
      "learning_rate": 0.000225415103827703,
      "loss": 1.54,
      "step": 52297
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5455273985862732,
      "learning_rate": 0.00022540497993154586,
      "loss": 1.6138,
      "step": 52298
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5300098657608032,
      "learning_rate": 0.0002253948561259363,
      "loss": 1.6137,
      "step": 52299
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5425984859466553,
      "learning_rate": 0.00022538473241088617,
      "loss": 1.6859,
      "step": 52300
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5322464108467102,
      "learning_rate": 0.00022537460878640806,
      "loss": 1.5559,
      "step": 52301
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5127674341201782,
      "learning_rate": 0.00022536448525251423,
      "loss": 1.5112,
      "step": 52302
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5099501609802246,
      "learning_rate": 0.00022535436180921688,
      "loss": 1.5351,
      "step": 52303
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5121641755104065,
      "learning_rate": 0.0002253442384565283,
      "loss": 1.4831,
      "step": 52304
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5443689823150635,
      "learning_rate": 0.00022533411519446076,
      "loss": 1.6356,
      "step": 52305
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5178948640823364,
      "learning_rate": 0.00022532399202302683,
      "loss": 1.6669,
      "step": 52306
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5069360136985779,
      "learning_rate": 0.00022531386894223833,
      "loss": 1.5598,
      "step": 52307
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5479321479797363,
      "learning_rate": 0.00022530374595210788,
      "loss": 1.5851,
      "step": 52308
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5154586434364319,
      "learning_rate": 0.00022529362305264775,
      "loss": 1.6682,
      "step": 52309
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5431295037269592,
      "learning_rate": 0.00022528350024387007,
      "loss": 1.6089,
      "step": 52310
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5141276717185974,
      "learning_rate": 0.0002252733775257872,
      "loss": 1.6062,
      "step": 52311
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5090437531471252,
      "learning_rate": 0.00022526325489841142,
      "loss": 1.609,
      "step": 52312
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5268779397010803,
      "learning_rate": 0.0002252531323617552,
      "loss": 1.6059,
      "step": 52313
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5179126858711243,
      "learning_rate": 0.00022524300991583047,
      "loss": 1.6499,
      "step": 52314
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5358404517173767,
      "learning_rate": 0.00022523288756064977,
      "loss": 1.5334,
      "step": 52315
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5438782572746277,
      "learning_rate": 0.0002252227652962254,
      "loss": 1.5868,
      "step": 52316
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5102306008338928,
      "learning_rate": 0.0002252126431225695,
      "loss": 1.6053,
      "step": 52317
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5260574221611023,
      "learning_rate": 0.00022520252103969447,
      "loss": 1.5555,
      "step": 52318
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5236592292785645,
      "learning_rate": 0.0002251923990476126,
      "loss": 1.657,
      "step": 52319
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5130867958068848,
      "learning_rate": 0.00022518227714633606,
      "loss": 1.5622,
      "step": 52320
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5248253345489502,
      "learning_rate": 0.00022517215533587713,
      "loss": 1.5574,
      "step": 52321
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5189070701599121,
      "learning_rate": 0.0002251620336162483,
      "loss": 1.5266,
      "step": 52322
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5235120058059692,
      "learning_rate": 0.00022515191198746175,
      "loss": 1.5517,
      "step": 52323
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5263758897781372,
      "learning_rate": 0.00022514179044952972,
      "loss": 1.6328,
      "step": 52324
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5231226682662964,
      "learning_rate": 0.0002251316690024645,
      "loss": 1.5881,
      "step": 52325
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5359547138214111,
      "learning_rate": 0.00022512154764627848,
      "loss": 1.5883,
      "step": 52326
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5231758952140808,
      "learning_rate": 0.0002251114263809838,
      "loss": 1.614,
      "step": 52327
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5225786566734314,
      "learning_rate": 0.00022510130520659273,
      "loss": 1.5949,
      "step": 52328
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5068482160568237,
      "learning_rate": 0.00022509118412311787,
      "loss": 1.554,
      "step": 52329
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5127846002578735,
      "learning_rate": 0.00022508106313057105,
      "loss": 1.5108,
      "step": 52330
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.4977595806121826,
      "learning_rate": 0.00022507094222896487,
      "loss": 1.5326,
      "step": 52331
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5168023109436035,
      "learning_rate": 0.0002250608214183115,
      "loss": 1.6183,
      "step": 52332
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5341917276382446,
      "learning_rate": 0.00022505070069862333,
      "loss": 1.5788,
      "step": 52333
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5538657307624817,
      "learning_rate": 0.00022504058006991251,
      "loss": 1.5999,
      "step": 52334
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.543837308883667,
      "learning_rate": 0.0002250304595321913,
      "loss": 1.6074,
      "step": 52335
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5418656468391418,
      "learning_rate": 0.00022502033908547228,
      "loss": 1.5507,
      "step": 52336
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5364589691162109,
      "learning_rate": 0.0002250102187297673,
      "loss": 1.6262,
      "step": 52337
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5312542915344238,
      "learning_rate": 0.00022500009846508894,
      "loss": 1.6103,
      "step": 52338
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5377278327941895,
      "learning_rate": 0.0002249899782914495,
      "loss": 1.5664,
      "step": 52339
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.6069554686546326,
      "learning_rate": 0.0002249798582088611,
      "loss": 1.6311,
      "step": 52340
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5318397283554077,
      "learning_rate": 0.00022496973821733605,
      "loss": 1.6441,
      "step": 52341
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.9522156119346619,
      "learning_rate": 0.00022495961831688668,
      "loss": 1.6427,
      "step": 52342
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5644071698188782,
      "learning_rate": 0.00022494949850752544,
      "loss": 1.6091,
      "step": 52343
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5811188817024231,
      "learning_rate": 0.00022493937878926426,
      "loss": 1.6292,
      "step": 52344
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5067843794822693,
      "learning_rate": 0.0002249292591621157,
      "loss": 1.6063,
      "step": 52345
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5307307839393616,
      "learning_rate": 0.00022491913962609196,
      "loss": 1.5544,
      "step": 52346
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5137844085693359,
      "learning_rate": 0.00022490902018120534,
      "loss": 1.5814,
      "step": 52347
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5318495035171509,
      "learning_rate": 0.00022489890082746805,
      "loss": 1.5536,
      "step": 52348
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5091375708580017,
      "learning_rate": 0.00022488878156489252,
      "loss": 1.602,
      "step": 52349
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5028219223022461,
      "learning_rate": 0.00022487866239349083,
      "loss": 1.6472,
      "step": 52350
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5342512726783752,
      "learning_rate": 0.00022486854331327534,
      "loss": 1.5397,
      "step": 52351
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5368779897689819,
      "learning_rate": 0.00022485842432425844,
      "loss": 1.6471,
      "step": 52352
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5281535387039185,
      "learning_rate": 0.00022484830542645245,
      "loss": 1.5858,
      "step": 52353
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5153183341026306,
      "learning_rate": 0.0002248381866198694,
      "loss": 1.5537,
      "step": 52354
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5572092533111572,
      "learning_rate": 0.0002248280679045218,
      "loss": 1.6845,
      "step": 52355
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5266004204750061,
      "learning_rate": 0.00022481794928042186,
      "loss": 1.5817,
      "step": 52356
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5169034004211426,
      "learning_rate": 0.00022480783074758177,
      "loss": 1.55,
      "step": 52357
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5355860590934753,
      "learning_rate": 0.00022479771230601386,
      "loss": 1.5219,
      "step": 52358
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5216643214225769,
      "learning_rate": 0.00022478759395573066,
      "loss": 1.5947,
      "step": 52359
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5384768843650818,
      "learning_rate": 0.000224777475696744,
      "loss": 1.685,
      "step": 52360
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5296465754508972,
      "learning_rate": 0.00022476735752906648,
      "loss": 1.6387,
      "step": 52361
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5217259526252747,
      "learning_rate": 0.0002247572394527103,
      "loss": 1.5007,
      "step": 52362
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5328079462051392,
      "learning_rate": 0.00022474712146768782,
      "loss": 1.6204,
      "step": 52363
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5018189549446106,
      "learning_rate": 0.0002247370035740112,
      "loss": 1.5923,
      "step": 52364
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5228590369224548,
      "learning_rate": 0.0002247268857716927,
      "loss": 1.541,
      "step": 52365
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5157285928726196,
      "learning_rate": 0.00022471676806074483,
      "loss": 1.5732,
      "step": 52366
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5317756533622742,
      "learning_rate": 0.00022470665044117951,
      "loss": 1.598,
      "step": 52367
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5362160801887512,
      "learning_rate": 0.0002246965329130093,
      "loss": 1.6097,
      "step": 52368
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.527816891670227,
      "learning_rate": 0.00022468641547624652,
      "loss": 1.5748,
      "step": 52369
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.518773078918457,
      "learning_rate": 0.00022467629813090323,
      "loss": 1.6596,
      "step": 52370
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.533241331577301,
      "learning_rate": 0.00022466618087699182,
      "loss": 1.5743,
      "step": 52371
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.54367595911026,
      "learning_rate": 0.00022465606371452449,
      "loss": 1.5932,
      "step": 52372
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5396519899368286,
      "learning_rate": 0.0002246459466435137,
      "loss": 1.6083,
      "step": 52373
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5308117270469666,
      "learning_rate": 0.0002246358296639716,
      "loss": 1.5451,
      "step": 52374
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5395254492759705,
      "learning_rate": 0.0002246257127759105,
      "loss": 1.5683,
      "step": 52375
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.523542582988739,
      "learning_rate": 0.00022461559597934273,
      "loss": 1.5618,
      "step": 52376
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5276098251342773,
      "learning_rate": 0.00022460547927428048,
      "loss": 1.5868,
      "step": 52377
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5134782791137695,
      "learning_rate": 0.00022459536266073604,
      "loss": 1.5903,
      "step": 52378
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5129590034484863,
      "learning_rate": 0.0002245852461387218,
      "loss": 1.6009,
      "step": 52379
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5455880165100098,
      "learning_rate": 0.00022457512970824983,
      "loss": 1.5693,
      "step": 52380
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.4987533390522003,
      "learning_rate": 0.00022456501336933263,
      "loss": 1.6102,
      "step": 52381
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5534167289733887,
      "learning_rate": 0.00022455489712198235,
      "loss": 1.6737,
      "step": 52382
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5033620595932007,
      "learning_rate": 0.00022454478096621135,
      "loss": 1.5172,
      "step": 52383
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5229986310005188,
      "learning_rate": 0.00022453466490203185,
      "loss": 1.5912,
      "step": 52384
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5338357090950012,
      "learning_rate": 0.00022452454892945615,
      "loss": 1.6796,
      "step": 52385
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5453551411628723,
      "learning_rate": 0.0002245144330484966,
      "loss": 1.6097,
      "step": 52386
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5291593670845032,
      "learning_rate": 0.0002245043172591652,
      "loss": 1.5918,
      "step": 52387
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5316486358642578,
      "learning_rate": 0.00022449420156147456,
      "loss": 1.6046,
      "step": 52388
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5444554090499878,
      "learning_rate": 0.0002244840859554369,
      "loss": 1.5972,
      "step": 52389
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5441663861274719,
      "learning_rate": 0.00022447397044106436,
      "loss": 1.6103,
      "step": 52390
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5442494750022888,
      "learning_rate": 0.0002244638550183693,
      "loss": 1.6059,
      "step": 52391
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5427733063697815,
      "learning_rate": 0.00022445373968736396,
      "loss": 1.5287,
      "step": 52392
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5148522257804871,
      "learning_rate": 0.00022444362444806073,
      "loss": 1.5407,
      "step": 52393
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5448073148727417,
      "learning_rate": 0.00022443350930047168,
      "loss": 1.5627,
      "step": 52394
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5102657675743103,
      "learning_rate": 0.00022442339424460928,
      "loss": 1.6317,
      "step": 52395
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5087202787399292,
      "learning_rate": 0.00022441327928048583,
      "loss": 1.5567,
      "step": 52396
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5308794975280762,
      "learning_rate": 0.00022440316440811345,
      "loss": 1.5789,
      "step": 52397
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5143824815750122,
      "learning_rate": 0.00022439304962750445,
      "loss": 1.6281,
      "step": 52398
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5180678367614746,
      "learning_rate": 0.00022438293493867124,
      "loss": 1.5804,
      "step": 52399
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5129541158676147,
      "learning_rate": 0.00022437282034162595,
      "loss": 1.596,
      "step": 52400
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5171990990638733,
      "learning_rate": 0.00022436270583638083,
      "loss": 1.62,
      "step": 52401
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5095835328102112,
      "learning_rate": 0.00022435259142294836,
      "loss": 1.5883,
      "step": 52402
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5047729015350342,
      "learning_rate": 0.0002243424771013407,
      "loss": 1.596,
      "step": 52403
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5359060168266296,
      "learning_rate": 0.00022433236287157005,
      "loss": 1.5572,
      "step": 52404
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5186551213264465,
      "learning_rate": 0.0002243222487336488,
      "loss": 1.5628,
      "step": 52405
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5437602996826172,
      "learning_rate": 0.0002243121346875892,
      "loss": 1.6119,
      "step": 52406
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.515184760093689,
      "learning_rate": 0.00022430202073340353,
      "loss": 1.5,
      "step": 52407
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5164011120796204,
      "learning_rate": 0.00022429190687110395,
      "loss": 1.618,
      "step": 52408
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5157186985015869,
      "learning_rate": 0.00022428179310070303,
      "loss": 1.554,
      "step": 52409
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5186100006103516,
      "learning_rate": 0.0002242716794222127,
      "loss": 1.5587,
      "step": 52410
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.7651352882385254,
      "learning_rate": 0.00022426156583564541,
      "loss": 1.6871,
      "step": 52411
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5142584443092346,
      "learning_rate": 0.00022425145234101346,
      "loss": 1.6088,
      "step": 52412
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5148208141326904,
      "learning_rate": 0.00022424133893832911,
      "loss": 1.5644,
      "step": 52413
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5134912729263306,
      "learning_rate": 0.00022423122562760455,
      "loss": 1.5661,
      "step": 52414
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.524817168712616,
      "learning_rate": 0.0002242211124088521,
      "loss": 1.64,
      "step": 52415
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5202975869178772,
      "learning_rate": 0.00022421099928208421,
      "loss": 1.5682,
      "step": 52416
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5189061760902405,
      "learning_rate": 0.00022420088624731282,
      "loss": 1.5096,
      "step": 52417
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.554783821105957,
      "learning_rate": 0.00022419077330455042,
      "loss": 1.581,
      "step": 52418
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5215902924537659,
      "learning_rate": 0.00022418066045380936,
      "loss": 1.5534,
      "step": 52419
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5391537547111511,
      "learning_rate": 0.00022417054769510172,
      "loss": 1.5766,
      "step": 52420
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5053030848503113,
      "learning_rate": 0.00022416043502843983,
      "loss": 1.5841,
      "step": 52421
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.524679958820343,
      "learning_rate": 0.00022415032245383599,
      "loss": 1.6457,
      "step": 52422
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5368465185165405,
      "learning_rate": 0.0002241402099713026,
      "loss": 1.5762,
      "step": 52423
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5241129994392395,
      "learning_rate": 0.00022413009758085175,
      "loss": 1.6589,
      "step": 52424
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5277225375175476,
      "learning_rate": 0.00022411998528249573,
      "loss": 1.5449,
      "step": 52425
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5088563561439514,
      "learning_rate": 0.00022410987307624696,
      "loss": 1.5499,
      "step": 52426
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5388464331626892,
      "learning_rate": 0.0002240997609621176,
      "loss": 1.5051,
      "step": 52427
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5171997547149658,
      "learning_rate": 0.00022408964894011992,
      "loss": 1.5057,
      "step": 52428
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5373743176460266,
      "learning_rate": 0.00022407953701026616,
      "loss": 1.5948,
      "step": 52429
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5265554189682007,
      "learning_rate": 0.00022406942517256884,
      "loss": 1.5471,
      "step": 52430
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5321230292320251,
      "learning_rate": 0.00022405931342703986,
      "loss": 1.6433,
      "step": 52431
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5219637155532837,
      "learning_rate": 0.00022404920177369176,
      "loss": 1.5701,
      "step": 52432
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5118529200553894,
      "learning_rate": 0.00022403909021253678,
      "loss": 1.6144,
      "step": 52433
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5254985690116882,
      "learning_rate": 0.00022402897874358713,
      "loss": 1.6293,
      "step": 52434
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5305101275444031,
      "learning_rate": 0.00022401886736685508,
      "loss": 1.6784,
      "step": 52435
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.509178638458252,
      "learning_rate": 0.00022400875608235296,
      "loss": 1.5314,
      "step": 52436
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5047426223754883,
      "learning_rate": 0.000223998644890093,
      "loss": 1.5576,
      "step": 52437
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5392597317695618,
      "learning_rate": 0.0002239885337900874,
      "loss": 1.6426,
      "step": 52438
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5276027917861938,
      "learning_rate": 0.00022397842278234858,
      "loss": 1.6252,
      "step": 52439
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5052395462989807,
      "learning_rate": 0.00022396831186688882,
      "loss": 1.6198,
      "step": 52440
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5421525239944458,
      "learning_rate": 0.00022395820104372029,
      "loss": 1.5922,
      "step": 52441
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5383440256118774,
      "learning_rate": 0.00022394809031285528,
      "loss": 1.6338,
      "step": 52442
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5327963829040527,
      "learning_rate": 0.00022393797967430612,
      "loss": 1.6001,
      "step": 52443
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5202577710151672,
      "learning_rate": 0.00022392786912808503,
      "loss": 1.5785,
      "step": 52444
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5216286182403564,
      "learning_rate": 0.0002239177586742042,
      "loss": 1.6212,
      "step": 52445
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5140741467475891,
      "learning_rate": 0.0002239076483126762,
      "loss": 1.584,
      "step": 52446
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5109988451004028,
      "learning_rate": 0.0002238975380435129,
      "loss": 1.5698,
      "step": 52447
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.5160786509513855,
      "learning_rate": 0.00022388742786672686,
      "loss": 1.6162,
      "step": 52448
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.530256450176239,
      "learning_rate": 0.00022387731778233027,
      "loss": 1.6104,
      "step": 52449
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5232818126678467,
      "learning_rate": 0.0002238672077903354,
      "loss": 1.5523,
      "step": 52450
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5036337971687317,
      "learning_rate": 0.00022385709789075455,
      "loss": 1.5195,
      "step": 52451
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.4951440095901489,
      "learning_rate": 0.0002238469880835999,
      "loss": 1.5243,
      "step": 52452
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.130885362625122,
      "learning_rate": 0.0002238368783688839,
      "loss": 1.6543,
      "step": 52453
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5139370560646057,
      "learning_rate": 0.00022382676874661858,
      "loss": 1.5563,
      "step": 52454
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.49960920214653015,
      "learning_rate": 0.00022381665921681636,
      "loss": 1.5745,
      "step": 52455
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5352826714515686,
      "learning_rate": 0.0002238065497794896,
      "loss": 1.5167,
      "step": 52456
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5243003368377686,
      "learning_rate": 0.00022379644043465038,
      "loss": 1.6092,
      "step": 52457
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5243387222290039,
      "learning_rate": 0.00022378633118231103,
      "loss": 1.5638,
      "step": 52458
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5466620326042175,
      "learning_rate": 0.00022377622202248378,
      "loss": 1.5669,
      "step": 52459
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.566174328327179,
      "learning_rate": 0.00022376611295518118,
      "loss": 1.5661,
      "step": 52460
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5341769456863403,
      "learning_rate": 0.0002237560039804151,
      "loss": 1.5458,
      "step": 52461
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5226925611495972,
      "learning_rate": 0.00022374589509819806,
      "loss": 1.6144,
      "step": 52462
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5364893674850464,
      "learning_rate": 0.0002237357863085423,
      "loss": 1.5472,
      "step": 52463
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5175859332084656,
      "learning_rate": 0.00022372567761146003,
      "loss": 1.5936,
      "step": 52464
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5395145416259766,
      "learning_rate": 0.0002237155690069635,
      "loss": 1.5823,
      "step": 52465
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5585703253746033,
      "learning_rate": 0.00022370546049506516,
      "loss": 1.5443,
      "step": 52466
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5143356919288635,
      "learning_rate": 0.00022369535207577703,
      "loss": 1.5705,
      "step": 52467
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5117078423500061,
      "learning_rate": 0.00022368524374911144,
      "loss": 1.5347,
      "step": 52468
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5428674221038818,
      "learning_rate": 0.00022367513551508085,
      "loss": 1.6446,
      "step": 52469
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5300042629241943,
      "learning_rate": 0.0002236650273736974,
      "loss": 1.5867,
      "step": 52470
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5141463875770569,
      "learning_rate": 0.0002236549193249733,
      "loss": 1.5636,
      "step": 52471
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5028228759765625,
      "learning_rate": 0.00022364481136892092,
      "loss": 1.547,
      "step": 52472
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5165111422538757,
      "learning_rate": 0.0002236347035055525,
      "loss": 1.5559,
      "step": 52473
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.6832422018051147,
      "learning_rate": 0.00022362459573488025,
      "loss": 1.6127,
      "step": 52474
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5245896577835083,
      "learning_rate": 0.00022361448805691643,
      "loss": 1.6182,
      "step": 52475
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5264480710029602,
      "learning_rate": 0.00022360438047167359,
      "loss": 1.5894,
      "step": 52476
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5394087433815002,
      "learning_rate": 0.00022359427297916353,
      "loss": 1.5709,
      "step": 52477
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5168861150741577,
      "learning_rate": 0.00022358416557939886,
      "loss": 1.5254,
      "step": 52478
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5258713364601135,
      "learning_rate": 0.00022357405827239175,
      "loss": 1.5685,
      "step": 52479
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5055467486381531,
      "learning_rate": 0.0002235639510581545,
      "loss": 1.5821,
      "step": 52480
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5417886972427368,
      "learning_rate": 0.00022355384393669934,
      "loss": 1.6427,
      "step": 52481
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5254272222518921,
      "learning_rate": 0.00022354373690803848,
      "loss": 1.6148,
      "step": 52482
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5319938659667969,
      "learning_rate": 0.00022353362997218438,
      "loss": 1.5685,
      "step": 52483
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5137461423873901,
      "learning_rate": 0.0002235235231291491,
      "loss": 1.5178,
      "step": 52484
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5456502437591553,
      "learning_rate": 0.000223513416378945,
      "loss": 1.6827,
      "step": 52485
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5545592308044434,
      "learning_rate": 0.0002235033097215844,
      "loss": 1.553,
      "step": 52486
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5361202359199524,
      "learning_rate": 0.00022349320315707947,
      "loss": 1.6556,
      "step": 52487
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5177956819534302,
      "learning_rate": 0.0002234830966854425,
      "loss": 1.6443,
      "step": 52488
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5126855969429016,
      "learning_rate": 0.00022347299030668575,
      "loss": 1.6021,
      "step": 52489
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5224248766899109,
      "learning_rate": 0.0002234628840208216,
      "loss": 1.5575,
      "step": 52490
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5470327734947205,
      "learning_rate": 0.0002234527778278622,
      "loss": 1.6417,
      "step": 52491
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5393207669258118,
      "learning_rate": 0.0002234426717278198,
      "loss": 1.6106,
      "step": 52492
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5377799272537231,
      "learning_rate": 0.00022343256572070682,
      "loss": 1.6339,
      "step": 52493
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5139023661613464,
      "learning_rate": 0.00022342245980653535,
      "loss": 1.5895,
      "step": 52494
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.558312177658081,
      "learning_rate": 0.00022341235398531774,
      "loss": 1.6075,
      "step": 52495
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5035503506660461,
      "learning_rate": 0.00022340224825706629,
      "loss": 1.5779,
      "step": 52496
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5334924459457397,
      "learning_rate": 0.0002233921426217931,
      "loss": 1.5487,
      "step": 52497
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5571417212486267,
      "learning_rate": 0.00022338203707951063,
      "loss": 1.5995,
      "step": 52498
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.542670726776123,
      "learning_rate": 0.0002233719316302311,
      "loss": 1.6534,
      "step": 52499
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5223739743232727,
      "learning_rate": 0.00022336182627396683,
      "loss": 1.5245,
      "step": 52500
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5394706726074219,
      "learning_rate": 0.00022335172101072988,
      "loss": 1.606,
      "step": 52501
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5291805863380432,
      "learning_rate": 0.00022334161584053268,
      "loss": 1.5801,
      "step": 52502
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5084164142608643,
      "learning_rate": 0.00022333151076338756,
      "loss": 1.5471,
      "step": 52503
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5446051955223083,
      "learning_rate": 0.00022332140577930652,
      "loss": 1.6027,
      "step": 52504
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5429711937904358,
      "learning_rate": 0.00022331130088830206,
      "loss": 1.5221,
      "step": 52505
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5546367168426514,
      "learning_rate": 0.00022330119609038646,
      "loss": 1.5387,
      "step": 52506
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5444289445877075,
      "learning_rate": 0.00022329109138557185,
      "loss": 1.5759,
      "step": 52507
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5280882716178894,
      "learning_rate": 0.00022328098677387053,
      "loss": 1.5625,
      "step": 52508
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.509998619556427,
      "learning_rate": 0.00022327088225529472,
      "loss": 1.6077,
      "step": 52509
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5294250845909119,
      "learning_rate": 0.00022326077782985697,
      "loss": 1.5939,
      "step": 52510
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5476926565170288,
      "learning_rate": 0.00022325067349756916,
      "loss": 1.591,
      "step": 52511
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.524221658706665,
      "learning_rate": 0.00022324056925844375,
      "loss": 1.6697,
      "step": 52512
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5234904289245605,
      "learning_rate": 0.00022323046511249302,
      "loss": 1.5749,
      "step": 52513
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5455041527748108,
      "learning_rate": 0.0002232203610597292,
      "loss": 1.5813,
      "step": 52514
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5028917789459229,
      "learning_rate": 0.00022321025710016448,
      "loss": 1.6071,
      "step": 52515
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5201513767242432,
      "learning_rate": 0.00022320015323381128,
      "loss": 1.5364,
      "step": 52516
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5188660025596619,
      "learning_rate": 0.00022319004946068173,
      "loss": 1.5069,
      "step": 52517
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5371446013450623,
      "learning_rate": 0.00022317994578078805,
      "loss": 1.5787,
      "step": 52518
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.542308509349823,
      "learning_rate": 0.0002231698421941427,
      "loss": 1.5967,
      "step": 52519
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.526753842830658,
      "learning_rate": 0.00022315973870075788,
      "loss": 1.693,
      "step": 52520
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5226008296012878,
      "learning_rate": 0.00022314963530064576,
      "loss": 1.5773,
      "step": 52521
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5249758362770081,
      "learning_rate": 0.00022313953199381865,
      "loss": 1.5635,
      "step": 52522
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5622873902320862,
      "learning_rate": 0.00022312942878028891,
      "loss": 1.5527,
      "step": 52523
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5393055081367493,
      "learning_rate": 0.00022311932566006863,
      "loss": 1.5909,
      "step": 52524
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5174172520637512,
      "learning_rate": 0.00022310922263317007,
      "loss": 1.5454,
      "step": 52525
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5202990174293518,
      "learning_rate": 0.00022309911969960584,
      "loss": 1.5987,
      "step": 52526
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5240273475646973,
      "learning_rate": 0.00022308901685938774,
      "loss": 1.6198,
      "step": 52527
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5327208042144775,
      "learning_rate": 0.00022307891411252827,
      "loss": 1.5589,
      "step": 52528
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5393462181091309,
      "learning_rate": 0.00022306881145903968,
      "loss": 1.5078,
      "step": 52529
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5280844569206238,
      "learning_rate": 0.0002230587088989343,
      "loss": 1.5597,
      "step": 52530
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5338344573974609,
      "learning_rate": 0.00022304860643222423,
      "loss": 1.6023,
      "step": 52531
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5365580320358276,
      "learning_rate": 0.00022303850405892175,
      "loss": 1.5236,
      "step": 52532
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5163505673408508,
      "learning_rate": 0.00022302840177903938,
      "loss": 1.5614,
      "step": 52533
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5324168801307678,
      "learning_rate": 0.00022301829959258898,
      "loss": 1.558,
      "step": 52534
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5561769604682922,
      "learning_rate": 0.00022300819749958314,
      "loss": 1.6303,
      "step": 52535
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.534889817237854,
      "learning_rate": 0.000222998095500034,
      "loss": 1.5996,
      "step": 52536
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5288631319999695,
      "learning_rate": 0.00022298799359395382,
      "loss": 1.5772,
      "step": 52537
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5222123861312866,
      "learning_rate": 0.0002229778917813548,
      "loss": 1.5643,
      "step": 52538
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5218048691749573,
      "learning_rate": 0.0002229677900622493,
      "loss": 1.6817,
      "step": 52539
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.523906409740448,
      "learning_rate": 0.00022295768843664967,
      "loss": 1.5744,
      "step": 52540
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5506840348243713,
      "learning_rate": 0.0002229475869045679,
      "loss": 1.6204,
      "step": 52541
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5270403027534485,
      "learning_rate": 0.00022293748546601644,
      "loss": 1.5651,
      "step": 52542
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.533173143863678,
      "learning_rate": 0.0002229273841210076,
      "loss": 1.5493,
      "step": 52543
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5304952263832092,
      "learning_rate": 0.0002229172828695535,
      "loss": 1.591,
      "step": 52544
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.52956622838974,
      "learning_rate": 0.00022290718171166644,
      "loss": 1.5838,
      "step": 52545
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.533079981803894,
      "learning_rate": 0.00022289708064735878,
      "loss": 1.5483,
      "step": 52546
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5538684725761414,
      "learning_rate": 0.00022288697967664267,
      "loss": 1.5763,
      "step": 52547
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5117905735969543,
      "learning_rate": 0.0002228768787995303,
      "loss": 1.6121,
      "step": 52548
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.593835711479187,
      "learning_rate": 0.00022286677801603412,
      "loss": 1.6119,
      "step": 52549
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.52811199426651,
      "learning_rate": 0.00022285667732616635,
      "loss": 1.5893,
      "step": 52550
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5016648173332214,
      "learning_rate": 0.00022284657672993916,
      "loss": 1.6086,
      "step": 52551
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.552227795124054,
      "learning_rate": 0.00022283647622736488,
      "loss": 1.6384,
      "step": 52552
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5380142331123352,
      "learning_rate": 0.00022282637581845575,
      "loss": 1.5129,
      "step": 52553
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5434067249298096,
      "learning_rate": 0.00022281627550322402,
      "loss": 1.5538,
      "step": 52554
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5677408576011658,
      "learning_rate": 0.00022280617528168186,
      "loss": 1.5581,
      "step": 52555
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5284520983695984,
      "learning_rate": 0.0002227960751538417,
      "loss": 1.6331,
      "step": 52556
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5190103054046631,
      "learning_rate": 0.00022278597511971582,
      "loss": 1.5752,
      "step": 52557
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5560051202774048,
      "learning_rate": 0.00022277587517931629,
      "loss": 1.5715,
      "step": 52558
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5413378477096558,
      "learning_rate": 0.00022276577533265546,
      "loss": 1.5387,
      "step": 52559
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5201748013496399,
      "learning_rate": 0.00022275567557974573,
      "loss": 1.5137,
      "step": 52560
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5051618814468384,
      "learning_rate": 0.00022274557592059913,
      "loss": 1.569,
      "step": 52561
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5334351658821106,
      "learning_rate": 0.00022273547635522791,
      "loss": 1.5989,
      "step": 52562
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5464320182800293,
      "learning_rate": 0.0002227253768836447,
      "loss": 1.5847,
      "step": 52563
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5472739934921265,
      "learning_rate": 0.00022271527750586127,
      "loss": 1.6122,
      "step": 52564
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5604300498962402,
      "learning_rate": 0.00022270517822189017,
      "loss": 1.6024,
      "step": 52565
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.531037449836731,
      "learning_rate": 0.00022269507903174357,
      "loss": 1.6661,
      "step": 52566
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5323565602302551,
      "learning_rate": 0.00022268497993543386,
      "loss": 1.5802,
      "step": 52567
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5264922976493835,
      "learning_rate": 0.0002226748809329731,
      "loss": 1.4978,
      "step": 52568
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5540268421173096,
      "learning_rate": 0.00022266478202437358,
      "loss": 1.5632,
      "step": 52569
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5337861180305481,
      "learning_rate": 0.00022265468320964785,
      "loss": 1.5773,
      "step": 52570
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5223138332366943,
      "learning_rate": 0.0002226445844888077,
      "loss": 1.5952,
      "step": 52571
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5341006517410278,
      "learning_rate": 0.0002226344858618657,
      "loss": 1.6304,
      "step": 52572
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5296145081520081,
      "learning_rate": 0.00022262438732883414,
      "loss": 1.5689,
      "step": 52573
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5502240061759949,
      "learning_rate": 0.00022261428888972507,
      "loss": 1.6494,
      "step": 52574
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5180621147155762,
      "learning_rate": 0.00022260419054455084,
      "loss": 1.5019,
      "step": 52575
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5228318572044373,
      "learning_rate": 0.00022259409229332365,
      "loss": 1.6012,
      "step": 52576
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5413572192192078,
      "learning_rate": 0.00022258399413605608,
      "loss": 1.5694,
      "step": 52577
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5137367248535156,
      "learning_rate": 0.00022257389607275988,
      "loss": 1.5797,
      "step": 52578
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5063618421554565,
      "learning_rate": 0.00022256379810344767,
      "loss": 1.5603,
      "step": 52579
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5219418406486511,
      "learning_rate": 0.00022255370022813162,
      "loss": 1.5043,
      "step": 52580
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5301156044006348,
      "learning_rate": 0.00022254360244682394,
      "loss": 1.5993,
      "step": 52581
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5214414596557617,
      "learning_rate": 0.0002225335047595369,
      "loss": 1.5719,
      "step": 52582
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5312133431434631,
      "learning_rate": 0.00022252340716628284,
      "loss": 1.6019,
      "step": 52583
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5156038999557495,
      "learning_rate": 0.00022251330966707386,
      "loss": 1.5835,
      "step": 52584
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5034012198448181,
      "learning_rate": 0.00022250321226192224,
      "loss": 1.5637,
      "step": 52585
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5515279769897461,
      "learning_rate": 0.0002224931149508404,
      "loss": 1.5907,
      "step": 52586
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5202769041061401,
      "learning_rate": 0.00022248301773384054,
      "loss": 1.5698,
      "step": 52587
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5110754370689392,
      "learning_rate": 0.00022247292061093482,
      "loss": 1.5351,
      "step": 52588
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5205040574073792,
      "learning_rate": 0.00022246282358213555,
      "loss": 1.6026,
      "step": 52589
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5211972594261169,
      "learning_rate": 0.0002224527266474551,
      "loss": 1.5612,
      "step": 52590
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5486109852790833,
      "learning_rate": 0.00022244262980690544,
      "loss": 1.574,
      "step": 52591
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5338836312294006,
      "learning_rate": 0.000222432533060499,
      "loss": 1.5477,
      "step": 52592
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5200851559638977,
      "learning_rate": 0.00022242243640824822,
      "loss": 1.6033,
      "step": 52593
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5018121600151062,
      "learning_rate": 0.00022241233985016503,
      "loss": 1.6212,
      "step": 52594
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5149641036987305,
      "learning_rate": 0.00022240224338626182,
      "loss": 1.5106,
      "step": 52595
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5302519798278809,
      "learning_rate": 0.0002223921470165509,
      "loss": 1.6541,
      "step": 52596
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5166482329368591,
      "learning_rate": 0.0002223820507410445,
      "loss": 1.5678,
      "step": 52597
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5126940011978149,
      "learning_rate": 0.00022237195455975482,
      "loss": 1.5792,
      "step": 52598
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5342676043510437,
      "learning_rate": 0.00022236185847269408,
      "loss": 1.5431,
      "step": 52599
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5235777497291565,
      "learning_rate": 0.00022235176247987473,
      "loss": 1.6209,
      "step": 52600
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.8459975123405457,
      "learning_rate": 0.00022234166658130882,
      "loss": 1.5866,
      "step": 52601
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5182934999465942,
      "learning_rate": 0.00022233157077700867,
      "loss": 1.5207,
      "step": 52602
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5284703373908997,
      "learning_rate": 0.00022232147506698666,
      "loss": 1.6228,
      "step": 52603
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5298025012016296,
      "learning_rate": 0.00022231137945125483,
      "loss": 1.5814,
      "step": 52604
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5333269834518433,
      "learning_rate": 0.0002223012839298256,
      "loss": 1.5959,
      "step": 52605
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5344092845916748,
      "learning_rate": 0.00022229118850271106,
      "loss": 1.5586,
      "step": 52606
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5266134738922119,
      "learning_rate": 0.00022228109316992366,
      "loss": 1.641,
      "step": 52607
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5141260027885437,
      "learning_rate": 0.00022227099793147554,
      "loss": 1.5305,
      "step": 52608
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5433673858642578,
      "learning_rate": 0.00022226090278737898,
      "loss": 1.5448,
      "step": 52609
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5538128018379211,
      "learning_rate": 0.00022225080773764628,
      "loss": 1.5818,
      "step": 52610
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5341055989265442,
      "learning_rate": 0.00022224071278228959,
      "loss": 1.5933,
      "step": 52611
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5205608010292053,
      "learning_rate": 0.0002222306179213212,
      "loss": 1.5964,
      "step": 52612
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5186968445777893,
      "learning_rate": 0.00022222052315475348,
      "loss": 1.5982,
      "step": 52613
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5401573181152344,
      "learning_rate": 0.0002222104284825984,
      "loss": 1.5597,
      "step": 52614
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5362913608551025,
      "learning_rate": 0.0002222003339048685,
      "loss": 1.5189,
      "step": 52615
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5185738205909729,
      "learning_rate": 0.00022219023942157592,
      "loss": 1.5833,
      "step": 52616
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5267979502677917,
      "learning_rate": 0.000222180145032733,
      "loss": 1.6195,
      "step": 52617
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5118772983551025,
      "learning_rate": 0.0002221700507383518,
      "loss": 1.5077,
      "step": 52618
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5509113669395447,
      "learning_rate": 0.00022215995653844476,
      "loss": 1.6169,
      "step": 52619
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5254858136177063,
      "learning_rate": 0.00022214986243302407,
      "loss": 1.5646,
      "step": 52620
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.544837236404419,
      "learning_rate": 0.0002221397684221019,
      "loss": 1.6163,
      "step": 52621
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5429651737213135,
      "learning_rate": 0.00022212967450569067,
      "loss": 1.5602,
      "step": 52622
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5120446681976318,
      "learning_rate": 0.00022211958068380253,
      "loss": 1.5628,
      "step": 52623
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5096123814582825,
      "learning_rate": 0.00022210948695644973,
      "loss": 1.5405,
      "step": 52624
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5295137166976929,
      "learning_rate": 0.00022209939332364448,
      "loss": 1.5644,
      "step": 52625
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5187863707542419,
      "learning_rate": 0.00022208929978539905,
      "loss": 1.5827,
      "step": 52626
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.7506204843521118,
      "learning_rate": 0.00022207920634172596,
      "loss": 1.6165,
      "step": 52627
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5280085206031799,
      "learning_rate": 0.000222069112992637,
      "loss": 1.6152,
      "step": 52628
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5241416096687317,
      "learning_rate": 0.00022205901973814475,
      "loss": 1.544,
      "step": 52629
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5229644179344177,
      "learning_rate": 0.0002220489265782614,
      "loss": 1.6778,
      "step": 52630
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5316909551620483,
      "learning_rate": 0.0002220388335129991,
      "loss": 1.5586,
      "step": 52631
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5436366200447083,
      "learning_rate": 0.00022202874054237022,
      "loss": 1.5971,
      "step": 52632
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5483207702636719,
      "learning_rate": 0.00022201864766638698,
      "loss": 1.617,
      "step": 52633
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5262855291366577,
      "learning_rate": 0.00022200855488506156,
      "loss": 1.603,
      "step": 52634
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5280641913414001,
      "learning_rate": 0.00022199846219840617,
      "loss": 1.6304,
      "step": 52635
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5248728394508362,
      "learning_rate": 0.00022198836960643327,
      "loss": 1.6605,
      "step": 52636
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5319741368293762,
      "learning_rate": 0.00022197827710915502,
      "loss": 1.5648,
      "step": 52637
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5229861736297607,
      "learning_rate": 0.0002219681847065836,
      "loss": 1.6009,
      "step": 52638
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5103492736816406,
      "learning_rate": 0.0002219580923987313,
      "loss": 1.6128,
      "step": 52639
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5450032353401184,
      "learning_rate": 0.00022194800018561042,
      "loss": 1.5363,
      "step": 52640
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5351351499557495,
      "learning_rate": 0.00022193790806723318,
      "loss": 1.5419,
      "step": 52641
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5201051831245422,
      "learning_rate": 0.00022192781604361166,
      "loss": 1.5661,
      "step": 52642
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5259741544723511,
      "learning_rate": 0.00022191772411475852,
      "loss": 1.5697,
      "step": 52643
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5339357256889343,
      "learning_rate": 0.00022190763228068552,
      "loss": 1.6467,
      "step": 52644
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5317132472991943,
      "learning_rate": 0.00022189754054140524,
      "loss": 1.5389,
      "step": 52645
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5232810974121094,
      "learning_rate": 0.00022188744889692984,
      "loss": 1.5613,
      "step": 52646
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.52223801612854,
      "learning_rate": 0.0002218773573472716,
      "loss": 1.5719,
      "step": 52647
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5234327912330627,
      "learning_rate": 0.00022186726589244272,
      "loss": 1.6219,
      "step": 52648
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5270483493804932,
      "learning_rate": 0.00022185717453245538,
      "loss": 1.5539,
      "step": 52649
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.529112696647644,
      "learning_rate": 0.0002218470832673221,
      "loss": 1.5958,
      "step": 52650
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5327868461608887,
      "learning_rate": 0.00022183699209705479,
      "loss": 1.485,
      "step": 52651
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5250534415245056,
      "learning_rate": 0.0002218269010216659,
      "loss": 1.6258,
      "step": 52652
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5445795059204102,
      "learning_rate": 0.0002218168100411677,
      "loss": 1.5731,
      "step": 52653
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5119186043739319,
      "learning_rate": 0.00022180671915557226,
      "loss": 1.5354,
      "step": 52654
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.515386164188385,
      "learning_rate": 0.00022179662836489198,
      "loss": 1.5412,
      "step": 52655
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5338074564933777,
      "learning_rate": 0.00022178653766913902,
      "loss": 1.5719,
      "step": 52656
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5304713845252991,
      "learning_rate": 0.00022177644706832588,
      "loss": 1.6107,
      "step": 52657
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5563675761222839,
      "learning_rate": 0.0002217663565624644,
      "loss": 1.6192,
      "step": 52658
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5449906587600708,
      "learning_rate": 0.00022175626615156708,
      "loss": 1.6487,
      "step": 52659
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5127478837966919,
      "learning_rate": 0.0002217461758356462,
      "loss": 1.5894,
      "step": 52660
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5200996994972229,
      "learning_rate": 0.00022173608561471388,
      "loss": 1.631,
      "step": 52661
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5232966542243958,
      "learning_rate": 0.00022172599548878237,
      "loss": 1.6447,
      "step": 52662
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5137706398963928,
      "learning_rate": 0.00022171590545786408,
      "loss": 1.5804,
      "step": 52663
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5149054527282715,
      "learning_rate": 0.0002217058155219711,
      "loss": 1.5497,
      "step": 52664
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5226974487304688,
      "learning_rate": 0.00022169572568111565,
      "loss": 1.5669,
      "step": 52665
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5122197270393372,
      "learning_rate": 0.00022168563593531006,
      "loss": 1.558,
      "step": 52666
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5224584937095642,
      "learning_rate": 0.0002216755462845667,
      "loss": 1.612,
      "step": 52667
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5276693105697632,
      "learning_rate": 0.00022166545672889758,
      "loss": 1.5572,
      "step": 52668
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5117895007133484,
      "learning_rate": 0.0002216553672683151,
      "loss": 1.6035,
      "step": 52669
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5481809377670288,
      "learning_rate": 0.00022164527790283147,
      "loss": 1.5805,
      "step": 52670
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.508995532989502,
      "learning_rate": 0.0002216351886324589,
      "loss": 1.4944,
      "step": 52671
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5276485681533813,
      "learning_rate": 0.0002216250994572096,
      "loss": 1.5619,
      "step": 52672
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5186786651611328,
      "learning_rate": 0.0002216150103770959,
      "loss": 1.4788,
      "step": 52673
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5253335237503052,
      "learning_rate": 0.00022160492139213013,
      "loss": 1.6297,
      "step": 52674
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5535567998886108,
      "learning_rate": 0.00022159483250232438,
      "loss": 1.5974,
      "step": 52675
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5947251319885254,
      "learning_rate": 0.00022158474370769096,
      "loss": 1.5788,
      "step": 52676
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5570229887962341,
      "learning_rate": 0.0002215746550082421,
      "loss": 1.5337,
      "step": 52677
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5289011597633362,
      "learning_rate": 0.00022156456640399006,
      "loss": 1.63,
      "step": 52678
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5211504697799683,
      "learning_rate": 0.000221554477894947,
      "loss": 1.5534,
      "step": 52679
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5981670022010803,
      "learning_rate": 0.00022154438948112542,
      "loss": 1.568,
      "step": 52680
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5503847599029541,
      "learning_rate": 0.00022153430116253722,
      "loss": 1.6684,
      "step": 52681
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5741332173347473,
      "learning_rate": 0.00022152421293919486,
      "loss": 1.5683,
      "step": 52682
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.522818386554718,
      "learning_rate": 0.00022151412481111058,
      "loss": 1.521,
      "step": 52683
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5462952852249146,
      "learning_rate": 0.0002215040367782966,
      "loss": 1.5219,
      "step": 52684
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5445468425750732,
      "learning_rate": 0.00022149394884076512,
      "loss": 1.5838,
      "step": 52685
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5444525480270386,
      "learning_rate": 0.00022148386099852833,
      "loss": 1.5368,
      "step": 52686
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5281233787536621,
      "learning_rate": 0.00022147377325159882,
      "loss": 1.5317,
      "step": 52687
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5191468000411987,
      "learning_rate": 0.0002214636855999883,
      "loss": 1.6248,
      "step": 52688
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5374040603637695,
      "learning_rate": 0.00022145359804370943,
      "loss": 1.6564,
      "step": 52689
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5524110198020935,
      "learning_rate": 0.00022144351058277432,
      "loss": 1.6134,
      "step": 52690
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.565708339214325,
      "learning_rate": 0.00022143342321719522,
      "loss": 1.5998,
      "step": 52691
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.566457986831665,
      "learning_rate": 0.00022142333594698429,
      "loss": 1.4801,
      "step": 52692
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5344129204750061,
      "learning_rate": 0.00022141324877215387,
      "loss": 1.5038,
      "step": 52693
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5151861310005188,
      "learning_rate": 0.00022140316169271633,
      "loss": 1.6518,
      "step": 52694
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5348982810974121,
      "learning_rate": 0.00022139307470868356,
      "loss": 1.5957,
      "step": 52695
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5667623281478882,
      "learning_rate": 0.00022138298782006812,
      "loss": 1.6541,
      "step": 52696
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5196623802185059,
      "learning_rate": 0.0002213729010268822,
      "loss": 1.5959,
      "step": 52697
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.549386739730835,
      "learning_rate": 0.0002213628143291379,
      "loss": 1.5989,
      "step": 52698
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.544550895690918,
      "learning_rate": 0.0002213527277268476,
      "loss": 1.5309,
      "step": 52699
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5094369649887085,
      "learning_rate": 0.00022134264122002355,
      "loss": 1.5643,
      "step": 52700
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.525285542011261,
      "learning_rate": 0.0002213325548086779,
      "loss": 1.5395,
      "step": 52701
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5806456208229065,
      "learning_rate": 0.00022132246849282283,
      "loss": 1.5542,
      "step": 52702
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.524247944355011,
      "learning_rate": 0.00022131238227247082,
      "loss": 1.5524,
      "step": 52703
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5335864424705505,
      "learning_rate": 0.00022130229614763394,
      "loss": 1.5524,
      "step": 52704
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5227356553077698,
      "learning_rate": 0.0002212922101183245,
      "loss": 1.5983,
      "step": 52705
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5518921613693237,
      "learning_rate": 0.0002212821241845547,
      "loss": 1.6082,
      "step": 52706
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5183905363082886,
      "learning_rate": 0.00022127203834633688,
      "loss": 1.5003,
      "step": 52707
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5407009124755859,
      "learning_rate": 0.00022126195260368313,
      "loss": 1.5795,
      "step": 52708
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.4948267638683319,
      "learning_rate": 0.0002212518669566057,
      "loss": 1.5527,
      "step": 52709
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5262157917022705,
      "learning_rate": 0.00022124178140511708,
      "loss": 1.6222,
      "step": 52710
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.529304027557373,
      "learning_rate": 0.00022123169594922914,
      "loss": 1.6237,
      "step": 52711
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.545022189617157,
      "learning_rate": 0.0002212216105889544,
      "loss": 1.6793,
      "step": 52712
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5307813882827759,
      "learning_rate": 0.000221211525324305,
      "loss": 1.6193,
      "step": 52713
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5368415713310242,
      "learning_rate": 0.0002212014401552933,
      "loss": 1.6126,
      "step": 52714
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5200453996658325,
      "learning_rate": 0.00022119135508193134,
      "loss": 1.62,
      "step": 52715
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5267031192779541,
      "learning_rate": 0.0002211812701042314,
      "loss": 1.5684,
      "step": 52716
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5268853902816772,
      "learning_rate": 0.00022117118522220591,
      "loss": 1.555,
      "step": 52717
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.536605715751648,
      "learning_rate": 0.00022116110043586697,
      "loss": 1.5398,
      "step": 52718
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5078778862953186,
      "learning_rate": 0.0002211510157452268,
      "loss": 1.5713,
      "step": 52719
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5227213501930237,
      "learning_rate": 0.00022114093115029775,
      "loss": 1.5904,
      "step": 52720
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5067235827445984,
      "learning_rate": 0.00022113084665109192,
      "loss": 1.5465,
      "step": 52721
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5310096144676208,
      "learning_rate": 0.00022112076224762163,
      "loss": 1.5854,
      "step": 52722
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5230819582939148,
      "learning_rate": 0.00022111067793989902,
      "loss": 1.572,
      "step": 52723
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5266454815864563,
      "learning_rate": 0.00022110059372793656,
      "loss": 1.5814,
      "step": 52724
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5682369470596313,
      "learning_rate": 0.00022109050961174632,
      "loss": 1.5864,
      "step": 52725
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5289498567581177,
      "learning_rate": 0.00022108042559134056,
      "loss": 1.5569,
      "step": 52726
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5342139601707458,
      "learning_rate": 0.00022107034166673158,
      "loss": 1.6193,
      "step": 52727
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.9735240936279297,
      "learning_rate": 0.00022106025783793156,
      "loss": 1.6194,
      "step": 52728
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5474453568458557,
      "learning_rate": 0.0002210501741049527,
      "loss": 1.5513,
      "step": 52729
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5287366509437561,
      "learning_rate": 0.00022104009046780738,
      "loss": 1.5607,
      "step": 52730
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5148494839668274,
      "learning_rate": 0.00022103000692650764,
      "loss": 1.6352,
      "step": 52731
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5386936068534851,
      "learning_rate": 0.0002210199234810659,
      "loss": 1.5212,
      "step": 52732
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5739553570747375,
      "learning_rate": 0.00022100984013149433,
      "loss": 1.6533,
      "step": 52733
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5477567911148071,
      "learning_rate": 0.0002209997568778052,
      "loss": 1.6262,
      "step": 52734
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5098462700843811,
      "learning_rate": 0.00022098967372001074,
      "loss": 1.5611,
      "step": 52735
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5358330607414246,
      "learning_rate": 0.0002209795906581231,
      "loss": 1.6119,
      "step": 52736
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.537726879119873,
      "learning_rate": 0.00022096950769215468,
      "loss": 1.5596,
      "step": 52737
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5468330979347229,
      "learning_rate": 0.00022095942482211752,
      "loss": 1.6295,
      "step": 52738
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5307906866073608,
      "learning_rate": 0.00022094934204802406,
      "loss": 1.6646,
      "step": 52739
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5629084706306458,
      "learning_rate": 0.00022093925936988646,
      "loss": 1.5909,
      "step": 52740
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5287908315658569,
      "learning_rate": 0.0002209291767877169,
      "loss": 1.646,
      "step": 52741
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5297835469245911,
      "learning_rate": 0.0002209190943015277,
      "loss": 1.6033,
      "step": 52742
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5147581100463867,
      "learning_rate": 0.00022090901191133098,
      "loss": 1.5121,
      "step": 52743
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5483942627906799,
      "learning_rate": 0.00022089892961713926,
      "loss": 1.5202,
      "step": 52744
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5404821038246155,
      "learning_rate": 0.00022088884741896438,
      "loss": 1.6039,
      "step": 52745
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5310394763946533,
      "learning_rate": 0.00022087876531681888,
      "loss": 1.6588,
      "step": 52746
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.533411979675293,
      "learning_rate": 0.00022086868331071496,
      "loss": 1.4953,
      "step": 52747
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5225538611412048,
      "learning_rate": 0.0002208586014006647,
      "loss": 1.5525,
      "step": 52748
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5413578152656555,
      "learning_rate": 0.00022084851958668043,
      "loss": 1.5532,
      "step": 52749
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5200299620628357,
      "learning_rate": 0.00022083843786877453,
      "loss": 1.5979,
      "step": 52750
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5372946858406067,
      "learning_rate": 0.00022082835624695897,
      "loss": 1.5747,
      "step": 52751
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.9152278304100037,
      "learning_rate": 0.00022081827472124612,
      "loss": 1.605,
      "step": 52752
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5263992547988892,
      "learning_rate": 0.00022080819329164822,
      "loss": 1.5563,
      "step": 52753
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.530257523059845,
      "learning_rate": 0.0002207981119581776,
      "loss": 1.5452,
      "step": 52754
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5274168848991394,
      "learning_rate": 0.0002207880307208463,
      "loss": 1.5444,
      "step": 52755
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5330496430397034,
      "learning_rate": 0.00022077794957966673,
      "loss": 1.609,
      "step": 52756
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5322606563568115,
      "learning_rate": 0.00022076786853465107,
      "loss": 1.5113,
      "step": 52757
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.544914186000824,
      "learning_rate": 0.00022075778758581146,
      "loss": 1.5672,
      "step": 52758
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5381157994270325,
      "learning_rate": 0.00022074770673316023,
      "loss": 1.5975,
      "step": 52759
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5268965363502502,
      "learning_rate": 0.00022073762597670974,
      "loss": 1.5719,
      "step": 52760
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5229293704032898,
      "learning_rate": 0.0002207275453164719,
      "loss": 1.6139,
      "step": 52761
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.513210654258728,
      "learning_rate": 0.00022071746475245922,
      "loss": 1.5885,
      "step": 52762
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5148658752441406,
      "learning_rate": 0.00022070738428468385,
      "loss": 1.587,
      "step": 52763
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5176248550415039,
      "learning_rate": 0.0002206973039131581,
      "loss": 1.5859,
      "step": 52764
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5378075242042542,
      "learning_rate": 0.0002206872236378941,
      "loss": 1.6418,
      "step": 52765
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5263085961341858,
      "learning_rate": 0.00022067714345890403,
      "loss": 1.6666,
      "step": 52766
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5150076746940613,
      "learning_rate": 0.00022066706337620039,
      "loss": 1.5774,
      "step": 52767
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.520298957824707,
      "learning_rate": 0.0002206569833897951,
      "loss": 1.5966,
      "step": 52768
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5288327932357788,
      "learning_rate": 0.00022064690349970058,
      "loss": 1.5292,
      "step": 52769
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5222417116165161,
      "learning_rate": 0.0002206368237059291,
      "loss": 1.5669,
      "step": 52770
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5386452674865723,
      "learning_rate": 0.00022062674400849278,
      "loss": 1.6695,
      "step": 52771
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5102965235710144,
      "learning_rate": 0.00022061666440740385,
      "loss": 1.5032,
      "step": 52772
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5182584524154663,
      "learning_rate": 0.00022060658490267456,
      "loss": 1.5445,
      "step": 52773
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5294911861419678,
      "learning_rate": 0.00022059650549431737,
      "loss": 1.5255,
      "step": 52774
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5096278786659241,
      "learning_rate": 0.00022058642618234413,
      "loss": 1.6114,
      "step": 52775
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5332315564155579,
      "learning_rate": 0.00022057634696676733,
      "loss": 1.5366,
      "step": 52776
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5075337290763855,
      "learning_rate": 0.00022056626784759922,
      "loss": 1.5598,
      "step": 52777
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5439539551734924,
      "learning_rate": 0.00022055618882485187,
      "loss": 1.6101,
      "step": 52778
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5205129981040955,
      "learning_rate": 0.00022054610989853758,
      "loss": 1.5166,
      "step": 52779
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.528891384601593,
      "learning_rate": 0.00022053603106866868,
      "loss": 1.5536,
      "step": 52780
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5350327491760254,
      "learning_rate": 0.0002205259523352573,
      "loss": 1.5791,
      "step": 52781
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5308862328529358,
      "learning_rate": 0.0002205158736983156,
      "loss": 1.581,
      "step": 52782
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5587302446365356,
      "learning_rate": 0.00022050579515785603,
      "loss": 1.6028,
      "step": 52783
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5101990699768066,
      "learning_rate": 0.00022049571671389076,
      "loss": 1.5946,
      "step": 52784
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5172654986381531,
      "learning_rate": 0.0002204856383664319,
      "loss": 1.5695,
      "step": 52785
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.544441819190979,
      "learning_rate": 0.00022047556011549175,
      "loss": 1.5857,
      "step": 52786
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.533176839351654,
      "learning_rate": 0.00022046548196108263,
      "loss": 1.6447,
      "step": 52787
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5394273400306702,
      "learning_rate": 0.00022045540390321663,
      "loss": 1.5885,
      "step": 52788
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5323294401168823,
      "learning_rate": 0.00022044532594190597,
      "loss": 1.6236,
      "step": 52789
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5407641530036926,
      "learning_rate": 0.0002204352480771632,
      "loss": 1.5686,
      "step": 52790
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.50653076171875,
      "learning_rate": 0.0002204251703090001,
      "loss": 1.5429,
      "step": 52791
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5109012126922607,
      "learning_rate": 0.00022041509263742915,
      "loss": 1.5699,
      "step": 52792
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5253754258155823,
      "learning_rate": 0.0002204050150624626,
      "loss": 1.547,
      "step": 52793
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5387310981750488,
      "learning_rate": 0.00022039493758411267,
      "loss": 1.6071,
      "step": 52794
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5310713648796082,
      "learning_rate": 0.00022038486020239148,
      "loss": 1.5542,
      "step": 52795
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5543337464332581,
      "learning_rate": 0.0002203747829173113,
      "loss": 1.5798,
      "step": 52796
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.531589925289154,
      "learning_rate": 0.00022036470572888459,
      "loss": 1.5945,
      "step": 52797
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5079155564308167,
      "learning_rate": 0.00022035462863712318,
      "loss": 1.5793,
      "step": 52798
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5322936773300171,
      "learning_rate": 0.00022034455164203956,
      "loss": 1.5634,
      "step": 52799
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5382055044174194,
      "learning_rate": 0.000220334474743646,
      "loss": 1.5909,
      "step": 52800
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5528503656387329,
      "learning_rate": 0.00022032439794195466,
      "loss": 1.6075,
      "step": 52801
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5082208514213562,
      "learning_rate": 0.00022031432123697768,
      "loss": 1.5718,
      "step": 52802
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5220710039138794,
      "learning_rate": 0.00022030424462872735,
      "loss": 1.6742,
      "step": 52803
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5603734850883484,
      "learning_rate": 0.0002202941681172161,
      "loss": 1.5215,
      "step": 52804
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5622570514678955,
      "learning_rate": 0.00022028409170245578,
      "loss": 1.5715,
      "step": 52805
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5329852104187012,
      "learning_rate": 0.0002202740153844589,
      "loss": 1.5549,
      "step": 52806
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5319386720657349,
      "learning_rate": 0.0002202639391632377,
      "loss": 1.582,
      "step": 52807
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5518596768379211,
      "learning_rate": 0.00022025386303880425,
      "loss": 1.6993,
      "step": 52808
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5465582609176636,
      "learning_rate": 0.00022024378701117084,
      "loss": 1.5698,
      "step": 52809
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5378216505050659,
      "learning_rate": 0.00022023371108034973,
      "loss": 1.6258,
      "step": 52810
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5210122466087341,
      "learning_rate": 0.00022022363524635324,
      "loss": 1.5488,
      "step": 52811
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5119299292564392,
      "learning_rate": 0.00022021355950919337,
      "loss": 1.5288,
      "step": 52812
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.56755530834198,
      "learning_rate": 0.00022020348386888252,
      "loss": 1.5514,
      "step": 52813
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.539603590965271,
      "learning_rate": 0.00022019340832543297,
      "loss": 1.5439,
      "step": 52814
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5181366801261902,
      "learning_rate": 0.00022018333287885677,
      "loss": 1.5568,
      "step": 52815
    },
    {
      "epoch": 1.76,
      "grad_norm": 2.211540699005127,
      "learning_rate": 0.00022017325752916625,
      "loss": 1.5769,
      "step": 52816
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5186785459518433,
      "learning_rate": 0.00022016318227637374,
      "loss": 1.6231,
      "step": 52817
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.56415855884552,
      "learning_rate": 0.00022015310712049127,
      "loss": 1.6011,
      "step": 52818
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5524752140045166,
      "learning_rate": 0.0002201430320615311,
      "loss": 1.5893,
      "step": 52819
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5296502113342285,
      "learning_rate": 0.00022013295709950558,
      "loss": 1.6122,
      "step": 52820
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5493749976158142,
      "learning_rate": 0.0002201228822344269,
      "loss": 1.5429,
      "step": 52821
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5373804569244385,
      "learning_rate": 0.0002201128074663073,
      "loss": 1.6585,
      "step": 52822
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.538818895816803,
      "learning_rate": 0.00022010273279515893,
      "loss": 1.5749,
      "step": 52823
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5475088357925415,
      "learning_rate": 0.00022009265822099414,
      "loss": 1.6846,
      "step": 52824
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.554008960723877,
      "learning_rate": 0.000220082583743825,
      "loss": 1.6515,
      "step": 52825
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5154533982276917,
      "learning_rate": 0.00022007250936366383,
      "loss": 1.6187,
      "step": 52826
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5229641795158386,
      "learning_rate": 0.00022006243508052294,
      "loss": 1.5709,
      "step": 52827
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5335526466369629,
      "learning_rate": 0.00022005236089441444,
      "loss": 1.559,
      "step": 52828
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5319825410842896,
      "learning_rate": 0.00022004228680535054,
      "loss": 1.5788,
      "step": 52829
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5297441482543945,
      "learning_rate": 0.00022003221281334355,
      "loss": 1.533,
      "step": 52830
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5328549146652222,
      "learning_rate": 0.00022002213891840572,
      "loss": 1.6106,
      "step": 52831
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5255505442619324,
      "learning_rate": 0.0002200120651205492,
      "loss": 1.6096,
      "step": 52832
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5199241638183594,
      "learning_rate": 0.00022000199141978616,
      "loss": 1.585,
      "step": 52833
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5241828560829163,
      "learning_rate": 0.00021999191781612903,
      "loss": 1.5647,
      "step": 52834
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5169909596443176,
      "learning_rate": 0.00021998184430958991,
      "loss": 1.5508,
      "step": 52835
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5314226746559143,
      "learning_rate": 0.00021997177090018102,
      "loss": 1.6507,
      "step": 52836
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5537250638008118,
      "learning_rate": 0.00021996169758791464,
      "loss": 1.5913,
      "step": 52837
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.6018348932266235,
      "learning_rate": 0.00021995162437280294,
      "loss": 1.6348,
      "step": 52838
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.538669764995575,
      "learning_rate": 0.00021994155125485817,
      "loss": 1.5853,
      "step": 52839
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5475925207138062,
      "learning_rate": 0.00021993147823409247,
      "loss": 1.5676,
      "step": 52840
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5329532027244568,
      "learning_rate": 0.00021992140531051829,
      "loss": 1.6023,
      "step": 52841
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5374261736869812,
      "learning_rate": 0.0002199113324841477,
      "loss": 1.5838,
      "step": 52842
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5280669331550598,
      "learning_rate": 0.00021990125975499293,
      "loss": 1.5672,
      "step": 52843
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5384973883628845,
      "learning_rate": 0.00021989118712306625,
      "loss": 1.6571,
      "step": 52844
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5226990580558777,
      "learning_rate": 0.00021988111458837986,
      "loss": 1.5764,
      "step": 52845
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.529548704624176,
      "learning_rate": 0.00021987104215094596,
      "loss": 1.6201,
      "step": 52846
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5476760864257812,
      "learning_rate": 0.0002198609698107769,
      "loss": 1.566,
      "step": 52847
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5282152891159058,
      "learning_rate": 0.00021985089756788463,
      "loss": 1.5897,
      "step": 52848
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5175207257270813,
      "learning_rate": 0.00021984082542228167,
      "loss": 1.6021,
      "step": 52849
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5565634369850159,
      "learning_rate": 0.00021983075337398016,
      "loss": 1.6121,
      "step": 52850
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5405900478363037,
      "learning_rate": 0.00021982068142299233,
      "loss": 1.6106,
      "step": 52851
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5250818133354187,
      "learning_rate": 0.00021981060956933029,
      "loss": 1.6152,
      "step": 52852
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.528729259967804,
      "learning_rate": 0.00021980053781300634,
      "loss": 1.5924,
      "step": 52853
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5173264145851135,
      "learning_rate": 0.0002197904661540329,
      "loss": 1.5892,
      "step": 52854
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5231881737709045,
      "learning_rate": 0.00021978039459242182,
      "loss": 1.5646,
      "step": 52855
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5177171230316162,
      "learning_rate": 0.00021977032312818558,
      "loss": 1.5702,
      "step": 52856
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5373303890228271,
      "learning_rate": 0.0002197602517613364,
      "loss": 1.5662,
      "step": 52857
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5203291773796082,
      "learning_rate": 0.00021975018049188644,
      "loss": 1.5989,
      "step": 52858
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5449431538581848,
      "learning_rate": 0.00021974010931984786,
      "loss": 1.6256,
      "step": 52859
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.541134238243103,
      "learning_rate": 0.00021973003824523295,
      "loss": 1.5297,
      "step": 52860
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5385203957557678,
      "learning_rate": 0.00021971996726805415,
      "loss": 1.5373,
      "step": 52861
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5226263999938965,
      "learning_rate": 0.00021970989638832325,
      "loss": 1.5943,
      "step": 52862
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5221203565597534,
      "learning_rate": 0.00021969982560605277,
      "loss": 1.5392,
      "step": 52863
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5265799164772034,
      "learning_rate": 0.00021968975492125495,
      "loss": 1.5661,
      "step": 52864
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5180939435958862,
      "learning_rate": 0.00021967968433394189,
      "loss": 1.6293,
      "step": 52865
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5115172863006592,
      "learning_rate": 0.0002196696138441258,
      "loss": 1.558,
      "step": 52866
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5133857727050781,
      "learning_rate": 0.00021965954345181911,
      "loss": 1.5321,
      "step": 52867
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5361760854721069,
      "learning_rate": 0.00021964947315703377,
      "loss": 1.5427,
      "step": 52868
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5398204326629639,
      "learning_rate": 0.00021963940295978207,
      "loss": 1.586,
      "step": 52869
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.547167956829071,
      "learning_rate": 0.00021962933286007636,
      "loss": 1.62,
      "step": 52870
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5678550601005554,
      "learning_rate": 0.0002196192628579289,
      "loss": 1.5427,
      "step": 52871
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5412212014198303,
      "learning_rate": 0.00021960919295335173,
      "loss": 1.5348,
      "step": 52872
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5191093683242798,
      "learning_rate": 0.0002195991231463571,
      "loss": 1.5411,
      "step": 52873
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5114561915397644,
      "learning_rate": 0.00021958905343695743,
      "loss": 1.5252,
      "step": 52874
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5058340430259705,
      "learning_rate": 0.0002195789838251647,
      "loss": 1.5209,
      "step": 52875
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5150846838951111,
      "learning_rate": 0.00021956891431099116,
      "loss": 1.5281,
      "step": 52876
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5462417602539062,
      "learning_rate": 0.0002195588448944493,
      "loss": 1.5512,
      "step": 52877
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5302612781524658,
      "learning_rate": 0.00021954877557555099,
      "loss": 1.5345,
      "step": 52878
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5411767363548279,
      "learning_rate": 0.00021953870635430867,
      "loss": 1.546,
      "step": 52879
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5303633809089661,
      "learning_rate": 0.0002195286372307345,
      "loss": 1.5274,
      "step": 52880
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5284199714660645,
      "learning_rate": 0.00021951856820484074,
      "loss": 1.5653,
      "step": 52881
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5295743942260742,
      "learning_rate": 0.00021950849927663955,
      "loss": 1.6545,
      "step": 52882
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5167153477668762,
      "learning_rate": 0.0002194984304461431,
      "loss": 1.596,
      "step": 52883
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5281898975372314,
      "learning_rate": 0.0002194883617133639,
      "loss": 1.5843,
      "step": 52884
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5304951071739197,
      "learning_rate": 0.00021947829307831376,
      "loss": 1.6173,
      "step": 52885
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5475050806999207,
      "learning_rate": 0.00021946822454100515,
      "loss": 1.5746,
      "step": 52886
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5533093810081482,
      "learning_rate": 0.00021945815610145038,
      "loss": 1.598,
      "step": 52887
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5399713516235352,
      "learning_rate": 0.00021944808775966145,
      "loss": 1.5316,
      "step": 52888
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5427933931350708,
      "learning_rate": 0.00021943801951565065,
      "loss": 1.7031,
      "step": 52889
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5324950814247131,
      "learning_rate": 0.0002194279513694302,
      "loss": 1.567,
      "step": 52890
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5220838785171509,
      "learning_rate": 0.0002194178833210125,
      "loss": 1.6036,
      "step": 52891
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5276678800582886,
      "learning_rate": 0.00021940781537040942,
      "loss": 1.6097,
      "step": 52892
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5130166411399841,
      "learning_rate": 0.00021939774751763343,
      "loss": 1.5335,
      "step": 52893
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5417328476905823,
      "learning_rate": 0.00021938767976269682,
      "loss": 1.5848,
      "step": 52894
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5657963752746582,
      "learning_rate": 0.00021937761210561157,
      "loss": 1.5928,
      "step": 52895
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.564001202583313,
      "learning_rate": 0.00021936754454639006,
      "loss": 1.6266,
      "step": 52896
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.558012843132019,
      "learning_rate": 0.00021935747708504453,
      "loss": 1.5989,
      "step": 52897
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5362188816070557,
      "learning_rate": 0.00021934740972158703,
      "loss": 1.595,
      "step": 52898
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5175098776817322,
      "learning_rate": 0.00021933734245602987,
      "loss": 1.5797,
      "step": 52899
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5335434079170227,
      "learning_rate": 0.00021932727528838533,
      "loss": 1.6079,
      "step": 52900
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5216061472892761,
      "learning_rate": 0.00021931720821866569,
      "loss": 1.5324,
      "step": 52901
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.566051721572876,
      "learning_rate": 0.00021930714124688297,
      "loss": 1.5787,
      "step": 52902
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5206264853477478,
      "learning_rate": 0.00021929707437304955,
      "loss": 1.6561,
      "step": 52903
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5157198905944824,
      "learning_rate": 0.0002192870075971776,
      "loss": 1.6181,
      "step": 52904
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5280354619026184,
      "learning_rate": 0.00021927694091927928,
      "loss": 1.5402,
      "step": 52905
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5365014672279358,
      "learning_rate": 0.0002192668743393668,
      "loss": 1.6464,
      "step": 52906
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5331254005432129,
      "learning_rate": 0.00021925680785745262,
      "loss": 1.6414,
      "step": 52907
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5384591221809387,
      "learning_rate": 0.0002192467414735486,
      "loss": 1.577,
      "step": 52908
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5288949608802795,
      "learning_rate": 0.0002192366751876672,
      "loss": 1.5904,
      "step": 52909
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5381360650062561,
      "learning_rate": 0.00021922660899982056,
      "loss": 1.6066,
      "step": 52910
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5132626295089722,
      "learning_rate": 0.000219216542910021,
      "loss": 1.532,
      "step": 52911
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5255393981933594,
      "learning_rate": 0.00021920647691828059,
      "loss": 1.634,
      "step": 52912
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5402399301528931,
      "learning_rate": 0.00021919641102461154,
      "loss": 1.5783,
      "step": 52913
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5412669777870178,
      "learning_rate": 0.00021918634522902634,
      "loss": 1.5493,
      "step": 52914
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.537496030330658,
      "learning_rate": 0.00021917627953153677,
      "loss": 1.5898,
      "step": 52915
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5542680621147156,
      "learning_rate": 0.00021916621393215543,
      "loss": 1.5762,
      "step": 52916
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5177886486053467,
      "learning_rate": 0.00021915614843089434,
      "loss": 1.6188,
      "step": 52917
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5286515951156616,
      "learning_rate": 0.00021914608302776587,
      "loss": 1.5582,
      "step": 52918
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5327539443969727,
      "learning_rate": 0.00021913601772278205,
      "loss": 1.5651,
      "step": 52919
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5458528995513916,
      "learning_rate": 0.00021912595251595516,
      "loss": 1.6063,
      "step": 52920
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5314592123031616,
      "learning_rate": 0.0002191158874072976,
      "loss": 1.6127,
      "step": 52921
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5423204302787781,
      "learning_rate": 0.00021910582239682128,
      "loss": 1.6421,
      "step": 52922
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5331342220306396,
      "learning_rate": 0.00021909575748453862,
      "loss": 1.6568,
      "step": 52923
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.541286051273346,
      "learning_rate": 0.00021908569267046186,
      "loss": 1.5648,
      "step": 52924
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5342537760734558,
      "learning_rate": 0.00021907562795460306,
      "loss": 1.5623,
      "step": 52925
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5424618721008301,
      "learning_rate": 0.00021906556333697454,
      "loss": 1.6142,
      "step": 52926
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5253614783287048,
      "learning_rate": 0.00021905549881758843,
      "loss": 1.6146,
      "step": 52927
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5290775299072266,
      "learning_rate": 0.00021904543439645721,
      "loss": 1.6012,
      "step": 52928
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5375417470932007,
      "learning_rate": 0.00021903537007359272,
      "loss": 1.638,
      "step": 52929
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5125300288200378,
      "learning_rate": 0.00021902530584900741,
      "loss": 1.6398,
      "step": 52930
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5290087461471558,
      "learning_rate": 0.00021901524172271354,
      "loss": 1.5894,
      "step": 52931
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5199006199836731,
      "learning_rate": 0.00021900517769472315,
      "loss": 1.6247,
      "step": 52932
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5309355854988098,
      "learning_rate": 0.00021899511376504856,
      "loss": 1.467,
      "step": 52933
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5307611227035522,
      "learning_rate": 0.00021898504993370202,
      "loss": 1.625,
      "step": 52934
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5560610890388489,
      "learning_rate": 0.00021897498620069563,
      "loss": 1.5776,
      "step": 52935
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5239694118499756,
      "learning_rate": 0.00021896492256604156,
      "loss": 1.5079,
      "step": 52936
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5433862805366516,
      "learning_rate": 0.00021895485902975227,
      "loss": 1.6356,
      "step": 52937
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.554061233997345,
      "learning_rate": 0.00021894479559183988,
      "loss": 1.6013,
      "step": 52938
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5385740995407104,
      "learning_rate": 0.00021893473225231646,
      "loss": 1.574,
      "step": 52939
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5207290649414062,
      "learning_rate": 0.00021892466901119438,
      "loss": 1.5953,
      "step": 52940
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5112069249153137,
      "learning_rate": 0.00021891460586848587,
      "loss": 1.5508,
      "step": 52941
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5196402072906494,
      "learning_rate": 0.000218904542824203,
      "loss": 1.6331,
      "step": 52942
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5322936773300171,
      "learning_rate": 0.000218894479878358,
      "loss": 1.5933,
      "step": 52943
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5641599893569946,
      "learning_rate": 0.00021888441703096328,
      "loss": 1.5482,
      "step": 52944
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5257353186607361,
      "learning_rate": 0.00021887435428203086,
      "loss": 1.5952,
      "step": 52945
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5241655111312866,
      "learning_rate": 0.00021886429163157301,
      "loss": 1.635,
      "step": 52946
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5092236399650574,
      "learning_rate": 0.00021885422907960198,
      "loss": 1.6084,
      "step": 52947
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5353776812553406,
      "learning_rate": 0.00021884416662613002,
      "loss": 1.5395,
      "step": 52948
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5458659529685974,
      "learning_rate": 0.0002188341042711692,
      "loss": 1.5981,
      "step": 52949
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5368636250495911,
      "learning_rate": 0.00021882404201473179,
      "loss": 1.6526,
      "step": 52950
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5326443910598755,
      "learning_rate": 0.00021881397985683008,
      "loss": 1.5089,
      "step": 52951
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.531140148639679,
      "learning_rate": 0.00021880391779747628,
      "loss": 1.5965,
      "step": 52952
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5234183073043823,
      "learning_rate": 0.00021879385583668248,
      "loss": 1.5869,
      "step": 52953
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5284580588340759,
      "learning_rate": 0.00021878379397446106,
      "loss": 1.6124,
      "step": 52954
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5485612750053406,
      "learning_rate": 0.00021877373221082413,
      "loss": 1.6329,
      "step": 52955
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5293372869491577,
      "learning_rate": 0.00021876367054578385,
      "loss": 1.6045,
      "step": 52956
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5217233300209045,
      "learning_rate": 0.0002187536089793525,
      "loss": 1.5727,
      "step": 52957
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5501524806022644,
      "learning_rate": 0.0002187435475115424,
      "loss": 1.5708,
      "step": 52958
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5030907988548279,
      "learning_rate": 0.00021873348614236557,
      "loss": 1.5376,
      "step": 52959
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.507648229598999,
      "learning_rate": 0.00021872342487183434,
      "loss": 1.579,
      "step": 52960
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5294651389122009,
      "learning_rate": 0.00021871336369996098,
      "loss": 1.5695,
      "step": 52961
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5496811866760254,
      "learning_rate": 0.00021870330262675753,
      "loss": 1.5217,
      "step": 52962
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5298367738723755,
      "learning_rate": 0.00021869324165223628,
      "loss": 1.5662,
      "step": 52963
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5323007106781006,
      "learning_rate": 0.00021868318077640953,
      "loss": 1.5804,
      "step": 52964
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.517608106136322,
      "learning_rate": 0.0002186731199992893,
      "loss": 1.5695,
      "step": 52965
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5313131213188171,
      "learning_rate": 0.00021866305932088798,
      "loss": 1.5835,
      "step": 52966
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5349177718162537,
      "learning_rate": 0.0002186529987412177,
      "loss": 1.6079,
      "step": 52967
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5302724242210388,
      "learning_rate": 0.0002186429382602908,
      "loss": 1.5895,
      "step": 52968
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5401831269264221,
      "learning_rate": 0.00021863287787811928,
      "loss": 1.5449,
      "step": 52969
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5266085267066956,
      "learning_rate": 0.00021862281759471542,
      "loss": 1.5419,
      "step": 52970
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5184212923049927,
      "learning_rate": 0.00021861275741009165,
      "loss": 1.5821,
      "step": 52971
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5116508603096008,
      "learning_rate": 0.00021860269732425984,
      "loss": 1.5621,
      "step": 52972
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5108714699745178,
      "learning_rate": 0.00021859263733723234,
      "loss": 1.586,
      "step": 52973
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.547573447227478,
      "learning_rate": 0.00021858257744902153,
      "loss": 1.6354,
      "step": 52974
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5448773503303528,
      "learning_rate": 0.00021857251765963938,
      "loss": 1.5852,
      "step": 52975
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5152595639228821,
      "learning_rate": 0.00021856245796909822,
      "loss": 1.5372,
      "step": 52976
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5438740253448486,
      "learning_rate": 0.00021855239837741017,
      "loss": 1.5891,
      "step": 52977
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5471702814102173,
      "learning_rate": 0.00021854233888458766,
      "loss": 1.6453,
      "step": 52978
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5097185969352722,
      "learning_rate": 0.00021853227949064256,
      "loss": 1.6198,
      "step": 52979
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5612318515777588,
      "learning_rate": 0.00021852222019558737,
      "loss": 1.6236,
      "step": 52980
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.511970043182373,
      "learning_rate": 0.00021851216099943421,
      "loss": 1.5747,
      "step": 52981
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5342345237731934,
      "learning_rate": 0.0002185021019021953,
      "loss": 1.6362,
      "step": 52982
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5210193991661072,
      "learning_rate": 0.00021849204290388277,
      "loss": 1.5828,
      "step": 52983
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5215438008308411,
      "learning_rate": 0.00021848198400450898,
      "loss": 1.5916,
      "step": 52984
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.520159125328064,
      "learning_rate": 0.00021847192520408595,
      "loss": 1.6227,
      "step": 52985
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5383191108703613,
      "learning_rate": 0.00021846186650262595,
      "loss": 1.5818,
      "step": 52986
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5259993672370911,
      "learning_rate": 0.0002184518079001413,
      "loss": 1.6193,
      "step": 52987
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5100156664848328,
      "learning_rate": 0.00021844174939664418,
      "loss": 1.4749,
      "step": 52988
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.554537832736969,
      "learning_rate": 0.00021843169099214674,
      "loss": 1.5718,
      "step": 52989
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5107755064964294,
      "learning_rate": 0.00021842163268666117,
      "loss": 1.6175,
      "step": 52990
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5500179529190063,
      "learning_rate": 0.0002184115744801998,
      "loss": 1.6106,
      "step": 52991
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5456598997116089,
      "learning_rate": 0.00021840151637277466,
      "loss": 1.5662,
      "step": 52992
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5346094965934753,
      "learning_rate": 0.00021839145836439802,
      "loss": 1.632,
      "step": 52993
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5144302845001221,
      "learning_rate": 0.00021838140045508234,
      "loss": 1.6258,
      "step": 52994
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5243266224861145,
      "learning_rate": 0.0002183713426448394,
      "loss": 1.5322,
      "step": 52995
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5307209491729736,
      "learning_rate": 0.00021836128493368166,
      "loss": 1.5714,
      "step": 52996
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5607117414474487,
      "learning_rate": 0.0002183512273216213,
      "loss": 1.5026,
      "step": 52997
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5277556777000427,
      "learning_rate": 0.00021834116980867064,
      "loss": 1.6217,
      "step": 52998
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5428691506385803,
      "learning_rate": 0.0002183311123948416,
      "loss": 1.5668,
      "step": 52999
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5308511257171631,
      "learning_rate": 0.0002183210550801466,
      "loss": 1.578,
      "step": 53000
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5300583839416504,
      "learning_rate": 0.00021831099786459793,
      "loss": 1.5587,
      "step": 53001
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5279410481452942,
      "learning_rate": 0.00021830094074820752,
      "loss": 1.6289,
      "step": 53002
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5588032603263855,
      "learning_rate": 0.00021829088373098777,
      "loss": 1.605,
      "step": 53003
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5063970685005188,
      "learning_rate": 0.00021828082681295093,
      "loss": 1.5933,
      "step": 53004
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5148032903671265,
      "learning_rate": 0.00021827076999410906,
      "loss": 1.6103,
      "step": 53005
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5096445679664612,
      "learning_rate": 0.0002182607132744744,
      "loss": 1.6,
      "step": 53006
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5133911371231079,
      "learning_rate": 0.00021825065665405916,
      "loss": 1.5255,
      "step": 53007
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5218935608863831,
      "learning_rate": 0.00021824060013287576,
      "loss": 1.5044,
      "step": 53008
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5381497740745544,
      "learning_rate": 0.000218230543710936,
      "loss": 1.5191,
      "step": 53009
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.534587025642395,
      "learning_rate": 0.00021822048738825243,
      "loss": 1.6165,
      "step": 53010
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5270979404449463,
      "learning_rate": 0.00021821043116483716,
      "loss": 1.578,
      "step": 53011
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5157320499420166,
      "learning_rate": 0.00021820037504070237,
      "loss": 1.6074,
      "step": 53012
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5261216759681702,
      "learning_rate": 0.0002181903190158602,
      "loss": 1.6221,
      "step": 53013
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5246986150741577,
      "learning_rate": 0.00021818026309032302,
      "loss": 1.4927,
      "step": 53014
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.315714716911316,
      "learning_rate": 0.0002181702072641029,
      "loss": 1.553,
      "step": 53015
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.4959384500980377,
      "learning_rate": 0.00021816015153721202,
      "loss": 1.5798,
      "step": 53016
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5451425909996033,
      "learning_rate": 0.0002181500959096627,
      "loss": 1.5157,
      "step": 53017
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5449806451797485,
      "learning_rate": 0.00021814004038146718,
      "loss": 1.5364,
      "step": 53018
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5435110926628113,
      "learning_rate": 0.00021812998495263753,
      "loss": 1.6352,
      "step": 53019
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5423251986503601,
      "learning_rate": 0.00021811992962318604,
      "loss": 1.5418,
      "step": 53020
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5249322652816772,
      "learning_rate": 0.0002181098743931249,
      "loss": 1.5174,
      "step": 53021
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5335348844528198,
      "learning_rate": 0.00021809981926246627,
      "loss": 1.5163,
      "step": 53022
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5610816478729248,
      "learning_rate": 0.0002180897642312223,
      "loss": 1.506,
      "step": 53023
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5076701641082764,
      "learning_rate": 0.00021807970929940554,
      "loss": 1.4935,
      "step": 53024
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5013188719749451,
      "learning_rate": 0.0002180696544670277,
      "loss": 1.5214,
      "step": 53025
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5406467914581299,
      "learning_rate": 0.00021805959973410132,
      "loss": 1.5478,
      "step": 53026
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5142542719841003,
      "learning_rate": 0.0002180495451006385,
      "loss": 1.5544,
      "step": 53027
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5302178263664246,
      "learning_rate": 0.00021803949056665151,
      "loss": 1.5372,
      "step": 53028
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5150495171546936,
      "learning_rate": 0.00021802943613215246,
      "loss": 1.5679,
      "step": 53029
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5275482535362244,
      "learning_rate": 0.00021801938179715353,
      "loss": 1.5936,
      "step": 53030
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5313588380813599,
      "learning_rate": 0.0002180093275616672,
      "loss": 1.6659,
      "step": 53031
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5454884171485901,
      "learning_rate": 0.00021799927342570522,
      "loss": 1.6447,
      "step": 53032
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5416667461395264,
      "learning_rate": 0.00021798921938928016,
      "loss": 1.5534,
      "step": 53033
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5209521651268005,
      "learning_rate": 0.00021797916545240412,
      "loss": 1.5473,
      "step": 53034
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5139908790588379,
      "learning_rate": 0.00021796911161508925,
      "loss": 1.5704,
      "step": 53035
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5169833898544312,
      "learning_rate": 0.0002179590578773478,
      "loss": 1.532,
      "step": 53036
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5052574276924133,
      "learning_rate": 0.0002179490042391919,
      "loss": 1.4858,
      "step": 53037
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5265522003173828,
      "learning_rate": 0.000217938950700634,
      "loss": 1.5028,
      "step": 53038
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5239503979682922,
      "learning_rate": 0.00021792889726168592,
      "loss": 1.53,
      "step": 53039
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5320925116539001,
      "learning_rate": 0.00021791884392236013,
      "loss": 1.6148,
      "step": 53040
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.52166748046875,
      "learning_rate": 0.0002179087906826689,
      "loss": 1.5086,
      "step": 53041
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5484524369239807,
      "learning_rate": 0.00021789873754262415,
      "loss": 1.5138,
      "step": 53042
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5499916076660156,
      "learning_rate": 0.00021788868450223827,
      "loss": 1.6401,
      "step": 53043
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5246474146842957,
      "learning_rate": 0.00021787863156152336,
      "loss": 1.6157,
      "step": 53044
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5376089811325073,
      "learning_rate": 0.00021786857872049188,
      "loss": 1.5905,
      "step": 53045
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5306043028831482,
      "learning_rate": 0.00021785852597915566,
      "loss": 1.5878,
      "step": 53046
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5398135185241699,
      "learning_rate": 0.00021784847333752717,
      "loss": 1.6334,
      "step": 53047
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5296372175216675,
      "learning_rate": 0.00021783842079561858,
      "loss": 1.5871,
      "step": 53048
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5147900581359863,
      "learning_rate": 0.00021782836835344198,
      "loss": 1.5808,
      "step": 53049
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.519286036491394,
      "learning_rate": 0.0002178183160110096,
      "loss": 1.4878,
      "step": 53050
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5584776997566223,
      "learning_rate": 0.00021780826376833378,
      "loss": 1.5921,
      "step": 53051
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.523170530796051,
      "learning_rate": 0.00021779821162542655,
      "loss": 1.6107,
      "step": 53052
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5101600885391235,
      "learning_rate": 0.00021778815958230007,
      "loss": 1.5678,
      "step": 53053
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.530109167098999,
      "learning_rate": 0.00021777810763896676,
      "loss": 1.5557,
      "step": 53054
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5260303020477295,
      "learning_rate": 0.00021776805579543876,
      "loss": 1.5474,
      "step": 53055
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5480633974075317,
      "learning_rate": 0.00021775800405172816,
      "loss": 1.6107,
      "step": 53056
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5492162704467773,
      "learning_rate": 0.0002177479524078472,
      "loss": 1.5858,
      "step": 53057
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5323096513748169,
      "learning_rate": 0.00021773790086380824,
      "loss": 1.5193,
      "step": 53058
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5318881869316101,
      "learning_rate": 0.00021772784941962323,
      "loss": 1.5825,
      "step": 53059
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5423226952552795,
      "learning_rate": 0.00021771779807530444,
      "loss": 1.6086,
      "step": 53060
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5274308323860168,
      "learning_rate": 0.00021770774683086425,
      "loss": 1.6297,
      "step": 53061
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5245903730392456,
      "learning_rate": 0.00021769769568631467,
      "loss": 1.6066,
      "step": 53062
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5664577484130859,
      "learning_rate": 0.00021768764464166795,
      "loss": 1.5583,
      "step": 53063
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5299232006072998,
      "learning_rate": 0.00021767759369693628,
      "loss": 1.5655,
      "step": 53064
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5350501537322998,
      "learning_rate": 0.00021766754285213198,
      "loss": 1.6412,
      "step": 53065
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5536550879478455,
      "learning_rate": 0.00021765749210726708,
      "loss": 1.6174,
      "step": 53066
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5161352157592773,
      "learning_rate": 0.00021764744146235377,
      "loss": 1.5332,
      "step": 53067
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5416579246520996,
      "learning_rate": 0.00021763739091740448,
      "loss": 1.6382,
      "step": 53068
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5338473320007324,
      "learning_rate": 0.0002176273404724312,
      "loss": 1.583,
      "step": 53069
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5442050695419312,
      "learning_rate": 0.00021761729012744618,
      "loss": 1.5597,
      "step": 53070
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.517494797706604,
      "learning_rate": 0.00021760723988246166,
      "loss": 1.5988,
      "step": 53071
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.53432697057724,
      "learning_rate": 0.00021759718973748984,
      "loss": 1.6234,
      "step": 53072
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5279725193977356,
      "learning_rate": 0.00021758713969254281,
      "loss": 1.5357,
      "step": 53073
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5270858407020569,
      "learning_rate": 0.00021757708974763285,
      "loss": 1.5702,
      "step": 53074
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5288377404212952,
      "learning_rate": 0.0002175670399027722,
      "loss": 1.5826,
      "step": 53075
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5145598649978638,
      "learning_rate": 0.00021755699015797302,
      "loss": 1.6541,
      "step": 53076
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5258943438529968,
      "learning_rate": 0.0002175469405132475,
      "loss": 1.5596,
      "step": 53077
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5327852964401245,
      "learning_rate": 0.00021753689096860786,
      "loss": 1.5996,
      "step": 53078
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5190830230712891,
      "learning_rate": 0.00021752684152406628,
      "loss": 1.5561,
      "step": 53079
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5455324649810791,
      "learning_rate": 0.00021751679217963494,
      "loss": 1.559,
      "step": 53080
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5207964777946472,
      "learning_rate": 0.0002175067429353261,
      "loss": 1.6224,
      "step": 53081
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5323943495750427,
      "learning_rate": 0.00021749669379115185,
      "loss": 1.5661,
      "step": 53082
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5506238341331482,
      "learning_rate": 0.00021748664474712448,
      "loss": 1.6561,
      "step": 53083
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5368018746376038,
      "learning_rate": 0.00021747659580325618,
      "loss": 1.5539,
      "step": 53084
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5491349697113037,
      "learning_rate": 0.00021746654695955917,
      "loss": 1.5209,
      "step": 53085
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5347207188606262,
      "learning_rate": 0.0002174564982160456,
      "loss": 1.5788,
      "step": 53086
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5191753506660461,
      "learning_rate": 0.00021744644957272756,
      "loss": 1.5925,
      "step": 53087
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5636906027793884,
      "learning_rate": 0.00021743640102961758,
      "loss": 1.5631,
      "step": 53088
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5355086922645569,
      "learning_rate": 0.00021742635258672748,
      "loss": 1.6202,
      "step": 53089
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5269009470939636,
      "learning_rate": 0.00021741630424406967,
      "loss": 1.5993,
      "step": 53090
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.524664044380188,
      "learning_rate": 0.00021740625600165633,
      "loss": 1.5442,
      "step": 53091
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5296681523323059,
      "learning_rate": 0.00021739620785949957,
      "loss": 1.5539,
      "step": 53092
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5263010263442993,
      "learning_rate": 0.00021738615981761167,
      "loss": 1.5122,
      "step": 53093
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5204761624336243,
      "learning_rate": 0.00021737611187600472,
      "loss": 1.6222,
      "step": 53094
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5443875789642334,
      "learning_rate": 0.00021736606403469118,
      "loss": 1.577,
      "step": 53095
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5353962779045105,
      "learning_rate": 0.00021735601629368286,
      "loss": 1.5112,
      "step": 53096
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5508743524551392,
      "learning_rate": 0.00021734596865299226,
      "loss": 1.6251,
      "step": 53097
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5402265191078186,
      "learning_rate": 0.00021733592111263154,
      "loss": 1.5815,
      "step": 53098
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5471831560134888,
      "learning_rate": 0.00021732587367261273,
      "loss": 1.6107,
      "step": 53099
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.608947217464447,
      "learning_rate": 0.00021731582633294813,
      "loss": 1.6593,
      "step": 53100
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.1169975996017456,
      "learning_rate": 0.00021730577909365005,
      "loss": 1.6544,
      "step": 53101
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5295455455780029,
      "learning_rate": 0.00021729573195473047,
      "loss": 1.6481,
      "step": 53102
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5141012072563171,
      "learning_rate": 0.0002172856849162016,
      "loss": 1.5676,
      "step": 53103
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5452789068222046,
      "learning_rate": 0.00021727563797807584,
      "loss": 1.5158,
      "step": 53104
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5403565168380737,
      "learning_rate": 0.00021726559114036527,
      "loss": 1.6278,
      "step": 53105
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5234060287475586,
      "learning_rate": 0.00021725554440308204,
      "loss": 1.5996,
      "step": 53106
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5177229642868042,
      "learning_rate": 0.00021724549776623844,
      "loss": 1.5963,
      "step": 53107
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.500627875328064,
      "learning_rate": 0.00021723545122984662,
      "loss": 1.5312,
      "step": 53108
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5232559442520142,
      "learning_rate": 0.0002172254047939187,
      "loss": 1.5176,
      "step": 53109
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5658739805221558,
      "learning_rate": 0.0002172153584584669,
      "loss": 1.6252,
      "step": 53110
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.551848828792572,
      "learning_rate": 0.00021720531222350363,
      "loss": 1.5981,
      "step": 53111
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.519781768321991,
      "learning_rate": 0.00021719526608904074,
      "loss": 1.5449,
      "step": 53112
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5173438787460327,
      "learning_rate": 0.00021718522005509063,
      "loss": 1.4786,
      "step": 53113
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5255510210990906,
      "learning_rate": 0.0002171751741216655,
      "loss": 1.5978,
      "step": 53114
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5394338965415955,
      "learning_rate": 0.00021716512828877754,
      "loss": 1.5333,
      "step": 53115
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5262224674224854,
      "learning_rate": 0.00021715508255643886,
      "loss": 1.6221,
      "step": 53116
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5402421951293945,
      "learning_rate": 0.00021714503692466165,
      "loss": 1.5001,
      "step": 53117
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5511034727096558,
      "learning_rate": 0.00021713499139345833,
      "loss": 1.5941,
      "step": 53118
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5332921743392944,
      "learning_rate": 0.00021712494596284074,
      "loss": 1.6174,
      "step": 53119
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5276162028312683,
      "learning_rate": 0.0002171149006328213,
      "loss": 1.5843,
      "step": 53120
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5303972363471985,
      "learning_rate": 0.00021710485540341225,
      "loss": 1.6233,
      "step": 53121
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5083531141281128,
      "learning_rate": 0.0002170948102746256,
      "loss": 1.5679,
      "step": 53122
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5054837465286255,
      "learning_rate": 0.00021708476524647365,
      "loss": 1.5838,
      "step": 53123
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5216587781906128,
      "learning_rate": 0.0002170747203189685,
      "loss": 1.5307,
      "step": 53124
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.53238844871521,
      "learning_rate": 0.00021706467549212263,
      "loss": 1.5844,
      "step": 53125
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5608295202255249,
      "learning_rate": 0.00021705463076594783,
      "loss": 1.5708,
      "step": 53126
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5190096497535706,
      "learning_rate": 0.00021704458614045651,
      "loss": 1.5751,
      "step": 53127
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5620366334915161,
      "learning_rate": 0.00021703454161566094,
      "loss": 1.5518,
      "step": 53128
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.536486029624939,
      "learning_rate": 0.00021702449719157316,
      "loss": 1.5824,
      "step": 53129
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5518621206283569,
      "learning_rate": 0.0002170144528682054,
      "loss": 1.5885,
      "step": 53130
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5263584852218628,
      "learning_rate": 0.00021700440864556994,
      "loss": 1.62,
      "step": 53131
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5283690094947815,
      "learning_rate": 0.00021699436452367882,
      "loss": 1.6194,
      "step": 53132
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.514959454536438,
      "learning_rate": 0.00021698432050254427,
      "loss": 1.5653,
      "step": 53133
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5562480092048645,
      "learning_rate": 0.0002169742765821786,
      "loss": 1.608,
      "step": 53134
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5528759360313416,
      "learning_rate": 0.00021696423276259397,
      "loss": 1.5177,
      "step": 53135
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5470984578132629,
      "learning_rate": 0.00021695418904380245,
      "loss": 1.597,
      "step": 53136
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5304971933364868,
      "learning_rate": 0.00021694414542581627,
      "loss": 1.5403,
      "step": 53137
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5325362086296082,
      "learning_rate": 0.0002169341019086478,
      "loss": 1.6317,
      "step": 53138
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5384339094161987,
      "learning_rate": 0.00021692405849230896,
      "loss": 1.5466,
      "step": 53139
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5259901881217957,
      "learning_rate": 0.00021691401517681203,
      "loss": 1.5607,
      "step": 53140
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5675104260444641,
      "learning_rate": 0.00021690397196216947,
      "loss": 1.5987,
      "step": 53141
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5351788401603699,
      "learning_rate": 0.00021689392884839301,
      "loss": 1.5219,
      "step": 53142
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5250914096832275,
      "learning_rate": 0.0002168838858354952,
      "loss": 1.634,
      "step": 53143
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5224940776824951,
      "learning_rate": 0.00021687384292348803,
      "loss": 1.6558,
      "step": 53144
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.561062753200531,
      "learning_rate": 0.00021686380011238387,
      "loss": 1.5506,
      "step": 53145
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.548723042011261,
      "learning_rate": 0.00021685375740219473,
      "loss": 1.5213,
      "step": 53146
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5114577412605286,
      "learning_rate": 0.00021684371479293283,
      "loss": 1.5969,
      "step": 53147
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5125200748443604,
      "learning_rate": 0.00021683367228461062,
      "loss": 1.5743,
      "step": 53148
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5177990198135376,
      "learning_rate": 0.00021682362987723982,
      "loss": 1.6069,
      "step": 53149
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5141506791114807,
      "learning_rate": 0.000216813587570833,
      "loss": 1.6351,
      "step": 53150
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.530750036239624,
      "learning_rate": 0.00021680354536540228,
      "loss": 1.508,
      "step": 53151
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5216745734214783,
      "learning_rate": 0.00021679350326095972,
      "loss": 1.6019,
      "step": 53152
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5297620296478271,
      "learning_rate": 0.00021678346125751757,
      "loss": 1.5722,
      "step": 53153
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5314607620239258,
      "learning_rate": 0.00021677341935508803,
      "loss": 1.5502,
      "step": 53154
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5202675461769104,
      "learning_rate": 0.00021676337755368344,
      "loss": 1.6479,
      "step": 53155
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5338992476463318,
      "learning_rate": 0.00021675333585331567,
      "loss": 1.6186,
      "step": 53156
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.523123562335968,
      "learning_rate": 0.00021674329425399715,
      "loss": 1.5529,
      "step": 53157
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5113848447799683,
      "learning_rate": 0.00021673325275574004,
      "loss": 1.4988,
      "step": 53158
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5443053841590881,
      "learning_rate": 0.00021672321135855643,
      "loss": 1.6381,
      "step": 53159
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5216149687767029,
      "learning_rate": 0.00021671317006245863,
      "loss": 1.6391,
      "step": 53160
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5311124920845032,
      "learning_rate": 0.00021670312886745864,
      "loss": 1.6014,
      "step": 53161
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5316972732543945,
      "learning_rate": 0.000216693087773569,
      "loss": 1.5396,
      "step": 53162
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5241107940673828,
      "learning_rate": 0.0002166830467808015,
      "loss": 1.51,
      "step": 53163
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5186091065406799,
      "learning_rate": 0.00021667300588916854,
      "loss": 1.5349,
      "step": 53164
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5225402116775513,
      "learning_rate": 0.00021666296509868235,
      "loss": 1.6066,
      "step": 53165
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5298333764076233,
      "learning_rate": 0.00021665292440935498,
      "loss": 1.6032,
      "step": 53166
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5338641405105591,
      "learning_rate": 0.00021664288382119867,
      "loss": 1.53,
      "step": 53167
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5220499038696289,
      "learning_rate": 0.0002166328433342257,
      "loss": 1.5898,
      "step": 53168
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5473865866661072,
      "learning_rate": 0.00021662280294844807,
      "loss": 1.6606,
      "step": 53169
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5665233731269836,
      "learning_rate": 0.00021661276266387805,
      "loss": 1.5391,
      "step": 53170
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5220351219177246,
      "learning_rate": 0.00021660272248052792,
      "loss": 1.6111,
      "step": 53171
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5092880725860596,
      "learning_rate": 0.00021659268239840982,
      "loss": 1.5444,
      "step": 53172
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5261372327804565,
      "learning_rate": 0.00021658264241753588,
      "loss": 1.5877,
      "step": 53173
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5542601346969604,
      "learning_rate": 0.0002165726025379183,
      "loss": 1.624,
      "step": 53174
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5329926013946533,
      "learning_rate": 0.00021656256275956936,
      "loss": 1.5656,
      "step": 53175
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5438312292098999,
      "learning_rate": 0.0002165525230825011,
      "loss": 1.609,
      "step": 53176
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5212268829345703,
      "learning_rate": 0.00021654248350672575,
      "loss": 1.5742,
      "step": 53177
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5246621370315552,
      "learning_rate": 0.00021653244403225562,
      "loss": 1.5709,
      "step": 53178
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5405792593955994,
      "learning_rate": 0.00021652240465910275,
      "loss": 1.6664,
      "step": 53179
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5306806564331055,
      "learning_rate": 0.00021651236538727944,
      "loss": 1.5344,
      "step": 53180
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5460740923881531,
      "learning_rate": 0.00021650232621679775,
      "loss": 1.6664,
      "step": 53181
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5228829979896545,
      "learning_rate": 0.00021649228714766997,
      "loss": 1.6293,
      "step": 53182
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5463764667510986,
      "learning_rate": 0.00021648224817990826,
      "loss": 1.5878,
      "step": 53183
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5309690833091736,
      "learning_rate": 0.0002164722093135247,
      "loss": 1.5989,
      "step": 53184
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5305496454238892,
      "learning_rate": 0.0002164621705485317,
      "loss": 1.5986,
      "step": 53185
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5398536920547485,
      "learning_rate": 0.00021645213188494123,
      "loss": 1.5991,
      "step": 53186
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5223077535629272,
      "learning_rate": 0.0002164420933227656,
      "loss": 1.6206,
      "step": 53187
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5313658118247986,
      "learning_rate": 0.000216432054862017,
      "loss": 1.5826,
      "step": 53188
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5388189554214478,
      "learning_rate": 0.0002164220165027075,
      "loss": 1.5848,
      "step": 53189
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5339660048484802,
      "learning_rate": 0.0002164119782448494,
      "loss": 1.5502,
      "step": 53190
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.542566180229187,
      "learning_rate": 0.00021640194008845472,
      "loss": 1.5565,
      "step": 53191
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5301216840744019,
      "learning_rate": 0.00021639190203353594,
      "loss": 1.5853,
      "step": 53192
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5238855481147766,
      "learning_rate": 0.00021638186408010497,
      "loss": 1.5554,
      "step": 53193
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5322154760360718,
      "learning_rate": 0.00021637182622817413,
      "loss": 1.514,
      "step": 53194
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5251973867416382,
      "learning_rate": 0.00021636178847775562,
      "loss": 1.6087,
      "step": 53195
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5357608199119568,
      "learning_rate": 0.0002163517508288615,
      "loss": 1.6031,
      "step": 53196
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5301907658576965,
      "learning_rate": 0.00021634171328150403,
      "loss": 1.5578,
      "step": 53197
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5415120720863342,
      "learning_rate": 0.00021633167583569549,
      "loss": 1.6444,
      "step": 53198
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5241477489471436,
      "learning_rate": 0.0002163216384914478,
      "loss": 1.6204,
      "step": 53199
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5172762274742126,
      "learning_rate": 0.00021631160124877338,
      "loss": 1.6093,
      "step": 53200
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.538479745388031,
      "learning_rate": 0.00021630156410768438,
      "loss": 1.5654,
      "step": 53201
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5181570649147034,
      "learning_rate": 0.00021629152706819298,
      "loss": 1.5171,
      "step": 53202
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5308713912963867,
      "learning_rate": 0.00021628149013031128,
      "loss": 1.6002,
      "step": 53203
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5206027030944824,
      "learning_rate": 0.00021627145329405144,
      "loss": 1.598,
      "step": 53204
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5336719751358032,
      "learning_rate": 0.00021626141655942596,
      "loss": 1.6034,
      "step": 53205
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5351549983024597,
      "learning_rate": 0.00021625137992644652,
      "loss": 1.5485,
      "step": 53206
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.522842288017273,
      "learning_rate": 0.0002162413433951257,
      "loss": 1.5512,
      "step": 53207
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5292258858680725,
      "learning_rate": 0.00021623130696547555,
      "loss": 1.5387,
      "step": 53208
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.533149242401123,
      "learning_rate": 0.00021622127063750823,
      "loss": 1.5991,
      "step": 53209
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5068092346191406,
      "learning_rate": 0.0002162112344112359,
      "loss": 1.5713,
      "step": 53210
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.537189781665802,
      "learning_rate": 0.0002162011982866708,
      "loss": 1.5656,
      "step": 53211
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5416598916053772,
      "learning_rate": 0.0002161911622638252,
      "loss": 1.5576,
      "step": 53212
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5444340109825134,
      "learning_rate": 0.00021618112634271103,
      "loss": 1.5682,
      "step": 53213
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5494533777236938,
      "learning_rate": 0.00021617109052334064,
      "loss": 1.608,
      "step": 53214
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5296633243560791,
      "learning_rate": 0.00021616105480572632,
      "loss": 1.5496,
      "step": 53215
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5443150401115417,
      "learning_rate": 0.00021615101918988006,
      "loss": 1.5792,
      "step": 53216
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5224645733833313,
      "learning_rate": 0.0002161409836758141,
      "loss": 1.5715,
      "step": 53217
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5215139985084534,
      "learning_rate": 0.00021613094826354064,
      "loss": 1.579,
      "step": 53218
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5267449021339417,
      "learning_rate": 0.00021612091295307182,
      "loss": 1.5965,
      "step": 53219
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5315107107162476,
      "learning_rate": 0.00021611087774441983,
      "loss": 1.5686,
      "step": 53220
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5218832492828369,
      "learning_rate": 0.0002161008426375969,
      "loss": 1.52,
      "step": 53221
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5433357954025269,
      "learning_rate": 0.00021609080763261524,
      "loss": 1.6099,
      "step": 53222
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5342891216278076,
      "learning_rate": 0.00021608077272948696,
      "loss": 1.6759,
      "step": 53223
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5723846554756165,
      "learning_rate": 0.00021607073792822423,
      "loss": 1.6007,
      "step": 53224
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5655925869941711,
      "learning_rate": 0.0002160607032288393,
      "loss": 1.5195,
      "step": 53225
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5249278545379639,
      "learning_rate": 0.00021605066863134427,
      "loss": 1.6391,
      "step": 53226
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.525521993637085,
      "learning_rate": 0.00021604063413575129,
      "loss": 1.5042,
      "step": 53227
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5657914876937866,
      "learning_rate": 0.00021603059974207277,
      "loss": 1.6377,
      "step": 53228
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.545039713382721,
      "learning_rate": 0.00021602056545032058,
      "loss": 1.5484,
      "step": 53229
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.540452778339386,
      "learning_rate": 0.0002160105312605071,
      "loss": 1.5918,
      "step": 53230
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.533588171005249,
      "learning_rate": 0.00021600049717264446,
      "loss": 1.6248,
      "step": 53231
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5458109378814697,
      "learning_rate": 0.0002159904631867449,
      "loss": 1.5937,
      "step": 53232
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5393908023834229,
      "learning_rate": 0.00021598042930282048,
      "loss": 1.5525,
      "step": 53233
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5298831462860107,
      "learning_rate": 0.00021597039552088336,
      "loss": 1.5494,
      "step": 53234
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5189095139503479,
      "learning_rate": 0.00021596036184094603,
      "loss": 1.5418,
      "step": 53235
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5243808627128601,
      "learning_rate": 0.00021595032826302022,
      "loss": 1.5648,
      "step": 53236
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.526741623878479,
      "learning_rate": 0.00021594029478711835,
      "loss": 1.6173,
      "step": 53237
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5070334672927856,
      "learning_rate": 0.0002159302614132527,
      "loss": 1.5572,
      "step": 53238
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5342152118682861,
      "learning_rate": 0.00021592022814143525,
      "loss": 1.6437,
      "step": 53239
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.526798665523529,
      "learning_rate": 0.00021591019497167825,
      "loss": 1.5595,
      "step": 53240
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5206299424171448,
      "learning_rate": 0.0002159001619039938,
      "loss": 1.5081,
      "step": 53241
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.521949827671051,
      "learning_rate": 0.00021589012893839438,
      "loss": 1.6395,
      "step": 53242
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5292876958847046,
      "learning_rate": 0.00021588009607489175,
      "loss": 1.5534,
      "step": 53243
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5504772067070007,
      "learning_rate": 0.00021587006331349836,
      "loss": 1.5705,
      "step": 53244
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5149464011192322,
      "learning_rate": 0.00021586003065422635,
      "loss": 1.6292,
      "step": 53245
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5415962934494019,
      "learning_rate": 0.00021584999809708783,
      "loss": 1.5886,
      "step": 53246
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.4978000521659851,
      "learning_rate": 0.000215839965642095,
      "loss": 1.5515,
      "step": 53247
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5223864912986755,
      "learning_rate": 0.00021582993328926012,
      "loss": 1.6229,
      "step": 53248
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5117408633232117,
      "learning_rate": 0.00021581990103859526,
      "loss": 1.531,
      "step": 53249
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5322406888008118,
      "learning_rate": 0.00021580986889011255,
      "loss": 1.5634,
      "step": 53250
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5275897979736328,
      "learning_rate": 0.0002157998368438243,
      "loss": 1.6182,
      "step": 53251
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5268561244010925,
      "learning_rate": 0.00021578980489974275,
      "loss": 1.6116,
      "step": 53252
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5213212370872498,
      "learning_rate": 0.00021577977305787987,
      "loss": 1.612,
      "step": 53253
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.539496660232544,
      "learning_rate": 0.00021576974131824796,
      "loss": 1.5972,
      "step": 53254
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5248394012451172,
      "learning_rate": 0.0002157597096808592,
      "loss": 1.5864,
      "step": 53255
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5292591452598572,
      "learning_rate": 0.00021574967814572572,
      "loss": 1.579,
      "step": 53256
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5365025997161865,
      "learning_rate": 0.00021573964671285962,
      "loss": 1.5263,
      "step": 53257
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5389540195465088,
      "learning_rate": 0.0002157296153822734,
      "loss": 1.5477,
      "step": 53258
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5252875685691833,
      "learning_rate": 0.00021571958415397878,
      "loss": 1.5402,
      "step": 53259
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5225361585617065,
      "learning_rate": 0.00021570955302798828,
      "loss": 1.5441,
      "step": 53260
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.540564239025116,
      "learning_rate": 0.0002156995220043139,
      "loss": 1.5522,
      "step": 53261
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5222452282905579,
      "learning_rate": 0.00021568949108296797,
      "loss": 1.5902,
      "step": 53262
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5352940559387207,
      "learning_rate": 0.0002156794602639625,
      "loss": 1.5975,
      "step": 53263
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5232863426208496,
      "learning_rate": 0.00021566942954730973,
      "loss": 1.6307,
      "step": 53264
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5161099433898926,
      "learning_rate": 0.000215659398933022,
      "loss": 1.5345,
      "step": 53265
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5250652432441711,
      "learning_rate": 0.00021564936842111113,
      "loss": 1.5517,
      "step": 53266
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5230223536491394,
      "learning_rate": 0.00021563933801158958,
      "loss": 1.6021,
      "step": 53267
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5310145616531372,
      "learning_rate": 0.00021562930770446952,
      "loss": 1.5939,
      "step": 53268
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5362424254417419,
      "learning_rate": 0.00021561927749976295,
      "loss": 1.596,
      "step": 53269
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5224907398223877,
      "learning_rate": 0.00021560924739748215,
      "loss": 1.5779,
      "step": 53270
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.5697810649871826,
      "learning_rate": 0.00021559921739763924,
      "loss": 1.5752,
      "step": 53271
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5082537531852722,
      "learning_rate": 0.0002155891875002466,
      "loss": 1.5877,
      "step": 53272
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5216285586357117,
      "learning_rate": 0.00021557915770531612,
      "loss": 1.6051,
      "step": 53273
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5119969248771667,
      "learning_rate": 0.00021556912801286011,
      "loss": 1.5993,
      "step": 53274
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5134223699569702,
      "learning_rate": 0.00021555909842289086,
      "loss": 1.5288,
      "step": 53275
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5382370948791504,
      "learning_rate": 0.00021554906893542033,
      "loss": 1.5493,
      "step": 53276
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5321944952011108,
      "learning_rate": 0.00021553903955046078,
      "loss": 1.6496,
      "step": 53277
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.6990136504173279,
      "learning_rate": 0.0002155290102680243,
      "loss": 1.6167,
      "step": 53278
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5444914698600769,
      "learning_rate": 0.0002155189810881234,
      "loss": 1.6146,
      "step": 53279
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5421825051307678,
      "learning_rate": 0.00021550895201076983,
      "loss": 1.6135,
      "step": 53280
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5022324919700623,
      "learning_rate": 0.00021549892303597594,
      "loss": 1.565,
      "step": 53281
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5229809880256653,
      "learning_rate": 0.00021548889416375403,
      "loss": 1.6519,
      "step": 53282
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.538938045501709,
      "learning_rate": 0.00021547886539411605,
      "loss": 1.5895,
      "step": 53283
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5055649876594543,
      "learning_rate": 0.00021546883672707428,
      "loss": 1.5773,
      "step": 53284
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5219458937644958,
      "learning_rate": 0.00021545880816264097,
      "loss": 1.573,
      "step": 53285
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.53401118516922,
      "learning_rate": 0.00021544877970082813,
      "loss": 1.5824,
      "step": 53286
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5442886352539062,
      "learning_rate": 0.00021543875134164795,
      "loss": 1.5955,
      "step": 53287
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5165402889251709,
      "learning_rate": 0.00021542872308511274,
      "loss": 1.5231,
      "step": 53288
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5330231785774231,
      "learning_rate": 0.00021541869493123464,
      "loss": 1.5811,
      "step": 53289
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5369450449943542,
      "learning_rate": 0.00021540866688002575,
      "loss": 1.5668,
      "step": 53290
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5228209495544434,
      "learning_rate": 0.00021539863893149826,
      "loss": 1.6544,
      "step": 53291
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5194907784461975,
      "learning_rate": 0.0002153886110856644,
      "loss": 1.6133,
      "step": 53292
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5194145441055298,
      "learning_rate": 0.00021537858334253623,
      "loss": 1.6764,
      "step": 53293
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5294893383979797,
      "learning_rate": 0.00021536855570212599,
      "loss": 1.6244,
      "step": 53294
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.514866828918457,
      "learning_rate": 0.00021535852816444596,
      "loss": 1.5848,
      "step": 53295
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5182525515556335,
      "learning_rate": 0.0002153485007295081,
      "loss": 1.5269,
      "step": 53296
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5289503335952759,
      "learning_rate": 0.0002153384733973247,
      "loss": 1.6381,
      "step": 53297
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.519660472869873,
      "learning_rate": 0.0002153284461679079,
      "loss": 1.5945,
      "step": 53298
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5149748921394348,
      "learning_rate": 0.00021531841904127001,
      "loss": 1.5495,
      "step": 53299
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5373286008834839,
      "learning_rate": 0.00021530839201742302,
      "loss": 1.5798,
      "step": 53300
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5165992379188538,
      "learning_rate": 0.00021529836509637907,
      "loss": 1.5736,
      "step": 53301
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5425261855125427,
      "learning_rate": 0.00021528833827815053,
      "loss": 1.5959,
      "step": 53302
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5344208478927612,
      "learning_rate": 0.00021527831156274943,
      "loss": 1.6201,
      "step": 53303
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5442420244216919,
      "learning_rate": 0.000215268284950188,
      "loss": 1.5802,
      "step": 53304
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5627090334892273,
      "learning_rate": 0.0002152582584404784,
      "loss": 1.5672,
      "step": 53305
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5253359079360962,
      "learning_rate": 0.00021524823203363276,
      "loss": 1.514,
      "step": 53306
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5106775760650635,
      "learning_rate": 0.0002152382057296633,
      "loss": 1.5332,
      "step": 53307
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5197069644927979,
      "learning_rate": 0.00021522817952858206,
      "loss": 1.5998,
      "step": 53308
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5382506251335144,
      "learning_rate": 0.00021521815343040143,
      "loss": 1.5695,
      "step": 53309
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5593084692955017,
      "learning_rate": 0.00021520812743513345,
      "loss": 1.626,
      "step": 53310
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.528241753578186,
      "learning_rate": 0.00021519810154279028,
      "loss": 1.5408,
      "step": 53311
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5401517152786255,
      "learning_rate": 0.00021518807575338422,
      "loss": 1.569,
      "step": 53312
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.528270959854126,
      "learning_rate": 0.00021517805006692725,
      "loss": 1.6249,
      "step": 53313
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.541723370552063,
      "learning_rate": 0.0002151680244834316,
      "loss": 1.6087,
      "step": 53314
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5618562698364258,
      "learning_rate": 0.0002151579990029096,
      "loss": 1.6053,
      "step": 53315
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5361455082893372,
      "learning_rate": 0.00021514797362537315,
      "loss": 1.5593,
      "step": 53316
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5315465927124023,
      "learning_rate": 0.00021513794835083459,
      "loss": 1.6256,
      "step": 53317
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5361709594726562,
      "learning_rate": 0.00021512792317930605,
      "loss": 1.6312,
      "step": 53318
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5222470760345459,
      "learning_rate": 0.00021511789811079978,
      "loss": 1.5756,
      "step": 53319
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5244218111038208,
      "learning_rate": 0.00021510787314532782,
      "loss": 1.6044,
      "step": 53320
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5292863845825195,
      "learning_rate": 0.00021509784828290234,
      "loss": 1.537,
      "step": 53321
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5367938876152039,
      "learning_rate": 0.00021508782352353575,
      "loss": 1.5642,
      "step": 53322
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5339956879615784,
      "learning_rate": 0.00021507779886723982,
      "loss": 1.6412,
      "step": 53323
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5197027325630188,
      "learning_rate": 0.000215067774314027,
      "loss": 1.5488,
      "step": 53324
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5218549370765686,
      "learning_rate": 0.0002150577498639095,
      "loss": 1.5959,
      "step": 53325
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5548667907714844,
      "learning_rate": 0.00021504772551689922,
      "loss": 1.6469,
      "step": 53326
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.529872715473175,
      "learning_rate": 0.00021503770127300853,
      "loss": 1.5807,
      "step": 53327
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5185840725898743,
      "learning_rate": 0.00021502767713224954,
      "loss": 1.4792,
      "step": 53328
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5175938010215759,
      "learning_rate": 0.00021501765309463454,
      "loss": 1.542,
      "step": 53329
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5258637070655823,
      "learning_rate": 0.00021500762916017543,
      "loss": 1.5936,
      "step": 53330
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5558319687843323,
      "learning_rate": 0.00021499760532888462,
      "loss": 1.5243,
      "step": 53331
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.514276921749115,
      "learning_rate": 0.0002149875816007742,
      "loss": 1.5842,
      "step": 53332
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5240399241447449,
      "learning_rate": 0.0002149775579758563,
      "loss": 1.6205,
      "step": 53333
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5457314848899841,
      "learning_rate": 0.00021496753445414315,
      "loss": 1.6533,
      "step": 53334
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5127832293510437,
      "learning_rate": 0.00021495751103564687,
      "loss": 1.5431,
      "step": 53335
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5339797735214233,
      "learning_rate": 0.00021494748772037963,
      "loss": 1.6109,
      "step": 53336
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5271368622779846,
      "learning_rate": 0.00021493746450835355,
      "loss": 1.5151,
      "step": 53337
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5183264017105103,
      "learning_rate": 0.00021492744139958088,
      "loss": 1.6134,
      "step": 53338
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5533630847930908,
      "learning_rate": 0.00021491741839407385,
      "loss": 1.5699,
      "step": 53339
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5507832765579224,
      "learning_rate": 0.00021490739549184448,
      "loss": 1.587,
      "step": 53340
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5376542806625366,
      "learning_rate": 0.00021489737269290502,
      "loss": 1.586,
      "step": 53341
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5428719520568848,
      "learning_rate": 0.00021488734999726764,
      "loss": 1.5684,
      "step": 53342
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5219928026199341,
      "learning_rate": 0.0002148773274049444,
      "loss": 1.5748,
      "step": 53343
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5004922747612,
      "learning_rate": 0.0002148673049159475,
      "loss": 1.5221,
      "step": 53344
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5137204527854919,
      "learning_rate": 0.0002148572825302893,
      "loss": 1.5838,
      "step": 53345
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5419564247131348,
      "learning_rate": 0.0002148472602479817,
      "loss": 1.6168,
      "step": 53346
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5538098216056824,
      "learning_rate": 0.00021483723806903695,
      "loss": 1.6192,
      "step": 53347
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5280008316040039,
      "learning_rate": 0.00021482721599346732,
      "loss": 1.5942,
      "step": 53348
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5556679964065552,
      "learning_rate": 0.00021481719402128492,
      "loss": 1.5488,
      "step": 53349
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5424557328224182,
      "learning_rate": 0.00021480717215250188,
      "loss": 1.5663,
      "step": 53350
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5254970192909241,
      "learning_rate": 0.00021479715038713026,
      "loss": 1.6063,
      "step": 53351
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5367792844772339,
      "learning_rate": 0.00021478712872518256,
      "loss": 1.5704,
      "step": 53352
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5368435382843018,
      "learning_rate": 0.00021477710716667056,
      "loss": 1.5354,
      "step": 53353
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5324805378913879,
      "learning_rate": 0.00021476708571160663,
      "loss": 1.6392,
      "step": 53354
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5268219113349915,
      "learning_rate": 0.00021475706436000294,
      "loss": 1.5842,
      "step": 53355
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5357550382614136,
      "learning_rate": 0.00021474704311187163,
      "loss": 1.541,
      "step": 53356
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5325067043304443,
      "learning_rate": 0.0002147370219672248,
      "loss": 1.6022,
      "step": 53357
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5268433094024658,
      "learning_rate": 0.00021472700092607457,
      "loss": 1.5515,
      "step": 53358
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5593465566635132,
      "learning_rate": 0.00021471697998843342,
      "loss": 1.5431,
      "step": 53359
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5319539904594421,
      "learning_rate": 0.00021470695915431313,
      "loss": 1.5535,
      "step": 53360
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5310336351394653,
      "learning_rate": 0.00021469693842372602,
      "loss": 1.5211,
      "step": 53361
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5989484190940857,
      "learning_rate": 0.00021468691779668437,
      "loss": 1.5923,
      "step": 53362
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5273105502128601,
      "learning_rate": 0.00021467689727320017,
      "loss": 1.6149,
      "step": 53363
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5348941087722778,
      "learning_rate": 0.0002146668768532856,
      "loss": 1.6037,
      "step": 53364
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5268030166625977,
      "learning_rate": 0.000214656856536953,
      "loss": 1.6368,
      "step": 53365
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5539886951446533,
      "learning_rate": 0.00021464683632421429,
      "loss": 1.6128,
      "step": 53366
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5367595553398132,
      "learning_rate": 0.0002146368162150817,
      "loss": 1.5861,
      "step": 53367
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5218423008918762,
      "learning_rate": 0.00021462679620956745,
      "loss": 1.548,
      "step": 53368
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5401057004928589,
      "learning_rate": 0.0002146167763076838,
      "loss": 1.5612,
      "step": 53369
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5269955396652222,
      "learning_rate": 0.00021460675650944273,
      "loss": 1.483,
      "step": 53370
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5312243700027466,
      "learning_rate": 0.0002145967368148565,
      "loss": 1.5384,
      "step": 53371
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.535787045955658,
      "learning_rate": 0.00021458671722393729,
      "loss": 1.6067,
      "step": 53372
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5362641215324402,
      "learning_rate": 0.00021457669773669713,
      "loss": 1.6675,
      "step": 53373
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5353431105613708,
      "learning_rate": 0.00021456667835314825,
      "loss": 1.602,
      "step": 53374
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5134050846099854,
      "learning_rate": 0.00021455665907330304,
      "loss": 1.5749,
      "step": 53375
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5142858624458313,
      "learning_rate": 0.00021454663989717323,
      "loss": 1.5765,
      "step": 53376
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5408416390419006,
      "learning_rate": 0.00021453662082477126,
      "loss": 1.615,
      "step": 53377
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.539367139339447,
      "learning_rate": 0.00021452660185610926,
      "loss": 1.5665,
      "step": 53378
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5317597389221191,
      "learning_rate": 0.00021451658299119941,
      "loss": 1.5907,
      "step": 53379
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5464037656784058,
      "learning_rate": 0.00021450656423005382,
      "loss": 1.5247,
      "step": 53380
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5409032702445984,
      "learning_rate": 0.00021449654557268458,
      "loss": 1.5966,
      "step": 53381
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5279904007911682,
      "learning_rate": 0.00021448652701910412,
      "loss": 1.6147,
      "step": 53382
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5444093942642212,
      "learning_rate": 0.00021447650856932422,
      "loss": 1.5721,
      "step": 53383
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5419642925262451,
      "learning_rate": 0.00021446649022335729,
      "loss": 1.4716,
      "step": 53384
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5279654264450073,
      "learning_rate": 0.00021445647198121553,
      "loss": 1.5742,
      "step": 53385
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5257264375686646,
      "learning_rate": 0.00021444645384291092,
      "loss": 1.5801,
      "step": 53386
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5342663526535034,
      "learning_rate": 0.0002144364358084557,
      "loss": 1.6151,
      "step": 53387
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5163211822509766,
      "learning_rate": 0.00021442641787786204,
      "loss": 1.6107,
      "step": 53388
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5292033553123474,
      "learning_rate": 0.00021441640005114224,
      "loss": 1.5788,
      "step": 53389
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5279923677444458,
      "learning_rate": 0.00021440638232830814,
      "loss": 1.5679,
      "step": 53390
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5394130945205688,
      "learning_rate": 0.00021439636470937216,
      "loss": 1.5873,
      "step": 53391
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5380206108093262,
      "learning_rate": 0.0002143863471943464,
      "loss": 1.5335,
      "step": 53392
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5354636311531067,
      "learning_rate": 0.00021437632978324299,
      "loss": 1.5872,
      "step": 53393
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5454475283622742,
      "learning_rate": 0.00021436631247607408,
      "loss": 1.4797,
      "step": 53394
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5285837650299072,
      "learning_rate": 0.0002143562952728519,
      "loss": 1.554,
      "step": 53395
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5433093309402466,
      "learning_rate": 0.0002143462781735885,
      "loss": 1.5736,
      "step": 53396
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.522842288017273,
      "learning_rate": 0.00021433626117829598,
      "loss": 1.5433,
      "step": 53397
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5202531218528748,
      "learning_rate": 0.00021432624428698678,
      "loss": 1.5576,
      "step": 53398
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5318565368652344,
      "learning_rate": 0.0002143162274996729,
      "loss": 1.6409,
      "step": 53399
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5192695260047913,
      "learning_rate": 0.00021430621081636644,
      "loss": 1.5358,
      "step": 53400
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.8430381417274475,
      "learning_rate": 0.00021429619423707962,
      "loss": 1.5495,
      "step": 53401
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5219365358352661,
      "learning_rate": 0.00021428617776182466,
      "loss": 1.5329,
      "step": 53402
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5313642024993896,
      "learning_rate": 0.00021427616139061358,
      "loss": 1.5294,
      "step": 53403
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5528466701507568,
      "learning_rate": 0.00021426614512345856,
      "loss": 1.6039,
      "step": 53404
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5204240083694458,
      "learning_rate": 0.00021425612896037186,
      "loss": 1.5463,
      "step": 53405
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5220332741737366,
      "learning_rate": 0.00021424611290136566,
      "loss": 1.5412,
      "step": 53406
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5497846007347107,
      "learning_rate": 0.00021423609694645195,
      "loss": 1.6353,
      "step": 53407
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5153407454490662,
      "learning_rate": 0.000214226081095643,
      "loss": 1.5586,
      "step": 53408
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5724064111709595,
      "learning_rate": 0.000214216065348951,
      "loss": 1.613,
      "step": 53409
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5334932208061218,
      "learning_rate": 0.00021420604970638803,
      "loss": 1.5937,
      "step": 53410
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5489171147346497,
      "learning_rate": 0.00021419603416796617,
      "loss": 1.6305,
      "step": 53411
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5529146194458008,
      "learning_rate": 0.0002141860187336978,
      "loss": 1.5992,
      "step": 53412
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5468419194221497,
      "learning_rate": 0.00021417600340359496,
      "loss": 1.6327,
      "step": 53413
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.547807514667511,
      "learning_rate": 0.00021416598817766976,
      "loss": 1.6335,
      "step": 53414
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5236311554908752,
      "learning_rate": 0.0002141559730559344,
      "loss": 1.5561,
      "step": 53415
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5381613969802856,
      "learning_rate": 0.0002141459580384011,
      "loss": 1.6072,
      "step": 53416
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5223763585090637,
      "learning_rate": 0.00021413594312508195,
      "loss": 1.5829,
      "step": 53417
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5209121108055115,
      "learning_rate": 0.00021412592831598898,
      "loss": 1.5562,
      "step": 53418
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5254679918289185,
      "learning_rate": 0.00021411591361113465,
      "loss": 1.6014,
      "step": 53419
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5436530113220215,
      "learning_rate": 0.00021410589901053087,
      "loss": 1.6278,
      "step": 53420
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.553831160068512,
      "learning_rate": 0.00021409588451418987,
      "loss": 1.604,
      "step": 53421
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5227687954902649,
      "learning_rate": 0.00021408587012212388,
      "loss": 1.5993,
      "step": 53422
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.549027144908905,
      "learning_rate": 0.00021407585583434492,
      "loss": 1.5927,
      "step": 53423
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5029270052909851,
      "learning_rate": 0.00021406584165086523,
      "loss": 1.6429,
      "step": 53424
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5497695803642273,
      "learning_rate": 0.00021405582757169682,
      "loss": 1.6439,
      "step": 53425
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5415086150169373,
      "learning_rate": 0.00021404581359685214,
      "loss": 1.6263,
      "step": 53426
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.549565315246582,
      "learning_rate": 0.0002140357997263431,
      "loss": 1.542,
      "step": 53427
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5331012606620789,
      "learning_rate": 0.00021402578596018196,
      "loss": 1.5923,
      "step": 53428
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5166535377502441,
      "learning_rate": 0.00021401577229838092,
      "loss": 1.5819,
      "step": 53429
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5637250542640686,
      "learning_rate": 0.00021400575874095195,
      "loss": 1.5368,
      "step": 53430
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5342015027999878,
      "learning_rate": 0.0002139957452879073,
      "loss": 1.5434,
      "step": 53431
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5436534881591797,
      "learning_rate": 0.0002139857319392593,
      "loss": 1.5344,
      "step": 53432
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5156427025794983,
      "learning_rate": 0.0002139757186950198,
      "loss": 1.5463,
      "step": 53433
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5415244698524475,
      "learning_rate": 0.00021396570555520108,
      "loss": 1.5751,
      "step": 53434
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5218497514724731,
      "learning_rate": 0.00021395569251981539,
      "loss": 1.5375,
      "step": 53435
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5353780388832092,
      "learning_rate": 0.00021394567958887487,
      "loss": 1.5486,
      "step": 53436
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5529881715774536,
      "learning_rate": 0.00021393566676239153,
      "loss": 1.5571,
      "step": 53437
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5275058150291443,
      "learning_rate": 0.00021392565404037756,
      "loss": 1.5759,
      "step": 53438
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5318810343742371,
      "learning_rate": 0.00021391564142284535,
      "loss": 1.6279,
      "step": 53439
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5210276246070862,
      "learning_rate": 0.00021390562890980666,
      "loss": 1.6279,
      "step": 53440
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5263634324073792,
      "learning_rate": 0.00021389561650127397,
      "loss": 1.5201,
      "step": 53441
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5300501585006714,
      "learning_rate": 0.00021388560419725934,
      "loss": 1.6547,
      "step": 53442
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5360547304153442,
      "learning_rate": 0.00021387559199777484,
      "loss": 1.6409,
      "step": 53443
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5233612656593323,
      "learning_rate": 0.00021386557990283266,
      "loss": 1.5,
      "step": 53444
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5262909531593323,
      "learning_rate": 0.00021385556791244493,
      "loss": 1.5251,
      "step": 53445
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5508802533149719,
      "learning_rate": 0.00021384555602662405,
      "loss": 1.5842,
      "step": 53446
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.568354070186615,
      "learning_rate": 0.00021383554424538173,
      "loss": 1.6168,
      "step": 53447
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5038772225379944,
      "learning_rate": 0.0002138255325687305,
      "loss": 1.5307,
      "step": 53448
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5123798847198486,
      "learning_rate": 0.00021381552099668239,
      "loss": 1.5752,
      "step": 53449
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5320879220962524,
      "learning_rate": 0.0002138055095292495,
      "loss": 1.6008,
      "step": 53450
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5361000895500183,
      "learning_rate": 0.00021379549816644402,
      "loss": 1.5909,
      "step": 53451
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5604431629180908,
      "learning_rate": 0.00021378548690827816,
      "loss": 1.5635,
      "step": 53452
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5178686380386353,
      "learning_rate": 0.00021377547575476393,
      "loss": 1.6398,
      "step": 53453
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5434659123420715,
      "learning_rate": 0.00021376546470591354,
      "loss": 1.587,
      "step": 53454
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5552562475204468,
      "learning_rate": 0.0002137554537617392,
      "loss": 1.637,
      "step": 53455
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5514746308326721,
      "learning_rate": 0.00021374544292225312,
      "loss": 1.5977,
      "step": 53456
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.530344545841217,
      "learning_rate": 0.00021373543218746726,
      "loss": 1.5803,
      "step": 53457
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5247856974601746,
      "learning_rate": 0.00021372542155739392,
      "loss": 1.6121,
      "step": 53458
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.530778706073761,
      "learning_rate": 0.00021371541103204527,
      "loss": 1.5497,
      "step": 53459
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5217459797859192,
      "learning_rate": 0.0002137054006114333,
      "loss": 1.5714,
      "step": 53460
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5145126581192017,
      "learning_rate": 0.00021369539029557027,
      "loss": 1.5512,
      "step": 53461
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5415334105491638,
      "learning_rate": 0.00021368538008446843,
      "loss": 1.5348,
      "step": 53462
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5162057280540466,
      "learning_rate": 0.00021367536997813965,
      "loss": 1.6019,
      "step": 53463
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5396034717559814,
      "learning_rate": 0.00021366535997659634,
      "loss": 1.5922,
      "step": 53464
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5112839341163635,
      "learning_rate": 0.0002136553500798505,
      "loss": 1.6121,
      "step": 53465
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5266271829605103,
      "learning_rate": 0.00021364534028791448,
      "loss": 1.5194,
      "step": 53466
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5286800265312195,
      "learning_rate": 0.0002136353306008002,
      "loss": 1.5959,
      "step": 53467
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5399805307388306,
      "learning_rate": 0.00021362532101851985,
      "loss": 1.6127,
      "step": 53468
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5225156545639038,
      "learning_rate": 0.0002136153115410858,
      "loss": 1.616,
      "step": 53469
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5305096507072449,
      "learning_rate": 0.00021360530216850987,
      "loss": 1.5982,
      "step": 53470
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5206707119941711,
      "learning_rate": 0.0002135952929008044,
      "loss": 1.5484,
      "step": 53471
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5020577311515808,
      "learning_rate": 0.00021358528373798162,
      "loss": 1.5367,
      "step": 53472
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5451907515525818,
      "learning_rate": 0.0002135752746800535,
      "loss": 1.581,
      "step": 53473
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5249771475791931,
      "learning_rate": 0.00021356526572703226,
      "loss": 1.5793,
      "step": 53474
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5188940167427063,
      "learning_rate": 0.00021355525687892995,
      "loss": 1.5953,
      "step": 53475
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5372855067253113,
      "learning_rate": 0.00021354524813575905,
      "loss": 1.5833,
      "step": 53476
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5202860832214355,
      "learning_rate": 0.00021353523949753128,
      "loss": 1.665,
      "step": 53477
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5389050245285034,
      "learning_rate": 0.00021352523096425906,
      "loss": 1.6244,
      "step": 53478
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5408554673194885,
      "learning_rate": 0.00021351522253595454,
      "loss": 1.5835,
      "step": 53479
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.537826657295227,
      "learning_rate": 0.00021350521421262971,
      "loss": 1.6018,
      "step": 53480
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.519088864326477,
      "learning_rate": 0.0002134952059942968,
      "loss": 1.5072,
      "step": 53481
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5294876098632812,
      "learning_rate": 0.00021348519788096806,
      "loss": 1.6058,
      "step": 53482
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5351240634918213,
      "learning_rate": 0.00021347518987265544,
      "loss": 1.6007,
      "step": 53483
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5296241044998169,
      "learning_rate": 0.00021346518196937116,
      "loss": 1.61,
      "step": 53484
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.534058690071106,
      "learning_rate": 0.00021345517417112748,
      "loss": 1.514,
      "step": 53485
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5106131434440613,
      "learning_rate": 0.00021344516647793646,
      "loss": 1.4866,
      "step": 53486
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5075374841690063,
      "learning_rate": 0.00021343515888981026,
      "loss": 1.5734,
      "step": 53487
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5380299687385559,
      "learning_rate": 0.000213425151406761,
      "loss": 1.6095,
      "step": 53488
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5149137377738953,
      "learning_rate": 0.0002134151440288009,
      "loss": 1.604,
      "step": 53489
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5061395764350891,
      "learning_rate": 0.000213405136755942,
      "loss": 1.5429,
      "step": 53490
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5127359628677368,
      "learning_rate": 0.00021339512958819644,
      "loss": 1.6759,
      "step": 53491
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5513820052146912,
      "learning_rate": 0.00021338512252557664,
      "loss": 1.6642,
      "step": 53492
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5218250155448914,
      "learning_rate": 0.00021337511556809432,
      "loss": 1.6134,
      "step": 53493
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5443286299705505,
      "learning_rate": 0.00021336510871576193,
      "loss": 1.5854,
      "step": 53494
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5334581136703491,
      "learning_rate": 0.00021335510196859154,
      "loss": 1.6114,
      "step": 53495
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5184438824653625,
      "learning_rate": 0.00021334509532659532,
      "loss": 1.6089,
      "step": 53496
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5284337401390076,
      "learning_rate": 0.00021333508878978536,
      "loss": 1.6182,
      "step": 53497
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.51748126745224,
      "learning_rate": 0.00021332508235817374,
      "loss": 1.6226,
      "step": 53498
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5072236657142639,
      "learning_rate": 0.00021331507603177292,
      "loss": 1.6488,
      "step": 53499
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5115523934364319,
      "learning_rate": 0.00021330506981059462,
      "loss": 1.615,
      "step": 53500
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5532838106155396,
      "learning_rate": 0.00021329506369465126,
      "loss": 1.6005,
      "step": 53501
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.529034435749054,
      "learning_rate": 0.00021328505768395496,
      "loss": 1.59,
      "step": 53502
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5332422256469727,
      "learning_rate": 0.00021327505177851777,
      "loss": 1.6433,
      "step": 53503
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5130109190940857,
      "learning_rate": 0.0002132650459783519,
      "loss": 1.5977,
      "step": 53504
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.543903112411499,
      "learning_rate": 0.0002132550402834694,
      "loss": 1.5599,
      "step": 53505
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5374575257301331,
      "learning_rate": 0.00021324503469388268,
      "loss": 1.5236,
      "step": 53506
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5556163787841797,
      "learning_rate": 0.00021323502920960355,
      "loss": 1.6085,
      "step": 53507
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5444969534873962,
      "learning_rate": 0.00021322502383064437,
      "loss": 1.5917,
      "step": 53508
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5360050797462463,
      "learning_rate": 0.00021321501855701728,
      "loss": 1.5076,
      "step": 53509
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5202500224113464,
      "learning_rate": 0.0002132050133887343,
      "loss": 1.4947,
      "step": 53510
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5347369313240051,
      "learning_rate": 0.00021319500832580766,
      "loss": 1.5707,
      "step": 53511
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5135191679000854,
      "learning_rate": 0.00021318500336824954,
      "loss": 1.5304,
      "step": 53512
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.537766695022583,
      "learning_rate": 0.00021317499851607197,
      "loss": 1.5895,
      "step": 53513
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5283045172691345,
      "learning_rate": 0.0002131649937692871,
      "loss": 1.5426,
      "step": 53514
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5264667272567749,
      "learning_rate": 0.00021315498912790722,
      "loss": 1.6357,
      "step": 53515
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5407088994979858,
      "learning_rate": 0.00021314498459194442,
      "loss": 1.6382,
      "step": 53516
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5227347016334534,
      "learning_rate": 0.00021313498016141074,
      "loss": 1.5852,
      "step": 53517
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5608258247375488,
      "learning_rate": 0.0002131249758363184,
      "loss": 1.6122,
      "step": 53518
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5127274990081787,
      "learning_rate": 0.00021311497161667964,
      "loss": 1.5523,
      "step": 53519
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5250728726387024,
      "learning_rate": 0.00021310496750250643,
      "loss": 1.5813,
      "step": 53520
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.570656955242157,
      "learning_rate": 0.0002130949634938109,
      "loss": 1.6083,
      "step": 53521
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5500469207763672,
      "learning_rate": 0.00021308495959060532,
      "loss": 1.6339,
      "step": 53522
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5099484324455261,
      "learning_rate": 0.00021307495579290188,
      "loss": 1.4997,
      "step": 53523
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5215781927108765,
      "learning_rate": 0.0002130649521007126,
      "loss": 1.55,
      "step": 53524
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5129573941230774,
      "learning_rate": 0.00021305494851404962,
      "loss": 1.5157,
      "step": 53525
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5348450541496277,
      "learning_rate": 0.0002130449450329252,
      "loss": 1.5432,
      "step": 53526
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5152828693389893,
      "learning_rate": 0.00021303494165735134,
      "loss": 1.6369,
      "step": 53527
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5398882031440735,
      "learning_rate": 0.0002130249383873402,
      "loss": 1.6007,
      "step": 53528
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5243670344352722,
      "learning_rate": 0.0002130149352229041,
      "loss": 1.5374,
      "step": 53529
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5178927779197693,
      "learning_rate": 0.00021300493216405494,
      "loss": 1.5276,
      "step": 53530
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5270767211914062,
      "learning_rate": 0.00021299492921080502,
      "loss": 1.5786,
      "step": 53531
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5328599214553833,
      "learning_rate": 0.0002129849263631664,
      "loss": 1.559,
      "step": 53532
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5312477350234985,
      "learning_rate": 0.00021297492362115137,
      "loss": 1.6328,
      "step": 53533
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5222134590148926,
      "learning_rate": 0.00021296492098477185,
      "loss": 1.6264,
      "step": 53534
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.532008945941925,
      "learning_rate": 0.00021295491845404007,
      "loss": 1.5919,
      "step": 53535
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5499579906463623,
      "learning_rate": 0.0002129449160289683,
      "loss": 1.5601,
      "step": 53536
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.529024600982666,
      "learning_rate": 0.00021293491370956847,
      "loss": 1.5755,
      "step": 53537
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.517551600933075,
      "learning_rate": 0.0002129249114958529,
      "loss": 1.5943,
      "step": 53538
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5157461166381836,
      "learning_rate": 0.00021291490938783367,
      "loss": 1.6274,
      "step": 53539
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.520863950252533,
      "learning_rate": 0.00021290490738552287,
      "loss": 1.5553,
      "step": 53540
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5177039504051208,
      "learning_rate": 0.00021289490548893268,
      "loss": 1.6053,
      "step": 53541
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5311939716339111,
      "learning_rate": 0.00021288490369807518,
      "loss": 1.6066,
      "step": 53542
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5340315103530884,
      "learning_rate": 0.00021287490201296266,
      "loss": 1.6489,
      "step": 53543
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5337960124015808,
      "learning_rate": 0.00021286490043360715,
      "loss": 1.4773,
      "step": 53544
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5076867938041687,
      "learning_rate": 0.0002128548989600208,
      "loss": 1.5112,
      "step": 53545
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5244419574737549,
      "learning_rate": 0.00021284489759221584,
      "loss": 1.4876,
      "step": 53546
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5392379760742188,
      "learning_rate": 0.00021283489633020422,
      "loss": 1.5803,
      "step": 53547
    },
    {
      "epoch": 1.78,
      "grad_norm": 2.7524054050445557,
      "learning_rate": 0.00021282489517399818,
      "loss": 1.5719,
      "step": 53548
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.523297131061554,
      "learning_rate": 0.00021281489412361003,
      "loss": 1.5841,
      "step": 53549
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5219738483428955,
      "learning_rate": 0.0002128048931790516,
      "loss": 1.5399,
      "step": 53550
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5579198002815247,
      "learning_rate": 0.0002127948923403352,
      "loss": 1.627,
      "step": 53551
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5205559134483337,
      "learning_rate": 0.00021278489160747298,
      "loss": 1.5227,
      "step": 53552
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5280241370201111,
      "learning_rate": 0.00021277489098047708,
      "loss": 1.5921,
      "step": 53553
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5260806083679199,
      "learning_rate": 0.0002127648904593596,
      "loss": 1.5676,
      "step": 53554
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5342712998390198,
      "learning_rate": 0.0002127548900441326,
      "loss": 1.5984,
      "step": 53555
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5168258547782898,
      "learning_rate": 0.00021274488973480852,
      "loss": 1.5803,
      "step": 53556
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5130480527877808,
      "learning_rate": 0.00021273488953139907,
      "loss": 1.6276,
      "step": 53557
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.543095052242279,
      "learning_rate": 0.00021272488943391667,
      "loss": 1.6171,
      "step": 53558
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5368114113807678,
      "learning_rate": 0.00021271488944237346,
      "loss": 1.5981,
      "step": 53559
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5276161432266235,
      "learning_rate": 0.00021270488955678145,
      "loss": 1.6326,
      "step": 53560
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5260359048843384,
      "learning_rate": 0.00021269488977715284,
      "loss": 1.588,
      "step": 53561
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5205729603767395,
      "learning_rate": 0.00021268489010349973,
      "loss": 1.5764,
      "step": 53562
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5503516793251038,
      "learning_rate": 0.00021267489053583446,
      "loss": 1.6234,
      "step": 53563
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5541042685508728,
      "learning_rate": 0.00021266489107416882,
      "loss": 1.5869,
      "step": 53564
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5413689017295837,
      "learning_rate": 0.00021265489171851522,
      "loss": 1.5559,
      "step": 53565
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5254971981048584,
      "learning_rate": 0.00021264489246888577,
      "loss": 1.5401,
      "step": 53566
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5139437317848206,
      "learning_rate": 0.00021263489332529247,
      "loss": 1.499,
      "step": 53567
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5355353355407715,
      "learning_rate": 0.00021262489428774755,
      "loss": 1.5928,
      "step": 53568
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5400357842445374,
      "learning_rate": 0.00021261489535626316,
      "loss": 1.6241,
      "step": 53569
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5543681383132935,
      "learning_rate": 0.0002126048965308514,
      "loss": 1.549,
      "step": 53570
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5304063558578491,
      "learning_rate": 0.00021259489781152432,
      "loss": 1.5299,
      "step": 53571
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5096054077148438,
      "learning_rate": 0.00021258489919829426,
      "loss": 1.4269,
      "step": 53572
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5237634778022766,
      "learning_rate": 0.0002125749006911733,
      "loss": 1.6237,
      "step": 53573
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5145763754844666,
      "learning_rate": 0.00021256490229017342,
      "loss": 1.5487,
      "step": 53574
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5241110920906067,
      "learning_rate": 0.0002125549039953069,
      "loss": 1.5528,
      "step": 53575
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.516349196434021,
      "learning_rate": 0.0002125449058065859,
      "loss": 1.5251,
      "step": 53576
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5282338261604309,
      "learning_rate": 0.00021253490772402248,
      "loss": 1.5897,
      "step": 53577
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5199843049049377,
      "learning_rate": 0.00021252490974762867,
      "loss": 1.613,
      "step": 53578
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5418266654014587,
      "learning_rate": 0.00021251491187741696,
      "loss": 1.5774,
      "step": 53579
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5112190842628479,
      "learning_rate": 0.00021250491411339904,
      "loss": 1.5407,
      "step": 53580
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5684829950332642,
      "learning_rate": 0.00021249491645558734,
      "loss": 1.6057,
      "step": 53581
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5387684106826782,
      "learning_rate": 0.0002124849189039939,
      "loss": 1.5784,
      "step": 53582
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5385058522224426,
      "learning_rate": 0.00021247492145863095,
      "loss": 1.5651,
      "step": 53583
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5535334944725037,
      "learning_rate": 0.0002124649241195105,
      "loss": 1.565,
      "step": 53584
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5280877351760864,
      "learning_rate": 0.00021245492688664463,
      "loss": 1.5425,
      "step": 53585
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5514853000640869,
      "learning_rate": 0.0002124449297600458,
      "loss": 1.5458,
      "step": 53586
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5217408537864685,
      "learning_rate": 0.00021243493273972574,
      "loss": 1.6239,
      "step": 53587
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5257885456085205,
      "learning_rate": 0.00021242493582569684,
      "loss": 1.5857,
      "step": 53588
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5306962728500366,
      "learning_rate": 0.0002124149390179712,
      "loss": 1.5913,
      "step": 53589
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.548328161239624,
      "learning_rate": 0.00021240494231656088,
      "loss": 1.5923,
      "step": 53590
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.522024393081665,
      "learning_rate": 0.00021239494572147807,
      "loss": 1.6132,
      "step": 53591
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5273967385292053,
      "learning_rate": 0.00021238494923273474,
      "loss": 1.6253,
      "step": 53592
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5321543216705322,
      "learning_rate": 0.00021237495285034342,
      "loss": 1.6431,
      "step": 53593
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5235381126403809,
      "learning_rate": 0.0002123649565743158,
      "loss": 1.6118,
      "step": 53594
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5219870209693909,
      "learning_rate": 0.0002123549604046643,
      "loss": 1.6057,
      "step": 53595
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5263016223907471,
      "learning_rate": 0.000212344964341401,
      "loss": 1.5406,
      "step": 53596
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5259097814559937,
      "learning_rate": 0.00021233496838453795,
      "loss": 1.5862,
      "step": 53597
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5155784487724304,
      "learning_rate": 0.00021232497253408734,
      "loss": 1.6226,
      "step": 53598
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5452523827552795,
      "learning_rate": 0.0002123149767900613,
      "loss": 1.5438,
      "step": 53599
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5129280686378479,
      "learning_rate": 0.00021230498115247195,
      "loss": 1.6344,
      "step": 53600
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5258877277374268,
      "learning_rate": 0.00021229498562133135,
      "loss": 1.4733,
      "step": 53601
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5289015173912048,
      "learning_rate": 0.00021228499019665178,
      "loss": 1.6107,
      "step": 53602
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5189427137374878,
      "learning_rate": 0.00021227499487844537,
      "loss": 1.5626,
      "step": 53603
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5355534553527832,
      "learning_rate": 0.00021226499966672414,
      "loss": 1.5973,
      "step": 53604
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5453185439109802,
      "learning_rate": 0.00021225500456150027,
      "loss": 1.6175,
      "step": 53605
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5382623672485352,
      "learning_rate": 0.00021224500956278596,
      "loss": 1.619,
      "step": 53606
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5363137125968933,
      "learning_rate": 0.0002122350146705932,
      "loss": 1.5322,
      "step": 53607
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5315686464309692,
      "learning_rate": 0.00021222501988493413,
      "loss": 1.5392,
      "step": 53608
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5390981435775757,
      "learning_rate": 0.00021221502520582118,
      "loss": 1.672,
      "step": 53609
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5181283354759216,
      "learning_rate": 0.000212205030633266,
      "loss": 1.5898,
      "step": 53610
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5444844365119934,
      "learning_rate": 0.00021219503616728112,
      "loss": 1.5898,
      "step": 53611
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5307099223136902,
      "learning_rate": 0.00021218504180787846,
      "loss": 1.541,
      "step": 53612
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5292384624481201,
      "learning_rate": 0.0002121750475550703,
      "loss": 1.513,
      "step": 53613
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5327293276786804,
      "learning_rate": 0.0002121650534088687,
      "loss": 1.5697,
      "step": 53614
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5228611826896667,
      "learning_rate": 0.00021215505936928564,
      "loss": 1.5388,
      "step": 53615
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5252714157104492,
      "learning_rate": 0.00021214506543633358,
      "loss": 1.5991,
      "step": 53616
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5180113911628723,
      "learning_rate": 0.00021213507161002435,
      "loss": 1.5841,
      "step": 53617
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.531562328338623,
      "learning_rate": 0.0002121250778903702,
      "loss": 1.6032,
      "step": 53618
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5682816505432129,
      "learning_rate": 0.0002121150842773833,
      "loss": 1.5796,
      "step": 53619
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.515981137752533,
      "learning_rate": 0.00021210509077107577,
      "loss": 1.5228,
      "step": 53620
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.521553635597229,
      "learning_rate": 0.0002120950973714596,
      "loss": 1.583,
      "step": 53621
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5074445009231567,
      "learning_rate": 0.000212085104078547,
      "loss": 1.5258,
      "step": 53622
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5280296802520752,
      "learning_rate": 0.00021207511089235033,
      "loss": 1.5434,
      "step": 53623
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5264853239059448,
      "learning_rate": 0.00021206511781288135,
      "loss": 1.5623,
      "step": 53624
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5258886814117432,
      "learning_rate": 0.00021205512484015243,
      "loss": 1.619,
      "step": 53625
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5332026481628418,
      "learning_rate": 0.00021204513197417565,
      "loss": 1.573,
      "step": 53626
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5463871359825134,
      "learning_rate": 0.0002120351392149631,
      "loss": 1.5845,
      "step": 53627
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5558738708496094,
      "learning_rate": 0.0002120251465625269,
      "loss": 1.6337,
      "step": 53628
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.532854437828064,
      "learning_rate": 0.0002120151540168793,
      "loss": 1.5736,
      "step": 53629
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5587654709815979,
      "learning_rate": 0.00021200516157803226,
      "loss": 1.5505,
      "step": 53630
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5415217280387878,
      "learning_rate": 0.00021199516924599792,
      "loss": 1.6131,
      "step": 53631
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5145689845085144,
      "learning_rate": 0.00021198517702078856,
      "loss": 1.6135,
      "step": 53632
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.534551739692688,
      "learning_rate": 0.00021197518490241623,
      "loss": 1.573,
      "step": 53633
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5386939644813538,
      "learning_rate": 0.00021196519289089303,
      "loss": 1.597,
      "step": 53634
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.6276477575302124,
      "learning_rate": 0.00021195520098623116,
      "loss": 1.5547,
      "step": 53635
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5593876242637634,
      "learning_rate": 0.00021194520918844272,
      "loss": 1.61,
      "step": 53636
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5311453342437744,
      "learning_rate": 0.00021193521749753976,
      "loss": 1.5439,
      "step": 53637
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5790997743606567,
      "learning_rate": 0.0002119252259135344,
      "loss": 1.6221,
      "step": 53638
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5525201559066772,
      "learning_rate": 0.00021191523443643898,
      "loss": 1.6266,
      "step": 53639
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5460907220840454,
      "learning_rate": 0.00021190524306626544,
      "loss": 1.5962,
      "step": 53640
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5251392722129822,
      "learning_rate": 0.00021189525180302594,
      "loss": 1.5389,
      "step": 53641
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.546495795249939,
      "learning_rate": 0.00021188526064673259,
      "loss": 1.6466,
      "step": 53642
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.533196747303009,
      "learning_rate": 0.00021187526959739767,
      "loss": 1.6242,
      "step": 53643
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5291504859924316,
      "learning_rate": 0.00021186527865503312,
      "loss": 1.5918,
      "step": 53644
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5312658548355103,
      "learning_rate": 0.00021185528781965103,
      "loss": 1.5934,
      "step": 53645
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5610735416412354,
      "learning_rate": 0.00021184529709126378,
      "loss": 1.6046,
      "step": 53646
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5378509163856506,
      "learning_rate": 0.00021183530646988328,
      "loss": 1.6207,
      "step": 53647
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5306432247161865,
      "learning_rate": 0.00021182531595552174,
      "loss": 1.626,
      "step": 53648
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5481659770011902,
      "learning_rate": 0.00021181532554819126,
      "loss": 1.5898,
      "step": 53649
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5358655452728271,
      "learning_rate": 0.00021180533524790403,
      "loss": 1.5176,
      "step": 53650
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5427212715148926,
      "learning_rate": 0.0002117953450546721,
      "loss": 1.6092,
      "step": 53651
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5140818357467651,
      "learning_rate": 0.00021178535496850756,
      "loss": 1.6453,
      "step": 53652
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5631564855575562,
      "learning_rate": 0.00021177536498942273,
      "loss": 1.5762,
      "step": 53653
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5261303186416626,
      "learning_rate": 0.0002117653751174295,
      "loss": 1.5618,
      "step": 53654
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5251152515411377,
      "learning_rate": 0.00021175538535254016,
      "loss": 1.5749,
      "step": 53655
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5450952649116516,
      "learning_rate": 0.00021174539569476683,
      "loss": 1.6227,
      "step": 53656
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.6694539785385132,
      "learning_rate": 0.00021173540614412149,
      "loss": 1.5224,
      "step": 53657
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5491369366645813,
      "learning_rate": 0.00021172541670061632,
      "loss": 1.5138,
      "step": 53658
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5395904183387756,
      "learning_rate": 0.00021171542736426357,
      "loss": 1.65,
      "step": 53659
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5373142957687378,
      "learning_rate": 0.0002117054381350753,
      "loss": 1.5405,
      "step": 53660
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5237681269645691,
      "learning_rate": 0.0002116954490130636,
      "loss": 1.5239,
      "step": 53661
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5327504277229309,
      "learning_rate": 0.0002116854599982406,
      "loss": 1.5635,
      "step": 53662
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5765240788459778,
      "learning_rate": 0.0002116754710906185,
      "loss": 1.6042,
      "step": 53663
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5490342974662781,
      "learning_rate": 0.00021166548229020928,
      "loss": 1.4746,
      "step": 53664
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5364808440208435,
      "learning_rate": 0.00021165549359702514,
      "loss": 1.61,
      "step": 53665
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5510517954826355,
      "learning_rate": 0.00021164550501107834,
      "loss": 1.5747,
      "step": 53666
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5291334390640259,
      "learning_rate": 0.00021163551653238073,
      "loss": 1.5654,
      "step": 53667
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.542464017868042,
      "learning_rate": 0.0002116255281609446,
      "loss": 1.5489,
      "step": 53668
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5215492248535156,
      "learning_rate": 0.0002116155398967821,
      "loss": 1.5445,
      "step": 53669
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5463520884513855,
      "learning_rate": 0.00021160555173990538,
      "loss": 1.5788,
      "step": 53670
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5361053943634033,
      "learning_rate": 0.00021159556369032645,
      "loss": 1.5757,
      "step": 53671
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5169936418533325,
      "learning_rate": 0.00021158557574805736,
      "loss": 1.6633,
      "step": 53672
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5220445990562439,
      "learning_rate": 0.00021157558791311056,
      "loss": 1.5719,
      "step": 53673
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5092317461967468,
      "learning_rate": 0.0002115656001854978,
      "loss": 1.6413,
      "step": 53674
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5576670169830322,
      "learning_rate": 0.00021155561256523144,
      "loss": 1.5604,
      "step": 53675
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.522765576839447,
      "learning_rate": 0.00021154562505232353,
      "loss": 1.5732,
      "step": 53676
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5355513095855713,
      "learning_rate": 0.0002115356376467862,
      "loss": 1.5523,
      "step": 53677
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5379090905189514,
      "learning_rate": 0.0002115256503486316,
      "loss": 1.5022,
      "step": 53678
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5376996397972107,
      "learning_rate": 0.00021151566315787167,
      "loss": 1.6123,
      "step": 53679
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5534087419509888,
      "learning_rate": 0.00021150567607451895,
      "loss": 1.6224,
      "step": 53680
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5322875380516052,
      "learning_rate": 0.00021149568909858507,
      "loss": 1.6338,
      "step": 53681
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5485084652900696,
      "learning_rate": 0.00021148570223008246,
      "loss": 1.6089,
      "step": 53682
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5394095182418823,
      "learning_rate": 0.0002114757154690232,
      "loss": 1.6465,
      "step": 53683
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.523268461227417,
      "learning_rate": 0.0002114657288154194,
      "loss": 1.6489,
      "step": 53684
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5476704835891724,
      "learning_rate": 0.00021145574226928308,
      "loss": 1.574,
      "step": 53685
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5532785058021545,
      "learning_rate": 0.00021144575583062654,
      "loss": 1.6769,
      "step": 53686
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5685327053070068,
      "learning_rate": 0.00021143576949946173,
      "loss": 1.6115,
      "step": 53687
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5035740733146667,
      "learning_rate": 0.00021142578327580078,
      "loss": 1.5905,
      "step": 53688
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5716047286987305,
      "learning_rate": 0.00021141579715965592,
      "loss": 1.5694,
      "step": 53689
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.523473858833313,
      "learning_rate": 0.0002114058111510393,
      "loss": 1.5291,
      "step": 53690
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.520726203918457,
      "learning_rate": 0.00021139582524996295,
      "loss": 1.5863,
      "step": 53691
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5170396566390991,
      "learning_rate": 0.000211385839456439,
      "loss": 1.6226,
      "step": 53692
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.553561806678772,
      "learning_rate": 0.00021137585377047964,
      "loss": 1.5943,
      "step": 53693
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5253430008888245,
      "learning_rate": 0.00021136586819209686,
      "loss": 1.6208,
      "step": 53694
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5294007658958435,
      "learning_rate": 0.0002113558827213028,
      "loss": 1.5542,
      "step": 53695
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5266180634498596,
      "learning_rate": 0.00021134589735810985,
      "loss": 1.5509,
      "step": 53696
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5524817109107971,
      "learning_rate": 0.0002113359121025297,
      "loss": 1.6435,
      "step": 53697
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5197446346282959,
      "learning_rate": 0.00021132592695457476,
      "loss": 1.6737,
      "step": 53698
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5274056792259216,
      "learning_rate": 0.00021131594191425707,
      "loss": 1.5962,
      "step": 53699
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5263670682907104,
      "learning_rate": 0.00021130595698158882,
      "loss": 1.5318,
      "step": 53700
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5398917198181152,
      "learning_rate": 0.00021129597215658203,
      "loss": 1.5932,
      "step": 53701
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5301235318183899,
      "learning_rate": 0.0002112859874392488,
      "loss": 1.6342,
      "step": 53702
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.52902752161026,
      "learning_rate": 0.00021127600282960148,
      "loss": 1.5714,
      "step": 53703
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5242899656295776,
      "learning_rate": 0.00021126601832765183,
      "loss": 1.6342,
      "step": 53704
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5437520742416382,
      "learning_rate": 0.0002112560339334122,
      "loss": 1.5786,
      "step": 53705
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5289431810379028,
      "learning_rate": 0.0002112460496468948,
      "loss": 1.6429,
      "step": 53706
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5171107053756714,
      "learning_rate": 0.0002112360654681115,
      "loss": 1.6193,
      "step": 53707
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5352620482444763,
      "learning_rate": 0.00021122608139707456,
      "loss": 1.4637,
      "step": 53708
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5432984828948975,
      "learning_rate": 0.000211216097433796,
      "loss": 1.5095,
      "step": 53709
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5596686601638794,
      "learning_rate": 0.0002112061135782882,
      "loss": 1.6289,
      "step": 53710
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.525748074054718,
      "learning_rate": 0.00021119612983056291,
      "loss": 1.5843,
      "step": 53711
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5325517654418945,
      "learning_rate": 0.00021118614619063255,
      "loss": 1.5873,
      "step": 53712
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.524313747882843,
      "learning_rate": 0.00021117616265850915,
      "loss": 1.5409,
      "step": 53713
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5430445671081543,
      "learning_rate": 0.0002111661792342047,
      "loss": 1.5657,
      "step": 53714
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5432532429695129,
      "learning_rate": 0.00021115619591773144,
      "loss": 1.4874,
      "step": 53715
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5291955471038818,
      "learning_rate": 0.00021114621270910155,
      "loss": 1.5536,
      "step": 53716
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5435004234313965,
      "learning_rate": 0.00021113622960832696,
      "loss": 1.588,
      "step": 53717
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5166247487068176,
      "learning_rate": 0.0002111262466154199,
      "loss": 1.5085,
      "step": 53718
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5333532691001892,
      "learning_rate": 0.00021111626373039247,
      "loss": 1.5956,
      "step": 53719
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.539473831653595,
      "learning_rate": 0.0002111062809532569,
      "loss": 1.592,
      "step": 53720
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5360232591629028,
      "learning_rate": 0.00021109629828402516,
      "loss": 1.5527,
      "step": 53721
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5310103297233582,
      "learning_rate": 0.0002110863157227094,
      "loss": 1.6063,
      "step": 53722
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5511281490325928,
      "learning_rate": 0.00021107633326932182,
      "loss": 1.6472,
      "step": 53723
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5305152535438538,
      "learning_rate": 0.0002110663509238744,
      "loss": 1.5316,
      "step": 53724
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5398076772689819,
      "learning_rate": 0.00021105636868637924,
      "loss": 1.5758,
      "step": 53725
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5247879028320312,
      "learning_rate": 0.00021104638655684876,
      "loss": 1.6062,
      "step": 53726
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5278083086013794,
      "learning_rate": 0.00021103640453529464,
      "loss": 1.5202,
      "step": 53727
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.532693088054657,
      "learning_rate": 0.00021102642262172931,
      "loss": 1.6128,
      "step": 53728
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.545283317565918,
      "learning_rate": 0.0002110164408161648,
      "loss": 1.603,
      "step": 53729
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5471354722976685,
      "learning_rate": 0.0002110064591186133,
      "loss": 1.5408,
      "step": 53730
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5270274877548218,
      "learning_rate": 0.00021099647752908672,
      "loss": 1.5416,
      "step": 53731
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.533613920211792,
      "learning_rate": 0.0002109864960475973,
      "loss": 1.6148,
      "step": 53732
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5205056071281433,
      "learning_rate": 0.0002109765146741573,
      "loss": 1.545,
      "step": 53733
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5504671931266785,
      "learning_rate": 0.0002109665334087785,
      "loss": 1.5649,
      "step": 53734
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5678355097770691,
      "learning_rate": 0.00021095655225147333,
      "loss": 1.5639,
      "step": 53735
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5270254015922546,
      "learning_rate": 0.00021094657120225381,
      "loss": 1.6024,
      "step": 53736
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5510718822479248,
      "learning_rate": 0.00021093659026113197,
      "loss": 1.5877,
      "step": 53737
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5245842337608337,
      "learning_rate": 0.00021092660942812,
      "loss": 1.5723,
      "step": 53738
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5100007057189941,
      "learning_rate": 0.00021091662870322992,
      "loss": 1.6085,
      "step": 53739
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5291191339492798,
      "learning_rate": 0.00021090664808647412,
      "loss": 1.5338,
      "step": 53740
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5407211184501648,
      "learning_rate": 0.00021089666757786438,
      "loss": 1.5764,
      "step": 53741
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5279223918914795,
      "learning_rate": 0.00021088668717741295,
      "loss": 1.5131,
      "step": 53742
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5409986972808838,
      "learning_rate": 0.00021087670688513203,
      "loss": 1.5407,
      "step": 53743
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.520808219909668,
      "learning_rate": 0.0002108667267010336,
      "loss": 1.5904,
      "step": 53744
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5416743755340576,
      "learning_rate": 0.00021085674662512985,
      "loss": 1.6145,
      "step": 53745
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5305398106575012,
      "learning_rate": 0.00021084676665743293,
      "loss": 1.5683,
      "step": 53746
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5254737734794617,
      "learning_rate": 0.00021083678679795483,
      "loss": 1.5723,
      "step": 53747
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5364937782287598,
      "learning_rate": 0.00021082680704670768,
      "loss": 1.5412,
      "step": 53748
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5275819897651672,
      "learning_rate": 0.0002108168274037037,
      "loss": 1.5798,
      "step": 53749
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5588845610618591,
      "learning_rate": 0.00021080684786895502,
      "loss": 1.6117,
      "step": 53750
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.52934730052948,
      "learning_rate": 0.00021079686844247358,
      "loss": 1.5824,
      "step": 53751
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5352683663368225,
      "learning_rate": 0.00021078688912427166,
      "loss": 1.552,
      "step": 53752
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5450374484062195,
      "learning_rate": 0.00021077690991436134,
      "loss": 1.6232,
      "step": 53753
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5161399245262146,
      "learning_rate": 0.00021076693081275465,
      "loss": 1.6562,
      "step": 53754
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5194253325462341,
      "learning_rate": 0.0002107569518194637,
      "loss": 1.6101,
      "step": 53755
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5682342648506165,
      "learning_rate": 0.00021074697293450078,
      "loss": 1.5852,
      "step": 53756
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5180096626281738,
      "learning_rate": 0.00021073699415787784,
      "loss": 1.6531,
      "step": 53757
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5153788328170776,
      "learning_rate": 0.00021072701548960704,
      "loss": 1.5235,
      "step": 53758
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5255613327026367,
      "learning_rate": 0.00021071703692970042,
      "loss": 1.4924,
      "step": 53759
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.532007098197937,
      "learning_rate": 0.0002107070584781703,
      "loss": 1.5373,
      "step": 53760
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5318280458450317,
      "learning_rate": 0.00021069708013502858,
      "loss": 1.6407,
      "step": 53761
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.531663179397583,
      "learning_rate": 0.00021068710190028737,
      "loss": 1.6398,
      "step": 53762
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5306764245033264,
      "learning_rate": 0.00021067712377395898,
      "loss": 1.5718,
      "step": 53763
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5539209246635437,
      "learning_rate": 0.00021066714575605536,
      "loss": 1.6094,
      "step": 53764
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5589889883995056,
      "learning_rate": 0.00021065716784658862,
      "loss": 1.5524,
      "step": 53765
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5469407439231873,
      "learning_rate": 0.00021064719004557095,
      "loss": 1.614,
      "step": 53766
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5110816955566406,
      "learning_rate": 0.0002106372123530145,
      "loss": 1.549,
      "step": 53767
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5419324040412903,
      "learning_rate": 0.0002106272347689312,
      "loss": 1.5452,
      "step": 53768
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5242344737052917,
      "learning_rate": 0.00021061725729333325,
      "loss": 1.5721,
      "step": 53769
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5491257309913635,
      "learning_rate": 0.00021060727992623288,
      "loss": 1.5706,
      "step": 53770
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5326030850410461,
      "learning_rate": 0.00021059730266764204,
      "loss": 1.6571,
      "step": 53771
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5600875020027161,
      "learning_rate": 0.00021058732551757292,
      "loss": 1.6724,
      "step": 53772
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5030314326286316,
      "learning_rate": 0.00021057734847603764,
      "loss": 1.5151,
      "step": 53773
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5235576033592224,
      "learning_rate": 0.00021056737154304825,
      "loss": 1.5262,
      "step": 53774
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5446867346763611,
      "learning_rate": 0.0002105573947186168,
      "loss": 1.6428,
      "step": 53775
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5442978143692017,
      "learning_rate": 0.0002105474180027556,
      "loss": 1.5509,
      "step": 53776
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5406842231750488,
      "learning_rate": 0.00021053744139547668,
      "loss": 1.6224,
      "step": 53777
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5590623021125793,
      "learning_rate": 0.00021052746489679208,
      "loss": 1.5822,
      "step": 53778
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.552989661693573,
      "learning_rate": 0.00021051748850671397,
      "loss": 1.6069,
      "step": 53779
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5685361623764038,
      "learning_rate": 0.00021050751222525448,
      "loss": 1.6559,
      "step": 53780
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5360479950904846,
      "learning_rate": 0.00021049753605242562,
      "loss": 1.5345,
      "step": 53781
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5526341199874878,
      "learning_rate": 0.00021048755998823951,
      "loss": 1.5278,
      "step": 53782
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5222249031066895,
      "learning_rate": 0.0002104775840327085,
      "loss": 1.5347,
      "step": 53783
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.518156111240387,
      "learning_rate": 0.0002104676081858443,
      "loss": 1.6918,
      "step": 53784
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5488074421882629,
      "learning_rate": 0.00021045763244765934,
      "loss": 1.476,
      "step": 53785
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5517726540565491,
      "learning_rate": 0.0002104476568181656,
      "loss": 1.6415,
      "step": 53786
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5151199698448181,
      "learning_rate": 0.0002104376812973753,
      "loss": 1.5962,
      "step": 53787
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.517571210861206,
      "learning_rate": 0.00021042770588530034,
      "loss": 1.5948,
      "step": 53788
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5533055663108826,
      "learning_rate": 0.00021041773058195291,
      "loss": 1.6151,
      "step": 53789
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5366383790969849,
      "learning_rate": 0.0002104077553873454,
      "loss": 1.533,
      "step": 53790
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5430553555488586,
      "learning_rate": 0.00021039778030148938,
      "loss": 1.534,
      "step": 53791
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5492196083068848,
      "learning_rate": 0.00021038780532439737,
      "loss": 1.6063,
      "step": 53792
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5879918932914734,
      "learning_rate": 0.00021037783045608143,
      "loss": 1.6243,
      "step": 53793
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5229870676994324,
      "learning_rate": 0.00021036785569655353,
      "loss": 1.5288,
      "step": 53794
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5307323336601257,
      "learning_rate": 0.00021035788104582586,
      "loss": 1.6082,
      "step": 53795
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5436885952949524,
      "learning_rate": 0.00021034790650391045,
      "loss": 1.5454,
      "step": 53796
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5091947913169861,
      "learning_rate": 0.00021033793207081964,
      "loss": 1.6287,
      "step": 53797
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5321893692016602,
      "learning_rate": 0.00021032795774656517,
      "loss": 1.5843,
      "step": 53798
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5495433807373047,
      "learning_rate": 0.00021031798353115944,
      "loss": 1.5785,
      "step": 53799
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5396496653556824,
      "learning_rate": 0.00021030800942461447,
      "loss": 1.5537,
      "step": 53800
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5466619729995728,
      "learning_rate": 0.00021029803542694237,
      "loss": 1.4673,
      "step": 53801
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.528461754322052,
      "learning_rate": 0.00021028806153815523,
      "loss": 1.5505,
      "step": 53802
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5378801226615906,
      "learning_rate": 0.00021027808775826517,
      "loss": 1.5717,
      "step": 53803
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.549521267414093,
      "learning_rate": 0.00021026811408728427,
      "loss": 1.6276,
      "step": 53804
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5310903787612915,
      "learning_rate": 0.00021025814052522457,
      "loss": 1.551,
      "step": 53805
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5372971892356873,
      "learning_rate": 0.00021024816707209838,
      "loss": 1.5794,
      "step": 53806
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5399457812309265,
      "learning_rate": 0.0002102381937279177,
      "loss": 1.6,
      "step": 53807
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5855991840362549,
      "learning_rate": 0.00021022822049269463,
      "loss": 1.5514,
      "step": 53808
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5374385118484497,
      "learning_rate": 0.00021021824736644119,
      "loss": 1.5267,
      "step": 53809
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5410405993461609,
      "learning_rate": 0.00021020827434916972,
      "loss": 1.5562,
      "step": 53810
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.515275776386261,
      "learning_rate": 0.00021019830144089206,
      "loss": 1.556,
      "step": 53811
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5381479263305664,
      "learning_rate": 0.00021018832864162036,
      "loss": 1.5979,
      "step": 53812
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5462647080421448,
      "learning_rate": 0.00021017835595136698,
      "loss": 1.5099,
      "step": 53813
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.555726945400238,
      "learning_rate": 0.00021016838337014368,
      "loss": 1.5567,
      "step": 53814
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.53693687915802,
      "learning_rate": 0.00021015841089796277,
      "loss": 1.5386,
      "step": 53815
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5445376634597778,
      "learning_rate": 0.00021014843853483633,
      "loss": 1.5737,
      "step": 53816
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.565960705280304,
      "learning_rate": 0.00021013846628077645,
      "loss": 1.6101,
      "step": 53817
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5328470468521118,
      "learning_rate": 0.00021012849413579526,
      "loss": 1.5923,
      "step": 53818
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5516785383224487,
      "learning_rate": 0.00021011852209990473,
      "loss": 1.5977,
      "step": 53819
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5469908118247986,
      "learning_rate": 0.00021010855017311727,
      "loss": 1.5747,
      "step": 53820
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5505142211914062,
      "learning_rate": 0.00021009857835544454,
      "loss": 1.6626,
      "step": 53821
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5279816389083862,
      "learning_rate": 0.00021008860664689901,
      "loss": 1.5989,
      "step": 53822
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5355040431022644,
      "learning_rate": 0.00021007863504749274,
      "loss": 1.6176,
      "step": 53823
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5199191570281982,
      "learning_rate": 0.00021006866355723766,
      "loss": 1.5431,
      "step": 53824
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5329616069793701,
      "learning_rate": 0.000210058692176146,
      "loss": 1.6447,
      "step": 53825
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5415129065513611,
      "learning_rate": 0.00021004872090422974,
      "loss": 1.5693,
      "step": 53826
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5496290326118469,
      "learning_rate": 0.0002100387497415013,
      "loss": 1.591,
      "step": 53827
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5331694483757019,
      "learning_rate": 0.00021002877868797233,
      "loss": 1.574,
      "step": 53828
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5457714796066284,
      "learning_rate": 0.00021001880774365524,
      "loss": 1.6391,
      "step": 53829
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5536213517189026,
      "learning_rate": 0.00021000883690856214,
      "loss": 1.6459,
      "step": 53830
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5464064478874207,
      "learning_rate": 0.00020999886618270502,
      "loss": 1.5874,
      "step": 53831
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5593153238296509,
      "learning_rate": 0.00020998889556609598,
      "loss": 1.583,
      "step": 53832
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5461493134498596,
      "learning_rate": 0.00020997892505874723,
      "loss": 1.5438,
      "step": 53833
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5385235548019409,
      "learning_rate": 0.00020996895466067074,
      "loss": 1.5387,
      "step": 53834
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.537444531917572,
      "learning_rate": 0.00020995898437187858,
      "loss": 1.5979,
      "step": 53835
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5442726016044617,
      "learning_rate": 0.00020994901419238305,
      "loss": 1.5871,
      "step": 53836
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5300719141960144,
      "learning_rate": 0.0002099390441221962,
      "loss": 1.5904,
      "step": 53837
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.519616961479187,
      "learning_rate": 0.00020992907416133,
      "loss": 1.5712,
      "step": 53838
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5408644080162048,
      "learning_rate": 0.00020991910430979665,
      "loss": 1.6123,
      "step": 53839
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5172573924064636,
      "learning_rate": 0.00020990913456760826,
      "loss": 1.5145,
      "step": 53840
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5438730716705322,
      "learning_rate": 0.00020989916493477687,
      "loss": 1.6261,
      "step": 53841
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5394505858421326,
      "learning_rate": 0.00020988919541131457,
      "loss": 1.6445,
      "step": 53842
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5503872036933899,
      "learning_rate": 0.0002098792259972337,
      "loss": 1.6091,
      "step": 53843
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5240757465362549,
      "learning_rate": 0.00020986925669254597,
      "loss": 1.5111,
      "step": 53844
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5365315675735474,
      "learning_rate": 0.00020985928749726375,
      "loss": 1.5634,
      "step": 53845
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5368622541427612,
      "learning_rate": 0.00020984931841139907,
      "loss": 1.589,
      "step": 53846
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5302906632423401,
      "learning_rate": 0.00020983934943496409,
      "loss": 1.5422,
      "step": 53847
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.515049397945404,
      "learning_rate": 0.00020982938056797077,
      "loss": 1.5381,
      "step": 53848
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5381338596343994,
      "learning_rate": 0.00020981941181043127,
      "loss": 1.6255,
      "step": 53849
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5343794226646423,
      "learning_rate": 0.00020980944316235792,
      "loss": 1.5596,
      "step": 53850
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5391302704811096,
      "learning_rate": 0.0002097994746237624,
      "loss": 1.5978,
      "step": 53851
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5289020538330078,
      "learning_rate": 0.00020978950619465707,
      "loss": 1.564,
      "step": 53852
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5510599613189697,
      "learning_rate": 0.0002097795378750541,
      "loss": 1.5248,
      "step": 53853
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5230086445808411,
      "learning_rate": 0.00020976956966496538,
      "loss": 1.5634,
      "step": 53854
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5302120447158813,
      "learning_rate": 0.00020975960156440312,
      "loss": 1.5231,
      "step": 53855
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5351651906967163,
      "learning_rate": 0.00020974963357337935,
      "loss": 1.5734,
      "step": 53856
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5289502143859863,
      "learning_rate": 0.00020973966569190638,
      "loss": 1.6143,
      "step": 53857
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5361324548721313,
      "learning_rate": 0.000209729697919996,
      "loss": 1.6089,
      "step": 53858
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5466058850288391,
      "learning_rate": 0.00020971973025766052,
      "loss": 1.7031,
      "step": 53859
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5578463077545166,
      "learning_rate": 0.0002097097627049121,
      "loss": 1.5567,
      "step": 53860
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5230221152305603,
      "learning_rate": 0.00020969979526176257,
      "loss": 1.5612,
      "step": 53861
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5372073650360107,
      "learning_rate": 0.00020968982792822423,
      "loss": 1.5804,
      "step": 53862
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5377905964851379,
      "learning_rate": 0.00020967986070430923,
      "loss": 1.6164,
      "step": 53863
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5670459866523743,
      "learning_rate": 0.00020966989359002945,
      "loss": 1.5944,
      "step": 53864
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5236695408821106,
      "learning_rate": 0.00020965992658539707,
      "loss": 1.5328,
      "step": 53865
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5387803316116333,
      "learning_rate": 0.00020964995969042425,
      "loss": 1.5441,
      "step": 53866
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5451520681381226,
      "learning_rate": 0.00020963999290512318,
      "loss": 1.6301,
      "step": 53867
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5280646681785583,
      "learning_rate": 0.00020963002622950577,
      "loss": 1.5338,
      "step": 53868
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5215241312980652,
      "learning_rate": 0.00020962005966358423,
      "loss": 1.4935,
      "step": 53869
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5303888320922852,
      "learning_rate": 0.00020961009320737063,
      "loss": 1.5205,
      "step": 53870
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5252968668937683,
      "learning_rate": 0.00020960012686087703,
      "loss": 1.5367,
      "step": 53871
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5240673422813416,
      "learning_rate": 0.00020959016062411547,
      "loss": 1.5377,
      "step": 53872
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5207198858261108,
      "learning_rate": 0.00020958019449709823,
      "loss": 1.5463,
      "step": 53873
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5266922116279602,
      "learning_rate": 0.0002095702284798373,
      "loss": 1.6474,
      "step": 53874
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5182729959487915,
      "learning_rate": 0.00020956026257234475,
      "loss": 1.55,
      "step": 53875
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5570769906044006,
      "learning_rate": 0.00020955029677463275,
      "loss": 1.597,
      "step": 53876
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5247842073440552,
      "learning_rate": 0.00020954033108671344,
      "loss": 1.5596,
      "step": 53877
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.554523229598999,
      "learning_rate": 0.00020953036550859874,
      "loss": 1.6852,
      "step": 53878
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.547210156917572,
      "learning_rate": 0.00020952040004030078,
      "loss": 1.6659,
      "step": 53879
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.549094021320343,
      "learning_rate": 0.0002095104346818319,
      "loss": 1.5736,
      "step": 53880
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5428718328475952,
      "learning_rate": 0.00020950046943320387,
      "loss": 1.5448,
      "step": 53881
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5324936509132385,
      "learning_rate": 0.000209490504294429,
      "loss": 1.586,
      "step": 53882
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5489752292633057,
      "learning_rate": 0.00020948053926551937,
      "loss": 1.5714,
      "step": 53883
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5536330938339233,
      "learning_rate": 0.00020947057434648697,
      "loss": 1.5683,
      "step": 53884
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5353707075119019,
      "learning_rate": 0.00020946060953734396,
      "loss": 1.6151,
      "step": 53885
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5525586009025574,
      "learning_rate": 0.00020945064483810234,
      "loss": 1.6609,
      "step": 53886
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5486425161361694,
      "learning_rate": 0.0002094406802487744,
      "loss": 1.6079,
      "step": 53887
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5482932329177856,
      "learning_rate": 0.00020943071576937214,
      "loss": 1.5944,
      "step": 53888
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5316722393035889,
      "learning_rate": 0.00020942075139990758,
      "loss": 1.6139,
      "step": 53889
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5425325036048889,
      "learning_rate": 0.00020941078714039298,
      "loss": 1.509,
      "step": 53890
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5047963261604309,
      "learning_rate": 0.00020940082299084027,
      "loss": 1.6492,
      "step": 53891
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5291778445243835,
      "learning_rate": 0.00020939085895126154,
      "loss": 1.5926,
      "step": 53892
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5271722078323364,
      "learning_rate": 0.000209380895021669,
      "loss": 1.5681,
      "step": 53893
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5153775215148926,
      "learning_rate": 0.00020937093120207482,
      "loss": 1.548,
      "step": 53894
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5264689326286316,
      "learning_rate": 0.0002093609674924909,
      "loss": 1.4979,
      "step": 53895
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5369757413864136,
      "learning_rate": 0.0002093510038929294,
      "loss": 1.6169,
      "step": 53896
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5321184396743774,
      "learning_rate": 0.00020934104040340248,
      "loss": 1.5862,
      "step": 53897
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5179089307785034,
      "learning_rate": 0.0002093310770239221,
      "loss": 1.5457,
      "step": 53898
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5249777436256409,
      "learning_rate": 0.0002093211137545004,
      "loss": 1.5528,
      "step": 53899
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5136662721633911,
      "learning_rate": 0.00020931115059514966,
      "loss": 1.5086,
      "step": 53900
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.551112174987793,
      "learning_rate": 0.00020930118754588166,
      "loss": 1.5813,
      "step": 53901
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.543694257736206,
      "learning_rate": 0.0002092912246067087,
      "loss": 1.5661,
      "step": 53902
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5648258924484253,
      "learning_rate": 0.00020928126177764287,
      "loss": 1.6189,
      "step": 53903
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5377720594406128,
      "learning_rate": 0.00020927129905869626,
      "loss": 1.547,
      "step": 53904
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5307717323303223,
      "learning_rate": 0.00020926133644988084,
      "loss": 1.5862,
      "step": 53905
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5185185074806213,
      "learning_rate": 0.0002092513739512087,
      "loss": 1.5164,
      "step": 53906
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5228698253631592,
      "learning_rate": 0.00020924141156269233,
      "loss": 1.5396,
      "step": 53907
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5465133190155029,
      "learning_rate": 0.0002092314492843432,
      "loss": 1.5923,
      "step": 53908
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5257957577705383,
      "learning_rate": 0.00020922148711617386,
      "loss": 1.5565,
      "step": 53909
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5380511283874512,
      "learning_rate": 0.00020921152505819625,
      "loss": 1.6228,
      "step": 53910
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5282101631164551,
      "learning_rate": 0.00020920156311042245,
      "loss": 1.517,
      "step": 53911
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5284414291381836,
      "learning_rate": 0.00020919160127286457,
      "loss": 1.5618,
      "step": 53912
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5388641357421875,
      "learning_rate": 0.00020918163954553466,
      "loss": 1.5997,
      "step": 53913
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5124077796936035,
      "learning_rate": 0.00020917167792844504,
      "loss": 1.5387,
      "step": 53914
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5212590098381042,
      "learning_rate": 0.0002091617164216074,
      "loss": 1.5448,
      "step": 53915
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5240721702575684,
      "learning_rate": 0.00020915175502503417,
      "loss": 1.5812,
      "step": 53916
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5354009866714478,
      "learning_rate": 0.00020914179373873734,
      "loss": 1.5262,
      "step": 53917
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5435169339179993,
      "learning_rate": 0.0002091318325627289,
      "loss": 1.5829,
      "step": 53918
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5188294053077698,
      "learning_rate": 0.00020912187149702108,
      "loss": 1.5716,
      "step": 53919
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5323694348335266,
      "learning_rate": 0.00020911191054162598,
      "loss": 1.608,
      "step": 53920
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5323550701141357,
      "learning_rate": 0.00020910194969655553,
      "loss": 1.558,
      "step": 53921
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5320600271224976,
      "learning_rate": 0.00020909198896182187,
      "loss": 1.5635,
      "step": 53922
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5337828993797302,
      "learning_rate": 0.00020908202833743722,
      "loss": 1.5943,
      "step": 53923
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5364114046096802,
      "learning_rate": 0.00020907206782341364,
      "loss": 1.5285,
      "step": 53924
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.531660258769989,
      "learning_rate": 0.0002090621074197631,
      "loss": 1.5592,
      "step": 53925
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5222830772399902,
      "learning_rate": 0.0002090521471264978,
      "loss": 1.5308,
      "step": 53926
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5146573185920715,
      "learning_rate": 0.0002090421869436298,
      "loss": 1.5428,
      "step": 53927
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5387299060821533,
      "learning_rate": 0.00020903222687117113,
      "loss": 1.5952,
      "step": 53928
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5321673154830933,
      "learning_rate": 0.0002090222669091339,
      "loss": 1.6059,
      "step": 53929
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5836722254753113,
      "learning_rate": 0.00020901230705753043,
      "loss": 1.5524,
      "step": 53930
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5403783917427063,
      "learning_rate": 0.00020900234731637243,
      "loss": 1.5539,
      "step": 53931
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5360719561576843,
      "learning_rate": 0.0002089923876856722,
      "loss": 1.6139,
      "step": 53932
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.538483738899231,
      "learning_rate": 0.0002089824281654418,
      "loss": 1.582,
      "step": 53933
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.519620418548584,
      "learning_rate": 0.00020897246875569342,
      "loss": 1.5791,
      "step": 53934
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5278327465057373,
      "learning_rate": 0.00020896250945643893,
      "loss": 1.6533,
      "step": 53935
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5451778173446655,
      "learning_rate": 0.0002089525502676905,
      "loss": 1.5643,
      "step": 53936
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5312618613243103,
      "learning_rate": 0.0002089425911894605,
      "loss": 1.6187,
      "step": 53937
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.534837007522583,
      "learning_rate": 0.00020893263222176054,
      "loss": 1.5329,
      "step": 53938
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5255504250526428,
      "learning_rate": 0.000208922673364603,
      "loss": 1.5712,
      "step": 53939
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5199896693229675,
      "learning_rate": 0.000208912714618,
      "loss": 1.4972,
      "step": 53940
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5436990261077881,
      "learning_rate": 0.0002089027559819635,
      "loss": 1.5463,
      "step": 53941
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5416668653488159,
      "learning_rate": 0.0002088927974565056,
      "loss": 1.5702,
      "step": 53942
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5304032564163208,
      "learning_rate": 0.00020888283904163838,
      "loss": 1.5561,
      "step": 53943
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5320574641227722,
      "learning_rate": 0.00020887288073737415,
      "loss": 1.4924,
      "step": 53944
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5273138284683228,
      "learning_rate": 0.00020886292254372458,
      "loss": 1.544,
      "step": 53945
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5259029269218445,
      "learning_rate": 0.00020885296446070212,
      "loss": 1.4929,
      "step": 53946
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5630768537521362,
      "learning_rate": 0.00020884300648831876,
      "loss": 1.5808,
      "step": 53947
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5328605771064758,
      "learning_rate": 0.00020883304862658652,
      "loss": 1.6548,
      "step": 53948
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5299454927444458,
      "learning_rate": 0.0002088230908755175,
      "loss": 1.5936,
      "step": 53949
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5237857103347778,
      "learning_rate": 0.00020881313323512388,
      "loss": 1.6186,
      "step": 53950
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5346328020095825,
      "learning_rate": 0.00020880317570541764,
      "loss": 1.6257,
      "step": 53951
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.5741329789161682,
      "learning_rate": 0.0002087932182864108,
      "loss": 1.5488,
      "step": 53952
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5685483813285828,
      "learning_rate": 0.00020878326097811567,
      "loss": 1.5457,
      "step": 53953
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5495837330818176,
      "learning_rate": 0.00020877330378054425,
      "loss": 1.5823,
      "step": 53954
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5334033966064453,
      "learning_rate": 0.00020876334669370854,
      "loss": 1.581,
      "step": 53955
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5061752200126648,
      "learning_rate": 0.0002087533897176207,
      "loss": 1.5087,
      "step": 53956
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5306198596954346,
      "learning_rate": 0.00020874343285229286,
      "loss": 1.5677,
      "step": 53957
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5508420467376709,
      "learning_rate": 0.00020873347609773695,
      "loss": 1.5737,
      "step": 53958
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5486109256744385,
      "learning_rate": 0.00020872351945396513,
      "loss": 1.5101,
      "step": 53959
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5628503561019897,
      "learning_rate": 0.00020871356292098968,
      "loss": 1.6046,
      "step": 53960
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5470553040504456,
      "learning_rate": 0.00020870360649882235,
      "loss": 1.5373,
      "step": 53961
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.554334819316864,
      "learning_rate": 0.00020869365018747542,
      "loss": 1.5444,
      "step": 53962
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5726221799850464,
      "learning_rate": 0.00020868369398696098,
      "loss": 1.5632,
      "step": 53963
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5286222696304321,
      "learning_rate": 0.0002086737378972911,
      "loss": 1.5621,
      "step": 53964
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5689656734466553,
      "learning_rate": 0.0002086637819184778,
      "loss": 1.6017,
      "step": 53965
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5274115800857544,
      "learning_rate": 0.00020865382605053317,
      "loss": 1.6205,
      "step": 53966
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5196978449821472,
      "learning_rate": 0.0002086438702934695,
      "loss": 1.5859,
      "step": 53967
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5505224466323853,
      "learning_rate": 0.0002086339146472985,
      "loss": 1.5841,
      "step": 53968
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5466107130050659,
      "learning_rate": 0.0002086239591120326,
      "loss": 1.5384,
      "step": 53969
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5266047716140747,
      "learning_rate": 0.00020861400368768376,
      "loss": 1.5453,
      "step": 53970
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5573485493659973,
      "learning_rate": 0.00020860404837426402,
      "loss": 1.5991,
      "step": 53971
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5466693043708801,
      "learning_rate": 0.00020859409317178543,
      "loss": 1.5533,
      "step": 53972
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5306143164634705,
      "learning_rate": 0.00020858413808026014,
      "loss": 1.5132,
      "step": 53973
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5278245806694031,
      "learning_rate": 0.0002085741830997004,
      "loss": 1.6243,
      "step": 53974
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5578710436820984,
      "learning_rate": 0.000208564228230118,
      "loss": 1.6274,
      "step": 53975
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5338108539581299,
      "learning_rate": 0.0002085542734715252,
      "loss": 1.5747,
      "step": 53976
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5453153252601624,
      "learning_rate": 0.00020854431882393404,
      "loss": 1.6099,
      "step": 53977
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5381089448928833,
      "learning_rate": 0.00020853436428735657,
      "loss": 1.6149,
      "step": 53978
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5397170186042786,
      "learning_rate": 0.00020852440986180492,
      "loss": 1.6427,
      "step": 53979
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5489234924316406,
      "learning_rate": 0.0002085144555472912,
      "loss": 1.667,
      "step": 53980
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5490342974662781,
      "learning_rate": 0.0002085045013438274,
      "loss": 1.6572,
      "step": 53981
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.557422935962677,
      "learning_rate": 0.0002084945472514256,
      "loss": 1.6194,
      "step": 53982
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5300730466842651,
      "learning_rate": 0.00020848459327009797,
      "loss": 1.5751,
      "step": 53983
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5585454106330872,
      "learning_rate": 0.00020847463939985665,
      "loss": 1.6547,
      "step": 53984
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5530213713645935,
      "learning_rate": 0.00020846468564071356,
      "loss": 1.5531,
      "step": 53985
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5336310267448425,
      "learning_rate": 0.00020845473199268086,
      "loss": 1.6927,
      "step": 53986
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5585311651229858,
      "learning_rate": 0.00020844477845577067,
      "loss": 1.6145,
      "step": 53987
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5383424758911133,
      "learning_rate": 0.00020843482502999502,
      "loss": 1.5029,
      "step": 53988
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5553615689277649,
      "learning_rate": 0.00020842487171536585,
      "loss": 1.5186,
      "step": 53989
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5185040235519409,
      "learning_rate": 0.00020841491851189558,
      "loss": 1.6284,
      "step": 53990
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5415529608726501,
      "learning_rate": 0.00020840496541959602,
      "loss": 1.5416,
      "step": 53991
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5366613268852234,
      "learning_rate": 0.00020839501243847936,
      "loss": 1.5558,
      "step": 53992
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5415860414505005,
      "learning_rate": 0.00020838505956855767,
      "loss": 1.5715,
      "step": 53993
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.55477374792099,
      "learning_rate": 0.00020837510680984304,
      "loss": 1.5744,
      "step": 53994
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5377745628356934,
      "learning_rate": 0.00020836515416234748,
      "loss": 1.5809,
      "step": 53995
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5109354853630066,
      "learning_rate": 0.0002083552016260831,
      "loss": 1.5488,
      "step": 53996
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5501539707183838,
      "learning_rate": 0.00020834524920106205,
      "loss": 1.5954,
      "step": 53997
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5328734517097473,
      "learning_rate": 0.00020833529688729633,
      "loss": 1.541,
      "step": 53998
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5383852124214172,
      "learning_rate": 0.0002083253446847981,
      "loss": 1.6346,
      "step": 53999
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5452250838279724,
      "learning_rate": 0.0002083153925935794,
      "loss": 1.5851,
      "step": 54000
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5228390693664551,
      "learning_rate": 0.00020830544061365225,
      "loss": 1.5445,
      "step": 54001
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5289183259010315,
      "learning_rate": 0.00020829548874502874,
      "loss": 1.5495,
      "step": 54002
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5436707735061646,
      "learning_rate": 0.00020828553698772106,
      "loss": 1.6284,
      "step": 54003
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5264568328857422,
      "learning_rate": 0.00020827558534174126,
      "loss": 1.6431,
      "step": 54004
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5348541736602783,
      "learning_rate": 0.00020826563380710132,
      "loss": 1.6452,
      "step": 54005
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5379640460014343,
      "learning_rate": 0.00020825568238381343,
      "loss": 1.5963,
      "step": 54006
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5237671136856079,
      "learning_rate": 0.00020824573107188965,
      "loss": 1.5664,
      "step": 54007
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5184136033058167,
      "learning_rate": 0.00020823577987134196,
      "loss": 1.5081,
      "step": 54008
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5348235964775085,
      "learning_rate": 0.00020822582878218248,
      "loss": 1.537,
      "step": 54009
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5315666794776917,
      "learning_rate": 0.00020821587780442337,
      "loss": 1.5205,
      "step": 54010
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5289613604545593,
      "learning_rate": 0.00020820592693807677,
      "loss": 1.5773,
      "step": 54011
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5469581484794617,
      "learning_rate": 0.00020819597618315451,
      "loss": 1.5462,
      "step": 54012
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5442412495613098,
      "learning_rate": 0.00020818602553966887,
      "loss": 1.5878,
      "step": 54013
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.523048996925354,
      "learning_rate": 0.00020817607500763188,
      "loss": 1.6439,
      "step": 54014
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5257577300071716,
      "learning_rate": 0.00020816612458705554,
      "loss": 1.5074,
      "step": 54015
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5460525751113892,
      "learning_rate": 0.000208156174277952,
      "loss": 1.5742,
      "step": 54016
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5450431108474731,
      "learning_rate": 0.00020814622408033343,
      "loss": 1.625,
      "step": 54017
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5239772200584412,
      "learning_rate": 0.00020813627399421167,
      "loss": 1.5178,
      "step": 54018
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.518632173538208,
      "learning_rate": 0.00020812632401959904,
      "loss": 1.5617,
      "step": 54019
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5337134003639221,
      "learning_rate": 0.00020811637415650745,
      "loss": 1.5623,
      "step": 54020
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5390167832374573,
      "learning_rate": 0.00020810642440494915,
      "loss": 1.7078,
      "step": 54021
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5301914215087891,
      "learning_rate": 0.00020809647476493598,
      "loss": 1.5649,
      "step": 54022
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5651647448539734,
      "learning_rate": 0.00020808652523648016,
      "loss": 1.5892,
      "step": 54023
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5217120051383972,
      "learning_rate": 0.0002080765758195939,
      "loss": 1.5481,
      "step": 54024
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5256626009941101,
      "learning_rate": 0.00020806662651428896,
      "loss": 1.5713,
      "step": 54025
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5175233483314514,
      "learning_rate": 0.00020805667732057764,
      "loss": 1.5337,
      "step": 54026
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.579038679599762,
      "learning_rate": 0.00020804672823847208,
      "loss": 1.6338,
      "step": 54027
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5496978163719177,
      "learning_rate": 0.00020803677926798414,
      "loss": 1.6487,
      "step": 54028
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5447359681129456,
      "learning_rate": 0.000208026830409126,
      "loss": 1.5713,
      "step": 54029
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5349509716033936,
      "learning_rate": 0.00020801688166190968,
      "loss": 1.612,
      "step": 54030
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.535616934299469,
      "learning_rate": 0.00020800693302634748,
      "loss": 1.6591,
      "step": 54031
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5166601538658142,
      "learning_rate": 0.0002079969845024511,
      "loss": 1.5889,
      "step": 54032
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5369317531585693,
      "learning_rate": 0.00020798703609023296,
      "loss": 1.5734,
      "step": 54033
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5337080359458923,
      "learning_rate": 0.00020797708778970503,
      "loss": 1.591,
      "step": 54034
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5324307680130005,
      "learning_rate": 0.0002079671396008793,
      "loss": 1.5162,
      "step": 54035
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.536628007888794,
      "learning_rate": 0.0002079571915237679,
      "loss": 1.5543,
      "step": 54036
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5489963889122009,
      "learning_rate": 0.00020794724355838298,
      "loss": 1.6144,
      "step": 54037
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5361632704734802,
      "learning_rate": 0.00020793729570473647,
      "loss": 1.5914,
      "step": 54038
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5303186774253845,
      "learning_rate": 0.00020792734796284046,
      "loss": 1.6065,
      "step": 54039
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5461087822914124,
      "learning_rate": 0.0002079174003327071,
      "loss": 1.5666,
      "step": 54040
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5494714379310608,
      "learning_rate": 0.00020790745281434853,
      "loss": 1.5825,
      "step": 54041
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5516149401664734,
      "learning_rate": 0.00020789750540777674,
      "loss": 1.5764,
      "step": 54042
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.529995322227478,
      "learning_rate": 0.00020788755811300373,
      "loss": 1.5737,
      "step": 54043
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5361846685409546,
      "learning_rate": 0.00020787761093004177,
      "loss": 1.5713,
      "step": 54044
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.522150993347168,
      "learning_rate": 0.00020786766385890273,
      "loss": 1.5955,
      "step": 54045
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5176505446434021,
      "learning_rate": 0.00020785771689959873,
      "loss": 1.5335,
      "step": 54046
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5192133188247681,
      "learning_rate": 0.00020784777005214205,
      "loss": 1.5723,
      "step": 54047
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5363109707832336,
      "learning_rate": 0.00020783782331654438,
      "loss": 1.6613,
      "step": 54048
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5117172598838806,
      "learning_rate": 0.00020782787669281814,
      "loss": 1.5734,
      "step": 54049
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5592004656791687,
      "learning_rate": 0.00020781793018097525,
      "loss": 1.5922,
      "step": 54050
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5505809783935547,
      "learning_rate": 0.0002078079837810279,
      "loss": 1.5118,
      "step": 54051
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5396413207054138,
      "learning_rate": 0.00020779803749298797,
      "loss": 1.5683,
      "step": 54052
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5543770790100098,
      "learning_rate": 0.0002077880913168676,
      "loss": 1.6067,
      "step": 54053
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5497065782546997,
      "learning_rate": 0.00020777814525267904,
      "loss": 1.6026,
      "step": 54054
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5430701971054077,
      "learning_rate": 0.0002077681993004341,
      "loss": 1.5882,
      "step": 54055
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5428656339645386,
      "learning_rate": 0.00020775825346014501,
      "loss": 1.5974,
      "step": 54056
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5215666890144348,
      "learning_rate": 0.00020774830773182386,
      "loss": 1.5514,
      "step": 54057
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5486723184585571,
      "learning_rate": 0.0002077383621154826,
      "loss": 1.6235,
      "step": 54058
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5183315873146057,
      "learning_rate": 0.00020772841661113344,
      "loss": 1.5894,
      "step": 54059
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5341463088989258,
      "learning_rate": 0.00020771847121878827,
      "loss": 1.4826,
      "step": 54060
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5482228994369507,
      "learning_rate": 0.00020770852593845945,
      "loss": 1.5144,
      "step": 54061
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5645026564598083,
      "learning_rate": 0.00020769858077015875,
      "loss": 1.5963,
      "step": 54062
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5369462370872498,
      "learning_rate": 0.0002076886357138984,
      "loss": 1.5379,
      "step": 54063
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5295166969299316,
      "learning_rate": 0.00020767869076969054,
      "loss": 1.5866,
      "step": 54064
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5202997922897339,
      "learning_rate": 0.00020766874593754702,
      "loss": 1.5787,
      "step": 54065
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.51569664478302,
      "learning_rate": 0.0002076588012174801,
      "loss": 1.5859,
      "step": 54066
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5200576186180115,
      "learning_rate": 0.0002076488566095018,
      "loss": 1.5081,
      "step": 54067
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5261868834495544,
      "learning_rate": 0.00020763891211362417,
      "loss": 1.6183,
      "step": 54068
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.6211316585540771,
      "learning_rate": 0.0002076289677298592,
      "loss": 1.6514,
      "step": 54069
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.552665650844574,
      "learning_rate": 0.00020761902345821912,
      "loss": 1.5593,
      "step": 54070
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5613857507705688,
      "learning_rate": 0.000207609079298716,
      "loss": 1.5578,
      "step": 54071
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5503666996955872,
      "learning_rate": 0.00020759913525136178,
      "loss": 1.6209,
      "step": 54072
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.534428596496582,
      "learning_rate": 0.0002075891913161686,
      "loss": 1.5755,
      "step": 54073
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5278711318969727,
      "learning_rate": 0.00020757924749314856,
      "loss": 1.5414,
      "step": 54074
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5310295820236206,
      "learning_rate": 0.00020756930378231368,
      "loss": 1.5517,
      "step": 54075
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5266829133033752,
      "learning_rate": 0.00020755936018367594,
      "loss": 1.5932,
      "step": 54076
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5271428823471069,
      "learning_rate": 0.00020754941669724774,
      "loss": 1.5683,
      "step": 54077
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5305989980697632,
      "learning_rate": 0.00020753947332304072,
      "loss": 1.5943,
      "step": 54078
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5325630903244019,
      "learning_rate": 0.0002075295300610672,
      "loss": 1.5514,
      "step": 54079
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5460333824157715,
      "learning_rate": 0.00020751958691133922,
      "loss": 1.6069,
      "step": 54080
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5510507822036743,
      "learning_rate": 0.00020750964387386892,
      "loss": 1.5716,
      "step": 54081
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5297956466674805,
      "learning_rate": 0.0002074997009486682,
      "loss": 1.5722,
      "step": 54082
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5449767708778381,
      "learning_rate": 0.00020748975813574916,
      "loss": 1.5449,
      "step": 54083
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5425477623939514,
      "learning_rate": 0.00020747981543512412,
      "loss": 1.6104,
      "step": 54084
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5428705215454102,
      "learning_rate": 0.00020746987284680474,
      "loss": 1.5962,
      "step": 54085
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5236191153526306,
      "learning_rate": 0.00020745993037080338,
      "loss": 1.5666,
      "step": 54086
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5526358485221863,
      "learning_rate": 0.0002074499880071321,
      "loss": 1.5547,
      "step": 54087
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5521889925003052,
      "learning_rate": 0.0002074400457558028,
      "loss": 1.4934,
      "step": 54088
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5725627541542053,
      "learning_rate": 0.00020743010361682767,
      "loss": 1.6274,
      "step": 54089
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5366318821907043,
      "learning_rate": 0.00020742016159021868,
      "loss": 1.5929,
      "step": 54090
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5406843423843384,
      "learning_rate": 0.0002074102196759882,
      "loss": 1.6058,
      "step": 54091
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5493423938751221,
      "learning_rate": 0.00020740027787414784,
      "loss": 1.5669,
      "step": 54092
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5611172914505005,
      "learning_rate": 0.00020739033618470999,
      "loss": 1.5971,
      "step": 54093
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5349801182746887,
      "learning_rate": 0.00020738039460768665,
      "loss": 1.5663,
      "step": 54094
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5409636497497559,
      "learning_rate": 0.00020737045314308985,
      "loss": 1.6427,
      "step": 54095
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5354732871055603,
      "learning_rate": 0.00020736051179093162,
      "loss": 1.5494,
      "step": 54096
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5249844193458557,
      "learning_rate": 0.00020735057055122418,
      "loss": 1.5762,
      "step": 54097
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5400565266609192,
      "learning_rate": 0.00020734062942397944,
      "loss": 1.5467,
      "step": 54098
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5393825173377991,
      "learning_rate": 0.00020733068840920942,
      "loss": 1.6062,
      "step": 54099
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5276056528091431,
      "learning_rate": 0.00020732074750692638,
      "loss": 1.579,
      "step": 54100
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5471405982971191,
      "learning_rate": 0.00020731080671714235,
      "loss": 1.6055,
      "step": 54101
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5671957731246948,
      "learning_rate": 0.0002073008660398693,
      "loss": 1.6253,
      "step": 54102
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5743162035942078,
      "learning_rate": 0.00020729092547511934,
      "loss": 1.6023,
      "step": 54103
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5365689992904663,
      "learning_rate": 0.00020728098502290459,
      "loss": 1.6036,
      "step": 54104
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5373328924179077,
      "learning_rate": 0.00020727104468323698,
      "loss": 1.5383,
      "step": 54105
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5440423488616943,
      "learning_rate": 0.00020726110445612862,
      "loss": 1.5849,
      "step": 54106
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5214410424232483,
      "learning_rate": 0.00020725116434159175,
      "loss": 1.5517,
      "step": 54107
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.525673508644104,
      "learning_rate": 0.00020724122433963822,
      "loss": 1.6429,
      "step": 54108
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5347639322280884,
      "learning_rate": 0.00020723128445028014,
      "loss": 1.6738,
      "step": 54109
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5666273832321167,
      "learning_rate": 0.00020722134467352965,
      "loss": 1.6051,
      "step": 54110
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5481875538825989,
      "learning_rate": 0.00020721140500939883,
      "loss": 1.5097,
      "step": 54111
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5140780210494995,
      "learning_rate": 0.00020720146545789964,
      "loss": 1.6199,
      "step": 54112
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5212607979774475,
      "learning_rate": 0.00020719152601904415,
      "loss": 1.5859,
      "step": 54113
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5197118520736694,
      "learning_rate": 0.00020718158669284458,
      "loss": 1.5036,
      "step": 54114
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5334864258766174,
      "learning_rate": 0.0002071716474793128,
      "loss": 1.5589,
      "step": 54115
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5267806053161621,
      "learning_rate": 0.000207161708378461,
      "loss": 1.5752,
      "step": 54116
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.536345899105072,
      "learning_rate": 0.0002071517693903013,
      "loss": 1.595,
      "step": 54117
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5325145721435547,
      "learning_rate": 0.00020714183051484552,
      "loss": 1.5474,
      "step": 54118
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.526611864566803,
      "learning_rate": 0.00020713189175210588,
      "loss": 1.565,
      "step": 54119
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5378398299217224,
      "learning_rate": 0.00020712195310209448,
      "loss": 1.6083,
      "step": 54120
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5611152052879333,
      "learning_rate": 0.0002071120145648234,
      "loss": 1.6082,
      "step": 54121
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5524364709854126,
      "learning_rate": 0.0002071020761403046,
      "loss": 1.5486,
      "step": 54122
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.538480281829834,
      "learning_rate": 0.0002070921378285502,
      "loss": 1.5464,
      "step": 54123
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5481145977973938,
      "learning_rate": 0.00020708219962957232,
      "loss": 1.5385,
      "step": 54124
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5339133143424988,
      "learning_rate": 0.00020707226154338286,
      "loss": 1.6087,
      "step": 54125
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5668189525604248,
      "learning_rate": 0.00020706232356999395,
      "loss": 1.6464,
      "step": 54126
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.538122296333313,
      "learning_rate": 0.00020705238570941772,
      "loss": 1.6156,
      "step": 54127
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5298804640769958,
      "learning_rate": 0.00020704244796166627,
      "loss": 1.5898,
      "step": 54128
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5496280789375305,
      "learning_rate": 0.00020703251032675157,
      "loss": 1.5497,
      "step": 54129
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5373842120170593,
      "learning_rate": 0.00020702257280468567,
      "loss": 1.5716,
      "step": 54130
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5586497187614441,
      "learning_rate": 0.0002070126353954807,
      "loss": 1.6121,
      "step": 54131
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5475816130638123,
      "learning_rate": 0.00020700269809914866,
      "loss": 1.5843,
      "step": 54132
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.532974898815155,
      "learning_rate": 0.0002069927609157016,
      "loss": 1.5322,
      "step": 54133
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5259105563163757,
      "learning_rate": 0.00020698282384515177,
      "loss": 1.5409,
      "step": 54134
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5175108313560486,
      "learning_rate": 0.00020697288688751095,
      "loss": 1.6164,
      "step": 54135
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.533028244972229,
      "learning_rate": 0.00020696295004279136,
      "loss": 1.5606,
      "step": 54136
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.8564932942390442,
      "learning_rate": 0.00020695301331100503,
      "loss": 1.5765,
      "step": 54137
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5574431419372559,
      "learning_rate": 0.00020694307669216414,
      "loss": 1.6604,
      "step": 54138
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5309444069862366,
      "learning_rate": 0.00020693314018628054,
      "loss": 1.5913,
      "step": 54139
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5464332103729248,
      "learning_rate": 0.00020692320379336635,
      "loss": 1.5678,
      "step": 54140
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5327080488204956,
      "learning_rate": 0.00020691326751343388,
      "loss": 1.6086,
      "step": 54141
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5452474355697632,
      "learning_rate": 0.00020690333134649476,
      "loss": 1.5948,
      "step": 54142
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5461154580116272,
      "learning_rate": 0.00020689339529256134,
      "loss": 1.5548,
      "step": 54143
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5195953249931335,
      "learning_rate": 0.00020688345935164571,
      "loss": 1.5184,
      "step": 54144
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5404828190803528,
      "learning_rate": 0.00020687352352375982,
      "loss": 1.4934,
      "step": 54145
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5275718569755554,
      "learning_rate": 0.00020686358780891567,
      "loss": 1.63,
      "step": 54146
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.547319769859314,
      "learning_rate": 0.00020685365220712536,
      "loss": 1.571,
      "step": 54147
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5339330434799194,
      "learning_rate": 0.00020684371671840122,
      "loss": 1.5967,
      "step": 54148
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5483610033988953,
      "learning_rate": 0.00020683378134275484,
      "loss": 1.576,
      "step": 54149
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5401120781898499,
      "learning_rate": 0.00020682384608019865,
      "loss": 1.5426,
      "step": 54150
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5336599946022034,
      "learning_rate": 0.00020681391093074457,
      "loss": 1.5762,
      "step": 54151
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.52422696352005,
      "learning_rate": 0.00020680397589440465,
      "loss": 1.608,
      "step": 54152
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5425461530685425,
      "learning_rate": 0.00020679404097119098,
      "loss": 1.5842,
      "step": 54153
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5556496381759644,
      "learning_rate": 0.00020678410616111566,
      "loss": 1.5883,
      "step": 54154
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5435193181037903,
      "learning_rate": 0.00020677417146419062,
      "loss": 1.5929,
      "step": 54155
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5345414876937866,
      "learning_rate": 0.00020676423688042797,
      "loss": 1.6168,
      "step": 54156
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5513036251068115,
      "learning_rate": 0.00020675430240983987,
      "loss": 1.6036,
      "step": 54157
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5401158332824707,
      "learning_rate": 0.00020674436805243835,
      "loss": 1.5303,
      "step": 54158
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5580630302429199,
      "learning_rate": 0.00020673443380823535,
      "loss": 1.5479,
      "step": 54159
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5297680497169495,
      "learning_rate": 0.000206724499677243,
      "loss": 1.5377,
      "step": 54160
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5347008109092712,
      "learning_rate": 0.00020671456565947346,
      "loss": 1.5215,
      "step": 54161
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5226719379425049,
      "learning_rate": 0.00020670463175493858,
      "loss": 1.57,
      "step": 54162
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5270674824714661,
      "learning_rate": 0.0002066946979636505,
      "loss": 1.5726,
      "step": 54163
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5228880643844604,
      "learning_rate": 0.00020668476428562153,
      "loss": 1.5728,
      "step": 54164
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5406222343444824,
      "learning_rate": 0.00020667483072086325,
      "loss": 1.5153,
      "step": 54165
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5607496500015259,
      "learning_rate": 0.0002066648972693881,
      "loss": 1.5698,
      "step": 54166
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5634242296218872,
      "learning_rate": 0.00020665496393120798,
      "loss": 1.5616,
      "step": 54167
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5114001631736755,
      "learning_rate": 0.00020664503070633506,
      "loss": 1.5345,
      "step": 54168
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5344176292419434,
      "learning_rate": 0.00020663509759478123,
      "loss": 1.6026,
      "step": 54169
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5614873170852661,
      "learning_rate": 0.0002066251645965586,
      "loss": 1.6211,
      "step": 54170
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5587177872657776,
      "learning_rate": 0.0002066152317116794,
      "loss": 1.5625,
      "step": 54171
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5358177423477173,
      "learning_rate": 0.0002066052989401554,
      "loss": 1.5994,
      "step": 54172
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5487547516822815,
      "learning_rate": 0.00020659536628199888,
      "loss": 1.6472,
      "step": 54173
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.0444419384002686,
      "learning_rate": 0.00020658543373722185,
      "loss": 1.6373,
      "step": 54174
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5343183875083923,
      "learning_rate": 0.00020657550130583633,
      "loss": 1.6022,
      "step": 54175
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.549514651298523,
      "learning_rate": 0.00020656556898785434,
      "loss": 1.5868,
      "step": 54176
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5362042784690857,
      "learning_rate": 0.00020655563678328794,
      "loss": 1.5634,
      "step": 54177
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5405818223953247,
      "learning_rate": 0.00020654570469214942,
      "loss": 1.5523,
      "step": 54178
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.524640679359436,
      "learning_rate": 0.0002065357727144504,
      "loss": 1.5655,
      "step": 54179
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5436083078384399,
      "learning_rate": 0.00020652584085020331,
      "loss": 1.635,
      "step": 54180
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5344200730323792,
      "learning_rate": 0.00020651590909942012,
      "loss": 1.6064,
      "step": 54181
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5088222622871399,
      "learning_rate": 0.00020650597746211277,
      "loss": 1.5952,
      "step": 54182
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5399608016014099,
      "learning_rate": 0.00020649604593829342,
      "loss": 1.5156,
      "step": 54183
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5284331440925598,
      "learning_rate": 0.00020648611452797413,
      "loss": 1.5566,
      "step": 54184
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5425283908843994,
      "learning_rate": 0.00020647618323116685,
      "loss": 1.6034,
      "step": 54185
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5869908332824707,
      "learning_rate": 0.00020646625204788363,
      "loss": 1.609,
      "step": 54186
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5159149765968323,
      "learning_rate": 0.0002064563209781367,
      "loss": 1.6127,
      "step": 54187
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5444401502609253,
      "learning_rate": 0.00020644639002193808,
      "loss": 1.6392,
      "step": 54188
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5552840232849121,
      "learning_rate": 0.00020643645917929965,
      "loss": 1.6089,
      "step": 54189
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5685375928878784,
      "learning_rate": 0.00020642652845023358,
      "loss": 1.6224,
      "step": 54190
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5441941618919373,
      "learning_rate": 0.000206416597834752,
      "loss": 1.6011,
      "step": 54191
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5345391035079956,
      "learning_rate": 0.00020640666733286682,
      "loss": 1.593,
      "step": 54192
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.7365279793739319,
      "learning_rate": 0.0002063967369445901,
      "loss": 1.5703,
      "step": 54193
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5299485921859741,
      "learning_rate": 0.00020638680666993414,
      "loss": 1.5099,
      "step": 54194
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5297455191612244,
      "learning_rate": 0.00020637687650891057,
      "loss": 1.6286,
      "step": 54195
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5557325482368469,
      "learning_rate": 0.00020636694646153177,
      "loss": 1.5886,
      "step": 54196
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5343809127807617,
      "learning_rate": 0.00020635701652780967,
      "loss": 1.6135,
      "step": 54197
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5338283777236938,
      "learning_rate": 0.00020634708670775646,
      "loss": 1.5255,
      "step": 54198
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5451431274414062,
      "learning_rate": 0.00020633715700138402,
      "loss": 1.5598,
      "step": 54199
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5480469465255737,
      "learning_rate": 0.00020632722740870438,
      "loss": 1.5682,
      "step": 54200
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5109933614730835,
      "learning_rate": 0.0002063172979297299,
      "loss": 1.5711,
      "step": 54201
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5257248878479004,
      "learning_rate": 0.00020630736856447224,
      "loss": 1.5988,
      "step": 54202
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5262816548347473,
      "learning_rate": 0.00020629743931294364,
      "loss": 1.5423,
      "step": 54203
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5194135904312134,
      "learning_rate": 0.00020628751017515626,
      "loss": 1.4758,
      "step": 54204
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5104508996009827,
      "learning_rate": 0.00020627758115112193,
      "loss": 1.5857,
      "step": 54205
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5541319847106934,
      "learning_rate": 0.00020626765224085282,
      "loss": 1.6101,
      "step": 54206
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5361876487731934,
      "learning_rate": 0.00020625772344436092,
      "loss": 1.56,
      "step": 54207
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5196763277053833,
      "learning_rate": 0.0002062477947616585,
      "loss": 1.6222,
      "step": 54208
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5422912836074829,
      "learning_rate": 0.0002062378661927573,
      "loss": 1.5753,
      "step": 54209
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.518690824508667,
      "learning_rate": 0.00020622793773766954,
      "loss": 1.606,
      "step": 54210
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5529116988182068,
      "learning_rate": 0.0002062180093964073,
      "loss": 1.6057,
      "step": 54211
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5343301892280579,
      "learning_rate": 0.00020620808116898252,
      "loss": 1.6259,
      "step": 54212
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5188956260681152,
      "learning_rate": 0.00020619815305540732,
      "loss": 1.5263,
      "step": 54213
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.535603940486908,
      "learning_rate": 0.00020618822505569378,
      "loss": 1.5865,
      "step": 54214
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5341420769691467,
      "learning_rate": 0.00020617829716985391,
      "loss": 1.5822,
      "step": 54215
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5222193598747253,
      "learning_rate": 0.00020616836939789965,
      "loss": 1.5465,
      "step": 54216
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5541360974311829,
      "learning_rate": 0.00020615844173984326,
      "loss": 1.6377,
      "step": 54217
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.516627311706543,
      "learning_rate": 0.00020614851419569673,
      "loss": 1.6237,
      "step": 54218
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5290406942367554,
      "learning_rate": 0.00020613858676547204,
      "loss": 1.5794,
      "step": 54219
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5090757012367249,
      "learning_rate": 0.00020612865944918125,
      "loss": 1.5263,
      "step": 54220
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5509448647499084,
      "learning_rate": 0.00020611873224683647,
      "loss": 1.5798,
      "step": 54221
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5453738570213318,
      "learning_rate": 0.0002061088051584497,
      "loss": 1.601,
      "step": 54222
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5348418951034546,
      "learning_rate": 0.00020609887818403294,
      "loss": 1.5549,
      "step": 54223
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5360236167907715,
      "learning_rate": 0.00020608895132359843,
      "loss": 1.6169,
      "step": 54224
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.525056779384613,
      "learning_rate": 0.00020607902457715803,
      "loss": 1.5665,
      "step": 54225
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5391261577606201,
      "learning_rate": 0.00020606909794472386,
      "loss": 1.6154,
      "step": 54226
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5384871363639832,
      "learning_rate": 0.00020605917142630794,
      "loss": 1.5277,
      "step": 54227
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5436672568321228,
      "learning_rate": 0.0002060492450219224,
      "loss": 1.5484,
      "step": 54228
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5629556179046631,
      "learning_rate": 0.00020603931873157923,
      "loss": 1.6021,
      "step": 54229
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5426192283630371,
      "learning_rate": 0.0002060293925552904,
      "loss": 1.5674,
      "step": 54230
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5257995128631592,
      "learning_rate": 0.00020601946649306815,
      "loss": 1.6754,
      "step": 54231
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.532651424407959,
      "learning_rate": 0.00020600954054492436,
      "loss": 1.5697,
      "step": 54232
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5339760184288025,
      "learning_rate": 0.00020599961471087113,
      "loss": 1.5303,
      "step": 54233
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5282396078109741,
      "learning_rate": 0.0002059896889909206,
      "loss": 1.552,
      "step": 54234
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5546022057533264,
      "learning_rate": 0.00020597976338508465,
      "loss": 1.5707,
      "step": 54235
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5285289883613586,
      "learning_rate": 0.00020596983789337536,
      "loss": 1.5899,
      "step": 54236
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5462684035301208,
      "learning_rate": 0.00020595991251580491,
      "loss": 1.637,
      "step": 54237
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.533424973487854,
      "learning_rate": 0.00020594998725238531,
      "loss": 1.5922,
      "step": 54238
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5162509679794312,
      "learning_rate": 0.00020594006210312852,
      "loss": 1.591,
      "step": 54239
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5310410261154175,
      "learning_rate": 0.00020593013706804664,
      "loss": 1.548,
      "step": 54240
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5366057753562927,
      "learning_rate": 0.00020592021214715177,
      "loss": 1.6308,
      "step": 54241
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5474597811698914,
      "learning_rate": 0.00020591028734045586,
      "loss": 1.5412,
      "step": 54242
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5750593543052673,
      "learning_rate": 0.00020590036264797086,
      "loss": 1.6586,
      "step": 54243
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5412242412567139,
      "learning_rate": 0.0002058904380697092,
      "loss": 1.5005,
      "step": 54244
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5316172242164612,
      "learning_rate": 0.0002058805136056825,
      "loss": 1.5364,
      "step": 54245
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5431094765663147,
      "learning_rate": 0.00020587058925590303,
      "loss": 1.5353,
      "step": 54246
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5395501852035522,
      "learning_rate": 0.00020586066502038282,
      "loss": 1.5651,
      "step": 54247
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5584185719490051,
      "learning_rate": 0.00020585074089913394,
      "loss": 1.5448,
      "step": 54248
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5851375460624695,
      "learning_rate": 0.00020584081689216832,
      "loss": 1.6292,
      "step": 54249
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5254114866256714,
      "learning_rate": 0.000205830892999498,
      "loss": 1.6398,
      "step": 54250
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5254907011985779,
      "learning_rate": 0.00020582096922113532,
      "loss": 1.5809,
      "step": 54251
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5428236126899719,
      "learning_rate": 0.0002058110455570919,
      "loss": 1.602,
      "step": 54252
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5343383550643921,
      "learning_rate": 0.00020580112200738003,
      "loss": 1.5478,
      "step": 54253
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5337915420532227,
      "learning_rate": 0.00020579119857201176,
      "loss": 1.4941,
      "step": 54254
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5320049524307251,
      "learning_rate": 0.00020578127525099917,
      "loss": 1.5255,
      "step": 54255
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5549188852310181,
      "learning_rate": 0.0002057713520443541,
      "loss": 1.6083,
      "step": 54256
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5267914533615112,
      "learning_rate": 0.00020576142895208877,
      "loss": 1.5829,
      "step": 54257
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5155351161956787,
      "learning_rate": 0.00020575150597421527,
      "loss": 1.5876,
      "step": 54258
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5333986878395081,
      "learning_rate": 0.0002057415831107454,
      "loss": 1.5539,
      "step": 54259
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.534846305847168,
      "learning_rate": 0.00020573166036169142,
      "loss": 1.569,
      "step": 54260
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5343531966209412,
      "learning_rate": 0.00020572173772706535,
      "loss": 1.5398,
      "step": 54261
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5486506223678589,
      "learning_rate": 0.00020571181520687918,
      "loss": 1.5332,
      "step": 54262
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5365132093429565,
      "learning_rate": 0.00020570189280114497,
      "loss": 1.5374,
      "step": 54263
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5319501161575317,
      "learning_rate": 0.00020569197050987467,
      "loss": 1.6314,
      "step": 54264
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5283461213111877,
      "learning_rate": 0.00020568204833308067,
      "loss": 1.547,
      "step": 54265
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5176752209663391,
      "learning_rate": 0.0002056721262707745,
      "loss": 1.6074,
      "step": 54266
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.528599202632904,
      "learning_rate": 0.0002056622043229686,
      "loss": 1.5286,
      "step": 54267
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5418117046356201,
      "learning_rate": 0.00020565228248967492,
      "loss": 1.534,
      "step": 54268
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5356717705726624,
      "learning_rate": 0.0002056423607709054,
      "loss": 1.5928,
      "step": 54269
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5345733761787415,
      "learning_rate": 0.00020563243916667216,
      "loss": 1.5793,
      "step": 54270
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5486667156219482,
      "learning_rate": 0.00020562251767698727,
      "loss": 1.5615,
      "step": 54271
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5242802500724792,
      "learning_rate": 0.00020561259630186271,
      "loss": 1.5654,
      "step": 54272
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5340290069580078,
      "learning_rate": 0.0002056026750413105,
      "loss": 1.5902,
      "step": 54273
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5894532799720764,
      "learning_rate": 0.00020559275389534277,
      "loss": 1.592,
      "step": 54274
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5482745170593262,
      "learning_rate": 0.00020558283286397158,
      "loss": 1.6409,
      "step": 54275
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5256940126419067,
      "learning_rate": 0.00020557291194720889,
      "loss": 1.5086,
      "step": 54276
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5273649096488953,
      "learning_rate": 0.00020556299114506672,
      "loss": 1.5772,
      "step": 54277
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5553922057151794,
      "learning_rate": 0.00020555307045755727,
      "loss": 1.6227,
      "step": 54278
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5186447501182556,
      "learning_rate": 0.0002055431498846924,
      "loss": 1.5809,
      "step": 54279
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5548529028892517,
      "learning_rate": 0.00020553322942648417,
      "loss": 1.5894,
      "step": 54280
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5438567399978638,
      "learning_rate": 0.00020552330908294486,
      "loss": 1.5829,
      "step": 54281
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5529306530952454,
      "learning_rate": 0.00020551338885408616,
      "loss": 1.5471,
      "step": 54282
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5380629897117615,
      "learning_rate": 0.0002055034687399203,
      "loss": 1.6368,
      "step": 54283
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.511867105960846,
      "learning_rate": 0.00020549354874045935,
      "loss": 1.5386,
      "step": 54284
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5429697632789612,
      "learning_rate": 0.0002054836288557154,
      "loss": 1.6185,
      "step": 54285
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5385231375694275,
      "learning_rate": 0.00020547370908570025,
      "loss": 1.6557,
      "step": 54286
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5277803540229797,
      "learning_rate": 0.00020546378943042608,
      "loss": 1.5453,
      "step": 54287
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5397990345954895,
      "learning_rate": 0.00020545386988990514,
      "loss": 1.6145,
      "step": 54288
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5289283990859985,
      "learning_rate": 0.00020544395046414907,
      "loss": 1.6239,
      "step": 54289
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5644491314888,
      "learning_rate": 0.00020543403115317013,
      "loss": 1.5771,
      "step": 54290
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5333182215690613,
      "learning_rate": 0.00020542411195698045,
      "loss": 1.5511,
      "step": 54291
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5267648100852966,
      "learning_rate": 0.00020541419287559194,
      "loss": 1.548,
      "step": 54292
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5393845438957214,
      "learning_rate": 0.0002054042739090166,
      "loss": 1.5866,
      "step": 54293
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5187523365020752,
      "learning_rate": 0.00020539435505726648,
      "loss": 1.5508,
      "step": 54294
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5114943981170654,
      "learning_rate": 0.0002053844363203539,
      "loss": 1.5509,
      "step": 54295
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5368333458900452,
      "learning_rate": 0.0002053745176982904,
      "loss": 1.56,
      "step": 54296
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5278217196464539,
      "learning_rate": 0.00020536459919108846,
      "loss": 1.5243,
      "step": 54297
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5428730845451355,
      "learning_rate": 0.00020535468079875994,
      "loss": 1.6097,
      "step": 54298
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5602646470069885,
      "learning_rate": 0.00020534476252131686,
      "loss": 1.5114,
      "step": 54299
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5376280546188354,
      "learning_rate": 0.00020533484435877127,
      "loss": 1.5218,
      "step": 54300
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5439956784248352,
      "learning_rate": 0.00020532492631113533,
      "loss": 1.6118,
      "step": 54301
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5317938327789307,
      "learning_rate": 0.00020531500837842092,
      "loss": 1.505,
      "step": 54302
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5204074382781982,
      "learning_rate": 0.00020530509056064004,
      "loss": 1.5888,
      "step": 54303
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5420295596122742,
      "learning_rate": 0.00020529517285780493,
      "loss": 1.5399,
      "step": 54304
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5363972783088684,
      "learning_rate": 0.00020528525526992752,
      "loss": 1.5636,
      "step": 54305
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5156119465827942,
      "learning_rate": 0.0002052753377970199,
      "loss": 1.6084,
      "step": 54306
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.709128201007843,
      "learning_rate": 0.00020526542043909393,
      "loss": 1.6256,
      "step": 54307
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5578172206878662,
      "learning_rate": 0.00020525550319616193,
      "loss": 1.6358,
      "step": 54308
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5364673137664795,
      "learning_rate": 0.00020524558606823572,
      "loss": 1.5369,
      "step": 54309
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5261261463165283,
      "learning_rate": 0.00020523566905532734,
      "loss": 1.6241,
      "step": 54310
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.547103762626648,
      "learning_rate": 0.00020522575215744905,
      "loss": 1.5943,
      "step": 54311
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5174274444580078,
      "learning_rate": 0.00020521583537461258,
      "loss": 1.5606,
      "step": 54312
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5206577777862549,
      "learning_rate": 0.00020520591870683017,
      "loss": 1.5487,
      "step": 54313
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.536331057548523,
      "learning_rate": 0.00020519600215411382,
      "loss": 1.6126,
      "step": 54314
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5295692682266235,
      "learning_rate": 0.00020518608571647558,
      "loss": 1.5419,
      "step": 54315
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5166701078414917,
      "learning_rate": 0.00020517616939392744,
      "loss": 1.5884,
      "step": 54316
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5476972460746765,
      "learning_rate": 0.0002051662531864814,
      "loss": 1.6195,
      "step": 54317
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5336248874664307,
      "learning_rate": 0.00020515633709414973,
      "loss": 1.5473,
      "step": 54318
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5535275340080261,
      "learning_rate": 0.0002051464211169441,
      "loss": 1.5683,
      "step": 54319
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5205127596855164,
      "learning_rate": 0.0002051365052548768,
      "loss": 1.6214,
      "step": 54320
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5277408361434937,
      "learning_rate": 0.00020512658950795986,
      "loss": 1.5569,
      "step": 54321
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.519540548324585,
      "learning_rate": 0.00020511667387620522,
      "loss": 1.6286,
      "step": 54322
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.538337767124176,
      "learning_rate": 0.00020510675835962495,
      "loss": 1.5786,
      "step": 54323
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5214887261390686,
      "learning_rate": 0.00020509684295823104,
      "loss": 1.5582,
      "step": 54324
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5569046139717102,
      "learning_rate": 0.00020508692767203573,
      "loss": 1.6364,
      "step": 54325
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5398215055465698,
      "learning_rate": 0.00020507701250105075,
      "loss": 1.5818,
      "step": 54326
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5535914897918701,
      "learning_rate": 0.00020506709744528832,
      "loss": 1.5673,
      "step": 54327
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5182801485061646,
      "learning_rate": 0.00020505718250476054,
      "loss": 1.6012,
      "step": 54328
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5322353839874268,
      "learning_rate": 0.00020504726767947928,
      "loss": 1.7116,
      "step": 54329
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5412758588790894,
      "learning_rate": 0.00020503735296945665,
      "loss": 1.6013,
      "step": 54330
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.540154218673706,
      "learning_rate": 0.00020502743837470477,
      "loss": 1.5863,
      "step": 54331
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5398131012916565,
      "learning_rate": 0.00020501752389523548,
      "loss": 1.5859,
      "step": 54332
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5285781025886536,
      "learning_rate": 0.00020500760953106085,
      "loss": 1.5143,
      "step": 54333
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.532981812953949,
      "learning_rate": 0.0002049976952821931,
      "loss": 1.6158,
      "step": 54334
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5381678342819214,
      "learning_rate": 0.00020498778114864418,
      "loss": 1.617,
      "step": 54335
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5137308835983276,
      "learning_rate": 0.00020497786713042604,
      "loss": 1.6187,
      "step": 54336
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5801029205322266,
      "learning_rate": 0.00020496795322755076,
      "loss": 1.5542,
      "step": 54337
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5473281145095825,
      "learning_rate": 0.00020495803944003046,
      "loss": 1.5821,
      "step": 54338
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5561571717262268,
      "learning_rate": 0.00020494812576787703,
      "loss": 1.6658,
      "step": 54339
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5376958250999451,
      "learning_rate": 0.00020493821221110247,
      "loss": 1.555,
      "step": 54340
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5444106459617615,
      "learning_rate": 0.0002049282987697191,
      "loss": 1.5517,
      "step": 54341
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5177722573280334,
      "learning_rate": 0.00020491838544373865,
      "loss": 1.6169,
      "step": 54342
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5292736887931824,
      "learning_rate": 0.00020490847223317328,
      "loss": 1.6005,
      "step": 54343
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.523630678653717,
      "learning_rate": 0.00020489855913803507,
      "loss": 1.6061,
      "step": 54344
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5298811197280884,
      "learning_rate": 0.00020488864615833603,
      "loss": 1.6382,
      "step": 54345
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5297486186027527,
      "learning_rate": 0.00020487873329408805,
      "loss": 1.6101,
      "step": 54346
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5452049374580383,
      "learning_rate": 0.00020486882054530326,
      "loss": 1.5698,
      "step": 54347
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5682420134544373,
      "learning_rate": 0.0002048589079119938,
      "loss": 1.5876,
      "step": 54348
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5356491804122925,
      "learning_rate": 0.00020484899539417154,
      "loss": 1.6505,
      "step": 54349
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5391991138458252,
      "learning_rate": 0.00020483908299184862,
      "loss": 1.5629,
      "step": 54350
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5327479243278503,
      "learning_rate": 0.00020482917070503711,
      "loss": 1.5878,
      "step": 54351
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5194694995880127,
      "learning_rate": 0.00020481925853374884,
      "loss": 1.5556,
      "step": 54352
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5321843028068542,
      "learning_rate": 0.00020480934647799592,
      "loss": 1.6259,
      "step": 54353
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5410031080245972,
      "learning_rate": 0.0002047994345377905,
      "loss": 1.5936,
      "step": 54354
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5574438571929932,
      "learning_rate": 0.0002047895227131446,
      "loss": 1.5661,
      "step": 54355
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5410294532775879,
      "learning_rate": 0.00020477961100407013,
      "loss": 1.5663,
      "step": 54356
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5353906154632568,
      "learning_rate": 0.0002047696994105792,
      "loss": 1.562,
      "step": 54357
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5362929105758667,
      "learning_rate": 0.00020475978793268383,
      "loss": 1.5506,
      "step": 54358
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5446268916130066,
      "learning_rate": 0.00020474987657039605,
      "loss": 1.5345,
      "step": 54359
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5563201904296875,
      "learning_rate": 0.0002047399653237278,
      "loss": 1.5709,
      "step": 54360
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5330439209938049,
      "learning_rate": 0.00020473005419269135,
      "loss": 1.5224,
      "step": 54361
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5393828749656677,
      "learning_rate": 0.00020472014317729845,
      "loss": 1.6666,
      "step": 54362
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5412856936454773,
      "learning_rate": 0.00020471023227756126,
      "loss": 1.506,
      "step": 54363
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.517175555229187,
      "learning_rate": 0.00020470032149349184,
      "loss": 1.5367,
      "step": 54364
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5779392719268799,
      "learning_rate": 0.00020469041082510223,
      "loss": 1.6775,
      "step": 54365
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5540245771408081,
      "learning_rate": 0.0002046805002724044,
      "loss": 1.5813,
      "step": 54366
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5328867435455322,
      "learning_rate": 0.00020467058983541028,
      "loss": 1.5373,
      "step": 54367
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5404989123344421,
      "learning_rate": 0.00020466067951413225,
      "loss": 1.6167,
      "step": 54368
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5403912663459778,
      "learning_rate": 0.00020465076930858186,
      "loss": 1.5419,
      "step": 54369
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5590025186538696,
      "learning_rate": 0.00020464085921877148,
      "loss": 1.5902,
      "step": 54370
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5591626763343811,
      "learning_rate": 0.0002046309492447131,
      "loss": 1.5529,
      "step": 54371
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.540428876876831,
      "learning_rate": 0.0002046210393864187,
      "loss": 1.6004,
      "step": 54372
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.548866868019104,
      "learning_rate": 0.00020461112964390024,
      "loss": 1.6654,
      "step": 54373
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5370996594429016,
      "learning_rate": 0.0002046012200171698,
      "loss": 1.5597,
      "step": 54374
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5183919072151184,
      "learning_rate": 0.00020459131050623957,
      "loss": 1.5739,
      "step": 54375
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5480720400810242,
      "learning_rate": 0.00020458140111112122,
      "loss": 1.5448,
      "step": 54376
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5281060934066772,
      "learning_rate": 0.0002045714918318271,
      "loss": 1.5571,
      "step": 54377
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5526482462882996,
      "learning_rate": 0.0002045615826683692,
      "loss": 1.5562,
      "step": 54378
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5379955768585205,
      "learning_rate": 0.00020455167362075935,
      "loss": 1.5609,
      "step": 54379
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5586399435997009,
      "learning_rate": 0.00020454176468900976,
      "loss": 1.5631,
      "step": 54380
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5527793765068054,
      "learning_rate": 0.00020453185587313233,
      "loss": 1.6165,
      "step": 54381
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.552227795124054,
      "learning_rate": 0.00020452194717313933,
      "loss": 1.5964,
      "step": 54382
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5429604053497314,
      "learning_rate": 0.00020451203858904245,
      "loss": 1.5592,
      "step": 54383
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5172111392021179,
      "learning_rate": 0.00020450213012085394,
      "loss": 1.5233,
      "step": 54384
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5440887212753296,
      "learning_rate": 0.00020449222176858583,
      "loss": 1.6773,
      "step": 54385
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5483670234680176,
      "learning_rate": 0.00020448231353225002,
      "loss": 1.5858,
      "step": 54386
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5744282007217407,
      "learning_rate": 0.0002044724054118586,
      "loss": 1.5675,
      "step": 54387
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5208441019058228,
      "learning_rate": 0.00020446249740742372,
      "loss": 1.6256,
      "step": 54388
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5280347466468811,
      "learning_rate": 0.00020445258951895718,
      "loss": 1.6057,
      "step": 54389
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5398252010345459,
      "learning_rate": 0.00020444268174647106,
      "loss": 1.591,
      "step": 54390
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5391718149185181,
      "learning_rate": 0.00020443277408997755,
      "loss": 1.593,
      "step": 54391
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5417878031730652,
      "learning_rate": 0.0002044228665494886,
      "loss": 1.5187,
      "step": 54392
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5560389161109924,
      "learning_rate": 0.00020441295912501615,
      "loss": 1.5604,
      "step": 54393
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5405047535896301,
      "learning_rate": 0.00020440305181657227,
      "loss": 1.4824,
      "step": 54394
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5285677909851074,
      "learning_rate": 0.0002043931446241691,
      "loss": 1.5458,
      "step": 54395
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5515285134315491,
      "learning_rate": 0.00020438323754781845,
      "loss": 1.573,
      "step": 54396
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.548263669013977,
      "learning_rate": 0.00020437333058753244,
      "loss": 1.5595,
      "step": 54397
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5339576601982117,
      "learning_rate": 0.00020436342374332328,
      "loss": 1.5114,
      "step": 54398
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.560637354850769,
      "learning_rate": 0.00020435351701520265,
      "loss": 1.6858,
      "step": 54399
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5351792573928833,
      "learning_rate": 0.0002043436104031828,
      "loss": 1.5177,
      "step": 54400
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5274665951728821,
      "learning_rate": 0.00020433370390727574,
      "loss": 1.5099,
      "step": 54401
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5265800356864929,
      "learning_rate": 0.00020432379752749352,
      "loss": 1.5659,
      "step": 54402
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5524471402168274,
      "learning_rate": 0.00020431389126384806,
      "loss": 1.5909,
      "step": 54403
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5382667779922485,
      "learning_rate": 0.00020430398511635137,
      "loss": 1.5976,
      "step": 54404
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5503403544425964,
      "learning_rate": 0.00020429407908501576,
      "loss": 1.601,
      "step": 54405
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5449501276016235,
      "learning_rate": 0.0002042841731698528,
      "loss": 1.6266,
      "step": 54406
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5498408675193787,
      "learning_rate": 0.00020427426737087487,
      "loss": 1.5702,
      "step": 54407
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5470306873321533,
      "learning_rate": 0.0002042643616880939,
      "loss": 1.6248,
      "step": 54408
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5097876787185669,
      "learning_rate": 0.00020425445612152178,
      "loss": 1.6195,
      "step": 54409
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5289164781570435,
      "learning_rate": 0.00020424455067117068,
      "loss": 1.5611,
      "step": 54410
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5546766519546509,
      "learning_rate": 0.00020423464533705256,
      "loss": 1.58,
      "step": 54411
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5450660586357117,
      "learning_rate": 0.00020422474011917965,
      "loss": 1.5613,
      "step": 54412
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5451193451881409,
      "learning_rate": 0.0002042148350175636,
      "loss": 1.5742,
      "step": 54413
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5303422212600708,
      "learning_rate": 0.00020420493003221667,
      "loss": 1.6126,
      "step": 54414
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5314545631408691,
      "learning_rate": 0.00020419502516315087,
      "loss": 1.6417,
      "step": 54415
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5325697064399719,
      "learning_rate": 0.00020418512041037819,
      "loss": 1.6749,
      "step": 54416
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5376738905906677,
      "learning_rate": 0.00020417521577391064,
      "loss": 1.6179,
      "step": 54417
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5320159792900085,
      "learning_rate": 0.0002041653112537603,
      "loss": 1.6257,
      "step": 54418
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5483160614967346,
      "learning_rate": 0.00020415540684993913,
      "loss": 1.5202,
      "step": 54419
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5396148562431335,
      "learning_rate": 0.0002041455025624591,
      "loss": 1.5531,
      "step": 54420
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5532885789871216,
      "learning_rate": 0.00020413559839133234,
      "loss": 1.6396,
      "step": 54421
    },
    {
      "epoch": 1.81,
      "grad_norm": 1.126336932182312,
      "learning_rate": 0.00020412569433657092,
      "loss": 1.5736,
      "step": 54422
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5195968151092529,
      "learning_rate": 0.00020411579039818673,
      "loss": 1.4997,
      "step": 54423
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5361667275428772,
      "learning_rate": 0.0002041058865761918,
      "loss": 1.5897,
      "step": 54424
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5354657769203186,
      "learning_rate": 0.0002040959828705983,
      "loss": 1.5656,
      "step": 54425
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5292912721633911,
      "learning_rate": 0.0002040860792814181,
      "loss": 1.5339,
      "step": 54426
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5270625948905945,
      "learning_rate": 0.00020407617580866315,
      "loss": 1.5655,
      "step": 54427
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5262058973312378,
      "learning_rate": 0.00020406627245234582,
      "loss": 1.6776,
      "step": 54428
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5410005450248718,
      "learning_rate": 0.00020405636921247766,
      "loss": 1.5793,
      "step": 54429
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5275666117668152,
      "learning_rate": 0.00020404646608907103,
      "loss": 1.5139,
      "step": 54430
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5518546104431152,
      "learning_rate": 0.00020403656308213785,
      "loss": 1.6443,
      "step": 54431
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5384425520896912,
      "learning_rate": 0.0002040266601916902,
      "loss": 1.5742,
      "step": 54432
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5205428600311279,
      "learning_rate": 0.00020401675741774,
      "loss": 1.5567,
      "step": 54433
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5408902168273926,
      "learning_rate": 0.0002040068547602992,
      "loss": 1.5588,
      "step": 54434
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5441343784332275,
      "learning_rate": 0.00020399695221938019,
      "loss": 1.4981,
      "step": 54435
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5539284348487854,
      "learning_rate": 0.0002039870497949945,
      "loss": 1.5876,
      "step": 54436
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5501329302787781,
      "learning_rate": 0.00020397714748715448,
      "loss": 1.5186,
      "step": 54437
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5470564961433411,
      "learning_rate": 0.0002039672452958721,
      "loss": 1.5684,
      "step": 54438
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.517665445804596,
      "learning_rate": 0.00020395734322115928,
      "loss": 1.5298,
      "step": 54439
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5454884767532349,
      "learning_rate": 0.00020394744126302807,
      "loss": 1.5775,
      "step": 54440
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5415214896202087,
      "learning_rate": 0.0002039375394214905,
      "loss": 1.5808,
      "step": 54441
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.522524893283844,
      "learning_rate": 0.0002039276376965587,
      "loss": 1.5486,
      "step": 54442
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5666376352310181,
      "learning_rate": 0.00020391773608824452,
      "loss": 1.5309,
      "step": 54443
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5624538064002991,
      "learning_rate": 0.00020390783459656002,
      "loss": 1.4927,
      "step": 54444
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5108586549758911,
      "learning_rate": 0.00020389793322151735,
      "loss": 1.5499,
      "step": 54445
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5508043169975281,
      "learning_rate": 0.00020388803196312838,
      "loss": 1.5881,
      "step": 54446
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.6096608638763428,
      "learning_rate": 0.00020387813082140514,
      "loss": 1.5782,
      "step": 54447
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5406811237335205,
      "learning_rate": 0.00020386822979635976,
      "loss": 1.531,
      "step": 54448
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5309770703315735,
      "learning_rate": 0.00020385832888800416,
      "loss": 1.6126,
      "step": 54449
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5429562926292419,
      "learning_rate": 0.0002038484280963503,
      "loss": 1.6501,
      "step": 54450
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5276439785957336,
      "learning_rate": 0.00020383852742141033,
      "loss": 1.6408,
      "step": 54451
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5508574843406677,
      "learning_rate": 0.0002038286268631963,
      "loss": 1.579,
      "step": 54452
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5148231983184814,
      "learning_rate": 0.0002038187264217201,
      "loss": 1.5264,
      "step": 54453
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.542579710483551,
      "learning_rate": 0.00020380882609699375,
      "loss": 1.5684,
      "step": 54454
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5639135241508484,
      "learning_rate": 0.0002037989258890294,
      "loss": 1.5883,
      "step": 54455
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5513210296630859,
      "learning_rate": 0.00020378902579783892,
      "loss": 1.5964,
      "step": 54456
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5536024570465088,
      "learning_rate": 0.0002037791258234343,
      "loss": 1.5289,
      "step": 54457
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5349721312522888,
      "learning_rate": 0.00020376922596582778,
      "loss": 1.4899,
      "step": 54458
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5505750775337219,
      "learning_rate": 0.00020375932622503117,
      "loss": 1.6165,
      "step": 54459
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5448129177093506,
      "learning_rate": 0.0002037494266010566,
      "loss": 1.6271,
      "step": 54460
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5070204138755798,
      "learning_rate": 0.00020373952709391597,
      "loss": 1.5536,
      "step": 54461
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5419656038284302,
      "learning_rate": 0.0002037296277036215,
      "loss": 1.6099,
      "step": 54462
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5369651317596436,
      "learning_rate": 0.00020371972843018492,
      "loss": 1.5372,
      "step": 54463
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.547825276851654,
      "learning_rate": 0.0002037098292736185,
      "loss": 1.5259,
      "step": 54464
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5377523303031921,
      "learning_rate": 0.00020369993023393418,
      "loss": 1.5066,
      "step": 54465
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5309500098228455,
      "learning_rate": 0.00020369003131114391,
      "loss": 1.6704,
      "step": 54466
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5279641151428223,
      "learning_rate": 0.00020368013250525975,
      "loss": 1.5536,
      "step": 54467
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5365704894065857,
      "learning_rate": 0.00020367023381629378,
      "loss": 1.5012,
      "step": 54468
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.535292387008667,
      "learning_rate": 0.00020366033524425788,
      "loss": 1.6098,
      "step": 54469
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5450514554977417,
      "learning_rate": 0.0002036504367891641,
      "loss": 1.6707,
      "step": 54470
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5765447020530701,
      "learning_rate": 0.00020364053845102454,
      "loss": 1.5628,
      "step": 54471
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5596410036087036,
      "learning_rate": 0.00020363064022985123,
      "loss": 1.5613,
      "step": 54472
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.541769802570343,
      "learning_rate": 0.00020362074212565607,
      "loss": 1.4883,
      "step": 54473
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5372155904769897,
      "learning_rate": 0.00020361084413845113,
      "loss": 1.5211,
      "step": 54474
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5290113687515259,
      "learning_rate": 0.00020360094626824845,
      "loss": 1.5732,
      "step": 54475
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5521003603935242,
      "learning_rate": 0.00020359104851505998,
      "loss": 1.5925,
      "step": 54476
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5143492817878723,
      "learning_rate": 0.00020358115087889772,
      "loss": 1.5951,
      "step": 54477
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5392611026763916,
      "learning_rate": 0.0002035712533597739,
      "loss": 1.5168,
      "step": 54478
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5478511452674866,
      "learning_rate": 0.00020356135595770024,
      "loss": 1.6189,
      "step": 54479
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5549091696739197,
      "learning_rate": 0.00020355145867268892,
      "loss": 1.6311,
      "step": 54480
    },
    {
      "epoch": 1.81,
      "grad_norm": 1.0823527574539185,
      "learning_rate": 0.00020354156150475188,
      "loss": 1.5795,
      "step": 54481
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.548723578453064,
      "learning_rate": 0.00020353166445390126,
      "loss": 1.5548,
      "step": 54482
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5520949959754944,
      "learning_rate": 0.00020352176752014894,
      "loss": 1.611,
      "step": 54483
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5382590293884277,
      "learning_rate": 0.00020351187070350685,
      "loss": 1.6157,
      "step": 54484
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5164106488227844,
      "learning_rate": 0.00020350197400398738,
      "loss": 1.5735,
      "step": 54485
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5642625689506531,
      "learning_rate": 0.00020349207742160208,
      "loss": 1.6251,
      "step": 54486
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5317713022232056,
      "learning_rate": 0.00020348218095636326,
      "loss": 1.5242,
      "step": 54487
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5336962342262268,
      "learning_rate": 0.0002034722846082829,
      "loss": 1.5939,
      "step": 54488
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5431072115898132,
      "learning_rate": 0.00020346238837737294,
      "loss": 1.5811,
      "step": 54489
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5368760228157043,
      "learning_rate": 0.0002034524922636454,
      "loss": 1.585,
      "step": 54490
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5227924585342407,
      "learning_rate": 0.00020344259626711223,
      "loss": 1.5173,
      "step": 54491
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5298776030540466,
      "learning_rate": 0.00020343270038778572,
      "loss": 1.6586,
      "step": 54492
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5695406794548035,
      "learning_rate": 0.00020342280462567745,
      "loss": 1.5735,
      "step": 54493
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5273782014846802,
      "learning_rate": 0.0002034129089807998,
      "loss": 1.5944,
      "step": 54494
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5353648066520691,
      "learning_rate": 0.00020340301345316464,
      "loss": 1.5864,
      "step": 54495
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5626264810562134,
      "learning_rate": 0.000203393118042784,
      "loss": 1.6298,
      "step": 54496
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5200904011726379,
      "learning_rate": 0.00020338322274966982,
      "loss": 1.5899,
      "step": 54497
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5416049957275391,
      "learning_rate": 0.0002033733275738341,
      "loss": 1.5595,
      "step": 54498
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5445199608802795,
      "learning_rate": 0.00020336343251528918,
      "loss": 1.5918,
      "step": 54499
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5537242293357849,
      "learning_rate": 0.0002033535375740466,
      "loss": 1.6232,
      "step": 54500
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.533353865146637,
      "learning_rate": 0.00020334364275011863,
      "loss": 1.5551,
      "step": 54501
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5557600259780884,
      "learning_rate": 0.00020333374804351728,
      "loss": 1.5925,
      "step": 54502
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5516383647918701,
      "learning_rate": 0.00020332385345425447,
      "loss": 1.635,
      "step": 54503
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5516051650047302,
      "learning_rate": 0.00020331395898234226,
      "loss": 1.5162,
      "step": 54504
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5394183397293091,
      "learning_rate": 0.00020330406462779275,
      "loss": 1.6206,
      "step": 54505
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5237377285957336,
      "learning_rate": 0.00020329417039061776,
      "loss": 1.5925,
      "step": 54506
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5433714389801025,
      "learning_rate": 0.00020328427627082935,
      "loss": 1.5534,
      "step": 54507
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5559439659118652,
      "learning_rate": 0.00020327438226843965,
      "loss": 1.5806,
      "step": 54508
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5527746081352234,
      "learning_rate": 0.00020326448838346064,
      "loss": 1.5962,
      "step": 54509
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5361650586128235,
      "learning_rate": 0.00020325459461590425,
      "loss": 1.4719,
      "step": 54510
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5298930406570435,
      "learning_rate": 0.00020324470096578248,
      "loss": 1.5521,
      "step": 54511
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5370264649391174,
      "learning_rate": 0.00020323480743310752,
      "loss": 1.614,
      "step": 54512
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5238532423973083,
      "learning_rate": 0.0002032249140178911,
      "loss": 1.5534,
      "step": 54513
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5660521388053894,
      "learning_rate": 0.00020321502072014535,
      "loss": 1.6555,
      "step": 54514
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5483042597770691,
      "learning_rate": 0.00020320512753988255,
      "loss": 1.5719,
      "step": 54515
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5360857844352722,
      "learning_rate": 0.00020319523447711422,
      "loss": 1.632,
      "step": 54516
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5503432154655457,
      "learning_rate": 0.00020318534153185264,
      "loss": 1.5284,
      "step": 54517
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5335503816604614,
      "learning_rate": 0.00020317544870410983,
      "loss": 1.5392,
      "step": 54518
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5517599582672119,
      "learning_rate": 0.0002031655559938978,
      "loss": 1.5801,
      "step": 54519
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5515247583389282,
      "learning_rate": 0.0002031556634012285,
      "loss": 1.5704,
      "step": 54520
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5253100991249084,
      "learning_rate": 0.00020314577092611386,
      "loss": 1.6161,
      "step": 54521
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5298141837120056,
      "learning_rate": 0.0002031358785685662,
      "loss": 1.5072,
      "step": 54522
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.537147581577301,
      "learning_rate": 0.0002031259863285971,
      "loss": 1.6088,
      "step": 54523
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5403842329978943,
      "learning_rate": 0.00020311609420621887,
      "loss": 1.5528,
      "step": 54524
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5107822418212891,
      "learning_rate": 0.00020310620220144343,
      "loss": 1.5566,
      "step": 54525
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5429466962814331,
      "learning_rate": 0.00020309631031428278,
      "loss": 1.577,
      "step": 54526
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5293188095092773,
      "learning_rate": 0.0002030864185447489,
      "loss": 1.4739,
      "step": 54527
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5392687320709229,
      "learning_rate": 0.00020307652689285376,
      "loss": 1.5803,
      "step": 54528
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5385060906410217,
      "learning_rate": 0.00020306663535860962,
      "loss": 1.5523,
      "step": 54529
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5465083718299866,
      "learning_rate": 0.00020305674394202817,
      "loss": 1.5566,
      "step": 54530
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.549464762210846,
      "learning_rate": 0.00020304685264312155,
      "loss": 1.5226,
      "step": 54531
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5366388559341431,
      "learning_rate": 0.00020303696146190185,
      "loss": 1.6059,
      "step": 54532
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5456758737564087,
      "learning_rate": 0.0002030270703983809,
      "loss": 1.5584,
      "step": 54533
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5472475290298462,
      "learning_rate": 0.00020301717945257086,
      "loss": 1.6434,
      "step": 54534
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5372746586799622,
      "learning_rate": 0.00020300728862448366,
      "loss": 1.5291,
      "step": 54535
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5129658579826355,
      "learning_rate": 0.00020299739791413129,
      "loss": 1.6005,
      "step": 54536
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5310102701187134,
      "learning_rate": 0.00020298750732152579,
      "loss": 1.5514,
      "step": 54537
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.533553421497345,
      "learning_rate": 0.00020297761684667911,
      "loss": 1.5476,
      "step": 54538
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5236331224441528,
      "learning_rate": 0.00020296772648960347,
      "loss": 1.5187,
      "step": 54539
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5571097731590271,
      "learning_rate": 0.0002029578362503106,
      "loss": 1.6328,
      "step": 54540
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5111863613128662,
      "learning_rate": 0.00020294794612881262,
      "loss": 1.5044,
      "step": 54541
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5298925042152405,
      "learning_rate": 0.00020293805612512161,
      "loss": 1.5149,
      "step": 54542
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5275610089302063,
      "learning_rate": 0.00020292816623924942,
      "loss": 1.5501,
      "step": 54543
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5546696186065674,
      "learning_rate": 0.00020291827647120805,
      "loss": 1.5555,
      "step": 54544
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5521169304847717,
      "learning_rate": 0.00020290838682100984,
      "loss": 1.5964,
      "step": 54545
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5310137271881104,
      "learning_rate": 0.00020289849728866632,
      "loss": 1.5462,
      "step": 54546
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.6031586527824402,
      "learning_rate": 0.00020288860787418979,
      "loss": 1.5623,
      "step": 54547
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5404528975486755,
      "learning_rate": 0.00020287871857759218,
      "loss": 1.5559,
      "step": 54548
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5573757290840149,
      "learning_rate": 0.00020286882939888552,
      "loss": 1.6645,
      "step": 54549
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5524081587791443,
      "learning_rate": 0.00020285894033808175,
      "loss": 1.5596,
      "step": 54550
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5509122610092163,
      "learning_rate": 0.00020284905139519285,
      "loss": 1.5845,
      "step": 54551
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.549508810043335,
      "learning_rate": 0.0002028391625702311,
      "loss": 1.6375,
      "step": 54552
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.5354547500610352,
      "learning_rate": 0.0002028292738632081,
      "loss": 1.5399,
      "step": 54553
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5104454159736633,
      "learning_rate": 0.00020281938527413608,
      "loss": 1.5579,
      "step": 54554
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5269555449485779,
      "learning_rate": 0.00020280949680302708,
      "loss": 1.6133,
      "step": 54555
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5348417162895203,
      "learning_rate": 0.00020279960844989296,
      "loss": 1.5783,
      "step": 54556
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5434635281562805,
      "learning_rate": 0.0002027897202147458,
      "loss": 1.5687,
      "step": 54557
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5401928424835205,
      "learning_rate": 0.00020277983209759755,
      "loss": 1.5283,
      "step": 54558
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5365883708000183,
      "learning_rate": 0.00020276994409846043,
      "loss": 1.5,
      "step": 54559
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.53830486536026,
      "learning_rate": 0.0002027600562173461,
      "loss": 1.6475,
      "step": 54560
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5382238030433655,
      "learning_rate": 0.00020275016845426678,
      "loss": 1.5438,
      "step": 54561
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5338277816772461,
      "learning_rate": 0.0002027402808092345,
      "loss": 1.5773,
      "step": 54562
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.519511878490448,
      "learning_rate": 0.00020273039328226112,
      "loss": 1.5839,
      "step": 54563
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5353898406028748,
      "learning_rate": 0.0002027205058733587,
      "loss": 1.5879,
      "step": 54564
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5679930448532104,
      "learning_rate": 0.00020271061858253932,
      "loss": 1.6139,
      "step": 54565
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5240798592567444,
      "learning_rate": 0.0002027007314098149,
      "loss": 1.5792,
      "step": 54566
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5575515627861023,
      "learning_rate": 0.00020269084435519733,
      "loss": 1.6186,
      "step": 54567
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.545318603515625,
      "learning_rate": 0.00020268095741869882,
      "loss": 1.5456,
      "step": 54568
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5385863780975342,
      "learning_rate": 0.00020267107060033132,
      "loss": 1.5816,
      "step": 54569
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5500351190567017,
      "learning_rate": 0.0002026611839001068,
      "loss": 1.6459,
      "step": 54570
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5367523431777954,
      "learning_rate": 0.0002026512973180372,
      "loss": 1.5887,
      "step": 54571
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5494335889816284,
      "learning_rate": 0.0002026414108541347,
      "loss": 1.4962,
      "step": 54572
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.561181366443634,
      "learning_rate": 0.0002026315245084111,
      "loss": 1.6182,
      "step": 54573
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5292195081710815,
      "learning_rate": 0.0002026216382808784,
      "loss": 1.4991,
      "step": 54574
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.553220808506012,
      "learning_rate": 0.0002026117521715488,
      "loss": 1.4982,
      "step": 54575
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5361137390136719,
      "learning_rate": 0.00020260186618043416,
      "loss": 1.539,
      "step": 54576
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5466596484184265,
      "learning_rate": 0.00020259198030754647,
      "loss": 1.5821,
      "step": 54577
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5667142868041992,
      "learning_rate": 0.00020258209455289777,
      "loss": 1.5391,
      "step": 54578
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.526437520980835,
      "learning_rate": 0.00020257220891650013,
      "loss": 1.5745,
      "step": 54579
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5523977279663086,
      "learning_rate": 0.00020256232339836537,
      "loss": 1.5493,
      "step": 54580
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5842435359954834,
      "learning_rate": 0.0002025524379985056,
      "loss": 1.6635,
      "step": 54581
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5498261451721191,
      "learning_rate": 0.0002025425527169329,
      "loss": 1.5928,
      "step": 54582
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5387933850288391,
      "learning_rate": 0.0002025326675536591,
      "loss": 1.5395,
      "step": 54583
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5332505702972412,
      "learning_rate": 0.0002025227825086963,
      "loss": 1.5677,
      "step": 54584
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5316283702850342,
      "learning_rate": 0.00020251289758205655,
      "loss": 1.6156,
      "step": 54585
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5335590839385986,
      "learning_rate": 0.00020250301277375174,
      "loss": 1.5686,
      "step": 54586
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5396307706832886,
      "learning_rate": 0.00020249312808379378,
      "loss": 1.5662,
      "step": 54587
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5232195258140564,
      "learning_rate": 0.00020248324351219488,
      "loss": 1.5315,
      "step": 54588
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5517669320106506,
      "learning_rate": 0.00020247335905896705,
      "loss": 1.5667,
      "step": 54589
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5312687754631042,
      "learning_rate": 0.0002024634747241221,
      "loss": 1.4923,
      "step": 54590
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5301068425178528,
      "learning_rate": 0.00020245359050767215,
      "loss": 1.603,
      "step": 54591
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5358281135559082,
      "learning_rate": 0.0002024437064096292,
      "loss": 1.5434,
      "step": 54592
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5384855270385742,
      "learning_rate": 0.00020243382243000517,
      "loss": 1.5635,
      "step": 54593
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5476445555686951,
      "learning_rate": 0.00020242393856881202,
      "loss": 1.5007,
      "step": 54594
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.53291255235672,
      "learning_rate": 0.00020241405482606206,
      "loss": 1.606,
      "step": 54595
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5487620234489441,
      "learning_rate": 0.0002024041712017668,
      "loss": 1.5579,
      "step": 54596
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5375605821609497,
      "learning_rate": 0.00020239428769593863,
      "loss": 1.5719,
      "step": 54597
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5346143245697021,
      "learning_rate": 0.00020238440430858938,
      "loss": 1.636,
      "step": 54598
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5522003769874573,
      "learning_rate": 0.00020237452103973112,
      "loss": 1.5036,
      "step": 54599
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5620371699333191,
      "learning_rate": 0.0002023646378893758,
      "loss": 1.5747,
      "step": 54600
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5116083025932312,
      "learning_rate": 0.0002023547548575353,
      "loss": 1.4861,
      "step": 54601
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5388017296791077,
      "learning_rate": 0.000202344871944222,
      "loss": 1.6198,
      "step": 54602
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5420467853546143,
      "learning_rate": 0.00020233498914944739,
      "loss": 1.5954,
      "step": 54603
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5243529081344604,
      "learning_rate": 0.00020232510647322382,
      "loss": 1.5902,
      "step": 54604
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.8286528587341309,
      "learning_rate": 0.0002023152239155632,
      "loss": 1.653,
      "step": 54605
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5373381972312927,
      "learning_rate": 0.00020230534147647747,
      "loss": 1.5623,
      "step": 54606
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5478034019470215,
      "learning_rate": 0.00020229545915597863,
      "loss": 1.5921,
      "step": 54607
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5383912324905396,
      "learning_rate": 0.0002022855769540787,
      "loss": 1.5732,
      "step": 54608
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5427724719047546,
      "learning_rate": 0.00020227569487078984,
      "loss": 1.5905,
      "step": 54609
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5260799527168274,
      "learning_rate": 0.00020226581290612366,
      "loss": 1.6395,
      "step": 54610
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5296511054039001,
      "learning_rate": 0.00020225593106009248,
      "loss": 1.534,
      "step": 54611
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5279139876365662,
      "learning_rate": 0.00020224604933270825,
      "loss": 1.5236,
      "step": 54612
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5338793992996216,
      "learning_rate": 0.0002022361677239829,
      "loss": 1.5587,
      "step": 54613
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5622590780258179,
      "learning_rate": 0.00020222628623392836,
      "loss": 1.6154,
      "step": 54614
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5460521578788757,
      "learning_rate": 0.0002022164048625567,
      "loss": 1.5875,
      "step": 54615
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5524659156799316,
      "learning_rate": 0.00020220652360988006,
      "loss": 1.5772,
      "step": 54616
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5411174297332764,
      "learning_rate": 0.00020219664247591015,
      "loss": 1.6277,
      "step": 54617
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5178301930427551,
      "learning_rate": 0.00020218676146065913,
      "loss": 1.5585,
      "step": 54618
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5484781861305237,
      "learning_rate": 0.00020217688056413903,
      "loss": 1.527,
      "step": 54619
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5385189056396484,
      "learning_rate": 0.00020216699978636176,
      "loss": 1.4651,
      "step": 54620
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5410528779029846,
      "learning_rate": 0.0002021571191273393,
      "loss": 1.5524,
      "step": 54621
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5413332581520081,
      "learning_rate": 0.00020214723858708378,
      "loss": 1.6086,
      "step": 54622
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5277925133705139,
      "learning_rate": 0.000202137358165607,
      "loss": 1.5723,
      "step": 54623
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5326459407806396,
      "learning_rate": 0.00020212747786292097,
      "loss": 1.6439,
      "step": 54624
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5438781380653381,
      "learning_rate": 0.00020211759767903788,
      "loss": 1.5842,
      "step": 54625
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5316267609596252,
      "learning_rate": 0.0002021077176139696,
      "loss": 1.5398,
      "step": 54626
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5447384119033813,
      "learning_rate": 0.00020209783766772814,
      "loss": 1.5474,
      "step": 54627
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5281562209129333,
      "learning_rate": 0.0002020879578403254,
      "loss": 1.5983,
      "step": 54628
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5608450770378113,
      "learning_rate": 0.00020207807813177355,
      "loss": 1.5721,
      "step": 54629
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5211974382400513,
      "learning_rate": 0.00020206819854208443,
      "loss": 1.586,
      "step": 54630
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5421552062034607,
      "learning_rate": 0.00020205831907127002,
      "loss": 1.6465,
      "step": 54631
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5170131921768188,
      "learning_rate": 0.00020204843971934256,
      "loss": 1.5699,
      "step": 54632
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5334569811820984,
      "learning_rate": 0.00020203856048631373,
      "loss": 1.5494,
      "step": 54633
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5650244355201721,
      "learning_rate": 0.00020202868137219563,
      "loss": 1.6293,
      "step": 54634
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5499006509780884,
      "learning_rate": 0.00020201880237700033,
      "loss": 1.5209,
      "step": 54635
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5725050568580627,
      "learning_rate": 0.00020200892350073982,
      "loss": 1.596,
      "step": 54636
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5374937057495117,
      "learning_rate": 0.00020199904474342594,
      "loss": 1.6021,
      "step": 54637
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5564097762107849,
      "learning_rate": 0.00020198916610507075,
      "loss": 1.6132,
      "step": 54638
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5340206027030945,
      "learning_rate": 0.00020197928758568646,
      "loss": 1.6253,
      "step": 54639
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5388849377632141,
      "learning_rate": 0.0002019694091852847,
      "loss": 1.599,
      "step": 54640
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5502076148986816,
      "learning_rate": 0.00020195953090387767,
      "loss": 1.5342,
      "step": 54641
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5441835522651672,
      "learning_rate": 0.0002019496527414774,
      "loss": 1.6417,
      "step": 54642
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5651218891143799,
      "learning_rate": 0.00020193977469809573,
      "loss": 1.637,
      "step": 54643
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5633468627929688,
      "learning_rate": 0.00020192989677374472,
      "loss": 1.5198,
      "step": 54644
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5608206391334534,
      "learning_rate": 0.00020192001896843632,
      "loss": 1.5604,
      "step": 54645
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5337478518486023,
      "learning_rate": 0.00020191014128218275,
      "loss": 1.5985,
      "step": 54646
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5464418530464172,
      "learning_rate": 0.00020190026371499564,
      "loss": 1.6208,
      "step": 54647
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5724058747291565,
      "learning_rate": 0.00020189038626688716,
      "loss": 1.5669,
      "step": 54648
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5488522052764893,
      "learning_rate": 0.0002018805089378694,
      "loss": 1.5995,
      "step": 54649
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5424999594688416,
      "learning_rate": 0.00020187063172795423,
      "loss": 1.6205,
      "step": 54650
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5152325630187988,
      "learning_rate": 0.00020186075463715357,
      "loss": 1.5139,
      "step": 54651
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5556219220161438,
      "learning_rate": 0.0002018508776654796,
      "loss": 1.4933,
      "step": 54652
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5409026741981506,
      "learning_rate": 0.0002018410008129441,
      "loss": 1.5997,
      "step": 54653
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5382018685340881,
      "learning_rate": 0.00020183112407955918,
      "loss": 1.5277,
      "step": 54654
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5415617823600769,
      "learning_rate": 0.0002018212474653368,
      "loss": 1.628,
      "step": 54655
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5390256643295288,
      "learning_rate": 0.00020181137097028903,
      "loss": 1.5566,
      "step": 54656
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5387858152389526,
      "learning_rate": 0.00020180149459442777,
      "loss": 1.5885,
      "step": 54657
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5545778274536133,
      "learning_rate": 0.00020179161833776502,
      "loss": 1.5545,
      "step": 54658
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5439615249633789,
      "learning_rate": 0.0002017817422003128,
      "loss": 1.5057,
      "step": 54659
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5268073678016663,
      "learning_rate": 0.000201771866182083,
      "loss": 1.6192,
      "step": 54660
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5257412195205688,
      "learning_rate": 0.0002017619902830877,
      "loss": 1.5755,
      "step": 54661
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.526779055595398,
      "learning_rate": 0.00020175211450333897,
      "loss": 1.5973,
      "step": 54662
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5591888427734375,
      "learning_rate": 0.00020174223884284853,
      "loss": 1.6146,
      "step": 54663
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5440546274185181,
      "learning_rate": 0.00020173236330162862,
      "loss": 1.6249,
      "step": 54664
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5435056686401367,
      "learning_rate": 0.00020172248787969115,
      "loss": 1.5619,
      "step": 54665
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5528252124786377,
      "learning_rate": 0.0002017126125770481,
      "loss": 1.6038,
      "step": 54666
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5396065711975098,
      "learning_rate": 0.00020170273739371147,
      "loss": 1.5359,
      "step": 54667
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.528083086013794,
      "learning_rate": 0.00020169286232969315,
      "loss": 1.5556,
      "step": 54668
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5447222590446472,
      "learning_rate": 0.0002016829873850054,
      "loss": 1.5761,
      "step": 54669
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5472633838653564,
      "learning_rate": 0.00020167311255965976,
      "loss": 1.6211,
      "step": 54670
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5204105973243713,
      "learning_rate": 0.0002016632378536686,
      "loss": 1.6158,
      "step": 54671
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5166571140289307,
      "learning_rate": 0.00020165336326704385,
      "loss": 1.5864,
      "step": 54672
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5273939371109009,
      "learning_rate": 0.00020164348879979734,
      "loss": 1.5369,
      "step": 54673
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5639330744743347,
      "learning_rate": 0.00020163361445194118,
      "loss": 1.5756,
      "step": 54674
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5208214521408081,
      "learning_rate": 0.00020162374022348722,
      "loss": 1.5995,
      "step": 54675
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5152868032455444,
      "learning_rate": 0.00020161386611444775,
      "loss": 1.6005,
      "step": 54676
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5464159250259399,
      "learning_rate": 0.00020160399212483434,
      "loss": 1.6565,
      "step": 54677
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5567641258239746,
      "learning_rate": 0.00020159411825465925,
      "loss": 1.5849,
      "step": 54678
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5457990169525146,
      "learning_rate": 0.00020158424450393445,
      "loss": 1.7379,
      "step": 54679
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.540776252746582,
      "learning_rate": 0.00020157437087267184,
      "loss": 1.5724,
      "step": 54680
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5624036192893982,
      "learning_rate": 0.00020156449736088343,
      "loss": 1.5325,
      "step": 54681
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5320847034454346,
      "learning_rate": 0.0002015546239685813,
      "loss": 1.5861,
      "step": 54682
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5188865065574646,
      "learning_rate": 0.00020154475069577728,
      "loss": 1.5424,
      "step": 54683
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5389513969421387,
      "learning_rate": 0.00020153487754248335,
      "loss": 1.6274,
      "step": 54684
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5300402045249939,
      "learning_rate": 0.00020152500450871163,
      "loss": 1.6273,
      "step": 54685
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5718466639518738,
      "learning_rate": 0.00020151513159447413,
      "loss": 1.599,
      "step": 54686
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5379172563552856,
      "learning_rate": 0.00020150525879978267,
      "loss": 1.4873,
      "step": 54687
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5311171412467957,
      "learning_rate": 0.00020149538612464934,
      "loss": 1.5556,
      "step": 54688
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5654628872871399,
      "learning_rate": 0.00020148551356908613,
      "loss": 1.5761,
      "step": 54689
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5374993681907654,
      "learning_rate": 0.00020147564113310494,
      "loss": 1.5503,
      "step": 54690
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5177091956138611,
      "learning_rate": 0.00020146576881671774,
      "loss": 1.587,
      "step": 54691
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5106884837150574,
      "learning_rate": 0.0002014558966199367,
      "loss": 1.5428,
      "step": 54692
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5541275143623352,
      "learning_rate": 0.00020144602454277364,
      "loss": 1.6421,
      "step": 54693
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5421003699302673,
      "learning_rate": 0.00020143615258524052,
      "loss": 1.6177,
      "step": 54694
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5433357954025269,
      "learning_rate": 0.00020142628074734946,
      "loss": 1.5537,
      "step": 54695
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5425431728363037,
      "learning_rate": 0.0002014164090291124,
      "loss": 1.529,
      "step": 54696
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5284992456436157,
      "learning_rate": 0.00020140653743054118,
      "loss": 1.5787,
      "step": 54697
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.532893717288971,
      "learning_rate": 0.00020139666595164797,
      "loss": 1.6217,
      "step": 54698
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5331231355667114,
      "learning_rate": 0.00020138679459244472,
      "loss": 1.5641,
      "step": 54699
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5652461051940918,
      "learning_rate": 0.00020137692335294333,
      "loss": 1.689,
      "step": 54700
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5461923480033875,
      "learning_rate": 0.0002013670522331558,
      "loss": 1.5951,
      "step": 54701
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.531331479549408,
      "learning_rate": 0.0002013571812330942,
      "loss": 1.5705,
      "step": 54702
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.534085214138031,
      "learning_rate": 0.0002013473103527704,
      "loss": 1.561,
      "step": 54703
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5232486724853516,
      "learning_rate": 0.00020133743959219636,
      "loss": 1.5692,
      "step": 54704
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5334872603416443,
      "learning_rate": 0.00020132756895138417,
      "loss": 1.5452,
      "step": 54705
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5444120168685913,
      "learning_rate": 0.00020131769843034588,
      "loss": 1.6333,
      "step": 54706
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5720240473747253,
      "learning_rate": 0.00020130782802909328,
      "loss": 1.5846,
      "step": 54707
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5450131893157959,
      "learning_rate": 0.00020129795774763843,
      "loss": 1.5339,
      "step": 54708
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5475020408630371,
      "learning_rate": 0.00020128808758599338,
      "loss": 1.5892,
      "step": 54709
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5516039133071899,
      "learning_rate": 0.00020127821754417,
      "loss": 1.6182,
      "step": 54710
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5602079629898071,
      "learning_rate": 0.00020126834762218023,
      "loss": 1.5496,
      "step": 54711
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5333759784698486,
      "learning_rate": 0.00020125847782003636,
      "loss": 1.5308,
      "step": 54712
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5431697368621826,
      "learning_rate": 0.00020124860813774994,
      "loss": 1.573,
      "step": 54713
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5120399594306946,
      "learning_rate": 0.0002012387385753332,
      "loss": 1.5346,
      "step": 54714
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.524620532989502,
      "learning_rate": 0.0002012288691327981,
      "loss": 1.604,
      "step": 54715
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5382771492004395,
      "learning_rate": 0.0002012189998101567,
      "loss": 1.5995,
      "step": 54716
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.523205578327179,
      "learning_rate": 0.00020120913060742078,
      "loss": 1.5242,
      "step": 54717
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5530433058738708,
      "learning_rate": 0.00020119926152460237,
      "loss": 1.5541,
      "step": 54718
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5523614287376404,
      "learning_rate": 0.00020118939256171366,
      "loss": 1.5847,
      "step": 54719
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5563100576400757,
      "learning_rate": 0.00020117952371876628,
      "loss": 1.5503,
      "step": 54720
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5387317538261414,
      "learning_rate": 0.0002011696549957725,
      "loss": 1.6014,
      "step": 54721
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5624728202819824,
      "learning_rate": 0.00020115978639274423,
      "loss": 1.571,
      "step": 54722
    },
    {
      "epoch": 1.82,
      "grad_norm": 1.230912685394287,
      "learning_rate": 0.00020114991790969337,
      "loss": 1.6204,
      "step": 54723
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5759109258651733,
      "learning_rate": 0.00020114004954663195,
      "loss": 1.5526,
      "step": 54724
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5487571358680725,
      "learning_rate": 0.00020113018130357184,
      "loss": 1.6034,
      "step": 54725
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5306293964385986,
      "learning_rate": 0.00020112031318052532,
      "loss": 1.5205,
      "step": 54726
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5395307540893555,
      "learning_rate": 0.00020111044517750402,
      "loss": 1.5457,
      "step": 54727
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5385814905166626,
      "learning_rate": 0.0002011005772945201,
      "loss": 1.5538,
      "step": 54728
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5600460767745972,
      "learning_rate": 0.00020109070953158557,
      "loss": 1.5898,
      "step": 54729
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5550051331520081,
      "learning_rate": 0.0002010808418887123,
      "loss": 1.5403,
      "step": 54730
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5334523916244507,
      "learning_rate": 0.0002010709743659123,
      "loss": 1.5805,
      "step": 54731
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5153928399085999,
      "learning_rate": 0.00020106110696319765,
      "loss": 1.5853,
      "step": 54732
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5588019490242004,
      "learning_rate": 0.00020105123968058015,
      "loss": 1.5857,
      "step": 54733
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5557492971420288,
      "learning_rate": 0.0002010413725180718,
      "loss": 1.6458,
      "step": 54734
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.541776180267334,
      "learning_rate": 0.0002010315054756847,
      "loss": 1.6332,
      "step": 54735
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5544414520263672,
      "learning_rate": 0.00020102163855343087,
      "loss": 1.6582,
      "step": 54736
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5441401600837708,
      "learning_rate": 0.00020101177175132207,
      "loss": 1.6131,
      "step": 54737
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5515217185020447,
      "learning_rate": 0.0002010019050693704,
      "loss": 1.6537,
      "step": 54738
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5576040148735046,
      "learning_rate": 0.00020099203850758795,
      "loss": 1.5652,
      "step": 54739
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5279123187065125,
      "learning_rate": 0.0002009821720659865,
      "loss": 1.5894,
      "step": 54740
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5632834434509277,
      "learning_rate": 0.00020097230574457804,
      "loss": 1.599,
      "step": 54741
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5435720682144165,
      "learning_rate": 0.0002009624395433746,
      "loss": 1.594,
      "step": 54742
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5455757975578308,
      "learning_rate": 0.0002009525734623883,
      "loss": 1.5657,
      "step": 54743
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5299811959266663,
      "learning_rate": 0.00020094270750163092,
      "loss": 1.5879,
      "step": 54744
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5384109616279602,
      "learning_rate": 0.00020093284166111444,
      "loss": 1.6168,
      "step": 54745
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5418480634689331,
      "learning_rate": 0.00020092297594085103,
      "loss": 1.5735,
      "step": 54746
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5269871354103088,
      "learning_rate": 0.00020091311034085244,
      "loss": 1.5025,
      "step": 54747
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5369508266448975,
      "learning_rate": 0.00020090324486113064,
      "loss": 1.5167,
      "step": 54748
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5299043655395508,
      "learning_rate": 0.00020089337950169792,
      "loss": 1.5542,
      "step": 54749
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5499175786972046,
      "learning_rate": 0.00020088351426256586,
      "loss": 1.6392,
      "step": 54750
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5301089882850647,
      "learning_rate": 0.0002008736491437466,
      "loss": 1.5655,
      "step": 54751
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5316411256790161,
      "learning_rate": 0.0002008637841452522,
      "loss": 1.4715,
      "step": 54752
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5539458394050598,
      "learning_rate": 0.00020085391926709457,
      "loss": 1.5694,
      "step": 54753
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5549378991127014,
      "learning_rate": 0.00020084405450928567,
      "loss": 1.5712,
      "step": 54754
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.7819137573242188,
      "learning_rate": 0.0002008341898718374,
      "loss": 1.5401,
      "step": 54755
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5464270710945129,
      "learning_rate": 0.00020082432535476193,
      "loss": 1.557,
      "step": 54756
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5230709314346313,
      "learning_rate": 0.00020081446095807098,
      "loss": 1.5411,
      "step": 54757
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5358824729919434,
      "learning_rate": 0.00020080459668177673,
      "loss": 1.5582,
      "step": 54758
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5424376130104065,
      "learning_rate": 0.00020079473252589114,
      "loss": 1.6274,
      "step": 54759
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5556813478469849,
      "learning_rate": 0.00020078486849042608,
      "loss": 1.5336,
      "step": 54760
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5613930225372314,
      "learning_rate": 0.00020077500457539355,
      "loss": 1.625,
      "step": 54761
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5335407853126526,
      "learning_rate": 0.0002007651407808055,
      "loss": 1.5607,
      "step": 54762
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5358125567436218,
      "learning_rate": 0.00020075527710667409,
      "loss": 1.5682,
      "step": 54763
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5435105562210083,
      "learning_rate": 0.000200745413553011,
      "loss": 1.5112,
      "step": 54764
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5703848600387573,
      "learning_rate": 0.00020073555011982844,
      "loss": 1.6086,
      "step": 54765
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5265322327613831,
      "learning_rate": 0.00020072568680713833,
      "loss": 1.6392,
      "step": 54766
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5350948572158813,
      "learning_rate": 0.00020071582361495254,
      "loss": 1.582,
      "step": 54767
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5282699465751648,
      "learning_rate": 0.0002007059605432831,
      "loss": 1.5768,
      "step": 54768
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5417684316635132,
      "learning_rate": 0.00020069609759214207,
      "loss": 1.4973,
      "step": 54769
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5473365187644958,
      "learning_rate": 0.0002006862347615413,
      "loss": 1.5964,
      "step": 54770
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5252198576927185,
      "learning_rate": 0.00020067637205149272,
      "loss": 1.6256,
      "step": 54771
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5280759334564209,
      "learning_rate": 0.00020066650946200847,
      "loss": 1.6084,
      "step": 54772
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5380538105964661,
      "learning_rate": 0.0002006566469931005,
      "loss": 1.5576,
      "step": 54773
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5398862361907959,
      "learning_rate": 0.00020064678464478064,
      "loss": 1.5552,
      "step": 54774
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5451317429542542,
      "learning_rate": 0.00020063692241706097,
      "loss": 1.6559,
      "step": 54775
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5457350015640259,
      "learning_rate": 0.00020062706030995353,
      "loss": 1.6143,
      "step": 54776
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5894469618797302,
      "learning_rate": 0.0002006171983234701,
      "loss": 1.5515,
      "step": 54777
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5388758182525635,
      "learning_rate": 0.0002006073364576227,
      "loss": 1.5793,
      "step": 54778
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5478209257125854,
      "learning_rate": 0.00020059747471242348,
      "loss": 1.6032,
      "step": 54779
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5449383854866028,
      "learning_rate": 0.00020058761308788413,
      "loss": 1.497,
      "step": 54780
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5556017160415649,
      "learning_rate": 0.0002005777515840168,
      "loss": 1.521,
      "step": 54781
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5521564483642578,
      "learning_rate": 0.0002005678902008335,
      "loss": 1.5963,
      "step": 54782
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5542855858802795,
      "learning_rate": 0.00020055802893834614,
      "loss": 1.5938,
      "step": 54783
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5451309680938721,
      "learning_rate": 0.00020054816779656664,
      "loss": 1.5373,
      "step": 54784
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5593761205673218,
      "learning_rate": 0.00020053830677550693,
      "loss": 1.6233,
      "step": 54785
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5600603222846985,
      "learning_rate": 0.00020052844587517925,
      "loss": 1.6281,
      "step": 54786
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.547223687171936,
      "learning_rate": 0.00020051858509559524,
      "loss": 1.5658,
      "step": 54787
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5417598485946655,
      "learning_rate": 0.00020050872443676702,
      "loss": 1.5537,
      "step": 54788
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5344627499580383,
      "learning_rate": 0.00020049886389870663,
      "loss": 1.5732,
      "step": 54789
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5438381433486938,
      "learning_rate": 0.00020048900348142588,
      "loss": 1.6483,
      "step": 54790
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5284157395362854,
      "learning_rate": 0.00020047914318493685,
      "loss": 1.5494,
      "step": 54791
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5277358889579773,
      "learning_rate": 0.0002004692830092514,
      "loss": 1.6157,
      "step": 54792
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5485436320304871,
      "learning_rate": 0.00020045942295438172,
      "loss": 1.5702,
      "step": 54793
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5413494110107422,
      "learning_rate": 0.0002004495630203395,
      "loss": 1.5297,
      "step": 54794
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5314420461654663,
      "learning_rate": 0.00020043970320713687,
      "loss": 1.6027,
      "step": 54795
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5434940457344055,
      "learning_rate": 0.00020042984351478587,
      "loss": 1.5659,
      "step": 54796
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5515856742858887,
      "learning_rate": 0.00020041998394329828,
      "loss": 1.5693,
      "step": 54797
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5301493406295776,
      "learning_rate": 0.0002004101244926862,
      "loss": 1.6077,
      "step": 54798
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5337488055229187,
      "learning_rate": 0.00020040026516296154,
      "loss": 1.5801,
      "step": 54799
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5298418998718262,
      "learning_rate": 0.00020039040595413627,
      "loss": 1.5134,
      "step": 54800
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5337504744529724,
      "learning_rate": 0.0002003805468662223,
      "loss": 1.6144,
      "step": 54801
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5484669804573059,
      "learning_rate": 0.00020037068789923175,
      "loss": 1.6223,
      "step": 54802
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.538846492767334,
      "learning_rate": 0.00020036082905317655,
      "loss": 1.5309,
      "step": 54803
    },
    {
      "epoch": 1.82,
      "grad_norm": 1.0370458364486694,
      "learning_rate": 0.00020035097032806854,
      "loss": 1.6676,
      "step": 54804
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5279887914657593,
      "learning_rate": 0.0002003411117239198,
      "loss": 1.5521,
      "step": 54805
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5392111539840698,
      "learning_rate": 0.00020033125324074233,
      "loss": 1.5518,
      "step": 54806
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5294256806373596,
      "learning_rate": 0.00020032139487854788,
      "loss": 1.578,
      "step": 54807
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5434686541557312,
      "learning_rate": 0.00020031153663734863,
      "loss": 1.5927,
      "step": 54808
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5316101312637329,
      "learning_rate": 0.00020030167851715658,
      "loss": 1.5591,
      "step": 54809
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5382680296897888,
      "learning_rate": 0.00020029182051798354,
      "loss": 1.5473,
      "step": 54810
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5232409834861755,
      "learning_rate": 0.0002002819626398415,
      "loss": 1.6229,
      "step": 54811
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5563771724700928,
      "learning_rate": 0.00020027210488274247,
      "loss": 1.5475,
      "step": 54812
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5342459082603455,
      "learning_rate": 0.0002002622472466985,
      "loss": 1.5554,
      "step": 54813
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.534174919128418,
      "learning_rate": 0.00020025238973172136,
      "loss": 1.5203,
      "step": 54814
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.540010392665863,
      "learning_rate": 0.00020024253233782315,
      "loss": 1.5605,
      "step": 54815
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5409513115882874,
      "learning_rate": 0.00020023267506501588,
      "loss": 1.5143,
      "step": 54816
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5693694353103638,
      "learning_rate": 0.00020022281791331136,
      "loss": 1.5687,
      "step": 54817
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5671671032905579,
      "learning_rate": 0.00020021296088272166,
      "loss": 1.5442,
      "step": 54818
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5347417593002319,
      "learning_rate": 0.0002002031039732588,
      "loss": 1.5398,
      "step": 54819
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5778491497039795,
      "learning_rate": 0.0002001932471849346,
      "loss": 1.6171,
      "step": 54820
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.538336992263794,
      "learning_rate": 0.000200183390517761,
      "loss": 1.6088,
      "step": 54821
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5505983829498291,
      "learning_rate": 0.0002001735339717501,
      "loss": 1.6108,
      "step": 54822
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5297628045082092,
      "learning_rate": 0.00020016367754691392,
      "loss": 1.5805,
      "step": 54823
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5573078393936157,
      "learning_rate": 0.00020015382124326426,
      "loss": 1.5483,
      "step": 54824
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5574385523796082,
      "learning_rate": 0.00020014396506081315,
      "loss": 1.5328,
      "step": 54825
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5392679572105408,
      "learning_rate": 0.0002001341089995726,
      "loss": 1.5174,
      "step": 54826
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5499492287635803,
      "learning_rate": 0.0002001242530595545,
      "loss": 1.5772,
      "step": 54827
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5492063164710999,
      "learning_rate": 0.00020011439724077076,
      "loss": 1.5814,
      "step": 54828
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5329099893569946,
      "learning_rate": 0.00020010454154323362,
      "loss": 1.5907,
      "step": 54829
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5826665759086609,
      "learning_rate": 0.00020009468596695465,
      "loss": 1.6412,
      "step": 54830
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5268223881721497,
      "learning_rate": 0.00020008483051194603,
      "loss": 1.5603,
      "step": 54831
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5804462432861328,
      "learning_rate": 0.0002000749751782198,
      "loss": 1.571,
      "step": 54832
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5824913382530212,
      "learning_rate": 0.0002000651199657878,
      "loss": 1.5548,
      "step": 54833
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5440492033958435,
      "learning_rate": 0.000200055264874662,
      "loss": 1.493,
      "step": 54834
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5335768461227417,
      "learning_rate": 0.00020004540990485432,
      "loss": 1.6094,
      "step": 54835
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5651578903198242,
      "learning_rate": 0.00020003555505637696,
      "loss": 1.4763,
      "step": 54836
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5306395888328552,
      "learning_rate": 0.00020002570032924154,
      "loss": 1.5824,
      "step": 54837
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.545678436756134,
      "learning_rate": 0.00020001584572346023,
      "loss": 1.6538,
      "step": 54838
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5563729405403137,
      "learning_rate": 0.000200005991239045,
      "loss": 1.5369,
      "step": 54839
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5540884733200073,
      "learning_rate": 0.00019999613687600773,
      "loss": 1.5826,
      "step": 54840
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5572057366371155,
      "learning_rate": 0.00019998628263436042,
      "loss": 1.6186,
      "step": 54841
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5732982754707336,
      "learning_rate": 0.00019997642851411494,
      "loss": 1.6071,
      "step": 54842
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5278950929641724,
      "learning_rate": 0.00019996657451528353,
      "loss": 1.53,
      "step": 54843
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5320804119110107,
      "learning_rate": 0.0001999567206378778,
      "loss": 1.5853,
      "step": 54844
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5369935631752014,
      "learning_rate": 0.0001999468668819099,
      "loss": 1.6487,
      "step": 54845
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5547064542770386,
      "learning_rate": 0.00019993701324739184,
      "loss": 1.5835,
      "step": 54846
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5576652884483337,
      "learning_rate": 0.00019992715973433543,
      "loss": 1.5462,
      "step": 54847
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.531309962272644,
      "learning_rate": 0.00019991730634275268,
      "loss": 1.638,
      "step": 54848
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5520337224006653,
      "learning_rate": 0.00019990745307265568,
      "loss": 1.6147,
      "step": 54849
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5306105613708496,
      "learning_rate": 0.00019989759992405622,
      "loss": 1.5525,
      "step": 54850
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5381156206130981,
      "learning_rate": 0.00019988774689696625,
      "loss": 1.5996,
      "step": 54851
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5334295034408569,
      "learning_rate": 0.00019987789399139783,
      "loss": 1.6536,
      "step": 54852
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5548907518386841,
      "learning_rate": 0.000199868041207363,
      "loss": 1.6151,
      "step": 54853
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5493378639221191,
      "learning_rate": 0.00019985818854487356,
      "loss": 1.6287,
      "step": 54854
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5549077987670898,
      "learning_rate": 0.00019984833600394147,
      "loss": 1.604,
      "step": 54855
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5714432597160339,
      "learning_rate": 0.00019983848358457885,
      "loss": 1.5986,
      "step": 54856
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5530080199241638,
      "learning_rate": 0.0001998286312867975,
      "loss": 1.6687,
      "step": 54857
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5387254953384399,
      "learning_rate": 0.00019981877911060938,
      "loss": 1.5068,
      "step": 54858
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5362609028816223,
      "learning_rate": 0.0001998089270560265,
      "loss": 1.5999,
      "step": 54859
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5412642359733582,
      "learning_rate": 0.00019979907512306092,
      "loss": 1.6132,
      "step": 54860
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5664557814598083,
      "learning_rate": 0.00019978922331172447,
      "loss": 1.6109,
      "step": 54861
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5593186616897583,
      "learning_rate": 0.00019977937162202907,
      "loss": 1.6225,
      "step": 54862
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5362246632575989,
      "learning_rate": 0.00019976952005398683,
      "loss": 1.6015,
      "step": 54863
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5361467003822327,
      "learning_rate": 0.00019975966860760958,
      "loss": 1.5418,
      "step": 54864
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5391486287117004,
      "learning_rate": 0.00019974981728290925,
      "loss": 1.6036,
      "step": 54865
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.6098626255989075,
      "learning_rate": 0.00019973996607989807,
      "loss": 1.5282,
      "step": 54866
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5458905696868896,
      "learning_rate": 0.00019973011499858762,
      "loss": 1.513,
      "step": 54867
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5413452386856079,
      "learning_rate": 0.00019972026403899005,
      "loss": 1.5633,
      "step": 54868
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.543327808380127,
      "learning_rate": 0.00019971041320111736,
      "loss": 1.5995,
      "step": 54869
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5677541494369507,
      "learning_rate": 0.0001997005624849815,
      "loss": 1.6405,
      "step": 54870
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5703434348106384,
      "learning_rate": 0.00019969071189059428,
      "loss": 1.5896,
      "step": 54871
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5305611491203308,
      "learning_rate": 0.00019968086141796773,
      "loss": 1.596,
      "step": 54872
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.553771436214447,
      "learning_rate": 0.000199671011067114,
      "loss": 1.6104,
      "step": 54873
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5288022756576538,
      "learning_rate": 0.0001996611608380447,
      "loss": 1.4848,
      "step": 54874
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5430004000663757,
      "learning_rate": 0.00019965131073077202,
      "loss": 1.5841,
      "step": 54875
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5407689213752747,
      "learning_rate": 0.00019964146074530795,
      "loss": 1.5186,
      "step": 54876
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.567795991897583,
      "learning_rate": 0.00019963161088166426,
      "loss": 1.6215,
      "step": 54877
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5664083361625671,
      "learning_rate": 0.00019962176113985305,
      "loss": 1.6216,
      "step": 54878
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5435287952423096,
      "learning_rate": 0.00019961191151988617,
      "loss": 1.6277,
      "step": 54879
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5478413701057434,
      "learning_rate": 0.00019960206202177577,
      "loss": 1.5602,
      "step": 54880
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.543828547000885,
      "learning_rate": 0.00019959221264553352,
      "loss": 1.5975,
      "step": 54881
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5467099547386169,
      "learning_rate": 0.0001995823633911716,
      "loss": 1.5976,
      "step": 54882
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5458560585975647,
      "learning_rate": 0.00019957251425870197,
      "loss": 1.5487,
      "step": 54883
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5414705872535706,
      "learning_rate": 0.0001995626652481364,
      "loss": 1.5379,
      "step": 54884
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.7283279299736023,
      "learning_rate": 0.00019955281635948698,
      "loss": 1.5798,
      "step": 54885
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.519424319267273,
      "learning_rate": 0.0001995429675927657,
      "loss": 1.58,
      "step": 54886
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5287705063819885,
      "learning_rate": 0.0001995331189479844,
      "loss": 1.5705,
      "step": 54887
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5480074286460876,
      "learning_rate": 0.00019952327042515501,
      "loss": 1.6191,
      "step": 54888
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5209868550300598,
      "learning_rate": 0.00019951342202428966,
      "loss": 1.533,
      "step": 54889
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5417870879173279,
      "learning_rate": 0.00019950357374540027,
      "loss": 1.6383,
      "step": 54890
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5348551869392395,
      "learning_rate": 0.00019949372558849862,
      "loss": 1.5846,
      "step": 54891
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5627555251121521,
      "learning_rate": 0.00019948387755359687,
      "loss": 1.6141,
      "step": 54892
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5439127683639526,
      "learning_rate": 0.00019947402964070688,
      "loss": 1.6229,
      "step": 54893
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.556470513343811,
      "learning_rate": 0.00019946418184984055,
      "loss": 1.7159,
      "step": 54894
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5392962694168091,
      "learning_rate": 0.00019945433418100983,
      "loss": 1.5832,
      "step": 54895
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5466780066490173,
      "learning_rate": 0.00019944448663422693,
      "loss": 1.5807,
      "step": 54896
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5621307492256165,
      "learning_rate": 0.00019943463920950343,
      "loss": 1.5902,
      "step": 54897
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5216902494430542,
      "learning_rate": 0.00019942479190685145,
      "loss": 1.5593,
      "step": 54898
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5950424075126648,
      "learning_rate": 0.00019941494472628304,
      "loss": 1.5125,
      "step": 54899
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5586324334144592,
      "learning_rate": 0.00019940509766781008,
      "loss": 1.5602,
      "step": 54900
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5712303519248962,
      "learning_rate": 0.00019939525073144447,
      "loss": 1.5112,
      "step": 54901
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5323069095611572,
      "learning_rate": 0.00019938540391719814,
      "loss": 1.5105,
      "step": 54902
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5293514728546143,
      "learning_rate": 0.0001993755572250833,
      "loss": 1.565,
      "step": 54903
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5261971354484558,
      "learning_rate": 0.0001993657106551115,
      "loss": 1.5821,
      "step": 54904
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5498911738395691,
      "learning_rate": 0.00019935586420729496,
      "loss": 1.5609,
      "step": 54905
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5585997104644775,
      "learning_rate": 0.00019934601788164564,
      "loss": 1.6258,
      "step": 54906
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5841014385223389,
      "learning_rate": 0.00019933617167817538,
      "loss": 1.6613,
      "step": 54907
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5239821672439575,
      "learning_rate": 0.00019932632559689617,
      "loss": 1.5554,
      "step": 54908
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5325201153755188,
      "learning_rate": 0.00019931647963781989,
      "loss": 1.5147,
      "step": 54909
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5214141607284546,
      "learning_rate": 0.00019930663380095877,
      "loss": 1.599,
      "step": 54910
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5432183742523193,
      "learning_rate": 0.00019929678808632435,
      "loss": 1.5696,
      "step": 54911
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5608640909194946,
      "learning_rate": 0.00019928694249392886,
      "loss": 1.6213,
      "step": 54912
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.539686918258667,
      "learning_rate": 0.00019927709702378428,
      "loss": 1.5466,
      "step": 54913
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5434457659721375,
      "learning_rate": 0.00019926725167590236,
      "loss": 1.5696,
      "step": 54914
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5479794144630432,
      "learning_rate": 0.00019925740645029515,
      "loss": 1.5904,
      "step": 54915
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5465279221534729,
      "learning_rate": 0.0001992475613469747,
      "loss": 1.6205,
      "step": 54916
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5323783755302429,
      "learning_rate": 0.00019923771636595275,
      "loss": 1.5484,
      "step": 54917
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5545551180839539,
      "learning_rate": 0.00019922787150724138,
      "loss": 1.6429,
      "step": 54918
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5308309197425842,
      "learning_rate": 0.00019921802677085255,
      "loss": 1.4416,
      "step": 54919
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5398532152175903,
      "learning_rate": 0.00019920818215679825,
      "loss": 1.5229,
      "step": 54920
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5377817749977112,
      "learning_rate": 0.0001991983376650903,
      "loss": 1.521,
      "step": 54921
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5307930111885071,
      "learning_rate": 0.0001991884932957407,
      "loss": 1.6071,
      "step": 54922
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5455586910247803,
      "learning_rate": 0.00019917864904876148,
      "loss": 1.6264,
      "step": 54923
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5410624146461487,
      "learning_rate": 0.00019916880492416443,
      "loss": 1.5487,
      "step": 54924
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5354854464530945,
      "learning_rate": 0.0001991589609219616,
      "loss": 1.5977,
      "step": 54925
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5754031538963318,
      "learning_rate": 0.00019914911704216508,
      "loss": 1.5442,
      "step": 54926
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5287297368049622,
      "learning_rate": 0.00019913927328478657,
      "loss": 1.5857,
      "step": 54927
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5360778570175171,
      "learning_rate": 0.00019912942964983812,
      "loss": 1.5181,
      "step": 54928
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5688992738723755,
      "learning_rate": 0.00019911958613733167,
      "loss": 1.6065,
      "step": 54929
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5482133030891418,
      "learning_rate": 0.00019910974274727926,
      "loss": 1.5237,
      "step": 54930
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5407187938690186,
      "learning_rate": 0.00019909989947969263,
      "loss": 1.5663,
      "step": 54931
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5729619264602661,
      "learning_rate": 0.0001990900563345839,
      "loss": 1.6946,
      "step": 54932
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5343915224075317,
      "learning_rate": 0.00019908021331196504,
      "loss": 1.5952,
      "step": 54933
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5332781672477722,
      "learning_rate": 0.00019907037041184784,
      "loss": 1.541,
      "step": 54934
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5352985858917236,
      "learning_rate": 0.0001990605276342444,
      "loss": 1.5786,
      "step": 54935
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5427699685096741,
      "learning_rate": 0.00019905068497916664,
      "loss": 1.6267,
      "step": 54936
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5509134531021118,
      "learning_rate": 0.0001990408424466264,
      "loss": 1.5507,
      "step": 54937
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5449447631835938,
      "learning_rate": 0.00019903100003663564,
      "loss": 1.5944,
      "step": 54938
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5529904365539551,
      "learning_rate": 0.00019902115774920646,
      "loss": 1.5928,
      "step": 54939
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.576777994632721,
      "learning_rate": 0.00019901131558435078,
      "loss": 1.6021,
      "step": 54940
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5328136086463928,
      "learning_rate": 0.00019900147354208036,
      "loss": 1.5119,
      "step": 54941
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5567315816879272,
      "learning_rate": 0.0001989916316224073,
      "loss": 1.5661,
      "step": 54942
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5644630193710327,
      "learning_rate": 0.00019898178982534362,
      "loss": 1.5304,
      "step": 54943
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5249813199043274,
      "learning_rate": 0.00019897194815090104,
      "loss": 1.6117,
      "step": 54944
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5220044255256653,
      "learning_rate": 0.00019896210659909162,
      "loss": 1.5734,
      "step": 54945
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5284615159034729,
      "learning_rate": 0.00019895226516992748,
      "loss": 1.5097,
      "step": 54946
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5452185273170471,
      "learning_rate": 0.00019894242386342024,
      "loss": 1.6537,
      "step": 54947
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5639292001724243,
      "learning_rate": 0.00019893258267958202,
      "loss": 1.6025,
      "step": 54948
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5692856311798096,
      "learning_rate": 0.00019892274161842477,
      "loss": 1.5657,
      "step": 54949
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5559965372085571,
      "learning_rate": 0.00019891290067996047,
      "loss": 1.5232,
      "step": 54950
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5411106944084167,
      "learning_rate": 0.000198903059864201,
      "loss": 1.5757,
      "step": 54951
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5467766523361206,
      "learning_rate": 0.00019889321917115823,
      "loss": 1.5937,
      "step": 54952
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.524915874004364,
      "learning_rate": 0.00019888337860084435,
      "loss": 1.5162,
      "step": 54953
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5663363933563232,
      "learning_rate": 0.000198873538153271,
      "loss": 1.6195,
      "step": 54954
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.546688973903656,
      "learning_rate": 0.0001988636978284503,
      "loss": 1.613,
      "step": 54955
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5520991683006287,
      "learning_rate": 0.00019885385762639427,
      "loss": 1.5928,
      "step": 54956
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5580239295959473,
      "learning_rate": 0.0001988440175471147,
      "loss": 1.5854,
      "step": 54957
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.574562668800354,
      "learning_rate": 0.00019883417759062358,
      "loss": 1.5534,
      "step": 54958
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5353507995605469,
      "learning_rate": 0.00019882433775693278,
      "loss": 1.6294,
      "step": 54959
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5358865261077881,
      "learning_rate": 0.0001988144980460545,
      "loss": 1.5433,
      "step": 54960
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5460975170135498,
      "learning_rate": 0.00019880465845800035,
      "loss": 1.5633,
      "step": 54961
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5642294883728027,
      "learning_rate": 0.0001987948189927825,
      "loss": 1.5307,
      "step": 54962
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.544183611869812,
      "learning_rate": 0.0001987849796504129,
      "loss": 1.5392,
      "step": 54963
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5430570244789124,
      "learning_rate": 0.0001987751404309033,
      "loss": 1.4868,
      "step": 54964
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.541732132434845,
      "learning_rate": 0.0001987653013342658,
      "loss": 1.5725,
      "step": 54965
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.568511426448822,
      "learning_rate": 0.00019875546236051237,
      "loss": 1.6148,
      "step": 54966
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5456830859184265,
      "learning_rate": 0.00019874562350965489,
      "loss": 1.5291,
      "step": 54967
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.525616466999054,
      "learning_rate": 0.00019873578478170513,
      "loss": 1.5587,
      "step": 54968
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5312687158584595,
      "learning_rate": 0.00019872594617667536,
      "loss": 1.5849,
      "step": 54969
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5276244282722473,
      "learning_rate": 0.00019871610769457736,
      "loss": 1.6044,
      "step": 54970
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5489878058433533,
      "learning_rate": 0.0001987062693354231,
      "loss": 1.5658,
      "step": 54971
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.574706494808197,
      "learning_rate": 0.00019869643109922443,
      "loss": 1.5412,
      "step": 54972
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5467767715454102,
      "learning_rate": 0.00019868659298599345,
      "loss": 1.5928,
      "step": 54973
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.546515703201294,
      "learning_rate": 0.00019867675499574198,
      "loss": 1.6095,
      "step": 54974
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5629622936248779,
      "learning_rate": 0.00019866691712848192,
      "loss": 1.5553,
      "step": 54975
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5582672953605652,
      "learning_rate": 0.0001986570793842255,
      "loss": 1.5113,
      "step": 54976
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5504835844039917,
      "learning_rate": 0.00019864724176298424,
      "loss": 1.5525,
      "step": 54977
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5372744798660278,
      "learning_rate": 0.00019863740426477036,
      "loss": 1.5749,
      "step": 54978
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5383509397506714,
      "learning_rate": 0.00019862756688959573,
      "loss": 1.6332,
      "step": 54979
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5338594913482666,
      "learning_rate": 0.00019861772963747237,
      "loss": 1.5869,
      "step": 54980
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5591371059417725,
      "learning_rate": 0.00019860789250841212,
      "loss": 1.5107,
      "step": 54981
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5261774659156799,
      "learning_rate": 0.00019859805550242684,
      "loss": 1.5522,
      "step": 54982
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5476800203323364,
      "learning_rate": 0.00019858821861952876,
      "loss": 1.533,
      "step": 54983
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5463457107543945,
      "learning_rate": 0.00019857838185972947,
      "loss": 1.5939,
      "step": 54984
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5808589458465576,
      "learning_rate": 0.00019856854522304113,
      "loss": 1.5898,
      "step": 54985
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5420658588409424,
      "learning_rate": 0.00019855870870947565,
      "loss": 1.5744,
      "step": 54986
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5467730164527893,
      "learning_rate": 0.000198548872319045,
      "loss": 1.5621,
      "step": 54987
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5307421088218689,
      "learning_rate": 0.00019853903605176107,
      "loss": 1.5427,
      "step": 54988
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5792081952095032,
      "learning_rate": 0.00019852919990763566,
      "loss": 1.5214,
      "step": 54989
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.585974931716919,
      "learning_rate": 0.00019851936388668107,
      "loss": 1.6118,
      "step": 54990
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5533219575881958,
      "learning_rate": 0.0001985095279889088,
      "loss": 1.5824,
      "step": 54991
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5484763979911804,
      "learning_rate": 0.00019849969221433114,
      "loss": 1.6175,
      "step": 54992
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5107055306434631,
      "learning_rate": 0.00019848985656295993,
      "loss": 1.597,
      "step": 54993
    },
    {
      "epoch": 1.83,
      "grad_norm": 1.525754690170288,
      "learning_rate": 0.000198480021034807,
      "loss": 1.493,
      "step": 54994
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5555292963981628,
      "learning_rate": 0.00019847018562988436,
      "loss": 1.5251,
      "step": 54995
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5372273325920105,
      "learning_rate": 0.0001984603503482039,
      "loss": 1.5829,
      "step": 54996
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5365495681762695,
      "learning_rate": 0.00019845051518977783,
      "loss": 1.5985,
      "step": 54997
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5274578928947449,
      "learning_rate": 0.0001984406801546176,
      "loss": 1.5794,
      "step": 54998
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5597119927406311,
      "learning_rate": 0.0001984308452427356,
      "loss": 1.6063,
      "step": 54999
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5322169065475464,
      "learning_rate": 0.00019842101045414355,
      "loss": 1.5358,
      "step": 55000
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.544266402721405,
      "learning_rate": 0.0001984111757888534,
      "loss": 1.5663,
      "step": 55001
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5401816964149475,
      "learning_rate": 0.00019840134124687715,
      "loss": 1.5881,
      "step": 55002
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5480372309684753,
      "learning_rate": 0.0001983915068282267,
      "loss": 1.524,
      "step": 55003
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5387413501739502,
      "learning_rate": 0.00019838167253291399,
      "loss": 1.5543,
      "step": 55004
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5364901423454285,
      "learning_rate": 0.00019837183836095084,
      "loss": 1.6206,
      "step": 55005
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5518332719802856,
      "learning_rate": 0.0001983620043123494,
      "loss": 1.5597,
      "step": 55006
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5446895956993103,
      "learning_rate": 0.00019835217038712157,
      "loss": 1.6307,
      "step": 55007
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5353473424911499,
      "learning_rate": 0.00019834233658527919,
      "loss": 1.5488,
      "step": 55008
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.531358003616333,
      "learning_rate": 0.0001983325029068342,
      "loss": 1.5699,
      "step": 55009
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5467295050621033,
      "learning_rate": 0.00019832266935179861,
      "loss": 1.5334,
      "step": 55010
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5247209668159485,
      "learning_rate": 0.00019831283592018428,
      "loss": 1.5893,
      "step": 55011
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5451903343200684,
      "learning_rate": 0.00019830300261200316,
      "loss": 1.64,
      "step": 55012
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5469238758087158,
      "learning_rate": 0.00019829316942726738,
      "loss": 1.5706,
      "step": 55013
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5180095434188843,
      "learning_rate": 0.00019828333636598847,
      "loss": 1.6324,
      "step": 55014
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5398682355880737,
      "learning_rate": 0.0001982735034281787,
      "loss": 1.588,
      "step": 55015
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5464918613433838,
      "learning_rate": 0.0001982636706138499,
      "loss": 1.5633,
      "step": 55016
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5421053171157837,
      "learning_rate": 0.00019825383792301408,
      "loss": 1.5894,
      "step": 55017
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5379282832145691,
      "learning_rate": 0.00019824400535568305,
      "loss": 1.4767,
      "step": 55018
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5147255063056946,
      "learning_rate": 0.00019823417291186876,
      "loss": 1.5164,
      "step": 55019
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.556359052658081,
      "learning_rate": 0.00019822434059158336,
      "loss": 1.5891,
      "step": 55020
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5283101201057434,
      "learning_rate": 0.00019821450839483843,
      "loss": 1.5801,
      "step": 55021
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5445321202278137,
      "learning_rate": 0.00019820467632164612,
      "loss": 1.5182,
      "step": 55022
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5590509176254272,
      "learning_rate": 0.00019819484437201844,
      "loss": 1.6078,
      "step": 55023
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5273734331130981,
      "learning_rate": 0.00019818501254596714,
      "loss": 1.5052,
      "step": 55024
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5333094000816345,
      "learning_rate": 0.0001981751808435042,
      "loss": 1.5811,
      "step": 55025
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5366097092628479,
      "learning_rate": 0.00019816534926464158,
      "loss": 1.5592,
      "step": 55026
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5374391078948975,
      "learning_rate": 0.0001981555178093914,
      "loss": 1.5052,
      "step": 55027
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5593865513801575,
      "learning_rate": 0.0001981456864777652,
      "loss": 1.6015,
      "step": 55028
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5454797744750977,
      "learning_rate": 0.00019813585526977522,
      "loss": 1.5905,
      "step": 55029
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5341193079948425,
      "learning_rate": 0.00019812602418543338,
      "loss": 1.5127,
      "step": 55030
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5405129790306091,
      "learning_rate": 0.0001981161932247514,
      "loss": 1.4833,
      "step": 55031
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.536009669303894,
      "learning_rate": 0.0001981063623877414,
      "loss": 1.5675,
      "step": 55032
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5538233518600464,
      "learning_rate": 0.00019809653167441536,
      "loss": 1.5693,
      "step": 55033
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.562973141670227,
      "learning_rate": 0.000198086701084785,
      "loss": 1.5602,
      "step": 55034
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5674175024032593,
      "learning_rate": 0.00019807687061886231,
      "loss": 1.6086,
      "step": 55035
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5476936101913452,
      "learning_rate": 0.00019806704027665933,
      "loss": 1.5955,
      "step": 55036
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5401172041893005,
      "learning_rate": 0.00019805721005818804,
      "loss": 1.5771,
      "step": 55037
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5346564054489136,
      "learning_rate": 0.00019804737996346024,
      "loss": 1.5333,
      "step": 55038
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.555294930934906,
      "learning_rate": 0.00019803754999248783,
      "loss": 1.5906,
      "step": 55039
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5671488046646118,
      "learning_rate": 0.0001980277201452829,
      "loss": 1.5199,
      "step": 55040
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.536952555179596,
      "learning_rate": 0.0001980178904218572,
      "loss": 1.5837,
      "step": 55041
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5426823496818542,
      "learning_rate": 0.0001980080608222228,
      "loss": 1.6098,
      "step": 55042
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5709837675094604,
      "learning_rate": 0.00019799823134639163,
      "loss": 1.5407,
      "step": 55043
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5734301805496216,
      "learning_rate": 0.00019798840199437555,
      "loss": 1.5829,
      "step": 55044
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5466495156288147,
      "learning_rate": 0.00019797857276618647,
      "loss": 1.6216,
      "step": 55045
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5474778413772583,
      "learning_rate": 0.0001979687436618364,
      "loss": 1.542,
      "step": 55046
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5632959604263306,
      "learning_rate": 0.0001979589146813373,
      "loss": 1.5312,
      "step": 55047
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5559839606285095,
      "learning_rate": 0.00019794908582470091,
      "loss": 1.568,
      "step": 55048
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5305284857749939,
      "learning_rate": 0.00019793925709193937,
      "loss": 1.5594,
      "step": 55049
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5467508435249329,
      "learning_rate": 0.00019792942848306458,
      "loss": 1.6363,
      "step": 55050
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5453118681907654,
      "learning_rate": 0.00019791959999808836,
      "loss": 1.5878,
      "step": 55051
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5371395945549011,
      "learning_rate": 0.00019790977163702272,
      "loss": 1.5585,
      "step": 55052
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5316578149795532,
      "learning_rate": 0.00019789994339987964,
      "loss": 1.5792,
      "step": 55053
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5516965985298157,
      "learning_rate": 0.0001978901152866709,
      "loss": 1.6345,
      "step": 55054
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5295843482017517,
      "learning_rate": 0.0001978802872974085,
      "loss": 1.5311,
      "step": 55055
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5304176807403564,
      "learning_rate": 0.0001978704594321044,
      "loss": 1.6164,
      "step": 55056
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5473346710205078,
      "learning_rate": 0.0001978606316907706,
      "loss": 1.6852,
      "step": 55057
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5888921022415161,
      "learning_rate": 0.00019785080407341886,
      "loss": 1.5394,
      "step": 55058
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5694593787193298,
      "learning_rate": 0.0001978409765800612,
      "loss": 1.5989,
      "step": 55059
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5691561102867126,
      "learning_rate": 0.00019783114921070964,
      "loss": 1.6105,
      "step": 55060
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5273088216781616,
      "learning_rate": 0.00019782132196537587,
      "loss": 1.6227,
      "step": 55061
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5503907799720764,
      "learning_rate": 0.00019781149484407196,
      "loss": 1.5994,
      "step": 55062
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5550411343574524,
      "learning_rate": 0.00019780166784681005,
      "loss": 1.6021,
      "step": 55063
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.562975287437439,
      "learning_rate": 0.0001977918409736016,
      "loss": 1.6109,
      "step": 55064
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5628668665885925,
      "learning_rate": 0.00019778201422445888,
      "loss": 1.553,
      "step": 55065
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.533784031867981,
      "learning_rate": 0.00019777218759939376,
      "loss": 1.6263,
      "step": 55066
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5309966802597046,
      "learning_rate": 0.00019776236109841816,
      "loss": 1.5687,
      "step": 55067
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5701521039009094,
      "learning_rate": 0.00019775253472154397,
      "loss": 1.5986,
      "step": 55068
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5377536416053772,
      "learning_rate": 0.00019774270846878306,
      "loss": 1.6094,
      "step": 55069
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5644012689590454,
      "learning_rate": 0.0001977328823401476,
      "loss": 1.5356,
      "step": 55070
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5456631183624268,
      "learning_rate": 0.00019772305633564922,
      "loss": 1.5578,
      "step": 55071
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5511230826377869,
      "learning_rate": 0.0001977132304553,
      "loss": 1.5728,
      "step": 55072
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5424154996871948,
      "learning_rate": 0.00019770340469911192,
      "loss": 1.5814,
      "step": 55073
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5536471605300903,
      "learning_rate": 0.00019769357906709674,
      "loss": 1.5669,
      "step": 55074
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5365970730781555,
      "learning_rate": 0.00019768375355926654,
      "loss": 1.5661,
      "step": 55075
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.551258385181427,
      "learning_rate": 0.0001976739281756331,
      "loss": 1.4823,
      "step": 55076
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5203638076782227,
      "learning_rate": 0.00019766410291620863,
      "loss": 1.5798,
      "step": 55077
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5372992157936096,
      "learning_rate": 0.00019765427778100465,
      "loss": 1.5896,
      "step": 55078
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5512312054634094,
      "learning_rate": 0.00019764445277003335,
      "loss": 1.6185,
      "step": 55079
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5321380496025085,
      "learning_rate": 0.0001976346278833067,
      "loss": 1.5896,
      "step": 55080
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5550937056541443,
      "learning_rate": 0.00019762480312083647,
      "loss": 1.594,
      "step": 55081
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5341442227363586,
      "learning_rate": 0.0001976149784826346,
      "loss": 1.5967,
      "step": 55082
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.531657874584198,
      "learning_rate": 0.00019760515396871313,
      "loss": 1.593,
      "step": 55083
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5440100431442261,
      "learning_rate": 0.00019759532957908392,
      "loss": 1.558,
      "step": 55084
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.544508159160614,
      "learning_rate": 0.00019758550531375879,
      "loss": 1.5594,
      "step": 55085
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5429830551147461,
      "learning_rate": 0.00019757568117274982,
      "loss": 1.562,
      "step": 55086
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.535942792892456,
      "learning_rate": 0.00019756585715606894,
      "loss": 1.6232,
      "step": 55087
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.544148862361908,
      "learning_rate": 0.00019755603326372794,
      "loss": 1.5552,
      "step": 55088
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5736793279647827,
      "learning_rate": 0.00019754620949573887,
      "loss": 1.6352,
      "step": 55089
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5408722758293152,
      "learning_rate": 0.0001975363858521136,
      "loss": 1.6295,
      "step": 55090
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5174090266227722,
      "learning_rate": 0.00019752656233286406,
      "loss": 1.5655,
      "step": 55091
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5509175062179565,
      "learning_rate": 0.0001975167389380021,
      "loss": 1.6363,
      "step": 55092
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5366308093070984,
      "learning_rate": 0.00019750691566753988,
      "loss": 1.5828,
      "step": 55093
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5452268719673157,
      "learning_rate": 0.000197497092521489,
      "loss": 1.5551,
      "step": 55094
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5517436265945435,
      "learning_rate": 0.0001974872694998616,
      "loss": 1.6192,
      "step": 55095
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5361043810844421,
      "learning_rate": 0.0001974774466026695,
      "loss": 1.6168,
      "step": 55096
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5277916789054871,
      "learning_rate": 0.0001974676238299248,
      "loss": 1.5415,
      "step": 55097
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5281131267547607,
      "learning_rate": 0.00019745780118163924,
      "loss": 1.5001,
      "step": 55098
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5627632141113281,
      "learning_rate": 0.0001974479786578247,
      "loss": 1.5379,
      "step": 55099
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5345571637153625,
      "learning_rate": 0.00019743815625849342,
      "loss": 1.6105,
      "step": 55100
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5557320713996887,
      "learning_rate": 0.00019742833398365693,
      "loss": 1.5937,
      "step": 55101
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5359727740287781,
      "learning_rate": 0.00019741851183332733,
      "loss": 1.5665,
      "step": 55102
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5329322218894958,
      "learning_rate": 0.00019740868980751657,
      "loss": 1.574,
      "step": 55103
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5475890040397644,
      "learning_rate": 0.00019739886790623665,
      "loss": 1.5968,
      "step": 55104
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5272197127342224,
      "learning_rate": 0.0001973890461294993,
      "loss": 1.5939,
      "step": 55105
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5200498700141907,
      "learning_rate": 0.00019737922447731645,
      "loss": 1.554,
      "step": 55106
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.532555341720581,
      "learning_rate": 0.0001973694029497003,
      "loss": 1.4527,
      "step": 55107
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.528751015663147,
      "learning_rate": 0.0001973595815466624,
      "loss": 1.5643,
      "step": 55108
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5477872490882874,
      "learning_rate": 0.00019734976026821488,
      "loss": 1.6759,
      "step": 55109
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5325467586517334,
      "learning_rate": 0.0001973399391143697,
      "loss": 1.5956,
      "step": 55110
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5044927000999451,
      "learning_rate": 0.00019733011808513863,
      "loss": 1.5107,
      "step": 55111
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5421081781387329,
      "learning_rate": 0.00019732029718053367,
      "loss": 1.5355,
      "step": 55112
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5346433520317078,
      "learning_rate": 0.00019731047640056672,
      "loss": 1.4982,
      "step": 55113
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.540600061416626,
      "learning_rate": 0.00019730065574524987,
      "loss": 1.444,
      "step": 55114
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5424985885620117,
      "learning_rate": 0.00019729083521459473,
      "loss": 1.5073,
      "step": 55115
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5572795271873474,
      "learning_rate": 0.00019728101480861345,
      "loss": 1.5894,
      "step": 55116
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5657995343208313,
      "learning_rate": 0.0001972711945273179,
      "loss": 1.6486,
      "step": 55117
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5488860011100769,
      "learning_rate": 0.00019726137437071992,
      "loss": 1.6218,
      "step": 55118
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5493913292884827,
      "learning_rate": 0.00019725155433883155,
      "loss": 1.5911,
      "step": 55119
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.541247546672821,
      "learning_rate": 0.00019724173443166467,
      "loss": 1.5927,
      "step": 55120
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5433404445648193,
      "learning_rate": 0.00019723191464923113,
      "loss": 1.5262,
      "step": 55121
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5460318922996521,
      "learning_rate": 0.0001972220949915429,
      "loss": 1.6265,
      "step": 55122
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5490230321884155,
      "learning_rate": 0.0001972122754586119,
      "loss": 1.6275,
      "step": 55123
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.544143795967102,
      "learning_rate": 0.00019720245605045014,
      "loss": 1.5741,
      "step": 55124
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5456929802894592,
      "learning_rate": 0.00019719263676706934,
      "loss": 1.5393,
      "step": 55125
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5616436004638672,
      "learning_rate": 0.00019718281760848158,
      "loss": 1.5695,
      "step": 55126
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5554543137550354,
      "learning_rate": 0.0001971729985746988,
      "loss": 1.5287,
      "step": 55127
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5429942607879639,
      "learning_rate": 0.00019716317966573277,
      "loss": 1.5816,
      "step": 55128
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5482515692710876,
      "learning_rate": 0.0001971533608815954,
      "loss": 1.6153,
      "step": 55129
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5441859364509583,
      "learning_rate": 0.0001971435422222989,
      "loss": 1.6108,
      "step": 55130
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5794089436531067,
      "learning_rate": 0.0001971337236878548,
      "loss": 1.6884,
      "step": 55131
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5475146770477295,
      "learning_rate": 0.00019712390527827528,
      "loss": 1.5702,
      "step": 55132
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5624518394470215,
      "learning_rate": 0.00019711408699357217,
      "loss": 1.6309,
      "step": 55133
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5409784317016602,
      "learning_rate": 0.00019710426883375748,
      "loss": 1.5706,
      "step": 55134
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5795170068740845,
      "learning_rate": 0.00019709445079884295,
      "loss": 1.5687,
      "step": 55135
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5267507433891296,
      "learning_rate": 0.00019708463288884055,
      "loss": 1.5939,
      "step": 55136
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5427305102348328,
      "learning_rate": 0.00019707481510376244,
      "loss": 1.4957,
      "step": 55137
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5400644540786743,
      "learning_rate": 0.00019706499744362013,
      "loss": 1.6583,
      "step": 55138
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5476189851760864,
      "learning_rate": 0.0001970551799084258,
      "loss": 1.5223,
      "step": 55139
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5505231022834778,
      "learning_rate": 0.0001970453624981914,
      "loss": 1.5901,
      "step": 55140
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.553488552570343,
      "learning_rate": 0.0001970355452129287,
      "loss": 1.588,
      "step": 55141
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5310878157615662,
      "learning_rate": 0.00019702572805264967,
      "loss": 1.5647,
      "step": 55142
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5402106046676636,
      "learning_rate": 0.00019701591101736616,
      "loss": 1.5486,
      "step": 55143
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5458601713180542,
      "learning_rate": 0.00019700609410709037,
      "loss": 1.6238,
      "step": 55144
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5148765444755554,
      "learning_rate": 0.0001969962773218338,
      "loss": 1.5266,
      "step": 55145
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5522218346595764,
      "learning_rate": 0.00019698646066160865,
      "loss": 1.5715,
      "step": 55146
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5339405536651611,
      "learning_rate": 0.00019697664412642678,
      "loss": 1.562,
      "step": 55147
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5283231139183044,
      "learning_rate": 0.0001969668277163001,
      "loss": 1.493,
      "step": 55148
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5397130250930786,
      "learning_rate": 0.0001969570114312404,
      "loss": 1.5525,
      "step": 55149
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5436728596687317,
      "learning_rate": 0.00019694719527125985,
      "loss": 1.5198,
      "step": 55150
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5593851208686829,
      "learning_rate": 0.00019693737923637017,
      "loss": 1.6101,
      "step": 55151
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5353638529777527,
      "learning_rate": 0.0001969275633265832,
      "loss": 1.6048,
      "step": 55152
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.538388192653656,
      "learning_rate": 0.0001969177475419111,
      "loss": 1.5582,
      "step": 55153
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5416052341461182,
      "learning_rate": 0.00019690793188236567,
      "loss": 1.5664,
      "step": 55154
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5323513150215149,
      "learning_rate": 0.0001968981163479588,
      "loss": 1.5904,
      "step": 55155
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5278242230415344,
      "learning_rate": 0.00019688830093870241,
      "loss": 1.5711,
      "step": 55156
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5720568299293518,
      "learning_rate": 0.00019687848565460854,
      "loss": 1.5085,
      "step": 55157
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.540949285030365,
      "learning_rate": 0.0001968686704956888,
      "loss": 1.5149,
      "step": 55158
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5427204370498657,
      "learning_rate": 0.0001968588554619554,
      "loss": 1.5201,
      "step": 55159
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5317374467849731,
      "learning_rate": 0.0001968490405534202,
      "loss": 1.5788,
      "step": 55160
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5273215174674988,
      "learning_rate": 0.00019683922577009503,
      "loss": 1.5543,
      "step": 55161
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5440599918365479,
      "learning_rate": 0.0001968294111119918,
      "loss": 1.5279,
      "step": 55162
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5519276857376099,
      "learning_rate": 0.0001968195965791225,
      "loss": 1.5506,
      "step": 55163
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5647159814834595,
      "learning_rate": 0.00019680978217149906,
      "loss": 1.5618,
      "step": 55164
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5430695414543152,
      "learning_rate": 0.0001967999678891332,
      "loss": 1.5924,
      "step": 55165
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5463817715644836,
      "learning_rate": 0.00019679015373203702,
      "loss": 1.5558,
      "step": 55166
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5657548904418945,
      "learning_rate": 0.00019678033970022248,
      "loss": 1.6572,
      "step": 55167
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5792219638824463,
      "learning_rate": 0.00019677052579370133,
      "loss": 1.678,
      "step": 55168
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5528876781463623,
      "learning_rate": 0.00019676071201248554,
      "loss": 1.5252,
      "step": 55169
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5436000227928162,
      "learning_rate": 0.00019675089835658708,
      "loss": 1.5704,
      "step": 55170
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.554166853427887,
      "learning_rate": 0.00019674108482601782,
      "loss": 1.6219,
      "step": 55171
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.544269323348999,
      "learning_rate": 0.00019673127142078955,
      "loss": 1.5483,
      "step": 55172
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.54521644115448,
      "learning_rate": 0.00019672145814091438,
      "loss": 1.5465,
      "step": 55173
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5383984446525574,
      "learning_rate": 0.0001967116449864042,
      "loss": 1.5933,
      "step": 55174
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5217776894569397,
      "learning_rate": 0.00019670183195727082,
      "loss": 1.4591,
      "step": 55175
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.559569776058197,
      "learning_rate": 0.00019669201905352617,
      "loss": 1.6349,
      "step": 55176
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5364799499511719,
      "learning_rate": 0.00019668220627518226,
      "loss": 1.6161,
      "step": 55177
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5442497730255127,
      "learning_rate": 0.00019667239362225085,
      "loss": 1.5539,
      "step": 55178
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5379026532173157,
      "learning_rate": 0.00019666258109474392,
      "loss": 1.5286,
      "step": 55179
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5383026003837585,
      "learning_rate": 0.0001966527686926735,
      "loss": 1.6196,
      "step": 55180
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5525869131088257,
      "learning_rate": 0.00019664295641605127,
      "loss": 1.5438,
      "step": 55181
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5620092153549194,
      "learning_rate": 0.0001966331442648893,
      "loss": 1.5366,
      "step": 55182
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5467216968536377,
      "learning_rate": 0.0001966233322391995,
      "loss": 1.5504,
      "step": 55183
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5354057550430298,
      "learning_rate": 0.00019661352033899373,
      "loss": 1.6004,
      "step": 55184
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5366671681404114,
      "learning_rate": 0.00019660370856428388,
      "loss": 1.4679,
      "step": 55185
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5204434990882874,
      "learning_rate": 0.00019659389691508184,
      "loss": 1.5887,
      "step": 55186
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5388619899749756,
      "learning_rate": 0.00019658408539139976,
      "loss": 1.5931,
      "step": 55187
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5194553136825562,
      "learning_rate": 0.00019657427399324916,
      "loss": 1.5402,
      "step": 55188
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5548725128173828,
      "learning_rate": 0.00019656446272064225,
      "loss": 1.6043,
      "step": 55189
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5442720055580139,
      "learning_rate": 0.0001965546515735909,
      "loss": 1.5925,
      "step": 55190
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5341345071792603,
      "learning_rate": 0.00019654484055210686,
      "loss": 1.5793,
      "step": 55191
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5348025560379028,
      "learning_rate": 0.00019653502965620218,
      "loss": 1.6054,
      "step": 55192
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.537884533405304,
      "learning_rate": 0.00019652521888588863,
      "loss": 1.4848,
      "step": 55193
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5510954260826111,
      "learning_rate": 0.0001965154082411784,
      "loss": 1.5187,
      "step": 55194
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5495755672454834,
      "learning_rate": 0.0001965055977220831,
      "loss": 1.4961,
      "step": 55195
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5624076128005981,
      "learning_rate": 0.00019649578732861477,
      "loss": 1.5287,
      "step": 55196
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5583877563476562,
      "learning_rate": 0.00019648597706078537,
      "loss": 1.5812,
      "step": 55197
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5414446592330933,
      "learning_rate": 0.00019647616691860663,
      "loss": 1.5343,
      "step": 55198
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5652983784675598,
      "learning_rate": 0.00019646635690209066,
      "loss": 1.6134,
      "step": 55199
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.547248899936676,
      "learning_rate": 0.00019645654701124928,
      "loss": 1.6332,
      "step": 55200
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.538740336894989,
      "learning_rate": 0.00019644673724609436,
      "loss": 1.6167,
      "step": 55201
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5605161786079407,
      "learning_rate": 0.00019643692760663774,
      "loss": 1.6102,
      "step": 55202
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5528475642204285,
      "learning_rate": 0.00019642711809289155,
      "loss": 1.6118,
      "step": 55203
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5438083410263062,
      "learning_rate": 0.0001964173087048676,
      "loss": 1.5815,
      "step": 55204
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5228018164634705,
      "learning_rate": 0.00019640749944257774,
      "loss": 1.5854,
      "step": 55205
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5390958189964294,
      "learning_rate": 0.00019639769030603392,
      "loss": 1.6011,
      "step": 55206
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.544574499130249,
      "learning_rate": 0.00019638788129524803,
      "loss": 1.6078,
      "step": 55207
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.9374818801879883,
      "learning_rate": 0.000196378072410232,
      "loss": 1.664,
      "step": 55208
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.53362637758255,
      "learning_rate": 0.00019636826365099761,
      "loss": 1.6384,
      "step": 55209
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5319222211837769,
      "learning_rate": 0.0001963584550175571,
      "loss": 1.5183,
      "step": 55210
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5446083545684814,
      "learning_rate": 0.00019634864650992196,
      "loss": 1.5315,
      "step": 55211
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5332049131393433,
      "learning_rate": 0.00019633883812810436,
      "loss": 1.5393,
      "step": 55212
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5515686273574829,
      "learning_rate": 0.00019632902987211612,
      "loss": 1.5713,
      "step": 55213
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5362370610237122,
      "learning_rate": 0.00019631922174196922,
      "loss": 1.5686,
      "step": 55214
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5387125015258789,
      "learning_rate": 0.00019630941373767545,
      "loss": 1.5661,
      "step": 55215
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5624223351478577,
      "learning_rate": 0.0001962996058592467,
      "loss": 1.6138,
      "step": 55216
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5370007753372192,
      "learning_rate": 0.0001962897981066952,
      "loss": 1.5946,
      "step": 55217
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5496149659156799,
      "learning_rate": 0.00019627999048003232,
      "loss": 1.484,
      "step": 55218
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5565835237503052,
      "learning_rate": 0.00019627018297927042,
      "loss": 1.6679,
      "step": 55219
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5617526769638062,
      "learning_rate": 0.00019626037560442115,
      "loss": 1.5354,
      "step": 55220
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5541400909423828,
      "learning_rate": 0.0001962505683554966,
      "loss": 1.5812,
      "step": 55221
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5678317546844482,
      "learning_rate": 0.00019624076123250848,
      "loss": 1.5603,
      "step": 55222
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5454480648040771,
      "learning_rate": 0.00019623095423546873,
      "loss": 1.6275,
      "step": 55223
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5419660806655884,
      "learning_rate": 0.00019622114736438952,
      "loss": 1.4681,
      "step": 55224
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5442975163459778,
      "learning_rate": 0.00019621134061928235,
      "loss": 1.5473,
      "step": 55225
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5486927628517151,
      "learning_rate": 0.0001962015340001594,
      "loss": 1.5366,
      "step": 55226
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5541951060295105,
      "learning_rate": 0.00019619172750703253,
      "loss": 1.5823,
      "step": 55227
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5376258492469788,
      "learning_rate": 0.00019618192113991358,
      "loss": 1.5869,
      "step": 55228
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5203714966773987,
      "learning_rate": 0.00019617211489881444,
      "loss": 1.5232,
      "step": 55229
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5501786470413208,
      "learning_rate": 0.00019616230878374702,
      "loss": 1.6083,
      "step": 55230
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5471200346946716,
      "learning_rate": 0.00019615250279472342,
      "loss": 1.5905,
      "step": 55231
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5518905520439148,
      "learning_rate": 0.0001961426969317552,
      "loss": 1.5959,
      "step": 55232
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5246376395225525,
      "learning_rate": 0.0001961328911948545,
      "loss": 1.5546,
      "step": 55233
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5360197424888611,
      "learning_rate": 0.00019612308558403325,
      "loss": 1.5996,
      "step": 55234
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5295336246490479,
      "learning_rate": 0.0001961132800993032,
      "loss": 1.6133,
      "step": 55235
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5398883819580078,
      "learning_rate": 0.00019610347474067628,
      "loss": 1.5822,
      "step": 55236
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5511502027511597,
      "learning_rate": 0.00019609366950816456,
      "loss": 1.5741,
      "step": 55237
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5346543788909912,
      "learning_rate": 0.00019608386440177975,
      "loss": 1.4471,
      "step": 55238
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5295732021331787,
      "learning_rate": 0.00019607405942153369,
      "loss": 1.4961,
      "step": 55239
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5364316701889038,
      "learning_rate": 0.00019606425456743853,
      "loss": 1.5406,
      "step": 55240
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.543796181678772,
      "learning_rate": 0.00019605444983950612,
      "loss": 1.6497,
      "step": 55241
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5603001713752747,
      "learning_rate": 0.00019604464523774817,
      "loss": 1.6171,
      "step": 55242
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5308274626731873,
      "learning_rate": 0.00019603484076217674,
      "loss": 1.571,
      "step": 55243
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5355044007301331,
      "learning_rate": 0.00019602503641280377,
      "loss": 1.5596,
      "step": 55244
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5530760288238525,
      "learning_rate": 0.00019601523218964098,
      "loss": 1.6076,
      "step": 55245
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.534076988697052,
      "learning_rate": 0.00019600542809270036,
      "loss": 1.5496,
      "step": 55246
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5235844850540161,
      "learning_rate": 0.000195995624121994,
      "loss": 1.5759,
      "step": 55247
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5471266508102417,
      "learning_rate": 0.00019598582027753345,
      "loss": 1.5742,
      "step": 55248
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5501469969749451,
      "learning_rate": 0.00019597601655933083,
      "loss": 1.5818,
      "step": 55249
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5574769377708435,
      "learning_rate": 0.000195966212967398,
      "loss": 1.591,
      "step": 55250
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5464287400245667,
      "learning_rate": 0.00019595640950174694,
      "loss": 1.5521,
      "step": 55251
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.547572135925293,
      "learning_rate": 0.00019594660616238936,
      "loss": 1.5677,
      "step": 55252
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.544572651386261,
      "learning_rate": 0.00019593680294933727,
      "loss": 1.5794,
      "step": 55253
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5494606494903564,
      "learning_rate": 0.00019592699986260273,
      "loss": 1.5303,
      "step": 55254
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.548868715763092,
      "learning_rate": 0.00019591719690219728,
      "loss": 1.5849,
      "step": 55255
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5429344773292542,
      "learning_rate": 0.0001959073940681331,
      "loss": 1.5951,
      "step": 55256
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5603275299072266,
      "learning_rate": 0.00019589759136042205,
      "loss": 1.5448,
      "step": 55257
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5521216988563538,
      "learning_rate": 0.00019588778877907594,
      "loss": 1.5108,
      "step": 55258
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5399692058563232,
      "learning_rate": 0.0001958779863241067,
      "loss": 1.536,
      "step": 55259
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5305684804916382,
      "learning_rate": 0.0001958681839955262,
      "loss": 1.5082,
      "step": 55260
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5401724576950073,
      "learning_rate": 0.0001958583817933465,
      "loss": 1.5618,
      "step": 55261
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5540986657142639,
      "learning_rate": 0.00019584857971757927,
      "loss": 1.5851,
      "step": 55262
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5361889004707336,
      "learning_rate": 0.00019583877776823658,
      "loss": 1.5416,
      "step": 55263
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5536603927612305,
      "learning_rate": 0.00019582897594533027,
      "loss": 1.5387,
      "step": 55264
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5577417016029358,
      "learning_rate": 0.0001958191742488722,
      "loss": 1.618,
      "step": 55265
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5292115807533264,
      "learning_rate": 0.00019580937267887433,
      "loss": 1.6092,
      "step": 55266
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5266488194465637,
      "learning_rate": 0.00019579957123534855,
      "loss": 1.6144,
      "step": 55267
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.546619176864624,
      "learning_rate": 0.00019578976991830663,
      "loss": 1.5375,
      "step": 55268
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5808171629905701,
      "learning_rate": 0.00019577996872776067,
      "loss": 1.5549,
      "step": 55269
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5374748110771179,
      "learning_rate": 0.00019577016766372246,
      "loss": 1.6181,
      "step": 55270
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5302152633666992,
      "learning_rate": 0.00019576036672620394,
      "loss": 1.5259,
      "step": 55271
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5496461391448975,
      "learning_rate": 0.00019575056591521688,
      "loss": 1.5833,
      "step": 55272
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5616681575775146,
      "learning_rate": 0.00019574076523077335,
      "loss": 1.52,
      "step": 55273
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5593950748443604,
      "learning_rate": 0.0001957309646728852,
      "loss": 1.5709,
      "step": 55274
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5398066639900208,
      "learning_rate": 0.00019572116424156416,
      "loss": 1.6138,
      "step": 55275
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5577843189239502,
      "learning_rate": 0.00019571136393682235,
      "loss": 1.6403,
      "step": 55276
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5466557145118713,
      "learning_rate": 0.00019570156375867164,
      "loss": 1.5595,
      "step": 55277
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5718132257461548,
      "learning_rate": 0.00019569176370712375,
      "loss": 1.6479,
      "step": 55278
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5261605381965637,
      "learning_rate": 0.00019568196378219073,
      "loss": 1.5431,
      "step": 55279
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5354479551315308,
      "learning_rate": 0.00019567216398388442,
      "loss": 1.5936,
      "step": 55280
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5578319430351257,
      "learning_rate": 0.00019566236431221683,
      "loss": 1.6846,
      "step": 55281
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5866788029670715,
      "learning_rate": 0.00019565256476719963,
      "loss": 1.622,
      "step": 55282
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.9365295171737671,
      "learning_rate": 0.00019564276534884487,
      "loss": 1.6457,
      "step": 55283
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5325897336006165,
      "learning_rate": 0.0001956329660571645,
      "loss": 1.5449,
      "step": 55284
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5538371801376343,
      "learning_rate": 0.00019562316689217027,
      "loss": 1.6269,
      "step": 55285
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5382803082466125,
      "learning_rate": 0.0001956133678538741,
      "loss": 1.4831,
      "step": 55286
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5393487215042114,
      "learning_rate": 0.00019560356894228798,
      "loss": 1.5364,
      "step": 55287
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.560791015625,
      "learning_rate": 0.00019559377015742374,
      "loss": 1.66,
      "step": 55288
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5338717699050903,
      "learning_rate": 0.0001955839714992932,
      "loss": 1.5854,
      "step": 55289
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5498387813568115,
      "learning_rate": 0.00019557417296790837,
      "loss": 1.5154,
      "step": 55290
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5545377135276794,
      "learning_rate": 0.00019556437456328118,
      "loss": 1.5044,
      "step": 55291
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5451159477233887,
      "learning_rate": 0.0001955545762854234,
      "loss": 1.5815,
      "step": 55292
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5546597838401794,
      "learning_rate": 0.000195544778134347,
      "loss": 1.571,
      "step": 55293
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5368448495864868,
      "learning_rate": 0.00019553498011006383,
      "loss": 1.5793,
      "step": 55294
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5489597916603088,
      "learning_rate": 0.0001955251822125858,
      "loss": 1.6279,
      "step": 55295
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5467742681503296,
      "learning_rate": 0.00019551538444192475,
      "loss": 1.5919,
      "step": 55296
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5580734014511108,
      "learning_rate": 0.0001955055867980928,
      "loss": 1.5887,
      "step": 55297
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5418001413345337,
      "learning_rate": 0.00019549578928110148,
      "loss": 1.6039,
      "step": 55298
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5723743438720703,
      "learning_rate": 0.00019548599189096294,
      "loss": 1.5816,
      "step": 55299
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5310865044593811,
      "learning_rate": 0.00019547619462768898,
      "loss": 1.5588,
      "step": 55300
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5220165848731995,
      "learning_rate": 0.00019546639749129163,
      "loss": 1.5931,
      "step": 55301
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5532335638999939,
      "learning_rate": 0.00019545660048178256,
      "loss": 1.5382,
      "step": 55302
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5563232898712158,
      "learning_rate": 0.00019544680359917375,
      "loss": 1.6401,
      "step": 55303
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5663455724716187,
      "learning_rate": 0.00019543700684347727,
      "loss": 1.5027,
      "step": 55304
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5436907410621643,
      "learning_rate": 0.0001954272102147047,
      "loss": 1.6321,
      "step": 55305
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5499458312988281,
      "learning_rate": 0.0001954174137128681,
      "loss": 1.6058,
      "step": 55306
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5718453526496887,
      "learning_rate": 0.0001954076173379795,
      "loss": 1.5523,
      "step": 55307
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5849621891975403,
      "learning_rate": 0.0001953978210900505,
      "loss": 1.5655,
      "step": 55308
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5453664660453796,
      "learning_rate": 0.0001953880249690932,
      "loss": 1.6311,
      "step": 55309
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5173726081848145,
      "learning_rate": 0.0001953782289751193,
      "loss": 1.4904,
      "step": 55310
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5475443601608276,
      "learning_rate": 0.00019536843310814106,
      "loss": 1.6159,
      "step": 55311
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.552095890045166,
      "learning_rate": 0.00019535863736816988,
      "loss": 1.5639,
      "step": 55312
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5475587248802185,
      "learning_rate": 0.00019534884175521797,
      "loss": 1.5944,
      "step": 55313
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5510740876197815,
      "learning_rate": 0.00019533904626929723,
      "loss": 1.5797,
      "step": 55314
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5619004964828491,
      "learning_rate": 0.00019532925091041942,
      "loss": 1.5747,
      "step": 55315
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5314316153526306,
      "learning_rate": 0.00019531945567859645,
      "loss": 1.5295,
      "step": 55316
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5676499605178833,
      "learning_rate": 0.00019530966057384027,
      "loss": 1.5661,
      "step": 55317
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5501638054847717,
      "learning_rate": 0.00019529986559616274,
      "loss": 1.5331,
      "step": 55318
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5305155515670776,
      "learning_rate": 0.00019529007074557567,
      "loss": 1.5337,
      "step": 55319
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.542044460773468,
      "learning_rate": 0.00019528027602209105,
      "loss": 1.6245,
      "step": 55320
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5540545582771301,
      "learning_rate": 0.00019527048142572081,
      "loss": 1.6047,
      "step": 55321
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5649005770683289,
      "learning_rate": 0.00019526068695647673,
      "loss": 1.6363,
      "step": 55322
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5348532199859619,
      "learning_rate": 0.00019525089261437074,
      "loss": 1.5206,
      "step": 55323
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5627173185348511,
      "learning_rate": 0.0001952410983994148,
      "loss": 1.6022,
      "step": 55324
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5332812070846558,
      "learning_rate": 0.00019523130431162064,
      "loss": 1.5991,
      "step": 55325
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5430241227149963,
      "learning_rate": 0.00019522151035100024,
      "loss": 1.6299,
      "step": 55326
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5204774141311646,
      "learning_rate": 0.00019521171651756562,
      "loss": 1.5581,
      "step": 55327
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5304365754127502,
      "learning_rate": 0.00019520192281132837,
      "loss": 1.6196,
      "step": 55328
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5498260855674744,
      "learning_rate": 0.0001951921292323006,
      "loss": 1.5801,
      "step": 55329
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5650265216827393,
      "learning_rate": 0.00019518233578049416,
      "loss": 1.5002,
      "step": 55330
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5475053787231445,
      "learning_rate": 0.00019517254245592097,
      "loss": 1.6781,
      "step": 55331
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5436173677444458,
      "learning_rate": 0.00019516274925859278,
      "loss": 1.5724,
      "step": 55332
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5477293729782104,
      "learning_rate": 0.00019515295618852154,
      "loss": 1.4823,
      "step": 55333
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5533541440963745,
      "learning_rate": 0.00019514316324571935,
      "loss": 1.535,
      "step": 55334
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5641998648643494,
      "learning_rate": 0.00019513337043019767,
      "loss": 1.5437,
      "step": 55335
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5443029999732971,
      "learning_rate": 0.00019512357774196875,
      "loss": 1.5972,
      "step": 55336
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5467467308044434,
      "learning_rate": 0.0001951137851810444,
      "loss": 1.6079,
      "step": 55337
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5342198610305786,
      "learning_rate": 0.00019510399274743639,
      "loss": 1.5898,
      "step": 55338
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.546603262424469,
      "learning_rate": 0.0001950942004411567,
      "loss": 1.5548,
      "step": 55339
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5335864424705505,
      "learning_rate": 0.00019508440826221707,
      "loss": 1.6364,
      "step": 55340
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5371329188346863,
      "learning_rate": 0.00019507461621062977,
      "loss": 1.5352,
      "step": 55341
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5425817966461182,
      "learning_rate": 0.0001950648242864062,
      "loss": 1.5946,
      "step": 55342
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5655085444450378,
      "learning_rate": 0.00019505503248955856,
      "loss": 1.5705,
      "step": 55343
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5681768655776978,
      "learning_rate": 0.00019504524082009867,
      "loss": 1.5935,
      "step": 55344
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5565608739852905,
      "learning_rate": 0.00019503544927803836,
      "loss": 1.6885,
      "step": 55345
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5396384000778198,
      "learning_rate": 0.00019502565786338956,
      "loss": 1.5586,
      "step": 55346
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5508354902267456,
      "learning_rate": 0.00019501586657616406,
      "loss": 1.5423,
      "step": 55347
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.115168809890747,
      "learning_rate": 0.000195006075416374,
      "loss": 1.6463,
      "step": 55348
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5265223383903503,
      "learning_rate": 0.00019499628438403093,
      "loss": 1.609,
      "step": 55349
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5307430624961853,
      "learning_rate": 0.00019498649347914694,
      "loss": 1.5423,
      "step": 55350
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.545141875743866,
      "learning_rate": 0.00019497670270173396,
      "loss": 1.564,
      "step": 55351
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.554276168346405,
      "learning_rate": 0.00019496691205180374,
      "loss": 1.5754,
      "step": 55352
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5399516820907593,
      "learning_rate": 0.00019495712152936816,
      "loss": 1.5241,
      "step": 55353
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5393791198730469,
      "learning_rate": 0.0001949473311344393,
      "loss": 1.5407,
      "step": 55354
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5539852380752563,
      "learning_rate": 0.00019493754086702877,
      "loss": 1.6453,
      "step": 55355
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5418321490287781,
      "learning_rate": 0.00019492775072714854,
      "loss": 1.559,
      "step": 55356
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5620641708374023,
      "learning_rate": 0.0001949179607148106,
      "loss": 1.5991,
      "step": 55357
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5424279570579529,
      "learning_rate": 0.00019490817083002684,
      "loss": 1.5845,
      "step": 55358
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5503953099250793,
      "learning_rate": 0.00019489838107280904,
      "loss": 1.5319,
      "step": 55359
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5348228216171265,
      "learning_rate": 0.00019488859144316907,
      "loss": 1.6352,
      "step": 55360
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.545818030834198,
      "learning_rate": 0.00019487880194111893,
      "loss": 1.6089,
      "step": 55361
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5502179265022278,
      "learning_rate": 0.0001948690125666704,
      "loss": 1.5974,
      "step": 55362
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5481171011924744,
      "learning_rate": 0.00019485922331983533,
      "loss": 1.6182,
      "step": 55363
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5562376976013184,
      "learning_rate": 0.0001948494342006259,
      "loss": 1.581,
      "step": 55364
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5339075922966003,
      "learning_rate": 0.00019483964520905348,
      "loss": 1.5901,
      "step": 55365
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5641781091690063,
      "learning_rate": 0.00019482985634513037,
      "loss": 1.6387,
      "step": 55366
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5414678454399109,
      "learning_rate": 0.00019482006760886827,
      "loss": 1.5531,
      "step": 55367
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5232816338539124,
      "learning_rate": 0.00019481027900027925,
      "loss": 1.6016,
      "step": 55368
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5430142283439636,
      "learning_rate": 0.00019480049051937492,
      "loss": 1.5823,
      "step": 55369
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.533688485622406,
      "learning_rate": 0.00019479070216616725,
      "loss": 1.5663,
      "step": 55370
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5341757535934448,
      "learning_rate": 0.0001947809139406684,
      "loss": 1.6284,
      "step": 55371
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5688764452934265,
      "learning_rate": 0.00019477112584288976,
      "loss": 1.6129,
      "step": 55372
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.549103319644928,
      "learning_rate": 0.00019476133787284356,
      "loss": 1.6265,
      "step": 55373
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5477476716041565,
      "learning_rate": 0.00019475155003054163,
      "loss": 1.5939,
      "step": 55374
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5359057188034058,
      "learning_rate": 0.0001947417623159958,
      "loss": 1.572,
      "step": 55375
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5419954061508179,
      "learning_rate": 0.00019473197472921793,
      "loss": 1.6059,
      "step": 55376
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5468230247497559,
      "learning_rate": 0.00019472218727021988,
      "loss": 1.594,
      "step": 55377
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5404635071754456,
      "learning_rate": 0.0001947123999390137,
      "loss": 1.5536,
      "step": 55378
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5483757853507996,
      "learning_rate": 0.00019470261273561105,
      "loss": 1.5206,
      "step": 55379
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.8209672570228577,
      "learning_rate": 0.00019469282566002397,
      "loss": 1.6509,
      "step": 55380
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5407445430755615,
      "learning_rate": 0.00019468303871226432,
      "loss": 1.5872,
      "step": 55381
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5440062880516052,
      "learning_rate": 0.00019467325189234387,
      "loss": 1.6177,
      "step": 55382
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5617299675941467,
      "learning_rate": 0.00019466346520027457,
      "loss": 1.5713,
      "step": 55383
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5590042471885681,
      "learning_rate": 0.0001946536786360684,
      "loss": 1.6042,
      "step": 55384
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5397008657455444,
      "learning_rate": 0.00019464389219973704,
      "loss": 1.6265,
      "step": 55385
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5569024085998535,
      "learning_rate": 0.00019463410589129249,
      "loss": 1.4615,
      "step": 55386
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.578894317150116,
      "learning_rate": 0.0001946243197107466,
      "loss": 1.5695,
      "step": 55387
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.552251935005188,
      "learning_rate": 0.00019461453365811132,
      "loss": 1.6368,
      "step": 55388
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.566322922706604,
      "learning_rate": 0.00019460474773339841,
      "loss": 1.5672,
      "step": 55389
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5259068608283997,
      "learning_rate": 0.00019459496193661985,
      "loss": 1.4568,
      "step": 55390
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5518211722373962,
      "learning_rate": 0.00019458517626778752,
      "loss": 1.5647,
      "step": 55391
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5428503155708313,
      "learning_rate": 0.00019457539072691312,
      "loss": 1.5843,
      "step": 55392
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5471169352531433,
      "learning_rate": 0.00019456560531400872,
      "loss": 1.6757,
      "step": 55393
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5240816473960876,
      "learning_rate": 0.0001945558200290862,
      "loss": 1.5656,
      "step": 55394
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5167825222015381,
      "learning_rate": 0.00019454603487215733,
      "loss": 1.5127,
      "step": 55395
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5519227981567383,
      "learning_rate": 0.00019453624984323403,
      "loss": 1.606,
      "step": 55396
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5563188791275024,
      "learning_rate": 0.00019452646494232814,
      "loss": 1.6268,
      "step": 55397
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5476061105728149,
      "learning_rate": 0.0001945166801694517,
      "loss": 1.5854,
      "step": 55398
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5484105348587036,
      "learning_rate": 0.00019450689552461635,
      "loss": 1.5232,
      "step": 55399
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5532139539718628,
      "learning_rate": 0.00019449711100783413,
      "loss": 1.5713,
      "step": 55400
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.533393919467926,
      "learning_rate": 0.00019448732661911692,
      "loss": 1.5901,
      "step": 55401
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5562092065811157,
      "learning_rate": 0.0001944775423584765,
      "loss": 1.6467,
      "step": 55402
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5498514771461487,
      "learning_rate": 0.00019446775822592476,
      "loss": 1.6027,
      "step": 55403
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.0898524522781372,
      "learning_rate": 0.00019445797422147371,
      "loss": 1.6092,
      "step": 55404
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.4337306022644043,
      "learning_rate": 0.00019444819034513506,
      "loss": 1.6249,
      "step": 55405
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5551545023918152,
      "learning_rate": 0.0001944384065969207,
      "loss": 1.6485,
      "step": 55406
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5666052103042603,
      "learning_rate": 0.00019442862297684263,
      "loss": 1.6268,
      "step": 55407
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5321367979049683,
      "learning_rate": 0.00019441883948491273,
      "loss": 1.6022,
      "step": 55408
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5103621482849121,
      "learning_rate": 0.0001944090561211427,
      "loss": 1.5324,
      "step": 55409
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5495334267616272,
      "learning_rate": 0.0001943992728855445,
      "loss": 1.5431,
      "step": 55410
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.545617401599884,
      "learning_rate": 0.00019438948977813013,
      "loss": 1.5316,
      "step": 55411
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5358812212944031,
      "learning_rate": 0.00019437970679891129,
      "loss": 1.5551,
      "step": 55412
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5703717470169067,
      "learning_rate": 0.0001943699239478999,
      "loss": 1.546,
      "step": 55413
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5431931614875793,
      "learning_rate": 0.00019436014122510797,
      "loss": 1.6182,
      "step": 55414
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5311223864555359,
      "learning_rate": 0.0001943503586305471,
      "loss": 1.5639,
      "step": 55415
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5716813802719116,
      "learning_rate": 0.00019434057616422938,
      "loss": 1.6052,
      "step": 55416
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5602461099624634,
      "learning_rate": 0.00019433079382616666,
      "loss": 1.5959,
      "step": 55417
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5478420853614807,
      "learning_rate": 0.00019432101161637083,
      "loss": 1.625,
      "step": 55418
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.539596438407898,
      "learning_rate": 0.0001943112295348537,
      "loss": 1.535,
      "step": 55419
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5373941659927368,
      "learning_rate": 0.00019430144758162706,
      "loss": 1.537,
      "step": 55420
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5427338480949402,
      "learning_rate": 0.00019429166575670308,
      "loss": 1.5869,
      "step": 55421
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5604824423789978,
      "learning_rate": 0.00019428188406009323,
      "loss": 1.5825,
      "step": 55422
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5718575716018677,
      "learning_rate": 0.00019427210249180972,
      "loss": 1.5701,
      "step": 55423
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5509107112884521,
      "learning_rate": 0.00019426232105186435,
      "loss": 1.5424,
      "step": 55424
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5318289995193481,
      "learning_rate": 0.00019425253974026887,
      "loss": 1.5383,
      "step": 55425
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5387976169586182,
      "learning_rate": 0.00019424275855703518,
      "loss": 1.6109,
      "step": 55426
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5532279014587402,
      "learning_rate": 0.0001942329775021752,
      "loss": 1.5729,
      "step": 55427
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5563883781433105,
      "learning_rate": 0.00019422319657570093,
      "loss": 1.5383,
      "step": 55428
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5593028664588928,
      "learning_rate": 0.000194213415777624,
      "loss": 1.6254,
      "step": 55429
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5237261652946472,
      "learning_rate": 0.0001942036351079564,
      "loss": 1.5761,
      "step": 55430
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5360524654388428,
      "learning_rate": 0.00019419385456671007,
      "loss": 1.5993,
      "step": 55431
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5398578643798828,
      "learning_rate": 0.00019418407415389675,
      "loss": 1.628,
      "step": 55432
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5553762912750244,
      "learning_rate": 0.00019417429386952838,
      "loss": 1.5766,
      "step": 55433
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5333149433135986,
      "learning_rate": 0.0001941645137136169,
      "loss": 1.5592,
      "step": 55434
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5422133803367615,
      "learning_rate": 0.00019415473368617403,
      "loss": 1.578,
      "step": 55435
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5199610590934753,
      "learning_rate": 0.0001941449537872116,
      "loss": 1.536,
      "step": 55436
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5398832559585571,
      "learning_rate": 0.00019413517401674176,
      "loss": 1.6401,
      "step": 55437
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5409102439880371,
      "learning_rate": 0.00019412539437477626,
      "loss": 1.5825,
      "step": 55438
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5289504528045654,
      "learning_rate": 0.0001941156148613268,
      "loss": 1.5661,
      "step": 55439
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5472918152809143,
      "learning_rate": 0.00019410583547640548,
      "loss": 1.6454,
      "step": 55440
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5552055239677429,
      "learning_rate": 0.00019409605622002407,
      "loss": 1.5948,
      "step": 55441
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.597842812538147,
      "learning_rate": 0.00019408627709219438,
      "loss": 1.5901,
      "step": 55442
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5345357060432434,
      "learning_rate": 0.0001940764980929283,
      "loss": 1.5733,
      "step": 55443
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.571188747882843,
      "learning_rate": 0.00019406671922223793,
      "loss": 1.4867,
      "step": 55444
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5699989795684814,
      "learning_rate": 0.00019405694048013478,
      "loss": 1.6201,
      "step": 55445
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5450831055641174,
      "learning_rate": 0.00019404716186663095,
      "loss": 1.5209,
      "step": 55446
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5422052145004272,
      "learning_rate": 0.00019403738338173823,
      "loss": 1.6235,
      "step": 55447
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5361275672912598,
      "learning_rate": 0.0001940276050254686,
      "loss": 1.5421,
      "step": 55448
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5451177358627319,
      "learning_rate": 0.00019401782679783378,
      "loss": 1.5753,
      "step": 55449
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5436173677444458,
      "learning_rate": 0.00019400804869884562,
      "loss": 1.5673,
      "step": 55450
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.533437967300415,
      "learning_rate": 0.0001939982707285163,
      "loss": 1.5241,
      "step": 55451
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5495656728744507,
      "learning_rate": 0.00019398849288685725,
      "loss": 1.6247,
      "step": 55452
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.535477340221405,
      "learning_rate": 0.00019397871517388057,
      "loss": 1.5315,
      "step": 55453
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5261853337287903,
      "learning_rate": 0.00019396893758959823,
      "loss": 1.5351,
      "step": 55454
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5366023778915405,
      "learning_rate": 0.0001939591601340219,
      "loss": 1.5246,
      "step": 55455
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5564343333244324,
      "learning_rate": 0.0001939493828071635,
      "loss": 1.5741,
      "step": 55456
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5695837140083313,
      "learning_rate": 0.0001939396056090349,
      "loss": 1.6347,
      "step": 55457
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5518755912780762,
      "learning_rate": 0.00019392982853964815,
      "loss": 1.6128,
      "step": 55458
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5560336709022522,
      "learning_rate": 0.00019392005159901482,
      "loss": 1.5422,
      "step": 55459
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5587029457092285,
      "learning_rate": 0.0001939102747871469,
      "loss": 1.5694,
      "step": 55460
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.556830883026123,
      "learning_rate": 0.00019390049810405637,
      "loss": 1.571,
      "step": 55461
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5464508533477783,
      "learning_rate": 0.00019389072154975495,
      "loss": 1.6017,
      "step": 55462
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5213572978973389,
      "learning_rate": 0.00019388094512425458,
      "loss": 1.5618,
      "step": 55463
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.542673647403717,
      "learning_rate": 0.00019387116882756703,
      "loss": 1.6223,
      "step": 55464
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5539301037788391,
      "learning_rate": 0.0001938613926597044,
      "loss": 1.5837,
      "step": 55465
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5423151254653931,
      "learning_rate": 0.00019385161662067825,
      "loss": 1.5645,
      "step": 55466
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5543763041496277,
      "learning_rate": 0.00019384184071050064,
      "loss": 1.5386,
      "step": 55467
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.56281578540802,
      "learning_rate": 0.00019383206492918346,
      "loss": 1.6214,
      "step": 55468
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5416857004165649,
      "learning_rate": 0.00019382228927673846,
      "loss": 1.613,
      "step": 55469
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5473397970199585,
      "learning_rate": 0.00019381251375317753,
      "loss": 1.53,
      "step": 55470
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5608179569244385,
      "learning_rate": 0.00019380273835851262,
      "loss": 1.5552,
      "step": 55471
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.6477055549621582,
      "learning_rate": 0.0001937929630927555,
      "loss": 1.6251,
      "step": 55472
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5477491021156311,
      "learning_rate": 0.00019378318795591805,
      "loss": 1.5935,
      "step": 55473
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5484889149665833,
      "learning_rate": 0.00019377341294801216,
      "loss": 1.5951,
      "step": 55474
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5562271475791931,
      "learning_rate": 0.00019376363806904978,
      "loss": 1.5691,
      "step": 55475
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.54338538646698,
      "learning_rate": 0.00019375386331904262,
      "loss": 1.5328,
      "step": 55476
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5334993600845337,
      "learning_rate": 0.00019374408869800262,
      "loss": 1.55,
      "step": 55477
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5563381910324097,
      "learning_rate": 0.0001937343142059417,
      "loss": 1.5629,
      "step": 55478
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.547546923160553,
      "learning_rate": 0.0001937245398428716,
      "loss": 1.5763,
      "step": 55479
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5406255125999451,
      "learning_rate": 0.00019371476560880421,
      "loss": 1.5343,
      "step": 55480
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5670104622840881,
      "learning_rate": 0.0001937049915037516,
      "loss": 1.5736,
      "step": 55481
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5625883340835571,
      "learning_rate": 0.0001936952175277253,
      "loss": 1.5405,
      "step": 55482
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5368746519088745,
      "learning_rate": 0.00019368544368073739,
      "loss": 1.5808,
      "step": 55483
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5398943424224854,
      "learning_rate": 0.00019367566996279968,
      "loss": 1.5114,
      "step": 55484
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5582448840141296,
      "learning_rate": 0.0001936658963739241,
      "loss": 1.6242,
      "step": 55485
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5691777467727661,
      "learning_rate": 0.00019365612291412243,
      "loss": 1.5557,
      "step": 55486
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5528898239135742,
      "learning_rate": 0.00019364634958340645,
      "loss": 1.5836,
      "step": 55487
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5638402700424194,
      "learning_rate": 0.0001936365763817883,
      "loss": 1.6003,
      "step": 55488
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5447501540184021,
      "learning_rate": 0.00019362680330927958,
      "loss": 1.527,
      "step": 55489
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5489289164543152,
      "learning_rate": 0.00019361703036589221,
      "loss": 1.6361,
      "step": 55490
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5278207063674927,
      "learning_rate": 0.0001936072575516382,
      "loss": 1.5897,
      "step": 55491
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5580880045890808,
      "learning_rate": 0.00019359748486652925,
      "loss": 1.6054,
      "step": 55492
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5227274894714355,
      "learning_rate": 0.00019358771231057728,
      "loss": 1.5941,
      "step": 55493
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5422016382217407,
      "learning_rate": 0.00019357793988379406,
      "loss": 1.5642,
      "step": 55494
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.547016441822052,
      "learning_rate": 0.00019356816758619172,
      "loss": 1.5835,
      "step": 55495
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.533628523349762,
      "learning_rate": 0.00019355839541778175,
      "loss": 1.5604,
      "step": 55496
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5461819171905518,
      "learning_rate": 0.00019354862337857634,
      "loss": 1.6067,
      "step": 55497
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5492547154426575,
      "learning_rate": 0.0001935388514685872,
      "loss": 1.6051,
      "step": 55498
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5613960027694702,
      "learning_rate": 0.00019352907968782617,
      "loss": 1.535,
      "step": 55499
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5538845062255859,
      "learning_rate": 0.00019351930803630514,
      "loss": 1.5414,
      "step": 55500
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5327621698379517,
      "learning_rate": 0.00019350953651403605,
      "loss": 1.5244,
      "step": 55501
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5563910603523254,
      "learning_rate": 0.00019349976512103058,
      "loss": 1.4999,
      "step": 55502
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5211751461029053,
      "learning_rate": 0.00019348999385730077,
      "loss": 1.5646,
      "step": 55503
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5401216149330139,
      "learning_rate": 0.0001934802227228584,
      "loss": 1.4902,
      "step": 55504
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5584122538566589,
      "learning_rate": 0.00019347045171771543,
      "loss": 1.576,
      "step": 55505
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5784436464309692,
      "learning_rate": 0.00019346068084188353,
      "loss": 1.5795,
      "step": 55506
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.539116621017456,
      "learning_rate": 0.0001934509100953747,
      "loss": 1.5757,
      "step": 55507
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5211649537086487,
      "learning_rate": 0.00019344113947820078,
      "loss": 1.5529,
      "step": 55508
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5884250402450562,
      "learning_rate": 0.00019343136899037353,
      "loss": 1.5347,
      "step": 55509
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5512550473213196,
      "learning_rate": 0.000193421598631905,
      "loss": 1.5119,
      "step": 55510
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.560505747795105,
      "learning_rate": 0.00019341182840280693,
      "loss": 1.5315,
      "step": 55511
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5379470586776733,
      "learning_rate": 0.00019340205830309116,
      "loss": 1.5741,
      "step": 55512
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5535076260566711,
      "learning_rate": 0.0001933922883327696,
      "loss": 1.5636,
      "step": 55513
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5313323736190796,
      "learning_rate": 0.00019338251849185408,
      "loss": 1.6053,
      "step": 55514
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5594784617424011,
      "learning_rate": 0.00019337274878035654,
      "loss": 1.6059,
      "step": 55515
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5744672417640686,
      "learning_rate": 0.00019336297919828868,
      "loss": 1.6301,
      "step": 55516
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5348143577575684,
      "learning_rate": 0.00019335320974566247,
      "loss": 1.525,
      "step": 55517
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5525294542312622,
      "learning_rate": 0.0001933434404224898,
      "loss": 1.6068,
      "step": 55518
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5804618000984192,
      "learning_rate": 0.00019333367122878245,
      "loss": 1.6622,
      "step": 55519
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5364730358123779,
      "learning_rate": 0.00019332390216455228,
      "loss": 1.6136,
      "step": 55520
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.53950434923172,
      "learning_rate": 0.00019331413322981126,
      "loss": 1.6018,
      "step": 55521
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5343849658966064,
      "learning_rate": 0.00019330436442457108,
      "loss": 1.5946,
      "step": 55522
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.9699119329452515,
      "learning_rate": 0.00019329459574884362,
      "loss": 1.5763,
      "step": 55523
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5368120670318604,
      "learning_rate": 0.00019328482720264089,
      "loss": 1.5665,
      "step": 55524
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5563258528709412,
      "learning_rate": 0.0001932750587859747,
      "loss": 1.6417,
      "step": 55525
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5281688570976257,
      "learning_rate": 0.00019326529049885682,
      "loss": 1.5787,
      "step": 55526
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5785254836082458,
      "learning_rate": 0.00019325552234129913,
      "loss": 1.5477,
      "step": 55527
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5196434259414673,
      "learning_rate": 0.00019324575431331356,
      "loss": 1.5854,
      "step": 55528
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5463035106658936,
      "learning_rate": 0.00019323598641491187,
      "loss": 1.5591,
      "step": 55529
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5739682912826538,
      "learning_rate": 0.00019322621864610587,
      "loss": 1.5645,
      "step": 55530
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5612062811851501,
      "learning_rate": 0.00019321645100690775,
      "loss": 1.5837,
      "step": 55531
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5587155222892761,
      "learning_rate": 0.0001932066834973289,
      "loss": 1.6077,
      "step": 55532
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5491085052490234,
      "learning_rate": 0.00019319691611738147,
      "loss": 1.5684,
      "step": 55533
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5218448042869568,
      "learning_rate": 0.00019318714886707724,
      "loss": 1.6592,
      "step": 55534
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.539897084236145,
      "learning_rate": 0.00019317738174642814,
      "loss": 1.5711,
      "step": 55535
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5521202683448792,
      "learning_rate": 0.00019316761475544588,
      "loss": 1.5893,
      "step": 55536
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5384415984153748,
      "learning_rate": 0.00019315784789414238,
      "loss": 1.555,
      "step": 55537
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5526854395866394,
      "learning_rate": 0.00019314808116252963,
      "loss": 1.5827,
      "step": 55538
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5699837803840637,
      "learning_rate": 0.00019313831456061923,
      "loss": 1.6457,
      "step": 55539
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5528640151023865,
      "learning_rate": 0.00019312854808842326,
      "loss": 1.5899,
      "step": 55540
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5341364741325378,
      "learning_rate": 0.0001931187817459535,
      "loss": 1.5639,
      "step": 55541
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5521401166915894,
      "learning_rate": 0.00019310901553322175,
      "loss": 1.5614,
      "step": 55542
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5529181957244873,
      "learning_rate": 0.00019309924945023989,
      "loss": 1.5439,
      "step": 55543
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5659036636352539,
      "learning_rate": 0.0001930894834970197,
      "loss": 1.6118,
      "step": 55544
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5448744297027588,
      "learning_rate": 0.00019307971767357332,
      "loss": 1.514,
      "step": 55545
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5724769830703735,
      "learning_rate": 0.00019306995197991225,
      "loss": 1.6032,
      "step": 55546
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5515656471252441,
      "learning_rate": 0.00019306018641604856,
      "loss": 1.5582,
      "step": 55547
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5784682035446167,
      "learning_rate": 0.00019305042098199414,
      "loss": 1.4864,
      "step": 55548
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5709503889083862,
      "learning_rate": 0.00019304065567776066,
      "loss": 1.5953,
      "step": 55549
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5609027743339539,
      "learning_rate": 0.00019303089050336006,
      "loss": 1.4971,
      "step": 55550
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5684583187103271,
      "learning_rate": 0.00019302112545880427,
      "loss": 1.625,
      "step": 55551
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5434587597846985,
      "learning_rate": 0.00019301136054410497,
      "loss": 1.5731,
      "step": 55552
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5445786714553833,
      "learning_rate": 0.0001930015957592741,
      "loss": 1.5637,
      "step": 55553
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5635913014411926,
      "learning_rate": 0.00019299183110432354,
      "loss": 1.5198,
      "step": 55554
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.568057119846344,
      "learning_rate": 0.00019298206657926523,
      "loss": 1.5608,
      "step": 55555
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5488949418067932,
      "learning_rate": 0.00019297230218411087,
      "loss": 1.5771,
      "step": 55556
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.527533769607544,
      "learning_rate": 0.00019296253791887237,
      "loss": 1.4513,
      "step": 55557
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5814681649208069,
      "learning_rate": 0.00019295277378356162,
      "loss": 1.4877,
      "step": 55558
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5340619683265686,
      "learning_rate": 0.00019294300977819033,
      "loss": 1.6181,
      "step": 55559
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5581662058830261,
      "learning_rate": 0.00019293324590277045,
      "loss": 1.5597,
      "step": 55560
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5581496357917786,
      "learning_rate": 0.000192923482157314,
      "loss": 1.5641,
      "step": 55561
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5426003932952881,
      "learning_rate": 0.00019291371854183247,
      "loss": 1.6031,
      "step": 55562
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5797826051712036,
      "learning_rate": 0.00019290395505633796,
      "loss": 1.5293,
      "step": 55563
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5442816019058228,
      "learning_rate": 0.00019289419170084228,
      "loss": 1.5865,
      "step": 55564
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5550257563591003,
      "learning_rate": 0.00019288442847535735,
      "loss": 1.4918,
      "step": 55565
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5373722314834595,
      "learning_rate": 0.00019287466537989487,
      "loss": 1.512,
      "step": 55566
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.539155900478363,
      "learning_rate": 0.0001928649024144667,
      "loss": 1.5443,
      "step": 55567
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.552673876285553,
      "learning_rate": 0.0001928551395790849,
      "loss": 1.5885,
      "step": 55568
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5609562993049622,
      "learning_rate": 0.00019284537687376107,
      "loss": 1.6343,
      "step": 55569
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5549812316894531,
      "learning_rate": 0.00019283561429850717,
      "loss": 1.513,
      "step": 55570
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5871195793151855,
      "learning_rate": 0.0001928258518533351,
      "loss": 1.621,
      "step": 55571
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5412752628326416,
      "learning_rate": 0.00019281608953825662,
      "loss": 1.6274,
      "step": 55572
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5314239263534546,
      "learning_rate": 0.0001928063273532836,
      "loss": 1.5513,
      "step": 55573
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5456901788711548,
      "learning_rate": 0.00019279656529842785,
      "loss": 1.6201,
      "step": 55574
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5663368701934814,
      "learning_rate": 0.00019278680337370146,
      "loss": 1.5796,
      "step": 55575
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.553666889667511,
      "learning_rate": 0.00019277704157911587,
      "loss": 1.6084,
      "step": 55576
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5366953611373901,
      "learning_rate": 0.00019276727991468328,
      "loss": 1.5511,
      "step": 55577
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5374486446380615,
      "learning_rate": 0.00019275751838041544,
      "loss": 1.5462,
      "step": 55578
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5341753959655762,
      "learning_rate": 0.00019274775697632407,
      "loss": 1.5938,
      "step": 55579
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5535867810249329,
      "learning_rate": 0.00019273799570242116,
      "loss": 1.5321,
      "step": 55580
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5466234087944031,
      "learning_rate": 0.00019272823455871861,
      "loss": 1.5538,
      "step": 55581
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5479283332824707,
      "learning_rate": 0.0001927184735452281,
      "loss": 1.5516,
      "step": 55582
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5303042531013489,
      "learning_rate": 0.00019270871266196144,
      "loss": 1.4494,
      "step": 55583
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5769680142402649,
      "learning_rate": 0.00019269895190893074,
      "loss": 1.6734,
      "step": 55584
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.537405252456665,
      "learning_rate": 0.0001926891912861477,
      "loss": 1.5724,
      "step": 55585
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5509092211723328,
      "learning_rate": 0.00019267943079362412,
      "loss": 1.6618,
      "step": 55586
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5475687980651855,
      "learning_rate": 0.00019266967043137193,
      "loss": 1.5956,
      "step": 55587
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5457605719566345,
      "learning_rate": 0.000192659910199403,
      "loss": 1.5392,
      "step": 55588
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5424330830574036,
      "learning_rate": 0.00019265015009772903,
      "loss": 1.5492,
      "step": 55589
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5340455770492554,
      "learning_rate": 0.0001926403901263619,
      "loss": 1.635,
      "step": 55590
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5363178849220276,
      "learning_rate": 0.00019263063028531358,
      "loss": 1.6002,
      "step": 55591
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5370728373527527,
      "learning_rate": 0.00019262087057459596,
      "loss": 1.5794,
      "step": 55592
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5482155084609985,
      "learning_rate": 0.00019261111099422068,
      "loss": 1.5243,
      "step": 55593
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.578483521938324,
      "learning_rate": 0.0001926013515441997,
      "loss": 1.628,
      "step": 55594
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5476366281509399,
      "learning_rate": 0.0001925915922245449,
      "loss": 1.5646,
      "step": 55595
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5332539081573486,
      "learning_rate": 0.00019258183303526806,
      "loss": 1.5933,
      "step": 55596
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5569850206375122,
      "learning_rate": 0.00019257207397638097,
      "loss": 1.6004,
      "step": 55597
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5302429795265198,
      "learning_rate": 0.00019256231504789572,
      "loss": 1.6149,
      "step": 55598
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5405298471450806,
      "learning_rate": 0.0001925525562498238,
      "loss": 1.5671,
      "step": 55599
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5342426300048828,
      "learning_rate": 0.00019254279758217733,
      "loss": 1.5568,
      "step": 55600
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5317897796630859,
      "learning_rate": 0.00019253303904496805,
      "loss": 1.5627,
      "step": 55601
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.757439911365509,
      "learning_rate": 0.00019252328063820793,
      "loss": 1.609,
      "step": 55602
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5698991417884827,
      "learning_rate": 0.0001925135223619086,
      "loss": 1.6022,
      "step": 55603
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5522876977920532,
      "learning_rate": 0.00019250376421608197,
      "loss": 1.6196,
      "step": 55604
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5586862564086914,
      "learning_rate": 0.00019249400620074012,
      "loss": 1.6031,
      "step": 55605
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5422244071960449,
      "learning_rate": 0.0001924842483158945,
      "loss": 1.525,
      "step": 55606
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5496591329574585,
      "learning_rate": 0.00019247449056155724,
      "loss": 1.5291,
      "step": 55607
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5388447642326355,
      "learning_rate": 0.00019246473293774017,
      "loss": 1.566,
      "step": 55608
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5535884499549866,
      "learning_rate": 0.000192454975444455,
      "loss": 1.5555,
      "step": 55609
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5403488278388977,
      "learning_rate": 0.0001924452180817137,
      "loss": 1.4994,
      "step": 55610
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5467674136161804,
      "learning_rate": 0.00019243546084952794,
      "loss": 1.5636,
      "step": 55611
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5337579250335693,
      "learning_rate": 0.00019242570374790983,
      "loss": 1.5914,
      "step": 55612
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5517890453338623,
      "learning_rate": 0.00019241594677687097,
      "loss": 1.5018,
      "step": 55613
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.545976459980011,
      "learning_rate": 0.0001924061899364233,
      "loss": 1.5254,
      "step": 55614
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5641146302223206,
      "learning_rate": 0.00019239643322657875,
      "loss": 1.6031,
      "step": 55615
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5267115235328674,
      "learning_rate": 0.00019238667664734898,
      "loss": 1.511,
      "step": 55616
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5291503071784973,
      "learning_rate": 0.00019237692019874597,
      "loss": 1.5935,
      "step": 55617
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5381157398223877,
      "learning_rate": 0.00019236716388078157,
      "loss": 1.5767,
      "step": 55618
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5477353930473328,
      "learning_rate": 0.0001923574076934674,
      "loss": 1.5099,
      "step": 55619
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5344223380088806,
      "learning_rate": 0.0001923476516368156,
      "loss": 1.5132,
      "step": 55620
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5645285248756409,
      "learning_rate": 0.0001923378957108379,
      "loss": 1.5641,
      "step": 55621
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5316424369812012,
      "learning_rate": 0.00019232813991554616,
      "loss": 1.5916,
      "step": 55622
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5330036878585815,
      "learning_rate": 0.00019231838425095213,
      "loss": 1.6107,
      "step": 55623
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5552244782447815,
      "learning_rate": 0.00019230862871706772,
      "loss": 1.5828,
      "step": 55624
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5582659244537354,
      "learning_rate": 0.00019229887331390484,
      "loss": 1.5855,
      "step": 55625
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5358997583389282,
      "learning_rate": 0.00019228911804147511,
      "loss": 1.592,
      "step": 55626
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5393220782279968,
      "learning_rate": 0.0001922793628997906,
      "loss": 1.5816,
      "step": 55627
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5459774136543274,
      "learning_rate": 0.00019226960788886317,
      "loss": 1.5511,
      "step": 55628
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5334248542785645,
      "learning_rate": 0.00019225985300870446,
      "loss": 1.5282,
      "step": 55629
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5535075068473816,
      "learning_rate": 0.0001922500982593264,
      "loss": 1.5795,
      "step": 55630
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.561703085899353,
      "learning_rate": 0.00019224034364074085,
      "loss": 1.5961,
      "step": 55631
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5180951952934265,
      "learning_rate": 0.00019223058915295976,
      "loss": 1.4545,
      "step": 55632
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.774742066860199,
      "learning_rate": 0.00019222083479599467,
      "loss": 1.6391,
      "step": 55633
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.522655725479126,
      "learning_rate": 0.00019221108056985766,
      "loss": 1.5089,
      "step": 55634
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5498624444007874,
      "learning_rate": 0.00019220132647456063,
      "loss": 1.6015,
      "step": 55635
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5412140488624573,
      "learning_rate": 0.00019219157251011522,
      "loss": 1.5413,
      "step": 55636
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5265992879867554,
      "learning_rate": 0.00019218181867653337,
      "loss": 1.5293,
      "step": 55637
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.528144121170044,
      "learning_rate": 0.00019217206497382694,
      "loss": 1.5388,
      "step": 55638
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5616321563720703,
      "learning_rate": 0.00019216231140200765,
      "loss": 1.6958,
      "step": 55639
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5722837448120117,
      "learning_rate": 0.00019215255796108742,
      "loss": 1.544,
      "step": 55640
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5556565523147583,
      "learning_rate": 0.00019214280465107815,
      "loss": 1.5543,
      "step": 55641
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5233111381530762,
      "learning_rate": 0.0001921330514719917,
      "loss": 1.5648,
      "step": 55642
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5388343334197998,
      "learning_rate": 0.00019212329842383972,
      "loss": 1.6686,
      "step": 55643
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5455304980278015,
      "learning_rate": 0.00019211354550663416,
      "loss": 1.6552,
      "step": 55644
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5357059240341187,
      "learning_rate": 0.00019210379272038697,
      "loss": 1.5589,
      "step": 55645
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5665351748466492,
      "learning_rate": 0.0001920940400651098,
      "loss": 1.6125,
      "step": 55646
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5591021180152893,
      "learning_rate": 0.00019208428754081445,
      "loss": 1.5103,
      "step": 55647
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5528409481048584,
      "learning_rate": 0.00019207453514751314,
      "loss": 1.5699,
      "step": 55648
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5497702956199646,
      "learning_rate": 0.00019206478288521722,
      "loss": 1.5253,
      "step": 55649
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5860421657562256,
      "learning_rate": 0.00019205503075393881,
      "loss": 1.6534,
      "step": 55650
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5391736030578613,
      "learning_rate": 0.0001920452787536897,
      "loss": 1.5744,
      "step": 55651
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.551800012588501,
      "learning_rate": 0.00019203552688448175,
      "loss": 1.6098,
      "step": 55652
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5467706322669983,
      "learning_rate": 0.0001920257751463267,
      "loss": 1.6737,
      "step": 55653
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5537391901016235,
      "learning_rate": 0.0001920160235392364,
      "loss": 1.5251,
      "step": 55654
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5420984029769897,
      "learning_rate": 0.00019200627206322293,
      "loss": 1.5127,
      "step": 55655
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5298254489898682,
      "learning_rate": 0.0001919965207182978,
      "loss": 1.4645,
      "step": 55656
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5521271228790283,
      "learning_rate": 0.00019198676950447297,
      "loss": 1.6149,
      "step": 55657
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5452250242233276,
      "learning_rate": 0.0001919770184217604,
      "loss": 1.6355,
      "step": 55658
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5537523627281189,
      "learning_rate": 0.0001919672674701717,
      "loss": 1.5606,
      "step": 55659
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5448148846626282,
      "learning_rate": 0.0001919575166497188,
      "loss": 1.586,
      "step": 55660
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5388306975364685,
      "learning_rate": 0.00019194776596041357,
      "loss": 1.5954,
      "step": 55661
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5584772229194641,
      "learning_rate": 0.00019193801540226798,
      "loss": 1.5997,
      "step": 55662
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5410093069076538,
      "learning_rate": 0.00019192826497529353,
      "loss": 1.5649,
      "step": 55663
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5630205273628235,
      "learning_rate": 0.0001919185146795023,
      "loss": 1.6323,
      "step": 55664
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5546543002128601,
      "learning_rate": 0.00019190876451490613,
      "loss": 1.5345,
      "step": 55665
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5642597079277039,
      "learning_rate": 0.00019189901448151675,
      "loss": 1.5668,
      "step": 55666
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.519743800163269,
      "learning_rate": 0.000191889264579346,
      "loss": 1.5976,
      "step": 55667
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.539478600025177,
      "learning_rate": 0.00019187951480840586,
      "loss": 1.6123,
      "step": 55668
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5373395681381226,
      "learning_rate": 0.00019186976516870796,
      "loss": 1.5425,
      "step": 55669
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5360583662986755,
      "learning_rate": 0.00019186001566026418,
      "loss": 1.5907,
      "step": 55670
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5699296593666077,
      "learning_rate": 0.00019185026628308648,
      "loss": 1.5915,
      "step": 55671
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5765823721885681,
      "learning_rate": 0.0001918405170371867,
      "loss": 1.5516,
      "step": 55672
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5207474231719971,
      "learning_rate": 0.0001918307679225765,
      "loss": 1.5441,
      "step": 55673
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5450186133384705,
      "learning_rate": 0.00019182101893926783,
      "loss": 1.5663,
      "step": 55674
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5741598010063171,
      "learning_rate": 0.00019181127008727257,
      "loss": 1.6123,
      "step": 55675
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5497928261756897,
      "learning_rate": 0.0001918015213666024,
      "loss": 1.6817,
      "step": 55676
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5186794400215149,
      "learning_rate": 0.00019179177277726923,
      "loss": 1.5536,
      "step": 55677
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5289719700813293,
      "learning_rate": 0.00019178202431928504,
      "loss": 1.5752,
      "step": 55678
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5703134536743164,
      "learning_rate": 0.00019177227599266136,
      "loss": 1.5302,
      "step": 55679
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5840016603469849,
      "learning_rate": 0.00019176252779741024,
      "loss": 1.5021,
      "step": 55680
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.563588559627533,
      "learning_rate": 0.00019175277973354347,
      "loss": 1.6222,
      "step": 55681
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5444996953010559,
      "learning_rate": 0.00019174303180107292,
      "loss": 1.6045,
      "step": 55682
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5889297127723694,
      "learning_rate": 0.00019173328400001033,
      "loss": 1.5589,
      "step": 55683
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5315425992012024,
      "learning_rate": 0.00019172353633036752,
      "loss": 1.6359,
      "step": 55684
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5445303320884705,
      "learning_rate": 0.0001917137887921566,
      "loss": 1.5311,
      "step": 55685
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5755864381790161,
      "learning_rate": 0.00019170404138538896,
      "loss": 1.6402,
      "step": 55686
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.529981791973114,
      "learning_rate": 0.00019169429411007674,
      "loss": 1.5735,
      "step": 55687
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5789174437522888,
      "learning_rate": 0.0001916845469662317,
      "loss": 1.4583,
      "step": 55688
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5465182065963745,
      "learning_rate": 0.0001916747999538657,
      "loss": 1.5335,
      "step": 55689
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5554744005203247,
      "learning_rate": 0.00019166505307299046,
      "loss": 1.6292,
      "step": 55690
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5553293824195862,
      "learning_rate": 0.00019165530632361783,
      "loss": 1.4926,
      "step": 55691
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5609104633331299,
      "learning_rate": 0.0001916455597057599,
      "loss": 1.594,
      "step": 55692
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5409095287322998,
      "learning_rate": 0.00019163581321942808,
      "loss": 1.5586,
      "step": 55693
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5464414358139038,
      "learning_rate": 0.00019162606686463446,
      "loss": 1.6042,
      "step": 55694
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5567269325256348,
      "learning_rate": 0.00019161632064139094,
      "loss": 1.5808,
      "step": 55695
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5553430914878845,
      "learning_rate": 0.00019160657454970917,
      "loss": 1.5746,
      "step": 55696
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5692888498306274,
      "learning_rate": 0.00019159682858960103,
      "loss": 1.6033,
      "step": 55697
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5394502878189087,
      "learning_rate": 0.00019158708276107843,
      "loss": 1.579,
      "step": 55698
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5588062405586243,
      "learning_rate": 0.00019157733706415308,
      "loss": 1.5979,
      "step": 55699
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5441449284553528,
      "learning_rate": 0.0001915675914988368,
      "loss": 1.6103,
      "step": 55700
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.540401041507721,
      "learning_rate": 0.00019155784606514153,
      "loss": 1.5684,
      "step": 55701
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5644399523735046,
      "learning_rate": 0.00019154810076307916,
      "loss": 1.5833,
      "step": 55702
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5568152070045471,
      "learning_rate": 0.00019153835559266135,
      "loss": 1.5578,
      "step": 55703
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.9368041753768921,
      "learning_rate": 0.00019152861055389997,
      "loss": 1.6004,
      "step": 55704
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.536789059638977,
      "learning_rate": 0.00019151886564680695,
      "loss": 1.5192,
      "step": 55705
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5453711152076721,
      "learning_rate": 0.00019150912087139397,
      "loss": 1.5619,
      "step": 55706
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5376836657524109,
      "learning_rate": 0.00019149937622767288,
      "loss": 1.5764,
      "step": 55707
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5373486876487732,
      "learning_rate": 0.00019148963171565563,
      "loss": 1.5783,
      "step": 55708
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5634497404098511,
      "learning_rate": 0.000191479887335354,
      "loss": 1.5599,
      "step": 55709
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5266347527503967,
      "learning_rate": 0.00019147014308677976,
      "loss": 1.5484,
      "step": 55710
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5306103825569153,
      "learning_rate": 0.00019146039896994482,
      "loss": 1.5428,
      "step": 55711
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5551857948303223,
      "learning_rate": 0.00019145065498486096,
      "loss": 1.6414,
      "step": 55712
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5527456998825073,
      "learning_rate": 0.00019144091113154,
      "loss": 1.591,
      "step": 55713
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5424829721450806,
      "learning_rate": 0.00019143116740999368,
      "loss": 1.5398,
      "step": 55714
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5382774472236633,
      "learning_rate": 0.00019142142382023414,
      "loss": 1.565,
      "step": 55715
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5461651086807251,
      "learning_rate": 0.0001914116803622728,
      "loss": 1.6077,
      "step": 55716
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5484074354171753,
      "learning_rate": 0.00019140193703612172,
      "loss": 1.5313,
      "step": 55717
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5599478483200073,
      "learning_rate": 0.0001913921938417927,
      "loss": 1.5778,
      "step": 55718
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5638641119003296,
      "learning_rate": 0.0001913824507792976,
      "loss": 1.5707,
      "step": 55719
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5287269353866577,
      "learning_rate": 0.00019137270784864817,
      "loss": 1.5531,
      "step": 55720
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5366056561470032,
      "learning_rate": 0.0001913629650498562,
      "loss": 1.6272,
      "step": 55721
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5545091032981873,
      "learning_rate": 0.00019135322238293375,
      "loss": 1.5888,
      "step": 55722
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5866080522537231,
      "learning_rate": 0.0001913434798478923,
      "loss": 1.5157,
      "step": 55723
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5527875423431396,
      "learning_rate": 0.0001913337374447439,
      "loss": 1.5344,
      "step": 55724
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5611094832420349,
      "learning_rate": 0.00019132399517350046,
      "loss": 1.5493,
      "step": 55725
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5467672348022461,
      "learning_rate": 0.00019131425303417355,
      "loss": 1.5914,
      "step": 55726
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5747653245925903,
      "learning_rate": 0.00019130451102677515,
      "loss": 1.6017,
      "step": 55727
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5518782734870911,
      "learning_rate": 0.00019129476915131697,
      "loss": 1.5313,
      "step": 55728
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5584354996681213,
      "learning_rate": 0.0001912850274078111,
      "loss": 1.6174,
      "step": 55729
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.557252049446106,
      "learning_rate": 0.00019127528579626906,
      "loss": 1.5566,
      "step": 55730
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5509817004203796,
      "learning_rate": 0.00019126554431670285,
      "loss": 1.6154,
      "step": 55731
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5739192366600037,
      "learning_rate": 0.00019125580296912425,
      "loss": 1.6345,
      "step": 55732
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5368475317955017,
      "learning_rate": 0.0001912460617535451,
      "loss": 1.5682,
      "step": 55733
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5695746541023254,
      "learning_rate": 0.00019123632066997718,
      "loss": 1.5252,
      "step": 55734
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.56402987241745,
      "learning_rate": 0.0001912265797184324,
      "loss": 1.529,
      "step": 55735
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5678607225418091,
      "learning_rate": 0.0001912168388989224,
      "loss": 1.6123,
      "step": 55736
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.571813702583313,
      "learning_rate": 0.0001912070982114592,
      "loss": 1.5609,
      "step": 55737
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.545592188835144,
      "learning_rate": 0.00019119735765605453,
      "loss": 1.5233,
      "step": 55738
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5293874144554138,
      "learning_rate": 0.00019118761723272028,
      "loss": 1.5178,
      "step": 55739
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5525690913200378,
      "learning_rate": 0.0001911778769414682,
      "loss": 1.5406,
      "step": 55740
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5496893525123596,
      "learning_rate": 0.00019116813678231017,
      "loss": 1.5826,
      "step": 55741
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.543659508228302,
      "learning_rate": 0.00019115839675525802,
      "loss": 1.5185,
      "step": 55742
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5451393127441406,
      "learning_rate": 0.0001911486568603234,
      "loss": 1.5919,
      "step": 55743
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5553281307220459,
      "learning_rate": 0.00019113891709751835,
      "loss": 1.5724,
      "step": 55744
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5429467558860779,
      "learning_rate": 0.00019112917746685467,
      "loss": 1.509,
      "step": 55745
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5408893823623657,
      "learning_rate": 0.00019111943796834406,
      "loss": 1.544,
      "step": 55746
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5668445825576782,
      "learning_rate": 0.00019110969860199842,
      "loss": 1.559,
      "step": 55747
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5369746088981628,
      "learning_rate": 0.00019109995936782956,
      "loss": 1.5447,
      "step": 55748
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5427709221839905,
      "learning_rate": 0.00019109022026584938,
      "loss": 1.551,
      "step": 55749
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5569021105766296,
      "learning_rate": 0.00019108048129606948,
      "loss": 1.5738,
      "step": 55750
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5456116199493408,
      "learning_rate": 0.00019107074245850193,
      "loss": 1.5846,
      "step": 55751
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5533311367034912,
      "learning_rate": 0.00019106100375315845,
      "loss": 1.5331,
      "step": 55752
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5543520450592041,
      "learning_rate": 0.00019105126518005085,
      "loss": 1.5025,
      "step": 55753
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.582919716835022,
      "learning_rate": 0.00019104152673919092,
      "loss": 1.6389,
      "step": 55754
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.5516030788421631,
      "learning_rate": 0.00019103178843059063,
      "loss": 1.5938,
      "step": 55755
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5329775214195251,
      "learning_rate": 0.00019102205025426156,
      "loss": 1.5257,
      "step": 55756
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5544850826263428,
      "learning_rate": 0.0001910123122102157,
      "loss": 1.6117,
      "step": 55757
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5472675561904907,
      "learning_rate": 0.0001910025742984648,
      "loss": 1.6128,
      "step": 55758
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5480064153671265,
      "learning_rate": 0.00019099283651902082,
      "loss": 1.5649,
      "step": 55759
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5604192614555359,
      "learning_rate": 0.00019098309887189544,
      "loss": 1.6134,
      "step": 55760
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5453644394874573,
      "learning_rate": 0.00019097336135710045,
      "loss": 1.5274,
      "step": 55761
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5523090362548828,
      "learning_rate": 0.00019096362397464785,
      "loss": 1.4963,
      "step": 55762
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5544201731681824,
      "learning_rate": 0.00019095388672454928,
      "loss": 1.619,
      "step": 55763
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5471487641334534,
      "learning_rate": 0.00019094414960681654,
      "loss": 1.5923,
      "step": 55764
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5611772537231445,
      "learning_rate": 0.0001909344126214617,
      "loss": 1.5727,
      "step": 55765
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5369786024093628,
      "learning_rate": 0.00019092467576849626,
      "loss": 1.5373,
      "step": 55766
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5462737083435059,
      "learning_rate": 0.00019091493904793225,
      "loss": 1.4909,
      "step": 55767
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5928929448127747,
      "learning_rate": 0.00019090520245978145,
      "loss": 1.6314,
      "step": 55768
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.563874363899231,
      "learning_rate": 0.00019089546600405572,
      "loss": 1.5352,
      "step": 55769
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.575687050819397,
      "learning_rate": 0.00019088572968076672,
      "loss": 1.5782,
      "step": 55770
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5525506138801575,
      "learning_rate": 0.0001908759934899263,
      "loss": 1.5997,
      "step": 55771
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5496076345443726,
      "learning_rate": 0.0001908662574315466,
      "loss": 1.5607,
      "step": 55772
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5857649445533752,
      "learning_rate": 0.00019085652150563893,
      "loss": 1.5237,
      "step": 55773
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5602478981018066,
      "learning_rate": 0.00019084678571221545,
      "loss": 1.57,
      "step": 55774
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5459279417991638,
      "learning_rate": 0.00019083705005128795,
      "loss": 1.5474,
      "step": 55775
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5611347556114197,
      "learning_rate": 0.0001908273145228681,
      "loss": 1.4938,
      "step": 55776
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5588746666908264,
      "learning_rate": 0.00019081757912696784,
      "loss": 1.6273,
      "step": 55777
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5287360548973083,
      "learning_rate": 0.00019080784386359888,
      "loss": 1.5831,
      "step": 55778
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5629389882087708,
      "learning_rate": 0.0001907981087327733,
      "loss": 1.5643,
      "step": 55779
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5465098023414612,
      "learning_rate": 0.00019078837373450252,
      "loss": 1.6028,
      "step": 55780
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5679837465286255,
      "learning_rate": 0.0001907786388687986,
      "loss": 1.5919,
      "step": 55781
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5517640113830566,
      "learning_rate": 0.00019076890413567343,
      "loss": 1.6432,
      "step": 55782
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5522672533988953,
      "learning_rate": 0.00019075916953513868,
      "loss": 1.5808,
      "step": 55783
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5480306148529053,
      "learning_rate": 0.00019074943506720615,
      "loss": 1.5353,
      "step": 55784
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5467906594276428,
      "learning_rate": 0.00019073970073188776,
      "loss": 1.559,
      "step": 55785
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5480753183364868,
      "learning_rate": 0.00019072996652919524,
      "loss": 1.6022,
      "step": 55786
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5508812069892883,
      "learning_rate": 0.00019072023245914036,
      "loss": 1.7004,
      "step": 55787
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5523390173912048,
      "learning_rate": 0.00019071049852173512,
      "loss": 1.576,
      "step": 55788
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5453625321388245,
      "learning_rate": 0.00019070076471699126,
      "loss": 1.5534,
      "step": 55789
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5588058829307556,
      "learning_rate": 0.0001906910310449205,
      "loss": 1.5757,
      "step": 55790
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.550444483757019,
      "learning_rate": 0.00019068129750553475,
      "loss": 1.6053,
      "step": 55791
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5582684278488159,
      "learning_rate": 0.00019067156409884585,
      "loss": 1.6267,
      "step": 55792
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.545243501663208,
      "learning_rate": 0.00019066183082486549,
      "loss": 1.608,
      "step": 55793
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5326217412948608,
      "learning_rate": 0.00019065209768360548,
      "loss": 1.5736,
      "step": 55794
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5396077036857605,
      "learning_rate": 0.00019064236467507793,
      "loss": 1.5346,
      "step": 55795
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5726207494735718,
      "learning_rate": 0.00019063263179929424,
      "loss": 1.5689,
      "step": 55796
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5276619791984558,
      "learning_rate": 0.0001906228990562665,
      "loss": 1.6283,
      "step": 55797
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5702509880065918,
      "learning_rate": 0.0001906131664460064,
      "loss": 1.6341,
      "step": 55798
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5247214436531067,
      "learning_rate": 0.00019060343396852587,
      "loss": 1.5911,
      "step": 55799
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5383637547492981,
      "learning_rate": 0.00019059370162383664,
      "loss": 1.5315,
      "step": 55800
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5267245769500732,
      "learning_rate": 0.0001905839694119504,
      "loss": 1.6129,
      "step": 55801
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5631580948829651,
      "learning_rate": 0.00019057423733287936,
      "loss": 1.5621,
      "step": 55802
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5540301203727722,
      "learning_rate": 0.0001905645053866348,
      "loss": 1.5171,
      "step": 55803
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5452662110328674,
      "learning_rate": 0.00019055477357322894,
      "loss": 1.5894,
      "step": 55804
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.558015763759613,
      "learning_rate": 0.00019054504189267352,
      "loss": 1.5877,
      "step": 55805
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.539145290851593,
      "learning_rate": 0.0001905353103449802,
      "loss": 1.6235,
      "step": 55806
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5366066098213196,
      "learning_rate": 0.0001905255789301609,
      "loss": 1.5602,
      "step": 55807
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.536308765411377,
      "learning_rate": 0.00019051584764822737,
      "loss": 1.5995,
      "step": 55808
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5277771353721619,
      "learning_rate": 0.0001905061164991916,
      "loss": 1.5765,
      "step": 55809
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.552788496017456,
      "learning_rate": 0.00019049638548306513,
      "loss": 1.5642,
      "step": 55810
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5284668207168579,
      "learning_rate": 0.00019048665459985993,
      "loss": 1.5752,
      "step": 55811
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5313348174095154,
      "learning_rate": 0.00019047692384958792,
      "loss": 1.4875,
      "step": 55812
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5572240948677063,
      "learning_rate": 0.0001904671932322607,
      "loss": 1.5707,
      "step": 55813
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5384662747383118,
      "learning_rate": 0.0001904574627478902,
      "loss": 1.5283,
      "step": 55814
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5427834391593933,
      "learning_rate": 0.00019044773239648818,
      "loss": 1.5391,
      "step": 55815
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5316552519798279,
      "learning_rate": 0.00019043800217806648,
      "loss": 1.5755,
      "step": 55816
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.544089138507843,
      "learning_rate": 0.0001904282720926368,
      "loss": 1.6422,
      "step": 55817
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5393418669700623,
      "learning_rate": 0.00019041854214021115,
      "loss": 1.5752,
      "step": 55818
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5478267073631287,
      "learning_rate": 0.00019040881232080127,
      "loss": 1.5221,
      "step": 55819
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5317497253417969,
      "learning_rate": 0.0001903990826344189,
      "loss": 1.5818,
      "step": 55820
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5330405235290527,
      "learning_rate": 0.0001903893530810759,
      "loss": 1.5377,
      "step": 55821
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5291704535484314,
      "learning_rate": 0.00019037962366078414,
      "loss": 1.5141,
      "step": 55822
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5402589440345764,
      "learning_rate": 0.00019036989437355527,
      "loss": 1.6167,
      "step": 55823
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5685169100761414,
      "learning_rate": 0.00019036016521940116,
      "loss": 1.5155,
      "step": 55824
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.534807026386261,
      "learning_rate": 0.00019035043619833385,
      "loss": 1.5633,
      "step": 55825
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.55483478307724,
      "learning_rate": 0.00019034070731036476,
      "loss": 1.6014,
      "step": 55826
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5521870255470276,
      "learning_rate": 0.00019033097855550597,
      "loss": 1.6278,
      "step": 55827
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5431463122367859,
      "learning_rate": 0.00019032124993376915,
      "loss": 1.5261,
      "step": 55828
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5252483487129211,
      "learning_rate": 0.00019031152144516632,
      "loss": 1.5559,
      "step": 55829
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5592292547225952,
      "learning_rate": 0.000190301793089709,
      "loss": 1.602,
      "step": 55830
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5471552014350891,
      "learning_rate": 0.00019029206486740913,
      "loss": 1.6114,
      "step": 55831
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5117958784103394,
      "learning_rate": 0.0001902823367782787,
      "loss": 1.5842,
      "step": 55832
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5344514846801758,
      "learning_rate": 0.00019027260882232918,
      "loss": 1.586,
      "step": 55833
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5507189631462097,
      "learning_rate": 0.0001902628809995726,
      "loss": 1.5407,
      "step": 55834
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5576509833335876,
      "learning_rate": 0.00019025315331002067,
      "loss": 1.4873,
      "step": 55835
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5377607941627502,
      "learning_rate": 0.00019024342575368533,
      "loss": 1.535,
      "step": 55836
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5732094645500183,
      "learning_rate": 0.00019023369833057825,
      "loss": 1.589,
      "step": 55837
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5401996970176697,
      "learning_rate": 0.00019022397104071124,
      "loss": 1.5951,
      "step": 55838
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5516878962516785,
      "learning_rate": 0.0001902142438840963,
      "loss": 1.58,
      "step": 55839
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5493640303611755,
      "learning_rate": 0.00019020451686074493,
      "loss": 1.7099,
      "step": 55840
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5388876795768738,
      "learning_rate": 0.00019019478997066915,
      "loss": 1.6297,
      "step": 55841
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5454403758049011,
      "learning_rate": 0.0001901850632138808,
      "loss": 1.5533,
      "step": 55842
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5457282066345215,
      "learning_rate": 0.00019017533659039155,
      "loss": 1.6004,
      "step": 55843
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5455192923545837,
      "learning_rate": 0.0001901656101002132,
      "loss": 1.5426,
      "step": 55844
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5422235727310181,
      "learning_rate": 0.0001901558837433576,
      "loss": 1.5254,
      "step": 55845
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5363990664482117,
      "learning_rate": 0.00019014615751983667,
      "loss": 1.5574,
      "step": 55846
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5336702466011047,
      "learning_rate": 0.00019013643142966205,
      "loss": 1.5378,
      "step": 55847
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.555229902267456,
      "learning_rate": 0.00019012670547284568,
      "loss": 1.6274,
      "step": 55848
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5433971285820007,
      "learning_rate": 0.0001901169796493993,
      "loss": 1.5929,
      "step": 55849
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.548634946346283,
      "learning_rate": 0.00019010725395933467,
      "loss": 1.5429,
      "step": 55850
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5494549870491028,
      "learning_rate": 0.00019009752840266363,
      "loss": 1.4685,
      "step": 55851
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5297289490699768,
      "learning_rate": 0.00019008780297939809,
      "loss": 1.5869,
      "step": 55852
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5537119507789612,
      "learning_rate": 0.0001900780776895496,
      "loss": 1.5908,
      "step": 55853
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5527094006538391,
      "learning_rate": 0.00019006835253313023,
      "loss": 1.609,
      "step": 55854
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5464267730712891,
      "learning_rate": 0.00019005862751015167,
      "loss": 1.5703,
      "step": 55855
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5435329079627991,
      "learning_rate": 0.0001900489026206258,
      "loss": 1.6407,
      "step": 55856
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5314996838569641,
      "learning_rate": 0.0001900391778645643,
      "loss": 1.555,
      "step": 55857
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5400992035865784,
      "learning_rate": 0.000190029453241979,
      "loss": 1.5432,
      "step": 55858
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5508043169975281,
      "learning_rate": 0.00019001972875288184,
      "loss": 1.5979,
      "step": 55859
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5601003766059875,
      "learning_rate": 0.00019001000439728438,
      "loss": 1.5582,
      "step": 55860
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5581733584403992,
      "learning_rate": 0.00019000028017519864,
      "loss": 1.6092,
      "step": 55861
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.538043737411499,
      "learning_rate": 0.00018999055608663644,
      "loss": 1.5176,
      "step": 55862
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.572788655757904,
      "learning_rate": 0.0001899808321316094,
      "loss": 1.6396,
      "step": 55863
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5335072875022888,
      "learning_rate": 0.00018997110831012946,
      "loss": 1.5152,
      "step": 55864
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5612133741378784,
      "learning_rate": 0.00018996138462220834,
      "loss": 1.5283,
      "step": 55865
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5663674473762512,
      "learning_rate": 0.00018995166106785795,
      "loss": 1.6133,
      "step": 55866
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.553143322467804,
      "learning_rate": 0.00018994193764708988,
      "loss": 1.6369,
      "step": 55867
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5478692650794983,
      "learning_rate": 0.0001899322143599162,
      "loss": 1.5738,
      "step": 55868
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5475579500198364,
      "learning_rate": 0.00018992249120634863,
      "loss": 1.5712,
      "step": 55869
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5467606782913208,
      "learning_rate": 0.00018991276818639888,
      "loss": 1.5873,
      "step": 55870
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5455300807952881,
      "learning_rate": 0.00018990304530007882,
      "loss": 1.5826,
      "step": 55871
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5665972828865051,
      "learning_rate": 0.00018989332254740025,
      "loss": 1.5945,
      "step": 55872
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5597153306007385,
      "learning_rate": 0.00018988359992837497,
      "loss": 1.5918,
      "step": 55873
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5234930515289307,
      "learning_rate": 0.00018987387744301467,
      "loss": 1.5513,
      "step": 55874
    },
    {
      "epoch": 1.86,
      "grad_norm": 1.01387619972229,
      "learning_rate": 0.00018986415509133134,
      "loss": 1.6515,
      "step": 55875
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5332246422767639,
      "learning_rate": 0.00018985443287333672,
      "loss": 1.6226,
      "step": 55876
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5581421852111816,
      "learning_rate": 0.00018984471078904258,
      "loss": 1.6325,
      "step": 55877
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5338462591171265,
      "learning_rate": 0.00018983498883846074,
      "loss": 1.5966,
      "step": 55878
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5444849133491516,
      "learning_rate": 0.00018982526702160298,
      "loss": 1.5408,
      "step": 55879
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5445641875267029,
      "learning_rate": 0.00018981554533848113,
      "loss": 1.5459,
      "step": 55880
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5446114540100098,
      "learning_rate": 0.00018980582378910687,
      "loss": 1.5439,
      "step": 55881
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5634808540344238,
      "learning_rate": 0.00018979610237349228,
      "loss": 1.6993,
      "step": 55882
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5673319697380066,
      "learning_rate": 0.0001897863810916488,
      "loss": 1.5955,
      "step": 55883
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5337491631507874,
      "learning_rate": 0.00018977665994358847,
      "loss": 1.591,
      "step": 55884
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5463890433311462,
      "learning_rate": 0.00018976693892932306,
      "loss": 1.592,
      "step": 55885
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5443986058235168,
      "learning_rate": 0.00018975721804886443,
      "loss": 1.5914,
      "step": 55886
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5402629971504211,
      "learning_rate": 0.00018974749730222418,
      "loss": 1.6802,
      "step": 55887
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5508081912994385,
      "learning_rate": 0.00018973777668941416,
      "loss": 1.5741,
      "step": 55888
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.550078809261322,
      "learning_rate": 0.0001897280562104465,
      "loss": 1.5886,
      "step": 55889
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.536584198474884,
      "learning_rate": 0.00018971833586533247,
      "loss": 1.5452,
      "step": 55890
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.567164421081543,
      "learning_rate": 0.00018970861565408418,
      "loss": 1.5508,
      "step": 55891
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5618135333061218,
      "learning_rate": 0.00018969889557671348,
      "loss": 1.5694,
      "step": 55892
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5752357840538025,
      "learning_rate": 0.000189689175633232,
      "loss": 1.546,
      "step": 55893
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5539371967315674,
      "learning_rate": 0.00018967945582365164,
      "loss": 1.5641,
      "step": 55894
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5395650267601013,
      "learning_rate": 0.00018966973614798404,
      "loss": 1.6379,
      "step": 55895
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5365306735038757,
      "learning_rate": 0.00018966001660624134,
      "loss": 1.5809,
      "step": 55896
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5440850853919983,
      "learning_rate": 0.00018965029719843494,
      "loss": 1.5497,
      "step": 55897
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5519044399261475,
      "learning_rate": 0.00018964057792457688,
      "loss": 1.5827,
      "step": 55898
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5519875288009644,
      "learning_rate": 0.0001896308587846789,
      "loss": 1.5482,
      "step": 55899
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5380271673202515,
      "learning_rate": 0.00018962113977875284,
      "loss": 1.5232,
      "step": 55900
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5693190097808838,
      "learning_rate": 0.0001896114209068104,
      "loss": 1.5324,
      "step": 55901
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5324462056159973,
      "learning_rate": 0.0001896017021688635,
      "loss": 1.5775,
      "step": 55902
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5457614064216614,
      "learning_rate": 0.0001895919835649238,
      "loss": 1.557,
      "step": 55903
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5481975674629211,
      "learning_rate": 0.0001895822650950031,
      "loss": 1.563,
      "step": 55904
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5212981104850769,
      "learning_rate": 0.0001895725467591133,
      "loss": 1.5914,
      "step": 55905
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5388390421867371,
      "learning_rate": 0.00018956282855726623,
      "loss": 1.5825,
      "step": 55906
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5448433756828308,
      "learning_rate": 0.00018955311048947357,
      "loss": 1.5641,
      "step": 55907
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5383631587028503,
      "learning_rate": 0.00018954339255574716,
      "loss": 1.5779,
      "step": 55908
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5653555393218994,
      "learning_rate": 0.00018953367475609884,
      "loss": 1.6219,
      "step": 55909
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5510597825050354,
      "learning_rate": 0.00018952395709054035,
      "loss": 1.536,
      "step": 55910
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5505005717277527,
      "learning_rate": 0.0001895142395590834,
      "loss": 1.5646,
      "step": 55911
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5541039705276489,
      "learning_rate": 0.00018950452216174004,
      "loss": 1.6362,
      "step": 55912
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5632674694061279,
      "learning_rate": 0.00018949480489852176,
      "loss": 1.563,
      "step": 55913
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5434697270393372,
      "learning_rate": 0.0001894850877694406,
      "loss": 1.5378,
      "step": 55914
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5187857151031494,
      "learning_rate": 0.0001894753707745082,
      "loss": 1.5931,
      "step": 55915
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5378862023353577,
      "learning_rate": 0.0001894656539137365,
      "loss": 1.5946,
      "step": 55916
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5519140362739563,
      "learning_rate": 0.00018945593718713713,
      "loss": 1.5571,
      "step": 55917
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5410427451133728,
      "learning_rate": 0.00018944622059472192,
      "loss": 1.5814,
      "step": 55918
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.557492196559906,
      "learning_rate": 0.00018943650413650288,
      "loss": 1.5746,
      "step": 55919
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.574428141117096,
      "learning_rate": 0.00018942678781249146,
      "loss": 1.5822,
      "step": 55920
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5450854301452637,
      "learning_rate": 0.00018941707162269973,
      "loss": 1.5035,
      "step": 55921
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5680452585220337,
      "learning_rate": 0.0001894073555671394,
      "loss": 1.5503,
      "step": 55922
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5361372232437134,
      "learning_rate": 0.00018939763964582215,
      "loss": 1.5085,
      "step": 55923
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.539937436580658,
      "learning_rate": 0.00018938792385875993,
      "loss": 1.5525,
      "step": 55924
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5609298348426819,
      "learning_rate": 0.00018937820820596435,
      "loss": 1.5569,
      "step": 55925
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5604357719421387,
      "learning_rate": 0.00018936849268744757,
      "loss": 1.6535,
      "step": 55926
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5495985150337219,
      "learning_rate": 0.00018935877730322096,
      "loss": 1.5436,
      "step": 55927
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.543756365776062,
      "learning_rate": 0.00018934906205329648,
      "loss": 1.5977,
      "step": 55928
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5611118674278259,
      "learning_rate": 0.00018933934693768606,
      "loss": 1.5736,
      "step": 55929
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5585942268371582,
      "learning_rate": 0.0001893296319564013,
      "loss": 1.5813,
      "step": 55930
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5440282821655273,
      "learning_rate": 0.00018931991710945402,
      "loss": 1.5262,
      "step": 55931
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5523298382759094,
      "learning_rate": 0.00018931020239685615,
      "loss": 1.5817,
      "step": 55932
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5636140704154968,
      "learning_rate": 0.00018930048781861931,
      "loss": 1.6059,
      "step": 55933
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5522257089614868,
      "learning_rate": 0.00018929077337475532,
      "loss": 1.609,
      "step": 55934
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5491068363189697,
      "learning_rate": 0.00018928105906527607,
      "loss": 1.5756,
      "step": 55935
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5835800766944885,
      "learning_rate": 0.00018927134489019336,
      "loss": 1.5798,
      "step": 55936
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5590242743492126,
      "learning_rate": 0.0001892616308495189,
      "loss": 1.6013,
      "step": 55937
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5515332818031311,
      "learning_rate": 0.00018925191694326444,
      "loss": 1.5664,
      "step": 55938
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5607903599739075,
      "learning_rate": 0.0001892422031714419,
      "loss": 1.6046,
      "step": 55939
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5587639212608337,
      "learning_rate": 0.00018923248953406295,
      "loss": 1.5669,
      "step": 55940
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5605190396308899,
      "learning_rate": 0.00018922277603113943,
      "loss": 1.483,
      "step": 55941
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5358575582504272,
      "learning_rate": 0.00018921306266268326,
      "loss": 1.5285,
      "step": 55942
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5779099464416504,
      "learning_rate": 0.00018920334942870598,
      "loss": 1.6324,
      "step": 55943
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5383443832397461,
      "learning_rate": 0.00018919363632921953,
      "loss": 1.6209,
      "step": 55944
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5628663301467896,
      "learning_rate": 0.00018918392336423568,
      "loss": 1.5594,
      "step": 55945
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5674210786819458,
      "learning_rate": 0.00018917421053376633,
      "loss": 1.5472,
      "step": 55946
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5573285222053528,
      "learning_rate": 0.00018916449783782302,
      "loss": 1.5533,
      "step": 55947
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5738031268119812,
      "learning_rate": 0.00018915478527641765,
      "loss": 1.4917,
      "step": 55948
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5504902005195618,
      "learning_rate": 0.00018914507284956223,
      "loss": 1.6255,
      "step": 55949
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.543660044670105,
      "learning_rate": 0.00018913536055726818,
      "loss": 1.5729,
      "step": 55950
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5671091079711914,
      "learning_rate": 0.0001891256483995475,
      "loss": 1.5923,
      "step": 55951
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5701494216918945,
      "learning_rate": 0.000189115936376412,
      "loss": 1.5856,
      "step": 55952
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5626795887947083,
      "learning_rate": 0.00018910622448787341,
      "loss": 1.5713,
      "step": 55953
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5258007049560547,
      "learning_rate": 0.00018909651273394347,
      "loss": 1.558,
      "step": 55954
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5486550331115723,
      "learning_rate": 0.000189086801114634,
      "loss": 1.5499,
      "step": 55955
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5548909306526184,
      "learning_rate": 0.00018907708962995692,
      "loss": 1.5809,
      "step": 55956
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5481508374214172,
      "learning_rate": 0.00018906737827992383,
      "loss": 1.6048,
      "step": 55957
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5613613128662109,
      "learning_rate": 0.00018905766706454666,
      "loss": 1.5298,
      "step": 55958
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5402907133102417,
      "learning_rate": 0.00018904795598383714,
      "loss": 1.5557,
      "step": 55959
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5494897961616516,
      "learning_rate": 0.000189038245037807,
      "loss": 1.5348,
      "step": 55960
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5447673797607422,
      "learning_rate": 0.0001890285342264681,
      "loss": 1.5634,
      "step": 55961
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5715818405151367,
      "learning_rate": 0.00018901882354983214,
      "loss": 1.6224,
      "step": 55962
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5790014863014221,
      "learning_rate": 0.00018900911300791107,
      "loss": 1.6175,
      "step": 55963
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5428059101104736,
      "learning_rate": 0.00018899940260071654,
      "loss": 1.5872,
      "step": 55964
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5559673309326172,
      "learning_rate": 0.0001889896923282604,
      "loss": 1.64,
      "step": 55965
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5514929890632629,
      "learning_rate": 0.00018897998219055443,
      "loss": 1.5791,
      "step": 55966
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5361381769180298,
      "learning_rate": 0.0001889702721876104,
      "loss": 1.6054,
      "step": 55967
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.528399646282196,
      "learning_rate": 0.00018896056231944007,
      "loss": 1.6179,
      "step": 55968
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.553209125995636,
      "learning_rate": 0.00018895085258605532,
      "loss": 1.5573,
      "step": 55969
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.53440260887146,
      "learning_rate": 0.00018894114298746776,
      "loss": 1.5452,
      "step": 55970
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.544754683971405,
      "learning_rate": 0.00018893143352368932,
      "loss": 1.502,
      "step": 55971
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5358362793922424,
      "learning_rate": 0.0001889217241947318,
      "loss": 1.5781,
      "step": 55972
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5551479458808899,
      "learning_rate": 0.00018891201500060697,
      "loss": 1.5542,
      "step": 55973
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5536413788795471,
      "learning_rate": 0.00018890230594132651,
      "loss": 1.5811,
      "step": 55974
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5522224307060242,
      "learning_rate": 0.00018889259701690233,
      "loss": 1.5817,
      "step": 55975
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5413261651992798,
      "learning_rate": 0.0001888828882273462,
      "loss": 1.557,
      "step": 55976
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5565022230148315,
      "learning_rate": 0.00018887317957266971,
      "loss": 1.513,
      "step": 55977
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5355465412139893,
      "learning_rate": 0.00018886347105288496,
      "loss": 1.569,
      "step": 55978
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5580022931098938,
      "learning_rate": 0.00018885376266800354,
      "loss": 1.5421,
      "step": 55979
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5658747553825378,
      "learning_rate": 0.00018884405441803727,
      "loss": 1.5468,
      "step": 55980
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5719758868217468,
      "learning_rate": 0.00018883434630299794,
      "loss": 1.4675,
      "step": 55981
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5586425065994263,
      "learning_rate": 0.00018882463832289726,
      "loss": 1.5856,
      "step": 55982
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.518535315990448,
      "learning_rate": 0.00018881493047774733,
      "loss": 1.5261,
      "step": 55983
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5500662922859192,
      "learning_rate": 0.0001888052227675594,
      "loss": 1.5233,
      "step": 55984
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5684735178947449,
      "learning_rate": 0.00018879551519234566,
      "loss": 1.5468,
      "step": 55985
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5842840075492859,
      "learning_rate": 0.00018878580775211787,
      "loss": 1.5436,
      "step": 55986
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5379436016082764,
      "learning_rate": 0.00018877610044688763,
      "loss": 1.5888,
      "step": 55987
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5550473928451538,
      "learning_rate": 0.0001887663932766668,
      "loss": 1.5704,
      "step": 55988
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5495423674583435,
      "learning_rate": 0.00018875668624146726,
      "loss": 1.4807,
      "step": 55989
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.563959002494812,
      "learning_rate": 0.00018874697934130068,
      "loss": 1.5741,
      "step": 55990
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5614779591560364,
      "learning_rate": 0.0001887372725761788,
      "loss": 1.5917,
      "step": 55991
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5602664351463318,
      "learning_rate": 0.0001887275659461135,
      "loss": 1.5698,
      "step": 55992
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5448113679885864,
      "learning_rate": 0.00018871785945111664,
      "loss": 1.591,
      "step": 55993
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5412179231643677,
      "learning_rate": 0.00018870815309119982,
      "loss": 1.6266,
      "step": 55994
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5561820268630981,
      "learning_rate": 0.0001886984468663749,
      "loss": 1.617,
      "step": 55995
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5493381023406982,
      "learning_rate": 0.00018868874077665373,
      "loss": 1.5592,
      "step": 55996
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5602335929870605,
      "learning_rate": 0.000188679034822048,
      "loss": 1.5684,
      "step": 55997
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5302250385284424,
      "learning_rate": 0.00018866932900256944,
      "loss": 1.5613,
      "step": 55998
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5469512343406677,
      "learning_rate": 0.00018865962331823008,
      "loss": 1.5654,
      "step": 55999
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5593040585517883,
      "learning_rate": 0.00018864991776904134,
      "loss": 1.52,
      "step": 56000
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.535544753074646,
      "learning_rate": 0.00018864021235501526,
      "loss": 1.5605,
      "step": 56001
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.546229898929596,
      "learning_rate": 0.00018863050707616357,
      "loss": 1.6159,
      "step": 56002
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5388543009757996,
      "learning_rate": 0.00018862080193249807,
      "loss": 1.5241,
      "step": 56003
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5430909395217896,
      "learning_rate": 0.00018861109692403047,
      "loss": 1.5424,
      "step": 56004
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5430741906166077,
      "learning_rate": 0.0001886013920507725,
      "loss": 1.4955,
      "step": 56005
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5502501726150513,
      "learning_rate": 0.00018859168731273626,
      "loss": 1.5849,
      "step": 56006
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5711454749107361,
      "learning_rate": 0.0001885819827099331,
      "loss": 1.6112,
      "step": 56007
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5538670420646667,
      "learning_rate": 0.00018857227824237502,
      "loss": 1.526,
      "step": 56008
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5597460865974426,
      "learning_rate": 0.00018856257391007387,
      "loss": 1.5623,
      "step": 56009
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5484881401062012,
      "learning_rate": 0.00018855286971304126,
      "loss": 1.6307,
      "step": 56010
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.553412675857544,
      "learning_rate": 0.00018854316565128905,
      "loss": 1.5955,
      "step": 56011
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5419567823410034,
      "learning_rate": 0.00018853346172482892,
      "loss": 1.5182,
      "step": 56012
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5280399918556213,
      "learning_rate": 0.00018852375793367297,
      "loss": 1.5552,
      "step": 56013
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5498964786529541,
      "learning_rate": 0.00018851405427783253,
      "loss": 1.5497,
      "step": 56014
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.557645320892334,
      "learning_rate": 0.00018850435075731968,
      "loss": 1.5449,
      "step": 56015
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5220806002616882,
      "learning_rate": 0.00018849464737214622,
      "loss": 1.4933,
      "step": 56016
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5562297701835632,
      "learning_rate": 0.00018848494412232374,
      "loss": 1.5937,
      "step": 56017
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5439473390579224,
      "learning_rate": 0.0001884752410078641,
      "loss": 1.5348,
      "step": 56018
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5364161729812622,
      "learning_rate": 0.00018846553802877913,
      "loss": 1.5772,
      "step": 56019
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5344600081443787,
      "learning_rate": 0.00018845583518508054,
      "loss": 1.5537,
      "step": 56020
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5642091631889343,
      "learning_rate": 0.00018844613247678005,
      "loss": 1.5255,
      "step": 56021
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5361707210540771,
      "learning_rate": 0.00018843642990388958,
      "loss": 1.5439,
      "step": 56022
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.525579571723938,
      "learning_rate": 0.0001884267274664209,
      "loss": 1.5918,
      "step": 56023
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5459502339363098,
      "learning_rate": 0.0001884170251643857,
      "loss": 1.5145,
      "step": 56024
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5620104074478149,
      "learning_rate": 0.00018840732299779577,
      "loss": 1.6095,
      "step": 56025
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5416523814201355,
      "learning_rate": 0.00018839762096666294,
      "loss": 1.5822,
      "step": 56026
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5423944592475891,
      "learning_rate": 0.00018838791907099895,
      "loss": 1.5426,
      "step": 56027
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5595758557319641,
      "learning_rate": 0.00018837821731081548,
      "loss": 1.6284,
      "step": 56028
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5322591662406921,
      "learning_rate": 0.00018836851568612462,
      "loss": 1.5785,
      "step": 56029
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5411613583564758,
      "learning_rate": 0.00018835881419693772,
      "loss": 1.5699,
      "step": 56030
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5610822439193726,
      "learning_rate": 0.0001883491128432668,
      "loss": 1.4721,
      "step": 56031
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5528771877288818,
      "learning_rate": 0.00018833941162512368,
      "loss": 1.5903,
      "step": 56032
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.556499183177948,
      "learning_rate": 0.0001883297105425201,
      "loss": 1.6784,
      "step": 56033
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5484670996665955,
      "learning_rate": 0.00018832000959546772,
      "loss": 1.5765,
      "step": 56034
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.540069043636322,
      "learning_rate": 0.00018831030878397836,
      "loss": 1.565,
      "step": 56035
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5635911822319031,
      "learning_rate": 0.000188300608108064,
      "loss": 1.6,
      "step": 56036
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5589467883110046,
      "learning_rate": 0.00018829090756773605,
      "loss": 1.5478,
      "step": 56037
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5378420948982239,
      "learning_rate": 0.00018828120716300653,
      "loss": 1.5239,
      "step": 56038
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5345840454101562,
      "learning_rate": 0.00018827150689388724,
      "loss": 1.5663,
      "step": 56039
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5745444893836975,
      "learning_rate": 0.0001882618067603898,
      "loss": 1.5917,
      "step": 56040
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5484171509742737,
      "learning_rate": 0.0001882521067625261,
      "loss": 1.5815,
      "step": 56041
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5732327699661255,
      "learning_rate": 0.0001882424069003078,
      "loss": 1.5474,
      "step": 56042
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5388268232345581,
      "learning_rate": 0.0001882327071737469,
      "loss": 1.5595,
      "step": 56043
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5547836422920227,
      "learning_rate": 0.00018822300758285487,
      "loss": 1.5056,
      "step": 56044
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5869938135147095,
      "learning_rate": 0.00018821330812764372,
      "loss": 1.5756,
      "step": 56045
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5747749209403992,
      "learning_rate": 0.00018820360880812518,
      "loss": 1.5893,
      "step": 56046
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5363225340843201,
      "learning_rate": 0.00018819390962431092,
      "loss": 1.5645,
      "step": 56047
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5303936004638672,
      "learning_rate": 0.0001881842105762128,
      "loss": 1.5331,
      "step": 56048
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5606533288955688,
      "learning_rate": 0.00018817451166384263,
      "loss": 1.6635,
      "step": 56049
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5459862947463989,
      "learning_rate": 0.00018816481288721207,
      "loss": 1.5698,
      "step": 56050
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5505713224411011,
      "learning_rate": 0.00018815511424633287,
      "loss": 1.6345,
      "step": 56051
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5421668291091919,
      "learning_rate": 0.00018814541574121692,
      "loss": 1.6039,
      "step": 56052
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5411914587020874,
      "learning_rate": 0.00018813571737187604,
      "loss": 1.5633,
      "step": 56053
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5493403077125549,
      "learning_rate": 0.0001881260191383219,
      "loss": 1.5403,
      "step": 56054
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5575374960899353,
      "learning_rate": 0.00018811632104056623,
      "loss": 1.5854,
      "step": 56055
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.5380619168281555,
      "learning_rate": 0.00018810662307862096,
      "loss": 1.5939,
      "step": 56056
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5436875224113464,
      "learning_rate": 0.00018809692525249768,
      "loss": 1.5714,
      "step": 56057
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5641327500343323,
      "learning_rate": 0.00018808722756220818,
      "loss": 1.6388,
      "step": 56058
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5747726559638977,
      "learning_rate": 0.00018807753000776452,
      "loss": 1.6145,
      "step": 56059
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5388271808624268,
      "learning_rate": 0.000188067832589178,
      "loss": 1.504,
      "step": 56060
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5646421909332275,
      "learning_rate": 0.00018805813530646073,
      "loss": 1.5365,
      "step": 56061
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5656445622444153,
      "learning_rate": 0.0001880484381596244,
      "loss": 1.6035,
      "step": 56062
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5497302412986755,
      "learning_rate": 0.0001880387411486808,
      "loss": 1.5879,
      "step": 56063
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5589665770530701,
      "learning_rate": 0.00018802904427364168,
      "loss": 1.541,
      "step": 56064
    },
    {
      "epoch": 1.87,
      "grad_norm": 2.16910982131958,
      "learning_rate": 0.00018801934753451868,
      "loss": 1.702,
      "step": 56065
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5287255048751831,
      "learning_rate": 0.0001880096509313239,
      "loss": 1.5247,
      "step": 56066
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5369439721107483,
      "learning_rate": 0.0001879999544640687,
      "loss": 1.5686,
      "step": 56067
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5379937887191772,
      "learning_rate": 0.0001879902581327651,
      "loss": 1.5346,
      "step": 56068
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5344200730323792,
      "learning_rate": 0.00018798056193742487,
      "loss": 1.6019,
      "step": 56069
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5724819898605347,
      "learning_rate": 0.00018797086587805974,
      "loss": 1.5204,
      "step": 56070
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5229817032814026,
      "learning_rate": 0.00018796116995468146,
      "loss": 1.5559,
      "step": 56071
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5319280624389648,
      "learning_rate": 0.00018795147416730173,
      "loss": 1.5679,
      "step": 56072
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5527034401893616,
      "learning_rate": 0.00018794177851593253,
      "loss": 1.6704,
      "step": 56073
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5807905197143555,
      "learning_rate": 0.0001879320830005854,
      "loss": 1.6131,
      "step": 56074
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.550997257232666,
      "learning_rate": 0.00018792238762127227,
      "loss": 1.5985,
      "step": 56075
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5616617202758789,
      "learning_rate": 0.00018791269237800488,
      "loss": 1.5687,
      "step": 56076
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5468121767044067,
      "learning_rate": 0.0001879029972707949,
      "loss": 1.5621,
      "step": 56077
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.546123743057251,
      "learning_rate": 0.00018789330229965418,
      "loss": 1.5522,
      "step": 56078
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.554324746131897,
      "learning_rate": 0.00018788360746459438,
      "loss": 1.5827,
      "step": 56079
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5449901819229126,
      "learning_rate": 0.0001878739127656275,
      "loss": 1.5814,
      "step": 56080
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5570234656333923,
      "learning_rate": 0.00018786421820276517,
      "loss": 1.5906,
      "step": 56081
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5444625616073608,
      "learning_rate": 0.00018785452377601905,
      "loss": 1.5991,
      "step": 56082
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5508822798728943,
      "learning_rate": 0.00018784482948540113,
      "loss": 1.5916,
      "step": 56083
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5352264642715454,
      "learning_rate": 0.00018783513533092297,
      "loss": 1.6567,
      "step": 56084
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5535284280776978,
      "learning_rate": 0.00018782544131259652,
      "loss": 1.5817,
      "step": 56085
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.552463948726654,
      "learning_rate": 0.00018781574743043344,
      "loss": 1.5109,
      "step": 56086
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5506791472434998,
      "learning_rate": 0.00018780605368444537,
      "loss": 1.5557,
      "step": 56087
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5545613765716553,
      "learning_rate": 0.00018779636007464434,
      "loss": 1.5287,
      "step": 56088
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5398405194282532,
      "learning_rate": 0.00018778666660104195,
      "loss": 1.6011,
      "step": 56089
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5373831391334534,
      "learning_rate": 0.0001877769732636501,
      "loss": 1.6032,
      "step": 56090
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5707424879074097,
      "learning_rate": 0.0001877672800624804,
      "loss": 1.6542,
      "step": 56091
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5484678745269775,
      "learning_rate": 0.0001877575869975447,
      "loss": 1.5265,
      "step": 56092
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5602983236312866,
      "learning_rate": 0.00018774789406885478,
      "loss": 1.5416,
      "step": 56093
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5395206212997437,
      "learning_rate": 0.00018773820127642227,
      "loss": 1.5761,
      "step": 56094
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5701304078102112,
      "learning_rate": 0.00018772850862025913,
      "loss": 1.5266,
      "step": 56095
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5391038656234741,
      "learning_rate": 0.00018771881610037708,
      "loss": 1.5272,
      "step": 56096
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5657487511634827,
      "learning_rate": 0.00018770912371678778,
      "loss": 1.6109,
      "step": 56097
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5521032214164734,
      "learning_rate": 0.00018769943146950305,
      "loss": 1.5609,
      "step": 56098
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5760037302970886,
      "learning_rate": 0.00018768973935853463,
      "loss": 1.563,
      "step": 56099
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.539392352104187,
      "learning_rate": 0.00018768004738389446,
      "loss": 1.541,
      "step": 56100
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5599201321601868,
      "learning_rate": 0.000187670355545594,
      "loss": 1.5684,
      "step": 56101
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.558005690574646,
      "learning_rate": 0.00018766066384364523,
      "loss": 1.573,
      "step": 56102
    },
    {
      "epoch": 1.87,
      "grad_norm": 1.1262378692626953,
      "learning_rate": 0.00018765097227805996,
      "loss": 1.574,
      "step": 56103
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5524182915687561,
      "learning_rate": 0.00018764128084884974,
      "loss": 1.608,
      "step": 56104
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5512577295303345,
      "learning_rate": 0.0001876315895560265,
      "loss": 1.5768,
      "step": 56105
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5482829213142395,
      "learning_rate": 0.00018762189839960198,
      "loss": 1.4685,
      "step": 56106
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5799959301948547,
      "learning_rate": 0.0001876122073795879,
      "loss": 1.5775,
      "step": 56107
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.539447009563446,
      "learning_rate": 0.0001876025164959959,
      "loss": 1.5465,
      "step": 56108
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5447988510131836,
      "learning_rate": 0.00018759282574883803,
      "loss": 1.5773,
      "step": 56109
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.562333345413208,
      "learning_rate": 0.0001875831351381259,
      "loss": 1.5836,
      "step": 56110
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5455539226531982,
      "learning_rate": 0.00018757344466387125,
      "loss": 1.5441,
      "step": 56111
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.534070611000061,
      "learning_rate": 0.00018756375432608588,
      "loss": 1.594,
      "step": 56112
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5363354682922363,
      "learning_rate": 0.00018755406412478162,
      "loss": 1.596,
      "step": 56113
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5572536587715149,
      "learning_rate": 0.00018754437405997008,
      "loss": 1.5441,
      "step": 56114
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.581505537033081,
      "learning_rate": 0.00018753468413166302,
      "loss": 1.5235,
      "step": 56115
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5551413893699646,
      "learning_rate": 0.0001875249943398725,
      "loss": 1.654,
      "step": 56116
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5480672121047974,
      "learning_rate": 0.00018751530468460981,
      "loss": 1.5708,
      "step": 56117
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5370962619781494,
      "learning_rate": 0.00018750561516588712,
      "loss": 1.5268,
      "step": 56118
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5383149981498718,
      "learning_rate": 0.00018749592578371597,
      "loss": 1.5235,
      "step": 56119
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5305055379867554,
      "learning_rate": 0.00018748623653810833,
      "loss": 1.5035,
      "step": 56120
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5827610492706299,
      "learning_rate": 0.0001874765474290757,
      "loss": 1.6165,
      "step": 56121
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5754838585853577,
      "learning_rate": 0.00018746685845662988,
      "loss": 1.5757,
      "step": 56122
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5594452619552612,
      "learning_rate": 0.00018745716962078292,
      "loss": 1.5441,
      "step": 56123
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5472427606582642,
      "learning_rate": 0.00018744748092154622,
      "loss": 1.5951,
      "step": 56124
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5538132190704346,
      "learning_rate": 0.0001874377923589317,
      "loss": 1.6171,
      "step": 56125
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5442395210266113,
      "learning_rate": 0.00018742810393295123,
      "loss": 1.5646,
      "step": 56126
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5598005056381226,
      "learning_rate": 0.00018741841564361638,
      "loss": 1.5469,
      "step": 56127
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.8457008600234985,
      "learning_rate": 0.00018740872749093898,
      "loss": 1.5556,
      "step": 56128
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5302931666374207,
      "learning_rate": 0.00018739903947493072,
      "loss": 1.5787,
      "step": 56129
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.55472731590271,
      "learning_rate": 0.00018738935159560362,
      "loss": 1.6044,
      "step": 56130
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5493861436843872,
      "learning_rate": 0.0001873796638529691,
      "loss": 1.5539,
      "step": 56131
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5523267388343811,
      "learning_rate": 0.0001873699762470391,
      "loss": 1.5877,
      "step": 56132
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5260580778121948,
      "learning_rate": 0.00018736028877782546,
      "loss": 1.5592,
      "step": 56133
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.566840410232544,
      "learning_rate": 0.00018735060144533974,
      "loss": 1.6333,
      "step": 56134
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5652329325675964,
      "learning_rate": 0.00018734091424959376,
      "loss": 1.6097,
      "step": 56135
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5698237419128418,
      "learning_rate": 0.00018733122719059942,
      "loss": 1.4923,
      "step": 56136
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5837065577507019,
      "learning_rate": 0.0001873215402683683,
      "loss": 1.5731,
      "step": 56137
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5722835659980774,
      "learning_rate": 0.00018731185348291215,
      "loss": 1.6206,
      "step": 56138
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5712169408798218,
      "learning_rate": 0.00018730216683424288,
      "loss": 1.6269,
      "step": 56139
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5700088143348694,
      "learning_rate": 0.00018729248032237222,
      "loss": 1.5401,
      "step": 56140
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5294815301895142,
      "learning_rate": 0.00018728279394731185,
      "loss": 1.5759,
      "step": 56141
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.522648811340332,
      "learning_rate": 0.00018727310770907355,
      "loss": 1.5215,
      "step": 56142
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5675972104072571,
      "learning_rate": 0.00018726342160766915,
      "loss": 1.5725,
      "step": 56143
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5766147375106812,
      "learning_rate": 0.00018725373564311025,
      "loss": 1.5455,
      "step": 56144
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5599658489227295,
      "learning_rate": 0.00018724404981540867,
      "loss": 1.6671,
      "step": 56145
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5537137389183044,
      "learning_rate": 0.0001872343641245764,
      "loss": 1.561,
      "step": 56146
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5535576939582825,
      "learning_rate": 0.0001872246785706248,
      "loss": 1.6495,
      "step": 56147
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5585387945175171,
      "learning_rate": 0.00018721499315356587,
      "loss": 1.6024,
      "step": 56148
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5678658485412598,
      "learning_rate": 0.0001872053078734113,
      "loss": 1.5864,
      "step": 56149
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5599358677864075,
      "learning_rate": 0.00018719562273017298,
      "loss": 1.5829,
      "step": 56150
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5541368126869202,
      "learning_rate": 0.00018718593772386249,
      "loss": 1.5841,
      "step": 56151
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5467177629470825,
      "learning_rate": 0.00018717625285449155,
      "loss": 1.4871,
      "step": 56152
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5569407939910889,
      "learning_rate": 0.0001871665681220722,
      "loss": 1.4991,
      "step": 56153
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5377909541130066,
      "learning_rate": 0.00018715688352661586,
      "loss": 1.5763,
      "step": 56154
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5499283075332642,
      "learning_rate": 0.00018714719906813448,
      "loss": 1.5802,
      "step": 56155
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5171927809715271,
      "learning_rate": 0.00018713751474663985,
      "loss": 1.5329,
      "step": 56156
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5607335567474365,
      "learning_rate": 0.00018712783056214354,
      "loss": 1.524,
      "step": 56157
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5368264317512512,
      "learning_rate": 0.00018711814651465746,
      "loss": 1.5297,
      "step": 56158
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5500146746635437,
      "learning_rate": 0.00018710846260419325,
      "loss": 1.587,
      "step": 56159
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5956960320472717,
      "learning_rate": 0.0001870987788307629,
      "loss": 1.6109,
      "step": 56160
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5510604977607727,
      "learning_rate": 0.0001870890951943778,
      "loss": 1.5656,
      "step": 56161
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5814499258995056,
      "learning_rate": 0.00018707941169505,
      "loss": 1.6234,
      "step": 56162
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5480107665061951,
      "learning_rate": 0.0001870697283327912,
      "loss": 1.5311,
      "step": 56163
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.550696849822998,
      "learning_rate": 0.00018706004510761305,
      "loss": 1.5403,
      "step": 56164
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5607966184616089,
      "learning_rate": 0.00018705036201952736,
      "loss": 1.5875,
      "step": 56165
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5469887256622314,
      "learning_rate": 0.00018704067906854597,
      "loss": 1.5174,
      "step": 56166
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5616983771324158,
      "learning_rate": 0.00018703099625468045,
      "loss": 1.5833,
      "step": 56167
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5386068224906921,
      "learning_rate": 0.00018702131357794263,
      "loss": 1.5902,
      "step": 56168
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5326394438743591,
      "learning_rate": 0.00018701163103834436,
      "loss": 1.6453,
      "step": 56169
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5493537783622742,
      "learning_rate": 0.00018700194863589735,
      "loss": 1.5649,
      "step": 56170
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5564499497413635,
      "learning_rate": 0.00018699226637061328,
      "loss": 1.6278,
      "step": 56171
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5445062518119812,
      "learning_rate": 0.00018698258424250394,
      "loss": 1.6203,
      "step": 56172
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5471162796020508,
      "learning_rate": 0.00018697290225158113,
      "loss": 1.5495,
      "step": 56173
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5440171957015991,
      "learning_rate": 0.00018696322039785657,
      "loss": 1.5599,
      "step": 56174
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5558673739433289,
      "learning_rate": 0.00018695353868134187,
      "loss": 1.5792,
      "step": 56175
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.633728563785553,
      "learning_rate": 0.00018694385710204913,
      "loss": 1.5385,
      "step": 56176
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5449246168136597,
      "learning_rate": 0.00018693417565998968,
      "loss": 1.5619,
      "step": 56177
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5182751417160034,
      "learning_rate": 0.0001869244943551756,
      "loss": 1.6595,
      "step": 56178
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5488841533660889,
      "learning_rate": 0.00018691481318761847,
      "loss": 1.5699,
      "step": 56179
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.578575849533081,
      "learning_rate": 0.0001869051321573302,
      "loss": 1.4819,
      "step": 56180
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5463663339614868,
      "learning_rate": 0.00018689545126432232,
      "loss": 1.5983,
      "step": 56181
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5450249314308167,
      "learning_rate": 0.0001868857705086067,
      "loss": 1.6074,
      "step": 56182
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5309586524963379,
      "learning_rate": 0.00018687608989019524,
      "loss": 1.561,
      "step": 56183
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5498265027999878,
      "learning_rate": 0.00018686640940909934,
      "loss": 1.5137,
      "step": 56184
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5539063811302185,
      "learning_rate": 0.00018685672906533103,
      "loss": 1.5413,
      "step": 56185
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5747648477554321,
      "learning_rate": 0.00018684704885890203,
      "loss": 1.5306,
      "step": 56186
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5621568560600281,
      "learning_rate": 0.00018683736878982398,
      "loss": 1.6563,
      "step": 56187
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5421977043151855,
      "learning_rate": 0.00018682768885810872,
      "loss": 1.5746,
      "step": 56188
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5297262668609619,
      "learning_rate": 0.00018681800906376788,
      "loss": 1.5375,
      "step": 56189
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5767030715942383,
      "learning_rate": 0.00018680832940681344,
      "loss": 1.597,
      "step": 56190
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5504072308540344,
      "learning_rate": 0.00018679864988725692,
      "loss": 1.6214,
      "step": 56191
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5616823434829712,
      "learning_rate": 0.00018678897050511018,
      "loss": 1.5932,
      "step": 56192
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5588710904121399,
      "learning_rate": 0.000186779291260385,
      "loss": 1.5625,
      "step": 56193
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.561668872833252,
      "learning_rate": 0.00018676961215309304,
      "loss": 1.5565,
      "step": 56194
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5496453046798706,
      "learning_rate": 0.00018675993318324608,
      "loss": 1.6375,
      "step": 56195
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5690940618515015,
      "learning_rate": 0.00018675025435085582,
      "loss": 1.6647,
      "step": 56196
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5665743350982666,
      "learning_rate": 0.00018674057565593415,
      "loss": 1.549,
      "step": 56197
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5555417537689209,
      "learning_rate": 0.00018673089709849268,
      "loss": 1.5819,
      "step": 56198
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5612581968307495,
      "learning_rate": 0.00018672121867854325,
      "loss": 1.5503,
      "step": 56199
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5288033485412598,
      "learning_rate": 0.0001867115403960976,
      "loss": 1.5939,
      "step": 56200
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5412043929100037,
      "learning_rate": 0.0001867018622511674,
      "loss": 1.5626,
      "step": 56201
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.569870114326477,
      "learning_rate": 0.00018669218424376447,
      "loss": 1.568,
      "step": 56202
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5735043883323669,
      "learning_rate": 0.00018668250637390052,
      "loss": 1.5727,
      "step": 56203
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5533822774887085,
      "learning_rate": 0.00018667282864158724,
      "loss": 1.588,
      "step": 56204
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5571196675300598,
      "learning_rate": 0.00018666315104683652,
      "loss": 1.6561,
      "step": 56205
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5516165494918823,
      "learning_rate": 0.00018665347358965998,
      "loss": 1.4903,
      "step": 56206
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5682517886161804,
      "learning_rate": 0.00018664379627006956,
      "loss": 1.5173,
      "step": 56207
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5522856116294861,
      "learning_rate": 0.00018663411908807678,
      "loss": 1.5739,
      "step": 56208
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5885649919509888,
      "learning_rate": 0.00018662444204369343,
      "loss": 1.5516,
      "step": 56209
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5603328943252563,
      "learning_rate": 0.0001866147651369314,
      "loss": 1.5886,
      "step": 56210
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5599843263626099,
      "learning_rate": 0.00018660508836780223,
      "loss": 1.6125,
      "step": 56211
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5584880709648132,
      "learning_rate": 0.00018659541173631782,
      "loss": 1.5915,
      "step": 56212
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5239037871360779,
      "learning_rate": 0.00018658573524248995,
      "loss": 1.525,
      "step": 56213
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5839131474494934,
      "learning_rate": 0.0001865760588863302,
      "loss": 1.6348,
      "step": 56214
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.537767231464386,
      "learning_rate": 0.0001865663826678504,
      "loss": 1.5418,
      "step": 56215
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5624822974205017,
      "learning_rate": 0.00018655670658706226,
      "loss": 1.5778,
      "step": 56216
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.6290233135223389,
      "learning_rate": 0.00018654703064397769,
      "loss": 1.5322,
      "step": 56217
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5578975677490234,
      "learning_rate": 0.0001865373548386082,
      "loss": 1.5637,
      "step": 56218
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5311663150787354,
      "learning_rate": 0.00018652767917096567,
      "loss": 1.6155,
      "step": 56219
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5427930355072021,
      "learning_rate": 0.00018651800364106186,
      "loss": 1.6405,
      "step": 56220
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5501587986946106,
      "learning_rate": 0.00018650832824890847,
      "loss": 1.4851,
      "step": 56221
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5628954768180847,
      "learning_rate": 0.0001864986529945172,
      "loss": 1.5803,
      "step": 56222
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5546650886535645,
      "learning_rate": 0.0001864889778778999,
      "loss": 1.5986,
      "step": 56223
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5317918062210083,
      "learning_rate": 0.00018647930289906821,
      "loss": 1.5838,
      "step": 56224
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5463739037513733,
      "learning_rate": 0.00018646962805803386,
      "loss": 1.5118,
      "step": 56225
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5514127612113953,
      "learning_rate": 0.0001864599533548087,
      "loss": 1.6203,
      "step": 56226
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5507286787033081,
      "learning_rate": 0.00018645027878940452,
      "loss": 1.673,
      "step": 56227
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5609183311462402,
      "learning_rate": 0.0001864406043618329,
      "loss": 1.6197,
      "step": 56228
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5385969877243042,
      "learning_rate": 0.00018643093007210564,
      "loss": 1.587,
      "step": 56229
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5418850779533386,
      "learning_rate": 0.00018642125592023456,
      "loss": 1.5114,
      "step": 56230
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5440005660057068,
      "learning_rate": 0.00018641158190623125,
      "loss": 1.6369,
      "step": 56231
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5430715680122375,
      "learning_rate": 0.00018640190803010756,
      "loss": 1.6458,
      "step": 56232
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5630633234977722,
      "learning_rate": 0.00018639223429187533,
      "loss": 1.5781,
      "step": 56233
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5334919691085815,
      "learning_rate": 0.000186382560691546,
      "loss": 1.5601,
      "step": 56234
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5399054884910583,
      "learning_rate": 0.0001863728872291316,
      "loss": 1.5212,
      "step": 56235
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5535051226615906,
      "learning_rate": 0.00018636321390464377,
      "loss": 1.5797,
      "step": 56236
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5771428942680359,
      "learning_rate": 0.0001863535407180943,
      "loss": 1.663,
      "step": 56237
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5426397919654846,
      "learning_rate": 0.00018634386766949485,
      "loss": 1.506,
      "step": 56238
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5301594138145447,
      "learning_rate": 0.00018633419475885712,
      "loss": 1.5783,
      "step": 56239
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5581392049789429,
      "learning_rate": 0.00018632452198619307,
      "loss": 1.6115,
      "step": 56240
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5525411367416382,
      "learning_rate": 0.0001863148493515142,
      "loss": 1.612,
      "step": 56241
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5589282512664795,
      "learning_rate": 0.00018630517685483237,
      "loss": 1.6435,
      "step": 56242
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5468286275863647,
      "learning_rate": 0.00018629550449615937,
      "loss": 1.6273,
      "step": 56243
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5424084663391113,
      "learning_rate": 0.0001862858322755068,
      "loss": 1.4734,
      "step": 56244
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5666083097457886,
      "learning_rate": 0.0001862761601928865,
      "loss": 1.5811,
      "step": 56245
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.7642827033996582,
      "learning_rate": 0.00018626648824831006,
      "loss": 1.548,
      "step": 56246
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.569374680519104,
      "learning_rate": 0.0001862568164417896,
      "loss": 1.6114,
      "step": 56247
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5676808953285217,
      "learning_rate": 0.00018624714477333642,
      "loss": 1.5941,
      "step": 56248
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5496807098388672,
      "learning_rate": 0.0001862374732429625,
      "loss": 1.5095,
      "step": 56249
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5374739170074463,
      "learning_rate": 0.00018622780185067957,
      "loss": 1.5434,
      "step": 56250
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5674397349357605,
      "learning_rate": 0.00018621813059649926,
      "loss": 1.6445,
      "step": 56251
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.545761227607727,
      "learning_rate": 0.00018620845948043337,
      "loss": 1.5552,
      "step": 56252
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5646054148674011,
      "learning_rate": 0.00018619878850249373,
      "loss": 1.6,
      "step": 56253
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5860386490821838,
      "learning_rate": 0.00018618911766269192,
      "loss": 1.5619,
      "step": 56254
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5516531467437744,
      "learning_rate": 0.0001861794469610397,
      "loss": 1.5402,
      "step": 56255
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5477401614189148,
      "learning_rate": 0.0001861697763975489,
      "loss": 1.5213,
      "step": 56256
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5470821261405945,
      "learning_rate": 0.00018616010597223128,
      "loss": 1.5613,
      "step": 56257
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5380599498748779,
      "learning_rate": 0.00018615043568509846,
      "loss": 1.5646,
      "step": 56258
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5412108898162842,
      "learning_rate": 0.00018614076553616227,
      "loss": 1.5845,
      "step": 56259
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5352770090103149,
      "learning_rate": 0.00018613109552543443,
      "loss": 1.6087,
      "step": 56260
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5433109998703003,
      "learning_rate": 0.00018612142565292664,
      "loss": 1.6312,
      "step": 56261
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5448141098022461,
      "learning_rate": 0.00018611175591865054,
      "loss": 1.6047,
      "step": 56262
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5399757623672485,
      "learning_rate": 0.00018610208632261824,
      "loss": 1.5581,
      "step": 56263
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5574038028717041,
      "learning_rate": 0.000186092416864841,
      "loss": 1.5954,
      "step": 56264
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5348281860351562,
      "learning_rate": 0.00018608274754533085,
      "loss": 1.6045,
      "step": 56265
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5595127940177917,
      "learning_rate": 0.0001860730783640995,
      "loss": 1.5402,
      "step": 56266
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.54987633228302,
      "learning_rate": 0.00018606340932115866,
      "loss": 1.5565,
      "step": 56267
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.538232684135437,
      "learning_rate": 0.00018605374041652,
      "loss": 1.5637,
      "step": 56268
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5561299324035645,
      "learning_rate": 0.00018604407165019528,
      "loss": 1.6003,
      "step": 56269
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5538451075553894,
      "learning_rate": 0.0001860344030221964,
      "loss": 1.5951,
      "step": 56270
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5416585206985474,
      "learning_rate": 0.0001860247345325348,
      "loss": 1.6028,
      "step": 56271
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5470356345176697,
      "learning_rate": 0.00018601506618122246,
      "loss": 1.5648,
      "step": 56272
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5641332268714905,
      "learning_rate": 0.00018600539796827104,
      "loss": 1.5568,
      "step": 56273
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.54901123046875,
      "learning_rate": 0.00018599572989369228,
      "loss": 1.6394,
      "step": 56274
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5352755188941956,
      "learning_rate": 0.00018598606195749785,
      "loss": 1.5397,
      "step": 56275
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5459885597229004,
      "learning_rate": 0.00018597639415969953,
      "loss": 1.5444,
      "step": 56276
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5681725144386292,
      "learning_rate": 0.00018596672650030924,
      "loss": 1.5216,
      "step": 56277
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5557351112365723,
      "learning_rate": 0.00018595705897933834,
      "loss": 1.5823,
      "step": 56278
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5469726920127869,
      "learning_rate": 0.00018594739159679882,
      "loss": 1.5466,
      "step": 56279
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5411933660507202,
      "learning_rate": 0.00018593772435270242,
      "loss": 1.4937,
      "step": 56280
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5332123041152954,
      "learning_rate": 0.00018592805724706077,
      "loss": 1.5264,
      "step": 56281
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5755276679992676,
      "learning_rate": 0.0001859183902798857,
      "loss": 1.5693,
      "step": 56282
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5453111529350281,
      "learning_rate": 0.0001859087234511889,
      "loss": 1.524,
      "step": 56283
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5704168081283569,
      "learning_rate": 0.00018589905676098204,
      "loss": 1.558,
      "step": 56284
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.560897171497345,
      "learning_rate": 0.00018588939020927685,
      "loss": 1.5697,
      "step": 56285
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5550716519355774,
      "learning_rate": 0.0001858797237960852,
      "loss": 1.5659,
      "step": 56286
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5287131071090698,
      "learning_rate": 0.0001858700575214188,
      "loss": 1.5123,
      "step": 56287
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5496228337287903,
      "learning_rate": 0.00018586039138528926,
      "loss": 1.5108,
      "step": 56288
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5489811897277832,
      "learning_rate": 0.00018585072538770844,
      "loss": 1.5684,
      "step": 56289
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5394598841667175,
      "learning_rate": 0.000185841059528688,
      "loss": 1.587,
      "step": 56290
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5393980145454407,
      "learning_rate": 0.00018583139380823972,
      "loss": 1.5851,
      "step": 56291
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5672288537025452,
      "learning_rate": 0.00018582172822637517,
      "loss": 1.6217,
      "step": 56292
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5407533645629883,
      "learning_rate": 0.00018581206278310647,
      "loss": 1.5956,
      "step": 56293
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5609675645828247,
      "learning_rate": 0.00018580239747844487,
      "loss": 1.5447,
      "step": 56294
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.540028989315033,
      "learning_rate": 0.00018579273231240245,
      "loss": 1.4784,
      "step": 56295
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5304863452911377,
      "learning_rate": 0.00018578306728499078,
      "loss": 1.5697,
      "step": 56296
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5385214686393738,
      "learning_rate": 0.00018577340239622168,
      "loss": 1.6035,
      "step": 56297
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.572436511516571,
      "learning_rate": 0.0001857637376461068,
      "loss": 1.5126,
      "step": 56298
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5579696893692017,
      "learning_rate": 0.00018575407303465785,
      "loss": 1.536,
      "step": 56299
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5569340586662292,
      "learning_rate": 0.0001857444085618868,
      "loss": 1.581,
      "step": 56300
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5522468090057373,
      "learning_rate": 0.00018573474422780504,
      "loss": 1.6208,
      "step": 56301
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.6478856205940247,
      "learning_rate": 0.0001857250800324245,
      "loss": 1.6336,
      "step": 56302
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5595570802688599,
      "learning_rate": 0.00018571541597575697,
      "loss": 1.5071,
      "step": 56303
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5488106608390808,
      "learning_rate": 0.00018570575205781399,
      "loss": 1.6023,
      "step": 56304
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5339089035987854,
      "learning_rate": 0.00018569608827860738,
      "loss": 1.5148,
      "step": 56305
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.549824595451355,
      "learning_rate": 0.00018568642463814887,
      "loss": 1.5813,
      "step": 56306
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5490589737892151,
      "learning_rate": 0.00018567676113645027,
      "loss": 1.6096,
      "step": 56307
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5471517443656921,
      "learning_rate": 0.00018566709777352317,
      "loss": 1.6185,
      "step": 56308
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5376315116882324,
      "learning_rate": 0.00018565743454937938,
      "loss": 1.5688,
      "step": 56309
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5201286673545837,
      "learning_rate": 0.0001856477714640307,
      "loss": 1.556,
      "step": 56310
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5772264003753662,
      "learning_rate": 0.0001856381085174887,
      "loss": 1.4845,
      "step": 56311
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5589410662651062,
      "learning_rate": 0.0001856284457097652,
      "loss": 1.5436,
      "step": 56312
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5254830121994019,
      "learning_rate": 0.00018561878304087186,
      "loss": 1.5503,
      "step": 56313
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5606140494346619,
      "learning_rate": 0.00018560912051082055,
      "loss": 1.6351,
      "step": 56314
    },
    {
      "epoch": 1.87,
      "grad_norm": 1.096031904220581,
      "learning_rate": 0.00018559945811962285,
      "loss": 1.6425,
      "step": 56315
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.579475462436676,
      "learning_rate": 0.00018558979586729058,
      "loss": 1.5841,
      "step": 56316
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5647931694984436,
      "learning_rate": 0.00018558013375383548,
      "loss": 1.6212,
      "step": 56317
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.539580225944519,
      "learning_rate": 0.0001855704717792692,
      "loss": 1.5833,
      "step": 56318
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5628446936607361,
      "learning_rate": 0.0001855608099436035,
      "loss": 1.5765,
      "step": 56319
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5386682152748108,
      "learning_rate": 0.00018555114824685018,
      "loss": 1.583,
      "step": 56320
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5487332940101624,
      "learning_rate": 0.00018554148668902077,
      "loss": 1.5825,
      "step": 56321
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5502177476882935,
      "learning_rate": 0.00018553182527012718,
      "loss": 1.5747,
      "step": 56322
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5458963513374329,
      "learning_rate": 0.0001855221639901811,
      "loss": 1.5639,
      "step": 56323
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5372750163078308,
      "learning_rate": 0.0001855125028491943,
      "loss": 1.62,
      "step": 56324
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5348042249679565,
      "learning_rate": 0.0001855028418471784,
      "loss": 1.4994,
      "step": 56325
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.545367419719696,
      "learning_rate": 0.00018549318098414519,
      "loss": 1.5855,
      "step": 56326
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5635610222816467,
      "learning_rate": 0.00018548352026010647,
      "loss": 1.5395,
      "step": 56327
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5546422600746155,
      "learning_rate": 0.00018547385967507369,
      "loss": 1.5666,
      "step": 56328
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5579530000686646,
      "learning_rate": 0.00018546419922905888,
      "loss": 1.5144,
      "step": 56329
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.543849766254425,
      "learning_rate": 0.00018545453892207373,
      "loss": 1.5298,
      "step": 56330
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5723636150360107,
      "learning_rate": 0.00018544487875412976,
      "loss": 1.5442,
      "step": 56331
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5718148350715637,
      "learning_rate": 0.0001854352187252389,
      "loss": 1.4876,
      "step": 56332
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5627004504203796,
      "learning_rate": 0.00018542555883541273,
      "loss": 1.4853,
      "step": 56333
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5515355467796326,
      "learning_rate": 0.00018541589908466325,
      "loss": 1.5287,
      "step": 56334
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5557960271835327,
      "learning_rate": 0.00018540623947300175,
      "loss": 1.5423,
      "step": 56335
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5776405930519104,
      "learning_rate": 0.00018539658000044025,
      "loss": 1.5934,
      "step": 56336
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5421900749206543,
      "learning_rate": 0.0001853869206669905,
      "loss": 1.6196,
      "step": 56337
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5503734946250916,
      "learning_rate": 0.00018537726147266413,
      "loss": 1.5393,
      "step": 56338
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5412850379943848,
      "learning_rate": 0.00018536760241747281,
      "loss": 1.5571,
      "step": 56339
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5640833377838135,
      "learning_rate": 0.0001853579435014284,
      "loss": 1.6028,
      "step": 56340
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5263264775276184,
      "learning_rate": 0.00018534828472454247,
      "loss": 1.5768,
      "step": 56341
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5545358657836914,
      "learning_rate": 0.00018533862608682687,
      "loss": 1.6316,
      "step": 56342
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5456622838973999,
      "learning_rate": 0.00018532896758829322,
      "loss": 1.5339,
      "step": 56343
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5711497068405151,
      "learning_rate": 0.00018531930922895346,
      "loss": 1.5589,
      "step": 56344
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5586274266242981,
      "learning_rate": 0.00018530965100881907,
      "loss": 1.6308,
      "step": 56345
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5463392734527588,
      "learning_rate": 0.00018529999292790186,
      "loss": 1.5821,
      "step": 56346
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5516324043273926,
      "learning_rate": 0.00018529033498621358,
      "loss": 1.5987,
      "step": 56347
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5481359362602234,
      "learning_rate": 0.00018528067718376595,
      "loss": 1.5733,
      "step": 56348
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.547703742980957,
      "learning_rate": 0.00018527101952057055,
      "loss": 1.5451,
      "step": 56349
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5412604808807373,
      "learning_rate": 0.00018526136199663944,
      "loss": 1.563,
      "step": 56350
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5548254251480103,
      "learning_rate": 0.00018525170461198393,
      "loss": 1.621,
      "step": 56351
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5625150203704834,
      "learning_rate": 0.000185242047366616,
      "loss": 1.5633,
      "step": 56352
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5376368165016174,
      "learning_rate": 0.00018523239026054737,
      "loss": 1.559,
      "step": 56353
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5646551251411438,
      "learning_rate": 0.00018522273329378973,
      "loss": 1.567,
      "step": 56354
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.5488694310188293,
      "learning_rate": 0.0001852130764663547,
      "loss": 1.5905,
      "step": 56355
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.557706356048584,
      "learning_rate": 0.00018520341977825404,
      "loss": 1.5899,
      "step": 56356
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5363789796829224,
      "learning_rate": 0.00018519376322949973,
      "loss": 1.5997,
      "step": 56357
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5746139287948608,
      "learning_rate": 0.00018518410682010302,
      "loss": 1.5634,
      "step": 56358
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5608704686164856,
      "learning_rate": 0.000185174450550076,
      "loss": 1.528,
      "step": 56359
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5379047393798828,
      "learning_rate": 0.00018516479441943034,
      "loss": 1.5146,
      "step": 56360
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5468993782997131,
      "learning_rate": 0.00018515513842817764,
      "loss": 1.5482,
      "step": 56361
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5606759786605835,
      "learning_rate": 0.00018514548257632965,
      "loss": 1.5149,
      "step": 56362
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5747793316841125,
      "learning_rate": 0.0001851358268638981,
      "loss": 1.4736,
      "step": 56363
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5424637794494629,
      "learning_rate": 0.00018512617129089488,
      "loss": 1.483,
      "step": 56364
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5524268746376038,
      "learning_rate": 0.00018511651585733141,
      "loss": 1.5336,
      "step": 56365
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.55168616771698,
      "learning_rate": 0.00018510686056321957,
      "loss": 1.5593,
      "step": 56366
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5529782176017761,
      "learning_rate": 0.00018509720540857118,
      "loss": 1.5474,
      "step": 56367
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5566120743751526,
      "learning_rate": 0.00018508755039339775,
      "loss": 1.6039,
      "step": 56368
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5587491393089294,
      "learning_rate": 0.00018507789551771114,
      "loss": 1.5662,
      "step": 56369
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5657789707183838,
      "learning_rate": 0.0001850682407815231,
      "loss": 1.5296,
      "step": 56370
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5361045002937317,
      "learning_rate": 0.0001850585861848452,
      "loss": 1.608,
      "step": 56371
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.579253613948822,
      "learning_rate": 0.00018504893172768916,
      "loss": 1.5517,
      "step": 56372
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5395406484603882,
      "learning_rate": 0.0001850392774100669,
      "loss": 1.5646,
      "step": 56373
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5504862666130066,
      "learning_rate": 0.00018502962323199004,
      "loss": 1.4942,
      "step": 56374
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5365855097770691,
      "learning_rate": 0.0001850199691934702,
      "loss": 1.5693,
      "step": 56375
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5805843472480774,
      "learning_rate": 0.00018501031529451922,
      "loss": 1.5323,
      "step": 56376
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5352475643157959,
      "learning_rate": 0.0001850006615351488,
      "loss": 1.5707,
      "step": 56377
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5651631951332092,
      "learning_rate": 0.00018499100791537058,
      "loss": 1.6128,
      "step": 56378
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5547909736633301,
      "learning_rate": 0.00018498135443519625,
      "loss": 1.5734,
      "step": 56379
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5683907866477966,
      "learning_rate": 0.00018497170109463786,
      "loss": 1.5737,
      "step": 56380
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5720515251159668,
      "learning_rate": 0.0001849620478937066,
      "loss": 1.5956,
      "step": 56381
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5485618710517883,
      "learning_rate": 0.00018495239483241462,
      "loss": 1.4761,
      "step": 56382
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5719635486602783,
      "learning_rate": 0.00018494274191077344,
      "loss": 1.5236,
      "step": 56383
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5615553259849548,
      "learning_rate": 0.00018493308912879484,
      "loss": 1.5866,
      "step": 56384
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5669330358505249,
      "learning_rate": 0.0001849234364864905,
      "loss": 1.5708,
      "step": 56385
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5549189448356628,
      "learning_rate": 0.00018491378398387208,
      "loss": 1.5357,
      "step": 56386
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5723255276679993,
      "learning_rate": 0.00018490413162095155,
      "loss": 1.613,
      "step": 56387
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5545694828033447,
      "learning_rate": 0.00018489447939774026,
      "loss": 1.6015,
      "step": 56388
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5634859800338745,
      "learning_rate": 0.00018488482731425016,
      "loss": 1.567,
      "step": 56389
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5472880601882935,
      "learning_rate": 0.00018487517537049304,
      "loss": 1.5509,
      "step": 56390
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5407274961471558,
      "learning_rate": 0.00018486552356648036,
      "loss": 1.5626,
      "step": 56391
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5586951971054077,
      "learning_rate": 0.000184855871902224,
      "loss": 1.5258,
      "step": 56392
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.558608889579773,
      "learning_rate": 0.00018484622037773558,
      "loss": 1.4866,
      "step": 56393
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5676859617233276,
      "learning_rate": 0.00018483656899302708,
      "loss": 1.5137,
      "step": 56394
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5648818016052246,
      "learning_rate": 0.00018482691774810982,
      "loss": 1.4965,
      "step": 56395
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5556700229644775,
      "learning_rate": 0.00018481726664299579,
      "loss": 1.6183,
      "step": 56396
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5690144300460815,
      "learning_rate": 0.00018480761567769664,
      "loss": 1.5976,
      "step": 56397
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5491629838943481,
      "learning_rate": 0.00018479796485222405,
      "loss": 1.524,
      "step": 56398
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5627851486206055,
      "learning_rate": 0.00018478831416658974,
      "loss": 1.5621,
      "step": 56399
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5554062724113464,
      "learning_rate": 0.00018477866362080552,
      "loss": 1.6157,
      "step": 56400
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5504163503646851,
      "learning_rate": 0.00018476901321488296,
      "loss": 1.5181,
      "step": 56401
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5422994494438171,
      "learning_rate": 0.0001847593629488338,
      "loss": 1.5588,
      "step": 56402
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5464420318603516,
      "learning_rate": 0.00018474971282266984,
      "loss": 1.5831,
      "step": 56403
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5597708225250244,
      "learning_rate": 0.00018474006283640277,
      "loss": 1.5782,
      "step": 56404
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5532144904136658,
      "learning_rate": 0.00018473041299004426,
      "loss": 1.6109,
      "step": 56405
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5233039855957031,
      "learning_rate": 0.000184720763283606,
      "loss": 1.5094,
      "step": 56406
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5658035278320312,
      "learning_rate": 0.00018471111371709986,
      "loss": 1.6122,
      "step": 56407
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5571222305297852,
      "learning_rate": 0.0001847014642905374,
      "loss": 1.6194,
      "step": 56408
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5759601593017578,
      "learning_rate": 0.00018469181500393024,
      "loss": 1.5307,
      "step": 56409
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5616080164909363,
      "learning_rate": 0.00018468216585729044,
      "loss": 1.5568,
      "step": 56410
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5323631167411804,
      "learning_rate": 0.00018467251685062934,
      "loss": 1.5838,
      "step": 56411
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5474008917808533,
      "learning_rate": 0.0001846628679839588,
      "loss": 1.6028,
      "step": 56412
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5790663957595825,
      "learning_rate": 0.00018465321925729064,
      "loss": 1.5738,
      "step": 56413
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5445809364318848,
      "learning_rate": 0.00018464357067063647,
      "loss": 1.5175,
      "step": 56414
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5743430852890015,
      "learning_rate": 0.000184633922224008,
      "loss": 1.6099,
      "step": 56415
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5824775099754333,
      "learning_rate": 0.00018462427391741684,
      "loss": 1.6033,
      "step": 56416
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5450305342674255,
      "learning_rate": 0.000184614625750875,
      "loss": 1.5421,
      "step": 56417
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5490227341651917,
      "learning_rate": 0.00018460497772439385,
      "loss": 1.5853,
      "step": 56418
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5276457667350769,
      "learning_rate": 0.00018459532983798534,
      "loss": 1.528,
      "step": 56419
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5728924870491028,
      "learning_rate": 0.0001845856820916611,
      "loss": 1.5468,
      "step": 56420
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5461981296539307,
      "learning_rate": 0.00018457603448543278,
      "loss": 1.6387,
      "step": 56421
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5855287909507751,
      "learning_rate": 0.00018456638701931215,
      "loss": 1.5479,
      "step": 56422
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5527481436729431,
      "learning_rate": 0.0001845567396933109,
      "loss": 1.6193,
      "step": 56423
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5484958291053772,
      "learning_rate": 0.00018454709250744083,
      "loss": 1.5413,
      "step": 56424
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5368968844413757,
      "learning_rate": 0.00018453744546171355,
      "loss": 1.6106,
      "step": 56425
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.62302565574646,
      "learning_rate": 0.00018452779855614076,
      "loss": 1.6711,
      "step": 56426
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.536340594291687,
      "learning_rate": 0.00018451815179073428,
      "loss": 1.5604,
      "step": 56427
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5521681308746338,
      "learning_rate": 0.00018450850516550573,
      "loss": 1.5939,
      "step": 56428
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5642923712730408,
      "learning_rate": 0.00018449885868046677,
      "loss": 1.6271,
      "step": 56429
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5644789338111877,
      "learning_rate": 0.00018448921233562928,
      "loss": 1.6425,
      "step": 56430
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5605654120445251,
      "learning_rate": 0.00018447956613100474,
      "loss": 1.5903,
      "step": 56431
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5826841592788696,
      "learning_rate": 0.00018446992006660508,
      "loss": 1.6345,
      "step": 56432
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5479735136032104,
      "learning_rate": 0.00018446027414244185,
      "loss": 1.5523,
      "step": 56433
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5682224035263062,
      "learning_rate": 0.00018445062835852692,
      "loss": 1.5518,
      "step": 56434
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5827261805534363,
      "learning_rate": 0.00018444098271487187,
      "loss": 1.5648,
      "step": 56435
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5378061532974243,
      "learning_rate": 0.0001844313372114884,
      "loss": 1.5078,
      "step": 56436
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5609522461891174,
      "learning_rate": 0.0001844216918483883,
      "loss": 1.5992,
      "step": 56437
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5658639073371887,
      "learning_rate": 0.00018441204662558312,
      "loss": 1.6299,
      "step": 56438
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5422477722167969,
      "learning_rate": 0.0001844024015430848,
      "loss": 1.6398,
      "step": 56439
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.566816508769989,
      "learning_rate": 0.00018439275660090486,
      "loss": 1.5786,
      "step": 56440
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5258084535598755,
      "learning_rate": 0.00018438311179905522,
      "loss": 1.5521,
      "step": 56441
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5383710861206055,
      "learning_rate": 0.00018437346713754733,
      "loss": 1.5906,
      "step": 56442
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5649769902229309,
      "learning_rate": 0.00018436382261639294,
      "loss": 1.629,
      "step": 56443
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5639815926551819,
      "learning_rate": 0.00018435417823560405,
      "loss": 1.5951,
      "step": 56444
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.6024749279022217,
      "learning_rate": 0.00018434453399519195,
      "loss": 1.5926,
      "step": 56445
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5626317262649536,
      "learning_rate": 0.00018433488989516865,
      "loss": 1.517,
      "step": 56446
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5578929781913757,
      "learning_rate": 0.00018432524593554577,
      "loss": 1.598,
      "step": 56447
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5380884408950806,
      "learning_rate": 0.00018431560211633495,
      "loss": 1.5754,
      "step": 56448
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5766197443008423,
      "learning_rate": 0.00018430595843754792,
      "loss": 1.5785,
      "step": 56449
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5764327049255371,
      "learning_rate": 0.00018429631489919637,
      "loss": 1.6463,
      "step": 56450
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5644109845161438,
      "learning_rate": 0.0001842866715012922,
      "loss": 1.562,
      "step": 56451
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5684328675270081,
      "learning_rate": 0.00018427702824384682,
      "loss": 1.542,
      "step": 56452
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5487505793571472,
      "learning_rate": 0.0001842673851268721,
      "loss": 1.5951,
      "step": 56453
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.548830509185791,
      "learning_rate": 0.00018425774215037981,
      "loss": 1.5475,
      "step": 56454
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.553429365158081,
      "learning_rate": 0.0001842480993143815,
      "loss": 1.4939,
      "step": 56455
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5556409955024719,
      "learning_rate": 0.00018423845661888897,
      "loss": 1.5935,
      "step": 56456
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.595172107219696,
      "learning_rate": 0.00018422881406391387,
      "loss": 1.5357,
      "step": 56457
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5421858429908752,
      "learning_rate": 0.00018421917164946797,
      "loss": 1.6279,
      "step": 56458
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5728254318237305,
      "learning_rate": 0.00018420952937556282,
      "loss": 1.5858,
      "step": 56459
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5523213148117065,
      "learning_rate": 0.0001841998872422103,
      "loss": 1.5526,
      "step": 56460
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.540446400642395,
      "learning_rate": 0.00018419024524942215,
      "loss": 1.5632,
      "step": 56461
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5469574928283691,
      "learning_rate": 0.00018418060339720987,
      "loss": 1.5255,
      "step": 56462
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5539552569389343,
      "learning_rate": 0.00018417096168558533,
      "loss": 1.5968,
      "step": 56463
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5434364080429077,
      "learning_rate": 0.00018416132011456023,
      "loss": 1.5806,
      "step": 56464
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5492881536483765,
      "learning_rate": 0.00018415167868414612,
      "loss": 1.5765,
      "step": 56465
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5351467728614807,
      "learning_rate": 0.00018414203739435474,
      "loss": 1.6145,
      "step": 56466
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5802903175354004,
      "learning_rate": 0.00018413239624519805,
      "loss": 1.5436,
      "step": 56467
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5474624037742615,
      "learning_rate": 0.0001841227552366874,
      "loss": 1.5518,
      "step": 56468
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5671589374542236,
      "learning_rate": 0.00018411311436883468,
      "loss": 1.5462,
      "step": 56469
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5524144172668457,
      "learning_rate": 0.00018410347364165158,
      "loss": 1.6479,
      "step": 56470
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5330607295036316,
      "learning_rate": 0.00018409383305514985,
      "loss": 1.6159,
      "step": 56471
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5574434399604797,
      "learning_rate": 0.00018408419260934107,
      "loss": 1.6095,
      "step": 56472
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5442901849746704,
      "learning_rate": 0.00018407455230423693,
      "loss": 1.631,
      "step": 56473
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5474185943603516,
      "learning_rate": 0.00018406491213984936,
      "loss": 1.558,
      "step": 56474
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5475394129753113,
      "learning_rate": 0.00018405527211618977,
      "loss": 1.514,
      "step": 56475
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5489571690559387,
      "learning_rate": 0.00018404563223327003,
      "loss": 1.6237,
      "step": 56476
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5281485319137573,
      "learning_rate": 0.0001840359924911019,
      "loss": 1.4663,
      "step": 56477
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5334476828575134,
      "learning_rate": 0.00018402635288969688,
      "loss": 1.581,
      "step": 56478
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5612297058105469,
      "learning_rate": 0.0001840167134290668,
      "loss": 1.5727,
      "step": 56479
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5626628398895264,
      "learning_rate": 0.00018400707410922332,
      "loss": 1.5661,
      "step": 56480
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.559083878993988,
      "learning_rate": 0.00018399743493017828,
      "loss": 1.6376,
      "step": 56481
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5278403759002686,
      "learning_rate": 0.0001839877958919431,
      "loss": 1.5411,
      "step": 56482
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5644277930259705,
      "learning_rate": 0.00018397815699452971,
      "loss": 1.5853,
      "step": 56483
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5696457624435425,
      "learning_rate": 0.00018396851823794977,
      "loss": 1.6012,
      "step": 56484
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.6549562215805054,
      "learning_rate": 0.00018395887962221495,
      "loss": 1.5388,
      "step": 56485
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5629044771194458,
      "learning_rate": 0.00018394924114733695,
      "loss": 1.5978,
      "step": 56486
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5581473708152771,
      "learning_rate": 0.00018393960281332748,
      "loss": 1.5339,
      "step": 56487
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5567595958709717,
      "learning_rate": 0.00018392996462019822,
      "loss": 1.5534,
      "step": 56488
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5522315502166748,
      "learning_rate": 0.00018392032656796078,
      "loss": 1.5316,
      "step": 56489
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5440030694007874,
      "learning_rate": 0.00018391068865662702,
      "loss": 1.5329,
      "step": 56490
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5617812871932983,
      "learning_rate": 0.0001839010508862087,
      "loss": 1.564,
      "step": 56491
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5486417412757874,
      "learning_rate": 0.0001838914132567173,
      "loss": 1.5931,
      "step": 56492
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.527346670627594,
      "learning_rate": 0.0001838817757681646,
      "loss": 1.5367,
      "step": 56493
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5409319996833801,
      "learning_rate": 0.00018387213842056238,
      "loss": 1.5191,
      "step": 56494
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5508419275283813,
      "learning_rate": 0.00018386250121392222,
      "loss": 1.636,
      "step": 56495
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5520724058151245,
      "learning_rate": 0.00018385286414825583,
      "loss": 1.4995,
      "step": 56496
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5427218079566956,
      "learning_rate": 0.0001838432272235751,
      "loss": 1.6337,
      "step": 56497
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5528403520584106,
      "learning_rate": 0.0001838335904398914,
      "loss": 1.5907,
      "step": 56498
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5707365870475769,
      "learning_rate": 0.0001838239537972167,
      "loss": 1.5604,
      "step": 56499
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5541733503341675,
      "learning_rate": 0.00018381431729556257,
      "loss": 1.5953,
      "step": 56500
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5435208082199097,
      "learning_rate": 0.0001838046809349408,
      "loss": 1.5547,
      "step": 56501
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5623544454574585,
      "learning_rate": 0.00018379504471536297,
      "loss": 1.5803,
      "step": 56502
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5615450739860535,
      "learning_rate": 0.00018378540863684079,
      "loss": 1.5933,
      "step": 56503
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5734018683433533,
      "learning_rate": 0.00018377577269938617,
      "loss": 1.5869,
      "step": 56504
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5406512022018433,
      "learning_rate": 0.00018376613690301044,
      "loss": 1.5565,
      "step": 56505
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5445576906204224,
      "learning_rate": 0.00018375650124772557,
      "loss": 1.6086,
      "step": 56506
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5526523590087891,
      "learning_rate": 0.00018374686573354322,
      "loss": 1.6311,
      "step": 56507
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5561894774436951,
      "learning_rate": 0.000183737230360475,
      "loss": 1.5687,
      "step": 56508
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.549179196357727,
      "learning_rate": 0.00018372759512853267,
      "loss": 1.5559,
      "step": 56509
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5652209520339966,
      "learning_rate": 0.00018371796003772783,
      "loss": 1.5582,
      "step": 56510
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5524405241012573,
      "learning_rate": 0.00018370832508807244,
      "loss": 1.5983,
      "step": 56511
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5699381828308105,
      "learning_rate": 0.00018369869027957782,
      "loss": 1.5913,
      "step": 56512
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5767785310745239,
      "learning_rate": 0.00018368905561225594,
      "loss": 1.6488,
      "step": 56513
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5402904748916626,
      "learning_rate": 0.00018367942108611844,
      "loss": 1.5891,
      "step": 56514
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5237604379653931,
      "learning_rate": 0.00018366978670117693,
      "loss": 1.5334,
      "step": 56515
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5577667355537415,
      "learning_rate": 0.00018366015245744314,
      "loss": 1.6303,
      "step": 56516
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5351234674453735,
      "learning_rate": 0.00018365051835492885,
      "loss": 1.645,
      "step": 56517
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5472036600112915,
      "learning_rate": 0.00018364088439364566,
      "loss": 1.5499,
      "step": 56518
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5344199538230896,
      "learning_rate": 0.0001836312505736052,
      "loss": 1.4981,
      "step": 56519
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5558087229728699,
      "learning_rate": 0.00018362161689481935,
      "loss": 1.5646,
      "step": 56520
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5761420130729675,
      "learning_rate": 0.00018361198335729975,
      "loss": 1.5751,
      "step": 56521
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5406080484390259,
      "learning_rate": 0.00018360234996105798,
      "loss": 1.5854,
      "step": 56522
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5510956048965454,
      "learning_rate": 0.0001835927167061058,
      "loss": 1.543,
      "step": 56523
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5534935593605042,
      "learning_rate": 0.000183583083592455,
      "loss": 1.5773,
      "step": 56524
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5424970388412476,
      "learning_rate": 0.00018357345062011712,
      "loss": 1.5639,
      "step": 56525
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5464892983436584,
      "learning_rate": 0.00018356381778910383,
      "loss": 1.5893,
      "step": 56526
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5844152569770813,
      "learning_rate": 0.00018355418509942713,
      "loss": 1.6127,
      "step": 56527
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5774494409561157,
      "learning_rate": 0.00018354455255109828,
      "loss": 1.6036,
      "step": 56528
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5387879014015198,
      "learning_rate": 0.00018353492014412927,
      "loss": 1.5378,
      "step": 56529
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5536950826644897,
      "learning_rate": 0.00018352528787853167,
      "loss": 1.5523,
      "step": 56530
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.554537296295166,
      "learning_rate": 0.0001835156557543173,
      "loss": 1.5462,
      "step": 56531
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5903342962265015,
      "learning_rate": 0.0001835060237714977,
      "loss": 1.5377,
      "step": 56532
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5471615195274353,
      "learning_rate": 0.00018349639193008453,
      "loss": 1.4923,
      "step": 56533
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.6537472605705261,
      "learning_rate": 0.00018348676023008972,
      "loss": 1.4946,
      "step": 56534
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5443923473358154,
      "learning_rate": 0.00018347712867152475,
      "loss": 1.589,
      "step": 56535
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5520051717758179,
      "learning_rate": 0.0001834674972544014,
      "loss": 1.4719,
      "step": 56536
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5613906979560852,
      "learning_rate": 0.00018345786597873134,
      "loss": 1.5698,
      "step": 56537
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5632890462875366,
      "learning_rate": 0.00018344823484452624,
      "loss": 1.5446,
      "step": 56538
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5477604269981384,
      "learning_rate": 0.00018343860385179782,
      "loss": 1.546,
      "step": 56539
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5442066192626953,
      "learning_rate": 0.00018342897300055767,
      "loss": 1.572,
      "step": 56540
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5375052094459534,
      "learning_rate": 0.00018341934229081772,
      "loss": 1.5607,
      "step": 56541
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5616543292999268,
      "learning_rate": 0.00018340971172258944,
      "loss": 1.5352,
      "step": 56542
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5530043244361877,
      "learning_rate": 0.0001834000812958846,
      "loss": 1.5082,
      "step": 56543
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5737508535385132,
      "learning_rate": 0.0001833904510107149,
      "loss": 1.5899,
      "step": 56544
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5609342455863953,
      "learning_rate": 0.00018338082086709201,
      "loss": 1.5215,
      "step": 56545
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5432263612747192,
      "learning_rate": 0.00018337119086502755,
      "loss": 1.4808,
      "step": 56546
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5610761642456055,
      "learning_rate": 0.0001833615610045334,
      "loss": 1.5924,
      "step": 56547
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5605844259262085,
      "learning_rate": 0.000183351931285621,
      "loss": 1.6052,
      "step": 56548
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5560886263847351,
      "learning_rate": 0.0001833423017083022,
      "loss": 1.5538,
      "step": 56549
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5569506883621216,
      "learning_rate": 0.00018333267227258864,
      "loss": 1.5091,
      "step": 56550
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5800111293792725,
      "learning_rate": 0.00018332304297849215,
      "loss": 1.5908,
      "step": 56551
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5576685070991516,
      "learning_rate": 0.0001833134138260242,
      "loss": 1.5822,
      "step": 56552
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5317106246948242,
      "learning_rate": 0.00018330378481519658,
      "loss": 1.5945,
      "step": 56553
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5364969968795776,
      "learning_rate": 0.00018329415594602104,
      "loss": 1.5362,
      "step": 56554
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5817020535469055,
      "learning_rate": 0.00018328452721850906,
      "loss": 1.5671,
      "step": 56555
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5799564719200134,
      "learning_rate": 0.00018327489863267254,
      "loss": 1.6712,
      "step": 56556
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5701915621757507,
      "learning_rate": 0.0001832652701885231,
      "loss": 1.5533,
      "step": 56557
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5577816963195801,
      "learning_rate": 0.00018325564188607246,
      "loss": 1.5575,
      "step": 56558
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5408715009689331,
      "learning_rate": 0.00018324601372533223,
      "loss": 1.5404,
      "step": 56559
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5664218664169312,
      "learning_rate": 0.00018323638570631406,
      "loss": 1.62,
      "step": 56560
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5492339134216309,
      "learning_rate": 0.0001832267578290299,
      "loss": 1.5405,
      "step": 56561
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5580338835716248,
      "learning_rate": 0.00018321713009349108,
      "loss": 1.5679,
      "step": 56562
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5362159609794617,
      "learning_rate": 0.00018320750249970947,
      "loss": 1.5116,
      "step": 56563
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5592577457427979,
      "learning_rate": 0.00018319787504769686,
      "loss": 1.5107,
      "step": 56564
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5443148016929626,
      "learning_rate": 0.00018318824773746472,
      "loss": 1.5273,
      "step": 56565
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5468317270278931,
      "learning_rate": 0.0001831786205690249,
      "loss": 1.5445,
      "step": 56566
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5441917181015015,
      "learning_rate": 0.00018316899354238887,
      "loss": 1.5543,
      "step": 56567
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5602326989173889,
      "learning_rate": 0.00018315936665756869,
      "loss": 1.5503,
      "step": 56568
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5761142373085022,
      "learning_rate": 0.00018314973991457567,
      "loss": 1.5318,
      "step": 56569
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5714613199234009,
      "learning_rate": 0.0001831401133134217,
      "loss": 1.7099,
      "step": 56570
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.553523063659668,
      "learning_rate": 0.00018313048685411845,
      "loss": 1.5552,
      "step": 56571
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5642828345298767,
      "learning_rate": 0.00018312086053667753,
      "loss": 1.5604,
      "step": 56572
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5479920506477356,
      "learning_rate": 0.00018311123436111067,
      "loss": 1.545,
      "step": 56573
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5449073910713196,
      "learning_rate": 0.00018310160832742958,
      "loss": 1.5877,
      "step": 56574
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5590933561325073,
      "learning_rate": 0.00018309198243564586,
      "loss": 1.5092,
      "step": 56575
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5478833317756653,
      "learning_rate": 0.0001830823566857712,
      "loss": 1.5872,
      "step": 56576
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5460520386695862,
      "learning_rate": 0.00018307273107781737,
      "loss": 1.5757,
      "step": 56577
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5510262846946716,
      "learning_rate": 0.0001830631056117961,
      "loss": 1.6094,
      "step": 56578
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5550732016563416,
      "learning_rate": 0.00018305348028771894,
      "loss": 1.5063,
      "step": 56579
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5623349547386169,
      "learning_rate": 0.00018304385510559755,
      "loss": 1.618,
      "step": 56580
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5514627695083618,
      "learning_rate": 0.00018303423006544382,
      "loss": 1.5579,
      "step": 56581
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5524330735206604,
      "learning_rate": 0.00018302460516726924,
      "loss": 1.5975,
      "step": 56582
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5382897853851318,
      "learning_rate": 0.0001830149804110855,
      "loss": 1.6396,
      "step": 56583
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5585708618164062,
      "learning_rate": 0.00018300535579690444,
      "loss": 1.5781,
      "step": 56584
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.554984986782074,
      "learning_rate": 0.00018299573132473754,
      "loss": 1.6033,
      "step": 56585
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5676217079162598,
      "learning_rate": 0.00018298610699459664,
      "loss": 1.6214,
      "step": 56586
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5496395826339722,
      "learning_rate": 0.0001829764828064933,
      "loss": 1.5265,
      "step": 56587
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5729780793190002,
      "learning_rate": 0.00018296685876043937,
      "loss": 1.6342,
      "step": 56588
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5614641308784485,
      "learning_rate": 0.0001829572348564464,
      "loss": 1.5649,
      "step": 56589
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.557149350643158,
      "learning_rate": 0.00018294761109452598,
      "loss": 1.5643,
      "step": 56590
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5543363690376282,
      "learning_rate": 0.00018293798747469014,
      "loss": 1.5691,
      "step": 56591
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.538453996181488,
      "learning_rate": 0.00018292836399695013,
      "loss": 1.5525,
      "step": 56592
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5471791625022888,
      "learning_rate": 0.00018291874066131788,
      "loss": 1.6455,
      "step": 56593
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5318284630775452,
      "learning_rate": 0.00018290911746780513,
      "loss": 1.5292,
      "step": 56594
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5278354287147522,
      "learning_rate": 0.0001828994944164234,
      "loss": 1.664,
      "step": 56595
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5529789924621582,
      "learning_rate": 0.00018288987150718436,
      "loss": 1.6578,
      "step": 56596
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5424749851226807,
      "learning_rate": 0.0001828802487400998,
      "loss": 1.5754,
      "step": 56597
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.569909930229187,
      "learning_rate": 0.00018287062611518147,
      "loss": 1.5879,
      "step": 56598
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5330528616905212,
      "learning_rate": 0.0001828610036324408,
      "loss": 1.4833,
      "step": 56599
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.553043782711029,
      "learning_rate": 0.00018285138129188962,
      "loss": 1.5964,
      "step": 56600
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5395725965499878,
      "learning_rate": 0.00018284175909353973,
      "loss": 1.5786,
      "step": 56601
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5374918580055237,
      "learning_rate": 0.0001828321370374026,
      "loss": 1.5376,
      "step": 56602
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5243138074874878,
      "learning_rate": 0.00018282251512348997,
      "loss": 1.6029,
      "step": 56603
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5565343499183655,
      "learning_rate": 0.0001828128933518136,
      "loss": 1.6272,
      "step": 56604
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5637504458427429,
      "learning_rate": 0.00018280327172238503,
      "loss": 1.5671,
      "step": 56605
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5362182855606079,
      "learning_rate": 0.00018279365023521604,
      "loss": 1.5314,
      "step": 56606
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5473878979682922,
      "learning_rate": 0.0001827840288903183,
      "loss": 1.4855,
      "step": 56607
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5454912781715393,
      "learning_rate": 0.00018277440768770352,
      "loss": 1.5582,
      "step": 56608
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.533623456954956,
      "learning_rate": 0.0001827647866273833,
      "loss": 1.6003,
      "step": 56609
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5578420162200928,
      "learning_rate": 0.00018275516570936937,
      "loss": 1.5662,
      "step": 56610
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5465455055236816,
      "learning_rate": 0.00018274554493367343,
      "loss": 1.5076,
      "step": 56611
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.540328323841095,
      "learning_rate": 0.00018273592430030706,
      "loss": 1.5536,
      "step": 56612
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5812829732894897,
      "learning_rate": 0.00018272630380928196,
      "loss": 1.5983,
      "step": 56613
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5525586009025574,
      "learning_rate": 0.00018271668346061,
      "loss": 1.5964,
      "step": 56614
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.6108266711235046,
      "learning_rate": 0.00018270706325430256,
      "loss": 1.6147,
      "step": 56615
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5778546929359436,
      "learning_rate": 0.0001826974431903715,
      "loss": 1.5553,
      "step": 56616
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5710702538490295,
      "learning_rate": 0.00018268782326882847,
      "loss": 1.5572,
      "step": 56617
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5492855906486511,
      "learning_rate": 0.0001826782034896852,
      "loss": 1.6001,
      "step": 56618
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5549299120903015,
      "learning_rate": 0.00018266858385295321,
      "loss": 1.5811,
      "step": 56619
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5654158592224121,
      "learning_rate": 0.00018265896435864425,
      "loss": 1.5228,
      "step": 56620
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5615331530570984,
      "learning_rate": 0.0001826493450067702,
      "loss": 1.5635,
      "step": 56621
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5706034302711487,
      "learning_rate": 0.00018263972579734235,
      "loss": 1.635,
      "step": 56622
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5545952916145325,
      "learning_rate": 0.00018263010673037267,
      "loss": 1.5687,
      "step": 56623
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.557584822177887,
      "learning_rate": 0.00018262048780587275,
      "loss": 1.4966,
      "step": 56624
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.560617983341217,
      "learning_rate": 0.00018261086902385428,
      "loss": 1.549,
      "step": 56625
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5768445730209351,
      "learning_rate": 0.00018260125038432887,
      "loss": 1.5325,
      "step": 56626
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5362558364868164,
      "learning_rate": 0.00018259163188730814,
      "loss": 1.5541,
      "step": 56627
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5352296829223633,
      "learning_rate": 0.00018258201353280414,
      "loss": 1.5063,
      "step": 56628
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5688039660453796,
      "learning_rate": 0.00018257239532082803,
      "loss": 1.5707,
      "step": 56629
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5675960183143616,
      "learning_rate": 0.00018256277725139182,
      "loss": 1.641,
      "step": 56630
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5494916439056396,
      "learning_rate": 0.00018255315932450713,
      "loss": 1.5499,
      "step": 56631
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5688768029212952,
      "learning_rate": 0.00018254354154018557,
      "loss": 1.5979,
      "step": 56632
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5759539008140564,
      "learning_rate": 0.00018253392389843884,
      "loss": 1.5846,
      "step": 56633
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5300092697143555,
      "learning_rate": 0.00018252430639927871,
      "loss": 1.5515,
      "step": 56634
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5445630550384521,
      "learning_rate": 0.00018251468904271665,
      "loss": 1.5939,
      "step": 56635
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5367304682731628,
      "learning_rate": 0.00018250507182876441,
      "loss": 1.564,
      "step": 56636
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.553367555141449,
      "learning_rate": 0.00018249545475743374,
      "loss": 1.6786,
      "step": 56637
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5520436763763428,
      "learning_rate": 0.00018248583782873635,
      "loss": 1.5031,
      "step": 56638
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5861714482307434,
      "learning_rate": 0.0001824762210426838,
      "loss": 1.6696,
      "step": 56639
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5455173254013062,
      "learning_rate": 0.00018246660439928778,
      "loss": 1.5695,
      "step": 56640
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5625705122947693,
      "learning_rate": 0.00018245698789856,
      "loss": 1.6182,
      "step": 56641
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5466116666793823,
      "learning_rate": 0.00018244737154051214,
      "loss": 1.5731,
      "step": 56642
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5486378073692322,
      "learning_rate": 0.00018243775532515575,
      "loss": 1.6413,
      "step": 56643
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5386877655982971,
      "learning_rate": 0.00018242813925250275,
      "loss": 1.4871,
      "step": 56644
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5538564324378967,
      "learning_rate": 0.00018241852332256454,
      "loss": 1.6026,
      "step": 56645
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5486066937446594,
      "learning_rate": 0.00018240890753535294,
      "loss": 1.5525,
      "step": 56646
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5657606720924377,
      "learning_rate": 0.0001823992918908796,
      "loss": 1.5696,
      "step": 56647
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5486770272254944,
      "learning_rate": 0.0001823896763891563,
      "loss": 1.5342,
      "step": 56648
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5540491938591003,
      "learning_rate": 0.00018238006103019451,
      "loss": 1.5684,
      "step": 56649
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5696423053741455,
      "learning_rate": 0.00018237044581400594,
      "loss": 1.5545,
      "step": 56650
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5510258078575134,
      "learning_rate": 0.00018236083074060243,
      "loss": 1.6048,
      "step": 56651
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5704138875007629,
      "learning_rate": 0.0001823512158099955,
      "loss": 1.6501,
      "step": 56652
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.556505560874939,
      "learning_rate": 0.00018234160102219684,
      "loss": 1.6057,
      "step": 56653
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5780696868896484,
      "learning_rate": 0.0001823319863772182,
      "loss": 1.6083,
      "step": 56654
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5497922301292419,
      "learning_rate": 0.0001823223718750711,
      "loss": 1.6222,
      "step": 56655
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5421801805496216,
      "learning_rate": 0.00018231275751576736,
      "loss": 1.6274,
      "step": 56656
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5499668121337891,
      "learning_rate": 0.00018230314329931852,
      "loss": 1.5847,
      "step": 56657
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5538763403892517,
      "learning_rate": 0.0001822935292257364,
      "loss": 1.5905,
      "step": 56658
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5465754270553589,
      "learning_rate": 0.00018228391529503257,
      "loss": 1.5691,
      "step": 56659
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5414208769798279,
      "learning_rate": 0.00018227430150721872,
      "loss": 1.5491,
      "step": 56660
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5503339171409607,
      "learning_rate": 0.00018226468786230657,
      "loss": 1.534,
      "step": 56661
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5722916722297668,
      "learning_rate": 0.00018225507436030772,
      "loss": 1.537,
      "step": 56662
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5372689366340637,
      "learning_rate": 0.00018224546100123378,
      "loss": 1.5477,
      "step": 56663
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.7625463604927063,
      "learning_rate": 0.00018223584778509662,
      "loss": 1.5103,
      "step": 56664
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5316981077194214,
      "learning_rate": 0.00018222623471190764,
      "loss": 1.5579,
      "step": 56665
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5574884414672852,
      "learning_rate": 0.00018221662178167876,
      "loss": 1.5742,
      "step": 56666
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5790411829948425,
      "learning_rate": 0.0001822070089944215,
      "loss": 1.5701,
      "step": 56667
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5500326752662659,
      "learning_rate": 0.00018219739635014765,
      "loss": 1.5523,
      "step": 56668
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5462283492088318,
      "learning_rate": 0.00018218778384886876,
      "loss": 1.5462,
      "step": 56669
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5460579991340637,
      "learning_rate": 0.00018217817149059653,
      "loss": 1.6592,
      "step": 56670
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5608170628547668,
      "learning_rate": 0.00018216855927534272,
      "loss": 1.5788,
      "step": 56671
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5526238083839417,
      "learning_rate": 0.00018215894720311876,
      "loss": 1.5316,
      "step": 56672
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5551269054412842,
      "learning_rate": 0.0001821493352739366,
      "loss": 1.618,
      "step": 56673
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5580105185508728,
      "learning_rate": 0.00018213972348780778,
      "loss": 1.5707,
      "step": 56674
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5540453195571899,
      "learning_rate": 0.0001821301118447439,
      "loss": 1.5941,
      "step": 56675
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5693361759185791,
      "learning_rate": 0.00018212050034475673,
      "loss": 1.531,
      "step": 56676
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5491893887519836,
      "learning_rate": 0.00018211088898785783,
      "loss": 1.4529,
      "step": 56677
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5830535888671875,
      "learning_rate": 0.00018210127777405915,
      "loss": 1.6063,
      "step": 56678
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5383389592170715,
      "learning_rate": 0.00018209166670337193,
      "loss": 1.5642,
      "step": 56679
    },
    {
      "epoch": 1.89,
      "grad_norm": 1.135414719581604,
      "learning_rate": 0.00018208205577580812,
      "loss": 1.5636,
      "step": 56680
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5530475974082947,
      "learning_rate": 0.0001820724449913794,
      "loss": 1.5868,
      "step": 56681
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5455352067947388,
      "learning_rate": 0.00018206283435009726,
      "loss": 1.5562,
      "step": 56682
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5658941268920898,
      "learning_rate": 0.0001820532238519735,
      "loss": 1.6321,
      "step": 56683
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.547326385974884,
      "learning_rate": 0.00018204361349701966,
      "loss": 1.579,
      "step": 56684
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5548628568649292,
      "learning_rate": 0.0001820340032852477,
      "loss": 1.4995,
      "step": 56685
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5521138906478882,
      "learning_rate": 0.00018202439321666892,
      "loss": 1.5769,
      "step": 56686
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5595625042915344,
      "learning_rate": 0.00018201478329129514,
      "loss": 1.6405,
      "step": 56687
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5475350618362427,
      "learning_rate": 0.0001820051735091381,
      "loss": 1.5973,
      "step": 56688
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5400918126106262,
      "learning_rate": 0.00018199556387020935,
      "loss": 1.5613,
      "step": 56689
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5646389126777649,
      "learning_rate": 0.00018198595437452064,
      "loss": 1.5831,
      "step": 56690
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.524323046207428,
      "learning_rate": 0.0001819763450220836,
      "loss": 1.5244,
      "step": 56691
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5423387885093689,
      "learning_rate": 0.00018196673581290983,
      "loss": 1.5429,
      "step": 56692
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.557712197303772,
      "learning_rate": 0.000181957126747011,
      "loss": 1.589,
      "step": 56693
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5772040486335754,
      "learning_rate": 0.00018194751782439888,
      "loss": 1.6058,
      "step": 56694
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5470757484436035,
      "learning_rate": 0.00018193790904508515,
      "loss": 1.5954,
      "step": 56695
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5492660999298096,
      "learning_rate": 0.00018192830040908133,
      "loss": 1.6054,
      "step": 56696
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5841780304908752,
      "learning_rate": 0.00018191869191639916,
      "loss": 1.6456,
      "step": 56697
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5397615432739258,
      "learning_rate": 0.00018190908356705037,
      "loss": 1.5915,
      "step": 56698
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5490608215332031,
      "learning_rate": 0.0001818994753610465,
      "loss": 1.5964,
      "step": 56699
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5512910485267639,
      "learning_rate": 0.00018188986729839916,
      "loss": 1.6537,
      "step": 56700
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5314981341362,
      "learning_rate": 0.00018188025937912035,
      "loss": 1.4905,
      "step": 56701
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5340932011604309,
      "learning_rate": 0.00018187065160322132,
      "loss": 1.5686,
      "step": 56702
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5582553148269653,
      "learning_rate": 0.00018186104397071394,
      "loss": 1.5596,
      "step": 56703
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5578896403312683,
      "learning_rate": 0.00018185143648160988,
      "loss": 1.5122,
      "step": 56704
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.548260509967804,
      "learning_rate": 0.0001818418291359208,
      "loss": 1.5901,
      "step": 56705
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5484296083450317,
      "learning_rate": 0.00018183222193365826,
      "loss": 1.5376,
      "step": 56706
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5686053037643433,
      "learning_rate": 0.00018182261487483393,
      "loss": 1.6353,
      "step": 56707
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5362302660942078,
      "learning_rate": 0.00018181300795945977,
      "loss": 1.4813,
      "step": 56708
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5582109689712524,
      "learning_rate": 0.000181803401187547,
      "loss": 1.5751,
      "step": 56709
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5623412132263184,
      "learning_rate": 0.0001817937945591075,
      "loss": 1.56,
      "step": 56710
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5535562038421631,
      "learning_rate": 0.00018178418807415303,
      "loss": 1.5813,
      "step": 56711
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.56479412317276,
      "learning_rate": 0.00018177458173269505,
      "loss": 1.589,
      "step": 56712
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5450401306152344,
      "learning_rate": 0.0001817649755347453,
      "loss": 1.614,
      "step": 56713
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5347414612770081,
      "learning_rate": 0.0001817553694803154,
      "loss": 1.527,
      "step": 56714
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5377258658409119,
      "learning_rate": 0.00018174576356941728,
      "loss": 1.574,
      "step": 56715
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5346229076385498,
      "learning_rate": 0.00018173615780206213,
      "loss": 1.5449,
      "step": 56716
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5356197953224182,
      "learning_rate": 0.00018172655217826196,
      "loss": 1.5926,
      "step": 56717
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5686037540435791,
      "learning_rate": 0.00018171694669802835,
      "loss": 1.5018,
      "step": 56718
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5482977032661438,
      "learning_rate": 0.00018170734136137293,
      "loss": 1.5283,
      "step": 56719
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5677495002746582,
      "learning_rate": 0.00018169773616830736,
      "loss": 1.5789,
      "step": 56720
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5625391602516174,
      "learning_rate": 0.00018168813111884332,
      "loss": 1.5451,
      "step": 56721
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5510126352310181,
      "learning_rate": 0.00018167852621299246,
      "loss": 1.5668,
      "step": 56722
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5584341883659363,
      "learning_rate": 0.00018166892145076634,
      "loss": 1.5602,
      "step": 56723
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5276138186454773,
      "learning_rate": 0.0001816593168321768,
      "loss": 1.5344,
      "step": 56724
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5649324655532837,
      "learning_rate": 0.0001816497123572354,
      "loss": 1.5872,
      "step": 56725
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5490711331367493,
      "learning_rate": 0.0001816401080259538,
      "loss": 1.6222,
      "step": 56726
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5510169267654419,
      "learning_rate": 0.00018163050383834367,
      "loss": 1.5859,
      "step": 56727
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5427670478820801,
      "learning_rate": 0.00018162089979441675,
      "loss": 1.589,
      "step": 56728
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5522446036338806,
      "learning_rate": 0.00018161129589418454,
      "loss": 1.6144,
      "step": 56729
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5687044262886047,
      "learning_rate": 0.0001816016921376587,
      "loss": 1.5638,
      "step": 56730
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5619629621505737,
      "learning_rate": 0.00018159208852485116,
      "loss": 1.5731,
      "step": 56731
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5424284338951111,
      "learning_rate": 0.0001815824850557732,
      "loss": 1.5436,
      "step": 56732
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5292915105819702,
      "learning_rate": 0.00018157288173043667,
      "loss": 1.5823,
      "step": 56733
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5577481985092163,
      "learning_rate": 0.00018156327854885324,
      "loss": 1.6095,
      "step": 56734
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5619970560073853,
      "learning_rate": 0.00018155367551103463,
      "loss": 1.5368,
      "step": 56735
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5427419543266296,
      "learning_rate": 0.0001815440726169923,
      "loss": 1.5891,
      "step": 56736
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5494913458824158,
      "learning_rate": 0.00018153446986673798,
      "loss": 1.5446,
      "step": 56737
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5452916026115417,
      "learning_rate": 0.00018152486726028352,
      "loss": 1.6347,
      "step": 56738
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5359753966331482,
      "learning_rate": 0.00018151526479764024,
      "loss": 1.4825,
      "step": 56739
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5451846718788147,
      "learning_rate": 0.00018150566247882,
      "loss": 1.5933,
      "step": 56740
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5318772792816162,
      "learning_rate": 0.00018149606030383456,
      "loss": 1.5351,
      "step": 56741
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5524744987487793,
      "learning_rate": 0.00018148645827269534,
      "loss": 1.5485,
      "step": 56742
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5647890567779541,
      "learning_rate": 0.0001814768563854141,
      "loss": 1.5923,
      "step": 56743
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5613806247711182,
      "learning_rate": 0.00018146725464200243,
      "loss": 1.5645,
      "step": 56744
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.57753986120224,
      "learning_rate": 0.00018145765304247222,
      "loss": 1.5543,
      "step": 56745
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5495790839195251,
      "learning_rate": 0.00018144805158683478,
      "loss": 1.5626,
      "step": 56746
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5475524067878723,
      "learning_rate": 0.000181438450275102,
      "loss": 1.5697,
      "step": 56747
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5523247718811035,
      "learning_rate": 0.00018142884910728557,
      "loss": 1.6198,
      "step": 56748
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5753505825996399,
      "learning_rate": 0.00018141924808339694,
      "loss": 1.5602,
      "step": 56749
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5557647347450256,
      "learning_rate": 0.0001814096472034479,
      "loss": 1.6197,
      "step": 56750
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5558990836143494,
      "learning_rate": 0.00018140004646745008,
      "loss": 1.6076,
      "step": 56751
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5664210319519043,
      "learning_rate": 0.00018139044587541512,
      "loss": 1.604,
      "step": 56752
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5497400164604187,
      "learning_rate": 0.0001813808454273546,
      "loss": 1.5269,
      "step": 56753
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5438194274902344,
      "learning_rate": 0.00018137124512328034,
      "loss": 1.568,
      "step": 56754
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5554057359695435,
      "learning_rate": 0.0001813616449632039,
      "loss": 1.5795,
      "step": 56755
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5584741234779358,
      "learning_rate": 0.00018135204494713696,
      "loss": 1.6014,
      "step": 56756
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5456656217575073,
      "learning_rate": 0.00018134244507509112,
      "loss": 1.5161,
      "step": 56757
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5643011927604675,
      "learning_rate": 0.00018133284534707815,
      "loss": 1.5353,
      "step": 56758
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5669865608215332,
      "learning_rate": 0.00018132324576310954,
      "loss": 1.558,
      "step": 56759
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5416226983070374,
      "learning_rate": 0.00018131364632319698,
      "loss": 1.5275,
      "step": 56760
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5189887285232544,
      "learning_rate": 0.00018130404702735228,
      "loss": 1.5054,
      "step": 56761
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.548809826374054,
      "learning_rate": 0.0001812944478755869,
      "loss": 1.5726,
      "step": 56762
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5330074429512024,
      "learning_rate": 0.0001812848488679126,
      "loss": 1.5824,
      "step": 56763
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5463781952857971,
      "learning_rate": 0.000181275250004341,
      "loss": 1.5482,
      "step": 56764
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.535706102848053,
      "learning_rate": 0.0001812656512848838,
      "loss": 1.5822,
      "step": 56765
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5462936162948608,
      "learning_rate": 0.00018125605270955254,
      "loss": 1.5282,
      "step": 56766
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5558499693870544,
      "learning_rate": 0.0001812464542783589,
      "loss": 1.611,
      "step": 56767
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.534190833568573,
      "learning_rate": 0.00018123685599131465,
      "loss": 1.5565,
      "step": 56768
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5504285097122192,
      "learning_rate": 0.00018122725784843133,
      "loss": 1.596,
      "step": 56769
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5684608817100525,
      "learning_rate": 0.00018121765984972058,
      "loss": 1.5038,
      "step": 56770
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5608302354812622,
      "learning_rate": 0.00018120806199519417,
      "loss": 1.5797,
      "step": 56771
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5535569190979004,
      "learning_rate": 0.00018119846428486363,
      "loss": 1.568,
      "step": 56772
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5658588409423828,
      "learning_rate": 0.00018118886671874066,
      "loss": 1.6338,
      "step": 56773
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5280185341835022,
      "learning_rate": 0.00018117926929683676,
      "loss": 1.5824,
      "step": 56774
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5485270619392395,
      "learning_rate": 0.00018116967201916394,
      "loss": 1.5428,
      "step": 56775
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5549536943435669,
      "learning_rate": 0.0001811600748857335,
      "loss": 1.6294,
      "step": 56776
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.9815794825553894,
      "learning_rate": 0.00018115047789655722,
      "loss": 1.6286,
      "step": 56777
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.6084015965461731,
      "learning_rate": 0.00018114088105164686,
      "loss": 1.5848,
      "step": 56778
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5875329971313477,
      "learning_rate": 0.00018113128435101383,
      "loss": 1.5738,
      "step": 56779
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5380338430404663,
      "learning_rate": 0.00018112168779466998,
      "loss": 1.5403,
      "step": 56780
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5693389773368835,
      "learning_rate": 0.0001811120913826269,
      "loss": 1.6155,
      "step": 56781
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.564382791519165,
      "learning_rate": 0.0001811024951148961,
      "loss": 1.4953,
      "step": 56782
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5812875628471375,
      "learning_rate": 0.00018109289899148943,
      "loss": 1.578,
      "step": 56783
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5402528643608093,
      "learning_rate": 0.00018108330301241845,
      "loss": 1.5616,
      "step": 56784
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.555191695690155,
      "learning_rate": 0.00018107370717769484,
      "loss": 1.5997,
      "step": 56785
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5476894378662109,
      "learning_rate": 0.00018106411148733023,
      "loss": 1.5816,
      "step": 56786
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5446072220802307,
      "learning_rate": 0.00018105451594133617,
      "loss": 1.5616,
      "step": 56787
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.564781129360199,
      "learning_rate": 0.00018104492053972463,
      "loss": 1.5887,
      "step": 56788
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5528377890586853,
      "learning_rate": 0.00018103532528250679,
      "loss": 1.5449,
      "step": 56789
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5648049712181091,
      "learning_rate": 0.00018102573016969464,
      "loss": 1.6588,
      "step": 56790
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.552567183971405,
      "learning_rate": 0.00018101613520129977,
      "loss": 1.5267,
      "step": 56791
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5413642525672913,
      "learning_rate": 0.0001810065403773337,
      "loss": 1.5595,
      "step": 56792
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5775912404060364,
      "learning_rate": 0.00018099694569780818,
      "loss": 1.5212,
      "step": 56793
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5622155070304871,
      "learning_rate": 0.00018098735116273476,
      "loss": 1.559,
      "step": 56794
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5573933720588684,
      "learning_rate": 0.00018097775677212535,
      "loss": 1.5307,
      "step": 56795
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5643879175186157,
      "learning_rate": 0.00018096816252599122,
      "loss": 1.5867,
      "step": 56796
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5823367834091187,
      "learning_rate": 0.0001809585684243443,
      "loss": 1.6294,
      "step": 56797
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5473319292068481,
      "learning_rate": 0.00018094897446719612,
      "loss": 1.5411,
      "step": 56798
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5739328265190125,
      "learning_rate": 0.0001809393806545583,
      "loss": 1.5575,
      "step": 56799
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5544907450675964,
      "learning_rate": 0.0001809297869864426,
      "loss": 1.5585,
      "step": 56800
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5425469875335693,
      "learning_rate": 0.00018092019346286047,
      "loss": 1.5572,
      "step": 56801
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.562597930431366,
      "learning_rate": 0.0001809106000838239,
      "loss": 1.6346,
      "step": 56802
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5383058190345764,
      "learning_rate": 0.00018090100684934408,
      "loss": 1.562,
      "step": 56803
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5805574059486389,
      "learning_rate": 0.000180891413759433,
      "loss": 1.4939,
      "step": 56804
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5653581023216248,
      "learning_rate": 0.00018088182081410224,
      "loss": 1.5052,
      "step": 56805
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5517983436584473,
      "learning_rate": 0.00018087222801336332,
      "loss": 1.6556,
      "step": 56806
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5326744914054871,
      "learning_rate": 0.000180862635357228,
      "loss": 1.578,
      "step": 56807
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5445985794067383,
      "learning_rate": 0.0001808530428457079,
      "loss": 1.5771,
      "step": 56808
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5576233863830566,
      "learning_rate": 0.00018084345047881463,
      "loss": 1.5112,
      "step": 56809
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5502288341522217,
      "learning_rate": 0.00018083385825655977,
      "loss": 1.5235,
      "step": 56810
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5511216521263123,
      "learning_rate": 0.00018082426617895513,
      "loss": 1.5668,
      "step": 56811
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5349288582801819,
      "learning_rate": 0.0001808146742460123,
      "loss": 1.5446,
      "step": 56812
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5586549043655396,
      "learning_rate": 0.00018080508245774286,
      "loss": 1.5183,
      "step": 56813
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5555769801139832,
      "learning_rate": 0.00018079549081415847,
      "loss": 1.5867,
      "step": 56814
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5465975403785706,
      "learning_rate": 0.00018078589931527086,
      "loss": 1.5471,
      "step": 56815
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5558702349662781,
      "learning_rate": 0.00018077630796109156,
      "loss": 1.5092,
      "step": 56816
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5741163492202759,
      "learning_rate": 0.00018076671675163215,
      "loss": 1.578,
      "step": 56817
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5474023222923279,
      "learning_rate": 0.0001807571256869046,
      "loss": 1.5961,
      "step": 56818
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5342379212379456,
      "learning_rate": 0.00018074753476692013,
      "loss": 1.4959,
      "step": 56819
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5478113293647766,
      "learning_rate": 0.00018073794399169066,
      "loss": 1.5664,
      "step": 56820
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5569080710411072,
      "learning_rate": 0.00018072835336122774,
      "loss": 1.5044,
      "step": 56821
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5492162108421326,
      "learning_rate": 0.00018071876287554308,
      "loss": 1.5196,
      "step": 56822
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5621421933174133,
      "learning_rate": 0.00018070917253464822,
      "loss": 1.6481,
      "step": 56823
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5560271143913269,
      "learning_rate": 0.00018069958233855478,
      "loss": 1.5785,
      "step": 56824
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5591027736663818,
      "learning_rate": 0.00018068999228727464,
      "loss": 1.6003,
      "step": 56825
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5696582794189453,
      "learning_rate": 0.0001806804023808191,
      "loss": 1.5864,
      "step": 56826
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5557128190994263,
      "learning_rate": 0.00018067081261920003,
      "loss": 1.5791,
      "step": 56827
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5557320713996887,
      "learning_rate": 0.00018066122300242906,
      "loss": 1.5671,
      "step": 56828
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5348681211471558,
      "learning_rate": 0.00018065163353051772,
      "loss": 1.5521,
      "step": 56829
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5752206444740295,
      "learning_rate": 0.00018064204420347777,
      "loss": 1.5503,
      "step": 56830
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5558186769485474,
      "learning_rate": 0.00018063245502132063,
      "loss": 1.531,
      "step": 56831
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5585507154464722,
      "learning_rate": 0.00018062286598405835,
      "loss": 1.5363,
      "step": 56832
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5451104640960693,
      "learning_rate": 0.00018061327709170214,
      "loss": 1.5087,
      "step": 56833
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5513795614242554,
      "learning_rate": 0.00018060368834426388,
      "loss": 1.6429,
      "step": 56834
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5668189525604248,
      "learning_rate": 0.0001805940997417552,
      "loss": 1.606,
      "step": 56835
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5668264031410217,
      "learning_rate": 0.00018058451128418764,
      "loss": 1.6235,
      "step": 56836
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5478332042694092,
      "learning_rate": 0.0001805749229715729,
      "loss": 1.5559,
      "step": 56837
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5656269192695618,
      "learning_rate": 0.00018056533480392264,
      "loss": 1.6076,
      "step": 56838
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5938324332237244,
      "learning_rate": 0.00018055574678124838,
      "loss": 1.5468,
      "step": 56839
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5708011984825134,
      "learning_rate": 0.00018054615890356182,
      "loss": 1.6119,
      "step": 56840
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5476565361022949,
      "learning_rate": 0.00018053657117087464,
      "loss": 1.572,
      "step": 56841
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5548496842384338,
      "learning_rate": 0.00018052698358319858,
      "loss": 1.548,
      "step": 56842
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5742509961128235,
      "learning_rate": 0.0001805173961405451,
      "loss": 1.5109,
      "step": 56843
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5735475420951843,
      "learning_rate": 0.00018050780884292585,
      "loss": 1.5914,
      "step": 56844
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5661832094192505,
      "learning_rate": 0.00018049822169035262,
      "loss": 1.5182,
      "step": 56845
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5656065940856934,
      "learning_rate": 0.00018048863468283683,
      "loss": 1.4985,
      "step": 56846
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5824305415153503,
      "learning_rate": 0.0001804790478203902,
      "loss": 1.5688,
      "step": 56847
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5702053904533386,
      "learning_rate": 0.00018046946110302457,
      "loss": 1.5487,
      "step": 56848
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5464333295822144,
      "learning_rate": 0.00018045987453075123,
      "loss": 1.5817,
      "step": 56849
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5750428438186646,
      "learning_rate": 0.00018045028810358203,
      "loss": 1.5933,
      "step": 56850
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.7193413972854614,
      "learning_rate": 0.0001804407018215286,
      "loss": 1.6798,
      "step": 56851
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5299872756004333,
      "learning_rate": 0.00018043111568460254,
      "loss": 1.5599,
      "step": 56852
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5608079433441162,
      "learning_rate": 0.0001804215296928155,
      "loss": 1.5658,
      "step": 56853
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5798845291137695,
      "learning_rate": 0.00018041194384617898,
      "loss": 1.5944,
      "step": 56854
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5384266972541809,
      "learning_rate": 0.00018040235814470494,
      "loss": 1.4819,
      "step": 56855
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5382947325706482,
      "learning_rate": 0.00018039277258840466,
      "loss": 1.5344,
      "step": 56856
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5280345678329468,
      "learning_rate": 0.00018038318717729,
      "loss": 1.6238,
      "step": 56857
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.551882266998291,
      "learning_rate": 0.00018037360191137253,
      "loss": 1.4565,
      "step": 56858
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5555915236473083,
      "learning_rate": 0.00018036401679066385,
      "loss": 1.5399,
      "step": 56859
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5543235540390015,
      "learning_rate": 0.00018035443181517566,
      "loss": 1.5315,
      "step": 56860
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5472064018249512,
      "learning_rate": 0.00018034484698491946,
      "loss": 1.5285,
      "step": 56861
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5447774529457092,
      "learning_rate": 0.00018033526229990716,
      "loss": 1.629,
      "step": 56862
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5449295043945312,
      "learning_rate": 0.00018032567776015006,
      "loss": 1.5719,
      "step": 56863
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5570934414863586,
      "learning_rate": 0.00018031609336566,
      "loss": 1.5691,
      "step": 56864
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.556105375289917,
      "learning_rate": 0.00018030650911644866,
      "loss": 1.6278,
      "step": 56865
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5462435483932495,
      "learning_rate": 0.0001802969250125275,
      "loss": 1.5078,
      "step": 56866
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5864666104316711,
      "learning_rate": 0.0001802873410539082,
      "loss": 1.602,
      "step": 56867
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.586480975151062,
      "learning_rate": 0.00018027775724060256,
      "loss": 1.6,
      "step": 56868
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5598877668380737,
      "learning_rate": 0.000180268173572622,
      "loss": 1.579,
      "step": 56869
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.551051914691925,
      "learning_rate": 0.00018025859004997815,
      "loss": 1.5635,
      "step": 56870
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5616759657859802,
      "learning_rate": 0.00018024900667268278,
      "loss": 1.5075,
      "step": 56871
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5562818050384521,
      "learning_rate": 0.0001802394234407476,
      "loss": 1.5603,
      "step": 56872
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5534276962280273,
      "learning_rate": 0.00018022984035418396,
      "loss": 1.5425,
      "step": 56873
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5532726049423218,
      "learning_rate": 0.0001802202574130037,
      "loss": 1.5873,
      "step": 56874
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5738831162452698,
      "learning_rate": 0.00018021067461721846,
      "loss": 1.602,
      "step": 56875
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5607203841209412,
      "learning_rate": 0.00018020109196683975,
      "loss": 1.599,
      "step": 56876
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5541367530822754,
      "learning_rate": 0.0001801915094618792,
      "loss": 1.5725,
      "step": 56877
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5511085987091064,
      "learning_rate": 0.00018018192710234863,
      "loss": 1.5966,
      "step": 56878
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.557453453540802,
      "learning_rate": 0.00018017234488825943,
      "loss": 1.5322,
      "step": 56879
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5575876832008362,
      "learning_rate": 0.0001801627628196234,
      "loss": 1.536,
      "step": 56880
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5580491423606873,
      "learning_rate": 0.0001801531808964521,
      "loss": 1.5608,
      "step": 56881
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5754152536392212,
      "learning_rate": 0.00018014359911875728,
      "loss": 1.5173,
      "step": 56882
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.559899628162384,
      "learning_rate": 0.00018013401748655035,
      "loss": 1.5912,
      "step": 56883
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5523281097412109,
      "learning_rate": 0.00018012443599984307,
      "loss": 1.5587,
      "step": 56884
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5713614225387573,
      "learning_rate": 0.00018011485465864715,
      "loss": 1.5482,
      "step": 56885
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5675183534622192,
      "learning_rate": 0.00018010527346297404,
      "loss": 1.5982,
      "step": 56886
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5794863700866699,
      "learning_rate": 0.0001800956924128355,
      "loss": 1.5474,
      "step": 56887
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5570112466812134,
      "learning_rate": 0.0001800861115082432,
      "loss": 1.5989,
      "step": 56888
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5689948201179504,
      "learning_rate": 0.00018007653074920857,
      "loss": 1.5969,
      "step": 56889
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5527356863021851,
      "learning_rate": 0.0001800669501357434,
      "loss": 1.6054,
      "step": 56890
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5696281790733337,
      "learning_rate": 0.00018005736966785924,
      "loss": 1.5998,
      "step": 56891
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5488764643669128,
      "learning_rate": 0.00018004778934556782,
      "loss": 1.5625,
      "step": 56892
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5713593363761902,
      "learning_rate": 0.00018003820916888072,
      "loss": 1.6763,
      "step": 56893
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5592132806777954,
      "learning_rate": 0.00018002862913780952,
      "loss": 1.5975,
      "step": 56894
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5377728343009949,
      "learning_rate": 0.00018001904925236595,
      "loss": 1.5878,
      "step": 56895
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5430586338043213,
      "learning_rate": 0.0001800094695125615,
      "loss": 1.602,
      "step": 56896
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5597264766693115,
      "learning_rate": 0.0001799998899184079,
      "loss": 1.5627,
      "step": 56897
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5460861921310425,
      "learning_rate": 0.00017999031046991683,
      "loss": 1.5846,
      "step": 56898
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5619773268699646,
      "learning_rate": 0.00017998073116709968,
      "loss": 1.5891,
      "step": 56899
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5520144701004028,
      "learning_rate": 0.0001799711520099683,
      "loss": 1.4818,
      "step": 56900
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.7538606524467468,
      "learning_rate": 0.0001799615729985343,
      "loss": 1.5692,
      "step": 56901
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5444965958595276,
      "learning_rate": 0.0001799519941328093,
      "loss": 1.5973,
      "step": 56902
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5554953217506409,
      "learning_rate": 0.0001799424154128048,
      "loss": 1.5859,
      "step": 56903
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5373895168304443,
      "learning_rate": 0.0001799328368385325,
      "loss": 1.5391,
      "step": 56904
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5547683835029602,
      "learning_rate": 0.0001799232584100042,
      "loss": 1.5542,
      "step": 56905
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5616335868835449,
      "learning_rate": 0.0001799136801272312,
      "loss": 1.5434,
      "step": 56906
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5639955997467041,
      "learning_rate": 0.0001799041019902254,
      "loss": 1.5506,
      "step": 56907
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5525462031364441,
      "learning_rate": 0.0001798945239989983,
      "loss": 1.5796,
      "step": 56908
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5408135652542114,
      "learning_rate": 0.00017988494615356156,
      "loss": 1.5867,
      "step": 56909
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5796272158622742,
      "learning_rate": 0.00017987536845392676,
      "loss": 1.6423,
      "step": 56910
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5613876581192017,
      "learning_rate": 0.0001798657909001055,
      "loss": 1.5586,
      "step": 56911
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5547940731048584,
      "learning_rate": 0.00017985621349210965,
      "loss": 1.6377,
      "step": 56912
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5304622650146484,
      "learning_rate": 0.00017984663622995053,
      "loss": 1.586,
      "step": 56913
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5526744723320007,
      "learning_rate": 0.0001798370591136399,
      "loss": 1.623,
      "step": 56914
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5679028630256653,
      "learning_rate": 0.00017982748214318944,
      "loss": 1.5418,
      "step": 56915
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5436927080154419,
      "learning_rate": 0.00017981790531861064,
      "loss": 1.5873,
      "step": 56916
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5678731799125671,
      "learning_rate": 0.00017980832863991525,
      "loss": 1.542,
      "step": 56917
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5481374263763428,
      "learning_rate": 0.00017979875210711482,
      "loss": 1.582,
      "step": 56918
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5224570035934448,
      "learning_rate": 0.00017978917572022098,
      "loss": 1.559,
      "step": 56919
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5805657505989075,
      "learning_rate": 0.00017977959947924527,
      "loss": 1.611,
      "step": 56920
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5274526476860046,
      "learning_rate": 0.00017977002338419955,
      "loss": 1.578,
      "step": 56921
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.543243408203125,
      "learning_rate": 0.00017976044743509527,
      "loss": 1.5324,
      "step": 56922
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5494663119316101,
      "learning_rate": 0.00017975087163194412,
      "loss": 1.5542,
      "step": 56923
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5723493695259094,
      "learning_rate": 0.00017974129597475761,
      "loss": 1.5261,
      "step": 56924
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5645569562911987,
      "learning_rate": 0.0001797317204635476,
      "loss": 1.5518,
      "step": 56925
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5708935260772705,
      "learning_rate": 0.00017972214509832542,
      "loss": 1.5947,
      "step": 56926
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.535106897354126,
      "learning_rate": 0.00017971256987910284,
      "loss": 1.5026,
      "step": 56927
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5575660467147827,
      "learning_rate": 0.00017970299480589148,
      "loss": 1.5858,
      "step": 56928
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5532160401344299,
      "learning_rate": 0.00017969341987870304,
      "loss": 1.6499,
      "step": 56929
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5431262254714966,
      "learning_rate": 0.000179683845097549,
      "loss": 1.6136,
      "step": 56930
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5433382391929626,
      "learning_rate": 0.00017967427046244105,
      "loss": 1.5345,
      "step": 56931
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5638388395309448,
      "learning_rate": 0.00017966469597339085,
      "loss": 1.5984,
      "step": 56932
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5626766085624695,
      "learning_rate": 0.00017965512163040995,
      "loss": 1.5858,
      "step": 56933
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5310249328613281,
      "learning_rate": 0.00017964554743350993,
      "loss": 1.5531,
      "step": 56934
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5287850499153137,
      "learning_rate": 0.00017963597338270266,
      "loss": 1.5502,
      "step": 56935
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5488911867141724,
      "learning_rate": 0.00017962639947799938,
      "loss": 1.6578,
      "step": 56936
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5526977181434631,
      "learning_rate": 0.00017961682571941202,
      "loss": 1.6537,
      "step": 56937
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5558959245681763,
      "learning_rate": 0.00017960725210695204,
      "loss": 1.5491,
      "step": 56938
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5591382384300232,
      "learning_rate": 0.00017959767864063122,
      "loss": 1.6045,
      "step": 56939
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5726683735847473,
      "learning_rate": 0.000179588105320461,
      "loss": 1.5696,
      "step": 56940
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5425063371658325,
      "learning_rate": 0.00017957853214645302,
      "loss": 1.5363,
      "step": 56941
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5440765619277954,
      "learning_rate": 0.00017956895911861917,
      "loss": 1.61,
      "step": 56942
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5551978945732117,
      "learning_rate": 0.00017955938623697064,
      "loss": 1.6046,
      "step": 56943
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5513482689857483,
      "learning_rate": 0.00017954981350151933,
      "loss": 1.6007,
      "step": 56944
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5282997488975525,
      "learning_rate": 0.00017954024091227687,
      "loss": 1.5449,
      "step": 56945
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5447567701339722,
      "learning_rate": 0.00017953066846925473,
      "loss": 1.5406,
      "step": 56946
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5607044100761414,
      "learning_rate": 0.00017952109617246466,
      "loss": 1.5295,
      "step": 56947
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.544913649559021,
      "learning_rate": 0.00017951152402191813,
      "loss": 1.591,
      "step": 56948
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5439727306365967,
      "learning_rate": 0.000179501952017627,
      "loss": 1.5845,
      "step": 56949
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5536848306655884,
      "learning_rate": 0.00017949238015960262,
      "loss": 1.6194,
      "step": 56950
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5564777851104736,
      "learning_rate": 0.0001794828084478568,
      "loss": 1.6105,
      "step": 56951
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.556268572807312,
      "learning_rate": 0.00017947323688240113,
      "loss": 1.549,
      "step": 56952
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5567352771759033,
      "learning_rate": 0.00017946366546324713,
      "loss": 1.5647,
      "step": 56953
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5433993935585022,
      "learning_rate": 0.00017945409419040648,
      "loss": 1.4803,
      "step": 56954
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5828564167022705,
      "learning_rate": 0.00017944452306389088,
      "loss": 1.5654,
      "step": 56955
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5629953742027283,
      "learning_rate": 0.00017943495208371177,
      "loss": 1.5309,
      "step": 56956
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5498424172401428,
      "learning_rate": 0.00017942538124988085,
      "loss": 1.5663,
      "step": 56957
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5818276405334473,
      "learning_rate": 0.00017941581056240977,
      "loss": 1.5874,
      "step": 56958
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5618798136711121,
      "learning_rate": 0.0001794062400213102,
      "loss": 1.5925,
      "step": 56959
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5565528273582458,
      "learning_rate": 0.00017939666962659364,
      "loss": 1.5554,
      "step": 56960
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5726655721664429,
      "learning_rate": 0.00017938709937827173,
      "loss": 1.5661,
      "step": 56961
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.558301568031311,
      "learning_rate": 0.00017937752927635618,
      "loss": 1.6051,
      "step": 56962
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5319640040397644,
      "learning_rate": 0.00017936795932085847,
      "loss": 1.4998,
      "step": 56963
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5465770363807678,
      "learning_rate": 0.0001793583895117902,
      "loss": 1.599,
      "step": 56964
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5812383890151978,
      "learning_rate": 0.0001793488198491633,
      "loss": 1.5536,
      "step": 56965
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5355084538459778,
      "learning_rate": 0.00017933925033298894,
      "loss": 1.6131,
      "step": 56966
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5521788597106934,
      "learning_rate": 0.00017932968096327905,
      "loss": 1.5883,
      "step": 56967
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5918359756469727,
      "learning_rate": 0.0001793201117400451,
      "loss": 1.6007,
      "step": 56968
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5900982022285461,
      "learning_rate": 0.00017931054266329886,
      "loss": 1.5405,
      "step": 56969
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5644744634628296,
      "learning_rate": 0.00017930097373305176,
      "loss": 1.5065,
      "step": 56970
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5665856599807739,
      "learning_rate": 0.00017929140494931544,
      "loss": 1.5887,
      "step": 56971
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5475233197212219,
      "learning_rate": 0.00017928183631210173,
      "loss": 1.5704,
      "step": 56972
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5658313632011414,
      "learning_rate": 0.0001792722678214219,
      "loss": 1.6009,
      "step": 56973
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5704111456871033,
      "learning_rate": 0.00017926269947728782,
      "loss": 1.5223,
      "step": 56974
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5297006368637085,
      "learning_rate": 0.00017925313127971107,
      "loss": 1.5696,
      "step": 56975
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5323325991630554,
      "learning_rate": 0.00017924356322870322,
      "loss": 1.5698,
      "step": 56976
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5466383695602417,
      "learning_rate": 0.00017923399532427585,
      "loss": 1.5796,
      "step": 56977
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5586699843406677,
      "learning_rate": 0.00017922442756644058,
      "loss": 1.62,
      "step": 56978
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5500439405441284,
      "learning_rate": 0.00017921485995520922,
      "loss": 1.5021,
      "step": 56979
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5615053176879883,
      "learning_rate": 0.00017920529249059307,
      "loss": 1.5686,
      "step": 56980
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5683234930038452,
      "learning_rate": 0.00017919572517260393,
      "loss": 1.6393,
      "step": 56981
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5561988353729248,
      "learning_rate": 0.00017918615800125343,
      "loss": 1.6385,
      "step": 56982
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5705876350402832,
      "learning_rate": 0.00017917659097655312,
      "loss": 1.6239,
      "step": 56983
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5735054016113281,
      "learning_rate": 0.0001791670240985146,
      "loss": 1.603,
      "step": 56984
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5684293508529663,
      "learning_rate": 0.00017915745736714957,
      "loss": 1.6753,
      "step": 56985
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.9076295495033264,
      "learning_rate": 0.00017914789078246946,
      "loss": 1.5403,
      "step": 56986
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5660107135772705,
      "learning_rate": 0.00017913832434448602,
      "loss": 1.5606,
      "step": 56987
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5552240014076233,
      "learning_rate": 0.00017912875805321088,
      "loss": 1.6196,
      "step": 56988
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5486570596694946,
      "learning_rate": 0.0001791191919086557,
      "loss": 1.5594,
      "step": 56989
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5542617440223694,
      "learning_rate": 0.00017910962591083192,
      "loss": 1.57,
      "step": 56990
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.557463526725769,
      "learning_rate": 0.00017910006005975127,
      "loss": 1.5285,
      "step": 56991
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5694413185119629,
      "learning_rate": 0.00017909049435542538,
      "loss": 1.6026,
      "step": 56992
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5414291620254517,
      "learning_rate": 0.00017908092879786577,
      "loss": 1.5832,
      "step": 56993
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5544083118438721,
      "learning_rate": 0.000179071363387084,
      "loss": 1.5308,
      "step": 56994
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5445298552513123,
      "learning_rate": 0.00017906179812309195,
      "loss": 1.5253,
      "step": 56995
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5799723267555237,
      "learning_rate": 0.00017905223300590097,
      "loss": 1.517,
      "step": 56996
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5521506667137146,
      "learning_rate": 0.00017904266803552273,
      "loss": 1.5661,
      "step": 56997
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5726625919342041,
      "learning_rate": 0.0001790331032119689,
      "loss": 1.4959,
      "step": 56998
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5751675963401794,
      "learning_rate": 0.00017902353853525114,
      "loss": 1.5827,
      "step": 56999
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5619825720787048,
      "learning_rate": 0.00017901397400538085,
      "loss": 1.5677,
      "step": 57000
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5791932940483093,
      "learning_rate": 0.00017900440962236977,
      "loss": 1.5404,
      "step": 57001
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.575907289981842,
      "learning_rate": 0.0001789948453862296,
      "loss": 1.5881,
      "step": 57002
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5619676113128662,
      "learning_rate": 0.0001789852812969718,
      "loss": 1.6311,
      "step": 57003
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.574951171875,
      "learning_rate": 0.00017897571735460806,
      "loss": 1.517,
      "step": 57004
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5494492053985596,
      "learning_rate": 0.00017896615355915004,
      "loss": 1.5804,
      "step": 57005
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5608932375907898,
      "learning_rate": 0.00017895658991060913,
      "loss": 1.5591,
      "step": 57006
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.565849781036377,
      "learning_rate": 0.00017894702640899716,
      "loss": 1.6016,
      "step": 57007
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5436218976974487,
      "learning_rate": 0.0001789374630543256,
      "loss": 1.582,
      "step": 57008
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5533931851387024,
      "learning_rate": 0.0001789278998466062,
      "loss": 1.5758,
      "step": 57009
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5507595539093018,
      "learning_rate": 0.00017891833678585045,
      "loss": 1.6018,
      "step": 57010
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5269604325294495,
      "learning_rate": 0.00017890877387207005,
      "loss": 1.5822,
      "step": 57011
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.544959545135498,
      "learning_rate": 0.0001788992111052766,
      "loss": 1.6045,
      "step": 57012
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5382151007652283,
      "learning_rate": 0.00017888964848548154,
      "loss": 1.5579,
      "step": 57013
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5403709411621094,
      "learning_rate": 0.00017888008601269663,
      "loss": 1.5886,
      "step": 57014
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5488624572753906,
      "learning_rate": 0.00017887052368693355,
      "loss": 1.5922,
      "step": 57015
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5624042749404907,
      "learning_rate": 0.00017886096150820366,
      "loss": 1.5832,
      "step": 57016
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5288005471229553,
      "learning_rate": 0.00017885139947651873,
      "loss": 1.5036,
      "step": 57017
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5435368418693542,
      "learning_rate": 0.00017884183759189038,
      "loss": 1.5409,
      "step": 57018
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5481096506118774,
      "learning_rate": 0.00017883227585433026,
      "loss": 1.5409,
      "step": 57019
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5596730709075928,
      "learning_rate": 0.0001788227142638499,
      "loss": 1.5875,
      "step": 57020
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5734448432922363,
      "learning_rate": 0.0001788131528204608,
      "loss": 1.5972,
      "step": 57021
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5624791383743286,
      "learning_rate": 0.0001788035915241748,
      "loss": 1.5019,
      "step": 57022
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5307362675666809,
      "learning_rate": 0.0001787940303750033,
      "loss": 1.5335,
      "step": 57023
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5666760802268982,
      "learning_rate": 0.00017878446937295793,
      "loss": 1.6092,
      "step": 57024
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5451984405517578,
      "learning_rate": 0.00017877490851805048,
      "loss": 1.5936,
      "step": 57025
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5825279355049133,
      "learning_rate": 0.00017876534781029242,
      "loss": 1.5816,
      "step": 57026
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5606715083122253,
      "learning_rate": 0.00017875578724969532,
      "loss": 1.5541,
      "step": 57027
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.553428590297699,
      "learning_rate": 0.00017874622683627077,
      "loss": 1.5416,
      "step": 57028
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5790408253669739,
      "learning_rate": 0.0001787366665700306,
      "loss": 1.6141,
      "step": 57029
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5364614725112915,
      "learning_rate": 0.0001787271064509861,
      "loss": 1.637,
      "step": 57030
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5713179111480713,
      "learning_rate": 0.00017871754647914907,
      "loss": 1.59,
      "step": 57031
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5470828413963318,
      "learning_rate": 0.0001787079866545311,
      "loss": 1.593,
      "step": 57032
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5534703731536865,
      "learning_rate": 0.00017869842697714372,
      "loss": 1.5248,
      "step": 57033
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5615742802619934,
      "learning_rate": 0.00017868886744699857,
      "loss": 1.5938,
      "step": 57034
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5456270575523376,
      "learning_rate": 0.00017867930806410737,
      "loss": 1.6337,
      "step": 57035
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5797162055969238,
      "learning_rate": 0.00017866974882848152,
      "loss": 1.5742,
      "step": 57036
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.542467474937439,
      "learning_rate": 0.00017866018974013262,
      "loss": 1.5856,
      "step": 57037
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5696917772293091,
      "learning_rate": 0.00017865063079907246,
      "loss": 1.5428,
      "step": 57038
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5715504884719849,
      "learning_rate": 0.00017864107200531265,
      "loss": 1.5596,
      "step": 57039
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5316442251205444,
      "learning_rate": 0.0001786315133588646,
      "loss": 1.5102,
      "step": 57040
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5736255645751953,
      "learning_rate": 0.00017862195485974003,
      "loss": 1.6321,
      "step": 57041
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5535886883735657,
      "learning_rate": 0.00017861239650795058,
      "loss": 1.5721,
      "step": 57042
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5428212285041809,
      "learning_rate": 0.00017860283830350773,
      "loss": 1.566,
      "step": 57043
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5517643690109253,
      "learning_rate": 0.00017859328024642305,
      "loss": 1.5759,
      "step": 57044
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5532804131507874,
      "learning_rate": 0.00017858372233670836,
      "loss": 1.5872,
      "step": 57045
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5525490045547485,
      "learning_rate": 0.00017857416457437515,
      "loss": 1.6158,
      "step": 57046
    },
    {
      "epoch": 1.9,
      "grad_norm": 1.4878108501434326,
      "learning_rate": 0.00017856460695943498,
      "loss": 1.5075,
      "step": 57047
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5441626906394958,
      "learning_rate": 0.0001785550494918995,
      "loss": 1.5999,
      "step": 57048
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.542844295501709,
      "learning_rate": 0.00017854549217178033,
      "loss": 1.5589,
      "step": 57049
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5327929854393005,
      "learning_rate": 0.00017853593499908896,
      "loss": 1.5478,
      "step": 57050
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5363528728485107,
      "learning_rate": 0.00017852637797383705,
      "loss": 1.567,
      "step": 57051
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5602930784225464,
      "learning_rate": 0.0001785168210960364,
      "loss": 1.5992,
      "step": 57052
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5369128584861755,
      "learning_rate": 0.00017850726436569823,
      "loss": 1.6182,
      "step": 57053
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5320866107940674,
      "learning_rate": 0.00017849770778283436,
      "loss": 1.5267,
      "step": 57054
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.569489598274231,
      "learning_rate": 0.00017848815134745643,
      "loss": 1.6473,
      "step": 57055
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5455208420753479,
      "learning_rate": 0.00017847859505957606,
      "loss": 1.5478,
      "step": 57056
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5513520836830139,
      "learning_rate": 0.00017846903891920464,
      "loss": 1.5254,
      "step": 57057
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5493221879005432,
      "learning_rate": 0.0001784594829263539,
      "loss": 1.6079,
      "step": 57058
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5937561392784119,
      "learning_rate": 0.00017844992708103557,
      "loss": 1.6175,
      "step": 57059
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5528761744499207,
      "learning_rate": 0.00017844037138326096,
      "loss": 1.5373,
      "step": 57060
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.547796905040741,
      "learning_rate": 0.00017843081583304187,
      "loss": 1.5252,
      "step": 57061
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5733968019485474,
      "learning_rate": 0.00017842126043038993,
      "loss": 1.6027,
      "step": 57062
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5461952686309814,
      "learning_rate": 0.00017841170517531664,
      "loss": 1.6025,
      "step": 57063
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5419228672981262,
      "learning_rate": 0.0001784021500678336,
      "loss": 1.5965,
      "step": 57064
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5293826460838318,
      "learning_rate": 0.00017839259510795235,
      "loss": 1.6099,
      "step": 57065
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5823577046394348,
      "learning_rate": 0.0001783830402956848,
      "loss": 1.6642,
      "step": 57066
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5652707815170288,
      "learning_rate": 0.0001783734856310421,
      "loss": 1.5387,
      "step": 57067
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5709112882614136,
      "learning_rate": 0.00017836393111403612,
      "loss": 1.544,
      "step": 57068
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.59251868724823,
      "learning_rate": 0.00017835437674467848,
      "loss": 1.5685,
      "step": 57069
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5615297555923462,
      "learning_rate": 0.00017834482252298067,
      "loss": 1.5191,
      "step": 57070
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5453091263771057,
      "learning_rate": 0.0001783352684489543,
      "loss": 1.5335,
      "step": 57071
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5260600447654724,
      "learning_rate": 0.00017832571452261104,
      "loss": 1.5584,
      "step": 57072
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5586655735969543,
      "learning_rate": 0.0001783161607439624,
      "loss": 1.5971,
      "step": 57073
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5596653819084167,
      "learning_rate": 0.0001783066071130199,
      "loss": 1.5784,
      "step": 57074
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5610854625701904,
      "learning_rate": 0.00017829705362979532,
      "loss": 1.5971,
      "step": 57075
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5469632744789124,
      "learning_rate": 0.0001782875002943003,
      "loss": 1.529,
      "step": 57076
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5559486150741577,
      "learning_rate": 0.0001782779471065462,
      "loss": 1.4903,
      "step": 57077
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5458601117134094,
      "learning_rate": 0.00017826839406654478,
      "loss": 1.5639,
      "step": 57078
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5639469623565674,
      "learning_rate": 0.0001782588411743076,
      "loss": 1.5461,
      "step": 57079
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5610663294792175,
      "learning_rate": 0.00017824928842984626,
      "loss": 1.6067,
      "step": 57080
    },
    {
      "epoch": 1.9,
      "grad_norm": 1.6242632865905762,
      "learning_rate": 0.00017823973583317227,
      "loss": 1.584,
      "step": 57081
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5340678095817566,
      "learning_rate": 0.00017823018338429742,
      "loss": 1.5629,
      "step": 57082
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5561068058013916,
      "learning_rate": 0.00017822063108323305,
      "loss": 1.5267,
      "step": 57083
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.536702036857605,
      "learning_rate": 0.00017821107892999097,
      "loss": 1.4852,
      "step": 57084
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.558558464050293,
      "learning_rate": 0.00017820152692458264,
      "loss": 1.6458,
      "step": 57085
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5536454916000366,
      "learning_rate": 0.00017819197506701982,
      "loss": 1.5781,
      "step": 57086
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.550209641456604,
      "learning_rate": 0.0001781824233573139,
      "loss": 1.5625,
      "step": 57087
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5528773069381714,
      "learning_rate": 0.00017817287179547654,
      "loss": 1.5682,
      "step": 57088
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5316610336303711,
      "learning_rate": 0.00017816332038151953,
      "loss": 1.5435,
      "step": 57089
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5445407629013062,
      "learning_rate": 0.0001781537691154541,
      "loss": 1.6138,
      "step": 57090
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5473359227180481,
      "learning_rate": 0.00017814421799729213,
      "loss": 1.5894,
      "step": 57091
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5602198839187622,
      "learning_rate": 0.00017813466702704518,
      "loss": 1.614,
      "step": 57092
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5479583144187927,
      "learning_rate": 0.0001781251162047247,
      "loss": 1.5178,
      "step": 57093
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.546625018119812,
      "learning_rate": 0.0001781155655303424,
      "loss": 1.5182,
      "step": 57094
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5530235767364502,
      "learning_rate": 0.00017810601500390977,
      "loss": 1.5518,
      "step": 57095
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5349110960960388,
      "learning_rate": 0.00017809646462543864,
      "loss": 1.5637,
      "step": 57096
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5880427956581116,
      "learning_rate": 0.0001780869143949403,
      "loss": 1.6316,
      "step": 57097
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5342031717300415,
      "learning_rate": 0.00017807736431242654,
      "loss": 1.6161,
      "step": 57098
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5310028791427612,
      "learning_rate": 0.0001780678143779089,
      "loss": 1.5583,
      "step": 57099
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5412769317626953,
      "learning_rate": 0.000178058264591399,
      "loss": 1.5298,
      "step": 57100
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.565175473690033,
      "learning_rate": 0.00017804871495290836,
      "loss": 1.5143,
      "step": 57101
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5456787943840027,
      "learning_rate": 0.00017803916546244863,
      "loss": 1.5438,
      "step": 57102
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6015135049819946,
      "learning_rate": 0.00017802961612003134,
      "loss": 1.6276,
      "step": 57103
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5880084037780762,
      "learning_rate": 0.0001780200669256681,
      "loss": 1.5447,
      "step": 57104
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5450156331062317,
      "learning_rate": 0.00017801051787937056,
      "loss": 1.5752,
      "step": 57105
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.553025484085083,
      "learning_rate": 0.00017800096898115035,
      "loss": 1.5902,
      "step": 57106
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5493496060371399,
      "learning_rate": 0.00017799142023101888,
      "loss": 1.6326,
      "step": 57107
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5773024559020996,
      "learning_rate": 0.0001779818716289879,
      "loss": 1.5333,
      "step": 57108
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5802564024925232,
      "learning_rate": 0.00017797232317506902,
      "loss": 1.6318,
      "step": 57109
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5493477582931519,
      "learning_rate": 0.00017796277486927366,
      "loss": 1.5232,
      "step": 57110
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5503112077713013,
      "learning_rate": 0.00017795322671161347,
      "loss": 1.5552,
      "step": 57111
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5872591733932495,
      "learning_rate": 0.00017794367870210018,
      "loss": 1.6265,
      "step": 57112
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5547875165939331,
      "learning_rate": 0.00017793413084074523,
      "loss": 1.531,
      "step": 57113
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5779525637626648,
      "learning_rate": 0.0001779245831275603,
      "loss": 1.608,
      "step": 57114
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5466588139533997,
      "learning_rate": 0.0001779150355625569,
      "loss": 1.5484,
      "step": 57115
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5647692084312439,
      "learning_rate": 0.0001779054881457467,
      "loss": 1.5855,
      "step": 57116
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.588103175163269,
      "learning_rate": 0.00017789594087714122,
      "loss": 1.5666,
      "step": 57117
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5680232048034668,
      "learning_rate": 0.00017788639375675201,
      "loss": 1.602,
      "step": 57118
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5596905946731567,
      "learning_rate": 0.00017787684678459087,
      "loss": 1.5356,
      "step": 57119
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5392229557037354,
      "learning_rate": 0.00017786729996066913,
      "loss": 1.5309,
      "step": 57120
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5531702637672424,
      "learning_rate": 0.00017785775328499855,
      "loss": 1.5858,
      "step": 57121
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5610278844833374,
      "learning_rate": 0.00017784820675759069,
      "loss": 1.567,
      "step": 57122
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.553430438041687,
      "learning_rate": 0.000177838660378457,
      "loss": 1.52,
      "step": 57123
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.537741482257843,
      "learning_rate": 0.00017782911414760923,
      "loss": 1.4934,
      "step": 57124
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5838740468025208,
      "learning_rate": 0.00017781956806505887,
      "loss": 1.6075,
      "step": 57125
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5493514537811279,
      "learning_rate": 0.00017781002213081764,
      "loss": 1.6029,
      "step": 57126
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5434541702270508,
      "learning_rate": 0.00017780047634489697,
      "loss": 1.5275,
      "step": 57127
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5439241528511047,
      "learning_rate": 0.00017779093070730858,
      "loss": 1.5558,
      "step": 57128
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5322694182395935,
      "learning_rate": 0.00017778138521806397,
      "loss": 1.4861,
      "step": 57129
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5582279562950134,
      "learning_rate": 0.00017777183987717474,
      "loss": 1.5474,
      "step": 57130
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5447562336921692,
      "learning_rate": 0.00017776229468465248,
      "loss": 1.6201,
      "step": 57131
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5492982864379883,
      "learning_rate": 0.00017775274964050886,
      "loss": 1.5578,
      "step": 57132
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5392091870307922,
      "learning_rate": 0.00017774320474475523,
      "loss": 1.5444,
      "step": 57133
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5640872716903687,
      "learning_rate": 0.00017773365999740345,
      "loss": 1.533,
      "step": 57134
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5297641158103943,
      "learning_rate": 0.00017772411539846493,
      "loss": 1.5046,
      "step": 57135
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5562151074409485,
      "learning_rate": 0.00017771457094795142,
      "loss": 1.5829,
      "step": 57136
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5533517599105835,
      "learning_rate": 0.00017770502664587434,
      "loss": 1.597,
      "step": 57137
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5598333477973938,
      "learning_rate": 0.00017769548249224525,
      "loss": 1.5917,
      "step": 57138
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5714555382728577,
      "learning_rate": 0.00017768593848707602,
      "loss": 1.572,
      "step": 57139
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5164018273353577,
      "learning_rate": 0.0001776763946303779,
      "loss": 1.5286,
      "step": 57140
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5465433597564697,
      "learning_rate": 0.0001776668509221626,
      "loss": 1.5932,
      "step": 57141
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5614129304885864,
      "learning_rate": 0.00017765730736244182,
      "loss": 1.5562,
      "step": 57142
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5595356225967407,
      "learning_rate": 0.00017764776395122697,
      "loss": 1.579,
      "step": 57143
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5579822659492493,
      "learning_rate": 0.00017763822068852972,
      "loss": 1.5542,
      "step": 57144
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5577086806297302,
      "learning_rate": 0.00017762867757436154,
      "loss": 1.5783,
      "step": 57145
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5836043953895569,
      "learning_rate": 0.00017761913460873435,
      "loss": 1.5904,
      "step": 57146
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5641515851020813,
      "learning_rate": 0.00017760959179165928,
      "loss": 1.5032,
      "step": 57147
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5709264874458313,
      "learning_rate": 0.00017760004912314824,
      "loss": 1.62,
      "step": 57148
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5780873894691467,
      "learning_rate": 0.00017759050660321273,
      "loss": 1.5568,
      "step": 57149
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5640871524810791,
      "learning_rate": 0.00017758096423186424,
      "loss": 1.5385,
      "step": 57150
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.557213544845581,
      "learning_rate": 0.0001775714220091144,
      "loss": 1.5498,
      "step": 57151
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5517832636833191,
      "learning_rate": 0.00017756187993497494,
      "loss": 1.6409,
      "step": 57152
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.553696870803833,
      "learning_rate": 0.0001775523380094572,
      "loss": 1.6625,
      "step": 57153
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5667442679405212,
      "learning_rate": 0.00017754279623257284,
      "loss": 1.5691,
      "step": 57154
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5580431222915649,
      "learning_rate": 0.00017753325460433358,
      "loss": 1.5513,
      "step": 57155
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5367291569709778,
      "learning_rate": 0.00017752371312475092,
      "loss": 1.5813,
      "step": 57156
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.552564799785614,
      "learning_rate": 0.00017751417179383638,
      "loss": 1.5426,
      "step": 57157
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5324497818946838,
      "learning_rate": 0.00017750463061160158,
      "loss": 1.587,
      "step": 57158
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5594572424888611,
      "learning_rate": 0.00017749508957805817,
      "loss": 1.5852,
      "step": 57159
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5670229196548462,
      "learning_rate": 0.0001774855486932176,
      "loss": 1.5614,
      "step": 57160
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5374069809913635,
      "learning_rate": 0.0001774760079570915,
      "loss": 1.5442,
      "step": 57161
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5627043843269348,
      "learning_rate": 0.00017746646736969152,
      "loss": 1.5195,
      "step": 57162
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5337469577789307,
      "learning_rate": 0.00017745692693102924,
      "loss": 1.476,
      "step": 57163
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.558586835861206,
      "learning_rate": 0.00017744738664111613,
      "loss": 1.5586,
      "step": 57164
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5357549786567688,
      "learning_rate": 0.00017743784649996386,
      "loss": 1.511,
      "step": 57165
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5439069867134094,
      "learning_rate": 0.00017742830650758403,
      "loss": 1.5217,
      "step": 57166
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5593433976173401,
      "learning_rate": 0.00017741876666398811,
      "loss": 1.5387,
      "step": 57167
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5660269856452942,
      "learning_rate": 0.0001774092269691877,
      "loss": 1.5975,
      "step": 57168
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5711260437965393,
      "learning_rate": 0.00017739968742319458,
      "loss": 1.5771,
      "step": 57169
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5682039260864258,
      "learning_rate": 0.00017739014802602,
      "loss": 1.5089,
      "step": 57170
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5372195839881897,
      "learning_rate": 0.00017738060877767583,
      "loss": 1.528,
      "step": 57171
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5529429316520691,
      "learning_rate": 0.00017737106967817348,
      "loss": 1.5529,
      "step": 57172
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.572160542011261,
      "learning_rate": 0.00017736153072752463,
      "loss": 1.6181,
      "step": 57173
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5427406430244446,
      "learning_rate": 0.00017735199192574078,
      "loss": 1.5135,
      "step": 57174
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5358895659446716,
      "learning_rate": 0.00017734245327283353,
      "loss": 1.5601,
      "step": 57175
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.575333297252655,
      "learning_rate": 0.00017733291476881456,
      "loss": 1.6498,
      "step": 57176
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5501604080200195,
      "learning_rate": 0.0001773233764136952,
      "loss": 1.6545,
      "step": 57177
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5568867325782776,
      "learning_rate": 0.00017731383820748727,
      "loss": 1.5821,
      "step": 57178
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5567948222160339,
      "learning_rate": 0.00017730430015020228,
      "loss": 1.5619,
      "step": 57179
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5484282374382019,
      "learning_rate": 0.00017729476224185182,
      "loss": 1.6055,
      "step": 57180
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.9457825422286987,
      "learning_rate": 0.00017728522448244737,
      "loss": 1.5338,
      "step": 57181
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5430691838264465,
      "learning_rate": 0.00017727568687200053,
      "loss": 1.5963,
      "step": 57182
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5591685771942139,
      "learning_rate": 0.0001772661494105231,
      "loss": 1.5888,
      "step": 57183
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.577015221118927,
      "learning_rate": 0.00017725661209802628,
      "loss": 1.5619,
      "step": 57184
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5474796891212463,
      "learning_rate": 0.00017724707493452194,
      "loss": 1.5338,
      "step": 57185
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5597753524780273,
      "learning_rate": 0.00017723753792002163,
      "loss": 1.5637,
      "step": 57186
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5553612112998962,
      "learning_rate": 0.00017722800105453675,
      "loss": 1.6199,
      "step": 57187
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5400347113609314,
      "learning_rate": 0.00017721846433807906,
      "loss": 1.5111,
      "step": 57188
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5694715976715088,
      "learning_rate": 0.00017720892777066006,
      "loss": 1.5365,
      "step": 57189
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.562123715877533,
      "learning_rate": 0.00017719939135229132,
      "loss": 1.5594,
      "step": 57190
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5669493079185486,
      "learning_rate": 0.00017718985508298433,
      "loss": 1.683,
      "step": 57191
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5369588732719421,
      "learning_rate": 0.00017718031896275083,
      "loss": 1.5787,
      "step": 57192
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5452072620391846,
      "learning_rate": 0.00017717078299160242,
      "loss": 1.6263,
      "step": 57193
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5534339547157288,
      "learning_rate": 0.00017716124716955046,
      "loss": 1.6313,
      "step": 57194
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5517183542251587,
      "learning_rate": 0.0001771517114966067,
      "loss": 1.5445,
      "step": 57195
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5705651044845581,
      "learning_rate": 0.00017714217597278268,
      "loss": 1.6021,
      "step": 57196
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5431607365608215,
      "learning_rate": 0.0001771326405980899,
      "loss": 1.5314,
      "step": 57197
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5422900915145874,
      "learning_rate": 0.00017712310537253996,
      "loss": 1.5714,
      "step": 57198
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5397675037384033,
      "learning_rate": 0.00017711357029614463,
      "loss": 1.5714,
      "step": 57199
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5647221207618713,
      "learning_rate": 0.00017710403536891513,
      "loss": 1.5962,
      "step": 57200
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.585304319858551,
      "learning_rate": 0.00017709450059086329,
      "loss": 1.593,
      "step": 57201
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5617087483406067,
      "learning_rate": 0.00017708496596200061,
      "loss": 1.5514,
      "step": 57202
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5668084621429443,
      "learning_rate": 0.00017707543148233877,
      "loss": 1.6636,
      "step": 57203
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5501787662506104,
      "learning_rate": 0.00017706589715188914,
      "loss": 1.5302,
      "step": 57204
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5609464645385742,
      "learning_rate": 0.00017705636297066333,
      "loss": 1.6028,
      "step": 57205
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.543982982635498,
      "learning_rate": 0.00017704682893867322,
      "loss": 1.5424,
      "step": 57206
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5615976452827454,
      "learning_rate": 0.00017703729505592986,
      "loss": 1.5151,
      "step": 57207
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5575686693191528,
      "learning_rate": 0.00017702776132244528,
      "loss": 1.5307,
      "step": 57208
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5740108489990234,
      "learning_rate": 0.00017701822773823087,
      "loss": 1.646,
      "step": 57209
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5679461359977722,
      "learning_rate": 0.0001770086943032982,
      "loss": 1.5119,
      "step": 57210
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5637113451957703,
      "learning_rate": 0.00017699916101765882,
      "loss": 1.5809,
      "step": 57211
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5567728877067566,
      "learning_rate": 0.00017698962788132428,
      "loss": 1.585,
      "step": 57212
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5569615364074707,
      "learning_rate": 0.00017698009489430636,
      "loss": 1.5583,
      "step": 57213
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5547824501991272,
      "learning_rate": 0.00017697056205661632,
      "loss": 1.5442,
      "step": 57214
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5484389066696167,
      "learning_rate": 0.00017696102936826596,
      "loss": 1.5742,
      "step": 57215
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5627502202987671,
      "learning_rate": 0.0001769514968292668,
      "loss": 1.6512,
      "step": 57216
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5462804436683655,
      "learning_rate": 0.00017694196443963038,
      "loss": 1.5808,
      "step": 57217
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.598796010017395,
      "learning_rate": 0.0001769324321993683,
      "loss": 1.5852,
      "step": 57218
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5885578989982605,
      "learning_rate": 0.00017692290010849215,
      "loss": 1.6093,
      "step": 57219
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5696126222610474,
      "learning_rate": 0.00017691336816701337,
      "loss": 1.5603,
      "step": 57220
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5680604577064514,
      "learning_rate": 0.0001769038363749436,
      "loss": 1.6015,
      "step": 57221
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5343126654624939,
      "learning_rate": 0.00017689430473229452,
      "loss": 1.5381,
      "step": 57222
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.555138111114502,
      "learning_rate": 0.00017688477323907762,
      "loss": 1.5905,
      "step": 57223
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5550652146339417,
      "learning_rate": 0.00017687524189530444,
      "loss": 1.5684,
      "step": 57224
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5627428889274597,
      "learning_rate": 0.00017686571070098654,
      "loss": 1.5497,
      "step": 57225
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6117343902587891,
      "learning_rate": 0.00017685617965613562,
      "loss": 1.5906,
      "step": 57226
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.559639573097229,
      "learning_rate": 0.0001768466487607631,
      "loss": 1.5907,
      "step": 57227
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5736821889877319,
      "learning_rate": 0.0001768371180148805,
      "loss": 1.6045,
      "step": 57228
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5742613077163696,
      "learning_rate": 0.00017682758741849965,
      "loss": 1.5925,
      "step": 57229
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5563468933105469,
      "learning_rate": 0.0001768180569716319,
      "loss": 1.5249,
      "step": 57230
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5837576389312744,
      "learning_rate": 0.00017680852667428888,
      "loss": 1.5529,
      "step": 57231
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5681291222572327,
      "learning_rate": 0.0001767989965264821,
      "loss": 1.5986,
      "step": 57232
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5616823434829712,
      "learning_rate": 0.0001767894665282233,
      "loss": 1.6109,
      "step": 57233
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5390011668205261,
      "learning_rate": 0.00017677993667952386,
      "loss": 1.5695,
      "step": 57234
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5416549444198608,
      "learning_rate": 0.00017677040698039535,
      "loss": 1.5217,
      "step": 57235
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5527914762496948,
      "learning_rate": 0.00017676087743084956,
      "loss": 1.5707,
      "step": 57236
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6094005107879639,
      "learning_rate": 0.00017675134803089783,
      "loss": 1.5177,
      "step": 57237
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5887147784233093,
      "learning_rate": 0.0001767418187805518,
      "loss": 1.5975,
      "step": 57238
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5552807450294495,
      "learning_rate": 0.00017673228967982313,
      "loss": 1.5201,
      "step": 57239
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5595675706863403,
      "learning_rate": 0.0001767227607287232,
      "loss": 1.5929,
      "step": 57240
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5676011443138123,
      "learning_rate": 0.0001767132319272637,
      "loss": 1.435,
      "step": 57241
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5481429100036621,
      "learning_rate": 0.00017670370327545608,
      "loss": 1.5153,
      "step": 57242
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5745847821235657,
      "learning_rate": 0.00017669417477331211,
      "loss": 1.553,
      "step": 57243
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5825237035751343,
      "learning_rate": 0.00017668464642084324,
      "loss": 1.5127,
      "step": 57244
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5624884366989136,
      "learning_rate": 0.00017667511821806102,
      "loss": 1.5626,
      "step": 57245
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5667428970336914,
      "learning_rate": 0.00017666559016497703,
      "loss": 1.6143,
      "step": 57246
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5710467100143433,
      "learning_rate": 0.00017665606226160285,
      "loss": 1.5894,
      "step": 57247
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5712364315986633,
      "learning_rate": 0.00017664653450795,
      "loss": 1.4826,
      "step": 57248
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5448104739189148,
      "learning_rate": 0.0001766370069040302,
      "loss": 1.5762,
      "step": 57249
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5578177571296692,
      "learning_rate": 0.0001766274794498547,
      "loss": 1.6032,
      "step": 57250
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5556784272193909,
      "learning_rate": 0.0001766179521454354,
      "loss": 1.5912,
      "step": 57251
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5645647048950195,
      "learning_rate": 0.00017660842499078367,
      "loss": 1.5261,
      "step": 57252
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5448618531227112,
      "learning_rate": 0.0001765988979859112,
      "loss": 1.6573,
      "step": 57253
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5548197627067566,
      "learning_rate": 0.00017658937113082944,
      "loss": 1.5691,
      "step": 57254
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5599678158760071,
      "learning_rate": 0.00017657984442554994,
      "loss": 1.5212,
      "step": 57255
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5467267036437988,
      "learning_rate": 0.0001765703178700845,
      "loss": 1.5618,
      "step": 57256
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5453400015830994,
      "learning_rate": 0.0001765607914644443,
      "loss": 1.5118,
      "step": 57257
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.5907694697380066,
      "learning_rate": 0.00017655126520864123,
      "loss": 1.5555,
      "step": 57258
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5574475526809692,
      "learning_rate": 0.00017654173910268674,
      "loss": 1.5396,
      "step": 57259
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6632914543151855,
      "learning_rate": 0.00017653221314659239,
      "loss": 1.5023,
      "step": 57260
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5717470049858093,
      "learning_rate": 0.0001765226873403697,
      "loss": 1.5712,
      "step": 57261
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5803552865982056,
      "learning_rate": 0.00017651316168403017,
      "loss": 1.5617,
      "step": 57262
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5401516556739807,
      "learning_rate": 0.00017650363617758568,
      "loss": 1.5151,
      "step": 57263
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5522035956382751,
      "learning_rate": 0.00017649411082104743,
      "loss": 1.5638,
      "step": 57264
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5423171520233154,
      "learning_rate": 0.00017648458561442718,
      "loss": 1.5814,
      "step": 57265
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5662235617637634,
      "learning_rate": 0.0001764750605577365,
      "loss": 1.6105,
      "step": 57266
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.545331597328186,
      "learning_rate": 0.00017646553565098683,
      "loss": 1.4976,
      "step": 57267
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5490779280662537,
      "learning_rate": 0.00017645601089418979,
      "loss": 1.537,
      "step": 57268
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5417507290840149,
      "learning_rate": 0.00017644648628735703,
      "loss": 1.5779,
      "step": 57269
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5612636804580688,
      "learning_rate": 0.00017643696183049996,
      "loss": 1.5781,
      "step": 57270
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5702173113822937,
      "learning_rate": 0.00017642743752363014,
      "loss": 1.5962,
      "step": 57271
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5646948218345642,
      "learning_rate": 0.0001764179133667593,
      "loss": 1.5822,
      "step": 57272
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5629903674125671,
      "learning_rate": 0.00017640838935989892,
      "loss": 1.5737,
      "step": 57273
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5543894171714783,
      "learning_rate": 0.00017639886550306052,
      "loss": 1.5538,
      "step": 57274
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5541417002677917,
      "learning_rate": 0.00017638934179625568,
      "loss": 1.5211,
      "step": 57275
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5483647584915161,
      "learning_rate": 0.000176379818239496,
      "loss": 1.6052,
      "step": 57276
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5545632243156433,
      "learning_rate": 0.00017637029483279297,
      "loss": 1.5945,
      "step": 57277
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5577990412712097,
      "learning_rate": 0.0001763607715761581,
      "loss": 1.5606,
      "step": 57278
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5471940040588379,
      "learning_rate": 0.00017635124846960326,
      "loss": 1.4383,
      "step": 57279
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5469940900802612,
      "learning_rate": 0.00017634172551313955,
      "loss": 1.572,
      "step": 57280
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5751222372055054,
      "learning_rate": 0.00017633220270677887,
      "loss": 1.5509,
      "step": 57281
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5825297832489014,
      "learning_rate": 0.00017632268005053265,
      "loss": 1.5547,
      "step": 57282
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5540508031845093,
      "learning_rate": 0.00017631315754441256,
      "loss": 1.6489,
      "step": 57283
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5448763966560364,
      "learning_rate": 0.00017630363518842995,
      "loss": 1.6593,
      "step": 57284
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5509547591209412,
      "learning_rate": 0.00017629411298259652,
      "loss": 1.5986,
      "step": 57285
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5510351061820984,
      "learning_rate": 0.00017628459092692398,
      "loss": 1.5222,
      "step": 57286
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5917811989784241,
      "learning_rate": 0.0001762750690214235,
      "loss": 1.5525,
      "step": 57287
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5687650442123413,
      "learning_rate": 0.0001762655472661069,
      "loss": 1.6106,
      "step": 57288
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5346313118934631,
      "learning_rate": 0.00017625602566098572,
      "loss": 1.5041,
      "step": 57289
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5655857920646667,
      "learning_rate": 0.00017624650420607155,
      "loss": 1.5332,
      "step": 57290
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5581242442131042,
      "learning_rate": 0.00017623698290137585,
      "loss": 1.5537,
      "step": 57291
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5683210492134094,
      "learning_rate": 0.00017622746174691015,
      "loss": 1.6252,
      "step": 57292
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5609459280967712,
      "learning_rate": 0.00017621794074268625,
      "loss": 1.4799,
      "step": 57293
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5498547554016113,
      "learning_rate": 0.00017620841988871534,
      "loss": 1.5802,
      "step": 57294
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5958156585693359,
      "learning_rate": 0.00017619889918500927,
      "loss": 1.6124,
      "step": 57295
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5367316007614136,
      "learning_rate": 0.0001761893786315795,
      "loss": 1.5865,
      "step": 57296
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5647923350334167,
      "learning_rate": 0.00017617985822843753,
      "loss": 1.5857,
      "step": 57297
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5262341499328613,
      "learning_rate": 0.000176170337975595,
      "loss": 1.4713,
      "step": 57298
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5793225169181824,
      "learning_rate": 0.00017616081787306335,
      "loss": 1.5757,
      "step": 57299
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5779737830162048,
      "learning_rate": 0.00017615129792085442,
      "loss": 1.5398,
      "step": 57300
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.517566978931427,
      "learning_rate": 0.00017614177811897937,
      "loss": 1.5141,
      "step": 57301
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5799560546875,
      "learning_rate": 0.00017613225846745004,
      "loss": 1.6084,
      "step": 57302
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5488492846488953,
      "learning_rate": 0.0001761227389662779,
      "loss": 1.5827,
      "step": 57303
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5745790600776672,
      "learning_rate": 0.00017611321961547447,
      "loss": 1.5194,
      "step": 57304
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5527428984642029,
      "learning_rate": 0.00017610370041505136,
      "loss": 1.5685,
      "step": 57305
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5582360625267029,
      "learning_rate": 0.00017609418136502013,
      "loss": 1.5965,
      "step": 57306
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5596510171890259,
      "learning_rate": 0.00017608466246539227,
      "loss": 1.5892,
      "step": 57307
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5502724647521973,
      "learning_rate": 0.0001760751437161793,
      "loss": 1.5088,
      "step": 57308
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5455576181411743,
      "learning_rate": 0.0001760656251173929,
      "loss": 1.6189,
      "step": 57309
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5495327711105347,
      "learning_rate": 0.00017605610666904462,
      "loss": 1.6024,
      "step": 57310
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5844669938087463,
      "learning_rate": 0.00017604658837114595,
      "loss": 1.5402,
      "step": 57311
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5566207766532898,
      "learning_rate": 0.00017603707022370842,
      "loss": 1.579,
      "step": 57312
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5590172410011292,
      "learning_rate": 0.0001760275522267437,
      "loss": 1.5345,
      "step": 57313
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5591729283332825,
      "learning_rate": 0.0001760180343802632,
      "loss": 1.5838,
      "step": 57314
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5810906887054443,
      "learning_rate": 0.00017600851668427846,
      "loss": 1.534,
      "step": 57315
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.563499927520752,
      "learning_rate": 0.00017599899913880133,
      "loss": 1.5243,
      "step": 57316
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5440109968185425,
      "learning_rate": 0.00017598948174384294,
      "loss": 1.5387,
      "step": 57317
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5468994379043579,
      "learning_rate": 0.0001759799644994151,
      "loss": 1.5742,
      "step": 57318
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5994780659675598,
      "learning_rate": 0.0001759704474055293,
      "loss": 1.5893,
      "step": 57319
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5319060683250427,
      "learning_rate": 0.00017596093046219722,
      "loss": 1.5462,
      "step": 57320
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5505895614624023,
      "learning_rate": 0.00017595141366943018,
      "loss": 1.6347,
      "step": 57321
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5551341772079468,
      "learning_rate": 0.00017594189702723978,
      "loss": 1.6605,
      "step": 57322
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5699742436408997,
      "learning_rate": 0.00017593238053563787,
      "loss": 1.6245,
      "step": 57323
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5666218400001526,
      "learning_rate": 0.00017592286419463552,
      "loss": 1.5422,
      "step": 57324
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5648308992385864,
      "learning_rate": 0.00017591334800424462,
      "loss": 1.6068,
      "step": 57325
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5771393775939941,
      "learning_rate": 0.00017590383196447673,
      "loss": 1.555,
      "step": 57326
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5227652192115784,
      "learning_rate": 0.00017589431607534323,
      "loss": 1.568,
      "step": 57327
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5838573575019836,
      "learning_rate": 0.00017588480033685572,
      "loss": 1.5588,
      "step": 57328
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5281649231910706,
      "learning_rate": 0.00017587528474902572,
      "loss": 1.5791,
      "step": 57329
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5629652142524719,
      "learning_rate": 0.000175865769311865,
      "loss": 1.4893,
      "step": 57330
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5599226951599121,
      "learning_rate": 0.0001758562540253848,
      "loss": 1.5172,
      "step": 57331
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5730236172676086,
      "learning_rate": 0.00017584673888959687,
      "loss": 1.6374,
      "step": 57332
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.130915880203247,
      "learning_rate": 0.00017583722390451275,
      "loss": 1.6013,
      "step": 57333
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5853935480117798,
      "learning_rate": 0.00017582770907014392,
      "loss": 1.519,
      "step": 57334
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5650906562805176,
      "learning_rate": 0.00017581819438650188,
      "loss": 1.6088,
      "step": 57335
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5623224377632141,
      "learning_rate": 0.00017580867985359837,
      "loss": 1.5696,
      "step": 57336
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.586239218711853,
      "learning_rate": 0.00017579916547144474,
      "loss": 1.5933,
      "step": 57337
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5500070452690125,
      "learning_rate": 0.00017578965124005261,
      "loss": 1.61,
      "step": 57338
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5799254775047302,
      "learning_rate": 0.00017578013715943355,
      "loss": 1.5482,
      "step": 57339
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5665649771690369,
      "learning_rate": 0.0001757706232295992,
      "loss": 1.6048,
      "step": 57340
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5744898915290833,
      "learning_rate": 0.00017576110945056095,
      "loss": 1.616,
      "step": 57341
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.558040201663971,
      "learning_rate": 0.00017575159582233036,
      "loss": 1.5397,
      "step": 57342
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.57198566198349,
      "learning_rate": 0.0001757420823449191,
      "loss": 1.6002,
      "step": 57343
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5517875552177429,
      "learning_rate": 0.0001757325690183386,
      "loss": 1.6045,
      "step": 57344
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5688988566398621,
      "learning_rate": 0.00017572305584260043,
      "loss": 1.5488,
      "step": 57345
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.0910662412643433,
      "learning_rate": 0.0001757135428177162,
      "loss": 1.5804,
      "step": 57346
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5657437443733215,
      "learning_rate": 0.00017570402994369742,
      "loss": 1.6215,
      "step": 57347
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5760942101478577,
      "learning_rate": 0.00017569451722055559,
      "loss": 1.5676,
      "step": 57348
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5699284672737122,
      "learning_rate": 0.00017568500464830233,
      "loss": 1.6014,
      "step": 57349
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.573322594165802,
      "learning_rate": 0.0001756754922269492,
      "loss": 1.5901,
      "step": 57350
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5633450150489807,
      "learning_rate": 0.00017566597995650766,
      "loss": 1.5938,
      "step": 57351
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5513582229614258,
      "learning_rate": 0.0001756564678369892,
      "loss": 1.5657,
      "step": 57352
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5724834203720093,
      "learning_rate": 0.00017564695586840562,
      "loss": 1.5722,
      "step": 57353
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5906712412834167,
      "learning_rate": 0.00017563744405076827,
      "loss": 1.5744,
      "step": 57354
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5695323944091797,
      "learning_rate": 0.00017562793238408872,
      "loss": 1.5909,
      "step": 57355
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5544352531433105,
      "learning_rate": 0.00017561842086837858,
      "loss": 1.6062,
      "step": 57356
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5449343919754028,
      "learning_rate": 0.00017560890950364932,
      "loss": 1.4959,
      "step": 57357
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.574147641658783,
      "learning_rate": 0.00017559939828991247,
      "loss": 1.6277,
      "step": 57358
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5875327587127686,
      "learning_rate": 0.0001755898872271796,
      "loss": 1.5354,
      "step": 57359
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5837678909301758,
      "learning_rate": 0.00017558037631546243,
      "loss": 1.5818,
      "step": 57360
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5701013207435608,
      "learning_rate": 0.00017557086555477223,
      "loss": 1.5256,
      "step": 57361
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5438013076782227,
      "learning_rate": 0.00017556135494512068,
      "loss": 1.5353,
      "step": 57362
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.545220136642456,
      "learning_rate": 0.00017555184448651934,
      "loss": 1.5588,
      "step": 57363
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5697325468063354,
      "learning_rate": 0.00017554233417897973,
      "loss": 1.5914,
      "step": 57364
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.571448028087616,
      "learning_rate": 0.00017553282402251328,
      "loss": 1.5747,
      "step": 57365
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.584756076335907,
      "learning_rate": 0.00017552331401713182,
      "loss": 1.6229,
      "step": 57366
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5760951638221741,
      "learning_rate": 0.00017551380416284658,
      "loss": 1.579,
      "step": 57367
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.2190495729446411,
      "learning_rate": 0.00017550429445966926,
      "loss": 1.6503,
      "step": 57368
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5563271045684814,
      "learning_rate": 0.0001754947849076114,
      "loss": 1.549,
      "step": 57369
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5615653395652771,
      "learning_rate": 0.0001754852755066846,
      "loss": 1.6101,
      "step": 57370
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5452306270599365,
      "learning_rate": 0.00017547576625690024,
      "loss": 1.56,
      "step": 57371
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5601091980934143,
      "learning_rate": 0.0001754662571582699,
      "loss": 1.6308,
      "step": 57372
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5842722058296204,
      "learning_rate": 0.00017545674821080537,
      "loss": 1.5644,
      "step": 57373
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5637181997299194,
      "learning_rate": 0.00017544723941451777,
      "loss": 1.6001,
      "step": 57374
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5475955605506897,
      "learning_rate": 0.000175437730769419,
      "loss": 1.5586,
      "step": 57375
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5493736267089844,
      "learning_rate": 0.0001754282222755205,
      "loss": 1.5906,
      "step": 57376
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5475932359695435,
      "learning_rate": 0.0001754187139328337,
      "loss": 1.5742,
      "step": 57377
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5456652045249939,
      "learning_rate": 0.00017540920574137024,
      "loss": 1.536,
      "step": 57378
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.558736264705658,
      "learning_rate": 0.00017539969770114156,
      "loss": 1.5511,
      "step": 57379
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5758908987045288,
      "learning_rate": 0.00017539018981215952,
      "loss": 1.5794,
      "step": 57380
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5532328486442566,
      "learning_rate": 0.00017538068207443525,
      "loss": 1.6113,
      "step": 57381
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5567589402198792,
      "learning_rate": 0.0001753711744879805,
      "loss": 1.5317,
      "step": 57382
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5650054216384888,
      "learning_rate": 0.00017536166705280686,
      "loss": 1.5305,
      "step": 57383
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5694624185562134,
      "learning_rate": 0.0001753521597689257,
      "loss": 1.6069,
      "step": 57384
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5637739896774292,
      "learning_rate": 0.0001753426526363487,
      "loss": 1.5576,
      "step": 57385
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5408003926277161,
      "learning_rate": 0.00017533314565508737,
      "loss": 1.5505,
      "step": 57386
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5806009769439697,
      "learning_rate": 0.0001753236388251532,
      "loss": 1.6366,
      "step": 57387
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5578646063804626,
      "learning_rate": 0.00017531413214655765,
      "loss": 1.5674,
      "step": 57388
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5624604821205139,
      "learning_rate": 0.0001753046256193125,
      "loss": 1.5822,
      "step": 57389
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.568453848361969,
      "learning_rate": 0.00017529511924342919,
      "loss": 1.563,
      "step": 57390
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5613383054733276,
      "learning_rate": 0.0001752856130189192,
      "loss": 1.5478,
      "step": 57391
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5533728003501892,
      "learning_rate": 0.00017527610694579405,
      "loss": 1.6002,
      "step": 57392
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.9645018577575684,
      "learning_rate": 0.00017526660102406544,
      "loss": 1.7182,
      "step": 57393
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5711756348609924,
      "learning_rate": 0.00017525709525374468,
      "loss": 1.5523,
      "step": 57394
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5744228363037109,
      "learning_rate": 0.0001752475896348434,
      "loss": 1.6647,
      "step": 57395
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5662415623664856,
      "learning_rate": 0.00017523808416737333,
      "loss": 1.5949,
      "step": 57396
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5565735697746277,
      "learning_rate": 0.0001752285788513457,
      "loss": 1.5713,
      "step": 57397
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5376519560813904,
      "learning_rate": 0.0001752190736867722,
      "loss": 1.5152,
      "step": 57398
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5510410666465759,
      "learning_rate": 0.0001752095686736644,
      "loss": 1.5667,
      "step": 57399
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5684988498687744,
      "learning_rate": 0.00017520006381203384,
      "loss": 1.6038,
      "step": 57400
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5692064166069031,
      "learning_rate": 0.00017519055910189194,
      "loss": 1.6138,
      "step": 57401
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5571170449256897,
      "learning_rate": 0.00017518105454325026,
      "loss": 1.567,
      "step": 57402
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5321065187454224,
      "learning_rate": 0.0001751715501361206,
      "loss": 1.568,
      "step": 57403
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5695352554321289,
      "learning_rate": 0.00017516204588051407,
      "loss": 1.6312,
      "step": 57404
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5552563667297363,
      "learning_rate": 0.0001751525417764425,
      "loss": 1.5402,
      "step": 57405
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5305588245391846,
      "learning_rate": 0.0001751430378239173,
      "loss": 1.5512,
      "step": 57406
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5422546863555908,
      "learning_rate": 0.00017513353402295013,
      "loss": 1.5963,
      "step": 57407
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5389336347579956,
      "learning_rate": 0.0001751240303735525,
      "loss": 1.5921,
      "step": 57408
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5672743320465088,
      "learning_rate": 0.00017511452687573575,
      "loss": 1.539,
      "step": 57409
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5590643286705017,
      "learning_rate": 0.00017510502352951164,
      "loss": 1.5245,
      "step": 57410
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5620304942131042,
      "learning_rate": 0.00017509552033489169,
      "loss": 1.5672,
      "step": 57411
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5648477673530579,
      "learning_rate": 0.00017508601729188724,
      "loss": 1.6259,
      "step": 57412
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.54290372133255,
      "learning_rate": 0.00017507651440051012,
      "loss": 1.6245,
      "step": 57413
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5649563670158386,
      "learning_rate": 0.00017506701166077155,
      "loss": 1.6048,
      "step": 57414
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5612503290176392,
      "learning_rate": 0.00017505750907268334,
      "loss": 1.5478,
      "step": 57415
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.564562976360321,
      "learning_rate": 0.00017504800663625675,
      "loss": 1.5748,
      "step": 57416
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5724650025367737,
      "learning_rate": 0.00017503850435150365,
      "loss": 1.6041,
      "step": 57417
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5579938292503357,
      "learning_rate": 0.00017502900221843536,
      "loss": 1.561,
      "step": 57418
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5511038899421692,
      "learning_rate": 0.00017501950023706333,
      "loss": 1.6147,
      "step": 57419
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5419788956642151,
      "learning_rate": 0.00017500999840739935,
      "loss": 1.5553,
      "step": 57420
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5610052347183228,
      "learning_rate": 0.00017500049672945466,
      "loss": 1.6146,
      "step": 57421
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5472702383995056,
      "learning_rate": 0.0001749909952032411,
      "loss": 1.5313,
      "step": 57422
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5677176117897034,
      "learning_rate": 0.00017498149382877006,
      "loss": 1.5635,
      "step": 57423
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5516772866249084,
      "learning_rate": 0.00017497199260605294,
      "loss": 1.5846,
      "step": 57424
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5586169362068176,
      "learning_rate": 0.00017496249153510146,
      "loss": 1.5557,
      "step": 57425
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5415014028549194,
      "learning_rate": 0.00017495299061592704,
      "loss": 1.5024,
      "step": 57426
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5573950409889221,
      "learning_rate": 0.00017494348984854136,
      "loss": 1.6293,
      "step": 57427
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5630728006362915,
      "learning_rate": 0.00017493398923295575,
      "loss": 1.5549,
      "step": 57428
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5406531691551208,
      "learning_rate": 0.00017492448876918191,
      "loss": 1.6077,
      "step": 57429
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5440040230751038,
      "learning_rate": 0.0001749149884572314,
      "loss": 1.4345,
      "step": 57430
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5557820200920105,
      "learning_rate": 0.0001749054882971155,
      "loss": 1.5824,
      "step": 57431
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5215930342674255,
      "learning_rate": 0.00017489598828884602,
      "loss": 1.4797,
      "step": 57432
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5473962426185608,
      "learning_rate": 0.00017488648843243438,
      "loss": 1.5464,
      "step": 57433
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5646212697029114,
      "learning_rate": 0.000174876988727892,
      "loss": 1.5565,
      "step": 57434
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.558393120765686,
      "learning_rate": 0.00017486748917523053,
      "loss": 1.5355,
      "step": 57435
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5893219113349915,
      "learning_rate": 0.0001748579897744616,
      "loss": 1.5254,
      "step": 57436
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5580185651779175,
      "learning_rate": 0.00017484849052559664,
      "loss": 1.5815,
      "step": 57437
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5852872133255005,
      "learning_rate": 0.00017483899142864702,
      "loss": 1.6509,
      "step": 57438
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5468446016311646,
      "learning_rate": 0.00017482949248362456,
      "loss": 1.6019,
      "step": 57439
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5494681000709534,
      "learning_rate": 0.00017481999369054065,
      "loss": 1.6366,
      "step": 57440
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5772123336791992,
      "learning_rate": 0.00017481049504940673,
      "loss": 1.5171,
      "step": 57441
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5731856822967529,
      "learning_rate": 0.0001748009965602344,
      "loss": 1.5651,
      "step": 57442
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.540080726146698,
      "learning_rate": 0.00017479149822303546,
      "loss": 1.5608,
      "step": 57443
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5413389801979065,
      "learning_rate": 0.00017478200003782094,
      "loss": 1.5685,
      "step": 57444
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5579720139503479,
      "learning_rate": 0.00017477250200460261,
      "loss": 1.576,
      "step": 57445
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5472639799118042,
      "learning_rate": 0.00017476300412339217,
      "loss": 1.5728,
      "step": 57446
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5714563131332397,
      "learning_rate": 0.00017475350639420097,
      "loss": 1.5289,
      "step": 57447
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5397091507911682,
      "learning_rate": 0.00017474400881704045,
      "loss": 1.5343,
      "step": 57448
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5522893667221069,
      "learning_rate": 0.00017473451139192223,
      "loss": 1.5852,
      "step": 57449
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5554101467132568,
      "learning_rate": 0.0001747250141188581,
      "loss": 1.6077,
      "step": 57450
    },
    {
      "epoch": 1.91,
      "grad_norm": 1.1327565908432007,
      "learning_rate": 0.00017471551699785908,
      "loss": 1.5941,
      "step": 57451
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5704087615013123,
      "learning_rate": 0.000174706020028937,
      "loss": 1.5317,
      "step": 57452
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5694072842597961,
      "learning_rate": 0.00017469652321210348,
      "loss": 1.5119,
      "step": 57453
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5287573933601379,
      "learning_rate": 0.00017468702654736988,
      "loss": 1.478,
      "step": 57454
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5620441436767578,
      "learning_rate": 0.00017467753003474768,
      "loss": 1.5607,
      "step": 57455
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5454757213592529,
      "learning_rate": 0.00017466803367424848,
      "loss": 1.597,
      "step": 57456
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5494114756584167,
      "learning_rate": 0.00017465853746588406,
      "loss": 1.548,
      "step": 57457
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5777698159217834,
      "learning_rate": 0.0001746490414096655,
      "loss": 1.588,
      "step": 57458
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5543869137763977,
      "learning_rate": 0.00017463954550560448,
      "loss": 1.5402,
      "step": 57459
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5605089068412781,
      "learning_rate": 0.00017463004975371268,
      "loss": 1.6121,
      "step": 57460
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6524515748023987,
      "learning_rate": 0.00017462055415400158,
      "loss": 1.6236,
      "step": 57461
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5362786650657654,
      "learning_rate": 0.00017461105870648255,
      "loss": 1.5535,
      "step": 57462
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5593595504760742,
      "learning_rate": 0.0001746015634111673,
      "loss": 1.5794,
      "step": 57463
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5637691020965576,
      "learning_rate": 0.00017459206826806728,
      "loss": 1.6426,
      "step": 57464
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.563723623752594,
      "learning_rate": 0.0001745825732771939,
      "loss": 1.5782,
      "step": 57465
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5677158832550049,
      "learning_rate": 0.00017457307843855881,
      "loss": 1.6027,
      "step": 57466
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5707105398178101,
      "learning_rate": 0.00017456358375217364,
      "loss": 1.4709,
      "step": 57467
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.561630368232727,
      "learning_rate": 0.00017455408921804975,
      "loss": 1.5908,
      "step": 57468
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.552000880241394,
      "learning_rate": 0.00017454459483619864,
      "loss": 1.5195,
      "step": 57469
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5443490147590637,
      "learning_rate": 0.00017453510060663202,
      "loss": 1.5869,
      "step": 57470
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5714505314826965,
      "learning_rate": 0.0001745256065293613,
      "loss": 1.6701,
      "step": 57471
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5547327399253845,
      "learning_rate": 0.00017451611260439786,
      "loss": 1.5525,
      "step": 57472
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5555099844932556,
      "learning_rate": 0.0001745066188317535,
      "loss": 1.5561,
      "step": 57473
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5539398193359375,
      "learning_rate": 0.00017449712521143952,
      "loss": 1.5831,
      "step": 57474
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5615178942680359,
      "learning_rate": 0.00017448763174346765,
      "loss": 1.599,
      "step": 57475
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5580056309700012,
      "learning_rate": 0.00017447813842784915,
      "loss": 1.5275,
      "step": 57476
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5475816130638123,
      "learning_rate": 0.00017446864526459582,
      "loss": 1.5971,
      "step": 57477
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5967261791229248,
      "learning_rate": 0.00017445915225371912,
      "loss": 1.6254,
      "step": 57478
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5584975481033325,
      "learning_rate": 0.00017444965939523034,
      "loss": 1.5888,
      "step": 57479
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5774227976799011,
      "learning_rate": 0.00017444016668914132,
      "loss": 1.5128,
      "step": 57480
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5458494424819946,
      "learning_rate": 0.00017443067413546327,
      "loss": 1.6222,
      "step": 57481
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.552782416343689,
      "learning_rate": 0.00017442118173420805,
      "loss": 1.5662,
      "step": 57482
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5572966933250427,
      "learning_rate": 0.000174411689485387,
      "loss": 1.5658,
      "step": 57483
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5627931952476501,
      "learning_rate": 0.0001744021973890115,
      "loss": 1.5331,
      "step": 57484
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5628848671913147,
      "learning_rate": 0.0001743927054450934,
      "loss": 1.6555,
      "step": 57485
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5728085041046143,
      "learning_rate": 0.0001743832136536439,
      "loss": 1.5699,
      "step": 57486
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5594679117202759,
      "learning_rate": 0.00017437372201467477,
      "loss": 1.591,
      "step": 57487
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5676792860031128,
      "learning_rate": 0.00017436423052819732,
      "loss": 1.4974,
      "step": 57488
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5335371494293213,
      "learning_rate": 0.00017435473919422335,
      "loss": 1.4995,
      "step": 57489
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5739439129829407,
      "learning_rate": 0.0001743452480127642,
      "loss": 1.564,
      "step": 57490
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5475987792015076,
      "learning_rate": 0.0001743357569838312,
      "loss": 1.6118,
      "step": 57491
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5490047931671143,
      "learning_rate": 0.0001743262661074363,
      "loss": 1.5147,
      "step": 57492
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.560354471206665,
      "learning_rate": 0.00017431677538359074,
      "loss": 1.5496,
      "step": 57493
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5708411931991577,
      "learning_rate": 0.00017430728481230602,
      "loss": 1.5726,
      "step": 57494
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5614114999771118,
      "learning_rate": 0.0001742977943935937,
      "loss": 1.5209,
      "step": 57495
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5698764324188232,
      "learning_rate": 0.00017428830412746544,
      "loss": 1.5482,
      "step": 57496
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5449321269989014,
      "learning_rate": 0.0001742788140139327,
      "loss": 1.5245,
      "step": 57497
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.563444972038269,
      "learning_rate": 0.0001742693240530068,
      "loss": 1.5234,
      "step": 57498
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5365214347839355,
      "learning_rate": 0.00017425983424469957,
      "loss": 1.5464,
      "step": 57499
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5556362867355347,
      "learning_rate": 0.00017425034458902236,
      "loss": 1.5571,
      "step": 57500
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5686779022216797,
      "learning_rate": 0.00017424085508598657,
      "loss": 1.4951,
      "step": 57501
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.566093921661377,
      "learning_rate": 0.00017423136573560386,
      "loss": 1.6297,
      "step": 57502
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5701086521148682,
      "learning_rate": 0.000174221876537886,
      "loss": 1.53,
      "step": 57503
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.554865300655365,
      "learning_rate": 0.00017421238749284397,
      "loss": 1.6194,
      "step": 57504
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5596784353256226,
      "learning_rate": 0.00017420289860048957,
      "loss": 1.6402,
      "step": 57505
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5571629405021667,
      "learning_rate": 0.00017419340986083448,
      "loss": 1.5595,
      "step": 57506
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5693472027778625,
      "learning_rate": 0.00017418392127389,
      "loss": 1.5973,
      "step": 57507
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5627482533454895,
      "learning_rate": 0.00017417443283966762,
      "loss": 1.5518,
      "step": 57508
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5633463263511658,
      "learning_rate": 0.00017416494455817894,
      "loss": 1.4939,
      "step": 57509
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5665555596351624,
      "learning_rate": 0.0001741554564294357,
      "loss": 1.5841,
      "step": 57510
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5152068734169006,
      "learning_rate": 0.00017414596845344895,
      "loss": 1.5507,
      "step": 57511
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5633789300918579,
      "learning_rate": 0.00017413648063023044,
      "loss": 1.5752,
      "step": 57512
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.552431583404541,
      "learning_rate": 0.00017412699295979184,
      "loss": 1.5899,
      "step": 57513
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5587448477745056,
      "learning_rate": 0.00017411750544214455,
      "loss": 1.6004,
      "step": 57514
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5345301628112793,
      "learning_rate": 0.0001741080180772999,
      "loss": 1.528,
      "step": 57515
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5559800863265991,
      "learning_rate": 0.0001740985308652696,
      "loss": 1.5714,
      "step": 57516
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5504338145256042,
      "learning_rate": 0.00017408904380606532,
      "loss": 1.5891,
      "step": 57517
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5513085722923279,
      "learning_rate": 0.00017407955689969818,
      "loss": 1.5538,
      "step": 57518
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5790232419967651,
      "learning_rate": 0.00017407007014617993,
      "loss": 1.5786,
      "step": 57519
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.546389102935791,
      "learning_rate": 0.00017406058354552215,
      "loss": 1.538,
      "step": 57520
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5581780076026917,
      "learning_rate": 0.00017405109709773625,
      "loss": 1.5136,
      "step": 57521
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5631831884384155,
      "learning_rate": 0.00017404161080283365,
      "loss": 1.5727,
      "step": 57522
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5548412203788757,
      "learning_rate": 0.0001740321246608261,
      "loss": 1.5785,
      "step": 57523
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5504897236824036,
      "learning_rate": 0.0001740226386717249,
      "loss": 1.539,
      "step": 57524
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5518831014633179,
      "learning_rate": 0.00017401315283554174,
      "loss": 1.5073,
      "step": 57525
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.576472818851471,
      "learning_rate": 0.00017400366715228794,
      "loss": 1.5671,
      "step": 57526
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5484566688537598,
      "learning_rate": 0.00017399418162197523,
      "loss": 1.5532,
      "step": 57527
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5656742453575134,
      "learning_rate": 0.00017398469624461507,
      "loss": 1.4964,
      "step": 57528
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.561702311038971,
      "learning_rate": 0.00017397521102021873,
      "loss": 1.4926,
      "step": 57529
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.554907500743866,
      "learning_rate": 0.00017396572594879806,
      "loss": 1.5197,
      "step": 57530
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5401906371116638,
      "learning_rate": 0.00017395624103036433,
      "loss": 1.5217,
      "step": 57531
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5524680614471436,
      "learning_rate": 0.00017394675626492928,
      "loss": 1.5751,
      "step": 57532
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.565231442451477,
      "learning_rate": 0.0001739372716525041,
      "loss": 1.5807,
      "step": 57533
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5622479319572449,
      "learning_rate": 0.0001739277871931007,
      "loss": 1.5704,
      "step": 57534
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5721876621246338,
      "learning_rate": 0.00017391830288673036,
      "loss": 1.6783,
      "step": 57535
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5391625761985779,
      "learning_rate": 0.00017390881873340447,
      "loss": 1.6494,
      "step": 57536
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6005779504776001,
      "learning_rate": 0.00017389933473313486,
      "loss": 1.6139,
      "step": 57537
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6091373562812805,
      "learning_rate": 0.00017388985088593272,
      "loss": 1.6122,
      "step": 57538
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5555375218391418,
      "learning_rate": 0.0001738803671918099,
      "loss": 1.5786,
      "step": 57539
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5380367040634155,
      "learning_rate": 0.0001738708836507777,
      "loss": 1.635,
      "step": 57540
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5623420476913452,
      "learning_rate": 0.00017386140026284753,
      "loss": 1.6023,
      "step": 57541
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5626318454742432,
      "learning_rate": 0.00017385191702803113,
      "loss": 1.5137,
      "step": 57542
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5642783641815186,
      "learning_rate": 0.00017384243394633983,
      "loss": 1.523,
      "step": 57543
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6092987656593323,
      "learning_rate": 0.00017383295101778537,
      "loss": 1.6345,
      "step": 57544
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5521842241287231,
      "learning_rate": 0.00017382346824237899,
      "loss": 1.5488,
      "step": 57545
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5542178153991699,
      "learning_rate": 0.00017381398562013242,
      "loss": 1.5397,
      "step": 57546
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5750017762184143,
      "learning_rate": 0.00017380450315105706,
      "loss": 1.5996,
      "step": 57547
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.580461859703064,
      "learning_rate": 0.00017379502083516438,
      "loss": 1.5124,
      "step": 57548
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5812315940856934,
      "learning_rate": 0.00017378553867246604,
      "loss": 1.5721,
      "step": 57549
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5722826719284058,
      "learning_rate": 0.00017377605666297344,
      "loss": 1.6191,
      "step": 57550
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5617059469223022,
      "learning_rate": 0.000173766574806698,
      "loss": 1.5733,
      "step": 57551
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5645890831947327,
      "learning_rate": 0.00017375709310365136,
      "loss": 1.5245,
      "step": 57552
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5647902488708496,
      "learning_rate": 0.0001737476115538451,
      "loss": 1.5895,
      "step": 57553
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5709482431411743,
      "learning_rate": 0.00017373813015729068,
      "loss": 1.716,
      "step": 57554
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5544083118438721,
      "learning_rate": 0.0001737286489139994,
      "loss": 1.5601,
      "step": 57555
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5338892340660095,
      "learning_rate": 0.00017371916782398309,
      "loss": 1.5567,
      "step": 57556
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5527969002723694,
      "learning_rate": 0.00017370968688725308,
      "loss": 1.5512,
      "step": 57557
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.554390013217926,
      "learning_rate": 0.00017370020610382077,
      "loss": 1.5622,
      "step": 57558
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5701031684875488,
      "learning_rate": 0.00017369072547369782,
      "loss": 1.6447,
      "step": 57559
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5561085343360901,
      "learning_rate": 0.00017368124499689595,
      "loss": 1.4975,
      "step": 57560
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5445232391357422,
      "learning_rate": 0.00017367176467342622,
      "loss": 1.6358,
      "step": 57561
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6339213252067566,
      "learning_rate": 0.0001736622845033003,
      "loss": 1.6183,
      "step": 57562
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5479097366333008,
      "learning_rate": 0.0001736528044865299,
      "loss": 1.5856,
      "step": 57563
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5795397162437439,
      "learning_rate": 0.00017364332462312644,
      "loss": 1.5564,
      "step": 57564
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5386107563972473,
      "learning_rate": 0.00017363384491310118,
      "loss": 1.6047,
      "step": 57565
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5529056191444397,
      "learning_rate": 0.00017362436535646583,
      "loss": 1.5386,
      "step": 57566
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5532405972480774,
      "learning_rate": 0.00017361488595323213,
      "loss": 1.5544,
      "step": 57567
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5785709619522095,
      "learning_rate": 0.00017360540670341106,
      "loss": 1.5656,
      "step": 57568
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.584617555141449,
      "learning_rate": 0.00017359592760701441,
      "loss": 1.566,
      "step": 57569
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5814701914787292,
      "learning_rate": 0.00017358644866405384,
      "loss": 1.6372,
      "step": 57570
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5474665760993958,
      "learning_rate": 0.00017357696987454067,
      "loss": 1.4891,
      "step": 57571
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5593717694282532,
      "learning_rate": 0.00017356749123848632,
      "loss": 1.6263,
      "step": 57572
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5632337331771851,
      "learning_rate": 0.00017355801275590238,
      "loss": 1.6002,
      "step": 57573
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5742127299308777,
      "learning_rate": 0.00017354853442680065,
      "loss": 1.5381,
      "step": 57574
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5694247484207153,
      "learning_rate": 0.00017353905625119208,
      "loss": 1.5622,
      "step": 57575
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5533012747764587,
      "learning_rate": 0.00017352957822908854,
      "loss": 1.5711,
      "step": 57576
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5828152894973755,
      "learning_rate": 0.00017352010036050154,
      "loss": 1.5182,
      "step": 57577
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5681349039077759,
      "learning_rate": 0.00017351062264544246,
      "loss": 1.6762,
      "step": 57578
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5949297547340393,
      "learning_rate": 0.0001735011450839228,
      "loss": 1.5497,
      "step": 57579
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5650720596313477,
      "learning_rate": 0.0001734916676759542,
      "loss": 1.6278,
      "step": 57580
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5426855683326721,
      "learning_rate": 0.00017348219042154808,
      "loss": 1.4962,
      "step": 57581
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5683115720748901,
      "learning_rate": 0.00017347271332071582,
      "loss": 1.5156,
      "step": 57582
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5635446310043335,
      "learning_rate": 0.000173463236373469,
      "loss": 1.5625,
      "step": 57583
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5638605952262878,
      "learning_rate": 0.00017345375957981933,
      "loss": 1.5362,
      "step": 57584
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5701017379760742,
      "learning_rate": 0.00017344428293977816,
      "loss": 1.5993,
      "step": 57585
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.568945586681366,
      "learning_rate": 0.00017343480645335685,
      "loss": 1.6003,
      "step": 57586
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5633245706558228,
      "learning_rate": 0.0001734253301205671,
      "loss": 1.5538,
      "step": 57587
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5427907109260559,
      "learning_rate": 0.0001734158539414204,
      "loss": 1.4995,
      "step": 57588
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5696889758110046,
      "learning_rate": 0.00017340637791592812,
      "loss": 1.5418,
      "step": 57589
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5653735995292664,
      "learning_rate": 0.00017339690204410193,
      "loss": 1.6184,
      "step": 57590
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5710064172744751,
      "learning_rate": 0.00017338742632595314,
      "loss": 1.5444,
      "step": 57591
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5413842797279358,
      "learning_rate": 0.00017337795076149346,
      "loss": 1.5203,
      "step": 57592
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5540258884429932,
      "learning_rate": 0.00017336847535073417,
      "loss": 1.5576,
      "step": 57593
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5434266328811646,
      "learning_rate": 0.00017335900009368699,
      "loss": 1.6045,
      "step": 57594
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5420938730239868,
      "learning_rate": 0.00017334952499036338,
      "loss": 1.6115,
      "step": 57595
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5605584383010864,
      "learning_rate": 0.0001733400500407746,
      "loss": 1.5615,
      "step": 57596
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5549995303153992,
      "learning_rate": 0.0001733305752449325,
      "loss": 1.5008,
      "step": 57597
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5580323934555054,
      "learning_rate": 0.0001733211006028483,
      "loss": 1.5839,
      "step": 57598
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5560052394866943,
      "learning_rate": 0.00017331162611453375,
      "loss": 1.5462,
      "step": 57599
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5295224785804749,
      "learning_rate": 0.0001733021517800002,
      "loss": 1.5768,
      "step": 57600
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5607304573059082,
      "learning_rate": 0.00017329267759925903,
      "loss": 1.5349,
      "step": 57601
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.543750524520874,
      "learning_rate": 0.00017328320357232205,
      "loss": 1.5696,
      "step": 57602
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5564145445823669,
      "learning_rate": 0.00017327372969920044,
      "loss": 1.6393,
      "step": 57603
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5944246649742126,
      "learning_rate": 0.00017326425597990596,
      "loss": 1.5459,
      "step": 57604
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5596078634262085,
      "learning_rate": 0.00017325478241444987,
      "loss": 1.5998,
      "step": 57605
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5566087961196899,
      "learning_rate": 0.00017324530900284397,
      "loss": 1.5693,
      "step": 57606
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5628126859664917,
      "learning_rate": 0.00017323583574509953,
      "loss": 1.6164,
      "step": 57607
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5631585121154785,
      "learning_rate": 0.000173226362641228,
      "loss": 1.6015,
      "step": 57608
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5916189551353455,
      "learning_rate": 0.00017321688969124113,
      "loss": 1.5882,
      "step": 57609
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5867422223091125,
      "learning_rate": 0.00017320741689515027,
      "loss": 1.5487,
      "step": 57610
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5739960670471191,
      "learning_rate": 0.00017319794425296682,
      "loss": 1.5697,
      "step": 57611
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.577290952205658,
      "learning_rate": 0.00017318847176470232,
      "loss": 1.6433,
      "step": 57612
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5472554564476013,
      "learning_rate": 0.0001731789994303685,
      "loss": 1.5323,
      "step": 57613
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5502884387969971,
      "learning_rate": 0.0001731695272499767,
      "loss": 1.5553,
      "step": 57614
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5813712477684021,
      "learning_rate": 0.00017316005522353823,
      "loss": 1.6086,
      "step": 57615
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.599365234375,
      "learning_rate": 0.00017315058335106494,
      "loss": 1.5634,
      "step": 57616
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5738386511802673,
      "learning_rate": 0.00017314111163256815,
      "loss": 1.5817,
      "step": 57617
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5676560997962952,
      "learning_rate": 0.0001731316400680592,
      "loss": 1.5846,
      "step": 57618
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5494165420532227,
      "learning_rate": 0.00017312216865754979,
      "loss": 1.5904,
      "step": 57619
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5590651035308838,
      "learning_rate": 0.0001731126974010516,
      "loss": 1.5816,
      "step": 57620
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5371255874633789,
      "learning_rate": 0.00017310322629857564,
      "loss": 1.5616,
      "step": 57621
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5259227156639099,
      "learning_rate": 0.00017309375535013366,
      "loss": 1.6177,
      "step": 57622
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5599032044410706,
      "learning_rate": 0.00017308428455573732,
      "loss": 1.5765,
      "step": 57623
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5884869694709778,
      "learning_rate": 0.00017307481391539792,
      "loss": 1.549,
      "step": 57624
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5940319895744324,
      "learning_rate": 0.00017306534342912688,
      "loss": 1.6167,
      "step": 57625
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5603281855583191,
      "learning_rate": 0.00017305587309693582,
      "loss": 1.6276,
      "step": 57626
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5580299496650696,
      "learning_rate": 0.00017304640291883647,
      "loss": 1.55,
      "step": 57627
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5543946623802185,
      "learning_rate": 0.00017303693289483986,
      "loss": 1.5655,
      "step": 57628
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.563569188117981,
      "learning_rate": 0.00017302746302495767,
      "loss": 1.5178,
      "step": 57629
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5483670234680176,
      "learning_rate": 0.00017301799330920155,
      "loss": 1.6016,
      "step": 57630
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5608416795730591,
      "learning_rate": 0.0001730085237475829,
      "loss": 1.5586,
      "step": 57631
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5894048810005188,
      "learning_rate": 0.00017299905434011305,
      "loss": 1.6058,
      "step": 57632
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5717579126358032,
      "learning_rate": 0.00017298958508680365,
      "loss": 1.5298,
      "step": 57633
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5458808541297913,
      "learning_rate": 0.00017298011598766643,
      "loss": 1.5286,
      "step": 57634
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5498473048210144,
      "learning_rate": 0.0001729706470427124,
      "loss": 1.6002,
      "step": 57635
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5634965300559998,
      "learning_rate": 0.00017296117825195325,
      "loss": 1.5928,
      "step": 57636
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5585750937461853,
      "learning_rate": 0.00017295170961540064,
      "loss": 1.5378,
      "step": 57637
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.573430061340332,
      "learning_rate": 0.00017294224113306595,
      "loss": 1.5261,
      "step": 57638
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5808832049369812,
      "learning_rate": 0.00017293277280496053,
      "loss": 1.5023,
      "step": 57639
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5743229389190674,
      "learning_rate": 0.00017292330463109613,
      "loss": 1.6167,
      "step": 57640
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6010283827781677,
      "learning_rate": 0.00017291383661148396,
      "loss": 1.5592,
      "step": 57641
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5701045989990234,
      "learning_rate": 0.00017290436874613585,
      "loss": 1.5222,
      "step": 57642
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5640324950218201,
      "learning_rate": 0.00017289490103506293,
      "loss": 1.5664,
      "step": 57643
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.545478105545044,
      "learning_rate": 0.00017288543347827705,
      "loss": 1.5318,
      "step": 57644
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.568635106086731,
      "learning_rate": 0.00017287596607578948,
      "loss": 1.5459,
      "step": 57645
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5601337552070618,
      "learning_rate": 0.00017286649882761166,
      "loss": 1.564,
      "step": 57646
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5673787593841553,
      "learning_rate": 0.00017285703173375527,
      "loss": 1.5404,
      "step": 57647
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.558691143989563,
      "learning_rate": 0.0001728475647942316,
      "loss": 1.6014,
      "step": 57648
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6013389229774475,
      "learning_rate": 0.0001728380980090524,
      "loss": 1.5752,
      "step": 57649
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5908425450325012,
      "learning_rate": 0.0001728286313782288,
      "loss": 1.6462,
      "step": 57650
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5771194100379944,
      "learning_rate": 0.00017281916490177274,
      "loss": 1.6173,
      "step": 57651
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5469502210617065,
      "learning_rate": 0.00017280969857969542,
      "loss": 1.5302,
      "step": 57652
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5772390961647034,
      "learning_rate": 0.00017280023241200828,
      "loss": 1.6124,
      "step": 57653
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5802034139633179,
      "learning_rate": 0.00017279076639872303,
      "loss": 1.5985,
      "step": 57654
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5835036635398865,
      "learning_rate": 0.00017278130053985092,
      "loss": 1.5894,
      "step": 57655
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5615317225456238,
      "learning_rate": 0.0001727718348354037,
      "loss": 1.4832,
      "step": 57656
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5501344203948975,
      "learning_rate": 0.00017276236928539268,
      "loss": 1.5448,
      "step": 57657
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5569682717323303,
      "learning_rate": 0.00017275290388982933,
      "loss": 1.548,
      "step": 57658
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5634509325027466,
      "learning_rate": 0.0001727434386487253,
      "loss": 1.6342,
      "step": 57659
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5602031350135803,
      "learning_rate": 0.00017273397356209192,
      "loss": 1.5491,
      "step": 57660
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.577997624874115,
      "learning_rate": 0.0001727245086299408,
      "loss": 1.5089,
      "step": 57661
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5539757609367371,
      "learning_rate": 0.00017271504385228326,
      "loss": 1.5477,
      "step": 57662
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.588367760181427,
      "learning_rate": 0.00017270557922913104,
      "loss": 1.5994,
      "step": 57663
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5632640719413757,
      "learning_rate": 0.0001726961147604955,
      "loss": 1.612,
      "step": 57664
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5433381199836731,
      "learning_rate": 0.000172686650446388,
      "loss": 1.5484,
      "step": 57665
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5489751696586609,
      "learning_rate": 0.00017267718628682024,
      "loss": 1.5263,
      "step": 57666
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5452345609664917,
      "learning_rate": 0.00017266772228180364,
      "loss": 1.534,
      "step": 57667
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5810643434524536,
      "learning_rate": 0.00017265825843134952,
      "loss": 1.571,
      "step": 57668
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5370458364486694,
      "learning_rate": 0.0001726487947354695,
      "loss": 1.6051,
      "step": 57669
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5814285278320312,
      "learning_rate": 0.00017263933119417523,
      "loss": 1.5723,
      "step": 57670
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5308742523193359,
      "learning_rate": 0.00017262986780747802,
      "loss": 1.5233,
      "step": 57671
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5740821957588196,
      "learning_rate": 0.0001726204045753893,
      "loss": 1.5768,
      "step": 57672
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5562421083450317,
      "learning_rate": 0.0001726109414979207,
      "loss": 1.5722,
      "step": 57673
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5662316679954529,
      "learning_rate": 0.00017260147857508373,
      "loss": 1.5466,
      "step": 57674
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5813659429550171,
      "learning_rate": 0.00017259201580688963,
      "loss": 1.5006,
      "step": 57675
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5685805678367615,
      "learning_rate": 0.00017258255319335005,
      "loss": 1.5492,
      "step": 57676
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5381082892417908,
      "learning_rate": 0.0001725730907344767,
      "loss": 1.5837,
      "step": 57677
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5600852370262146,
      "learning_rate": 0.00017256362843028067,
      "loss": 1.5797,
      "step": 57678
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5664239525794983,
      "learning_rate": 0.00017255416628077355,
      "loss": 1.6179,
      "step": 57679
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5389648079872131,
      "learning_rate": 0.000172544704285967,
      "loss": 1.5349,
      "step": 57680
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5865379571914673,
      "learning_rate": 0.00017253524244587243,
      "loss": 1.5944,
      "step": 57681
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5624943375587463,
      "learning_rate": 0.00017252578076050118,
      "loss": 1.589,
      "step": 57682
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5519306063652039,
      "learning_rate": 0.00017251631922986487,
      "loss": 1.5809,
      "step": 57683
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5519033074378967,
      "learning_rate": 0.0001725068578539752,
      "loss": 1.5628,
      "step": 57684
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5613979697227478,
      "learning_rate": 0.00017249739663284313,
      "loss": 1.5697,
      "step": 57685
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5632519721984863,
      "learning_rate": 0.00017248793556648046,
      "loss": 1.6463,
      "step": 57686
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.581485390663147,
      "learning_rate": 0.00017247847465489882,
      "loss": 1.5153,
      "step": 57687
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5626707077026367,
      "learning_rate": 0.00017246901389810943,
      "loss": 1.6272,
      "step": 57688
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5586387515068054,
      "learning_rate": 0.0001724595532961238,
      "loss": 1.6508,
      "step": 57689
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5384808778762817,
      "learning_rate": 0.0001724500928489535,
      "loss": 1.5564,
      "step": 57690
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5536963939666748,
      "learning_rate": 0.0001724406325566102,
      "loss": 1.647,
      "step": 57691
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5687236785888672,
      "learning_rate": 0.00017243117241910492,
      "loss": 1.5925,
      "step": 57692
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5671088099479675,
      "learning_rate": 0.00017242171243644943,
      "loss": 1.5815,
      "step": 57693
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5558551549911499,
      "learning_rate": 0.0001724122526086553,
      "loss": 1.6259,
      "step": 57694
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5730668306350708,
      "learning_rate": 0.00017240279293573386,
      "loss": 1.5864,
      "step": 57695
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5631590485572815,
      "learning_rate": 0.0001723933334176966,
      "loss": 1.5492,
      "step": 57696
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5671481490135193,
      "learning_rate": 0.00017238387405455507,
      "loss": 1.5944,
      "step": 57697
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5939244627952576,
      "learning_rate": 0.00017237441484632075,
      "loss": 1.5207,
      "step": 57698
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5701021552085876,
      "learning_rate": 0.00017236495579300495,
      "loss": 1.5275,
      "step": 57699
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5461975336074829,
      "learning_rate": 0.00017235549689461927,
      "loss": 1.6074,
      "step": 57700
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5577389001846313,
      "learning_rate": 0.00017234603815117534,
      "loss": 1.5754,
      "step": 57701
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5585682392120361,
      "learning_rate": 0.00017233657956268453,
      "loss": 1.4852,
      "step": 57702
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5450329184532166,
      "learning_rate": 0.00017232712112915817,
      "loss": 1.5639,
      "step": 57703
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.57625812292099,
      "learning_rate": 0.00017231766285060796,
      "loss": 1.5647,
      "step": 57704
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5522785782814026,
      "learning_rate": 0.00017230820472704535,
      "loss": 1.576,
      "step": 57705
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.578948438167572,
      "learning_rate": 0.00017229874675848164,
      "loss": 1.5425,
      "step": 57706
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5830763578414917,
      "learning_rate": 0.00017228928894492853,
      "loss": 1.549,
      "step": 57707
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5762152075767517,
      "learning_rate": 0.0001722798312863973,
      "loss": 1.6225,
      "step": 57708
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5672355890274048,
      "learning_rate": 0.00017227037378289965,
      "loss": 1.5623,
      "step": 57709
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5540083050727844,
      "learning_rate": 0.00017226091643444684,
      "loss": 1.6143,
      "step": 57710
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5516572594642639,
      "learning_rate": 0.00017225145924105057,
      "loss": 1.6226,
      "step": 57711
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5548455715179443,
      "learning_rate": 0.00017224200220272218,
      "loss": 1.5154,
      "step": 57712
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5459115505218506,
      "learning_rate": 0.00017223254531947306,
      "loss": 1.5605,
      "step": 57713
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5463435053825378,
      "learning_rate": 0.00017222308859131497,
      "loss": 1.5759,
      "step": 57714
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5584587454795837,
      "learning_rate": 0.00017221363201825904,
      "loss": 1.5502,
      "step": 57715
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5523597598075867,
      "learning_rate": 0.00017220417560031713,
      "loss": 1.6164,
      "step": 57716
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5599928498268127,
      "learning_rate": 0.00017219471933750045,
      "loss": 1.4945,
      "step": 57717
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5469091534614563,
      "learning_rate": 0.00017218526322982045,
      "loss": 1.565,
      "step": 57718
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5782834887504578,
      "learning_rate": 0.00017217580727728885,
      "loss": 1.5864,
      "step": 57719
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5673820972442627,
      "learning_rate": 0.00017216635147991683,
      "loss": 1.6309,
      "step": 57720
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.579142689704895,
      "learning_rate": 0.00017215689583771618,
      "loss": 1.5934,
      "step": 57721
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5678503513336182,
      "learning_rate": 0.00017214744035069806,
      "loss": 1.5544,
      "step": 57722
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5545050501823425,
      "learning_rate": 0.00017213798501887427,
      "loss": 1.6165,
      "step": 57723
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.549796462059021,
      "learning_rate": 0.0001721285298422561,
      "loss": 1.5765,
      "step": 57724
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5555458664894104,
      "learning_rate": 0.00017211907482085495,
      "loss": 1.5471,
      "step": 57725
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.569988489151001,
      "learning_rate": 0.00017210961995468252,
      "loss": 1.5029,
      "step": 57726
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5610385537147522,
      "learning_rate": 0.00017210016524375017,
      "loss": 1.6186,
      "step": 57727
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5522794723510742,
      "learning_rate": 0.0001720907106880692,
      "loss": 1.5475,
      "step": 57728
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5460679531097412,
      "learning_rate": 0.00017208125628765132,
      "loss": 1.495,
      "step": 57729
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5746312141418457,
      "learning_rate": 0.00017207180204250808,
      "loss": 1.5363,
      "step": 57730
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5711200833320618,
      "learning_rate": 0.0001720623479526508,
      "loss": 1.6575,
      "step": 57731
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5543913245201111,
      "learning_rate": 0.00017205289401809085,
      "loss": 1.51,
      "step": 57732
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5552895665168762,
      "learning_rate": 0.00017204344023883996,
      "loss": 1.6212,
      "step": 57733
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5654723644256592,
      "learning_rate": 0.0001720339866149095,
      "loss": 1.6779,
      "step": 57734
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.570766031742096,
      "learning_rate": 0.00017202453314631074,
      "loss": 1.5749,
      "step": 57735
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5581455230712891,
      "learning_rate": 0.00017201507983305542,
      "loss": 1.5309,
      "step": 57736
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5614269375801086,
      "learning_rate": 0.00017200562667515513,
      "loss": 1.5646,
      "step": 57737
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5496930480003357,
      "learning_rate": 0.0001719961736726209,
      "loss": 1.5603,
      "step": 57738
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5582913160324097,
      "learning_rate": 0.0001719867208254645,
      "loss": 1.5722,
      "step": 57739
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5675377249717712,
      "learning_rate": 0.00017197726813369745,
      "loss": 1.6047,
      "step": 57740
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5561148524284363,
      "learning_rate": 0.00017196781559733116,
      "loss": 1.623,
      "step": 57741
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5647619366645813,
      "learning_rate": 0.00017195836321637692,
      "loss": 1.6231,
      "step": 57742
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5683820247650146,
      "learning_rate": 0.00017194891099084637,
      "loss": 1.6077,
      "step": 57743
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.542374312877655,
      "learning_rate": 0.00017193945892075122,
      "loss": 1.5685,
      "step": 57744
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5887331962585449,
      "learning_rate": 0.00017193000700610247,
      "loss": 1.5191,
      "step": 57745
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5905051827430725,
      "learning_rate": 0.0001719205552469118,
      "loss": 1.5192,
      "step": 57746
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5520428419113159,
      "learning_rate": 0.00017191110364319083,
      "loss": 1.5453,
      "step": 57747
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5548303723335266,
      "learning_rate": 0.00017190165219495092,
      "loss": 1.4851,
      "step": 57748
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5542913675308228,
      "learning_rate": 0.0001718922009022034,
      "loss": 1.5785,
      "step": 57749
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5556383728981018,
      "learning_rate": 0.00017188274976495988,
      "loss": 1.6409,
      "step": 57750
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5489327311515808,
      "learning_rate": 0.00017187329878323195,
      "loss": 1.5541,
      "step": 57751
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5594228506088257,
      "learning_rate": 0.00017186384795703092,
      "loss": 1.5956,
      "step": 57752
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5717735886573792,
      "learning_rate": 0.0001718543972863682,
      "loss": 1.6284,
      "step": 57753
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5602986216545105,
      "learning_rate": 0.0001718449467712555,
      "loss": 1.5356,
      "step": 57754
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5683374404907227,
      "learning_rate": 0.00017183549641170415,
      "loss": 1.6344,
      "step": 57755
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5572853684425354,
      "learning_rate": 0.00017182604620772548,
      "loss": 1.571,
      "step": 57756
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.542722761631012,
      "learning_rate": 0.00017181659615933122,
      "loss": 1.5643,
      "step": 57757
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5707814693450928,
      "learning_rate": 0.00017180714626653263,
      "loss": 1.6228,
      "step": 57758
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5402218103408813,
      "learning_rate": 0.00017179769652934137,
      "loss": 1.5471,
      "step": 57759
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5543166399002075,
      "learning_rate": 0.00017178824694776874,
      "loss": 1.5433,
      "step": 57760
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5522220730781555,
      "learning_rate": 0.00017177879752182634,
      "loss": 1.5684,
      "step": 57761
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5406334400177002,
      "learning_rate": 0.00017176934825152565,
      "loss": 1.5495,
      "step": 57762
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5603420734405518,
      "learning_rate": 0.00017175989913687794,
      "loss": 1.5584,
      "step": 57763
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5737770795822144,
      "learning_rate": 0.00017175045017789496,
      "loss": 1.6354,
      "step": 57764
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5633105635643005,
      "learning_rate": 0.00017174100137458783,
      "loss": 1.5021,
      "step": 57765
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5701541900634766,
      "learning_rate": 0.00017173155272696842,
      "loss": 1.5843,
      "step": 57766
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5741655230522156,
      "learning_rate": 0.000171722104235048,
      "loss": 1.6377,
      "step": 57767
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5575689673423767,
      "learning_rate": 0.00017171265589883793,
      "loss": 1.5818,
      "step": 57768
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5774734616279602,
      "learning_rate": 0.00017170320771834986,
      "loss": 1.4951,
      "step": 57769
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5627155900001526,
      "learning_rate": 0.0001716937596935951,
      "loss": 1.5517,
      "step": 57770
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5907415151596069,
      "learning_rate": 0.00017168431182458538,
      "loss": 1.5546,
      "step": 57771
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6028945446014404,
      "learning_rate": 0.00017167486411133186,
      "loss": 1.4869,
      "step": 57772
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5606138706207275,
      "learning_rate": 0.0001716654165538462,
      "loss": 1.5276,
      "step": 57773
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5623195171356201,
      "learning_rate": 0.00017165596915213988,
      "loss": 1.5542,
      "step": 57774
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5507819652557373,
      "learning_rate": 0.00017164652190622415,
      "loss": 1.5943,
      "step": 57775
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5792772173881531,
      "learning_rate": 0.00017163707481611076,
      "loss": 1.5605,
      "step": 57776
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.571104884147644,
      "learning_rate": 0.00017162762788181093,
      "loss": 1.5465,
      "step": 57777
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5872929692268372,
      "learning_rate": 0.00017161818110333638,
      "loss": 1.6014,
      "step": 57778
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5588428378105164,
      "learning_rate": 0.0001716087344806983,
      "loss": 1.6222,
      "step": 57779
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.564964234828949,
      "learning_rate": 0.00017159928801390847,
      "loss": 1.5503,
      "step": 57780
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5716665983200073,
      "learning_rate": 0.0001715898417029781,
      "loss": 1.5842,
      "step": 57781
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5788595080375671,
      "learning_rate": 0.0001715803955479187,
      "loss": 1.6088,
      "step": 57782
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5485934615135193,
      "learning_rate": 0.00017157094954874184,
      "loss": 1.478,
      "step": 57783
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5684217214584351,
      "learning_rate": 0.00017156150370545897,
      "loss": 1.5271,
      "step": 57784
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5496582984924316,
      "learning_rate": 0.00017155205801808136,
      "loss": 1.5135,
      "step": 57785
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5764052271842957,
      "learning_rate": 0.00017154261248662064,
      "loss": 1.5006,
      "step": 57786
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6059350967407227,
      "learning_rate": 0.00017153316711108837,
      "loss": 1.6395,
      "step": 57787
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5882996320724487,
      "learning_rate": 0.00017152372189149589,
      "loss": 1.4868,
      "step": 57788
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5658736824989319,
      "learning_rate": 0.0001715142768278546,
      "loss": 1.5909,
      "step": 57789
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5837062001228333,
      "learning_rate": 0.00017150483192017612,
      "loss": 1.5491,
      "step": 57790
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5734853148460388,
      "learning_rate": 0.0001714953871684719,
      "loss": 1.5316,
      "step": 57791
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5435946583747864,
      "learning_rate": 0.0001714859425727532,
      "loss": 1.5155,
      "step": 57792
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5458555817604065,
      "learning_rate": 0.00017147649813303162,
      "loss": 1.5513,
      "step": 57793
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5341331958770752,
      "learning_rate": 0.00017146705384931887,
      "loss": 1.5156,
      "step": 57794
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5509219169616699,
      "learning_rate": 0.00017145760972162597,
      "loss": 1.5746,
      "step": 57795
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5742314457893372,
      "learning_rate": 0.00017144816574996455,
      "loss": 1.6806,
      "step": 57796
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5891314148902893,
      "learning_rate": 0.00017143872193434626,
      "loss": 1.463,
      "step": 57797
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.572746753692627,
      "learning_rate": 0.00017142927827478244,
      "loss": 1.5174,
      "step": 57798
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5705429315567017,
      "learning_rate": 0.00017141983477128437,
      "loss": 1.4896,
      "step": 57799
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5518280863761902,
      "learning_rate": 0.00017141039142386369,
      "loss": 1.545,
      "step": 57800
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5347692370414734,
      "learning_rate": 0.0001714009482325321,
      "loss": 1.557,
      "step": 57801
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5927392244338989,
      "learning_rate": 0.00017139150519730056,
      "loss": 1.599,
      "step": 57802
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5627498030662537,
      "learning_rate": 0.0001713820623181808,
      "loss": 1.599,
      "step": 57803
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5432195663452148,
      "learning_rate": 0.00017137261959518433,
      "loss": 1.5709,
      "step": 57804
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5733412504196167,
      "learning_rate": 0.0001713631770283226,
      "loss": 1.5113,
      "step": 57805
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5437284708023071,
      "learning_rate": 0.00017135373461760686,
      "loss": 1.5818,
      "step": 57806
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.568839967250824,
      "learning_rate": 0.00017134429236304876,
      "loss": 1.6179,
      "step": 57807
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5794535279273987,
      "learning_rate": 0.00017133485026466,
      "loss": 1.5838,
      "step": 57808
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.570782482624054,
      "learning_rate": 0.0001713254083224515,
      "loss": 1.5758,
      "step": 57809
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5703074336051941,
      "learning_rate": 0.000171315966536435,
      "loss": 1.4847,
      "step": 57810
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5448845624923706,
      "learning_rate": 0.00017130652490662205,
      "loss": 1.5716,
      "step": 57811
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5691530704498291,
      "learning_rate": 0.00017129708343302405,
      "loss": 1.5638,
      "step": 57812
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5452058911323547,
      "learning_rate": 0.0001712876421156523,
      "loss": 1.5553,
      "step": 57813
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.55889493227005,
      "learning_rate": 0.0001712782009545185,
      "loss": 1.5962,
      "step": 57814
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5927056074142456,
      "learning_rate": 0.000171268759949634,
      "loss": 1.576,
      "step": 57815
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5977165102958679,
      "learning_rate": 0.00017125931910101015,
      "loss": 1.6129,
      "step": 57816
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5747724771499634,
      "learning_rate": 0.0001712498784086585,
      "loss": 1.6682,
      "step": 57817
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5555965304374695,
      "learning_rate": 0.0001712404378725907,
      "loss": 1.5943,
      "step": 57818
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5511970520019531,
      "learning_rate": 0.000171230997492818,
      "loss": 1.7034,
      "step": 57819
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5808866024017334,
      "learning_rate": 0.00017122155726935172,
      "loss": 1.5848,
      "step": 57820
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5657755136489868,
      "learning_rate": 0.00017121211720220366,
      "loss": 1.6283,
      "step": 57821
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5617663860321045,
      "learning_rate": 0.00017120267729138513,
      "loss": 1.504,
      "step": 57822
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5620454549789429,
      "learning_rate": 0.00017119323753690745,
      "loss": 1.6296,
      "step": 57823
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5558299422264099,
      "learning_rate": 0.00017118379793878231,
      "loss": 1.5066,
      "step": 57824
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5501763224601746,
      "learning_rate": 0.00017117435849702095,
      "loss": 1.5719,
      "step": 57825
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5671360492706299,
      "learning_rate": 0.00017116491921163502,
      "loss": 1.6156,
      "step": 57826
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5399853587150574,
      "learning_rate": 0.0001711554800826358,
      "loss": 1.5245,
      "step": 57827
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5677071213722229,
      "learning_rate": 0.000171146041110035,
      "loss": 1.5577,
      "step": 57828
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5592078566551208,
      "learning_rate": 0.00017113660229384385,
      "loss": 1.5802,
      "step": 57829
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5623847246170044,
      "learning_rate": 0.0001711271636340738,
      "loss": 1.6357,
      "step": 57830
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5495938658714294,
      "learning_rate": 0.0001711177251307365,
      "loss": 1.5089,
      "step": 57831
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5510031580924988,
      "learning_rate": 0.00017110828678384318,
      "loss": 1.5328,
      "step": 57832
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5467061996459961,
      "learning_rate": 0.0001710988485934055,
      "loss": 1.5389,
      "step": 57833
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.7234334349632263,
      "learning_rate": 0.00017108941055943484,
      "loss": 1.5754,
      "step": 57834
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5528497695922852,
      "learning_rate": 0.00017107997268194254,
      "loss": 1.5464,
      "step": 57835
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5711920261383057,
      "learning_rate": 0.00017107053496094027,
      "loss": 1.5212,
      "step": 57836
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5620627999305725,
      "learning_rate": 0.00017106109739643924,
      "loss": 1.4852,
      "step": 57837
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5275412201881409,
      "learning_rate": 0.00017105165998845115,
      "loss": 1.545,
      "step": 57838
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5617364048957825,
      "learning_rate": 0.00017104222273698727,
      "loss": 1.5964,
      "step": 57839
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5539448261260986,
      "learning_rate": 0.00017103278564205922,
      "loss": 1.5814,
      "step": 57840
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5296127796173096,
      "learning_rate": 0.00017102334870367836,
      "loss": 1.5473,
      "step": 57841
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5622050166130066,
      "learning_rate": 0.00017101391192185606,
      "loss": 1.6525,
      "step": 57842
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5632882714271545,
      "learning_rate": 0.00017100447529660393,
      "loss": 1.5502,
      "step": 57843
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5795801281929016,
      "learning_rate": 0.0001709950388279334,
      "loss": 1.5163,
      "step": 57844
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5696248412132263,
      "learning_rate": 0.00017098560251585577,
      "loss": 1.5967,
      "step": 57845
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5646280646324158,
      "learning_rate": 0.0001709761663603826,
      "loss": 1.5595,
      "step": 57846
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5600852966308594,
      "learning_rate": 0.00017096673036152545,
      "loss": 1.6036,
      "step": 57847
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5695298910140991,
      "learning_rate": 0.0001709572945192957,
      "loss": 1.5803,
      "step": 57848
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5501248240470886,
      "learning_rate": 0.0001709478588337047,
      "loss": 1.6278,
      "step": 57849
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5659987926483154,
      "learning_rate": 0.00017093842330476403,
      "loss": 1.585,
      "step": 57850
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5590437054634094,
      "learning_rate": 0.00017092898793248516,
      "loss": 1.5163,
      "step": 57851
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5589964985847473,
      "learning_rate": 0.0001709195527168793,
      "loss": 1.603,
      "step": 57852
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5745585560798645,
      "learning_rate": 0.0001709101176579581,
      "loss": 1.5729,
      "step": 57853
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5765344500541687,
      "learning_rate": 0.0001709006827557333,
      "loss": 1.5661,
      "step": 57854
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5560598373413086,
      "learning_rate": 0.00017089124801021572,
      "loss": 1.6027,
      "step": 57855
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5847316384315491,
      "learning_rate": 0.00017088181342141717,
      "loss": 1.5521,
      "step": 57856
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5351681709289551,
      "learning_rate": 0.00017087237898934923,
      "loss": 1.5687,
      "step": 57857
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5605348348617554,
      "learning_rate": 0.0001708629447140232,
      "loss": 1.4575,
      "step": 57858
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6008791923522949,
      "learning_rate": 0.00017085351059545036,
      "loss": 1.5421,
      "step": 57859
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5595684051513672,
      "learning_rate": 0.00017084407663364235,
      "loss": 1.588,
      "step": 57860
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5731076002120972,
      "learning_rate": 0.00017083464282861087,
      "loss": 1.6486,
      "step": 57861
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5890336036682129,
      "learning_rate": 0.0001708252091803668,
      "loss": 1.5632,
      "step": 57862
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5770732760429382,
      "learning_rate": 0.00017081577568892195,
      "loss": 1.5488,
      "step": 57863
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5541532039642334,
      "learning_rate": 0.00017080634235428779,
      "loss": 1.5228,
      "step": 57864
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5668576955795288,
      "learning_rate": 0.0001707969091764757,
      "loss": 1.5963,
      "step": 57865
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5662879943847656,
      "learning_rate": 0.00017078747615549705,
      "loss": 1.5597,
      "step": 57866
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5341642498970032,
      "learning_rate": 0.00017077804329136332,
      "loss": 1.5041,
      "step": 57867
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.568824827671051,
      "learning_rate": 0.00017076861058408613,
      "loss": 1.5741,
      "step": 57868
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5425354838371277,
      "learning_rate": 0.0001707591780336768,
      "loss": 1.495,
      "step": 57869
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5571786761283875,
      "learning_rate": 0.00017074974564014673,
      "loss": 1.5324,
      "step": 57870
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.574797511100769,
      "learning_rate": 0.00017074031340350747,
      "loss": 1.5963,
      "step": 57871
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5985456109046936,
      "learning_rate": 0.00017073088132377046,
      "loss": 1.5772,
      "step": 57872
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5647245645523071,
      "learning_rate": 0.00017072144940094696,
      "loss": 1.5678,
      "step": 57873
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5693553686141968,
      "learning_rate": 0.00017071201763504872,
      "loss": 1.5415,
      "step": 57874
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5560632944107056,
      "learning_rate": 0.00017070258602608693,
      "loss": 1.5683,
      "step": 57875
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5304401516914368,
      "learning_rate": 0.00017069315457407327,
      "loss": 1.5888,
      "step": 57876
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5528735518455505,
      "learning_rate": 0.00017068372327901893,
      "loss": 1.5522,
      "step": 57877
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5848391056060791,
      "learning_rate": 0.0001706742921409356,
      "loss": 1.5552,
      "step": 57878
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5754356980323792,
      "learning_rate": 0.00017066486115983464,
      "loss": 1.4877,
      "step": 57879
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5510781407356262,
      "learning_rate": 0.0001706554303357274,
      "loss": 1.5319,
      "step": 57880
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.58718341588974,
      "learning_rate": 0.0001706459996686255,
      "loss": 1.5623,
      "step": 57881
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5594529509544373,
      "learning_rate": 0.00017063656915854015,
      "loss": 1.5433,
      "step": 57882
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5665261149406433,
      "learning_rate": 0.00017062713880548308,
      "loss": 1.5707,
      "step": 57883
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5392090082168579,
      "learning_rate": 0.0001706177086094656,
      "loss": 1.4339,
      "step": 57884
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5592554211616516,
      "learning_rate": 0.00017060827857049904,
      "loss": 1.5804,
      "step": 57885
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5490429997444153,
      "learning_rate": 0.0001705988486885951,
      "loss": 1.5839,
      "step": 57886
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5847969055175781,
      "learning_rate": 0.00017058941896376498,
      "loss": 1.6058,
      "step": 57887
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5810791254043579,
      "learning_rate": 0.00017057998939602035,
      "loss": 1.5407,
      "step": 57888
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5842700600624084,
      "learning_rate": 0.00017057055998537238,
      "loss": 1.5631,
      "step": 57889
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5614793300628662,
      "learning_rate": 0.00017056113073183284,
      "loss": 1.5681,
      "step": 57890
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5558065176010132,
      "learning_rate": 0.00017055170163541303,
      "loss": 1.5235,
      "step": 57891
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5539511442184448,
      "learning_rate": 0.0001705422726961242,
      "loss": 1.6021,
      "step": 57892
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5614266395568848,
      "learning_rate": 0.00017053284391397815,
      "loss": 1.5091,
      "step": 57893
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5567415356636047,
      "learning_rate": 0.00017052341528898601,
      "loss": 1.5631,
      "step": 57894
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5929036736488342,
      "learning_rate": 0.00017051398682115952,
      "loss": 1.6035,
      "step": 57895
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5395292639732361,
      "learning_rate": 0.0001705045585105098,
      "loss": 1.5181,
      "step": 57896
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.554349958896637,
      "learning_rate": 0.00017049513035704864,
      "loss": 1.5824,
      "step": 57897
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5426974892616272,
      "learning_rate": 0.00017048570236078727,
      "loss": 1.5028,
      "step": 57898
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5862253904342651,
      "learning_rate": 0.00017047627452173705,
      "loss": 1.5616,
      "step": 57899
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5537599325180054,
      "learning_rate": 0.0001704668468399097,
      "loss": 1.4492,
      "step": 57900
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5738804936408997,
      "learning_rate": 0.00017045741931531652,
      "loss": 1.6205,
      "step": 57901
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5681108832359314,
      "learning_rate": 0.00017044799194796878,
      "loss": 1.5884,
      "step": 57902
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5729441046714783,
      "learning_rate": 0.00017043856473787812,
      "loss": 1.5347,
      "step": 57903
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5750061273574829,
      "learning_rate": 0.00017042913768505603,
      "loss": 1.5225,
      "step": 57904
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5400449633598328,
      "learning_rate": 0.0001704197107895139,
      "loss": 1.6285,
      "step": 57905
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5575206875801086,
      "learning_rate": 0.00017041028405126305,
      "loss": 1.5755,
      "step": 57906
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5334851741790771,
      "learning_rate": 0.00017040085747031515,
      "loss": 1.5219,
      "step": 57907
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.557338297367096,
      "learning_rate": 0.0001703914310466815,
      "loss": 1.5531,
      "step": 57908
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5547863245010376,
      "learning_rate": 0.00017038200478037337,
      "loss": 1.5525,
      "step": 57909
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5465153455734253,
      "learning_rate": 0.00017037257867140248,
      "loss": 1.6248,
      "step": 57910
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5384637713432312,
      "learning_rate": 0.00017036315271978038,
      "loss": 1.5469,
      "step": 57911
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.576858639717102,
      "learning_rate": 0.00017035372692551808,
      "loss": 1.604,
      "step": 57912
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.550676167011261,
      "learning_rate": 0.00017034430128862725,
      "loss": 1.6027,
      "step": 57913
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5518384575843811,
      "learning_rate": 0.00017033487580911947,
      "loss": 1.5659,
      "step": 57914
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5573619604110718,
      "learning_rate": 0.00017032545048700602,
      "loss": 1.5095,
      "step": 57915
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6022079586982727,
      "learning_rate": 0.00017031602532229824,
      "loss": 1.5481,
      "step": 57916
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5509776473045349,
      "learning_rate": 0.0001703066003150077,
      "loss": 1.5296,
      "step": 57917
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5560939908027649,
      "learning_rate": 0.0001702971754651461,
      "loss": 1.5646,
      "step": 57918
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5647209286689758,
      "learning_rate": 0.00017028775077272438,
      "loss": 1.5874,
      "step": 57919
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5512735843658447,
      "learning_rate": 0.0001702783262377542,
      "loss": 1.5272,
      "step": 57920
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5736785531044006,
      "learning_rate": 0.00017026890186024716,
      "loss": 1.6008,
      "step": 57921
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5695047378540039,
      "learning_rate": 0.00017025947764021451,
      "loss": 1.6147,
      "step": 57922
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5436671376228333,
      "learning_rate": 0.00017025005357766766,
      "loss": 1.5623,
      "step": 57923
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5378553867340088,
      "learning_rate": 0.00017024062967261813,
      "loss": 1.5399,
      "step": 57924
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6126806139945984,
      "learning_rate": 0.0001702312059250776,
      "loss": 1.5716,
      "step": 57925
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5794407725334167,
      "learning_rate": 0.00017022178233505698,
      "loss": 1.5597,
      "step": 57926
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5682097673416138,
      "learning_rate": 0.00017021235890256803,
      "loss": 1.4219,
      "step": 57927
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6049385666847229,
      "learning_rate": 0.00017020293562762227,
      "loss": 1.6211,
      "step": 57928
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5503116846084595,
      "learning_rate": 0.00017019351251023105,
      "loss": 1.5873,
      "step": 57929
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.565143346786499,
      "learning_rate": 0.00017018408955040562,
      "loss": 1.5769,
      "step": 57930
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5664660334587097,
      "learning_rate": 0.00017017466674815768,
      "loss": 1.5828,
      "step": 57931
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5668439269065857,
      "learning_rate": 0.0001701652441034986,
      "loss": 1.5851,
      "step": 57932
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5665943026542664,
      "learning_rate": 0.00017015582161643964,
      "loss": 1.5892,
      "step": 57933
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5891574025154114,
      "learning_rate": 0.00017014639928699242,
      "loss": 1.6088,
      "step": 57934
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5604460835456848,
      "learning_rate": 0.0001701369771151684,
      "loss": 1.5124,
      "step": 57935
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.572089433670044,
      "learning_rate": 0.000170127555100979,
      "loss": 1.6276,
      "step": 57936
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6019539833068848,
      "learning_rate": 0.0001701181332444355,
      "loss": 1.681,
      "step": 57937
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5569372773170471,
      "learning_rate": 0.00017010871154554954,
      "loss": 1.5126,
      "step": 57938
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5533239245414734,
      "learning_rate": 0.00017009929000433248,
      "loss": 1.5528,
      "step": 57939
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5646174550056458,
      "learning_rate": 0.00017008986862079563,
      "loss": 1.5619,
      "step": 57940
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.599271297454834,
      "learning_rate": 0.00017008044739495065,
      "loss": 1.5988,
      "step": 57941
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5722876787185669,
      "learning_rate": 0.00017007102632680873,
      "loss": 1.664,
      "step": 57942
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5642399787902832,
      "learning_rate": 0.00017006160541638157,
      "loss": 1.5414,
      "step": 57943
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.561973512172699,
      "learning_rate": 0.00017005218466368033,
      "loss": 1.5945,
      "step": 57944
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5476985573768616,
      "learning_rate": 0.00017004276406871674,
      "loss": 1.6157,
      "step": 57945
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5596297979354858,
      "learning_rate": 0.00017003334363150212,
      "loss": 1.5765,
      "step": 57946
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5667329430580139,
      "learning_rate": 0.00017002392335204768,
      "loss": 1.5512,
      "step": 57947
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5534981489181519,
      "learning_rate": 0.00017001450323036522,
      "loss": 1.5825,
      "step": 57948
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5691637396812439,
      "learning_rate": 0.00017000508326646586,
      "loss": 1.6158,
      "step": 57949
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5981249213218689,
      "learning_rate": 0.0001699956634603613,
      "loss": 1.662,
      "step": 57950
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5727744698524475,
      "learning_rate": 0.00016998624381206283,
      "loss": 1.5595,
      "step": 57951
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.587571382522583,
      "learning_rate": 0.00016997682432158182,
      "loss": 1.5998,
      "step": 57952
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5605838894844055,
      "learning_rate": 0.00016996740498892988,
      "loss": 1.5772,
      "step": 57953
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5691888928413391,
      "learning_rate": 0.00016995798581411823,
      "loss": 1.5746,
      "step": 57954
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5684581398963928,
      "learning_rate": 0.00016994856679715858,
      "loss": 1.5512,
      "step": 57955
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5761744976043701,
      "learning_rate": 0.00016993914793806206,
      "loss": 1.5393,
      "step": 57956
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.552656352519989,
      "learning_rate": 0.00016992972923684035,
      "loss": 1.4832,
      "step": 57957
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5816614627838135,
      "learning_rate": 0.00016992031069350478,
      "loss": 1.5721,
      "step": 57958
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.562143862247467,
      "learning_rate": 0.0001699108923080667,
      "loss": 1.5575,
      "step": 57959
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5814796090126038,
      "learning_rate": 0.00016990147408053776,
      "loss": 1.5568,
      "step": 57960
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5756186842918396,
      "learning_rate": 0.00016989205601092923,
      "loss": 1.585,
      "step": 57961
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5793729424476624,
      "learning_rate": 0.00016988263809925244,
      "loss": 1.5204,
      "step": 57962
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5411202311515808,
      "learning_rate": 0.000169873220345519,
      "loss": 1.5521,
      "step": 57963
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5677170157432556,
      "learning_rate": 0.0001698638027497404,
      "loss": 1.5428,
      "step": 57964
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5686274170875549,
      "learning_rate": 0.000169854385311928,
      "loss": 1.5164,
      "step": 57965
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5809217691421509,
      "learning_rate": 0.000169844968032093,
      "loss": 1.5593,
      "step": 57966
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5443046689033508,
      "learning_rate": 0.00016983555091024718,
      "loss": 1.61,
      "step": 57967
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5812456011772156,
      "learning_rate": 0.00016982613394640189,
      "loss": 1.6172,
      "step": 57968
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5626450181007385,
      "learning_rate": 0.0001698167171405683,
      "loss": 1.526,
      "step": 57969
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6208056807518005,
      "learning_rate": 0.00016980730049275805,
      "loss": 1.5288,
      "step": 57970
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5543032884597778,
      "learning_rate": 0.0001697978840029828,
      "loss": 1.6253,
      "step": 57971
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5817371606826782,
      "learning_rate": 0.0001697884676712535,
      "loss": 1.5844,
      "step": 57972
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.570520281791687,
      "learning_rate": 0.0001697790514975818,
      "loss": 1.5463,
      "step": 57973
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5737221240997314,
      "learning_rate": 0.0001697696354819793,
      "loss": 1.5978,
      "step": 57974
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5598146915435791,
      "learning_rate": 0.00016976021962445724,
      "loss": 1.5076,
      "step": 57975
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.547090470790863,
      "learning_rate": 0.00016975080392502695,
      "loss": 1.5958,
      "step": 57976
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5768133997917175,
      "learning_rate": 0.0001697413883837,
      "loss": 1.5455,
      "step": 57977
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5501353144645691,
      "learning_rate": 0.0001697319730004881,
      "loss": 1.6036,
      "step": 57978
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5624712109565735,
      "learning_rate": 0.0001697225577754021,
      "loss": 1.5637,
      "step": 57979
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5503687262535095,
      "learning_rate": 0.00016971314270845374,
      "loss": 1.5398,
      "step": 57980
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5540478825569153,
      "learning_rate": 0.00016970372779965458,
      "loss": 1.6088,
      "step": 57981
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5839385390281677,
      "learning_rate": 0.00016969431304901582,
      "loss": 1.5597,
      "step": 57982
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5641540884971619,
      "learning_rate": 0.0001696848984565489,
      "loss": 1.5649,
      "step": 57983
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5711491107940674,
      "learning_rate": 0.00016967548402226532,
      "loss": 1.5909,
      "step": 57984
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5708954930305481,
      "learning_rate": 0.00016966606974617657,
      "loss": 1.5836,
      "step": 57985
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5607599020004272,
      "learning_rate": 0.00016965665562829405,
      "loss": 1.5718,
      "step": 57986
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5540412068367004,
      "learning_rate": 0.00016964724166862897,
      "loss": 1.5598,
      "step": 57987
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5808764696121216,
      "learning_rate": 0.00016963782786719314,
      "loss": 1.5653,
      "step": 57988
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5467857122421265,
      "learning_rate": 0.00016962841422399772,
      "loss": 1.5959,
      "step": 57989
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.603175938129425,
      "learning_rate": 0.00016961900073905406,
      "loss": 1.5849,
      "step": 57990
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5421847701072693,
      "learning_rate": 0.0001696095874123739,
      "loss": 1.5129,
      "step": 57991
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5667883157730103,
      "learning_rate": 0.00016960017424396832,
      "loss": 1.5704,
      "step": 57992
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5509911179542542,
      "learning_rate": 0.00016959076123384905,
      "loss": 1.6105,
      "step": 57993
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5409929156303406,
      "learning_rate": 0.00016958134838202725,
      "loss": 1.5134,
      "step": 57994
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5677781105041504,
      "learning_rate": 0.00016957193568851463,
      "loss": 1.6093,
      "step": 57995
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.545238196849823,
      "learning_rate": 0.00016956252315332245,
      "loss": 1.549,
      "step": 57996
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5558637380599976,
      "learning_rate": 0.000169553110776462,
      "loss": 1.5675,
      "step": 57997
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5574498176574707,
      "learning_rate": 0.000169543698557945,
      "loss": 1.5436,
      "step": 57998
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5753735303878784,
      "learning_rate": 0.00016953428649778263,
      "loss": 1.6175,
      "step": 57999
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5807842016220093,
      "learning_rate": 0.0001695248745959865,
      "loss": 1.5695,
      "step": 58000
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5722066760063171,
      "learning_rate": 0.00016951546285256795,
      "loss": 1.5695,
      "step": 58001
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5650774836540222,
      "learning_rate": 0.00016950605126753827,
      "loss": 1.568,
      "step": 58002
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5481239557266235,
      "learning_rate": 0.00016949663984090914,
      "loss": 1.5957,
      "step": 58003
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5687045454978943,
      "learning_rate": 0.00016948722857269174,
      "loss": 1.5592,
      "step": 58004
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5545667409896851,
      "learning_rate": 0.00016947781746289776,
      "loss": 1.5602,
      "step": 58005
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5657544136047363,
      "learning_rate": 0.00016946840651153834,
      "loss": 1.5663,
      "step": 58006
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5802392959594727,
      "learning_rate": 0.0001694589957186252,
      "loss": 1.5377,
      "step": 58007
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5822023153305054,
      "learning_rate": 0.00016944958508416955,
      "loss": 1.5605,
      "step": 58008
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5666685700416565,
      "learning_rate": 0.00016944017460818276,
      "loss": 1.5548,
      "step": 58009
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5831827521324158,
      "learning_rate": 0.00016943076429067646,
      "loss": 1.4846,
      "step": 58010
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6046194434165955,
      "learning_rate": 0.0001694213541316619,
      "loss": 1.5198,
      "step": 58011
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.568832516670227,
      "learning_rate": 0.00016941194413115068,
      "loss": 1.532,
      "step": 58012
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5705364942550659,
      "learning_rate": 0.000169402534289154,
      "loss": 1.6118,
      "step": 58013
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5782487988471985,
      "learning_rate": 0.00016939312460568351,
      "loss": 1.559,
      "step": 58014
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5694705843925476,
      "learning_rate": 0.00016938371508075055,
      "loss": 1.5879,
      "step": 58015
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5648985505104065,
      "learning_rate": 0.00016937430571436636,
      "loss": 1.5963,
      "step": 58016
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.579077422618866,
      "learning_rate": 0.00016936489650654264,
      "loss": 1.6354,
      "step": 58017
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5661457180976868,
      "learning_rate": 0.00016935548745729067,
      "loss": 1.612,
      "step": 58018
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5809893012046814,
      "learning_rate": 0.00016934607856662184,
      "loss": 1.5407,
      "step": 58019
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6014171242713928,
      "learning_rate": 0.00016933666983454758,
      "loss": 1.5682,
      "step": 58020
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5940510034561157,
      "learning_rate": 0.00016932726126107946,
      "loss": 1.5634,
      "step": 58021
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5619238018989563,
      "learning_rate": 0.0001693178528462288,
      "loss": 1.6124,
      "step": 58022
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5855675339698792,
      "learning_rate": 0.00016930844459000688,
      "loss": 1.4915,
      "step": 58023
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5664713382720947,
      "learning_rate": 0.0001692990364924254,
      "loss": 1.5076,
      "step": 58024
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5649640560150146,
      "learning_rate": 0.0001692896285534956,
      "loss": 1.598,
      "step": 58025
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5572889447212219,
      "learning_rate": 0.00016928022077322883,
      "loss": 1.563,
      "step": 58026
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5801096558570862,
      "learning_rate": 0.0001692708131516366,
      "loss": 1.5383,
      "step": 58027
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5782681107521057,
      "learning_rate": 0.0001692614056887306,
      "loss": 1.5945,
      "step": 58028
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5854989290237427,
      "learning_rate": 0.0001692519983845217,
      "loss": 1.6713,
      "step": 58029
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5516354441642761,
      "learning_rate": 0.0001692425912390217,
      "loss": 1.5712,
      "step": 58030
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.571726381778717,
      "learning_rate": 0.00016923318425224196,
      "loss": 1.5905,
      "step": 58031
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5803135633468628,
      "learning_rate": 0.0001692237774241939,
      "loss": 1.6134,
      "step": 58032
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5701210498809814,
      "learning_rate": 0.0001692143707548888,
      "loss": 1.5269,
      "step": 58033
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5721734166145325,
      "learning_rate": 0.00016920496424433816,
      "loss": 1.6453,
      "step": 58034
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5413397550582886,
      "learning_rate": 0.00016919555789255366,
      "loss": 1.5041,
      "step": 58035
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.567139208316803,
      "learning_rate": 0.00016918615169954628,
      "loss": 1.5953,
      "step": 58036
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5824416875839233,
      "learning_rate": 0.0001691767456653276,
      "loss": 1.5368,
      "step": 58037
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5617285370826721,
      "learning_rate": 0.0001691673397899092,
      "loss": 1.6099,
      "step": 58038
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5742648839950562,
      "learning_rate": 0.00016915793407330237,
      "loss": 1.5992,
      "step": 58039
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.570382833480835,
      "learning_rate": 0.00016914852851551842,
      "loss": 1.5729,
      "step": 58040
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5441038608551025,
      "learning_rate": 0.00016913912311656887,
      "loss": 1.5817,
      "step": 58041
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5503684878349304,
      "learning_rate": 0.0001691297178764654,
      "loss": 1.5518,
      "step": 58042
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5705963373184204,
      "learning_rate": 0.0001691203127952189,
      "loss": 1.56,
      "step": 58043
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5773789882659912,
      "learning_rate": 0.00016911090787284104,
      "loss": 1.5531,
      "step": 58044
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5788633823394775,
      "learning_rate": 0.00016910150310934344,
      "loss": 1.5583,
      "step": 58045
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5755577087402344,
      "learning_rate": 0.00016909209850473727,
      "loss": 1.6218,
      "step": 58046
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5336968898773193,
      "learning_rate": 0.00016908269405903394,
      "loss": 1.5457,
      "step": 58047
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5502180457115173,
      "learning_rate": 0.000169073289772245,
      "loss": 1.5452,
      "step": 58048
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5829297304153442,
      "learning_rate": 0.0001690638856443818,
      "loss": 1.6147,
      "step": 58049
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5776899456977844,
      "learning_rate": 0.00016905448167545562,
      "loss": 1.5437,
      "step": 58050
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5966347455978394,
      "learning_rate": 0.00016904507786547805,
      "loss": 1.6098,
      "step": 58051
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5507674813270569,
      "learning_rate": 0.00016903567421446054,
      "loss": 1.5434,
      "step": 58052
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5599499940872192,
      "learning_rate": 0.00016902627072241445,
      "loss": 1.5753,
      "step": 58053
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5922583341598511,
      "learning_rate": 0.00016901686738935104,
      "loss": 1.5884,
      "step": 58054
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5961832404136658,
      "learning_rate": 0.00016900746421528195,
      "loss": 1.5624,
      "step": 58055
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5632451176643372,
      "learning_rate": 0.00016899806120021854,
      "loss": 1.5661,
      "step": 58056
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5864267349243164,
      "learning_rate": 0.00016898865834417205,
      "loss": 1.5527,
      "step": 58057
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5431937575340271,
      "learning_rate": 0.00016897925564715414,
      "loss": 1.5985,
      "step": 58058
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5733209848403931,
      "learning_rate": 0.00016896985310917598,
      "loss": 1.5894,
      "step": 58059
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5636614561080933,
      "learning_rate": 0.00016896045073024922,
      "loss": 1.5877,
      "step": 58060
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5962709784507751,
      "learning_rate": 0.00016895104851038508,
      "loss": 1.5551,
      "step": 58061
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.589073896408081,
      "learning_rate": 0.00016894164644959517,
      "loss": 1.6027,
      "step": 58062
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5790949463844299,
      "learning_rate": 0.00016893224454789078,
      "loss": 1.6264,
      "step": 58063
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.554405152797699,
      "learning_rate": 0.0001689228428052832,
      "loss": 1.5985,
      "step": 58064
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5577858090400696,
      "learning_rate": 0.0001689134412217841,
      "loss": 1.5755,
      "step": 58065
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5677721500396729,
      "learning_rate": 0.00016890403979740468,
      "loss": 1.5948,
      "step": 58066
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.6022866368293762,
      "learning_rate": 0.00016889463853215654,
      "loss": 1.5998,
      "step": 58067
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5892629623413086,
      "learning_rate": 0.00016888523742605095,
      "loss": 1.6169,
      "step": 58068
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5549372434616089,
      "learning_rate": 0.00016887583647909934,
      "loss": 1.4917,
      "step": 58069
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5447219610214233,
      "learning_rate": 0.00016886643569131318,
      "loss": 1.5807,
      "step": 58070
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5626150369644165,
      "learning_rate": 0.00016885703506270376,
      "loss": 1.5203,
      "step": 58071
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5722548961639404,
      "learning_rate": 0.00016884763459328267,
      "loss": 1.5696,
      "step": 58072
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5656651258468628,
      "learning_rate": 0.00016883823428306112,
      "loss": 1.5931,
      "step": 58073
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5709355473518372,
      "learning_rate": 0.00016882883413205075,
      "loss": 1.6264,
      "step": 58074
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5324968695640564,
      "learning_rate": 0.00016881943414026284,
      "loss": 1.5781,
      "step": 58075
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5628340244293213,
      "learning_rate": 0.00016881003430770872,
      "loss": 1.5999,
      "step": 58076
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5570256114006042,
      "learning_rate": 0.0001688006346344,
      "loss": 1.6033,
      "step": 58077
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5655961036682129,
      "learning_rate": 0.00016879123512034797,
      "loss": 1.6137,
      "step": 58078
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5474821925163269,
      "learning_rate": 0.00016878183576556392,
      "loss": 1.5842,
      "step": 58079
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5558679699897766,
      "learning_rate": 0.00016877243657005938,
      "loss": 1.5477,
      "step": 58080
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5607468485832214,
      "learning_rate": 0.0001687630375338459,
      "loss": 1.6042,
      "step": 58081
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5773343443870544,
      "learning_rate": 0.00016875363865693474,
      "loss": 1.475,
      "step": 58082
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5757980942726135,
      "learning_rate": 0.00016874423993933722,
      "loss": 1.5933,
      "step": 58083
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5622473955154419,
      "learning_rate": 0.00016873484138106497,
      "loss": 1.5892,
      "step": 58084
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5560603141784668,
      "learning_rate": 0.0001687254429821293,
      "loss": 1.6067,
      "step": 58085
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5664448738098145,
      "learning_rate": 0.00016871604474254145,
      "loss": 1.4905,
      "step": 58086
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5544910430908203,
      "learning_rate": 0.000168706646662313,
      "loss": 1.5677,
      "step": 58087
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5454331040382385,
      "learning_rate": 0.00016869724874145556,
      "loss": 1.5711,
      "step": 58088
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.8467296957969666,
      "learning_rate": 0.00016868785097998008,
      "loss": 1.6326,
      "step": 58089
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5563266277313232,
      "learning_rate": 0.0001686784533778982,
      "loss": 1.5566,
      "step": 58090
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5628025531768799,
      "learning_rate": 0.00016866905593522144,
      "loss": 1.5469,
      "step": 58091
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5773608088493347,
      "learning_rate": 0.00016865965865196108,
      "loss": 1.594,
      "step": 58092
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5489641427993774,
      "learning_rate": 0.00016865026152812848,
      "loss": 1.5392,
      "step": 58093
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5694983601570129,
      "learning_rate": 0.00016864086456373507,
      "loss": 1.5855,
      "step": 58094
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5471137762069702,
      "learning_rate": 0.00016863146775879256,
      "loss": 1.5227,
      "step": 58095
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.556946337223053,
      "learning_rate": 0.00016862207111331183,
      "loss": 1.537,
      "step": 58096
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5846129059791565,
      "learning_rate": 0.00016861267462730455,
      "loss": 1.6533,
      "step": 58097
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5476099252700806,
      "learning_rate": 0.00016860327830078224,
      "loss": 1.5493,
      "step": 58098
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5964357852935791,
      "learning_rate": 0.0001685938821337562,
      "loss": 1.5472,
      "step": 58099
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5532150864601135,
      "learning_rate": 0.0001685844861262377,
      "loss": 1.6562,
      "step": 58100
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5640295743942261,
      "learning_rate": 0.00016857509027823825,
      "loss": 1.5229,
      "step": 58101
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5732294917106628,
      "learning_rate": 0.0001685656945897694,
      "loss": 1.5479,
      "step": 58102
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5413514375686646,
      "learning_rate": 0.00016855629906084246,
      "loss": 1.6014,
      "step": 58103
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5733771920204163,
      "learning_rate": 0.0001685469036914687,
      "loss": 1.5509,
      "step": 58104
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5731102824211121,
      "learning_rate": 0.0001685375084816597,
      "loss": 1.6428,
      "step": 58105
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5335766673088074,
      "learning_rate": 0.00016852811343142686,
      "loss": 1.5816,
      "step": 58106
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5543039441108704,
      "learning_rate": 0.00016851871854078133,
      "loss": 1.4895,
      "step": 58107
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5665044784545898,
      "learning_rate": 0.00016850932380973484,
      "loss": 1.5393,
      "step": 58108
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5717988014221191,
      "learning_rate": 0.00016849992923829855,
      "loss": 1.5585,
      "step": 58109
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5623663067817688,
      "learning_rate": 0.00016849053482648408,
      "loss": 1.5149,
      "step": 58110
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5737807750701904,
      "learning_rate": 0.0001684811405743026,
      "loss": 1.5645,
      "step": 58111
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.549172580242157,
      "learning_rate": 0.00016847174648176576,
      "loss": 1.5319,
      "step": 58112
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5665740966796875,
      "learning_rate": 0.00016846235254888486,
      "loss": 1.6004,
      "step": 58113
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.7867209911346436,
      "learning_rate": 0.00016845295877567117,
      "loss": 1.6039,
      "step": 58114
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5613765120506287,
      "learning_rate": 0.0001684435651621363,
      "loss": 1.6065,
      "step": 58115
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5284607410430908,
      "learning_rate": 0.00016843417170829143,
      "loss": 1.5075,
      "step": 58116
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.560628354549408,
      "learning_rate": 0.00016842477841414824,
      "loss": 1.63,
      "step": 58117
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5793152451515198,
      "learning_rate": 0.00016841538527971795,
      "loss": 1.5936,
      "step": 58118
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5526636242866516,
      "learning_rate": 0.0001684059923050119,
      "loss": 1.5603,
      "step": 58119
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5534680485725403,
      "learning_rate": 0.00016839659949004167,
      "loss": 1.5542,
      "step": 58120
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5800036191940308,
      "learning_rate": 0.00016838720683481852,
      "loss": 1.5724,
      "step": 58121
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.546718418598175,
      "learning_rate": 0.00016837781433935394,
      "loss": 1.5527,
      "step": 58122
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5603258013725281,
      "learning_rate": 0.00016836842200365927,
      "loss": 1.5331,
      "step": 58123
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5654872059822083,
      "learning_rate": 0.00016835902982774602,
      "loss": 1.5166,
      "step": 58124
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5662190914154053,
      "learning_rate": 0.0001683496378116255,
      "loss": 1.5371,
      "step": 58125
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5466774106025696,
      "learning_rate": 0.00016834024595530902,
      "loss": 1.5867,
      "step": 58126
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5793976783752441,
      "learning_rate": 0.00016833085425880818,
      "loss": 1.5559,
      "step": 58127
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5692945122718811,
      "learning_rate": 0.00016832146272213432,
      "loss": 1.5309,
      "step": 58128
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5710402131080627,
      "learning_rate": 0.00016831207134529864,
      "loss": 1.505,
      "step": 58129
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5583162903785706,
      "learning_rate": 0.00016830268012831275,
      "loss": 1.5657,
      "step": 58130
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5604419112205505,
      "learning_rate": 0.0001682932890711881,
      "loss": 1.5418,
      "step": 58131
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5904500484466553,
      "learning_rate": 0.00016828389817393597,
      "loss": 1.6004,
      "step": 58132
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5734173059463501,
      "learning_rate": 0.0001682745074365677,
      "loss": 1.544,
      "step": 58133
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5692993402481079,
      "learning_rate": 0.00016826511685909487,
      "loss": 1.5431,
      "step": 58134
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5781466364860535,
      "learning_rate": 0.00016825572644152878,
      "loss": 1.5303,
      "step": 58135
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5578874349594116,
      "learning_rate": 0.0001682463361838807,
      "loss": 1.5807,
      "step": 58136
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5774797797203064,
      "learning_rate": 0.00016823694608616215,
      "loss": 1.5621,
      "step": 58137
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5460625290870667,
      "learning_rate": 0.00016822755614838463,
      "loss": 1.5492,
      "step": 58138
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5685932040214539,
      "learning_rate": 0.00016821816637055948,
      "loss": 1.5717,
      "step": 58139
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5596830248832703,
      "learning_rate": 0.00016820877675269793,
      "loss": 1.6582,
      "step": 58140
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5460644364356995,
      "learning_rate": 0.00016819938729481163,
      "loss": 1.6264,
      "step": 58141
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5524866580963135,
      "learning_rate": 0.00016818999799691185,
      "loss": 1.5246,
      "step": 58142
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5651218295097351,
      "learning_rate": 0.00016818060885900985,
      "loss": 1.6513,
      "step": 58143
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5421703457832336,
      "learning_rate": 0.00016817121988111725,
      "loss": 1.5749,
      "step": 58144
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5656628012657166,
      "learning_rate": 0.00016816183106324552,
      "loss": 1.6183,
      "step": 58145
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5850417613983154,
      "learning_rate": 0.00016815244240540568,
      "loss": 1.5165,
      "step": 58146
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5711266398429871,
      "learning_rate": 0.00016814305390760935,
      "loss": 1.5803,
      "step": 58147
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5588470101356506,
      "learning_rate": 0.00016813366556986802,
      "loss": 1.6056,
      "step": 58148
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5617266893386841,
      "learning_rate": 0.00016812427739219303,
      "loss": 1.5734,
      "step": 58149
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5528374910354614,
      "learning_rate": 0.0001681148893745956,
      "loss": 1.5326,
      "step": 58150
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5578038692474365,
      "learning_rate": 0.0001681055015170873,
      "loss": 1.555,
      "step": 58151
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5566365122795105,
      "learning_rate": 0.00016809611381967969,
      "loss": 1.5477,
      "step": 58152
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5481775403022766,
      "learning_rate": 0.00016808672628238372,
      "loss": 1.5589,
      "step": 58153
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5737340450286865,
      "learning_rate": 0.00016807733890521103,
      "loss": 1.5284,
      "step": 58154
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5629724860191345,
      "learning_rate": 0.0001680679516881731,
      "loss": 1.5732,
      "step": 58155
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5745741128921509,
      "learning_rate": 0.0001680585646312813,
      "loss": 1.5824,
      "step": 58156
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5798687934875488,
      "learning_rate": 0.0001680491777345468,
      "loss": 1.5159,
      "step": 58157
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5541810989379883,
      "learning_rate": 0.00016803979099798118,
      "loss": 1.561,
      "step": 58158
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5963377952575684,
      "learning_rate": 0.00016803040442159607,
      "loss": 1.5518,
      "step": 58159
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5406091213226318,
      "learning_rate": 0.00016802101800540231,
      "loss": 1.5902,
      "step": 58160
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5287176370620728,
      "learning_rate": 0.00016801163174941163,
      "loss": 1.5315,
      "step": 58161
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5724945068359375,
      "learning_rate": 0.00016800224565363548,
      "loss": 1.5378,
      "step": 58162
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5409740805625916,
      "learning_rate": 0.00016799285971808516,
      "loss": 1.5486,
      "step": 58163
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5755380988121033,
      "learning_rate": 0.00016798347394277196,
      "loss": 1.6186,
      "step": 58164
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5546450018882751,
      "learning_rate": 0.00016797408832770744,
      "loss": 1.4989,
      "step": 58165
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5572881698608398,
      "learning_rate": 0.00016796470287290297,
      "loss": 1.5494,
      "step": 58166
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5501688122749329,
      "learning_rate": 0.00016795531757836978,
      "loss": 1.5407,
      "step": 58167
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5560404062271118,
      "learning_rate": 0.00016794593244411936,
      "loss": 1.5252,
      "step": 58168
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5673241019248962,
      "learning_rate": 0.0001679365474701632,
      "loss": 1.5562,
      "step": 58169
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.7862958312034607,
      "learning_rate": 0.00016792716265651264,
      "loss": 1.6318,
      "step": 58170
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5735903382301331,
      "learning_rate": 0.00016791777800317898,
      "loss": 1.5977,
      "step": 58171
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5726419687271118,
      "learning_rate": 0.00016790839351017375,
      "loss": 1.6112,
      "step": 58172
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5626974701881409,
      "learning_rate": 0.00016789900917750825,
      "loss": 1.5331,
      "step": 58173
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5522305965423584,
      "learning_rate": 0.00016788962500519382,
      "loss": 1.5928,
      "step": 58174
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5735243558883667,
      "learning_rate": 0.000167880240993242,
      "loss": 1.5947,
      "step": 58175
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5812605023384094,
      "learning_rate": 0.000167870857141664,
      "loss": 1.5505,
      "step": 58176
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5604745745658875,
      "learning_rate": 0.00016786147345047137,
      "loss": 1.5897,
      "step": 58177
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5759647488594055,
      "learning_rate": 0.0001678520899196754,
      "loss": 1.6348,
      "step": 58178
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5567126870155334,
      "learning_rate": 0.0001678427065492876,
      "loss": 1.5273,
      "step": 58179
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5542967319488525,
      "learning_rate": 0.00016783332333931929,
      "loss": 1.5962,
      "step": 58180
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5533019304275513,
      "learning_rate": 0.00016782394028978174,
      "loss": 1.5967,
      "step": 58181
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5857786536216736,
      "learning_rate": 0.00016781455740068658,
      "loss": 1.6036,
      "step": 58182
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5917882323265076,
      "learning_rate": 0.00016780517467204496,
      "loss": 1.5802,
      "step": 58183
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5551455020904541,
      "learning_rate": 0.00016779579210386846,
      "loss": 1.5905,
      "step": 58184
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5561259388923645,
      "learning_rate": 0.00016778640969616838,
      "loss": 1.6039,
      "step": 58185
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5480180978775024,
      "learning_rate": 0.00016777702744895603,
      "loss": 1.556,
      "step": 58186
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6159829497337341,
      "learning_rate": 0.000167767645362243,
      "loss": 1.5578,
      "step": 58187
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5620108842849731,
      "learning_rate": 0.00016775826343604045,
      "loss": 1.59,
      "step": 58188
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6645786762237549,
      "learning_rate": 0.00016774888167036,
      "loss": 1.5674,
      "step": 58189
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5360094904899597,
      "learning_rate": 0.00016773950006521282,
      "loss": 1.57,
      "step": 58190
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.57159024477005,
      "learning_rate": 0.0001677301186206105,
      "loss": 1.596,
      "step": 58191
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5638911724090576,
      "learning_rate": 0.00016772073733656434,
      "loss": 1.618,
      "step": 58192
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5504196286201477,
      "learning_rate": 0.00016771135621308558,
      "loss": 1.4922,
      "step": 58193
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5536553859710693,
      "learning_rate": 0.00016770197525018584,
      "loss": 1.6011,
      "step": 58194
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5711673498153687,
      "learning_rate": 0.00016769259444787644,
      "loss": 1.5901,
      "step": 58195
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5366156697273254,
      "learning_rate": 0.00016768321380616864,
      "loss": 1.6288,
      "step": 58196
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5670275092124939,
      "learning_rate": 0.00016767383332507387,
      "loss": 1.5852,
      "step": 58197
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5627073645591736,
      "learning_rate": 0.0001676644530046037,
      "loss": 1.573,
      "step": 58198
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5549882054328918,
      "learning_rate": 0.00016765507284476942,
      "loss": 1.5211,
      "step": 58199
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.545011043548584,
      "learning_rate": 0.00016764569284558224,
      "loss": 1.5581,
      "step": 58200
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5488713383674622,
      "learning_rate": 0.0001676363130070538,
      "loss": 1.6118,
      "step": 58201
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5399114489555359,
      "learning_rate": 0.00016762693332919535,
      "loss": 1.5655,
      "step": 58202
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5499520897865295,
      "learning_rate": 0.0001676175538120182,
      "loss": 1.5071,
      "step": 58203
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5490214228630066,
      "learning_rate": 0.00016760817445553384,
      "loss": 1.5772,
      "step": 58204
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5601789355278015,
      "learning_rate": 0.00016759879525975391,
      "loss": 1.5054,
      "step": 58205
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5603259205818176,
      "learning_rate": 0.0001675894162246893,
      "loss": 1.5477,
      "step": 58206
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5544536113739014,
      "learning_rate": 0.0001675800373503516,
      "loss": 1.5635,
      "step": 58207
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5609862804412842,
      "learning_rate": 0.0001675706586367523,
      "loss": 1.6284,
      "step": 58208
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5767616629600525,
      "learning_rate": 0.00016756128008390278,
      "loss": 1.5517,
      "step": 58209
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5582892894744873,
      "learning_rate": 0.0001675519016918142,
      "loss": 1.5858,
      "step": 58210
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.582766056060791,
      "learning_rate": 0.0001675425234604981,
      "loss": 1.6353,
      "step": 58211
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5692903995513916,
      "learning_rate": 0.000167533145389966,
      "loss": 1.5445,
      "step": 58212
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5389973521232605,
      "learning_rate": 0.0001675237674802291,
      "loss": 1.5926,
      "step": 58213
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5631323456764221,
      "learning_rate": 0.00016751438973129876,
      "loss": 1.5716,
      "step": 58214
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5607696771621704,
      "learning_rate": 0.00016750501214318652,
      "loss": 1.5652,
      "step": 58215
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5609488487243652,
      "learning_rate": 0.00016749563471590365,
      "loss": 1.5827,
      "step": 58216
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5742405652999878,
      "learning_rate": 0.00016748625744946144,
      "loss": 1.5611,
      "step": 58217
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5299438238143921,
      "learning_rate": 0.00016747688034387143,
      "loss": 1.539,
      "step": 58218
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5677080154418945,
      "learning_rate": 0.00016746750339914507,
      "loss": 1.5623,
      "step": 58219
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5606169700622559,
      "learning_rate": 0.00016745812661529363,
      "loss": 1.4864,
      "step": 58220
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5691139698028564,
      "learning_rate": 0.00016744874999232836,
      "loss": 1.6119,
      "step": 58221
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.570967972278595,
      "learning_rate": 0.00016743937353026092,
      "loss": 1.5806,
      "step": 58222
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5417444109916687,
      "learning_rate": 0.00016742999722910252,
      "loss": 1.5988,
      "step": 58223
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5598517656326294,
      "learning_rate": 0.00016742062108886447,
      "loss": 1.6225,
      "step": 58224
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5614473223686218,
      "learning_rate": 0.00016741124510955837,
      "loss": 1.4709,
      "step": 58225
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5441893935203552,
      "learning_rate": 0.00016740186929119536,
      "loss": 1.5661,
      "step": 58226
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5613096952438354,
      "learning_rate": 0.00016739249363378707,
      "loss": 1.5398,
      "step": 58227
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5706411004066467,
      "learning_rate": 0.00016738311813734459,
      "loss": 1.555,
      "step": 58228
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.8663812875747681,
      "learning_rate": 0.00016737374280187964,
      "loss": 1.6109,
      "step": 58229
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5572462677955627,
      "learning_rate": 0.0001673643676274034,
      "loss": 1.5618,
      "step": 58230
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5346015691757202,
      "learning_rate": 0.00016735499261392715,
      "loss": 1.5432,
      "step": 58231
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5724005699157715,
      "learning_rate": 0.00016734561776146257,
      "loss": 1.6161,
      "step": 58232
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5641857981681824,
      "learning_rate": 0.00016733624307002065,
      "loss": 1.6077,
      "step": 58233
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5758191347122192,
      "learning_rate": 0.00016732686853961315,
      "loss": 1.5569,
      "step": 58234
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5563251376152039,
      "learning_rate": 0.00016731749417025132,
      "loss": 1.5353,
      "step": 58235
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5337399840354919,
      "learning_rate": 0.00016730811996194632,
      "loss": 1.5432,
      "step": 58236
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5886839032173157,
      "learning_rate": 0.00016729874591470985,
      "loss": 1.5518,
      "step": 58237
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.7254886627197266,
      "learning_rate": 0.00016728937202855303,
      "loss": 1.5404,
      "step": 58238
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5881757736206055,
      "learning_rate": 0.0001672799983034875,
      "loss": 1.6062,
      "step": 58239
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5472499132156372,
      "learning_rate": 0.0001672706247395244,
      "loss": 1.5408,
      "step": 58240
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5742643475532532,
      "learning_rate": 0.00016726125133667525,
      "loss": 1.5417,
      "step": 58241
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5704469084739685,
      "learning_rate": 0.00016725187809495145,
      "loss": 1.6296,
      "step": 58242
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5418998003005981,
      "learning_rate": 0.00016724250501436416,
      "loss": 1.5368,
      "step": 58243
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5640965104103088,
      "learning_rate": 0.00016723313209492503,
      "loss": 1.5361,
      "step": 58244
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5496713519096375,
      "learning_rate": 0.0001672237593366453,
      "loss": 1.5792,
      "step": 58245
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5660265684127808,
      "learning_rate": 0.00016721438673953623,
      "loss": 1.5598,
      "step": 58246
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5773209929466248,
      "learning_rate": 0.00016720501430360937,
      "loss": 1.5882,
      "step": 58247
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5643301606178284,
      "learning_rate": 0.0001671956420288762,
      "loss": 1.5321,
      "step": 58248
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5483889579772949,
      "learning_rate": 0.00016718626991534788,
      "loss": 1.4978,
      "step": 58249
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5554401278495789,
      "learning_rate": 0.0001671768979630358,
      "loss": 1.5662,
      "step": 58250
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5720456838607788,
      "learning_rate": 0.0001671675261719515,
      "loss": 1.5853,
      "step": 58251
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5651549696922302,
      "learning_rate": 0.0001671581545421062,
      "loss": 1.5272,
      "step": 58252
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5421571135520935,
      "learning_rate": 0.00016714878307351125,
      "loss": 1.4991,
      "step": 58253
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5594227910041809,
      "learning_rate": 0.0001671394117661781,
      "loss": 1.5858,
      "step": 58254
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.570999801158905,
      "learning_rate": 0.00016713004062011828,
      "loss": 1.5676,
      "step": 58255
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5664454698562622,
      "learning_rate": 0.00016712066963534298,
      "loss": 1.5969,
      "step": 58256
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5530932545661926,
      "learning_rate": 0.0001671112988118635,
      "loss": 1.5373,
      "step": 58257
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5594640970230103,
      "learning_rate": 0.00016710192814969142,
      "loss": 1.6159,
      "step": 58258
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.7467677593231201,
      "learning_rate": 0.00016709255764883803,
      "loss": 1.6807,
      "step": 58259
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6152884364128113,
      "learning_rate": 0.00016708318730931457,
      "loss": 1.5754,
      "step": 58260
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5804879665374756,
      "learning_rate": 0.00016707381713113254,
      "loss": 1.5514,
      "step": 58261
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5713565945625305,
      "learning_rate": 0.00016706444711430353,
      "loss": 1.4818,
      "step": 58262
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5674964785575867,
      "learning_rate": 0.00016705507725883848,
      "loss": 1.6223,
      "step": 58263
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.9378857612609863,
      "learning_rate": 0.000167045707564749,
      "loss": 1.5671,
      "step": 58264
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5611422657966614,
      "learning_rate": 0.0001670363380320465,
      "loss": 1.4999,
      "step": 58265
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5736093521118164,
      "learning_rate": 0.00016702696866074233,
      "loss": 1.5597,
      "step": 58266
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5645502805709839,
      "learning_rate": 0.00016701759945084773,
      "loss": 1.5792,
      "step": 58267
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5495385527610779,
      "learning_rate": 0.00016700823040237414,
      "loss": 1.5444,
      "step": 58268
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5457697510719299,
      "learning_rate": 0.0001669988615153332,
      "loss": 1.6068,
      "step": 58269
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5797211527824402,
      "learning_rate": 0.00016698949278973579,
      "loss": 1.5828,
      "step": 58270
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.561797022819519,
      "learning_rate": 0.0001669801242255936,
      "loss": 1.5436,
      "step": 58271
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5553230047225952,
      "learning_rate": 0.000166970755822918,
      "loss": 1.5969,
      "step": 58272
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5593560934066772,
      "learning_rate": 0.0001669613875817203,
      "loss": 1.5495,
      "step": 58273
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5455935597419739,
      "learning_rate": 0.0001669520195020118,
      "loss": 1.5526,
      "step": 58274
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5805431008338928,
      "learning_rate": 0.00016694265158380392,
      "loss": 1.544,
      "step": 58275
    },
    {
      "epoch": 1.94,
      "grad_norm": 1.0185235738754272,
      "learning_rate": 0.0001669332838271083,
      "loss": 1.5502,
      "step": 58276
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5753700733184814,
      "learning_rate": 0.0001669239162319358,
      "loss": 1.578,
      "step": 58277
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5961844325065613,
      "learning_rate": 0.0001669145487982981,
      "loss": 1.6342,
      "step": 58278
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.573315441608429,
      "learning_rate": 0.00016690518152620663,
      "loss": 1.5889,
      "step": 58279
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5522463917732239,
      "learning_rate": 0.00016689581441567264,
      "loss": 1.5786,
      "step": 58280
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5696801543235779,
      "learning_rate": 0.00016688644746670742,
      "loss": 1.4805,
      "step": 58281
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5925224423408508,
      "learning_rate": 0.00016687708067932255,
      "loss": 1.62,
      "step": 58282
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5566825270652771,
      "learning_rate": 0.00016686771405352932,
      "loss": 1.598,
      "step": 58283
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5574786067008972,
      "learning_rate": 0.00016685834758933888,
      "loss": 1.5669,
      "step": 58284
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5444649457931519,
      "learning_rate": 0.00016684898128676285,
      "loss": 1.5947,
      "step": 58285
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5554395318031311,
      "learning_rate": 0.00016683961514581269,
      "loss": 1.5635,
      "step": 58286
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5368454456329346,
      "learning_rate": 0.00016683024916649953,
      "loss": 1.5856,
      "step": 58287
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5443820953369141,
      "learning_rate": 0.00016682088334883473,
      "loss": 1.5815,
      "step": 58288
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.562980055809021,
      "learning_rate": 0.0001668115176928299,
      "loss": 1.5791,
      "step": 58289
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5774608254432678,
      "learning_rate": 0.00016680215219849626,
      "loss": 1.4904,
      "step": 58290
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.564495861530304,
      "learning_rate": 0.00016679278686584502,
      "loss": 1.5913,
      "step": 58291
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5721887350082397,
      "learning_rate": 0.0001667834216948879,
      "loss": 1.5605,
      "step": 58292
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5648596882820129,
      "learning_rate": 0.0001667740566856359,
      "loss": 1.58,
      "step": 58293
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5635817646980286,
      "learning_rate": 0.00016676469183810072,
      "loss": 1.6035,
      "step": 58294
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5731194615364075,
      "learning_rate": 0.00016675532715229344,
      "loss": 1.5326,
      "step": 58295
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5827165246009827,
      "learning_rate": 0.00016674596262822568,
      "loss": 1.5663,
      "step": 58296
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5760138034820557,
      "learning_rate": 0.00016673659826590867,
      "loss": 1.5812,
      "step": 58297
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5507847666740417,
      "learning_rate": 0.0001667272340653537,
      "loss": 1.5676,
      "step": 58298
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5839019417762756,
      "learning_rate": 0.00016671787002657233,
      "loss": 1.5983,
      "step": 58299
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.565049946308136,
      "learning_rate": 0.0001667085061495757,
      "loss": 1.4812,
      "step": 58300
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5990695357322693,
      "learning_rate": 0.00016669914243437546,
      "loss": 1.5825,
      "step": 58301
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5563521385192871,
      "learning_rate": 0.00016668977888098282,
      "loss": 1.5256,
      "step": 58302
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5727629661560059,
      "learning_rate": 0.00016668041548940902,
      "loss": 1.5917,
      "step": 58303
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5621649026870728,
      "learning_rate": 0.00016667105225966566,
      "loss": 1.5581,
      "step": 58304
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5707837343215942,
      "learning_rate": 0.00016666168919176388,
      "loss": 1.5585,
      "step": 58305
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5444926023483276,
      "learning_rate": 0.0001666523262857153,
      "loss": 1.6052,
      "step": 58306
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5611690282821655,
      "learning_rate": 0.00016664296354153098,
      "loss": 1.5611,
      "step": 58307
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5494904518127441,
      "learning_rate": 0.00016663360095922259,
      "loss": 1.5495,
      "step": 58308
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5745773911476135,
      "learning_rate": 0.00016662423853880135,
      "loss": 1.511,
      "step": 58309
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5662770867347717,
      "learning_rate": 0.00016661487628027855,
      "loss": 1.5982,
      "step": 58310
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5650931000709534,
      "learning_rate": 0.00016660551418366576,
      "loss": 1.5769,
      "step": 58311
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5618860721588135,
      "learning_rate": 0.00016659615224897415,
      "loss": 1.5419,
      "step": 58312
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.569202184677124,
      "learning_rate": 0.00016658679047621512,
      "loss": 1.6093,
      "step": 58313
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5502548813819885,
      "learning_rate": 0.00016657742886540004,
      "loss": 1.5992,
      "step": 58314
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5698827505111694,
      "learning_rate": 0.00016656806741654042,
      "loss": 1.5559,
      "step": 58315
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5490418672561646,
      "learning_rate": 0.0001665587061296475,
      "loss": 1.5154,
      "step": 58316
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5719952583312988,
      "learning_rate": 0.00016654934500473254,
      "loss": 1.495,
      "step": 58317
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5674634575843811,
      "learning_rate": 0.00016653998404180713,
      "loss": 1.5647,
      "step": 58318
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5652831792831421,
      "learning_rate": 0.00016653062324088248,
      "loss": 1.566,
      "step": 58319
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5920816659927368,
      "learning_rate": 0.00016652126260196991,
      "loss": 1.5522,
      "step": 58320
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5534911155700684,
      "learning_rate": 0.00016651190212508085,
      "loss": 1.539,
      "step": 58321
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.556082546710968,
      "learning_rate": 0.0001665025418102269,
      "loss": 1.5629,
      "step": 58322
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5329719185829163,
      "learning_rate": 0.00016649318165741896,
      "loss": 1.4769,
      "step": 58323
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6149724125862122,
      "learning_rate": 0.00016648382166666864,
      "loss": 1.5744,
      "step": 58324
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6063085794448853,
      "learning_rate": 0.00016647446183798737,
      "loss": 1.5898,
      "step": 58325
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5716283917427063,
      "learning_rate": 0.00016646510217138648,
      "loss": 1.4938,
      "step": 58326
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5844429731369019,
      "learning_rate": 0.00016645574266687714,
      "loss": 1.5839,
      "step": 58327
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5570676922798157,
      "learning_rate": 0.00016644638332447085,
      "loss": 1.4785,
      "step": 58328
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5918882489204407,
      "learning_rate": 0.00016643702414417908,
      "loss": 1.5098,
      "step": 58329
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5536914467811584,
      "learning_rate": 0.00016642766512601307,
      "loss": 1.5284,
      "step": 58330
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5711666941642761,
      "learning_rate": 0.00016641830626998414,
      "loss": 1.5878,
      "step": 58331
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5557565093040466,
      "learning_rate": 0.00016640894757610373,
      "loss": 1.531,
      "step": 58332
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.564988374710083,
      "learning_rate": 0.00016639958904438325,
      "loss": 1.4979,
      "step": 58333
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5728376507759094,
      "learning_rate": 0.00016639023067483382,
      "loss": 1.5163,
      "step": 58334
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5666301250457764,
      "learning_rate": 0.000166380872467467,
      "loss": 1.589,
      "step": 58335
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6011554598808289,
      "learning_rate": 0.00016637151442229421,
      "loss": 1.6024,
      "step": 58336
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.57757568359375,
      "learning_rate": 0.0001663621565393267,
      "loss": 1.5686,
      "step": 58337
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.593916118144989,
      "learning_rate": 0.00016635279881857575,
      "loss": 1.633,
      "step": 58338
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5640857815742493,
      "learning_rate": 0.00016634344126005294,
      "loss": 1.5475,
      "step": 58339
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.587549090385437,
      "learning_rate": 0.00016633408386376947,
      "loss": 1.5263,
      "step": 58340
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6036840677261353,
      "learning_rate": 0.00016632472662973658,
      "loss": 1.5969,
      "step": 58341
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5765833854675293,
      "learning_rate": 0.00016631536955796598,
      "loss": 1.5677,
      "step": 58342
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.555061936378479,
      "learning_rate": 0.00016630601264846863,
      "loss": 1.5241,
      "step": 58343
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5677815079689026,
      "learning_rate": 0.00016629665590125624,
      "loss": 1.5204,
      "step": 58344
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5772513151168823,
      "learning_rate": 0.00016628729931633988,
      "loss": 1.5123,
      "step": 58345
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.567300021648407,
      "learning_rate": 0.00016627794289373113,
      "loss": 1.5776,
      "step": 58346
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5699701309204102,
      "learning_rate": 0.00016626858663344127,
      "loss": 1.5833,
      "step": 58347
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5664283037185669,
      "learning_rate": 0.00016625923053548156,
      "loss": 1.5513,
      "step": 58348
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5550384521484375,
      "learning_rate": 0.00016624987459986352,
      "loss": 1.4826,
      "step": 58349
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5598904490470886,
      "learning_rate": 0.0001662405188265983,
      "loss": 1.6019,
      "step": 58350
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5630784034729004,
      "learning_rate": 0.00016623116321569752,
      "loss": 1.5343,
      "step": 58351
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5694521069526672,
      "learning_rate": 0.00016622180776717238,
      "loss": 1.5314,
      "step": 58352
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5580673217773438,
      "learning_rate": 0.0001662124524810342,
      "loss": 1.5764,
      "step": 58353
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5858309864997864,
      "learning_rate": 0.00016620309735729442,
      "loss": 1.5504,
      "step": 58354
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5454283356666565,
      "learning_rate": 0.00016619374239596426,
      "loss": 1.5602,
      "step": 58355
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5858842730522156,
      "learning_rate": 0.00016618438759705536,
      "loss": 1.5297,
      "step": 58356
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5670038461685181,
      "learning_rate": 0.0001661750329605787,
      "loss": 1.5737,
      "step": 58357
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5693443417549133,
      "learning_rate": 0.00016616567848654602,
      "loss": 1.6109,
      "step": 58358
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5421099662780762,
      "learning_rate": 0.00016615632417496846,
      "loss": 1.5457,
      "step": 58359
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5735982060432434,
      "learning_rate": 0.0001661469700258573,
      "loss": 1.5496,
      "step": 58360
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5839241743087769,
      "learning_rate": 0.0001661376160392241,
      "loss": 1.5407,
      "step": 58361
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5610143542289734,
      "learning_rate": 0.00016612826221508009,
      "loss": 1.5992,
      "step": 58362
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5563923120498657,
      "learning_rate": 0.00016611890855343654,
      "loss": 1.5618,
      "step": 58363
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5620417594909668,
      "learning_rate": 0.00016610955505430488,
      "loss": 1.544,
      "step": 58364
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5479145050048828,
      "learning_rate": 0.00016610020171769666,
      "loss": 1.5307,
      "step": 58365
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5298510193824768,
      "learning_rate": 0.00016609084854362304,
      "loss": 1.5318,
      "step": 58366
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5665091872215271,
      "learning_rate": 0.0001660814955320953,
      "loss": 1.5621,
      "step": 58367
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5642409324645996,
      "learning_rate": 0.00016607214268312502,
      "loss": 1.5621,
      "step": 58368
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5685757398605347,
      "learning_rate": 0.00016606278999672336,
      "loss": 1.527,
      "step": 58369
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5819609761238098,
      "learning_rate": 0.00016605343747290167,
      "loss": 1.5536,
      "step": 58370
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5507137179374695,
      "learning_rate": 0.00016604408511167136,
      "loss": 1.5651,
      "step": 58371
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5622031688690186,
      "learning_rate": 0.00016603473291304405,
      "loss": 1.5316,
      "step": 58372
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5578171610832214,
      "learning_rate": 0.00016602538087703055,
      "loss": 1.5565,
      "step": 58373
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5779209136962891,
      "learning_rate": 0.00016601602900364254,
      "loss": 1.5287,
      "step": 58374
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.577893078327179,
      "learning_rate": 0.00016600667729289146,
      "loss": 1.5518,
      "step": 58375
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5788909792900085,
      "learning_rate": 0.00016599732574478851,
      "loss": 1.5709,
      "step": 58376
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5632184147834778,
      "learning_rate": 0.00016598797435934495,
      "loss": 1.5657,
      "step": 58377
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5649958848953247,
      "learning_rate": 0.0001659786231365722,
      "loss": 1.5547,
      "step": 58378
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5740151405334473,
      "learning_rate": 0.00016596927207648197,
      "loss": 1.5686,
      "step": 58379
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5858817100524902,
      "learning_rate": 0.000165959921179085,
      "loss": 1.542,
      "step": 58380
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5744674801826477,
      "learning_rate": 0.00016595057044439294,
      "loss": 1.5749,
      "step": 58381
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5745276212692261,
      "learning_rate": 0.00016594121987241727,
      "loss": 1.6515,
      "step": 58382
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5589239001274109,
      "learning_rate": 0.00016593186946316923,
      "loss": 1.5007,
      "step": 58383
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5690070390701294,
      "learning_rate": 0.00016592251921665997,
      "loss": 1.5979,
      "step": 58384
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5553210973739624,
      "learning_rate": 0.00016591316913290108,
      "loss": 1.6003,
      "step": 58385
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5647827982902527,
      "learning_rate": 0.00016590381921190403,
      "loss": 1.6214,
      "step": 58386
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.573231041431427,
      "learning_rate": 0.0001658944694536798,
      "loss": 1.5515,
      "step": 58387
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5631442070007324,
      "learning_rate": 0.00016588511985823987,
      "loss": 1.5224,
      "step": 58388
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5561369061470032,
      "learning_rate": 0.00016587577042559578,
      "loss": 1.5291,
      "step": 58389
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5560776591300964,
      "learning_rate": 0.00016586642115575873,
      "loss": 1.581,
      "step": 58390
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5620633363723755,
      "learning_rate": 0.00016585707204874,
      "loss": 1.5022,
      "step": 58391
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5329729914665222,
      "learning_rate": 0.00016584772310455098,
      "loss": 1.5578,
      "step": 58392
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5658174753189087,
      "learning_rate": 0.00016583837432320331,
      "loss": 1.4979,
      "step": 58393
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5719088315963745,
      "learning_rate": 0.00016582902570470785,
      "loss": 1.5104,
      "step": 58394
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5878902673721313,
      "learning_rate": 0.00016581967724907618,
      "loss": 1.6069,
      "step": 58395
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5696114897727966,
      "learning_rate": 0.00016581032895631983,
      "loss": 1.6203,
      "step": 58396
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5640227198600769,
      "learning_rate": 0.0001658009808264499,
      "loss": 1.5274,
      "step": 58397
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5846408009529114,
      "learning_rate": 0.00016579163285947767,
      "loss": 1.609,
      "step": 58398
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.561064600944519,
      "learning_rate": 0.0001657822850554148,
      "loss": 1.5299,
      "step": 58399
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5581198334693909,
      "learning_rate": 0.00016577293741427244,
      "loss": 1.585,
      "step": 58400
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5705081820487976,
      "learning_rate": 0.0001657635899360618,
      "loss": 1.5556,
      "step": 58401
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6007959246635437,
      "learning_rate": 0.00016575424262079444,
      "loss": 1.611,
      "step": 58402
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.578851044178009,
      "learning_rate": 0.00016574489546848173,
      "loss": 1.5561,
      "step": 58403
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5807566046714783,
      "learning_rate": 0.00016573554847913496,
      "loss": 1.5488,
      "step": 58404
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5586240291595459,
      "learning_rate": 0.0001657262016527653,
      "loss": 1.5594,
      "step": 58405
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5724544525146484,
      "learning_rate": 0.00016571685498938438,
      "loss": 1.5994,
      "step": 58406
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5466641783714294,
      "learning_rate": 0.00016570750848900344,
      "loss": 1.6662,
      "step": 58407
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5753405690193176,
      "learning_rate": 0.00016569816215163366,
      "loss": 1.5104,
      "step": 58408
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5626980662345886,
      "learning_rate": 0.00016568881597728665,
      "loss": 1.5898,
      "step": 58409
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5776445865631104,
      "learning_rate": 0.00016567946996597348,
      "loss": 1.6047,
      "step": 58410
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5477243661880493,
      "learning_rate": 0.00016567012411770578,
      "loss": 1.51,
      "step": 58411
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5534215569496155,
      "learning_rate": 0.00016566077843249466,
      "loss": 1.5416,
      "step": 58412
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5579549670219421,
      "learning_rate": 0.00016565143291035164,
      "loss": 1.5511,
      "step": 58413
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.569879949092865,
      "learning_rate": 0.000165642087551288,
      "loss": 1.6421,
      "step": 58414
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5492658019065857,
      "learning_rate": 0.00016563274235531497,
      "loss": 1.5624,
      "step": 58415
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5880005359649658,
      "learning_rate": 0.0001656233973224441,
      "loss": 1.5765,
      "step": 58416
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5674818754196167,
      "learning_rate": 0.0001656140524526865,
      "loss": 1.6105,
      "step": 58417
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5657401084899902,
      "learning_rate": 0.00016560470774605373,
      "loss": 1.5421,
      "step": 58418
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5417495965957642,
      "learning_rate": 0.00016559536320255708,
      "loss": 1.5255,
      "step": 58419
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5682148933410645,
      "learning_rate": 0.00016558601882220775,
      "loss": 1.5659,
      "step": 58420
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5701671838760376,
      "learning_rate": 0.00016557667460501726,
      "loss": 1.631,
      "step": 58421
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5833496451377869,
      "learning_rate": 0.0001655673305509968,
      "loss": 1.6106,
      "step": 58422
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5764589309692383,
      "learning_rate": 0.0001655579866601579,
      "loss": 1.5888,
      "step": 58423
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.554738461971283,
      "learning_rate": 0.00016554864293251168,
      "loss": 1.555,
      "step": 58424
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.561286211013794,
      "learning_rate": 0.0001655392993680697,
      "loss": 1.59,
      "step": 58425
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5732908248901367,
      "learning_rate": 0.0001655299559668432,
      "loss": 1.5954,
      "step": 58426
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.57261061668396,
      "learning_rate": 0.0001655206127288434,
      "loss": 1.5763,
      "step": 58427
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5489752292633057,
      "learning_rate": 0.0001655112696540819,
      "loss": 1.54,
      "step": 58428
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5549151301383972,
      "learning_rate": 0.0001655019267425699,
      "loss": 1.4788,
      "step": 58429
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5551939010620117,
      "learning_rate": 0.00016549258399431864,
      "loss": 1.5664,
      "step": 58430
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5617687106132507,
      "learning_rate": 0.00016548324140933953,
      "loss": 1.585,
      "step": 58431
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5538092255592346,
      "learning_rate": 0.00016547389898764409,
      "loss": 1.5801,
      "step": 58432
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5766035914421082,
      "learning_rate": 0.00016546455672924348,
      "loss": 1.5262,
      "step": 58433
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.57137131690979,
      "learning_rate": 0.00016545521463414898,
      "loss": 1.5283,
      "step": 58434
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5677393674850464,
      "learning_rate": 0.00016544587270237216,
      "loss": 1.5971,
      "step": 58435
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5682666301727295,
      "learning_rate": 0.00016543653093392422,
      "loss": 1.5441,
      "step": 58436
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5724014639854431,
      "learning_rate": 0.00016542718932881635,
      "loss": 1.5923,
      "step": 58437
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5691803693771362,
      "learning_rate": 0.00016541784788706007,
      "loss": 1.5736,
      "step": 58438
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5948725342750549,
      "learning_rate": 0.00016540850660866694,
      "loss": 1.5575,
      "step": 58439
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5473998785018921,
      "learning_rate": 0.0001653991654936478,
      "loss": 1.5314,
      "step": 58440
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5707848072052002,
      "learning_rate": 0.00016538982454201423,
      "loss": 1.5921,
      "step": 58441
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5318762063980103,
      "learning_rate": 0.00016538048375377772,
      "loss": 1.533,
      "step": 58442
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5679415464401245,
      "learning_rate": 0.00016537114312894946,
      "loss": 1.517,
      "step": 58443
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5597149729728699,
      "learning_rate": 0.00016536180266754066,
      "loss": 1.5587,
      "step": 58444
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5480535626411438,
      "learning_rate": 0.00016535246236956281,
      "loss": 1.6111,
      "step": 58445
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5865156054496765,
      "learning_rate": 0.00016534312223502734,
      "loss": 1.5466,
      "step": 58446
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.565500020980835,
      "learning_rate": 0.00016533378226394547,
      "loss": 1.5826,
      "step": 58447
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5703924298286438,
      "learning_rate": 0.00016532444245632847,
      "loss": 1.5059,
      "step": 58448
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5590955018997192,
      "learning_rate": 0.00016531510281218783,
      "loss": 1.5118,
      "step": 58449
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5820955634117126,
      "learning_rate": 0.00016530576333153484,
      "loss": 1.5856,
      "step": 58450
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5947436690330505,
      "learning_rate": 0.00016529642401438068,
      "loss": 1.4804,
      "step": 58451
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5602269768714905,
      "learning_rate": 0.00016528708486073678,
      "loss": 1.5206,
      "step": 58452
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5663877129554749,
      "learning_rate": 0.0001652777458706147,
      "loss": 1.4937,
      "step": 58453
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5738682746887207,
      "learning_rate": 0.0001652684070440255,
      "loss": 1.536,
      "step": 58454
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5821371674537659,
      "learning_rate": 0.00016525906838098055,
      "loss": 1.5657,
      "step": 58455
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5541070103645325,
      "learning_rate": 0.00016524972988149134,
      "loss": 1.5482,
      "step": 58456
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5482763051986694,
      "learning_rate": 0.00016524039154556906,
      "loss": 1.5392,
      "step": 58457
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.561551034450531,
      "learning_rate": 0.000165231053373225,
      "loss": 1.5548,
      "step": 58458
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5561949610710144,
      "learning_rate": 0.00016522171536447074,
      "loss": 1.6073,
      "step": 58459
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5755251049995422,
      "learning_rate": 0.00016521237751931732,
      "loss": 1.6546,
      "step": 58460
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5725117921829224,
      "learning_rate": 0.00016520303983777633,
      "loss": 1.5827,
      "step": 58461
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5724590420722961,
      "learning_rate": 0.00016519370231985887,
      "loss": 1.5134,
      "step": 58462
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5636895895004272,
      "learning_rate": 0.0001651843649655765,
      "loss": 1.5476,
      "step": 58463
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5552214980125427,
      "learning_rate": 0.00016517502777494043,
      "loss": 1.5263,
      "step": 58464
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5588991641998291,
      "learning_rate": 0.00016516569074796192,
      "loss": 1.572,
      "step": 58465
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6134957075119019,
      "learning_rate": 0.0001651563538846525,
      "loss": 1.6359,
      "step": 58466
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5860870480537415,
      "learning_rate": 0.0001651470171850233,
      "loss": 1.5485,
      "step": 58467
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5633953809738159,
      "learning_rate": 0.00016513768064908586,
      "loss": 1.6073,
      "step": 58468
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5750390887260437,
      "learning_rate": 0.0001651283442768514,
      "loss": 1.6238,
      "step": 58469
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5636795163154602,
      "learning_rate": 0.0001651190080683311,
      "loss": 1.515,
      "step": 58470
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5962211489677429,
      "learning_rate": 0.0001651096720235366,
      "loss": 1.6004,
      "step": 58471
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.561244010925293,
      "learning_rate": 0.00016510033614247898,
      "loss": 1.5457,
      "step": 58472
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5694594383239746,
      "learning_rate": 0.0001650910004251698,
      "loss": 1.4991,
      "step": 58473
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.55631422996521,
      "learning_rate": 0.00016508166487162016,
      "loss": 1.5657,
      "step": 58474
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5655820965766907,
      "learning_rate": 0.00016507232948184154,
      "loss": 1.6042,
      "step": 58475
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5503550171852112,
      "learning_rate": 0.00016506299425584532,
      "loss": 1.5888,
      "step": 58476
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5674259066581726,
      "learning_rate": 0.0001650536591936426,
      "loss": 1.5685,
      "step": 58477
    },
    {
      "epoch": 1.95,
      "grad_norm": 1.163148283958435,
      "learning_rate": 0.00016504432429524494,
      "loss": 1.5465,
      "step": 58478
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5683576464653015,
      "learning_rate": 0.00016503498956066363,
      "loss": 1.5511,
      "step": 58479
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5698016285896301,
      "learning_rate": 0.00016502565498990982,
      "loss": 1.5601,
      "step": 58480
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5587196946144104,
      "learning_rate": 0.00016501632058299492,
      "loss": 1.5784,
      "step": 58481
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.545501708984375,
      "learning_rate": 0.0001650069863399305,
      "loss": 1.5602,
      "step": 58482
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5451430082321167,
      "learning_rate": 0.00016499765226072772,
      "loss": 1.5713,
      "step": 58483
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5712610483169556,
      "learning_rate": 0.00016498831834539776,
      "loss": 1.5217,
      "step": 58484
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5402578711509705,
      "learning_rate": 0.0001649789845939522,
      "loss": 1.5701,
      "step": 58485
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5464503765106201,
      "learning_rate": 0.00016496965100640224,
      "loss": 1.4756,
      "step": 58486
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5738800168037415,
      "learning_rate": 0.00016496031758275916,
      "loss": 1.5802,
      "step": 58487
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5611288547515869,
      "learning_rate": 0.00016495098432303432,
      "loss": 1.4584,
      "step": 58488
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5542324185371399,
      "learning_rate": 0.00016494165122723934,
      "loss": 1.5669,
      "step": 58489
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5641247630119324,
      "learning_rate": 0.00016493231829538504,
      "loss": 1.5772,
      "step": 58490
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5542107820510864,
      "learning_rate": 0.00016492298552748302,
      "loss": 1.5132,
      "step": 58491
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5890630483627319,
      "learning_rate": 0.0001649136529235447,
      "loss": 1.5515,
      "step": 58492
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5879642367362976,
      "learning_rate": 0.0001649043204835813,
      "loss": 1.5263,
      "step": 58493
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5601397752761841,
      "learning_rate": 0.00016489498820760405,
      "loss": 1.5479,
      "step": 58494
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5590718984603882,
      "learning_rate": 0.00016488565609562434,
      "loss": 1.503,
      "step": 58495
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5638749599456787,
      "learning_rate": 0.00016487632414765384,
      "loss": 1.6231,
      "step": 58496
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5814268589019775,
      "learning_rate": 0.00016486699236370326,
      "loss": 1.5283,
      "step": 58497
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5942817330360413,
      "learning_rate": 0.00016485766074378428,
      "loss": 1.5126,
      "step": 58498
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5766581296920776,
      "learning_rate": 0.00016484832928790832,
      "loss": 1.5036,
      "step": 58499
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6992983222007751,
      "learning_rate": 0.00016483899799608654,
      "loss": 1.5573,
      "step": 58500
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5582371950149536,
      "learning_rate": 0.00016482966686833021,
      "loss": 1.5408,
      "step": 58501
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5950233936309814,
      "learning_rate": 0.0001648203359046507,
      "loss": 1.5743,
      "step": 58502
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5994173884391785,
      "learning_rate": 0.00016481100510505966,
      "loss": 1.503,
      "step": 58503
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5763571262359619,
      "learning_rate": 0.00016480167446956796,
      "loss": 1.63,
      "step": 58504
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.583734393119812,
      "learning_rate": 0.00016479234399818704,
      "loss": 1.6634,
      "step": 58505
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5825437307357788,
      "learning_rate": 0.0001647830136909284,
      "loss": 1.5741,
      "step": 58506
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5556825399398804,
      "learning_rate": 0.00016477368354780327,
      "loss": 1.4976,
      "step": 58507
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5872571468353271,
      "learning_rate": 0.00016476435356882287,
      "loss": 1.584,
      "step": 58508
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5576691031455994,
      "learning_rate": 0.0001647550237539986,
      "loss": 1.5749,
      "step": 58509
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5731660723686218,
      "learning_rate": 0.00016474569410334202,
      "loss": 1.5752,
      "step": 58510
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5648959279060364,
      "learning_rate": 0.00016473636461686403,
      "loss": 1.5807,
      "step": 58511
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5453709959983826,
      "learning_rate": 0.00016472703529457616,
      "loss": 1.5325,
      "step": 58512
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5912986397743225,
      "learning_rate": 0.00016471770613648985,
      "loss": 1.6212,
      "step": 58513
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5763659477233887,
      "learning_rate": 0.00016470837714261633,
      "loss": 1.5398,
      "step": 58514
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5660483837127686,
      "learning_rate": 0.00016469904831296678,
      "loss": 1.5626,
      "step": 58515
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.575032651424408,
      "learning_rate": 0.00016468971964755274,
      "loss": 1.5902,
      "step": 58516
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5587285757064819,
      "learning_rate": 0.00016468039114638544,
      "loss": 1.6127,
      "step": 58517
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5894187688827515,
      "learning_rate": 0.00016467106280947612,
      "loss": 1.6173,
      "step": 58518
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6086218357086182,
      "learning_rate": 0.0001646617346368362,
      "loss": 1.5517,
      "step": 58519
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5669047236442566,
      "learning_rate": 0.0001646524066284771,
      "loss": 1.6084,
      "step": 58520
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5658162832260132,
      "learning_rate": 0.00016464307878441003,
      "loss": 1.5368,
      "step": 58521
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5573652982711792,
      "learning_rate": 0.0001646337511046462,
      "loss": 1.5345,
      "step": 58522
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5588682889938354,
      "learning_rate": 0.00016462442358919718,
      "loss": 1.5591,
      "step": 58523
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5482498407363892,
      "learning_rate": 0.0001646150962380741,
      "loss": 1.5819,
      "step": 58524
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.584454357624054,
      "learning_rate": 0.00016460576905128832,
      "loss": 1.57,
      "step": 58525
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5670577883720398,
      "learning_rate": 0.00016459644202885127,
      "loss": 1.5996,
      "step": 58526
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5327395796775818,
      "learning_rate": 0.00016458711517077404,
      "loss": 1.4939,
      "step": 58527
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5785083770751953,
      "learning_rate": 0.00016457778847706826,
      "loss": 1.5709,
      "step": 58528
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5681997537612915,
      "learning_rate": 0.00016456846194774495,
      "loss": 1.5811,
      "step": 58529
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5578685402870178,
      "learning_rate": 0.0001645591355828157,
      "loss": 1.5746,
      "step": 58530
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5519601702690125,
      "learning_rate": 0.00016454980938229168,
      "loss": 1.5374,
      "step": 58531
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5500534176826477,
      "learning_rate": 0.00016454048334618412,
      "loss": 1.5943,
      "step": 58532
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.562961757183075,
      "learning_rate": 0.00016453115747450461,
      "loss": 1.6665,
      "step": 58533
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5512853860855103,
      "learning_rate": 0.0001645218317672642,
      "loss": 1.5332,
      "step": 58534
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5624000430107117,
      "learning_rate": 0.0001645125062244744,
      "loss": 1.5809,
      "step": 58535
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5619150996208191,
      "learning_rate": 0.00016450318084614647,
      "loss": 1.5207,
      "step": 58536
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5615173578262329,
      "learning_rate": 0.0001644938556322916,
      "loss": 1.527,
      "step": 58537
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5487005710601807,
      "learning_rate": 0.00016448453058292135,
      "loss": 1.5789,
      "step": 58538
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5824224948883057,
      "learning_rate": 0.00016447520569804676,
      "loss": 1.5455,
      "step": 58539
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.601759135723114,
      "learning_rate": 0.00016446588097767943,
      "loss": 1.6774,
      "step": 58540
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5780076384544373,
      "learning_rate": 0.00016445655642183043,
      "loss": 1.5157,
      "step": 58541
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5692976117134094,
      "learning_rate": 0.00016444723203051133,
      "loss": 1.6095,
      "step": 58542
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5674670338630676,
      "learning_rate": 0.00016443790780373336,
      "loss": 1.5686,
      "step": 58543
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5563576221466064,
      "learning_rate": 0.00016442858374150762,
      "loss": 1.5881,
      "step": 58544
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5420478582382202,
      "learning_rate": 0.00016441925984384573,
      "loss": 1.5521,
      "step": 58545
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5508012175559998,
      "learning_rate": 0.0001644099361107589,
      "loss": 1.6004,
      "step": 58546
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5770720839500427,
      "learning_rate": 0.0001644006125422583,
      "loss": 1.5286,
      "step": 58547
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5838249921798706,
      "learning_rate": 0.00016439128913835535,
      "loss": 1.5517,
      "step": 58548
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.57915860414505,
      "learning_rate": 0.00016438196589906154,
      "loss": 1.5982,
      "step": 58549
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5423866510391235,
      "learning_rate": 0.00016437264282438807,
      "loss": 1.5528,
      "step": 58550
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5604317784309387,
      "learning_rate": 0.00016436331991434607,
      "loss": 1.5816,
      "step": 58551
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5506862998008728,
      "learning_rate": 0.00016435399716894716,
      "loss": 1.5893,
      "step": 58552
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5760011076927185,
      "learning_rate": 0.00016434467458820246,
      "loss": 1.5937,
      "step": 58553
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5579552054405212,
      "learning_rate": 0.00016433535217212327,
      "loss": 1.5966,
      "step": 58554
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.552823543548584,
      "learning_rate": 0.00016432602992072094,
      "loss": 1.5933,
      "step": 58555
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.568682849407196,
      "learning_rate": 0.000164316707834007,
      "loss": 1.5267,
      "step": 58556
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5569257140159607,
      "learning_rate": 0.0001643073859119925,
      "loss": 1.4953,
      "step": 58557
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.566156804561615,
      "learning_rate": 0.00016429806415468875,
      "loss": 1.5889,
      "step": 58558
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5617183446884155,
      "learning_rate": 0.0001642887425621073,
      "loss": 1.536,
      "step": 58559
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5718981623649597,
      "learning_rate": 0.00016427942113425933,
      "loss": 1.5282,
      "step": 58560
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5539913177490234,
      "learning_rate": 0.000164270099871156,
      "loss": 1.5916,
      "step": 58561
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5515062808990479,
      "learning_rate": 0.00016426077877280875,
      "loss": 1.5875,
      "step": 58562
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5770717263221741,
      "learning_rate": 0.00016425145783922906,
      "loss": 1.5044,
      "step": 58563
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5866332650184631,
      "learning_rate": 0.0001642421370704281,
      "loss": 1.5329,
      "step": 58564
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5554857850074768,
      "learning_rate": 0.00016423281646641704,
      "loss": 1.6176,
      "step": 58565
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5770606398582458,
      "learning_rate": 0.00016422349602720747,
      "loss": 1.5979,
      "step": 58566
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5793170928955078,
      "learning_rate": 0.0001642141757528106,
      "loss": 1.5126,
      "step": 58567
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.570264995098114,
      "learning_rate": 0.00016420485564323754,
      "loss": 1.5781,
      "step": 58568
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5714977383613586,
      "learning_rate": 0.0001641955356984998,
      "loss": 1.641,
      "step": 58569
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5691463351249695,
      "learning_rate": 0.0001641862159186088,
      "loss": 1.5237,
      "step": 58570
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5730463266372681,
      "learning_rate": 0.00016417689630357572,
      "loss": 1.5906,
      "step": 58571
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5909193754196167,
      "learning_rate": 0.00016416757685341175,
      "loss": 1.5588,
      "step": 58572
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.564511775970459,
      "learning_rate": 0.00016415825756812844,
      "loss": 1.5227,
      "step": 58573
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5607336163520813,
      "learning_rate": 0.000164148938447737,
      "loss": 1.582,
      "step": 58574
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5642030835151672,
      "learning_rate": 0.00016413961949224862,
      "loss": 1.6042,
      "step": 58575
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5573698878288269,
      "learning_rate": 0.0001641303007016748,
      "loss": 1.5197,
      "step": 58576
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5507778525352478,
      "learning_rate": 0.00016412098207602672,
      "loss": 1.5168,
      "step": 58577
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5572803616523743,
      "learning_rate": 0.00016411166361531584,
      "loss": 1.5237,
      "step": 58578
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5551857948303223,
      "learning_rate": 0.00016410234531955326,
      "loss": 1.5428,
      "step": 58579
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5704299211502075,
      "learning_rate": 0.0001640930271887505,
      "loss": 1.5356,
      "step": 58580
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5803528428077698,
      "learning_rate": 0.00016408370922291882,
      "loss": 1.4717,
      "step": 58581
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5686018466949463,
      "learning_rate": 0.00016407439142206935,
      "loss": 1.5365,
      "step": 58582
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.568867027759552,
      "learning_rate": 0.00016406507378621368,
      "loss": 1.5664,
      "step": 58583
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5500299334526062,
      "learning_rate": 0.00016405575631536285,
      "loss": 1.488,
      "step": 58584
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5764523148536682,
      "learning_rate": 0.0001640464390095284,
      "loss": 1.5689,
      "step": 58585
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5614601969718933,
      "learning_rate": 0.00016403712186872156,
      "loss": 1.5583,
      "step": 58586
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5835941433906555,
      "learning_rate": 0.0001640278048929535,
      "loss": 1.5859,
      "step": 58587
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5775223970413208,
      "learning_rate": 0.00016401848808223577,
      "loss": 1.4954,
      "step": 58588
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5810876488685608,
      "learning_rate": 0.00016400917143657943,
      "loss": 1.5589,
      "step": 58589
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.573609471321106,
      "learning_rate": 0.00016399985495599607,
      "loss": 1.5396,
      "step": 58590
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5437923669815063,
      "learning_rate": 0.00016399053864049671,
      "loss": 1.4968,
      "step": 58591
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.568367063999176,
      "learning_rate": 0.0001639812224900929,
      "loss": 1.5298,
      "step": 58592
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6152286529541016,
      "learning_rate": 0.00016397190650479588,
      "loss": 1.5915,
      "step": 58593
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5610873699188232,
      "learning_rate": 0.00016396259068461675,
      "loss": 1.5935,
      "step": 58594
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5639090538024902,
      "learning_rate": 0.00016395327502956712,
      "loss": 1.517,
      "step": 58595
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5709288716316223,
      "learning_rate": 0.0001639439595396582,
      "loss": 1.6382,
      "step": 58596
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.566207230091095,
      "learning_rate": 0.00016393464421490117,
      "loss": 1.5912,
      "step": 58597
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5759530067443848,
      "learning_rate": 0.00016392532905530738,
      "loss": 1.5055,
      "step": 58598
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5747494697570801,
      "learning_rate": 0.00016391601406088834,
      "loss": 1.6352,
      "step": 58599
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5546209812164307,
      "learning_rate": 0.0001639066992316552,
      "loss": 1.5926,
      "step": 58600
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5704510807991028,
      "learning_rate": 0.00016389738456761913,
      "loss": 1.5475,
      "step": 58601
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5403163433074951,
      "learning_rate": 0.00016388807006879175,
      "loss": 1.5018,
      "step": 58602
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5804135203361511,
      "learning_rate": 0.00016387875573518415,
      "loss": 1.5843,
      "step": 58603
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5743637084960938,
      "learning_rate": 0.00016386944156680756,
      "loss": 1.5236,
      "step": 58604
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5656684637069702,
      "learning_rate": 0.00016386012756367348,
      "loss": 1.5179,
      "step": 58605
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.593271017074585,
      "learning_rate": 0.00016385081372579334,
      "loss": 1.4963,
      "step": 58606
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5616790056228638,
      "learning_rate": 0.000163841500053178,
      "loss": 1.6223,
      "step": 58607
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5588277578353882,
      "learning_rate": 0.000163832186545839,
      "loss": 1.5667,
      "step": 58608
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.578251302242279,
      "learning_rate": 0.00016382287320378783,
      "loss": 1.6742,
      "step": 58609
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5659490823745728,
      "learning_rate": 0.00016381356002703564,
      "loss": 1.566,
      "step": 58610
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5899920463562012,
      "learning_rate": 0.00016380424701559353,
      "loss": 1.5253,
      "step": 58611
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.569534420967102,
      "learning_rate": 0.00016379493416947307,
      "loss": 1.5499,
      "step": 58612
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.570711076259613,
      "learning_rate": 0.0001637856214886857,
      "loss": 1.5922,
      "step": 58613
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5555405616760254,
      "learning_rate": 0.00016377630897324223,
      "loss": 1.579,
      "step": 58614
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5546380281448364,
      "learning_rate": 0.00016376699662315431,
      "loss": 1.6096,
      "step": 58615
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5458528399467468,
      "learning_rate": 0.0001637576844384333,
      "loss": 1.6184,
      "step": 58616
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5795709490776062,
      "learning_rate": 0.00016374837241909035,
      "loss": 1.5849,
      "step": 58617
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5991538763046265,
      "learning_rate": 0.0001637390605651367,
      "loss": 1.6297,
      "step": 58618
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5476183891296387,
      "learning_rate": 0.00016372974887658378,
      "loss": 1.521,
      "step": 58619
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5483514666557312,
      "learning_rate": 0.00016372043735344308,
      "loss": 1.5599,
      "step": 58620
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5830333232879639,
      "learning_rate": 0.00016371112599572547,
      "loss": 1.6058,
      "step": 58621
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5654107928276062,
      "learning_rate": 0.00016370181480344242,
      "loss": 1.5701,
      "step": 58622
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5630548596382141,
      "learning_rate": 0.00016369250377660545,
      "loss": 1.5307,
      "step": 58623
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5755164623260498,
      "learning_rate": 0.0001636831929152257,
      "loss": 1.5556,
      "step": 58624
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5423299670219421,
      "learning_rate": 0.0001636738822193143,
      "loss": 1.5868,
      "step": 58625
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5643364787101746,
      "learning_rate": 0.00016366457168888278,
      "loss": 1.5369,
      "step": 58626
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5531570315361023,
      "learning_rate": 0.0001636552613239426,
      "loss": 1.4464,
      "step": 58627
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5717447400093079,
      "learning_rate": 0.0001636459511245046,
      "loss": 1.6058,
      "step": 58628
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5564850568771362,
      "learning_rate": 0.00016363664109058032,
      "loss": 1.6332,
      "step": 58629
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5473994612693787,
      "learning_rate": 0.00016362733122218118,
      "loss": 1.5278,
      "step": 58630
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5659691691398621,
      "learning_rate": 0.0001636180215193184,
      "loss": 1.5767,
      "step": 58631
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5433309078216553,
      "learning_rate": 0.0001636087119820031,
      "loss": 1.5681,
      "step": 58632
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5550873875617981,
      "learning_rate": 0.00016359940261024682,
      "loss": 1.5773,
      "step": 58633
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5694823861122131,
      "learning_rate": 0.0001635900934040608,
      "loss": 1.4984,
      "step": 58634
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5534876585006714,
      "learning_rate": 0.00016358078436345621,
      "loss": 1.5587,
      "step": 58635
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5608587861061096,
      "learning_rate": 0.00016357147548844438,
      "loss": 1.6539,
      "step": 58636
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.570737898349762,
      "learning_rate": 0.00016356216677903686,
      "loss": 1.5418,
      "step": 58637
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5609465837478638,
      "learning_rate": 0.00016355285823524475,
      "loss": 1.6344,
      "step": 58638
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5864366292953491,
      "learning_rate": 0.00016354354985707924,
      "loss": 1.5206,
      "step": 58639
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5674099922180176,
      "learning_rate": 0.0001635342416445519,
      "loss": 1.5613,
      "step": 58640
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5513630509376526,
      "learning_rate": 0.00016352493359767382,
      "loss": 1.5312,
      "step": 58641
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5688014626502991,
      "learning_rate": 0.00016351562571645628,
      "loss": 1.514,
      "step": 58642
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5520510077476501,
      "learning_rate": 0.00016350631800091082,
      "loss": 1.5505,
      "step": 58643
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5874805450439453,
      "learning_rate": 0.00016349701045104836,
      "loss": 1.5281,
      "step": 58644
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5699540376663208,
      "learning_rate": 0.00016348770306688062,
      "loss": 1.4998,
      "step": 58645
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5593299865722656,
      "learning_rate": 0.00016347839584841852,
      "loss": 1.5568,
      "step": 58646
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5615023970603943,
      "learning_rate": 0.0001634690887956737,
      "loss": 1.5519,
      "step": 58647
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5614070892333984,
      "learning_rate": 0.00016345978190865728,
      "loss": 1.5842,
      "step": 58648
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5566934943199158,
      "learning_rate": 0.00016345047518738045,
      "loss": 1.5773,
      "step": 58649
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5683048963546753,
      "learning_rate": 0.00016344116863185472,
      "loss": 1.603,
      "step": 58650
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5530217289924622,
      "learning_rate": 0.00016343186224209116,
      "loss": 1.5842,
      "step": 58651
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5775623321533203,
      "learning_rate": 0.00016342255601810133,
      "loss": 1.5035,
      "step": 58652
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5781108736991882,
      "learning_rate": 0.00016341324995989645,
      "loss": 1.5278,
      "step": 58653
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.569402813911438,
      "learning_rate": 0.00016340394406748758,
      "loss": 1.5618,
      "step": 58654
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.56125408411026,
      "learning_rate": 0.0001633946383408863,
      "loss": 1.5442,
      "step": 58655
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5802640318870544,
      "learning_rate": 0.00016338533278010376,
      "loss": 1.5397,
      "step": 58656
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.576161801815033,
      "learning_rate": 0.00016337602738515132,
      "loss": 1.5974,
      "step": 58657
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5579482316970825,
      "learning_rate": 0.00016336672215604017,
      "loss": 1.5869,
      "step": 58658
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5567758083343506,
      "learning_rate": 0.00016335741709278185,
      "loss": 1.5627,
      "step": 58659
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5576255321502686,
      "learning_rate": 0.00016334811219538746,
      "loss": 1.5125,
      "step": 58660
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5508855581283569,
      "learning_rate": 0.00016333880746386822,
      "loss": 1.5533,
      "step": 58661
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.558481752872467,
      "learning_rate": 0.0001633295028982356,
      "loss": 1.6704,
      "step": 58662
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5728703141212463,
      "learning_rate": 0.00016332019849850084,
      "loss": 1.5747,
      "step": 58663
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5509508848190308,
      "learning_rate": 0.00016331089426467518,
      "loss": 1.5541,
      "step": 58664
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6012923717498779,
      "learning_rate": 0.00016330159019676985,
      "loss": 1.5124,
      "step": 58665
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5543477535247803,
      "learning_rate": 0.0001632922862947964,
      "loss": 1.4547,
      "step": 58666
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5605456233024597,
      "learning_rate": 0.000163282982558766,
      "loss": 1.6027,
      "step": 58667
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5640859007835388,
      "learning_rate": 0.00016327367898868978,
      "loss": 1.5891,
      "step": 58668
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5735681056976318,
      "learning_rate": 0.0001632643755845793,
      "loss": 1.558,
      "step": 58669
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5595643520355225,
      "learning_rate": 0.00016325507234644574,
      "loss": 1.5477,
      "step": 58670
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5849738717079163,
      "learning_rate": 0.0001632457692743002,
      "loss": 1.6313,
      "step": 58671
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5725237131118774,
      "learning_rate": 0.00016323646636815417,
      "loss": 1.6109,
      "step": 58672
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5498773455619812,
      "learning_rate": 0.00016322716362801904,
      "loss": 1.5519,
      "step": 58673
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5645232200622559,
      "learning_rate": 0.00016321786105390594,
      "loss": 1.6489,
      "step": 58674
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5655259490013123,
      "learning_rate": 0.00016320855864582616,
      "loss": 1.6289,
      "step": 58675
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5556010007858276,
      "learning_rate": 0.0001631992564037911,
      "loss": 1.5685,
      "step": 58676
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5818723440170288,
      "learning_rate": 0.000163189954327812,
      "loss": 1.5502,
      "step": 58677
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.562000572681427,
      "learning_rate": 0.00016318065241790002,
      "loss": 1.5516,
      "step": 58678
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5769672989845276,
      "learning_rate": 0.00016317135067406657,
      "loss": 1.6275,
      "step": 58679
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5880183577537537,
      "learning_rate": 0.00016316204909632304,
      "loss": 1.5931,
      "step": 58680
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5681692361831665,
      "learning_rate": 0.00016315274768468065,
      "loss": 1.597,
      "step": 58681
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5591741800308228,
      "learning_rate": 0.00016314344643915055,
      "loss": 1.5994,
      "step": 58682
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5643674731254578,
      "learning_rate": 0.0001631341453597442,
      "loss": 1.5612,
      "step": 58683
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5462960004806519,
      "learning_rate": 0.00016312484444647288,
      "loss": 1.5831,
      "step": 58684
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5396692156791687,
      "learning_rate": 0.00016311554369934772,
      "loss": 1.5516,
      "step": 58685
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5648316740989685,
      "learning_rate": 0.00016310624311838008,
      "loss": 1.5872,
      "step": 58686
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.555253803730011,
      "learning_rate": 0.00016309694270358145,
      "loss": 1.5158,
      "step": 58687
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5657606720924377,
      "learning_rate": 0.00016308764245496295,
      "loss": 1.602,
      "step": 58688
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5583907961845398,
      "learning_rate": 0.00016307834237253572,
      "loss": 1.5933,
      "step": 58689
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5787099003791809,
      "learning_rate": 0.0001630690424563114,
      "loss": 1.5914,
      "step": 58690
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5764172077178955,
      "learning_rate": 0.00016305974270630104,
      "loss": 1.5941,
      "step": 58691
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5386399030685425,
      "learning_rate": 0.00016305044312251582,
      "loss": 1.5021,
      "step": 58692
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5730524659156799,
      "learning_rate": 0.00016304114370496739,
      "loss": 1.5367,
      "step": 58693
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5582259893417358,
      "learning_rate": 0.00016303184445366664,
      "loss": 1.6982,
      "step": 58694
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5690326690673828,
      "learning_rate": 0.00016302254536862523,
      "loss": 1.5089,
      "step": 58695
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5654075145721436,
      "learning_rate": 0.0001630132464498541,
      "loss": 1.5684,
      "step": 58696
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5884530544281006,
      "learning_rate": 0.00016300394769736484,
      "loss": 1.6182,
      "step": 58697
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5555295348167419,
      "learning_rate": 0.0001629946491111686,
      "loss": 1.4824,
      "step": 58698
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5724639296531677,
      "learning_rate": 0.00016298535069127654,
      "loss": 1.5266,
      "step": 58699
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5536254644393921,
      "learning_rate": 0.0001629760524377002,
      "loss": 1.5968,
      "step": 58700
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5629289746284485,
      "learning_rate": 0.00016296675435045063,
      "loss": 1.6196,
      "step": 58701
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5600399971008301,
      "learning_rate": 0.00016295745642953938,
      "loss": 1.5922,
      "step": 58702
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5567775964736938,
      "learning_rate": 0.00016294815867497753,
      "loss": 1.547,
      "step": 58703
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5741673111915588,
      "learning_rate": 0.00016293886108677632,
      "loss": 1.4994,
      "step": 58704
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5551262497901917,
      "learning_rate": 0.00016292956366494726,
      "loss": 1.5207,
      "step": 58705
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5703539252281189,
      "learning_rate": 0.0001629202664095014,
      "loss": 1.5252,
      "step": 58706
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5907925963401794,
      "learning_rate": 0.00016291096932045026,
      "loss": 1.6044,
      "step": 58707
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.604974091053009,
      "learning_rate": 0.00016290167239780488,
      "loss": 1.5515,
      "step": 58708
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6068845987319946,
      "learning_rate": 0.0001628923756415768,
      "loss": 1.6177,
      "step": 58709
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5846222639083862,
      "learning_rate": 0.00016288307905177715,
      "loss": 1.6336,
      "step": 58710
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5725847482681274,
      "learning_rate": 0.00016287378262841713,
      "loss": 1.4714,
      "step": 58711
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5554443001747131,
      "learning_rate": 0.00016286448637150826,
      "loss": 1.6015,
      "step": 58712
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5813138484954834,
      "learning_rate": 0.0001628551902810617,
      "loss": 1.5536,
      "step": 58713
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5901412963867188,
      "learning_rate": 0.00016284589435708858,
      "loss": 1.5123,
      "step": 58714
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5692435503005981,
      "learning_rate": 0.00016283659859960036,
      "loss": 1.5856,
      "step": 58715
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.576109766960144,
      "learning_rate": 0.00016282730300860843,
      "loss": 1.4969,
      "step": 58716
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.6200997829437256,
      "learning_rate": 0.00016281800758412396,
      "loss": 1.6244,
      "step": 58717
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5681205987930298,
      "learning_rate": 0.000162808712326158,
      "loss": 1.5283,
      "step": 58718
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5638006925582886,
      "learning_rate": 0.00016279941723472226,
      "loss": 1.4831,
      "step": 58719
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5751129984855652,
      "learning_rate": 0.0001627901223098278,
      "loss": 1.6373,
      "step": 58720
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5719733834266663,
      "learning_rate": 0.0001627808275514858,
      "loss": 1.5431,
      "step": 58721
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5879634022712708,
      "learning_rate": 0.00016277153295970762,
      "loss": 1.5904,
      "step": 58722
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5681425929069519,
      "learning_rate": 0.00016276223853450484,
      "loss": 1.5393,
      "step": 58723
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5801647305488586,
      "learning_rate": 0.00016275294427588828,
      "loss": 1.6342,
      "step": 58724
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5734981894493103,
      "learning_rate": 0.00016274365018386933,
      "loss": 1.5483,
      "step": 58725
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5638343095779419,
      "learning_rate": 0.00016273435625845955,
      "loss": 1.6166,
      "step": 58726
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5722044110298157,
      "learning_rate": 0.00016272506249967006,
      "loss": 1.535,
      "step": 58727
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5804423689842224,
      "learning_rate": 0.00016271576890751195,
      "loss": 1.5492,
      "step": 58728
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5486560463905334,
      "learning_rate": 0.00016270647548199667,
      "loss": 1.477,
      "step": 58729
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5783794522285461,
      "learning_rate": 0.00016269718222313575,
      "loss": 1.5418,
      "step": 58730
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5595780611038208,
      "learning_rate": 0.00016268788913093997,
      "loss": 1.584,
      "step": 58731
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5592121481895447,
      "learning_rate": 0.00016267859620542087,
      "loss": 1.5511,
      "step": 58732
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5661723017692566,
      "learning_rate": 0.00016266930344658985,
      "loss": 1.6701,
      "step": 58733
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5718316435813904,
      "learning_rate": 0.00016266001085445806,
      "loss": 1.5907,
      "step": 58734
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5747293829917908,
      "learning_rate": 0.00016265071842903666,
      "loss": 1.5882,
      "step": 58735
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5663543939590454,
      "learning_rate": 0.00016264142617033705,
      "loss": 1.5012,
      "step": 58736
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5607095956802368,
      "learning_rate": 0.00016263213407837076,
      "loss": 1.6422,
      "step": 58737
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5691372752189636,
      "learning_rate": 0.00016262284215314856,
      "loss": 1.5794,
      "step": 58738
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5518434643745422,
      "learning_rate": 0.000162613550394682,
      "loss": 1.5965,
      "step": 58739
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5511720776557922,
      "learning_rate": 0.00016260425880298244,
      "loss": 1.5426,
      "step": 58740
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.568812370300293,
      "learning_rate": 0.00016259496737806107,
      "loss": 1.5769,
      "step": 58741
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5791782140731812,
      "learning_rate": 0.00016258567611992906,
      "loss": 1.6131,
      "step": 58742
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5846006274223328,
      "learning_rate": 0.0001625763850285978,
      "loss": 1.5493,
      "step": 58743
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5864654183387756,
      "learning_rate": 0.00016256709410407877,
      "loss": 1.5371,
      "step": 58744
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5525891780853271,
      "learning_rate": 0.00016255780334638282,
      "loss": 1.5684,
      "step": 58745
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5688280463218689,
      "learning_rate": 0.00016254851275552144,
      "loss": 1.5575,
      "step": 58746
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5615592002868652,
      "learning_rate": 0.00016253922233150608,
      "loss": 1.5009,
      "step": 58747
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.7602507472038269,
      "learning_rate": 0.00016252993207434776,
      "loss": 1.5354,
      "step": 58748
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5724666118621826,
      "learning_rate": 0.00016252064198405777,
      "loss": 1.5862,
      "step": 58749
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5682142376899719,
      "learning_rate": 0.00016251135206064762,
      "loss": 1.5389,
      "step": 58750
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5547931790351868,
      "learning_rate": 0.0001625020623041284,
      "loss": 1.5571,
      "step": 58751
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5465072393417358,
      "learning_rate": 0.00016249277271451128,
      "loss": 1.567,
      "step": 58752
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5275870561599731,
      "learning_rate": 0.0001624834832918077,
      "loss": 1.5873,
      "step": 58753
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5430642366409302,
      "learning_rate": 0.00016247419403602901,
      "loss": 1.5124,
      "step": 58754
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5670266151428223,
      "learning_rate": 0.00016246490494718638,
      "loss": 1.6161,
      "step": 58755
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.539619505405426,
      "learning_rate": 0.00016245561602529102,
      "loss": 1.499,
      "step": 58756
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5836158990859985,
      "learning_rate": 0.00016244632727035433,
      "loss": 1.5448,
      "step": 58757
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5595337748527527,
      "learning_rate": 0.00016243703868238756,
      "loss": 1.5984,
      "step": 58758
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5764235854148865,
      "learning_rate": 0.00016242775026140187,
      "loss": 1.5868,
      "step": 58759
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5557394027709961,
      "learning_rate": 0.00016241846200740868,
      "loss": 1.5774,
      "step": 58760
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5535741448402405,
      "learning_rate": 0.0001624091739204191,
      "loss": 1.6107,
      "step": 58761
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5717229843139648,
      "learning_rate": 0.00016239988600044464,
      "loss": 1.5534,
      "step": 58762
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5632948875427246,
      "learning_rate": 0.00016239059824749635,
      "loss": 1.5666,
      "step": 58763
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5870127081871033,
      "learning_rate": 0.0001623813106615857,
      "loss": 1.5737,
      "step": 58764
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5988306999206543,
      "learning_rate": 0.00016237202324272384,
      "loss": 1.6057,
      "step": 58765
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5666894912719727,
      "learning_rate": 0.00016236273599092198,
      "loss": 1.5604,
      "step": 58766
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5784282088279724,
      "learning_rate": 0.00016235344890619155,
      "loss": 1.6354,
      "step": 58767
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5674276947975159,
      "learning_rate": 0.0001623441619885437,
      "loss": 1.5481,
      "step": 58768
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5507286190986633,
      "learning_rate": 0.0001623348752379898,
      "loss": 1.5246,
      "step": 58769
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5722017288208008,
      "learning_rate": 0.00016232558865454113,
      "loss": 1.6028,
      "step": 58770
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5734967589378357,
      "learning_rate": 0.0001623163022382088,
      "loss": 1.5239,
      "step": 58771
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5875715017318726,
      "learning_rate": 0.00016230701598900427,
      "loss": 1.631,
      "step": 58772
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5521042943000793,
      "learning_rate": 0.00016229772990693862,
      "loss": 1.5401,
      "step": 58773
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5598490834236145,
      "learning_rate": 0.00016228844399202337,
      "loss": 1.5379,
      "step": 58774
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5914122462272644,
      "learning_rate": 0.0001622791582442695,
      "loss": 1.5483,
      "step": 58775
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5677005648612976,
      "learning_rate": 0.00016226987266368864,
      "loss": 1.495,
      "step": 58776
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5713286995887756,
      "learning_rate": 0.00016226058725029183,
      "loss": 1.5876,
      "step": 58777
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5795444846153259,
      "learning_rate": 0.00016225130200409022,
      "loss": 1.5584,
      "step": 58778
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5466963648796082,
      "learning_rate": 0.00016224201692509538,
      "loss": 1.5551,
      "step": 58779
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5604956746101379,
      "learning_rate": 0.00016223273201331842,
      "loss": 1.497,
      "step": 58780
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5758941769599915,
      "learning_rate": 0.0001622234472687705,
      "loss": 1.6071,
      "step": 58781
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5698951482772827,
      "learning_rate": 0.00016221416269146305,
      "loss": 1.5758,
      "step": 58782
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5636590719223022,
      "learning_rate": 0.00016220487828140737,
      "loss": 1.5098,
      "step": 58783
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5594192147254944,
      "learning_rate": 0.0001621955940386147,
      "loss": 1.6083,
      "step": 58784
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5713251829147339,
      "learning_rate": 0.00016218630996309613,
      "loss": 1.5276,
      "step": 58785
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.566881000995636,
      "learning_rate": 0.0001621770260548632,
      "loss": 1.4646,
      "step": 58786
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5819481015205383,
      "learning_rate": 0.00016216774231392708,
      "loss": 1.5437,
      "step": 58787
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5652440786361694,
      "learning_rate": 0.00016215845874029892,
      "loss": 1.5325,
      "step": 58788
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5642343163490295,
      "learning_rate": 0.00016214917533399003,
      "loss": 1.578,
      "step": 58789
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5644553303718567,
      "learning_rate": 0.00016213989209501185,
      "loss": 1.5326,
      "step": 58790
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5613892078399658,
      "learning_rate": 0.0001621306090233755,
      "loss": 1.5978,
      "step": 58791
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5687020421028137,
      "learning_rate": 0.00016212132611909222,
      "loss": 1.4943,
      "step": 58792
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5865578055381775,
      "learning_rate": 0.0001621120433821734,
      "loss": 1.5727,
      "step": 58793
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5773249864578247,
      "learning_rate": 0.0001621027608126303,
      "loss": 1.5555,
      "step": 58794
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5427743196487427,
      "learning_rate": 0.00016209347841047398,
      "loss": 1.5027,
      "step": 58795
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5715959072113037,
      "learning_rate": 0.00016208419617571586,
      "loss": 1.5474,
      "step": 58796
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5600593686103821,
      "learning_rate": 0.00016207491410836732,
      "loss": 1.6079,
      "step": 58797
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.564227283000946,
      "learning_rate": 0.0001620656322084395,
      "loss": 1.5452,
      "step": 58798
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5630858540534973,
      "learning_rate": 0.00016205635047594356,
      "loss": 1.5903,
      "step": 58799
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5732302069664001,
      "learning_rate": 0.00016204706891089103,
      "loss": 1.6069,
      "step": 58800
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6134899854660034,
      "learning_rate": 0.00016203778751329301,
      "loss": 1.4601,
      "step": 58801
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5793540477752686,
      "learning_rate": 0.0001620285062831607,
      "loss": 1.5705,
      "step": 58802
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5693593621253967,
      "learning_rate": 0.00016201922522050542,
      "loss": 1.5891,
      "step": 58803
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5558783411979675,
      "learning_rate": 0.00016200994432533862,
      "loss": 1.5427,
      "step": 58804
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5960108637809753,
      "learning_rate": 0.00016200066359767142,
      "loss": 1.5426,
      "step": 58805
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6132009029388428,
      "learning_rate": 0.0001619913830375149,
      "loss": 1.6215,
      "step": 58806
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5861324071884155,
      "learning_rate": 0.00016198210264488068,
      "loss": 1.4797,
      "step": 58807
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5593904852867126,
      "learning_rate": 0.00016197282241977982,
      "loss": 1.5409,
      "step": 58808
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.576393187046051,
      "learning_rate": 0.00016196354236222354,
      "loss": 1.558,
      "step": 58809
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5755396485328674,
      "learning_rate": 0.00016195426247222325,
      "loss": 1.5567,
      "step": 58810
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5601110458374023,
      "learning_rate": 0.00016194498274979004,
      "loss": 1.6145,
      "step": 58811
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5654234290122986,
      "learning_rate": 0.00016193570319493545,
      "loss": 1.5663,
      "step": 58812
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5849867463111877,
      "learning_rate": 0.0001619264238076704,
      "loss": 1.6343,
      "step": 58813
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5599783062934875,
      "learning_rate": 0.00016191714458800645,
      "loss": 1.4586,
      "step": 58814
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5735598802566528,
      "learning_rate": 0.00016190786553595476,
      "loss": 1.5733,
      "step": 58815
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5909859538078308,
      "learning_rate": 0.00016189858665152643,
      "loss": 1.5277,
      "step": 58816
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5689473748207092,
      "learning_rate": 0.00016188930793473302,
      "loss": 1.621,
      "step": 58817
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5696638822555542,
      "learning_rate": 0.0001618800293855855,
      "loss": 1.5524,
      "step": 58818
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5770508646965027,
      "learning_rate": 0.00016187075100409539,
      "loss": 1.5771,
      "step": 58819
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5835968852043152,
      "learning_rate": 0.00016186147279027385,
      "loss": 1.6133,
      "step": 58820
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5481172204017639,
      "learning_rate": 0.000161852194744132,
      "loss": 1.4778,
      "step": 58821
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5439056158065796,
      "learning_rate": 0.00016184291686568135,
      "loss": 1.5681,
      "step": 58822
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5802193284034729,
      "learning_rate": 0.00016183363915493295,
      "loss": 1.485,
      "step": 58823
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5814427733421326,
      "learning_rate": 0.0001618243616118982,
      "loss": 1.5581,
      "step": 58824
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5852404236793518,
      "learning_rate": 0.0001618150842365883,
      "loss": 1.5221,
      "step": 58825
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5940082669258118,
      "learning_rate": 0.00016180580702901458,
      "loss": 1.5506,
      "step": 58826
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5887498259544373,
      "learning_rate": 0.00016179652998918827,
      "loss": 1.6331,
      "step": 58827
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6063920855522156,
      "learning_rate": 0.00016178725311712046,
      "loss": 1.5934,
      "step": 58828
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5929473638534546,
      "learning_rate": 0.00016177797641282266,
      "loss": 1.6203,
      "step": 58829
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5666501522064209,
      "learning_rate": 0.00016176869987630612,
      "loss": 1.6038,
      "step": 58830
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5838947296142578,
      "learning_rate": 0.00016175942350758182,
      "loss": 1.5948,
      "step": 58831
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5571730136871338,
      "learning_rate": 0.00016175014730666123,
      "loss": 1.5898,
      "step": 58832
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5641109347343445,
      "learning_rate": 0.00016174087127355572,
      "loss": 1.6061,
      "step": 58833
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5753251314163208,
      "learning_rate": 0.0001617315954082764,
      "loss": 1.6226,
      "step": 58834
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5857598185539246,
      "learning_rate": 0.00016172231971083443,
      "loss": 1.6237,
      "step": 58835
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5976929068565369,
      "learning_rate": 0.0001617130441812413,
      "loss": 1.5285,
      "step": 58836
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5531023144721985,
      "learning_rate": 0.00016170376881950824,
      "loss": 1.6285,
      "step": 58837
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5682592391967773,
      "learning_rate": 0.0001616944936256462,
      "loss": 1.5037,
      "step": 58838
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.555557131767273,
      "learning_rate": 0.00016168521859966678,
      "loss": 1.5809,
      "step": 58839
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5838549137115479,
      "learning_rate": 0.0001616759437415813,
      "loss": 1.5841,
      "step": 58840
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.562140941619873,
      "learning_rate": 0.00016166666905140055,
      "loss": 1.5981,
      "step": 58841
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5566080212593079,
      "learning_rate": 0.00016165739452913617,
      "loss": 1.571,
      "step": 58842
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5725091099739075,
      "learning_rate": 0.0001616481201747994,
      "loss": 1.4893,
      "step": 58843
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5766124725341797,
      "learning_rate": 0.00016163884598840143,
      "loss": 1.5561,
      "step": 58844
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.574775755405426,
      "learning_rate": 0.00016162957196995344,
      "loss": 1.5819,
      "step": 58845
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5886631011962891,
      "learning_rate": 0.00016162029811946668,
      "loss": 1.6231,
      "step": 58846
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5841187238693237,
      "learning_rate": 0.00016161102443695277,
      "loss": 1.6369,
      "step": 58847
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5589526891708374,
      "learning_rate": 0.00016160175092242248,
      "loss": 1.5414,
      "step": 58848
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5811159014701843,
      "learning_rate": 0.00016159247757588724,
      "loss": 1.5621,
      "step": 58849
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5748724937438965,
      "learning_rate": 0.00016158320439735847,
      "loss": 1.5333,
      "step": 58850
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5514237880706787,
      "learning_rate": 0.00016157393138684727,
      "loss": 1.5209,
      "step": 58851
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5705723762512207,
      "learning_rate": 0.00016156465854436485,
      "loss": 1.5941,
      "step": 58852
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5644339919090271,
      "learning_rate": 0.0001615553858699225,
      "loss": 1.684,
      "step": 58853
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5642219185829163,
      "learning_rate": 0.00016154611336353174,
      "loss": 1.6139,
      "step": 58854
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.541138231754303,
      "learning_rate": 0.00016153684102520336,
      "loss": 1.5356,
      "step": 58855
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5675708651542664,
      "learning_rate": 0.00016152756885494892,
      "loss": 1.4996,
      "step": 58856
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5678132176399231,
      "learning_rate": 0.00016151829685277967,
      "loss": 1.582,
      "step": 58857
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5605132579803467,
      "learning_rate": 0.0001615090250187068,
      "loss": 1.5354,
      "step": 58858
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.561705470085144,
      "learning_rate": 0.00016149975335274147,
      "loss": 1.6167,
      "step": 58859
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5772457122802734,
      "learning_rate": 0.00016149048185489504,
      "loss": 1.6323,
      "step": 58860
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5763201117515564,
      "learning_rate": 0.00016148121052517896,
      "loss": 1.5662,
      "step": 58861
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5748647451400757,
      "learning_rate": 0.00016147193936360402,
      "loss": 1.6024,
      "step": 58862
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5868619680404663,
      "learning_rate": 0.0001614626683701818,
      "loss": 1.5592,
      "step": 58863
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5610179305076599,
      "learning_rate": 0.0001614533975449236,
      "loss": 1.5483,
      "step": 58864
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5537846088409424,
      "learning_rate": 0.00016144412688784052,
      "loss": 1.6511,
      "step": 58865
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5574567317962646,
      "learning_rate": 0.00016143485639894377,
      "loss": 1.631,
      "step": 58866
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5744683742523193,
      "learning_rate": 0.0001614255860782448,
      "loss": 1.6037,
      "step": 58867
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5669254660606384,
      "learning_rate": 0.00016141631592575471,
      "loss": 1.5965,
      "step": 58868
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5856251120567322,
      "learning_rate": 0.00016140704594148471,
      "loss": 1.5446,
      "step": 58869
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5756230354309082,
      "learning_rate": 0.00016139777612544616,
      "loss": 1.4683,
      "step": 58870
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5824521780014038,
      "learning_rate": 0.0001613885064776504,
      "loss": 1.5199,
      "step": 58871
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6013697981834412,
      "learning_rate": 0.00016137923699810852,
      "loss": 1.4953,
      "step": 58872
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.7475597858428955,
      "learning_rate": 0.00016136996768683175,
      "loss": 1.5448,
      "step": 58873
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5749027132987976,
      "learning_rate": 0.00016136069854383152,
      "loss": 1.5683,
      "step": 58874
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5651067495346069,
      "learning_rate": 0.00016135142956911897,
      "loss": 1.5444,
      "step": 58875
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5663802027702332,
      "learning_rate": 0.00016134216076270523,
      "loss": 1.5992,
      "step": 58876
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5578545928001404,
      "learning_rate": 0.00016133289212460182,
      "loss": 1.5777,
      "step": 58877
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5825715065002441,
      "learning_rate": 0.0001613236236548197,
      "loss": 1.6022,
      "step": 58878
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.577234148979187,
      "learning_rate": 0.00016131435535337042,
      "loss": 1.5008,
      "step": 58879
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5672527551651001,
      "learning_rate": 0.0001613050872202649,
      "loss": 1.5145,
      "step": 58880
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5668053030967712,
      "learning_rate": 0.00016129581925551474,
      "loss": 1.5662,
      "step": 58881
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5832875370979309,
      "learning_rate": 0.000161286551459131,
      "loss": 1.5288,
      "step": 58882
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5512818098068237,
      "learning_rate": 0.00016127728383112487,
      "loss": 1.5847,
      "step": 58883
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6066336035728455,
      "learning_rate": 0.00016126801637150775,
      "loss": 1.6428,
      "step": 58884
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5862751603126526,
      "learning_rate": 0.0001612587490802907,
      "loss": 1.5671,
      "step": 58885
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5783961415290833,
      "learning_rate": 0.0001612494819574852,
      "loss": 1.5753,
      "step": 58886
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5650515556335449,
      "learning_rate": 0.0001612402150031024,
      "loss": 1.6263,
      "step": 58887
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5508973002433777,
      "learning_rate": 0.00016123094821715342,
      "loss": 1.5372,
      "step": 58888
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5826483368873596,
      "learning_rate": 0.00016122168159964973,
      "loss": 1.6027,
      "step": 58889
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5781588554382324,
      "learning_rate": 0.00016121241515060236,
      "loss": 1.5702,
      "step": 58890
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.590526819229126,
      "learning_rate": 0.0001612031488700228,
      "loss": 1.5926,
      "step": 58891
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5519495010375977,
      "learning_rate": 0.000161193882757922,
      "loss": 1.4749,
      "step": 58892
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5568180680274963,
      "learning_rate": 0.00016118461681431155,
      "loss": 1.5656,
      "step": 58893
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.573630690574646,
      "learning_rate": 0.00016117535103920248,
      "loss": 1.52,
      "step": 58894
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5705646276473999,
      "learning_rate": 0.00016116608543260597,
      "loss": 1.57,
      "step": 58895
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.572064995765686,
      "learning_rate": 0.0001611568199945335,
      "loss": 1.5465,
      "step": 58896
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5693436861038208,
      "learning_rate": 0.0001611475547249962,
      "loss": 1.5494,
      "step": 58897
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5880127549171448,
      "learning_rate": 0.00016113828962400519,
      "loss": 1.5811,
      "step": 58898
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5563148260116577,
      "learning_rate": 0.0001611290246915718,
      "loss": 1.6001,
      "step": 58899
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5640386939048767,
      "learning_rate": 0.00016111975992770747,
      "loss": 1.5337,
      "step": 58900
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5951949954032898,
      "learning_rate": 0.0001611104953324233,
      "loss": 1.5657,
      "step": 58901
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.572109580039978,
      "learning_rate": 0.00016110123090573038,
      "loss": 1.6368,
      "step": 58902
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5633901357650757,
      "learning_rate": 0.00016109196664764025,
      "loss": 1.5338,
      "step": 58903
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5847340226173401,
      "learning_rate": 0.00016108270255816396,
      "loss": 1.5393,
      "step": 58904
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5799843072891235,
      "learning_rate": 0.0001610734386373127,
      "loss": 1.5733,
      "step": 58905
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5678966641426086,
      "learning_rate": 0.0001610641748850978,
      "loss": 1.5312,
      "step": 58906
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5724731087684631,
      "learning_rate": 0.00016105491130153068,
      "loss": 1.5495,
      "step": 58907
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5583299398422241,
      "learning_rate": 0.00016104564788662235,
      "loss": 1.5038,
      "step": 58908
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5825129747390747,
      "learning_rate": 0.00016103638464038409,
      "loss": 1.5627,
      "step": 58909
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.549780547618866,
      "learning_rate": 0.0001610271215628273,
      "loss": 1.6193,
      "step": 58910
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5588321089744568,
      "learning_rate": 0.00016101785865396304,
      "loss": 1.5565,
      "step": 58911
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5641462802886963,
      "learning_rate": 0.00016100859591380257,
      "loss": 1.4801,
      "step": 58912
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5601759552955627,
      "learning_rate": 0.00016099933334235716,
      "loss": 1.5604,
      "step": 58913
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6187203526496887,
      "learning_rate": 0.0001609900709396382,
      "loss": 1.5455,
      "step": 58914
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5780717730522156,
      "learning_rate": 0.00016098080870565682,
      "loss": 1.52,
      "step": 58915
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5566619634628296,
      "learning_rate": 0.0001609715466404241,
      "loss": 1.5042,
      "step": 58916
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6006829738616943,
      "learning_rate": 0.00016096228474395157,
      "loss": 1.6684,
      "step": 58917
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5525001883506775,
      "learning_rate": 0.00016095302301625037,
      "loss": 1.6053,
      "step": 58918
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5369634628295898,
      "learning_rate": 0.00016094376145733155,
      "loss": 1.5381,
      "step": 58919
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5623722076416016,
      "learning_rate": 0.00016093450006720656,
      "loss": 1.5301,
      "step": 58920
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5749285221099854,
      "learning_rate": 0.0001609252388458867,
      "loss": 1.5526,
      "step": 58921
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.9993112087249756,
      "learning_rate": 0.00016091597779338307,
      "loss": 1.5588,
      "step": 58922
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.556094765663147,
      "learning_rate": 0.00016090671690970689,
      "loss": 1.516,
      "step": 58923
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5796005725860596,
      "learning_rate": 0.00016089745619486955,
      "loss": 1.5438,
      "step": 58924
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6136654019355774,
      "learning_rate": 0.0001608881956488822,
      "loss": 1.5948,
      "step": 58925
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5620045065879822,
      "learning_rate": 0.00016087893527175594,
      "loss": 1.5664,
      "step": 58926
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5567049384117126,
      "learning_rate": 0.00016086967506350234,
      "loss": 1.5308,
      "step": 58927
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5560690760612488,
      "learning_rate": 0.0001608604150241323,
      "loss": 1.4607,
      "step": 58928
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5573126077651978,
      "learning_rate": 0.0001608511551536573,
      "loss": 1.5791,
      "step": 58929
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5746687054634094,
      "learning_rate": 0.00016084189545208846,
      "loss": 1.531,
      "step": 58930
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5699513554573059,
      "learning_rate": 0.0001608326359194371,
      "loss": 1.5342,
      "step": 58931
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5517719388008118,
      "learning_rate": 0.00016082337655571441,
      "loss": 1.6098,
      "step": 58932
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5590468049049377,
      "learning_rate": 0.00016081411736093158,
      "loss": 1.5538,
      "step": 58933
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5588651895523071,
      "learning_rate": 0.00016080485833509998,
      "loss": 1.5628,
      "step": 58934
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.577751100063324,
      "learning_rate": 0.00016079559947823065,
      "loss": 1.6034,
      "step": 58935
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.564551055431366,
      "learning_rate": 0.00016078634079033508,
      "loss": 1.5782,
      "step": 58936
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5561041831970215,
      "learning_rate": 0.0001607770822714244,
      "loss": 1.5671,
      "step": 58937
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5630796551704407,
      "learning_rate": 0.00016076782392150966,
      "loss": 1.5367,
      "step": 58938
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5810268521308899,
      "learning_rate": 0.00016075856574060242,
      "loss": 1.5228,
      "step": 58939
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5703580379486084,
      "learning_rate": 0.00016074930772871365,
      "loss": 1.5573,
      "step": 58940
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5785549283027649,
      "learning_rate": 0.00016074004988585482,
      "loss": 1.5811,
      "step": 58941
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5626704692840576,
      "learning_rate": 0.0001607307922120369,
      "loss": 1.5362,
      "step": 58942
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5431228876113892,
      "learning_rate": 0.00016072153470727144,
      "loss": 1.5073,
      "step": 58943
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5636289715766907,
      "learning_rate": 0.0001607122773715695,
      "loss": 1.4849,
      "step": 58944
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5618914365768433,
      "learning_rate": 0.0001607030202049422,
      "loss": 1.5357,
      "step": 58945
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5603923201560974,
      "learning_rate": 0.00016069376320740103,
      "loss": 1.6403,
      "step": 58946
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5885969996452332,
      "learning_rate": 0.00016068450637895713,
      "loss": 1.53,
      "step": 58947
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5773397088050842,
      "learning_rate": 0.00016067524971962157,
      "loss": 1.5651,
      "step": 58948
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6060006618499756,
      "learning_rate": 0.00016066599322940572,
      "loss": 1.5945,
      "step": 58949
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5897737741470337,
      "learning_rate": 0.00016065673690832095,
      "loss": 1.5771,
      "step": 58950
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.9006941318511963,
      "learning_rate": 0.0001606474807563784,
      "loss": 1.5544,
      "step": 58951
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5654638409614563,
      "learning_rate": 0.00016063822477358915,
      "loss": 1.6065,
      "step": 58952
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5809160470962524,
      "learning_rate": 0.00016062896895996465,
      "loss": 1.5232,
      "step": 58953
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5720168352127075,
      "learning_rate": 0.00016061971331551606,
      "loss": 1.5165,
      "step": 58954
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5778171420097351,
      "learning_rate": 0.00016061045784025445,
      "loss": 1.5388,
      "step": 58955
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5571789741516113,
      "learning_rate": 0.00016060120253419128,
      "loss": 1.5418,
      "step": 58956
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5816774368286133,
      "learning_rate": 0.00016059194739733788,
      "loss": 1.539,
      "step": 58957
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5717865824699402,
      "learning_rate": 0.00016058269242970514,
      "loss": 1.4951,
      "step": 58958
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5853636264801025,
      "learning_rate": 0.00016057343763130444,
      "loss": 1.5516,
      "step": 58959
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5919356942176819,
      "learning_rate": 0.00016056418300214716,
      "loss": 1.6158,
      "step": 58960
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5696629285812378,
      "learning_rate": 0.0001605549285422444,
      "loss": 1.61,
      "step": 58961
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5574439167976379,
      "learning_rate": 0.00016054567425160727,
      "loss": 1.5795,
      "step": 58962
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5897819995880127,
      "learning_rate": 0.00016053642013024718,
      "loss": 1.528,
      "step": 58963
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5593754649162292,
      "learning_rate": 0.00016052716617817557,
      "loss": 1.5115,
      "step": 58964
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5770303606987,
      "learning_rate": 0.0001605179123954032,
      "loss": 1.5415,
      "step": 58965
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5567108392715454,
      "learning_rate": 0.0001605086587819415,
      "loss": 1.5418,
      "step": 58966
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5422089099884033,
      "learning_rate": 0.00016049940533780188,
      "loss": 1.5169,
      "step": 58967
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5713582038879395,
      "learning_rate": 0.00016049015206299542,
      "loss": 1.5063,
      "step": 58968
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6002441048622131,
      "learning_rate": 0.00016048089895753323,
      "loss": 1.637,
      "step": 58969
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5676586627960205,
      "learning_rate": 0.00016047164602142673,
      "loss": 1.5723,
      "step": 58970
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5634385347366333,
      "learning_rate": 0.00016046239325468727,
      "loss": 1.4933,
      "step": 58971
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5616540908813477,
      "learning_rate": 0.00016045314065732565,
      "loss": 1.5758,
      "step": 58972
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5813407301902771,
      "learning_rate": 0.0001604438882293534,
      "loss": 1.5659,
      "step": 58973
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5685409307479858,
      "learning_rate": 0.00016043463597078183,
      "loss": 1.5203,
      "step": 58974
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5694173574447632,
      "learning_rate": 0.00016042538388162203,
      "loss": 1.5386,
      "step": 58975
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.556919276714325,
      "learning_rate": 0.0001604161319618851,
      "loss": 1.5846,
      "step": 58976
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.566346287727356,
      "learning_rate": 0.00016040688021158256,
      "loss": 1.5789,
      "step": 58977
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5786160230636597,
      "learning_rate": 0.00016039762863072552,
      "loss": 1.5681,
      "step": 58978
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5692116022109985,
      "learning_rate": 0.00016038837721932508,
      "loss": 1.5915,
      "step": 58979
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5751608610153198,
      "learning_rate": 0.00016037912597739254,
      "loss": 1.5994,
      "step": 58980
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5381499528884888,
      "learning_rate": 0.0001603698749049393,
      "loss": 1.5684,
      "step": 58981
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5658321380615234,
      "learning_rate": 0.00016036062400197646,
      "loss": 1.6279,
      "step": 58982
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.583565354347229,
      "learning_rate": 0.00016035137326851515,
      "loss": 1.5848,
      "step": 58983
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5586161613464355,
      "learning_rate": 0.00016034212270456675,
      "loss": 1.5629,
      "step": 58984
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5795421004295349,
      "learning_rate": 0.0001603328723101425,
      "loss": 1.5852,
      "step": 58985
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5602127313613892,
      "learning_rate": 0.00016032362208525346,
      "loss": 1.5234,
      "step": 58986
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5700129270553589,
      "learning_rate": 0.00016031437202991092,
      "loss": 1.5831,
      "step": 58987
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.553064227104187,
      "learning_rate": 0.0001603051221441263,
      "loss": 1.5468,
      "step": 58988
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5556134581565857,
      "learning_rate": 0.00016029587242791064,
      "loss": 1.5532,
      "step": 58989
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6035028696060181,
      "learning_rate": 0.0001602866228812751,
      "loss": 1.6243,
      "step": 58990
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5783701539039612,
      "learning_rate": 0.0001602773735042311,
      "loss": 1.557,
      "step": 58991
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5680564045906067,
      "learning_rate": 0.00016026812429678982,
      "loss": 1.5757,
      "step": 58992
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5866092443466187,
      "learning_rate": 0.00016025887525896235,
      "loss": 1.5637,
      "step": 58993
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.566226065158844,
      "learning_rate": 0.00016024962639076012,
      "loss": 1.6037,
      "step": 58994
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5591566562652588,
      "learning_rate": 0.0001602403776921941,
      "loss": 1.5928,
      "step": 58995
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5639759302139282,
      "learning_rate": 0.00016023112916327588,
      "loss": 1.4831,
      "step": 58996
    },
    {
      "epoch": 1.96,
      "grad_norm": 1.4160152673721313,
      "learning_rate": 0.00016022188080401625,
      "loss": 1.6455,
      "step": 58997
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5473296642303467,
      "learning_rate": 0.00016021263261442684,
      "loss": 1.6218,
      "step": 58998
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.560081422328949,
      "learning_rate": 0.00016020338459451868,
      "loss": 1.5583,
      "step": 58999
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5858635902404785,
      "learning_rate": 0.0001601941367443029,
      "loss": 1.6001,
      "step": 59000
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5766467452049255,
      "learning_rate": 0.00016018488906379094,
      "loss": 1.5558,
      "step": 59001
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5853777527809143,
      "learning_rate": 0.00016017564155299384,
      "loss": 1.5599,
      "step": 59002
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5548786520957947,
      "learning_rate": 0.00016016639421192298,
      "loss": 1.5904,
      "step": 59003
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.567950963973999,
      "learning_rate": 0.00016015714704058955,
      "loss": 1.6383,
      "step": 59004
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5532324314117432,
      "learning_rate": 0.00016014790003900459,
      "loss": 1.6187,
      "step": 59005
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5514192581176758,
      "learning_rate": 0.0001601386532071796,
      "loss": 1.5472,
      "step": 59006
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5997758507728577,
      "learning_rate": 0.00016012940654512556,
      "loss": 1.5905,
      "step": 59007
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5603335499763489,
      "learning_rate": 0.00016012016005285398,
      "loss": 1.5327,
      "step": 59008
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5642901659011841,
      "learning_rate": 0.00016011091373037574,
      "loss": 1.5983,
      "step": 59009
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5826011300086975,
      "learning_rate": 0.00016010166757770235,
      "loss": 1.4813,
      "step": 59010
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5552589297294617,
      "learning_rate": 0.00016009242159484494,
      "loss": 1.4889,
      "step": 59011
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5673632621765137,
      "learning_rate": 0.0001600831757818146,
      "loss": 1.4983,
      "step": 59012
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.570745050907135,
      "learning_rate": 0.00016007393013862283,
      "loss": 1.6023,
      "step": 59013
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.581038773059845,
      "learning_rate": 0.00016006468466528065,
      "loss": 1.6614,
      "step": 59014
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5524857044219971,
      "learning_rate": 0.00016005543936179918,
      "loss": 1.5106,
      "step": 59015
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5765507817268372,
      "learning_rate": 0.00016004619422818983,
      "loss": 1.6211,
      "step": 59016
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5741901397705078,
      "learning_rate": 0.0001600369492644639,
      "loss": 1.5339,
      "step": 59017
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5749521255493164,
      "learning_rate": 0.00016002770447063241,
      "loss": 1.5518,
      "step": 59018
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6031556129455566,
      "learning_rate": 0.00016001845984670664,
      "loss": 1.6556,
      "step": 59019
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5724002122879028,
      "learning_rate": 0.00016000921539269792,
      "loss": 1.5416,
      "step": 59020
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.571864902973175,
      "learning_rate": 0.0001599999711086174,
      "loss": 1.4912,
      "step": 59021
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5551701188087463,
      "learning_rate": 0.00015999072699447614,
      "loss": 1.4671,
      "step": 59022
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5726003646850586,
      "learning_rate": 0.00015998148305028552,
      "loss": 1.5596,
      "step": 59023
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.558522641658783,
      "learning_rate": 0.00015997223927605687,
      "loss": 1.5531,
      "step": 59024
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5601902604103088,
      "learning_rate": 0.0001599629956718013,
      "loss": 1.5203,
      "step": 59025
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6004461050033569,
      "learning_rate": 0.00015995375223752987,
      "loss": 1.5801,
      "step": 59026
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5736708045005798,
      "learning_rate": 0.00015994450897325409,
      "loss": 1.5949,
      "step": 59027
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5770845413208008,
      "learning_rate": 0.00015993526587898503,
      "loss": 1.6368,
      "step": 59028
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5887904763221741,
      "learning_rate": 0.00015992602295473386,
      "loss": 1.5122,
      "step": 59029
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.548505425453186,
      "learning_rate": 0.00015991678020051177,
      "loss": 1.5608,
      "step": 59030
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5618860125541687,
      "learning_rate": 0.00015990753761633024,
      "loss": 1.5639,
      "step": 59031
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5870824456214905,
      "learning_rate": 0.0001598982952022003,
      "loss": 1.5168,
      "step": 59032
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5617537498474121,
      "learning_rate": 0.00015988905295813308,
      "loss": 1.5714,
      "step": 59033
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5700840950012207,
      "learning_rate": 0.00015987981088414,
      "loss": 1.534,
      "step": 59034
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5608285069465637,
      "learning_rate": 0.0001598705689802322,
      "loss": 1.591,
      "step": 59035
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5481157302856445,
      "learning_rate": 0.00015986132724642074,
      "loss": 1.5916,
      "step": 59036
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5759096145629883,
      "learning_rate": 0.00015985208568271704,
      "loss": 1.5515,
      "step": 59037
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5824870467185974,
      "learning_rate": 0.00015984284428913233,
      "loss": 1.5323,
      "step": 59038
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5660899877548218,
      "learning_rate": 0.00015983360306567776,
      "loss": 1.6036,
      "step": 59039
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5643062591552734,
      "learning_rate": 0.00015982436201236443,
      "loss": 1.5706,
      "step": 59040
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5695357322692871,
      "learning_rate": 0.0001598151211292038,
      "loss": 1.5903,
      "step": 59041
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5609543919563293,
      "learning_rate": 0.00015980588041620693,
      "loss": 1.5992,
      "step": 59042
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5630415081977844,
      "learning_rate": 0.00015979663987338496,
      "loss": 1.6214,
      "step": 59043
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5596107244491577,
      "learning_rate": 0.00015978739950074934,
      "loss": 1.5523,
      "step": 59044
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5910733938217163,
      "learning_rate": 0.00015977815929831105,
      "loss": 1.6186,
      "step": 59045
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5591802597045898,
      "learning_rate": 0.0001597689192660815,
      "loss": 1.6368,
      "step": 59046
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5702842473983765,
      "learning_rate": 0.0001597596794040717,
      "loss": 1.6042,
      "step": 59047
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5712570548057556,
      "learning_rate": 0.0001597504397122931,
      "loss": 1.6044,
      "step": 59048
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5495465993881226,
      "learning_rate": 0.00015974120019075685,
      "loss": 1.5114,
      "step": 59049
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5757336020469666,
      "learning_rate": 0.00015973196083947396,
      "loss": 1.5236,
      "step": 59050
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5538474917411804,
      "learning_rate": 0.00015972272165845592,
      "loss": 1.5602,
      "step": 59051
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5775852799415588,
      "learning_rate": 0.00015971348264771373,
      "loss": 1.5974,
      "step": 59052
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5628420114517212,
      "learning_rate": 0.00015970424380725882,
      "loss": 1.5607,
      "step": 59053
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6021037697792053,
      "learning_rate": 0.00015969500513710229,
      "loss": 1.5072,
      "step": 59054
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5839568972587585,
      "learning_rate": 0.00015968576663725518,
      "loss": 1.5933,
      "step": 59055
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5927994251251221,
      "learning_rate": 0.00015967652830772906,
      "loss": 1.6492,
      "step": 59056
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5607068538665771,
      "learning_rate": 0.0001596672901485348,
      "loss": 1.591,
      "step": 59057
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5550004243850708,
      "learning_rate": 0.0001596580521596839,
      "loss": 1.5272,
      "step": 59058
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5817029476165771,
      "learning_rate": 0.00015964881434118734,
      "loss": 1.6438,
      "step": 59059
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5960947275161743,
      "learning_rate": 0.00015963957669305656,
      "loss": 1.5687,
      "step": 59060
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5805019736289978,
      "learning_rate": 0.00015963033921530264,
      "loss": 1.5208,
      "step": 59061
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5944437980651855,
      "learning_rate": 0.0001596211019079367,
      "loss": 1.5553,
      "step": 59062
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5686928033828735,
      "learning_rate": 0.00015961186477097018,
      "loss": 1.5546,
      "step": 59063
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.579140305519104,
      "learning_rate": 0.00015960262780441412,
      "loss": 1.5713,
      "step": 59064
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5807837247848511,
      "learning_rate": 0.0001595933910082797,
      "loss": 1.592,
      "step": 59065
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5440894365310669,
      "learning_rate": 0.00015958415438257822,
      "loss": 1.53,
      "step": 59066
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5739179849624634,
      "learning_rate": 0.000159574917927321,
      "loss": 1.5849,
      "step": 59067
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5656118392944336,
      "learning_rate": 0.00015956568164251912,
      "loss": 1.5161,
      "step": 59068
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5916730761528015,
      "learning_rate": 0.00015955644552818372,
      "loss": 1.551,
      "step": 59069
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5850224494934082,
      "learning_rate": 0.0001595472095843262,
      "loss": 1.5744,
      "step": 59070
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5733602046966553,
      "learning_rate": 0.00015953797381095772,
      "loss": 1.498,
      "step": 59071
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5820935368537903,
      "learning_rate": 0.00015952873820808928,
      "loss": 1.5512,
      "step": 59072
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5713256597518921,
      "learning_rate": 0.0001595195027757323,
      "loss": 1.5488,
      "step": 59073
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5859313011169434,
      "learning_rate": 0.0001595102675138981,
      "loss": 1.5906,
      "step": 59074
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5782504677772522,
      "learning_rate": 0.00015950103242259756,
      "loss": 1.6074,
      "step": 59075
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5534623265266418,
      "learning_rate": 0.00015949179750184204,
      "loss": 1.5032,
      "step": 59076
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5586638450622559,
      "learning_rate": 0.0001594825627516429,
      "loss": 1.5845,
      "step": 59077
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5683513283729553,
      "learning_rate": 0.00015947332817201125,
      "loss": 1.552,
      "step": 59078
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5939949750900269,
      "learning_rate": 0.00015946409376295812,
      "loss": 1.5891,
      "step": 59079
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5836825966835022,
      "learning_rate": 0.00015945485952449488,
      "loss": 1.6006,
      "step": 59080
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5612315535545349,
      "learning_rate": 0.000159445625456633,
      "loss": 1.5675,
      "step": 59081
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.571836531162262,
      "learning_rate": 0.00015943639155938317,
      "loss": 1.5745,
      "step": 59082
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.609233558177948,
      "learning_rate": 0.00015942715783275684,
      "loss": 1.5924,
      "step": 59083
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5785406827926636,
      "learning_rate": 0.0001594179242767653,
      "loss": 1.554,
      "step": 59084
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5613920092582703,
      "learning_rate": 0.00015940869089141975,
      "loss": 1.5526,
      "step": 59085
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5780228972434998,
      "learning_rate": 0.0001593994576767312,
      "loss": 1.5998,
      "step": 59086
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5739858746528625,
      "learning_rate": 0.00015939022463271098,
      "loss": 1.5583,
      "step": 59087
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5762404799461365,
      "learning_rate": 0.00015938099175937057,
      "loss": 1.5647,
      "step": 59088
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5588291883468628,
      "learning_rate": 0.0001593717590567207,
      "loss": 1.5326,
      "step": 59089
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5485624670982361,
      "learning_rate": 0.00015936252652477275,
      "loss": 1.5696,
      "step": 59090
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5977723598480225,
      "learning_rate": 0.0001593532941635381,
      "loss": 1.6195,
      "step": 59091
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5803265571594238,
      "learning_rate": 0.00015934406197302782,
      "loss": 1.6119,
      "step": 59092
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5610624551773071,
      "learning_rate": 0.000159334829953253,
      "loss": 1.5481,
      "step": 59093
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.55088210105896,
      "learning_rate": 0.0001593255981042251,
      "loss": 1.525,
      "step": 59094
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5774399638175964,
      "learning_rate": 0.0001593163664259552,
      "loss": 1.5466,
      "step": 59095
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5861490964889526,
      "learning_rate": 0.00015930713491845442,
      "loss": 1.5339,
      "step": 59096
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5804212689399719,
      "learning_rate": 0.000159297903581734,
      "loss": 1.6616,
      "step": 59097
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.560400664806366,
      "learning_rate": 0.00015928867241580532,
      "loss": 1.6385,
      "step": 59098
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5807121396064758,
      "learning_rate": 0.00015927944142067943,
      "loss": 1.4972,
      "step": 59099
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5862023830413818,
      "learning_rate": 0.0001592702105963675,
      "loss": 1.545,
      "step": 59100
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5735344290733337,
      "learning_rate": 0.00015926097994288087,
      "loss": 1.5291,
      "step": 59101
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5822828412055969,
      "learning_rate": 0.0001592517494602307,
      "loss": 1.5141,
      "step": 59102
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.554469645023346,
      "learning_rate": 0.00015924251914842805,
      "loss": 1.5533,
      "step": 59103
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5545846819877625,
      "learning_rate": 0.00015923328900748426,
      "loss": 1.5436,
      "step": 59104
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5690026879310608,
      "learning_rate": 0.0001592240590374106,
      "loss": 1.5731,
      "step": 59105
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5682443380355835,
      "learning_rate": 0.0001592148292382182,
      "loss": 1.5615,
      "step": 59106
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5758679509162903,
      "learning_rate": 0.00015920559960991813,
      "loss": 1.585,
      "step": 59107
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5800017714500427,
      "learning_rate": 0.00015919637015252185,
      "loss": 1.5653,
      "step": 59108
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5751392245292664,
      "learning_rate": 0.00015918714086604046,
      "loss": 1.463,
      "step": 59109
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5714530944824219,
      "learning_rate": 0.00015917791175048494,
      "loss": 1.5744,
      "step": 59110
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.571368396282196,
      "learning_rate": 0.00015916868280586687,
      "loss": 1.5892,
      "step": 59111
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5792231559753418,
      "learning_rate": 0.00015915945403219712,
      "loss": 1.5581,
      "step": 59112
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5771311521530151,
      "learning_rate": 0.00015915022542948716,
      "loss": 1.5135,
      "step": 59113
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5877995491027832,
      "learning_rate": 0.00015914099699774795,
      "loss": 1.4938,
      "step": 59114
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5915688276290894,
      "learning_rate": 0.0001591317687369909,
      "loss": 1.5627,
      "step": 59115
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5617172122001648,
      "learning_rate": 0.00015912254064722722,
      "loss": 1.6277,
      "step": 59116
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5606411099433899,
      "learning_rate": 0.00015911331272846786,
      "loss": 1.5363,
      "step": 59117
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5837279558181763,
      "learning_rate": 0.00015910408498072425,
      "loss": 1.6168,
      "step": 59118
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.584135890007019,
      "learning_rate": 0.00015909485740400747,
      "loss": 1.6266,
      "step": 59119
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5482870936393738,
      "learning_rate": 0.00015908562999832887,
      "loss": 1.5569,
      "step": 59120
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5802157521247864,
      "learning_rate": 0.00015907640276369947,
      "loss": 1.5397,
      "step": 59121
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5828055143356323,
      "learning_rate": 0.00015906717570013054,
      "loss": 1.5302,
      "step": 59122
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.583016574382782,
      "learning_rate": 0.00015905794880763336,
      "loss": 1.4968,
      "step": 59123
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5834614634513855,
      "learning_rate": 0.00015904872208621898,
      "loss": 1.4667,
      "step": 59124
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5917152166366577,
      "learning_rate": 0.00015903949553589875,
      "loss": 1.5718,
      "step": 59125
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5596155524253845,
      "learning_rate": 0.00015903026915668373,
      "loss": 1.4775,
      "step": 59126
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5611808896064758,
      "learning_rate": 0.00015902104294858533,
      "loss": 1.5887,
      "step": 59127
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5877645611763,
      "learning_rate": 0.00015901181691161455,
      "loss": 1.46,
      "step": 59128
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5564572811126709,
      "learning_rate": 0.0001590025910457826,
      "loss": 1.52,
      "step": 59129
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5825245976448059,
      "learning_rate": 0.0001589933653511008,
      "loss": 1.5239,
      "step": 59130
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5579367876052856,
      "learning_rate": 0.00015898413982758027,
      "loss": 1.5495,
      "step": 59131
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5889427065849304,
      "learning_rate": 0.00015897491447523212,
      "loss": 1.5175,
      "step": 59132
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.58647620677948,
      "learning_rate": 0.00015896568929406766,
      "loss": 1.5853,
      "step": 59133
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.570011556148529,
      "learning_rate": 0.00015895646428409815,
      "loss": 1.5313,
      "step": 59134
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5580626130104065,
      "learning_rate": 0.00015894723944533473,
      "loss": 1.503,
      "step": 59135
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5606392621994019,
      "learning_rate": 0.0001589380147777885,
      "loss": 1.5674,
      "step": 59136
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5644131898880005,
      "learning_rate": 0.0001589287902814708,
      "loss": 1.5586,
      "step": 59137
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5693274140357971,
      "learning_rate": 0.00015891956595639277,
      "loss": 1.5964,
      "step": 59138
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5749508738517761,
      "learning_rate": 0.00015891034180256548,
      "loss": 1.5571,
      "step": 59139
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5630503296852112,
      "learning_rate": 0.00015890111782000026,
      "loss": 1.5372,
      "step": 59140
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5817129611968994,
      "learning_rate": 0.0001588918940087084,
      "loss": 1.5831,
      "step": 59141
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5685718655586243,
      "learning_rate": 0.00015888267036870104,
      "loss": 1.5686,
      "step": 59142
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5681857466697693,
      "learning_rate": 0.00015887344689998915,
      "loss": 1.5627,
      "step": 59143
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5709695816040039,
      "learning_rate": 0.00015886422360258422,
      "loss": 1.506,
      "step": 59144
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5678243637084961,
      "learning_rate": 0.00015885500047649735,
      "loss": 1.5613,
      "step": 59145
    },
    {
      "epoch": 1.97,
      "grad_norm": 1.2829163074493408,
      "learning_rate": 0.00015884577752173958,
      "loss": 1.6512,
      "step": 59146
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5875122547149658,
      "learning_rate": 0.00015883655473832226,
      "loss": 1.6229,
      "step": 59147
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5843351483345032,
      "learning_rate": 0.00015882733212625665,
      "loss": 1.637,
      "step": 59148
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5742753744125366,
      "learning_rate": 0.0001588181096855539,
      "loss": 1.5298,
      "step": 59149
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5553110837936401,
      "learning_rate": 0.000158808887416225,
      "loss": 1.6219,
      "step": 59150
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5577062964439392,
      "learning_rate": 0.00015879966531828145,
      "loss": 1.6088,
      "step": 59151
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.616662323474884,
      "learning_rate": 0.0001587904433917343,
      "loss": 1.5787,
      "step": 59152
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6156830787658691,
      "learning_rate": 0.00015878122163659464,
      "loss": 1.55,
      "step": 59153
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5609856843948364,
      "learning_rate": 0.00015877200005287372,
      "loss": 1.5399,
      "step": 59154
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5593175888061523,
      "learning_rate": 0.00015876277864058295,
      "loss": 1.5377,
      "step": 59155
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.555706799030304,
      "learning_rate": 0.00015875355739973333,
      "loss": 1.537,
      "step": 59156
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5570608377456665,
      "learning_rate": 0.00015874433633033597,
      "loss": 1.5532,
      "step": 59157
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5795860290527344,
      "learning_rate": 0.0001587351154324023,
      "loss": 1.55,
      "step": 59158
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5775299668312073,
      "learning_rate": 0.00015872589470594336,
      "loss": 1.5985,
      "step": 59159
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5971150994300842,
      "learning_rate": 0.00015871667415097025,
      "loss": 1.5651,
      "step": 59160
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5929989218711853,
      "learning_rate": 0.00015870745376749446,
      "loss": 1.5948,
      "step": 59161
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.553283154964447,
      "learning_rate": 0.0001586982335555268,
      "loss": 1.5671,
      "step": 59162
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5971524715423584,
      "learning_rate": 0.00015868901351507884,
      "loss": 1.5567,
      "step": 59163
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5736758708953857,
      "learning_rate": 0.0001586797936461615,
      "loss": 1.5695,
      "step": 59164
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5720634460449219,
      "learning_rate": 0.00015867057394878612,
      "loss": 1.5373,
      "step": 59165
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5813937783241272,
      "learning_rate": 0.00015866135442296384,
      "loss": 1.541,
      "step": 59166
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5901647210121155,
      "learning_rate": 0.00015865213506870577,
      "loss": 1.5986,
      "step": 59167
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5642403960227966,
      "learning_rate": 0.00015864291588602326,
      "loss": 1.5691,
      "step": 59168
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5610672831535339,
      "learning_rate": 0.00015863369687492735,
      "loss": 1.537,
      "step": 59169
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.606930136680603,
      "learning_rate": 0.00015862447803542944,
      "loss": 1.6668,
      "step": 59170
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5736290812492371,
      "learning_rate": 0.00015861525936754052,
      "loss": 1.5635,
      "step": 59171
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5824823975563049,
      "learning_rate": 0.00015860604087127175,
      "loss": 1.6153,
      "step": 59172
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5438773036003113,
      "learning_rate": 0.00015859682254663456,
      "loss": 1.5233,
      "step": 59173
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5962989926338196,
      "learning_rate": 0.0001585876043936398,
      "loss": 1.559,
      "step": 59174
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5793800950050354,
      "learning_rate": 0.00015857838641229906,
      "loss": 1.5622,
      "step": 59175
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5542094111442566,
      "learning_rate": 0.00015856916860262313,
      "loss": 1.5022,
      "step": 59176
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5869539380073547,
      "learning_rate": 0.00015855995096462355,
      "loss": 1.535,
      "step": 59177
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5735171437263489,
      "learning_rate": 0.00015855073349831133,
      "loss": 1.5949,
      "step": 59178
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5708362460136414,
      "learning_rate": 0.00015854151620369757,
      "loss": 1.5737,
      "step": 59179
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5798143148422241,
      "learning_rate": 0.00015853229908079368,
      "loss": 1.6221,
      "step": 59180
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5505748987197876,
      "learning_rate": 0.00015852308212961074,
      "loss": 1.5721,
      "step": 59181
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.561831533908844,
      "learning_rate": 0.0001585138653501598,
      "loss": 1.592,
      "step": 59182
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5523893237113953,
      "learning_rate": 0.0001585046487424522,
      "loss": 1.5328,
      "step": 59183
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6625704765319824,
      "learning_rate": 0.00015849543230649923,
      "loss": 1.5016,
      "step": 59184
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6029332876205444,
      "learning_rate": 0.00015848621604231194,
      "loss": 1.6019,
      "step": 59185
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5654325485229492,
      "learning_rate": 0.0001584769999499014,
      "loss": 1.5774,
      "step": 59186
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5623930096626282,
      "learning_rate": 0.00015846778402927905,
      "loss": 1.5832,
      "step": 59187
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5608252286911011,
      "learning_rate": 0.000158458568280456,
      "loss": 1.6057,
      "step": 59188
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5790611505508423,
      "learning_rate": 0.00015844935270344323,
      "loss": 1.5157,
      "step": 59189
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5569912791252136,
      "learning_rate": 0.00015844013729825212,
      "loss": 1.5713,
      "step": 59190
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.57905113697052,
      "learning_rate": 0.00015843092206489404,
      "loss": 1.5309,
      "step": 59191
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5842084288597107,
      "learning_rate": 0.00015842170700337973,
      "loss": 1.6015,
      "step": 59192
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5742530822753906,
      "learning_rate": 0.00015841249211372065,
      "loss": 1.6077,
      "step": 59193
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5801905989646912,
      "learning_rate": 0.00015840327739592797,
      "loss": 1.4934,
      "step": 59194
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5905186533927917,
      "learning_rate": 0.00015839406285001294,
      "loss": 1.5934,
      "step": 59195
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5597409009933472,
      "learning_rate": 0.00015838484847598648,
      "loss": 1.6088,
      "step": 59196
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5539138913154602,
      "learning_rate": 0.00015837563427385996,
      "loss": 1.5683,
      "step": 59197
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5617456436157227,
      "learning_rate": 0.0001583664202436448,
      "loss": 1.5922,
      "step": 59198
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5794657468795776,
      "learning_rate": 0.00015835720638535168,
      "loss": 1.5895,
      "step": 59199
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5779290795326233,
      "learning_rate": 0.00015834799269899205,
      "loss": 1.5983,
      "step": 59200
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5724470019340515,
      "learning_rate": 0.0001583387791845772,
      "loss": 1.6035,
      "step": 59201
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5764415860176086,
      "learning_rate": 0.00015832956584211822,
      "loss": 1.601,
      "step": 59202
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5716336965560913,
      "learning_rate": 0.00015832035267162613,
      "loss": 1.5506,
      "step": 59203
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5711625814437866,
      "learning_rate": 0.00015831113967311228,
      "loss": 1.5772,
      "step": 59204
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5552181601524353,
      "learning_rate": 0.00015830192684658805,
      "loss": 1.5119,
      "step": 59205
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5622076988220215,
      "learning_rate": 0.00015829271419206417,
      "loss": 1.5722,
      "step": 59206
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5726850032806396,
      "learning_rate": 0.00015828350170955205,
      "loss": 1.6797,
      "step": 59207
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5632562041282654,
      "learning_rate": 0.000158274289399063,
      "loss": 1.6005,
      "step": 59208
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5667842030525208,
      "learning_rate": 0.00015826507726060808,
      "loss": 1.5344,
      "step": 59209
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5931679010391235,
      "learning_rate": 0.00015825586529419835,
      "loss": 1.4937,
      "step": 59210
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5471991300582886,
      "learning_rate": 0.00015824665349984526,
      "loss": 1.5567,
      "step": 59211
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5745193958282471,
      "learning_rate": 0.0001582374418775598,
      "loss": 1.442,
      "step": 59212
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.560872495174408,
      "learning_rate": 0.00015822823042735312,
      "loss": 1.5621,
      "step": 59213
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5758142471313477,
      "learning_rate": 0.00015821901914923647,
      "loss": 1.5512,
      "step": 59214
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5685876607894897,
      "learning_rate": 0.00015820980804322115,
      "loss": 1.5835,
      "step": 59215
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5643613934516907,
      "learning_rate": 0.0001582005971093182,
      "loss": 1.5754,
      "step": 59216
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5738325715065002,
      "learning_rate": 0.00015819138634753878,
      "loss": 1.5841,
      "step": 59217
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5625361204147339,
      "learning_rate": 0.0001581821757578942,
      "loss": 1.5799,
      "step": 59218
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5426787734031677,
      "learning_rate": 0.00015817296534039558,
      "loss": 1.5591,
      "step": 59219
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5888254642486572,
      "learning_rate": 0.00015816375509505393,
      "loss": 1.6144,
      "step": 59220
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5796390175819397,
      "learning_rate": 0.00015815454502188074,
      "loss": 1.5559,
      "step": 59221
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5728689432144165,
      "learning_rate": 0.0001581453351208869,
      "loss": 1.5242,
      "step": 59222
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5617791414260864,
      "learning_rate": 0.00015813612539208383,
      "loss": 1.5845,
      "step": 59223
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5730218887329102,
      "learning_rate": 0.0001581269158354825,
      "loss": 1.5482,
      "step": 59224
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5505738258361816,
      "learning_rate": 0.00015811770645109428,
      "loss": 1.5556,
      "step": 59225
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5615583062171936,
      "learning_rate": 0.0001581084972389303,
      "loss": 1.5883,
      "step": 59226
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5719634890556335,
      "learning_rate": 0.00015809928819900156,
      "loss": 1.5196,
      "step": 59227
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.583886444568634,
      "learning_rate": 0.00015809007933131948,
      "loss": 1.5603,
      "step": 59228
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.555605411529541,
      "learning_rate": 0.00015808087063589503,
      "loss": 1.538,
      "step": 59229
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5583429336547852,
      "learning_rate": 0.0001580716621127396,
      "loss": 1.5224,
      "step": 59230
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5845584273338318,
      "learning_rate": 0.0001580624537618642,
      "loss": 1.5808,
      "step": 59231
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5787134170532227,
      "learning_rate": 0.0001580532455832801,
      "loss": 1.5961,
      "step": 59232
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5470088720321655,
      "learning_rate": 0.0001580440375769985,
      "loss": 1.6014,
      "step": 59233
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6077588200569153,
      "learning_rate": 0.00015803482974303037,
      "loss": 1.5766,
      "step": 59234
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5825421214103699,
      "learning_rate": 0.0001580256220813872,
      "loss": 1.5976,
      "step": 59235
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5656183958053589,
      "learning_rate": 0.00015801641459207985,
      "loss": 1.4676,
      "step": 59236
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5515280365943909,
      "learning_rate": 0.00015800720727511978,
      "loss": 1.6127,
      "step": 59237
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5547428131103516,
      "learning_rate": 0.00015799800013051803,
      "loss": 1.5591,
      "step": 59238
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5732995271682739,
      "learning_rate": 0.00015798879315828568,
      "loss": 1.5536,
      "step": 59239
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5723929405212402,
      "learning_rate": 0.00015797958635843415,
      "loss": 1.5629,
      "step": 59240
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5722569227218628,
      "learning_rate": 0.0001579703797309743,
      "loss": 1.5316,
      "step": 59241
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.570985734462738,
      "learning_rate": 0.00015796117327591765,
      "loss": 1.5103,
      "step": 59242
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5761067271232605,
      "learning_rate": 0.0001579519669932751,
      "loss": 1.5735,
      "step": 59243
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5766249895095825,
      "learning_rate": 0.00015794276088305803,
      "loss": 1.5885,
      "step": 59244
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5698632001876831,
      "learning_rate": 0.00015793355494527747,
      "loss": 1.5469,
      "step": 59245
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5594039559364319,
      "learning_rate": 0.00015792434917994458,
      "loss": 1.5388,
      "step": 59246
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5731768608093262,
      "learning_rate": 0.0001579151435870707,
      "loss": 1.5744,
      "step": 59247
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5847633481025696,
      "learning_rate": 0.0001579059381666669,
      "loss": 1.5874,
      "step": 59248
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5545626282691956,
      "learning_rate": 0.00015789673291874426,
      "loss": 1.5655,
      "step": 59249
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5772424936294556,
      "learning_rate": 0.000157887527843314,
      "loss": 1.5992,
      "step": 59250
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5750165581703186,
      "learning_rate": 0.00015787832294038748,
      "loss": 1.5349,
      "step": 59251
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5470865964889526,
      "learning_rate": 0.00015786911820997576,
      "loss": 1.5675,
      "step": 59252
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6093794107437134,
      "learning_rate": 0.00015785991365208982,
      "loss": 1.5788,
      "step": 59253
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6052020788192749,
      "learning_rate": 0.00015785070926674117,
      "loss": 1.6187,
      "step": 59254
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5682145953178406,
      "learning_rate": 0.0001578415050539408,
      "loss": 1.5249,
      "step": 59255
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5554293990135193,
      "learning_rate": 0.00015783230101369978,
      "loss": 1.4942,
      "step": 59256
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5582095980644226,
      "learning_rate": 0.00015782309714602936,
      "loss": 1.5517,
      "step": 59257
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5731022953987122,
      "learning_rate": 0.00015781389345094092,
      "loss": 1.5592,
      "step": 59258
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5720914006233215,
      "learning_rate": 0.00015780468992844545,
      "loss": 1.5691,
      "step": 59259
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5836718678474426,
      "learning_rate": 0.00015779548657855402,
      "loss": 1.635,
      "step": 59260
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5670715570449829,
      "learning_rate": 0.00015778628340127801,
      "loss": 1.6302,
      "step": 59261
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5600999593734741,
      "learning_rate": 0.00015777708039662854,
      "loss": 1.5568,
      "step": 59262
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5676352381706238,
      "learning_rate": 0.00015776787756461655,
      "loss": 1.6087,
      "step": 59263
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.59110027551651,
      "learning_rate": 0.00015775867490525346,
      "loss": 1.5645,
      "step": 59264
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5717477798461914,
      "learning_rate": 0.00015774947241855048,
      "loss": 1.5505,
      "step": 59265
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5733831524848938,
      "learning_rate": 0.00015774027010451868,
      "loss": 1.546,
      "step": 59266
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5636902451515198,
      "learning_rate": 0.0001577310679631691,
      "loss": 1.4996,
      "step": 59267
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5604357123374939,
      "learning_rate": 0.0001577218659945132,
      "loss": 1.4698,
      "step": 59268
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.589266836643219,
      "learning_rate": 0.00015771266419856197,
      "loss": 1.5929,
      "step": 59269
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5893083810806274,
      "learning_rate": 0.00015770346257532646,
      "loss": 1.5813,
      "step": 59270
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5628684759140015,
      "learning_rate": 0.000157694261124818,
      "loss": 1.4865,
      "step": 59271
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5784804224967957,
      "learning_rate": 0.00015768505984704788,
      "loss": 1.6049,
      "step": 59272
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5577437877655029,
      "learning_rate": 0.00015767585874202708,
      "loss": 1.4907,
      "step": 59273
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5594545006752014,
      "learning_rate": 0.00015766665780976675,
      "loss": 1.5125,
      "step": 59274
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5438070893287659,
      "learning_rate": 0.00015765745705027822,
      "loss": 1.5623,
      "step": 59275
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5876224040985107,
      "learning_rate": 0.00015764825646357255,
      "loss": 1.5626,
      "step": 59276
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.568560779094696,
      "learning_rate": 0.00015763905604966082,
      "loss": 1.5107,
      "step": 59277
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5562282204627991,
      "learning_rate": 0.00015762985580855443,
      "loss": 1.4896,
      "step": 59278
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5854418873786926,
      "learning_rate": 0.00015762065574026428,
      "loss": 1.5888,
      "step": 59279
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5722470283508301,
      "learning_rate": 0.00015761145584480179,
      "loss": 1.6675,
      "step": 59280
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5703572034835815,
      "learning_rate": 0.0001576022561221779,
      "loss": 1.5872,
      "step": 59281
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5579766035079956,
      "learning_rate": 0.000157593056572404,
      "loss": 1.5728,
      "step": 59282
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5570248961448669,
      "learning_rate": 0.00015758385719549117,
      "loss": 1.5976,
      "step": 59283
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.572667121887207,
      "learning_rate": 0.0001575746579914504,
      "loss": 1.5335,
      "step": 59284
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5611507296562195,
      "learning_rate": 0.00015756545896029316,
      "loss": 1.543,
      "step": 59285
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5840994715690613,
      "learning_rate": 0.0001575562601020303,
      "loss": 1.5611,
      "step": 59286
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5787103176116943,
      "learning_rate": 0.00015754706141667336,
      "loss": 1.5814,
      "step": 59287
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5794876217842102,
      "learning_rate": 0.0001575378629042332,
      "loss": 1.5559,
      "step": 59288
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5704866051673889,
      "learning_rate": 0.00015752866456472103,
      "loss": 1.5382,
      "step": 59289
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.2621848583221436,
      "learning_rate": 0.0001575194663981482,
      "loss": 1.7173,
      "step": 59290
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5808792114257812,
      "learning_rate": 0.00015751026840452558,
      "loss": 1.5031,
      "step": 59291
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5525818467140198,
      "learning_rate": 0.00015750107058386462,
      "loss": 1.5333,
      "step": 59292
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5710756182670593,
      "learning_rate": 0.00015749187293617625,
      "loss": 1.534,
      "step": 59293
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.550692081451416,
      "learning_rate": 0.00015748267546147185,
      "loss": 1.5215,
      "step": 59294
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5557429790496826,
      "learning_rate": 0.00015747347815976253,
      "loss": 1.4848,
      "step": 59295
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5873501896858215,
      "learning_rate": 0.00015746428103105927,
      "loss": 1.5116,
      "step": 59296
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5811830759048462,
      "learning_rate": 0.00015745508407537348,
      "loss": 1.5955,
      "step": 59297
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5583150386810303,
      "learning_rate": 0.00015744588729271622,
      "loss": 1.5069,
      "step": 59298
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5634989738464355,
      "learning_rate": 0.00015743669068309853,
      "loss": 1.6063,
      "step": 59299
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5661190748214722,
      "learning_rate": 0.00015742749424653172,
      "loss": 1.5976,
      "step": 59300
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5592960715293884,
      "learning_rate": 0.000157418297983027,
      "loss": 1.5782,
      "step": 59301
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5623385310173035,
      "learning_rate": 0.00015740910189259545,
      "loss": 1.5886,
      "step": 59302
    },
    {
      "epoch": 1.97,
      "grad_norm": 1.1204867362976074,
      "learning_rate": 0.00015739990597524818,
      "loss": 1.5988,
      "step": 59303
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5529253482818604,
      "learning_rate": 0.00015739071023099647,
      "loss": 1.5433,
      "step": 59304
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5715184807777405,
      "learning_rate": 0.00015738151465985144,
      "loss": 1.5316,
      "step": 59305
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5770647525787354,
      "learning_rate": 0.00015737231926182417,
      "loss": 1.5812,
      "step": 59306
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5798236727714539,
      "learning_rate": 0.00015736312403692585,
      "loss": 1.5655,
      "step": 59307
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5571101307868958,
      "learning_rate": 0.00015735392898516792,
      "loss": 1.5173,
      "step": 59308
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5534636974334717,
      "learning_rate": 0.00015734473410656104,
      "loss": 1.567,
      "step": 59309
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5823330879211426,
      "learning_rate": 0.00015733553940111664,
      "loss": 1.5604,
      "step": 59310
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5871416926383972,
      "learning_rate": 0.00015732634486884602,
      "loss": 1.5879,
      "step": 59311
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.569938063621521,
      "learning_rate": 0.00015731715050976023,
      "loss": 1.5902,
      "step": 59312
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5852894186973572,
      "learning_rate": 0.0001573079563238702,
      "loss": 1.6226,
      "step": 59313
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.556181013584137,
      "learning_rate": 0.00015729876231118734,
      "loss": 1.5132,
      "step": 59314
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5714459419250488,
      "learning_rate": 0.00015728956847172295,
      "loss": 1.5588,
      "step": 59315
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5642837882041931,
      "learning_rate": 0.0001572803748054878,
      "loss": 1.581,
      "step": 59316
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.553516685962677,
      "learning_rate": 0.0001572711813124932,
      "loss": 1.4993,
      "step": 59317
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5689956545829773,
      "learning_rate": 0.00015726198799275053,
      "loss": 1.5795,
      "step": 59318
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5535956621170044,
      "learning_rate": 0.00015725279484627073,
      "loss": 1.5032,
      "step": 59319
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5676609873771667,
      "learning_rate": 0.00015724360187306492,
      "loss": 1.6329,
      "step": 59320
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.551008403301239,
      "learning_rate": 0.0001572344090731443,
      "loss": 1.5774,
      "step": 59321
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5558127164840698,
      "learning_rate": 0.00015722521644652033,
      "loss": 1.5925,
      "step": 59322
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5354412198066711,
      "learning_rate": 0.00015721602399320373,
      "loss": 1.5946,
      "step": 59323
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5829076170921326,
      "learning_rate": 0.00015720683171320575,
      "loss": 1.5123,
      "step": 59324
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5574535727500916,
      "learning_rate": 0.0001571976396065378,
      "loss": 1.6127,
      "step": 59325
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5849324464797974,
      "learning_rate": 0.0001571884476732109,
      "loss": 1.4529,
      "step": 59326
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5615344643592834,
      "learning_rate": 0.000157179255913236,
      "loss": 1.6261,
      "step": 59327
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5546758770942688,
      "learning_rate": 0.00015717006432662458,
      "loss": 1.5959,
      "step": 59328
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5569796562194824,
      "learning_rate": 0.0001571608729133877,
      "loss": 1.4663,
      "step": 59329
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5578291416168213,
      "learning_rate": 0.0001571516816735363,
      "loss": 1.5871,
      "step": 59330
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5794765949249268,
      "learning_rate": 0.00015714249060708174,
      "loss": 1.4968,
      "step": 59331
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5753019452095032,
      "learning_rate": 0.00015713329971403528,
      "loss": 1.5081,
      "step": 59332
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5654651522636414,
      "learning_rate": 0.0001571241089944079,
      "loss": 1.5638,
      "step": 59333
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5661472678184509,
      "learning_rate": 0.00015711491844821071,
      "loss": 1.584,
      "step": 59334
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5518786907196045,
      "learning_rate": 0.00015710572807545506,
      "loss": 1.4828,
      "step": 59335
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5706830024719238,
      "learning_rate": 0.000157096537876152,
      "loss": 1.5828,
      "step": 59336
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5617021918296814,
      "learning_rate": 0.0001570873478503126,
      "loss": 1.5256,
      "step": 59337
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.589749813079834,
      "learning_rate": 0.0001570781579979482,
      "loss": 1.6407,
      "step": 59338
    },
    {
      "epoch": 1.97,
      "grad_norm": 1.7709439992904663,
      "learning_rate": 0.0001570689683190697,
      "loss": 1.5185,
      "step": 59339
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5735542178153992,
      "learning_rate": 0.00015705977881368862,
      "loss": 1.5743,
      "step": 59340
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5650094747543335,
      "learning_rate": 0.0001570505894818157,
      "loss": 1.5669,
      "step": 59341
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5589462518692017,
      "learning_rate": 0.00015704140032346247,
      "loss": 1.5125,
      "step": 59342
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5846096277236938,
      "learning_rate": 0.00015703221133863988,
      "loss": 1.6075,
      "step": 59343
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5800127387046814,
      "learning_rate": 0.00015702302252735905,
      "loss": 1.5323,
      "step": 59344
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5636513829231262,
      "learning_rate": 0.00015701383388963132,
      "loss": 1.5275,
      "step": 59345
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5723718404769897,
      "learning_rate": 0.00015700464542546758,
      "loss": 1.6021,
      "step": 59346
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5689200758934021,
      "learning_rate": 0.00015699545713487926,
      "loss": 1.5528,
      "step": 59347
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5469027161598206,
      "learning_rate": 0.00015698626901787722,
      "loss": 1.6156,
      "step": 59348
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.6254625916481018,
      "learning_rate": 0.00015697708107447297,
      "loss": 1.6457,
      "step": 59349
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5748701095581055,
      "learning_rate": 0.00015696789330467743,
      "loss": 1.5473,
      "step": 59350
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5717481970787048,
      "learning_rate": 0.0001569587057085017,
      "loss": 1.5954,
      "step": 59351
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5706648826599121,
      "learning_rate": 0.0001569495182859571,
      "loss": 1.5213,
      "step": 59352
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5696123242378235,
      "learning_rate": 0.00015694033103705462,
      "loss": 1.5954,
      "step": 59353
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5687546730041504,
      "learning_rate": 0.00015693114396180563,
      "loss": 1.598,
      "step": 59354
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5730554461479187,
      "learning_rate": 0.0001569219570602211,
      "loss": 1.5356,
      "step": 59355
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5607742071151733,
      "learning_rate": 0.00015691277033231217,
      "loss": 1.5945,
      "step": 59356
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.582208514213562,
      "learning_rate": 0.00015690358377809014,
      "loss": 1.5247,
      "step": 59357
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5465732216835022,
      "learning_rate": 0.00015689439739756598,
      "loss": 1.5893,
      "step": 59358
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5574385523796082,
      "learning_rate": 0.00015688521119075106,
      "loss": 1.5966,
      "step": 59359
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.582782506942749,
      "learning_rate": 0.00015687602515765625,
      "loss": 1.5479,
      "step": 59360
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.5756101012229919,
      "learning_rate": 0.000156866839298293,
      "loss": 1.5429,
      "step": 59361
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.565807580947876,
      "learning_rate": 0.00015685765361267233,
      "loss": 1.48,
      "step": 59362
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5870577096939087,
      "learning_rate": 0.0001568484681008052,
      "loss": 1.4944,
      "step": 59363
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5789650082588196,
      "learning_rate": 0.00015683928276270315,
      "loss": 1.6022,
      "step": 59364
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5469940304756165,
      "learning_rate": 0.00015683009759837703,
      "loss": 1.4877,
      "step": 59365
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5886447429656982,
      "learning_rate": 0.000156820912607838,
      "loss": 1.5506,
      "step": 59366
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5741038918495178,
      "learning_rate": 0.0001568117277910973,
      "loss": 1.5747,
      "step": 59367
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5917932391166687,
      "learning_rate": 0.00015680254314816617,
      "loss": 1.528,
      "step": 59368
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6063319444656372,
      "learning_rate": 0.0001567933586790556,
      "loss": 1.613,
      "step": 59369
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5744332075119019,
      "learning_rate": 0.00015678417438377674,
      "loss": 1.5375,
      "step": 59370
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5671146512031555,
      "learning_rate": 0.00015677499026234086,
      "loss": 1.5302,
      "step": 59371
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5644038915634155,
      "learning_rate": 0.0001567658063147591,
      "loss": 1.5149,
      "step": 59372
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.593019962310791,
      "learning_rate": 0.0001567566225410424,
      "loss": 1.6084,
      "step": 59373
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6086413264274597,
      "learning_rate": 0.00015674743894120204,
      "loss": 1.5376,
      "step": 59374
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5803297758102417,
      "learning_rate": 0.00015673825551524933,
      "loss": 1.5209,
      "step": 59375
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.556163489818573,
      "learning_rate": 0.0001567290722631952,
      "loss": 1.5378,
      "step": 59376
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5792713165283203,
      "learning_rate": 0.00015671988918505083,
      "loss": 1.5394,
      "step": 59377
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5721172094345093,
      "learning_rate": 0.00015671070628082748,
      "loss": 1.4688,
      "step": 59378
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5754640102386475,
      "learning_rate": 0.0001567015235505362,
      "loss": 1.6326,
      "step": 59379
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5686929821968079,
      "learning_rate": 0.00015669234099418807,
      "loss": 1.4796,
      "step": 59380
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5694738030433655,
      "learning_rate": 0.00015668315861179434,
      "loss": 1.6096,
      "step": 59381
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5497894287109375,
      "learning_rate": 0.00015667397640336622,
      "loss": 1.5344,
      "step": 59382
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5650745630264282,
      "learning_rate": 0.0001566647943689148,
      "loss": 1.5861,
      "step": 59383
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5756280422210693,
      "learning_rate": 0.0001566556125084511,
      "loss": 1.5214,
      "step": 59384
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5977999567985535,
      "learning_rate": 0.00015664643082198643,
      "loss": 1.6208,
      "step": 59385
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5770940780639648,
      "learning_rate": 0.0001566372493095319,
      "loss": 1.5806,
      "step": 59386
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5485173463821411,
      "learning_rate": 0.0001566280679710985,
      "loss": 1.5208,
      "step": 59387
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.568737268447876,
      "learning_rate": 0.00015661888680669752,
      "loss": 1.567,
      "step": 59388
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5854616165161133,
      "learning_rate": 0.00015660970581634015,
      "loss": 1.6479,
      "step": 59389
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5569143295288086,
      "learning_rate": 0.00015660052500003751,
      "loss": 1.5215,
      "step": 59390
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5720272064208984,
      "learning_rate": 0.0001565913443578006,
      "loss": 1.6382,
      "step": 59391
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5859775543212891,
      "learning_rate": 0.00015658216388964076,
      "loss": 1.6529,
      "step": 59392
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5566418170928955,
      "learning_rate": 0.00015657298359556907,
      "loss": 1.5293,
      "step": 59393
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5726280808448792,
      "learning_rate": 0.00015656380347559647,
      "loss": 1.5162,
      "step": 59394
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5483566522598267,
      "learning_rate": 0.00015655462352973446,
      "loss": 1.5338,
      "step": 59395
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5748858451843262,
      "learning_rate": 0.00015654544375799385,
      "loss": 1.4957,
      "step": 59396
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5855735540390015,
      "learning_rate": 0.00015653626416038606,
      "loss": 1.6136,
      "step": 59397
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5693632364273071,
      "learning_rate": 0.000156527084736922,
      "loss": 1.5809,
      "step": 59398
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5852553248405457,
      "learning_rate": 0.000156517905487613,
      "loss": 1.5932,
      "step": 59399
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5720358490943909,
      "learning_rate": 0.00015650872641247016,
      "loss": 1.5283,
      "step": 59400
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5856713056564331,
      "learning_rate": 0.00015649954751150447,
      "loss": 1.4913,
      "step": 59401
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5744089484214783,
      "learning_rate": 0.0001564903687847273,
      "loss": 1.5892,
      "step": 59402
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5811052918434143,
      "learning_rate": 0.0001564811902321495,
      "loss": 1.5564,
      "step": 59403
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5686620473861694,
      "learning_rate": 0.00015647201185378258,
      "loss": 1.6403,
      "step": 59404
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5760363340377808,
      "learning_rate": 0.00015646283364963747,
      "loss": 1.5669,
      "step": 59405
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5680468678474426,
      "learning_rate": 0.0001564536556197252,
      "loss": 1.6205,
      "step": 59406
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5504854917526245,
      "learning_rate": 0.00015644447776405715,
      "loss": 1.5643,
      "step": 59407
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5716680884361267,
      "learning_rate": 0.00015643530008264424,
      "loss": 1.6119,
      "step": 59408
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5737435817718506,
      "learning_rate": 0.00015642612257549786,
      "loss": 1.5382,
      "step": 59409
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5657159686088562,
      "learning_rate": 0.0001564169452426289,
      "loss": 1.6123,
      "step": 59410
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5515539050102234,
      "learning_rate": 0.00015640776808404868,
      "loss": 1.6088,
      "step": 59411
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5750203132629395,
      "learning_rate": 0.00015639859109976834,
      "loss": 1.5796,
      "step": 59412
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5680074095726013,
      "learning_rate": 0.00015638941428979878,
      "loss": 1.5789,
      "step": 59413
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5745200514793396,
      "learning_rate": 0.00015638023765415145,
      "loss": 1.5625,
      "step": 59414
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5749943256378174,
      "learning_rate": 0.00015637106119283735,
      "loss": 1.5555,
      "step": 59415
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5878567695617676,
      "learning_rate": 0.00015636188490586748,
      "loss": 1.6693,
      "step": 59416
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5972439050674438,
      "learning_rate": 0.00015635270879325316,
      "loss": 1.5929,
      "step": 59417
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5863673090934753,
      "learning_rate": 0.00015634353285500557,
      "loss": 1.5305,
      "step": 59418
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5854666233062744,
      "learning_rate": 0.00015633435709113577,
      "loss": 1.5876,
      "step": 59419
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5576676726341248,
      "learning_rate": 0.0001563251815016548,
      "loss": 1.5425,
      "step": 59420
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5886247158050537,
      "learning_rate": 0.00015631600608657397,
      "loss": 1.5425,
      "step": 59421
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5652563571929932,
      "learning_rate": 0.00015630683084590433,
      "loss": 1.5816,
      "step": 59422
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5630452632904053,
      "learning_rate": 0.000156297655779657,
      "loss": 1.5142,
      "step": 59423
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5732627511024475,
      "learning_rate": 0.00015628848088784303,
      "loss": 1.6413,
      "step": 59424
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5725119709968567,
      "learning_rate": 0.00015627930617047396,
      "loss": 1.55,
      "step": 59425
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5662916898727417,
      "learning_rate": 0.0001562701316275604,
      "loss": 1.5224,
      "step": 59426
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5822945833206177,
      "learning_rate": 0.00015626095725911372,
      "loss": 1.5941,
      "step": 59427
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5536530017852783,
      "learning_rate": 0.00015625178306514516,
      "loss": 1.5445,
      "step": 59428
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5597811341285706,
      "learning_rate": 0.00015624260904566575,
      "loss": 1.4343,
      "step": 59429
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5826497673988342,
      "learning_rate": 0.00015623343520068653,
      "loss": 1.5621,
      "step": 59430
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.583679735660553,
      "learning_rate": 0.00015622426153021873,
      "loss": 1.5548,
      "step": 59431
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5859605669975281,
      "learning_rate": 0.00015621508803427374,
      "loss": 1.5912,
      "step": 59432
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5630202293395996,
      "learning_rate": 0.0001562059147128622,
      "loss": 1.5569,
      "step": 59433
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.616661787033081,
      "learning_rate": 0.0001561967415659955,
      "loss": 1.6719,
      "step": 59434
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5609434843063354,
      "learning_rate": 0.0001561875685936849,
      "loss": 1.5878,
      "step": 59435
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5486737489700317,
      "learning_rate": 0.00015617839579594139,
      "loss": 1.5913,
      "step": 59436
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5870847702026367,
      "learning_rate": 0.00015616922317277597,
      "loss": 1.6089,
      "step": 59437
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5803588032722473,
      "learning_rate": 0.00015616005072419996,
      "loss": 1.5902,
      "step": 59438
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5805712342262268,
      "learning_rate": 0.00015615087845022467,
      "loss": 1.4724,
      "step": 59439
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5784574747085571,
      "learning_rate": 0.00015614170635086077,
      "loss": 1.5747,
      "step": 59440
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5636591911315918,
      "learning_rate": 0.0001561325344261197,
      "loss": 1.5304,
      "step": 59441
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5733805894851685,
      "learning_rate": 0.00015612336267601258,
      "loss": 1.5813,
      "step": 59442
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5671330690383911,
      "learning_rate": 0.00015611419110055053,
      "loss": 1.5755,
      "step": 59443
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5758299827575684,
      "learning_rate": 0.00015610501969974452,
      "loss": 1.5303,
      "step": 59444
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5710418224334717,
      "learning_rate": 0.00015609584847360597,
      "loss": 1.5835,
      "step": 59445
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5689986348152161,
      "learning_rate": 0.0001560866774221458,
      "loss": 1.5551,
      "step": 59446
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5645096302032471,
      "learning_rate": 0.00015607750654537513,
      "loss": 1.5551,
      "step": 59447
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5756794810295105,
      "learning_rate": 0.00015606833584330514,
      "loss": 1.6248,
      "step": 59448
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5876100063323975,
      "learning_rate": 0.0001560591653159471,
      "loss": 1.5046,
      "step": 59449
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6087923645973206,
      "learning_rate": 0.00015604999496331205,
      "loss": 1.5317,
      "step": 59450
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5977890491485596,
      "learning_rate": 0.00015604082478541095,
      "loss": 1.5721,
      "step": 59451
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5650243759155273,
      "learning_rate": 0.00015603165478225521,
      "loss": 1.5148,
      "step": 59452
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5972656011581421,
      "learning_rate": 0.00015602248495385582,
      "loss": 1.5583,
      "step": 59453
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5793263912200928,
      "learning_rate": 0.0001560133153002238,
      "loss": 1.5119,
      "step": 59454
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6179157495498657,
      "learning_rate": 0.00015600414582137053,
      "loss": 1.5961,
      "step": 59455
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5674410462379456,
      "learning_rate": 0.00015599497651730691,
      "loss": 1.618,
      "step": 59456
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.571908712387085,
      "learning_rate": 0.00015598580738804426,
      "loss": 1.591,
      "step": 59457
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5730276107788086,
      "learning_rate": 0.00015597663843359348,
      "loss": 1.5518,
      "step": 59458
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5931276679039001,
      "learning_rate": 0.00015596746965396597,
      "loss": 1.5982,
      "step": 59459
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5747581124305725,
      "learning_rate": 0.00015595830104917275,
      "loss": 1.5034,
      "step": 59460
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5812361836433411,
      "learning_rate": 0.0001559491326192248,
      "loss": 1.6287,
      "step": 59461
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5762381553649902,
      "learning_rate": 0.00015593996436413348,
      "loss": 1.6387,
      "step": 59462
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5978798866271973,
      "learning_rate": 0.00015593079628390975,
      "loss": 1.5945,
      "step": 59463
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5840262174606323,
      "learning_rate": 0.00015592162837856487,
      "loss": 1.5251,
      "step": 59464
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5726733803749084,
      "learning_rate": 0.00015591246064810993,
      "loss": 1.5258,
      "step": 59465
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5637081265449524,
      "learning_rate": 0.0001559032930925559,
      "loss": 1.5302,
      "step": 59466
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5797368884086609,
      "learning_rate": 0.00015589412571191417,
      "loss": 1.5877,
      "step": 59467
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5743458867073059,
      "learning_rate": 0.00015588495850619565,
      "loss": 1.5921,
      "step": 59468
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5744819045066833,
      "learning_rate": 0.0001558757914754116,
      "loss": 1.5577,
      "step": 59469
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5687037706375122,
      "learning_rate": 0.00015586662461957305,
      "loss": 1.5921,
      "step": 59470
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6040498614311218,
      "learning_rate": 0.00015585745793869128,
      "loss": 1.555,
      "step": 59471
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5559597015380859,
      "learning_rate": 0.00015584829143277731,
      "loss": 1.5481,
      "step": 59472
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5780640244483948,
      "learning_rate": 0.00015583912510184214,
      "loss": 1.5538,
      "step": 59473
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5701339244842529,
      "learning_rate": 0.0001558299589458972,
      "loss": 1.5085,
      "step": 59474
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5776239633560181,
      "learning_rate": 0.0001558207929649533,
      "loss": 1.6567,
      "step": 59475
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5858349800109863,
      "learning_rate": 0.0001558116271590218,
      "loss": 1.4841,
      "step": 59476
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5578933954238892,
      "learning_rate": 0.00015580246152811368,
      "loss": 1.5866,
      "step": 59477
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.573337197303772,
      "learning_rate": 0.00015579329607224023,
      "loss": 1.5478,
      "step": 59478
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.565792977809906,
      "learning_rate": 0.0001557841307914124,
      "loss": 1.5483,
      "step": 59479
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5679759383201599,
      "learning_rate": 0.00015577496568564136,
      "loss": 1.6134,
      "step": 59480
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5629456043243408,
      "learning_rate": 0.00015576580075493833,
      "loss": 1.564,
      "step": 59481
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5751941204071045,
      "learning_rate": 0.00015575663599931442,
      "loss": 1.5687,
      "step": 59482
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5547083616256714,
      "learning_rate": 0.0001557474714187805,
      "loss": 1.5555,
      "step": 59483
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5546578168869019,
      "learning_rate": 0.00015573830701334795,
      "loss": 1.5323,
      "step": 59484
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5731247663497925,
      "learning_rate": 0.00015572914278302795,
      "loss": 1.5722,
      "step": 59485
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5655177235603333,
      "learning_rate": 0.0001557199787278315,
      "loss": 1.5716,
      "step": 59486
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5795905590057373,
      "learning_rate": 0.00015571081484776962,
      "loss": 1.4818,
      "step": 59487
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5622079372406006,
      "learning_rate": 0.00015570165114285367,
      "loss": 1.5451,
      "step": 59488
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5633906722068787,
      "learning_rate": 0.00015569248761309468,
      "loss": 1.5485,
      "step": 59489
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5761639475822449,
      "learning_rate": 0.00015568332425850359,
      "loss": 1.5048,
      "step": 59490
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5725042819976807,
      "learning_rate": 0.00015567416107909173,
      "loss": 1.5433,
      "step": 59491
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5704683065414429,
      "learning_rate": 0.00015566499807487025,
      "loss": 1.6421,
      "step": 59492
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.566826581954956,
      "learning_rate": 0.00015565583524585023,
      "loss": 1.5603,
      "step": 59493
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.585821270942688,
      "learning_rate": 0.0001556466725920426,
      "loss": 1.5967,
      "step": 59494
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5616808533668518,
      "learning_rate": 0.00015563751011345874,
      "loss": 1.5127,
      "step": 59495
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5576838850975037,
      "learning_rate": 0.00015562834781010973,
      "loss": 1.5931,
      "step": 59496
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6114720106124878,
      "learning_rate": 0.00015561918568200646,
      "loss": 1.6206,
      "step": 59497
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5823598504066467,
      "learning_rate": 0.00015561002372916027,
      "loss": 1.5457,
      "step": 59498
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5727198719978333,
      "learning_rate": 0.00015560086195158234,
      "loss": 1.5649,
      "step": 59499
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.558663547039032,
      "learning_rate": 0.00015559170034928367,
      "loss": 1.5542,
      "step": 59500
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5861509442329407,
      "learning_rate": 0.00015558253892227532,
      "loss": 1.5254,
      "step": 59501
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5729960799217224,
      "learning_rate": 0.00015557337767056862,
      "loss": 1.5318,
      "step": 59502
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5799778699874878,
      "learning_rate": 0.0001555642165941745,
      "loss": 1.6043,
      "step": 59503
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5786161422729492,
      "learning_rate": 0.00015555505569310403,
      "loss": 1.505,
      "step": 59504
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5686299204826355,
      "learning_rate": 0.0001555458949673685,
      "loss": 1.4953,
      "step": 59505
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5581219792366028,
      "learning_rate": 0.000155536734416979,
      "loss": 1.5231,
      "step": 59506
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5894362330436707,
      "learning_rate": 0.00015552757404194666,
      "loss": 1.6431,
      "step": 59507
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5858424305915833,
      "learning_rate": 0.00015551841384228246,
      "loss": 1.5149,
      "step": 59508
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5811331272125244,
      "learning_rate": 0.00015550925381799773,
      "loss": 1.5552,
      "step": 59509
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5929350256919861,
      "learning_rate": 0.00015550009396910345,
      "loss": 1.5525,
      "step": 59510
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5900173783302307,
      "learning_rate": 0.00015549093429561065,
      "loss": 1.5593,
      "step": 59511
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5691303610801697,
      "learning_rate": 0.0001554817747975307,
      "loss": 1.5488,
      "step": 59512
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5486761927604675,
      "learning_rate": 0.00015547261547487447,
      "loss": 1.5676,
      "step": 59513
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5600226521492004,
      "learning_rate": 0.00015546345632765326,
      "loss": 1.64,
      "step": 59514
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5742664933204651,
      "learning_rate": 0.00015545429735587806,
      "loss": 1.5176,
      "step": 59515
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.56463623046875,
      "learning_rate": 0.0001554451385595601,
      "loss": 1.4864,
      "step": 59516
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5634504556655884,
      "learning_rate": 0.0001554359799387105,
      "loss": 1.5501,
      "step": 59517
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5863931775093079,
      "learning_rate": 0.0001554268214933402,
      "loss": 1.6094,
      "step": 59518
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5737603902816772,
      "learning_rate": 0.00015541766322346053,
      "loss": 1.5294,
      "step": 59519
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5582649111747742,
      "learning_rate": 0.00015540850512908236,
      "loss": 1.5718,
      "step": 59520
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5574904680252075,
      "learning_rate": 0.00015539934721021714,
      "loss": 1.5846,
      "step": 59521
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.554088830947876,
      "learning_rate": 0.00015539018946687577,
      "loss": 1.5087,
      "step": 59522
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6144984364509583,
      "learning_rate": 0.00015538103189906933,
      "loss": 1.5447,
      "step": 59523
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5707131028175354,
      "learning_rate": 0.00015537187450680908,
      "loss": 1.5578,
      "step": 59524
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6215601563453674,
      "learning_rate": 0.00015536271729010595,
      "loss": 1.5791,
      "step": 59525
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5685390830039978,
      "learning_rate": 0.0001553535602489713,
      "loss": 1.5916,
      "step": 59526
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5942308306694031,
      "learning_rate": 0.00015534440338341602,
      "loss": 1.544,
      "step": 59527
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5791776180267334,
      "learning_rate": 0.0001553352466934514,
      "loss": 1.6036,
      "step": 59528
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5762447118759155,
      "learning_rate": 0.0001553260901790885,
      "loss": 1.5603,
      "step": 59529
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5694932341575623,
      "learning_rate": 0.0001553169338403383,
      "loss": 1.5899,
      "step": 59530
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5558658838272095,
      "learning_rate": 0.0001553077776772121,
      "loss": 1.55,
      "step": 59531
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5824899077415466,
      "learning_rate": 0.00015529862168972095,
      "loss": 1.4928,
      "step": 59532
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5757138729095459,
      "learning_rate": 0.00015528946587787588,
      "loss": 1.5682,
      "step": 59533
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5778242945671082,
      "learning_rate": 0.00015528031024168802,
      "loss": 1.5418,
      "step": 59534
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5611741542816162,
      "learning_rate": 0.0001552711547811687,
      "loss": 1.6005,
      "step": 59535
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5628312826156616,
      "learning_rate": 0.00015526199949632884,
      "loss": 1.5855,
      "step": 59536
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5785749554634094,
      "learning_rate": 0.0001552528443871795,
      "loss": 1.5843,
      "step": 59537
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5665543675422668,
      "learning_rate": 0.00015524368945373196,
      "loss": 1.5937,
      "step": 59538
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5651440620422363,
      "learning_rate": 0.00015523453469599727,
      "loss": 1.5472,
      "step": 59539
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5941154956817627,
      "learning_rate": 0.00015522538011398642,
      "loss": 1.5341,
      "step": 59540
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5951458811759949,
      "learning_rate": 0.00015521622570771065,
      "loss": 1.5483,
      "step": 59541
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5482698082923889,
      "learning_rate": 0.00015520707147718122,
      "loss": 1.6031,
      "step": 59542
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5786890387535095,
      "learning_rate": 0.00015519791742240886,
      "loss": 1.5326,
      "step": 59543
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5956857800483704,
      "learning_rate": 0.0001551887635434049,
      "loss": 1.5865,
      "step": 59544
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5753309726715088,
      "learning_rate": 0.00015517960984018055,
      "loss": 1.5621,
      "step": 59545
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5909499526023865,
      "learning_rate": 0.00015517045631274686,
      "loss": 1.5366,
      "step": 59546
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6036967039108276,
      "learning_rate": 0.00015516130296111476,
      "loss": 1.605,
      "step": 59547
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5766900777816772,
      "learning_rate": 0.00015515214978529548,
      "loss": 1.5197,
      "step": 59548
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.55755615234375,
      "learning_rate": 0.00015514299678530036,
      "loss": 1.5878,
      "step": 59549
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5661606192588806,
      "learning_rate": 0.00015513384396114008,
      "loss": 1.5651,
      "step": 59550
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5524861216545105,
      "learning_rate": 0.000155124691312826,
      "loss": 1.5924,
      "step": 59551
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6118708252906799,
      "learning_rate": 0.00015511553884036932,
      "loss": 1.4685,
      "step": 59552
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5674940943717957,
      "learning_rate": 0.00015510638654378097,
      "loss": 1.5845,
      "step": 59553
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5758702754974365,
      "learning_rate": 0.00015509723442307203,
      "loss": 1.5098,
      "step": 59554
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.566612184047699,
      "learning_rate": 0.0001550880824782537,
      "loss": 1.5806,
      "step": 59555
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5940216779708862,
      "learning_rate": 0.00015507893070933735,
      "loss": 1.536,
      "step": 59556
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5972335934638977,
      "learning_rate": 0.00015506977911633354,
      "loss": 1.5495,
      "step": 59557
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5858540534973145,
      "learning_rate": 0.00015506062769925368,
      "loss": 1.5938,
      "step": 59558
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5741381049156189,
      "learning_rate": 0.000155051476458109,
      "loss": 1.5137,
      "step": 59559
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.581127941608429,
      "learning_rate": 0.00015504232539291046,
      "loss": 1.6219,
      "step": 59560
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5601106286048889,
      "learning_rate": 0.00015503317450366903,
      "loss": 1.4706,
      "step": 59561
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5751523971557617,
      "learning_rate": 0.0001550240237903961,
      "loss": 1.5451,
      "step": 59562
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5703372359275818,
      "learning_rate": 0.0001550148732531027,
      "loss": 1.5914,
      "step": 59563
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5768387317657471,
      "learning_rate": 0.0001550057228917997,
      "loss": 1.5604,
      "step": 59564
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5766999125480652,
      "learning_rate": 0.00015499657270649837,
      "loss": 1.6073,
      "step": 59565
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5851707458496094,
      "learning_rate": 0.00015498742269721,
      "loss": 1.6326,
      "step": 59566
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5766873359680176,
      "learning_rate": 0.00015497827286394553,
      "loss": 1.6293,
      "step": 59567
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5481718182563782,
      "learning_rate": 0.00015496912320671593,
      "loss": 1.5644,
      "step": 59568
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5801190733909607,
      "learning_rate": 0.00015495997372553258,
      "loss": 1.5968,
      "step": 59569
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5906360149383545,
      "learning_rate": 0.00015495082442040645,
      "loss": 1.5309,
      "step": 59570
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5774078369140625,
      "learning_rate": 0.00015494167529134852,
      "loss": 1.571,
      "step": 59571
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5699654221534729,
      "learning_rate": 0.00015493252633837015,
      "loss": 1.5707,
      "step": 59572
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5456379652023315,
      "learning_rate": 0.00015492337756148222,
      "loss": 1.5222,
      "step": 59573
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5785918831825256,
      "learning_rate": 0.000154914228960696,
      "loss": 1.4989,
      "step": 59574
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5850929617881775,
      "learning_rate": 0.00015490508053602245,
      "loss": 1.6199,
      "step": 59575
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5984324216842651,
      "learning_rate": 0.00015489593228747283,
      "loss": 1.6415,
      "step": 59576
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.556773841381073,
      "learning_rate": 0.00015488678421505826,
      "loss": 1.5055,
      "step": 59577
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5624151229858398,
      "learning_rate": 0.00015487763631878956,
      "loss": 1.5594,
      "step": 59578
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5887519717216492,
      "learning_rate": 0.00015486848859867815,
      "loss": 1.5787,
      "step": 59579
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.56617271900177,
      "learning_rate": 0.00015485934105473488,
      "loss": 1.5058,
      "step": 59580
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5711618661880493,
      "learning_rate": 0.0001548501936869711,
      "loss": 1.5422,
      "step": 59581
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5882731080055237,
      "learning_rate": 0.00015484104649539785,
      "loss": 1.5184,
      "step": 59582
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.60383540391922,
      "learning_rate": 0.00015483189948002602,
      "loss": 1.5609,
      "step": 59583
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5751485228538513,
      "learning_rate": 0.00015482275264086702,
      "loss": 1.5695,
      "step": 59584
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5720259547233582,
      "learning_rate": 0.0001548136059779317,
      "loss": 1.6006,
      "step": 59585
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5806429982185364,
      "learning_rate": 0.00015480445949123134,
      "loss": 1.5699,
      "step": 59586
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5698444843292236,
      "learning_rate": 0.00015479531318077688,
      "loss": 1.5718,
      "step": 59587
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5684673190116882,
      "learning_rate": 0.00015478616704657963,
      "loss": 1.5318,
      "step": 59588
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5600243210792542,
      "learning_rate": 0.0001547770210886506,
      "loss": 1.5424,
      "step": 59589
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5602356791496277,
      "learning_rate": 0.00015476787530700073,
      "loss": 1.6364,
      "step": 59590
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5646911263465881,
      "learning_rate": 0.00015475872970164135,
      "loss": 1.5159,
      "step": 59591
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5826258063316345,
      "learning_rate": 0.00015474958427258336,
      "loss": 1.6178,
      "step": 59592
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5573722124099731,
      "learning_rate": 0.00015474043901983814,
      "loss": 1.5177,
      "step": 59593
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5891030430793762,
      "learning_rate": 0.00015473129394341648,
      "loss": 1.5177,
      "step": 59594
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.569278359413147,
      "learning_rate": 0.00015472214904332975,
      "loss": 1.6114,
      "step": 59595
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5660799741744995,
      "learning_rate": 0.0001547130043195889,
      "loss": 1.5991,
      "step": 59596
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5670942068099976,
      "learning_rate": 0.00015470385977220494,
      "loss": 1.5406,
      "step": 59597
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5558294057846069,
      "learning_rate": 0.00015469471540118925,
      "loss": 1.5404,
      "step": 59598
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5591794848442078,
      "learning_rate": 0.00015468557120655273,
      "loss": 1.4967,
      "step": 59599
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5810267925262451,
      "learning_rate": 0.00015467642718830637,
      "loss": 1.5699,
      "step": 59600
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5514684319496155,
      "learning_rate": 0.0001546672833464615,
      "loss": 1.5899,
      "step": 59601
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5546692609786987,
      "learning_rate": 0.00015465813968102918,
      "loss": 1.5321,
      "step": 59602
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5712258219718933,
      "learning_rate": 0.00015464899619202046,
      "loss": 1.5812,
      "step": 59603
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5842181444168091,
      "learning_rate": 0.00015463985287944633,
      "loss": 1.5468,
      "step": 59604
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.581407368183136,
      "learning_rate": 0.00015463070974331816,
      "loss": 1.5155,
      "step": 59605
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5739951133728027,
      "learning_rate": 0.00015462156678364687,
      "loss": 1.5522,
      "step": 59606
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5791108012199402,
      "learning_rate": 0.00015461242400044344,
      "loss": 1.5191,
      "step": 59607
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.575692355632782,
      "learning_rate": 0.00015460328139371913,
      "loss": 1.5858,
      "step": 59608
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5796231627464294,
      "learning_rate": 0.00015459413896348512,
      "loss": 1.5465,
      "step": 59609
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5780248045921326,
      "learning_rate": 0.0001545849967097524,
      "loss": 1.482,
      "step": 59610
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.609549880027771,
      "learning_rate": 0.00015457585463253196,
      "loss": 1.5894,
      "step": 59611
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5883378982543945,
      "learning_rate": 0.0001545667127318351,
      "loss": 1.6022,
      "step": 59612
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5690463781356812,
      "learning_rate": 0.00015455757100767283,
      "loss": 1.5108,
      "step": 59613
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5748655200004578,
      "learning_rate": 0.00015454842946005612,
      "loss": 1.5675,
      "step": 59614
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5923959016799927,
      "learning_rate": 0.0001545392880889962,
      "loss": 1.5679,
      "step": 59615
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5804018974304199,
      "learning_rate": 0.0001545301468945043,
      "loss": 1.6187,
      "step": 59616
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5976034998893738,
      "learning_rate": 0.0001545210058765913,
      "loss": 1.6189,
      "step": 59617
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5639888644218445,
      "learning_rate": 0.00015451186503526827,
      "loss": 1.6358,
      "step": 59618
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5663141012191772,
      "learning_rate": 0.00015450272437054653,
      "loss": 1.5413,
      "step": 59619
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5730976462364197,
      "learning_rate": 0.00015449358388243704,
      "loss": 1.5299,
      "step": 59620
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5552770495414734,
      "learning_rate": 0.00015448444357095078,
      "loss": 1.5352,
      "step": 59621
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5636532306671143,
      "learning_rate": 0.00015447530343609897,
      "loss": 1.548,
      "step": 59622
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5833404064178467,
      "learning_rate": 0.0001544661634778928,
      "loss": 1.6387,
      "step": 59623
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5566753149032593,
      "learning_rate": 0.0001544570236963433,
      "loss": 1.5177,
      "step": 59624
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5871339440345764,
      "learning_rate": 0.00015444788409146138,
      "loss": 1.5836,
      "step": 59625
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.574488639831543,
      "learning_rate": 0.0001544387446632584,
      "loss": 1.5139,
      "step": 59626
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5764384865760803,
      "learning_rate": 0.00015442960541174535,
      "loss": 1.5701,
      "step": 59627
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5707903504371643,
      "learning_rate": 0.00015442046633693316,
      "loss": 1.5406,
      "step": 59628
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5641582012176514,
      "learning_rate": 0.00015441132743883323,
      "loss": 1.5708,
      "step": 59629
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5886185169219971,
      "learning_rate": 0.00015440218871745637,
      "loss": 1.5489,
      "step": 59630
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5811010599136353,
      "learning_rate": 0.00015439305017281389,
      "loss": 1.5554,
      "step": 59631
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.597099244594574,
      "learning_rate": 0.00015438391180491672,
      "loss": 1.5646,
      "step": 59632
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5780746936798096,
      "learning_rate": 0.0001543747736137761,
      "loss": 1.5573,
      "step": 59633
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5562343597412109,
      "learning_rate": 0.0001543656355994031,
      "loss": 1.5197,
      "step": 59634
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5649888515472412,
      "learning_rate": 0.00015435649776180863,
      "loss": 1.5113,
      "step": 59635
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5994668006896973,
      "learning_rate": 0.00015434736010100397,
      "loss": 1.5799,
      "step": 59636
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.571937084197998,
      "learning_rate": 0.0001543382226170001,
      "loss": 1.6045,
      "step": 59637
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.551981508731842,
      "learning_rate": 0.00015432908530980824,
      "loss": 1.6115,
      "step": 59638
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5591640472412109,
      "learning_rate": 0.00015431994817943946,
      "loss": 1.5814,
      "step": 59639
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5844213366508484,
      "learning_rate": 0.00015431081122590463,
      "loss": 1.552,
      "step": 59640
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5703384280204773,
      "learning_rate": 0.00015430167444921517,
      "loss": 1.4973,
      "step": 59641
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5569995641708374,
      "learning_rate": 0.00015429253784938186,
      "loss": 1.5641,
      "step": 59642
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5942028164863586,
      "learning_rate": 0.00015428340142641605,
      "loss": 1.5202,
      "step": 59643
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5841196179389954,
      "learning_rate": 0.00015427426518032863,
      "loss": 1.5425,
      "step": 59644
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5670021772384644,
      "learning_rate": 0.00015426512911113086,
      "loss": 1.5822,
      "step": 59645
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5826505422592163,
      "learning_rate": 0.0001542559932188338,
      "loss": 1.6248,
      "step": 59646
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5681201815605164,
      "learning_rate": 0.00015424685750344835,
      "loss": 1.5132,
      "step": 59647
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5619395971298218,
      "learning_rate": 0.00015423772196498586,
      "loss": 1.5715,
      "step": 59648
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5608440637588501,
      "learning_rate": 0.0001542285866034573,
      "loss": 1.5179,
      "step": 59649
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5905513167381287,
      "learning_rate": 0.00015421945141887362,
      "loss": 1.5205,
      "step": 59650
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5940122604370117,
      "learning_rate": 0.00015421031641124606,
      "loss": 1.6116,
      "step": 59651
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6049424409866333,
      "learning_rate": 0.00015420118158058582,
      "loss": 1.5817,
      "step": 59652
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5626923441886902,
      "learning_rate": 0.00015419204692690387,
      "loss": 1.5918,
      "step": 59653
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5699811577796936,
      "learning_rate": 0.0001541829124502111,
      "loss": 1.5175,
      "step": 59654
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5805512070655823,
      "learning_rate": 0.00015417377815051903,
      "loss": 1.4472,
      "step": 59655
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5828211903572083,
      "learning_rate": 0.00015416464402783842,
      "loss": 1.6503,
      "step": 59656
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5927859544754028,
      "learning_rate": 0.00015415551008218036,
      "loss": 1.5544,
      "step": 59657
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5576703548431396,
      "learning_rate": 0.00015414637631355602,
      "loss": 1.5332,
      "step": 59658
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5842427015304565,
      "learning_rate": 0.0001541372427219767,
      "loss": 1.5858,
      "step": 59659
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.6198367476463318,
      "learning_rate": 0.00015412810930745308,
      "loss": 1.5806,
      "step": 59660
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5804106593132019,
      "learning_rate": 0.0001541189760699964,
      "loss": 1.5829,
      "step": 59661
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5733080506324768,
      "learning_rate": 0.0001541098430096179,
      "loss": 1.6153,
      "step": 59662
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.5735574960708618,
      "learning_rate": 0.0001541007101263286,
      "loss": 1.5441,
      "step": 59663
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.585674524307251,
      "learning_rate": 0.00015409157742013937,
      "loss": 1.6042,
      "step": 59664
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5627076625823975,
      "learning_rate": 0.00015408244489106154,
      "loss": 1.5348,
      "step": 59665
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5931892991065979,
      "learning_rate": 0.0001540733125391063,
      "loss": 1.6553,
      "step": 59666
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.584101140499115,
      "learning_rate": 0.00015406418036428433,
      "loss": 1.5505,
      "step": 59667
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5812363028526306,
      "learning_rate": 0.00015405504836660697,
      "loss": 1.6563,
      "step": 59668
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5536875128746033,
      "learning_rate": 0.00015404591654608537,
      "loss": 1.5774,
      "step": 59669
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.590490460395813,
      "learning_rate": 0.00015403678490273054,
      "loss": 1.5767,
      "step": 59670
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5646504163742065,
      "learning_rate": 0.0001540276534365534,
      "loss": 1.6001,
      "step": 59671
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5686527490615845,
      "learning_rate": 0.0001540185221475652,
      "loss": 1.624,
      "step": 59672
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5630013346672058,
      "learning_rate": 0.00015400939103577723,
      "loss": 1.4761,
      "step": 59673
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5683675408363342,
      "learning_rate": 0.00015400026010120013,
      "loss": 1.5395,
      "step": 59674
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5716032981872559,
      "learning_rate": 0.00015399112934384517,
      "loss": 1.5473,
      "step": 59675
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5502718687057495,
      "learning_rate": 0.0001539819987637236,
      "loss": 1.5473,
      "step": 59676
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5959508419036865,
      "learning_rate": 0.00015397286836084639,
      "loss": 1.5395,
      "step": 59677
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5706623792648315,
      "learning_rate": 0.00015396373813522445,
      "loss": 1.5904,
      "step": 59678
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5741564631462097,
      "learning_rate": 0.00015395460808686917,
      "loss": 1.5475,
      "step": 59679
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5576751828193665,
      "learning_rate": 0.00015394547821579146,
      "loss": 1.543,
      "step": 59680
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5750063061714172,
      "learning_rate": 0.00015393634852200227,
      "loss": 1.5123,
      "step": 59681
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.578417181968689,
      "learning_rate": 0.00015392721900551285,
      "loss": 1.5297,
      "step": 59682
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5877401232719421,
      "learning_rate": 0.00015391808966633443,
      "loss": 1.5099,
      "step": 59683
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.596546471118927,
      "learning_rate": 0.0001539089605044779,
      "loss": 1.635,
      "step": 59684
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.59847491979599,
      "learning_rate": 0.00015389983151995422,
      "loss": 1.5423,
      "step": 59685
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5562279224395752,
      "learning_rate": 0.00015389070271277472,
      "loss": 1.5992,
      "step": 59686
    },
    {
      "epoch": 1.99,
      "grad_norm": 1.1445597410202026,
      "learning_rate": 0.00015388157408295042,
      "loss": 1.5916,
      "step": 59687
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5790544748306274,
      "learning_rate": 0.00015387244563049224,
      "loss": 1.5908,
      "step": 59688
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5788543820381165,
      "learning_rate": 0.00015386331735541147,
      "loss": 1.5452,
      "step": 59689
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5775138139724731,
      "learning_rate": 0.00015385418925771902,
      "loss": 1.5705,
      "step": 59690
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.564346969127655,
      "learning_rate": 0.00015384506133742613,
      "loss": 1.5239,
      "step": 59691
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5919841527938843,
      "learning_rate": 0.00015383593359454375,
      "loss": 1.5883,
      "step": 59692
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5628398060798645,
      "learning_rate": 0.00015382680602908305,
      "loss": 1.5362,
      "step": 59693
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5713185667991638,
      "learning_rate": 0.0001538176786410551,
      "loss": 1.5603,
      "step": 59694
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5734098553657532,
      "learning_rate": 0.00015380855143047083,
      "loss": 1.56,
      "step": 59695
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5892508029937744,
      "learning_rate": 0.00015379942439734155,
      "loss": 1.5214,
      "step": 59696
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5757518410682678,
      "learning_rate": 0.00015379029754167812,
      "loss": 1.5549,
      "step": 59697
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6308697462081909,
      "learning_rate": 0.00015378117086349186,
      "loss": 1.5413,
      "step": 59698
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5673629641532898,
      "learning_rate": 0.0001537720443627937,
      "loss": 1.5546,
      "step": 59699
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5525798797607422,
      "learning_rate": 0.0001537629180395946,
      "loss": 1.5115,
      "step": 59700
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5770329833030701,
      "learning_rate": 0.0001537537918939059,
      "loss": 1.5834,
      "step": 59701
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.614608645439148,
      "learning_rate": 0.00015374466592573842,
      "loss": 1.6239,
      "step": 59702
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6091755628585815,
      "learning_rate": 0.00015373554013510348,
      "loss": 1.5804,
      "step": 59703
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5648577809333801,
      "learning_rate": 0.00015372641452201193,
      "loss": 1.5527,
      "step": 59704
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5794157981872559,
      "learning_rate": 0.00015371728908647513,
      "loss": 1.6271,
      "step": 59705
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5500377416610718,
      "learning_rate": 0.00015370816382850392,
      "loss": 1.5698,
      "step": 59706
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5518184900283813,
      "learning_rate": 0.00015369903874810936,
      "loss": 1.5777,
      "step": 59707
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6015293002128601,
      "learning_rate": 0.0001536899138453027,
      "loss": 1.5856,
      "step": 59708
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.584690272808075,
      "learning_rate": 0.00015368078912009496,
      "loss": 1.5679,
      "step": 59709
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5833550095558167,
      "learning_rate": 0.00015367166457249702,
      "loss": 1.5056,
      "step": 59710
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5713964104652405,
      "learning_rate": 0.0001536625402025202,
      "loss": 1.6446,
      "step": 59711
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5570626854896545,
      "learning_rate": 0.00015365341601017551,
      "loss": 1.6266,
      "step": 59712
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5813902616500854,
      "learning_rate": 0.00015364429199547409,
      "loss": 1.6278,
      "step": 59713
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5933514833450317,
      "learning_rate": 0.00015363516815842677,
      "loss": 1.545,
      "step": 59714
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.584220290184021,
      "learning_rate": 0.00015362604449904493,
      "loss": 1.6004,
      "step": 59715
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5873263478279114,
      "learning_rate": 0.0001536169210173395,
      "loss": 1.5683,
      "step": 59716
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6057367920875549,
      "learning_rate": 0.00015360779771332145,
      "loss": 1.5331,
      "step": 59717
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5715305209159851,
      "learning_rate": 0.00015359867458700197,
      "loss": 1.5725,
      "step": 59718
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5798192620277405,
      "learning_rate": 0.00015358955163839223,
      "loss": 1.4944,
      "step": 59719
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5735645294189453,
      "learning_rate": 0.00015358042886750317,
      "loss": 1.6087,
      "step": 59720
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5703562498092651,
      "learning_rate": 0.0001535713062743458,
      "loss": 1.6575,
      "step": 59721
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5663060545921326,
      "learning_rate": 0.0001535621838589314,
      "loss": 1.5851,
      "step": 59722
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5696491599082947,
      "learning_rate": 0.00015355306162127098,
      "loss": 1.5147,
      "step": 59723
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.583075761795044,
      "learning_rate": 0.00015354393956137541,
      "loss": 1.5584,
      "step": 59724
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5638957619667053,
      "learning_rate": 0.00015353481767925594,
      "loss": 1.5748,
      "step": 59725
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5815891623497009,
      "learning_rate": 0.00015352569597492372,
      "loss": 1.5498,
      "step": 59726
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5771468281745911,
      "learning_rate": 0.00015351657444838973,
      "loss": 1.5269,
      "step": 59727
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5670397281646729,
      "learning_rate": 0.0001535074530996649,
      "loss": 1.6528,
      "step": 59728
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5733399391174316,
      "learning_rate": 0.0001534983319287606,
      "loss": 1.6276,
      "step": 59729
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6024137735366821,
      "learning_rate": 0.00015348921093568768,
      "loss": 1.5196,
      "step": 59730
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5724020004272461,
      "learning_rate": 0.00015348009012045716,
      "loss": 1.5848,
      "step": 59731
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.677825391292572,
      "learning_rate": 0.00015347096948308027,
      "loss": 1.4789,
      "step": 59732
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5642136335372925,
      "learning_rate": 0.00015346184902356814,
      "loss": 1.5622,
      "step": 59733
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5929182171821594,
      "learning_rate": 0.00015345272874193167,
      "loss": 1.6076,
      "step": 59734
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5748242735862732,
      "learning_rate": 0.00015344360863818194,
      "loss": 1.5801,
      "step": 59735
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6032620668411255,
      "learning_rate": 0.00015343448871233016,
      "loss": 1.6256,
      "step": 59736
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5728298425674438,
      "learning_rate": 0.00015342536896438734,
      "loss": 1.5922,
      "step": 59737
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5907216668128967,
      "learning_rate": 0.00015341624939436442,
      "loss": 1.5218,
      "step": 59738
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6120251417160034,
      "learning_rate": 0.00015340713000227253,
      "loss": 1.5892,
      "step": 59739
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5792606472969055,
      "learning_rate": 0.00015339801078812296,
      "loss": 1.5701,
      "step": 59740
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5719079971313477,
      "learning_rate": 0.00015338889175192658,
      "loss": 1.4829,
      "step": 59741
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5665918588638306,
      "learning_rate": 0.0001533797728936943,
      "loss": 1.5341,
      "step": 59742
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5791957378387451,
      "learning_rate": 0.00015337065421343758,
      "loss": 1.563,
      "step": 59743
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5826396942138672,
      "learning_rate": 0.00015336153571116724,
      "loss": 1.5783,
      "step": 59744
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5855848789215088,
      "learning_rate": 0.00015335241738689427,
      "loss": 1.5723,
      "step": 59745
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5712081789970398,
      "learning_rate": 0.00015334329924063,
      "loss": 1.535,
      "step": 59746
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5931134819984436,
      "learning_rate": 0.0001533341812723852,
      "loss": 1.6039,
      "step": 59747
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5518558025360107,
      "learning_rate": 0.00015332506348217126,
      "loss": 1.5897,
      "step": 59748
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5707536935806274,
      "learning_rate": 0.00015331594586999895,
      "loss": 1.5126,
      "step": 59749
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.561523973941803,
      "learning_rate": 0.00015330682843587955,
      "loss": 1.5038,
      "step": 59750
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5684294104576111,
      "learning_rate": 0.0001532977111798241,
      "loss": 1.5027,
      "step": 59751
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5437581539154053,
      "learning_rate": 0.00015328859410184347,
      "loss": 1.4777,
      "step": 59752
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5868712067604065,
      "learning_rate": 0.00015327947720194897,
      "loss": 1.5911,
      "step": 59753
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5953546166419983,
      "learning_rate": 0.00015327036048015148,
      "loss": 1.6178,
      "step": 59754
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5790027976036072,
      "learning_rate": 0.00015326124393646225,
      "loss": 1.5511,
      "step": 59755
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5701078176498413,
      "learning_rate": 0.00015325212757089223,
      "loss": 1.6149,
      "step": 59756
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5648766160011292,
      "learning_rate": 0.00015324301138345243,
      "loss": 1.6709,
      "step": 59757
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5731933116912842,
      "learning_rate": 0.00015323389537415407,
      "loss": 1.5502,
      "step": 59758
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5800045132637024,
      "learning_rate": 0.00015322477954300803,
      "loss": 1.6249,
      "step": 59759
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6130436658859253,
      "learning_rate": 0.0001532156638900256,
      "loss": 1.5353,
      "step": 59760
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5772850513458252,
      "learning_rate": 0.00015320654841521764,
      "loss": 1.5575,
      "step": 59761
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5662981271743774,
      "learning_rate": 0.0001531974331185954,
      "loss": 1.5591,
      "step": 59762
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5784415602684021,
      "learning_rate": 0.00015318831800016983,
      "loss": 1.5972,
      "step": 59763
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.592369794845581,
      "learning_rate": 0.0001531792030599519,
      "loss": 1.6185,
      "step": 59764
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5589649677276611,
      "learning_rate": 0.00015317008829795293,
      "loss": 1.561,
      "step": 59765
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5732728838920593,
      "learning_rate": 0.00015316097371418378,
      "loss": 1.5532,
      "step": 59766
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6233115196228027,
      "learning_rate": 0.00015315185930865548,
      "loss": 1.5802,
      "step": 59767
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5552924871444702,
      "learning_rate": 0.00015314274508137918,
      "loss": 1.5684,
      "step": 59768
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5282222628593445,
      "learning_rate": 0.00015313363103236608,
      "loss": 1.4893,
      "step": 59769
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5720711946487427,
      "learning_rate": 0.00015312451716162711,
      "loss": 1.5253,
      "step": 59770
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6190356016159058,
      "learning_rate": 0.00015311540346917322,
      "loss": 1.5559,
      "step": 59771
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5722204446792603,
      "learning_rate": 0.00015310628995501572,
      "loss": 1.5073,
      "step": 59772
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5896031260490417,
      "learning_rate": 0.00015309717661916552,
      "loss": 1.6307,
      "step": 59773
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5757901668548584,
      "learning_rate": 0.00015308806346163358,
      "loss": 1.6339,
      "step": 59774
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5590282678604126,
      "learning_rate": 0.00015307895048243108,
      "loss": 1.5772,
      "step": 59775
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5651885271072388,
      "learning_rate": 0.00015306983768156935,
      "loss": 1.6248,
      "step": 59776
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5722631216049194,
      "learning_rate": 0.00015306072505905894,
      "loss": 1.5086,
      "step": 59777
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6070072650909424,
      "learning_rate": 0.00015305161261491116,
      "loss": 1.5284,
      "step": 59778
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5665324330329895,
      "learning_rate": 0.0001530425003491372,
      "loss": 1.5451,
      "step": 59779
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5850228071212769,
      "learning_rate": 0.00015303338826174796,
      "loss": 1.6085,
      "step": 59780
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5777342319488525,
      "learning_rate": 0.00015302427635275443,
      "loss": 1.4962,
      "step": 59781
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5861406922340393,
      "learning_rate": 0.00015301516462216778,
      "loss": 1.5737,
      "step": 59782
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5919665694236755,
      "learning_rate": 0.0001530060530699993,
      "loss": 1.5718,
      "step": 59783
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5915260910987854,
      "learning_rate": 0.00015299694169625954,
      "loss": 1.5078,
      "step": 59784
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5730213522911072,
      "learning_rate": 0.00015298783050095988,
      "loss": 1.4841,
      "step": 59785
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5785044431686401,
      "learning_rate": 0.00015297871948411143,
      "loss": 1.5856,
      "step": 59786
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5643635988235474,
      "learning_rate": 0.00015296960864572513,
      "loss": 1.566,
      "step": 59787
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5587615966796875,
      "learning_rate": 0.00015296049798581198,
      "loss": 1.5747,
      "step": 59788
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6149446964263916,
      "learning_rate": 0.00015295138750438312,
      "loss": 1.5872,
      "step": 59789
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5585094094276428,
      "learning_rate": 0.00015294227720144982,
      "loss": 1.5257,
      "step": 59790
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5921698808670044,
      "learning_rate": 0.0001529331670770227,
      "loss": 1.6032,
      "step": 59791
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6014000773429871,
      "learning_rate": 0.00015292405713111307,
      "loss": 1.5542,
      "step": 59792
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5860602855682373,
      "learning_rate": 0.00015291494736373207,
      "loss": 1.5144,
      "step": 59793
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5714099407196045,
      "learning_rate": 0.00015290583777489064,
      "loss": 1.6332,
      "step": 59794
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5775998830795288,
      "learning_rate": 0.00015289672836459975,
      "loss": 1.5317,
      "step": 59795
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5607661604881287,
      "learning_rate": 0.0001528876191328706,
      "loss": 1.4895,
      "step": 59796
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5774295926094055,
      "learning_rate": 0.00015287851007971432,
      "loss": 1.599,
      "step": 59797
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5688280463218689,
      "learning_rate": 0.00015286940120514165,
      "loss": 1.6141,
      "step": 59798
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5639324188232422,
      "learning_rate": 0.0001528602925091639,
      "loss": 1.5739,
      "step": 59799
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6044180393218994,
      "learning_rate": 0.00015285118399179214,
      "loss": 1.5572,
      "step": 59800
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5889571905136108,
      "learning_rate": 0.0001528420756530374,
      "loss": 1.6029,
      "step": 59801
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5754626393318176,
      "learning_rate": 0.00015283296749291056,
      "loss": 1.6817,
      "step": 59802
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5827612280845642,
      "learning_rate": 0.00015282385951142296,
      "loss": 1.5035,
      "step": 59803
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5760275721549988,
      "learning_rate": 0.0001528147517085855,
      "loss": 1.569,
      "step": 59804
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6097153425216675,
      "learning_rate": 0.00015280564408440912,
      "loss": 1.5158,
      "step": 59805
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5720425844192505,
      "learning_rate": 0.0001527965366389051,
      "loss": 1.5528,
      "step": 59806
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5669065713882446,
      "learning_rate": 0.0001527874293720843,
      "loss": 1.555,
      "step": 59807
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5796003341674805,
      "learning_rate": 0.000152778322283958,
      "loss": 1.5879,
      "step": 59808
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.572047770023346,
      "learning_rate": 0.00015276921537453694,
      "loss": 1.5431,
      "step": 59809
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5973843336105347,
      "learning_rate": 0.00015276010864383256,
      "loss": 1.5779,
      "step": 59810
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5844199061393738,
      "learning_rate": 0.00015275100209185565,
      "loss": 1.6032,
      "step": 59811
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5868059992790222,
      "learning_rate": 0.00015274189571861725,
      "loss": 1.5452,
      "step": 59812
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5884832143783569,
      "learning_rate": 0.0001527327895241286,
      "loss": 1.6599,
      "step": 59813
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6019185781478882,
      "learning_rate": 0.00015272368350840052,
      "loss": 1.5835,
      "step": 59814
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5600390434265137,
      "learning_rate": 0.00015271457767144432,
      "loss": 1.5651,
      "step": 59815
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5848091840744019,
      "learning_rate": 0.0001527054720132709,
      "loss": 1.5985,
      "step": 59816
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5755040049552917,
      "learning_rate": 0.00015269636653389123,
      "loss": 1.5754,
      "step": 59817
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5717952847480774,
      "learning_rate": 0.0001526872612333166,
      "loss": 1.5954,
      "step": 59818
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5872636437416077,
      "learning_rate": 0.00015267815611155777,
      "loss": 1.5223,
      "step": 59819
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5969643592834473,
      "learning_rate": 0.00015266905116862608,
      "loss": 1.5756,
      "step": 59820
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5746976733207703,
      "learning_rate": 0.00015265994640453236,
      "loss": 1.579,
      "step": 59821
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.586620032787323,
      "learning_rate": 0.00015265084181928786,
      "loss": 1.6579,
      "step": 59822
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5686013698577881,
      "learning_rate": 0.00015264173741290354,
      "loss": 1.6281,
      "step": 59823
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6881021857261658,
      "learning_rate": 0.0001526326331853903,
      "loss": 1.5706,
      "step": 59824
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5605244636535645,
      "learning_rate": 0.00015262352913675945,
      "loss": 1.5682,
      "step": 59825
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6012803316116333,
      "learning_rate": 0.00015261442526702193,
      "loss": 1.5221,
      "step": 59826
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5758979916572571,
      "learning_rate": 0.00015260532157618869,
      "loss": 1.5068,
      "step": 59827
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6132778525352478,
      "learning_rate": 0.00015259621806427084,
      "loss": 1.5862,
      "step": 59828
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5978829860687256,
      "learning_rate": 0.00015258711473127955,
      "loss": 1.5918,
      "step": 59829
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5688212513923645,
      "learning_rate": 0.00015257801157722583,
      "loss": 1.6431,
      "step": 59830
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5729219913482666,
      "learning_rate": 0.00015256890860212058,
      "loss": 1.5245,
      "step": 59831
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6023479104042053,
      "learning_rate": 0.000152559805805975,
      "loss": 1.5838,
      "step": 59832
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5881109833717346,
      "learning_rate": 0.00015255070318880015,
      "loss": 1.6085,
      "step": 59833
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5813398957252502,
      "learning_rate": 0.0001525416007506069,
      "loss": 1.5892,
      "step": 59834
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5612483024597168,
      "learning_rate": 0.00015253249849140642,
      "loss": 1.572,
      "step": 59835
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5675557851791382,
      "learning_rate": 0.00015252339641120985,
      "loss": 1.5785,
      "step": 59836
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5604936480522156,
      "learning_rate": 0.00015251429451002812,
      "loss": 1.6337,
      "step": 59837
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5909469723701477,
      "learning_rate": 0.00015250519278787225,
      "loss": 1.593,
      "step": 59838
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6951237916946411,
      "learning_rate": 0.00015249609124475344,
      "loss": 1.6376,
      "step": 59839
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.600294291973114,
      "learning_rate": 0.00015248698988068265,
      "loss": 1.5807,
      "step": 59840
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5668156147003174,
      "learning_rate": 0.00015247788869567075,
      "loss": 1.6049,
      "step": 59841
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5640751719474792,
      "learning_rate": 0.000152468787689729,
      "loss": 1.5222,
      "step": 59842
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5982041954994202,
      "learning_rate": 0.00015245968686286856,
      "loss": 1.5609,
      "step": 59843
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5926384329795837,
      "learning_rate": 0.00015245058621510024,
      "loss": 1.4869,
      "step": 59844
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5909895300865173,
      "learning_rate": 0.00015244148574643509,
      "loss": 1.5435,
      "step": 59845
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5691624283790588,
      "learning_rate": 0.00015243238545688435,
      "loss": 1.5843,
      "step": 59846
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5596055388450623,
      "learning_rate": 0.00015242328534645897,
      "loss": 1.5043,
      "step": 59847
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.556908905506134,
      "learning_rate": 0.00015241418541516984,
      "loss": 1.4993,
      "step": 59848
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6005809903144836,
      "learning_rate": 0.00015240508566302815,
      "loss": 1.5752,
      "step": 59849
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5755645632743835,
      "learning_rate": 0.00015239598609004503,
      "loss": 1.5423,
      "step": 59850
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5811368823051453,
      "learning_rate": 0.00015238688669623148,
      "loss": 1.5873,
      "step": 59851
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5757189989089966,
      "learning_rate": 0.00015237778748159836,
      "loss": 1.5347,
      "step": 59852
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5828797221183777,
      "learning_rate": 0.00015236868844615696,
      "loss": 1.663,
      "step": 59853
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5648806691169739,
      "learning_rate": 0.00015235958958991825,
      "loss": 1.5433,
      "step": 59854
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5616267323493958,
      "learning_rate": 0.0001523504909128931,
      "loss": 1.5436,
      "step": 59855
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5793303847312927,
      "learning_rate": 0.0001523413924150927,
      "loss": 1.478,
      "step": 59856
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5775001645088196,
      "learning_rate": 0.0001523322940965282,
      "loss": 1.4438,
      "step": 59857
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.566826343536377,
      "learning_rate": 0.00015232319595721058,
      "loss": 1.5808,
      "step": 59858
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5669121146202087,
      "learning_rate": 0.0001523140979971507,
      "loss": 1.5822,
      "step": 59859
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.574763834476471,
      "learning_rate": 0.00015230500021635987,
      "loss": 1.6058,
      "step": 59860
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5922122597694397,
      "learning_rate": 0.00015229590261484896,
      "loss": 1.6209,
      "step": 59861
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5628340840339661,
      "learning_rate": 0.000152286805192629,
      "loss": 1.5556,
      "step": 59862
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5886237025260925,
      "learning_rate": 0.0001522777079497112,
      "loss": 1.612,
      "step": 59863
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6042700409889221,
      "learning_rate": 0.00015226861088610635,
      "loss": 1.5792,
      "step": 59864
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5531421899795532,
      "learning_rate": 0.0001522595140018258,
      "loss": 1.5065,
      "step": 59865
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5664418935775757,
      "learning_rate": 0.00015225041729688028,
      "loss": 1.5886,
      "step": 59866
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5883356928825378,
      "learning_rate": 0.00015224132077128115,
      "loss": 1.4884,
      "step": 59867
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5806494355201721,
      "learning_rate": 0.00015223222442503924,
      "loss": 1.5764,
      "step": 59868
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5833024382591248,
      "learning_rate": 0.0001522231282581655,
      "loss": 1.5866,
      "step": 59869
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5737554430961609,
      "learning_rate": 0.00015221403227067126,
      "loss": 1.5595,
      "step": 59870
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.580360472202301,
      "learning_rate": 0.0001522049364625673,
      "loss": 1.536,
      "step": 59871
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5932212471961975,
      "learning_rate": 0.00015219584083386487,
      "loss": 1.5473,
      "step": 59872
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5634942650794983,
      "learning_rate": 0.00015218674538457493,
      "loss": 1.4729,
      "step": 59873
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5511263608932495,
      "learning_rate": 0.00015217765011470835,
      "loss": 1.5339,
      "step": 59874
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5846785306930542,
      "learning_rate": 0.00015216855502427648,
      "loss": 1.5296,
      "step": 59875
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5836547017097473,
      "learning_rate": 0.00015215946011329007,
      "loss": 1.5505,
      "step": 59876
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5665915608406067,
      "learning_rate": 0.0001521503653817604,
      "loss": 1.574,
      "step": 59877
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5769908428192139,
      "learning_rate": 0.0001521412708296983,
      "loss": 1.5411,
      "step": 59878
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5788162350654602,
      "learning_rate": 0.000152132176457115,
      "loss": 1.5473,
      "step": 59879
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5635432004928589,
      "learning_rate": 0.00015212308226402146,
      "loss": 1.5339,
      "step": 59880
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5850669741630554,
      "learning_rate": 0.0001521139882504286,
      "loss": 1.5764,
      "step": 59881
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5623698234558105,
      "learning_rate": 0.0001521048944163477,
      "loss": 1.5728,
      "step": 59882
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5666751265525818,
      "learning_rate": 0.00015209580076178965,
      "loss": 1.5663,
      "step": 59883
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5768445730209351,
      "learning_rate": 0.00015208670728676538,
      "loss": 1.4543,
      "step": 59884
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5696688294410706,
      "learning_rate": 0.0001520776139912861,
      "loss": 1.5299,
      "step": 59885
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5769765377044678,
      "learning_rate": 0.00015206852087536286,
      "loss": 1.6083,
      "step": 59886
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5684559941291809,
      "learning_rate": 0.00015205942793900665,
      "loss": 1.5172,
      "step": 59887
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5578100681304932,
      "learning_rate": 0.0001520503351822284,
      "loss": 1.536,
      "step": 59888
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5825793147087097,
      "learning_rate": 0.00015204124260503936,
      "loss": 1.6409,
      "step": 59889
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5719561576843262,
      "learning_rate": 0.00015203215020745042,
      "loss": 1.6388,
      "step": 59890
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5647825002670288,
      "learning_rate": 0.00015202305798947254,
      "loss": 1.5869,
      "step": 59891
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5728554129600525,
      "learning_rate": 0.0001520139659511169,
      "loss": 1.5443,
      "step": 59892
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5930831432342529,
      "learning_rate": 0.00015200487409239473,
      "loss": 1.5563,
      "step": 59893
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.572818398475647,
      "learning_rate": 0.00015199578241331657,
      "loss": 1.5647,
      "step": 59894
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5851207971572876,
      "learning_rate": 0.00015198669091389373,
      "loss": 1.5726,
      "step": 59895
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5610973834991455,
      "learning_rate": 0.00015197759959413736,
      "loss": 1.575,
      "step": 59896
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5700132250785828,
      "learning_rate": 0.0001519685084540584,
      "loss": 1.5257,
      "step": 59897
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5753517150878906,
      "learning_rate": 0.0001519594174936677,
      "loss": 1.6008,
      "step": 59898
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5593459010124207,
      "learning_rate": 0.00015195032671297648,
      "loss": 1.5803,
      "step": 59899
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5811776518821716,
      "learning_rate": 0.00015194123611199598,
      "loss": 1.5669,
      "step": 59900
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5658892393112183,
      "learning_rate": 0.00015193214569073676,
      "loss": 1.5921,
      "step": 59901
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5620700716972351,
      "learning_rate": 0.00015192305544921007,
      "loss": 1.5503,
      "step": 59902
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5686532258987427,
      "learning_rate": 0.00015191396538742716,
      "loss": 1.5516,
      "step": 59903
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5699942708015442,
      "learning_rate": 0.00015190487550539885,
      "loss": 1.4824,
      "step": 59904
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5629715323448181,
      "learning_rate": 0.00015189578580313608,
      "loss": 1.5436,
      "step": 59905
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.7847883701324463,
      "learning_rate": 0.00015188669628065,
      "loss": 1.6732,
      "step": 59906
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5886025428771973,
      "learning_rate": 0.00015187760693795185,
      "loss": 1.6044,
      "step": 59907
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5718772411346436,
      "learning_rate": 0.00015186851777505226,
      "loss": 1.5753,
      "step": 59908
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5781061053276062,
      "learning_rate": 0.00015185942879196245,
      "loss": 1.543,
      "step": 59909
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5547149181365967,
      "learning_rate": 0.00015185033998869362,
      "loss": 1.6168,
      "step": 59910
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5885599851608276,
      "learning_rate": 0.0001518412513652566,
      "loss": 1.4848,
      "step": 59911
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6104710102081299,
      "learning_rate": 0.0001518321629216624,
      "loss": 1.5935,
      "step": 59912
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5519829988479614,
      "learning_rate": 0.0001518230746579222,
      "loss": 1.5866,
      "step": 59913
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5759981870651245,
      "learning_rate": 0.00015181398657404698,
      "loss": 1.5529,
      "step": 59914
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5917273163795471,
      "learning_rate": 0.0001518048986700476,
      "loss": 1.5718,
      "step": 59915
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6067622303962708,
      "learning_rate": 0.00015179581094593525,
      "loss": 1.5572,
      "step": 59916
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5798901319503784,
      "learning_rate": 0.0001517867234017211,
      "loss": 1.549,
      "step": 59917
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5757632851600647,
      "learning_rate": 0.00015177763603741598,
      "loss": 1.6284,
      "step": 59918
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5947679281234741,
      "learning_rate": 0.00015176854885303088,
      "loss": 1.5961,
      "step": 59919
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5702674388885498,
      "learning_rate": 0.00015175946184857702,
      "loss": 1.6015,
      "step": 59920
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5591591000556946,
      "learning_rate": 0.00015175037502406533,
      "loss": 1.5632,
      "step": 59921
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5707157254219055,
      "learning_rate": 0.00015174128837950674,
      "loss": 1.6075,
      "step": 59922
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5454316735267639,
      "learning_rate": 0.00015173220191491254,
      "loss": 1.6037,
      "step": 59923
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.566317617893219,
      "learning_rate": 0.00015172311563029344,
      "loss": 1.6912,
      "step": 59924
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5859755873680115,
      "learning_rate": 0.00015171402952566073,
      "loss": 1.5238,
      "step": 59925
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5766394734382629,
      "learning_rate": 0.0001517049436010252,
      "loss": 1.6192,
      "step": 59926
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5702590942382812,
      "learning_rate": 0.00015169585785639823,
      "loss": 1.5761,
      "step": 59927
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5600120425224304,
      "learning_rate": 0.00015168677229179055,
      "loss": 1.6177,
      "step": 59928
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5830184817314148,
      "learning_rate": 0.0001516776869072132,
      "loss": 1.5863,
      "step": 59929
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5915281176567078,
      "learning_rate": 0.00015166860170267736,
      "loss": 1.5782,
      "step": 59930
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5568943023681641,
      "learning_rate": 0.0001516595166781939,
      "loss": 1.4985,
      "step": 59931
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5933956503868103,
      "learning_rate": 0.0001516504318337741,
      "loss": 1.6093,
      "step": 59932
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5692723393440247,
      "learning_rate": 0.00015164134716942872,
      "loss": 1.5235,
      "step": 59933
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5411984324455261,
      "learning_rate": 0.0001516322626851688,
      "loss": 1.5406,
      "step": 59934
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5704084038734436,
      "learning_rate": 0.00015162317838100559,
      "loss": 1.509,
      "step": 59935
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5728660821914673,
      "learning_rate": 0.00015161409425694982,
      "loss": 1.564,
      "step": 59936
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5663425922393799,
      "learning_rate": 0.0001516050103130128,
      "loss": 1.5358,
      "step": 59937
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5740150809288025,
      "learning_rate": 0.00015159592654920536,
      "loss": 1.5628,
      "step": 59938
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5865615606307983,
      "learning_rate": 0.0001515868429655387,
      "loss": 1.5614,
      "step": 59939
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.584527313709259,
      "learning_rate": 0.00015157775956202373,
      "loss": 1.5646,
      "step": 59940
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5777392983436584,
      "learning_rate": 0.0001515686763386714,
      "loss": 1.5302,
      "step": 59941
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5646094083786011,
      "learning_rate": 0.0001515595932954929,
      "loss": 1.4992,
      "step": 59942
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5688390135765076,
      "learning_rate": 0.00015155051043249922,
      "loss": 1.5395,
      "step": 59943
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5803869962692261,
      "learning_rate": 0.0001515414277497012,
      "loss": 1.5742,
      "step": 59944
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5640205144882202,
      "learning_rate": 0.00015153234524711007,
      "loss": 1.4896,
      "step": 59945
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5945103168487549,
      "learning_rate": 0.00015152326292473687,
      "loss": 1.5403,
      "step": 59946
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5969708561897278,
      "learning_rate": 0.00015151418078259254,
      "loss": 1.6102,
      "step": 59947
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5675798654556274,
      "learning_rate": 0.000151505098820688,
      "loss": 1.601,
      "step": 59948
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.564121425151825,
      "learning_rate": 0.00015149601703903453,
      "loss": 1.5423,
      "step": 59949
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.573935866355896,
      "learning_rate": 0.000151486935437643,
      "loss": 1.6388,
      "step": 59950
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5988059043884277,
      "learning_rate": 0.00015147785401652437,
      "loss": 1.6014,
      "step": 59951
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5700560808181763,
      "learning_rate": 0.0001514687727756897,
      "loss": 1.6218,
      "step": 59952
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5827431678771973,
      "learning_rate": 0.00015145969171515017,
      "loss": 1.6065,
      "step": 59953
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5868688225746155,
      "learning_rate": 0.0001514506108349167,
      "loss": 1.6516,
      "step": 59954
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5610698461532593,
      "learning_rate": 0.0001514415301350002,
      "loss": 1.5891,
      "step": 59955
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5670853853225708,
      "learning_rate": 0.0001514324496154119,
      "loss": 1.6223,
      "step": 59956
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5892245173454285,
      "learning_rate": 0.00015142336927616268,
      "loss": 1.5938,
      "step": 59957
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5860708355903625,
      "learning_rate": 0.00015141428911726352,
      "loss": 1.521,
      "step": 59958
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5893616676330566,
      "learning_rate": 0.0001514052091387255,
      "loss": 1.5844,
      "step": 59959
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5987371206283569,
      "learning_rate": 0.0001513961293405598,
      "loss": 1.5507,
      "step": 59960
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5847373604774475,
      "learning_rate": 0.00015138704972277728,
      "loss": 1.6003,
      "step": 59961
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5817078948020935,
      "learning_rate": 0.00015137797028538888,
      "loss": 1.5621,
      "step": 59962
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5746808648109436,
      "learning_rate": 0.00015136889102840582,
      "loss": 1.4949,
      "step": 59963
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5593835115432739,
      "learning_rate": 0.00015135981195183907,
      "loss": 1.663,
      "step": 59964
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5934035778045654,
      "learning_rate": 0.00015135073305569944,
      "loss": 1.6119,
      "step": 59965
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5734206438064575,
      "learning_rate": 0.00015134165433999816,
      "loss": 1.6327,
      "step": 59966
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5926194787025452,
      "learning_rate": 0.00015133257580474634,
      "loss": 1.5861,
      "step": 59967
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5793397426605225,
      "learning_rate": 0.00015132349744995482,
      "loss": 1.5575,
      "step": 59968
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5872220396995544,
      "learning_rate": 0.00015131441927563455,
      "loss": 1.5123,
      "step": 59969
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5655276775360107,
      "learning_rate": 0.00015130534128179684,
      "loss": 1.5754,
      "step": 59970
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5946319103240967,
      "learning_rate": 0.00015129626346845247,
      "loss": 1.6282,
      "step": 59971
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5760268568992615,
      "learning_rate": 0.00015128718583561245,
      "loss": 1.5175,
      "step": 59972
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5901232957839966,
      "learning_rate": 0.00015127810838328786,
      "loss": 1.5481,
      "step": 59973
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5954064726829529,
      "learning_rate": 0.00015126903111148987,
      "loss": 1.5773,
      "step": 59974
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.585422933101654,
      "learning_rate": 0.00015125995402022932,
      "loss": 1.5475,
      "step": 59975
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5640578866004944,
      "learning_rate": 0.0001512508771095172,
      "loss": 1.5531,
      "step": 59976
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5455772876739502,
      "learning_rate": 0.00015124180037936468,
      "loss": 1.5521,
      "step": 59977
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5770309567451477,
      "learning_rate": 0.0001512327238297827,
      "loss": 1.5123,
      "step": 59978
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6184477210044861,
      "learning_rate": 0.0001512236474607822,
      "loss": 1.634,
      "step": 59979
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5777924060821533,
      "learning_rate": 0.00015121457127237434,
      "loss": 1.5035,
      "step": 59980
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5760199427604675,
      "learning_rate": 0.00015120549526456998,
      "loss": 1.5735,
      "step": 59981
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5636690855026245,
      "learning_rate": 0.00015119641943738032,
      "loss": 1.5274,
      "step": 59982
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.584622323513031,
      "learning_rate": 0.00015118734379081616,
      "loss": 1.4969,
      "step": 59983
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5769997239112854,
      "learning_rate": 0.00015117826832488875,
      "loss": 1.5627,
      "step": 59984
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5797587037086487,
      "learning_rate": 0.00015116919303960903,
      "loss": 1.5788,
      "step": 59985
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5884461402893066,
      "learning_rate": 0.00015116011793498782,
      "loss": 1.6063,
      "step": 59986
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5858878493309021,
      "learning_rate": 0.00015115104301103647,
      "loss": 1.5526,
      "step": 59987
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5762187838554382,
      "learning_rate": 0.00015114196826776564,
      "loss": 1.5622,
      "step": 59988
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5844596028327942,
      "learning_rate": 0.00015113289370518665,
      "loss": 1.6061,
      "step": 59989
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5889419317245483,
      "learning_rate": 0.00015112381932331045,
      "loss": 1.5483,
      "step": 59990
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.595853865146637,
      "learning_rate": 0.00015111474512214786,
      "loss": 1.5713,
      "step": 59991
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5974648594856262,
      "learning_rate": 0.00015110567110171013,
      "loss": 1.5679,
      "step": 59992
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6094778776168823,
      "learning_rate": 0.00015109659726200808,
      "loss": 1.434,
      "step": 59993
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5887719392776489,
      "learning_rate": 0.0001510875236030529,
      "loss": 1.4946,
      "step": 59994
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5728570818901062,
      "learning_rate": 0.00015107845012485543,
      "loss": 1.5579,
      "step": 59995
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5752397775650024,
      "learning_rate": 0.00015106937682742691,
      "loss": 1.6114,
      "step": 59996
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5789147019386292,
      "learning_rate": 0.00015106030371077824,
      "loss": 1.5495,
      "step": 59997
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.576017439365387,
      "learning_rate": 0.00015105123077492025,
      "loss": 1.5569,
      "step": 59998
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5451112389564514,
      "learning_rate": 0.00015104215801986428,
      "loss": 1.5334,
      "step": 59999
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5618166327476501,
      "learning_rate": 0.00015103308544562113,
      "loss": 1.5495,
      "step": 60000
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5773355960845947,
      "learning_rate": 0.0001510240130522018,
      "loss": 1.5272,
      "step": 60001
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5790677666664124,
      "learning_rate": 0.00015101494083961736,
      "loss": 1.5049,
      "step": 60002
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5730494260787964,
      "learning_rate": 0.00015100586880787892,
      "loss": 1.5088,
      "step": 60003
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5679888725280762,
      "learning_rate": 0.00015099679695699741,
      "loss": 1.5667,
      "step": 60004
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5720391869544983,
      "learning_rate": 0.00015098772528698373,
      "loss": 1.5653,
      "step": 60005
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5784761309623718,
      "learning_rate": 0.0001509786537978491,
      "loss": 1.6218,
      "step": 60006
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5825390815734863,
      "learning_rate": 0.0001509695824896044,
      "loss": 1.5534,
      "step": 60007
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5840464234352112,
      "learning_rate": 0.00015096051136226062,
      "loss": 1.5999,
      "step": 60008
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.578596830368042,
      "learning_rate": 0.00015095144041582875,
      "loss": 1.5807,
      "step": 60009
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6012016534805298,
      "learning_rate": 0.00015094236965032014,
      "loss": 1.568,
      "step": 60010
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5734078288078308,
      "learning_rate": 0.0001509332990657453,
      "loss": 1.5715,
      "step": 60011
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5664041638374329,
      "learning_rate": 0.00015092422866211548,
      "loss": 1.5338,
      "step": 60012
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.560829758644104,
      "learning_rate": 0.00015091515843944174,
      "loss": 1.5673,
      "step": 60013
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.6083011627197266,
      "learning_rate": 0.00015090608839773512,
      "loss": 1.6029,
      "step": 60014
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5931594371795654,
      "learning_rate": 0.00015089701853700636,
      "loss": 1.5374,
      "step": 60015
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5888304710388184,
      "learning_rate": 0.0001508879488572667,
      "loss": 1.6073,
      "step": 60016
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5916670560836792,
      "learning_rate": 0.00015087887935852728,
      "loss": 1.5569,
      "step": 60017
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.553052544593811,
      "learning_rate": 0.00015086981004079871,
      "loss": 1.5477,
      "step": 60018
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5638667941093445,
      "learning_rate": 0.00015086074090409223,
      "loss": 1.4651,
      "step": 60019
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5632591247558594,
      "learning_rate": 0.00015085167194841894,
      "loss": 1.5628,
      "step": 60020
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.585220456123352,
      "learning_rate": 0.00015084260317378977,
      "loss": 1.5749,
      "step": 60021
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5807681679725647,
      "learning_rate": 0.00015083353458021555,
      "loss": 1.5002,
      "step": 60022
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5786510705947876,
      "learning_rate": 0.00015082446616770741,
      "loss": 1.533,
      "step": 60023
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5986372232437134,
      "learning_rate": 0.0001508153979362767,
      "loss": 1.4628,
      "step": 60024
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5997387766838074,
      "learning_rate": 0.00015080632988593383,
      "loss": 1.6355,
      "step": 60025
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6539834141731262,
      "learning_rate": 0.00015079726201669012,
      "loss": 1.6213,
      "step": 60026
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5807927250862122,
      "learning_rate": 0.00015078819432855667,
      "loss": 1.5361,
      "step": 60027
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.559658408164978,
      "learning_rate": 0.00015077912682154437,
      "loss": 1.5469,
      "step": 60028
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5794328451156616,
      "learning_rate": 0.0001507700594956641,
      "loss": 1.638,
      "step": 60029
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5686911940574646,
      "learning_rate": 0.00015076099235092707,
      "loss": 1.5391,
      "step": 60030
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.560302734375,
      "learning_rate": 0.00015075192538734427,
      "loss": 1.5213,
      "step": 60031
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5785103440284729,
      "learning_rate": 0.00015074285860492648,
      "loss": 1.5255,
      "step": 60032
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5567716956138611,
      "learning_rate": 0.00015073379200368487,
      "loss": 1.5683,
      "step": 60033
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5772697925567627,
      "learning_rate": 0.00015072472558363053,
      "loss": 1.5497,
      "step": 60034
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5515333414077759,
      "learning_rate": 0.00015071565934477444,
      "loss": 1.5143,
      "step": 60035
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5656077861785889,
      "learning_rate": 0.0001507065932871274,
      "loss": 1.5325,
      "step": 60036
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5757923126220703,
      "learning_rate": 0.00015069752741070068,
      "loss": 1.5483,
      "step": 60037
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5661956071853638,
      "learning_rate": 0.00015068846171550516,
      "loss": 1.5368,
      "step": 60038
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5992429256439209,
      "learning_rate": 0.00015067939620155174,
      "loss": 1.618,
      "step": 60039
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5839141011238098,
      "learning_rate": 0.00015067033086885162,
      "loss": 1.6249,
      "step": 60040
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5406805872917175,
      "learning_rate": 0.0001506612657174156,
      "loss": 1.5066,
      "step": 60041
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5798243880271912,
      "learning_rate": 0.00015065220074725495,
      "loss": 1.5477,
      "step": 60042
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.55042564868927,
      "learning_rate": 0.00015064313595838043,
      "loss": 1.581,
      "step": 60043
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5621607899665833,
      "learning_rate": 0.00015063407135080322,
      "loss": 1.5866,
      "step": 60044
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5878879427909851,
      "learning_rate": 0.0001506250069245342,
      "loss": 1.5613,
      "step": 60045
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5747354626655579,
      "learning_rate": 0.00015061594267958434,
      "loss": 1.6179,
      "step": 60046
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5513427257537842,
      "learning_rate": 0.0001506068786159648,
      "loss": 1.5929,
      "step": 60047
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5910916328430176,
      "learning_rate": 0.00015059781473368642,
      "loss": 1.6017,
      "step": 60048
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.600522518157959,
      "learning_rate": 0.00015058875103276034,
      "loss": 1.6139,
      "step": 60049
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5786406993865967,
      "learning_rate": 0.00015057968751319755,
      "loss": 1.5431,
      "step": 60050
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5849364399909973,
      "learning_rate": 0.00015057062417500887,
      "loss": 1.5277,
      "step": 60051
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5768491625785828,
      "learning_rate": 0.00015056156101820556,
      "loss": 1.673,
      "step": 60052
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.576522946357727,
      "learning_rate": 0.0001505524980427984,
      "loss": 1.5379,
      "step": 60053
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5976771116256714,
      "learning_rate": 0.00015054343524879856,
      "loss": 1.5884,
      "step": 60054
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5816887617111206,
      "learning_rate": 0.0001505343726362169,
      "loss": 1.5461,
      "step": 60055
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5871302485466003,
      "learning_rate": 0.00015052531020506456,
      "loss": 1.5687,
      "step": 60056
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5776979327201843,
      "learning_rate": 0.0001505162479553525,
      "loss": 1.5769,
      "step": 60057
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.1564418077468872,
      "learning_rate": 0.00015050718588709155,
      "loss": 1.4991,
      "step": 60058
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5799823999404907,
      "learning_rate": 0.00015049812400029297,
      "loss": 1.5731,
      "step": 60059
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.577294111251831,
      "learning_rate": 0.00015048906229496765,
      "loss": 1.512,
      "step": 60060
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.7375233173370361,
      "learning_rate": 0.00015048000077112647,
      "loss": 1.5975,
      "step": 60061
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.588157057762146,
      "learning_rate": 0.0001504709394287805,
      "loss": 1.5488,
      "step": 60062
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.585764467716217,
      "learning_rate": 0.0001504618782679409,
      "loss": 1.4769,
      "step": 60063
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5943370461463928,
      "learning_rate": 0.0001504528172886186,
      "loss": 1.5363,
      "step": 60064
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5713621973991394,
      "learning_rate": 0.0001504437564908244,
      "loss": 1.5738,
      "step": 60065
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5882884860038757,
      "learning_rate": 0.00015043469587456955,
      "loss": 1.5708,
      "step": 60066
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5869560837745667,
      "learning_rate": 0.00015042563543986496,
      "loss": 1.6095,
      "step": 60067
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.558536946773529,
      "learning_rate": 0.00015041657518672147,
      "loss": 1.5821,
      "step": 60068
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5773231983184814,
      "learning_rate": 0.0001504075151151502,
      "loss": 1.5861,
      "step": 60069
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5883485674858093,
      "learning_rate": 0.00015039845522516233,
      "loss": 1.6429,
      "step": 60070
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5752538442611694,
      "learning_rate": 0.00015038939551676868,
      "loss": 1.5609,
      "step": 60071
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5949136018753052,
      "learning_rate": 0.00015038033598998012,
      "loss": 1.5145,
      "step": 60072
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5820827484130859,
      "learning_rate": 0.00015037127664480795,
      "loss": 1.5337,
      "step": 60073
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5955377817153931,
      "learning_rate": 0.00015036221748126295,
      "loss": 1.5712,
      "step": 60074
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5728989243507385,
      "learning_rate": 0.00015035315849935607,
      "loss": 1.6236,
      "step": 60075
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5606114864349365,
      "learning_rate": 0.0001503440996990984,
      "loss": 1.6134,
      "step": 60076
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.575485348701477,
      "learning_rate": 0.0001503350410805011,
      "loss": 1.5739,
      "step": 60077
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5792815089225769,
      "learning_rate": 0.00015032598264357497,
      "loss": 1.5373,
      "step": 60078
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.560993492603302,
      "learning_rate": 0.00015031692438833094,
      "loss": 1.5735,
      "step": 60079
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5954535603523254,
      "learning_rate": 0.00015030786631478022,
      "loss": 1.6626,
      "step": 60080
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5761042833328247,
      "learning_rate": 0.00015029880842293367,
      "loss": 1.5637,
      "step": 60081
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5596665143966675,
      "learning_rate": 0.00015028975071280224,
      "loss": 1.5316,
      "step": 60082
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5638900995254517,
      "learning_rate": 0.00015028069318439696,
      "loss": 1.5668,
      "step": 60083
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5676848292350769,
      "learning_rate": 0.000150271635837729,
      "loss": 1.5649,
      "step": 60084
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5935999751091003,
      "learning_rate": 0.00015026257867280918,
      "loss": 1.5259,
      "step": 60085
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5622092485427856,
      "learning_rate": 0.00015025352168964847,
      "loss": 1.5339,
      "step": 60086
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5739266276359558,
      "learning_rate": 0.00015024446488825797,
      "loss": 1.5083,
      "step": 60087
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5954912304878235,
      "learning_rate": 0.00015023540826864865,
      "loss": 1.5629,
      "step": 60088
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5829717516899109,
      "learning_rate": 0.00015022635183083134,
      "loss": 1.5265,
      "step": 60089
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6108593940734863,
      "learning_rate": 0.00015021729557481724,
      "loss": 1.5307,
      "step": 60090
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5894532799720764,
      "learning_rate": 0.00015020823950061732,
      "loss": 1.5134,
      "step": 60091
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5887314081192017,
      "learning_rate": 0.00015019918360824257,
      "loss": 1.5485,
      "step": 60092
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5656024813652039,
      "learning_rate": 0.0001501901278977038,
      "loss": 1.5641,
      "step": 60093
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5555885434150696,
      "learning_rate": 0.00015018107236901222,
      "loss": 1.5622,
      "step": 60094
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5599063038825989,
      "learning_rate": 0.0001501720170221788,
      "loss": 1.5842,
      "step": 60095
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5738233327865601,
      "learning_rate": 0.00015016296185721434,
      "loss": 1.6285,
      "step": 60096
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5725088119506836,
      "learning_rate": 0.00015015390687413008,
      "loss": 1.5693,
      "step": 60097
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.567146897315979,
      "learning_rate": 0.00015014485207293682,
      "loss": 1.5753,
      "step": 60098
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5744959712028503,
      "learning_rate": 0.00015013579745364568,
      "loss": 1.5281,
      "step": 60099
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5893318057060242,
      "learning_rate": 0.00015012674301626754,
      "loss": 1.6099,
      "step": 60100
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5982396602630615,
      "learning_rate": 0.00015011768876081353,
      "loss": 1.5412,
      "step": 60101
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6008933186531067,
      "learning_rate": 0.00015010863468729456,
      "loss": 1.6034,
      "step": 60102
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5676175355911255,
      "learning_rate": 0.00015009958079572155,
      "loss": 1.5338,
      "step": 60103
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5691877007484436,
      "learning_rate": 0.00015009052708610563,
      "loss": 1.5173,
      "step": 60104
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.568371593952179,
      "learning_rate": 0.00015008147355845763,
      "loss": 1.5571,
      "step": 60105
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5808261036872864,
      "learning_rate": 0.00015007242021278876,
      "loss": 1.526,
      "step": 60106
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5936381220817566,
      "learning_rate": 0.00015006336704910983,
      "loss": 1.594,
      "step": 60107
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5784928798675537,
      "learning_rate": 0.0001500543140674318,
      "loss": 1.5426,
      "step": 60108
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5805225968360901,
      "learning_rate": 0.00015004526126776588,
      "loss": 1.5847,
      "step": 60109
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5760985016822815,
      "learning_rate": 0.00015003620865012277,
      "loss": 1.5978,
      "step": 60110
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5617203712463379,
      "learning_rate": 0.00015002715621451372,
      "loss": 1.5556,
      "step": 60111
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5534732937812805,
      "learning_rate": 0.0001500181039609495,
      "loss": 1.5018,
      "step": 60112
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5490643382072449,
      "learning_rate": 0.00015000905188944133,
      "loss": 1.5541,
      "step": 60113
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.2291120290756226,
      "learning_rate": 0.00015000000000000004,
      "loss": 1.5334,
      "step": 60114
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5814244151115417,
      "learning_rate": 0.00014999094829263657,
      "loss": 1.5879,
      "step": 60115
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5886073708534241,
      "learning_rate": 0.00014998189676736207,
      "loss": 1.5419,
      "step": 60116
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5612474083900452,
      "learning_rate": 0.00014997284542418745,
      "loss": 1.5415,
      "step": 60117
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5768550038337708,
      "learning_rate": 0.0001499637942631236,
      "loss": 1.6308,
      "step": 60118
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6080411672592163,
      "learning_rate": 0.00014995474328418157,
      "loss": 1.6223,
      "step": 60119
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5919333100318909,
      "learning_rate": 0.00014994569248737247,
      "loss": 1.5982,
      "step": 60120
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5796206593513489,
      "learning_rate": 0.00014993664187270723,
      "loss": 1.5685,
      "step": 60121
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5905367732048035,
      "learning_rate": 0.00014992759144019665,
      "loss": 1.5541,
      "step": 60122
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5667749047279358,
      "learning_rate": 0.00014991854118985202,
      "loss": 1.5157,
      "step": 60123
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5828293561935425,
      "learning_rate": 0.00014990949112168414,
      "loss": 1.571,
      "step": 60124
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5779480338096619,
      "learning_rate": 0.0001499004412357039,
      "loss": 1.6176,
      "step": 60125
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5596308708190918,
      "learning_rate": 0.00014989139153192242,
      "loss": 1.5773,
      "step": 60126
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5899583697319031,
      "learning_rate": 0.0001498823420103509,
      "loss": 1.5319,
      "step": 60127
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5637162327766418,
      "learning_rate": 0.00014987329267099987,
      "loss": 1.5902,
      "step": 60128
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5863015651702881,
      "learning_rate": 0.00014986424351388052,
      "loss": 1.5489,
      "step": 60129
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.591654360294342,
      "learning_rate": 0.000149855194539004,
      "loss": 1.5471,
      "step": 60130
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5843670964241028,
      "learning_rate": 0.00014984614574638114,
      "loss": 1.4579,
      "step": 60131
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5709359645843506,
      "learning_rate": 0.00014983709713602285,
      "loss": 1.555,
      "step": 60132
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5649513602256775,
      "learning_rate": 0.00014982804870794015,
      "loss": 1.4961,
      "step": 60133
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5901479125022888,
      "learning_rate": 0.00014981900046214433,
      "loss": 1.6274,
      "step": 60134
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5863962769508362,
      "learning_rate": 0.00014980995239864588,
      "loss": 1.5347,
      "step": 60135
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5904012322425842,
      "learning_rate": 0.000149800904517456,
      "loss": 1.59,
      "step": 60136
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5795773863792419,
      "learning_rate": 0.00014979185681858584,
      "loss": 1.4955,
      "step": 60137
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5865987539291382,
      "learning_rate": 0.00014978280930204625,
      "loss": 1.5791,
      "step": 60138
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5811107158660889,
      "learning_rate": 0.00014977376196784802,
      "loss": 1.4922,
      "step": 60139
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5654681921005249,
      "learning_rate": 0.00014976471481600233,
      "loss": 1.5814,
      "step": 60140
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5727317333221436,
      "learning_rate": 0.00014975566784652036,
      "loss": 1.5247,
      "step": 60141
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5819035172462463,
      "learning_rate": 0.0001497466210594127,
      "loss": 1.5097,
      "step": 60142
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5909533500671387,
      "learning_rate": 0.00014973757445469043,
      "loss": 1.6118,
      "step": 60143
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5570990443229675,
      "learning_rate": 0.00014972852803236478,
      "loss": 1.5396,
      "step": 60144
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.560318112373352,
      "learning_rate": 0.00014971948179244652,
      "loss": 1.5148,
      "step": 60145
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5751551389694214,
      "learning_rate": 0.00014971043573494655,
      "loss": 1.5036,
      "step": 60146
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.611217200756073,
      "learning_rate": 0.00014970138985987607,
      "loss": 1.5446,
      "step": 60147
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5723828673362732,
      "learning_rate": 0.00014969234416724602,
      "loss": 1.5372,
      "step": 60148
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5789268016815186,
      "learning_rate": 0.00014968329865706716,
      "loss": 1.5433,
      "step": 60149
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5663692951202393,
      "learning_rate": 0.0001496742533293506,
      "loss": 1.4914,
      "step": 60150
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5838824510574341,
      "learning_rate": 0.00014966520818410748,
      "loss": 1.6242,
      "step": 60151
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5966301560401917,
      "learning_rate": 0.00014965616322134867,
      "loss": 1.5917,
      "step": 60152
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6021121740341187,
      "learning_rate": 0.00014964711844108497,
      "loss": 1.6198,
      "step": 60153
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5798397064208984,
      "learning_rate": 0.00014963807384332767,
      "loss": 1.6226,
      "step": 60154
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5722456574440002,
      "learning_rate": 0.0001496290294280876,
      "loss": 1.5609,
      "step": 60155
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5957352519035339,
      "learning_rate": 0.0001496199851953756,
      "loss": 1.5248,
      "step": 60156
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5886422395706177,
      "learning_rate": 0.00014961094114520287,
      "loss": 1.5705,
      "step": 60157
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5718845725059509,
      "learning_rate": 0.00014960189727758022,
      "loss": 1.5933,
      "step": 60158
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.601157009601593,
      "learning_rate": 0.0001495928535925188,
      "loss": 1.5421,
      "step": 60159
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5927233099937439,
      "learning_rate": 0.00014958381009002938,
      "loss": 1.584,
      "step": 60160
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5885840058326721,
      "learning_rate": 0.0001495747667701232,
      "loss": 1.5191,
      "step": 60161
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5621540546417236,
      "learning_rate": 0.00014956572363281103,
      "loss": 1.5274,
      "step": 60162
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6879542469978333,
      "learning_rate": 0.00014955668067810382,
      "loss": 1.6065,
      "step": 60163
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5795012712478638,
      "learning_rate": 0.00014954763790601277,
      "loss": 1.5366,
      "step": 60164
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5395468473434448,
      "learning_rate": 0.00014953859531654858,
      "loss": 1.5685,
      "step": 60165
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6015691161155701,
      "learning_rate": 0.0001495295529097225,
      "loss": 1.4969,
      "step": 60166
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5639820694923401,
      "learning_rate": 0.00014952051068554536,
      "loss": 1.5686,
      "step": 60167
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5571467876434326,
      "learning_rate": 0.00014951146864402803,
      "loss": 1.54,
      "step": 60168
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5726445317268372,
      "learning_rate": 0.00014950242678518172,
      "loss": 1.4755,
      "step": 60169
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5828473567962646,
      "learning_rate": 0.00014949338510901716,
      "loss": 1.5864,
      "step": 60170
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5790345668792725,
      "learning_rate": 0.0001494843436155456,
      "loss": 1.6264,
      "step": 60171
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.575279176235199,
      "learning_rate": 0.00014947530230477772,
      "loss": 1.5552,
      "step": 60172
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5887383222579956,
      "learning_rate": 0.0001494662611767248,
      "loss": 1.5412,
      "step": 60173
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5614379048347473,
      "learning_rate": 0.0001494572202313976,
      "loss": 1.5766,
      "step": 60174
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5660043954849243,
      "learning_rate": 0.00014944817946880708,
      "loss": 1.5633,
      "step": 60175
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5783887505531311,
      "learning_rate": 0.0001494391388889644,
      "loss": 1.5705,
      "step": 60176
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5773665904998779,
      "learning_rate": 0.00014943009849188043,
      "loss": 1.5673,
      "step": 60177
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5557096004486084,
      "learning_rate": 0.000149421058277566,
      "loss": 1.5188,
      "step": 60178
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5683634877204895,
      "learning_rate": 0.00014941201824603226,
      "loss": 1.5423,
      "step": 60179
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5785173773765564,
      "learning_rate": 0.00014940297839729022,
      "loss": 1.5338,
      "step": 60180
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5916251540184021,
      "learning_rate": 0.00014939393873135076,
      "loss": 1.6006,
      "step": 60181
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5952757000923157,
      "learning_rate": 0.00014938489924822476,
      "loss": 1.6156,
      "step": 60182
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5861120820045471,
      "learning_rate": 0.00014937585994792343,
      "loss": 1.4719,
      "step": 60183
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5618662238121033,
      "learning_rate": 0.0001493668208304576,
      "loss": 1.5175,
      "step": 60184
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5739681124687195,
      "learning_rate": 0.00014935778189583817,
      "loss": 1.5068,
      "step": 60185
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5640061497688293,
      "learning_rate": 0.00014934874314407616,
      "loss": 1.6119,
      "step": 60186
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5592989325523376,
      "learning_rate": 0.00014933970457518272,
      "loss": 1.544,
      "step": 60187
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6094839572906494,
      "learning_rate": 0.00014933066618916864,
      "loss": 1.5683,
      "step": 60188
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5588910579681396,
      "learning_rate": 0.00014932162798604487,
      "loss": 1.5293,
      "step": 60189
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5806702971458435,
      "learning_rate": 0.00014931258996582253,
      "loss": 1.6138,
      "step": 60190
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5587862133979797,
      "learning_rate": 0.0001493035521285125,
      "loss": 1.4914,
      "step": 60191
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.565348744392395,
      "learning_rate": 0.00014929451447412567,
      "loss": 1.5824,
      "step": 60192
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5720913410186768,
      "learning_rate": 0.00014928547700267307,
      "loss": 1.5533,
      "step": 60193
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6003288626670837,
      "learning_rate": 0.0001492764397141658,
      "loss": 1.6137,
      "step": 60194
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5803189277648926,
      "learning_rate": 0.00014926740260861473,
      "loss": 1.5537,
      "step": 60195
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5729127526283264,
      "learning_rate": 0.00014925836568603068,
      "loss": 1.586,
      "step": 60196
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5535523891448975,
      "learning_rate": 0.00014924932894642493,
      "loss": 1.5986,
      "step": 60197
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5923318862915039,
      "learning_rate": 0.00014924029238980828,
      "loss": 1.5,
      "step": 60198
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5649546980857849,
      "learning_rate": 0.00014923125601619153,
      "loss": 1.5472,
      "step": 60199
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5820494294166565,
      "learning_rate": 0.00014922221982558586,
      "loss": 1.5753,
      "step": 60200
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5901491641998291,
      "learning_rate": 0.0001492131838180023,
      "loss": 1.6129,
      "step": 60201
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5802457928657532,
      "learning_rate": 0.00014920414799345175,
      "loss": 1.5448,
      "step": 60202
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.59493488073349,
      "learning_rate": 0.00014919511235194502,
      "loss": 1.6128,
      "step": 60203
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5895732045173645,
      "learning_rate": 0.0001491860768934933,
      "loss": 1.5305,
      "step": 60204
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5822709202766418,
      "learning_rate": 0.00014917704161810746,
      "loss": 1.5349,
      "step": 60205
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5665320158004761,
      "learning_rate": 0.00014916800652579835,
      "loss": 1.5283,
      "step": 60206
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5810152292251587,
      "learning_rate": 0.00014915897161657708,
      "loss": 1.5791,
      "step": 60207
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5879169702529907,
      "learning_rate": 0.00014914993689045468,
      "loss": 1.5657,
      "step": 60208
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.565412163734436,
      "learning_rate": 0.00014914090234744207,
      "loss": 1.5027,
      "step": 60209
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5604976415634155,
      "learning_rate": 0.00014913186798755005,
      "loss": 1.4928,
      "step": 60210
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.570827841758728,
      "learning_rate": 0.00014912283381078982,
      "loss": 1.5248,
      "step": 60211
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5657610297203064,
      "learning_rate": 0.00014911379981717224,
      "loss": 1.5255,
      "step": 60212
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5753230452537537,
      "learning_rate": 0.00014910476600670815,
      "loss": 1.5364,
      "step": 60213
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6004415154457092,
      "learning_rate": 0.00014909573237940874,
      "loss": 1.6128,
      "step": 60214
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6014747023582458,
      "learning_rate": 0.0001490866989352848,
      "loss": 1.5519,
      "step": 60215
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5701376795768738,
      "learning_rate": 0.00014907766567434744,
      "loss": 1.5888,
      "step": 60216
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.559164822101593,
      "learning_rate": 0.0001490686325966075,
      "loss": 1.5416,
      "step": 60217
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.577648401260376,
      "learning_rate": 0.00014905959970207608,
      "loss": 1.522,
      "step": 60218
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5626409649848938,
      "learning_rate": 0.00014905056699076406,
      "loss": 1.5516,
      "step": 60219
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6025887727737427,
      "learning_rate": 0.00014904153446268232,
      "loss": 1.5613,
      "step": 60220
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5953880548477173,
      "learning_rate": 0.00014903250211784202,
      "loss": 1.6201,
      "step": 60221
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5851067304611206,
      "learning_rate": 0.0001490234699562539,
      "loss": 1.5186,
      "step": 60222
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5677541494369507,
      "learning_rate": 0.00014901443797792915,
      "loss": 1.5705,
      "step": 60223
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5758116841316223,
      "learning_rate": 0.00014900540618287863,
      "loss": 1.5079,
      "step": 60224
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6046156287193298,
      "learning_rate": 0.0001489963745711132,
      "loss": 1.6611,
      "step": 60225
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5993895530700684,
      "learning_rate": 0.00014898734314264402,
      "loss": 1.5319,
      "step": 60226
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5770894885063171,
      "learning_rate": 0.00014897831189748185,
      "loss": 1.4897,
      "step": 60227
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5745663046836853,
      "learning_rate": 0.00014896928083563788,
      "loss": 1.5238,
      "step": 60228
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5672932267189026,
      "learning_rate": 0.0001489602499571228,
      "loss": 1.6037,
      "step": 60229
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6044889688491821,
      "learning_rate": 0.00014895121926194788,
      "loss": 1.4955,
      "step": 60230
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5726305246353149,
      "learning_rate": 0.00014894218875012387,
      "loss": 1.5209,
      "step": 60231
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5860084891319275,
      "learning_rate": 0.0001489331584216617,
      "loss": 1.6322,
      "step": 60232
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5678957104682922,
      "learning_rate": 0.00014892412827657256,
      "loss": 1.5503,
      "step": 60233
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5785503387451172,
      "learning_rate": 0.0001489150983148672,
      "loss": 1.5341,
      "step": 60234
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.610278308391571,
      "learning_rate": 0.0001489060685365566,
      "loss": 1.5197,
      "step": 60235
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5963008999824524,
      "learning_rate": 0.00014889703894165176,
      "loss": 1.5069,
      "step": 60236
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.575153112411499,
      "learning_rate": 0.00014888800953016376,
      "loss": 1.5843,
      "step": 60237
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.568463921546936,
      "learning_rate": 0.00014887898030210343,
      "loss": 1.455,
      "step": 60238
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5625280737876892,
      "learning_rate": 0.00014886995125748165,
      "loss": 1.5431,
      "step": 60239
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5838625431060791,
      "learning_rate": 0.00014886092239630962,
      "loss": 1.6181,
      "step": 60240
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5883541107177734,
      "learning_rate": 0.00014885189371859813,
      "loss": 1.5271,
      "step": 60241
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5864884257316589,
      "learning_rate": 0.00014884286522435806,
      "loss": 1.6304,
      "step": 60242
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5790887475013733,
      "learning_rate": 0.00014883383691360048,
      "loss": 1.5008,
      "step": 60243
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5838313102722168,
      "learning_rate": 0.00014882480878633658,
      "loss": 1.4587,
      "step": 60244
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5696319341659546,
      "learning_rate": 0.00014881578084257685,
      "loss": 1.528,
      "step": 60245
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5687772631645203,
      "learning_rate": 0.00014880675308233252,
      "loss": 1.4981,
      "step": 60246
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6075402498245239,
      "learning_rate": 0.0001487977255056146,
      "loss": 1.6101,
      "step": 60247
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5757858157157898,
      "learning_rate": 0.00014878869811243398,
      "loss": 1.6054,
      "step": 60248
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5664262771606445,
      "learning_rate": 0.00014877967090280147,
      "loss": 1.5773,
      "step": 60249
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5573164224624634,
      "learning_rate": 0.00014877064387672817,
      "loss": 1.5543,
      "step": 60250
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.569065272808075,
      "learning_rate": 0.00014876161703422522,
      "loss": 1.5289,
      "step": 60251
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6090506911277771,
      "learning_rate": 0.00014875259037530318,
      "loss": 1.5414,
      "step": 60252
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5877981185913086,
      "learning_rate": 0.0001487435638999732,
      "loss": 1.5497,
      "step": 60253
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5675479769706726,
      "learning_rate": 0.00014873453760824636,
      "loss": 1.5773,
      "step": 60254
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6098142266273499,
      "learning_rate": 0.00014872551150013353,
      "loss": 1.5512,
      "step": 60255
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5869839787483215,
      "learning_rate": 0.00014871648557564552,
      "loss": 1.5585,
      "step": 60256
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.565493106842041,
      "learning_rate": 0.00014870745983479338,
      "loss": 1.5681,
      "step": 60257
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5707974433898926,
      "learning_rate": 0.00014869843427758834,
      "loss": 1.4932,
      "step": 60258
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5665155649185181,
      "learning_rate": 0.0001486894089040409,
      "loss": 1.5406,
      "step": 60259
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5672252178192139,
      "learning_rate": 0.0001486803837141622,
      "loss": 1.5619,
      "step": 60260
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5902767777442932,
      "learning_rate": 0.0001486713587079633,
      "loss": 1.5436,
      "step": 60261
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5758122205734253,
      "learning_rate": 0.00014866233388545513,
      "loss": 1.5569,
      "step": 60262
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5833210945129395,
      "learning_rate": 0.00014865330924664845,
      "loss": 1.5861,
      "step": 60263
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5560494065284729,
      "learning_rate": 0.00014864428479155443,
      "loss": 1.5319,
      "step": 60264
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5736861824989319,
      "learning_rate": 0.000148635260520184,
      "loss": 1.6006,
      "step": 60265
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5880630016326904,
      "learning_rate": 0.00014862623643254792,
      "loss": 1.5556,
      "step": 60266
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5549392700195312,
      "learning_rate": 0.0001486172125286573,
      "loss": 1.5318,
      "step": 60267
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5687919855117798,
      "learning_rate": 0.0001486081888085232,
      "loss": 1.6211,
      "step": 60268
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5733881592750549,
      "learning_rate": 0.00014859916527215644,
      "loss": 1.6466,
      "step": 60269
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5677052736282349,
      "learning_rate": 0.00014859014191956788,
      "loss": 1.5515,
      "step": 60270
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5688872933387756,
      "learning_rate": 0.00014858111875076866,
      "loss": 1.5405,
      "step": 60271
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5585014224052429,
      "learning_rate": 0.00014857209576576966,
      "loss": 1.5451,
      "step": 60272
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5954915881156921,
      "learning_rate": 0.00014856307296458174,
      "loss": 1.5534,
      "step": 60273
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5832570791244507,
      "learning_rate": 0.00014855405034721605,
      "loss": 1.5532,
      "step": 60274
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5777230858802795,
      "learning_rate": 0.00014854502791368328,
      "loss": 1.5724,
      "step": 60275
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.575086236000061,
      "learning_rate": 0.00014853600566399467,
      "loss": 1.5698,
      "step": 60276
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5610923767089844,
      "learning_rate": 0.0001485269835981609,
      "loss": 1.4788,
      "step": 60277
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5629071593284607,
      "learning_rate": 0.00014851796171619317,
      "loss": 1.4818,
      "step": 60278
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5698117017745972,
      "learning_rate": 0.00014850894001810236,
      "loss": 1.5764,
      "step": 60279
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5789974927902222,
      "learning_rate": 0.00014849991850389923,
      "loss": 1.5577,
      "step": 60280
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5748003125190735,
      "learning_rate": 0.00014849089717359497,
      "loss": 1.5415,
      "step": 60281
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5674747824668884,
      "learning_rate": 0.00014848187602720033,
      "loss": 1.6048,
      "step": 60282
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5827685594558716,
      "learning_rate": 0.0001484728550647265,
      "loss": 1.5955,
      "step": 60283
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5953494906425476,
      "learning_rate": 0.0001484638342861843,
      "loss": 1.5849,
      "step": 60284
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5760347843170166,
      "learning_rate": 0.00014845481369158453,
      "loss": 1.5255,
      "step": 60285
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5684780478477478,
      "learning_rate": 0.00014844579328093842,
      "loss": 1.6056,
      "step": 60286
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.591418981552124,
      "learning_rate": 0.00014843677305425668,
      "loss": 1.4719,
      "step": 60287
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5683536529541016,
      "learning_rate": 0.0001484277530115505,
      "loss": 1.5345,
      "step": 60288
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5693352818489075,
      "learning_rate": 0.00014841873315283053,
      "loss": 1.589,
      "step": 60289
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.572750985622406,
      "learning_rate": 0.000148409713478108,
      "loss": 1.6048,
      "step": 60290
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5575743913650513,
      "learning_rate": 0.00014840069398739379,
      "loss": 1.5069,
      "step": 60291
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5621059536933899,
      "learning_rate": 0.00014839167468069865,
      "loss": 1.5474,
      "step": 60292
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5658655166625977,
      "learning_rate": 0.0001483826555580338,
      "loss": 1.574,
      "step": 60293
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.566284716129303,
      "learning_rate": 0.00014837363661941009,
      "loss": 1.536,
      "step": 60294
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5857273936271667,
      "learning_rate": 0.0001483646178648383,
      "loss": 1.5729,
      "step": 60295
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5828233957290649,
      "learning_rate": 0.00014835559929432952,
      "loss": 1.5254,
      "step": 60296
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5828747153282166,
      "learning_rate": 0.00014834658090789483,
      "loss": 1.567,
      "step": 60297
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5557199716567993,
      "learning_rate": 0.00014833756270554504,
      "loss": 1.4774,
      "step": 60298
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.569153904914856,
      "learning_rate": 0.000148328544687291,
      "loss": 1.5913,
      "step": 60299
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5955137014389038,
      "learning_rate": 0.00014831952685314385,
      "loss": 1.4983,
      "step": 60300
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.592183530330658,
      "learning_rate": 0.00014831050920311446,
      "loss": 1.4442,
      "step": 60301
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5755592584609985,
      "learning_rate": 0.00014830149173721365,
      "loss": 1.6129,
      "step": 60302
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6152737140655518,
      "learning_rate": 0.00014829247445545247,
      "loss": 1.5309,
      "step": 60303
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5868837237358093,
      "learning_rate": 0.000148283457357842,
      "loss": 1.515,
      "step": 60304
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5597828030586243,
      "learning_rate": 0.00014827444044439303,
      "loss": 1.4871,
      "step": 60305
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5938889384269714,
      "learning_rate": 0.00014826542371511645,
      "loss": 1.5961,
      "step": 60306
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5744447708129883,
      "learning_rate": 0.00014825640717002338,
      "loss": 1.5545,
      "step": 60307
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5668728947639465,
      "learning_rate": 0.00014824739080912468,
      "loss": 1.5583,
      "step": 60308
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5727279186248779,
      "learning_rate": 0.00014823837463243117,
      "loss": 1.5445,
      "step": 60309
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5760489106178284,
      "learning_rate": 0.0001482293586399539,
      "loss": 1.6116,
      "step": 60310
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5853922963142395,
      "learning_rate": 0.00014822034283170398,
      "loss": 1.5663,
      "step": 60311
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5754314661026001,
      "learning_rate": 0.00014821132720769216,
      "loss": 1.533,
      "step": 60312
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6130506992340088,
      "learning_rate": 0.00014820231176792935,
      "loss": 1.5992,
      "step": 60313
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5672372579574585,
      "learning_rate": 0.00014819329651242664,
      "loss": 1.5851,
      "step": 60314
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5626072883605957,
      "learning_rate": 0.00014818428144119494,
      "loss": 1.5788,
      "step": 60315
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5874122977256775,
      "learning_rate": 0.00014817526655424502,
      "loss": 1.6616,
      "step": 60316
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5840311050415039,
      "learning_rate": 0.00014816625185158796,
      "loss": 1.5461,
      "step": 60317
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5786218643188477,
      "learning_rate": 0.0001481572373332348,
      "loss": 1.5722,
      "step": 60318
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5891909003257751,
      "learning_rate": 0.00014814822299919638,
      "loss": 1.5872,
      "step": 60319
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5828810334205627,
      "learning_rate": 0.00014813920884948356,
      "loss": 1.5606,
      "step": 60320
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5868125557899475,
      "learning_rate": 0.00014813019488410745,
      "loss": 1.5738,
      "step": 60321
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6009655594825745,
      "learning_rate": 0.0001481211811030789,
      "loss": 1.5601,
      "step": 60322
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5979507565498352,
      "learning_rate": 0.00014811216750640875,
      "loss": 1.5568,
      "step": 60323
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5755141973495483,
      "learning_rate": 0.00014810315409410807,
      "loss": 1.5441,
      "step": 60324
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5693656802177429,
      "learning_rate": 0.00014809414086618786,
      "loss": 1.5634,
      "step": 60325
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5800797939300537,
      "learning_rate": 0.00014808512782265904,
      "loss": 1.5622,
      "step": 60326
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5662794709205627,
      "learning_rate": 0.0001480761149635323,
      "loss": 1.576,
      "step": 60327
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6049561500549316,
      "learning_rate": 0.00014806710228881893,
      "loss": 1.5788,
      "step": 60328
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5772641897201538,
      "learning_rate": 0.0001480580897985297,
      "loss": 1.5092,
      "step": 60329
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.594851553440094,
      "learning_rate": 0.00014804907749267548,
      "loss": 1.545,
      "step": 60330
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5524107813835144,
      "learning_rate": 0.00014804006537126737,
      "loss": 1.6068,
      "step": 60331
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5987685322761536,
      "learning_rate": 0.00014803105343431613,
      "loss": 1.5591,
      "step": 60332
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5851080417633057,
      "learning_rate": 0.0001480220416818329,
      "loss": 1.6098,
      "step": 60333
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5731511116027832,
      "learning_rate": 0.0001480130301138284,
      "loss": 1.4822,
      "step": 60334
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6041735410690308,
      "learning_rate": 0.00014800401873031382,
      "loss": 1.5935,
      "step": 60335
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5775201320648193,
      "learning_rate": 0.00014799500753129996,
      "loss": 1.5448,
      "step": 60336
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5618387460708618,
      "learning_rate": 0.00014798599651679766,
      "loss": 1.5461,
      "step": 60337
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6031870245933533,
      "learning_rate": 0.00014797698568681805,
      "loss": 1.5646,
      "step": 60338
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5855969786643982,
      "learning_rate": 0.00014796797504137188,
      "loss": 1.4841,
      "step": 60339
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6099079251289368,
      "learning_rate": 0.0001479589645804703,
      "loss": 1.549,
      "step": 60340
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5790104269981384,
      "learning_rate": 0.00014794995430412414,
      "loss": 1.6132,
      "step": 60341
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5630220770835876,
      "learning_rate": 0.0001479409442123442,
      "loss": 1.5464,
      "step": 60342
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5973426103591919,
      "learning_rate": 0.00014793193430514168,
      "loss": 1.5519,
      "step": 60343
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.593040406703949,
      "learning_rate": 0.00014792292458252728,
      "loss": 1.5561,
      "step": 60344
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5973201990127563,
      "learning_rate": 0.00014791391504451215,
      "loss": 1.5439,
      "step": 60345
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5872576236724854,
      "learning_rate": 0.000147904905691107,
      "loss": 1.4936,
      "step": 60346
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5560562610626221,
      "learning_rate": 0.000147895896522323,
      "loss": 1.571,
      "step": 60347
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5834816098213196,
      "learning_rate": 0.00014788688753817095,
      "loss": 1.5633,
      "step": 60348
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.587473452091217,
      "learning_rate": 0.0001478778787386617,
      "loss": 1.5198,
      "step": 60349
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.594276487827301,
      "learning_rate": 0.00014786887012380642,
      "loss": 1.5565,
      "step": 60350
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5983612537384033,
      "learning_rate": 0.0001478598616936159,
      "loss": 1.5283,
      "step": 60351
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5909692645072937,
      "learning_rate": 0.00014785085344810102,
      "loss": 1.5749,
      "step": 60352
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5669212937355042,
      "learning_rate": 0.00014784184538727275,
      "loss": 1.5456,
      "step": 60353
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5849283337593079,
      "learning_rate": 0.00014783283751114217,
      "loss": 1.5151,
      "step": 60354
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5626312494277954,
      "learning_rate": 0.00014782382981972012,
      "loss": 1.6053,
      "step": 60355
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5923808813095093,
      "learning_rate": 0.0001478148223130174,
      "loss": 1.5802,
      "step": 60356
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5973968505859375,
      "learning_rate": 0.00014780581499104518,
      "loss": 1.4988,
      "step": 60357
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6009477972984314,
      "learning_rate": 0.00014779680785381426,
      "loss": 1.6416,
      "step": 60358
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.597697377204895,
      "learning_rate": 0.00014778780090133546,
      "loss": 1.535,
      "step": 60359
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5681990385055542,
      "learning_rate": 0.0001477787941336199,
      "loss": 1.5517,
      "step": 60360
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6017326712608337,
      "learning_rate": 0.00014776978755067863,
      "loss": 1.5352,
      "step": 60361
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5922101140022278,
      "learning_rate": 0.0001477607811525222,
      "loss": 1.5546,
      "step": 60362
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5813548564910889,
      "learning_rate": 0.00014775177493916175,
      "loss": 1.5235,
      "step": 60363
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5971794128417969,
      "learning_rate": 0.00014774276891060833,
      "loss": 1.5314,
      "step": 60364
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5947206020355225,
      "learning_rate": 0.00014773376306687275,
      "loss": 1.5716,
      "step": 60365
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6035417914390564,
      "learning_rate": 0.00014772475740796584,
      "loss": 1.474,
      "step": 60366
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.565978467464447,
      "learning_rate": 0.00014771575193389861,
      "loss": 1.5149,
      "step": 60367
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5948472023010254,
      "learning_rate": 0.0001477067466446823,
      "loss": 1.5575,
      "step": 60368
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.7816152572631836,
      "learning_rate": 0.0001476977415403273,
      "loss": 1.5394,
      "step": 60369
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5837672352790833,
      "learning_rate": 0.0001476887366208448,
      "loss": 1.5853,
      "step": 60370
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5807960033416748,
      "learning_rate": 0.00014767973188624584,
      "loss": 1.5459,
      "step": 60371
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5815516710281372,
      "learning_rate": 0.00014767072733654123,
      "loss": 1.54,
      "step": 60372
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6099565029144287,
      "learning_rate": 0.00014766172297174182,
      "loss": 1.5222,
      "step": 60373
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5781210660934448,
      "learning_rate": 0.00014765271879185862,
      "loss": 1.5528,
      "step": 60374
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5698531866073608,
      "learning_rate": 0.00014764371479690283,
      "loss": 1.6332,
      "step": 60375
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.592829704284668,
      "learning_rate": 0.00014763471098688488,
      "loss": 1.5836,
      "step": 60376
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5812088251113892,
      "learning_rate": 0.00014762570736181593,
      "loss": 1.5142,
      "step": 60377
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5765551328659058,
      "learning_rate": 0.00014761670392170705,
      "loss": 1.6028,
      "step": 60378
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.584446132183075,
      "learning_rate": 0.000147607700666569,
      "loss": 1.595,
      "step": 60379
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5993095636367798,
      "learning_rate": 0.00014759869759641266,
      "loss": 1.6024,
      "step": 60380
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5928455591201782,
      "learning_rate": 0.00014758969471124917,
      "loss": 1.5468,
      "step": 60381
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5664791464805603,
      "learning_rate": 0.00014758069201108932,
      "loss": 1.5172,
      "step": 60382
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5889989137649536,
      "learning_rate": 0.00014757168949594394,
      "loss": 1.5408,
      "step": 60383
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5844511985778809,
      "learning_rate": 0.0001475626871658241,
      "loss": 1.5237,
      "step": 60384
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5910282731056213,
      "learning_rate": 0.00014755368502074076,
      "loss": 1.5535,
      "step": 60385
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6015257239341736,
      "learning_rate": 0.0001475446830607048,
      "loss": 1.4942,
      "step": 60386
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5998150706291199,
      "learning_rate": 0.00014753568128572701,
      "loss": 1.6354,
      "step": 60387
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5778341889381409,
      "learning_rate": 0.0001475266796958186,
      "loss": 1.6171,
      "step": 60388
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5424891710281372,
      "learning_rate": 0.00014751767829099027,
      "loss": 1.5122,
      "step": 60389
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6154038310050964,
      "learning_rate": 0.00014750867707125296,
      "loss": 1.5442,
      "step": 60390
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5849035382270813,
      "learning_rate": 0.00014749967603661774,
      "loss": 1.5619,
      "step": 60391
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5969355702400208,
      "learning_rate": 0.0001474906751870953,
      "loss": 1.5251,
      "step": 60392
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5818547010421753,
      "learning_rate": 0.00014748167452269687,
      "loss": 1.5871,
      "step": 60393
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5914186835289001,
      "learning_rate": 0.00014747267404343305,
      "loss": 1.5381,
      "step": 60394
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5846251249313354,
      "learning_rate": 0.0001474636737493151,
      "loss": 1.5564,
      "step": 60395
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5548136234283447,
      "learning_rate": 0.00014745467364035372,
      "loss": 1.5511,
      "step": 60396
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5695429444313049,
      "learning_rate": 0.00014744567371655982,
      "loss": 1.5297,
      "step": 60397
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5998765230178833,
      "learning_rate": 0.00014743667397794447,
      "loss": 1.5321,
      "step": 60398
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5835533738136292,
      "learning_rate": 0.00014742767442451843,
      "loss": 1.5326,
      "step": 60399
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5743697285652161,
      "learning_rate": 0.0001474186750562928,
      "loss": 1.4877,
      "step": 60400
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5998759269714355,
      "learning_rate": 0.00014740967587327844,
      "loss": 1.5008,
      "step": 60401
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.589936375617981,
      "learning_rate": 0.00014740067687548614,
      "loss": 1.5607,
      "step": 60402
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5804106593132019,
      "learning_rate": 0.000147391678062927,
      "loss": 1.6133,
      "step": 60403
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5791087746620178,
      "learning_rate": 0.00014738267943561182,
      "loss": 1.4623,
      "step": 60404
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5950811505317688,
      "learning_rate": 0.00014737368099355168,
      "loss": 1.4604,
      "step": 60405
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5975345373153687,
      "learning_rate": 0.0001473646827367573,
      "loss": 1.4832,
      "step": 60406
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6493802666664124,
      "learning_rate": 0.00014735568466523981,
      "loss": 1.5767,
      "step": 60407
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.582623302936554,
      "learning_rate": 0.00014734668677901,
      "loss": 1.5234,
      "step": 60408
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.573794960975647,
      "learning_rate": 0.00014733768907807877,
      "loss": 1.4895,
      "step": 60409
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5770314931869507,
      "learning_rate": 0.00014732869156245713,
      "loss": 1.5412,
      "step": 60410
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5803139805793762,
      "learning_rate": 0.000147319694232156,
      "loss": 1.5453,
      "step": 60411
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5861179232597351,
      "learning_rate": 0.00014731069708718615,
      "loss": 1.5396,
      "step": 60412
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5457747578620911,
      "learning_rate": 0.00014730170012755862,
      "loss": 1.5093,
      "step": 60413
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5764692425727844,
      "learning_rate": 0.00014729270335328445,
      "loss": 1.5485,
      "step": 60414
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5917800664901733,
      "learning_rate": 0.0001472837067643744,
      "loss": 1.5493,
      "step": 60415
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5797526240348816,
      "learning_rate": 0.00014727471036083932,
      "loss": 1.599,
      "step": 60416
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5885941386222839,
      "learning_rate": 0.0001472657141426904,
      "loss": 1.6393,
      "step": 60417
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5960719585418701,
      "learning_rate": 0.00014725671810993836,
      "loss": 1.5333,
      "step": 60418
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5850699543952942,
      "learning_rate": 0.00014724772226259406,
      "loss": 1.5868,
      "step": 60419
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5811743140220642,
      "learning_rate": 0.00014723872660066852,
      "loss": 1.6067,
      "step": 60420
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6024919748306274,
      "learning_rate": 0.00014722973112417276,
      "loss": 1.5067,
      "step": 60421
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5827663540840149,
      "learning_rate": 0.0001472207358331176,
      "loss": 1.58,
      "step": 60422
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5983403921127319,
      "learning_rate": 0.00014721174072751381,
      "loss": 1.5429,
      "step": 60423
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5928874611854553,
      "learning_rate": 0.00014720274580737262,
      "loss": 1.5381,
      "step": 60424
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6088632941246033,
      "learning_rate": 0.0001471937510727048,
      "loss": 1.6524,
      "step": 60425
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5961756110191345,
      "learning_rate": 0.00014718475652352104,
      "loss": 1.5358,
      "step": 60426
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5802971720695496,
      "learning_rate": 0.00014717576215983255,
      "loss": 1.5913,
      "step": 60427
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6286807656288147,
      "learning_rate": 0.00014716676798165029,
      "loss": 1.6161,
      "step": 60428
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5623863935470581,
      "learning_rate": 0.00014715777398898502,
      "loss": 1.5934,
      "step": 60429
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5614711046218872,
      "learning_rate": 0.0001471487801818476,
      "loss": 1.5062,
      "step": 60430
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.580168604850769,
      "learning_rate": 0.0001471397865602491,
      "loss": 1.5858,
      "step": 60431
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5932700634002686,
      "learning_rate": 0.0001471307931242004,
      "loss": 1.5435,
      "step": 60432
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5650575757026672,
      "learning_rate": 0.0001471217998737123,
      "loss": 1.6012,
      "step": 60433
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5663806796073914,
      "learning_rate": 0.00014711280680879582,
      "loss": 1.4916,
      "step": 60434
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6095629930496216,
      "learning_rate": 0.00014710381392946196,
      "loss": 1.4886,
      "step": 60435
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5781905651092529,
      "learning_rate": 0.00014709482123572153,
      "loss": 1.5748,
      "step": 60436
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.570624589920044,
      "learning_rate": 0.00014708582872758537,
      "loss": 1.5729,
      "step": 60437
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5771454572677612,
      "learning_rate": 0.0001470768364050646,
      "loss": 1.5363,
      "step": 60438
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5691626667976379,
      "learning_rate": 0.00014706784426816996,
      "loss": 1.5396,
      "step": 60439
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5817874670028687,
      "learning_rate": 0.00014705885231691237,
      "loss": 1.5526,
      "step": 60440
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5692689418792725,
      "learning_rate": 0.00014704986055130278,
      "loss": 1.5648,
      "step": 60441
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5814433097839355,
      "learning_rate": 0.00014704086897135223,
      "loss": 1.5776,
      "step": 60442
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5726194381713867,
      "learning_rate": 0.00014703187757707153,
      "loss": 1.5664,
      "step": 60443
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5885945558547974,
      "learning_rate": 0.00014702288636847147,
      "loss": 1.5995,
      "step": 60444
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5624507069587708,
      "learning_rate": 0.00014701389534556322,
      "loss": 1.5576,
      "step": 60445
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5880343914031982,
      "learning_rate": 0.00014700490450835757,
      "loss": 1.5622,
      "step": 60446
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5778250098228455,
      "learning_rate": 0.0001469959138568653,
      "loss": 1.5353,
      "step": 60447
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.585655927658081,
      "learning_rate": 0.00014698692339109754,
      "loss": 1.5692,
      "step": 60448
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5670697093009949,
      "learning_rate": 0.00014697793311106502,
      "loss": 1.5324,
      "step": 60449
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5935946106910706,
      "learning_rate": 0.00014696894301677885,
      "loss": 1.5186,
      "step": 60450
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5853058099746704,
      "learning_rate": 0.0001469599531082497,
      "loss": 1.5567,
      "step": 60451
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5801815986633301,
      "learning_rate": 0.00014695096338548873,
      "loss": 1.5816,
      "step": 60452
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5709372758865356,
      "learning_rate": 0.00014694197384850676,
      "loss": 1.5598,
      "step": 60453
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.55950528383255,
      "learning_rate": 0.00014693298449731457,
      "loss": 1.5597,
      "step": 60454
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5892962217330933,
      "learning_rate": 0.0001469239953319233,
      "loss": 1.5316,
      "step": 60455
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5864291787147522,
      "learning_rate": 0.0001469150063523436,
      "loss": 1.4797,
      "step": 60456
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5596818923950195,
      "learning_rate": 0.0001469060175585867,
      "loss": 1.4646,
      "step": 60457
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.580912172794342,
      "learning_rate": 0.00014689702895066326,
      "loss": 1.5017,
      "step": 60458
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.583391010761261,
      "learning_rate": 0.0001468880405285842,
      "loss": 1.5477,
      "step": 60459
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5993635058403015,
      "learning_rate": 0.00014687905229236064,
      "loss": 1.525,
      "step": 60460
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.574196457862854,
      "learning_rate": 0.0001468700642420032,
      "loss": 1.5761,
      "step": 60461
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5950303077697754,
      "learning_rate": 0.00014686107637752304,
      "loss": 1.5778,
      "step": 60462
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5979874730110168,
      "learning_rate": 0.00014685208869893087,
      "loss": 1.4467,
      "step": 60463
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5897759199142456,
      "learning_rate": 0.00014684310120623782,
      "loss": 1.5278,
      "step": 60464
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5643457770347595,
      "learning_rate": 0.00014683411389945466,
      "loss": 1.5416,
      "step": 60465
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.570841372013092,
      "learning_rate": 0.00014682512677859224,
      "loss": 1.4537,
      "step": 60466
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5576660633087158,
      "learning_rate": 0.00014681613984366163,
      "loss": 1.5892,
      "step": 60467
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5825586915016174,
      "learning_rate": 0.00014680715309467365,
      "loss": 1.6723,
      "step": 60468
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5905603766441345,
      "learning_rate": 0.0001467981665316391,
      "loss": 1.5753,
      "step": 60469
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5767691135406494,
      "learning_rate": 0.00014678918015456903,
      "loss": 1.5726,
      "step": 60470
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5677126049995422,
      "learning_rate": 0.00014678019396347443,
      "loss": 1.6057,
      "step": 60471
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5996511578559875,
      "learning_rate": 0.00014677120795836607,
      "loss": 1.4777,
      "step": 60472
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5830621719360352,
      "learning_rate": 0.00014676222213925481,
      "loss": 1.54,
      "step": 60473
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5769681334495544,
      "learning_rate": 0.00014675323650615172,
      "loss": 1.5682,
      "step": 60474
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5686680674552917,
      "learning_rate": 0.00014674425105906764,
      "loss": 1.4996,
      "step": 60475
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5871387124061584,
      "learning_rate": 0.00014673526579801332,
      "loss": 1.5117,
      "step": 60476
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6004232168197632,
      "learning_rate": 0.00014672628072299982,
      "loss": 1.5728,
      "step": 60477
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.581579327583313,
      "learning_rate": 0.00014671729583403827,
      "loss": 1.5822,
      "step": 60478
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5763506293296814,
      "learning_rate": 0.0001467083111311391,
      "loss": 1.5135,
      "step": 60479
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5707807540893555,
      "learning_rate": 0.00014669932661431345,
      "loss": 1.4596,
      "step": 60480
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5561448335647583,
      "learning_rate": 0.00014669034228357233,
      "loss": 1.4673,
      "step": 60481
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5700647830963135,
      "learning_rate": 0.00014668135813892657,
      "loss": 1.5304,
      "step": 60482
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5607600808143616,
      "learning_rate": 0.0001466723741803869,
      "loss": 1.5469,
      "step": 60483
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5965824127197266,
      "learning_rate": 0.00014666339040796442,
      "loss": 1.6012,
      "step": 60484
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5885674953460693,
      "learning_rate": 0.0001466544068216702,
      "loss": 1.5588,
      "step": 60485
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5601092576980591,
      "learning_rate": 0.00014664542342151472,
      "loss": 1.6026,
      "step": 60486
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5790421962738037,
      "learning_rate": 0.00014663644020750907,
      "loss": 1.5626,
      "step": 60487
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6051488518714905,
      "learning_rate": 0.00014662745717966433,
      "loss": 1.5469,
      "step": 60488
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5711889863014221,
      "learning_rate": 0.00014661847433799127,
      "loss": 1.5658,
      "step": 60489
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5698506832122803,
      "learning_rate": 0.00014660949168250064,
      "loss": 1.6155,
      "step": 60490
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5551075339317322,
      "learning_rate": 0.0001466005092132035,
      "loss": 1.5372,
      "step": 60491
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5878985524177551,
      "learning_rate": 0.00014659152693011096,
      "loss": 1.5535,
      "step": 60492
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6111357808113098,
      "learning_rate": 0.00014658254483323343,
      "loss": 1.545,
      "step": 60493
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5873413681983948,
      "learning_rate": 0.00014657356292258216,
      "loss": 1.5701,
      "step": 60494
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5585206747055054,
      "learning_rate": 0.00014656458119816806,
      "loss": 1.443,
      "step": 60495
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5859985947608948,
      "learning_rate": 0.00014655559966000195,
      "loss": 1.465,
      "step": 60496
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5903941988945007,
      "learning_rate": 0.00014654661830809464,
      "loss": 1.5983,
      "step": 60497
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5506635904312134,
      "learning_rate": 0.0001465376371424572,
      "loss": 1.5766,
      "step": 60498
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5704264640808105,
      "learning_rate": 0.0001465286561631005,
      "loss": 1.4982,
      "step": 60499
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5861964225769043,
      "learning_rate": 0.00014651967537003522,
      "loss": 1.5303,
      "step": 60500
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.613695502281189,
      "learning_rate": 0.00014651069476327253,
      "loss": 1.5421,
      "step": 60501
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5778681039810181,
      "learning_rate": 0.00014650171434282328,
      "loss": 1.5057,
      "step": 60502
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5793871879577637,
      "learning_rate": 0.00014649273410869836,
      "loss": 1.5744,
      "step": 60503
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5886057615280151,
      "learning_rate": 0.00014648375406090854,
      "loss": 1.5558,
      "step": 60504
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.605880618095398,
      "learning_rate": 0.0001464747741994649,
      "loss": 1.5052,
      "step": 60505
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5859622955322266,
      "learning_rate": 0.0001464657945243783,
      "loss": 1.533,
      "step": 60506
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5877881050109863,
      "learning_rate": 0.00014645681503565948,
      "loss": 1.5367,
      "step": 60507
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.59493088722229,
      "learning_rate": 0.0001464478357333196,
      "loss": 1.5858,
      "step": 60508
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.566029965877533,
      "learning_rate": 0.00014643885661736928,
      "loss": 1.5069,
      "step": 60509
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5778725147247314,
      "learning_rate": 0.00014642987768781967,
      "loss": 1.5023,
      "step": 60510
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5961606502532959,
      "learning_rate": 0.00014642089894468144,
      "loss": 1.553,
      "step": 60511
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5856382846832275,
      "learning_rate": 0.00014641192038796573,
      "loss": 1.532,
      "step": 60512
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5712242126464844,
      "learning_rate": 0.00014640294201768333,
      "loss": 1.5313,
      "step": 60513
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5992716550827026,
      "learning_rate": 0.00014639396383384502,
      "loss": 1.5495,
      "step": 60514
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5708792209625244,
      "learning_rate": 0.00014638498583646192,
      "loss": 1.576,
      "step": 60515
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.599555253982544,
      "learning_rate": 0.0001463760080255447,
      "loss": 1.5418,
      "step": 60516
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5930739641189575,
      "learning_rate": 0.00014636703040110443,
      "loss": 1.5662,
      "step": 60517
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5936811566352844,
      "learning_rate": 0.000146358052963152,
      "loss": 1.5528,
      "step": 60518
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5732220411300659,
      "learning_rate": 0.00014634907571169816,
      "loss": 1.5392,
      "step": 60519
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5756440162658691,
      "learning_rate": 0.000146340098646754,
      "loss": 1.5191,
      "step": 60520
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5538845062255859,
      "learning_rate": 0.00014633112176833018,
      "loss": 1.5483,
      "step": 60521
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5973291397094727,
      "learning_rate": 0.00014632214507643787,
      "loss": 1.5793,
      "step": 60522
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5744206309318542,
      "learning_rate": 0.0001463131685710877,
      "loss": 1.5259,
      "step": 60523
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5818878412246704,
      "learning_rate": 0.00014630419225229084,
      "loss": 1.5903,
      "step": 60524
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5960967540740967,
      "learning_rate": 0.000146295216120058,
      "loss": 1.5196,
      "step": 60525
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5708931088447571,
      "learning_rate": 0.00014628624017440006,
      "loss": 1.5346,
      "step": 60526
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6001443862915039,
      "learning_rate": 0.0001462772644153281,
      "loss": 1.5546,
      "step": 60527
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.608818531036377,
      "learning_rate": 0.0001462682888428528,
      "loss": 1.5797,
      "step": 60528
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5995944738388062,
      "learning_rate": 0.00014625931345698512,
      "loss": 1.5585,
      "step": 60529
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5825691819190979,
      "learning_rate": 0.00014625033825773595,
      "loss": 1.534,
      "step": 60530
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5875120162963867,
      "learning_rate": 0.00014624136324511633,
      "loss": 1.5346,
      "step": 60531
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.580876350402832,
      "learning_rate": 0.00014623238841913704,
      "loss": 1.5252,
      "step": 60532
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5775282382965088,
      "learning_rate": 0.00014622341377980888,
      "loss": 1.5361,
      "step": 60533
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6023452877998352,
      "learning_rate": 0.00014621443932714292,
      "loss": 1.5998,
      "step": 60534
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.570558488368988,
      "learning_rate": 0.00014620546506115,
      "loss": 1.5482,
      "step": 60535
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5495651960372925,
      "learning_rate": 0.00014619649098184082,
      "loss": 1.4978,
      "step": 60536
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5709928274154663,
      "learning_rate": 0.0001461875170892265,
      "loss": 1.6122,
      "step": 60537
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5928093194961548,
      "learning_rate": 0.00014617854338331792,
      "loss": 1.5214,
      "step": 60538
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5878824591636658,
      "learning_rate": 0.000146169569864126,
      "loss": 1.5865,
      "step": 60539
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5936475992202759,
      "learning_rate": 0.00014616059653166139,
      "loss": 1.4812,
      "step": 60540
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5877910256385803,
      "learning_rate": 0.00014615162338593528,
      "loss": 1.5567,
      "step": 60541
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5730036497116089,
      "learning_rate": 0.00014614265042695843,
      "loss": 1.5301,
      "step": 60542
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5782446265220642,
      "learning_rate": 0.00014613367765474163,
      "loss": 1.5402,
      "step": 60543
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5880684852600098,
      "learning_rate": 0.00014612470506929586,
      "loss": 1.5033,
      "step": 60544
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5678934454917908,
      "learning_rate": 0.0001461157326706321,
      "loss": 1.4572,
      "step": 60545
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5771481990814209,
      "learning_rate": 0.00014610676045876122,
      "loss": 1.5584,
      "step": 60546
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5769995450973511,
      "learning_rate": 0.00014609778843369394,
      "loss": 1.5204,
      "step": 60547
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5730085968971252,
      "learning_rate": 0.00014608881659544136,
      "loss": 1.5076,
      "step": 60548
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5724820494651794,
      "learning_rate": 0.0001460798449440143,
      "loss": 1.4843,
      "step": 60549
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5952898859977722,
      "learning_rate": 0.00014607087347942352,
      "loss": 1.5079,
      "step": 60550
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5754145979881287,
      "learning_rate": 0.00014606190220168,
      "loss": 1.5343,
      "step": 60551
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5570107698440552,
      "learning_rate": 0.00014605293111079478,
      "loss": 1.4885,
      "step": 60552
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5841897130012512,
      "learning_rate": 0.0001460439602067786,
      "loss": 1.6103,
      "step": 60553
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5967027544975281,
      "learning_rate": 0.00014603498948964223,
      "loss": 1.5463,
      "step": 60554
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5758238434791565,
      "learning_rate": 0.00014602601895939685,
      "loss": 1.5045,
      "step": 60555
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5593584775924683,
      "learning_rate": 0.00014601704861605318,
      "loss": 1.5211,
      "step": 60556
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5640787482261658,
      "learning_rate": 0.00014600807845962203,
      "loss": 1.5181,
      "step": 60557
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.58281409740448,
      "learning_rate": 0.00014599910849011453,
      "loss": 1.4952,
      "step": 60558
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5976793766021729,
      "learning_rate": 0.00014599013870754125,
      "loss": 1.5251,
      "step": 60559
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5667481422424316,
      "learning_rate": 0.00014598116911191338,
      "loss": 1.5808,
      "step": 60560
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.6136751770973206,
      "learning_rate": 0.00014597219970324156,
      "loss": 1.5326,
      "step": 60561
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5893431901931763,
      "learning_rate": 0.00014596323048153686,
      "loss": 1.5344,
      "step": 60562
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.601965606212616,
      "learning_rate": 0.0001459542614468102,
      "loss": 1.6098,
      "step": 60563
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.5819194316864014,
      "learning_rate": 0.00014594529259907217,
      "loss": 1.5712,
      "step": 60564
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5733069181442261,
      "learning_rate": 0.00014593632393833402,
      "loss": 1.4782,
      "step": 60565
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5879777669906616,
      "learning_rate": 0.00014592735546460633,
      "loss": 1.516,
      "step": 60566
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5909693837165833,
      "learning_rate": 0.00014591838717790026,
      "loss": 1.5372,
      "step": 60567
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5861515402793884,
      "learning_rate": 0.00014590941907822644,
      "loss": 1.5604,
      "step": 60568
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.596767008304596,
      "learning_rate": 0.00014590045116559603,
      "loss": 1.5019,
      "step": 60569
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5788158774375916,
      "learning_rate": 0.00014589148344001972,
      "loss": 1.5706,
      "step": 60570
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5882062911987305,
      "learning_rate": 0.00014588251590150837,
      "loss": 1.5541,
      "step": 60571
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.602807343006134,
      "learning_rate": 0.00014587354855007302,
      "loss": 1.6078,
      "step": 60572
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5859296917915344,
      "learning_rate": 0.00014586458138572436,
      "loss": 1.616,
      "step": 60573
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5989620685577393,
      "learning_rate": 0.0001458556144084735,
      "loss": 1.5217,
      "step": 60574
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5888280272483826,
      "learning_rate": 0.00014584664761833124,
      "loss": 1.5187,
      "step": 60575
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5928715467453003,
      "learning_rate": 0.0001458376810153083,
      "loss": 1.447,
      "step": 60576
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.571753978729248,
      "learning_rate": 0.00014582871459941583,
      "loss": 1.5604,
      "step": 60577
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5721887350082397,
      "learning_rate": 0.00014581974837066445,
      "loss": 1.5417,
      "step": 60578
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6170429587364197,
      "learning_rate": 0.00014581078232906531,
      "loss": 1.5947,
      "step": 60579
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6189027428627014,
      "learning_rate": 0.00014580181647462902,
      "loss": 1.5574,
      "step": 60580
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5933263897895813,
      "learning_rate": 0.00014579285080736675,
      "loss": 1.6483,
      "step": 60581
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5884294509887695,
      "learning_rate": 0.0001457838853272892,
      "loss": 1.6197,
      "step": 60582
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5749879479408264,
      "learning_rate": 0.00014577492003440724,
      "loss": 1.4784,
      "step": 60583
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5811657905578613,
      "learning_rate": 0.00014576595492873188,
      "loss": 1.577,
      "step": 60584
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5977745056152344,
      "learning_rate": 0.00014575699001027393,
      "loss": 1.5504,
      "step": 60585
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5902025699615479,
      "learning_rate": 0.00014574802527904415,
      "loss": 1.5952,
      "step": 60586
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5768164992332458,
      "learning_rate": 0.0001457390607350535,
      "loss": 1.5443,
      "step": 60587
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5653848052024841,
      "learning_rate": 0.00014573009637831305,
      "loss": 1.5127,
      "step": 60588
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5867713093757629,
      "learning_rate": 0.00014572113220883356,
      "loss": 1.5906,
      "step": 60589
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6007179021835327,
      "learning_rate": 0.00014571216822662573,
      "loss": 1.5534,
      "step": 60590
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.576715350151062,
      "learning_rate": 0.00014570320443170072,
      "loss": 1.57,
      "step": 60591
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5696960687637329,
      "learning_rate": 0.0001456942408240693,
      "loss": 1.568,
      "step": 60592
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5934241414070129,
      "learning_rate": 0.0001456852774037422,
      "loss": 1.5701,
      "step": 60593
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5781973004341125,
      "learning_rate": 0.00014567631417073047,
      "loss": 1.5344,
      "step": 60594
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.579578161239624,
      "learning_rate": 0.00014566735112504515,
      "loss": 1.6071,
      "step": 60595
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.57571941614151,
      "learning_rate": 0.00014565838826669671,
      "loss": 1.6297,
      "step": 60596
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5895289778709412,
      "learning_rate": 0.00014564942559569625,
      "loss": 1.5904,
      "step": 60597
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5908201336860657,
      "learning_rate": 0.00014564046311205475,
      "loss": 1.5842,
      "step": 60598
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5844092965126038,
      "learning_rate": 0.00014563150081578298,
      "loss": 1.5645,
      "step": 60599
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5604177117347717,
      "learning_rate": 0.0001456225387068917,
      "loss": 1.5385,
      "step": 60600
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5563791394233704,
      "learning_rate": 0.00014561357678539194,
      "loss": 1.6379,
      "step": 60601
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5782086849212646,
      "learning_rate": 0.00014560461505129475,
      "loss": 1.5481,
      "step": 60602
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.597412109375,
      "learning_rate": 0.0001455956535046106,
      "loss": 1.5868,
      "step": 60603
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5911448001861572,
      "learning_rate": 0.0001455866921453506,
      "loss": 1.5486,
      "step": 60604
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5917099118232727,
      "learning_rate": 0.00014557773097352567,
      "loss": 1.5496,
      "step": 60605
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.578964114189148,
      "learning_rate": 0.00014556876998914663,
      "loss": 1.5688,
      "step": 60606
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5999990105628967,
      "learning_rate": 0.00014555980919222423,
      "loss": 1.5935,
      "step": 60607
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6048858165740967,
      "learning_rate": 0.0001455508485827695,
      "loss": 1.5915,
      "step": 60608
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5991650819778442,
      "learning_rate": 0.0001455418881607935,
      "loss": 1.5497,
      "step": 60609
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5937568545341492,
      "learning_rate": 0.00014553292792630665,
      "loss": 1.511,
      "step": 60610
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6067036986351013,
      "learning_rate": 0.00014552396787932006,
      "loss": 1.5438,
      "step": 60611
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5981014966964722,
      "learning_rate": 0.00014551500801984475,
      "loss": 1.6177,
      "step": 60612
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5622618198394775,
      "learning_rate": 0.00014550604834789144,
      "loss": 1.4639,
      "step": 60613
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5684237480163574,
      "learning_rate": 0.0001454970888634709,
      "loss": 1.5732,
      "step": 60614
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5673014521598816,
      "learning_rate": 0.00014548812956659426,
      "loss": 1.4729,
      "step": 60615
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6070606708526611,
      "learning_rate": 0.00014547917045727227,
      "loss": 1.5673,
      "step": 60616
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5840094089508057,
      "learning_rate": 0.00014547021153551567,
      "loss": 1.5033,
      "step": 60617
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5927231311798096,
      "learning_rate": 0.00014546125280133547,
      "loss": 1.5698,
      "step": 60618
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6069997549057007,
      "learning_rate": 0.00014545229425474263,
      "loss": 1.534,
      "step": 60619
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6255566477775574,
      "learning_rate": 0.000145443335895748,
      "loss": 1.5416,
      "step": 60620
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.595150351524353,
      "learning_rate": 0.0001454343777243622,
      "loss": 1.6104,
      "step": 60621
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5914332270622253,
      "learning_rate": 0.00014542541974059644,
      "loss": 1.5446,
      "step": 60622
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5918077230453491,
      "learning_rate": 0.00014541646194446146,
      "loss": 1.5323,
      "step": 60623
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5759774446487427,
      "learning_rate": 0.00014540750433596797,
      "loss": 1.51,
      "step": 60624
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5670146346092224,
      "learning_rate": 0.0001453985469151271,
      "loss": 1.503,
      "step": 60625
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5960108637809753,
      "learning_rate": 0.00014538958968194954,
      "loss": 1.5982,
      "step": 60626
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5838558077812195,
      "learning_rate": 0.00014538063263644632,
      "loss": 1.5414,
      "step": 60627
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5947074890136719,
      "learning_rate": 0.00014537167577862814,
      "loss": 1.56,
      "step": 60628
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5669246315956116,
      "learning_rate": 0.00014536271910850604,
      "loss": 1.5504,
      "step": 60629
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5795754790306091,
      "learning_rate": 0.00014535376262609086,
      "loss": 1.5563,
      "step": 60630
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5864032506942749,
      "learning_rate": 0.00014534480633139328,
      "loss": 1.5971,
      "step": 60631
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5799063444137573,
      "learning_rate": 0.00014533585022442446,
      "loss": 1.5194,
      "step": 60632
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5640712976455688,
      "learning_rate": 0.00014532689430519499,
      "loss": 1.538,
      "step": 60633
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.59999680519104,
      "learning_rate": 0.00014531793857371599,
      "loss": 1.5905,
      "step": 60634
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5878527164459229,
      "learning_rate": 0.00014530898302999822,
      "loss": 1.5787,
      "step": 60635
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5996318459510803,
      "learning_rate": 0.00014530002767405248,
      "loss": 1.6099,
      "step": 60636
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5937333106994629,
      "learning_rate": 0.0001452910725058898,
      "loss": 1.4753,
      "step": 60637
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5678358674049377,
      "learning_rate": 0.00014528211752552083,
      "loss": 1.5374,
      "step": 60638
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5723181962966919,
      "learning_rate": 0.0001452731627329567,
      "loss": 1.512,
      "step": 60639
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5811428427696228,
      "learning_rate": 0.00014526420812820804,
      "loss": 1.5982,
      "step": 60640
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5816410183906555,
      "learning_rate": 0.00014525525371128595,
      "loss": 1.519,
      "step": 60641
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5830434560775757,
      "learning_rate": 0.0001452462994822012,
      "loss": 1.5625,
      "step": 60642
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6013480424880981,
      "learning_rate": 0.00014523734544096448,
      "loss": 1.5973,
      "step": 60643
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5729264616966248,
      "learning_rate": 0.00014522839158758697,
      "loss": 1.5273,
      "step": 60644
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5968765020370483,
      "learning_rate": 0.00014521943792207938,
      "loss": 1.5555,
      "step": 60645
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5672508478164673,
      "learning_rate": 0.00014521048444445246,
      "loss": 1.5888,
      "step": 60646
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5521736145019531,
      "learning_rate": 0.00014520153115471724,
      "loss": 1.4786,
      "step": 60647
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6102563738822937,
      "learning_rate": 0.00014519257805288463,
      "loss": 1.5462,
      "step": 60648
    },
    {
      "epoch": 2.02,
      "grad_norm": 1.4359644651412964,
      "learning_rate": 0.00014518362513896542,
      "loss": 1.583,
      "step": 60649
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5780459046363831,
      "learning_rate": 0.00014517467241297039,
      "loss": 1.5562,
      "step": 60650
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5924823880195618,
      "learning_rate": 0.00014516571987491057,
      "loss": 1.568,
      "step": 60651
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5916587710380554,
      "learning_rate": 0.00014515676752479677,
      "loss": 1.5335,
      "step": 60652
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5682750940322876,
      "learning_rate": 0.00014514781536263975,
      "loss": 1.4507,
      "step": 60653
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6074235439300537,
      "learning_rate": 0.00014513886338845045,
      "loss": 1.5924,
      "step": 60654
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5710251927375793,
      "learning_rate": 0.00014512991160223985,
      "loss": 1.5741,
      "step": 60655
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5787971019744873,
      "learning_rate": 0.00014512096000401874,
      "loss": 1.6217,
      "step": 60656
    },
    {
      "epoch": 2.02,
      "grad_norm": 1.611477017402649,
      "learning_rate": 0.00014511200859379785,
      "loss": 1.567,
      "step": 60657
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5799712538719177,
      "learning_rate": 0.00014510305737158827,
      "loss": 1.5429,
      "step": 60658
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5740581154823303,
      "learning_rate": 0.00014509410633740073,
      "loss": 1.4951,
      "step": 60659
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5826759338378906,
      "learning_rate": 0.00014508515549124603,
      "loss": 1.539,
      "step": 60660
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5602317452430725,
      "learning_rate": 0.00014507620483313513,
      "loss": 1.5158,
      "step": 60661
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5716360807418823,
      "learning_rate": 0.00014506725436307902,
      "loss": 1.4854,
      "step": 60662
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5641506314277649,
      "learning_rate": 0.0001450583040810884,
      "loss": 1.4682,
      "step": 60663
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5582324862480164,
      "learning_rate": 0.00014504935398717406,
      "loss": 1.6024,
      "step": 60664
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5762239694595337,
      "learning_rate": 0.00014504040408134708,
      "loss": 1.5606,
      "step": 60665
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5642340779304504,
      "learning_rate": 0.00014503145436361824,
      "loss": 1.5715,
      "step": 60666
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5851060748100281,
      "learning_rate": 0.00014502250483399825,
      "loss": 1.5289,
      "step": 60667
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.570158839225769,
      "learning_rate": 0.00014501355549249813,
      "loss": 1.5905,
      "step": 60668
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5850720405578613,
      "learning_rate": 0.0001450046063391288,
      "loss": 1.5539,
      "step": 60669
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.583340585231781,
      "learning_rate": 0.00014499565737390109,
      "loss": 1.5662,
      "step": 60670
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5672284960746765,
      "learning_rate": 0.00014498670859682566,
      "loss": 1.5842,
      "step": 60671
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5851669311523438,
      "learning_rate": 0.00014497776000791364,
      "loss": 1.5829,
      "step": 60672
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5698354840278625,
      "learning_rate": 0.00014496881160717576,
      "loss": 1.541,
      "step": 60673
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5849481225013733,
      "learning_rate": 0.00014495986339462284,
      "loss": 1.5176,
      "step": 60674
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5914164185523987,
      "learning_rate": 0.00014495091537026586,
      "loss": 1.4936,
      "step": 60675
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5804058313369751,
      "learning_rate": 0.00014494196753411554,
      "loss": 1.5596,
      "step": 60676
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5718441605567932,
      "learning_rate": 0.00014493301988618293,
      "loss": 1.5207,
      "step": 60677
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5733253359794617,
      "learning_rate": 0.00014492407242647868,
      "loss": 1.5367,
      "step": 60678
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5848321914672852,
      "learning_rate": 0.00014491512515501387,
      "loss": 1.5461,
      "step": 60679
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5946648716926575,
      "learning_rate": 0.00014490617807179923,
      "loss": 1.5562,
      "step": 60680
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5894954800605774,
      "learning_rate": 0.00014489723117684552,
      "loss": 1.5435,
      "step": 60681
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5872339010238647,
      "learning_rate": 0.00014488828447016387,
      "loss": 1.5595,
      "step": 60682
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.549026370048523,
      "learning_rate": 0.00014487933795176485,
      "loss": 1.5395,
      "step": 60683
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5692927241325378,
      "learning_rate": 0.0001448703916216596,
      "loss": 1.5325,
      "step": 60684
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5535438060760498,
      "learning_rate": 0.00014486144547985866,
      "loss": 1.5889,
      "step": 60685
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5948841571807861,
      "learning_rate": 0.00014485249952637323,
      "loss": 1.5905,
      "step": 60686
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.586880087852478,
      "learning_rate": 0.000144843553761214,
      "loss": 1.63,
      "step": 60687
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5938801169395447,
      "learning_rate": 0.0001448346081843917,
      "loss": 1.4953,
      "step": 60688
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5792884230613708,
      "learning_rate": 0.00014482566279591744,
      "loss": 1.5261,
      "step": 60689
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6028076410293579,
      "learning_rate": 0.00014481671759580188,
      "loss": 1.5979,
      "step": 60690
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5611311197280884,
      "learning_rate": 0.00014480777258405603,
      "loss": 1.5297,
      "step": 60691
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.552879273891449,
      "learning_rate": 0.0001447988277606907,
      "loss": 1.4652,
      "step": 60692
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5653549432754517,
      "learning_rate": 0.0001447898831257166,
      "loss": 1.5221,
      "step": 60693
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5860658884048462,
      "learning_rate": 0.00014478093867914486,
      "loss": 1.6322,
      "step": 60694
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5839511156082153,
      "learning_rate": 0.00014477199442098607,
      "loss": 1.6062,
      "step": 60695
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.578411340713501,
      "learning_rate": 0.00014476305035125128,
      "loss": 1.5337,
      "step": 60696
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5760653614997864,
      "learning_rate": 0.00014475410646995119,
      "loss": 1.4948,
      "step": 60697
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.584455132484436,
      "learning_rate": 0.00014474516277709687,
      "loss": 1.5301,
      "step": 60698
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6074119210243225,
      "learning_rate": 0.000144736219272699,
      "loss": 1.6276,
      "step": 60699
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.552164614200592,
      "learning_rate": 0.0001447272759567684,
      "loss": 1.5074,
      "step": 60700
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6023540496826172,
      "learning_rate": 0.00014471833282931614,
      "loss": 1.5594,
      "step": 60701
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5775150060653687,
      "learning_rate": 0.0001447093898903529,
      "loss": 1.5608,
      "step": 60702
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.566455602645874,
      "learning_rate": 0.00014470044713988948,
      "loss": 1.5239,
      "step": 60703
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.576967716217041,
      "learning_rate": 0.00014469150457793685,
      "loss": 1.5304,
      "step": 60704
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5874900817871094,
      "learning_rate": 0.00014468256220450597,
      "loss": 1.5368,
      "step": 60705
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.581917941570282,
      "learning_rate": 0.00014467362001960754,
      "loss": 1.453,
      "step": 60706
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6039101481437683,
      "learning_rate": 0.00014466467802325234,
      "loss": 1.6096,
      "step": 60707
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5761796832084656,
      "learning_rate": 0.00014465573621545147,
      "loss": 1.5269,
      "step": 60708
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5921770334243774,
      "learning_rate": 0.00014464679459621563,
      "loss": 1.6028,
      "step": 60709
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5902206897735596,
      "learning_rate": 0.0001446378531655556,
      "loss": 1.5873,
      "step": 60710
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5943341255187988,
      "learning_rate": 0.00014462891192348234,
      "loss": 1.4955,
      "step": 60711
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5756526589393616,
      "learning_rate": 0.00014461997087000686,
      "loss": 1.6199,
      "step": 60712
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5860154628753662,
      "learning_rate": 0.00014461103000513965,
      "loss": 1.5179,
      "step": 60713
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6047045588493347,
      "learning_rate": 0.00014460208932889175,
      "loss": 1.5085,
      "step": 60714
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5840817093849182,
      "learning_rate": 0.00014459314884127412,
      "loss": 1.5458,
      "step": 60715
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5914524793624878,
      "learning_rate": 0.0001445842085422975,
      "loss": 1.5461,
      "step": 60716
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6188459992408752,
      "learning_rate": 0.00014457526843197267,
      "loss": 1.4898,
      "step": 60717
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6156560778617859,
      "learning_rate": 0.00014456632851031056,
      "loss": 1.5218,
      "step": 60718
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5732649564743042,
      "learning_rate": 0.0001445573887773222,
      "loss": 1.5495,
      "step": 60719
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5974034070968628,
      "learning_rate": 0.0001445484492330181,
      "loss": 1.6143,
      "step": 60720
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6008208990097046,
      "learning_rate": 0.00014453950987740923,
      "loss": 1.5564,
      "step": 60721
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6065824031829834,
      "learning_rate": 0.00014453057071050663,
      "loss": 1.6059,
      "step": 60722
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5855375528335571,
      "learning_rate": 0.00014452163173232102,
      "loss": 1.6019,
      "step": 60723
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5912180542945862,
      "learning_rate": 0.00014451269294286313,
      "loss": 1.5437,
      "step": 60724
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5885502099990845,
      "learning_rate": 0.0001445037543421439,
      "loss": 1.6031,
      "step": 60725
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5892501473426819,
      "learning_rate": 0.00014449481593017445,
      "loss": 1.5755,
      "step": 60726
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.583726704120636,
      "learning_rate": 0.0001444858777069651,
      "loss": 1.5905,
      "step": 60727
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.587735652923584,
      "learning_rate": 0.00014447693967252704,
      "loss": 1.5217,
      "step": 60728
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5876942873001099,
      "learning_rate": 0.00014446800182687115,
      "loss": 1.5642,
      "step": 60729
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6077438592910767,
      "learning_rate": 0.0001444590641700082,
      "loss": 1.5801,
      "step": 60730
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6192717552185059,
      "learning_rate": 0.0001444501267019489,
      "loss": 1.5955,
      "step": 60731
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6014394164085388,
      "learning_rate": 0.00014444118942270434,
      "loss": 1.5601,
      "step": 60732
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5989699959754944,
      "learning_rate": 0.00014443225233228525,
      "loss": 1.5428,
      "step": 60733
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5907033681869507,
      "learning_rate": 0.0001444233154307024,
      "loss": 1.5715,
      "step": 60734
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5966395139694214,
      "learning_rate": 0.00014441437871796667,
      "loss": 1.5759,
      "step": 60735
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6289189457893372,
      "learning_rate": 0.0001444054421940891,
      "loss": 1.6264,
      "step": 60736
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5902253985404968,
      "learning_rate": 0.00014439650585908043,
      "loss": 1.6008,
      "step": 60737
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6116849184036255,
      "learning_rate": 0.00014438756971295135,
      "loss": 1.5239,
      "step": 60738
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6064544916152954,
      "learning_rate": 0.0001443786337557129,
      "loss": 1.5761,
      "step": 60739
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5946466326713562,
      "learning_rate": 0.0001443696979873759,
      "loss": 1.5567,
      "step": 60740
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5790764689445496,
      "learning_rate": 0.00014436076240795104,
      "loss": 1.5472,
      "step": 60741
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5922593474388123,
      "learning_rate": 0.00014435182701744937,
      "loss": 1.6121,
      "step": 60742
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.580771803855896,
      "learning_rate": 0.00014434289181588155,
      "loss": 1.5008,
      "step": 60743
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5646064281463623,
      "learning_rate": 0.00014433395680325865,
      "loss": 1.5369,
      "step": 60744
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5622171759605408,
      "learning_rate": 0.00014432502197959127,
      "loss": 1.5252,
      "step": 60745
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5897728204727173,
      "learning_rate": 0.0001443160873448905,
      "loss": 1.5801,
      "step": 60746
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5940370559692383,
      "learning_rate": 0.00014430715289916703,
      "loss": 1.5528,
      "step": 60747
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5806780457496643,
      "learning_rate": 0.00014429821864243167,
      "loss": 1.5613,
      "step": 60748
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6159889101982117,
      "learning_rate": 0.00014428928457469538,
      "loss": 1.5067,
      "step": 60749
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5680735111236572,
      "learning_rate": 0.0001442803506959689,
      "loss": 1.5387,
      "step": 60750
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5710458159446716,
      "learning_rate": 0.00014427141700626322,
      "loss": 1.5493,
      "step": 60751
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5873022079467773,
      "learning_rate": 0.00014426248350558906,
      "loss": 1.5323,
      "step": 60752
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5725207328796387,
      "learning_rate": 0.00014425355019395724,
      "loss": 1.5102,
      "step": 60753
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5656735897064209,
      "learning_rate": 0.00014424461707137875,
      "loss": 1.5104,
      "step": 60754
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5700770020484924,
      "learning_rate": 0.00014423568413786424,
      "loss": 1.537,
      "step": 60755
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5912951231002808,
      "learning_rate": 0.0001442267513934248,
      "loss": 1.4984,
      "step": 60756
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.586232602596283,
      "learning_rate": 0.00014421781883807095,
      "loss": 1.4689,
      "step": 60757
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5805883407592773,
      "learning_rate": 0.00014420888647181387,
      "loss": 1.4894,
      "step": 60758
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6016786098480225,
      "learning_rate": 0.00014419995429466425,
      "loss": 1.5074,
      "step": 60759
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6036079525947571,
      "learning_rate": 0.0001441910223066328,
      "loss": 1.4612,
      "step": 60760
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5903333425521851,
      "learning_rate": 0.00014418209050773062,
      "loss": 1.5789,
      "step": 60761
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.587063729763031,
      "learning_rate": 0.0001441731588979684,
      "loss": 1.6224,
      "step": 60762
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5715294480323792,
      "learning_rate": 0.00014416422747735692,
      "loss": 1.5199,
      "step": 60763
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5927650332450867,
      "learning_rate": 0.00014415529624590707,
      "loss": 1.5182,
      "step": 60764
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5963266491889954,
      "learning_rate": 0.00014414636520362987,
      "loss": 1.5567,
      "step": 60765
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5887143611907959,
      "learning_rate": 0.00014413743435053603,
      "loss": 1.5207,
      "step": 60766
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5710226893424988,
      "learning_rate": 0.00014412850368663625,
      "loss": 1.5943,
      "step": 60767
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5721569657325745,
      "learning_rate": 0.0001441195732119416,
      "loss": 1.5516,
      "step": 60768
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5932190418243408,
      "learning_rate": 0.00014411064292646283,
      "loss": 1.5353,
      "step": 60769
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.579696536064148,
      "learning_rate": 0.00014410171283021068,
      "loss": 1.5376,
      "step": 60770
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.593406081199646,
      "learning_rate": 0.00014409278292319607,
      "loss": 1.4892,
      "step": 60771
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6004722118377686,
      "learning_rate": 0.00014408385320542993,
      "loss": 1.5402,
      "step": 60772
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5747343897819519,
      "learning_rate": 0.00014407492367692304,
      "loss": 1.5798,
      "step": 60773
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5850757956504822,
      "learning_rate": 0.0001440659943376861,
      "loss": 1.5678,
      "step": 60774
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6273021101951599,
      "learning_rate": 0.0001440570651877302,
      "loss": 1.6053,
      "step": 60775
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.603863000869751,
      "learning_rate": 0.00014404813622706603,
      "loss": 1.5835,
      "step": 60776
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5826119184494019,
      "learning_rate": 0.00014403920745570436,
      "loss": 1.5344,
      "step": 60777
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5877535343170166,
      "learning_rate": 0.00014403027887365604,
      "loss": 1.5363,
      "step": 60778
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5845710039138794,
      "learning_rate": 0.00014402135048093215,
      "loss": 1.5911,
      "step": 60779
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5777974724769592,
      "learning_rate": 0.00014401242227754337,
      "loss": 1.5132,
      "step": 60780
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5852066874504089,
      "learning_rate": 0.0001440034942635004,
      "loss": 1.5767,
      "step": 60781
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5767063498497009,
      "learning_rate": 0.0001439945664388143,
      "loss": 1.516,
      "step": 60782
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5832488536834717,
      "learning_rate": 0.00014398563880349582,
      "loss": 1.4185,
      "step": 60783
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5713054537773132,
      "learning_rate": 0.00014397671135755566,
      "loss": 1.5771,
      "step": 60784
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5755559206008911,
      "learning_rate": 0.0001439677841010048,
      "loss": 1.5402,
      "step": 60785
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5793083310127258,
      "learning_rate": 0.00014395885703385417,
      "loss": 1.5914,
      "step": 60786
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6072140336036682,
      "learning_rate": 0.00014394993015611447,
      "loss": 1.6135,
      "step": 60787
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5777595639228821,
      "learning_rate": 0.00014394100346779647,
      "loss": 1.5099,
      "step": 60788
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5842342376708984,
      "learning_rate": 0.00014393207696891122,
      "loss": 1.6248,
      "step": 60789
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5848247408866882,
      "learning_rate": 0.00014392315065946945,
      "loss": 1.523,
      "step": 60790
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5812997817993164,
      "learning_rate": 0.00014391422453948182,
      "loss": 1.5624,
      "step": 60791
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5783425569534302,
      "learning_rate": 0.00014390529860895944,
      "loss": 1.5617,
      "step": 60792
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5815500617027283,
      "learning_rate": 0.00014389637286791294,
      "loss": 1.513,
      "step": 60793
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5660595297813416,
      "learning_rate": 0.00014388744731635338,
      "loss": 1.5127,
      "step": 60794
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5651257634162903,
      "learning_rate": 0.0001438785219542913,
      "loss": 1.5498,
      "step": 60795
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5742767453193665,
      "learning_rate": 0.00014386959678173782,
      "loss": 1.5216,
      "step": 60796
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5718408226966858,
      "learning_rate": 0.00014386067179870363,
      "loss": 1.6141,
      "step": 60797
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5873374342918396,
      "learning_rate": 0.00014385174700519947,
      "loss": 1.5748,
      "step": 60798
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6055852174758911,
      "learning_rate": 0.0001438428224012364,
      "loss": 1.509,
      "step": 60799
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5740468502044678,
      "learning_rate": 0.000143833897986825,
      "loss": 1.5647,
      "step": 60800
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5733583569526672,
      "learning_rate": 0.00014382497376197638,
      "loss": 1.5108,
      "step": 60801
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6014958620071411,
      "learning_rate": 0.00014381604972670114,
      "loss": 1.6061,
      "step": 60802
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.568657398223877,
      "learning_rate": 0.00014380712588101026,
      "loss": 1.5484,
      "step": 60803
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.581365704536438,
      "learning_rate": 0.00014379820222491457,
      "loss": 1.5912,
      "step": 60804
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6222053170204163,
      "learning_rate": 0.00014378927875842467,
      "loss": 1.6203,
      "step": 60805
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5849372744560242,
      "learning_rate": 0.00014378035548155173,
      "loss": 1.5758,
      "step": 60806
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5737934708595276,
      "learning_rate": 0.00014377143239430632,
      "loss": 1.479,
      "step": 60807
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5976194143295288,
      "learning_rate": 0.00014376250949669944,
      "loss": 1.5397,
      "step": 60808
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5894092917442322,
      "learning_rate": 0.00014375358678874188,
      "loss": 1.5905,
      "step": 60809
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5742104053497314,
      "learning_rate": 0.00014374466427044433,
      "loss": 1.5512,
      "step": 60810
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5783101916313171,
      "learning_rate": 0.00014373574194181783,
      "loss": 1.5256,
      "step": 60811
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5622235536575317,
      "learning_rate": 0.000143726819802873,
      "loss": 1.5325,
      "step": 60812
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5641785264015198,
      "learning_rate": 0.00014371789785362095,
      "loss": 1.5272,
      "step": 60813
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6059331893920898,
      "learning_rate": 0.00014370897609407217,
      "loss": 1.57,
      "step": 60814
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5582252740859985,
      "learning_rate": 0.0001437000545242378,
      "loss": 1.6019,
      "step": 60815
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5717077851295471,
      "learning_rate": 0.00014369113314412855,
      "loss": 1.5072,
      "step": 60816
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5726383328437805,
      "learning_rate": 0.00014368221195375512,
      "loss": 1.5325,
      "step": 60817
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.594417929649353,
      "learning_rate": 0.00014367329095312854,
      "loss": 1.5337,
      "step": 60818
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5813990831375122,
      "learning_rate": 0.00014366437014225956,
      "loss": 1.562,
      "step": 60819
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.584077775478363,
      "learning_rate": 0.0001436554495211589,
      "loss": 1.552,
      "step": 60820
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5808675289154053,
      "learning_rate": 0.00014364652908983747,
      "loss": 1.4486,
      "step": 60821
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5522435307502747,
      "learning_rate": 0.0001436376088483062,
      "loss": 1.5227,
      "step": 60822
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.585336446762085,
      "learning_rate": 0.00014362868879657588,
      "loss": 1.5968,
      "step": 60823
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5972838997840881,
      "learning_rate": 0.00014361976893465715,
      "loss": 1.6435,
      "step": 60824
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5947287082672119,
      "learning_rate": 0.00014361084926256114,
      "loss": 1.5192,
      "step": 60825
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6173771619796753,
      "learning_rate": 0.0001436019297802985,
      "loss": 1.4811,
      "step": 60826
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6132683753967285,
      "learning_rate": 0.00014359301048787995,
      "loss": 1.5413,
      "step": 60827
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5802155137062073,
      "learning_rate": 0.0001435840913853164,
      "loss": 1.6004,
      "step": 60828
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.604223370552063,
      "learning_rate": 0.00014357517247261898,
      "loss": 1.5182,
      "step": 60829
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.568969190120697,
      "learning_rate": 0.00014356625374979806,
      "loss": 1.5944,
      "step": 60830
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5849442481994629,
      "learning_rate": 0.00014355733521686462,
      "loss": 1.5209,
      "step": 60831
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5766647458076477,
      "learning_rate": 0.0001435484168738296,
      "loss": 1.5148,
      "step": 60832
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6052353382110596,
      "learning_rate": 0.00014353949872070382,
      "loss": 1.5119,
      "step": 60833
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5976225733757019,
      "learning_rate": 0.0001435305807574979,
      "loss": 1.5927,
      "step": 60834
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6027047634124756,
      "learning_rate": 0.0001435216629842228,
      "loss": 1.513,
      "step": 60835
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5800709128379822,
      "learning_rate": 0.00014351274540088955,
      "loss": 1.5607,
      "step": 60836
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5898556709289551,
      "learning_rate": 0.00014350382800750854,
      "loss": 1.5971,
      "step": 60837
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.597339928150177,
      "learning_rate": 0.00014349491080409084,
      "loss": 1.5918,
      "step": 60838
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6372424364089966,
      "learning_rate": 0.00014348599379064738,
      "loss": 1.5627,
      "step": 60839
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5859792828559875,
      "learning_rate": 0.00014347707696718887,
      "loss": 1.4857,
      "step": 60840
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5649603009223938,
      "learning_rate": 0.00014346816033372598,
      "loss": 1.628,
      "step": 60841
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.599098801612854,
      "learning_rate": 0.0001434592438902697,
      "loss": 1.5595,
      "step": 60842
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6036074161529541,
      "learning_rate": 0.00014345032763683107,
      "loss": 1.5039,
      "step": 60843
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.584235668182373,
      "learning_rate": 0.00014344141157342043,
      "loss": 1.5268,
      "step": 60844
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5875705480575562,
      "learning_rate": 0.00014343249570004886,
      "loss": 1.4494,
      "step": 60845
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.582927942276001,
      "learning_rate": 0.00014342358001672727,
      "loss": 1.5341,
      "step": 60846
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5953471064567566,
      "learning_rate": 0.00014341466452346638,
      "loss": 1.512,
      "step": 60847
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5863555669784546,
      "learning_rate": 0.00014340574922027692,
      "loss": 1.5285,
      "step": 60848
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5981997847557068,
      "learning_rate": 0.00014339683410716992,
      "loss": 1.553,
      "step": 60849
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5855907797813416,
      "learning_rate": 0.0001433879191841561,
      "loss": 1.566,
      "step": 60850
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6027488112449646,
      "learning_rate": 0.00014337900445124616,
      "loss": 1.5272,
      "step": 60851
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6197150945663452,
      "learning_rate": 0.000143370089908451,
      "loss": 1.651,
      "step": 60852
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5829311013221741,
      "learning_rate": 0.0001433611755557816,
      "loss": 1.5428,
      "step": 60853
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.574903666973114,
      "learning_rate": 0.00014335226139324865,
      "loss": 1.509,
      "step": 60854
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5715929865837097,
      "learning_rate": 0.00014334334742086284,
      "loss": 1.5222,
      "step": 60855
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5685958862304688,
      "learning_rate": 0.0001433344336386353,
      "loss": 1.5434,
      "step": 60856
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5836498737335205,
      "learning_rate": 0.00014332552004657663,
      "loss": 1.5269,
      "step": 60857
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.6069263219833374,
      "learning_rate": 0.00014331660664469758,
      "loss": 1.63,
      "step": 60858
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5898182988166809,
      "learning_rate": 0.0001433076934330092,
      "loss": 1.488,
      "step": 60859
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5744949579238892,
      "learning_rate": 0.0001432987804115221,
      "loss": 1.5397,
      "step": 60860
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5886421203613281,
      "learning_rate": 0.00014328986758024726,
      "loss": 1.5575,
      "step": 60861
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5722492933273315,
      "learning_rate": 0.00014328095493919534,
      "loss": 1.5315,
      "step": 60862
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5901674032211304,
      "learning_rate": 0.00014327204248837735,
      "loss": 1.5622,
      "step": 60863
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5835444331169128,
      "learning_rate": 0.00014326313022780402,
      "loss": 1.5333,
      "step": 60864
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.5962095260620117,
      "learning_rate": 0.00014325421815748608,
      "loss": 1.594,
      "step": 60865
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.583419919013977,
      "learning_rate": 0.00014324530627743447,
      "loss": 1.5769,
      "step": 60866
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5748687982559204,
      "learning_rate": 0.0001432363945876599,
      "loss": 1.5257,
      "step": 60867
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5919739603996277,
      "learning_rate": 0.00014322748308817334,
      "loss": 1.5354,
      "step": 60868
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5836014747619629,
      "learning_rate": 0.0001432185717789855,
      "loss": 1.5371,
      "step": 60869
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.578944742679596,
      "learning_rate": 0.00014320966066010715,
      "loss": 1.6245,
      "step": 60870
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5851569771766663,
      "learning_rate": 0.00014320074973154923,
      "loss": 1.5426,
      "step": 60871
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5843722224235535,
      "learning_rate": 0.00014319183899332244,
      "loss": 1.5055,
      "step": 60872
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5888891816139221,
      "learning_rate": 0.00014318292844543772,
      "loss": 1.5745,
      "step": 60873
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.590054452419281,
      "learning_rate": 0.0001431740180879057,
      "loss": 1.547,
      "step": 60874
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5877657532691956,
      "learning_rate": 0.00014316510792073745,
      "loss": 1.6116,
      "step": 60875
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5804222226142883,
      "learning_rate": 0.00014315619794394365,
      "loss": 1.5688,
      "step": 60876
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5712937712669373,
      "learning_rate": 0.000143147288157535,
      "loss": 1.5196,
      "step": 60877
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.569354772567749,
      "learning_rate": 0.00014313837856152253,
      "loss": 1.5259,
      "step": 60878
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5908221006393433,
      "learning_rate": 0.00014312946915591697,
      "loss": 1.5122,
      "step": 60879
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5930619835853577,
      "learning_rate": 0.000143120559940729,
      "loss": 1.5147,
      "step": 60880
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5743688344955444,
      "learning_rate": 0.00014311165091596958,
      "loss": 1.5728,
      "step": 60881
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.580420732498169,
      "learning_rate": 0.0001431027420816496,
      "loss": 1.4896,
      "step": 60882
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5704289674758911,
      "learning_rate": 0.00014309383343777976,
      "loss": 1.5445,
      "step": 60883
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5809133648872375,
      "learning_rate": 0.00014308492498437078,
      "loss": 1.5854,
      "step": 60884
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5913004279136658,
      "learning_rate": 0.00014307601672143368,
      "loss": 1.6366,
      "step": 60885
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5833810567855835,
      "learning_rate": 0.00014306710864897922,
      "loss": 1.5402,
      "step": 60886
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5926074981689453,
      "learning_rate": 0.00014305820076701803,
      "loss": 1.4287,
      "step": 60887
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5876587629318237,
      "learning_rate": 0.00014304929307556104,
      "loss": 1.5503,
      "step": 60888
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5711167454719543,
      "learning_rate": 0.00014304038557461917,
      "loss": 1.5972,
      "step": 60889
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6112315058708191,
      "learning_rate": 0.0001430314782642032,
      "loss": 1.6073,
      "step": 60890
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5707736015319824,
      "learning_rate": 0.00014302257114432378,
      "loss": 1.5333,
      "step": 60891
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5801253318786621,
      "learning_rate": 0.00014301366421499192,
      "loss": 1.5427,
      "step": 60892
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5585097670555115,
      "learning_rate": 0.00014300475747621835,
      "loss": 1.5299,
      "step": 60893
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5539371371269226,
      "learning_rate": 0.00014299585092801374,
      "loss": 1.5059,
      "step": 60894
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5904096961021423,
      "learning_rate": 0.00014298694457038903,
      "loss": 1.5276,
      "step": 60895
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5745941996574402,
      "learning_rate": 0.0001429780384033552,
      "loss": 1.5801,
      "step": 60896
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5762885212898254,
      "learning_rate": 0.00014296913242692281,
      "loss": 1.5512,
      "step": 60897
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5793329477310181,
      "learning_rate": 0.00014296022664110272,
      "loss": 1.631,
      "step": 60898
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5772995352745056,
      "learning_rate": 0.00014295132104590584,
      "loss": 1.5037,
      "step": 60899
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.593377411365509,
      "learning_rate": 0.00014294241564134292,
      "loss": 1.5832,
      "step": 60900
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5815404057502747,
      "learning_rate": 0.00014293351042742467,
      "loss": 1.4885,
      "step": 60901
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5765565633773804,
      "learning_rate": 0.000142924605404162,
      "loss": 1.4951,
      "step": 60902
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5764725208282471,
      "learning_rate": 0.00014291570057156582,
      "loss": 1.5973,
      "step": 60903
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5845681428909302,
      "learning_rate": 0.00014290679592964683,
      "loss": 1.552,
      "step": 60904
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5854375958442688,
      "learning_rate": 0.00014289789147841573,
      "loss": 1.5119,
      "step": 60905
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5666391849517822,
      "learning_rate": 0.00014288898721788356,
      "loss": 1.4772,
      "step": 60906
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5675256848335266,
      "learning_rate": 0.00014288008314806104,
      "loss": 1.5229,
      "step": 60907
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5852867364883423,
      "learning_rate": 0.0001428711792689588,
      "loss": 1.6163,
      "step": 60908
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5853996872901917,
      "learning_rate": 0.0001428622755805879,
      "loss": 1.5048,
      "step": 60909
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5810940265655518,
      "learning_rate": 0.00014285337208295898,
      "loss": 1.5083,
      "step": 60910
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5686740875244141,
      "learning_rate": 0.00014284446877608296,
      "loss": 1.6055,
      "step": 60911
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5904678106307983,
      "learning_rate": 0.00014283556565997053,
      "loss": 1.5228,
      "step": 60912
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6052692532539368,
      "learning_rate": 0.00014282666273463267,
      "loss": 1.6123,
      "step": 60913
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5925569534301758,
      "learning_rate": 0.00014281776000008007,
      "loss": 1.5336,
      "step": 60914
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5971165895462036,
      "learning_rate": 0.00014280885745632344,
      "loss": 1.5323,
      "step": 60915
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6011453866958618,
      "learning_rate": 0.00014279995510337384,
      "loss": 1.5508,
      "step": 60916
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.598081648349762,
      "learning_rate": 0.00014279105294124177,
      "loss": 1.6548,
      "step": 60917
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5717010498046875,
      "learning_rate": 0.00014278215096993834,
      "loss": 1.4299,
      "step": 60918
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6089749336242676,
      "learning_rate": 0.00014277324918947421,
      "loss": 1.4781,
      "step": 60919
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5800566673278809,
      "learning_rate": 0.0001427643475998601,
      "loss": 1.5035,
      "step": 60920
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5816954970359802,
      "learning_rate": 0.00014275544620110699,
      "loss": 1.5638,
      "step": 60921
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6145840287208557,
      "learning_rate": 0.00014274654499322548,
      "loss": 1.5721,
      "step": 60922
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5851657390594482,
      "learning_rate": 0.0001427376439762266,
      "loss": 1.5598,
      "step": 60923
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5926775336265564,
      "learning_rate": 0.00014272874315012098,
      "loss": 1.5827,
      "step": 60924
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5727323889732361,
      "learning_rate": 0.0001427198425149196,
      "loss": 1.5143,
      "step": 60925
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5825053453445435,
      "learning_rate": 0.00014271094207063309,
      "loss": 1.491,
      "step": 60926
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5682804584503174,
      "learning_rate": 0.00014270204181727228,
      "loss": 1.5492,
      "step": 60927
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.599837601184845,
      "learning_rate": 0.00014269314175484812,
      "loss": 1.5419,
      "step": 60928
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5847638249397278,
      "learning_rate": 0.00014268424188337115,
      "loss": 1.5483,
      "step": 60929
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5943552255630493,
      "learning_rate": 0.0001426753422028525,
      "loss": 1.5363,
      "step": 60930
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6093810796737671,
      "learning_rate": 0.00014266644271330263,
      "loss": 1.6113,
      "step": 60931
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5849567651748657,
      "learning_rate": 0.00014265754341473265,
      "loss": 1.5191,
      "step": 60932
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6528927087783813,
      "learning_rate": 0.00014264864430715325,
      "loss": 1.6009,
      "step": 60933
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5864879488945007,
      "learning_rate": 0.0001426397453905751,
      "loss": 1.5931,
      "step": 60934
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5812518000602722,
      "learning_rate": 0.00014263084666500921,
      "loss": 1.5288,
      "step": 60935
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.568835973739624,
      "learning_rate": 0.00014262194813046628,
      "loss": 1.5425,
      "step": 60936
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.598376989364624,
      "learning_rate": 0.000142613049786957,
      "loss": 1.5626,
      "step": 60937
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5892943143844604,
      "learning_rate": 0.00014260415163449232,
      "loss": 1.5477,
      "step": 60938
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.600753903388977,
      "learning_rate": 0.0001425952536730831,
      "loss": 1.5978,
      "step": 60939
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5750929713249207,
      "learning_rate": 0.00014258635590274005,
      "loss": 1.5517,
      "step": 60940
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5886017680168152,
      "learning_rate": 0.00014257745832347386,
      "loss": 1.6108,
      "step": 60941
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6167882084846497,
      "learning_rate": 0.00014256856093529554,
      "loss": 1.5605,
      "step": 60942
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.572313666343689,
      "learning_rate": 0.0001425596637382158,
      "loss": 1.508,
      "step": 60943
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5695440769195557,
      "learning_rate": 0.00014255076673224534,
      "loss": 1.4908,
      "step": 60944
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5900560021400452,
      "learning_rate": 0.000142541869917395,
      "loss": 1.5838,
      "step": 60945
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.594445526599884,
      "learning_rate": 0.00014253297329367592,
      "loss": 1.6457,
      "step": 60946
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.582004189491272,
      "learning_rate": 0.00014252407686109832,
      "loss": 1.5613,
      "step": 60947
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.610016405582428,
      "learning_rate": 0.00014251518061967334,
      "loss": 1.568,
      "step": 60948
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5789610147476196,
      "learning_rate": 0.0001425062845694118,
      "loss": 1.4999,
      "step": 60949
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5752702951431274,
      "learning_rate": 0.00014249738871032445,
      "loss": 1.5904,
      "step": 60950
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.574895977973938,
      "learning_rate": 0.00014248849304242193,
      "loss": 1.5105,
      "step": 60951
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5994197130203247,
      "learning_rate": 0.0001424795975657152,
      "loss": 1.6064,
      "step": 60952
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5732570290565491,
      "learning_rate": 0.00014247070228021522,
      "loss": 1.4928,
      "step": 60953
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.624312698841095,
      "learning_rate": 0.00014246180718593238,
      "loss": 1.5759,
      "step": 60954
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5760805606842041,
      "learning_rate": 0.0001424529122828777,
      "loss": 1.5073,
      "step": 60955
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5704706311225891,
      "learning_rate": 0.0001424440175710621,
      "loss": 1.5008,
      "step": 60956
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5918933153152466,
      "learning_rate": 0.00014243512305049623,
      "loss": 1.5303,
      "step": 60957
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6275715827941895,
      "learning_rate": 0.00014242622872119077,
      "loss": 1.5358,
      "step": 60958
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5900200605392456,
      "learning_rate": 0.0001424173345831567,
      "loss": 1.4976,
      "step": 60959
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5933030247688293,
      "learning_rate": 0.00014240844063640498,
      "loss": 1.4844,
      "step": 60960
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5683876872062683,
      "learning_rate": 0.00014239954688094594,
      "loss": 1.4827,
      "step": 60961
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5803534984588623,
      "learning_rate": 0.00014239065331679066,
      "loss": 1.4493,
      "step": 60962
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6019121408462524,
      "learning_rate": 0.00014238175994395,
      "loss": 1.654,
      "step": 60963
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.575124204158783,
      "learning_rate": 0.00014237286676243468,
      "loss": 1.5027,
      "step": 60964
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5789914131164551,
      "learning_rate": 0.0001423639737722553,
      "loss": 1.5786,
      "step": 60965
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5997830629348755,
      "learning_rate": 0.000142355080973423,
      "loss": 1.5634,
      "step": 60966
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5750349760055542,
      "learning_rate": 0.00014234618836594836,
      "loss": 1.5841,
      "step": 60967
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5814387202262878,
      "learning_rate": 0.0001423372959498422,
      "loss": 1.4814,
      "step": 60968
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5737555027008057,
      "learning_rate": 0.00014232840372511524,
      "loss": 1.5592,
      "step": 60969
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.595087468624115,
      "learning_rate": 0.0001423195116917785,
      "loss": 1.5568,
      "step": 60970
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6159542798995972,
      "learning_rate": 0.00014231061984984263,
      "loss": 1.5262,
      "step": 60971
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6183009743690491,
      "learning_rate": 0.00014230172819931834,
      "loss": 1.6316,
      "step": 60972
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6122620701789856,
      "learning_rate": 0.00014229283674021664,
      "loss": 1.5314,
      "step": 60973
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.618558943271637,
      "learning_rate": 0.00014228394547254817,
      "loss": 1.6006,
      "step": 60974
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5934150218963623,
      "learning_rate": 0.00014227505439632366,
      "loss": 1.5744,
      "step": 60975
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5767946243286133,
      "learning_rate": 0.00014226616351155406,
      "loss": 1.5568,
      "step": 60976
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5798900723457336,
      "learning_rate": 0.00014225727281825005,
      "loss": 1.5676,
      "step": 60977
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5801271796226501,
      "learning_rate": 0.00014224838231642254,
      "loss": 1.5549,
      "step": 60978
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.605483889579773,
      "learning_rate": 0.00014223949200608217,
      "loss": 1.5743,
      "step": 60979
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5636033415794373,
      "learning_rate": 0.0001422306018872399,
      "loss": 1.5077,
      "step": 60980
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5820406079292297,
      "learning_rate": 0.00014222171195990644,
      "loss": 1.5119,
      "step": 60981
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5915380716323853,
      "learning_rate": 0.00014221282222409248,
      "loss": 1.5228,
      "step": 60982
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5672931671142578,
      "learning_rate": 0.000142203932679809,
      "loss": 1.4955,
      "step": 60983
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5908471941947937,
      "learning_rate": 0.0001421950433270666,
      "loss": 1.5547,
      "step": 60984
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6278893947601318,
      "learning_rate": 0.00014218615416587623,
      "loss": 1.5726,
      "step": 60985
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6382508873939514,
      "learning_rate": 0.00014217726519624865,
      "loss": 1.653,
      "step": 60986
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6048485636711121,
      "learning_rate": 0.0001421683764181945,
      "loss": 1.5921,
      "step": 60987
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.575624942779541,
      "learning_rate": 0.0001421594878317248,
      "loss": 1.5488,
      "step": 60988
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5845457315444946,
      "learning_rate": 0.0001421505994368501,
      "loss": 1.4781,
      "step": 60989
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.594140887260437,
      "learning_rate": 0.00014214171123358142,
      "loss": 1.5566,
      "step": 60990
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5814245343208313,
      "learning_rate": 0.00014213282322192935,
      "loss": 1.6006,
      "step": 60991
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5805982351303101,
      "learning_rate": 0.0001421239354019049,
      "loss": 1.5202,
      "step": 60992
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.55210942029953,
      "learning_rate": 0.0001421150477735187,
      "loss": 1.5447,
      "step": 60993
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5795279145240784,
      "learning_rate": 0.00014210616033678147,
      "loss": 1.6036,
      "step": 60994
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.571428656578064,
      "learning_rate": 0.00014209727309170422,
      "loss": 1.6092,
      "step": 60995
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5837254524230957,
      "learning_rate": 0.00014208838603829761,
      "loss": 1.5779,
      "step": 60996
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5735737681388855,
      "learning_rate": 0.0001420794991765723,
      "loss": 1.4894,
      "step": 60997
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5719631910324097,
      "learning_rate": 0.00014207061250653922,
      "loss": 1.5919,
      "step": 60998
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5657705664634705,
      "learning_rate": 0.00014206172602820925,
      "loss": 1.4524,
      "step": 60999
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.582724392414093,
      "learning_rate": 0.00014205283974159312,
      "loss": 1.5263,
      "step": 61000
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6007832288742065,
      "learning_rate": 0.00014204395364670138,
      "loss": 1.5328,
      "step": 61001
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5726921558380127,
      "learning_rate": 0.00014203506774354517,
      "loss": 1.5942,
      "step": 61002
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.597999632358551,
      "learning_rate": 0.00014202618203213512,
      "loss": 1.5624,
      "step": 61003
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5567948818206787,
      "learning_rate": 0.0001420172965124819,
      "loss": 1.4416,
      "step": 61004
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6041221618652344,
      "learning_rate": 0.00014200841118459635,
      "loss": 1.5317,
      "step": 61005
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5846481919288635,
      "learning_rate": 0.00014199952604848946,
      "loss": 1.5915,
      "step": 61006
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5935654640197754,
      "learning_rate": 0.00014199064110417185,
      "loss": 1.5483,
      "step": 61007
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6051825881004333,
      "learning_rate": 0.00014198175635165425,
      "loss": 1.5962,
      "step": 61008
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5847352743148804,
      "learning_rate": 0.0001419728717909476,
      "loss": 1.5668,
      "step": 61009
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6081318855285645,
      "learning_rate": 0.00014196398742206257,
      "loss": 1.6063,
      "step": 61010
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5775082111358643,
      "learning_rate": 0.00014195510324500988,
      "loss": 1.5222,
      "step": 61011
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5775047540664673,
      "learning_rate": 0.00014194621925980042,
      "loss": 1.5512,
      "step": 61012
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5895791053771973,
      "learning_rate": 0.0001419373354664451,
      "loss": 1.4787,
      "step": 61013
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6020787358283997,
      "learning_rate": 0.0001419284518649545,
      "loss": 1.5444,
      "step": 61014
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6162324547767639,
      "learning_rate": 0.0001419195684553394,
      "loss": 1.5242,
      "step": 61015
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5867569446563721,
      "learning_rate": 0.00014191068523761077,
      "loss": 1.5799,
      "step": 61016
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5786241292953491,
      "learning_rate": 0.00014190180221177926,
      "loss": 1.575,
      "step": 61017
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5862728357315063,
      "learning_rate": 0.00014189291937785555,
      "loss": 1.625,
      "step": 61018
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5866274237632751,
      "learning_rate": 0.00014188403673585053,
      "loss": 1.5407,
      "step": 61019
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6004742980003357,
      "learning_rate": 0.00014187515428577515,
      "loss": 1.5106,
      "step": 61020
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5882218480110168,
      "learning_rate": 0.00014186627202763998,
      "loss": 1.5418,
      "step": 61021
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6115762591362,
      "learning_rate": 0.00014185738996145577,
      "loss": 1.5526,
      "step": 61022
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5935494899749756,
      "learning_rate": 0.0001418485080872335,
      "loss": 1.5958,
      "step": 61023
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5673675537109375,
      "learning_rate": 0.00014183962640498384,
      "loss": 1.5458,
      "step": 61024
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5613250732421875,
      "learning_rate": 0.00014183074491471746,
      "loss": 1.5504,
      "step": 61025
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5855517387390137,
      "learning_rate": 0.00014182186361644535,
      "loss": 1.611,
      "step": 61026
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6083806753158569,
      "learning_rate": 0.0001418129825101781,
      "loss": 1.4496,
      "step": 61027
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6073474884033203,
      "learning_rate": 0.00014180410159592664,
      "loss": 1.5472,
      "step": 61028
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5684047937393188,
      "learning_rate": 0.00014179522087370163,
      "loss": 1.5616,
      "step": 61029
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5802165269851685,
      "learning_rate": 0.000141786340343514,
      "loss": 1.5772,
      "step": 61030
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5945298075675964,
      "learning_rate": 0.00014177746000537447,
      "loss": 1.5647,
      "step": 61031
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5739427804946899,
      "learning_rate": 0.00014176857985929365,
      "loss": 1.544,
      "step": 61032
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5850974321365356,
      "learning_rate": 0.00014175969990528258,
      "loss": 1.5174,
      "step": 61033
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6029250621795654,
      "learning_rate": 0.00014175082014335184,
      "loss": 1.5238,
      "step": 61034
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5956010222434998,
      "learning_rate": 0.00014174194057351236,
      "loss": 1.5711,
      "step": 61035
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5988205075263977,
      "learning_rate": 0.00014173306119577483,
      "loss": 1.5223,
      "step": 61036
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5679747462272644,
      "learning_rate": 0.00014172418201014998,
      "loss": 1.55,
      "step": 61037
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5665913224220276,
      "learning_rate": 0.00014171530301664874,
      "loss": 1.5143,
      "step": 61038
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6101487874984741,
      "learning_rate": 0.00014170642421528168,
      "loss": 1.6031,
      "step": 61039
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5781950950622559,
      "learning_rate": 0.00014169754560605983,
      "loss": 1.4899,
      "step": 61040
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5841185450553894,
      "learning_rate": 0.0001416886671889937,
      "loss": 1.5212,
      "step": 61041
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.591184139251709,
      "learning_rate": 0.00014167978896409433,
      "loss": 1.5441,
      "step": 61042
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5929335951805115,
      "learning_rate": 0.00014167091093137237,
      "loss": 1.5539,
      "step": 61043
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5850038528442383,
      "learning_rate": 0.00014166203309083845,
      "loss": 1.4885,
      "step": 61044
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5921012759208679,
      "learning_rate": 0.00014165315544250367,
      "loss": 1.5532,
      "step": 61045
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6007187962532043,
      "learning_rate": 0.00014164427798637845,
      "loss": 1.5194,
      "step": 61046
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5977027416229248,
      "learning_rate": 0.00014163540072247388,
      "loss": 1.5877,
      "step": 61047
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5848782658576965,
      "learning_rate": 0.0001416265236508005,
      "loss": 1.5719,
      "step": 61048
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5961991548538208,
      "learning_rate": 0.00014161764677136929,
      "loss": 1.5575,
      "step": 61049
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6144083142280579,
      "learning_rate": 0.0001416087700841909,
      "loss": 1.515,
      "step": 61050
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.579327404499054,
      "learning_rate": 0.00014159989358927604,
      "loss": 1.5712,
      "step": 61051
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5961076021194458,
      "learning_rate": 0.00014159101728663569,
      "loss": 1.5723,
      "step": 61052
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5878974199295044,
      "learning_rate": 0.0001415821411762805,
      "loss": 1.5906,
      "step": 61053
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.591029942035675,
      "learning_rate": 0.0001415732652582211,
      "loss": 1.548,
      "step": 61054
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5771254301071167,
      "learning_rate": 0.00014156438953246846,
      "loss": 1.5279,
      "step": 61055
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5780066847801208,
      "learning_rate": 0.00014155551399903338,
      "loss": 1.5207,
      "step": 61056
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5769676566123962,
      "learning_rate": 0.00014154663865792658,
      "loss": 1.5433,
      "step": 61057
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5794462561607361,
      "learning_rate": 0.00014153776350915868,
      "loss": 1.5287,
      "step": 61058
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5740309357643127,
      "learning_rate": 0.00014152888855274072,
      "loss": 1.4987,
      "step": 61059
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5929826498031616,
      "learning_rate": 0.00014152001378868334,
      "loss": 1.5574,
      "step": 61060
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5721786022186279,
      "learning_rate": 0.0001415111392169972,
      "loss": 1.5237,
      "step": 61061
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5978543162345886,
      "learning_rate": 0.00014150226483769317,
      "loss": 1.5534,
      "step": 61062
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5886849164962769,
      "learning_rate": 0.0001414933906507823,
      "loss": 1.5196,
      "step": 61063
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6211658120155334,
      "learning_rate": 0.00014148451665627485,
      "loss": 1.6444,
      "step": 61064
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5825844407081604,
      "learning_rate": 0.00014147564285418182,
      "loss": 1.6171,
      "step": 61065
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5865525007247925,
      "learning_rate": 0.00014146676924451415,
      "loss": 1.6076,
      "step": 61066
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5953140258789062,
      "learning_rate": 0.00014145789582728244,
      "loss": 1.541,
      "step": 61067
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5841414332389832,
      "learning_rate": 0.00014144902260249735,
      "loss": 1.58,
      "step": 61068
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5978440642356873,
      "learning_rate": 0.00014144014957016984,
      "loss": 1.5451,
      "step": 61069
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5831868648529053,
      "learning_rate": 0.00014143127673031083,
      "loss": 1.5942,
      "step": 61070
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5850777626037598,
      "learning_rate": 0.00014142240408293065,
      "loss": 1.531,
      "step": 61071
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5775056481361389,
      "learning_rate": 0.00014141353162804032,
      "loss": 1.5648,
      "step": 61072
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5864905118942261,
      "learning_rate": 0.0001414046593656507,
      "loss": 1.6037,
      "step": 61073
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5632727146148682,
      "learning_rate": 0.00014139578729577244,
      "loss": 1.5563,
      "step": 61074
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6056336164474487,
      "learning_rate": 0.00014138691541841625,
      "loss": 1.4965,
      "step": 61075
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5553056597709656,
      "learning_rate": 0.00014137804373359295,
      "loss": 1.5828,
      "step": 61076
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5767635107040405,
      "learning_rate": 0.00014136917224131355,
      "loss": 1.5487,
      "step": 61077
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.58352130651474,
      "learning_rate": 0.0001413603009415884,
      "loss": 1.5136,
      "step": 61078
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.579961359500885,
      "learning_rate": 0.00014135142983442842,
      "loss": 1.5541,
      "step": 61079
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5843340754508972,
      "learning_rate": 0.0001413425589198446,
      "loss": 1.4884,
      "step": 61080
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5636902451515198,
      "learning_rate": 0.0001413336881978475,
      "loss": 1.5026,
      "step": 61081
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5983821749687195,
      "learning_rate": 0.00014132481766844783,
      "loss": 1.4869,
      "step": 61082
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5786228179931641,
      "learning_rate": 0.00014131594733165657,
      "loss": 1.5315,
      "step": 61083
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5763940811157227,
      "learning_rate": 0.00014130707718748437,
      "loss": 1.5076,
      "step": 61084
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5695481896400452,
      "learning_rate": 0.00014129820723594188,
      "loss": 1.5999,
      "step": 61085
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6078994870185852,
      "learning_rate": 0.00014128933747703995,
      "loss": 1.5472,
      "step": 61086
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5866411924362183,
      "learning_rate": 0.00014128046791078952,
      "loss": 1.5376,
      "step": 61087
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5730714797973633,
      "learning_rate": 0.00014127159853720122,
      "loss": 1.4962,
      "step": 61088
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.579637348651886,
      "learning_rate": 0.0001412627293562857,
      "loss": 1.5434,
      "step": 61089
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5962866544723511,
      "learning_rate": 0.00014125386036805394,
      "loss": 1.551,
      "step": 61090
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6002262234687805,
      "learning_rate": 0.00014124499157251662,
      "loss": 1.6026,
      "step": 61091
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5869527459144592,
      "learning_rate": 0.00014123612296968434,
      "loss": 1.4816,
      "step": 61092
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5786144733428955,
      "learning_rate": 0.00014122725455956815,
      "loss": 1.5578,
      "step": 61093
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5754374861717224,
      "learning_rate": 0.00014121838634217855,
      "loss": 1.5901,
      "step": 61094
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5867233872413635,
      "learning_rate": 0.0001412095183175266,
      "loss": 1.5955,
      "step": 61095
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6074502468109131,
      "learning_rate": 0.0001412006504856227,
      "loss": 1.5008,
      "step": 61096
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5794510841369629,
      "learning_rate": 0.00014119178284647797,
      "loss": 1.5677,
      "step": 61097
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5748376250267029,
      "learning_rate": 0.00014118291540010303,
      "loss": 1.5722,
      "step": 61098
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5675244331359863,
      "learning_rate": 0.0001411740481465085,
      "loss": 1.5043,
      "step": 61099
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5872417688369751,
      "learning_rate": 0.00014116518108570539,
      "loss": 1.4656,
      "step": 61100
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5654861330986023,
      "learning_rate": 0.00014115631421770427,
      "loss": 1.5555,
      "step": 61101
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5917717218399048,
      "learning_rate": 0.00014114744754251604,
      "loss": 1.5648,
      "step": 61102
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6057725548744202,
      "learning_rate": 0.0001411385810601514,
      "loss": 1.4847,
      "step": 61103
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5882219672203064,
      "learning_rate": 0.00014112971477062104,
      "loss": 1.548,
      "step": 61104
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5783341526985168,
      "learning_rate": 0.0001411208486739359,
      "loss": 1.6095,
      "step": 61105
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.573074996471405,
      "learning_rate": 0.00014111198277010653,
      "loss": 1.5519,
      "step": 61106
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5736933946609497,
      "learning_rate": 0.0001411031170591439,
      "loss": 1.537,
      "step": 61107
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.594375729560852,
      "learning_rate": 0.00014109425154105857,
      "loss": 1.5746,
      "step": 61108
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5807742476463318,
      "learning_rate": 0.0001410853862158615,
      "loss": 1.5113,
      "step": 61109
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5763722658157349,
      "learning_rate": 0.00014107652108356339,
      "loss": 1.5434,
      "step": 61110
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5532864332199097,
      "learning_rate": 0.0001410676561441748,
      "loss": 1.4965,
      "step": 61111
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5840816497802734,
      "learning_rate": 0.00014105879139770684,
      "loss": 1.5701,
      "step": 61112
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5930343270301819,
      "learning_rate": 0.00014104992684417004,
      "loss": 1.5587,
      "step": 61113
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5890006422996521,
      "learning_rate": 0.00014104106248357512,
      "loss": 1.5419,
      "step": 61114
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5771215558052063,
      "learning_rate": 0.00014103219831593293,
      "loss": 1.486,
      "step": 61115
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5784083604812622,
      "learning_rate": 0.0001410233343412543,
      "loss": 1.5149,
      "step": 61116
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5812080502510071,
      "learning_rate": 0.00014101447055954997,
      "loss": 1.5389,
      "step": 61117
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5746655464172363,
      "learning_rate": 0.0001410056069708305,
      "loss": 1.5566,
      "step": 61118
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5938612818717957,
      "learning_rate": 0.00014099674357510695,
      "loss": 1.5023,
      "step": 61119
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5874431133270264,
      "learning_rate": 0.0001409878803723899,
      "loss": 1.5711,
      "step": 61120
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5891844630241394,
      "learning_rate": 0.00014097901736269,
      "loss": 1.5484,
      "step": 61121
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.596743106842041,
      "learning_rate": 0.00014097015454601815,
      "loss": 1.571,
      "step": 61122
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5638883709907532,
      "learning_rate": 0.0001409612919223852,
      "loss": 1.5361,
      "step": 61123
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5821065902709961,
      "learning_rate": 0.00014095242949180187,
      "loss": 1.6155,
      "step": 61124
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.60855633020401,
      "learning_rate": 0.0001409435672542787,
      "loss": 1.5684,
      "step": 61125
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5962252616882324,
      "learning_rate": 0.0001409347052098267,
      "loss": 1.5548,
      "step": 61126
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5860798358917236,
      "learning_rate": 0.00014092584335845655,
      "loss": 1.4957,
      "step": 61127
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5954315066337585,
      "learning_rate": 0.0001409169817001789,
      "loss": 1.6122,
      "step": 61128
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5774510502815247,
      "learning_rate": 0.00014090812023500457,
      "loss": 1.5152,
      "step": 61129
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5897796750068665,
      "learning_rate": 0.00014089925896294448,
      "loss": 1.5538,
      "step": 61130
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6103484630584717,
      "learning_rate": 0.0001408903978840092,
      "loss": 1.5208,
      "step": 61131
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5852476358413696,
      "learning_rate": 0.00014088153699820944,
      "loss": 1.5551,
      "step": 61132
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5952847599983215,
      "learning_rate": 0.00014087267630555616,
      "loss": 1.6027,
      "step": 61133
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6296635866165161,
      "learning_rate": 0.00014086381580606002,
      "loss": 1.5591,
      "step": 61134
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5830409526824951,
      "learning_rate": 0.00014085495549973163,
      "loss": 1.5215,
      "step": 61135
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6292624473571777,
      "learning_rate": 0.0001408460953865819,
      "loss": 1.6171,
      "step": 61136
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6064774990081787,
      "learning_rate": 0.00014083723546662164,
      "loss": 1.542,
      "step": 61137
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6083348393440247,
      "learning_rate": 0.00014082837573986155,
      "loss": 1.5595,
      "step": 61138
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5825453400611877,
      "learning_rate": 0.00014081951620631221,
      "loss": 1.5481,
      "step": 61139
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5739216804504395,
      "learning_rate": 0.00014081065686598468,
      "loss": 1.5508,
      "step": 61140
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5656899809837341,
      "learning_rate": 0.00014080179771888956,
      "loss": 1.467,
      "step": 61141
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5873944759368896,
      "learning_rate": 0.00014079293876503746,
      "loss": 1.5394,
      "step": 61142
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5750248432159424,
      "learning_rate": 0.00014078408000443938,
      "loss": 1.5433,
      "step": 61143
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5717779994010925,
      "learning_rate": 0.00014077522143710587,
      "loss": 1.6139,
      "step": 61144
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5863358974456787,
      "learning_rate": 0.0001407663630630479,
      "loss": 1.5707,
      "step": 61145
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.602884829044342,
      "learning_rate": 0.00014075750488227597,
      "loss": 1.5859,
      "step": 61146
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6294217109680176,
      "learning_rate": 0.00014074864689480107,
      "loss": 1.5523,
      "step": 61147
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5721962451934814,
      "learning_rate": 0.0001407397891006339,
      "loss": 1.5586,
      "step": 61148
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5713294148445129,
      "learning_rate": 0.000140730931499785,
      "loss": 1.5902,
      "step": 61149
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5873163342475891,
      "learning_rate": 0.00014072207409226542,
      "loss": 1.5691,
      "step": 61150
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5797209739685059,
      "learning_rate": 0.00014071321687808566,
      "loss": 1.5259,
      "step": 61151
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5791236758232117,
      "learning_rate": 0.00014070435985725666,
      "loss": 1.547,
      "step": 61152
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6073280572891235,
      "learning_rate": 0.00014069550302978914,
      "loss": 1.5172,
      "step": 61153
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.61626797914505,
      "learning_rate": 0.0001406866463956937,
      "loss": 1.6636,
      "step": 61154
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5814656615257263,
      "learning_rate": 0.00014067778995498128,
      "loss": 1.5098,
      "step": 61155
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5914899706840515,
      "learning_rate": 0.00014066893370766245,
      "loss": 1.6019,
      "step": 61156
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5946173667907715,
      "learning_rate": 0.00014066007765374815,
      "loss": 1.6007,
      "step": 61157
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5755511522293091,
      "learning_rate": 0.00014065122179324896,
      "loss": 1.5225,
      "step": 61158
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5807989835739136,
      "learning_rate": 0.00014064236612617578,
      "loss": 1.4917,
      "step": 61159
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5625401139259338,
      "learning_rate": 0.00014063351065253933,
      "loss": 1.4847,
      "step": 61160
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6017927527427673,
      "learning_rate": 0.00014062465537235017,
      "loss": 1.5698,
      "step": 61161
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5542410612106323,
      "learning_rate": 0.00014061580028561932,
      "loss": 1.5568,
      "step": 61162
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6026230454444885,
      "learning_rate": 0.00014060694539235743,
      "loss": 1.5296,
      "step": 61163
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.5968137383460999,
      "learning_rate": 0.00014059809069257506,
      "loss": 1.6025,
      "step": 61164
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.6057580709457397,
      "learning_rate": 0.00014058923618628314,
      "loss": 1.5624,
      "step": 61165
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5943808555603027,
      "learning_rate": 0.00014058038187349253,
      "loss": 1.5525,
      "step": 61166
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5883657336235046,
      "learning_rate": 0.00014057152775421382,
      "loss": 1.5476,
      "step": 61167
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6066243052482605,
      "learning_rate": 0.0001405626738284577,
      "loss": 1.4979,
      "step": 61168
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5761428475379944,
      "learning_rate": 0.0001405538200962351,
      "loss": 1.5035,
      "step": 61169
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6247969269752502,
      "learning_rate": 0.0001405449665575567,
      "loss": 1.5484,
      "step": 61170
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5825797319412231,
      "learning_rate": 0.00014053611321243308,
      "loss": 1.6389,
      "step": 61171
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5985458493232727,
      "learning_rate": 0.0001405272600608751,
      "loss": 1.61,
      "step": 61172
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5898687839508057,
      "learning_rate": 0.00014051840710289364,
      "loss": 1.5343,
      "step": 61173
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.576980471611023,
      "learning_rate": 0.00014050955433849937,
      "loss": 1.5106,
      "step": 61174
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5941763520240784,
      "learning_rate": 0.0001405007017677029,
      "loss": 1.5758,
      "step": 61175
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5947878956794739,
      "learning_rate": 0.00014049184939051514,
      "loss": 1.5978,
      "step": 61176
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5966700911521912,
      "learning_rate": 0.0001404829972069468,
      "loss": 1.4856,
      "step": 61177
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5789642333984375,
      "learning_rate": 0.00014047414521700847,
      "loss": 1.5564,
      "step": 61178
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5693711042404175,
      "learning_rate": 0.00014046529342071103,
      "loss": 1.5133,
      "step": 61179
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6009052991867065,
      "learning_rate": 0.00014045644181806543,
      "loss": 1.5618,
      "step": 61180
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5844252109527588,
      "learning_rate": 0.000140447590409082,
      "loss": 1.4529,
      "step": 61181
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5705761909484863,
      "learning_rate": 0.00014043873919377168,
      "loss": 1.5127,
      "step": 61182
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5697015523910522,
      "learning_rate": 0.00014042988817214533,
      "loss": 1.5288,
      "step": 61183
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.589074432849884,
      "learning_rate": 0.0001404210373442136,
      "loss": 1.5814,
      "step": 61184
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5940884947776794,
      "learning_rate": 0.0001404121867099871,
      "loss": 1.5987,
      "step": 61185
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5760919451713562,
      "learning_rate": 0.00014040333626947666,
      "loss": 1.5063,
      "step": 61186
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5845590829849243,
      "learning_rate": 0.0001403944860226933,
      "loss": 1.5671,
      "step": 61187
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.579804539680481,
      "learning_rate": 0.00014038563596964728,
      "loss": 1.5305,
      "step": 61188
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5844473242759705,
      "learning_rate": 0.0001403767861103496,
      "loss": 1.5792,
      "step": 61189
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5756589770317078,
      "learning_rate": 0.0001403679364448111,
      "loss": 1.519,
      "step": 61190
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5956630706787109,
      "learning_rate": 0.0001403590869730424,
      "loss": 1.5095,
      "step": 61191
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5989563465118408,
      "learning_rate": 0.00014035023769505412,
      "loss": 1.5643,
      "step": 61192
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5776037573814392,
      "learning_rate": 0.00014034138861085716,
      "loss": 1.5273,
      "step": 61193
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5808738470077515,
      "learning_rate": 0.00014033253972046243,
      "loss": 1.5458,
      "step": 61194
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5781949162483215,
      "learning_rate": 0.0001403236910238802,
      "loss": 1.584,
      "step": 61195
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5920688509941101,
      "learning_rate": 0.00014031484252112155,
      "loss": 1.582,
      "step": 61196
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5731627941131592,
      "learning_rate": 0.00014030599421219726,
      "loss": 1.5115,
      "step": 61197
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5838251113891602,
      "learning_rate": 0.00014029714609711794,
      "loss": 1.5968,
      "step": 61198
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5757464170455933,
      "learning_rate": 0.00014028829817589426,
      "loss": 1.509,
      "step": 61199
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5845947265625,
      "learning_rate": 0.00014027945044853713,
      "loss": 1.6212,
      "step": 61200
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5901558995246887,
      "learning_rate": 0.00014027060291505725,
      "loss": 1.5492,
      "step": 61201
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5818531513214111,
      "learning_rate": 0.0001402617555754652,
      "loss": 1.5184,
      "step": 61202
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5762704014778137,
      "learning_rate": 0.0001402529084297718,
      "loss": 1.5089,
      "step": 61203
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6002777218818665,
      "learning_rate": 0.00014024406147798802,
      "loss": 1.5801,
      "step": 61204
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5798987150192261,
      "learning_rate": 0.00014023521472012439,
      "loss": 1.5781,
      "step": 61205
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.582217276096344,
      "learning_rate": 0.0001402263681561915,
      "loss": 1.4994,
      "step": 61206
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.565641462802887,
      "learning_rate": 0.00014021752178620042,
      "loss": 1.4341,
      "step": 61207
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6036953926086426,
      "learning_rate": 0.0001402086756101617,
      "loss": 1.5659,
      "step": 61208
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5938040018081665,
      "learning_rate": 0.00014019982962808601,
      "loss": 1.4676,
      "step": 61209
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.570917546749115,
      "learning_rate": 0.0001401909838399843,
      "loss": 1.5561,
      "step": 61210
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5823624730110168,
      "learning_rate": 0.00014018213824586707,
      "loss": 1.5286,
      "step": 61211
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.596786379814148,
      "learning_rate": 0.00014017329284574527,
      "loss": 1.4982,
      "step": 61212
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5794060826301575,
      "learning_rate": 0.00014016444763962946,
      "loss": 1.5211,
      "step": 61213
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5762692093849182,
      "learning_rate": 0.00014015560262753058,
      "loss": 1.5475,
      "step": 61214
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5753517150878906,
      "learning_rate": 0.0001401467578094592,
      "loss": 1.5262,
      "step": 61215
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5914572477340698,
      "learning_rate": 0.00014013791318542604,
      "loss": 1.5864,
      "step": 61216
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6212257146835327,
      "learning_rate": 0.00014012906875544197,
      "loss": 1.5491,
      "step": 61217
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5991802215576172,
      "learning_rate": 0.00014012022451951757,
      "loss": 1.5591,
      "step": 61218
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5756664872169495,
      "learning_rate": 0.00014011138047766375,
      "loss": 1.5293,
      "step": 61219
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5941130518913269,
      "learning_rate": 0.00014010253662989118,
      "loss": 1.556,
      "step": 61220
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5969964265823364,
      "learning_rate": 0.00014009369297621045,
      "loss": 1.5719,
      "step": 61221
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.593565046787262,
      "learning_rate": 0.0001400848495166325,
      "loss": 1.5443,
      "step": 61222
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5756147503852844,
      "learning_rate": 0.0001400760062511679,
      "loss": 1.5963,
      "step": 61223
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6113282442092896,
      "learning_rate": 0.00014006716317982757,
      "loss": 1.6228,
      "step": 61224
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5744467973709106,
      "learning_rate": 0.00014005832030262202,
      "loss": 1.4966,
      "step": 61225
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.591925859451294,
      "learning_rate": 0.00014004947761956225,
      "loss": 1.5951,
      "step": 61226
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5956195592880249,
      "learning_rate": 0.00014004063513065878,
      "loss": 1.5353,
      "step": 61227
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5953087210655212,
      "learning_rate": 0.00014003179283592234,
      "loss": 1.568,
      "step": 61228
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5675175786018372,
      "learning_rate": 0.00014002295073536387,
      "loss": 1.6264,
      "step": 61229
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6342250108718872,
      "learning_rate": 0.00014001410882899393,
      "loss": 1.5172,
      "step": 61230
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5869550704956055,
      "learning_rate": 0.0001400052671168232,
      "loss": 1.5072,
      "step": 61231
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5925437808036804,
      "learning_rate": 0.00013999642559886245,
      "loss": 1.5837,
      "step": 61232
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5877792835235596,
      "learning_rate": 0.00013998758427512261,
      "loss": 1.5125,
      "step": 61233
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.588270366191864,
      "learning_rate": 0.0001399787431456143,
      "loss": 1.6179,
      "step": 61234
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5843169093132019,
      "learning_rate": 0.00013996990221034806,
      "loss": 1.5601,
      "step": 61235
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5867807269096375,
      "learning_rate": 0.00013996106146933488,
      "loss": 1.5017,
      "step": 61236
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5656023621559143,
      "learning_rate": 0.00013995222092258545,
      "loss": 1.5594,
      "step": 61237
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5655941367149353,
      "learning_rate": 0.00013994338057011027,
      "loss": 1.5216,
      "step": 61238
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5710540413856506,
      "learning_rate": 0.00013993454041192027,
      "loss": 1.5369,
      "step": 61239
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5949249863624573,
      "learning_rate": 0.00013992570044802627,
      "loss": 1.5985,
      "step": 61240
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5779167413711548,
      "learning_rate": 0.00013991686067843889,
      "loss": 1.5665,
      "step": 61241
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5905730724334717,
      "learning_rate": 0.0001399080211031687,
      "loss": 1.5438,
      "step": 61242
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6006793975830078,
      "learning_rate": 0.00013989918172222673,
      "loss": 1.5745,
      "step": 61243
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5809666514396667,
      "learning_rate": 0.00013989034253562358,
      "loss": 1.5464,
      "step": 61244
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5894094109535217,
      "learning_rate": 0.0001398815035433698,
      "loss": 1.6291,
      "step": 61245
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5694369077682495,
      "learning_rate": 0.0001398726647454763,
      "loss": 1.5608,
      "step": 61246
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5905442237854004,
      "learning_rate": 0.00013986382614195395,
      "loss": 1.6256,
      "step": 61247
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5833274126052856,
      "learning_rate": 0.00013985498773281328,
      "loss": 1.5686,
      "step": 61248
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6080436706542969,
      "learning_rate": 0.00013984614951806495,
      "loss": 1.5746,
      "step": 61249
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5864866375923157,
      "learning_rate": 0.0001398373114977199,
      "loss": 1.5915,
      "step": 61250
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5748905539512634,
      "learning_rate": 0.0001398284736717888,
      "loss": 1.5763,
      "step": 61251
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5660268068313599,
      "learning_rate": 0.00013981963604028217,
      "loss": 1.5408,
      "step": 61252
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5900492072105408,
      "learning_rate": 0.0001398107986032109,
      "loss": 1.5603,
      "step": 61253
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.595911979675293,
      "learning_rate": 0.00013980196136058586,
      "loss": 1.5823,
      "step": 61254
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5698723793029785,
      "learning_rate": 0.00013979312431241763,
      "loss": 1.5622,
      "step": 61255
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5751956701278687,
      "learning_rate": 0.0001397842874587168,
      "loss": 1.5949,
      "step": 61256
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5879274010658264,
      "learning_rate": 0.00013977545079949438,
      "loss": 1.5339,
      "step": 61257
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5714954733848572,
      "learning_rate": 0.00013976661433476095,
      "loss": 1.4905,
      "step": 61258
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.589638888835907,
      "learning_rate": 0.00013975777806452712,
      "loss": 1.5216,
      "step": 61259
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5832412838935852,
      "learning_rate": 0.00013974894198880386,
      "loss": 1.5064,
      "step": 61260
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5980976819992065,
      "learning_rate": 0.00013974010610760167,
      "loss": 1.5489,
      "step": 61261
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6082663536071777,
      "learning_rate": 0.00013973127042093148,
      "loss": 1.5239,
      "step": 61262
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5719966888427734,
      "learning_rate": 0.00013972243492880378,
      "loss": 1.5626,
      "step": 61263
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5899221301078796,
      "learning_rate": 0.00013971359963122954,
      "loss": 1.5521,
      "step": 61264
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5998345613479614,
      "learning_rate": 0.00013970476452821942,
      "loss": 1.5556,
      "step": 61265
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5729125142097473,
      "learning_rate": 0.00013969592961978394,
      "loss": 1.5784,
      "step": 61266
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5992017984390259,
      "learning_rate": 0.00013968709490593412,
      "loss": 1.5124,
      "step": 61267
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5900601148605347,
      "learning_rate": 0.00013967826038668044,
      "loss": 1.6102,
      "step": 61268
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5633809566497803,
      "learning_rate": 0.0001396694260620338,
      "loss": 1.5237,
      "step": 61269
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5723434090614319,
      "learning_rate": 0.00013966059193200488,
      "loss": 1.5455,
      "step": 61270
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5818871855735779,
      "learning_rate": 0.00013965175799660425,
      "loss": 1.5343,
      "step": 61271
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5831676721572876,
      "learning_rate": 0.0001396429242558429,
      "loss": 1.5569,
      "step": 61272
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5930078029632568,
      "learning_rate": 0.00013963409070973128,
      "loss": 1.5498,
      "step": 61273
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5695044994354248,
      "learning_rate": 0.00013962525735828035,
      "loss": 1.5914,
      "step": 61274
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5923649072647095,
      "learning_rate": 0.00013961642420150063,
      "loss": 1.6192,
      "step": 61275
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5791229605674744,
      "learning_rate": 0.00013960759123940304,
      "loss": 1.5784,
      "step": 61276
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5779981017112732,
      "learning_rate": 0.00013959875847199823,
      "loss": 1.5385,
      "step": 61277
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5696340799331665,
      "learning_rate": 0.00013958992589929676,
      "loss": 1.5619,
      "step": 61278
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5819134712219238,
      "learning_rate": 0.00013958109352130957,
      "loss": 1.5469,
      "step": 61279
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5712284445762634,
      "learning_rate": 0.00013957226133804736,
      "loss": 1.5594,
      "step": 61280
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.580737292766571,
      "learning_rate": 0.00013956342934952064,
      "loss": 1.5281,
      "step": 61281
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5852623581886292,
      "learning_rate": 0.00013955459755574025,
      "loss": 1.5297,
      "step": 61282
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5973309874534607,
      "learning_rate": 0.00013954576595671709,
      "loss": 1.5643,
      "step": 61283
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.594533383846283,
      "learning_rate": 0.0001395369345524617,
      "loss": 1.5296,
      "step": 61284
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5933032631874084,
      "learning_rate": 0.00013952810334298473,
      "loss": 1.4927,
      "step": 61285
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5642741918563843,
      "learning_rate": 0.00013951927232829712,
      "loss": 1.4578,
      "step": 61286
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5687775015830994,
      "learning_rate": 0.00013951044150840945,
      "loss": 1.5213,
      "step": 61287
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5925667881965637,
      "learning_rate": 0.00013950161088333233,
      "loss": 1.5912,
      "step": 61288
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5791506171226501,
      "learning_rate": 0.00013949278045307666,
      "loss": 1.5067,
      "step": 61289
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5907545685768127,
      "learning_rate": 0.00013948395021765316,
      "loss": 1.5047,
      "step": 61290
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5824279189109802,
      "learning_rate": 0.00013947512017707255,
      "loss": 1.5354,
      "step": 61291
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5948551893234253,
      "learning_rate": 0.00013946629033134532,
      "loss": 1.576,
      "step": 61292
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5944032669067383,
      "learning_rate": 0.00013945746068048253,
      "loss": 1.4523,
      "step": 61293
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6031057238578796,
      "learning_rate": 0.00013944863122449468,
      "loss": 1.5756,
      "step": 61294
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5856789350509644,
      "learning_rate": 0.00013943980196339244,
      "loss": 1.5139,
      "step": 61295
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5699725151062012,
      "learning_rate": 0.00013943097289718663,
      "loss": 1.53,
      "step": 61296
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5784808397293091,
      "learning_rate": 0.0001394221440258882,
      "loss": 1.53,
      "step": 61297
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.57401043176651,
      "learning_rate": 0.00013941331534950737,
      "loss": 1.4975,
      "step": 61298
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5937840342521667,
      "learning_rate": 0.00013940448686805513,
      "loss": 1.6785,
      "step": 61299
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5610663294792175,
      "learning_rate": 0.0001393956585815423,
      "loss": 1.563,
      "step": 61300
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5655850768089294,
      "learning_rate": 0.00013938683048997946,
      "loss": 1.5522,
      "step": 61301
    },
    {
      "epoch": 2.04,
      "grad_norm": 1.518357515335083,
      "learning_rate": 0.00013937800259337723,
      "loss": 1.5166,
      "step": 61302
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5877355933189392,
      "learning_rate": 0.00013936917489174643,
      "loss": 1.5282,
      "step": 61303
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5813491940498352,
      "learning_rate": 0.000139360347385098,
      "loss": 1.5121,
      "step": 61304
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6125726103782654,
      "learning_rate": 0.00013935152007344228,
      "loss": 1.5428,
      "step": 61305
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5823100209236145,
      "learning_rate": 0.0001393426929567901,
      "loss": 1.5887,
      "step": 61306
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5824270248413086,
      "learning_rate": 0.0001393338660351523,
      "loss": 1.5451,
      "step": 61307
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.589304506778717,
      "learning_rate": 0.00013932503930853956,
      "loss": 1.588,
      "step": 61308
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6044155955314636,
      "learning_rate": 0.00013931621277696242,
      "loss": 1.6113,
      "step": 61309
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6191602349281311,
      "learning_rate": 0.00013930738644043174,
      "loss": 1.5485,
      "step": 61310
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5718981623649597,
      "learning_rate": 0.00013929856029895843,
      "loss": 1.5028,
      "step": 61311
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5870716571807861,
      "learning_rate": 0.00013928973435255277,
      "loss": 1.5592,
      "step": 61312
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5775991082191467,
      "learning_rate": 0.00013928090860122565,
      "loss": 1.5469,
      "step": 61313
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6100702285766602,
      "learning_rate": 0.00013927208304498798,
      "loss": 1.5208,
      "step": 61314
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5819727182388306,
      "learning_rate": 0.00013926325768385032,
      "loss": 1.5839,
      "step": 61315
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5699164271354675,
      "learning_rate": 0.00013925443251782327,
      "loss": 1.4831,
      "step": 61316
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.573896586894989,
      "learning_rate": 0.00013924560754691775,
      "loss": 1.5183,
      "step": 61317
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6110193133354187,
      "learning_rate": 0.0001392367827711444,
      "loss": 1.586,
      "step": 61318
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6095311641693115,
      "learning_rate": 0.00013922795819051376,
      "loss": 1.6018,
      "step": 61319
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5742582082748413,
      "learning_rate": 0.00013921913380503668,
      "loss": 1.5508,
      "step": 61320
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5757986307144165,
      "learning_rate": 0.00013921030961472404,
      "loss": 1.4674,
      "step": 61321
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5776225328445435,
      "learning_rate": 0.00013920148561958636,
      "loss": 1.5425,
      "step": 61322
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5711798667907715,
      "learning_rate": 0.00013919266181963428,
      "loss": 1.5098,
      "step": 61323
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5728193521499634,
      "learning_rate": 0.00013918383821487874,
      "loss": 1.5786,
      "step": 61324
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5877591371536255,
      "learning_rate": 0.00013917501480533034,
      "loss": 1.5095,
      "step": 61325
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5717722177505493,
      "learning_rate": 0.00013916619159099963,
      "loss": 1.4946,
      "step": 61326
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5829595327377319,
      "learning_rate": 0.0001391573685718976,
      "loss": 1.5428,
      "step": 61327
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5675497651100159,
      "learning_rate": 0.0001391485457480347,
      "loss": 1.5041,
      "step": 61328
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6221408247947693,
      "learning_rate": 0.00013913972311942188,
      "loss": 1.598,
      "step": 61329
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5851772427558899,
      "learning_rate": 0.00013913090068606962,
      "loss": 1.5042,
      "step": 61330
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5815793871879578,
      "learning_rate": 0.00013912207844798887,
      "loss": 1.5397,
      "step": 61331
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5952359437942505,
      "learning_rate": 0.0001391132564051902,
      "loss": 1.52,
      "step": 61332
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.587813138961792,
      "learning_rate": 0.00013910443455768422,
      "loss": 1.5286,
      "step": 61333
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6160054802894592,
      "learning_rate": 0.00013909561290548187,
      "loss": 1.58,
      "step": 61334
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5794066786766052,
      "learning_rate": 0.00013908679144859358,
      "loss": 1.5353,
      "step": 61335
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6043909192085266,
      "learning_rate": 0.0001390779701870304,
      "loss": 1.5144,
      "step": 61336
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5789501667022705,
      "learning_rate": 0.0001390691491208028,
      "loss": 1.5103,
      "step": 61337
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5649788975715637,
      "learning_rate": 0.00013906032824992148,
      "loss": 1.4836,
      "step": 61338
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5903164744377136,
      "learning_rate": 0.0001390515075743973,
      "loss": 1.6216,
      "step": 61339
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5724923610687256,
      "learning_rate": 0.00013904268709424072,
      "loss": 1.5102,
      "step": 61340
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6319907903671265,
      "learning_rate": 0.00013903386680946274,
      "loss": 1.5436,
      "step": 61341
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5956172347068787,
      "learning_rate": 0.0001390250467200738,
      "loss": 1.5991,
      "step": 61342
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5967659950256348,
      "learning_rate": 0.00013901622682608488,
      "loss": 1.6686,
      "step": 61343
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5864639282226562,
      "learning_rate": 0.00013900740712750656,
      "loss": 1.4647,
      "step": 61344
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5763242244720459,
      "learning_rate": 0.00013899858762434937,
      "loss": 1.521,
      "step": 61345
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5722243189811707,
      "learning_rate": 0.00013898976831662428,
      "loss": 1.5085,
      "step": 61346
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5955926775932312,
      "learning_rate": 0.00013898094920434192,
      "loss": 1.521,
      "step": 61347
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5871566534042358,
      "learning_rate": 0.00013897213028751283,
      "loss": 1.6366,
      "step": 61348
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5929580330848694,
      "learning_rate": 0.00013896331156614789,
      "loss": 1.5377,
      "step": 61349
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5961326956748962,
      "learning_rate": 0.00013895449304025782,
      "loss": 1.5136,
      "step": 61350
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5749483704566956,
      "learning_rate": 0.00013894567470985327,
      "loss": 1.5182,
      "step": 61351
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5709143280982971,
      "learning_rate": 0.00013893685657494486,
      "loss": 1.5643,
      "step": 61352
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5972660779953003,
      "learning_rate": 0.00013892803863554346,
      "loss": 1.5837,
      "step": 61353
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5783044695854187,
      "learning_rate": 0.0001389192208916597,
      "loss": 1.5574,
      "step": 61354
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5881673693656921,
      "learning_rate": 0.00013891040334330413,
      "loss": 1.502,
      "step": 61355
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5747888684272766,
      "learning_rate": 0.00013890158599048766,
      "loss": 1.5509,
      "step": 61356
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6331627368927002,
      "learning_rate": 0.000138892768833221,
      "loss": 1.573,
      "step": 61357
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6210691332817078,
      "learning_rate": 0.0001388839518715148,
      "loss": 1.5673,
      "step": 61358
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.574490487575531,
      "learning_rate": 0.00013887513510537958,
      "loss": 1.51,
      "step": 61359
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6023002862930298,
      "learning_rate": 0.00013886631853482633,
      "loss": 1.5357,
      "step": 61360
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6074526906013489,
      "learning_rate": 0.00013885750215986565,
      "loss": 1.5742,
      "step": 61361
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5911726355552673,
      "learning_rate": 0.00013884868598050814,
      "loss": 1.5514,
      "step": 61362
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5884556174278259,
      "learning_rate": 0.00013883986999676455,
      "loss": 1.5113,
      "step": 61363
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5874815583229065,
      "learning_rate": 0.0001388310542086457,
      "loss": 1.4914,
      "step": 61364
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.596923828125,
      "learning_rate": 0.00013882223861616224,
      "loss": 1.6283,
      "step": 61365
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6038699746131897,
      "learning_rate": 0.00013881342321932468,
      "loss": 1.5577,
      "step": 61366
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6003347039222717,
      "learning_rate": 0.00013880460801814402,
      "loss": 1.5334,
      "step": 61367
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5900018811225891,
      "learning_rate": 0.0001387957930126308,
      "loss": 1.4773,
      "step": 61368
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5923600196838379,
      "learning_rate": 0.00013878697820279563,
      "loss": 1.5577,
      "step": 61369
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5685965418815613,
      "learning_rate": 0.00013877816358864935,
      "loss": 1.5424,
      "step": 61370
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5997352004051208,
      "learning_rate": 0.00013876934917020267,
      "loss": 1.532,
      "step": 61371
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6001433730125427,
      "learning_rate": 0.0001387605349474663,
      "loss": 1.5491,
      "step": 61372
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5911042094230652,
      "learning_rate": 0.00013875172092045075,
      "loss": 1.5506,
      "step": 61373
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5982807278633118,
      "learning_rate": 0.00013874290708916693,
      "loss": 1.5315,
      "step": 61374
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6287779808044434,
      "learning_rate": 0.00013873409345362548,
      "loss": 1.6149,
      "step": 61375
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5863051414489746,
      "learning_rate": 0.00013872528001383698,
      "loss": 1.537,
      "step": 61376
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6220037341117859,
      "learning_rate": 0.00013871646676981233,
      "loss": 1.6515,
      "step": 61377
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.596482515335083,
      "learning_rate": 0.00013870765372156203,
      "loss": 1.578,
      "step": 61378
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.584145724773407,
      "learning_rate": 0.00013869884086909696,
      "loss": 1.5572,
      "step": 61379
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5818454623222351,
      "learning_rate": 0.00013869002821242766,
      "loss": 1.5567,
      "step": 61380
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5691986680030823,
      "learning_rate": 0.00013868121575156498,
      "loss": 1.4659,
      "step": 61381
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5798758864402771,
      "learning_rate": 0.00013867240348651954,
      "loss": 1.5794,
      "step": 61382
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5970913767814636,
      "learning_rate": 0.00013866359141730193,
      "loss": 1.5835,
      "step": 61383
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5804436802864075,
      "learning_rate": 0.00013865477954392306,
      "loss": 1.5376,
      "step": 61384
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.574910044670105,
      "learning_rate": 0.00013864596786639338,
      "loss": 1.5873,
      "step": 61385
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5941095352172852,
      "learning_rate": 0.00013863715638472382,
      "loss": 1.5891,
      "step": 61386
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5798524618148804,
      "learning_rate": 0.00013862834509892504,
      "loss": 1.5386,
      "step": 61387
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5840032696723938,
      "learning_rate": 0.0001386195340090075,
      "loss": 1.6113,
      "step": 61388
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5666853785514832,
      "learning_rate": 0.0001386107231149822,
      "loss": 1.4575,
      "step": 61389
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5914429426193237,
      "learning_rate": 0.0001386019124168596,
      "loss": 1.4971,
      "step": 61390
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6102074384689331,
      "learning_rate": 0.00013859310191465058,
      "loss": 1.6123,
      "step": 61391
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6000404357910156,
      "learning_rate": 0.00013858429160836566,
      "loss": 1.4643,
      "step": 61392
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5830494165420532,
      "learning_rate": 0.00013857548149801574,
      "loss": 1.5503,
      "step": 61393
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.596508264541626,
      "learning_rate": 0.0001385666715836114,
      "loss": 1.615,
      "step": 61394
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6028985977172852,
      "learning_rate": 0.00013855786186516323,
      "loss": 1.5613,
      "step": 61395
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.589568018913269,
      "learning_rate": 0.00013854905234268213,
      "loss": 1.6081,
      "step": 61396
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.7655210494995117,
      "learning_rate": 0.0001385402430161787,
      "loss": 1.6391,
      "step": 61397
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5899907946586609,
      "learning_rate": 0.0001385314338856635,
      "loss": 1.4876,
      "step": 61398
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5866931080818176,
      "learning_rate": 0.00013852262495114736,
      "loss": 1.661,
      "step": 61399
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5725416541099548,
      "learning_rate": 0.00013851381621264106,
      "loss": 1.505,
      "step": 61400
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.593316376209259,
      "learning_rate": 0.0001385050076701552,
      "loss": 1.5646,
      "step": 61401
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.8387411832809448,
      "learning_rate": 0.00013849619932370034,
      "loss": 1.5296,
      "step": 61402
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5926244258880615,
      "learning_rate": 0.00013848739117328744,
      "loss": 1.5372,
      "step": 61403
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5850730538368225,
      "learning_rate": 0.00013847858321892702,
      "loss": 1.6127,
      "step": 61404
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5842614769935608,
      "learning_rate": 0.00013846977546062972,
      "loss": 1.5742,
      "step": 61405
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5872491002082825,
      "learning_rate": 0.00013846096789840628,
      "loss": 1.5271,
      "step": 61406
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.568430483341217,
      "learning_rate": 0.00013845216053226766,
      "loss": 1.5748,
      "step": 61407
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5789684057235718,
      "learning_rate": 0.0001384433533622241,
      "loss": 1.4211,
      "step": 61408
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6364240646362305,
      "learning_rate": 0.0001384345463882865,
      "loss": 1.613,
      "step": 61409
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5908390879631042,
      "learning_rate": 0.00013842573961046566,
      "loss": 1.6097,
      "step": 61410
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5974940061569214,
      "learning_rate": 0.00013841693302877217,
      "loss": 1.513,
      "step": 61411
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5819135904312134,
      "learning_rate": 0.0001384081266432166,
      "loss": 1.5209,
      "step": 61412
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6019414067268372,
      "learning_rate": 0.00013839932045380974,
      "loss": 1.5431,
      "step": 61413
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5877759456634521,
      "learning_rate": 0.00013839051446056256,
      "loss": 1.5544,
      "step": 61414
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5753459930419922,
      "learning_rate": 0.00013838170866348524,
      "loss": 1.5087,
      "step": 61415
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5916681885719299,
      "learning_rate": 0.00013837290306258868,
      "loss": 1.5236,
      "step": 61416
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5978750586509705,
      "learning_rate": 0.00013836409765788374,
      "loss": 1.5128,
      "step": 61417
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.615916907787323,
      "learning_rate": 0.00013835529244938098,
      "loss": 1.5738,
      "step": 61418
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5933389067649841,
      "learning_rate": 0.00013834648743709098,
      "loss": 1.5329,
      "step": 61419
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.588814377784729,
      "learning_rate": 0.0001383376826210245,
      "loss": 1.4724,
      "step": 61420
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5953898429870605,
      "learning_rate": 0.00013832887800119246,
      "loss": 1.554,
      "step": 61421
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5774334073066711,
      "learning_rate": 0.00013832007357760513,
      "loss": 1.4987,
      "step": 61422
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5785018801689148,
      "learning_rate": 0.0001383112693502734,
      "loss": 1.5594,
      "step": 61423
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6087320446968079,
      "learning_rate": 0.0001383024653192081,
      "loss": 1.5428,
      "step": 61424
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5915098190307617,
      "learning_rate": 0.00013829366148441978,
      "loss": 1.5903,
      "step": 61425
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5909972190856934,
      "learning_rate": 0.000138284857845919,
      "loss": 1.6071,
      "step": 61426
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5864744186401367,
      "learning_rate": 0.0001382760544037166,
      "loss": 1.5129,
      "step": 61427
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5998623967170715,
      "learning_rate": 0.00013826725115782343,
      "loss": 1.53,
      "step": 61428
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5988878607749939,
      "learning_rate": 0.0001382584481082498,
      "loss": 1.4887,
      "step": 61429
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.587711751461029,
      "learning_rate": 0.00013824964525500658,
      "loss": 1.5644,
      "step": 61430
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.608656108379364,
      "learning_rate": 0.00013824084259810455,
      "loss": 1.6178,
      "step": 61431
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5917617082595825,
      "learning_rate": 0.0001382320401375543,
      "loss": 1.5595,
      "step": 61432
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.57839035987854,
      "learning_rate": 0.0001382232378733664,
      "loss": 1.4846,
      "step": 61433
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.591018557548523,
      "learning_rate": 0.0001382144358055518,
      "loss": 1.5379,
      "step": 61434
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5628104209899902,
      "learning_rate": 0.000138205633934121,
      "loss": 1.5308,
      "step": 61435
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5836995840072632,
      "learning_rate": 0.0001381968322590846,
      "loss": 1.5586,
      "step": 61436
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5982494950294495,
      "learning_rate": 0.00013818803078045346,
      "loss": 1.5242,
      "step": 61437
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6139647960662842,
      "learning_rate": 0.0001381792294982383,
      "loss": 1.5156,
      "step": 61438
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6049222350120544,
      "learning_rate": 0.00013817042841244968,
      "loss": 1.604,
      "step": 61439
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5839195847511292,
      "learning_rate": 0.00013816162752309822,
      "loss": 1.5227,
      "step": 61440
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6177864074707031,
      "learning_rate": 0.0001381528268301948,
      "loss": 1.5475,
      "step": 61441
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5868354439735413,
      "learning_rate": 0.00013814402633375002,
      "loss": 1.537,
      "step": 61442
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5926631093025208,
      "learning_rate": 0.00013813522603377447,
      "loss": 1.6066,
      "step": 61443
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5944228172302246,
      "learning_rate": 0.00013812642593027895,
      "loss": 1.5769,
      "step": 61444
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5880523324012756,
      "learning_rate": 0.00013811762602327404,
      "loss": 1.5773,
      "step": 61445
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5880009531974792,
      "learning_rate": 0.00013810882631277055,
      "loss": 1.57,
      "step": 61446
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5887325406074524,
      "learning_rate": 0.00013810002679877898,
      "loss": 1.4801,
      "step": 61447
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5829238295555115,
      "learning_rate": 0.00013809122748131025,
      "loss": 1.5758,
      "step": 61448
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.61414635181427,
      "learning_rate": 0.00013808242836037493,
      "loss": 1.4707,
      "step": 61449
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6067833304405212,
      "learning_rate": 0.00013807362943598356,
      "loss": 1.5212,
      "step": 61450
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.566903293132782,
      "learning_rate": 0.00013806483070814704,
      "loss": 1.4814,
      "step": 61451
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6123731136322021,
      "learning_rate": 0.00013805603217687586,
      "loss": 1.4724,
      "step": 61452
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5889610648155212,
      "learning_rate": 0.00013804723384218092,
      "loss": 1.5805,
      "step": 61453
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6051875352859497,
      "learning_rate": 0.00013803843570407275,
      "loss": 1.5275,
      "step": 61454
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5880419611930847,
      "learning_rate": 0.00013802963776256193,
      "loss": 1.5669,
      "step": 61455
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5851208567619324,
      "learning_rate": 0.00013802084001765942,
      "loss": 1.5594,
      "step": 61456
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5673361420631409,
      "learning_rate": 0.0001380120424693756,
      "loss": 1.5596,
      "step": 61457
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5745857954025269,
      "learning_rate": 0.0001380032451177214,
      "loss": 1.5028,
      "step": 61458
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5802097320556641,
      "learning_rate": 0.0001379944479627073,
      "loss": 1.5248,
      "step": 61459
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5707182288169861,
      "learning_rate": 0.00013798565100434418,
      "loss": 1.5698,
      "step": 61460
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6077727675437927,
      "learning_rate": 0.0001379768542426426,
      "loss": 1.4763,
      "step": 61461
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6022905111312866,
      "learning_rate": 0.00013796805767761315,
      "loss": 1.6138,
      "step": 61462
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5625798106193542,
      "learning_rate": 0.0001379592613092667,
      "loss": 1.4886,
      "step": 61463
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6097242832183838,
      "learning_rate": 0.00013795046513761383,
      "loss": 1.4959,
      "step": 61464
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5850635766983032,
      "learning_rate": 0.0001379416691626651,
      "loss": 1.5402,
      "step": 61465
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.6010593175888062,
      "learning_rate": 0.00013793287338443135,
      "loss": 1.5742,
      "step": 61466
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.590567946434021,
      "learning_rate": 0.00013792407780292327,
      "loss": 1.5465,
      "step": 61467
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5989270806312561,
      "learning_rate": 0.0001379152824181515,
      "loss": 1.5752,
      "step": 61468
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6125288605690002,
      "learning_rate": 0.00013790648723012658,
      "loss": 1.5226,
      "step": 61469
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5923928618431091,
      "learning_rate": 0.00013789769223885944,
      "loss": 1.536,
      "step": 61470
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.572378933429718,
      "learning_rate": 0.00013788889744436057,
      "loss": 1.4989,
      "step": 61471
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.583844780921936,
      "learning_rate": 0.0001378801028466406,
      "loss": 1.5329,
      "step": 61472
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5948169827461243,
      "learning_rate": 0.0001378713084457103,
      "loss": 1.5907,
      "step": 61473
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5764735341072083,
      "learning_rate": 0.00013786251424158046,
      "loss": 1.5555,
      "step": 61474
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5836461782455444,
      "learning_rate": 0.00013785372023426164,
      "loss": 1.4966,
      "step": 61475
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6068196892738342,
      "learning_rate": 0.0001378449264237644,
      "loss": 1.5296,
      "step": 61476
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5875771641731262,
      "learning_rate": 0.00013783613281009963,
      "loss": 1.6134,
      "step": 61477
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6048024892807007,
      "learning_rate": 0.0001378273393932779,
      "loss": 1.6205,
      "step": 61478
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5977857112884521,
      "learning_rate": 0.00013781854617330976,
      "loss": 1.532,
      "step": 61479
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5689135789871216,
      "learning_rate": 0.00013780975315020607,
      "loss": 1.5043,
      "step": 61480
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5951561331748962,
      "learning_rate": 0.00013780096032397747,
      "loss": 1.5541,
      "step": 61481
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6624102592468262,
      "learning_rate": 0.00013779216769463465,
      "loss": 1.545,
      "step": 61482
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6081123352050781,
      "learning_rate": 0.00013778337526218815,
      "loss": 1.5753,
      "step": 61483
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5824105739593506,
      "learning_rate": 0.00013777458302664878,
      "loss": 1.5536,
      "step": 61484
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5948999524116516,
      "learning_rate": 0.00013776579098802723,
      "loss": 1.4688,
      "step": 61485
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5933159589767456,
      "learning_rate": 0.00013775699914633395,
      "loss": 1.5505,
      "step": 61486
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5987555384635925,
      "learning_rate": 0.00013774820750157978,
      "loss": 1.5769,
      "step": 61487
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5683214068412781,
      "learning_rate": 0.0001377394160537755,
      "loss": 1.5471,
      "step": 61488
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5909531116485596,
      "learning_rate": 0.00013773062480293164,
      "loss": 1.6118,
      "step": 61489
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6468932628631592,
      "learning_rate": 0.00013772183374905877,
      "loss": 1.6685,
      "step": 61490
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5770477652549744,
      "learning_rate": 0.00013771304289216785,
      "loss": 1.523,
      "step": 61491
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5854712724685669,
      "learning_rate": 0.00013770425223226935,
      "loss": 1.5401,
      "step": 61492
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5932652354240417,
      "learning_rate": 0.00013769546176937384,
      "loss": 1.5484,
      "step": 61493
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5683561563491821,
      "learning_rate": 0.00013768667150349225,
      "loss": 1.5723,
      "step": 61494
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.57785564661026,
      "learning_rate": 0.00013767788143463503,
      "loss": 1.5757,
      "step": 61495
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5876163840293884,
      "learning_rate": 0.00013766909156281306,
      "loss": 1.528,
      "step": 61496
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5926063060760498,
      "learning_rate": 0.0001376603018880368,
      "loss": 1.4883,
      "step": 61497
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6011115312576294,
      "learning_rate": 0.00013765151241031706,
      "loss": 1.4999,
      "step": 61498
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5852779746055603,
      "learning_rate": 0.00013764272312966451,
      "loss": 1.5227,
      "step": 61499
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5941446423530579,
      "learning_rate": 0.00013763393404608967,
      "loss": 1.4655,
      "step": 61500
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5875428915023804,
      "learning_rate": 0.00013762514515960338,
      "loss": 1.552,
      "step": 61501
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.7739896178245544,
      "learning_rate": 0.00013761635647021618,
      "loss": 1.5773,
      "step": 61502
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5835248827934265,
      "learning_rate": 0.0001376075679779389,
      "loss": 1.5424,
      "step": 61503
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5796462297439575,
      "learning_rate": 0.00013759877968278205,
      "loss": 1.5853,
      "step": 61504
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5710014700889587,
      "learning_rate": 0.00013758999158475628,
      "loss": 1.4982,
      "step": 61505
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.571779727935791,
      "learning_rate": 0.00013758120368387243,
      "loss": 1.5699,
      "step": 61506
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5950703620910645,
      "learning_rate": 0.00013757241598014096,
      "loss": 1.5247,
      "step": 61507
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5994407534599304,
      "learning_rate": 0.00013756362847357277,
      "loss": 1.6056,
      "step": 61508
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5919474959373474,
      "learning_rate": 0.0001375548411641783,
      "loss": 1.5946,
      "step": 61509
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5950677990913391,
      "learning_rate": 0.00013754605405196841,
      "loss": 1.5699,
      "step": 61510
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5840978622436523,
      "learning_rate": 0.00013753726713695367,
      "loss": 1.5521,
      "step": 61511
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5641490817070007,
      "learning_rate": 0.0001375284804191446,
      "loss": 1.5862,
      "step": 61512
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.584635853767395,
      "learning_rate": 0.0001375196938985522,
      "loss": 1.5587,
      "step": 61513
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5539913177490234,
      "learning_rate": 0.00013751090757518694,
      "loss": 1.5266,
      "step": 61514
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.584020733833313,
      "learning_rate": 0.00013750212144905935,
      "loss": 1.4941,
      "step": 61515
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5918956995010376,
      "learning_rate": 0.00013749333552018025,
      "loss": 1.5698,
      "step": 61516
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5979463458061218,
      "learning_rate": 0.0001374845497885604,
      "loss": 1.5672,
      "step": 61517
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5940619111061096,
      "learning_rate": 0.0001374757642542104,
      "loss": 1.5499,
      "step": 61518
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5913206934928894,
      "learning_rate": 0.00013746697891714072,
      "loss": 1.5529,
      "step": 61519
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5875285267829895,
      "learning_rate": 0.00013745819377736232,
      "loss": 1.6105,
      "step": 61520
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5726251006126404,
      "learning_rate": 0.00013744940883488572,
      "loss": 1.5964,
      "step": 61521
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5737963318824768,
      "learning_rate": 0.00013744062408972148,
      "loss": 1.5511,
      "step": 61522
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5827522277832031,
      "learning_rate": 0.00013743183954188033,
      "loss": 1.5384,
      "step": 61523
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5728276968002319,
      "learning_rate": 0.00013742305519137324,
      "loss": 1.5593,
      "step": 61524
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5808228254318237,
      "learning_rate": 0.00013741427103821039,
      "loss": 1.5946,
      "step": 61525
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5836794376373291,
      "learning_rate": 0.00013740548708240263,
      "loss": 1.514,
      "step": 61526
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5689865350723267,
      "learning_rate": 0.00013739670332396075,
      "loss": 1.539,
      "step": 61527
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5670570731163025,
      "learning_rate": 0.00013738791976289534,
      "loss": 1.5035,
      "step": 61528
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5876721739768982,
      "learning_rate": 0.00013737913639921693,
      "loss": 1.5076,
      "step": 61529
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5593202114105225,
      "learning_rate": 0.00013737035323293628,
      "loss": 1.528,
      "step": 61530
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5881619453430176,
      "learning_rate": 0.00013736157026406426,
      "loss": 1.5511,
      "step": 61531
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.604586660861969,
      "learning_rate": 0.00013735278749261114,
      "loss": 1.5325,
      "step": 61532
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6108225584030151,
      "learning_rate": 0.00013734400491858775,
      "loss": 1.6178,
      "step": 61533
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5771734714508057,
      "learning_rate": 0.0001373352225420049,
      "loss": 1.5757,
      "step": 61534
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5839431285858154,
      "learning_rate": 0.0001373264403628731,
      "loss": 1.5944,
      "step": 61535
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5777730345726013,
      "learning_rate": 0.00013731765838120296,
      "loss": 1.5584,
      "step": 61536
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5650190114974976,
      "learning_rate": 0.00013730887659700516,
      "loss": 1.6084,
      "step": 61537
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5785259008407593,
      "learning_rate": 0.00013730009501029065,
      "loss": 1.5993,
      "step": 61538
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6090408563613892,
      "learning_rate": 0.00013729131362106965,
      "loss": 1.4927,
      "step": 61539
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5628268718719482,
      "learning_rate": 0.000137282532429353,
      "loss": 1.5162,
      "step": 61540
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.586944043636322,
      "learning_rate": 0.0001372737514351515,
      "loss": 1.5521,
      "step": 61541
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5748547315597534,
      "learning_rate": 0.00013726497063847571,
      "loss": 1.4592,
      "step": 61542
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5729114413261414,
      "learning_rate": 0.00013725619003933614,
      "loss": 1.5445,
      "step": 61543
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5918424129486084,
      "learning_rate": 0.00013724740963774358,
      "loss": 1.531,
      "step": 61544
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6094793081283569,
      "learning_rate": 0.0001372386294337089,
      "loss": 1.5671,
      "step": 61545
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5838853716850281,
      "learning_rate": 0.00013722984942724233,
      "loss": 1.5113,
      "step": 61546
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5669137835502625,
      "learning_rate": 0.0001372210696183547,
      "loss": 1.4707,
      "step": 61547
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5789422392845154,
      "learning_rate": 0.0001372122900070569,
      "loss": 1.575,
      "step": 61548
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5924148559570312,
      "learning_rate": 0.0001372035105933593,
      "loss": 1.6049,
      "step": 61549
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6172237396240234,
      "learning_rate": 0.00013719473137727262,
      "loss": 1.6465,
      "step": 61550
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5855855941772461,
      "learning_rate": 0.00013718595235880763,
      "loss": 1.5158,
      "step": 61551
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6066874861717224,
      "learning_rate": 0.00013717717353797486,
      "loss": 1.583,
      "step": 61552
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5991436839103699,
      "learning_rate": 0.00013716839491478497,
      "loss": 1.4839,
      "step": 61553
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5815126895904541,
      "learning_rate": 0.00013715961648924863,
      "loss": 1.5549,
      "step": 61554
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5705559849739075,
      "learning_rate": 0.00013715083826137663,
      "loss": 1.5079,
      "step": 61555
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5781840682029724,
      "learning_rate": 0.00013714206023117948,
      "loss": 1.551,
      "step": 61556
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6073167324066162,
      "learning_rate": 0.00013713328239866782,
      "loss": 1.5408,
      "step": 61557
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5923112630844116,
      "learning_rate": 0.0001371245047638524,
      "loss": 1.5657,
      "step": 61558
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5844632387161255,
      "learning_rate": 0.0001371157273267439,
      "loss": 1.6124,
      "step": 61559
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5814788341522217,
      "learning_rate": 0.00013710695008735277,
      "loss": 1.4932,
      "step": 61560
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5645588636398315,
      "learning_rate": 0.0001370981730456899,
      "loss": 1.5457,
      "step": 61561
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.585817277431488,
      "learning_rate": 0.00013708939620176577,
      "loss": 1.4946,
      "step": 61562
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5813669562339783,
      "learning_rate": 0.00013708061955559122,
      "loss": 1.5026,
      "step": 61563
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5705274939537048,
      "learning_rate": 0.00013707184310717666,
      "loss": 1.4693,
      "step": 61564
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5903341770172119,
      "learning_rate": 0.000137063066856533,
      "loss": 1.5132,
      "step": 61565
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6043728590011597,
      "learning_rate": 0.00013705429080367076,
      "loss": 1.5592,
      "step": 61566
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6051880717277527,
      "learning_rate": 0.00013704551494860047,
      "loss": 1.6381,
      "step": 61567
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.595823347568512,
      "learning_rate": 0.00013703673929133303,
      "loss": 1.5352,
      "step": 61568
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5960677266120911,
      "learning_rate": 0.0001370279638318789,
      "loss": 1.5346,
      "step": 61569
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5821366310119629,
      "learning_rate": 0.0001370191885702489,
      "loss": 1.475,
      "step": 61570
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5845969319343567,
      "learning_rate": 0.0001370104135064536,
      "loss": 1.4893,
      "step": 61571
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5949041247367859,
      "learning_rate": 0.0001370016386405035,
      "loss": 1.5895,
      "step": 61572
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6195499897003174,
      "learning_rate": 0.00013699286397240954,
      "loss": 1.5554,
      "step": 61573
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5928407311439514,
      "learning_rate": 0.0001369840895021821,
      "loss": 1.4613,
      "step": 61574
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6082711815834045,
      "learning_rate": 0.00013697531522983207,
      "loss": 1.6084,
      "step": 61575
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.610090434551239,
      "learning_rate": 0.00013696654115536987,
      "loss": 1.5181,
      "step": 61576
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.575675904750824,
      "learning_rate": 0.0001369577672788064,
      "loss": 1.6181,
      "step": 61577
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5861726403236389,
      "learning_rate": 0.00013694899360015218,
      "loss": 1.5607,
      "step": 61578
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5898333191871643,
      "learning_rate": 0.00013694022011941773,
      "loss": 1.5109,
      "step": 61579
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5894726514816284,
      "learning_rate": 0.0001369314468366139,
      "loss": 1.519,
      "step": 61580
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6012405753135681,
      "learning_rate": 0.0001369226737517513,
      "loss": 1.5352,
      "step": 61581
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5719632506370544,
      "learning_rate": 0.00013691390086484044,
      "loss": 1.5516,
      "step": 61582
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5801538228988647,
      "learning_rate": 0.0001369051281758921,
      "loss": 1.5076,
      "step": 61583
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.589772641658783,
      "learning_rate": 0.00013689635568491697,
      "loss": 1.5048,
      "step": 61584
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.618564784526825,
      "learning_rate": 0.00013688758339192565,
      "loss": 1.4995,
      "step": 61585
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6357395052909851,
      "learning_rate": 0.00013687881129692867,
      "loss": 1.6687,
      "step": 61586
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6056305170059204,
      "learning_rate": 0.00013687003939993688,
      "loss": 1.6231,
      "step": 61587
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5920459628105164,
      "learning_rate": 0.00013686126770096082,
      "loss": 1.5353,
      "step": 61588
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5911287069320679,
      "learning_rate": 0.00013685249620001104,
      "loss": 1.483,
      "step": 61589
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.591985285282135,
      "learning_rate": 0.00013684372489709828,
      "loss": 1.5381,
      "step": 61590
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.59442138671875,
      "learning_rate": 0.0001368349537922333,
      "loss": 1.5149,
      "step": 61591
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5979161262512207,
      "learning_rate": 0.00013682618288542669,
      "loss": 1.5397,
      "step": 61592
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.600663423538208,
      "learning_rate": 0.0001368174121766889,
      "loss": 1.5636,
      "step": 61593
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5695886015892029,
      "learning_rate": 0.00013680864166603084,
      "loss": 1.5502,
      "step": 61594
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5786671042442322,
      "learning_rate": 0.00013679987135346305,
      "loss": 1.5229,
      "step": 61595
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5856486558914185,
      "learning_rate": 0.00013679110123899607,
      "loss": 1.5022,
      "step": 61596
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5932304263114929,
      "learning_rate": 0.00013678233132264066,
      "loss": 1.509,
      "step": 61597
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5768364667892456,
      "learning_rate": 0.0001367735616044075,
      "loss": 1.5166,
      "step": 61598
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5942559242248535,
      "learning_rate": 0.00013676479208430726,
      "loss": 1.5544,
      "step": 61599
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5930750370025635,
      "learning_rate": 0.00013675602276235036,
      "loss": 1.4769,
      "step": 61600
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5978841185569763,
      "learning_rate": 0.0001367472536385477,
      "loss": 1.4829,
      "step": 61601
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5715747475624084,
      "learning_rate": 0.00013673848471290986,
      "loss": 1.5873,
      "step": 61602
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6000903844833374,
      "learning_rate": 0.00013672971598544727,
      "loss": 1.5881,
      "step": 61603
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6217815279960632,
      "learning_rate": 0.00013672094745617082,
      "loss": 1.4915,
      "step": 61604
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6032511591911316,
      "learning_rate": 0.00013671217912509113,
      "loss": 1.5615,
      "step": 61605
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5777451395988464,
      "learning_rate": 0.00013670341099221884,
      "loss": 1.5346,
      "step": 61606
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5887227654457092,
      "learning_rate": 0.00013669464305756442,
      "loss": 1.5643,
      "step": 61607
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5789901614189148,
      "learning_rate": 0.00013668587532113873,
      "loss": 1.5207,
      "step": 61608
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5801714062690735,
      "learning_rate": 0.00013667710778295233,
      "loss": 1.5521,
      "step": 61609
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5798373222351074,
      "learning_rate": 0.0001366683404430158,
      "loss": 1.5571,
      "step": 61610
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5991203784942627,
      "learning_rate": 0.00013665957330133988,
      "loss": 1.5317,
      "step": 61611
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6443182826042175,
      "learning_rate": 0.00013665080635793508,
      "loss": 1.4923,
      "step": 61612
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6111535429954529,
      "learning_rate": 0.00013664203961281227,
      "loss": 1.5332,
      "step": 61613
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6062832474708557,
      "learning_rate": 0.00013663327306598185,
      "loss": 1.4879,
      "step": 61614
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5906577110290527,
      "learning_rate": 0.00013662450671745463,
      "loss": 1.4831,
      "step": 61615
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6077163815498352,
      "learning_rate": 0.00013661574056724122,
      "loss": 1.6488,
      "step": 61616
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5880299210548401,
      "learning_rate": 0.0001366069746153521,
      "loss": 1.5749,
      "step": 61617
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.586370587348938,
      "learning_rate": 0.00013659820886179817,
      "loss": 1.5598,
      "step": 61618
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5952680706977844,
      "learning_rate": 0.0001365894433065898,
      "loss": 1.5477,
      "step": 61619
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6129757165908813,
      "learning_rate": 0.00013658067794973788,
      "loss": 1.5444,
      "step": 61620
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5882766842842102,
      "learning_rate": 0.00013657191279125295,
      "loss": 1.5359,
      "step": 61621
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6593475341796875,
      "learning_rate": 0.00013656314783114555,
      "loss": 1.5334,
      "step": 61622
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6004149317741394,
      "learning_rate": 0.0001365543830694265,
      "loss": 1.5153,
      "step": 61623
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5895571708679199,
      "learning_rate": 0.00013654561850610624,
      "loss": 1.5406,
      "step": 61624
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6034027338027954,
      "learning_rate": 0.0001365368541411956,
      "loss": 1.5604,
      "step": 61625
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6030520796775818,
      "learning_rate": 0.00013652808997470506,
      "loss": 1.5331,
      "step": 61626
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.610541820526123,
      "learning_rate": 0.0001365193260066454,
      "loss": 1.5996,
      "step": 61627
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5728579759597778,
      "learning_rate": 0.0001365105622370272,
      "loss": 1.5308,
      "step": 61628
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6000761985778809,
      "learning_rate": 0.00013650179866586104,
      "loss": 1.507,
      "step": 61629
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6035659313201904,
      "learning_rate": 0.00013649303529315762,
      "loss": 1.5777,
      "step": 61630
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5792564153671265,
      "learning_rate": 0.00013648427211892763,
      "loss": 1.5496,
      "step": 61631
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.599990963935852,
      "learning_rate": 0.00013647550914318152,
      "loss": 1.5487,
      "step": 61632
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6014169454574585,
      "learning_rate": 0.00013646674636593004,
      "loss": 1.5545,
      "step": 61633
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5961912870407104,
      "learning_rate": 0.00013645798378718394,
      "loss": 1.5486,
      "step": 61634
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5917308926582336,
      "learning_rate": 0.00013644922140695375,
      "loss": 1.5396,
      "step": 61635
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6142740249633789,
      "learning_rate": 0.00013644045922525002,
      "loss": 1.532,
      "step": 61636
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6032232046127319,
      "learning_rate": 0.00013643169724208355,
      "loss": 1.5887,
      "step": 61637
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6039659380912781,
      "learning_rate": 0.0001364229354574649,
      "loss": 1.5769,
      "step": 61638
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5995679497718811,
      "learning_rate": 0.00013641417387140462,
      "loss": 1.5565,
      "step": 61639
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.602618932723999,
      "learning_rate": 0.00013640541248391343,
      "loss": 1.5798,
      "step": 61640
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5786404013633728,
      "learning_rate": 0.0001363966512950022,
      "loss": 1.5249,
      "step": 61641
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6140355467796326,
      "learning_rate": 0.00013638789030468105,
      "loss": 1.5807,
      "step": 61642
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6058518290519714,
      "learning_rate": 0.00013637912951296093,
      "loss": 1.5167,
      "step": 61643
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5974493026733398,
      "learning_rate": 0.00013637036891985256,
      "loss": 1.5925,
      "step": 61644
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5868294835090637,
      "learning_rate": 0.00013636160852536643,
      "loss": 1.471,
      "step": 61645
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5888184905052185,
      "learning_rate": 0.00013635284832951312,
      "loss": 1.5346,
      "step": 61646
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5896291732788086,
      "learning_rate": 0.0001363440883323033,
      "loss": 1.4665,
      "step": 61647
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5818558931350708,
      "learning_rate": 0.00013633532853374786,
      "loss": 1.4816,
      "step": 61648
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5717661380767822,
      "learning_rate": 0.00013632656893385704,
      "loss": 1.5431,
      "step": 61649
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5964434742927551,
      "learning_rate": 0.0001363178095326416,
      "loss": 1.5809,
      "step": 61650
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.607744574546814,
      "learning_rate": 0.00013630905033011238,
      "loss": 1.5336,
      "step": 61651
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5856346487998962,
      "learning_rate": 0.0001363002913262798,
      "loss": 1.5675,
      "step": 61652
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5947554707527161,
      "learning_rate": 0.00013629153252115448,
      "loss": 1.5368,
      "step": 61653
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5790234208106995,
      "learning_rate": 0.00013628277391474711,
      "loss": 1.5206,
      "step": 61654
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5612791776657104,
      "learning_rate": 0.00013627401550706853,
      "loss": 1.5172,
      "step": 61655
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5778148174285889,
      "learning_rate": 0.00013626525729812898,
      "loss": 1.5223,
      "step": 61656
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.607646644115448,
      "learning_rate": 0.00013625649928793927,
      "loss": 1.5699,
      "step": 61657
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6187964081764221,
      "learning_rate": 0.00013624774147651014,
      "loss": 1.5954,
      "step": 61658
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6041985750198364,
      "learning_rate": 0.00013623898386385216,
      "loss": 1.5811,
      "step": 61659
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5714817643165588,
      "learning_rate": 0.00013623022644997578,
      "loss": 1.4634,
      "step": 61660
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5759100914001465,
      "learning_rate": 0.00013622146923489176,
      "loss": 1.52,
      "step": 61661
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6090028285980225,
      "learning_rate": 0.00013621271221861102,
      "loss": 1.4664,
      "step": 61662
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.579428493976593,
      "learning_rate": 0.00013620395540114364,
      "loss": 1.4927,
      "step": 61663
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5916327238082886,
      "learning_rate": 0.00013619519878250053,
      "loss": 1.5416,
      "step": 61664
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6016337871551514,
      "learning_rate": 0.00013618644236269246,
      "loss": 1.5304,
      "step": 61665
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5580859780311584,
      "learning_rate": 0.00013617768614172988,
      "loss": 1.56,
      "step": 61666
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6013886332511902,
      "learning_rate": 0.00013616893011962334,
      "loss": 1.6422,
      "step": 61667
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5869234800338745,
      "learning_rate": 0.00013616017429638375,
      "loss": 1.5891,
      "step": 61668
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5894041061401367,
      "learning_rate": 0.0001361514186720215,
      "loss": 1.5574,
      "step": 61669
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5913152098655701,
      "learning_rate": 0.0001361426632465472,
      "loss": 1.5653,
      "step": 61670
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5811111927032471,
      "learning_rate": 0.00013613390801997156,
      "loss": 1.6099,
      "step": 61671
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5966295599937439,
      "learning_rate": 0.0001361251529923053,
      "loss": 1.5047,
      "step": 61672
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5873719453811646,
      "learning_rate": 0.000136116398163559,
      "loss": 1.6092,
      "step": 61673
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5931033492088318,
      "learning_rate": 0.0001361076435337431,
      "loss": 1.495,
      "step": 61674
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5901386737823486,
      "learning_rate": 0.0001360988891028685,
      "loss": 1.5595,
      "step": 61675
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5776544809341431,
      "learning_rate": 0.0001360901348709457,
      "loss": 1.5262,
      "step": 61676
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6105990409851074,
      "learning_rate": 0.0001360813808379852,
      "loss": 1.5503,
      "step": 61677
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5697356462478638,
      "learning_rate": 0.0001360726270039979,
      "loss": 1.5722,
      "step": 61678
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6073778867721558,
      "learning_rate": 0.00013606387336899414,
      "loss": 1.5438,
      "step": 61679
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5862625241279602,
      "learning_rate": 0.00013605511993298476,
      "loss": 1.5907,
      "step": 61680
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6131553053855896,
      "learning_rate": 0.00013604636669598024,
      "loss": 1.5759,
      "step": 61681
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5903604030609131,
      "learning_rate": 0.0001360376136579914,
      "loss": 1.5241,
      "step": 61682
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5835157632827759,
      "learning_rate": 0.0001360288608190287,
      "loss": 1.4992,
      "step": 61683
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5970737934112549,
      "learning_rate": 0.0001360201081791027,
      "loss": 1.597,
      "step": 61684
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5800493359565735,
      "learning_rate": 0.00013601135573822426,
      "loss": 1.5257,
      "step": 61685
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5852221250534058,
      "learning_rate": 0.00013600260349640373,
      "loss": 1.5349,
      "step": 61686
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5890591740608215,
      "learning_rate": 0.000135993851453652,
      "loss": 1.5001,
      "step": 61687
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6001121997833252,
      "learning_rate": 0.00013598509960997956,
      "loss": 1.5247,
      "step": 61688
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.608852207660675,
      "learning_rate": 0.00013597634796539698,
      "loss": 1.5947,
      "step": 61689
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6097973585128784,
      "learning_rate": 0.000135967596519915,
      "loss": 1.5062,
      "step": 61690
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6007840037345886,
      "learning_rate": 0.00013595884527354407,
      "loss": 1.485,
      "step": 61691
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.605145275592804,
      "learning_rate": 0.0001359500942262951,
      "loss": 1.5713,
      "step": 61692
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6055558919906616,
      "learning_rate": 0.0001359413433781784,
      "loss": 1.5677,
      "step": 61693
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6001191735267639,
      "learning_rate": 0.00013593259272920484,
      "loss": 1.5727,
      "step": 61694
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5788246989250183,
      "learning_rate": 0.00013592384227938497,
      "loss": 1.501,
      "step": 61695
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5921470522880554,
      "learning_rate": 0.00013591509202872922,
      "loss": 1.4833,
      "step": 61696
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.61444491147995,
      "learning_rate": 0.0001359063419772485,
      "loss": 1.6468,
      "step": 61697
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5934262275695801,
      "learning_rate": 0.00013589759212495332,
      "loss": 1.5485,
      "step": 61698
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.591575026512146,
      "learning_rate": 0.00013588884247185418,
      "loss": 1.4287,
      "step": 61699
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.60521399974823,
      "learning_rate": 0.00013588009301796178,
      "loss": 1.5496,
      "step": 61700
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5917439460754395,
      "learning_rate": 0.00013587134376328688,
      "loss": 1.49,
      "step": 61701
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6041472554206848,
      "learning_rate": 0.00013586259470784,
      "loss": 1.458,
      "step": 61702
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6141693592071533,
      "learning_rate": 0.0001358538458516316,
      "loss": 1.6,
      "step": 61703
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.623771607875824,
      "learning_rate": 0.00013584509719467258,
      "loss": 1.5707,
      "step": 61704
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6032748818397522,
      "learning_rate": 0.00013583634873697345,
      "loss": 1.5755,
      "step": 61705
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6140516996383667,
      "learning_rate": 0.00013582760047854464,
      "loss": 1.5538,
      "step": 61706
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6028156280517578,
      "learning_rate": 0.00013581885241939698,
      "loss": 1.5179,
      "step": 61707
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6015297174453735,
      "learning_rate": 0.00013581010455954114,
      "loss": 1.6344,
      "step": 61708
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5960816144943237,
      "learning_rate": 0.00013580135689898767,
      "loss": 1.5687,
      "step": 61709
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5789604783058167,
      "learning_rate": 0.000135792609437747,
      "loss": 1.58,
      "step": 61710
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5974997282028198,
      "learning_rate": 0.0001357838621758299,
      "loss": 1.5686,
      "step": 61711
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5764599442481995,
      "learning_rate": 0.00013577511511324726,
      "loss": 1.5739,
      "step": 61712
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5947913527488708,
      "learning_rate": 0.00013576636825000918,
      "loss": 1.5213,
      "step": 61713
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6301937103271484,
      "learning_rate": 0.00013575762158612653,
      "loss": 1.598,
      "step": 61714
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5818374156951904,
      "learning_rate": 0.00013574887512161007,
      "loss": 1.4684,
      "step": 61715
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5970675945281982,
      "learning_rate": 0.00013574012885647025,
      "loss": 1.5275,
      "step": 61716
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6014533042907715,
      "learning_rate": 0.0001357313827907176,
      "loss": 1.4998,
      "step": 61717
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5866649746894836,
      "learning_rate": 0.00013572263692436295,
      "loss": 1.5075,
      "step": 61718
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.579459547996521,
      "learning_rate": 0.00013571389125741686,
      "loss": 1.4734,
      "step": 61719
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6149348616600037,
      "learning_rate": 0.00013570514578988973,
      "loss": 1.5382,
      "step": 61720
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5969098806381226,
      "learning_rate": 0.00013569640052179236,
      "loss": 1.5541,
      "step": 61721
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5771538615226746,
      "learning_rate": 0.00013568765545313548,
      "loss": 1.565,
      "step": 61722
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6041440367698669,
      "learning_rate": 0.00013567891058392957,
      "loss": 1.5668,
      "step": 61723
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5964941382408142,
      "learning_rate": 0.00013567016591418512,
      "loss": 1.6567,
      "step": 61724
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5865132212638855,
      "learning_rate": 0.000135661421443913,
      "loss": 1.5623,
      "step": 61725
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5888554453849792,
      "learning_rate": 0.00013565267717312372,
      "loss": 1.4977,
      "step": 61726
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6058633327484131,
      "learning_rate": 0.00013564393310182775,
      "loss": 1.5077,
      "step": 61727
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5802848935127258,
      "learning_rate": 0.00013563518923003594,
      "loss": 1.4911,
      "step": 61728
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5833448171615601,
      "learning_rate": 0.00013562644555775868,
      "loss": 1.5836,
      "step": 61729
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5918855667114258,
      "learning_rate": 0.0001356177020850068,
      "loss": 1.5396,
      "step": 61730
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5835059285163879,
      "learning_rate": 0.00013560895881179069,
      "loss": 1.5289,
      "step": 61731
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5894255638122559,
      "learning_rate": 0.0001356002157381212,
      "loss": 1.6229,
      "step": 61732
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6140080690383911,
      "learning_rate": 0.00013559147286400886,
      "loss": 1.5578,
      "step": 61733
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5679107904434204,
      "learning_rate": 0.00013558273018946407,
      "loss": 1.492,
      "step": 61734
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5933127999305725,
      "learning_rate": 0.00013557398771449778,
      "loss": 1.5361,
      "step": 61735
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5682491064071655,
      "learning_rate": 0.00013556524543912034,
      "loss": 1.4534,
      "step": 61736
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5885305404663086,
      "learning_rate": 0.00013555650336334257,
      "loss": 1.5501,
      "step": 61737
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5947756171226501,
      "learning_rate": 0.00013554776148717493,
      "loss": 1.5591,
      "step": 61738
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6142253875732422,
      "learning_rate": 0.00013553901981062802,
      "loss": 1.6164,
      "step": 61739
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6078449487686157,
      "learning_rate": 0.0001355302783337126,
      "loss": 1.5282,
      "step": 61740
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5729028582572937,
      "learning_rate": 0.00013552153705643905,
      "loss": 1.5513,
      "step": 61741
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5971980094909668,
      "learning_rate": 0.00013551279597881824,
      "loss": 1.58,
      "step": 61742
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.590794563293457,
      "learning_rate": 0.00013550405510086058,
      "loss": 1.5368,
      "step": 61743
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6388523578643799,
      "learning_rate": 0.00013549531442257683,
      "loss": 1.545,
      "step": 61744
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6091517210006714,
      "learning_rate": 0.00013548657394397756,
      "loss": 1.5556,
      "step": 61745
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5927629470825195,
      "learning_rate": 0.00013547783366507323,
      "loss": 1.4933,
      "step": 61746
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6023213267326355,
      "learning_rate": 0.00013546909358587469,
      "loss": 1.5967,
      "step": 61747
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5877067446708679,
      "learning_rate": 0.0001354603537063924,
      "loss": 1.5321,
      "step": 61748
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5709619522094727,
      "learning_rate": 0.0001354516140266369,
      "loss": 1.5111,
      "step": 61749
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5861119627952576,
      "learning_rate": 0.0001354428745466189,
      "loss": 1.5159,
      "step": 61750
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6209223866462708,
      "learning_rate": 0.0001354341352663491,
      "loss": 1.536,
      "step": 61751
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5719366073608398,
      "learning_rate": 0.00013542539618583807,
      "loss": 1.5285,
      "step": 61752
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5899942517280579,
      "learning_rate": 0.0001354166573050962,
      "loss": 1.4822,
      "step": 61753
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5764780640602112,
      "learning_rate": 0.00013540791862413437,
      "loss": 1.4536,
      "step": 61754
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5860307216644287,
      "learning_rate": 0.00013539918014296307,
      "loss": 1.5853,
      "step": 61755
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5747489333152771,
      "learning_rate": 0.00013539044186159282,
      "loss": 1.5403,
      "step": 61756
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5971440076828003,
      "learning_rate": 0.0001353817037800343,
      "loss": 1.6411,
      "step": 61757
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5908454656600952,
      "learning_rate": 0.00013537296589829836,
      "loss": 1.6323,
      "step": 61758
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5885758996009827,
      "learning_rate": 0.00013536422821639518,
      "loss": 1.5603,
      "step": 61759
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5992076992988586,
      "learning_rate": 0.00013535549073433553,
      "loss": 1.5385,
      "step": 61760
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5679370760917664,
      "learning_rate": 0.0001353467534521302,
      "loss": 1.5394,
      "step": 61761
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5955243110656738,
      "learning_rate": 0.00013533801636978965,
      "loss": 1.5779,
      "step": 61762
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5689642429351807,
      "learning_rate": 0.00013532927948732437,
      "loss": 1.535,
      "step": 61763
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5733501315116882,
      "learning_rate": 0.00013532054280474508,
      "loss": 1.5009,
      "step": 61764
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.573894202709198,
      "learning_rate": 0.0001353118063220626,
      "loss": 1.5222,
      "step": 61765
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.6025164127349854,
      "learning_rate": 0.00013530307003928714,
      "loss": 1.5684,
      "step": 61766
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5992695093154907,
      "learning_rate": 0.00013529433395642945,
      "loss": 1.5827,
      "step": 61767
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.568565309047699,
      "learning_rate": 0.00013528559807350027,
      "loss": 1.555,
      "step": 61768
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5705597996711731,
      "learning_rate": 0.00013527686239051012,
      "loss": 1.5291,
      "step": 61769
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6138292551040649,
      "learning_rate": 0.0001352681269074695,
      "loss": 1.5966,
      "step": 61770
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5748770236968994,
      "learning_rate": 0.00013525939162438905,
      "loss": 1.6053,
      "step": 61771
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5977804660797119,
      "learning_rate": 0.00013525065654127968,
      "loss": 1.4944,
      "step": 61772
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6070314049720764,
      "learning_rate": 0.00013524192165815152,
      "loss": 1.5333,
      "step": 61773
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6008530259132385,
      "learning_rate": 0.0001352331869750154,
      "loss": 1.5436,
      "step": 61774
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5995091795921326,
      "learning_rate": 0.000135224452491882,
      "loss": 1.4812,
      "step": 61775
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5884747505187988,
      "learning_rate": 0.00013521571820876186,
      "loss": 1.5175,
      "step": 61776
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6011577248573303,
      "learning_rate": 0.00013520698412566542,
      "loss": 1.5091,
      "step": 61777
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5936874747276306,
      "learning_rate": 0.00013519825024260344,
      "loss": 1.5533,
      "step": 61778
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6233553290367126,
      "learning_rate": 0.00013518951655958671,
      "loss": 1.5398,
      "step": 61779
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6111859679222107,
      "learning_rate": 0.0001351807830766254,
      "loss": 1.5806,
      "step": 61780
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6150034666061401,
      "learning_rate": 0.00013517204979373034,
      "loss": 1.5761,
      "step": 61781
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6185528039932251,
      "learning_rate": 0.00013516331671091224,
      "loss": 1.4855,
      "step": 61782
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5880936980247498,
      "learning_rate": 0.0001351545838281816,
      "loss": 1.506,
      "step": 61783
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.594038188457489,
      "learning_rate": 0.00013514585114554888,
      "loss": 1.589,
      "step": 61784
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6263483166694641,
      "learning_rate": 0.00013513711866302493,
      "loss": 1.5052,
      "step": 61785
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5564755797386169,
      "learning_rate": 0.0001351283863806202,
      "loss": 1.479,
      "step": 61786
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6132521629333496,
      "learning_rate": 0.00013511965429834522,
      "loss": 1.5196,
      "step": 61787
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5973403453826904,
      "learning_rate": 0.0001351109224162107,
      "loss": 1.5889,
      "step": 61788
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5661308169364929,
      "learning_rate": 0.00013510219073422728,
      "loss": 1.4604,
      "step": 61789
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6009005308151245,
      "learning_rate": 0.00013509345925240556,
      "loss": 1.4756,
      "step": 61790
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6099437475204468,
      "learning_rate": 0.00013508472797075596,
      "loss": 1.6301,
      "step": 61791
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5896959900856018,
      "learning_rate": 0.00013507599688928931,
      "loss": 1.5549,
      "step": 61792
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5923976302146912,
      "learning_rate": 0.0001350672660080161,
      "loss": 1.5649,
      "step": 61793
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6315223574638367,
      "learning_rate": 0.00013505853532694683,
      "loss": 1.6091,
      "step": 61794
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6184834837913513,
      "learning_rate": 0.00013504980484609227,
      "loss": 1.6044,
      "step": 61795
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5949157476425171,
      "learning_rate": 0.00013504107456546285,
      "loss": 1.5816,
      "step": 61796
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5756248831748962,
      "learning_rate": 0.0001350323444850694,
      "loss": 1.4899,
      "step": 61797
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5801045894622803,
      "learning_rate": 0.00013502361460492222,
      "loss": 1.4729,
      "step": 61798
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.597511351108551,
      "learning_rate": 0.00013501488492503218,
      "loss": 1.5693,
      "step": 61799
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5916321277618408,
      "learning_rate": 0.0001350061554454098,
      "loss": 1.5983,
      "step": 61800
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5718841552734375,
      "learning_rate": 0.0001349974261660655,
      "loss": 1.6072,
      "step": 61801
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5714401602745056,
      "learning_rate": 0.0001349886970870101,
      "loss": 1.5424,
      "step": 61802
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5746151804924011,
      "learning_rate": 0.00013497996820825405,
      "loss": 1.5761,
      "step": 61803
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6104503273963928,
      "learning_rate": 0.00013497123952980808,
      "loss": 1.5342,
      "step": 61804
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5791676640510559,
      "learning_rate": 0.0001349625110516827,
      "loss": 1.5122,
      "step": 61805
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5643402338027954,
      "learning_rate": 0.0001349537827738884,
      "loss": 1.5369,
      "step": 61806
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6028597950935364,
      "learning_rate": 0.00013494505469643602,
      "loss": 1.5452,
      "step": 61807
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5867942571640015,
      "learning_rate": 0.00013493632681933591,
      "loss": 1.5677,
      "step": 61808
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6050207018852234,
      "learning_rate": 0.0001349275991425989,
      "loss": 1.6107,
      "step": 61809
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5958787798881531,
      "learning_rate": 0.00013491887166623535,
      "loss": 1.5364,
      "step": 61810
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5764761567115784,
      "learning_rate": 0.00013491014439025607,
      "loss": 1.5751,
      "step": 61811
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5682192444801331,
      "learning_rate": 0.00013490141731467155,
      "loss": 1.5495,
      "step": 61812
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.58126300573349,
      "learning_rate": 0.0001348926904394923,
      "loss": 1.5235,
      "step": 61813
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5965557098388672,
      "learning_rate": 0.00013488396376472908,
      "loss": 1.6032,
      "step": 61814
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5891704559326172,
      "learning_rate": 0.00013487523729039234,
      "loss": 1.6051,
      "step": 61815
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5800541043281555,
      "learning_rate": 0.00013486651101649272,
      "loss": 1.508,
      "step": 61816
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5732613205909729,
      "learning_rate": 0.00013485778494304077,
      "loss": 1.5873,
      "step": 61817
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5912365317344666,
      "learning_rate": 0.00013484905907004728,
      "loss": 1.5024,
      "step": 61818
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5869355201721191,
      "learning_rate": 0.00013484033339752267,
      "loss": 1.4773,
      "step": 61819
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5973221063613892,
      "learning_rate": 0.00013483160792547745,
      "loss": 1.5996,
      "step": 61820
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5962563753128052,
      "learning_rate": 0.00013482288265392246,
      "loss": 1.5903,
      "step": 61821
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6121723055839539,
      "learning_rate": 0.00013481415758286811,
      "loss": 1.5551,
      "step": 61822
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6026345491409302,
      "learning_rate": 0.00013480543271232498,
      "loss": 1.5903,
      "step": 61823
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6095934510231018,
      "learning_rate": 0.00013479670804230365,
      "loss": 1.5613,
      "step": 61824
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5869718194007874,
      "learning_rate": 0.00013478798357281495,
      "loss": 1.5087,
      "step": 61825
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5725057125091553,
      "learning_rate": 0.00013477925930386925,
      "loss": 1.6319,
      "step": 61826
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6005935072898865,
      "learning_rate": 0.00013477053523547707,
      "loss": 1.5633,
      "step": 61827
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5864943265914917,
      "learning_rate": 0.00013476181136764915,
      "loss": 1.4857,
      "step": 61828
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5953149199485779,
      "learning_rate": 0.00013475308770039622,
      "loss": 1.528,
      "step": 61829
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5912867784500122,
      "learning_rate": 0.0001347443642337285,
      "loss": 1.5737,
      "step": 61830
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5996698141098022,
      "learning_rate": 0.00013473564096765678,
      "loss": 1.5609,
      "step": 61831
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6071670055389404,
      "learning_rate": 0.00013472691790219173,
      "loss": 1.4852,
      "step": 61832
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.576357364654541,
      "learning_rate": 0.00013471819503734387,
      "loss": 1.5064,
      "step": 61833
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.595493495464325,
      "learning_rate": 0.00013470947237312366,
      "loss": 1.5731,
      "step": 61834
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6102930903434753,
      "learning_rate": 0.0001347007499095419,
      "loss": 1.5569,
      "step": 61835
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5973270535469055,
      "learning_rate": 0.00013469202764660905,
      "loss": 1.5104,
      "step": 61836
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5648747682571411,
      "learning_rate": 0.00013468330558433567,
      "loss": 1.4755,
      "step": 61837
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5902054905891418,
      "learning_rate": 0.00013467458372273236,
      "loss": 1.5775,
      "step": 61838
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5919011235237122,
      "learning_rate": 0.00013466586206180986,
      "loss": 1.5805,
      "step": 61839
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6134086847305298,
      "learning_rate": 0.00013465714060157863,
      "loss": 1.5187,
      "step": 61840
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5866233110427856,
      "learning_rate": 0.00013464841934204917,
      "loss": 1.5179,
      "step": 61841
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6004019379615784,
      "learning_rate": 0.00013463969828323227,
      "loss": 1.5549,
      "step": 61842
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6052023768424988,
      "learning_rate": 0.00013463097742513842,
      "loss": 1.5947,
      "step": 61843
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6243127584457397,
      "learning_rate": 0.00013462225676777806,
      "loss": 1.5357,
      "step": 61844
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5940747261047363,
      "learning_rate": 0.00013461353631116205,
      "loss": 1.585,
      "step": 61845
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5993677377700806,
      "learning_rate": 0.00013460481605530075,
      "loss": 1.6185,
      "step": 61846
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5964716672897339,
      "learning_rate": 0.00013459609600020492,
      "loss": 1.5155,
      "step": 61847
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5854000449180603,
      "learning_rate": 0.00013458737614588495,
      "loss": 1.5333,
      "step": 61848
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6075009107589722,
      "learning_rate": 0.00013457865649235164,
      "loss": 1.601,
      "step": 61849
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5818304419517517,
      "learning_rate": 0.00013456993703961546,
      "loss": 1.5373,
      "step": 61850
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5838468670845032,
      "learning_rate": 0.0001345612177876869,
      "loss": 1.6113,
      "step": 61851
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6057536005973816,
      "learning_rate": 0.00013455249873657674,
      "loss": 1.5852,
      "step": 61852
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5898092985153198,
      "learning_rate": 0.0001345437798862954,
      "loss": 1.5031,
      "step": 61853
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5960476994514465,
      "learning_rate": 0.00013453506123685359,
      "loss": 1.531,
      "step": 61854
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5829012393951416,
      "learning_rate": 0.00013452634278826188,
      "loss": 1.5487,
      "step": 61855
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5952290892601013,
      "learning_rate": 0.00013451762454053066,
      "loss": 1.595,
      "step": 61856
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6118463277816772,
      "learning_rate": 0.0001345089064936708,
      "loss": 1.4907,
      "step": 61857
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5644625425338745,
      "learning_rate": 0.00013450018864769262,
      "loss": 1.4942,
      "step": 61858
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.599797248840332,
      "learning_rate": 0.0001344914710026069,
      "loss": 1.5772,
      "step": 61859
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5883099436759949,
      "learning_rate": 0.0001344827535584241,
      "loss": 1.6347,
      "step": 61860
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5971429347991943,
      "learning_rate": 0.00013447403631515494,
      "loss": 1.487,
      "step": 61861
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5746011137962341,
      "learning_rate": 0.0001344653192728099,
      "loss": 1.5745,
      "step": 61862
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5758606195449829,
      "learning_rate": 0.00013445660243139947,
      "loss": 1.4857,
      "step": 61863
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5635823607444763,
      "learning_rate": 0.00013444788579093444,
      "loss": 1.4543,
      "step": 61864
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6014057397842407,
      "learning_rate": 0.0001344391693514253,
      "loss": 1.5954,
      "step": 61865
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5869473218917847,
      "learning_rate": 0.00013443045311288247,
      "loss": 1.6404,
      "step": 61866
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5861459970474243,
      "learning_rate": 0.00013442173707531674,
      "loss": 1.4908,
      "step": 61867
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5723192095756531,
      "learning_rate": 0.00013441302123873866,
      "loss": 1.5887,
      "step": 61868
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5894636511802673,
      "learning_rate": 0.00013440430560315882,
      "loss": 1.563,
      "step": 61869
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5866623520851135,
      "learning_rate": 0.0001343955901685876,
      "loss": 1.5467,
      "step": 61870
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5620124340057373,
      "learning_rate": 0.00013438687493503592,
      "loss": 1.5116,
      "step": 61871
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6223204731941223,
      "learning_rate": 0.0001343781599025141,
      "loss": 1.549,
      "step": 61872
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6046893000602722,
      "learning_rate": 0.0001343694450710327,
      "loss": 1.5498,
      "step": 61873
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5848934650421143,
      "learning_rate": 0.00013436073044060238,
      "loss": 1.582,
      "step": 61874
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5978474020957947,
      "learning_rate": 0.00013435201601123397,
      "loss": 1.486,
      "step": 61875
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5840455293655396,
      "learning_rate": 0.00013434330178293757,
      "loss": 1.5286,
      "step": 61876
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5907593369483948,
      "learning_rate": 0.000134334587755724,
      "loss": 1.4832,
      "step": 61877
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5919789671897888,
      "learning_rate": 0.00013432587392960392,
      "loss": 1.5718,
      "step": 61878
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5934862494468689,
      "learning_rate": 0.00013431716030458786,
      "loss": 1.5857,
      "step": 61879
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5823021531105042,
      "learning_rate": 0.00013430844688068624,
      "loss": 1.546,
      "step": 61880
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6091611385345459,
      "learning_rate": 0.0001342997336579097,
      "loss": 1.5159,
      "step": 61881
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5958489179611206,
      "learning_rate": 0.00013429102063626912,
      "loss": 1.5623,
      "step": 61882
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5843760967254639,
      "learning_rate": 0.0001342823078157746,
      "loss": 1.5677,
      "step": 61883
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6070459485054016,
      "learning_rate": 0.00013427359519643697,
      "loss": 1.5742,
      "step": 61884
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5992031693458557,
      "learning_rate": 0.00013426488277826687,
      "loss": 1.5747,
      "step": 61885
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.578014075756073,
      "learning_rate": 0.00013425617056127476,
      "loss": 1.5668,
      "step": 61886
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5909912586212158,
      "learning_rate": 0.00013424745854547117,
      "loss": 1.4829,
      "step": 61887
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6045656800270081,
      "learning_rate": 0.0001342387467308667,
      "loss": 1.4823,
      "step": 61888
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5899097323417664,
      "learning_rate": 0.0001342300351174722,
      "loss": 1.5053,
      "step": 61889
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5899770259857178,
      "learning_rate": 0.0001342213237052978,
      "loss": 1.5334,
      "step": 61890
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6188598871231079,
      "learning_rate": 0.0001342126124943543,
      "loss": 1.593,
      "step": 61891
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5925291776657104,
      "learning_rate": 0.00013420390148465234,
      "loss": 1.5837,
      "step": 61892
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5748198628425598,
      "learning_rate": 0.00013419519067620243,
      "loss": 1.6056,
      "step": 61893
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.583690881729126,
      "learning_rate": 0.000134186480069015,
      "loss": 1.5478,
      "step": 61894
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6086270809173584,
      "learning_rate": 0.0001341777696631008,
      "loss": 1.5889,
      "step": 61895
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5909228920936584,
      "learning_rate": 0.00013416905945847055,
      "loss": 1.6085,
      "step": 61896
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6032710671424866,
      "learning_rate": 0.0001341603494551344,
      "loss": 1.5877,
      "step": 61897
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.591702938079834,
      "learning_rate": 0.00013415163965310316,
      "loss": 1.6671,
      "step": 61898
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5980955958366394,
      "learning_rate": 0.0001341429300523875,
      "loss": 1.5144,
      "step": 61899
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6233538389205933,
      "learning_rate": 0.00013413422065299788,
      "loss": 1.4528,
      "step": 61900
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5766698718070984,
      "learning_rate": 0.00013412551145494474,
      "loss": 1.5153,
      "step": 61901
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5964607000350952,
      "learning_rate": 0.00013411680245823892,
      "loss": 1.4934,
      "step": 61902
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5838210582733154,
      "learning_rate": 0.00013410809366289086,
      "loss": 1.543,
      "step": 61903
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5956853032112122,
      "learning_rate": 0.00013409938506891105,
      "loss": 1.5888,
      "step": 61904
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5875065326690674,
      "learning_rate": 0.00013409067667631013,
      "loss": 1.5216,
      "step": 61905
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6001606583595276,
      "learning_rate": 0.00013408196848509876,
      "loss": 1.5541,
      "step": 61906
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6144005656242371,
      "learning_rate": 0.00013407326049528747,
      "loss": 1.5737,
      "step": 61907
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5757353901863098,
      "learning_rate": 0.00013406455270688667,
      "loss": 1.4942,
      "step": 61908
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6213218569755554,
      "learning_rate": 0.00013405584511990716,
      "loss": 1.5726,
      "step": 61909
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5937033891677856,
      "learning_rate": 0.0001340471377343594,
      "loss": 1.517,
      "step": 61910
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6177698373794556,
      "learning_rate": 0.00013403843055025388,
      "loss": 1.5578,
      "step": 61911
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5816164016723633,
      "learning_rate": 0.00013402972356760134,
      "loss": 1.5393,
      "step": 61912
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5711873173713684,
      "learning_rate": 0.00013402101678641214,
      "loss": 1.5311,
      "step": 61913
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5666095018386841,
      "learning_rate": 0.00013401231020669708,
      "loss": 1.509,
      "step": 61914
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6100125908851624,
      "learning_rate": 0.00013400360382846653,
      "loss": 1.5353,
      "step": 61915
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5813485383987427,
      "learning_rate": 0.00013399489765173126,
      "loss": 1.5579,
      "step": 61916
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6031379699707031,
      "learning_rate": 0.00013398619167650168,
      "loss": 1.5029,
      "step": 61917
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5886850953102112,
      "learning_rate": 0.00013397748590278835,
      "loss": 1.5,
      "step": 61918
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.573728621006012,
      "learning_rate": 0.000133968780330602,
      "loss": 1.5521,
      "step": 61919
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6017467379570007,
      "learning_rate": 0.00013396007495995293,
      "loss": 1.5204,
      "step": 61920
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5999485850334167,
      "learning_rate": 0.000133951369790852,
      "loss": 1.5407,
      "step": 61921
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5854524374008179,
      "learning_rate": 0.00013394266482330964,
      "loss": 1.5152,
      "step": 61922
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6132428050041199,
      "learning_rate": 0.00013393396005733632,
      "loss": 1.5602,
      "step": 61923
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5683278441429138,
      "learning_rate": 0.00013392525549294276,
      "loss": 1.5169,
      "step": 61924
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5881255269050598,
      "learning_rate": 0.0001339165511301394,
      "loss": 1.5246,
      "step": 61925
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5812316536903381,
      "learning_rate": 0.000133907846968937,
      "loss": 1.4994,
      "step": 61926
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5931758284568787,
      "learning_rate": 0.00013389914300934586,
      "loss": 1.549,
      "step": 61927
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5997584462165833,
      "learning_rate": 0.00013389043925137682,
      "loss": 1.5152,
      "step": 61928
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5914517641067505,
      "learning_rate": 0.0001338817356950403,
      "loss": 1.5003,
      "step": 61929
    },
    {
      "epoch": 2.06,
      "grad_norm": 1.1852500438690186,
      "learning_rate": 0.00013387303234034677,
      "loss": 1.5208,
      "step": 61930
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5982430577278137,
      "learning_rate": 0.000133864329187307,
      "loss": 1.5419,
      "step": 61931
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.591823160648346,
      "learning_rate": 0.0001338556262359315,
      "loss": 1.5022,
      "step": 61932
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5964492559432983,
      "learning_rate": 0.00013384692348623062,
      "loss": 1.6141,
      "step": 61933
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6046925187110901,
      "learning_rate": 0.00013383822093821513,
      "loss": 1.5484,
      "step": 61934
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5891776084899902,
      "learning_rate": 0.00013382951859189566,
      "loss": 1.6336,
      "step": 61935
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5758923292160034,
      "learning_rate": 0.00013382081644728265,
      "loss": 1.5685,
      "step": 61936
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5643224716186523,
      "learning_rate": 0.0001338121145043866,
      "loss": 1.4809,
      "step": 61937
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5770887136459351,
      "learning_rate": 0.00013380341276321824,
      "loss": 1.5089,
      "step": 61938
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5828178524971008,
      "learning_rate": 0.00013379471122378807,
      "loss": 1.5969,
      "step": 61939
    },
    {
      "epoch": 2.06,
      "grad_norm": 1.0194036960601807,
      "learning_rate": 0.00013378600988610652,
      "loss": 1.591,
      "step": 61940
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6208465099334717,
      "learning_rate": 0.00013377730875018424,
      "loss": 1.6004,
      "step": 61941
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5935325622558594,
      "learning_rate": 0.00013376860781603197,
      "loss": 1.505,
      "step": 61942
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5858120918273926,
      "learning_rate": 0.0001337599070836601,
      "loss": 1.5084,
      "step": 61943
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5796217322349548,
      "learning_rate": 0.00013375120655307907,
      "loss": 1.4823,
      "step": 61944
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.584728479385376,
      "learning_rate": 0.0001337425062242996,
      "loss": 1.609,
      "step": 61945
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5822563767433167,
      "learning_rate": 0.00013373380609733244,
      "loss": 1.5629,
      "step": 61946
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.576733410358429,
      "learning_rate": 0.00013372510617218775,
      "loss": 1.4918,
      "step": 61947
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5860205888748169,
      "learning_rate": 0.00013371640644887624,
      "loss": 1.4565,
      "step": 61948
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5945904850959778,
      "learning_rate": 0.00013370770692740867,
      "loss": 1.5726,
      "step": 61949
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6143404841423035,
      "learning_rate": 0.0001336990076077954,
      "loss": 1.498,
      "step": 61950
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5761702060699463,
      "learning_rate": 0.00013369030849004696,
      "loss": 1.5591,
      "step": 61951
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5972190499305725,
      "learning_rate": 0.00013368160957417407,
      "loss": 1.5629,
      "step": 61952
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5882540345191956,
      "learning_rate": 0.0001336729108601872,
      "loss": 1.6238,
      "step": 61953
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6044245958328247,
      "learning_rate": 0.0001336642123480968,
      "loss": 1.515,
      "step": 61954
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5998250246047974,
      "learning_rate": 0.00013365551403791352,
      "loss": 1.5633,
      "step": 61955
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5914850831031799,
      "learning_rate": 0.00013364681592964808,
      "loss": 1.6186,
      "step": 61956
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5828273892402649,
      "learning_rate": 0.00013363811802331087,
      "loss": 1.5623,
      "step": 61957
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5903167128562927,
      "learning_rate": 0.00013362942031891237,
      "loss": 1.5788,
      "step": 61958
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5843997597694397,
      "learning_rate": 0.00013362072281646335,
      "loss": 1.555,
      "step": 61959
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6130673885345459,
      "learning_rate": 0.00013361202551597423,
      "loss": 1.5108,
      "step": 61960
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6014013886451721,
      "learning_rate": 0.00013360332841745554,
      "loss": 1.4905,
      "step": 61961
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5672364234924316,
      "learning_rate": 0.00013359463152091798,
      "loss": 1.5229,
      "step": 61962
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6100739240646362,
      "learning_rate": 0.00013358593482637191,
      "loss": 1.5924,
      "step": 61963
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5901540517807007,
      "learning_rate": 0.00013357723833382808,
      "loss": 1.5846,
      "step": 61964
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5788270831108093,
      "learning_rate": 0.00013356854204329686,
      "loss": 1.4974,
      "step": 61965
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5866936445236206,
      "learning_rate": 0.00013355984595478905,
      "loss": 1.4965,
      "step": 61966
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5750834345817566,
      "learning_rate": 0.00013355115006831504,
      "loss": 1.5707,
      "step": 61967
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6150218844413757,
      "learning_rate": 0.0001335424543838853,
      "loss": 1.5496,
      "step": 61968
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5748035907745361,
      "learning_rate": 0.0001335337589015106,
      "loss": 1.5034,
      "step": 61969
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5962108969688416,
      "learning_rate": 0.00013352506362120128,
      "loss": 1.5196,
      "step": 61970
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5760161876678467,
      "learning_rate": 0.00013351636854296812,
      "loss": 1.4914,
      "step": 61971
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5779523253440857,
      "learning_rate": 0.00013350767366682154,
      "loss": 1.5349,
      "step": 61972
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6120633482933044,
      "learning_rate": 0.000133498978992772,
      "loss": 1.6078,
      "step": 61973
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.575901210308075,
      "learning_rate": 0.00013349028452083031,
      "loss": 1.4872,
      "step": 61974
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6096068024635315,
      "learning_rate": 0.00013348159025100675,
      "loss": 1.5775,
      "step": 61975
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5796031951904297,
      "learning_rate": 0.00013347289618331212,
      "loss": 1.4547,
      "step": 61976
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6138294339179993,
      "learning_rate": 0.00013346420231775675,
      "loss": 1.5988,
      "step": 61977
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.597752571105957,
      "learning_rate": 0.00013345550865435143,
      "loss": 1.5167,
      "step": 61978
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5786408185958862,
      "learning_rate": 0.00013344681519310655,
      "loss": 1.498,
      "step": 61979
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6069315671920776,
      "learning_rate": 0.00013343812193403258,
      "loss": 1.5878,
      "step": 61980
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5924404859542847,
      "learning_rate": 0.0001334294288771403,
      "loss": 1.4991,
      "step": 61981
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5812912583351135,
      "learning_rate": 0.00013342073602244019,
      "loss": 1.5692,
      "step": 61982
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5818836688995361,
      "learning_rate": 0.00013341204336994264,
      "loss": 1.5594,
      "step": 61983
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5717543363571167,
      "learning_rate": 0.0001334033509196583,
      "loss": 1.4921,
      "step": 61984
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5643210411071777,
      "learning_rate": 0.00013339465867159785,
      "loss": 1.4829,
      "step": 61985
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6004973649978638,
      "learning_rate": 0.00013338596662577175,
      "loss": 1.5273,
      "step": 61986
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5883123278617859,
      "learning_rate": 0.00013337727478219044,
      "loss": 1.5823,
      "step": 61987
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5715020895004272,
      "learning_rate": 0.00013336858314086467,
      "loss": 1.5578,
      "step": 61988
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5827283263206482,
      "learning_rate": 0.00013335989170180486,
      "loss": 1.5805,
      "step": 61989
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5976412892341614,
      "learning_rate": 0.0001333512004650215,
      "loss": 1.4761,
      "step": 61990
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5820309519767761,
      "learning_rate": 0.00013334250943052524,
      "loss": 1.4934,
      "step": 61991
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5622940063476562,
      "learning_rate": 0.00013333381859832684,
      "loss": 1.5369,
      "step": 61992
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6063697338104248,
      "learning_rate": 0.0001333251279684364,
      "loss": 1.5945,
      "step": 61993
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5922252535820007,
      "learning_rate": 0.00013331643754086467,
      "loss": 1.5453,
      "step": 61994
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5845204591751099,
      "learning_rate": 0.00013330774731562235,
      "loss": 1.6151,
      "step": 61995
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5952045321464539,
      "learning_rate": 0.00013329905729271988,
      "loss": 1.4854,
      "step": 61996
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.604907214641571,
      "learning_rate": 0.0001332903674721677,
      "loss": 1.4701,
      "step": 61997
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5921648144721985,
      "learning_rate": 0.00013328167785397641,
      "loss": 1.455,
      "step": 61998
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5857608318328857,
      "learning_rate": 0.00013327298843815682,
      "loss": 1.5882,
      "step": 61999
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6122518181800842,
      "learning_rate": 0.00013326429922471908,
      "loss": 1.5171,
      "step": 62000
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5779842734336853,
      "learning_rate": 0.00013325561021367385,
      "loss": 1.6055,
      "step": 62001
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5777617692947388,
      "learning_rate": 0.0001332469214050319,
      "loss": 1.4934,
      "step": 62002
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5890717506408691,
      "learning_rate": 0.00013323823279880358,
      "loss": 1.584,
      "step": 62003
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6157624125480652,
      "learning_rate": 0.00013322954439499938,
      "loss": 1.5762,
      "step": 62004
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5956380367279053,
      "learning_rate": 0.00013322085619362997,
      "loss": 1.5099,
      "step": 62005
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5678640604019165,
      "learning_rate": 0.00013321216819470606,
      "loss": 1.4864,
      "step": 62006
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6387290358543396,
      "learning_rate": 0.00013320348039823777,
      "loss": 1.6299,
      "step": 62007
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6018341183662415,
      "learning_rate": 0.0001331947928042359,
      "loss": 1.531,
      "step": 62008
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5947062969207764,
      "learning_rate": 0.00013318610541271107,
      "loss": 1.5015,
      "step": 62009
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6180284023284912,
      "learning_rate": 0.0001331774182236737,
      "loss": 1.6315,
      "step": 62010
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6095654964447021,
      "learning_rate": 0.00013316873123713432,
      "loss": 1.5842,
      "step": 62011
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.610456645488739,
      "learning_rate": 0.0001331600444531036,
      "loss": 1.5536,
      "step": 62012
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5729055404663086,
      "learning_rate": 0.000133151357871592,
      "loss": 1.4867,
      "step": 62013
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5844321846961975,
      "learning_rate": 0.00013314267149260994,
      "loss": 1.5487,
      "step": 62014
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6186122298240662,
      "learning_rate": 0.00013313398531616813,
      "loss": 1.5419,
      "step": 62015
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5914933681488037,
      "learning_rate": 0.00013312529934227717,
      "loss": 1.5552,
      "step": 62016
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5980600714683533,
      "learning_rate": 0.0001331166135709475,
      "loss": 1.4986,
      "step": 62017
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.599779486656189,
      "learning_rate": 0.00013310792800218956,
      "loss": 1.5593,
      "step": 62018
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.591611921787262,
      "learning_rate": 0.0001330992426360141,
      "loss": 1.4628,
      "step": 62019
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.599177360534668,
      "learning_rate": 0.0001330905574724316,
      "loss": 1.5487,
      "step": 62020
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6044039130210876,
      "learning_rate": 0.00013308187251145247,
      "loss": 1.585,
      "step": 62021
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.573189914226532,
      "learning_rate": 0.00013307318775308732,
      "loss": 1.445,
      "step": 62022
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5729397535324097,
      "learning_rate": 0.00013306450319734684,
      "loss": 1.5667,
      "step": 62023
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5746563076972961,
      "learning_rate": 0.00013305581884424147,
      "loss": 1.5815,
      "step": 62024
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5960690379142761,
      "learning_rate": 0.00013304713469378164,
      "loss": 1.5271,
      "step": 62025
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5812729001045227,
      "learning_rate": 0.00013303845074597804,
      "loss": 1.5434,
      "step": 62026
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5752889513969421,
      "learning_rate": 0.00013302976700084123,
      "loss": 1.4913,
      "step": 62027
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5921750068664551,
      "learning_rate": 0.00013302108345838155,
      "loss": 1.564,
      "step": 62028
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6125693321228027,
      "learning_rate": 0.00013301240011860975,
      "loss": 1.5854,
      "step": 62029
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5929411053657532,
      "learning_rate": 0.00013300371698153624,
      "loss": 1.5928,
      "step": 62030
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5781087279319763,
      "learning_rate": 0.00013299503404717164,
      "loss": 1.5449,
      "step": 62031
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6040962338447571,
      "learning_rate": 0.0001329863513155264,
      "loss": 1.5662,
      "step": 62032
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5917558073997498,
      "learning_rate": 0.00013297766878661124,
      "loss": 1.561,
      "step": 62033
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5947723388671875,
      "learning_rate": 0.00013296898646043658,
      "loss": 1.5105,
      "step": 62034
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5707445740699768,
      "learning_rate": 0.0001329603043370128,
      "loss": 1.5086,
      "step": 62035
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.579935610294342,
      "learning_rate": 0.00013295162241635077,
      "loss": 1.5512,
      "step": 62036
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5771819949150085,
      "learning_rate": 0.00013294294069846074,
      "loss": 1.5222,
      "step": 62037
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5798912644386292,
      "learning_rate": 0.00013293425918335343,
      "loss": 1.5937,
      "step": 62038
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5851849913597107,
      "learning_rate": 0.00013292557787103937,
      "loss": 1.5097,
      "step": 62039
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5913577079772949,
      "learning_rate": 0.00013291689676152893,
      "loss": 1.5272,
      "step": 62040
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.610093891620636,
      "learning_rate": 0.0001329082158548328,
      "loss": 1.5403,
      "step": 62041
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.602546215057373,
      "learning_rate": 0.0001328995351509614,
      "loss": 1.5589,
      "step": 62042
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5872793793678284,
      "learning_rate": 0.00013289085464992547,
      "loss": 1.5569,
      "step": 62043
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5918958187103271,
      "learning_rate": 0.0001328821743517353,
      "loss": 1.5056,
      "step": 62044
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6133317351341248,
      "learning_rate": 0.00013287349425640166,
      "loss": 1.5757,
      "step": 62045
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5969942808151245,
      "learning_rate": 0.000132864814363935,
      "loss": 1.5856,
      "step": 62046
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6302058100700378,
      "learning_rate": 0.0001328561346743457,
      "loss": 1.4999,
      "step": 62047
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5983044505119324,
      "learning_rate": 0.0001328474551876445,
      "loss": 1.5577,
      "step": 62048
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5833028554916382,
      "learning_rate": 0.0001328387759038419,
      "loss": 1.5467,
      "step": 62049
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6108127236366272,
      "learning_rate": 0.00013283009682294827,
      "loss": 1.5977,
      "step": 62050
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5893864035606384,
      "learning_rate": 0.0001328214179449743,
      "loss": 1.6046,
      "step": 62051
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5775184035301208,
      "learning_rate": 0.00013281273926993057,
      "loss": 1.5502,
      "step": 62052
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5927706360816956,
      "learning_rate": 0.00013280406079782756,
      "loss": 1.5197,
      "step": 62053
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6159508228302002,
      "learning_rate": 0.00013279538252867565,
      "loss": 1.5929,
      "step": 62054
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5996087193489075,
      "learning_rate": 0.00013278670446248563,
      "loss": 1.5112,
      "step": 62055
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6036602258682251,
      "learning_rate": 0.00013277802659926794,
      "loss": 1.5373,
      "step": 62056
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.563701868057251,
      "learning_rate": 0.00013276934893903292,
      "loss": 1.5715,
      "step": 62057
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5884275436401367,
      "learning_rate": 0.00013276067148179134,
      "loss": 1.549,
      "step": 62058
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6132927536964417,
      "learning_rate": 0.0001327519942275537,
      "loss": 1.5611,
      "step": 62059
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6279192566871643,
      "learning_rate": 0.00013274331717633056,
      "loss": 1.5755,
      "step": 62060
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6028270721435547,
      "learning_rate": 0.00013273464032813223,
      "loss": 1.508,
      "step": 62061
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5858960747718811,
      "learning_rate": 0.00013272596368296943,
      "loss": 1.5302,
      "step": 62062
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5782150030136108,
      "learning_rate": 0.00013271728724085287,
      "loss": 1.5628,
      "step": 62063
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5803402662277222,
      "learning_rate": 0.00013270861100179266,
      "loss": 1.5127,
      "step": 62064
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6078987121582031,
      "learning_rate": 0.00013269993496579956,
      "loss": 1.6091,
      "step": 62065
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6245273947715759,
      "learning_rate": 0.0001326912591328842,
      "loss": 1.5073,
      "step": 62066
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5823410749435425,
      "learning_rate": 0.00013268258350305698,
      "loss": 1.5619,
      "step": 62067
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5794550776481628,
      "learning_rate": 0.00013267390807632836,
      "loss": 1.5935,
      "step": 62068
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5933355093002319,
      "learning_rate": 0.00013266523285270906,
      "loss": 1.4996,
      "step": 62069
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5886592864990234,
      "learning_rate": 0.0001326565578322095,
      "loss": 1.6707,
      "step": 62070
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6164524555206299,
      "learning_rate": 0.00013264788301484013,
      "loss": 1.6329,
      "step": 62071
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5986270904541016,
      "learning_rate": 0.00013263920840061156,
      "loss": 1.5208,
      "step": 62072
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5975082516670227,
      "learning_rate": 0.00013263053398953446,
      "loss": 1.61,
      "step": 62073
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.58405601978302,
      "learning_rate": 0.00013262185978161922,
      "loss": 1.6021,
      "step": 62074
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5826029777526855,
      "learning_rate": 0.00013261318577687624,
      "loss": 1.5385,
      "step": 62075
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.600094735622406,
      "learning_rate": 0.00013260451197531634,
      "loss": 1.5546,
      "step": 62076
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6119524240493774,
      "learning_rate": 0.00013259583837694987,
      "loss": 1.5921,
      "step": 62077
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5996425747871399,
      "learning_rate": 0.00013258716498178733,
      "loss": 1.6167,
      "step": 62078
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5991028547286987,
      "learning_rate": 0.00013257849178983935,
      "loss": 1.558,
      "step": 62079
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6092827916145325,
      "learning_rate": 0.00013256981880111634,
      "loss": 1.5306,
      "step": 62080
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5834061503410339,
      "learning_rate": 0.00013256114601562898,
      "loss": 1.5456,
      "step": 62081
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5944799184799194,
      "learning_rate": 0.00013255247343338763,
      "loss": 1.5497,
      "step": 62082
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5997015833854675,
      "learning_rate": 0.000132543801054403,
      "loss": 1.5638,
      "step": 62083
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6027888655662537,
      "learning_rate": 0.00013253512887868553,
      "loss": 1.5422,
      "step": 62084
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5653952360153198,
      "learning_rate": 0.00013252645690624567,
      "loss": 1.5139,
      "step": 62085
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6200868487358093,
      "learning_rate": 0.00013251778513709406,
      "loss": 1.5364,
      "step": 62086
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5922889709472656,
      "learning_rate": 0.00013250911357124112,
      "loss": 1.5207,
      "step": 62087
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5812981128692627,
      "learning_rate": 0.0001325004422086975,
      "loss": 1.571,
      "step": 62088
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6121033430099487,
      "learning_rate": 0.0001324917710494737,
      "loss": 1.5768,
      "step": 62089
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6071582436561584,
      "learning_rate": 0.0001324831000935801,
      "loss": 1.4949,
      "step": 62090
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6083313226699829,
      "learning_rate": 0.00013247442934102743,
      "loss": 1.4601,
      "step": 62091
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6267595291137695,
      "learning_rate": 0.00013246575879182602,
      "loss": 1.5473,
      "step": 62092
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.591494619846344,
      "learning_rate": 0.00013245708844598661,
      "loss": 1.6153,
      "step": 62093
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5812260508537292,
      "learning_rate": 0.00013244841830351947,
      "loss": 1.5167,
      "step": 62094
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5804306268692017,
      "learning_rate": 0.00013243974836443537,
      "loss": 1.5283,
      "step": 62095
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5828741788864136,
      "learning_rate": 0.00013243107862874476,
      "loss": 1.4832,
      "step": 62096
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5737890601158142,
      "learning_rate": 0.00013242240909645798,
      "loss": 1.5295,
      "step": 62097
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5915545225143433,
      "learning_rate": 0.00013241373976758587,
      "loss": 1.5582,
      "step": 62098
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5699402093887329,
      "learning_rate": 0.00013240507064213872,
      "loss": 1.5785,
      "step": 62099
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5975859761238098,
      "learning_rate": 0.00013239640172012706,
      "loss": 1.6265,
      "step": 62100
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5770060420036316,
      "learning_rate": 0.00013238773300156147,
      "loss": 1.5317,
      "step": 62101
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6075661182403564,
      "learning_rate": 0.00013237906448645257,
      "loss": 1.6071,
      "step": 62102
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6059826612472534,
      "learning_rate": 0.0001323703961748108,
      "loss": 1.5243,
      "step": 62103
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.579856812953949,
      "learning_rate": 0.00013236172806664655,
      "loss": 1.531,
      "step": 62104
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5623880624771118,
      "learning_rate": 0.00013235306016197055,
      "loss": 1.5786,
      "step": 62105
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5891830921173096,
      "learning_rate": 0.00013234439246079325,
      "loss": 1.5591,
      "step": 62106
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5940966606140137,
      "learning_rate": 0.00013233572496312507,
      "loss": 1.5516,
      "step": 62107
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6152895092964172,
      "learning_rate": 0.00013232705766897662,
      "loss": 1.5508,
      "step": 62108
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6168436408042908,
      "learning_rate": 0.00013231839057835859,
      "loss": 1.5107,
      "step": 62109
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5867916941642761,
      "learning_rate": 0.00013230972369128113,
      "loss": 1.5619,
      "step": 62110
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5774295926094055,
      "learning_rate": 0.00013230105700775497,
      "loss": 1.583,
      "step": 62111
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5886150002479553,
      "learning_rate": 0.0001322923905277907,
      "loss": 1.5367,
      "step": 62112
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5834705829620361,
      "learning_rate": 0.00013228372425139878,
      "loss": 1.5263,
      "step": 62113
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5931680202484131,
      "learning_rate": 0.00013227505817858958,
      "loss": 1.596,
      "step": 62114
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6211805939674377,
      "learning_rate": 0.00013226639230937376,
      "loss": 1.619,
      "step": 62115
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5952210426330566,
      "learning_rate": 0.00013225772664376205,
      "loss": 1.5178,
      "step": 62116
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.596422016620636,
      "learning_rate": 0.00013224906118176452,
      "loss": 1.553,
      "step": 62117
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.576318085193634,
      "learning_rate": 0.0001322403959233919,
      "loss": 1.5228,
      "step": 62118
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5853083729743958,
      "learning_rate": 0.00013223173086865484,
      "loss": 1.4937,
      "step": 62119
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5870398879051208,
      "learning_rate": 0.00013222306601756375,
      "loss": 1.4794,
      "step": 62120
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5988137722015381,
      "learning_rate": 0.00013221440137012902,
      "loss": 1.5228,
      "step": 62121
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5766692161560059,
      "learning_rate": 0.00013220573692636128,
      "loss": 1.4641,
      "step": 62122
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5845557451248169,
      "learning_rate": 0.00013219707268627128,
      "loss": 1.5975,
      "step": 62123
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5933698415756226,
      "learning_rate": 0.00013218840864986909,
      "loss": 1.6174,
      "step": 62124
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6047793030738831,
      "learning_rate": 0.00013217974481716542,
      "loss": 1.4899,
      "step": 62125
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6023982167243958,
      "learning_rate": 0.00013217108118817095,
      "loss": 1.5269,
      "step": 62126
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5844265222549438,
      "learning_rate": 0.00013216241776289604,
      "loss": 1.5282,
      "step": 62127
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6018247008323669,
      "learning_rate": 0.00013215375454135112,
      "loss": 1.5659,
      "step": 62128
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6025550365447998,
      "learning_rate": 0.00013214509152354692,
      "loss": 1.4363,
      "step": 62129
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5806440114974976,
      "learning_rate": 0.00013213642870949386,
      "loss": 1.5291,
      "step": 62130
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5663208365440369,
      "learning_rate": 0.0001321277660992023,
      "loss": 1.5015,
      "step": 62131
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6163788437843323,
      "learning_rate": 0.00013211910369268295,
      "loss": 1.6165,
      "step": 62132
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.626724362373352,
      "learning_rate": 0.00013211044148994636,
      "loss": 1.5392,
      "step": 62133
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5679353475570679,
      "learning_rate": 0.00013210177949100294,
      "loss": 1.5485,
      "step": 62134
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5894936323165894,
      "learning_rate": 0.00013209311769586313,
      "loss": 1.5739,
      "step": 62135
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5928637385368347,
      "learning_rate": 0.00013208445610453763,
      "loss": 1.4606,
      "step": 62136
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6112858057022095,
      "learning_rate": 0.0001320757947170369,
      "loss": 1.5736,
      "step": 62137
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5689367651939392,
      "learning_rate": 0.00013206713353337124,
      "loss": 1.5864,
      "step": 62138
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5860673189163208,
      "learning_rate": 0.00013205847255355133,
      "loss": 1.5345,
      "step": 62139
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6047796010971069,
      "learning_rate": 0.00013204981177758788,
      "loss": 1.5517,
      "step": 62140
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6102496981620789,
      "learning_rate": 0.00013204115120549114,
      "loss": 1.5431,
      "step": 62141
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5865679979324341,
      "learning_rate": 0.0001320324908372716,
      "loss": 1.5583,
      "step": 62142
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5845941305160522,
      "learning_rate": 0.00013202383067294,
      "loss": 1.5103,
      "step": 62143
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5753771662712097,
      "learning_rate": 0.00013201517071250671,
      "loss": 1.6199,
      "step": 62144
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6101784110069275,
      "learning_rate": 0.00013200651095598214,
      "loss": 1.5588,
      "step": 62145
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6251785755157471,
      "learning_rate": 0.00013199785140337702,
      "loss": 1.5632,
      "step": 62146
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5817968845367432,
      "learning_rate": 0.00013198919205470165,
      "loss": 1.6215,
      "step": 62147
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5800940990447998,
      "learning_rate": 0.00013198053290996677,
      "loss": 1.5767,
      "step": 62148
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6084174513816833,
      "learning_rate": 0.00013197187396918263,
      "loss": 1.4823,
      "step": 62149
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5948936343193054,
      "learning_rate": 0.00013196321523236,
      "loss": 1.5888,
      "step": 62150
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5802724957466125,
      "learning_rate": 0.00013195455669950926,
      "loss": 1.5679,
      "step": 62151
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6162845492362976,
      "learning_rate": 0.00013194589837064083,
      "loss": 1.4902,
      "step": 62152
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6084750890731812,
      "learning_rate": 0.00013193724024576541,
      "loss": 1.5201,
      "step": 62153
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5869225859642029,
      "learning_rate": 0.00013192858232489332,
      "loss": 1.6001,
      "step": 62154
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5776844024658203,
      "learning_rate": 0.00013191992460803527,
      "loss": 1.5797,
      "step": 62155
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6219895482063293,
      "learning_rate": 0.0001319112670952017,
      "loss": 1.5323,
      "step": 62156
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5998069047927856,
      "learning_rate": 0.0001319026097864029,
      "loss": 1.6122,
      "step": 62157
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5992072224617004,
      "learning_rate": 0.00013189395268164975,
      "loss": 1.5399,
      "step": 62158
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5765588283538818,
      "learning_rate": 0.00013188529578095243,
      "loss": 1.5175,
      "step": 62159
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5673914551734924,
      "learning_rate": 0.0001318766390843217,
      "loss": 1.5299,
      "step": 62160
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5861022472381592,
      "learning_rate": 0.00013186798259176783,
      "loss": 1.5006,
      "step": 62161
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6011956930160522,
      "learning_rate": 0.00013185932630330158,
      "loss": 1.5604,
      "step": 62162
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6174290776252747,
      "learning_rate": 0.00013185067021893334,
      "loss": 1.5116,
      "step": 62163
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5994526147842407,
      "learning_rate": 0.00013184201433867352,
      "loss": 1.5645,
      "step": 62164
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5989434123039246,
      "learning_rate": 0.0001318333586625328,
      "loss": 1.6139,
      "step": 62165
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5727769732475281,
      "learning_rate": 0.0001318247031905216,
      "loss": 1.4805,
      "step": 62166
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5968790054321289,
      "learning_rate": 0.00013181604792265034,
      "loss": 1.535,
      "step": 62167
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5805580019950867,
      "learning_rate": 0.00013180739285892959,
      "loss": 1.5567,
      "step": 62168
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.569695234298706,
      "learning_rate": 0.00013179873799937003,
      "loss": 1.5351,
      "step": 62169
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5866791605949402,
      "learning_rate": 0.000131790083343982,
      "loss": 1.5431,
      "step": 62170
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5796855688095093,
      "learning_rate": 0.0001317814288927759,
      "loss": 1.4369,
      "step": 62171
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5925776958465576,
      "learning_rate": 0.00013177277464576238,
      "loss": 1.6071,
      "step": 62172
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.579051673412323,
      "learning_rate": 0.00013176412060295214,
      "loss": 1.5495,
      "step": 62173
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5738849639892578,
      "learning_rate": 0.00013175546676435528,
      "loss": 1.5291,
      "step": 62174
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5873950123786926,
      "learning_rate": 0.00013174681312998245,
      "loss": 1.5381,
      "step": 62175
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5985317230224609,
      "learning_rate": 0.0001317381596998443,
      "loss": 1.5609,
      "step": 62176
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5777071714401245,
      "learning_rate": 0.00013172950647395126,
      "loss": 1.6211,
      "step": 62177
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.555972695350647,
      "learning_rate": 0.0001317208534523137,
      "loss": 1.5987,
      "step": 62178
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5898223519325256,
      "learning_rate": 0.0001317122006349422,
      "loss": 1.5328,
      "step": 62179
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5962303280830383,
      "learning_rate": 0.00013170354802184752,
      "loss": 1.5292,
      "step": 62180
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.578478217124939,
      "learning_rate": 0.00013169489561303972,
      "loss": 1.5278,
      "step": 62181
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6213220953941345,
      "learning_rate": 0.00013168624340852955,
      "loss": 1.5411,
      "step": 62182
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5825130939483643,
      "learning_rate": 0.00013167759140832758,
      "loss": 1.5123,
      "step": 62183
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5924072861671448,
      "learning_rate": 0.00013166893961244418,
      "loss": 1.5835,
      "step": 62184
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5791036486625671,
      "learning_rate": 0.00013166028802088977,
      "loss": 1.5093,
      "step": 62185
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5665572285652161,
      "learning_rate": 0.00013165163663367513,
      "loss": 1.5882,
      "step": 62186
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.590678334236145,
      "learning_rate": 0.00013164298545081054,
      "loss": 1.5689,
      "step": 62187
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.588027834892273,
      "learning_rate": 0.00013163433447230648,
      "loss": 1.5704,
      "step": 62188
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5710673332214355,
      "learning_rate": 0.00013162568369817353,
      "loss": 1.4375,
      "step": 62189
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5936964750289917,
      "learning_rate": 0.0001316170331284223,
      "loss": 1.5337,
      "step": 62190
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.603171169757843,
      "learning_rate": 0.00013160838276306318,
      "loss": 1.593,
      "step": 62191
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6011803150177002,
      "learning_rate": 0.00013159973260210657,
      "loss": 1.5852,
      "step": 62192
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5934715867042542,
      "learning_rate": 0.00013159108264556316,
      "loss": 1.5521,
      "step": 62193
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5759562849998474,
      "learning_rate": 0.00013158243289344338,
      "loss": 1.5752,
      "step": 62194
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5940852761268616,
      "learning_rate": 0.0001315737833457576,
      "loss": 1.5228,
      "step": 62195
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5943771004676819,
      "learning_rate": 0.00013156513400251654,
      "loss": 1.5235,
      "step": 62196
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6070327162742615,
      "learning_rate": 0.00013155648486373045,
      "loss": 1.4911,
      "step": 62197
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5788398385047913,
      "learning_rate": 0.00013154783592941012,
      "loss": 1.5421,
      "step": 62198
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6105751991271973,
      "learning_rate": 0.00013153918719956576,
      "loss": 1.533,
      "step": 62199
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5931947827339172,
      "learning_rate": 0.00013153053867420814,
      "loss": 1.5666,
      "step": 62200
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5624375939369202,
      "learning_rate": 0.0001315218903533476,
      "loss": 1.5135,
      "step": 62201
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5910850167274475,
      "learning_rate": 0.00013151324223699458,
      "loss": 1.528,
      "step": 62202
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6286659240722656,
      "learning_rate": 0.00013150459432515973,
      "loss": 1.5563,
      "step": 62203
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5762225389480591,
      "learning_rate": 0.00013149594661785339,
      "loss": 1.5385,
      "step": 62204
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6085699796676636,
      "learning_rate": 0.00013148729911508625,
      "loss": 1.5542,
      "step": 62205
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.577191174030304,
      "learning_rate": 0.00013147865181686869,
      "loss": 1.4959,
      "step": 62206
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5843852162361145,
      "learning_rate": 0.00013147000472321112,
      "loss": 1.5307,
      "step": 62207
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6016745567321777,
      "learning_rate": 0.00013146135783412424,
      "loss": 1.6423,
      "step": 62208
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6148990392684937,
      "learning_rate": 0.00013145271114961833,
      "loss": 1.5653,
      "step": 62209
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6274097561836243,
      "learning_rate": 0.0001314440646697041,
      "loss": 1.5527,
      "step": 62210
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.571405827999115,
      "learning_rate": 0.00013143541839439184,
      "loss": 1.5276,
      "step": 62211
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.592477560043335,
      "learning_rate": 0.00013142677232369225,
      "loss": 1.5551,
      "step": 62212
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5840016603469849,
      "learning_rate": 0.0001314181264576157,
      "loss": 1.5242,
      "step": 62213
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5890609622001648,
      "learning_rate": 0.0001314094807961726,
      "loss": 1.5315,
      "step": 62214
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6077606678009033,
      "learning_rate": 0.00013140083533937368,
      "loss": 1.5746,
      "step": 62215
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6097136735916138,
      "learning_rate": 0.0001313921900872293,
      "loss": 1.6524,
      "step": 62216
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5707346200942993,
      "learning_rate": 0.00013138354503974982,
      "loss": 1.4996,
      "step": 62217
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5878073573112488,
      "learning_rate": 0.00013137490019694592,
      "loss": 1.4705,
      "step": 62218
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6067793369293213,
      "learning_rate": 0.00013136625555882812,
      "loss": 1.5342,
      "step": 62219
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5930430889129639,
      "learning_rate": 0.00013135761112540684,
      "loss": 1.5802,
      "step": 62220
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5975692272186279,
      "learning_rate": 0.00013134896689669248,
      "loss": 1.5784,
      "step": 62221
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5834817886352539,
      "learning_rate": 0.00013134032287269573,
      "loss": 1.566,
      "step": 62222
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5828476548194885,
      "learning_rate": 0.00013133167905342698,
      "loss": 1.558,
      "step": 62223
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5893025994300842,
      "learning_rate": 0.00013132303543889658,
      "loss": 1.5462,
      "step": 62224
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5724169611930847,
      "learning_rate": 0.00013131439202911517,
      "loss": 1.5308,
      "step": 62225
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5764320492744446,
      "learning_rate": 0.0001313057488240935,
      "loss": 1.5461,
      "step": 62226
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5843533277511597,
      "learning_rate": 0.00013129710582384152,
      "loss": 1.6185,
      "step": 62227
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5861095190048218,
      "learning_rate": 0.00013128846302837,
      "loss": 1.526,
      "step": 62228
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5852358341217041,
      "learning_rate": 0.00013127982043768956,
      "loss": 1.5213,
      "step": 62229
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5761423707008362,
      "learning_rate": 0.0001312711780518106,
      "loss": 1.6072,
      "step": 62230
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6115233898162842,
      "learning_rate": 0.00013126253587074339,
      "loss": 1.5162,
      "step": 62231
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5810345411300659,
      "learning_rate": 0.00013125389389449864,
      "loss": 1.514,
      "step": 62232
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5939415097236633,
      "learning_rate": 0.00013124525212308697,
      "loss": 1.5442,
      "step": 62233
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5807009339332581,
      "learning_rate": 0.0001312366105565185,
      "loss": 1.4706,
      "step": 62234
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5830246806144714,
      "learning_rate": 0.00013122796919480396,
      "loss": 1.5213,
      "step": 62235
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6148889064788818,
      "learning_rate": 0.00013121932803795386,
      "loss": 1.571,
      "step": 62236
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5990046262741089,
      "learning_rate": 0.00013121068708597865,
      "loss": 1.6443,
      "step": 62237
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5950667262077332,
      "learning_rate": 0.00013120204633888867,
      "loss": 1.5463,
      "step": 62238
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6193777918815613,
      "learning_rate": 0.00013119340579669455,
      "loss": 1.5236,
      "step": 62239
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.570422351360321,
      "learning_rate": 0.00013118476545940697,
      "loss": 1.5859,
      "step": 62240
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6058679223060608,
      "learning_rate": 0.00013117612532703599,
      "loss": 1.5277,
      "step": 62241
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5928608179092407,
      "learning_rate": 0.00013116748539959233,
      "loss": 1.5617,
      "step": 62242
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6112765073776245,
      "learning_rate": 0.00013115884567708658,
      "loss": 1.5611,
      "step": 62243
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6009155511856079,
      "learning_rate": 0.0001311502061595291,
      "loss": 1.606,
      "step": 62244
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5982813835144043,
      "learning_rate": 0.0001311415668469303,
      "loss": 1.5636,
      "step": 62245
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5712115168571472,
      "learning_rate": 0.00013113292773930086,
      "loss": 1.5071,
      "step": 62246
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5846545696258545,
      "learning_rate": 0.00013112428883665117,
      "loss": 1.5282,
      "step": 62247
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5879082679748535,
      "learning_rate": 0.0001311156501389916,
      "loss": 1.5654,
      "step": 62248
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5996969938278198,
      "learning_rate": 0.0001311070116463327,
      "loss": 1.556,
      "step": 62249
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6152063012123108,
      "learning_rate": 0.00013109837335868515,
      "loss": 1.6221,
      "step": 62250
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6001055836677551,
      "learning_rate": 0.0001310897352760593,
      "loss": 1.5604,
      "step": 62251
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6190310120582581,
      "learning_rate": 0.0001310810973984655,
      "loss": 1.5188,
      "step": 62252
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6059582829475403,
      "learning_rate": 0.00013107245972591446,
      "loss": 1.6306,
      "step": 62253
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5838704705238342,
      "learning_rate": 0.00013106382225841658,
      "loss": 1.54,
      "step": 62254
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5626519322395325,
      "learning_rate": 0.00013105518499598222,
      "loss": 1.5194,
      "step": 62255
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5939942002296448,
      "learning_rate": 0.00013104654793862205,
      "loss": 1.5228,
      "step": 62256
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5853866338729858,
      "learning_rate": 0.00013103791108634642,
      "loss": 1.5756,
      "step": 62257
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6099267601966858,
      "learning_rate": 0.00013102927443916593,
      "loss": 1.5862,
      "step": 62258
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5939106941223145,
      "learning_rate": 0.00013102063799709095,
      "loss": 1.5018,
      "step": 62259
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5796400904655457,
      "learning_rate": 0.00013101200176013206,
      "loss": 1.5239,
      "step": 62260
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5726891756057739,
      "learning_rate": 0.00013100336572829976,
      "loss": 1.5553,
      "step": 62261
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5888471007347107,
      "learning_rate": 0.00013099472990160433,
      "loss": 1.5094,
      "step": 62262
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6237980723381042,
      "learning_rate": 0.0001309860942800565,
      "loss": 1.5161,
      "step": 62263
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5938223004341125,
      "learning_rate": 0.00013097745886366655,
      "loss": 1.5393,
      "step": 62264
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5962506532669067,
      "learning_rate": 0.00013096882365244518,
      "loss": 1.5484,
      "step": 62265
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.584109365940094,
      "learning_rate": 0.00013096018864640265,
      "loss": 1.6066,
      "step": 62266
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6215751767158508,
      "learning_rate": 0.0001309515538455496,
      "loss": 1.59,
      "step": 62267
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6272358298301697,
      "learning_rate": 0.00013094291924989655,
      "loss": 1.4907,
      "step": 62268
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5988780856132507,
      "learning_rate": 0.0001309342848594537,
      "loss": 1.4596,
      "step": 62269
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5694547891616821,
      "learning_rate": 0.00013092565067423186,
      "loss": 1.5358,
      "step": 62270
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.623612105846405,
      "learning_rate": 0.00013091701669424124,
      "loss": 1.6104,
      "step": 62271
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.588461697101593,
      "learning_rate": 0.00013090838291949256,
      "loss": 1.4541,
      "step": 62272
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6082323789596558,
      "learning_rate": 0.00013089974934999622,
      "loss": 1.5335,
      "step": 62273
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6021445989608765,
      "learning_rate": 0.0001308911159857625,
      "loss": 1.537,
      "step": 62274
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6112617254257202,
      "learning_rate": 0.0001308824828268022,
      "loss": 1.5661,
      "step": 62275
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5912253260612488,
      "learning_rate": 0.00013087384987312553,
      "loss": 1.5633,
      "step": 62276
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5767157673835754,
      "learning_rate": 0.00013086521712474318,
      "loss": 1.5295,
      "step": 62277
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.603481113910675,
      "learning_rate": 0.00013085658458166546,
      "loss": 1.5697,
      "step": 62278
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5815955996513367,
      "learning_rate": 0.00013084795224390302,
      "loss": 1.4756,
      "step": 62279
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6223877668380737,
      "learning_rate": 0.00013083932011146622,
      "loss": 1.6043,
      "step": 62280
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5925084352493286,
      "learning_rate": 0.00013083068818436547,
      "loss": 1.473,
      "step": 62281
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.592568039894104,
      "learning_rate": 0.00013082205646261147,
      "loss": 1.5196,
      "step": 62282
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5734902024269104,
      "learning_rate": 0.00013081342494621455,
      "loss": 1.5571,
      "step": 62283
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5849430561065674,
      "learning_rate": 0.00013080479363518507,
      "loss": 1.5981,
      "step": 62284
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6176624298095703,
      "learning_rate": 0.00013079616252953364,
      "loss": 1.5571,
      "step": 62285
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.584650456905365,
      "learning_rate": 0.0001307875316292709,
      "loss": 1.5278,
      "step": 62286
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5971727967262268,
      "learning_rate": 0.00013077890093440712,
      "loss": 1.5287,
      "step": 62287
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6002814173698425,
      "learning_rate": 0.0001307702704449527,
      "loss": 1.5756,
      "step": 62288
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6257184743881226,
      "learning_rate": 0.00013076164016091827,
      "loss": 1.5424,
      "step": 62289
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5876984000205994,
      "learning_rate": 0.00013075301008231449,
      "loss": 1.5748,
      "step": 62290
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.590713620185852,
      "learning_rate": 0.00013074438020915137,
      "loss": 1.5843,
      "step": 62291
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5946630239486694,
      "learning_rate": 0.00013073575054143964,
      "loss": 1.4973,
      "step": 62292
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5799261331558228,
      "learning_rate": 0.0001307271210791899,
      "loss": 1.599,
      "step": 62293
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5779427886009216,
      "learning_rate": 0.00013071849182241249,
      "loss": 1.5345,
      "step": 62294
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5753310322761536,
      "learning_rate": 0.0001307098627711178,
      "loss": 1.5018,
      "step": 62295
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5829969048500061,
      "learning_rate": 0.00013070123392531634,
      "loss": 1.5429,
      "step": 62296
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5675132274627686,
      "learning_rate": 0.0001306926052850189,
      "loss": 1.5304,
      "step": 62297
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5930768251419067,
      "learning_rate": 0.00013068397685023545,
      "loss": 1.5535,
      "step": 62298
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5870131850242615,
      "learning_rate": 0.0001306753486209767,
      "loss": 1.6219,
      "step": 62299
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5873688459396362,
      "learning_rate": 0.00013066672059725327,
      "loss": 1.4822,
      "step": 62300
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5714679956436157,
      "learning_rate": 0.00013065809277907546,
      "loss": 1.5073,
      "step": 62301
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5952759981155396,
      "learning_rate": 0.00013064946516645366,
      "loss": 1.5543,
      "step": 62302
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6029567122459412,
      "learning_rate": 0.00013064083775939857,
      "loss": 1.6037,
      "step": 62303
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5864919424057007,
      "learning_rate": 0.00013063221055792056,
      "loss": 1.509,
      "step": 62304
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5886408090591431,
      "learning_rate": 0.00013062358356202998,
      "loss": 1.5571,
      "step": 62305
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5720925331115723,
      "learning_rate": 0.00013061495677173742,
      "loss": 1.4912,
      "step": 62306
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5944403409957886,
      "learning_rate": 0.00013060633018705344,
      "loss": 1.556,
      "step": 62307
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.586219310760498,
      "learning_rate": 0.00013059770380798843,
      "loss": 1.601,
      "step": 62308
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5792934894561768,
      "learning_rate": 0.00013058907763455275,
      "loss": 1.5631,
      "step": 62309
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5789842009544373,
      "learning_rate": 0.00013058045166675701,
      "loss": 1.5658,
      "step": 62310
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5892772674560547,
      "learning_rate": 0.00013057182590461172,
      "loss": 1.6065,
      "step": 62311
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6104647517204285,
      "learning_rate": 0.0001305632003481271,
      "loss": 1.5357,
      "step": 62312
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5890989899635315,
      "learning_rate": 0.00013055457499731396,
      "loss": 1.5306,
      "step": 62313
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5791735053062439,
      "learning_rate": 0.00013054594985218245,
      "loss": 1.6134,
      "step": 62314
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5932591557502747,
      "learning_rate": 0.0001305373249127433,
      "loss": 1.5296,
      "step": 62315
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6226916313171387,
      "learning_rate": 0.00013052870017900677,
      "loss": 1.522,
      "step": 62316
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5846096873283386,
      "learning_rate": 0.00013052007565098351,
      "loss": 1.5691,
      "step": 62317
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5970330238342285,
      "learning_rate": 0.00013051145132868394,
      "loss": 1.5067,
      "step": 62318
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5921059250831604,
      "learning_rate": 0.00013050282721211836,
      "loss": 1.5081,
      "step": 62319
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5906726121902466,
      "learning_rate": 0.0001304942033012975,
      "loss": 1.4394,
      "step": 62320
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5903772115707397,
      "learning_rate": 0.00013048557959623159,
      "loss": 1.4986,
      "step": 62321
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5982393026351929,
      "learning_rate": 0.0001304769560969313,
      "loss": 1.5148,
      "step": 62322
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6091353893280029,
      "learning_rate": 0.00013046833280340705,
      "loss": 1.5743,
      "step": 62323
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5793989896774292,
      "learning_rate": 0.00013045970971566913,
      "loss": 1.5303,
      "step": 62324
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5727216601371765,
      "learning_rate": 0.00013045108683372827,
      "loss": 1.4946,
      "step": 62325
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6107380390167236,
      "learning_rate": 0.00013044246415759464,
      "loss": 1.5497,
      "step": 62326
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5812269449234009,
      "learning_rate": 0.00013043384168727904,
      "loss": 1.5179,
      "step": 62327
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6101354360580444,
      "learning_rate": 0.00013042521942279166,
      "loss": 1.6189,
      "step": 62328
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5918490886688232,
      "learning_rate": 0.00013041659736414318,
      "loss": 1.6409,
      "step": 62329
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5726561546325684,
      "learning_rate": 0.00013040797551134393,
      "loss": 1.5949,
      "step": 62330
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5960476398468018,
      "learning_rate": 0.00013039935386440431,
      "loss": 1.5532,
      "step": 62331
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6047084331512451,
      "learning_rate": 0.00013039073242333504,
      "loss": 1.629,
      "step": 62332
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5978298783302307,
      "learning_rate": 0.00013038211118814638,
      "loss": 1.6188,
      "step": 62333
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5963126420974731,
      "learning_rate": 0.0001303734901588488,
      "loss": 1.5621,
      "step": 62334
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6213817000389099,
      "learning_rate": 0.00013036486933545275,
      "loss": 1.5387,
      "step": 62335
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5827575325965881,
      "learning_rate": 0.0001303562487179689,
      "loss": 1.5407,
      "step": 62336
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5842546224594116,
      "learning_rate": 0.00013034762830640753,
      "loss": 1.5686,
      "step": 62337
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5921481251716614,
      "learning_rate": 0.00013033900810077907,
      "loss": 1.5876,
      "step": 62338
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6024195551872253,
      "learning_rate": 0.00013033038810109413,
      "loss": 1.5987,
      "step": 62339
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5914230346679688,
      "learning_rate": 0.00013032176830736313,
      "loss": 1.5562,
      "step": 62340
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5821256637573242,
      "learning_rate": 0.00013031314871959635,
      "loss": 1.6323,
      "step": 62341
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5900552868843079,
      "learning_rate": 0.00013030452933780444,
      "loss": 1.529,
      "step": 62342
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5899838209152222,
      "learning_rate": 0.00013029591016199807,
      "loss": 1.5759,
      "step": 62343
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5848284363746643,
      "learning_rate": 0.0001302872911921872,
      "loss": 1.5907,
      "step": 62344
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5861908793449402,
      "learning_rate": 0.00013027867242838256,
      "loss": 1.532,
      "step": 62345
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5912912487983704,
      "learning_rate": 0.0001302700538705947,
      "loss": 1.5787,
      "step": 62346
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5868216156959534,
      "learning_rate": 0.00013026143551883403,
      "loss": 1.4761,
      "step": 62347
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5848472118377686,
      "learning_rate": 0.00013025281737311084,
      "loss": 1.4898,
      "step": 62348
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6079987287521362,
      "learning_rate": 0.0001302441994334357,
      "loss": 1.5411,
      "step": 62349
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6011256575584412,
      "learning_rate": 0.0001302355816998193,
      "loss": 1.6132,
      "step": 62350
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5894176959991455,
      "learning_rate": 0.00013022696417227172,
      "loss": 1.6283,
      "step": 62351
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5918238759040833,
      "learning_rate": 0.00013021834685080356,
      "loss": 1.5242,
      "step": 62352
    },
    {
      "epoch": 2.07,
      "grad_norm": 1.0174611806869507,
      "learning_rate": 0.0001302097297354254,
      "loss": 1.5724,
      "step": 62353
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6137078404426575,
      "learning_rate": 0.00013020111282614766,
      "loss": 1.495,
      "step": 62354
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5916890501976013,
      "learning_rate": 0.00013019249612298062,
      "loss": 1.5519,
      "step": 62355
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5886186957359314,
      "learning_rate": 0.00013018387962593486,
      "loss": 1.5236,
      "step": 62356
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5899946689605713,
      "learning_rate": 0.00013017526333502106,
      "loss": 1.5661,
      "step": 62357
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6028354167938232,
      "learning_rate": 0.00013016664725024927,
      "loss": 1.5453,
      "step": 62358
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6298630237579346,
      "learning_rate": 0.00013015803137163013,
      "loss": 1.565,
      "step": 62359
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6093930602073669,
      "learning_rate": 0.00013014941569917422,
      "loss": 1.5731,
      "step": 62360
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5787842273712158,
      "learning_rate": 0.00013014080023289194,
      "loss": 1.5567,
      "step": 62361
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5834181904792786,
      "learning_rate": 0.00013013218497279355,
      "loss": 1.5734,
      "step": 62362
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5801558494567871,
      "learning_rate": 0.00013012356991888975,
      "loss": 1.5211,
      "step": 62363
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5964922904968262,
      "learning_rate": 0.00013011495507119094,
      "loss": 1.5911,
      "step": 62364
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5742607712745667,
      "learning_rate": 0.0001301063404297074,
      "loss": 1.5507,
      "step": 62365
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5820332765579224,
      "learning_rate": 0.00013009772599444978,
      "loss": 1.5524,
      "step": 62366
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.5935637950897217,
      "learning_rate": 0.00013008911176542854,
      "loss": 1.4928,
      "step": 62367
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6066250801086426,
      "learning_rate": 0.00013008049774265414,
      "loss": 1.5413,
      "step": 62368
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5877675414085388,
      "learning_rate": 0.00013007188392613684,
      "loss": 1.5453,
      "step": 62369
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5926926136016846,
      "learning_rate": 0.00013006327031588735,
      "loss": 1.5671,
      "step": 62370
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5908237099647522,
      "learning_rate": 0.000130054656911916,
      "loss": 1.5798,
      "step": 62371
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.583452582359314,
      "learning_rate": 0.00013004604371423317,
      "loss": 1.5264,
      "step": 62372
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6147980093955994,
      "learning_rate": 0.00013003743072284948,
      "loss": 1.491,
      "step": 62373
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5930471420288086,
      "learning_rate": 0.00013002881793777523,
      "loss": 1.5588,
      "step": 62374
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5727965235710144,
      "learning_rate": 0.00013002020535902105,
      "loss": 1.4838,
      "step": 62375
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5831555724143982,
      "learning_rate": 0.00013001159298659716,
      "loss": 1.5325,
      "step": 62376
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5925269722938538,
      "learning_rate": 0.0001300029808205143,
      "loss": 1.4812,
      "step": 62377
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5845561623573303,
      "learning_rate": 0.00012999436886078274,
      "loss": 1.5919,
      "step": 62378
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5926074385643005,
      "learning_rate": 0.00012998575710741287,
      "loss": 1.578,
      "step": 62379
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5910139679908752,
      "learning_rate": 0.00012997714556041537,
      "loss": 1.4644,
      "step": 62380
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5916883945465088,
      "learning_rate": 0.00012996853421980042,
      "loss": 1.6437,
      "step": 62381
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6082266569137573,
      "learning_rate": 0.00012995992308557873,
      "loss": 1.5782,
      "step": 62382
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5750146508216858,
      "learning_rate": 0.00012995131215776055,
      "loss": 1.583,
      "step": 62383
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6073957085609436,
      "learning_rate": 0.0001299427014363565,
      "loss": 1.5496,
      "step": 62384
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6024500131607056,
      "learning_rate": 0.000129934090921377,
      "loss": 1.5552,
      "step": 62385
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5901204943656921,
      "learning_rate": 0.0001299254806128323,
      "loss": 1.6289,
      "step": 62386
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5885351300239563,
      "learning_rate": 0.00012991687051073315,
      "loss": 1.6243,
      "step": 62387
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.599490761756897,
      "learning_rate": 0.00012990826061508973,
      "loss": 1.6498,
      "step": 62388
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5909318923950195,
      "learning_rate": 0.00012989965092591272,
      "loss": 1.5383,
      "step": 62389
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.588869035243988,
      "learning_rate": 0.0001298910414432125,
      "loss": 1.5416,
      "step": 62390
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6000316739082336,
      "learning_rate": 0.00012988243216699937,
      "loss": 1.5533,
      "step": 62391
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.601911187171936,
      "learning_rate": 0.00012987382309728398,
      "loss": 1.5269,
      "step": 62392
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5955043435096741,
      "learning_rate": 0.00012986521423407666,
      "loss": 1.555,
      "step": 62393
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5963242053985596,
      "learning_rate": 0.00012985660557738796,
      "loss": 1.6062,
      "step": 62394
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6029549837112427,
      "learning_rate": 0.00012984799712722816,
      "loss": 1.6008,
      "step": 62395
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6153846383094788,
      "learning_rate": 0.00012983938888360796,
      "loss": 1.635,
      "step": 62396
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6023396253585815,
      "learning_rate": 0.00012983078084653765,
      "loss": 1.5821,
      "step": 62397
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6114243865013123,
      "learning_rate": 0.0001298221730160276,
      "loss": 1.456,
      "step": 62398
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5929953455924988,
      "learning_rate": 0.00012981356539208845,
      "loss": 1.5586,
      "step": 62399
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5897804498672485,
      "learning_rate": 0.0001298049579747306,
      "loss": 1.6086,
      "step": 62400
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6150190234184265,
      "learning_rate": 0.0001297963507639643,
      "loss": 1.4958,
      "step": 62401
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5930731296539307,
      "learning_rate": 0.00012978774375980014,
      "loss": 1.5389,
      "step": 62402
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.596083402633667,
      "learning_rate": 0.00012977913696224873,
      "loss": 1.5566,
      "step": 62403
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.583526074886322,
      "learning_rate": 0.00012977053037132035,
      "loss": 1.497,
      "step": 62404
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.593874990940094,
      "learning_rate": 0.00012976192398702534,
      "loss": 1.5008,
      "step": 62405
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5824700593948364,
      "learning_rate": 0.00012975331780937428,
      "loss": 1.5465,
      "step": 62406
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5984900593757629,
      "learning_rate": 0.00012974471183837782,
      "loss": 1.612,
      "step": 62407
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5983706116676331,
      "learning_rate": 0.000129736106074046,
      "loss": 1.5209,
      "step": 62408
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5979278087615967,
      "learning_rate": 0.00012972750051638943,
      "loss": 1.5304,
      "step": 62409
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5742677450180054,
      "learning_rate": 0.00012971889516541873,
      "loss": 1.5116,
      "step": 62410
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5956085920333862,
      "learning_rate": 0.00012971029002114415,
      "loss": 1.5754,
      "step": 62411
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6061205267906189,
      "learning_rate": 0.00012970168508357613,
      "loss": 1.5256,
      "step": 62412
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5862340331077576,
      "learning_rate": 0.00012969308035272516,
      "loss": 1.5274,
      "step": 62413
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5663890242576599,
      "learning_rate": 0.00012968447582860192,
      "loss": 1.4665,
      "step": 62414
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6070875525474548,
      "learning_rate": 0.00012967587151121638,
      "loss": 1.5563,
      "step": 62415
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6018950343132019,
      "learning_rate": 0.00012966726740057925,
      "loss": 1.5161,
      "step": 62416
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5814884305000305,
      "learning_rate": 0.0001296586634967011,
      "loss": 1.5649,
      "step": 62417
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5925914645195007,
      "learning_rate": 0.0001296500597995922,
      "loss": 1.5243,
      "step": 62418
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5949758887290955,
      "learning_rate": 0.00012964145630926292,
      "loss": 1.5044,
      "step": 62419
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6173362135887146,
      "learning_rate": 0.00012963285302572395,
      "loss": 1.5603,
      "step": 62420
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6193712949752808,
      "learning_rate": 0.00012962424994898553,
      "loss": 1.5867,
      "step": 62421
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5843541622161865,
      "learning_rate": 0.0001296156470790581,
      "loss": 1.5516,
      "step": 62422
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6023894548416138,
      "learning_rate": 0.0001296070444159522,
      "loss": 1.5223,
      "step": 62423
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6171482801437378,
      "learning_rate": 0.0001295984419596783,
      "loss": 1.6147,
      "step": 62424
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5962429642677307,
      "learning_rate": 0.0001295898397102468,
      "loss": 1.54,
      "step": 62425
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6047371625900269,
      "learning_rate": 0.00012958123766766802,
      "loss": 1.5597,
      "step": 62426
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5889996290206909,
      "learning_rate": 0.00012957263583195265,
      "loss": 1.5209,
      "step": 62427
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5960562229156494,
      "learning_rate": 0.00012956403420311095,
      "loss": 1.5499,
      "step": 62428
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.604341983795166,
      "learning_rate": 0.00012955543278115328,
      "loss": 1.5606,
      "step": 62429
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5914663672447205,
      "learning_rate": 0.00012954683156609034,
      "loss": 1.5005,
      "step": 62430
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5953066349029541,
      "learning_rate": 0.00012953823055793232,
      "loss": 1.5627,
      "step": 62431
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5995234847068787,
      "learning_rate": 0.00012952962975668983,
      "loss": 1.5727,
      "step": 62432
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5827893614768982,
      "learning_rate": 0.0001295210291623732,
      "loss": 1.532,
      "step": 62433
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5970994234085083,
      "learning_rate": 0.000129512428774993,
      "loss": 1.6021,
      "step": 62434
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6001247763633728,
      "learning_rate": 0.00012950382859455963,
      "loss": 1.546,
      "step": 62435
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6113637685775757,
      "learning_rate": 0.00012949522862108333,
      "loss": 1.5126,
      "step": 62436
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5913853645324707,
      "learning_rate": 0.00012948662885457483,
      "loss": 1.5499,
      "step": 62437
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5906388163566589,
      "learning_rate": 0.00012947802929504437,
      "loss": 1.5623,
      "step": 62438
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5764833688735962,
      "learning_rate": 0.0001294694299425025,
      "loss": 1.5252,
      "step": 62439
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6161786317825317,
      "learning_rate": 0.00012946083079695965,
      "loss": 1.5764,
      "step": 62440
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5925201177597046,
      "learning_rate": 0.00012945223185842613,
      "loss": 1.5763,
      "step": 62441
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5954910516738892,
      "learning_rate": 0.00012944363312691255,
      "loss": 1.5344,
      "step": 62442
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6058626174926758,
      "learning_rate": 0.00012943503460242917,
      "loss": 1.5349,
      "step": 62443
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6211831569671631,
      "learning_rate": 0.00012942643628498663,
      "loss": 1.5601,
      "step": 62444
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5984000563621521,
      "learning_rate": 0.00012941783817459516,
      "loss": 1.5785,
      "step": 62445
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6128860712051392,
      "learning_rate": 0.00012940924027126543,
      "loss": 1.5249,
      "step": 62446
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5888650417327881,
      "learning_rate": 0.00012940064257500772,
      "loss": 1.5198,
      "step": 62447
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5813605785369873,
      "learning_rate": 0.0001293920450858324,
      "loss": 1.4817,
      "step": 62448
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.566551685333252,
      "learning_rate": 0.00012938344780375009,
      "loss": 1.5136,
      "step": 62449
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5847615599632263,
      "learning_rate": 0.00012937485072877115,
      "loss": 1.4645,
      "step": 62450
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6083917021751404,
      "learning_rate": 0.0001293662538609059,
      "loss": 1.518,
      "step": 62451
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6389848589897156,
      "learning_rate": 0.00012935765720016487,
      "loss": 1.5157,
      "step": 62452
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5877216458320618,
      "learning_rate": 0.00012934906074655857,
      "loss": 1.5045,
      "step": 62453
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6062499284744263,
      "learning_rate": 0.0001293404645000974,
      "loss": 1.5071,
      "step": 62454
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6010603904724121,
      "learning_rate": 0.00012933186846079164,
      "loss": 1.5994,
      "step": 62455
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6019591689109802,
      "learning_rate": 0.000129323272628652,
      "loss": 1.5564,
      "step": 62456
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5935904383659363,
      "learning_rate": 0.0001293146770036887,
      "loss": 1.5229,
      "step": 62457
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5990358591079712,
      "learning_rate": 0.00012930608158591216,
      "loss": 1.5803,
      "step": 62458
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5852927565574646,
      "learning_rate": 0.0001292974863753329,
      "loss": 1.5367,
      "step": 62459
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6173000931739807,
      "learning_rate": 0.0001292888913719615,
      "loss": 1.5668,
      "step": 62460
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6295832991600037,
      "learning_rate": 0.00012928029657580806,
      "loss": 1.5005,
      "step": 62461
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6052801609039307,
      "learning_rate": 0.00012927170198688318,
      "loss": 1.5735,
      "step": 62462
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5899415016174316,
      "learning_rate": 0.0001292631076051974,
      "loss": 1.5177,
      "step": 62463
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6115809082984924,
      "learning_rate": 0.00012925451343076105,
      "loss": 1.6207,
      "step": 62464
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5765474438667297,
      "learning_rate": 0.00012924591946358445,
      "loss": 1.5559,
      "step": 62465
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5963540077209473,
      "learning_rate": 0.00012923732570367815,
      "loss": 1.4978,
      "step": 62466
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5891199111938477,
      "learning_rate": 0.0001292287321510528,
      "loss": 1.4971,
      "step": 62467
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5979505181312561,
      "learning_rate": 0.00012922013880571837,
      "loss": 1.5186,
      "step": 62468
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.596766471862793,
      "learning_rate": 0.00012921154566768552,
      "loss": 1.4569,
      "step": 62469
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6052897572517395,
      "learning_rate": 0.00012920295273696482,
      "loss": 1.488,
      "step": 62470
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5915594696998596,
      "learning_rate": 0.00012919436001356658,
      "loss": 1.4963,
      "step": 62471
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6053739786148071,
      "learning_rate": 0.0001291857674975011,
      "loss": 1.592,
      "step": 62472
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6114429831504822,
      "learning_rate": 0.00012917717518877892,
      "loss": 1.634,
      "step": 62473
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5863630771636963,
      "learning_rate": 0.00012916858308741072,
      "loss": 1.5513,
      "step": 62474
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6077452898025513,
      "learning_rate": 0.00012915999119340643,
      "loss": 1.5165,
      "step": 62475
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6199318766593933,
      "learning_rate": 0.0001291513995067768,
      "loss": 1.5391,
      "step": 62476
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6229003667831421,
      "learning_rate": 0.00012914280802753226,
      "loss": 1.4985,
      "step": 62477
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6071667671203613,
      "learning_rate": 0.00012913421675568319,
      "loss": 1.5579,
      "step": 62478
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6126195788383484,
      "learning_rate": 0.00012912562569123988,
      "loss": 1.5679,
      "step": 62479
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6049559116363525,
      "learning_rate": 0.000129117034834213,
      "loss": 1.572,
      "step": 62480
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5897955298423767,
      "learning_rate": 0.00012910844418461288,
      "loss": 1.6159,
      "step": 62481
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5695496797561646,
      "learning_rate": 0.00012909985374244981,
      "loss": 1.4976,
      "step": 62482
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6034480333328247,
      "learning_rate": 0.00012909126350773434,
      "loss": 1.524,
      "step": 62483
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5702089667320251,
      "learning_rate": 0.000129082673480477,
      "loss": 1.4804,
      "step": 62484
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5930651426315308,
      "learning_rate": 0.0001290740836606881,
      "loss": 1.5491,
      "step": 62485
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5983564257621765,
      "learning_rate": 0.00012906549404837796,
      "loss": 1.5446,
      "step": 62486
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.63254314661026,
      "learning_rate": 0.00012905690464355728,
      "loss": 1.5436,
      "step": 62487
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5743831396102905,
      "learning_rate": 0.00012904831544623629,
      "loss": 1.5243,
      "step": 62488
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5944433212280273,
      "learning_rate": 0.00012903972645642538,
      "loss": 1.5604,
      "step": 62489
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6156191825866699,
      "learning_rate": 0.00012903113767413513,
      "loss": 1.5849,
      "step": 62490
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.570930540561676,
      "learning_rate": 0.0001290225490993758,
      "loss": 1.5147,
      "step": 62491
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5767419934272766,
      "learning_rate": 0.00012901396073215798,
      "loss": 1.5836,
      "step": 62492
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.588483989238739,
      "learning_rate": 0.00012900537257249192,
      "loss": 1.5314,
      "step": 62493
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5943021178245544,
      "learning_rate": 0.00012899678462038828,
      "loss": 1.5237,
      "step": 62494
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5745514035224915,
      "learning_rate": 0.0001289881968758573,
      "loss": 1.4627,
      "step": 62495
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6021209955215454,
      "learning_rate": 0.0001289796093389094,
      "loss": 1.5404,
      "step": 62496
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6116228699684143,
      "learning_rate": 0.00012897102200955512,
      "loss": 1.6414,
      "step": 62497
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.576783299446106,
      "learning_rate": 0.0001289624348878047,
      "loss": 1.5193,
      "step": 62498
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5930514931678772,
      "learning_rate": 0.00012895384797366883,
      "loss": 1.5876,
      "step": 62499
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6026741862297058,
      "learning_rate": 0.00012894526126715778,
      "loss": 1.5475,
      "step": 62500
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6147523522377014,
      "learning_rate": 0.00012893667476828187,
      "loss": 1.5226,
      "step": 62501
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6004185676574707,
      "learning_rate": 0.00012892808847705174,
      "loss": 1.5514,
      "step": 62502
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5936259031295776,
      "learning_rate": 0.00012891950239347759,
      "loss": 1.525,
      "step": 62503
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.578241765499115,
      "learning_rate": 0.00012891091651757007,
      "loss": 1.5309,
      "step": 62504
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5838188529014587,
      "learning_rate": 0.00012890233084933937,
      "loss": 1.593,
      "step": 62505
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6175386309623718,
      "learning_rate": 0.00012889374538879616,
      "loss": 1.5552,
      "step": 62506
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6189699172973633,
      "learning_rate": 0.00012888516013595072,
      "loss": 1.6193,
      "step": 62507
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5666414499282837,
      "learning_rate": 0.00012887657509081337,
      "loss": 1.5168,
      "step": 62508
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5819220542907715,
      "learning_rate": 0.00012886799025339476,
      "loss": 1.5857,
      "step": 62509
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5831921696662903,
      "learning_rate": 0.00012885940562370508,
      "loss": 1.5215,
      "step": 62510
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5868724584579468,
      "learning_rate": 0.00012885082120175494,
      "loss": 1.557,
      "step": 62511
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5865077376365662,
      "learning_rate": 0.0001288422369875546,
      "loss": 1.6068,
      "step": 62512
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5938066840171814,
      "learning_rate": 0.00012883365298111473,
      "loss": 1.5068,
      "step": 62513
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6205368638038635,
      "learning_rate": 0.00012882506918244553,
      "loss": 1.5713,
      "step": 62514
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5943809747695923,
      "learning_rate": 0.00012881648559155736,
      "loss": 1.5659,
      "step": 62515
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5963406562805176,
      "learning_rate": 0.0001288079022084608,
      "loss": 1.5213,
      "step": 62516
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6013120412826538,
      "learning_rate": 0.00012879931903316637,
      "loss": 1.469,
      "step": 62517
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6057806611061096,
      "learning_rate": 0.00012879073606568417,
      "loss": 1.5535,
      "step": 62518
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6066352725028992,
      "learning_rate": 0.00012878215330602478,
      "loss": 1.4298,
      "step": 62519
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6010697484016418,
      "learning_rate": 0.00012877357075419875,
      "loss": 1.5327,
      "step": 62520
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5938705205917358,
      "learning_rate": 0.00012876498841021637,
      "loss": 1.6539,
      "step": 62521
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.66405189037323,
      "learning_rate": 0.00012875640627408794,
      "loss": 1.6045,
      "step": 62522
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6405118107795715,
      "learning_rate": 0.00012874782434582402,
      "loss": 1.5724,
      "step": 62523
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5990292429924011,
      "learning_rate": 0.0001287392426254352,
      "loss": 1.5786,
      "step": 62524
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5873807072639465,
      "learning_rate": 0.00012873066111293154,
      "loss": 1.563,
      "step": 62525
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6018821597099304,
      "learning_rate": 0.00012872207980832356,
      "loss": 1.5777,
      "step": 62526
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5836652517318726,
      "learning_rate": 0.00012871349871162188,
      "loss": 1.5163,
      "step": 62527
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5857858061790466,
      "learning_rate": 0.00012870491782283677,
      "loss": 1.5201,
      "step": 62528
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5902583599090576,
      "learning_rate": 0.00012869633714197854,
      "loss": 1.5419,
      "step": 62529
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5911287665367126,
      "learning_rate": 0.00012868775666905773,
      "loss": 1.571,
      "step": 62530
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6182498931884766,
      "learning_rate": 0.00012867917640408495,
      "loss": 1.432,
      "step": 62531
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5774520635604858,
      "learning_rate": 0.00012867059634707017,
      "loss": 1.5544,
      "step": 62532
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5969917178153992,
      "learning_rate": 0.00012866201649802407,
      "loss": 1.5179,
      "step": 62533
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5746632218360901,
      "learning_rate": 0.00012865343685695713,
      "loss": 1.5402,
      "step": 62534
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6282082796096802,
      "learning_rate": 0.00012864485742387967,
      "loss": 1.5929,
      "step": 62535
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6207332015037537,
      "learning_rate": 0.000128636278198802,
      "loss": 1.6002,
      "step": 62536
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5834671854972839,
      "learning_rate": 0.00012862769918173478,
      "loss": 1.5574,
      "step": 62537
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.60483318567276,
      "learning_rate": 0.00012861912037268823,
      "loss": 1.5951,
      "step": 62538
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5794436931610107,
      "learning_rate": 0.00012861054177167275,
      "loss": 1.6332,
      "step": 62539
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5757505297660828,
      "learning_rate": 0.00012860196337869878,
      "loss": 1.5583,
      "step": 62540
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5988020300865173,
      "learning_rate": 0.00012859338519377692,
      "loss": 1.524,
      "step": 62541
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6021366119384766,
      "learning_rate": 0.0001285848072169174,
      "loss": 1.5181,
      "step": 62542
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5923327803611755,
      "learning_rate": 0.00012857622944813056,
      "loss": 1.5321,
      "step": 62543
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5890781879425049,
      "learning_rate": 0.00012856765188742705,
      "loss": 1.6106,
      "step": 62544
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5829029083251953,
      "learning_rate": 0.00012855907453481713,
      "loss": 1.4608,
      "step": 62545
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5846177339553833,
      "learning_rate": 0.00012855049739031113,
      "loss": 1.5151,
      "step": 62546
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6154986619949341,
      "learning_rate": 0.00012854192045391968,
      "loss": 1.5548,
      "step": 62547
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6328403353691101,
      "learning_rate": 0.00012853334372565299,
      "loss": 1.4903,
      "step": 62548
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5999541878700256,
      "learning_rate": 0.00012852476720552164,
      "loss": 1.5666,
      "step": 62549
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5722782015800476,
      "learning_rate": 0.00012851619089353583,
      "loss": 1.5175,
      "step": 62550
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6036831140518188,
      "learning_rate": 0.0001285076147897062,
      "loss": 1.4905,
      "step": 62551
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5915902853012085,
      "learning_rate": 0.00012849903889404311,
      "loss": 1.5509,
      "step": 62552
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5806543827056885,
      "learning_rate": 0.00012849046320655678,
      "loss": 1.5061,
      "step": 62553
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6328704357147217,
      "learning_rate": 0.00012848188772725787,
      "loss": 1.5877,
      "step": 62554
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6114148497581482,
      "learning_rate": 0.00012847331245615656,
      "loss": 1.5108,
      "step": 62555
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5838302373886108,
      "learning_rate": 0.0001284647373932635,
      "loss": 1.5397,
      "step": 62556
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5930039286613464,
      "learning_rate": 0.00012845616253858897,
      "loss": 1.5271,
      "step": 62557
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5870651006698608,
      "learning_rate": 0.00012844758789214324,
      "loss": 1.531,
      "step": 62558
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6006481051445007,
      "learning_rate": 0.000128439013453937,
      "loss": 1.4803,
      "step": 62559
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6057505011558533,
      "learning_rate": 0.00012843043922398042,
      "loss": 1.5409,
      "step": 62560
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6107039451599121,
      "learning_rate": 0.0001284218652022841,
      "loss": 1.59,
      "step": 62561
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5925620198249817,
      "learning_rate": 0.00012841329138885824,
      "loss": 1.5963,
      "step": 62562
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5787062048912048,
      "learning_rate": 0.0001284047177837135,
      "loss": 1.641,
      "step": 62563
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5777310132980347,
      "learning_rate": 0.0001283961443868601,
      "loss": 1.5482,
      "step": 62564
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6130008697509766,
      "learning_rate": 0.00012838757119830845,
      "loss": 1.5543,
      "step": 62565
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6120060086250305,
      "learning_rate": 0.00012837899821806906,
      "loss": 1.5571,
      "step": 62566
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5946427583694458,
      "learning_rate": 0.00012837042544615229,
      "loss": 1.6025,
      "step": 62567
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5824863314628601,
      "learning_rate": 0.00012836185288256846,
      "loss": 1.5872,
      "step": 62568
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6056379675865173,
      "learning_rate": 0.000128353280527328,
      "loss": 1.5236,
      "step": 62569
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5943921804428101,
      "learning_rate": 0.0001283447083804415,
      "loss": 1.5863,
      "step": 62570
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6224496364593506,
      "learning_rate": 0.00012833613644191926,
      "loss": 1.6259,
      "step": 62571
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5869039297103882,
      "learning_rate": 0.0001283275647117715,
      "loss": 1.4897,
      "step": 62572
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.556579053401947,
      "learning_rate": 0.0001283189931900089,
      "loss": 1.5365,
      "step": 62573
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.581604540348053,
      "learning_rate": 0.00012831042187664177,
      "loss": 1.5241,
      "step": 62574
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6003230214118958,
      "learning_rate": 0.00012830185077168036,
      "loss": 1.5194,
      "step": 62575
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5820955634117126,
      "learning_rate": 0.0001282932798751352,
      "loss": 1.5032,
      "step": 62576
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6050689816474915,
      "learning_rate": 0.00012828470918701697,
      "loss": 1.5785,
      "step": 62577
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5967477560043335,
      "learning_rate": 0.0001282761387073355,
      "loss": 1.5143,
      "step": 62578
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6049706935882568,
      "learning_rate": 0.00012826756843610154,
      "loss": 1.4877,
      "step": 62579
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6252028346061707,
      "learning_rate": 0.00012825899837332554,
      "loss": 1.5118,
      "step": 62580
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5912873148918152,
      "learning_rate": 0.00012825042851901785,
      "loss": 1.4943,
      "step": 62581
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.605187177658081,
      "learning_rate": 0.0001282418588731887,
      "loss": 1.6067,
      "step": 62582
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.587944507598877,
      "learning_rate": 0.00012823328943584864,
      "loss": 1.5156,
      "step": 62583
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5870106816291809,
      "learning_rate": 0.00012822472020700826,
      "loss": 1.6211,
      "step": 62584
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5973610281944275,
      "learning_rate": 0.00012821615118667755,
      "loss": 1.5125,
      "step": 62585
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6228311657905579,
      "learning_rate": 0.0001282075823748671,
      "loss": 1.5287,
      "step": 62586
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5942618250846863,
      "learning_rate": 0.00012819901377158745,
      "loss": 1.5365,
      "step": 62587
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5986080169677734,
      "learning_rate": 0.0001281904453768489,
      "loss": 1.5279,
      "step": 62588
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5872323513031006,
      "learning_rate": 0.0001281818771906617,
      "loss": 1.5453,
      "step": 62589
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6056050062179565,
      "learning_rate": 0.00012817330921303642,
      "loss": 1.6073,
      "step": 62590
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5633350014686584,
      "learning_rate": 0.00012816474144398363,
      "loss": 1.4823,
      "step": 62591
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6229343414306641,
      "learning_rate": 0.00012815617388351328,
      "loss": 1.4982,
      "step": 62592
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5986661911010742,
      "learning_rate": 0.00012814760653163606,
      "loss": 1.6021,
      "step": 62593
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5987991690635681,
      "learning_rate": 0.0001281390393883624,
      "loss": 1.5506,
      "step": 62594
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6007192134857178,
      "learning_rate": 0.00012813047245370263,
      "loss": 1.5796,
      "step": 62595
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5946726202964783,
      "learning_rate": 0.00012812190572766705,
      "loss": 1.521,
      "step": 62596
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6139071583747864,
      "learning_rate": 0.00012811333921026622,
      "loss": 1.601,
      "step": 62597
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.572616457939148,
      "learning_rate": 0.0001281047729015105,
      "loss": 1.5123,
      "step": 62598
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.601330578327179,
      "learning_rate": 0.00012809620680141019,
      "loss": 1.5665,
      "step": 62599
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.59153813123703,
      "learning_rate": 0.0001280876409099757,
      "loss": 1.4765,
      "step": 62600
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5998634696006775,
      "learning_rate": 0.0001280790752272176,
      "loss": 1.5766,
      "step": 62601
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6157844662666321,
      "learning_rate": 0.00012807050975314617,
      "loss": 1.6094,
      "step": 62602
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.597721517086029,
      "learning_rate": 0.00012806194448777172,
      "loss": 1.5249,
      "step": 62603
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6119338870048523,
      "learning_rate": 0.00012805337943110482,
      "loss": 1.5129,
      "step": 62604
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5711314082145691,
      "learning_rate": 0.0001280448145831558,
      "loss": 1.5553,
      "step": 62605
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5966936349868774,
      "learning_rate": 0.00012803624994393493,
      "loss": 1.5306,
      "step": 62606
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6072481870651245,
      "learning_rate": 0.0001280276855134528,
      "loss": 1.5573,
      "step": 62607
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6143456101417542,
      "learning_rate": 0.00012801912129171964,
      "loss": 1.581,
      "step": 62608
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5912883281707764,
      "learning_rate": 0.00012801055727874603,
      "loss": 1.5,
      "step": 62609
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5799344778060913,
      "learning_rate": 0.00012800199347454214,
      "loss": 1.5534,
      "step": 62610
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5714128613471985,
      "learning_rate": 0.0001279934298791186,
      "loss": 1.5345,
      "step": 62611
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6046996116638184,
      "learning_rate": 0.0001279848664924857,
      "loss": 1.5183,
      "step": 62612
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5869026184082031,
      "learning_rate": 0.00012797630331465372,
      "loss": 1.5256,
      "step": 62613
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6122356653213501,
      "learning_rate": 0.00012796774034563326,
      "loss": 1.5176,
      "step": 62614
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6030141711235046,
      "learning_rate": 0.0001279591775854345,
      "loss": 1.6195,
      "step": 62615
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6140267848968506,
      "learning_rate": 0.00012795061503406805,
      "loss": 1.5812,
      "step": 62616
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6133127808570862,
      "learning_rate": 0.00012794205269154427,
      "loss": 1.4952,
      "step": 62617
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6093477010726929,
      "learning_rate": 0.0001279334905578733,
      "loss": 1.4963,
      "step": 62618
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5733842849731445,
      "learning_rate": 0.00012792492863306586,
      "loss": 1.5268,
      "step": 62619
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5842188596725464,
      "learning_rate": 0.0001279163669171321,
      "loss": 1.5777,
      "step": 62620
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5923168659210205,
      "learning_rate": 0.0001279078054100826,
      "loss": 1.5136,
      "step": 62621
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6114311814308167,
      "learning_rate": 0.0001278992441119276,
      "loss": 1.535,
      "step": 62622
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.608216404914856,
      "learning_rate": 0.00012789068302267764,
      "loss": 1.5712,
      "step": 62623
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5990462899208069,
      "learning_rate": 0.000127882122142343,
      "loss": 1.5313,
      "step": 62624
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.593732476234436,
      "learning_rate": 0.00012787356147093406,
      "loss": 1.5347,
      "step": 62625
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6042261719703674,
      "learning_rate": 0.00012786500100846134,
      "loss": 1.5556,
      "step": 62626
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5842984318733215,
      "learning_rate": 0.00012785644075493502,
      "loss": 1.5022,
      "step": 62627
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5924954414367676,
      "learning_rate": 0.00012784788071036574,
      "loss": 1.5634,
      "step": 62628
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5992690324783325,
      "learning_rate": 0.00012783932087476364,
      "loss": 1.5211,
      "step": 62629
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5921431183815002,
      "learning_rate": 0.00012783076124813937,
      "loss": 1.6186,
      "step": 62630
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5933330059051514,
      "learning_rate": 0.0001278222018305032,
      "loss": 1.4937,
      "step": 62631
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5847775340080261,
      "learning_rate": 0.00012781364262186534,
      "loss": 1.5154,
      "step": 62632
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6161521673202515,
      "learning_rate": 0.0001278050836222364,
      "loss": 1.5148,
      "step": 62633
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5870031118392944,
      "learning_rate": 0.00012779652483162692,
      "loss": 1.5524,
      "step": 62634
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6117720007896423,
      "learning_rate": 0.00012778796625004685,
      "loss": 1.5619,
      "step": 62635
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6157088875770569,
      "learning_rate": 0.00012777940787750685,
      "loss": 1.5408,
      "step": 62636
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5947972536087036,
      "learning_rate": 0.00012777084971401736,
      "loss": 1.5616,
      "step": 62637
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5791292786598206,
      "learning_rate": 0.00012776229175958867,
      "loss": 1.4985,
      "step": 62638
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5860862135887146,
      "learning_rate": 0.00012775373401423108,
      "loss": 1.5028,
      "step": 62639
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5849207639694214,
      "learning_rate": 0.00012774517647795512,
      "loss": 1.5249,
      "step": 62640
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5789925456047058,
      "learning_rate": 0.0001277366191507713,
      "loss": 1.5496,
      "step": 62641
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5919925570487976,
      "learning_rate": 0.00012772806203268966,
      "loss": 1.574,
      "step": 62642
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6130262017250061,
      "learning_rate": 0.00012771950512372075,
      "loss": 1.5591,
      "step": 62643
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5889220237731934,
      "learning_rate": 0.0001277109484238751,
      "loss": 1.5756,
      "step": 62644
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5913863778114319,
      "learning_rate": 0.00012770239193316294,
      "loss": 1.5312,
      "step": 62645
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.597954273223877,
      "learning_rate": 0.0001276938356515946,
      "loss": 1.6008,
      "step": 62646
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5909098386764526,
      "learning_rate": 0.00012768527957918055,
      "loss": 1.5278,
      "step": 62647
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5934823155403137,
      "learning_rate": 0.0001276767237159314,
      "loss": 1.4951,
      "step": 62648
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5978120565414429,
      "learning_rate": 0.0001276681680618571,
      "loss": 1.5461,
      "step": 62649
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5880867838859558,
      "learning_rate": 0.00012765961261696827,
      "loss": 1.5739,
      "step": 62650
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6077710390090942,
      "learning_rate": 0.00012765105738127538,
      "loss": 1.5336,
      "step": 62651
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5877817869186401,
      "learning_rate": 0.0001276425023547887,
      "loss": 1.5124,
      "step": 62652
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5879119038581848,
      "learning_rate": 0.00012763394753751852,
      "loss": 1.5447,
      "step": 62653
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5851125121116638,
      "learning_rate": 0.00012762539292947544,
      "loss": 1.4464,
      "step": 62654
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5881379842758179,
      "learning_rate": 0.00012761683853066972,
      "loss": 1.5062,
      "step": 62655
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5772293210029602,
      "learning_rate": 0.0001276082843411117,
      "loss": 1.5631,
      "step": 62656
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5799645781517029,
      "learning_rate": 0.00012759973036081178,
      "loss": 1.5362,
      "step": 62657
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.585213303565979,
      "learning_rate": 0.0001275911765897805,
      "loss": 1.4429,
      "step": 62658
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5913224220275879,
      "learning_rate": 0.00012758262302802815,
      "loss": 1.4594,
      "step": 62659
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5930739045143127,
      "learning_rate": 0.00012757406967556494,
      "loss": 1.5914,
      "step": 62660
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.604238748550415,
      "learning_rate": 0.00012756551653240154,
      "loss": 1.5323,
      "step": 62661
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5921911597251892,
      "learning_rate": 0.0001275569635985482,
      "loss": 1.5045,
      "step": 62662
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5956823825836182,
      "learning_rate": 0.00012754841087401516,
      "loss": 1.5368,
      "step": 62663
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5936170816421509,
      "learning_rate": 0.0001275398583588131,
      "loss": 1.5931,
      "step": 62664
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5970106720924377,
      "learning_rate": 0.0001275313060529521,
      "loss": 1.5743,
      "step": 62665
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5940244197845459,
      "learning_rate": 0.00012752275395644275,
      "loss": 1.5162,
      "step": 62666
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5950533151626587,
      "learning_rate": 0.00012751420206929534,
      "loss": 1.5625,
      "step": 62667
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6100381016731262,
      "learning_rate": 0.0001275056503915203,
      "loss": 1.5283,
      "step": 62668
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5966350436210632,
      "learning_rate": 0.00012749709892312803,
      "loss": 1.5349,
      "step": 62669
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6031123399734497,
      "learning_rate": 0.00012748854766412877,
      "loss": 1.5655,
      "step": 62670
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.586306095123291,
      "learning_rate": 0.00012747999661453306,
      "loss": 1.5496,
      "step": 62671
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6117321848869324,
      "learning_rate": 0.00012747144577435115,
      "loss": 1.592,
      "step": 62672
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5719957947731018,
      "learning_rate": 0.00012746289514359356,
      "loss": 1.5395,
      "step": 62673
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5787674188613892,
      "learning_rate": 0.0001274543447222706,
      "loss": 1.4692,
      "step": 62674
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6096031069755554,
      "learning_rate": 0.00012744579451039255,
      "loss": 1.5657,
      "step": 62675
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5876774787902832,
      "learning_rate": 0.00012743724450796996,
      "loss": 1.5281,
      "step": 62676
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6047953963279724,
      "learning_rate": 0.00012742869471501304,
      "loss": 1.5813,
      "step": 62677
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5955228209495544,
      "learning_rate": 0.00012742014513153236,
      "loss": 1.6017,
      "step": 62678
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5980571508407593,
      "learning_rate": 0.00012741159575753813,
      "loss": 1.6396,
      "step": 62679
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5813764333724976,
      "learning_rate": 0.00012740304659304087,
      "loss": 1.5721,
      "step": 62680
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5875416994094849,
      "learning_rate": 0.00012739449763805085,
      "loss": 1.5143,
      "step": 62681
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5733568072319031,
      "learning_rate": 0.0001273859488925784,
      "loss": 1.5157,
      "step": 62682
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5834477543830872,
      "learning_rate": 0.00012737740035663407,
      "loss": 1.5384,
      "step": 62683
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5761857628822327,
      "learning_rate": 0.00012736885203022815,
      "loss": 1.5348,
      "step": 62684
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5736977458000183,
      "learning_rate": 0.0001273603039133709,
      "loss": 1.5433,
      "step": 62685
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5830574035644531,
      "learning_rate": 0.00012735175600607282,
      "loss": 1.5695,
      "step": 62686
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6012118458747864,
      "learning_rate": 0.00012734320830834432,
      "loss": 1.5121,
      "step": 62687
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6239903569221497,
      "learning_rate": 0.0001273346608201958,
      "loss": 1.582,
      "step": 62688
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6061189770698547,
      "learning_rate": 0.0001273261135416374,
      "loss": 1.5736,
      "step": 62689
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5982083082199097,
      "learning_rate": 0.00012731756647267977,
      "loss": 1.5827,
      "step": 62690
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5982139110565186,
      "learning_rate": 0.00012730901961333318,
      "loss": 1.5494,
      "step": 62691
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6013119220733643,
      "learning_rate": 0.0001273004729636079,
      "loss": 1.5288,
      "step": 62692
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.59590083360672,
      "learning_rate": 0.00012729192652351438,
      "loss": 1.579,
      "step": 62693
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5767510533332825,
      "learning_rate": 0.00012728338029306322,
      "loss": 1.5614,
      "step": 62694
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5941063761711121,
      "learning_rate": 0.0001272748342722644,
      "loss": 1.5387,
      "step": 62695
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.597377359867096,
      "learning_rate": 0.00012726628846112848,
      "loss": 1.6006,
      "step": 62696
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5944454073905945,
      "learning_rate": 0.00012725774285966593,
      "loss": 1.4525,
      "step": 62697
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6053752899169922,
      "learning_rate": 0.00012724919746788703,
      "loss": 1.5673,
      "step": 62698
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5951067805290222,
      "learning_rate": 0.00012724065228580204,
      "loss": 1.5414,
      "step": 62699
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5895793437957764,
      "learning_rate": 0.00012723210731342146,
      "loss": 1.5526,
      "step": 62700
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6144944429397583,
      "learning_rate": 0.00012722356255075583,
      "loss": 1.5133,
      "step": 62701
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5920383334159851,
      "learning_rate": 0.00012721501799781515,
      "loss": 1.4863,
      "step": 62702
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5851042866706848,
      "learning_rate": 0.00012720647365461,
      "loss": 1.4993,
      "step": 62703
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5696995258331299,
      "learning_rate": 0.00012719792952115076,
      "loss": 1.5272,
      "step": 62704
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5998520851135254,
      "learning_rate": 0.00012718938559744784,
      "loss": 1.5112,
      "step": 62705
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5894057750701904,
      "learning_rate": 0.0001271808418835114,
      "loss": 1.5439,
      "step": 62706
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5851168036460876,
      "learning_rate": 0.00012717229837935198,
      "loss": 1.6193,
      "step": 62707
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6049652099609375,
      "learning_rate": 0.00012716375508498013,
      "loss": 1.5447,
      "step": 62708
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5902221202850342,
      "learning_rate": 0.0001271552120004058,
      "loss": 1.5334,
      "step": 62709
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5999586582183838,
      "learning_rate": 0.00012714666912563957,
      "loss": 1.5776,
      "step": 62710
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5988571643829346,
      "learning_rate": 0.00012713812646069194,
      "loss": 1.5943,
      "step": 62711
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5807253122329712,
      "learning_rate": 0.00012712958400557314,
      "loss": 1.5575,
      "step": 62712
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5794435143470764,
      "learning_rate": 0.00012712104176029344,
      "loss": 1.5632,
      "step": 62713
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6015608310699463,
      "learning_rate": 0.00012711249972486346,
      "loss": 1.6079,
      "step": 62714
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5976263880729675,
      "learning_rate": 0.0001271039578992934,
      "loss": 1.494,
      "step": 62715
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5874187350273132,
      "learning_rate": 0.00012709541628359356,
      "loss": 1.5382,
      "step": 62716
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5858825445175171,
      "learning_rate": 0.00012708687487777442,
      "loss": 1.5291,
      "step": 62717
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6040491461753845,
      "learning_rate": 0.00012707833368184643,
      "loss": 1.4628,
      "step": 62718
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5889469981193542,
      "learning_rate": 0.0001270697926958199,
      "loss": 1.5779,
      "step": 62719
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6088476181030273,
      "learning_rate": 0.000127061251919705,
      "loss": 1.5662,
      "step": 62720
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6233132481575012,
      "learning_rate": 0.0001270527113535124,
      "loss": 1.5811,
      "step": 62721
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5827696323394775,
      "learning_rate": 0.0001270441709972523,
      "loss": 1.5066,
      "step": 62722
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6040936708450317,
      "learning_rate": 0.000127035630850935,
      "loss": 1.4592,
      "step": 62723
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.605728268623352,
      "learning_rate": 0.00012702709091457108,
      "loss": 1.5507,
      "step": 62724
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5872707962989807,
      "learning_rate": 0.00012701855118817064,
      "loss": 1.5451,
      "step": 62725
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6144793629646301,
      "learning_rate": 0.00012701001167174437,
      "loss": 1.5264,
      "step": 62726
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5920142531394958,
      "learning_rate": 0.00012700147236530227,
      "loss": 1.4763,
      "step": 62727
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6405591368675232,
      "learning_rate": 0.00012699293326885503,
      "loss": 1.4739,
      "step": 62728
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5910322070121765,
      "learning_rate": 0.00012698439438241292,
      "loss": 1.5626,
      "step": 62729
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5940324664115906,
      "learning_rate": 0.0001269758557059861,
      "loss": 1.4596,
      "step": 62730
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5983237624168396,
      "learning_rate": 0.0001269673172395852,
      "loss": 1.5544,
      "step": 62731
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5905113816261292,
      "learning_rate": 0.00012695877898322042,
      "loss": 1.4657,
      "step": 62732
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6050692796707153,
      "learning_rate": 0.00012695024093690226,
      "loss": 1.5962,
      "step": 62733
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5821090936660767,
      "learning_rate": 0.000126941703100641,
      "loss": 1.5454,
      "step": 62734
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5824586749076843,
      "learning_rate": 0.00012693316547444694,
      "loss": 1.5893,
      "step": 62735
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6007357239723206,
      "learning_rate": 0.0001269246280583306,
      "loss": 1.5159,
      "step": 62736
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6001640558242798,
      "learning_rate": 0.0001269160908523022,
      "loss": 1.5531,
      "step": 62737
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5934683680534363,
      "learning_rate": 0.00012690755385637222,
      "loss": 1.5075,
      "step": 62738
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5850768089294434,
      "learning_rate": 0.00012689901707055087,
      "loss": 1.5435,
      "step": 62739
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6127852201461792,
      "learning_rate": 0.00012689048049484872,
      "loss": 1.5611,
      "step": 62740
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6056559085845947,
      "learning_rate": 0.000126881944129276,
      "loss": 1.5296,
      "step": 62741
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6146367788314819,
      "learning_rate": 0.000126873407973843,
      "loss": 1.5541,
      "step": 62742
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.602505624294281,
      "learning_rate": 0.0001268648720285603,
      "loss": 1.5621,
      "step": 62743
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5887631177902222,
      "learning_rate": 0.00012685633629343798,
      "loss": 1.4871,
      "step": 62744
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6024700403213501,
      "learning_rate": 0.0001268478007684867,
      "loss": 1.5713,
      "step": 62745
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5917316675186157,
      "learning_rate": 0.00012683926545371658,
      "loss": 1.4789,
      "step": 62746
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5747342705726624,
      "learning_rate": 0.00012683073034913813,
      "loss": 1.4768,
      "step": 62747
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5877415537834167,
      "learning_rate": 0.00012682219545476174,
      "loss": 1.5718,
      "step": 62748
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5824353694915771,
      "learning_rate": 0.0001268136607705975,
      "loss": 1.5563,
      "step": 62749
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5738245844841003,
      "learning_rate": 0.000126805126296656,
      "loss": 1.5393,
      "step": 62750
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5919970273971558,
      "learning_rate": 0.0001267965920329478,
      "loss": 1.5207,
      "step": 62751
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5792370438575745,
      "learning_rate": 0.00012678805797948275,
      "loss": 1.5336,
      "step": 62752
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5932112336158752,
      "learning_rate": 0.00012677952413627148,
      "loss": 1.5492,
      "step": 62753
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6080459356307983,
      "learning_rate": 0.00012677099050332447,
      "loss": 1.5227,
      "step": 62754
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5959784984588623,
      "learning_rate": 0.00012676245708065196,
      "loss": 1.6135,
      "step": 62755
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6218452453613281,
      "learning_rate": 0.00012675392386826418,
      "loss": 1.4974,
      "step": 62756
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5805897116661072,
      "learning_rate": 0.00012674539086617162,
      "loss": 1.5148,
      "step": 62757
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.576785147190094,
      "learning_rate": 0.00012673685807438484,
      "loss": 1.5098,
      "step": 62758
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5966789126396179,
      "learning_rate": 0.00012672832549291376,
      "loss": 1.6015,
      "step": 62759
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.586633026599884,
      "learning_rate": 0.00012671979312176896,
      "loss": 1.5722,
      "step": 62760
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5916798114776611,
      "learning_rate": 0.00012671126096096093,
      "loss": 1.5549,
      "step": 62761
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.570950448513031,
      "learning_rate": 0.0001267027290104999,
      "loss": 1.4905,
      "step": 62762
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6100013256072998,
      "learning_rate": 0.0001266941972703961,
      "loss": 1.6009,
      "step": 62763
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6214273571968079,
      "learning_rate": 0.00012668566574066,
      "loss": 1.6144,
      "step": 62764
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5835904479026794,
      "learning_rate": 0.0001266771344213022,
      "loss": 1.5177,
      "step": 62765
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5755297541618347,
      "learning_rate": 0.00012666860331233257,
      "loss": 1.4743,
      "step": 62766
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5881184339523315,
      "learning_rate": 0.00012666007241376174,
      "loss": 1.5469,
      "step": 62767
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5928725004196167,
      "learning_rate": 0.00012665154172560015,
      "loss": 1.5688,
      "step": 62768
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6017179489135742,
      "learning_rate": 0.00012664301124785807,
      "loss": 1.5502,
      "step": 62769
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.593974769115448,
      "learning_rate": 0.00012663448098054568,
      "loss": 1.5342,
      "step": 62770
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5966960191726685,
      "learning_rate": 0.00012662595092367363,
      "loss": 1.5039,
      "step": 62771
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5863709449768066,
      "learning_rate": 0.00012661742107725212,
      "loss": 1.5964,
      "step": 62772
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5928133726119995,
      "learning_rate": 0.00012660889144129137,
      "loss": 1.5276,
      "step": 62773
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5722598433494568,
      "learning_rate": 0.00012660036201580193,
      "loss": 1.5504,
      "step": 62774
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.596373438835144,
      "learning_rate": 0.00012659183280079418,
      "loss": 1.5576,
      "step": 62775
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5760851502418518,
      "learning_rate": 0.00012658330379627838,
      "loss": 1.5127,
      "step": 62776
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5849743485450745,
      "learning_rate": 0.00012657477500226482,
      "loss": 1.6264,
      "step": 62777
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5795319676399231,
      "learning_rate": 0.00012656624641876405,
      "loss": 1.5011,
      "step": 62778
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5920666456222534,
      "learning_rate": 0.00012655771804578628,
      "loss": 1.5143,
      "step": 62779
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5827482342720032,
      "learning_rate": 0.0001265491898833418,
      "loss": 1.5187,
      "step": 62780
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5709591507911682,
      "learning_rate": 0.0001265406619314411,
      "loss": 1.5229,
      "step": 62781
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6024860739707947,
      "learning_rate": 0.0001265321341900944,
      "loss": 1.6018,
      "step": 62782
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.617279052734375,
      "learning_rate": 0.00012652360665931224,
      "loss": 1.5498,
      "step": 62783
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6168799996376038,
      "learning_rate": 0.00012651507933910476,
      "loss": 1.5816,
      "step": 62784
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5837573409080505,
      "learning_rate": 0.00012650655222948252,
      "loss": 1.549,
      "step": 62785
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6086495518684387,
      "learning_rate": 0.00012649802533045576,
      "loss": 1.5257,
      "step": 62786
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6340959668159485,
      "learning_rate": 0.0001264894986420347,
      "loss": 1.5725,
      "step": 62787
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.578852117061615,
      "learning_rate": 0.00012648097216422997,
      "loss": 1.4966,
      "step": 62788
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.598798930644989,
      "learning_rate": 0.00012647244589705165,
      "loss": 1.5217,
      "step": 62789
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6144612431526184,
      "learning_rate": 0.00012646391984051032,
      "loss": 1.5324,
      "step": 62790
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6079923510551453,
      "learning_rate": 0.0001264553939946162,
      "loss": 1.5333,
      "step": 62791
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6511650681495667,
      "learning_rate": 0.0001264468683593796,
      "loss": 1.5771,
      "step": 62792
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5788018703460693,
      "learning_rate": 0.00012643834293481099,
      "loss": 1.5447,
      "step": 62793
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6023319363594055,
      "learning_rate": 0.00012642981772092058,
      "loss": 1.5497,
      "step": 62794
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5864683389663696,
      "learning_rate": 0.0001264212927177189,
      "loss": 1.5558,
      "step": 62795
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5835810303688049,
      "learning_rate": 0.00012641276792521607,
      "loss": 1.5412,
      "step": 62796
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5916558504104614,
      "learning_rate": 0.0001264042433434227,
      "loss": 1.5663,
      "step": 62797
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5889002084732056,
      "learning_rate": 0.00012639571897234898,
      "loss": 1.5637,
      "step": 62798
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5868091583251953,
      "learning_rate": 0.00012638719481200517,
      "loss": 1.5452,
      "step": 62799
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6029346585273743,
      "learning_rate": 0.00012637867086240183,
      "loss": 1.5366,
      "step": 62800
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6102742552757263,
      "learning_rate": 0.00012637014712354924,
      "loss": 1.591,
      "step": 62801
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5956057906150818,
      "learning_rate": 0.00012636162359545754,
      "loss": 1.4773,
      "step": 62802
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5689240097999573,
      "learning_rate": 0.00012635310027813728,
      "loss": 1.5503,
      "step": 62803
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6078803539276123,
      "learning_rate": 0.00012634457717159887,
      "loss": 1.5579,
      "step": 62804
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6058624982833862,
      "learning_rate": 0.0001263360542758526,
      "loss": 1.5353,
      "step": 62805
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6034116744995117,
      "learning_rate": 0.0001263275315909086,
      "loss": 1.5509,
      "step": 62806
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6190849542617798,
      "learning_rate": 0.00012631900911677752,
      "loss": 1.5719,
      "step": 62807
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5862798690795898,
      "learning_rate": 0.00012631048685346957,
      "loss": 1.4952,
      "step": 62808
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5934326648712158,
      "learning_rate": 0.00012630196480099498,
      "loss": 1.58,
      "step": 62809
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5902559161186218,
      "learning_rate": 0.0001262934429593642,
      "loss": 1.5249,
      "step": 62810
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6105248332023621,
      "learning_rate": 0.00012628492132858786,
      "loss": 1.5794,
      "step": 62811
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6014204025268555,
      "learning_rate": 0.00012627639990867576,
      "loss": 1.5089,
      "step": 62812
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5919209122657776,
      "learning_rate": 0.00012626787869963853,
      "loss": 1.616,
      "step": 62813
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6124889254570007,
      "learning_rate": 0.0001262593577014866,
      "loss": 1.6061,
      "step": 62814
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6143515706062317,
      "learning_rate": 0.00012625083691423023,
      "loss": 1.551,
      "step": 62815
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6077455878257751,
      "learning_rate": 0.0001262423163378796,
      "loss": 1.5073,
      "step": 62816
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5947816371917725,
      "learning_rate": 0.00012623379597244522,
      "loss": 1.5942,
      "step": 62817
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5998482704162598,
      "learning_rate": 0.00012622527581793763,
      "loss": 1.6153,
      "step": 62818
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.604670524597168,
      "learning_rate": 0.00012621675587436675,
      "loss": 1.6061,
      "step": 62819
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6310063004493713,
      "learning_rate": 0.0001262082361417431,
      "loss": 1.5342,
      "step": 62820
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5947816371917725,
      "learning_rate": 0.00012619971662007712,
      "loss": 1.5633,
      "step": 62821
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6169053912162781,
      "learning_rate": 0.00012619119730937912,
      "loss": 1.5637,
      "step": 62822
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6022080779075623,
      "learning_rate": 0.00012618267820965927,
      "loss": 1.5645,
      "step": 62823
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6153945326805115,
      "learning_rate": 0.00012617415932092806,
      "loss": 1.497,
      "step": 62824
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5923886895179749,
      "learning_rate": 0.000126165640643196,
      "loss": 1.5713,
      "step": 62825
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6016861200332642,
      "learning_rate": 0.00012615712217647305,
      "loss": 1.5979,
      "step": 62826
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5918208360671997,
      "learning_rate": 0.0001261486039207697,
      "loss": 1.5983,
      "step": 62827
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5827059149742126,
      "learning_rate": 0.00012614008587609644,
      "loss": 1.4946,
      "step": 62828
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5851951241493225,
      "learning_rate": 0.00012613156804246352,
      "loss": 1.4647,
      "step": 62829
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6275510191917419,
      "learning_rate": 0.00012612305041988115,
      "loss": 1.584,
      "step": 62830
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6280347108840942,
      "learning_rate": 0.0001261145330083599,
      "loss": 1.5138,
      "step": 62831
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6037483811378479,
      "learning_rate": 0.00012610601580790996,
      "loss": 1.5903,
      "step": 62832
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.571524441242218,
      "learning_rate": 0.00012609749881854158,
      "loss": 1.5133,
      "step": 62833
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5944347977638245,
      "learning_rate": 0.00012608898204026522,
      "loss": 1.6139,
      "step": 62834
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5823553800582886,
      "learning_rate": 0.00012608046547309132,
      "loss": 1.5098,
      "step": 62835
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5834987163543701,
      "learning_rate": 0.00012607194911703015,
      "loss": 1.5313,
      "step": 62836
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5937991738319397,
      "learning_rate": 0.00012606343297209187,
      "loss": 1.5368,
      "step": 62837
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5969557166099548,
      "learning_rate": 0.00012605491703828703,
      "loss": 1.53,
      "step": 62838
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6082185506820679,
      "learning_rate": 0.00012604640131562593,
      "loss": 1.5674,
      "step": 62839
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6093257069587708,
      "learning_rate": 0.00012603788580411874,
      "loss": 1.47,
      "step": 62840
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5774286985397339,
      "learning_rate": 0.00012602937050377604,
      "loss": 1.5051,
      "step": 62841
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5967433452606201,
      "learning_rate": 0.00012602085541460795,
      "loss": 1.4847,
      "step": 62842
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5780624747276306,
      "learning_rate": 0.00012601234053662502,
      "loss": 1.4756,
      "step": 62843
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5920215845108032,
      "learning_rate": 0.00012600382586983733,
      "loss": 1.4958,
      "step": 62844
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6033926010131836,
      "learning_rate": 0.0001259953114142555,
      "loss": 1.5327,
      "step": 62845
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5746175646781921,
      "learning_rate": 0.00012598679716988972,
      "loss": 1.4711,
      "step": 62846
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5909969210624695,
      "learning_rate": 0.0001259782831367502,
      "loss": 1.6085,
      "step": 62847
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6033972501754761,
      "learning_rate": 0.00012596976931484753,
      "loss": 1.5332,
      "step": 62848
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5876825451850891,
      "learning_rate": 0.0001259612557041918,
      "loss": 1.5191,
      "step": 62849
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5829606652259827,
      "learning_rate": 0.00012595274230479356,
      "loss": 1.5774,
      "step": 62850
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6089326739311218,
      "learning_rate": 0.00012594422911666307,
      "loss": 1.566,
      "step": 62851
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5902076363563538,
      "learning_rate": 0.00012593571613981052,
      "loss": 1.506,
      "step": 62852
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6136140823364258,
      "learning_rate": 0.00012592720337424647,
      "loss": 1.6464,
      "step": 62853
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5986846685409546,
      "learning_rate": 0.00012591869081998104,
      "loss": 1.6138,
      "step": 62854
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5777997970581055,
      "learning_rate": 0.00012591017847702476,
      "loss": 1.5291,
      "step": 62855
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6061184406280518,
      "learning_rate": 0.00012590166634538782,
      "loss": 1.5797,
      "step": 62856
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5865998268127441,
      "learning_rate": 0.00012589315442508066,
      "loss": 1.4764,
      "step": 62857
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5842251777648926,
      "learning_rate": 0.00012588464271611358,
      "loss": 1.5619,
      "step": 62858
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5929359793663025,
      "learning_rate": 0.0001258761312184968,
      "loss": 1.5402,
      "step": 62859
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5991306900978088,
      "learning_rate": 0.00012586761993224082,
      "loss": 1.5716,
      "step": 62860
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6254839897155762,
      "learning_rate": 0.00012585910885735588,
      "loss": 1.5002,
      "step": 62861
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6065028309822083,
      "learning_rate": 0.0001258505979938522,
      "loss": 1.5348,
      "step": 62862
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6114285588264465,
      "learning_rate": 0.00012584208734174032,
      "loss": 1.546,
      "step": 62863
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6211398839950562,
      "learning_rate": 0.00012583357690103053,
      "loss": 1.4657,
      "step": 62864
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5983327627182007,
      "learning_rate": 0.0001258250666717331,
      "loss": 1.5798,
      "step": 62865
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6084374189376831,
      "learning_rate": 0.0001258165566538583,
      "loss": 1.5657,
      "step": 62866
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.605027973651886,
      "learning_rate": 0.00012580804684741653,
      "loss": 1.6123,
      "step": 62867
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6021010279655457,
      "learning_rate": 0.00012579953725241834,
      "loss": 1.4895,
      "step": 62868
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5992690324783325,
      "learning_rate": 0.0001257910278688736,
      "loss": 1.5603,
      "step": 62869
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5770065188407898,
      "learning_rate": 0.0001257825186967929,
      "loss": 1.5063,
      "step": 62870
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6495400667190552,
      "learning_rate": 0.0001257740097361867,
      "loss": 1.5287,
      "step": 62871
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5663004517555237,
      "learning_rate": 0.00012576550098706516,
      "loss": 1.5894,
      "step": 62872
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5988852381706238,
      "learning_rate": 0.0001257569924494385,
      "loss": 1.5622,
      "step": 62873
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.594835102558136,
      "learning_rate": 0.00012574848412331722,
      "loss": 1.5758,
      "step": 62874
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6074844002723694,
      "learning_rate": 0.00012573997600871177,
      "loss": 1.5453,
      "step": 62875
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5706571340560913,
      "learning_rate": 0.00012573146810563213,
      "loss": 1.5698,
      "step": 62876
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.585965096950531,
      "learning_rate": 0.0001257229604140888,
      "loss": 1.5745,
      "step": 62877
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5768189430236816,
      "learning_rate": 0.00012571445293409222,
      "loss": 1.6083,
      "step": 62878
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6061245799064636,
      "learning_rate": 0.00012570594566565263,
      "loss": 1.5067,
      "step": 62879
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6596240401268005,
      "learning_rate": 0.0001256974386087802,
      "loss": 1.4978,
      "step": 62880
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5892720222473145,
      "learning_rate": 0.00012568893176348543,
      "loss": 1.5147,
      "step": 62881
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6091716885566711,
      "learning_rate": 0.00012568042512977882,
      "loss": 1.5743,
      "step": 62882
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6033994555473328,
      "learning_rate": 0.0001256719187076703,
      "loss": 1.6454,
      "step": 62883
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5888350009918213,
      "learning_rate": 0.00012566341249717035,
      "loss": 1.5557,
      "step": 62884
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5915475487709045,
      "learning_rate": 0.00012565490649828944,
      "loss": 1.5136,
      "step": 62885
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.608986496925354,
      "learning_rate": 0.0001256464007110378,
      "loss": 1.5488,
      "step": 62886
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5908599495887756,
      "learning_rate": 0.0001256378951354256,
      "loss": 1.5343,
      "step": 62887
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5711562037467957,
      "learning_rate": 0.00012562938977146344,
      "loss": 1.4985,
      "step": 62888
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5885728597640991,
      "learning_rate": 0.0001256208846191615,
      "loss": 1.5631,
      "step": 62889
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6001721024513245,
      "learning_rate": 0.00012561237967853,
      "loss": 1.55,
      "step": 62890
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5992089509963989,
      "learning_rate": 0.00012560387494957938,
      "loss": 1.488,
      "step": 62891
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5770140290260315,
      "learning_rate": 0.0001255953704323201,
      "loss": 1.5329,
      "step": 62892
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5989029407501221,
      "learning_rate": 0.00012558686612676228,
      "loss": 1.5267,
      "step": 62893
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5980902314186096,
      "learning_rate": 0.00012557836203291626,
      "loss": 1.5328,
      "step": 62894
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5816245079040527,
      "learning_rate": 0.0001255698581507925,
      "loss": 1.5849,
      "step": 62895
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5794165730476379,
      "learning_rate": 0.00012556135448040122,
      "loss": 1.5046,
      "step": 62896
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5923129320144653,
      "learning_rate": 0.00012555285102175263,
      "loss": 1.5543,
      "step": 62897
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5836009383201599,
      "learning_rate": 0.00012554434777485734,
      "loss": 1.5134,
      "step": 62898
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6324717998504639,
      "learning_rate": 0.00012553584473972532,
      "loss": 1.5476,
      "step": 62899
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5802844166755676,
      "learning_rate": 0.00012552734191636721,
      "loss": 1.5138,
      "step": 62900
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6077647805213928,
      "learning_rate": 0.00012551883930479315,
      "loss": 1.5596,
      "step": 62901
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5783089399337769,
      "learning_rate": 0.00012551033690501355,
      "loss": 1.5065,
      "step": 62902
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6076578497886658,
      "learning_rate": 0.0001255018347170387,
      "loss": 1.5218,
      "step": 62903
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6169490218162537,
      "learning_rate": 0.00012549333274087884,
      "loss": 1.5748,
      "step": 62904
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5966001152992249,
      "learning_rate": 0.00012548483097654447,
      "loss": 1.537,
      "step": 62905
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6112616062164307,
      "learning_rate": 0.00012547632942404565,
      "loss": 1.5443,
      "step": 62906
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6214967966079712,
      "learning_rate": 0.000125467828083393,
      "loss": 1.5649,
      "step": 62907
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6056931018829346,
      "learning_rate": 0.00012545932695459666,
      "loss": 1.5259,
      "step": 62908
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5933776497840881,
      "learning_rate": 0.00012545082603766686,
      "loss": 1.5484,
      "step": 62909
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6054468750953674,
      "learning_rate": 0.0001254423253326142,
      "loss": 1.5396,
      "step": 62910
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5705211758613586,
      "learning_rate": 0.00012543382483944869,
      "loss": 1.5272,
      "step": 62911
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6070691347122192,
      "learning_rate": 0.00012542532455818092,
      "loss": 1.5983,
      "step": 62912
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6183091402053833,
      "learning_rate": 0.00012541682448882096,
      "loss": 1.6024,
      "step": 62913
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6174781918525696,
      "learning_rate": 0.00012540832463137937,
      "loss": 1.4694,
      "step": 62914
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5937018990516663,
      "learning_rate": 0.00012539982498586635,
      "loss": 1.5046,
      "step": 62915
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6176297068595886,
      "learning_rate": 0.0001253913255522921,
      "loss": 1.5098,
      "step": 62916
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6004843711853027,
      "learning_rate": 0.00012538282633066717,
      "loss": 1.5127,
      "step": 62917
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6017694473266602,
      "learning_rate": 0.00012537432732100177,
      "loss": 1.5179,
      "step": 62918
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6027638912200928,
      "learning_rate": 0.00012536582852330606,
      "loss": 1.487,
      "step": 62919
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6035944223403931,
      "learning_rate": 0.00012535732993759053,
      "loss": 1.5559,
      "step": 62920
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6233951449394226,
      "learning_rate": 0.0001253488315638656,
      "loss": 1.552,
      "step": 62921
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6079828143119812,
      "learning_rate": 0.00012534033340214144,
      "loss": 1.514,
      "step": 62922
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6021762490272522,
      "learning_rate": 0.00012533183545242825,
      "loss": 1.5912,
      "step": 62923
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6143155694007874,
      "learning_rate": 0.0001253233377147366,
      "loss": 1.5598,
      "step": 62924
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6276208162307739,
      "learning_rate": 0.0001253148401890767,
      "loss": 1.5057,
      "step": 62925
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.623906672000885,
      "learning_rate": 0.00012530634287545868,
      "loss": 1.5758,
      "step": 62926
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.580964207649231,
      "learning_rate": 0.00012529784577389305,
      "loss": 1.5566,
      "step": 62927
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5941699147224426,
      "learning_rate": 0.00012528934888439032,
      "loss": 1.5339,
      "step": 62928
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6310232281684875,
      "learning_rate": 0.00012528085220696038,
      "loss": 1.5555,
      "step": 62929
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6106317043304443,
      "learning_rate": 0.0001252723557416137,
      "loss": 1.5557,
      "step": 62930
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6016088724136353,
      "learning_rate": 0.00012526385948836074,
      "loss": 1.5763,
      "step": 62931
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6095215678215027,
      "learning_rate": 0.00012525536344721173,
      "loss": 1.5777,
      "step": 62932
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.604348361492157,
      "learning_rate": 0.0001252468676181769,
      "loss": 1.6214,
      "step": 62933
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6277320384979248,
      "learning_rate": 0.00012523837200126655,
      "loss": 1.4747,
      "step": 62934
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6008325815200806,
      "learning_rate": 0.0001252298765964913,
      "loss": 1.5186,
      "step": 62935
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5952758193016052,
      "learning_rate": 0.00012522138140386106,
      "loss": 1.5602,
      "step": 62936
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5922350883483887,
      "learning_rate": 0.00012521288642338625,
      "loss": 1.44,
      "step": 62937
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5927262902259827,
      "learning_rate": 0.0001252043916550774,
      "loss": 1.539,
      "step": 62938
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6277387142181396,
      "learning_rate": 0.00012519589709894462,
      "loss": 1.482,
      "step": 62939
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6183160543441772,
      "learning_rate": 0.00012518740275499815,
      "loss": 1.5779,
      "step": 62940
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6113181114196777,
      "learning_rate": 0.00012517890862324846,
      "loss": 1.5191,
      "step": 62941
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6004571318626404,
      "learning_rate": 0.000125170414703706,
      "loss": 1.4797,
      "step": 62942
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6089462041854858,
      "learning_rate": 0.00012516192099638069,
      "loss": 1.5699,
      "step": 62943
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.604844331741333,
      "learning_rate": 0.00012515342750128304,
      "loss": 1.5521,
      "step": 62944
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6171368956565857,
      "learning_rate": 0.0001251449342184235,
      "loss": 1.5923,
      "step": 62945
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6009442806243896,
      "learning_rate": 0.00012513644114781224,
      "loss": 1.5067,
      "step": 62946
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5884603261947632,
      "learning_rate": 0.00012512794828945946,
      "loss": 1.5572,
      "step": 62947
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5871878862380981,
      "learning_rate": 0.00012511945564337568,
      "loss": 1.5397,
      "step": 62948
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5912563800811768,
      "learning_rate": 0.00012511096320957113,
      "loss": 1.5459,
      "step": 62949
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6006981134414673,
      "learning_rate": 0.000125102470988056,
      "loss": 1.5332,
      "step": 62950
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5945910811424255,
      "learning_rate": 0.00012509397897884068,
      "loss": 1.5458,
      "step": 62951
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5751301646232605,
      "learning_rate": 0.00012508548718193562,
      "loss": 1.5237,
      "step": 62952
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5826671123504639,
      "learning_rate": 0.00012507699559735101,
      "loss": 1.4794,
      "step": 62953
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6040773987770081,
      "learning_rate": 0.00012506850422509702,
      "loss": 1.5035,
      "step": 62954
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.59074866771698,
      "learning_rate": 0.00012506001306518421,
      "loss": 1.6084,
      "step": 62955
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5889836549758911,
      "learning_rate": 0.00012505152211762278,
      "loss": 1.5343,
      "step": 62956
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6161449551582336,
      "learning_rate": 0.00012504303138242292,
      "loss": 1.6685,
      "step": 62957
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5927654504776001,
      "learning_rate": 0.00012503454085959512,
      "loss": 1.5241,
      "step": 62958
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5783355236053467,
      "learning_rate": 0.0001250260505491495,
      "loss": 1.5401,
      "step": 62959
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5825081467628479,
      "learning_rate": 0.0001250175604510966,
      "loss": 1.5716,
      "step": 62960
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6006273627281189,
      "learning_rate": 0.00012500907056544653,
      "loss": 1.5746,
      "step": 62961
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6021957397460938,
      "learning_rate": 0.00012500058089220972,
      "loss": 1.555,
      "step": 62962
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5942090153694153,
      "learning_rate": 0.00012499209143139646,
      "loss": 1.5086,
      "step": 62963
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6039432883262634,
      "learning_rate": 0.00012498360218301686,
      "loss": 1.5208,
      "step": 62964
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.589928150177002,
      "learning_rate": 0.00012497511314708148,
      "loss": 1.5218,
      "step": 62965
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5863595604896545,
      "learning_rate": 0.00012496662432360048,
      "loss": 1.587,
      "step": 62966
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5796096920967102,
      "learning_rate": 0.00012495813571258428,
      "loss": 1.5734,
      "step": 62967
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.5807588696479797,
      "learning_rate": 0.00012494964731404312,
      "loss": 1.5644,
      "step": 62968
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.6151538491249084,
      "learning_rate": 0.00012494115912798715,
      "loss": 1.5346,
      "step": 62969
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5866417288780212,
      "learning_rate": 0.00012493267115442697,
      "loss": 1.5966,
      "step": 62970
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5808321237564087,
      "learning_rate": 0.0001249241833933726,
      "loss": 1.539,
      "step": 62971
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5927139520645142,
      "learning_rate": 0.0001249156958448346,
      "loss": 1.5306,
      "step": 62972
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5789344310760498,
      "learning_rate": 0.00012490720850882303,
      "loss": 1.5554,
      "step": 62973
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5849830508232117,
      "learning_rate": 0.00012489872138534843,
      "loss": 1.5863,
      "step": 62974
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5902794599533081,
      "learning_rate": 0.00012489023447442098,
      "loss": 1.4919,
      "step": 62975
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6252054572105408,
      "learning_rate": 0.00012488174777605085,
      "loss": 1.6136,
      "step": 62976
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6111361980438232,
      "learning_rate": 0.0001248732612902485,
      "loss": 1.5914,
      "step": 62977
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6035195589065552,
      "learning_rate": 0.0001248647750170244,
      "loss": 1.5601,
      "step": 62978
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.622093915939331,
      "learning_rate": 0.00012485628895638848,
      "loss": 1.6471,
      "step": 62979
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5779868960380554,
      "learning_rate": 0.0001248478031083512,
      "loss": 1.5521,
      "step": 62980
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6029664278030396,
      "learning_rate": 0.000124839317472923,
      "loss": 1.5486,
      "step": 62981
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5886214971542358,
      "learning_rate": 0.00012483083205011404,
      "loss": 1.5241,
      "step": 62982
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6134008169174194,
      "learning_rate": 0.00012482234683993456,
      "loss": 1.5281,
      "step": 62983
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.596061110496521,
      "learning_rate": 0.0001248138618423949,
      "loss": 1.5498,
      "step": 62984
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6230688691139221,
      "learning_rate": 0.00012480537705750566,
      "loss": 1.5442,
      "step": 62985
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.612483561038971,
      "learning_rate": 0.00012479689248527662,
      "loss": 1.5736,
      "step": 62986
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.605178713798523,
      "learning_rate": 0.00012478840812571833,
      "loss": 1.5726,
      "step": 62987
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6014685034751892,
      "learning_rate": 0.00012477992397884124,
      "loss": 1.5537,
      "step": 62988
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6079426407814026,
      "learning_rate": 0.0001247714400446555,
      "loss": 1.6106,
      "step": 62989
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5920231938362122,
      "learning_rate": 0.0001247629563231713,
      "loss": 1.4252,
      "step": 62990
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6613650321960449,
      "learning_rate": 0.00012475447281439907,
      "loss": 1.5934,
      "step": 62991
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6135483384132385,
      "learning_rate": 0.00012474598951834926,
      "loss": 1.6269,
      "step": 62992
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5897538661956787,
      "learning_rate": 0.0001247375064350318,
      "loss": 1.5186,
      "step": 62993
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6103223562240601,
      "learning_rate": 0.00012472902356445718,
      "loss": 1.6047,
      "step": 62994
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5911622643470764,
      "learning_rate": 0.00012472054090663582,
      "loss": 1.5123,
      "step": 62995
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5941800475120544,
      "learning_rate": 0.0001247120584615779,
      "loss": 1.5257,
      "step": 62996
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6039249300956726,
      "learning_rate": 0.0001247035762292936,
      "loss": 1.5801,
      "step": 62997
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5890957117080688,
      "learning_rate": 0.00012469509420979334,
      "loss": 1.5731,
      "step": 62998
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6005584597587585,
      "learning_rate": 0.0001246866124030876,
      "loss": 1.6462,
      "step": 62999
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5885721445083618,
      "learning_rate": 0.0001246781308091863,
      "loss": 1.6104,
      "step": 63000
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5987630486488342,
      "learning_rate": 0.00012466964942809986,
      "loss": 1.5124,
      "step": 63001
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5849704742431641,
      "learning_rate": 0.0001246611682598388,
      "loss": 1.494,
      "step": 63002
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5988162159919739,
      "learning_rate": 0.00012465268730441322,
      "loss": 1.5092,
      "step": 63003
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5797656774520874,
      "learning_rate": 0.00012464420656183332,
      "loss": 1.4961,
      "step": 63004
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6266000270843506,
      "learning_rate": 0.00012463572603210965,
      "loss": 1.5645,
      "step": 63005
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5967097282409668,
      "learning_rate": 0.00012462724571525236,
      "loss": 1.5418,
      "step": 63006
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5952870845794678,
      "learning_rate": 0.00012461876561127162,
      "loss": 1.5093,
      "step": 63007
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6055687665939331,
      "learning_rate": 0.0001246102857201779,
      "loss": 1.6344,
      "step": 63008
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5760178565979004,
      "learning_rate": 0.00012460180604198151,
      "loss": 1.5641,
      "step": 63009
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6184377670288086,
      "learning_rate": 0.00012459332657669274,
      "loss": 1.5698,
      "step": 63010
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6009542942047119,
      "learning_rate": 0.0001245848473243217,
      "loss": 1.4867,
      "step": 63011
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6241637468338013,
      "learning_rate": 0.00012457636828487888,
      "loss": 1.5286,
      "step": 63012
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5974553823471069,
      "learning_rate": 0.00012456788945837454,
      "loss": 1.5398,
      "step": 63013
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5976635217666626,
      "learning_rate": 0.00012455941084481883,
      "loss": 1.519,
      "step": 63014
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6015567183494568,
      "learning_rate": 0.00012455093244422222,
      "loss": 1.5365,
      "step": 63015
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6057955026626587,
      "learning_rate": 0.00012454245425659485,
      "loss": 1.5787,
      "step": 63016
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6045273542404175,
      "learning_rate": 0.00012453397628194718,
      "loss": 1.5585,
      "step": 63017
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6009649634361267,
      "learning_rate": 0.00012452549852028932,
      "loss": 1.5781,
      "step": 63018
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5848254561424255,
      "learning_rate": 0.0001245170209716317,
      "loss": 1.5795,
      "step": 63019
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5830158591270447,
      "learning_rate": 0.00012450854363598463,
      "loss": 1.4779,
      "step": 63020
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6199374794960022,
      "learning_rate": 0.00012450006651335818,
      "loss": 1.5435,
      "step": 63021
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5990592837333679,
      "learning_rate": 0.00012449158960376293,
      "loss": 1.5152,
      "step": 63022
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5982845425605774,
      "learning_rate": 0.0001244831129072089,
      "loss": 1.503,
      "step": 63023
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6058322191238403,
      "learning_rate": 0.00012447463642370664,
      "loss": 1.5919,
      "step": 63024
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6138522028923035,
      "learning_rate": 0.00012446616015326627,
      "loss": 1.5924,
      "step": 63025
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6029154658317566,
      "learning_rate": 0.00012445768409589806,
      "loss": 1.6024,
      "step": 63026
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6017460823059082,
      "learning_rate": 0.0001244492082516124,
      "loss": 1.5357,
      "step": 63027
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5996838212013245,
      "learning_rate": 0.00012444073262041946,
      "loss": 1.5527,
      "step": 63028
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.609369158744812,
      "learning_rate": 0.00012443225720232972,
      "loss": 1.5512,
      "step": 63029
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6228169798851013,
      "learning_rate": 0.00012442378199735326,
      "loss": 1.4886,
      "step": 63030
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6098719239234924,
      "learning_rate": 0.00012441530700550054,
      "loss": 1.4775,
      "step": 63031
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6226651072502136,
      "learning_rate": 0.00012440683222678177,
      "loss": 1.4874,
      "step": 63032
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5749399065971375,
      "learning_rate": 0.0001243983576612071,
      "loss": 1.4738,
      "step": 63033
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6203179955482483,
      "learning_rate": 0.00012438988330878712,
      "loss": 1.5612,
      "step": 63034
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6040284633636475,
      "learning_rate": 0.0001243814091695319,
      "loss": 1.508,
      "step": 63035
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.598492443561554,
      "learning_rate": 0.00012437293524345167,
      "loss": 1.537,
      "step": 63036
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6137017607688904,
      "learning_rate": 0.00012436446153055682,
      "loss": 1.5196,
      "step": 63037
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5908239483833313,
      "learning_rate": 0.00012435598803085774,
      "loss": 1.6212,
      "step": 63038
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5999774932861328,
      "learning_rate": 0.00012434751474436464,
      "loss": 1.5652,
      "step": 63039
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5998786091804504,
      "learning_rate": 0.00012433904167108765,
      "loss": 1.5263,
      "step": 63040
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6221578121185303,
      "learning_rate": 0.00012433056881103728,
      "loss": 1.558,
      "step": 63041
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5920177698135376,
      "learning_rate": 0.00012432209616422373,
      "loss": 1.4968,
      "step": 63042
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.598750650882721,
      "learning_rate": 0.00012431362373065713,
      "loss": 1.5066,
      "step": 63043
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5980507731437683,
      "learning_rate": 0.00012430515151034795,
      "loss": 1.6274,
      "step": 63044
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6160393357276917,
      "learning_rate": 0.00012429667950330663,
      "loss": 1.5088,
      "step": 63045
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5853872299194336,
      "learning_rate": 0.00012428820770954302,
      "loss": 1.502,
      "step": 63046
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5920884609222412,
      "learning_rate": 0.00012427973612906765,
      "loss": 1.5747,
      "step": 63047
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5817298293113708,
      "learning_rate": 0.00012427126476189087,
      "loss": 1.5521,
      "step": 63048
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6028791666030884,
      "learning_rate": 0.00012426279360802295,
      "loss": 1.5783,
      "step": 63049
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6002784967422485,
      "learning_rate": 0.00012425432266747392,
      "loss": 1.5464,
      "step": 63050
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6284096837043762,
      "learning_rate": 0.00012424585194025428,
      "loss": 1.5907,
      "step": 63051
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6134702563285828,
      "learning_rate": 0.0001242373814263745,
      "loss": 1.5528,
      "step": 63052
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6076708436012268,
      "learning_rate": 0.0001242289111258444,
      "loss": 1.523,
      "step": 63053
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5790991187095642,
      "learning_rate": 0.00012422044103867455,
      "loss": 1.5335,
      "step": 63054
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6015210151672363,
      "learning_rate": 0.00012421197116487526,
      "loss": 1.4969,
      "step": 63055
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5903984904289246,
      "learning_rate": 0.00012420350150445675,
      "loss": 1.5857,
      "step": 63056
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6058076024055481,
      "learning_rate": 0.00012419503205742915,
      "loss": 1.5346,
      "step": 63057
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6116477251052856,
      "learning_rate": 0.0001241865628238029,
      "loss": 1.567,
      "step": 63058
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6116425395011902,
      "learning_rate": 0.00012417809380358848,
      "loss": 1.6006,
      "step": 63059
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5710917115211487,
      "learning_rate": 0.0001241696249967957,
      "loss": 1.4368,
      "step": 63060
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5958333611488342,
      "learning_rate": 0.00012416115640343514,
      "loss": 1.541,
      "step": 63061
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5935766696929932,
      "learning_rate": 0.0001241526880235171,
      "loss": 1.5088,
      "step": 63062
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5909925699234009,
      "learning_rate": 0.0001241442198570518,
      "loss": 1.4983,
      "step": 63063
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5940133333206177,
      "learning_rate": 0.0001241357519040494,
      "loss": 1.6178,
      "step": 63064
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5934876799583435,
      "learning_rate": 0.00012412728416452036,
      "loss": 1.5541,
      "step": 63065
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5725234150886536,
      "learning_rate": 0.00012411881663847494,
      "loss": 1.4941,
      "step": 63066
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5880974531173706,
      "learning_rate": 0.0001241103493259232,
      "loss": 1.5039,
      "step": 63067
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5953025221824646,
      "learning_rate": 0.00012410188222687562,
      "loss": 1.5258,
      "step": 63068
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.596246600151062,
      "learning_rate": 0.00012409341534134252,
      "loss": 1.5037,
      "step": 63069
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6057473421096802,
      "learning_rate": 0.0001240849486693341,
      "loss": 1.5742,
      "step": 63070
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5973336696624756,
      "learning_rate": 0.00012407648221086053,
      "loss": 1.5841,
      "step": 63071
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5871639847755432,
      "learning_rate": 0.0001240680159659323,
      "loss": 1.5333,
      "step": 63072
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6037636399269104,
      "learning_rate": 0.00012405954993455957,
      "loss": 1.5524,
      "step": 63073
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.610061526298523,
      "learning_rate": 0.0001240510841167525,
      "loss": 1.5592,
      "step": 63074
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5834280848503113,
      "learning_rate": 0.00012404261851252162,
      "loss": 1.6055,
      "step": 63075
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6001718044281006,
      "learning_rate": 0.00012403415312187697,
      "loss": 1.5797,
      "step": 63076
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5659500956535339,
      "learning_rate": 0.00012402568794482903,
      "loss": 1.5344,
      "step": 63077
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6008645296096802,
      "learning_rate": 0.00012401722298138786,
      "loss": 1.5663,
      "step": 63078
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6056457757949829,
      "learning_rate": 0.00012400875823156398,
      "loss": 1.6054,
      "step": 63079
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6091437339782715,
      "learning_rate": 0.0001240002936953675,
      "loss": 1.4908,
      "step": 63080
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6056159138679504,
      "learning_rate": 0.00012399182937280866,
      "loss": 1.5543,
      "step": 63081
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6043621897697449,
      "learning_rate": 0.0001239833652638979,
      "loss": 1.5392,
      "step": 63082
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5971442461013794,
      "learning_rate": 0.00012397490136864528,
      "loss": 1.4698,
      "step": 63083
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5970653891563416,
      "learning_rate": 0.00012396643768706133,
      "loss": 1.5201,
      "step": 63084
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.584234893321991,
      "learning_rate": 0.00012395797421915614,
      "loss": 1.5212,
      "step": 63085
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5847131013870239,
      "learning_rate": 0.00012394951096493997,
      "loss": 1.5276,
      "step": 63086
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5861959457397461,
      "learning_rate": 0.00012394104792442324,
      "loss": 1.4903,
      "step": 63087
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.60472172498703,
      "learning_rate": 0.00012393258509761602,
      "loss": 1.6377,
      "step": 63088
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5861455798149109,
      "learning_rate": 0.00012392412248452884,
      "loss": 1.5518,
      "step": 63089
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.580124020576477,
      "learning_rate": 0.00012391566008517168,
      "loss": 1.5415,
      "step": 63090
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6039964556694031,
      "learning_rate": 0.00012390719789955512,
      "loss": 1.5496,
      "step": 63091
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6043590903282166,
      "learning_rate": 0.00012389873592768923,
      "loss": 1.5341,
      "step": 63092
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6127230525016785,
      "learning_rate": 0.00012389027416958426,
      "loss": 1.5551,
      "step": 63093
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6155075430870056,
      "learning_rate": 0.00012388181262525054,
      "loss": 1.4941,
      "step": 63094
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6285696625709534,
      "learning_rate": 0.00012387335129469856,
      "loss": 1.5546,
      "step": 63095
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5869019031524658,
      "learning_rate": 0.00012386489017793815,
      "loss": 1.5438,
      "step": 63096
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5951157808303833,
      "learning_rate": 0.0001238564292749798,
      "loss": 1.5265,
      "step": 63097
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5870259404182434,
      "learning_rate": 0.00012384796858583392,
      "loss": 1.4515,
      "step": 63098
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.588997483253479,
      "learning_rate": 0.00012383950811051066,
      "loss": 1.492,
      "step": 63099
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5770412087440491,
      "learning_rate": 0.00012383104784902016,
      "loss": 1.5592,
      "step": 63100
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6067824363708496,
      "learning_rate": 0.00012382258780137284,
      "loss": 1.492,
      "step": 63101
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6013799905776978,
      "learning_rate": 0.00012381412796757914,
      "loss": 1.5606,
      "step": 63102
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.581818163394928,
      "learning_rate": 0.0001238056683476489,
      "loss": 1.5453,
      "step": 63103
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5990729928016663,
      "learning_rate": 0.0001237972089415926,
      "loss": 1.4773,
      "step": 63104
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.583879828453064,
      "learning_rate": 0.00012378874974942067,
      "loss": 1.5068,
      "step": 63105
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5786827802658081,
      "learning_rate": 0.0001237802907711432,
      "loss": 1.5615,
      "step": 63106
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6041722297668457,
      "learning_rate": 0.00012377183200677042,
      "loss": 1.5089,
      "step": 63107
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6094309687614441,
      "learning_rate": 0.00012376337345631266,
      "loss": 1.6145,
      "step": 63108
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6116036176681519,
      "learning_rate": 0.0001237549151197804,
      "loss": 1.6384,
      "step": 63109
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5937679409980774,
      "learning_rate": 0.0001237464569971835,
      "loss": 1.5481,
      "step": 63110
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6198703646659851,
      "learning_rate": 0.00012373799908853243,
      "loss": 1.5606,
      "step": 63111
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.591195285320282,
      "learning_rate": 0.00012372954139383758,
      "loss": 1.5527,
      "step": 63112
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6015642881393433,
      "learning_rate": 0.00012372108391310905,
      "loss": 1.4349,
      "step": 63113
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5940942764282227,
      "learning_rate": 0.00012371262664635706,
      "loss": 1.587,
      "step": 63114
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5989144444465637,
      "learning_rate": 0.00012370416959359197,
      "loss": 1.5352,
      "step": 63115
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6120598912239075,
      "learning_rate": 0.0001236957127548243,
      "loss": 1.574,
      "step": 63116
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5941580533981323,
      "learning_rate": 0.00012368725613006378,
      "loss": 1.5312,
      "step": 63117
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5954113006591797,
      "learning_rate": 0.00012367879971932102,
      "loss": 1.5897,
      "step": 63118
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6162821054458618,
      "learning_rate": 0.00012367034352260626,
      "loss": 1.5887,
      "step": 63119
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5985748767852783,
      "learning_rate": 0.00012366188753992974,
      "loss": 1.5324,
      "step": 63120
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5962945818901062,
      "learning_rate": 0.00012365343177130162,
      "loss": 1.5631,
      "step": 63121
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5816867351531982,
      "learning_rate": 0.00012364497621673233,
      "loss": 1.5019,
      "step": 63122
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5931495428085327,
      "learning_rate": 0.00012363652087623209,
      "loss": 1.6067,
      "step": 63123
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6124947667121887,
      "learning_rate": 0.00012362806574981098,
      "loss": 1.5909,
      "step": 63124
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.602680504322052,
      "learning_rate": 0.00012361961083747942,
      "loss": 1.5755,
      "step": 63125
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5949299931526184,
      "learning_rate": 0.0001236111561392478,
      "loss": 1.6012,
      "step": 63126
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5957151651382446,
      "learning_rate": 0.00012360270165512623,
      "loss": 1.5288,
      "step": 63127
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5995802879333496,
      "learning_rate": 0.00012359424738512487,
      "loss": 1.5966,
      "step": 63128
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6039272546768188,
      "learning_rate": 0.00012358579332925424,
      "loss": 1.5652,
      "step": 63129
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5876898765563965,
      "learning_rate": 0.00012357733948752445,
      "loss": 1.5874,
      "step": 63130
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5876895785331726,
      "learning_rate": 0.00012356888585994563,
      "loss": 1.6072,
      "step": 63131
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6317618489265442,
      "learning_rate": 0.0001235604324465283,
      "loss": 1.6038,
      "step": 63132
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6360281109809875,
      "learning_rate": 0.00012355197924728253,
      "loss": 1.4593,
      "step": 63133
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5897858738899231,
      "learning_rate": 0.0001235435262622188,
      "loss": 1.5151,
      "step": 63134
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5848787426948547,
      "learning_rate": 0.00012353507349134707,
      "loss": 1.5161,
      "step": 63135
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5919345021247864,
      "learning_rate": 0.00012352662093467788,
      "loss": 1.5555,
      "step": 63136
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6168361902236938,
      "learning_rate": 0.00012351816859222138,
      "loss": 1.5593,
      "step": 63137
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.586295485496521,
      "learning_rate": 0.00012350971646398767,
      "loss": 1.5329,
      "step": 63138
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6078110933303833,
      "learning_rate": 0.00012350126454998734,
      "loss": 1.5829,
      "step": 63139
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6064760684967041,
      "learning_rate": 0.00012349281285023027,
      "loss": 1.6145,
      "step": 63140
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6251130104064941,
      "learning_rate": 0.0001234843613647271,
      "loss": 1.5184,
      "step": 63141
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6056569218635559,
      "learning_rate": 0.00012347591009348788,
      "loss": 1.5518,
      "step": 63142
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6144242286682129,
      "learning_rate": 0.00012346745903652278,
      "loss": 1.5461,
      "step": 63143
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6105167269706726,
      "learning_rate": 0.0001234590081938423,
      "loss": 1.5555,
      "step": 63144
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6051586866378784,
      "learning_rate": 0.00012345055756545644,
      "loss": 1.5396,
      "step": 63145
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5841924548149109,
      "learning_rate": 0.00012344210715137575,
      "loss": 1.5182,
      "step": 63146
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6085826754570007,
      "learning_rate": 0.00012343365695161019,
      "loss": 1.5012,
      "step": 63147
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6198387742042542,
      "learning_rate": 0.00012342520696617025,
      "loss": 1.4941,
      "step": 63148
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.605533242225647,
      "learning_rate": 0.00012341675719506611,
      "loss": 1.4613,
      "step": 63149
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5968179702758789,
      "learning_rate": 0.00012340830763830788,
      "loss": 1.51,
      "step": 63150
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5929101705551147,
      "learning_rate": 0.00012339985829590606,
      "loss": 1.5922,
      "step": 63151
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6373471021652222,
      "learning_rate": 0.0001233914091678708,
      "loss": 1.5549,
      "step": 63152
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5945984125137329,
      "learning_rate": 0.00012338296025421222,
      "loss": 1.5172,
      "step": 63153
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6057747602462769,
      "learning_rate": 0.00012337451155494073,
      "loss": 1.5287,
      "step": 63154
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5954074859619141,
      "learning_rate": 0.00012336606307006664,
      "loss": 1.5222,
      "step": 63155
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5874419808387756,
      "learning_rate": 0.00012335761479960014,
      "loss": 1.4904,
      "step": 63156
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6037147641181946,
      "learning_rate": 0.00012334916674355134,
      "loss": 1.4918,
      "step": 63157
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5614246129989624,
      "learning_rate": 0.00012334071890193074,
      "loss": 1.5713,
      "step": 63158
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5949941873550415,
      "learning_rate": 0.00012333227127474852,
      "loss": 1.5562,
      "step": 63159
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6246379613876343,
      "learning_rate": 0.0001233238238620147,
      "loss": 1.4799,
      "step": 63160
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5997045636177063,
      "learning_rate": 0.00012331537666373978,
      "loss": 1.4698,
      "step": 63161
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6105549335479736,
      "learning_rate": 0.00012330692967993422,
      "loss": 1.5404,
      "step": 63162
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6006349325180054,
      "learning_rate": 0.00012329848291060773,
      "loss": 1.5804,
      "step": 63163
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.595680832862854,
      "learning_rate": 0.00012329003635577087,
      "loss": 1.5664,
      "step": 63164
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5800594091415405,
      "learning_rate": 0.00012328159001543396,
      "loss": 1.5938,
      "step": 63165
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5914750695228577,
      "learning_rate": 0.00012327314388960715,
      "loss": 1.5161,
      "step": 63166
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.597728967666626,
      "learning_rate": 0.0001232646979783006,
      "loss": 1.5436,
      "step": 63167
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5816116333007812,
      "learning_rate": 0.00012325625228152472,
      "loss": 1.4699,
      "step": 63168
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6058325171470642,
      "learning_rate": 0.0001232478067992899,
      "loss": 1.5286,
      "step": 63169
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6001364588737488,
      "learning_rate": 0.00012323936153160595,
      "loss": 1.5048,
      "step": 63170
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6240421533584595,
      "learning_rate": 0.00012323091647848338,
      "loss": 1.5642,
      "step": 63171
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5826936960220337,
      "learning_rate": 0.00012322247163993257,
      "loss": 1.5162,
      "step": 63172
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5990517139434814,
      "learning_rate": 0.0001232140270159636,
      "loss": 1.4954,
      "step": 63173
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6332006454467773,
      "learning_rate": 0.00012320558260658666,
      "loss": 1.546,
      "step": 63174
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5909059047698975,
      "learning_rate": 0.00012319713841181212,
      "loss": 1.522,
      "step": 63175
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5981897711753845,
      "learning_rate": 0.00012318869443165035,
      "loss": 1.5482,
      "step": 63176
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6114423871040344,
      "learning_rate": 0.0001231802506661113,
      "loss": 1.6278,
      "step": 63177
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6187255382537842,
      "learning_rate": 0.00012317180711520536,
      "loss": 1.4861,
      "step": 63178
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5780289769172668,
      "learning_rate": 0.00012316336377894287,
      "loss": 1.5688,
      "step": 63179
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5903889536857605,
      "learning_rate": 0.000123154920657334,
      "loss": 1.4807,
      "step": 63180
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5894870162010193,
      "learning_rate": 0.00012314647775038895,
      "loss": 1.5158,
      "step": 63181
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5809151530265808,
      "learning_rate": 0.00012313803505811807,
      "loss": 1.5424,
      "step": 63182
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5910442471504211,
      "learning_rate": 0.00012312959258053158,
      "loss": 1.4544,
      "step": 63183
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5893629789352417,
      "learning_rate": 0.0001231211503176396,
      "loss": 1.5338,
      "step": 63184
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6014057397842407,
      "learning_rate": 0.00012311270826945246,
      "loss": 1.5056,
      "step": 63185
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5904240012168884,
      "learning_rate": 0.00012310426643598056,
      "loss": 1.6172,
      "step": 63186
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5982134342193604,
      "learning_rate": 0.000123095824817234,
      "loss": 1.5807,
      "step": 63187
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5982343554496765,
      "learning_rate": 0.00012308738341322293,
      "loss": 1.4593,
      "step": 63188
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5818132758140564,
      "learning_rate": 0.00012307894222395784,
      "loss": 1.5188,
      "step": 63189
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5757936239242554,
      "learning_rate": 0.0001230705012494488,
      "loss": 1.4907,
      "step": 63190
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6103045344352722,
      "learning_rate": 0.00012306206048970605,
      "loss": 1.5517,
      "step": 63191
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5695551633834839,
      "learning_rate": 0.00012305361994474,
      "loss": 1.5256,
      "step": 63192
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.576962947845459,
      "learning_rate": 0.00012304517961456062,
      "loss": 1.484,
      "step": 63193
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5728012323379517,
      "learning_rate": 0.00012303673949917845,
      "loss": 1.4813,
      "step": 63194
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6119862198829651,
      "learning_rate": 0.0001230282995986035,
      "loss": 1.5247,
      "step": 63195
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6160501837730408,
      "learning_rate": 0.00012301985991284626,
      "loss": 1.5739,
      "step": 63196
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5604270696640015,
      "learning_rate": 0.0001230114204419168,
      "loss": 1.4934,
      "step": 63197
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5752442479133606,
      "learning_rate": 0.00012300298118582526,
      "loss": 1.5299,
      "step": 63198
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5839769244194031,
      "learning_rate": 0.00012299454214458218,
      "loss": 1.5525,
      "step": 63199
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6168456077575684,
      "learning_rate": 0.0001229861033181975,
      "loss": 1.565,
      "step": 63200
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5903814435005188,
      "learning_rate": 0.00012297766470668176,
      "loss": 1.5112,
      "step": 63201
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5963212847709656,
      "learning_rate": 0.000122969226310045,
      "loss": 1.5562,
      "step": 63202
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6083652973175049,
      "learning_rate": 0.00012296078812829746,
      "loss": 1.5856,
      "step": 63203
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.611930787563324,
      "learning_rate": 0.00012295235016144952,
      "loss": 1.5727,
      "step": 63204
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5850966572761536,
      "learning_rate": 0.00012294391240951123,
      "loss": 1.5215,
      "step": 63205
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6056350469589233,
      "learning_rate": 0.00012293547487249304,
      "loss": 1.5327,
      "step": 63206
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.605733335018158,
      "learning_rate": 0.000122927037550405,
      "loss": 1.579,
      "step": 63207
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6030746102333069,
      "learning_rate": 0.00012291860044325755,
      "loss": 1.617,
      "step": 63208
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5943314433097839,
      "learning_rate": 0.00012291016355106082,
      "loss": 1.5647,
      "step": 63209
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6044982075691223,
      "learning_rate": 0.00012290172687382499,
      "loss": 1.4855,
      "step": 63210
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5836438536643982,
      "learning_rate": 0.00012289329041156034,
      "loss": 1.5809,
      "step": 63211
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.628389835357666,
      "learning_rate": 0.00012288485416427734,
      "loss": 1.5157,
      "step": 63212
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5978308916091919,
      "learning_rate": 0.00012287641813198583,
      "loss": 1.6141,
      "step": 63213
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6136370301246643,
      "learning_rate": 0.00012286798231469625,
      "loss": 1.5867,
      "step": 63214
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5931510329246521,
      "learning_rate": 0.00012285954671241895,
      "loss": 1.5301,
      "step": 63215
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5960748791694641,
      "learning_rate": 0.0001228511113251641,
      "loss": 1.5047,
      "step": 63216
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5921352505683899,
      "learning_rate": 0.0001228426761529417,
      "loss": 1.5682,
      "step": 63217
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6326943039894104,
      "learning_rate": 0.00012283424119576225,
      "loss": 1.6132,
      "step": 63218
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6235015988349915,
      "learning_rate": 0.00012282580645363612,
      "loss": 1.6149,
      "step": 63219
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5905637741088867,
      "learning_rate": 0.00012281737192657317,
      "loss": 1.4935,
      "step": 63220
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6087391376495361,
      "learning_rate": 0.0001228089376145838,
      "loss": 1.5535,
      "step": 63221
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5973726511001587,
      "learning_rate": 0.00012280050351767837,
      "loss": 1.5976,
      "step": 63222
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6194478273391724,
      "learning_rate": 0.00012279206963586705,
      "loss": 1.5047,
      "step": 63223
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.575149416923523,
      "learning_rate": 0.0001227836359691599,
      "loss": 1.4729,
      "step": 63224
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5900662541389465,
      "learning_rate": 0.00012277520251756735,
      "loss": 1.6004,
      "step": 63225
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5875883102416992,
      "learning_rate": 0.0001227667692810998,
      "loss": 1.5021,
      "step": 63226
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5697339177131653,
      "learning_rate": 0.00012275833625976704,
      "loss": 1.4871,
      "step": 63227
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6290993094444275,
      "learning_rate": 0.00012274990345357954,
      "loss": 1.5213,
      "step": 63228
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6291218996047974,
      "learning_rate": 0.00012274147086254765,
      "loss": 1.6163,
      "step": 63229
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.595244288444519,
      "learning_rate": 0.0001227330384866815,
      "loss": 1.5519,
      "step": 63230
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6129487156867981,
      "learning_rate": 0.00012272460632599123,
      "loss": 1.5464,
      "step": 63231
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.62566077709198,
      "learning_rate": 0.00012271617438048716,
      "loss": 1.5163,
      "step": 63232
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6045010685920715,
      "learning_rate": 0.00012270774265017977,
      "loss": 1.5234,
      "step": 63233
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6165794730186462,
      "learning_rate": 0.00012269931113507879,
      "loss": 1.5552,
      "step": 63234
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6087144613265991,
      "learning_rate": 0.00012269087983519478,
      "loss": 1.5692,
      "step": 63235
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6244907975196838,
      "learning_rate": 0.00012268244875053797,
      "loss": 1.602,
      "step": 63236
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6220923066139221,
      "learning_rate": 0.00012267401788111857,
      "loss": 1.5944,
      "step": 63237
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6176984310150146,
      "learning_rate": 0.00012266558722694667,
      "loss": 1.5787,
      "step": 63238
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6217725872993469,
      "learning_rate": 0.00012265715678803273,
      "loss": 1.5258,
      "step": 63239
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5910441875457764,
      "learning_rate": 0.00012264872656438688,
      "loss": 1.4636,
      "step": 63240
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.603874683380127,
      "learning_rate": 0.00012264029655601922,
      "loss": 1.5444,
      "step": 63241
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5980117321014404,
      "learning_rate": 0.00012263186676294015,
      "loss": 1.5685,
      "step": 63242
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6186844110488892,
      "learning_rate": 0.0001226234371851599,
      "loss": 1.5455,
      "step": 63243
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5878234505653381,
      "learning_rate": 0.0001226150078226887,
      "loss": 1.5062,
      "step": 63244
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5850270390510559,
      "learning_rate": 0.00012260657867553665,
      "loss": 1.5187,
      "step": 63245
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5991164445877075,
      "learning_rate": 0.0001225981497437141,
      "loss": 1.5845,
      "step": 63246
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5974085927009583,
      "learning_rate": 0.00012258972102723137,
      "loss": 1.5678,
      "step": 63247
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5914595127105713,
      "learning_rate": 0.0001225812925260984,
      "loss": 1.5288,
      "step": 63248
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5830499529838562,
      "learning_rate": 0.00012257286424032573,
      "loss": 1.5492,
      "step": 63249
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5872360467910767,
      "learning_rate": 0.00012256443616992334,
      "loss": 1.543,
      "step": 63250
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5918117165565491,
      "learning_rate": 0.00012255600831490173,
      "loss": 1.5596,
      "step": 63251
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5913905501365662,
      "learning_rate": 0.00012254758067527084,
      "loss": 1.5302,
      "step": 63252
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6037598848342896,
      "learning_rate": 0.00012253915325104113,
      "loss": 1.5452,
      "step": 63253
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6345893144607544,
      "learning_rate": 0.0001225307260422228,
      "loss": 1.5985,
      "step": 63254
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6108791828155518,
      "learning_rate": 0.00012252229904882587,
      "loss": 1.5408,
      "step": 63255
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6058682799339294,
      "learning_rate": 0.0001225138722708608,
      "loss": 1.4839,
      "step": 63256
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5878967046737671,
      "learning_rate": 0.00012250544570833766,
      "loss": 1.5257,
      "step": 63257
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5717886686325073,
      "learning_rate": 0.00012249701936126688,
      "loss": 1.5778,
      "step": 63258
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5858513712882996,
      "learning_rate": 0.00012248859322965854,
      "loss": 1.5234,
      "step": 63259
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5868934392929077,
      "learning_rate": 0.0001224801673135228,
      "loss": 1.5288,
      "step": 63260
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5993044376373291,
      "learning_rate": 0.00012247174161287007,
      "loss": 1.4774,
      "step": 63261
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6416399478912354,
      "learning_rate": 0.0001224633161277104,
      "loss": 1.6369,
      "step": 63262
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6023818850517273,
      "learning_rate": 0.0001224548908580542,
      "loss": 1.5553,
      "step": 63263
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5949062705039978,
      "learning_rate": 0.00012244646580391151,
      "loss": 1.5425,
      "step": 63264
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6165897250175476,
      "learning_rate": 0.00012243804096529273,
      "loss": 1.4966,
      "step": 63265
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.590891420841217,
      "learning_rate": 0.00012242961634220803,
      "loss": 1.5831,
      "step": 63266
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6152024269104004,
      "learning_rate": 0.00012242119193466749,
      "loss": 1.6198,
      "step": 63267
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6006349921226501,
      "learning_rate": 0.00012241276774268157,
      "loss": 1.5572,
      "step": 63268
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6053343415260315,
      "learning_rate": 0.00012240434376626041,
      "loss": 1.5353,
      "step": 63269
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5822610855102539,
      "learning_rate": 0.00012239592000541408,
      "loss": 1.5924,
      "step": 63270
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6182569861412048,
      "learning_rate": 0.00012238749646015294,
      "loss": 1.4942,
      "step": 63271
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5896070003509521,
      "learning_rate": 0.0001223790731304873,
      "loss": 1.5806,
      "step": 63272
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6097093820571899,
      "learning_rate": 0.00012237065001642728,
      "loss": 1.5222,
      "step": 63273
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6206077337265015,
      "learning_rate": 0.00012236222711798308,
      "loss": 1.5909,
      "step": 63274
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5906063914299011,
      "learning_rate": 0.000122353804435165,
      "loss": 1.4919,
      "step": 63275
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6066572070121765,
      "learning_rate": 0.00012234538196798325,
      "loss": 1.5673,
      "step": 63276
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5970667600631714,
      "learning_rate": 0.00012233695971644793,
      "loss": 1.5791,
      "step": 63277
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5819547176361084,
      "learning_rate": 0.00012232853768056936,
      "loss": 1.6041,
      "step": 63278
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6102548837661743,
      "learning_rate": 0.000122320115860358,
      "loss": 1.46,
      "step": 63279
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5837716460227966,
      "learning_rate": 0.00012231169425582357,
      "loss": 1.4693,
      "step": 63280
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6102431416511536,
      "learning_rate": 0.0001223032728669766,
      "loss": 1.6113,
      "step": 63281
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5983060598373413,
      "learning_rate": 0.00012229485169382737,
      "loss": 1.5436,
      "step": 63282
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6243055462837219,
      "learning_rate": 0.000122286430736386,
      "loss": 1.4981,
      "step": 63283
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5753785967826843,
      "learning_rate": 0.00012227800999466262,
      "loss": 1.5107,
      "step": 63284
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6064338684082031,
      "learning_rate": 0.00012226958946866758,
      "loss": 1.5659,
      "step": 63285
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6106938719749451,
      "learning_rate": 0.00012226116915841126,
      "loss": 1.6356,
      "step": 63286
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6142776012420654,
      "learning_rate": 0.00012225274906390346,
      "loss": 1.462,
      "step": 63287
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6160830855369568,
      "learning_rate": 0.00012224432918515467,
      "loss": 1.6244,
      "step": 63288
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6090462803840637,
      "learning_rate": 0.00012223590952217516,
      "loss": 1.5106,
      "step": 63289
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5996860861778259,
      "learning_rate": 0.00012222749007497507,
      "loss": 1.5449,
      "step": 63290
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5881224870681763,
      "learning_rate": 0.00012221907084356448,
      "loss": 1.6131,
      "step": 63291
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6033270955085754,
      "learning_rate": 0.00012221065182795377,
      "loss": 1.5304,
      "step": 63292
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5961701273918152,
      "learning_rate": 0.00012220223302815335,
      "loss": 1.5539,
      "step": 63293
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6100079417228699,
      "learning_rate": 0.00012219381444417298,
      "loss": 1.5634,
      "step": 63294
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5917434096336365,
      "learning_rate": 0.00012218539607602313,
      "loss": 1.5636,
      "step": 63295
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5890803933143616,
      "learning_rate": 0.00012217697792371414,
      "loss": 1.5261,
      "step": 63296
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6138681769371033,
      "learning_rate": 0.00012216855998725608,
      "loss": 1.5319,
      "step": 63297
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5914974808692932,
      "learning_rate": 0.00012216014226665907,
      "loss": 1.4693,
      "step": 63298
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5866502523422241,
      "learning_rate": 0.00012215172476193358,
      "loss": 1.5394,
      "step": 63299
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5957400798797607,
      "learning_rate": 0.00012214330747308967,
      "loss": 1.5859,
      "step": 63300
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6086766719818115,
      "learning_rate": 0.00012213489040013747,
      "loss": 1.5442,
      "step": 63301
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5850412845611572,
      "learning_rate": 0.0001221264735430873,
      "loss": 1.5668,
      "step": 63302
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6053614616394043,
      "learning_rate": 0.00012211805690194954,
      "loss": 1.526,
      "step": 63303
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.601768970489502,
      "learning_rate": 0.0001221096404767342,
      "loss": 1.4499,
      "step": 63304
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6073375940322876,
      "learning_rate": 0.00012210122426745145,
      "loss": 1.5931,
      "step": 63305
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6364791393280029,
      "learning_rate": 0.0001220928082741117,
      "loss": 1.6003,
      "step": 63306
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6116559505462646,
      "learning_rate": 0.00012208439249672507,
      "loss": 1.5837,
      "step": 63307
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6031174063682556,
      "learning_rate": 0.0001220759769353017,
      "loss": 1.5479,
      "step": 63308
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6225934624671936,
      "learning_rate": 0.00012206756158985194,
      "loss": 1.6088,
      "step": 63309
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5910499095916748,
      "learning_rate": 0.00012205914646038584,
      "loss": 1.5271,
      "step": 63310
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.576382040977478,
      "learning_rate": 0.00012205073154691385,
      "loss": 1.5782,
      "step": 63311
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5967138409614563,
      "learning_rate": 0.00012204231684944593,
      "loss": 1.5643,
      "step": 63312
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6074034571647644,
      "learning_rate": 0.00012203390236799252,
      "loss": 1.5464,
      "step": 63313
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5997834205627441,
      "learning_rate": 0.00012202548810256374,
      "loss": 1.5425,
      "step": 63314
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.615800678730011,
      "learning_rate": 0.00012201707405316968,
      "loss": 1.5477,
      "step": 63315
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6236783266067505,
      "learning_rate": 0.00012200866021982078,
      "loss": 1.5485,
      "step": 63316
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5826050639152527,
      "learning_rate": 0.00012200024660252704,
      "loss": 1.4803,
      "step": 63317
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6031863689422607,
      "learning_rate": 0.00012199183320129887,
      "loss": 1.5075,
      "step": 63318
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6127322912216187,
      "learning_rate": 0.00012198342001614639,
      "loss": 1.5269,
      "step": 63319
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6352816820144653,
      "learning_rate": 0.0001219750070470797,
      "loss": 1.5584,
      "step": 63320
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.602810800075531,
      "learning_rate": 0.00012196659429410911,
      "loss": 1.5513,
      "step": 63321
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6058570146560669,
      "learning_rate": 0.00012195818175724496,
      "loss": 1.5546,
      "step": 63322
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6491234302520752,
      "learning_rate": 0.00012194976943649735,
      "loss": 1.5662,
      "step": 63323
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6006220579147339,
      "learning_rate": 0.00012194135733187637,
      "loss": 1.4786,
      "step": 63324
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5873196125030518,
      "learning_rate": 0.00012193294544339248,
      "loss": 1.5205,
      "step": 63325
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5924639105796814,
      "learning_rate": 0.0001219245337710557,
      "loss": 1.5503,
      "step": 63326
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6175298094749451,
      "learning_rate": 0.00012191612231487625,
      "loss": 1.5975,
      "step": 63327
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5835341811180115,
      "learning_rate": 0.00012190771107486435,
      "loss": 1.5339,
      "step": 63328
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6087015867233276,
      "learning_rate": 0.00012189930005103047,
      "loss": 1.5496,
      "step": 63329
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5819829106330872,
      "learning_rate": 0.00012189088924338439,
      "loss": 1.5536,
      "step": 63330
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6033223867416382,
      "learning_rate": 0.00012188247865193652,
      "loss": 1.5392,
      "step": 63331
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5913952589035034,
      "learning_rate": 0.00012187406827669721,
      "loss": 1.5161,
      "step": 63332
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5990869998931885,
      "learning_rate": 0.00012186565811767651,
      "loss": 1.6207,
      "step": 63333
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6118356585502625,
      "learning_rate": 0.00012185724817488454,
      "loss": 1.4962,
      "step": 63334
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5922562479972839,
      "learning_rate": 0.00012184883844833164,
      "loss": 1.6148,
      "step": 63335
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5939271450042725,
      "learning_rate": 0.00012184042893802823,
      "loss": 1.511,
      "step": 63336
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5904029011726379,
      "learning_rate": 0.00012183201964398405,
      "loss": 1.5276,
      "step": 63337
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6280863881111145,
      "learning_rate": 0.00012182361056620955,
      "loss": 1.5107,
      "step": 63338
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5824115872383118,
      "learning_rate": 0.00012181520170471502,
      "loss": 1.5005,
      "step": 63339
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6191255450248718,
      "learning_rate": 0.0001218067930595106,
      "loss": 1.5466,
      "step": 63340
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5845000743865967,
      "learning_rate": 0.00012179838463060638,
      "loss": 1.5841,
      "step": 63341
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.599375307559967,
      "learning_rate": 0.00012178997641801267,
      "loss": 1.4793,
      "step": 63342
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6234747171401978,
      "learning_rate": 0.00012178156842173984,
      "loss": 1.5284,
      "step": 63343
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6064444184303284,
      "learning_rate": 0.00012177316064179778,
      "loss": 1.6165,
      "step": 63344
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6107797622680664,
      "learning_rate": 0.0001217647530781968,
      "loss": 1.6115,
      "step": 63345
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.585264265537262,
      "learning_rate": 0.00012175634573094725,
      "loss": 1.5286,
      "step": 63346
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6075302958488464,
      "learning_rate": 0.00012174793860005926,
      "loss": 1.5801,
      "step": 63347
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5969005823135376,
      "learning_rate": 0.00012173953168554289,
      "loss": 1.5953,
      "step": 63348
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6138593554496765,
      "learning_rate": 0.00012173112498740857,
      "loss": 1.5407,
      "step": 63349
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6241561770439148,
      "learning_rate": 0.00012172271850566638,
      "loss": 1.5674,
      "step": 63350
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6230015754699707,
      "learning_rate": 0.00012171431224032646,
      "loss": 1.5373,
      "step": 63351
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6095890998840332,
      "learning_rate": 0.00012170590619139906,
      "loss": 1.5822,
      "step": 63352
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6020190119743347,
      "learning_rate": 0.00012169750035889457,
      "loss": 1.5609,
      "step": 63353
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5958566665649414,
      "learning_rate": 0.00012168909474282302,
      "loss": 1.4703,
      "step": 63354
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6005153656005859,
      "learning_rate": 0.00012168068934319453,
      "loss": 1.5542,
      "step": 63355
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6112464666366577,
      "learning_rate": 0.00012167228416001951,
      "loss": 1.5531,
      "step": 63356
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5788944363594055,
      "learning_rate": 0.00012166387919330809,
      "loss": 1.4862,
      "step": 63357
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5925910472869873,
      "learning_rate": 0.00012165547444307031,
      "loss": 1.5402,
      "step": 63358
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6133565902709961,
      "learning_rate": 0.00012164706990931653,
      "loss": 1.5217,
      "step": 63359
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6287096738815308,
      "learning_rate": 0.000121638665592057,
      "loss": 1.5361,
      "step": 63360
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6421807408332825,
      "learning_rate": 0.00012163026149130186,
      "loss": 1.5614,
      "step": 63361
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6374148726463318,
      "learning_rate": 0.00012162185760706122,
      "loss": 1.582,
      "step": 63362
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6023314595222473,
      "learning_rate": 0.00012161345393934545,
      "loss": 1.5859,
      "step": 63363
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6028430461883545,
      "learning_rate": 0.00012160505048816467,
      "loss": 1.562,
      "step": 63364
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5964358448982239,
      "learning_rate": 0.00012159664725352896,
      "loss": 1.5082,
      "step": 63365
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5986093878746033,
      "learning_rate": 0.00012158824423544873,
      "loss": 1.5275,
      "step": 63366
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5899931788444519,
      "learning_rate": 0.00012157984143393401,
      "loss": 1.4993,
      "step": 63367
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5922504663467407,
      "learning_rate": 0.00012157143884899514,
      "loss": 1.5225,
      "step": 63368
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6513247489929199,
      "learning_rate": 0.00012156303648064218,
      "loss": 1.5883,
      "step": 63369
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6023306250572205,
      "learning_rate": 0.0001215546343288855,
      "loss": 1.629,
      "step": 63370
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5702133178710938,
      "learning_rate": 0.00012154623239373519,
      "loss": 1.5369,
      "step": 63371
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6058021187782288,
      "learning_rate": 0.00012153783067520137,
      "loss": 1.5256,
      "step": 63372
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6047574877738953,
      "learning_rate": 0.00012152942917329439,
      "loss": 1.5531,
      "step": 63373
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6076046824455261,
      "learning_rate": 0.00012152102788802432,
      "loss": 1.4986,
      "step": 63374
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6064457297325134,
      "learning_rate": 0.00012151262681940153,
      "loss": 1.5049,
      "step": 63375
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6514463424682617,
      "learning_rate": 0.00012150422596743612,
      "loss": 1.5428,
      "step": 63376
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5791943073272705,
      "learning_rate": 0.00012149582533213816,
      "loss": 1.5961,
      "step": 63377
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5997434854507446,
      "learning_rate": 0.00012148742491351808,
      "loss": 1.5578,
      "step": 63378
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5933501720428467,
      "learning_rate": 0.00012147902471158584,
      "loss": 1.5746,
      "step": 63379
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5679798722267151,
      "learning_rate": 0.00012147062472635188,
      "loss": 1.4653,
      "step": 63380
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6143417954444885,
      "learning_rate": 0.00012146222495782615,
      "loss": 1.5345,
      "step": 63381
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.61761075258255,
      "learning_rate": 0.00012145382540601912,
      "loss": 1.5349,
      "step": 63382
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.611941933631897,
      "learning_rate": 0.0001214454260709408,
      "loss": 1.4774,
      "step": 63383
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6204713582992554,
      "learning_rate": 0.00012143702695260133,
      "loss": 1.4907,
      "step": 63384
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6133603453636169,
      "learning_rate": 0.00012142862805101112,
      "loss": 1.5304,
      "step": 63385
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5851410627365112,
      "learning_rate": 0.00012142022936618022,
      "loss": 1.5927,
      "step": 63386
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5981433391571045,
      "learning_rate": 0.00012141183089811876,
      "loss": 1.5044,
      "step": 63387
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5925715565681458,
      "learning_rate": 0.00012140343264683702,
      "loss": 1.5249,
      "step": 63388
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6043660640716553,
      "learning_rate": 0.0001213950346123453,
      "loss": 1.5,
      "step": 63389
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6187484860420227,
      "learning_rate": 0.00012138663679465369,
      "loss": 1.5164,
      "step": 63390
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6174050569534302,
      "learning_rate": 0.00012137823919377228,
      "loss": 1.4778,
      "step": 63391
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6112321019172668,
      "learning_rate": 0.00012136984180971148,
      "loss": 1.583,
      "step": 63392
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6059165000915527,
      "learning_rate": 0.00012136144464248138,
      "loss": 1.5412,
      "step": 63393
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6293646097183228,
      "learning_rate": 0.00012135304769209204,
      "loss": 1.5583,
      "step": 63394
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6158086657524109,
      "learning_rate": 0.00012134465095855381,
      "loss": 1.5346,
      "step": 63395
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6425929665565491,
      "learning_rate": 0.00012133625444187702,
      "loss": 1.5325,
      "step": 63396
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6174206137657166,
      "learning_rate": 0.0001213278581420715,
      "loss": 1.4172,
      "step": 63397
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5706073045730591,
      "learning_rate": 0.00012131946205914765,
      "loss": 1.489,
      "step": 63398
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5932751297950745,
      "learning_rate": 0.00012131106619311572,
      "loss": 1.5496,
      "step": 63399
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5857875943183899,
      "learning_rate": 0.00012130267054398587,
      "loss": 1.4864,
      "step": 63400
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6066328287124634,
      "learning_rate": 0.00012129427511176812,
      "loss": 1.5789,
      "step": 63401
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6293216347694397,
      "learning_rate": 0.00012128587989647277,
      "loss": 1.527,
      "step": 63402
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6089997291564941,
      "learning_rate": 0.00012127748489811023,
      "loss": 1.5776,
      "step": 63403
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6171436905860901,
      "learning_rate": 0.00012126909011669032,
      "loss": 1.5127,
      "step": 63404
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6020869016647339,
      "learning_rate": 0.00012126069555222338,
      "loss": 1.4988,
      "step": 63405
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5913825035095215,
      "learning_rate": 0.00012125230120471973,
      "loss": 1.5527,
      "step": 63406
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6170272827148438,
      "learning_rate": 0.00012124390707418943,
      "loss": 1.5726,
      "step": 63407
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.997211754322052,
      "learning_rate": 0.0001212355131606426,
      "loss": 1.6396,
      "step": 63408
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.597911536693573,
      "learning_rate": 0.00012122711946408952,
      "loss": 1.5193,
      "step": 63409
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6227512359619141,
      "learning_rate": 0.0001212187259845406,
      "loss": 1.5675,
      "step": 63410
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5971798896789551,
      "learning_rate": 0.00012121033272200557,
      "loss": 1.5187,
      "step": 63411
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5935655832290649,
      "learning_rate": 0.00012120193967649488,
      "loss": 1.5633,
      "step": 63412
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.7441933155059814,
      "learning_rate": 0.00012119354684801879,
      "loss": 1.5728,
      "step": 63413
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6240649819374084,
      "learning_rate": 0.00012118515423658737,
      "loss": 1.44,
      "step": 63414
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6719983220100403,
      "learning_rate": 0.00012117676184221073,
      "loss": 1.508,
      "step": 63415
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6046616435050964,
      "learning_rate": 0.00012116836966489924,
      "loss": 1.4983,
      "step": 63416
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6043453812599182,
      "learning_rate": 0.00012115997770466302,
      "loss": 1.5263,
      "step": 63417
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6227520704269409,
      "learning_rate": 0.00012115158596151212,
      "loss": 1.6234,
      "step": 63418
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6070103049278259,
      "learning_rate": 0.00012114319443545682,
      "loss": 1.5603,
      "step": 63419
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.583504855632782,
      "learning_rate": 0.0001211348031265075,
      "loss": 1.5249,
      "step": 63420
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5799651741981506,
      "learning_rate": 0.00012112641203467413,
      "loss": 1.5409,
      "step": 63421
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5972206592559814,
      "learning_rate": 0.00012111802115996683,
      "loss": 1.5229,
      "step": 63422
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.587283194065094,
      "learning_rate": 0.00012110963050239599,
      "loss": 1.4861,
      "step": 63423
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6039096117019653,
      "learning_rate": 0.00012110124006197174,
      "loss": 1.5788,
      "step": 63424
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.582086443901062,
      "learning_rate": 0.0001210928498387041,
      "loss": 1.5581,
      "step": 63425
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5963107943534851,
      "learning_rate": 0.0001210844598326035,
      "loss": 1.5513,
      "step": 63426
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6392888426780701,
      "learning_rate": 0.00012107607004367987,
      "loss": 1.5775,
      "step": 63427
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5999562740325928,
      "learning_rate": 0.00012106768047194366,
      "loss": 1.5076,
      "step": 63428
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6170244812965393,
      "learning_rate": 0.0001210592911174048,
      "loss": 1.5952,
      "step": 63429
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6094017624855042,
      "learning_rate": 0.00012105090198007368,
      "loss": 1.6172,
      "step": 63430
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6118617057800293,
      "learning_rate": 0.00012104251305996044,
      "loss": 1.5871,
      "step": 63431
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6148265600204468,
      "learning_rate": 0.00012103412435707507,
      "loss": 1.5475,
      "step": 63432
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6085472106933594,
      "learning_rate": 0.00012102573587142804,
      "loss": 1.4916,
      "step": 63433
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5969064831733704,
      "learning_rate": 0.0001210173476030293,
      "loss": 1.5477,
      "step": 63434
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5971338152885437,
      "learning_rate": 0.00012100895955188922,
      "loss": 1.5613,
      "step": 63435
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6042168140411377,
      "learning_rate": 0.00012100057171801789,
      "loss": 1.6001,
      "step": 63436
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6088945269584656,
      "learning_rate": 0.00012099218410142537,
      "loss": 1.5813,
      "step": 63437
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5911163687705994,
      "learning_rate": 0.00012098379670212198,
      "loss": 1.4908,
      "step": 63438
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6069098711013794,
      "learning_rate": 0.00012097540952011801,
      "loss": 1.574,
      "step": 63439
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6070926189422607,
      "learning_rate": 0.0001209670225554235,
      "loss": 1.528,
      "step": 63440
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6044672131538391,
      "learning_rate": 0.00012095863580804852,
      "loss": 1.5096,
      "step": 63441
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5723265409469604,
      "learning_rate": 0.0001209502492780035,
      "loss": 1.5881,
      "step": 63442
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6017990708351135,
      "learning_rate": 0.00012094186296529848,
      "loss": 1.5889,
      "step": 63443
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5978530645370483,
      "learning_rate": 0.00012093347686994357,
      "loss": 1.5309,
      "step": 63444
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5948978066444397,
      "learning_rate": 0.00012092509099194904,
      "loss": 1.5367,
      "step": 63445
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6114583015441895,
      "learning_rate": 0.00012091670533132525,
      "loss": 1.5597,
      "step": 63446
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5967956185340881,
      "learning_rate": 0.00012090831988808197,
      "loss": 1.5902,
      "step": 63447
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.593072235584259,
      "learning_rate": 0.00012089993466222963,
      "loss": 1.5073,
      "step": 63448
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5958706140518188,
      "learning_rate": 0.0001208915496537785,
      "loss": 1.5384,
      "step": 63449
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5945457220077515,
      "learning_rate": 0.00012088316486273862,
      "loss": 1.5023,
      "step": 63450
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5929962396621704,
      "learning_rate": 0.00012087478028912008,
      "loss": 1.4495,
      "step": 63451
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6245096325874329,
      "learning_rate": 0.00012086639593293315,
      "loss": 1.5701,
      "step": 63452
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6505481600761414,
      "learning_rate": 0.00012085801179418825,
      "loss": 1.5885,
      "step": 63453
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6210971474647522,
      "learning_rate": 0.00012084962787289511,
      "loss": 1.4724,
      "step": 63454
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5993197560310364,
      "learning_rate": 0.00012084124416906411,
      "loss": 1.5443,
      "step": 63455
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5880776643753052,
      "learning_rate": 0.00012083286068270559,
      "loss": 1.5573,
      "step": 63456
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6086987257003784,
      "learning_rate": 0.00012082447741382953,
      "loss": 1.5285,
      "step": 63457
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6019303202629089,
      "learning_rate": 0.00012081609436244607,
      "loss": 1.6067,
      "step": 63458
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6243303418159485,
      "learning_rate": 0.00012080771152856549,
      "loss": 1.6022,
      "step": 63459
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6154093146324158,
      "learning_rate": 0.00012079932891219814,
      "loss": 1.5335,
      "step": 63460
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6168345212936401,
      "learning_rate": 0.00012079094651335377,
      "loss": 1.4788,
      "step": 63461
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5783244371414185,
      "learning_rate": 0.00012078256433204282,
      "loss": 1.5146,
      "step": 63462
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5639837384223938,
      "learning_rate": 0.00012077418236827552,
      "loss": 1.4924,
      "step": 63463
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5739997625350952,
      "learning_rate": 0.00012076580062206196,
      "loss": 1.5172,
      "step": 63464
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6245696544647217,
      "learning_rate": 0.00012075741909341216,
      "loss": 1.5437,
      "step": 63465
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5928917527198792,
      "learning_rate": 0.0001207490377823366,
      "loss": 1.5418,
      "step": 63466
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6090205311775208,
      "learning_rate": 0.00012074065668884528,
      "loss": 1.4979,
      "step": 63467
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5962551236152649,
      "learning_rate": 0.00012073227581294831,
      "loss": 1.4489,
      "step": 63468
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6019708514213562,
      "learning_rate": 0.0001207238951546559,
      "loss": 1.5488,
      "step": 63469
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6029000282287598,
      "learning_rate": 0.00012071551471397839,
      "loss": 1.582,
      "step": 63470
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6101338267326355,
      "learning_rate": 0.00012070713449092582,
      "loss": 1.5266,
      "step": 63471
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5838686227798462,
      "learning_rate": 0.0001206987544855083,
      "loss": 1.5086,
      "step": 63472
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6115981936454773,
      "learning_rate": 0.00012069037469773616,
      "loss": 1.4779,
      "step": 63473
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5982880592346191,
      "learning_rate": 0.00012068199512761947,
      "loss": 1.5689,
      "step": 63474
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6377500891685486,
      "learning_rate": 0.00012067361577516832,
      "loss": 1.5901,
      "step": 63475
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5937923192977905,
      "learning_rate": 0.000120665236640393,
      "loss": 1.5505,
      "step": 63476
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6048122644424438,
      "learning_rate": 0.00012065685772330375,
      "loss": 1.4714,
      "step": 63477
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5878555178642273,
      "learning_rate": 0.00012064847902391061,
      "loss": 1.5414,
      "step": 63478
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6121118664741516,
      "learning_rate": 0.00012064010054222374,
      "loss": 1.6259,
      "step": 63479
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6012468934059143,
      "learning_rate": 0.00012063172227825345,
      "loss": 1.4844,
      "step": 63480
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6022205948829651,
      "learning_rate": 0.00012062334423200981,
      "loss": 1.5351,
      "step": 63481
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5902365446090698,
      "learning_rate": 0.00012061496640350291,
      "loss": 1.5645,
      "step": 63482
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5996475219726562,
      "learning_rate": 0.0001206065887927431,
      "loss": 1.5551,
      "step": 63483
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6009160876274109,
      "learning_rate": 0.00012059821139974036,
      "loss": 1.5599,
      "step": 63484
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5790448188781738,
      "learning_rate": 0.00012058983422450506,
      "loss": 1.4895,
      "step": 63485
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6023001670837402,
      "learning_rate": 0.00012058145726704716,
      "loss": 1.5498,
      "step": 63486
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.606842577457428,
      "learning_rate": 0.00012057308052737706,
      "loss": 1.5067,
      "step": 63487
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5955917239189148,
      "learning_rate": 0.00012056470400550475,
      "loss": 1.5695,
      "step": 63488
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6012176871299744,
      "learning_rate": 0.0001205563277014404,
      "loss": 1.5403,
      "step": 63489
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5956151485443115,
      "learning_rate": 0.00012054795161519433,
      "loss": 1.5463,
      "step": 63490
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5963522791862488,
      "learning_rate": 0.00012053957574677645,
      "loss": 1.5224,
      "step": 63491
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6020322442054749,
      "learning_rate": 0.00012053120009619725,
      "loss": 1.5411,
      "step": 63492
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6102239489555359,
      "learning_rate": 0.0001205228246634667,
      "loss": 1.5712,
      "step": 63493
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6149123311042786,
      "learning_rate": 0.00012051444944859487,
      "loss": 1.5357,
      "step": 63494
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5849573016166687,
      "learning_rate": 0.0001205060744515922,
      "loss": 1.5306,
      "step": 63495
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6010839343070984,
      "learning_rate": 0.00012049769967246859,
      "loss": 1.5916,
      "step": 63496
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5957353711128235,
      "learning_rate": 0.0001204893251112344,
      "loss": 1.5723,
      "step": 63497
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5916058421134949,
      "learning_rate": 0.00012048095076789966,
      "loss": 1.5219,
      "step": 63498
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.8206526041030884,
      "learning_rate": 0.00012047257664247466,
      "loss": 1.5127,
      "step": 63499
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6054913997650146,
      "learning_rate": 0.00012046420273496955,
      "loss": 1.4898,
      "step": 63500
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5959843397140503,
      "learning_rate": 0.00012045582904539428,
      "loss": 1.556,
      "step": 63501
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6074391007423401,
      "learning_rate": 0.00012044745557375931,
      "loss": 1.5444,
      "step": 63502
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5938163995742798,
      "learning_rate": 0.0001204390823200747,
      "loss": 1.5242,
      "step": 63503
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.596957802772522,
      "learning_rate": 0.00012043070928435043,
      "loss": 1.6021,
      "step": 63504
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6079310774803162,
      "learning_rate": 0.00012042233646659689,
      "loss": 1.5759,
      "step": 63505
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6043968796730042,
      "learning_rate": 0.00012041396386682422,
      "loss": 1.587,
      "step": 63506
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6348773837089539,
      "learning_rate": 0.00012040559148504257,
      "loss": 1.6196,
      "step": 63507
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.629055380821228,
      "learning_rate": 0.00012039721932126192,
      "loss": 1.5334,
      "step": 63508
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6025607585906982,
      "learning_rate": 0.00012038884737549272,
      "loss": 1.5219,
      "step": 63509
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6211925148963928,
      "learning_rate": 0.00012038047564774498,
      "loss": 1.5417,
      "step": 63510
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5983087420463562,
      "learning_rate": 0.0001203721041380288,
      "loss": 1.5126,
      "step": 63511
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6199663281440735,
      "learning_rate": 0.00012036373284635441,
      "loss": 1.6155,
      "step": 63512
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5996205806732178,
      "learning_rate": 0.00012035536177273216,
      "loss": 1.5729,
      "step": 63513
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5776844024658203,
      "learning_rate": 0.00012034699091717185,
      "loss": 1.5299,
      "step": 63514
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5921585559844971,
      "learning_rate": 0.00012033862027968383,
      "loss": 1.5139,
      "step": 63515
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5991833806037903,
      "learning_rate": 0.00012033024986027832,
      "loss": 1.538,
      "step": 63516
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.613202691078186,
      "learning_rate": 0.00012032187965896544,
      "loss": 1.558,
      "step": 63517
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6216747164726257,
      "learning_rate": 0.00012031350967575521,
      "loss": 1.5776,
      "step": 63518
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6103239059448242,
      "learning_rate": 0.00012030513991065792,
      "loss": 1.5071,
      "step": 63519
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6038957834243774,
      "learning_rate": 0.00012029677036368391,
      "loss": 1.5453,
      "step": 63520
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5849939584732056,
      "learning_rate": 0.00012028840103484295,
      "loss": 1.5321,
      "step": 63521
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6154071092605591,
      "learning_rate": 0.00012028003192414535,
      "loss": 1.4737,
      "step": 63522
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6076636910438538,
      "learning_rate": 0.00012027166303160147,
      "loss": 1.5669,
      "step": 63523
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6122158765792847,
      "learning_rate": 0.00012026329435722128,
      "loss": 1.5345,
      "step": 63524
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.602160632610321,
      "learning_rate": 0.00012025492590101485,
      "loss": 1.5442,
      "step": 63525
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6059705018997192,
      "learning_rate": 0.0001202465576629925,
      "loss": 1.5021,
      "step": 63526
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6149948239326477,
      "learning_rate": 0.00012023818964316453,
      "loss": 1.5121,
      "step": 63527
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.625762403011322,
      "learning_rate": 0.00012022982184154068,
      "loss": 1.598,
      "step": 63528
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6208667755126953,
      "learning_rate": 0.00012022145425813135,
      "loss": 1.5342,
      "step": 63529
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5956425666809082,
      "learning_rate": 0.0001202130868929468,
      "loss": 1.5865,
      "step": 63530
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5978161692619324,
      "learning_rate": 0.00012020471974599707,
      "loss": 1.5654,
      "step": 63531
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.607871413230896,
      "learning_rate": 0.0001201963528172922,
      "loss": 1.5717,
      "step": 63532
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6424258947372437,
      "learning_rate": 0.00012018798610684256,
      "loss": 1.5747,
      "step": 63533
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6089622378349304,
      "learning_rate": 0.00012017961961465825,
      "loss": 1.4616,
      "step": 63534
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6222230792045593,
      "learning_rate": 0.00012017125334074926,
      "loss": 1.605,
      "step": 63535
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6037933826446533,
      "learning_rate": 0.0001201628872851259,
      "loss": 1.5383,
      "step": 63536
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5940792560577393,
      "learning_rate": 0.00012015452144779834,
      "loss": 1.5195,
      "step": 63537
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6051784157752991,
      "learning_rate": 0.00012014615582877673,
      "loss": 1.5564,
      "step": 63538
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6257294416427612,
      "learning_rate": 0.00012013779042807109,
      "loss": 1.5126,
      "step": 63539
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.592167854309082,
      "learning_rate": 0.00012012942524569177,
      "loss": 1.4958,
      "step": 63540
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5902173519134521,
      "learning_rate": 0.00012012106028164882,
      "loss": 1.4793,
      "step": 63541
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6078405380249023,
      "learning_rate": 0.0001201126955359523,
      "loss": 1.5566,
      "step": 63542
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6309117674827576,
      "learning_rate": 0.00012010433100861257,
      "loss": 1.5551,
      "step": 63543
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5988930463790894,
      "learning_rate": 0.00012009596669963956,
      "loss": 1.5652,
      "step": 63544
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6250735521316528,
      "learning_rate": 0.00012008760260904367,
      "loss": 1.5298,
      "step": 63545
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.587397038936615,
      "learning_rate": 0.00012007923873683479,
      "loss": 1.5693,
      "step": 63546
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.601431667804718,
      "learning_rate": 0.0001200708750830233,
      "loss": 1.6224,
      "step": 63547
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5991805791854858,
      "learning_rate": 0.00012006251164761927,
      "loss": 1.5031,
      "step": 63548
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5862568616867065,
      "learning_rate": 0.00012005414843063273,
      "loss": 1.549,
      "step": 63549
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.596305251121521,
      "learning_rate": 0.00012004578543207404,
      "loss": 1.5794,
      "step": 63550
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5979443192481995,
      "learning_rate": 0.00012003742265195318,
      "loss": 1.5706,
      "step": 63551
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.616137683391571,
      "learning_rate": 0.00012002906009028043,
      "loss": 1.5649,
      "step": 63552
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6021542549133301,
      "learning_rate": 0.00012002069774706591,
      "loss": 1.5247,
      "step": 63553
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6106539964675903,
      "learning_rate": 0.00012001233562231964,
      "loss": 1.5208,
      "step": 63554
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6103609204292297,
      "learning_rate": 0.00012000397371605188,
      "loss": 1.5017,
      "step": 63555
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.614272952079773,
      "learning_rate": 0.00011999561202827286,
      "loss": 1.5095,
      "step": 63556
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6081182956695557,
      "learning_rate": 0.00011998725055899264,
      "loss": 1.5615,
      "step": 63557
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6196803450584412,
      "learning_rate": 0.00011997888930822128,
      "loss": 1.5459,
      "step": 63558
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6193267107009888,
      "learning_rate": 0.00011997052827596913,
      "loss": 1.523,
      "step": 63559
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6205700039863586,
      "learning_rate": 0.00011996216746224625,
      "loss": 1.5285,
      "step": 63560
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5954411029815674,
      "learning_rate": 0.00011995380686706265,
      "loss": 1.5873,
      "step": 63561
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5908969044685364,
      "learning_rate": 0.0001199454464904286,
      "loss": 1.5326,
      "step": 63562
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6041132807731628,
      "learning_rate": 0.00011993708633235445,
      "loss": 1.5368,
      "step": 63563
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6250505447387695,
      "learning_rate": 0.00011992872639284996,
      "loss": 1.5467,
      "step": 63564
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6313096880912781,
      "learning_rate": 0.00011992036667192542,
      "loss": 1.5402,
      "step": 63565
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5723651051521301,
      "learning_rate": 0.00011991200716959117,
      "loss": 1.4964,
      "step": 63566
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6125187873840332,
      "learning_rate": 0.0001199036478858572,
      "loss": 1.5686,
      "step": 63567
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5682238936424255,
      "learning_rate": 0.00011989528882073354,
      "loss": 1.5148,
      "step": 63568
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.6347218751907349,
      "learning_rate": 0.00011988692997423047,
      "loss": 1.5863,
      "step": 63569
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.5894280076026917,
      "learning_rate": 0.00011987857134635836,
      "loss": 1.5396,
      "step": 63570
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6336022615432739,
      "learning_rate": 0.0001198702129371269,
      "loss": 1.5854,
      "step": 63571
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6194453835487366,
      "learning_rate": 0.00011986185474654646,
      "loss": 1.4907,
      "step": 63572
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5933418273925781,
      "learning_rate": 0.0001198534967746273,
      "loss": 1.5941,
      "step": 63573
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5816478729248047,
      "learning_rate": 0.00011984513902137943,
      "loss": 1.5278,
      "step": 63574
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6057258248329163,
      "learning_rate": 0.00011983678148681292,
      "loss": 1.5667,
      "step": 63575
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5958685278892517,
      "learning_rate": 0.000119828424170938,
      "loss": 1.6202,
      "step": 63576
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5920737981796265,
      "learning_rate": 0.0001198200670737651,
      "loss": 1.4836,
      "step": 63577
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5995151996612549,
      "learning_rate": 0.00011981171019530382,
      "loss": 1.4869,
      "step": 63578
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6186158061027527,
      "learning_rate": 0.00011980335353556456,
      "loss": 1.5393,
      "step": 63579
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5879043340682983,
      "learning_rate": 0.00011979499709455763,
      "loss": 1.5864,
      "step": 63580
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5844938158988953,
      "learning_rate": 0.000119786640872293,
      "loss": 1.584,
      "step": 63581
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6008689999580383,
      "learning_rate": 0.00011977828486878074,
      "loss": 1.5007,
      "step": 63582
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5987496972084045,
      "learning_rate": 0.00011976992908403116,
      "loss": 1.5122,
      "step": 63583
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.613109290599823,
      "learning_rate": 0.00011976157351805437,
      "loss": 1.5378,
      "step": 63584
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5903326869010925,
      "learning_rate": 0.00011975321817086036,
      "loss": 1.4871,
      "step": 63585
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5991308093070984,
      "learning_rate": 0.00011974486304245935,
      "loss": 1.4934,
      "step": 63586
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.586189329624176,
      "learning_rate": 0.00011973650813286165,
      "loss": 1.6036,
      "step": 63587
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5864492654800415,
      "learning_rate": 0.00011972815344207728,
      "loss": 1.5434,
      "step": 63588
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.4060965776443481,
      "learning_rate": 0.00011971979897011626,
      "loss": 1.6171,
      "step": 63589
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5947485566139221,
      "learning_rate": 0.00011971144471698894,
      "loss": 1.4808,
      "step": 63590
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.615241527557373,
      "learning_rate": 0.00011970309068270537,
      "loss": 1.4944,
      "step": 63591
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.60552579164505,
      "learning_rate": 0.00011969473686727555,
      "loss": 1.6158,
      "step": 63592
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5985780954360962,
      "learning_rate": 0.00011968638327070988,
      "loss": 1.5695,
      "step": 63593
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6163895726203918,
      "learning_rate": 0.00011967802989301825,
      "loss": 1.6746,
      "step": 63594
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6029208898544312,
      "learning_rate": 0.00011966967673421106,
      "loss": 1.5115,
      "step": 63595
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5856512784957886,
      "learning_rate": 0.00011966132379429818,
      "loss": 1.4784,
      "step": 63596
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6232535243034363,
      "learning_rate": 0.00011965297107328999,
      "loss": 1.5029,
      "step": 63597
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5773214101791382,
      "learning_rate": 0.00011964461857119652,
      "loss": 1.5292,
      "step": 63598
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6019394397735596,
      "learning_rate": 0.0001196362662880278,
      "loss": 1.5542,
      "step": 63599
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5904660224914551,
      "learning_rate": 0.00011962791422379421,
      "loss": 1.567,
      "step": 63600
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6037641763687134,
      "learning_rate": 0.00011961956237850563,
      "loss": 1.5257,
      "step": 63601
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5976431965827942,
      "learning_rate": 0.00011961121075217243,
      "loss": 1.5499,
      "step": 63602
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6001657843589783,
      "learning_rate": 0.00011960285934480454,
      "loss": 1.6013,
      "step": 63603
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6113109588623047,
      "learning_rate": 0.00011959450815641229,
      "loss": 1.5474,
      "step": 63604
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6040248274803162,
      "learning_rate": 0.00011958615718700572,
      "loss": 1.6106,
      "step": 63605
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6023876667022705,
      "learning_rate": 0.0001195778064365949,
      "loss": 1.5354,
      "step": 63606
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5858960747718811,
      "learning_rate": 0.00011956945590519014,
      "loss": 1.5423,
      "step": 63607
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5779871344566345,
      "learning_rate": 0.00011956110559280135,
      "loss": 1.4871,
      "step": 63608
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6108106970787048,
      "learning_rate": 0.0001195527554994389,
      "loss": 1.5298,
      "step": 63609
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.601873517036438,
      "learning_rate": 0.00011954440562511281,
      "loss": 1.477,
      "step": 63610
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6192907691001892,
      "learning_rate": 0.00011953605596983313,
      "loss": 1.5462,
      "step": 63611
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5984265804290771,
      "learning_rate": 0.00011952770653361018,
      "loss": 1.5625,
      "step": 63612
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6052393317222595,
      "learning_rate": 0.00011951935731645394,
      "loss": 1.4996,
      "step": 63613
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6059225797653198,
      "learning_rate": 0.00011951100831837468,
      "loss": 1.6562,
      "step": 63614
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5926054120063782,
      "learning_rate": 0.00011950265953938235,
      "loss": 1.5439,
      "step": 63615
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5917492508888245,
      "learning_rate": 0.00011949431097948731,
      "loss": 1.6225,
      "step": 63616
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.587790310382843,
      "learning_rate": 0.00011948596263869957,
      "loss": 1.5602,
      "step": 63617
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5899091362953186,
      "learning_rate": 0.00011947761451702916,
      "loss": 1.5065,
      "step": 63618
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5963846445083618,
      "learning_rate": 0.00011946926661448647,
      "loss": 1.5134,
      "step": 63619
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5980561375617981,
      "learning_rate": 0.00011946091893108148,
      "loss": 1.5917,
      "step": 63620
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6012703776359558,
      "learning_rate": 0.0001194525714668242,
      "loss": 1.4632,
      "step": 63621
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5891610383987427,
      "learning_rate": 0.00011944422422172494,
      "loss": 1.6151,
      "step": 63622
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6125595569610596,
      "learning_rate": 0.00011943587719579386,
      "loss": 1.491,
      "step": 63623
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6166104674339294,
      "learning_rate": 0.00011942753038904103,
      "loss": 1.601,
      "step": 63624
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6127780675888062,
      "learning_rate": 0.00011941918380147646,
      "loss": 1.5599,
      "step": 63625
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6129730343818665,
      "learning_rate": 0.00011941083743311052,
      "loss": 1.6038,
      "step": 63626
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6021852493286133,
      "learning_rate": 0.0001194024912839532,
      "loss": 1.5385,
      "step": 63627
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5875787734985352,
      "learning_rate": 0.00011939414535401451,
      "loss": 1.5567,
      "step": 63628
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6046150326728821,
      "learning_rate": 0.00011938579964330477,
      "loss": 1.5767,
      "step": 63629
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5911493301391602,
      "learning_rate": 0.00011937745415183425,
      "loss": 1.5632,
      "step": 63630
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6035118699073792,
      "learning_rate": 0.00011936910887961266,
      "loss": 1.543,
      "step": 63631
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5916736125946045,
      "learning_rate": 0.00011936076382665036,
      "loss": 1.5419,
      "step": 63632
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6124077439308167,
      "learning_rate": 0.00011935241899295758,
      "loss": 1.5833,
      "step": 63633
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6175168752670288,
      "learning_rate": 0.00011934407437854438,
      "loss": 1.5531,
      "step": 63634
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5926766991615295,
      "learning_rate": 0.00011933572998342071,
      "loss": 1.5366,
      "step": 63635
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6124440431594849,
      "learning_rate": 0.00011932738580759685,
      "loss": 1.5604,
      "step": 63636
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5953863263130188,
      "learning_rate": 0.00011931904185108316,
      "loss": 1.4943,
      "step": 63637
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5896477103233337,
      "learning_rate": 0.0001193106981138893,
      "loss": 1.5163,
      "step": 63638
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6114608645439148,
      "learning_rate": 0.00011930235459602563,
      "loss": 1.5947,
      "step": 63639
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6127175688743591,
      "learning_rate": 0.0001192940112975024,
      "loss": 1.5759,
      "step": 63640
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5761028528213501,
      "learning_rate": 0.00011928566821832958,
      "loss": 1.5555,
      "step": 63641
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5907350182533264,
      "learning_rate": 0.00011927732535851724,
      "loss": 1.5985,
      "step": 63642
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5840917825698853,
      "learning_rate": 0.00011926898271807561,
      "loss": 1.5308,
      "step": 63643
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5906598567962646,
      "learning_rate": 0.00011926064029701501,
      "loss": 1.5376,
      "step": 63644
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6249973773956299,
      "learning_rate": 0.00011925229809534516,
      "loss": 1.5595,
      "step": 63645
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6215351819992065,
      "learning_rate": 0.00011924395611307638,
      "loss": 1.5916,
      "step": 63646
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6026552319526672,
      "learning_rate": 0.00011923561435021891,
      "loss": 1.4755,
      "step": 63647
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6029122471809387,
      "learning_rate": 0.0001192272728067828,
      "loss": 1.592,
      "step": 63648
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5879883766174316,
      "learning_rate": 0.00011921893148277798,
      "loss": 1.5524,
      "step": 63649
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5940349102020264,
      "learning_rate": 0.0001192105903782149,
      "loss": 1.46,
      "step": 63650
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5793733596801758,
      "learning_rate": 0.00011920224949310348,
      "loss": 1.5051,
      "step": 63651
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6166572570800781,
      "learning_rate": 0.0001191939088274538,
      "loss": 1.5304,
      "step": 63652
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5920706391334534,
      "learning_rate": 0.00011918556838127609,
      "loss": 1.5226,
      "step": 63653
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5852280259132385,
      "learning_rate": 0.00011917722815458056,
      "loss": 1.5546,
      "step": 63654
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5881032347679138,
      "learning_rate": 0.00011916888814737721,
      "loss": 1.5345,
      "step": 63655
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5990370512008667,
      "learning_rate": 0.00011916054835967608,
      "loss": 1.5542,
      "step": 63656
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6061130166053772,
      "learning_rate": 0.00011915220879148753,
      "loss": 1.5753,
      "step": 63657
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6174604296684265,
      "learning_rate": 0.00011914386944282155,
      "loss": 1.5332,
      "step": 63658
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6088552474975586,
      "learning_rate": 0.00011913553031368815,
      "loss": 1.5448,
      "step": 63659
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.630768895149231,
      "learning_rate": 0.00011912719140409768,
      "loss": 1.5492,
      "step": 63660
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6283049583435059,
      "learning_rate": 0.00011911885271406004,
      "loss": 1.5598,
      "step": 63661
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6166292428970337,
      "learning_rate": 0.00011911051424358554,
      "loss": 1.5752,
      "step": 63662
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5906460881233215,
      "learning_rate": 0.00011910217599268417,
      "loss": 1.516,
      "step": 63663
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5815097689628601,
      "learning_rate": 0.00011909383796136618,
      "loss": 1.4161,
      "step": 63664
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6125063896179199,
      "learning_rate": 0.0001190855001496416,
      "loss": 1.5656,
      "step": 63665
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6210243105888367,
      "learning_rate": 0.00011907716255752049,
      "loss": 1.4617,
      "step": 63666
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6131319999694824,
      "learning_rate": 0.00011906882518501314,
      "loss": 1.5553,
      "step": 63667
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5918410420417786,
      "learning_rate": 0.00011906048803212948,
      "loss": 1.5402,
      "step": 63668
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5973787903785706,
      "learning_rate": 0.00011905215109887983,
      "loss": 1.5242,
      "step": 63669
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6201227903366089,
      "learning_rate": 0.00011904381438527417,
      "loss": 1.6177,
      "step": 63670
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6259390711784363,
      "learning_rate": 0.00011903547789132259,
      "loss": 1.584,
      "step": 63671
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.2957078218460083,
      "learning_rate": 0.00011902714161703529,
      "loss": 1.5255,
      "step": 63672
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6242548227310181,
      "learning_rate": 0.00011901880556242242,
      "loss": 1.5281,
      "step": 63673
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6320919394493103,
      "learning_rate": 0.00011901046972749411,
      "loss": 1.6022,
      "step": 63674
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6010564565658569,
      "learning_rate": 0.00011900213411226029,
      "loss": 1.5263,
      "step": 63675
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6324416399002075,
      "learning_rate": 0.00011899379871673135,
      "loss": 1.5579,
      "step": 63676
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6018282771110535,
      "learning_rate": 0.00011898546354091723,
      "loss": 1.5985,
      "step": 63677
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.616584062576294,
      "learning_rate": 0.00011897712858482798,
      "loss": 1.6163,
      "step": 63678
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6029542684555054,
      "learning_rate": 0.00011896879384847386,
      "loss": 1.6045,
      "step": 63679
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.613993227481842,
      "learning_rate": 0.00011896045933186512,
      "loss": 1.542,
      "step": 63680
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6175621747970581,
      "learning_rate": 0.00011895212503501154,
      "loss": 1.5655,
      "step": 63681
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6227979063987732,
      "learning_rate": 0.00011894379095792336,
      "loss": 1.5906,
      "step": 63682
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6186097860336304,
      "learning_rate": 0.00011893545710061087,
      "loss": 1.5735,
      "step": 63683
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6153116822242737,
      "learning_rate": 0.00011892712346308406,
      "loss": 1.4588,
      "step": 63684
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.635169506072998,
      "learning_rate": 0.00011891879004535291,
      "loss": 1.5186,
      "step": 63685
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6125174760818481,
      "learning_rate": 0.0001189104568474277,
      "loss": 1.5483,
      "step": 63686
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5940272808074951,
      "learning_rate": 0.0001189021238693187,
      "loss": 1.4854,
      "step": 63687
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6113538146018982,
      "learning_rate": 0.00011889379111103565,
      "loss": 1.6168,
      "step": 63688
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5919789671897888,
      "learning_rate": 0.00011888545857258882,
      "loss": 1.4946,
      "step": 63689
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.579011082649231,
      "learning_rate": 0.0001188771262539885,
      "loss": 1.516,
      "step": 63690
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6179926991462708,
      "learning_rate": 0.00011886879415524465,
      "loss": 1.5232,
      "step": 63691
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5869347453117371,
      "learning_rate": 0.00011886046227636727,
      "loss": 1.4863,
      "step": 63692
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6186298727989197,
      "learning_rate": 0.00011885213061736662,
      "loss": 1.5463,
      "step": 63693
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5974894165992737,
      "learning_rate": 0.00011884379917825298,
      "loss": 1.5444,
      "step": 63694
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5854924321174622,
      "learning_rate": 0.00011883546795903611,
      "loss": 1.6007,
      "step": 63695
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.609551191329956,
      "learning_rate": 0.00011882713695972627,
      "loss": 1.5468,
      "step": 63696
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5905666947364807,
      "learning_rate": 0.00011881880618033367,
      "loss": 1.5131,
      "step": 63697
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6037343740463257,
      "learning_rate": 0.00011881047562086836,
      "loss": 1.5489,
      "step": 63698
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6065692901611328,
      "learning_rate": 0.00011880214528134034,
      "loss": 1.5278,
      "step": 63699
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6364978551864624,
      "learning_rate": 0.00011879381516175991,
      "loss": 1.5587,
      "step": 63700
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6018784642219543,
      "learning_rate": 0.00011878548526213711,
      "loss": 1.5207,
      "step": 63701
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6346924901008606,
      "learning_rate": 0.00011877715558248188,
      "loss": 1.6093,
      "step": 63702
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6160783767700195,
      "learning_rate": 0.00011876882612280452,
      "loss": 1.5177,
      "step": 63703
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.596987783908844,
      "learning_rate": 0.00011876049688311519,
      "loss": 1.576,
      "step": 63704
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6463407874107361,
      "learning_rate": 0.0001187521678634239,
      "loss": 1.5188,
      "step": 63705
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6119028329849243,
      "learning_rate": 0.00011874383906374071,
      "loss": 1.5316,
      "step": 63706
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.581432044506073,
      "learning_rate": 0.00011873551048407588,
      "loss": 1.5345,
      "step": 63707
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6156898140907288,
      "learning_rate": 0.00011872718212443941,
      "loss": 1.5877,
      "step": 63708
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6012663245201111,
      "learning_rate": 0.00011871885398484134,
      "loss": 1.531,
      "step": 63709
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6308871507644653,
      "learning_rate": 0.000118710526065292,
      "loss": 1.6164,
      "step": 63710
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6301994919776917,
      "learning_rate": 0.00011870219836580123,
      "loss": 1.5917,
      "step": 63711
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5795771479606628,
      "learning_rate": 0.0001186938708863794,
      "loss": 1.5243,
      "step": 63712
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5975192785263062,
      "learning_rate": 0.00011868554362703639,
      "loss": 1.5993,
      "step": 63713
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5996655225753784,
      "learning_rate": 0.0001186772165877825,
      "loss": 1.5544,
      "step": 63714
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5988495945930481,
      "learning_rate": 0.00011866888976862778,
      "loss": 1.4425,
      "step": 63715
    },
    {
      "epoch": 2.12,
      "grad_norm": 1.132565975189209,
      "learning_rate": 0.00011866056316958218,
      "loss": 1.7159,
      "step": 63716
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6032949090003967,
      "learning_rate": 0.00011865223679065607,
      "loss": 1.5125,
      "step": 63717
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6389889121055603,
      "learning_rate": 0.00011864391063185932,
      "loss": 1.6292,
      "step": 63718
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6284385323524475,
      "learning_rate": 0.0001186355846932022,
      "loss": 1.569,
      "step": 63719
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5965405702590942,
      "learning_rate": 0.00011862725897469468,
      "loss": 1.5457,
      "step": 63720
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5896579027175903,
      "learning_rate": 0.00011861893347634705,
      "loss": 1.5385,
      "step": 63721
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6112141609191895,
      "learning_rate": 0.00011861060819816935,
      "loss": 1.5798,
      "step": 63722
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6261798739433289,
      "learning_rate": 0.00011860228314017148,
      "loss": 1.5299,
      "step": 63723
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6096681952476501,
      "learning_rate": 0.00011859395830236384,
      "loss": 1.4947,
      "step": 63724
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6173781156539917,
      "learning_rate": 0.00011858563368475628,
      "loss": 1.5234,
      "step": 63725
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.598922073841095,
      "learning_rate": 0.00011857730928735919,
      "loss": 1.5493,
      "step": 63726
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5947040915489197,
      "learning_rate": 0.00011856898511018247,
      "loss": 1.5574,
      "step": 63727
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6190673112869263,
      "learning_rate": 0.00011856066115323618,
      "loss": 1.5218,
      "step": 63728
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6389980912208557,
      "learning_rate": 0.00011855233741653059,
      "loss": 1.603,
      "step": 63729
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6235034465789795,
      "learning_rate": 0.00011854401390007564,
      "loss": 1.5028,
      "step": 63730
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6075399518013,
      "learning_rate": 0.00011853569060388163,
      "loss": 1.5238,
      "step": 63731
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5969126224517822,
      "learning_rate": 0.00011852736752795848,
      "loss": 1.5898,
      "step": 63732
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.606981635093689,
      "learning_rate": 0.00011851904467231643,
      "loss": 1.5746,
      "step": 63733
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5869457125663757,
      "learning_rate": 0.00011851072203696554,
      "loss": 1.5298,
      "step": 63734
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5942606925964355,
      "learning_rate": 0.00011850239962191577,
      "loss": 1.5582,
      "step": 63735
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5972946882247925,
      "learning_rate": 0.00011849407742717746,
      "loss": 1.5022,
      "step": 63736
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5914910435676575,
      "learning_rate": 0.00011848575545276058,
      "loss": 1.5107,
      "step": 63737
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6096643805503845,
      "learning_rate": 0.00011847743369867518,
      "loss": 1.5645,
      "step": 63738
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5838589072227478,
      "learning_rate": 0.0001184691121649314,
      "loss": 1.5523,
      "step": 63739
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6128972768783569,
      "learning_rate": 0.00011846079085153949,
      "loss": 1.6313,
      "step": 63740
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5970022678375244,
      "learning_rate": 0.0001184524697585094,
      "loss": 1.5823,
      "step": 63741
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6137265563011169,
      "learning_rate": 0.00011844414888585118,
      "loss": 1.5152,
      "step": 63742
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5890271663665771,
      "learning_rate": 0.00011843582823357512,
      "loss": 1.5575,
      "step": 63743
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.576264500617981,
      "learning_rate": 0.00011842750780169121,
      "loss": 1.515,
      "step": 63744
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.615660548210144,
      "learning_rate": 0.00011841918759020946,
      "loss": 1.5066,
      "step": 63745
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6285983920097351,
      "learning_rate": 0.00011841086759914003,
      "loss": 1.5961,
      "step": 63746
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5974140763282776,
      "learning_rate": 0.00011840254782849329,
      "loss": 1.4848,
      "step": 63747
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5829444527626038,
      "learning_rate": 0.00011839422827827888,
      "loss": 1.5201,
      "step": 63748
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6012239456176758,
      "learning_rate": 0.00011838590894850713,
      "loss": 1.6163,
      "step": 63749
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5864374041557312,
      "learning_rate": 0.00011837758983918822,
      "loss": 1.5366,
      "step": 63750
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.604054868221283,
      "learning_rate": 0.00011836927095033214,
      "loss": 1.5079,
      "step": 63751
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6106477379798889,
      "learning_rate": 0.0001183609522819489,
      "loss": 1.6096,
      "step": 63752
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6162250638008118,
      "learning_rate": 0.00011835263383404873,
      "loss": 1.6003,
      "step": 63753
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6048251390457153,
      "learning_rate": 0.0001183443156066419,
      "loss": 1.5726,
      "step": 63754
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.585978090763092,
      "learning_rate": 0.0001183359975997381,
      "loss": 1.573,
      "step": 63755
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5897939205169678,
      "learning_rate": 0.0001183276798133476,
      "loss": 1.5583,
      "step": 63756
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6005180478096008,
      "learning_rate": 0.00011831936224748066,
      "loss": 1.5235,
      "step": 63757
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6162675023078918,
      "learning_rate": 0.00011831104490214723,
      "loss": 1.6237,
      "step": 63758
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6056946516036987,
      "learning_rate": 0.00011830272777735735,
      "loss": 1.5454,
      "step": 63759
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5895074009895325,
      "learning_rate": 0.00011829441087312113,
      "loss": 1.4895,
      "step": 63760
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5870177149772644,
      "learning_rate": 0.00011828609418944896,
      "loss": 1.5149,
      "step": 63761
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6193225383758545,
      "learning_rate": 0.00011827777772635049,
      "loss": 1.5559,
      "step": 63762
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5846868753433228,
      "learning_rate": 0.00011826946148383602,
      "loss": 1.5394,
      "step": 63763
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6275240182876587,
      "learning_rate": 0.00011826114546191577,
      "loss": 1.5277,
      "step": 63764
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6059545874595642,
      "learning_rate": 0.0001182528296605997,
      "loss": 1.4895,
      "step": 63765
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6252539753913879,
      "learning_rate": 0.0001182445140798978,
      "loss": 1.5227,
      "step": 63766
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6093870401382446,
      "learning_rate": 0.0001182361987198204,
      "loss": 1.5451,
      "step": 63767
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6199444532394409,
      "learning_rate": 0.00011822788358037743,
      "loss": 1.5421,
      "step": 63768
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5882896184921265,
      "learning_rate": 0.00011821956866157898,
      "loss": 1.5957,
      "step": 63769
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.595492422580719,
      "learning_rate": 0.00011821125396343514,
      "loss": 1.5509,
      "step": 63770
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6009752154350281,
      "learning_rate": 0.00011820293948595621,
      "loss": 1.4775,
      "step": 63771
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6054360270500183,
      "learning_rate": 0.00011819462522915208,
      "loss": 1.5457,
      "step": 63772
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5965229272842407,
      "learning_rate": 0.0001181863111930328,
      "loss": 1.6027,
      "step": 63773
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5999252200126648,
      "learning_rate": 0.00011817799737760865,
      "loss": 1.5464,
      "step": 63774
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5948857069015503,
      "learning_rate": 0.00011816968378288963,
      "loss": 1.5497,
      "step": 63775
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.594206690788269,
      "learning_rate": 0.0001181613704088857,
      "loss": 1.5033,
      "step": 63776
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6263816356658936,
      "learning_rate": 0.0001181530572556072,
      "loss": 1.5416,
      "step": 63777
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5986137390136719,
      "learning_rate": 0.00011814474432306398,
      "loss": 1.5691,
      "step": 63778
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6116071939468384,
      "learning_rate": 0.00011813643161126638,
      "loss": 1.5256,
      "step": 63779
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5784405469894409,
      "learning_rate": 0.0001181281191202242,
      "loss": 1.5798,
      "step": 63780
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5953977704048157,
      "learning_rate": 0.00011811980684994781,
      "loss": 1.4841,
      "step": 63781
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5981090068817139,
      "learning_rate": 0.00011811149480044706,
      "loss": 1.4909,
      "step": 63782
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6241585612297058,
      "learning_rate": 0.00011810318297173229,
      "loss": 1.6687,
      "step": 63783
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.591267466545105,
      "learning_rate": 0.00011809487136381343,
      "loss": 1.5318,
      "step": 63784
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5904341340065002,
      "learning_rate": 0.00011808655997670049,
      "loss": 1.5101,
      "step": 63785
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5787537097930908,
      "learning_rate": 0.00011807824881040378,
      "loss": 1.4765,
      "step": 63786
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5986051559448242,
      "learning_rate": 0.00011806993786493325,
      "loss": 1.5577,
      "step": 63787
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6035919189453125,
      "learning_rate": 0.00011806162714029894,
      "loss": 1.4549,
      "step": 63788
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6070210337638855,
      "learning_rate": 0.00011805331663651097,
      "loss": 1.4808,
      "step": 63789
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6212857961654663,
      "learning_rate": 0.00011804500635357961,
      "loss": 1.5851,
      "step": 63790
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6279280185699463,
      "learning_rate": 0.00011803669629151477,
      "loss": 1.6351,
      "step": 63791
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6314205527305603,
      "learning_rate": 0.00011802838645032647,
      "loss": 1.5747,
      "step": 63792
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6019012928009033,
      "learning_rate": 0.00011802007683002499,
      "loss": 1.5445,
      "step": 63793
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6098610162734985,
      "learning_rate": 0.00011801176743062035,
      "loss": 1.5151,
      "step": 63794
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6037794947624207,
      "learning_rate": 0.00011800345825212249,
      "loss": 1.5971,
      "step": 63795
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5828869938850403,
      "learning_rate": 0.00011799514929454161,
      "loss": 1.5556,
      "step": 63796
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6060552000999451,
      "learning_rate": 0.00011798684055788801,
      "loss": 1.5791,
      "step": 63797
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.606026828289032,
      "learning_rate": 0.00011797853204217139,
      "loss": 1.5685,
      "step": 63798
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.625055193901062,
      "learning_rate": 0.00011797022374740199,
      "loss": 1.508,
      "step": 63799
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5910577178001404,
      "learning_rate": 0.00011796191567359002,
      "loss": 1.5414,
      "step": 63800
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6073406338691711,
      "learning_rate": 0.00011795360782074548,
      "loss": 1.548,
      "step": 63801
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.596634030342102,
      "learning_rate": 0.00011794530018887831,
      "loss": 1.5161,
      "step": 63802
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5979424715042114,
      "learning_rate": 0.0001179369927779987,
      "loss": 1.5176,
      "step": 63803
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.582091212272644,
      "learning_rate": 0.00011792868558811703,
      "loss": 1.5472,
      "step": 63804
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6033049821853638,
      "learning_rate": 0.00011792037861924285,
      "loss": 1.5371,
      "step": 63805
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.594338059425354,
      "learning_rate": 0.00011791207187138652,
      "loss": 1.6223,
      "step": 63806
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6114419102668762,
      "learning_rate": 0.00011790376534455818,
      "loss": 1.5335,
      "step": 63807
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6301062107086182,
      "learning_rate": 0.00011789545903876786,
      "loss": 1.6124,
      "step": 63808
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5867964029312134,
      "learning_rate": 0.00011788715295402552,
      "loss": 1.6297,
      "step": 63809
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5854339599609375,
      "learning_rate": 0.00011787884709034135,
      "loss": 1.5417,
      "step": 63810
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5978155732154846,
      "learning_rate": 0.00011787054144772563,
      "loss": 1.5291,
      "step": 63811
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6047025322914124,
      "learning_rate": 0.00011786223602618805,
      "loss": 1.5607,
      "step": 63812
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5868409276008606,
      "learning_rate": 0.00011785393082573885,
      "loss": 1.646,
      "step": 63813
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6165434122085571,
      "learning_rate": 0.00011784562584638822,
      "loss": 1.4999,
      "step": 63814
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6058079600334167,
      "learning_rate": 0.00011783732108814619,
      "loss": 1.4687,
      "step": 63815
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6079584956169128,
      "learning_rate": 0.00011782901655102272,
      "loss": 1.56,
      "step": 63816
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5842315554618835,
      "learning_rate": 0.00011782071223502806,
      "loss": 1.606,
      "step": 63817
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5920267105102539,
      "learning_rate": 0.00011781240814017222,
      "loss": 1.5672,
      "step": 63818
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5961802005767822,
      "learning_rate": 0.0001178041042664652,
      "loss": 1.5387,
      "step": 63819
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5958249568939209,
      "learning_rate": 0.0001177958006139171,
      "loss": 1.4837,
      "step": 63820
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6276213526725769,
      "learning_rate": 0.0001177874971825382,
      "loss": 1.6482,
      "step": 63821
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6132169365882874,
      "learning_rate": 0.0001177791939723384,
      "loss": 1.5896,
      "step": 63822
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.610907793045044,
      "learning_rate": 0.00011777089098332773,
      "loss": 1.544,
      "step": 63823
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5970851182937622,
      "learning_rate": 0.00011776258821551642,
      "loss": 1.462,
      "step": 63824
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5991272330284119,
      "learning_rate": 0.00011775428566891449,
      "loss": 1.4818,
      "step": 63825
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6250566244125366,
      "learning_rate": 0.00011774598334353192,
      "loss": 1.5579,
      "step": 63826
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6085906028747559,
      "learning_rate": 0.00011773768123937897,
      "loss": 1.5812,
      "step": 63827
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6156136989593506,
      "learning_rate": 0.00011772937935646548,
      "loss": 1.5364,
      "step": 63828
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6031439304351807,
      "learning_rate": 0.00011772107769480181,
      "loss": 1.5945,
      "step": 63829
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6023015379905701,
      "learning_rate": 0.00011771277625439778,
      "loss": 1.5807,
      "step": 63830
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5849817395210266,
      "learning_rate": 0.0001177044750352637,
      "loss": 1.5048,
      "step": 63831
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6168370842933655,
      "learning_rate": 0.0001176961740374095,
      "loss": 1.521,
      "step": 63832
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6143229007720947,
      "learning_rate": 0.0001176878732608452,
      "loss": 1.5131,
      "step": 63833
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6121355295181274,
      "learning_rate": 0.00011767957270558103,
      "loss": 1.6056,
      "step": 63834
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6022500395774841,
      "learning_rate": 0.00011767127237162694,
      "loss": 1.5412,
      "step": 63835
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6073447465896606,
      "learning_rate": 0.00011766297225899315,
      "loss": 1.5659,
      "step": 63836
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5785049796104431,
      "learning_rate": 0.0001176546723676895,
      "loss": 1.5128,
      "step": 63837
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6120899319648743,
      "learning_rate": 0.00011764637269772638,
      "loss": 1.5891,
      "step": 63838
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5877617597579956,
      "learning_rate": 0.00011763807324911366,
      "loss": 1.4821,
      "step": 63839
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6074867844581604,
      "learning_rate": 0.00011762977402186132,
      "loss": 1.5742,
      "step": 63840
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5919197201728821,
      "learning_rate": 0.00011762147501597972,
      "loss": 1.5413,
      "step": 63841
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5902978777885437,
      "learning_rate": 0.00011761317623147863,
      "loss": 1.5538,
      "step": 63842
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6094390153884888,
      "learning_rate": 0.0001176048776683684,
      "loss": 1.5853,
      "step": 63843
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6016344428062439,
      "learning_rate": 0.00011759657932665894,
      "loss": 1.4822,
      "step": 63844
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6080328822135925,
      "learning_rate": 0.00011758828120636031,
      "loss": 1.5215,
      "step": 63845
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6123787760734558,
      "learning_rate": 0.0001175799833074827,
      "loss": 1.593,
      "step": 63846
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.621039867401123,
      "learning_rate": 0.00011757168563003598,
      "loss": 1.5915,
      "step": 63847
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6009101271629333,
      "learning_rate": 0.0001175633881740305,
      "loss": 1.5287,
      "step": 63848
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6390703320503235,
      "learning_rate": 0.00011755509093947608,
      "loss": 1.5226,
      "step": 63849
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6285232305526733,
      "learning_rate": 0.00011754679392638297,
      "loss": 1.5214,
      "step": 63850
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6223737597465515,
      "learning_rate": 0.00011753849713476121,
      "loss": 1.4939,
      "step": 63851
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6156027913093567,
      "learning_rate": 0.00011753020056462072,
      "loss": 1.5393,
      "step": 63852
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6151266098022461,
      "learning_rate": 0.00011752190421597174,
      "loss": 1.5267,
      "step": 63853
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6124007105827332,
      "learning_rate": 0.00011751360808882431,
      "loss": 1.562,
      "step": 63854
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6145983338356018,
      "learning_rate": 0.0001175053121831884,
      "loss": 1.5073,
      "step": 63855
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5892523527145386,
      "learning_rate": 0.00011749701649907412,
      "loss": 1.5415,
      "step": 63856
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6129043102264404,
      "learning_rate": 0.00011748872103649167,
      "loss": 1.5418,
      "step": 63857
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6048378348350525,
      "learning_rate": 0.00011748042579545104,
      "loss": 1.5576,
      "step": 63858
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5974428653717041,
      "learning_rate": 0.00011747213077596215,
      "loss": 1.4937,
      "step": 63859
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5933550000190735,
      "learning_rate": 0.00011746383597803533,
      "loss": 1.5029,
      "step": 63860
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6124328374862671,
      "learning_rate": 0.00011745554140168049,
      "loss": 1.546,
      "step": 63861
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5881746411323547,
      "learning_rate": 0.00011744724704690766,
      "loss": 1.5197,
      "step": 63862
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5884212851524353,
      "learning_rate": 0.00011743895291372693,
      "loss": 1.524,
      "step": 63863
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6214086413383484,
      "learning_rate": 0.00011743065900214866,
      "loss": 1.6344,
      "step": 63864
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6047455668449402,
      "learning_rate": 0.00011742236531218243,
      "loss": 1.5411,
      "step": 63865
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6002248525619507,
      "learning_rate": 0.00011741407184383855,
      "loss": 1.5347,
      "step": 63866
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5843864679336548,
      "learning_rate": 0.00011740577859712722,
      "loss": 1.5338,
      "step": 63867
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6106609106063843,
      "learning_rate": 0.00011739748557205833,
      "loss": 1.5066,
      "step": 63868
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6348857283592224,
      "learning_rate": 0.0001173891927686419,
      "loss": 1.6984,
      "step": 63869
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5990461707115173,
      "learning_rate": 0.00011738090018688809,
      "loss": 1.5177,
      "step": 63870
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6432754993438721,
      "learning_rate": 0.00011737260782680718,
      "loss": 1.5663,
      "step": 63871
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.613966703414917,
      "learning_rate": 0.0001173643156884088,
      "loss": 1.5125,
      "step": 63872
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6109986305236816,
      "learning_rate": 0.0001173560237717032,
      "loss": 1.5426,
      "step": 63873
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6003888845443726,
      "learning_rate": 0.0001173477320767006,
      "loss": 1.4798,
      "step": 63874
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5996423959732056,
      "learning_rate": 0.00011733944060341094,
      "loss": 1.5499,
      "step": 63875
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6142931580543518,
      "learning_rate": 0.00011733114935184418,
      "loss": 1.598,
      "step": 63876
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.58894282579422,
      "learning_rate": 0.0001173228583220105,
      "loss": 1.5541,
      "step": 63877
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6344140768051147,
      "learning_rate": 0.00011731456751392014,
      "loss": 1.5361,
      "step": 63878
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6066263318061829,
      "learning_rate": 0.0001173062769275828,
      "loss": 1.6193,
      "step": 63879
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5828185677528381,
      "learning_rate": 0.0001172979865630087,
      "loss": 1.5873,
      "step": 63880
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6046399474143982,
      "learning_rate": 0.00011728969642020802,
      "loss": 1.5843,
      "step": 63881
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6122435927391052,
      "learning_rate": 0.00011728140649919074,
      "loss": 1.5599,
      "step": 63882
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6165978312492371,
      "learning_rate": 0.00011727311679996682,
      "loss": 1.4702,
      "step": 63883
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5718770027160645,
      "learning_rate": 0.0001172648273225465,
      "loss": 1.4947,
      "step": 63884
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.628090500831604,
      "learning_rate": 0.00011725653806693978,
      "loss": 1.5428,
      "step": 63885
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6188804507255554,
      "learning_rate": 0.00011724824903315655,
      "loss": 1.4408,
      "step": 63886
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6149898171424866,
      "learning_rate": 0.00011723996022120704,
      "loss": 1.4745,
      "step": 63887
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6299227476119995,
      "learning_rate": 0.0001172316716311014,
      "loss": 1.5084,
      "step": 63888
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5708853006362915,
      "learning_rate": 0.00011722338326284958,
      "loss": 1.5022,
      "step": 63889
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6210173964500427,
      "learning_rate": 0.00011721509511646155,
      "loss": 1.5132,
      "step": 63890
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6194151639938354,
      "learning_rate": 0.00011720680719194752,
      "loss": 1.5517,
      "step": 63891
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6030761003494263,
      "learning_rate": 0.00011719851948931753,
      "loss": 1.4687,
      "step": 63892
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.586100161075592,
      "learning_rate": 0.00011719023200858149,
      "loss": 1.6065,
      "step": 63893
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6070754528045654,
      "learning_rate": 0.00011718194474974968,
      "loss": 1.4598,
      "step": 63894
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6090831160545349,
      "learning_rate": 0.00011717365771283196,
      "loss": 1.5966,
      "step": 63895
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5943148732185364,
      "learning_rate": 0.00011716537089783855,
      "loss": 1.5102,
      "step": 63896
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6182256937026978,
      "learning_rate": 0.00011715708430477937,
      "loss": 1.5213,
      "step": 63897
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.61972576379776,
      "learning_rate": 0.00011714879793366464,
      "loss": 1.571,
      "step": 63898
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.622279703617096,
      "learning_rate": 0.00011714051178450423,
      "loss": 1.4884,
      "step": 63899
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5869121551513672,
      "learning_rate": 0.00011713222585730838,
      "loss": 1.5967,
      "step": 63900
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5928086042404175,
      "learning_rate": 0.00011712394015208708,
      "loss": 1.559,
      "step": 63901
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5924139618873596,
      "learning_rate": 0.00011711565466885028,
      "loss": 1.5264,
      "step": 63902
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.594836950302124,
      "learning_rate": 0.0001171073694076082,
      "loss": 1.5054,
      "step": 63903
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6171504855155945,
      "learning_rate": 0.00011709908436837084,
      "loss": 1.618,
      "step": 63904
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6262876391410828,
      "learning_rate": 0.00011709079955114814,
      "loss": 1.555,
      "step": 63905
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5828447341918945,
      "learning_rate": 0.00011708251495595025,
      "loss": 1.5519,
      "step": 63906
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6092715263366699,
      "learning_rate": 0.00011707423058278737,
      "loss": 1.5676,
      "step": 63907
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6342951655387878,
      "learning_rate": 0.00011706594643166938,
      "loss": 1.5433,
      "step": 63908
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6219860911369324,
      "learning_rate": 0.00011705766250260631,
      "loss": 1.5503,
      "step": 63909
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6169177293777466,
      "learning_rate": 0.00011704937879560836,
      "loss": 1.4437,
      "step": 63910
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5810958743095398,
      "learning_rate": 0.00011704109531068551,
      "loss": 1.5603,
      "step": 63911
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5937672257423401,
      "learning_rate": 0.00011703281204784773,
      "loss": 1.4932,
      "step": 63912
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5861648917198181,
      "learning_rate": 0.00011702452900710514,
      "loss": 1.5455,
      "step": 63913
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5840740203857422,
      "learning_rate": 0.00011701624618846801,
      "loss": 1.569,
      "step": 63914
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5714054703712463,
      "learning_rate": 0.00011700796359194601,
      "loss": 1.539,
      "step": 63915
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6080334186553955,
      "learning_rate": 0.00011699968121754935,
      "loss": 1.557,
      "step": 63916
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5925386548042297,
      "learning_rate": 0.00011699139906528825,
      "loss": 1.5382,
      "step": 63917
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5970333218574524,
      "learning_rate": 0.00011698311713517262,
      "loss": 1.6258,
      "step": 63918
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6200366020202637,
      "learning_rate": 0.0001169748354272124,
      "loss": 1.4898,
      "step": 63919
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5913732051849365,
      "learning_rate": 0.00011696655394141778,
      "loss": 1.5074,
      "step": 63920
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6263653039932251,
      "learning_rate": 0.00011695827267779899,
      "loss": 1.5226,
      "step": 63921
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6066704392433167,
      "learning_rate": 0.00011694999163636568,
      "loss": 1.5268,
      "step": 63922
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5786329507827759,
      "learning_rate": 0.00011694171081712813,
      "loss": 1.5999,
      "step": 63923
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.592035710811615,
      "learning_rate": 0.00011693343022009643,
      "loss": 1.5304,
      "step": 63924
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6102888584136963,
      "learning_rate": 0.00011692514984528062,
      "loss": 1.5073,
      "step": 63925
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.596133291721344,
      "learning_rate": 0.00011691686969269058,
      "loss": 1.5433,
      "step": 63926
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6085382699966431,
      "learning_rate": 0.00011690858976233646,
      "loss": 1.5734,
      "step": 63927
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6031612753868103,
      "learning_rate": 0.00011690031005422856,
      "loss": 1.5235,
      "step": 63928
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.608868420124054,
      "learning_rate": 0.00011689203056837652,
      "loss": 1.5124,
      "step": 63929
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6076261401176453,
      "learning_rate": 0.00011688375130479054,
      "loss": 1.5189,
      "step": 63930
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6163920164108276,
      "learning_rate": 0.00011687547226348083,
      "loss": 1.5207,
      "step": 63931
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5848345756530762,
      "learning_rate": 0.0001168671934444573,
      "loss": 1.562,
      "step": 63932
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5779570937156677,
      "learning_rate": 0.00011685891484772993,
      "loss": 1.4686,
      "step": 63933
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.7086657881736755,
      "learning_rate": 0.00011685063647330896,
      "loss": 1.5192,
      "step": 63934
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6131835579872131,
      "learning_rate": 0.00011684235832120434,
      "loss": 1.5696,
      "step": 63935
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6085183620452881,
      "learning_rate": 0.00011683408039142595,
      "loss": 1.5694,
      "step": 63936
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6078416109085083,
      "learning_rate": 0.00011682580268398407,
      "loss": 1.6234,
      "step": 63937
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6222488284111023,
      "learning_rate": 0.00011681752519888871,
      "loss": 1.6092,
      "step": 63938
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5956783890724182,
      "learning_rate": 0.00011680924793614992,
      "loss": 1.5343,
      "step": 63939
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6052492260932922,
      "learning_rate": 0.00011680097089577763,
      "loss": 1.5286,
      "step": 63940
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5930378437042236,
      "learning_rate": 0.00011679269407778201,
      "loss": 1.5445,
      "step": 63941
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5819856524467468,
      "learning_rate": 0.00011678441748217311,
      "loss": 1.5055,
      "step": 63942
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6122668981552124,
      "learning_rate": 0.00011677614110896084,
      "loss": 1.5091,
      "step": 63943
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5972064733505249,
      "learning_rate": 0.0001167678649581554,
      "loss": 1.5453,
      "step": 63944
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6054877042770386,
      "learning_rate": 0.0001167595890297667,
      "loss": 1.5272,
      "step": 63945
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6672800779342651,
      "learning_rate": 0.00011675131332380496,
      "loss": 1.596,
      "step": 63946
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6187251210212708,
      "learning_rate": 0.00011674303784028001,
      "loss": 1.6001,
      "step": 63947
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5886252522468567,
      "learning_rate": 0.00011673476257920213,
      "loss": 1.556,
      "step": 63948
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6202380061149597,
      "learning_rate": 0.00011672648754058124,
      "loss": 1.5231,
      "step": 63949
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6026795506477356,
      "learning_rate": 0.00011671821272442726,
      "loss": 1.507,
      "step": 63950
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5934585332870483,
      "learning_rate": 0.0001167099381307505,
      "loss": 1.51,
      "step": 63951
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6172654032707214,
      "learning_rate": 0.00011670166375956075,
      "loss": 1.5117,
      "step": 63952
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5873188376426697,
      "learning_rate": 0.00011669338961086828,
      "loss": 1.5393,
      "step": 63953
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5832495093345642,
      "learning_rate": 0.00011668511568468302,
      "loss": 1.5533,
      "step": 63954
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6177064776420593,
      "learning_rate": 0.00011667684198101494,
      "loss": 1.5453,
      "step": 63955
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6095303297042847,
      "learning_rate": 0.00011666856849987423,
      "loss": 1.5221,
      "step": 63956
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6140668392181396,
      "learning_rate": 0.0001166602952412708,
      "loss": 1.5258,
      "step": 63957
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6055206656455994,
      "learning_rate": 0.00011665202220521485,
      "loss": 1.6135,
      "step": 63958
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.605962872505188,
      "learning_rate": 0.0001166437493917162,
      "loss": 1.5653,
      "step": 63959
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6066023111343384,
      "learning_rate": 0.00011663547680078516,
      "loss": 1.5584,
      "step": 63960
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5736677050590515,
      "learning_rate": 0.0001166272044324316,
      "loss": 1.4994,
      "step": 63961
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6001271605491638,
      "learning_rate": 0.00011661893228666552,
      "loss": 1.4576,
      "step": 63962
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5851354002952576,
      "learning_rate": 0.00011661066036349712,
      "loss": 1.5091,
      "step": 63963
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6161864995956421,
      "learning_rate": 0.00011660238866293625,
      "loss": 1.5455,
      "step": 63964
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5970270037651062,
      "learning_rate": 0.00011659411718499317,
      "loss": 1.5326,
      "step": 63965
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6307881474494934,
      "learning_rate": 0.00011658584592967772,
      "loss": 1.6098,
      "step": 63966
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6267065405845642,
      "learning_rate": 0.00011657757489700013,
      "loss": 1.5998,
      "step": 63967
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5958333611488342,
      "learning_rate": 0.00011656930408697034,
      "loss": 1.4969,
      "step": 63968
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5990179181098938,
      "learning_rate": 0.00011656103349959825,
      "loss": 1.4933,
      "step": 63969
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6033865809440613,
      "learning_rate": 0.00011655276313489416,
      "loss": 1.5389,
      "step": 63970
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6297181248664856,
      "learning_rate": 0.000116544492992868,
      "loss": 1.5558,
      "step": 63971
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6299922466278076,
      "learning_rate": 0.00011653622307352967,
      "loss": 1.5786,
      "step": 63972
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.598416805267334,
      "learning_rate": 0.00011652795337688936,
      "loss": 1.489,
      "step": 63973
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6142483949661255,
      "learning_rate": 0.00011651968390295713,
      "loss": 1.5449,
      "step": 63974
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5879384875297546,
      "learning_rate": 0.00011651141465174303,
      "loss": 1.5199,
      "step": 63975
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5908346772193909,
      "learning_rate": 0.00011650314562325692,
      "loss": 1.519,
      "step": 63976
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6297078132629395,
      "learning_rate": 0.00011649487681750905,
      "loss": 1.5328,
      "step": 63977
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5931705236434937,
      "learning_rate": 0.00011648660823450934,
      "loss": 1.5637,
      "step": 63978
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6124142408370972,
      "learning_rate": 0.00011647833987426777,
      "loss": 1.4945,
      "step": 63979
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6021808981895447,
      "learning_rate": 0.00011647007173679446,
      "loss": 1.5013,
      "step": 63980
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5990673899650574,
      "learning_rate": 0.00011646180382209964,
      "loss": 1.5482,
      "step": 63981
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5907590389251709,
      "learning_rate": 0.00011645353613019291,
      "loss": 1.5078,
      "step": 63982
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6184538006782532,
      "learning_rate": 0.00011644526866108456,
      "loss": 1.4984,
      "step": 63983
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5989530682563782,
      "learning_rate": 0.00011643700141478476,
      "loss": 1.4976,
      "step": 63984
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6082273125648499,
      "learning_rate": 0.00011642873439130335,
      "loss": 1.573,
      "step": 63985
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6208860278129578,
      "learning_rate": 0.0001164204675906503,
      "loss": 1.5997,
      "step": 63986
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5722735524177551,
      "learning_rate": 0.00011641220101283575,
      "loss": 1.5269,
      "step": 63987
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5968837141990662,
      "learning_rate": 0.00011640393465786998,
      "loss": 1.4865,
      "step": 63988
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5886785387992859,
      "learning_rate": 0.00011639566852576254,
      "loss": 1.525,
      "step": 63989
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6121896505355835,
      "learning_rate": 0.00011638740261652373,
      "loss": 1.5132,
      "step": 63990
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.602353036403656,
      "learning_rate": 0.00011637913693016362,
      "loss": 1.5616,
      "step": 63991
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6149972081184387,
      "learning_rate": 0.00011637087146669224,
      "loss": 1.5033,
      "step": 63992
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6091485619544983,
      "learning_rate": 0.00011636260622611942,
      "loss": 1.5348,
      "step": 63993
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.615053653717041,
      "learning_rate": 0.00011635434120845535,
      "loss": 1.5702,
      "step": 63994
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.60670006275177,
      "learning_rate": 0.00011634607641371027,
      "loss": 1.4858,
      "step": 63995
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5768579840660095,
      "learning_rate": 0.0001163378118418938,
      "loss": 1.4564,
      "step": 63996
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.606282114982605,
      "learning_rate": 0.00011632954749301612,
      "loss": 1.5964,
      "step": 63997
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.593059778213501,
      "learning_rate": 0.00011632128336708743,
      "loss": 1.5885,
      "step": 63998
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6310433149337769,
      "learning_rate": 0.00011631301946411764,
      "loss": 1.542,
      "step": 63999
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5983943939208984,
      "learning_rate": 0.00011630475578411669,
      "loss": 1.5329,
      "step": 64000
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6437371969223022,
      "learning_rate": 0.00011629649232709477,
      "loss": 1.5563,
      "step": 64001
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6143267154693604,
      "learning_rate": 0.00011628822909306189,
      "loss": 1.5648,
      "step": 64002
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6305660009384155,
      "learning_rate": 0.00011627996608202788,
      "loss": 1.5187,
      "step": 64003
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5988168120384216,
      "learning_rate": 0.00011627170329400295,
      "loss": 1.4771,
      "step": 64004
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6204603910446167,
      "learning_rate": 0.0001162634407289972,
      "loss": 1.5768,
      "step": 64005
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5961764454841614,
      "learning_rate": 0.00011625517838702053,
      "loss": 1.5683,
      "step": 64006
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5960196852684021,
      "learning_rate": 0.00011624691626808293,
      "loss": 1.5336,
      "step": 64007
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5840234756469727,
      "learning_rate": 0.0001162386543721946,
      "loss": 1.5056,
      "step": 64008
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6158084273338318,
      "learning_rate": 0.00011623039269936547,
      "loss": 1.5737,
      "step": 64009
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5825360417366028,
      "learning_rate": 0.00011622213124960545,
      "loss": 1.5114,
      "step": 64010
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6059209704399109,
      "learning_rate": 0.00011621387002292478,
      "loss": 1.6168,
      "step": 64011
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.606258749961853,
      "learning_rate": 0.00011620560901933331,
      "loss": 1.5936,
      "step": 64012
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6090545058250427,
      "learning_rate": 0.00011619734823884123,
      "loss": 1.5442,
      "step": 64013
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6080601215362549,
      "learning_rate": 0.0001161890876814584,
      "loss": 1.5844,
      "step": 64014
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5922412872314453,
      "learning_rate": 0.00011618082734719504,
      "loss": 1.5218,
      "step": 64015
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6057239174842834,
      "learning_rate": 0.00011617256723606095,
      "loss": 1.4409,
      "step": 64016
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6044071912765503,
      "learning_rate": 0.00011616430734806641,
      "loss": 1.5471,
      "step": 64017
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5892792344093323,
      "learning_rate": 0.0001161560476832213,
      "loss": 1.485,
      "step": 64018
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5870598554611206,
      "learning_rate": 0.00011614778824153554,
      "loss": 1.5734,
      "step": 64019
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6037594676017761,
      "learning_rate": 0.00011613952902301941,
      "loss": 1.496,
      "step": 64020
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6104584336280823,
      "learning_rate": 0.00011613127002768278,
      "loss": 1.509,
      "step": 64021
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6119406223297119,
      "learning_rate": 0.00011612301125553562,
      "loss": 1.5489,
      "step": 64022
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6143969893455505,
      "learning_rate": 0.00011611475270658798,
      "loss": 1.5985,
      "step": 64023
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6081286668777466,
      "learning_rate": 0.00011610649438085009,
      "loss": 1.5176,
      "step": 64024
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5956602692604065,
      "learning_rate": 0.00011609823627833178,
      "loss": 1.5754,
      "step": 64025
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5936954617500305,
      "learning_rate": 0.00011608997839904304,
      "loss": 1.6084,
      "step": 64026
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6010391116142273,
      "learning_rate": 0.00011608172074299406,
      "loss": 1.5637,
      "step": 64027
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.8340785503387451,
      "learning_rate": 0.00011607346331019479,
      "loss": 1.5249,
      "step": 64028
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.620905339717865,
      "learning_rate": 0.0001160652061006551,
      "loss": 1.5796,
      "step": 64029
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6069097518920898,
      "learning_rate": 0.00011605694911438515,
      "loss": 1.5826,
      "step": 64030
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5933655500411987,
      "learning_rate": 0.0001160486923513952,
      "loss": 1.5104,
      "step": 64031
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6059371829032898,
      "learning_rate": 0.0001160404358116948,
      "loss": 1.5402,
      "step": 64032
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6201682686805725,
      "learning_rate": 0.00011603217949529424,
      "loss": 1.5361,
      "step": 64033
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5976905822753906,
      "learning_rate": 0.00011602392340220359,
      "loss": 1.5254,
      "step": 64034
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6191298961639404,
      "learning_rate": 0.00011601566753243277,
      "loss": 1.5454,
      "step": 64035
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6081435084342957,
      "learning_rate": 0.00011600741188599173,
      "loss": 1.5321,
      "step": 64036
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6161736845970154,
      "learning_rate": 0.00011599915646289058,
      "loss": 1.5772,
      "step": 64037
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6037790179252625,
      "learning_rate": 0.00011599090126313955,
      "loss": 1.5946,
      "step": 64038
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6416707634925842,
      "learning_rate": 0.00011598264628674827,
      "loss": 1.5591,
      "step": 64039
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5872392058372498,
      "learning_rate": 0.0001159743915337269,
      "loss": 1.5645,
      "step": 64040
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5854490995407104,
      "learning_rate": 0.00011596613700408566,
      "loss": 1.5428,
      "step": 64041
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6013064980506897,
      "learning_rate": 0.00011595788269783438,
      "loss": 1.5239,
      "step": 64042
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6142981052398682,
      "learning_rate": 0.00011594962861498301,
      "loss": 1.5594,
      "step": 64043
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5987914204597473,
      "learning_rate": 0.00011594137475554168,
      "loss": 1.5052,
      "step": 64044
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6112037301063538,
      "learning_rate": 0.00011593312111952061,
      "loss": 1.5453,
      "step": 64045
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6108655333518982,
      "learning_rate": 0.00011592486770692938,
      "loss": 1.5555,
      "step": 64046
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6242782473564148,
      "learning_rate": 0.00011591661451777825,
      "loss": 1.565,
      "step": 64047
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6202995777130127,
      "learning_rate": 0.00011590836155207734,
      "loss": 1.4666,
      "step": 64048
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5992372035980225,
      "learning_rate": 0.00011590010880983656,
      "loss": 1.6185,
      "step": 64049
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.601775586605072,
      "learning_rate": 0.00011589185629106581,
      "loss": 1.4579,
      "step": 64050
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6150543093681335,
      "learning_rate": 0.00011588360399577533,
      "loss": 1.5196,
      "step": 64051
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6028111577033997,
      "learning_rate": 0.00011587535192397501,
      "loss": 1.4994,
      "step": 64052
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6066423654556274,
      "learning_rate": 0.00011586710007567478,
      "loss": 1.5305,
      "step": 64053
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6178061366081238,
      "learning_rate": 0.00011585884845088479,
      "loss": 1.555,
      "step": 64054
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6151241064071655,
      "learning_rate": 0.00011585059704961511,
      "loss": 1.6241,
      "step": 64055
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5835719108581543,
      "learning_rate": 0.00011584234587187568,
      "loss": 1.5891,
      "step": 64056
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6117256879806519,
      "learning_rate": 0.00011583409491767637,
      "loss": 1.4605,
      "step": 64057
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5964865684509277,
      "learning_rate": 0.00011582584418702748,
      "loss": 1.5957,
      "step": 64058
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6085371375083923,
      "learning_rate": 0.00011581759367993885,
      "loss": 1.5424,
      "step": 64059
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6714162826538086,
      "learning_rate": 0.00011580934339642042,
      "loss": 1.6114,
      "step": 64060
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.618608832359314,
      "learning_rate": 0.00011580109333648245,
      "loss": 1.6024,
      "step": 64061
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6126829981803894,
      "learning_rate": 0.00011579284350013464,
      "loss": 1.5911,
      "step": 64062
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5890198945999146,
      "learning_rate": 0.00011578459388738732,
      "loss": 1.5835,
      "step": 64063
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5990752577781677,
      "learning_rate": 0.00011577634449825026,
      "loss": 1.536,
      "step": 64064
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6366997957229614,
      "learning_rate": 0.00011576809533273368,
      "loss": 1.4951,
      "step": 64065
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6067357659339905,
      "learning_rate": 0.0001157598463908475,
      "loss": 1.5719,
      "step": 64066
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.599860429763794,
      "learning_rate": 0.00011575159767260158,
      "loss": 1.5356,
      "step": 64067
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5947728753089905,
      "learning_rate": 0.00011574334917800619,
      "loss": 1.5572,
      "step": 64068
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6246522665023804,
      "learning_rate": 0.00011573510090707113,
      "loss": 1.5407,
      "step": 64069
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5813435316085815,
      "learning_rate": 0.00011572685285980662,
      "loss": 1.5403,
      "step": 64070
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5801107287406921,
      "learning_rate": 0.00011571860503622254,
      "loss": 1.4891,
      "step": 64071
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.788741409778595,
      "learning_rate": 0.0001157103574363288,
      "loss": 1.5451,
      "step": 64072
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5926617383956909,
      "learning_rate": 0.00011570211006013569,
      "loss": 1.5334,
      "step": 64073
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6004653573036194,
      "learning_rate": 0.00011569386290765293,
      "loss": 1.5221,
      "step": 64074
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6199588179588318,
      "learning_rate": 0.00011568561597889074,
      "loss": 1.5463,
      "step": 64075
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6231151223182678,
      "learning_rate": 0.00011567736927385898,
      "loss": 1.5647,
      "step": 64076
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6082991361618042,
      "learning_rate": 0.00011566912279256784,
      "loss": 1.5721,
      "step": 64077
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5908949971199036,
      "learning_rate": 0.0001156608765350272,
      "loss": 1.5237,
      "step": 64078
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6040397882461548,
      "learning_rate": 0.00011565263050124703,
      "loss": 1.5256,
      "step": 64079
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6111897826194763,
      "learning_rate": 0.0001156443846912375,
      "loss": 1.4909,
      "step": 64080
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5860453844070435,
      "learning_rate": 0.0001156361391050084,
      "loss": 1.4629,
      "step": 64081
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6100203990936279,
      "learning_rate": 0.00011562789374256998,
      "loss": 1.537,
      "step": 64082
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.604918360710144,
      "learning_rate": 0.000115619648603932,
      "loss": 1.5496,
      "step": 64083
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6117070913314819,
      "learning_rate": 0.00011561140368910473,
      "loss": 1.5627,
      "step": 64084
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6001237034797668,
      "learning_rate": 0.00011560315899809805,
      "loss": 1.5127,
      "step": 64085
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.61006760597229,
      "learning_rate": 0.00011559491453092186,
      "loss": 1.5622,
      "step": 64086
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6320852041244507,
      "learning_rate": 0.00011558667028758635,
      "loss": 1.5815,
      "step": 64087
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5955606698989868,
      "learning_rate": 0.00011557842626810149,
      "loss": 1.537,
      "step": 64088
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.588230550289154,
      "learning_rate": 0.00011557018247247714,
      "loss": 1.544,
      "step": 64089
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5979155898094177,
      "learning_rate": 0.00011556193890072339,
      "loss": 1.5806,
      "step": 64090
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6215898990631104,
      "learning_rate": 0.00011555369555285039,
      "loss": 1.5438,
      "step": 64091
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6135005950927734,
      "learning_rate": 0.00011554545242886803,
      "loss": 1.4889,
      "step": 64092
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6057880520820618,
      "learning_rate": 0.0001155372095287862,
      "loss": 1.5805,
      "step": 64093
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6156133413314819,
      "learning_rate": 0.00011552896685261511,
      "loss": 1.4643,
      "step": 64094
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5861364603042603,
      "learning_rate": 0.00011552072440036468,
      "loss": 1.4967,
      "step": 64095
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5990631580352783,
      "learning_rate": 0.00011551248217204479,
      "loss": 1.6245,
      "step": 64096
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5987926721572876,
      "learning_rate": 0.0001155042401676656,
      "loss": 1.5209,
      "step": 64097
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6188466548919678,
      "learning_rate": 0.00011549599838723728,
      "loss": 1.5213,
      "step": 64098
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6126880645751953,
      "learning_rate": 0.0001154877568307694,
      "loss": 1.5004,
      "step": 64099
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5882881879806519,
      "learning_rate": 0.00011547951549827223,
      "loss": 1.5519,
      "step": 64100
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6089573502540588,
      "learning_rate": 0.00011547127438975582,
      "loss": 1.5032,
      "step": 64101
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6034545302391052,
      "learning_rate": 0.0001154630335052301,
      "loss": 1.5082,
      "step": 64102
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5889989733695984,
      "learning_rate": 0.00011545479284470495,
      "loss": 1.4519,
      "step": 64103
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5752193927764893,
      "learning_rate": 0.0001154465524081905,
      "loss": 1.5155,
      "step": 64104
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6175146698951721,
      "learning_rate": 0.00011543831219569695,
      "loss": 1.5398,
      "step": 64105
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6149870157241821,
      "learning_rate": 0.0001154300722072339,
      "loss": 1.5136,
      "step": 64106
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6110323071479797,
      "learning_rate": 0.00011542183244281152,
      "loss": 1.5668,
      "step": 64107
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5924801826477051,
      "learning_rate": 0.00011541359290243997,
      "loss": 1.4763,
      "step": 64108
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6302357912063599,
      "learning_rate": 0.00011540535358612911,
      "loss": 1.532,
      "step": 64109
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5862210392951965,
      "learning_rate": 0.00011539711449388885,
      "loss": 1.512,
      "step": 64110
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6480799913406372,
      "learning_rate": 0.00011538887562572931,
      "loss": 1.5791,
      "step": 64111
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6183328032493591,
      "learning_rate": 0.00011538063698166065,
      "loss": 1.5871,
      "step": 64112
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6267286539077759,
      "learning_rate": 0.0001153723985616925,
      "loss": 1.5101,
      "step": 64113
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6178098320960999,
      "learning_rate": 0.00011536416036583507,
      "loss": 1.4911,
      "step": 64114
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.636967658996582,
      "learning_rate": 0.00011535592239409845,
      "loss": 1.5186,
      "step": 64115
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6060685515403748,
      "learning_rate": 0.00011534768464649249,
      "loss": 1.5012,
      "step": 64116
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5976762771606445,
      "learning_rate": 0.00011533944712302718,
      "loss": 1.4735,
      "step": 64117
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5848745107650757,
      "learning_rate": 0.00011533120982371263,
      "loss": 1.4836,
      "step": 64118
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5952443480491638,
      "learning_rate": 0.00011532297274855883,
      "loss": 1.5078,
      "step": 64119
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.608100950717926,
      "learning_rate": 0.00011531473589757558,
      "loss": 1.5665,
      "step": 64120
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5887187123298645,
      "learning_rate": 0.00011530649927077305,
      "loss": 1.5372,
      "step": 64121
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6005198359489441,
      "learning_rate": 0.00011529826286816134,
      "loss": 1.5588,
      "step": 64122
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6060218811035156,
      "learning_rate": 0.00011529002668975029,
      "loss": 1.5388,
      "step": 64123
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.592158854007721,
      "learning_rate": 0.00011528179073554983,
      "loss": 1.559,
      "step": 64124
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5942777991294861,
      "learning_rate": 0.00011527355500557021,
      "loss": 1.5476,
      "step": 64125
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.616934597492218,
      "learning_rate": 0.00011526531949982112,
      "loss": 1.609,
      "step": 64126
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6415589451789856,
      "learning_rate": 0.00011525708421831282,
      "loss": 1.5775,
      "step": 64127
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5880910754203796,
      "learning_rate": 0.00011524884916105525,
      "loss": 1.6159,
      "step": 64128
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6095308661460876,
      "learning_rate": 0.00011524061432805818,
      "loss": 1.5729,
      "step": 64129
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6306054592132568,
      "learning_rate": 0.00011523237971933194,
      "loss": 1.5244,
      "step": 64130
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6349136829376221,
      "learning_rate": 0.00011522414533488624,
      "loss": 1.5079,
      "step": 64131
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5933976173400879,
      "learning_rate": 0.00011521591117473133,
      "loss": 1.4865,
      "step": 64132
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6095786690711975,
      "learning_rate": 0.00011520767723887691,
      "loss": 1.5573,
      "step": 64133
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5896745920181274,
      "learning_rate": 0.00011519944352733332,
      "loss": 1.5573,
      "step": 64134
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6159836053848267,
      "learning_rate": 0.00011519121004011033,
      "loss": 1.5339,
      "step": 64135
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6077123880386353,
      "learning_rate": 0.00011518297677721789,
      "loss": 1.496,
      "step": 64136
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5920372605323792,
      "learning_rate": 0.00011517474373866621,
      "loss": 1.5206,
      "step": 64137
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5982628464698792,
      "learning_rate": 0.00011516651092446515,
      "loss": 1.4637,
      "step": 64138
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6276615858078003,
      "learning_rate": 0.00011515827833462457,
      "loss": 1.5328,
      "step": 64139
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5956812500953674,
      "learning_rate": 0.00011515004596915465,
      "loss": 1.5409,
      "step": 64140
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.603796660900116,
      "learning_rate": 0.0001151418138280654,
      "loss": 1.5027,
      "step": 64141
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.8173841834068298,
      "learning_rate": 0.00011513358191136677,
      "loss": 1.5663,
      "step": 64142
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5978981256484985,
      "learning_rate": 0.00011512535021906865,
      "loss": 1.5261,
      "step": 64143
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6079955101013184,
      "learning_rate": 0.0001151171187511812,
      "loss": 1.5131,
      "step": 64144
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6113448739051819,
      "learning_rate": 0.00011510888750771434,
      "loss": 1.6004,
      "step": 64145
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5867772102355957,
      "learning_rate": 0.00011510065648867792,
      "loss": 1.5382,
      "step": 64146
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5928423404693604,
      "learning_rate": 0.00011509242569408206,
      "loss": 1.5033,
      "step": 64147
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5970470905303955,
      "learning_rate": 0.00011508419512393697,
      "loss": 1.5782,
      "step": 64148
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6313291192054749,
      "learning_rate": 0.00011507596477825223,
      "loss": 1.553,
      "step": 64149
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5861802101135254,
      "learning_rate": 0.00011506773465703799,
      "loss": 1.5424,
      "step": 64150
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5921047329902649,
      "learning_rate": 0.00011505950476030439,
      "loss": 1.5234,
      "step": 64151
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5907528400421143,
      "learning_rate": 0.00011505127508806132,
      "loss": 1.5578,
      "step": 64152
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6169124245643616,
      "learning_rate": 0.00011504304564031862,
      "loss": 1.561,
      "step": 64153
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6286253929138184,
      "learning_rate": 0.00011503481641708641,
      "loss": 1.5196,
      "step": 64154
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6299030184745789,
      "learning_rate": 0.0001150265874183749,
      "loss": 1.5865,
      "step": 64155
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6160575151443481,
      "learning_rate": 0.00011501835864419364,
      "loss": 1.4491,
      "step": 64156
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6208111643791199,
      "learning_rate": 0.00011501013009455285,
      "loss": 1.5916,
      "step": 64157
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6006484031677246,
      "learning_rate": 0.00011500190176946263,
      "loss": 1.5388,
      "step": 64158
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.600286066532135,
      "learning_rate": 0.0001149936736689328,
      "loss": 1.5798,
      "step": 64159
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.601326584815979,
      "learning_rate": 0.00011498544579297332,
      "loss": 1.543,
      "step": 64160
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.630146861076355,
      "learning_rate": 0.00011497721814159422,
      "loss": 1.4888,
      "step": 64161
    },
    {
      "epoch": 2.13,
      "grad_norm": 1.278093695640564,
      "learning_rate": 0.00011496899071480573,
      "loss": 1.6177,
      "step": 64162
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6145854592323303,
      "learning_rate": 0.00011496076351261741,
      "loss": 1.5129,
      "step": 64163
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6202100515365601,
      "learning_rate": 0.00011495253653503947,
      "loss": 1.4989,
      "step": 64164
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6168511509895325,
      "learning_rate": 0.000114944309782082,
      "loss": 1.54,
      "step": 64165
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5994383692741394,
      "learning_rate": 0.00011493608325375485,
      "loss": 1.5431,
      "step": 64166
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.5808061361312866,
      "learning_rate": 0.00011492785695006795,
      "loss": 1.509,
      "step": 64167
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6095200181007385,
      "learning_rate": 0.00011491963087103143,
      "loss": 1.5356,
      "step": 64168
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.63778156042099,
      "learning_rate": 0.00011491140501665521,
      "loss": 1.5442,
      "step": 64169
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6265097260475159,
      "learning_rate": 0.0001149031793869492,
      "loss": 1.6008,
      "step": 64170
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.6056718826293945,
      "learning_rate": 0.00011489495398192345,
      "loss": 1.5472,
      "step": 64171
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5972244143486023,
      "learning_rate": 0.00011488672880158805,
      "loss": 1.4601,
      "step": 64172
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5943466424942017,
      "learning_rate": 0.00011487850384595287,
      "loss": 1.5474,
      "step": 64173
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5785722732543945,
      "learning_rate": 0.00011487027911502782,
      "loss": 1.5074,
      "step": 64174
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6163321733474731,
      "learning_rate": 0.00011486205460882308,
      "loss": 1.5319,
      "step": 64175
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5640237927436829,
      "learning_rate": 0.00011485383032734852,
      "loss": 1.5507,
      "step": 64176
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6105308532714844,
      "learning_rate": 0.00011484560627061404,
      "loss": 1.5743,
      "step": 64177
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6078993082046509,
      "learning_rate": 0.00011483738243862981,
      "loss": 1.6317,
      "step": 64178
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6213101148605347,
      "learning_rate": 0.00011482915883140558,
      "loss": 1.5083,
      "step": 64179
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5905359387397766,
      "learning_rate": 0.00011482093544895163,
      "loss": 1.5292,
      "step": 64180
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5905625224113464,
      "learning_rate": 0.00011481271229127765,
      "loss": 1.5806,
      "step": 64181
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6182952523231506,
      "learning_rate": 0.00011480448935839383,
      "loss": 1.5991,
      "step": 64182
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5951852202415466,
      "learning_rate": 0.00011479626665031011,
      "loss": 1.5672,
      "step": 64183
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6079795956611633,
      "learning_rate": 0.00011478804416703628,
      "loss": 1.5497,
      "step": 64184
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5833925008773804,
      "learning_rate": 0.00011477982190858262,
      "loss": 1.5698,
      "step": 64185
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6327904462814331,
      "learning_rate": 0.00011477159987495886,
      "loss": 1.5293,
      "step": 64186
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5945420861244202,
      "learning_rate": 0.0001147633780661752,
      "loss": 1.566,
      "step": 64187
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6338841319084167,
      "learning_rate": 0.00011475515648224147,
      "loss": 1.508,
      "step": 64188
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5850436091423035,
      "learning_rate": 0.00011474693512316761,
      "loss": 1.4516,
      "step": 64189
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6131592392921448,
      "learning_rate": 0.00011473871398896378,
      "loss": 1.6191,
      "step": 64190
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.620817244052887,
      "learning_rate": 0.00011473049307963973,
      "loss": 1.5894,
      "step": 64191
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6321890354156494,
      "learning_rate": 0.00011472227239520568,
      "loss": 1.4733,
      "step": 64192
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5814518332481384,
      "learning_rate": 0.00011471405193567137,
      "loss": 1.6132,
      "step": 64193
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5939701199531555,
      "learning_rate": 0.00011470583170104702,
      "loss": 1.4783,
      "step": 64194
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6074554920196533,
      "learning_rate": 0.0001146976116913425,
      "loss": 1.5271,
      "step": 64195
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5984765887260437,
      "learning_rate": 0.00011468939190656764,
      "loss": 1.5447,
      "step": 64196
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5978454351425171,
      "learning_rate": 0.00011468117234673268,
      "loss": 1.569,
      "step": 64197
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5974936485290527,
      "learning_rate": 0.00011467295301184747,
      "loss": 1.5937,
      "step": 64198
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.630423903465271,
      "learning_rate": 0.00011466473390192189,
      "loss": 1.547,
      "step": 64199
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.614901065826416,
      "learning_rate": 0.000114656515016966,
      "loss": 1.599,
      "step": 64200
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6294335126876831,
      "learning_rate": 0.00011464829635698992,
      "loss": 1.478,
      "step": 64201
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6064550280570984,
      "learning_rate": 0.00011464007792200347,
      "loss": 1.5344,
      "step": 64202
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6032078862190247,
      "learning_rate": 0.00011463185971201658,
      "loss": 1.6759,
      "step": 64203
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5937506556510925,
      "learning_rate": 0.00011462364172703938,
      "loss": 1.5374,
      "step": 64204
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5992100834846497,
      "learning_rate": 0.00011461542396708176,
      "loss": 1.5593,
      "step": 64205
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6156742572784424,
      "learning_rate": 0.0001146072064321536,
      "loss": 1.4806,
      "step": 64206
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6082558631896973,
      "learning_rate": 0.000114598989122265,
      "loss": 1.5266,
      "step": 64207
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6253881454467773,
      "learning_rate": 0.00011459077203742599,
      "loss": 1.4825,
      "step": 64208
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.60369873046875,
      "learning_rate": 0.00011458255517764646,
      "loss": 1.5474,
      "step": 64209
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6145480275154114,
      "learning_rate": 0.00011457433854293631,
      "loss": 1.5912,
      "step": 64210
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5943183898925781,
      "learning_rate": 0.00011456612213330567,
      "loss": 1.5611,
      "step": 64211
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6178315281867981,
      "learning_rate": 0.00011455790594876445,
      "loss": 1.5717,
      "step": 64212
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.600563645362854,
      "learning_rate": 0.0001145496899893225,
      "loss": 1.4962,
      "step": 64213
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6128632426261902,
      "learning_rate": 0.00011454147425498988,
      "loss": 1.5314,
      "step": 64214
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6176491379737854,
      "learning_rate": 0.00011453325874577682,
      "loss": 1.5136,
      "step": 64215
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6237423419952393,
      "learning_rate": 0.00011452504346169284,
      "loss": 1.487,
      "step": 64216
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5810431241989136,
      "learning_rate": 0.00011451682840274814,
      "loss": 1.4867,
      "step": 64217
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5971912741661072,
      "learning_rate": 0.00011450861356895276,
      "loss": 1.4725,
      "step": 64218
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6022929549217224,
      "learning_rate": 0.00011450039896031662,
      "loss": 1.4652,
      "step": 64219
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5858431458473206,
      "learning_rate": 0.00011449218457684956,
      "loss": 1.5589,
      "step": 64220
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6022212505340576,
      "learning_rate": 0.00011448397041856164,
      "loss": 1.4838,
      "step": 64221
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5950273871421814,
      "learning_rate": 0.00011447575648546305,
      "loss": 1.6088,
      "step": 64222
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6062514185905457,
      "learning_rate": 0.00011446754277756335,
      "loss": 1.5448,
      "step": 64223
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.605350136756897,
      "learning_rate": 0.0001144593292948727,
      "loss": 1.5521,
      "step": 64224
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5726550817489624,
      "learning_rate": 0.00011445111603740124,
      "loss": 1.5226,
      "step": 64225
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6185269951820374,
      "learning_rate": 0.00011444290300515874,
      "loss": 1.4937,
      "step": 64226
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6230409741401672,
      "learning_rate": 0.00011443469019815513,
      "loss": 1.5402,
      "step": 64227
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6094744801521301,
      "learning_rate": 0.00011442647761640044,
      "loss": 1.5463,
      "step": 64228
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6031530499458313,
      "learning_rate": 0.0001144182652599049,
      "loss": 1.6108,
      "step": 64229
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6143065690994263,
      "learning_rate": 0.00011441005312867804,
      "loss": 1.5051,
      "step": 64230
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6176996231079102,
      "learning_rate": 0.00011440184122272999,
      "loss": 1.5409,
      "step": 64231
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6069501042366028,
      "learning_rate": 0.00011439362954207091,
      "loss": 1.5198,
      "step": 64232
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6144952774047852,
      "learning_rate": 0.00011438541808671061,
      "loss": 1.6114,
      "step": 64233
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6105630993843079,
      "learning_rate": 0.00011437720685665894,
      "loss": 1.5634,
      "step": 64234
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5981921553611755,
      "learning_rate": 0.0001143689958519261,
      "loss": 1.4777,
      "step": 64235
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6377097368240356,
      "learning_rate": 0.00011436078507252191,
      "loss": 1.6098,
      "step": 64236
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6034660935401917,
      "learning_rate": 0.0001143525745184563,
      "loss": 1.5207,
      "step": 64237
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5964173674583435,
      "learning_rate": 0.00011434436418973935,
      "loss": 1.5345,
      "step": 64238
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6327145099639893,
      "learning_rate": 0.00011433615408638105,
      "loss": 1.6024,
      "step": 64239
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6106175184249878,
      "learning_rate": 0.00011432794420839132,
      "loss": 1.5557,
      "step": 64240
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6228204965591431,
      "learning_rate": 0.00011431973455577999,
      "loss": 1.5621,
      "step": 64241
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5964233875274658,
      "learning_rate": 0.00011431152512855724,
      "loss": 1.4871,
      "step": 64242
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5953918099403381,
      "learning_rate": 0.00011430331592673285,
      "loss": 1.5601,
      "step": 64243
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6251379251480103,
      "learning_rate": 0.00011429510695031696,
      "loss": 1.5663,
      "step": 64244
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5988330841064453,
      "learning_rate": 0.00011428689819931946,
      "loss": 1.5694,
      "step": 64245
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5947362780570984,
      "learning_rate": 0.00011427868967375019,
      "loss": 1.5216,
      "step": 64246
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6150787472724915,
      "learning_rate": 0.00011427048137361937,
      "loss": 1.5161,
      "step": 64247
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6082608103752136,
      "learning_rate": 0.00011426227329893666,
      "loss": 1.5742,
      "step": 64248
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.597906768321991,
      "learning_rate": 0.00011425406544971231,
      "loss": 1.5052,
      "step": 64249
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6131743788719177,
      "learning_rate": 0.00011424585782595606,
      "loss": 1.4838,
      "step": 64250
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5943781137466431,
      "learning_rate": 0.00011423765042767806,
      "loss": 1.5241,
      "step": 64251
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5964125394821167,
      "learning_rate": 0.00011422944325488819,
      "loss": 1.5748,
      "step": 64252
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6005703210830688,
      "learning_rate": 0.0001142212363075963,
      "loss": 1.5231,
      "step": 64253
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.607346773147583,
      "learning_rate": 0.00011421302958581256,
      "loss": 1.5138,
      "step": 64254
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6127245426177979,
      "learning_rate": 0.00011420482308954682,
      "loss": 1.5227,
      "step": 64255
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6313858032226562,
      "learning_rate": 0.00011419661681880898,
      "loss": 1.5268,
      "step": 64256
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.613316535949707,
      "learning_rate": 0.00011418841077360901,
      "loss": 1.5821,
      "step": 64257
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6222078204154968,
      "learning_rate": 0.00011418020495395708,
      "loss": 1.6039,
      "step": 64258
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.605384349822998,
      "learning_rate": 0.00011417199935986297,
      "loss": 1.5514,
      "step": 64259
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5792741179466248,
      "learning_rate": 0.00011416379399133661,
      "loss": 1.4704,
      "step": 64260
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6280797123908997,
      "learning_rate": 0.0001141555888483881,
      "loss": 1.6144,
      "step": 64261
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6351876854896545,
      "learning_rate": 0.00011414738393102733,
      "loss": 1.4825,
      "step": 64262
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6518166065216064,
      "learning_rate": 0.00011413917923926414,
      "loss": 1.5813,
      "step": 64263
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6108352541923523,
      "learning_rate": 0.0001141309747731086,
      "loss": 1.5377,
      "step": 64264
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5994943976402283,
      "learning_rate": 0.00011412277053257087,
      "loss": 1.5285,
      "step": 64265
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6027166247367859,
      "learning_rate": 0.00011411456651766053,
      "loss": 1.5497,
      "step": 64266
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6059384942054749,
      "learning_rate": 0.00011410636272838771,
      "loss": 1.5626,
      "step": 64267
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.614936888217926,
      "learning_rate": 0.00011409815916476247,
      "loss": 1.5946,
      "step": 64268
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5987444519996643,
      "learning_rate": 0.00011408995582679465,
      "loss": 1.6028,
      "step": 64269
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5978798270225525,
      "learning_rate": 0.00011408175271449416,
      "loss": 1.5624,
      "step": 64270
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.595323383808136,
      "learning_rate": 0.00011407354982787103,
      "loss": 1.542,
      "step": 64271
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5973522663116455,
      "learning_rate": 0.00011406534716693542,
      "loss": 1.4958,
      "step": 64272
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6277207732200623,
      "learning_rate": 0.00011405714473169686,
      "loss": 1.5619,
      "step": 64273
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6159761548042297,
      "learning_rate": 0.00011404894252216552,
      "loss": 1.5153,
      "step": 64274
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5987384915351868,
      "learning_rate": 0.00011404074053835149,
      "loss": 1.5732,
      "step": 64275
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5935705900192261,
      "learning_rate": 0.0001140325387802646,
      "loss": 1.5681,
      "step": 64276
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6233727931976318,
      "learning_rate": 0.00011402433724791471,
      "loss": 1.5662,
      "step": 64277
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6007418036460876,
      "learning_rate": 0.00011401613594131184,
      "loss": 1.5463,
      "step": 64278
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5923282504081726,
      "learning_rate": 0.00011400793486046622,
      "loss": 1.5563,
      "step": 64279
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5849974155426025,
      "learning_rate": 0.00011399973400538736,
      "loss": 1.5311,
      "step": 64280
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5844258069992065,
      "learning_rate": 0.00011399153337608536,
      "loss": 1.5302,
      "step": 64281
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6238142848014832,
      "learning_rate": 0.0001139833329725704,
      "loss": 1.5801,
      "step": 64282
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5988840460777283,
      "learning_rate": 0.00011397513279485224,
      "loss": 1.5038,
      "step": 64283
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5958630442619324,
      "learning_rate": 0.00011396693284294076,
      "loss": 1.4686,
      "step": 64284
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5862478613853455,
      "learning_rate": 0.00011395873311684612,
      "loss": 1.532,
      "step": 64285
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6033807992935181,
      "learning_rate": 0.00011395053361657815,
      "loss": 1.5698,
      "step": 64286
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6073494553565979,
      "learning_rate": 0.00011394233434214672,
      "loss": 1.5917,
      "step": 64287
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6350772976875305,
      "learning_rate": 0.00011393413529356187,
      "loss": 1.5956,
      "step": 64288
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.577414333820343,
      "learning_rate": 0.00011392593647083368,
      "loss": 1.5824,
      "step": 64289
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6028562784194946,
      "learning_rate": 0.000113917737873972,
      "loss": 1.4933,
      "step": 64290
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5896264314651489,
      "learning_rate": 0.00011390953950298665,
      "loss": 1.5416,
      "step": 64291
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5812482833862305,
      "learning_rate": 0.0001139013413578878,
      "loss": 1.5136,
      "step": 64292
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5884555578231812,
      "learning_rate": 0.00011389314343868532,
      "loss": 1.579,
      "step": 64293
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6214428544044495,
      "learning_rate": 0.00011388494574538904,
      "loss": 1.5214,
      "step": 64294
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6023439168930054,
      "learning_rate": 0.0001138767482780091,
      "loss": 1.4797,
      "step": 64295
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6086938381195068,
      "learning_rate": 0.00011386855103655524,
      "loss": 1.5155,
      "step": 64296
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6136728525161743,
      "learning_rate": 0.00011386035402103766,
      "loss": 1.552,
      "step": 64297
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5991637706756592,
      "learning_rate": 0.0001138521572314661,
      "loss": 1.6174,
      "step": 64298
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5989794135093689,
      "learning_rate": 0.00011384396066785066,
      "loss": 1.4697,
      "step": 64299
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5791427493095398,
      "learning_rate": 0.00011383576433020127,
      "loss": 1.4799,
      "step": 64300
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5801066160202026,
      "learning_rate": 0.00011382756821852768,
      "loss": 1.4996,
      "step": 64301
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6083492636680603,
      "learning_rate": 0.00011381937233284013,
      "loss": 1.5518,
      "step": 64302
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.642000138759613,
      "learning_rate": 0.00011381117667314829,
      "loss": 1.55,
      "step": 64303
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5973158478736877,
      "learning_rate": 0.00011380298123946237,
      "loss": 1.5652,
      "step": 64304
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6173173785209656,
      "learning_rate": 0.00011379478603179223,
      "loss": 1.5339,
      "step": 64305
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.593399703502655,
      "learning_rate": 0.00011378659105014765,
      "loss": 1.4956,
      "step": 64306
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5908857583999634,
      "learning_rate": 0.00011377839629453879,
      "loss": 1.5032,
      "step": 64307
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6052656173706055,
      "learning_rate": 0.00011377020176497544,
      "loss": 1.5639,
      "step": 64308
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.608110785484314,
      "learning_rate": 0.00011376200746146774,
      "loss": 1.532,
      "step": 64309
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.606594443321228,
      "learning_rate": 0.00011375381338402541,
      "loss": 1.5588,
      "step": 64310
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6129187345504761,
      "learning_rate": 0.00011374561953265859,
      "loss": 1.5966,
      "step": 64311
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6276783347129822,
      "learning_rate": 0.00011373742590737717,
      "loss": 1.5447,
      "step": 64312
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5948948860168457,
      "learning_rate": 0.00011372923250819095,
      "loss": 1.5248,
      "step": 64313
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6026955842971802,
      "learning_rate": 0.0001137210393351101,
      "loss": 1.5733,
      "step": 64314
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5772290825843811,
      "learning_rate": 0.00011371284638814448,
      "loss": 1.4754,
      "step": 64315
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6046080589294434,
      "learning_rate": 0.0001137046536673039,
      "loss": 1.5494,
      "step": 64316
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6155969500541687,
      "learning_rate": 0.00011369646117259844,
      "loss": 1.5408,
      "step": 64317
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5939546227455139,
      "learning_rate": 0.00011368826890403812,
      "loss": 1.569,
      "step": 64318
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6013005375862122,
      "learning_rate": 0.00011368007686163275,
      "loss": 1.4706,
      "step": 64319
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6172676682472229,
      "learning_rate": 0.00011367188504539224,
      "loss": 1.4936,
      "step": 64320
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6089839935302734,
      "learning_rate": 0.00011366369345532674,
      "loss": 1.5382,
      "step": 64321
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5946351289749146,
      "learning_rate": 0.00011365550209144601,
      "loss": 1.568,
      "step": 64322
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5963864326477051,
      "learning_rate": 0.00011364731095375998,
      "loss": 1.5185,
      "step": 64323
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6074855327606201,
      "learning_rate": 0.00011363912004227864,
      "loss": 1.5454,
      "step": 64324
    },
    {
      "epoch": 2.14,
      "grad_norm": 1.2084014415740967,
      "learning_rate": 0.00011363092935701205,
      "loss": 1.5478,
      "step": 64325
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6004537343978882,
      "learning_rate": 0.00011362273889797006,
      "loss": 1.6225,
      "step": 64326
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6142253875732422,
      "learning_rate": 0.0001136145486651625,
      "loss": 1.5151,
      "step": 64327
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5967603921890259,
      "learning_rate": 0.00011360635865859953,
      "loss": 1.5107,
      "step": 64328
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5958000421524048,
      "learning_rate": 0.00011359816887829094,
      "loss": 1.5155,
      "step": 64329
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5959352850914001,
      "learning_rate": 0.00011358997932424663,
      "loss": 1.5207,
      "step": 64330
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6134700179100037,
      "learning_rate": 0.00011358178999647661,
      "loss": 1.5217,
      "step": 64331
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5971646904945374,
      "learning_rate": 0.00011357360089499105,
      "loss": 1.5595,
      "step": 64332
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6246243119239807,
      "learning_rate": 0.00011356541201979945,
      "loss": 1.5556,
      "step": 64333
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5807390213012695,
      "learning_rate": 0.00011355722337091199,
      "loss": 1.5337,
      "step": 64334
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6100609302520752,
      "learning_rate": 0.00011354903494833866,
      "loss": 1.4786,
      "step": 64335
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.603318989276886,
      "learning_rate": 0.00011354084675208936,
      "loss": 1.5834,
      "step": 64336
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5954357385635376,
      "learning_rate": 0.00011353265878217387,
      "loss": 1.4858,
      "step": 64337
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5953981876373291,
      "learning_rate": 0.00011352447103860225,
      "loss": 1.4125,
      "step": 64338
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5776236653327942,
      "learning_rate": 0.00011351628352138469,
      "loss": 1.5326,
      "step": 64339
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5850470066070557,
      "learning_rate": 0.00011350809623053068,
      "loss": 1.5421,
      "step": 64340
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.620473325252533,
      "learning_rate": 0.00011349990916605031,
      "loss": 1.5379,
      "step": 64341
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.586894690990448,
      "learning_rate": 0.00011349172232795373,
      "loss": 1.5816,
      "step": 64342
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5785592198371887,
      "learning_rate": 0.0001134835357162507,
      "loss": 1.5148,
      "step": 64343
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6108230352401733,
      "learning_rate": 0.00011347534933095105,
      "loss": 1.4965,
      "step": 64344
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6112344264984131,
      "learning_rate": 0.00011346716317206489,
      "loss": 1.5014,
      "step": 64345
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5878362059593201,
      "learning_rate": 0.00011345897723960228,
      "loss": 1.5416,
      "step": 64346
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5962238907814026,
      "learning_rate": 0.00011345079153357277,
      "loss": 1.4878,
      "step": 64347
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6146124601364136,
      "learning_rate": 0.00011344260605398653,
      "loss": 1.6023,
      "step": 64348
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.617499053478241,
      "learning_rate": 0.00011343442080085358,
      "loss": 1.5835,
      "step": 64349
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6258725523948669,
      "learning_rate": 0.00011342623577418377,
      "loss": 1.5566,
      "step": 64350
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6095437407493591,
      "learning_rate": 0.0001134180509739869,
      "loss": 1.5247,
      "step": 64351
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6088432669639587,
      "learning_rate": 0.00011340986640027314,
      "loss": 1.4972,
      "step": 64352
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.602702796459198,
      "learning_rate": 0.0001134016820530523,
      "loss": 1.4892,
      "step": 64353
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5980675220489502,
      "learning_rate": 0.00011339349793233422,
      "loss": 1.5696,
      "step": 64354
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6198017597198486,
      "learning_rate": 0.00011338531403812893,
      "loss": 1.5282,
      "step": 64355
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6267222762107849,
      "learning_rate": 0.00011337713037044648,
      "loss": 1.5839,
      "step": 64356
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6009438633918762,
      "learning_rate": 0.00011336894692929668,
      "loss": 1.4932,
      "step": 64357
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5874846577644348,
      "learning_rate": 0.00011336076371468942,
      "loss": 1.5648,
      "step": 64358
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6084978580474854,
      "learning_rate": 0.00011335258072663476,
      "loss": 1.5671,
      "step": 64359
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5830346941947937,
      "learning_rate": 0.00011334439796514247,
      "loss": 1.5729,
      "step": 64360
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6238816976547241,
      "learning_rate": 0.00011333621543022269,
      "loss": 1.5625,
      "step": 64361
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5964915752410889,
      "learning_rate": 0.00011332803312188525,
      "loss": 1.5549,
      "step": 64362
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6118748188018799,
      "learning_rate": 0.00011331985104013995,
      "loss": 1.5292,
      "step": 64363
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6230363249778748,
      "learning_rate": 0.00011331166918499695,
      "loss": 1.62,
      "step": 64364
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5849173665046692,
      "learning_rate": 0.000113303487556466,
      "loss": 1.4573,
      "step": 64365
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6256396174430847,
      "learning_rate": 0.00011329530615455717,
      "loss": 1.487,
      "step": 64366
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5985037088394165,
      "learning_rate": 0.00011328712497928024,
      "loss": 1.5058,
      "step": 64367
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6046897768974304,
      "learning_rate": 0.00011327894403064534,
      "loss": 1.5551,
      "step": 64368
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.618588924407959,
      "learning_rate": 0.00011327076330866228,
      "loss": 1.5294,
      "step": 64369
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.631156861782074,
      "learning_rate": 0.00011326258281334091,
      "loss": 1.5475,
      "step": 64370
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5887103080749512,
      "learning_rate": 0.00011325440254469134,
      "loss": 1.5665,
      "step": 64371
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6330299377441406,
      "learning_rate": 0.00011324622250272343,
      "loss": 1.5571,
      "step": 64372
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6021159887313843,
      "learning_rate": 0.00011323804268744698,
      "loss": 1.5612,
      "step": 64373
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6022365093231201,
      "learning_rate": 0.000113229863098872,
      "loss": 1.5181,
      "step": 64374
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6090312600135803,
      "learning_rate": 0.00011322168373700856,
      "loss": 1.4806,
      "step": 64375
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6182721257209778,
      "learning_rate": 0.00011321350460186649,
      "loss": 1.542,
      "step": 64376
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5937952995300293,
      "learning_rate": 0.00011320532569345561,
      "loss": 1.4995,
      "step": 64377
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5822804570198059,
      "learning_rate": 0.00011319714701178604,
      "loss": 1.5471,
      "step": 64378
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6122764348983765,
      "learning_rate": 0.00011318896855686758,
      "loss": 1.5846,
      "step": 64379
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6125834584236145,
      "learning_rate": 0.00011318079032871012,
      "loss": 1.4479,
      "step": 64380
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6184326410293579,
      "learning_rate": 0.00011317261232732365,
      "loss": 1.534,
      "step": 64381
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6103326082229614,
      "learning_rate": 0.00011316443455271829,
      "loss": 1.5863,
      "step": 64382
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6037113666534424,
      "learning_rate": 0.00011315625700490355,
      "loss": 1.5038,
      "step": 64383
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6060188412666321,
      "learning_rate": 0.00011314807968388962,
      "loss": 1.5095,
      "step": 64384
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6503830552101135,
      "learning_rate": 0.00011313990258968647,
      "loss": 1.5097,
      "step": 64385
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6533817648887634,
      "learning_rate": 0.00011313172572230397,
      "loss": 1.6964,
      "step": 64386
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6102210283279419,
      "learning_rate": 0.0001131235490817519,
      "loss": 1.5841,
      "step": 64387
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6451987028121948,
      "learning_rate": 0.00011311537266804031,
      "loss": 1.5301,
      "step": 64388
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.606686532497406,
      "learning_rate": 0.00011310719648117936,
      "loss": 1.4394,
      "step": 64389
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5954488515853882,
      "learning_rate": 0.0001130990205211785,
      "loss": 1.5902,
      "step": 64390
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6227940917015076,
      "learning_rate": 0.00011309084478804787,
      "loss": 1.5476,
      "step": 64391
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6263972520828247,
      "learning_rate": 0.00011308266928179756,
      "loss": 1.6021,
      "step": 64392
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6210727691650391,
      "learning_rate": 0.00011307449400243731,
      "loss": 1.5975,
      "step": 64393
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5960537791252136,
      "learning_rate": 0.000113066318949977,
      "loss": 1.5392,
      "step": 64394
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6014584302902222,
      "learning_rate": 0.00011305814412442664,
      "loss": 1.5749,
      "step": 64395
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.629725992679596,
      "learning_rate": 0.00011304996952579634,
      "loss": 1.5895,
      "step": 64396
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6128546595573425,
      "learning_rate": 0.00011304179515409563,
      "loss": 1.5434,
      "step": 64397
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.68023282289505,
      "learning_rate": 0.00011303362100933464,
      "loss": 1.5597,
      "step": 64398
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6198895573616028,
      "learning_rate": 0.0001130254470915234,
      "loss": 1.5669,
      "step": 64399
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6164186596870422,
      "learning_rate": 0.00011301727340067168,
      "loss": 1.5877,
      "step": 64400
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.609700083732605,
      "learning_rate": 0.00011300909993678937,
      "loss": 1.5411,
      "step": 64401
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.598556399345398,
      "learning_rate": 0.00011300092669988657,
      "loss": 1.48,
      "step": 64402
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.601325511932373,
      "learning_rate": 0.00011299275368997305,
      "loss": 1.5992,
      "step": 64403
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6183323860168457,
      "learning_rate": 0.00011298458090705872,
      "loss": 1.5556,
      "step": 64404
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6054111123085022,
      "learning_rate": 0.00011297640835115351,
      "loss": 1.5404,
      "step": 64405
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6236202716827393,
      "learning_rate": 0.00011296823602226752,
      "loss": 1.5255,
      "step": 64406
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6142624020576477,
      "learning_rate": 0.0001129600639204105,
      "loss": 1.5579,
      "step": 64407
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6342447400093079,
      "learning_rate": 0.00011295189204559234,
      "loss": 1.569,
      "step": 64408
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6024457216262817,
      "learning_rate": 0.0001129437203978231,
      "loss": 1.555,
      "step": 64409
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6006425619125366,
      "learning_rate": 0.0001129355489771126,
      "loss": 1.5461,
      "step": 64410
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6043401956558228,
      "learning_rate": 0.00011292737778347072,
      "loss": 1.5353,
      "step": 64411
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6037846207618713,
      "learning_rate": 0.00011291920681690753,
      "loss": 1.5789,
      "step": 64412
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5791729092597961,
      "learning_rate": 0.00011291103607743277,
      "loss": 1.5603,
      "step": 64413
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6313565969467163,
      "learning_rate": 0.00011290286556505652,
      "loss": 1.5766,
      "step": 64414
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6100966334342957,
      "learning_rate": 0.00011289469527978852,
      "loss": 1.5244,
      "step": 64415
    },
    {
      "epoch": 2.14,
      "grad_norm": 1.0975507497787476,
      "learning_rate": 0.0001128865252216389,
      "loss": 1.4545,
      "step": 64416
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5922378897666931,
      "learning_rate": 0.0001128783553906175,
      "loss": 1.508,
      "step": 64417
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.613631010055542,
      "learning_rate": 0.00011287018578673408,
      "loss": 1.6253,
      "step": 64418
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6035635471343994,
      "learning_rate": 0.00011286201640999876,
      "loss": 1.5831,
      "step": 64419
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6243441700935364,
      "learning_rate": 0.0001128538472604213,
      "loss": 1.5365,
      "step": 64420
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5848240256309509,
      "learning_rate": 0.00011284567833801181,
      "loss": 1.5945,
      "step": 64421
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5877668857574463,
      "learning_rate": 0.00011283750964278008,
      "loss": 1.5128,
      "step": 64422
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6051585078239441,
      "learning_rate": 0.00011282934117473591,
      "loss": 1.4636,
      "step": 64423
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6260939836502075,
      "learning_rate": 0.00011282117293388947,
      "loss": 1.5676,
      "step": 64424
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.623773455619812,
      "learning_rate": 0.00011281300492025045,
      "loss": 1.5861,
      "step": 64425
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5943742394447327,
      "learning_rate": 0.00011280483713382894,
      "loss": 1.5915,
      "step": 64426
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.599088191986084,
      "learning_rate": 0.00011279666957463467,
      "loss": 1.5205,
      "step": 64427
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6022768616676331,
      "learning_rate": 0.00011278850224267779,
      "loss": 1.5393,
      "step": 64428
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6037006974220276,
      "learning_rate": 0.00011278033513796806,
      "loss": 1.5168,
      "step": 64429
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5980347990989685,
      "learning_rate": 0.00011277216826051533,
      "loss": 1.5909,
      "step": 64430
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5792502164840698,
      "learning_rate": 0.00011276400161032969,
      "loss": 1.5336,
      "step": 64431
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6025614738464355,
      "learning_rate": 0.00011275583518742099,
      "loss": 1.538,
      "step": 64432
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6234224438667297,
      "learning_rate": 0.000112747668991799,
      "loss": 1.6103,
      "step": 64433
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5940555334091187,
      "learning_rate": 0.00011273950302347374,
      "loss": 1.5008,
      "step": 64434
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5914976596832275,
      "learning_rate": 0.00011273133728245524,
      "loss": 1.6058,
      "step": 64435
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5906617641448975,
      "learning_rate": 0.00011272317176875331,
      "loss": 1.5266,
      "step": 64436
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6093519926071167,
      "learning_rate": 0.00011271500648237777,
      "loss": 1.4943,
      "step": 64437
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6110451817512512,
      "learning_rate": 0.00011270684142333868,
      "loss": 1.546,
      "step": 64438
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5903975367546082,
      "learning_rate": 0.00011269867659164589,
      "loss": 1.5448,
      "step": 64439
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6141602396965027,
      "learning_rate": 0.00011269051198730924,
      "loss": 1.4792,
      "step": 64440
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6130804419517517,
      "learning_rate": 0.0001126823476103387,
      "loss": 1.5077,
      "step": 64441
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6011378169059753,
      "learning_rate": 0.0001126741834607444,
      "loss": 1.5343,
      "step": 64442
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6018883585929871,
      "learning_rate": 0.0001126660195385358,
      "loss": 1.5562,
      "step": 64443
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6055760979652405,
      "learning_rate": 0.00011265785584372308,
      "loss": 1.5725,
      "step": 64444
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6014546751976013,
      "learning_rate": 0.00011264969237631622,
      "loss": 1.5728,
      "step": 64445
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6097061038017273,
      "learning_rate": 0.000112641529136325,
      "loss": 1.5687,
      "step": 64446
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.630100667476654,
      "learning_rate": 0.00011263336612375931,
      "loss": 1.5361,
      "step": 64447
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6136795282363892,
      "learning_rate": 0.00011262520333862908,
      "loss": 1.5566,
      "step": 64448
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5940003991127014,
      "learning_rate": 0.00011261704078094441,
      "loss": 1.5066,
      "step": 64449
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6170172691345215,
      "learning_rate": 0.0001126088784507149,
      "loss": 1.5318,
      "step": 64450
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6172903776168823,
      "learning_rate": 0.00011260071634795058,
      "loss": 1.4603,
      "step": 64451
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5987173318862915,
      "learning_rate": 0.00011259255447266145,
      "loss": 1.5683,
      "step": 64452
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.590553343296051,
      "learning_rate": 0.00011258439282485738,
      "loss": 1.4248,
      "step": 64453
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.590077817440033,
      "learning_rate": 0.00011257623140454811,
      "loss": 1.5106,
      "step": 64454
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5891462564468384,
      "learning_rate": 0.00011256807021174372,
      "loss": 1.5492,
      "step": 64455
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6344590783119202,
      "learning_rate": 0.00011255990924645427,
      "loss": 1.5806,
      "step": 64456
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.615773618221283,
      "learning_rate": 0.00011255174850868925,
      "loss": 1.5464,
      "step": 64457
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6156445741653442,
      "learning_rate": 0.0001125435879984588,
      "loss": 1.5156,
      "step": 64458
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6119771599769592,
      "learning_rate": 0.00011253542771577292,
      "loss": 1.537,
      "step": 64459
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.624500572681427,
      "learning_rate": 0.00011252726766064139,
      "loss": 1.5395,
      "step": 64460
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6280470490455627,
      "learning_rate": 0.00011251910783307405,
      "loss": 1.5125,
      "step": 64461
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6044369339942932,
      "learning_rate": 0.00011251094823308087,
      "loss": 1.5482,
      "step": 64462
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6139861941337585,
      "learning_rate": 0.00011250278886067199,
      "loss": 1.4821,
      "step": 64463
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6191151142120361,
      "learning_rate": 0.0001124946297158569,
      "loss": 1.4986,
      "step": 64464
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6141194701194763,
      "learning_rate": 0.0001124864707986457,
      "loss": 1.6025,
      "step": 64465
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.9159035682678223,
      "learning_rate": 0.00011247831210904838,
      "loss": 1.6074,
      "step": 64466
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6186022758483887,
      "learning_rate": 0.00011247015364707478,
      "loss": 1.535,
      "step": 64467
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6154749393463135,
      "learning_rate": 0.00011246199541273467,
      "loss": 1.5563,
      "step": 64468
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.617868959903717,
      "learning_rate": 0.00011245383740603816,
      "loss": 1.5494,
      "step": 64469
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6247779130935669,
      "learning_rate": 0.00011244567962699498,
      "loss": 1.499,
      "step": 64470
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6004598140716553,
      "learning_rate": 0.00011243752207561518,
      "loss": 1.5035,
      "step": 64471
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.5985612273216248,
      "learning_rate": 0.00011242936475190853,
      "loss": 1.5691,
      "step": 64472
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6180468797683716,
      "learning_rate": 0.00011242120765588505,
      "loss": 1.509,
      "step": 64473
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6057601571083069,
      "learning_rate": 0.00011241305078755462,
      "loss": 1.5277,
      "step": 64474
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6196514368057251,
      "learning_rate": 0.000112404894146927,
      "loss": 1.5546,
      "step": 64475
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.624407172203064,
      "learning_rate": 0.00011239673773401229,
      "loss": 1.5604,
      "step": 64476
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6205191016197205,
      "learning_rate": 0.00011238858154882019,
      "loss": 1.5193,
      "step": 64477
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6061080694198608,
      "learning_rate": 0.00011238042559136082,
      "loss": 1.5906,
      "step": 64478
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.610643208026886,
      "learning_rate": 0.00011237226986164398,
      "loss": 1.6043,
      "step": 64479
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.642293393611908,
      "learning_rate": 0.00011236411435967945,
      "loss": 1.4451,
      "step": 64480
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5955186486244202,
      "learning_rate": 0.00011235595908547734,
      "loss": 1.5085,
      "step": 64481
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6136786937713623,
      "learning_rate": 0.00011234780403904732,
      "loss": 1.4721,
      "step": 64482
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5939509868621826,
      "learning_rate": 0.00011233964922039958,
      "loss": 1.5212,
      "step": 64483
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5937485694885254,
      "learning_rate": 0.00011233149462954371,
      "loss": 1.5855,
      "step": 64484
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6279711127281189,
      "learning_rate": 0.00011232334026648985,
      "loss": 1.6019,
      "step": 64485
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6594527363777161,
      "learning_rate": 0.00011231518613124782,
      "loss": 1.5421,
      "step": 64486
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.617758572101593,
      "learning_rate": 0.0001123070322238274,
      "loss": 1.4949,
      "step": 64487
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6272207498550415,
      "learning_rate": 0.00011229887854423866,
      "loss": 1.6013,
      "step": 64488
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6453090906143188,
      "learning_rate": 0.00011229072509249146,
      "loss": 1.6151,
      "step": 64489
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6109487414360046,
      "learning_rate": 0.00011228257186859553,
      "loss": 1.5258,
      "step": 64490
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6115885376930237,
      "learning_rate": 0.00011227441887256091,
      "loss": 1.5676,
      "step": 64491
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5912014842033386,
      "learning_rate": 0.0001122662661043976,
      "loss": 1.5034,
      "step": 64492
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6073606014251709,
      "learning_rate": 0.00011225811356411538,
      "loss": 1.5807,
      "step": 64493
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6066507697105408,
      "learning_rate": 0.00011224996125172403,
      "loss": 1.4385,
      "step": 64494
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5892515778541565,
      "learning_rate": 0.00011224180916723368,
      "loss": 1.6123,
      "step": 64495
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6046778559684753,
      "learning_rate": 0.00011223365731065412,
      "loss": 1.5489,
      "step": 64496
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5986371636390686,
      "learning_rate": 0.0001122255056819951,
      "loss": 1.5192,
      "step": 64497
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5781763195991516,
      "learning_rate": 0.00011221735428126666,
      "loss": 1.5401,
      "step": 64498
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.625266969203949,
      "learning_rate": 0.00011220920310847888,
      "loss": 1.5652,
      "step": 64499
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6247509121894836,
      "learning_rate": 0.00011220105216364126,
      "loss": 1.5854,
      "step": 64500
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5840274095535278,
      "learning_rate": 0.0001121929014467639,
      "loss": 1.4813,
      "step": 64501
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6116721630096436,
      "learning_rate": 0.00011218475095785678,
      "loss": 1.5235,
      "step": 64502
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5874873995780945,
      "learning_rate": 0.00011217660069692973,
      "loss": 1.5681,
      "step": 64503
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6186238527297974,
      "learning_rate": 0.00011216845066399247,
      "loss": 1.5598,
      "step": 64504
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6101988554000854,
      "learning_rate": 0.00011216030085905506,
      "loss": 1.5309,
      "step": 64505
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6329315900802612,
      "learning_rate": 0.00011215215128212756,
      "loss": 1.4971,
      "step": 64506
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6115922331809998,
      "learning_rate": 0.00011214400193321947,
      "loss": 1.5499,
      "step": 64507
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6226028800010681,
      "learning_rate": 0.00011213585281234087,
      "loss": 1.5561,
      "step": 64508
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6133831739425659,
      "learning_rate": 0.00011212770391950177,
      "loss": 1.5287,
      "step": 64509
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5970370173454285,
      "learning_rate": 0.00011211955525471196,
      "loss": 1.4854,
      "step": 64510
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5987612009048462,
      "learning_rate": 0.00011211140681798124,
      "loss": 1.5403,
      "step": 64511
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6200425028800964,
      "learning_rate": 0.00011210325860931958,
      "loss": 1.6135,
      "step": 64512
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6281304955482483,
      "learning_rate": 0.00011209511062873708,
      "loss": 1.5941,
      "step": 64513
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5724030137062073,
      "learning_rate": 0.00011208696287624321,
      "loss": 1.5037,
      "step": 64514
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.595466136932373,
      "learning_rate": 0.0001120788153518481,
      "loss": 1.5371,
      "step": 64515
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6247365474700928,
      "learning_rate": 0.0001120706680555617,
      "loss": 1.5481,
      "step": 64516
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.627886950969696,
      "learning_rate": 0.00011206252098739385,
      "loss": 1.4838,
      "step": 64517
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.609447181224823,
      "learning_rate": 0.00011205437414735426,
      "loss": 1.5768,
      "step": 64518
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6036112308502197,
      "learning_rate": 0.00011204622753545309,
      "loss": 1.5719,
      "step": 64519
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6167887449264526,
      "learning_rate": 0.00011203808115170012,
      "loss": 1.5174,
      "step": 64520
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6145646572113037,
      "learning_rate": 0.00011202993499610514,
      "loss": 1.527,
      "step": 64521
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5952768921852112,
      "learning_rate": 0.00011202178906867808,
      "loss": 1.5597,
      "step": 64522
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6493067145347595,
      "learning_rate": 0.000112013643369429,
      "loss": 1.5407,
      "step": 64523
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6435470581054688,
      "learning_rate": 0.00011200549789836765,
      "loss": 1.648,
      "step": 64524
    },
    {
      "epoch": 2.15,
      "grad_norm": 1.2760206460952759,
      "learning_rate": 0.00011199735265550383,
      "loss": 1.5909,
      "step": 64525
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6058180332183838,
      "learning_rate": 0.00011198920764084762,
      "loss": 1.5778,
      "step": 64526
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6120802164077759,
      "learning_rate": 0.0001119810628544088,
      "loss": 1.5487,
      "step": 64527
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6095712780952454,
      "learning_rate": 0.00011197291829619717,
      "loss": 1.5961,
      "step": 64528
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5866643786430359,
      "learning_rate": 0.00011196477396622282,
      "loss": 1.5271,
      "step": 64529
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6183714270591736,
      "learning_rate": 0.00011195662986449542,
      "loss": 1.5613,
      "step": 64530
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5889220237731934,
      "learning_rate": 0.0001119484859910251,
      "loss": 1.5344,
      "step": 64531
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6287452578544617,
      "learning_rate": 0.00011194034234582144,
      "loss": 1.515,
      "step": 64532
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6168103814125061,
      "learning_rate": 0.00011193219892889465,
      "loss": 1.558,
      "step": 64533
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6071779131889343,
      "learning_rate": 0.00011192405574025446,
      "loss": 1.5046,
      "step": 64534
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6041651368141174,
      "learning_rate": 0.00011191591277991064,
      "loss": 1.5103,
      "step": 64535
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6266633868217468,
      "learning_rate": 0.00011190777004787327,
      "loss": 1.5288,
      "step": 64536
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6060644388198853,
      "learning_rate": 0.0001118996275441521,
      "loss": 1.6023,
      "step": 64537
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6086481809616089,
      "learning_rate": 0.0001118914852687571,
      "loss": 1.5173,
      "step": 64538
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6352401375770569,
      "learning_rate": 0.00011188334322169817,
      "loss": 1.5465,
      "step": 64539
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6268579959869385,
      "learning_rate": 0.00011187520140298505,
      "loss": 1.563,
      "step": 64540
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6397087574005127,
      "learning_rate": 0.0001118670598126278,
      "loss": 1.5793,
      "step": 64541
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5897247195243835,
      "learning_rate": 0.00011185891845063613,
      "loss": 1.5887,
      "step": 64542
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6387519240379333,
      "learning_rate": 0.00011185077731702009,
      "loss": 1.5209,
      "step": 64543
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6176530122756958,
      "learning_rate": 0.00011184263641178937,
      "loss": 1.5505,
      "step": 64544
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6336084008216858,
      "learning_rate": 0.0001118344957349541,
      "loss": 1.4803,
      "step": 64545
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6335001587867737,
      "learning_rate": 0.00011182635528652403,
      "loss": 1.5223,
      "step": 64546
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6111608147621155,
      "learning_rate": 0.00011181821506650892,
      "loss": 1.53,
      "step": 64547
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6053311228752136,
      "learning_rate": 0.00011181007507491889,
      "loss": 1.5727,
      "step": 64548
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6003294587135315,
      "learning_rate": 0.00011180193531176368,
      "loss": 1.5763,
      "step": 64549
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6031821966171265,
      "learning_rate": 0.00011179379577705308,
      "loss": 1.513,
      "step": 64550
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.598548948764801,
      "learning_rate": 0.00011178565647079709,
      "loss": 1.6027,
      "step": 64551
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6167857646942139,
      "learning_rate": 0.00011177751739300573,
      "loss": 1.5054,
      "step": 64552
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6064012050628662,
      "learning_rate": 0.00011176937854368866,
      "loss": 1.5009,
      "step": 64553
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.59885174036026,
      "learning_rate": 0.00011176123992285576,
      "loss": 1.5589,
      "step": 64554
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6033689975738525,
      "learning_rate": 0.00011175310153051709,
      "loss": 1.5288,
      "step": 64555
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6285161972045898,
      "learning_rate": 0.0001117449633666824,
      "loss": 1.5576,
      "step": 64556
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.599067211151123,
      "learning_rate": 0.00011173682543136152,
      "loss": 1.5133,
      "step": 64557
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6177714467048645,
      "learning_rate": 0.00011172868772456432,
      "loss": 1.5588,
      "step": 64558
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6177901029586792,
      "learning_rate": 0.00011172055024630103,
      "loss": 1.536,
      "step": 64559
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6050957441329956,
      "learning_rate": 0.00011171241299658103,
      "loss": 1.5965,
      "step": 64560
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5986449122428894,
      "learning_rate": 0.0001117042759754144,
      "loss": 1.5065,
      "step": 64561
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5991012454032898,
      "learning_rate": 0.00011169613918281113,
      "loss": 1.5607,
      "step": 64562
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6371287703514099,
      "learning_rate": 0.00011168800261878102,
      "loss": 1.5533,
      "step": 64563
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5894184708595276,
      "learning_rate": 0.0001116798662833338,
      "loss": 1.5501,
      "step": 64564
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6279493570327759,
      "learning_rate": 0.0001116717301764795,
      "loss": 1.5386,
      "step": 64565
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6452183127403259,
      "learning_rate": 0.0001116635942982282,
      "loss": 1.6622,
      "step": 64566
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6134176850318909,
      "learning_rate": 0.0001116554586485893,
      "loss": 1.5207,
      "step": 64567
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.617878794670105,
      "learning_rate": 0.00011164732322757293,
      "loss": 1.5915,
      "step": 64568
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6001571416854858,
      "learning_rate": 0.00011163918803518907,
      "loss": 1.4911,
      "step": 64569
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6064612865447998,
      "learning_rate": 0.0001116310530714475,
      "loss": 1.5209,
      "step": 64570
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5921169519424438,
      "learning_rate": 0.00011162291833635792,
      "loss": 1.5146,
      "step": 64571
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6251755356788635,
      "learning_rate": 0.00011161478382993041,
      "loss": 1.5826,
      "step": 64572
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6283043026924133,
      "learning_rate": 0.00011160664955217497,
      "loss": 1.541,
      "step": 64573
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.626222550868988,
      "learning_rate": 0.00011159851550310111,
      "loss": 1.6047,
      "step": 64574
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6249132752418518,
      "learning_rate": 0.00011159038168271889,
      "loss": 1.594,
      "step": 64575
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5968055129051208,
      "learning_rate": 0.00011158224809103829,
      "loss": 1.5002,
      "step": 64576
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6091098189353943,
      "learning_rate": 0.00011157411472806906,
      "loss": 1.4917,
      "step": 64577
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5916269421577454,
      "learning_rate": 0.00011156598159382102,
      "loss": 1.5294,
      "step": 64578
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5931212902069092,
      "learning_rate": 0.00011155784868830411,
      "loss": 1.5445,
      "step": 64579
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6167797446250916,
      "learning_rate": 0.00011154971601152839,
      "loss": 1.6346,
      "step": 64580
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6098425984382629,
      "learning_rate": 0.00011154158356350336,
      "loss": 1.5365,
      "step": 64581
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6003345251083374,
      "learning_rate": 0.00011153345134423906,
      "loss": 1.6005,
      "step": 64582
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6207442879676819,
      "learning_rate": 0.00011152531935374552,
      "loss": 1.4829,
      "step": 64583
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6019505262374878,
      "learning_rate": 0.00011151718759203243,
      "loss": 1.5925,
      "step": 64584
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6312034726142883,
      "learning_rate": 0.00011150905605910962,
      "loss": 1.5294,
      "step": 64585
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5880434513092041,
      "learning_rate": 0.00011150092475498716,
      "loss": 1.4458,
      "step": 64586
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5968835353851318,
      "learning_rate": 0.00011149279367967466,
      "loss": 1.546,
      "step": 64587
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6283866167068481,
      "learning_rate": 0.00011148466283318227,
      "loss": 1.5372,
      "step": 64588
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6283814907073975,
      "learning_rate": 0.0001114765322155196,
      "loss": 1.6417,
      "step": 64589
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5937540531158447,
      "learning_rate": 0.00011146840182669678,
      "loss": 1.5476,
      "step": 64590
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6034462451934814,
      "learning_rate": 0.0001114602716667235,
      "loss": 1.5933,
      "step": 64591
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6035212278366089,
      "learning_rate": 0.00011145214173560961,
      "loss": 1.5844,
      "step": 64592
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6064023971557617,
      "learning_rate": 0.00011144401203336511,
      "loss": 1.4958,
      "step": 64593
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6115148067474365,
      "learning_rate": 0.00011143588255999968,
      "loss": 1.5548,
      "step": 64594
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6219815015792847,
      "learning_rate": 0.00011142775331552342,
      "loss": 1.5439,
      "step": 64595
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6033229827880859,
      "learning_rate": 0.00011141962429994612,
      "loss": 1.5285,
      "step": 64596
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5929126143455505,
      "learning_rate": 0.00011141149551327746,
      "loss": 1.5316,
      "step": 64597
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6144264936447144,
      "learning_rate": 0.00011140336695552756,
      "loss": 1.6037,
      "step": 64598
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6176044940948486,
      "learning_rate": 0.00011139523862670611,
      "loss": 1.5902,
      "step": 64599
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5977222323417664,
      "learning_rate": 0.00011138711052682315,
      "loss": 1.562,
      "step": 64600
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6084713935852051,
      "learning_rate": 0.00011137898265588833,
      "loss": 1.5503,
      "step": 64601
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6163387298583984,
      "learning_rate": 0.00011137085501391175,
      "loss": 1.5417,
      "step": 64602
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6300992369651794,
      "learning_rate": 0.00011136272760090316,
      "loss": 1.5405,
      "step": 64603
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5791742205619812,
      "learning_rate": 0.0001113546004168723,
      "loss": 1.5335,
      "step": 64604
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6047444939613342,
      "learning_rate": 0.00011134647346182927,
      "loss": 1.6212,
      "step": 64605
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6168248653411865,
      "learning_rate": 0.00011133834673578383,
      "loss": 1.5449,
      "step": 64606
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6102946996688843,
      "learning_rate": 0.00011133022023874573,
      "loss": 1.5198,
      "step": 64607
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5995550751686096,
      "learning_rate": 0.00011132209397072496,
      "loss": 1.5496,
      "step": 64608
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.610225260257721,
      "learning_rate": 0.00011131396793173144,
      "loss": 1.5388,
      "step": 64609
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5801894664764404,
      "learning_rate": 0.000111305842121775,
      "loss": 1.5081,
      "step": 64610
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5917551517486572,
      "learning_rate": 0.00011129771654086534,
      "loss": 1.4881,
      "step": 64611
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6049159169197083,
      "learning_rate": 0.00011128959118901256,
      "loss": 1.5022,
      "step": 64612
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5991944074630737,
      "learning_rate": 0.0001112814660662264,
      "loss": 1.505,
      "step": 64613
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5959211587905884,
      "learning_rate": 0.00011127334117251665,
      "loss": 1.5194,
      "step": 64614
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6083268523216248,
      "learning_rate": 0.00011126521650789324,
      "loss": 1.5127,
      "step": 64615
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6300428509712219,
      "learning_rate": 0.00011125709207236623,
      "loss": 1.5501,
      "step": 64616
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6277051568031311,
      "learning_rate": 0.00011124896786594513,
      "loss": 1.6665,
      "step": 64617
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6066440939903259,
      "learning_rate": 0.00011124084388863997,
      "loss": 1.5632,
      "step": 64618
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6210815906524658,
      "learning_rate": 0.00011123272014046071,
      "loss": 1.5896,
      "step": 64619
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6155354976654053,
      "learning_rate": 0.0001112245966214171,
      "loss": 1.6223,
      "step": 64620
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6118060350418091,
      "learning_rate": 0.00011121647333151892,
      "loss": 1.5632,
      "step": 64621
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.601457953453064,
      "learning_rate": 0.00011120835027077614,
      "loss": 1.5353,
      "step": 64622
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5993598103523254,
      "learning_rate": 0.00011120022743919881,
      "loss": 1.5063,
      "step": 64623
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6086469888687134,
      "learning_rate": 0.00011119210483679636,
      "loss": 1.466,
      "step": 64624
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6188410520553589,
      "learning_rate": 0.00011118398246357888,
      "loss": 1.4901,
      "step": 64625
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.597623884677887,
      "learning_rate": 0.00011117586031955636,
      "loss": 1.532,
      "step": 64626
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5950694680213928,
      "learning_rate": 0.00011116773840473846,
      "loss": 1.5505,
      "step": 64627
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5838153958320618,
      "learning_rate": 0.00011115961671913505,
      "loss": 1.5045,
      "step": 64628
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6225402355194092,
      "learning_rate": 0.00011115149526275605,
      "loss": 1.5516,
      "step": 64629
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5950494408607483,
      "learning_rate": 0.00011114337403561147,
      "loss": 1.4782,
      "step": 64630
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.607036828994751,
      "learning_rate": 0.00011113525303771082,
      "loss": 1.4729,
      "step": 64631
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6189278364181519,
      "learning_rate": 0.00011112713226906416,
      "loss": 1.5689,
      "step": 64632
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6188935041427612,
      "learning_rate": 0.00011111901172968143,
      "loss": 1.5471,
      "step": 64633
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6190764904022217,
      "learning_rate": 0.0001111108914195724,
      "loss": 1.555,
      "step": 64634
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6157078146934509,
      "learning_rate": 0.0001111027713387468,
      "loss": 1.5763,
      "step": 64635
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6173982620239258,
      "learning_rate": 0.00011109465148721468,
      "loss": 1.5822,
      "step": 64636
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6108378171920776,
      "learning_rate": 0.00011108653186498584,
      "loss": 1.61,
      "step": 64637
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6046273112297058,
      "learning_rate": 0.00011107841247207003,
      "loss": 1.6207,
      "step": 64638
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5926771759986877,
      "learning_rate": 0.00011107029330847719,
      "loss": 1.4753,
      "step": 64639
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5995115637779236,
      "learning_rate": 0.00011106217437421726,
      "loss": 1.5441,
      "step": 64640
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6095497012138367,
      "learning_rate": 0.00011105405566930002,
      "loss": 1.5335,
      "step": 64641
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6024546027183533,
      "learning_rate": 0.0001110459371937352,
      "loss": 1.4944,
      "step": 64642
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.617330014705658,
      "learning_rate": 0.00011103781894753289,
      "loss": 1.5298,
      "step": 64643
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.645505964756012,
      "learning_rate": 0.00011102970093070283,
      "loss": 1.4744,
      "step": 64644
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6201720833778381,
      "learning_rate": 0.00011102158314325475,
      "loss": 1.5362,
      "step": 64645
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6177819967269897,
      "learning_rate": 0.00011101346558519873,
      "loss": 1.4826,
      "step": 64646
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6185265183448792,
      "learning_rate": 0.00011100534825654442,
      "loss": 1.5204,
      "step": 64647
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6070265173912048,
      "learning_rate": 0.00011099723115730187,
      "loss": 1.5543,
      "step": 64648
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6105391979217529,
      "learning_rate": 0.00011098911428748073,
      "loss": 1.5318,
      "step": 64649
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6116234064102173,
      "learning_rate": 0.00011098099764709106,
      "loss": 1.5346,
      "step": 64650
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6085644364356995,
      "learning_rate": 0.00011097288123614259,
      "loss": 1.5094,
      "step": 64651
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6414778828620911,
      "learning_rate": 0.00011096476505464513,
      "loss": 1.6337,
      "step": 64652
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5958548784255981,
      "learning_rate": 0.00011095664910260866,
      "loss": 1.5395,
      "step": 64653
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5950578451156616,
      "learning_rate": 0.00011094853338004289,
      "loss": 1.4808,
      "step": 64654
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.596727192401886,
      "learning_rate": 0.0001109404178869578,
      "loss": 1.5129,
      "step": 64655
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6000603437423706,
      "learning_rate": 0.0001109323026233632,
      "loss": 1.555,
      "step": 64656
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6237920522689819,
      "learning_rate": 0.00011092418758926884,
      "loss": 1.5332,
      "step": 64657
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6012139916419983,
      "learning_rate": 0.00011091607278468478,
      "loss": 1.5884,
      "step": 64658
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5988699197769165,
      "learning_rate": 0.00011090795820962063,
      "loss": 1.5017,
      "step": 64659
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5991798639297485,
      "learning_rate": 0.00011089984386408643,
      "loss": 1.5165,
      "step": 64660
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6105629205703735,
      "learning_rate": 0.00011089172974809189,
      "loss": 1.5825,
      "step": 64661
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6164425611495972,
      "learning_rate": 0.00011088361586164704,
      "loss": 1.5938,
      "step": 64662
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6057727932929993,
      "learning_rate": 0.00011087550220476158,
      "loss": 1.5208,
      "step": 64663
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6239848136901855,
      "learning_rate": 0.00011086738877744529,
      "loss": 1.5345,
      "step": 64664
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5981302857398987,
      "learning_rate": 0.00011085927557970825,
      "loss": 1.5741,
      "step": 64665
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6323447823524475,
      "learning_rate": 0.00011085116261156016,
      "loss": 1.5525,
      "step": 64666
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6169795989990234,
      "learning_rate": 0.00011084304987301081,
      "loss": 1.5252,
      "step": 64667
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6491246223449707,
      "learning_rate": 0.0001108349373640701,
      "loss": 1.5929,
      "step": 64668
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6137059926986694,
      "learning_rate": 0.00011082682508474804,
      "loss": 1.5333,
      "step": 64669
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6392249464988708,
      "learning_rate": 0.0001108187130350543,
      "loss": 1.5524,
      "step": 64670
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6156585216522217,
      "learning_rate": 0.0001108106012149987,
      "loss": 1.5322,
      "step": 64671
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5991314053535461,
      "learning_rate": 0.00011080248962459122,
      "loss": 1.4823,
      "step": 64672
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5972841382026672,
      "learning_rate": 0.00011079437826384169,
      "loss": 1.5451,
      "step": 64673
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5842950940132141,
      "learning_rate": 0.00011078626713275977,
      "loss": 1.5162,
      "step": 64674
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5873393416404724,
      "learning_rate": 0.00011077815623135545,
      "loss": 1.5176,
      "step": 64675
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6465945243835449,
      "learning_rate": 0.00011077004555963877,
      "loss": 1.5929,
      "step": 64676
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6123663783073425,
      "learning_rate": 0.00011076193511761915,
      "loss": 1.5147,
      "step": 64677
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5946850180625916,
      "learning_rate": 0.0001107538249053067,
      "loss": 1.5329,
      "step": 64678
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5955410003662109,
      "learning_rate": 0.00011074571492271128,
      "loss": 1.5815,
      "step": 64679
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6672976016998291,
      "learning_rate": 0.0001107376051698427,
      "loss": 1.5849,
      "step": 64680
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6114208698272705,
      "learning_rate": 0.00011072949564671069,
      "loss": 1.5249,
      "step": 64681
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6360081434249878,
      "learning_rate": 0.00011072138635332516,
      "loss": 1.5722,
      "step": 64682
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6095712184906006,
      "learning_rate": 0.00011071327728969622,
      "loss": 1.5866,
      "step": 64683
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5952658653259277,
      "learning_rate": 0.00011070516845583323,
      "loss": 1.5097,
      "step": 64684
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6137785911560059,
      "learning_rate": 0.0001106970598517463,
      "loss": 1.5489,
      "step": 64685
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6137921214103699,
      "learning_rate": 0.0001106889514774453,
      "loss": 1.523,
      "step": 64686
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.601222813129425,
      "learning_rate": 0.00011068084333294007,
      "loss": 1.4891,
      "step": 64687
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6012237668037415,
      "learning_rate": 0.00011067273541824028,
      "loss": 1.6259,
      "step": 64688
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6038016080856323,
      "learning_rate": 0.00011066462773335592,
      "loss": 1.5828,
      "step": 64689
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6431223154067993,
      "learning_rate": 0.00011065652027829697,
      "loss": 1.5274,
      "step": 64690
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6255947351455688,
      "learning_rate": 0.00011064841305307292,
      "loss": 1.6123,
      "step": 64691
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6023209691047668,
      "learning_rate": 0.00011064030605769378,
      "loss": 1.5558,
      "step": 64692
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5901294946670532,
      "learning_rate": 0.00011063219929216954,
      "loss": 1.5361,
      "step": 64693
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6152291893959045,
      "learning_rate": 0.0001106240927565099,
      "loss": 1.56,
      "step": 64694
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5997404456138611,
      "learning_rate": 0.00011061598645072461,
      "loss": 1.5076,
      "step": 64695
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6369009613990784,
      "learning_rate": 0.00011060788037482359,
      "loss": 1.5899,
      "step": 64696
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6094914078712463,
      "learning_rate": 0.00011059977452881691,
      "loss": 1.5757,
      "step": 64697
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6237210035324097,
      "learning_rate": 0.000110591668912714,
      "loss": 1.4862,
      "step": 64698
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6189655065536499,
      "learning_rate": 0.00011058356352652486,
      "loss": 1.4766,
      "step": 64699
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6179142594337463,
      "learning_rate": 0.00011057545837025949,
      "loss": 1.5339,
      "step": 64700
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5912145972251892,
      "learning_rate": 0.00011056735344392761,
      "loss": 1.5517,
      "step": 64701
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6122534275054932,
      "learning_rate": 0.00011055924874753896,
      "loss": 1.4903,
      "step": 64702
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6174598336219788,
      "learning_rate": 0.00011055114428110354,
      "loss": 1.5065,
      "step": 64703
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6573354601860046,
      "learning_rate": 0.00011054304004463104,
      "loss": 1.5317,
      "step": 64704
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6210132837295532,
      "learning_rate": 0.00011053493603813147,
      "loss": 1.6198,
      "step": 64705
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5742941498756409,
      "learning_rate": 0.00011052683226161448,
      "loss": 1.5399,
      "step": 64706
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6091850996017456,
      "learning_rate": 0.00011051872871509006,
      "loss": 1.5203,
      "step": 64707
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.598777711391449,
      "learning_rate": 0.00011051062539856804,
      "loss": 1.57,
      "step": 64708
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6268531680107117,
      "learning_rate": 0.00011050252231205806,
      "loss": 1.5167,
      "step": 64709
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6209906339645386,
      "learning_rate": 0.00011049441945557022,
      "loss": 1.6173,
      "step": 64710
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6019167900085449,
      "learning_rate": 0.00011048631682911409,
      "loss": 1.5474,
      "step": 64711
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6094293594360352,
      "learning_rate": 0.0001104782144326998,
      "loss": 1.5529,
      "step": 64712
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5968868136405945,
      "learning_rate": 0.000110470112266337,
      "loss": 1.5489,
      "step": 64713
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6133202910423279,
      "learning_rate": 0.00011046201033003549,
      "loss": 1.5741,
      "step": 64714
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5886151194572449,
      "learning_rate": 0.00011045390862380523,
      "loss": 1.5203,
      "step": 64715
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5995537042617798,
      "learning_rate": 0.00011044580714765593,
      "loss": 1.5478,
      "step": 64716
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.591651201248169,
      "learning_rate": 0.00011043770590159758,
      "loss": 1.5098,
      "step": 64717
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6136347651481628,
      "learning_rate": 0.00011042960488563982,
      "loss": 1.5641,
      "step": 64718
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.592616617679596,
      "learning_rate": 0.0001104215040997927,
      "loss": 1.535,
      "step": 64719
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.580077588558197,
      "learning_rate": 0.00011041340354406594,
      "loss": 1.533,
      "step": 64720
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5956920981407166,
      "learning_rate": 0.00011040530321846925,
      "loss": 1.5506,
      "step": 64721
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6061182022094727,
      "learning_rate": 0.0001103972031230127,
      "loss": 1.6292,
      "step": 64722
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5953025817871094,
      "learning_rate": 0.00011038910325770603,
      "loss": 1.5242,
      "step": 64723
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6124246716499329,
      "learning_rate": 0.00011038100362255892,
      "loss": 1.5577,
      "step": 64724
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6324556469917297,
      "learning_rate": 0.00011037290421758135,
      "loss": 1.5926,
      "step": 64725
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6167812347412109,
      "learning_rate": 0.00011036480504278323,
      "loss": 1.4973,
      "step": 64726
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6143785119056702,
      "learning_rate": 0.0001103567060981743,
      "loss": 1.5208,
      "step": 64727
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6019653677940369,
      "learning_rate": 0.00011034860738376426,
      "loss": 1.5129,
      "step": 64728
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5975314378738403,
      "learning_rate": 0.00011034050889956319,
      "loss": 1.5401,
      "step": 64729
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6055812835693359,
      "learning_rate": 0.00011033241064558081,
      "loss": 1.5339,
      "step": 64730
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6322586536407471,
      "learning_rate": 0.00011032431262182682,
      "loss": 1.6085,
      "step": 64731
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6076095700263977,
      "learning_rate": 0.00011031621482831118,
      "loss": 1.5761,
      "step": 64732
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5898531675338745,
      "learning_rate": 0.0001103081172650439,
      "loss": 1.5303,
      "step": 64733
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5965563654899597,
      "learning_rate": 0.00011030001993203439,
      "loss": 1.5187,
      "step": 64734
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6090313792228699,
      "learning_rate": 0.00011029192282929272,
      "loss": 1.4634,
      "step": 64735
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.584648072719574,
      "learning_rate": 0.00011028382595682883,
      "loss": 1.4854,
      "step": 64736
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6008599400520325,
      "learning_rate": 0.00011027572931465241,
      "loss": 1.5295,
      "step": 64737
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6009003520011902,
      "learning_rate": 0.00011026763290277318,
      "loss": 1.4964,
      "step": 64738
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6080109477043152,
      "learning_rate": 0.00011025953672120108,
      "loss": 1.5482,
      "step": 64739
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5930587649345398,
      "learning_rate": 0.00011025144076994619,
      "loss": 1.548,
      "step": 64740
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6041785478591919,
      "learning_rate": 0.00011024334504901785,
      "loss": 1.5149,
      "step": 64741
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.7548999190330505,
      "learning_rate": 0.00011023524955842616,
      "loss": 1.5283,
      "step": 64742
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5930061936378479,
      "learning_rate": 0.00011022715429818099,
      "loss": 1.4693,
      "step": 64743
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6206200122833252,
      "learning_rate": 0.00011021905926829211,
      "loss": 1.5416,
      "step": 64744
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.8901141285896301,
      "learning_rate": 0.00011021096446876923,
      "loss": 1.5468,
      "step": 64745
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6217054128646851,
      "learning_rate": 0.00011020286989962227,
      "loss": 1.6066,
      "step": 64746
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6204557418823242,
      "learning_rate": 0.00011019477556086127,
      "loss": 1.5539,
      "step": 64747
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6043954491615295,
      "learning_rate": 0.00011018668145249562,
      "loss": 1.5536,
      "step": 64748
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6139996647834778,
      "learning_rate": 0.00011017858757453539,
      "loss": 1.4623,
      "step": 64749
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5990762114524841,
      "learning_rate": 0.00011017049392699049,
      "loss": 1.5224,
      "step": 64750
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6351735591888428,
      "learning_rate": 0.00011016240050987064,
      "loss": 1.5312,
      "step": 64751
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6363304853439331,
      "learning_rate": 0.00011015430732318554,
      "loss": 1.6599,
      "step": 64752
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5917535424232483,
      "learning_rate": 0.00011014621436694528,
      "loss": 1.542,
      "step": 64753
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6096566915512085,
      "learning_rate": 0.00011013812164115952,
      "loss": 1.5495,
      "step": 64754
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5987876057624817,
      "learning_rate": 0.000110130029145838,
      "loss": 1.5495,
      "step": 64755
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6244580149650574,
      "learning_rate": 0.00011012193688099065,
      "loss": 1.5891,
      "step": 64756
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6026090979576111,
      "learning_rate": 0.0001101138448466274,
      "loss": 1.5488,
      "step": 64757
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6063505411148071,
      "learning_rate": 0.00011010575304275797,
      "loss": 1.56,
      "step": 64758
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6176708340644836,
      "learning_rate": 0.00011009766146939206,
      "loss": 1.5487,
      "step": 64759
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.607064425945282,
      "learning_rate": 0.0001100895701265397,
      "loss": 1.5832,
      "step": 64760
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.593178927898407,
      "learning_rate": 0.00011008147901421067,
      "loss": 1.5167,
      "step": 64761
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6200023889541626,
      "learning_rate": 0.00011007338813241458,
      "loss": 1.5498,
      "step": 64762
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6478685736656189,
      "learning_rate": 0.00011006529748116153,
      "loss": 1.5311,
      "step": 64763
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.608675479888916,
      "learning_rate": 0.00011005720706046115,
      "loss": 1.4872,
      "step": 64764
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6003596186637878,
      "learning_rate": 0.00011004911687032341,
      "loss": 1.557,
      "step": 64765
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6142413020133972,
      "learning_rate": 0.00011004102691075796,
      "loss": 1.5063,
      "step": 64766
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6236854791641235,
      "learning_rate": 0.00011003293718177479,
      "loss": 1.4579,
      "step": 64767
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6049630045890808,
      "learning_rate": 0.00011002484768338368,
      "loss": 1.572,
      "step": 64768
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6141673922538757,
      "learning_rate": 0.0001100167584155943,
      "loss": 1.4563,
      "step": 64769
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6015408635139465,
      "learning_rate": 0.00011000866937841668,
      "loss": 1.5637,
      "step": 64770
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6214602589607239,
      "learning_rate": 0.00011000058057186045,
      "loss": 1.5553,
      "step": 64771
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.6100921630859375,
      "learning_rate": 0.00010999249199593561,
      "loss": 1.5039,
      "step": 64772
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5849496126174927,
      "learning_rate": 0.0001099844036506519,
      "loss": 1.5619,
      "step": 64773
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5855401754379272,
      "learning_rate": 0.00010997631553601902,
      "loss": 1.5779,
      "step": 64774
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6211527585983276,
      "learning_rate": 0.00010996822765204701,
      "loss": 1.5252,
      "step": 64775
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5813034176826477,
      "learning_rate": 0.00010996013999874544,
      "loss": 1.5444,
      "step": 64776
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6002029776573181,
      "learning_rate": 0.00010995205257612437,
      "loss": 1.5353,
      "step": 64777
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6464593410491943,
      "learning_rate": 0.00010994396538419342,
      "loss": 1.548,
      "step": 64778
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5943159461021423,
      "learning_rate": 0.00010993587842296258,
      "loss": 1.5708,
      "step": 64779
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.705915629863739,
      "learning_rate": 0.00010992779169244156,
      "loss": 1.5563,
      "step": 64780
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5955719351768494,
      "learning_rate": 0.00010991970519264011,
      "loss": 1.4436,
      "step": 64781
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5988059639930725,
      "learning_rate": 0.00010991161892356825,
      "loss": 1.5555,
      "step": 64782
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6066403985023499,
      "learning_rate": 0.00010990353288523566,
      "loss": 1.5263,
      "step": 64783
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6252435445785522,
      "learning_rate": 0.00010989544707765207,
      "loss": 1.6295,
      "step": 64784
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6196971535682678,
      "learning_rate": 0.00010988736150082743,
      "loss": 1.5591,
      "step": 64785
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6279905438423157,
      "learning_rate": 0.00010987927615477159,
      "loss": 1.5338,
      "step": 64786
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6735151410102844,
      "learning_rate": 0.00010987119103949432,
      "loss": 1.5767,
      "step": 64787
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5990151762962341,
      "learning_rate": 0.00010986310615500525,
      "loss": 1.5259,
      "step": 64788
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6133350133895874,
      "learning_rate": 0.00010985502150131451,
      "loss": 1.5912,
      "step": 64789
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6049904227256775,
      "learning_rate": 0.00010984693707843174,
      "loss": 1.5207,
      "step": 64790
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6264949440956116,
      "learning_rate": 0.00010983885288636666,
      "loss": 1.4907,
      "step": 64791
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6313332319259644,
      "learning_rate": 0.00010983076892512921,
      "loss": 1.4979,
      "step": 64792
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6202546954154968,
      "learning_rate": 0.00010982268519472939,
      "loss": 1.599,
      "step": 64793
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.61013263463974,
      "learning_rate": 0.0001098146016951766,
      "loss": 1.4876,
      "step": 64794
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5874573588371277,
      "learning_rate": 0.00010980651842648087,
      "loss": 1.554,
      "step": 64795
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6187585592269897,
      "learning_rate": 0.00010979843538865207,
      "loss": 1.6064,
      "step": 64796
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6045198440551758,
      "learning_rate": 0.00010979035258169999,
      "loss": 1.539,
      "step": 64797
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6135002374649048,
      "learning_rate": 0.00010978227000563425,
      "loss": 1.4767,
      "step": 64798
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5959911942481995,
      "learning_rate": 0.00010977418766046485,
      "loss": 1.5462,
      "step": 64799
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6077672243118286,
      "learning_rate": 0.00010976610554620175,
      "loss": 1.4976,
      "step": 64800
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5927889347076416,
      "learning_rate": 0.00010975802366285435,
      "loss": 1.5559,
      "step": 64801
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6110110878944397,
      "learning_rate": 0.00010974994201043268,
      "loss": 1.5172,
      "step": 64802
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6292526721954346,
      "learning_rate": 0.00010974186058894664,
      "loss": 1.5658,
      "step": 64803
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6000458002090454,
      "learning_rate": 0.00010973377939840596,
      "loss": 1.5422,
      "step": 64804
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.603421688079834,
      "learning_rate": 0.00010972569843882034,
      "loss": 1.5429,
      "step": 64805
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6150878071784973,
      "learning_rate": 0.0001097176177101997,
      "loss": 1.4852,
      "step": 64806
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6195996403694153,
      "learning_rate": 0.00010970953721255404,
      "loss": 1.5209,
      "step": 64807
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6259137392044067,
      "learning_rate": 0.00010970145694589273,
      "loss": 1.4901,
      "step": 64808
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5968823432922363,
      "learning_rate": 0.00010969337691022582,
      "loss": 1.499,
      "step": 64809
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6361637711524963,
      "learning_rate": 0.00010968529710556322,
      "loss": 1.459,
      "step": 64810
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6064078211784363,
      "learning_rate": 0.00010967721753191463,
      "loss": 1.51,
      "step": 64811
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.633131742477417,
      "learning_rate": 0.00010966913818928975,
      "loss": 1.5514,
      "step": 64812
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.624080240726471,
      "learning_rate": 0.00010966105907769848,
      "loss": 1.5554,
      "step": 64813
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.654842734336853,
      "learning_rate": 0.00010965298019715086,
      "loss": 1.5501,
      "step": 64814
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6022616028785706,
      "learning_rate": 0.00010964490154765625,
      "loss": 1.5639,
      "step": 64815
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6120457649230957,
      "learning_rate": 0.00010963682312922473,
      "loss": 1.5313,
      "step": 64816
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6041886806488037,
      "learning_rate": 0.00010962874494186612,
      "loss": 1.5557,
      "step": 64817
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6455786824226379,
      "learning_rate": 0.00010962066698559017,
      "loss": 1.5659,
      "step": 64818
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6424928307533264,
      "learning_rate": 0.00010961258926040659,
      "loss": 1.5913,
      "step": 64819
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6242691278457642,
      "learning_rate": 0.00010960451176632535,
      "loss": 1.5199,
      "step": 64820
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6086786389350891,
      "learning_rate": 0.00010959643450335612,
      "loss": 1.4865,
      "step": 64821
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6116852164268494,
      "learning_rate": 0.00010958835747150882,
      "loss": 1.5912,
      "step": 64822
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6170863509178162,
      "learning_rate": 0.00010958028067079312,
      "loss": 1.5053,
      "step": 64823
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6182019710540771,
      "learning_rate": 0.00010957220410121899,
      "loss": 1.6087,
      "step": 64824
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6210693120956421,
      "learning_rate": 0.00010956412776279615,
      "loss": 1.519,
      "step": 64825
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5915104746818542,
      "learning_rate": 0.00010955605165553431,
      "loss": 1.5111,
      "step": 64826
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6233091354370117,
      "learning_rate": 0.00010954797577944348,
      "loss": 1.4683,
      "step": 64827
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6064974665641785,
      "learning_rate": 0.00010953990013453322,
      "loss": 1.5728,
      "step": 64828
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6044500470161438,
      "learning_rate": 0.00010953182472081354,
      "loss": 1.5581,
      "step": 64829
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6366074681282043,
      "learning_rate": 0.0001095237495382942,
      "loss": 1.5276,
      "step": 64830
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.586142361164093,
      "learning_rate": 0.00010951567458698482,
      "loss": 1.5252,
      "step": 64831
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6040551662445068,
      "learning_rate": 0.00010950759986689549,
      "loss": 1.5368,
      "step": 64832
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6020951867103577,
      "learning_rate": 0.00010949952537803573,
      "loss": 1.5975,
      "step": 64833
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6034135818481445,
      "learning_rate": 0.00010949145112041559,
      "loss": 1.4879,
      "step": 64834
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6073811650276184,
      "learning_rate": 0.00010948337709404467,
      "loss": 1.6031,
      "step": 64835
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6100561022758484,
      "learning_rate": 0.00010947530329893296,
      "loss": 1.5433,
      "step": 64836
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6323251128196716,
      "learning_rate": 0.00010946722973509012,
      "loss": 1.4457,
      "step": 64837
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5978026390075684,
      "learning_rate": 0.00010945915640252591,
      "loss": 1.4919,
      "step": 64838
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6224273443222046,
      "learning_rate": 0.00010945108330125033,
      "loss": 1.4672,
      "step": 64839
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5976268649101257,
      "learning_rate": 0.00010944301043127306,
      "loss": 1.5179,
      "step": 64840
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6090582609176636,
      "learning_rate": 0.0001094349377926038,
      "loss": 1.5332,
      "step": 64841
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6244482398033142,
      "learning_rate": 0.0001094268653852524,
      "loss": 1.5778,
      "step": 64842
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6084904670715332,
      "learning_rate": 0.00010941879320922885,
      "loss": 1.583,
      "step": 64843
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6010103821754456,
      "learning_rate": 0.00010941072126454279,
      "loss": 1.4416,
      "step": 64844
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6071071028709412,
      "learning_rate": 0.00010940264955120394,
      "loss": 1.5157,
      "step": 64845
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.615938127040863,
      "learning_rate": 0.00010939457806922228,
      "loss": 1.5776,
      "step": 64846
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5969147086143494,
      "learning_rate": 0.00010938650681860752,
      "loss": 1.5295,
      "step": 64847
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6044468879699707,
      "learning_rate": 0.00010937843579936935,
      "loss": 1.6008,
      "step": 64848
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6106720566749573,
      "learning_rate": 0.00010937036501151768,
      "loss": 1.4631,
      "step": 64849
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6097545623779297,
      "learning_rate": 0.00010936229445506252,
      "loss": 1.5096,
      "step": 64850
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6011707782745361,
      "learning_rate": 0.00010935422413001321,
      "loss": 1.5588,
      "step": 64851
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.615460991859436,
      "learning_rate": 0.0001093461540363798,
      "loss": 1.5711,
      "step": 64852
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.615238606929779,
      "learning_rate": 0.00010933808417417215,
      "loss": 1.5129,
      "step": 64853
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5907535552978516,
      "learning_rate": 0.00010933001454339998,
      "loss": 1.5015,
      "step": 64854
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6113190054893494,
      "learning_rate": 0.00010932194514407298,
      "loss": 1.5351,
      "step": 64855
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.615666925907135,
      "learning_rate": 0.00010931387597620104,
      "loss": 1.5632,
      "step": 64856
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6101444959640503,
      "learning_rate": 0.00010930580703979416,
      "loss": 1.5127,
      "step": 64857
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6176799535751343,
      "learning_rate": 0.00010929773833486178,
      "loss": 1.5452,
      "step": 64858
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5966545939445496,
      "learning_rate": 0.00010928966986141378,
      "loss": 1.5537,
      "step": 64859
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6089165210723877,
      "learning_rate": 0.00010928160161946014,
      "loss": 1.4962,
      "step": 64860
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5977729558944702,
      "learning_rate": 0.00010927353360901054,
      "loss": 1.496,
      "step": 64861
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5986916422843933,
      "learning_rate": 0.00010926546583007466,
      "loss": 1.5569,
      "step": 64862
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.591354250907898,
      "learning_rate": 0.00010925739828266241,
      "loss": 1.5359,
      "step": 64863
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6206352114677429,
      "learning_rate": 0.00010924933096678379,
      "loss": 1.5595,
      "step": 64864
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6042624711990356,
      "learning_rate": 0.00010924126388244815,
      "loss": 1.518,
      "step": 64865
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6024977564811707,
      "learning_rate": 0.00010923319702966552,
      "loss": 1.4959,
      "step": 64866
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5983189940452576,
      "learning_rate": 0.0001092251304084458,
      "loss": 1.5225,
      "step": 64867
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6138736605644226,
      "learning_rate": 0.00010921706401879863,
      "loss": 1.5229,
      "step": 64868
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6071920990943909,
      "learning_rate": 0.00010920899786073376,
      "loss": 1.5029,
      "step": 64869
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6090329885482788,
      "learning_rate": 0.00010920093193426111,
      "loss": 1.5398,
      "step": 64870
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5793116092681885,
      "learning_rate": 0.00010919286623939045,
      "loss": 1.5234,
      "step": 64871
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6075114607810974,
      "learning_rate": 0.00010918480077613146,
      "loss": 1.5019,
      "step": 64872
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6134411096572876,
      "learning_rate": 0.00010917673554449398,
      "loss": 1.5364,
      "step": 64873
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.599750280380249,
      "learning_rate": 0.00010916867054448792,
      "loss": 1.5137,
      "step": 64874
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6279987096786499,
      "learning_rate": 0.00010916060577612295,
      "loss": 1.5657,
      "step": 64875
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6073561906814575,
      "learning_rate": 0.00010915254123940883,
      "loss": 1.5662,
      "step": 64876
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5880221724510193,
      "learning_rate": 0.00010914447693435549,
      "loss": 1.5103,
      "step": 64877
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5819640159606934,
      "learning_rate": 0.00010913641286097264,
      "loss": 1.4949,
      "step": 64878
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6246987581253052,
      "learning_rate": 0.00010912834901926996,
      "loss": 1.6168,
      "step": 64879
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5979528427124023,
      "learning_rate": 0.00010912028540925745,
      "loss": 1.5581,
      "step": 64880
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5940699577331543,
      "learning_rate": 0.00010911222203094468,
      "loss": 1.552,
      "step": 64881
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6302071213722229,
      "learning_rate": 0.00010910415888434164,
      "loss": 1.5465,
      "step": 64882
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6185256838798523,
      "learning_rate": 0.00010909609596945793,
      "loss": 1.5119,
      "step": 64883
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6288723349571228,
      "learning_rate": 0.00010908803328630353,
      "loss": 1.6079,
      "step": 64884
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6129125356674194,
      "learning_rate": 0.00010907997083488811,
      "loss": 1.526,
      "step": 64885
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6183949112892151,
      "learning_rate": 0.0001090719086152214,
      "loss": 1.5041,
      "step": 64886
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5792692303657532,
      "learning_rate": 0.00010906384662731335,
      "loss": 1.4807,
      "step": 64887
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5955643057823181,
      "learning_rate": 0.00010905578487117355,
      "loss": 1.5887,
      "step": 64888
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6209096312522888,
      "learning_rate": 0.00010904772334681203,
      "loss": 1.5125,
      "step": 64889
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6036375761032104,
      "learning_rate": 0.0001090396620542384,
      "loss": 1.4886,
      "step": 64890
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6136889457702637,
      "learning_rate": 0.00010903160099346241,
      "loss": 1.469,
      "step": 64891
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6330329775810242,
      "learning_rate": 0.00010902354016449399,
      "loss": 1.6261,
      "step": 64892
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5986284017562866,
      "learning_rate": 0.00010901547956734277,
      "loss": 1.5321,
      "step": 64893
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5955814719200134,
      "learning_rate": 0.00010900741920201871,
      "loss": 1.5177,
      "step": 64894
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6068891286849976,
      "learning_rate": 0.00010899935906853141,
      "loss": 1.5729,
      "step": 64895
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5948633551597595,
      "learning_rate": 0.00010899129916689085,
      "loss": 1.5524,
      "step": 64896
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6090894341468811,
      "learning_rate": 0.00010898323949710667,
      "loss": 1.5925,
      "step": 64897
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6133468747138977,
      "learning_rate": 0.00010897518005918863,
      "loss": 1.5639,
      "step": 64898
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6138364672660828,
      "learning_rate": 0.00010896712085314668,
      "loss": 1.5014,
      "step": 64899
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.598240852355957,
      "learning_rate": 0.00010895906187899047,
      "loss": 1.6151,
      "step": 64900
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6052098274230957,
      "learning_rate": 0.00010895100313672973,
      "loss": 1.4893,
      "step": 64901
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6172547340393066,
      "learning_rate": 0.00010894294462637432,
      "loss": 1.5574,
      "step": 64902
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.629024863243103,
      "learning_rate": 0.00010893488634793412,
      "loss": 1.5348,
      "step": 64903
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5898343324661255,
      "learning_rate": 0.00010892682830141885,
      "loss": 1.4996,
      "step": 64904
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6137855648994446,
      "learning_rate": 0.0001089187704868381,
      "loss": 1.5183,
      "step": 64905
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6167251467704773,
      "learning_rate": 0.00010891071290420193,
      "loss": 1.5529,
      "step": 64906
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6012707352638245,
      "learning_rate": 0.00010890265555352,
      "loss": 1.5232,
      "step": 64907
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6095816493034363,
      "learning_rate": 0.00010889459843480199,
      "loss": 1.5419,
      "step": 64908
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5925577878952026,
      "learning_rate": 0.0001088865415480578,
      "loss": 1.4865,
      "step": 64909
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6296302080154419,
      "learning_rate": 0.00010887848489329736,
      "loss": 1.5332,
      "step": 64910
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5919870734214783,
      "learning_rate": 0.00010887042847053009,
      "loss": 1.5675,
      "step": 64911
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6009908318519592,
      "learning_rate": 0.00010886237227976595,
      "loss": 1.5382,
      "step": 64912
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6108387112617493,
      "learning_rate": 0.00010885431632101483,
      "loss": 1.5509,
      "step": 64913
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5964407324790955,
      "learning_rate": 0.00010884626059428642,
      "loss": 1.575,
      "step": 64914
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6321622133255005,
      "learning_rate": 0.00010883820509959039,
      "loss": 1.5683,
      "step": 64915
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.8415630459785461,
      "learning_rate": 0.00010883014983693659,
      "loss": 1.6031,
      "step": 64916
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6339294910430908,
      "learning_rate": 0.00010882209480633502,
      "loss": 1.5151,
      "step": 64917
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6203827857971191,
      "learning_rate": 0.00010881404000779507,
      "loss": 1.5674,
      "step": 64918
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6154353022575378,
      "learning_rate": 0.00010880598544132671,
      "loss": 1.575,
      "step": 64919
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6211991906166077,
      "learning_rate": 0.0001087979311069398,
      "loss": 1.51,
      "step": 64920
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6255605816841125,
      "learning_rate": 0.00010878987700464403,
      "loss": 1.5632,
      "step": 64921
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6195515394210815,
      "learning_rate": 0.00010878182313444907,
      "loss": 1.6031,
      "step": 64922
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5953333973884583,
      "learning_rate": 0.00010877376949636482,
      "loss": 1.5377,
      "step": 64923
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.611855685710907,
      "learning_rate": 0.00010876571609040124,
      "loss": 1.5176,
      "step": 64924
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5839954018592834,
      "learning_rate": 0.00010875766291656768,
      "loss": 1.449,
      "step": 64925
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6394460797309875,
      "learning_rate": 0.00010874960997487417,
      "loss": 1.6018,
      "step": 64926
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6261449456214905,
      "learning_rate": 0.00010874155726533053,
      "loss": 1.4928,
      "step": 64927
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6069900393486023,
      "learning_rate": 0.00010873350478794647,
      "loss": 1.513,
      "step": 64928
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6239387392997742,
      "learning_rate": 0.00010872545254273165,
      "loss": 1.4936,
      "step": 64929
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6052515506744385,
      "learning_rate": 0.00010871740052969593,
      "loss": 1.5875,
      "step": 64930
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5912817120552063,
      "learning_rate": 0.00010870934874884924,
      "loss": 1.5351,
      "step": 64931
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6002225875854492,
      "learning_rate": 0.0001087012972002012,
      "loss": 1.5212,
      "step": 64932
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6045847535133362,
      "learning_rate": 0.00010869324588376148,
      "loss": 1.4811,
      "step": 64933
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6017079949378967,
      "learning_rate": 0.00010868519479954007,
      "loss": 1.4539,
      "step": 64934
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6217300891876221,
      "learning_rate": 0.00010867714394754668,
      "loss": 1.599,
      "step": 64935
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6172592043876648,
      "learning_rate": 0.0001086690933277909,
      "loss": 1.5621,
      "step": 64936
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.646190881729126,
      "learning_rate": 0.00010866104294028278,
      "loss": 1.5769,
      "step": 64937
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.597693920135498,
      "learning_rate": 0.00010865299278503188,
      "loss": 1.5146,
      "step": 64938
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5842564105987549,
      "learning_rate": 0.0001086449428620481,
      "loss": 1.4986,
      "step": 64939
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6236170530319214,
      "learning_rate": 0.00010863689317134111,
      "loss": 1.5266,
      "step": 64940
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.602583110332489,
      "learning_rate": 0.00010862884371292084,
      "loss": 1.5804,
      "step": 64941
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6246849298477173,
      "learning_rate": 0.00010862079448679691,
      "loss": 1.5735,
      "step": 64942
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6029055118560791,
      "learning_rate": 0.00010861274549297909,
      "loss": 1.5173,
      "step": 64943
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5941883325576782,
      "learning_rate": 0.00010860469673147726,
      "loss": 1.483,
      "step": 64944
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5914045572280884,
      "learning_rate": 0.00010859664820230103,
      "loss": 1.5117,
      "step": 64945
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6055358648300171,
      "learning_rate": 0.00010858859990546039,
      "loss": 1.5924,
      "step": 64946
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5868457555770874,
      "learning_rate": 0.00010858055184096494,
      "loss": 1.5295,
      "step": 64947
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5975224375724792,
      "learning_rate": 0.00010857250400882445,
      "loss": 1.5517,
      "step": 64948
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5766587853431702,
      "learning_rate": 0.0001085644564090488,
      "loss": 1.488,
      "step": 64949
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5936610102653503,
      "learning_rate": 0.00010855640904164762,
      "loss": 1.58,
      "step": 64950
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6283437609672546,
      "learning_rate": 0.00010854836190663085,
      "loss": 1.5314,
      "step": 64951
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.593565821647644,
      "learning_rate": 0.00010854031500400804,
      "loss": 1.5096,
      "step": 64952
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6046884655952454,
      "learning_rate": 0.00010853226833378916,
      "loss": 1.5538,
      "step": 64953
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6215865612030029,
      "learning_rate": 0.00010852422189598395,
      "loss": 1.5131,
      "step": 64954
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.599722683429718,
      "learning_rate": 0.00010851617569060198,
      "loss": 1.4383,
      "step": 64955
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6192196011543274,
      "learning_rate": 0.00010850812971765327,
      "loss": 1.5521,
      "step": 64956
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6206713914871216,
      "learning_rate": 0.00010850008397714747,
      "loss": 1.5325,
      "step": 64957
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.609125554561615,
      "learning_rate": 0.00010849203846909426,
      "loss": 1.5404,
      "step": 64958
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.653160035610199,
      "learning_rate": 0.0001084839931935035,
      "loss": 1.5834,
      "step": 64959
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6484281420707703,
      "learning_rate": 0.00010847594815038504,
      "loss": 1.5299,
      "step": 64960
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6227827668190002,
      "learning_rate": 0.00010846790333974855,
      "loss": 1.4966,
      "step": 64961
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6195991635322571,
      "learning_rate": 0.00010845985876160372,
      "loss": 1.6297,
      "step": 64962
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6106349229812622,
      "learning_rate": 0.00010845181441596052,
      "loss": 1.5191,
      "step": 64963
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6120983958244324,
      "learning_rate": 0.00010844377030282858,
      "loss": 1.5189,
      "step": 64964
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6318273544311523,
      "learning_rate": 0.00010843572642221755,
      "loss": 1.558,
      "step": 64965
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6071040034294128,
      "learning_rate": 0.00010842768277413734,
      "loss": 1.5005,
      "step": 64966
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5972867012023926,
      "learning_rate": 0.00010841963935859793,
      "loss": 1.5345,
      "step": 64967
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6146583557128906,
      "learning_rate": 0.00010841159617560863,
      "loss": 1.5289,
      "step": 64968
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6050538420677185,
      "learning_rate": 0.0001084035532251794,
      "loss": 1.6429,
      "step": 64969
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6019154787063599,
      "learning_rate": 0.00010839551050732013,
      "loss": 1.5304,
      "step": 64970
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6395131945610046,
      "learning_rate": 0.00010838746802204052,
      "loss": 1.5346,
      "step": 64971
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.674052894115448,
      "learning_rate": 0.00010837942576935014,
      "loss": 1.5332,
      "step": 64972
    },
    {
      "epoch": 2.16,
      "grad_norm": 1.3990455865859985,
      "learning_rate": 0.00010837138374925893,
      "loss": 1.5413,
      "step": 64973
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.585340142250061,
      "learning_rate": 0.00010836334196177683,
      "loss": 1.5586,
      "step": 64974
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5976162552833557,
      "learning_rate": 0.00010835530040691316,
      "loss": 1.5872,
      "step": 64975
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6167836785316467,
      "learning_rate": 0.00010834725908467794,
      "loss": 1.5705,
      "step": 64976
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6185575127601624,
      "learning_rate": 0.00010833921799508103,
      "loss": 1.5149,
      "step": 64977
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5977851748466492,
      "learning_rate": 0.00010833117713813205,
      "loss": 1.5236,
      "step": 64978
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6111297607421875,
      "learning_rate": 0.00010832313651384066,
      "loss": 1.5592,
      "step": 64979
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6015974879264832,
      "learning_rate": 0.00010831509612221678,
      "loss": 1.5414,
      "step": 64980
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.602965235710144,
      "learning_rate": 0.00010830705596327032,
      "loss": 1.5754,
      "step": 64981
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.661768913269043,
      "learning_rate": 0.00010829901603701063,
      "loss": 1.5022,
      "step": 64982
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6291797757148743,
      "learning_rate": 0.00010829097634344771,
      "loss": 1.5519,
      "step": 64983
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6067811846733093,
      "learning_rate": 0.00010828293688259138,
      "loss": 1.6044,
      "step": 64984
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5939185619354248,
      "learning_rate": 0.00010827489765445131,
      "loss": 1.5477,
      "step": 64985
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6116568446159363,
      "learning_rate": 0.00010826685865903721,
      "loss": 1.4719,
      "step": 64986
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6122324466705322,
      "learning_rate": 0.00010825881989635896,
      "loss": 1.57,
      "step": 64987
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6252878904342651,
      "learning_rate": 0.00010825078136642625,
      "loss": 1.589,
      "step": 64988
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6073548793792725,
      "learning_rate": 0.00010824274306924874,
      "loss": 1.5668,
      "step": 64989
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5977557897567749,
      "learning_rate": 0.00010823470500483627,
      "loss": 1.5427,
      "step": 64990
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6277512311935425,
      "learning_rate": 0.00010822666717319872,
      "loss": 1.5333,
      "step": 64991
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.610308051109314,
      "learning_rate": 0.00010821862957434577,
      "loss": 1.5223,
      "step": 64992
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5950583219528198,
      "learning_rate": 0.000108210592208287,
      "loss": 1.5503,
      "step": 64993
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6327107548713684,
      "learning_rate": 0.00010820255507503245,
      "loss": 1.5754,
      "step": 64994
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6224342584609985,
      "learning_rate": 0.00010819451817459172,
      "loss": 1.5637,
      "step": 64995
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5931605100631714,
      "learning_rate": 0.0001081864815069745,
      "loss": 1.5607,
      "step": 64996
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6098830699920654,
      "learning_rate": 0.00010817844507219072,
      "loss": 1.5012,
      "step": 64997
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6363650560379028,
      "learning_rate": 0.00010817040887024996,
      "loss": 1.5838,
      "step": 64998
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5997344851493835,
      "learning_rate": 0.00010816237290116214,
      "loss": 1.495,
      "step": 64999
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6163514256477356,
      "learning_rate": 0.00010815433716493683,
      "loss": 1.5236,
      "step": 65000
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.7731967568397522,
      "learning_rate": 0.000108146301661584,
      "loss": 1.5607,
      "step": 65001
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6004440784454346,
      "learning_rate": 0.00010813826639111326,
      "loss": 1.5864,
      "step": 65002
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6085928082466125,
      "learning_rate": 0.00010813023135353434,
      "loss": 1.4443,
      "step": 65003
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6185954809188843,
      "learning_rate": 0.00010812219654885711,
      "loss": 1.5487,
      "step": 65004
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6071327924728394,
      "learning_rate": 0.00010811416197709118,
      "loss": 1.5609,
      "step": 65005
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5963501930236816,
      "learning_rate": 0.00010810612763824649,
      "loss": 1.5139,
      "step": 65006
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6404883861541748,
      "learning_rate": 0.00010809809353233267,
      "loss": 1.5749,
      "step": 65007
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.61119544506073,
      "learning_rate": 0.00010809005965935939,
      "loss": 1.5385,
      "step": 65008
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5977185368537903,
      "learning_rate": 0.00010808202601933664,
      "loss": 1.4816,
      "step": 65009
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6219141483306885,
      "learning_rate": 0.00010807399261227388,
      "loss": 1.536,
      "step": 65010
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6044111251831055,
      "learning_rate": 0.00010806595943818115,
      "loss": 1.4939,
      "step": 65011
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6153817772865295,
      "learning_rate": 0.00010805792649706796,
      "loss": 1.5126,
      "step": 65012
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5959893465042114,
      "learning_rate": 0.00010804989378894423,
      "loss": 1.5705,
      "step": 65013
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6142692565917969,
      "learning_rate": 0.00010804186131381968,
      "loss": 1.4838,
      "step": 65014
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6267801523208618,
      "learning_rate": 0.00010803382907170392,
      "loss": 1.6154,
      "step": 65015
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6201943159103394,
      "learning_rate": 0.00010802579706260694,
      "loss": 1.4613,
      "step": 65016
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6028723120689392,
      "learning_rate": 0.0001080177652865383,
      "loss": 1.5238,
      "step": 65017
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6143831610679626,
      "learning_rate": 0.00010800973374350773,
      "loss": 1.5594,
      "step": 65018
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6133454442024231,
      "learning_rate": 0.00010800170243352504,
      "loss": 1.5281,
      "step": 65019
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5915711522102356,
      "learning_rate": 0.00010799367135660012,
      "loss": 1.5195,
      "step": 65020
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.60785311460495,
      "learning_rate": 0.0001079856405127426,
      "loss": 1.5491,
      "step": 65021
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6253198385238647,
      "learning_rate": 0.00010797760990196206,
      "loss": 1.4948,
      "step": 65022
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.586158037185669,
      "learning_rate": 0.00010796957952426856,
      "loss": 1.591,
      "step": 65023
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6154360771179199,
      "learning_rate": 0.00010796154937967168,
      "loss": 1.5038,
      "step": 65024
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6078078746795654,
      "learning_rate": 0.00010795351946818112,
      "loss": 1.4925,
      "step": 65025
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5794545412063599,
      "learning_rate": 0.00010794548978980664,
      "loss": 1.5854,
      "step": 65026
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6225294470787048,
      "learning_rate": 0.00010793746034455824,
      "loss": 1.5235,
      "step": 65027
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5820314288139343,
      "learning_rate": 0.0001079294311324453,
      "loss": 1.5593,
      "step": 65028
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6044031977653503,
      "learning_rate": 0.00010792140215347773,
      "loss": 1.4631,
      "step": 65029
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6040239930152893,
      "learning_rate": 0.00010791337340766534,
      "loss": 1.4977,
      "step": 65030
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6237437725067139,
      "learning_rate": 0.00010790534489501784,
      "loss": 1.5707,
      "step": 65031
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6336095333099365,
      "learning_rate": 0.00010789731661554483,
      "loss": 1.4795,
      "step": 65032
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5974305272102356,
      "learning_rate": 0.00010788928856925619,
      "loss": 1.5467,
      "step": 65033
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5882083177566528,
      "learning_rate": 0.00010788126075616184,
      "loss": 1.5689,
      "step": 65034
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6120098829269409,
      "learning_rate": 0.00010787323317627111,
      "loss": 1.5489,
      "step": 65035
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.606417179107666,
      "learning_rate": 0.00010786520582959397,
      "loss": 1.5117,
      "step": 65036
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6242408156394958,
      "learning_rate": 0.0001078571787161403,
      "loss": 1.6334,
      "step": 65037
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6062011122703552,
      "learning_rate": 0.00010784915183591967,
      "loss": 1.6059,
      "step": 65038
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6129186749458313,
      "learning_rate": 0.00010784112518894176,
      "loss": 1.5211,
      "step": 65039
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5851014256477356,
      "learning_rate": 0.00010783309877521644,
      "loss": 1.5491,
      "step": 65040
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6039643287658691,
      "learning_rate": 0.00010782507259475358,
      "loss": 1.5846,
      "step": 65041
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6129376292228699,
      "learning_rate": 0.0001078170466475626,
      "loss": 1.4833,
      "step": 65042
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6252285838127136,
      "learning_rate": 0.00010780902093365338,
      "loss": 1.5371,
      "step": 65043
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6330769062042236,
      "learning_rate": 0.00010780099545303582,
      "loss": 1.6046,
      "step": 65044
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6313645839691162,
      "learning_rate": 0.00010779297020571952,
      "loss": 1.6129,
      "step": 65045
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6065996289253235,
      "learning_rate": 0.00010778494519171413,
      "loss": 1.5875,
      "step": 65046
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6280134916305542,
      "learning_rate": 0.00010777692041102961,
      "loss": 1.5399,
      "step": 65047
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6325758099555969,
      "learning_rate": 0.00010776889586367548,
      "loss": 1.5423,
      "step": 65048
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6155642867088318,
      "learning_rate": 0.00010776087154966165,
      "loss": 1.5729,
      "step": 65049
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6051188707351685,
      "learning_rate": 0.00010775284746899774,
      "loss": 1.5513,
      "step": 65050
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6168938875198364,
      "learning_rate": 0.00010774482362169362,
      "loss": 1.4989,
      "step": 65051
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6149172782897949,
      "learning_rate": 0.000107736800007759,
      "loss": 1.5257,
      "step": 65052
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6074012517929077,
      "learning_rate": 0.00010772877662720345,
      "loss": 1.553,
      "step": 65053
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5907506346702576,
      "learning_rate": 0.00010772075348003691,
      "loss": 1.4808,
      "step": 65054
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6006796956062317,
      "learning_rate": 0.00010771273056626898,
      "loss": 1.5271,
      "step": 65055
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6218551397323608,
      "learning_rate": 0.00010770470788590954,
      "loss": 1.5827,
      "step": 65056
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6123098134994507,
      "learning_rate": 0.00010769668543896818,
      "loss": 1.6039,
      "step": 65057
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6157458424568176,
      "learning_rate": 0.00010768866322545477,
      "loss": 1.5673,
      "step": 65058
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6339179873466492,
      "learning_rate": 0.00010768064124537902,
      "loss": 1.494,
      "step": 65059
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6155183911323547,
      "learning_rate": 0.0001076726194987505,
      "loss": 1.5263,
      "step": 65060
    },
    {
      "epoch": 2.16,
      "grad_norm": 1.2262011766433716,
      "learning_rate": 0.0001076645979855792,
      "loss": 1.5345,
      "step": 65061
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5934194326400757,
      "learning_rate": 0.00010765657670587465,
      "loss": 1.5317,
      "step": 65062
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6133702397346497,
      "learning_rate": 0.00010764855565964678,
      "loss": 1.6055,
      "step": 65063
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6069782972335815,
      "learning_rate": 0.00010764053484690523,
      "loss": 1.549,
      "step": 65064
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6008783578872681,
      "learning_rate": 0.0001076325142676596,
      "loss": 1.5412,
      "step": 65065
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6269423365592957,
      "learning_rate": 0.00010762449392191986,
      "loss": 1.57,
      "step": 65066
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6206104159355164,
      "learning_rate": 0.00010761647380969552,
      "loss": 1.4628,
      "step": 65067
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6234621405601501,
      "learning_rate": 0.00010760845393099657,
      "loss": 1.5706,
      "step": 65068
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5974318981170654,
      "learning_rate": 0.00010760043428583249,
      "loss": 1.5694,
      "step": 65069
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5975711941719055,
      "learning_rate": 0.00010759241487421323,
      "loss": 1.5529,
      "step": 65070
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6248709559440613,
      "learning_rate": 0.00010758439569614843,
      "loss": 1.5683,
      "step": 65071
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.648784339427948,
      "learning_rate": 0.00010757637675164776,
      "loss": 1.5327,
      "step": 65072
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.6041752099990845,
      "learning_rate": 0.00010756835804072106,
      "loss": 1.5141,
      "step": 65073
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.584257185459137,
      "learning_rate": 0.00010756033956337805,
      "loss": 1.613,
      "step": 65074
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6016536951065063,
      "learning_rate": 0.00010755232131962832,
      "loss": 1.5456,
      "step": 65075
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6237744092941284,
      "learning_rate": 0.00010754430330948172,
      "loss": 1.539,
      "step": 65076
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6031590104103088,
      "learning_rate": 0.0001075362855329481,
      "loss": 1.4902,
      "step": 65077
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6042856574058533,
      "learning_rate": 0.00010752826799003705,
      "loss": 1.5415,
      "step": 65078
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6047744750976562,
      "learning_rate": 0.00010752025068075823,
      "loss": 1.5313,
      "step": 65079
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6223536133766174,
      "learning_rate": 0.00010751223360512157,
      "loss": 1.5299,
      "step": 65080
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6206189393997192,
      "learning_rate": 0.00010750421676313668,
      "loss": 1.5447,
      "step": 65081
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6367623209953308,
      "learning_rate": 0.0001074962001548132,
      "loss": 1.5741,
      "step": 65082
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6059111952781677,
      "learning_rate": 0.00010748818378016102,
      "loss": 1.569,
      "step": 65083
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5922946929931641,
      "learning_rate": 0.00010748016763918997,
      "loss": 1.4906,
      "step": 65084
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5933953523635864,
      "learning_rate": 0.00010747215173190946,
      "loss": 1.6301,
      "step": 65085
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6243284344673157,
      "learning_rate": 0.00010746413605832937,
      "loss": 1.5842,
      "step": 65086
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5859522819519043,
      "learning_rate": 0.00010745612061845954,
      "loss": 1.452,
      "step": 65087
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6056119203567505,
      "learning_rate": 0.00010744810541230965,
      "loss": 1.4871,
      "step": 65088
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6055944561958313,
      "learning_rate": 0.00010744009043988926,
      "loss": 1.4179,
      "step": 65089
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6098045110702515,
      "learning_rate": 0.00010743207570120823,
      "loss": 1.5459,
      "step": 65090
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6183112859725952,
      "learning_rate": 0.00010742406119627649,
      "loss": 1.581,
      "step": 65091
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6119251251220703,
      "learning_rate": 0.00010741604692510336,
      "loss": 1.5167,
      "step": 65092
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6017711758613586,
      "learning_rate": 0.00010740803288769878,
      "loss": 1.5255,
      "step": 65093
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6166757941246033,
      "learning_rate": 0.00010740001908407257,
      "loss": 1.5356,
      "step": 65094
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6322374939918518,
      "learning_rate": 0.00010739200551423434,
      "loss": 1.5547,
      "step": 65095
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5892539024353027,
      "learning_rate": 0.00010738399217819374,
      "loss": 1.4625,
      "step": 65096
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6025711297988892,
      "learning_rate": 0.00010737597907596063,
      "loss": 1.5595,
      "step": 65097
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6114156246185303,
      "learning_rate": 0.00010736796620754487,
      "loss": 1.6103,
      "step": 65098
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6334375143051147,
      "learning_rate": 0.00010735995357295581,
      "loss": 1.5348,
      "step": 65099
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6110975742340088,
      "learning_rate": 0.0001073519411722034,
      "loss": 1.58,
      "step": 65100
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6009970903396606,
      "learning_rate": 0.00010734392900529743,
      "loss": 1.5433,
      "step": 65101
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6149096488952637,
      "learning_rate": 0.00010733591707224757,
      "loss": 1.5059,
      "step": 65102
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5987297892570496,
      "learning_rate": 0.0001073279053730634,
      "loss": 1.5761,
      "step": 65103
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6100086569786072,
      "learning_rate": 0.00010731989390775487,
      "loss": 1.4924,
      "step": 65104
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.619460940361023,
      "learning_rate": 0.00010731188267633159,
      "loss": 1.5218,
      "step": 65105
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6136161088943481,
      "learning_rate": 0.0001073038716788032,
      "loss": 1.4854,
      "step": 65106
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6138141751289368,
      "learning_rate": 0.00010729586091517951,
      "loss": 1.5455,
      "step": 65107
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6154195070266724,
      "learning_rate": 0.00010728785038547035,
      "loss": 1.5225,
      "step": 65108
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6085801720619202,
      "learning_rate": 0.00010727984008968537,
      "loss": 1.5487,
      "step": 65109
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5988572239875793,
      "learning_rate": 0.00010727183002783414,
      "loss": 1.5248,
      "step": 65110
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6079497337341309,
      "learning_rate": 0.00010726382019992663,
      "loss": 1.5027,
      "step": 65111
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6064075231552124,
      "learning_rate": 0.00010725581060597244,
      "loss": 1.5478,
      "step": 65112
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6101898550987244,
      "learning_rate": 0.00010724780124598118,
      "loss": 1.5569,
      "step": 65113
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6057825088500977,
      "learning_rate": 0.00010723979211996282,
      "loss": 1.5075,
      "step": 65114
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6189281940460205,
      "learning_rate": 0.00010723178322792683,
      "loss": 1.5397,
      "step": 65115
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6037710905075073,
      "learning_rate": 0.00010722377456988315,
      "loss": 1.4828,
      "step": 65116
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6205061078071594,
      "learning_rate": 0.0001072157661458413,
      "loss": 1.5049,
      "step": 65117
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6122626066207886,
      "learning_rate": 0.00010720775795581124,
      "loss": 1.5973,
      "step": 65118
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6130737662315369,
      "learning_rate": 0.0001071997499998025,
      "loss": 1.5972,
      "step": 65119
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.588333010673523,
      "learning_rate": 0.00010719174227782479,
      "loss": 1.6103,
      "step": 65120
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6091606616973877,
      "learning_rate": 0.000107183734789888,
      "loss": 1.5904,
      "step": 65121
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6090590953826904,
      "learning_rate": 0.00010717572753600162,
      "loss": 1.514,
      "step": 65122
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6357930302619934,
      "learning_rate": 0.00010716772051617561,
      "loss": 1.5261,
      "step": 65123
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6264827847480774,
      "learning_rate": 0.00010715971373041957,
      "loss": 1.5562,
      "step": 65124
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.608415961265564,
      "learning_rate": 0.00010715170717874315,
      "loss": 1.5511,
      "step": 65125
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6072413921356201,
      "learning_rate": 0.00010714370086115621,
      "loss": 1.5428,
      "step": 65126
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5959945321083069,
      "learning_rate": 0.00010713569477766831,
      "loss": 1.5402,
      "step": 65127
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6382699608802795,
      "learning_rate": 0.00010712768892828934,
      "loss": 1.6045,
      "step": 65128
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6119813919067383,
      "learning_rate": 0.00010711968331302887,
      "loss": 1.499,
      "step": 65129
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6284725666046143,
      "learning_rate": 0.00010711167793189678,
      "loss": 1.5183,
      "step": 65130
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6267610192298889,
      "learning_rate": 0.0001071036727849027,
      "loss": 1.5157,
      "step": 65131
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.641258716583252,
      "learning_rate": 0.0001070956678720562,
      "loss": 1.5506,
      "step": 65132
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5975227952003479,
      "learning_rate": 0.00010708766319336729,
      "loss": 1.5768,
      "step": 65133
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.592088520526886,
      "learning_rate": 0.0001070796587488455,
      "loss": 1.509,
      "step": 65134
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6127980947494507,
      "learning_rate": 0.00010707165453850046,
      "loss": 1.5952,
      "step": 65135
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6173229217529297,
      "learning_rate": 0.00010706365056234204,
      "loss": 1.513,
      "step": 65136
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6419255137443542,
      "learning_rate": 0.00010705564682038001,
      "loss": 1.5856,
      "step": 65137
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6008983850479126,
      "learning_rate": 0.00010704764331262398,
      "loss": 1.5728,
      "step": 65138
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6002382636070251,
      "learning_rate": 0.00010703964003908363,
      "loss": 1.5155,
      "step": 65139
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6387609243392944,
      "learning_rate": 0.00010703163699976877,
      "loss": 1.5441,
      "step": 65140
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6397516131401062,
      "learning_rate": 0.00010702363419468908,
      "loss": 1.5442,
      "step": 65141
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6366209983825684,
      "learning_rate": 0.00010701563162385418,
      "loss": 1.492,
      "step": 65142
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6306527853012085,
      "learning_rate": 0.00010700762928727386,
      "loss": 1.5285,
      "step": 65143
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6093152761459351,
      "learning_rate": 0.00010699962718495806,
      "loss": 1.5261,
      "step": 65144
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6283876299858093,
      "learning_rate": 0.00010699162531691605,
      "loss": 1.5564,
      "step": 65145
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6529414653778076,
      "learning_rate": 0.00010698362368315777,
      "loss": 1.5077,
      "step": 65146
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6221165060997009,
      "learning_rate": 0.00010697562228369304,
      "loss": 1.5748,
      "step": 65147
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6021660566329956,
      "learning_rate": 0.00010696762111853145,
      "loss": 1.5148,
      "step": 65148
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6150887608528137,
      "learning_rate": 0.00010695962018768267,
      "loss": 1.5623,
      "step": 65149
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.628683865070343,
      "learning_rate": 0.00010695161949115641,
      "loss": 1.5975,
      "step": 65150
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6137348413467407,
      "learning_rate": 0.00010694361902896267,
      "loss": 1.5992,
      "step": 65151
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6237295269966125,
      "learning_rate": 0.00010693561880111075,
      "loss": 1.5162,
      "step": 65152
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5916321873664856,
      "learning_rate": 0.0001069276188076105,
      "loss": 1.4638,
      "step": 65153
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6238945126533508,
      "learning_rate": 0.00010691961904847181,
      "loss": 1.5089,
      "step": 65154
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6101629734039307,
      "learning_rate": 0.00010691161952370422,
      "loss": 1.5426,
      "step": 65155
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6094092130661011,
      "learning_rate": 0.0001069036202333174,
      "loss": 1.515,
      "step": 65156
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6502265334129333,
      "learning_rate": 0.00010689562117732113,
      "loss": 1.5437,
      "step": 65157
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6007208228111267,
      "learning_rate": 0.00010688762235572531,
      "loss": 1.5119,
      "step": 65158
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5962575674057007,
      "learning_rate": 0.00010687962376853925,
      "loss": 1.6337,
      "step": 65159
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6106922626495361,
      "learning_rate": 0.00010687162541577292,
      "loss": 1.5675,
      "step": 65160
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6246432065963745,
      "learning_rate": 0.00010686362729743602,
      "loss": 1.5252,
      "step": 65161
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5878536701202393,
      "learning_rate": 0.00010685562941353826,
      "loss": 1.5896,
      "step": 65162
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6139878630638123,
      "learning_rate": 0.0001068476317640892,
      "loss": 1.4965,
      "step": 65163
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6088430881500244,
      "learning_rate": 0.00010683963434909876,
      "loss": 1.5342,
      "step": 65164
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.619486927986145,
      "learning_rate": 0.00010683163716857645,
      "loss": 1.5661,
      "step": 65165
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.611847996711731,
      "learning_rate": 0.00010682364022253216,
      "loss": 1.5116,
      "step": 65166
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6061496734619141,
      "learning_rate": 0.0001068156435109754,
      "loss": 1.5432,
      "step": 65167
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6139283180236816,
      "learning_rate": 0.00010680764703391608,
      "loss": 1.4999,
      "step": 65168
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.634893536567688,
      "learning_rate": 0.00010679965079136381,
      "loss": 1.554,
      "step": 65169
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6273497939109802,
      "learning_rate": 0.00010679165478332821,
      "loss": 1.612,
      "step": 65170
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5966740250587463,
      "learning_rate": 0.00010678365900981919,
      "loss": 1.544,
      "step": 65171
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6052966117858887,
      "learning_rate": 0.00010677566347084622,
      "loss": 1.4855,
      "step": 65172
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6135793328285217,
      "learning_rate": 0.00010676766816641922,
      "loss": 1.4949,
      "step": 65173
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6190499663352966,
      "learning_rate": 0.00010675967309654768,
      "loss": 1.5289,
      "step": 65174
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.603864312171936,
      "learning_rate": 0.00010675167826124157,
      "loss": 1.5979,
      "step": 65175
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6406885981559753,
      "learning_rate": 0.00010674368366051041,
      "loss": 1.605,
      "step": 65176
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6161463260650635,
      "learning_rate": 0.00010673568929436388,
      "loss": 1.5536,
      "step": 65177
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6297786831855774,
      "learning_rate": 0.00010672769516281182,
      "loss": 1.5718,
      "step": 65178
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6281648874282837,
      "learning_rate": 0.00010671970126586377,
      "loss": 1.5831,
      "step": 65179
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6104270815849304,
      "learning_rate": 0.0001067117076035296,
      "loss": 1.6128,
      "step": 65180
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6249569654464722,
      "learning_rate": 0.00010670371417581897,
      "loss": 1.5513,
      "step": 65181
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6123195290565491,
      "learning_rate": 0.00010669572098274144,
      "loss": 1.5377,
      "step": 65182
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.596987247467041,
      "learning_rate": 0.00010668772802430691,
      "loss": 1.5021,
      "step": 65183
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6105044484138489,
      "learning_rate": 0.00010667973530052492,
      "loss": 1.5725,
      "step": 65184
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6000427603721619,
      "learning_rate": 0.00010667174281140533,
      "loss": 1.5804,
      "step": 65185
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6153581738471985,
      "learning_rate": 0.00010666375055695767,
      "loss": 1.5141,
      "step": 65186
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5912803411483765,
      "learning_rate": 0.00010665575853719183,
      "loss": 1.5485,
      "step": 65187
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6198445558547974,
      "learning_rate": 0.00010664776675211738,
      "loss": 1.5474,
      "step": 65188
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6094385981559753,
      "learning_rate": 0.00010663977520174399,
      "loss": 1.6039,
      "step": 65189
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5863089561462402,
      "learning_rate": 0.0001066317838860815,
      "loss": 1.5226,
      "step": 65190
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6250723600387573,
      "learning_rate": 0.00010662379280513953,
      "loss": 1.6365,
      "step": 65191
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6088442802429199,
      "learning_rate": 0.0001066158019589277,
      "loss": 1.6189,
      "step": 65192
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.609514057636261,
      "learning_rate": 0.0001066078113474558,
      "loss": 1.5368,
      "step": 65193
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5891455411911011,
      "learning_rate": 0.0001065998209707336,
      "loss": 1.4724,
      "step": 65194
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6192275881767273,
      "learning_rate": 0.00010659183082877073,
      "loss": 1.5456,
      "step": 65195
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.626230776309967,
      "learning_rate": 0.00010658384092157676,
      "loss": 1.5249,
      "step": 65196
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6260835528373718,
      "learning_rate": 0.00010657585124916164,
      "loss": 1.5666,
      "step": 65197
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6180412173271179,
      "learning_rate": 0.00010656786181153492,
      "loss": 1.5237,
      "step": 65198
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6032721400260925,
      "learning_rate": 0.00010655987260870623,
      "loss": 1.5421,
      "step": 65199
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6160202622413635,
      "learning_rate": 0.00010655188364068534,
      "loss": 1.5855,
      "step": 65200
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.616626501083374,
      "learning_rate": 0.00010654389490748216,
      "loss": 1.5214,
      "step": 65201
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6151261329650879,
      "learning_rate": 0.00010653590640910598,
      "loss": 1.6086,
      "step": 65202
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6571949124336243,
      "learning_rate": 0.00010652791814556674,
      "loss": 1.5151,
      "step": 65203
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6048086881637573,
      "learning_rate": 0.00010651993011687416,
      "loss": 1.4611,
      "step": 65204
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5986435413360596,
      "learning_rate": 0.00010651194232303789,
      "loss": 1.5161,
      "step": 65205
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6129115223884583,
      "learning_rate": 0.00010650395476406751,
      "loss": 1.5283,
      "step": 65206
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6344330310821533,
      "learning_rate": 0.00010649596743997282,
      "loss": 1.5204,
      "step": 65207
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.615797221660614,
      "learning_rate": 0.00010648798035076373,
      "loss": 1.5419,
      "step": 65208
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6230954527854919,
      "learning_rate": 0.00010647999349644949,
      "loss": 1.5051,
      "step": 65209
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5990852117538452,
      "learning_rate": 0.00010647200687704004,
      "loss": 1.4974,
      "step": 65210
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6280801892280579,
      "learning_rate": 0.00010646402049254518,
      "loss": 1.5361,
      "step": 65211
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6172904968261719,
      "learning_rate": 0.00010645603434297447,
      "loss": 1.5429,
      "step": 65212
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6027182340621948,
      "learning_rate": 0.00010644804842833748,
      "loss": 1.5389,
      "step": 65213
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6560385823249817,
      "learning_rate": 0.00010644006274864407,
      "loss": 1.5555,
      "step": 65214
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6295594573020935,
      "learning_rate": 0.00010643207730390412,
      "loss": 1.598,
      "step": 65215
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5853773951530457,
      "learning_rate": 0.00010642409209412688,
      "loss": 1.4957,
      "step": 65216
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5945343971252441,
      "learning_rate": 0.00010641610711932227,
      "loss": 1.4996,
      "step": 65217
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6088746190071106,
      "learning_rate": 0.00010640812237950012,
      "loss": 1.5121,
      "step": 65218
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6078713536262512,
      "learning_rate": 0.00010640013787466994,
      "loss": 1.5899,
      "step": 65219
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6059950590133667,
      "learning_rate": 0.00010639215360484139,
      "loss": 1.4917,
      "step": 65220
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6076952815055847,
      "learning_rate": 0.00010638416957002435,
      "loss": 1.5794,
      "step": 65221
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6021971702575684,
      "learning_rate": 0.00010637618577022837,
      "loss": 1.5088,
      "step": 65222
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6145021915435791,
      "learning_rate": 0.00010636820220546309,
      "loss": 1.5239,
      "step": 65223
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6317659020423889,
      "learning_rate": 0.00010636021887573827,
      "loss": 1.5943,
      "step": 65224
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6253983378410339,
      "learning_rate": 0.00010635223578106373,
      "loss": 1.5948,
      "step": 65225
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6312794089317322,
      "learning_rate": 0.00010634425292144901,
      "loss": 1.6007,
      "step": 65226
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6248356699943542,
      "learning_rate": 0.00010633627029690378,
      "loss": 1.6142,
      "step": 65227
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.621523380279541,
      "learning_rate": 0.00010632828790743784,
      "loss": 1.496,
      "step": 65228
    },
    {
      "epoch": 2.17,
      "grad_norm": 1.2386077642440796,
      "learning_rate": 0.00010632030575306083,
      "loss": 1.5274,
      "step": 65229
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6076934933662415,
      "learning_rate": 0.00010631232383378238,
      "loss": 1.5869,
      "step": 65230
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6125059127807617,
      "learning_rate": 0.00010630434214961228,
      "loss": 1.5791,
      "step": 65231
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6182737350463867,
      "learning_rate": 0.00010629636070056006,
      "loss": 1.5224,
      "step": 65232
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5963541865348816,
      "learning_rate": 0.00010628837948663567,
      "loss": 1.4222,
      "step": 65233
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6150047183036804,
      "learning_rate": 0.0001062803985078485,
      "loss": 1.5674,
      "step": 65234
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5994711518287659,
      "learning_rate": 0.00010627241776420852,
      "loss": 1.5693,
      "step": 65235
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6019890904426575,
      "learning_rate": 0.00010626443725572524,
      "loss": 1.5366,
      "step": 65236
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6006025075912476,
      "learning_rate": 0.0001062564569824083,
      "loss": 1.4858,
      "step": 65237
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6021143198013306,
      "learning_rate": 0.00010624847694426758,
      "loss": 1.533,
      "step": 65238
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6167886257171631,
      "learning_rate": 0.00010624049714131256,
      "loss": 1.5015,
      "step": 65239
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5953210592269897,
      "learning_rate": 0.00010623251757355314,
      "loss": 1.5048,
      "step": 65240
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6148927211761475,
      "learning_rate": 0.00010622453824099888,
      "loss": 1.4218,
      "step": 65241
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6085931658744812,
      "learning_rate": 0.0001062165591436594,
      "loss": 1.5723,
      "step": 65242
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.592788577079773,
      "learning_rate": 0.00010620858028154452,
      "loss": 1.5719,
      "step": 65243
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6027922034263611,
      "learning_rate": 0.00010620060165466381,
      "loss": 1.4906,
      "step": 65244
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5874587297439575,
      "learning_rate": 0.00010619262326302709,
      "loss": 1.5545,
      "step": 65245
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6164411902427673,
      "learning_rate": 0.00010618464510664388,
      "loss": 1.532,
      "step": 65246
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6235925555229187,
      "learning_rate": 0.00010617666718552405,
      "loss": 1.5426,
      "step": 65247
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.608057975769043,
      "learning_rate": 0.00010616868949967719,
      "loss": 1.5592,
      "step": 65248
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5834289193153381,
      "learning_rate": 0.0001061607120491129,
      "loss": 1.5401,
      "step": 65249
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6012902855873108,
      "learning_rate": 0.00010615273483384102,
      "loss": 1.5334,
      "step": 65250
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6233405470848083,
      "learning_rate": 0.00010614475785387118,
      "loss": 1.5163,
      "step": 65251
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5976919531822205,
      "learning_rate": 0.00010613678110921292,
      "loss": 1.4875,
      "step": 65252
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6474946141242981,
      "learning_rate": 0.00010612880459987604,
      "loss": 1.534,
      "step": 65253
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6309773921966553,
      "learning_rate": 0.00010612082832587032,
      "loss": 1.4712,
      "step": 65254
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6099081039428711,
      "learning_rate": 0.00010611285228720535,
      "loss": 1.5448,
      "step": 65255
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6012376546859741,
      "learning_rate": 0.00010610487648389075,
      "loss": 1.5679,
      "step": 65256
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6101122498512268,
      "learning_rate": 0.00010609690091593632,
      "loss": 1.5396,
      "step": 65257
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6383044123649597,
      "learning_rate": 0.00010608892558335168,
      "loss": 1.5457,
      "step": 65258
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6150622963905334,
      "learning_rate": 0.00010608095048614646,
      "loss": 1.5228,
      "step": 65259
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6069149374961853,
      "learning_rate": 0.00010607297562433033,
      "loss": 1.5511,
      "step": 65260
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6152130961418152,
      "learning_rate": 0.00010606500099791328,
      "loss": 1.5909,
      "step": 65261
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6109941005706787,
      "learning_rate": 0.00010605702660690452,
      "loss": 1.5204,
      "step": 65262
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6322285532951355,
      "learning_rate": 0.00010604905245131395,
      "loss": 1.5796,
      "step": 65263
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6308581233024597,
      "learning_rate": 0.00010604107853115139,
      "loss": 1.5637,
      "step": 65264
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6072745323181152,
      "learning_rate": 0.00010603310484642633,
      "loss": 1.5752,
      "step": 65265
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.600875735282898,
      "learning_rate": 0.00010602513139714843,
      "loss": 1.5632,
      "step": 65266
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6089125871658325,
      "learning_rate": 0.00010601715818332745,
      "loss": 1.5328,
      "step": 65267
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6056241393089294,
      "learning_rate": 0.00010600918520497326,
      "loss": 1.5832,
      "step": 65268
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.616863489151001,
      "learning_rate": 0.0001060012124620951,
      "loss": 1.5536,
      "step": 65269
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.60782390832901,
      "learning_rate": 0.0001059932399547029,
      "loss": 1.5735,
      "step": 65270
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6129615902900696,
      "learning_rate": 0.00010598526768280643,
      "loss": 1.6012,
      "step": 65271
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6314614415168762,
      "learning_rate": 0.00010597729564641527,
      "loss": 1.4597,
      "step": 65272
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5928448438644409,
      "learning_rate": 0.00010596932384553896,
      "loss": 1.5316,
      "step": 65273
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6265941858291626,
      "learning_rate": 0.0001059613522801873,
      "loss": 1.5008,
      "step": 65274
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6212942004203796,
      "learning_rate": 0.00010595338095037008,
      "loss": 1.4663,
      "step": 65275
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6000731587409973,
      "learning_rate": 0.00010594540985609687,
      "loss": 1.4668,
      "step": 65276
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6128248572349548,
      "learning_rate": 0.00010593743899737724,
      "loss": 1.5691,
      "step": 65277
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6071742177009583,
      "learning_rate": 0.00010592946837422105,
      "loss": 1.5135,
      "step": 65278
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6086727380752563,
      "learning_rate": 0.00010592149798663792,
      "loss": 1.5399,
      "step": 65279
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5997551083564758,
      "learning_rate": 0.00010591352783463737,
      "loss": 1.5322,
      "step": 65280
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6401602029800415,
      "learning_rate": 0.0001059055579182293,
      "loss": 1.5797,
      "step": 65281
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5916971564292908,
      "learning_rate": 0.00010589758823742317,
      "loss": 1.5098,
      "step": 65282
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6164094805717468,
      "learning_rate": 0.0001058896187922289,
      "loss": 1.4761,
      "step": 65283
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6133976578712463,
      "learning_rate": 0.00010588164958265592,
      "loss": 1.5621,
      "step": 65284
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5940199494361877,
      "learning_rate": 0.00010587368060871409,
      "loss": 1.5282,
      "step": 65285
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6219639182090759,
      "learning_rate": 0.00010586571187041304,
      "loss": 1.5341,
      "step": 65286
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6076285243034363,
      "learning_rate": 0.00010585774336776231,
      "loss": 1.4888,
      "step": 65287
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6005871295928955,
      "learning_rate": 0.00010584977510077178,
      "loss": 1.5413,
      "step": 65288
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6228523254394531,
      "learning_rate": 0.00010584180706945091,
      "loss": 1.588,
      "step": 65289
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6225246787071228,
      "learning_rate": 0.00010583383927380956,
      "loss": 1.5918,
      "step": 65290
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6109046339988708,
      "learning_rate": 0.00010582587171385732,
      "loss": 1.5565,
      "step": 65291
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6159325242042542,
      "learning_rate": 0.00010581790438960378,
      "loss": 1.5455,
      "step": 65292
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5949126482009888,
      "learning_rate": 0.00010580993730105879,
      "loss": 1.6222,
      "step": 65293
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6143116354942322,
      "learning_rate": 0.00010580197044823181,
      "loss": 1.5383,
      "step": 65294
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5965891480445862,
      "learning_rate": 0.00010579400383113273,
      "loss": 1.5574,
      "step": 65295
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5983155369758606,
      "learning_rate": 0.00010578603744977102,
      "loss": 1.5449,
      "step": 65296
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6000111699104309,
      "learning_rate": 0.00010577807130415657,
      "loss": 1.4984,
      "step": 65297
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6090333461761475,
      "learning_rate": 0.00010577010539429889,
      "loss": 1.4817,
      "step": 65298
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5722106695175171,
      "learning_rate": 0.00010576213972020758,
      "loss": 1.4997,
      "step": 65299
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5980607271194458,
      "learning_rate": 0.00010575417428189255,
      "loss": 1.5935,
      "step": 65300
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6110473871231079,
      "learning_rate": 0.0001057462090793632,
      "loss": 1.4692,
      "step": 65301
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.623778223991394,
      "learning_rate": 0.00010573824411262944,
      "loss": 1.5072,
      "step": 65302
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6087111830711365,
      "learning_rate": 0.00010573027938170071,
      "loss": 1.4962,
      "step": 65303
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6259087920188904,
      "learning_rate": 0.00010572231488658693,
      "loss": 1.4841,
      "step": 65304
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6040407419204712,
      "learning_rate": 0.0001057143506272976,
      "loss": 1.4903,
      "step": 65305
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6102213263511658,
      "learning_rate": 0.00010570638660384232,
      "loss": 1.4583,
      "step": 65306
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6026285886764526,
      "learning_rate": 0.00010569842281623099,
      "loss": 1.5078,
      "step": 65307
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6034761071205139,
      "learning_rate": 0.00010569045926447313,
      "loss": 1.5614,
      "step": 65308
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6044713854789734,
      "learning_rate": 0.00010568249594857833,
      "loss": 1.5601,
      "step": 65309
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6079633235931396,
      "learning_rate": 0.00010567453286855632,
      "loss": 1.5881,
      "step": 65310
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5884281992912292,
      "learning_rate": 0.00010566657002441692,
      "loss": 1.5674,
      "step": 65311
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6031243801116943,
      "learning_rate": 0.0001056586074161697,
      "loss": 1.5182,
      "step": 65312
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5898004770278931,
      "learning_rate": 0.00010565064504382413,
      "loss": 1.5553,
      "step": 65313
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6280654072761536,
      "learning_rate": 0.0001056426829073902,
      "loss": 1.5173,
      "step": 65314
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6194793581962585,
      "learning_rate": 0.00010563472100687737,
      "loss": 1.5247,
      "step": 65315
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5987435579299927,
      "learning_rate": 0.00010562675934229527,
      "loss": 1.5536,
      "step": 65316
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5993288159370422,
      "learning_rate": 0.00010561879791365365,
      "loss": 1.5046,
      "step": 65317
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.592965841293335,
      "learning_rate": 0.00010561083672096236,
      "loss": 1.631,
      "step": 65318
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5998458862304688,
      "learning_rate": 0.00010560287576423066,
      "loss": 1.5208,
      "step": 65319
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5927163362503052,
      "learning_rate": 0.00010559491504346844,
      "loss": 1.5884,
      "step": 65320
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6162695288658142,
      "learning_rate": 0.00010558695455868546,
      "loss": 1.5837,
      "step": 65321
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6374536752700806,
      "learning_rate": 0.00010557899430989126,
      "loss": 1.5176,
      "step": 65322
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6147419810295105,
      "learning_rate": 0.00010557103429709542,
      "loss": 1.5484,
      "step": 65323
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6004543900489807,
      "learning_rate": 0.0001055630745203077,
      "loss": 1.6091,
      "step": 65324
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6279887557029724,
      "learning_rate": 0.00010555511497953795,
      "loss": 1.4645,
      "step": 65325
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6098723411560059,
      "learning_rate": 0.00010554715567479543,
      "loss": 1.5178,
      "step": 65326
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6236652135848999,
      "learning_rate": 0.00010553919660609003,
      "loss": 1.6521,
      "step": 65327
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6017135381698608,
      "learning_rate": 0.00010553123777343148,
      "loss": 1.5042,
      "step": 65328
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5910918116569519,
      "learning_rate": 0.00010552327917682937,
      "loss": 1.4859,
      "step": 65329
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6057688593864441,
      "learning_rate": 0.00010551532081629323,
      "loss": 1.5234,
      "step": 65330
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6197542548179626,
      "learning_rate": 0.00010550736269183284,
      "loss": 1.522,
      "step": 65331
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6329654455184937,
      "learning_rate": 0.00010549940480345805,
      "loss": 1.4794,
      "step": 65332
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6123441457748413,
      "learning_rate": 0.00010549144715117811,
      "loss": 1.568,
      "step": 65333
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6091848015785217,
      "learning_rate": 0.00010548348973500294,
      "loss": 1.5599,
      "step": 65334
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6131796836853027,
      "learning_rate": 0.0001054755325549422,
      "loss": 1.4999,
      "step": 65335
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6211615800857544,
      "learning_rate": 0.00010546757561100554,
      "loss": 1.553,
      "step": 65336
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6058624386787415,
      "learning_rate": 0.00010545961890320249,
      "loss": 1.5732,
      "step": 65337
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6469881534576416,
      "learning_rate": 0.00010545166243154286,
      "loss": 1.5268,
      "step": 65338
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6037392020225525,
      "learning_rate": 0.00010544370619603627,
      "loss": 1.4986,
      "step": 65339
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5992003679275513,
      "learning_rate": 0.00010543575019669224,
      "loss": 1.5289,
      "step": 65340
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6034270524978638,
      "learning_rate": 0.00010542779443352055,
      "loss": 1.5515,
      "step": 65341
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6316642165184021,
      "learning_rate": 0.00010541983890653094,
      "loss": 1.5474,
      "step": 65342
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6328654289245605,
      "learning_rate": 0.00010541188361573296,
      "loss": 1.5552,
      "step": 65343
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6148126721382141,
      "learning_rate": 0.0001054039285611362,
      "loss": 1.5598,
      "step": 65344
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5918956398963928,
      "learning_rate": 0.00010539597374275051,
      "loss": 1.5703,
      "step": 65345
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6248887181282043,
      "learning_rate": 0.00010538801916058545,
      "loss": 1.5963,
      "step": 65346
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6183762550354004,
      "learning_rate": 0.00010538006481465052,
      "loss": 1.5768,
      "step": 65347
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5921977162361145,
      "learning_rate": 0.00010537211070495563,
      "loss": 1.5586,
      "step": 65348
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6218262910842896,
      "learning_rate": 0.00010536415683151021,
      "loss": 1.5667,
      "step": 65349
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6318089962005615,
      "learning_rate": 0.00010535620319432414,
      "loss": 1.565,
      "step": 65350
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5992217659950256,
      "learning_rate": 0.00010534824979340686,
      "loss": 1.5088,
      "step": 65351
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6162186861038208,
      "learning_rate": 0.00010534029662876822,
      "loss": 1.5343,
      "step": 65352
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6132084727287292,
      "learning_rate": 0.00010533234370041779,
      "loss": 1.5614,
      "step": 65353
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6285853385925293,
      "learning_rate": 0.0001053243910083651,
      "loss": 1.4817,
      "step": 65354
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6534140110015869,
      "learning_rate": 0.00010531643855262,
      "loss": 1.6118,
      "step": 65355
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6123937964439392,
      "learning_rate": 0.00010530848633319198,
      "loss": 1.4962,
      "step": 65356
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6212310194969177,
      "learning_rate": 0.00010530053435009087,
      "loss": 1.6296,
      "step": 65357
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6318407654762268,
      "learning_rate": 0.00010529258260332621,
      "loss": 1.5989,
      "step": 65358
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5972989797592163,
      "learning_rate": 0.00010528463109290758,
      "loss": 1.4846,
      "step": 65359
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6425738334655762,
      "learning_rate": 0.00010527667981884481,
      "loss": 1.4944,
      "step": 65360
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5929134488105774,
      "learning_rate": 0.00010526872878114738,
      "loss": 1.5018,
      "step": 65361
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5989753603935242,
      "learning_rate": 0.00010526077797982508,
      "loss": 1.5257,
      "step": 65362
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5918899774551392,
      "learning_rate": 0.00010525282741488745,
      "loss": 1.5853,
      "step": 65363
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6148993372917175,
      "learning_rate": 0.00010524487708634426,
      "loss": 1.5493,
      "step": 65364
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5904362201690674,
      "learning_rate": 0.00010523692699420509,
      "loss": 1.5112,
      "step": 65365
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6089407801628113,
      "learning_rate": 0.00010522897713847951,
      "loss": 1.5131,
      "step": 65366
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6093767285346985,
      "learning_rate": 0.00010522102751917737,
      "loss": 1.5157,
      "step": 65367
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6193731427192688,
      "learning_rate": 0.00010521307813630817,
      "loss": 1.5359,
      "step": 65368
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6157243251800537,
      "learning_rate": 0.0001052051289898815,
      "loss": 1.5811,
      "step": 65369
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6024242043495178,
      "learning_rate": 0.0001051971800799071,
      "loss": 1.5867,
      "step": 65370
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6151624321937561,
      "learning_rate": 0.00010518923140639474,
      "loss": 1.5347,
      "step": 65371
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.6062913537025452,
      "learning_rate": 0.00010518128296935392,
      "loss": 1.5872,
      "step": 65372
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.8496673703193665,
      "learning_rate": 0.00010517333476879423,
      "loss": 1.5633,
      "step": 65373
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6003151535987854,
      "learning_rate": 0.00010516538680472551,
      "loss": 1.5131,
      "step": 65374
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6132921576499939,
      "learning_rate": 0.00010515743907715732,
      "loss": 1.5441,
      "step": 65375
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6207684874534607,
      "learning_rate": 0.00010514949158609916,
      "loss": 1.4935,
      "step": 65376
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.600538432598114,
      "learning_rate": 0.00010514154433156084,
      "loss": 1.4911,
      "step": 65377
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5889182686805725,
      "learning_rate": 0.00010513359731355215,
      "loss": 1.5422,
      "step": 65378
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.599111795425415,
      "learning_rate": 0.00010512565053208234,
      "loss": 1.4726,
      "step": 65379
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6155797839164734,
      "learning_rate": 0.00010511770398716132,
      "loss": 1.5728,
      "step": 65380
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6080449223518372,
      "learning_rate": 0.00010510975767879877,
      "loss": 1.5271,
      "step": 65381
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6012439131736755,
      "learning_rate": 0.00010510181160700425,
      "loss": 1.5533,
      "step": 65382
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6290528178215027,
      "learning_rate": 0.00010509386577178733,
      "loss": 1.6001,
      "step": 65383
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.624417245388031,
      "learning_rate": 0.00010508592017315775,
      "loss": 1.5707,
      "step": 65384
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6163121461868286,
      "learning_rate": 0.0001050779748111253,
      "loss": 1.5667,
      "step": 65385
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6064116954803467,
      "learning_rate": 0.00010507002968569931,
      "loss": 1.526,
      "step": 65386
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.590782105922699,
      "learning_rate": 0.00010506208479688957,
      "loss": 1.4813,
      "step": 65387
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6170819401741028,
      "learning_rate": 0.00010505414014470585,
      "loss": 1.5814,
      "step": 65388
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6390404105186462,
      "learning_rate": 0.00010504619572915766,
      "loss": 1.573,
      "step": 65389
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6102516651153564,
      "learning_rate": 0.00010503825155025456,
      "loss": 1.562,
      "step": 65390
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6225532293319702,
      "learning_rate": 0.00010503030760800632,
      "loss": 1.5607,
      "step": 65391
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6293303966522217,
      "learning_rate": 0.00010502236390242263,
      "loss": 1.4848,
      "step": 65392
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5992226600646973,
      "learning_rate": 0.00010501442043351309,
      "loss": 1.5485,
      "step": 65393
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6112498044967651,
      "learning_rate": 0.00010500647720128717,
      "loss": 1.4856,
      "step": 65394
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6231784224510193,
      "learning_rate": 0.0001049985342057548,
      "loss": 1.524,
      "step": 65395
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6113888621330261,
      "learning_rate": 0.00010499059144692545,
      "loss": 1.5087,
      "step": 65396
    },
    {
      "epoch": 2.18,
      "grad_norm": 1.125649333000183,
      "learning_rate": 0.00010498264892480872,
      "loss": 1.5702,
      "step": 65397
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6251368522644043,
      "learning_rate": 0.0001049747066394144,
      "loss": 1.5933,
      "step": 65398
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6189846992492676,
      "learning_rate": 0.00010496676459075194,
      "loss": 1.5699,
      "step": 65399
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6315405964851379,
      "learning_rate": 0.00010495882277883121,
      "loss": 1.5888,
      "step": 65400
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5893386006355286,
      "learning_rate": 0.00010495088120366162,
      "loss": 1.5669,
      "step": 65401
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6316848993301392,
      "learning_rate": 0.00010494293986525303,
      "loss": 1.63,
      "step": 65402
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6060982942581177,
      "learning_rate": 0.00010493499876361497,
      "loss": 1.535,
      "step": 65403
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6158711314201355,
      "learning_rate": 0.00010492705789875696,
      "loss": 1.5383,
      "step": 65404
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6119837760925293,
      "learning_rate": 0.00010491911727068888,
      "loss": 1.5301,
      "step": 65405
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6137800216674805,
      "learning_rate": 0.00010491117687942014,
      "loss": 1.5095,
      "step": 65406
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6143965721130371,
      "learning_rate": 0.00010490323672496062,
      "loss": 1.5379,
      "step": 65407
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6246668100357056,
      "learning_rate": 0.00010489529680731979,
      "loss": 1.5261,
      "step": 65408
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6137869358062744,
      "learning_rate": 0.00010488735712650721,
      "loss": 1.5022,
      "step": 65409
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.656688392162323,
      "learning_rate": 0.00010487941768253275,
      "loss": 1.5971,
      "step": 65410
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.655402660369873,
      "learning_rate": 0.0001048714784754058,
      "loss": 1.5627,
      "step": 65411
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5819381475448608,
      "learning_rate": 0.00010486353950513625,
      "loss": 1.5467,
      "step": 65412
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5986102819442749,
      "learning_rate": 0.00010485560077173353,
      "loss": 1.5364,
      "step": 65413
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6496581435203552,
      "learning_rate": 0.00010484766227520742,
      "loss": 1.4745,
      "step": 65414
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6241220235824585,
      "learning_rate": 0.00010483972401556753,
      "loss": 1.522,
      "step": 65415
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6651539206504822,
      "learning_rate": 0.00010483178599282333,
      "loss": 1.5978,
      "step": 65416
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6313716769218445,
      "learning_rate": 0.00010482384820698468,
      "loss": 1.5049,
      "step": 65417
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6127265095710754,
      "learning_rate": 0.00010481591065806104,
      "loss": 1.5512,
      "step": 65418
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5969365835189819,
      "learning_rate": 0.00010480797334606224,
      "loss": 1.4791,
      "step": 65419
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6263250708580017,
      "learning_rate": 0.00010480003627099764,
      "loss": 1.5514,
      "step": 65420
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6172996759414673,
      "learning_rate": 0.00010479209943287718,
      "loss": 1.5559,
      "step": 65421
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6046500205993652,
      "learning_rate": 0.00010478416283171035,
      "loss": 1.5225,
      "step": 65422
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6151729226112366,
      "learning_rate": 0.0001047762264675067,
      "loss": 1.5531,
      "step": 65423
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6270216107368469,
      "learning_rate": 0.00010476829034027602,
      "loss": 1.5069,
      "step": 65424
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6147374510765076,
      "learning_rate": 0.00010476035445002787,
      "loss": 1.4591,
      "step": 65425
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6150063872337341,
      "learning_rate": 0.00010475241879677179,
      "loss": 1.5722,
      "step": 65426
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6040582060813904,
      "learning_rate": 0.00010474448338051748,
      "loss": 1.4769,
      "step": 65427
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6443372368812561,
      "learning_rate": 0.00010473654820127473,
      "loss": 1.5933,
      "step": 65428
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.613524854183197,
      "learning_rate": 0.00010472861325905301,
      "loss": 1.5423,
      "step": 65429
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.603370189666748,
      "learning_rate": 0.00010472067855386192,
      "loss": 1.522,
      "step": 65430
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6306297183036804,
      "learning_rate": 0.00010471274408571121,
      "loss": 1.5438,
      "step": 65431
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6339309215545654,
      "learning_rate": 0.00010470480985461049,
      "loss": 1.5347,
      "step": 65432
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.629714846611023,
      "learning_rate": 0.00010469687586056923,
      "loss": 1.5191,
      "step": 65433
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6123344898223877,
      "learning_rate": 0.00010468894210359721,
      "loss": 1.5679,
      "step": 65434
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6280047297477722,
      "learning_rate": 0.0001046810085837042,
      "loss": 1.5602,
      "step": 65435
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5979809761047363,
      "learning_rate": 0.00010467307530089949,
      "loss": 1.5618,
      "step": 65436
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6411445736885071,
      "learning_rate": 0.00010466514225519291,
      "loss": 1.5733,
      "step": 65437
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6340073347091675,
      "learning_rate": 0.00010465720944659414,
      "loss": 1.652,
      "step": 65438
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6240435838699341,
      "learning_rate": 0.00010464927687511271,
      "loss": 1.4951,
      "step": 65439
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6169410943984985,
      "learning_rate": 0.00010464134454075822,
      "loss": 1.593,
      "step": 65440
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6028032898902893,
      "learning_rate": 0.00010463341244354033,
      "loss": 1.529,
      "step": 65441
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6409348249435425,
      "learning_rate": 0.00010462548058346892,
      "loss": 1.6096,
      "step": 65442
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6205458045005798,
      "learning_rate": 0.00010461754896055315,
      "loss": 1.5058,
      "step": 65443
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6009149551391602,
      "learning_rate": 0.00010460961757480292,
      "loss": 1.5526,
      "step": 65444
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5932719707489014,
      "learning_rate": 0.0001046016864262279,
      "loss": 1.5851,
      "step": 65445
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6052027344703674,
      "learning_rate": 0.00010459375551483764,
      "loss": 1.5211,
      "step": 65446
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6111677289009094,
      "learning_rate": 0.00010458582484064169,
      "loss": 1.5468,
      "step": 65447
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6495211124420166,
      "learning_rate": 0.00010457789440364975,
      "loss": 1.4952,
      "step": 65448
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5858702659606934,
      "learning_rate": 0.00010456996420387163,
      "loss": 1.5169,
      "step": 65449
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6075329184532166,
      "learning_rate": 0.00010456203424131659,
      "loss": 1.6066,
      "step": 65450
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.61612468957901,
      "learning_rate": 0.00010455410451599445,
      "loss": 1.4878,
      "step": 65451
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.609177827835083,
      "learning_rate": 0.00010454617502791493,
      "loss": 1.5931,
      "step": 65452
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6054788827896118,
      "learning_rate": 0.00010453824577708757,
      "loss": 1.5633,
      "step": 65453
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6002715229988098,
      "learning_rate": 0.00010453031676352188,
      "loss": 1.4817,
      "step": 65454
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6231867671012878,
      "learning_rate": 0.00010452238798722766,
      "loss": 1.4632,
      "step": 65455
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6167251467704773,
      "learning_rate": 0.00010451445944821447,
      "loss": 1.5219,
      "step": 65456
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6177880764007568,
      "learning_rate": 0.0001045065311464918,
      "loss": 1.4825,
      "step": 65457
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.603902280330658,
      "learning_rate": 0.00010449860308206945,
      "loss": 1.5201,
      "step": 65458
    },
    {
      "epoch": 2.18,
      "grad_norm": 1.4689997434616089,
      "learning_rate": 0.00010449067525495702,
      "loss": 1.561,
      "step": 65459
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6479042768478394,
      "learning_rate": 0.00010448274766516416,
      "loss": 1.5988,
      "step": 65460
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6166308522224426,
      "learning_rate": 0.0001044748203127003,
      "loss": 1.5346,
      "step": 65461
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6196954250335693,
      "learning_rate": 0.00010446689319757532,
      "loss": 1.5527,
      "step": 65462
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5917850732803345,
      "learning_rate": 0.00010445896631979871,
      "loss": 1.5397,
      "step": 65463
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6195830702781677,
      "learning_rate": 0.00010445103967938003,
      "loss": 1.5658,
      "step": 65464
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6158919930458069,
      "learning_rate": 0.00010444311327632905,
      "loss": 1.5862,
      "step": 65465
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.605312705039978,
      "learning_rate": 0.00010443518711065522,
      "loss": 1.6463,
      "step": 65466
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5862258672714233,
      "learning_rate": 0.00010442726118236836,
      "loss": 1.5487,
      "step": 65467
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5975391268730164,
      "learning_rate": 0.00010441933549147788,
      "loss": 1.545,
      "step": 65468
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6128823757171631,
      "learning_rate": 0.00010441141003799362,
      "loss": 1.5935,
      "step": 65469
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6149206757545471,
      "learning_rate": 0.00010440348482192508,
      "loss": 1.5142,
      "step": 65470
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.612268328666687,
      "learning_rate": 0.00010439555984328178,
      "loss": 1.5093,
      "step": 65471
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6153662204742432,
      "learning_rate": 0.0001043876351020736,
      "loss": 1.5153,
      "step": 65472
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6044302582740784,
      "learning_rate": 0.00010437971059830987,
      "loss": 1.522,
      "step": 65473
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6219521760940552,
      "learning_rate": 0.00010437178633200044,
      "loss": 1.6232,
      "step": 65474
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6027407050132751,
      "learning_rate": 0.00010436386230315486,
      "loss": 1.5068,
      "step": 65475
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6275326013565063,
      "learning_rate": 0.00010435593851178261,
      "loss": 1.5292,
      "step": 65476
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.61514812707901,
      "learning_rate": 0.00010434801495789354,
      "loss": 1.506,
      "step": 65477
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.615459680557251,
      "learning_rate": 0.00010434009164149701,
      "loss": 1.5908,
      "step": 65478
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6273289322853088,
      "learning_rate": 0.00010433216856260291,
      "loss": 1.5785,
      "step": 65479
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6237141489982605,
      "learning_rate": 0.00010432424572122062,
      "loss": 1.5063,
      "step": 65480
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6097278594970703,
      "learning_rate": 0.00010431632311736,
      "loss": 1.4809,
      "step": 65481
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5986698865890503,
      "learning_rate": 0.00010430840075103051,
      "loss": 1.4871,
      "step": 65482
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6391892433166504,
      "learning_rate": 0.00010430047862224167,
      "loss": 1.5797,
      "step": 65483
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6336533427238464,
      "learning_rate": 0.00010429255673100331,
      "loss": 1.5134,
      "step": 65484
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6262277960777283,
      "learning_rate": 0.00010428463507732499,
      "loss": 1.5624,
      "step": 65485
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6130151152610779,
      "learning_rate": 0.00010427671366121613,
      "loss": 1.5949,
      "step": 65486
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6189815998077393,
      "learning_rate": 0.00010426879248268653,
      "loss": 1.5663,
      "step": 65487
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6456894874572754,
      "learning_rate": 0.00010426087154174587,
      "loss": 1.5601,
      "step": 65488
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6177887916564941,
      "learning_rate": 0.00010425295083840369,
      "loss": 1.5666,
      "step": 65489
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5915844440460205,
      "learning_rate": 0.00010424503037266948,
      "loss": 1.514,
      "step": 65490
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6068645715713501,
      "learning_rate": 0.00010423711014455306,
      "loss": 1.4654,
      "step": 65491
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6137769818305969,
      "learning_rate": 0.00010422919015406393,
      "loss": 1.5298,
      "step": 65492
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6035937070846558,
      "learning_rate": 0.00010422127040121163,
      "loss": 1.5598,
      "step": 65493
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5956015586853027,
      "learning_rate": 0.00010421335088600584,
      "loss": 1.5612,
      "step": 65494
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6085937023162842,
      "learning_rate": 0.00010420543160845641,
      "loss": 1.4661,
      "step": 65495
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5988479852676392,
      "learning_rate": 0.00010419751256857254,
      "loss": 1.4918,
      "step": 65496
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6334336400032043,
      "learning_rate": 0.00010418959376636404,
      "loss": 1.5423,
      "step": 65497
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6396431922912598,
      "learning_rate": 0.00010418167520184062,
      "loss": 1.5722,
      "step": 65498
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6341336369514465,
      "learning_rate": 0.0001041737568750118,
      "loss": 1.5671,
      "step": 65499
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6197178363800049,
      "learning_rate": 0.00010416583878588709,
      "loss": 1.5088,
      "step": 65500
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6087844371795654,
      "learning_rate": 0.00010415792093447617,
      "loss": 1.4205,
      "step": 65501
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.728985071182251,
      "learning_rate": 0.00010415000332078889,
      "loss": 1.5509,
      "step": 65502
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5949133038520813,
      "learning_rate": 0.00010414208594483448,
      "loss": 1.546,
      "step": 65503
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6106747984886169,
      "learning_rate": 0.00010413416880662268,
      "loss": 1.5878,
      "step": 65504
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6063066124916077,
      "learning_rate": 0.00010412625190616325,
      "loss": 1.5575,
      "step": 65505
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6295883059501648,
      "learning_rate": 0.00010411833524346569,
      "loss": 1.5949,
      "step": 65506
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6023535132408142,
      "learning_rate": 0.00010411041881853949,
      "loss": 1.5168,
      "step": 65507
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5922368168830872,
      "learning_rate": 0.0001041025026313944,
      "loss": 1.5046,
      "step": 65508
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6147608160972595,
      "learning_rate": 0.00010409458668204013,
      "loss": 1.5953,
      "step": 65509
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5899744033813477,
      "learning_rate": 0.00010408667097048613,
      "loss": 1.5145,
      "step": 65510
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6101306080818176,
      "learning_rate": 0.00010407875549674198,
      "loss": 1.5176,
      "step": 65511
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6203286647796631,
      "learning_rate": 0.00010407084026081741,
      "loss": 1.609,
      "step": 65512
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5870538353919983,
      "learning_rate": 0.00010406292526272201,
      "loss": 1.4732,
      "step": 65513
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6309657692909241,
      "learning_rate": 0.00010405501050246522,
      "loss": 1.6166,
      "step": 65514
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6163089275360107,
      "learning_rate": 0.00010404709598005687,
      "loss": 1.4804,
      "step": 65515
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.634086549282074,
      "learning_rate": 0.00010403918169550639,
      "loss": 1.5088,
      "step": 65516
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6223878860473633,
      "learning_rate": 0.00010403126764882356,
      "loss": 1.5635,
      "step": 65517
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6288096308708191,
      "learning_rate": 0.00010402335384001784,
      "loss": 1.5523,
      "step": 65518
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5884843468666077,
      "learning_rate": 0.00010401544026909894,
      "loss": 1.5502,
      "step": 65519
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6059994101524353,
      "learning_rate": 0.00010400752693607645,
      "loss": 1.4972,
      "step": 65520
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6514530181884766,
      "learning_rate": 0.00010399961384095981,
      "loss": 1.5275,
      "step": 65521
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.614952027797699,
      "learning_rate": 0.00010399170098375891,
      "loss": 1.4395,
      "step": 65522
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6131026148796082,
      "learning_rate": 0.00010398378836448308,
      "loss": 1.5667,
      "step": 65523
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6051955819129944,
      "learning_rate": 0.00010397587598314212,
      "loss": 1.4901,
      "step": 65524
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6057288646697998,
      "learning_rate": 0.0001039679638397456,
      "loss": 1.5411,
      "step": 65525
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6133940815925598,
      "learning_rate": 0.000103960051934303,
      "loss": 1.5364,
      "step": 65526
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5959563255310059,
      "learning_rate": 0.00010395214026682407,
      "loss": 1.5084,
      "step": 65527
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5888070464134216,
      "learning_rate": 0.00010394422883731826,
      "loss": 1.5506,
      "step": 65528
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6177821755409241,
      "learning_rate": 0.00010393631764579537,
      "loss": 1.6364,
      "step": 65529
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6217368841171265,
      "learning_rate": 0.00010392840669226482,
      "loss": 1.5148,
      "step": 65530
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6159398555755615,
      "learning_rate": 0.00010392049597673641,
      "loss": 1.5858,
      "step": 65531
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5972904562950134,
      "learning_rate": 0.00010391258549921959,
      "loss": 1.5776,
      "step": 65532
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5836467742919922,
      "learning_rate": 0.00010390467525972394,
      "loss": 1.433,
      "step": 65533
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6238585710525513,
      "learning_rate": 0.00010389676525825917,
      "loss": 1.4745,
      "step": 65534
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6173480153083801,
      "learning_rate": 0.00010388885549483477,
      "loss": 1.5276,
      "step": 65535
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5912839770317078,
      "learning_rate": 0.00010388094596946051,
      "loss": 1.5368,
      "step": 65536
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6161629557609558,
      "learning_rate": 0.00010387303668214575,
      "loss": 1.5551,
      "step": 65537
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6329078078269958,
      "learning_rate": 0.00010386512763290035,
      "loss": 1.5775,
      "step": 65538
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6085118055343628,
      "learning_rate": 0.00010385721882173376,
      "loss": 1.5726,
      "step": 65539
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.596876859664917,
      "learning_rate": 0.00010384931024865554,
      "loss": 1.5514,
      "step": 65540
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5742263793945312,
      "learning_rate": 0.00010384140191367542,
      "loss": 1.5073,
      "step": 65541
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6386880278587341,
      "learning_rate": 0.00010383349381680298,
      "loss": 1.5727,
      "step": 65542
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6237134337425232,
      "learning_rate": 0.00010382558595804763,
      "loss": 1.5797,
      "step": 65543
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6386510729789734,
      "learning_rate": 0.00010381767833741913,
      "loss": 1.4967,
      "step": 65544
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6256488561630249,
      "learning_rate": 0.00010380977095492717,
      "loss": 1.5252,
      "step": 65545
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6141048073768616,
      "learning_rate": 0.00010380186381058126,
      "loss": 1.5259,
      "step": 65546
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6233235001564026,
      "learning_rate": 0.00010379395690439086,
      "loss": 1.5828,
      "step": 65547
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6024658679962158,
      "learning_rate": 0.00010378605023636575,
      "loss": 1.5522,
      "step": 65548
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6330438256263733,
      "learning_rate": 0.00010377814380651553,
      "loss": 1.5769,
      "step": 65549
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6242995858192444,
      "learning_rate": 0.00010377023761484958,
      "loss": 1.5429,
      "step": 65550
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6215922236442566,
      "learning_rate": 0.00010376233166137766,
      "loss": 1.5684,
      "step": 65551
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5964866280555725,
      "learning_rate": 0.00010375442594610957,
      "loss": 1.527,
      "step": 65552
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6087639927864075,
      "learning_rate": 0.00010374652046905448,
      "loss": 1.5604,
      "step": 65553
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5832303762435913,
      "learning_rate": 0.00010373861523022221,
      "loss": 1.6252,
      "step": 65554
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6112247705459595,
      "learning_rate": 0.00010373071022962244,
      "loss": 1.4795,
      "step": 65555
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6117098927497864,
      "learning_rate": 0.00010372280546726466,
      "loss": 1.5102,
      "step": 65556
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6090610027313232,
      "learning_rate": 0.00010371490094315839,
      "loss": 1.492,
      "step": 65557
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6196229457855225,
      "learning_rate": 0.00010370699665731328,
      "loss": 1.5666,
      "step": 65558
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6021459102630615,
      "learning_rate": 0.00010369909260973917,
      "loss": 1.5375,
      "step": 65559
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6287785172462463,
      "learning_rate": 0.00010369118880044524,
      "loss": 1.5368,
      "step": 65560
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6336255073547363,
      "learning_rate": 0.00010368328522944128,
      "loss": 1.5582,
      "step": 65561
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.618525505065918,
      "learning_rate": 0.000103675381896737,
      "loss": 1.4871,
      "step": 65562
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6309390068054199,
      "learning_rate": 0.00010366747880234186,
      "loss": 1.4857,
      "step": 65563
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5947951674461365,
      "learning_rate": 0.00010365957594626538,
      "loss": 1.5163,
      "step": 65564
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6023853421211243,
      "learning_rate": 0.00010365167332851725,
      "loss": 1.5785,
      "step": 65565
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5775149464607239,
      "learning_rate": 0.00010364377094910724,
      "loss": 1.4672,
      "step": 65566
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.645768940448761,
      "learning_rate": 0.00010363586880804457,
      "loss": 1.5629,
      "step": 65567
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6137125492095947,
      "learning_rate": 0.00010362796690533904,
      "loss": 1.5021,
      "step": 65568
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6544786095619202,
      "learning_rate": 0.0001036200652410003,
      "loss": 1.6213,
      "step": 65569
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6248350739479065,
      "learning_rate": 0.00010361216381503788,
      "loss": 1.4688,
      "step": 65570
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5919013619422913,
      "learning_rate": 0.00010360426262746125,
      "loss": 1.5281,
      "step": 65571
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6198084950447083,
      "learning_rate": 0.00010359636167828021,
      "loss": 1.4961,
      "step": 65572
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6216816306114197,
      "learning_rate": 0.00010358846096750422,
      "loss": 1.5313,
      "step": 65573
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.607491672039032,
      "learning_rate": 0.00010358056049514283,
      "loss": 1.6539,
      "step": 65574
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6208834052085876,
      "learning_rate": 0.0001035726602612057,
      "loss": 1.5514,
      "step": 65575
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6261588335037231,
      "learning_rate": 0.00010356476026570252,
      "loss": 1.519,
      "step": 65576
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5984849333763123,
      "learning_rate": 0.00010355686050864276,
      "loss": 1.5999,
      "step": 65577
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5971347093582153,
      "learning_rate": 0.00010354896099003594,
      "loss": 1.5896,
      "step": 65578
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5988321900367737,
      "learning_rate": 0.00010354106170989185,
      "loss": 1.4731,
      "step": 65579
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5945556163787842,
      "learning_rate": 0.00010353316266821993,
      "loss": 1.5207,
      "step": 65580
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.626180112361908,
      "learning_rate": 0.0001035252638650297,
      "loss": 1.55,
      "step": 65581
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6460919976234436,
      "learning_rate": 0.00010351736530033098,
      "loss": 1.496,
      "step": 65582
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6063405275344849,
      "learning_rate": 0.00010350946697413314,
      "loss": 1.5928,
      "step": 65583
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6016309857368469,
      "learning_rate": 0.00010350156888644591,
      "loss": 1.5326,
      "step": 65584
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.606298565864563,
      "learning_rate": 0.00010349367103727874,
      "loss": 1.5041,
      "step": 65585
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6075537204742432,
      "learning_rate": 0.00010348577342664142,
      "loss": 1.5472,
      "step": 65586
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6156490445137024,
      "learning_rate": 0.0001034778760545434,
      "loss": 1.5748,
      "step": 65587
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6044498085975647,
      "learning_rate": 0.00010346997892099417,
      "loss": 1.6052,
      "step": 65588
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5861174464225769,
      "learning_rate": 0.00010346208202600356,
      "loss": 1.4856,
      "step": 65589
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6090236306190491,
      "learning_rate": 0.0001034541853695809,
      "loss": 1.616,
      "step": 65590
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6186972260475159,
      "learning_rate": 0.000103446288951736,
      "loss": 1.576,
      "step": 65591
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6217151880264282,
      "learning_rate": 0.00010343839277247835,
      "loss": 1.5347,
      "step": 65592
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6093823313713074,
      "learning_rate": 0.00010343049683181744,
      "loss": 1.5694,
      "step": 65593
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6282851696014404,
      "learning_rate": 0.00010342260112976303,
      "loss": 1.5231,
      "step": 65594
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6097608208656311,
      "learning_rate": 0.00010341470566632452,
      "loss": 1.5671,
      "step": 65595
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6199227571487427,
      "learning_rate": 0.0001034068104415117,
      "loss": 1.5645,
      "step": 65596
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.605097234249115,
      "learning_rate": 0.00010339891545533392,
      "loss": 1.4886,
      "step": 65597
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.602983295917511,
      "learning_rate": 0.000103391020707801,
      "loss": 1.5838,
      "step": 65598
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5878300666809082,
      "learning_rate": 0.00010338312619892243,
      "loss": 1.5464,
      "step": 65599
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6508805155754089,
      "learning_rate": 0.00010337523192870766,
      "loss": 1.5781,
      "step": 65600
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5782524943351746,
      "learning_rate": 0.00010336733789716649,
      "loss": 1.5332,
      "step": 65601
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5939142107963562,
      "learning_rate": 0.00010335944410430839,
      "loss": 1.5593,
      "step": 65602
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5872254371643066,
      "learning_rate": 0.00010335155055014288,
      "loss": 1.5989,
      "step": 65603
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6301153302192688,
      "learning_rate": 0.0001033436572346796,
      "loss": 1.6026,
      "step": 65604
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.613198459148407,
      "learning_rate": 0.00010333576415792823,
      "loss": 1.5845,
      "step": 65605
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6005682349205017,
      "learning_rate": 0.00010332787131989825,
      "loss": 1.4774,
      "step": 65606
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5858178734779358,
      "learning_rate": 0.0001033199787205992,
      "loss": 1.5583,
      "step": 65607
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6397799849510193,
      "learning_rate": 0.0001033120863600408,
      "loss": 1.5911,
      "step": 65608
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6188743114471436,
      "learning_rate": 0.00010330419423823253,
      "loss": 1.5793,
      "step": 65609
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6019315719604492,
      "learning_rate": 0.00010329630235518391,
      "loss": 1.4933,
      "step": 65610
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6090956330299377,
      "learning_rate": 0.00010328841071090458,
      "loss": 1.5473,
      "step": 65611
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6188770532608032,
      "learning_rate": 0.00010328051930540432,
      "loss": 1.5685,
      "step": 65612
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6109346151351929,
      "learning_rate": 0.00010327262813869234,
      "loss": 1.5513,
      "step": 65613
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.597519040107727,
      "learning_rate": 0.00010326473721077843,
      "loss": 1.5351,
      "step": 65614
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5988211631774902,
      "learning_rate": 0.0001032568465216722,
      "loss": 1.5873,
      "step": 65615
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6006229519844055,
      "learning_rate": 0.0001032489560713832,
      "loss": 1.5466,
      "step": 65616
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6219434142112732,
      "learning_rate": 0.00010324106585992087,
      "loss": 1.5791,
      "step": 65617
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6012095212936401,
      "learning_rate": 0.0001032331758872949,
      "loss": 1.4932,
      "step": 65618
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.626663088798523,
      "learning_rate": 0.00010322528615351503,
      "loss": 1.5649,
      "step": 65619
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6178662776947021,
      "learning_rate": 0.0001032173966585905,
      "loss": 1.4806,
      "step": 65620
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6197417378425598,
      "learning_rate": 0.00010320950740253104,
      "loss": 1.5131,
      "step": 65621
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6262838840484619,
      "learning_rate": 0.00010320161838534635,
      "loss": 1.4761,
      "step": 65622
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.631183922290802,
      "learning_rate": 0.00010319372960704588,
      "loss": 1.6015,
      "step": 65623
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6313530802726746,
      "learning_rate": 0.00010318584106763915,
      "loss": 1.5111,
      "step": 65624
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.620979368686676,
      "learning_rate": 0.00010317795276713582,
      "loss": 1.4782,
      "step": 65625
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6350085735321045,
      "learning_rate": 0.00010317006470554554,
      "loss": 1.5091,
      "step": 65626
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6015918254852295,
      "learning_rate": 0.00010316217688287778,
      "loss": 1.5727,
      "step": 65627
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.592951238155365,
      "learning_rate": 0.00010315428929914205,
      "loss": 1.5345,
      "step": 65628
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6203866600990295,
      "learning_rate": 0.00010314640195434813,
      "loss": 1.5468,
      "step": 65629
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6098583936691284,
      "learning_rate": 0.00010313851484850544,
      "loss": 1.5411,
      "step": 65630
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.590667188167572,
      "learning_rate": 0.00010313062798162349,
      "loss": 1.5511,
      "step": 65631
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6144739389419556,
      "learning_rate": 0.00010312274135371205,
      "loss": 1.5101,
      "step": 65632
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6422827243804932,
      "learning_rate": 0.00010311485496478052,
      "loss": 1.5224,
      "step": 65633
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6189720034599304,
      "learning_rate": 0.00010310696881483865,
      "loss": 1.583,
      "step": 65634
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6436124444007874,
      "learning_rate": 0.00010309908290389577,
      "loss": 1.5917,
      "step": 65635
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6179526448249817,
      "learning_rate": 0.00010309119723196173,
      "loss": 1.5607,
      "step": 65636
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6086298227310181,
      "learning_rate": 0.00010308331179904594,
      "loss": 1.6056,
      "step": 65637
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6066538095474243,
      "learning_rate": 0.0001030754266051579,
      "loss": 1.4947,
      "step": 65638
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5965663194656372,
      "learning_rate": 0.00010306754165030738,
      "loss": 1.5593,
      "step": 65639
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6259132027626038,
      "learning_rate": 0.00010305965693450372,
      "loss": 1.5506,
      "step": 65640
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5994213223457336,
      "learning_rate": 0.00010305177245775676,
      "loss": 1.5283,
      "step": 65641
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5789671540260315,
      "learning_rate": 0.00010304388822007591,
      "loss": 1.547,
      "step": 65642
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6091218590736389,
      "learning_rate": 0.00010303600422147065,
      "loss": 1.5919,
      "step": 65643
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6207969188690186,
      "learning_rate": 0.00010302812046195077,
      "loss": 1.5633,
      "step": 65644
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.611309289932251,
      "learning_rate": 0.00010302023694152563,
      "loss": 1.5788,
      "step": 65645
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6190750002861023,
      "learning_rate": 0.000103012353660205,
      "loss": 1.6389,
      "step": 65646
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6325879693031311,
      "learning_rate": 0.00010300447061799827,
      "loss": 1.5874,
      "step": 65647
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6095157265663147,
      "learning_rate": 0.00010299658781491515,
      "loss": 1.5717,
      "step": 65648
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5842897891998291,
      "learning_rate": 0.00010298870525096515,
      "loss": 1.5272,
      "step": 65649
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.596401572227478,
      "learning_rate": 0.00010298082292615775,
      "loss": 1.495,
      "step": 65650
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6083528995513916,
      "learning_rate": 0.00010297294084050269,
      "loss": 1.4874,
      "step": 65651
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5986337065696716,
      "learning_rate": 0.00010296505899400945,
      "loss": 1.5326,
      "step": 65652
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6147924661636353,
      "learning_rate": 0.00010295717738668749,
      "loss": 1.5345,
      "step": 65653
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6261894106864929,
      "learning_rate": 0.00010294929601854651,
      "loss": 1.5454,
      "step": 65654
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6149930357933044,
      "learning_rate": 0.00010294141488959612,
      "loss": 1.5566,
      "step": 65655
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5971012115478516,
      "learning_rate": 0.00010293353399984585,
      "loss": 1.4933,
      "step": 65656
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6242399215698242,
      "learning_rate": 0.0001029256533493051,
      "loss": 1.6375,
      "step": 65657
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6158111691474915,
      "learning_rate": 0.00010291777293798371,
      "loss": 1.526,
      "step": 65658
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6111247539520264,
      "learning_rate": 0.00010290989276589105,
      "loss": 1.5495,
      "step": 65659
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6226024627685547,
      "learning_rate": 0.0001029020128330367,
      "loss": 1.5943,
      "step": 65660
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6135984063148499,
      "learning_rate": 0.00010289413313943022,
      "loss": 1.5167,
      "step": 65661
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.628665030002594,
      "learning_rate": 0.00010288625368508133,
      "loss": 1.5066,
      "step": 65662
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6108885407447815,
      "learning_rate": 0.00010287837446999948,
      "loss": 1.4223,
      "step": 65663
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5851218104362488,
      "learning_rate": 0.00010287049549419416,
      "loss": 1.529,
      "step": 65664
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.603850781917572,
      "learning_rate": 0.0001028626167576751,
      "loss": 1.439,
      "step": 65665
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6138764023780823,
      "learning_rate": 0.00010285473826045178,
      "loss": 1.5291,
      "step": 65666
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6248001456260681,
      "learning_rate": 0.00010284686000253365,
      "loss": 1.5405,
      "step": 65667
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.635956883430481,
      "learning_rate": 0.00010283898198393042,
      "loss": 1.5938,
      "step": 65668
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6300770044326782,
      "learning_rate": 0.00010283110420465178,
      "loss": 1.5432,
      "step": 65669
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6254898905754089,
      "learning_rate": 0.00010282322666470692,
      "loss": 1.5709,
      "step": 65670
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6288824677467346,
      "learning_rate": 0.00010281534936410564,
      "loss": 1.6256,
      "step": 65671
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6252734661102295,
      "learning_rate": 0.00010280747230285753,
      "loss": 1.5491,
      "step": 65672
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5986706614494324,
      "learning_rate": 0.00010279959548097212,
      "loss": 1.5547,
      "step": 65673
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.6334131956100464,
      "learning_rate": 0.00010279171889845887,
      "loss": 1.5487,
      "step": 65674
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6396444439888,
      "learning_rate": 0.0001027838425553274,
      "loss": 1.5283,
      "step": 65675
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5841028690338135,
      "learning_rate": 0.00010277596645158745,
      "loss": 1.5479,
      "step": 65676
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.620627760887146,
      "learning_rate": 0.00010276809058724825,
      "loss": 1.4747,
      "step": 65677
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6225156784057617,
      "learning_rate": 0.00010276021496231951,
      "loss": 1.4561,
      "step": 65678
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6099437475204468,
      "learning_rate": 0.00010275233957681092,
      "loss": 1.4705,
      "step": 65679
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6134607791900635,
      "learning_rate": 0.00010274446443073193,
      "loss": 1.6035,
      "step": 65680
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6277811527252197,
      "learning_rate": 0.00010273658952409198,
      "loss": 1.5099,
      "step": 65681
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6362301707267761,
      "learning_rate": 0.00010272871485690076,
      "loss": 1.551,
      "step": 65682
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6223452687263489,
      "learning_rate": 0.00010272084042916802,
      "loss": 1.5121,
      "step": 65683
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6336102485656738,
      "learning_rate": 0.00010271296624090291,
      "loss": 1.5347,
      "step": 65684
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6403887867927551,
      "learning_rate": 0.0001027050922921152,
      "loss": 1.5797,
      "step": 65685
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6071467399597168,
      "learning_rate": 0.0001026972185828145,
      "loss": 1.531,
      "step": 65686
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5976186394691467,
      "learning_rate": 0.00010268934511301033,
      "loss": 1.4962,
      "step": 65687
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6265896558761597,
      "learning_rate": 0.00010268147188271212,
      "loss": 1.6066,
      "step": 65688
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6254385113716125,
      "learning_rate": 0.0001026735988919296,
      "loss": 1.5139,
      "step": 65689
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6306648850440979,
      "learning_rate": 0.0001026657261406723,
      "loss": 1.5424,
      "step": 65690
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5985937714576721,
      "learning_rate": 0.00010265785362894962,
      "loss": 1.5419,
      "step": 65691
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6031982898712158,
      "learning_rate": 0.00010264998135677122,
      "loss": 1.4895,
      "step": 65692
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6060985922813416,
      "learning_rate": 0.00010264210932414677,
      "loss": 1.5763,
      "step": 65693
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.59112149477005,
      "learning_rate": 0.00010263423753108574,
      "loss": 1.53,
      "step": 65694
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6302077174186707,
      "learning_rate": 0.00010262636597759751,
      "loss": 1.5468,
      "step": 65695
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6137295365333557,
      "learning_rate": 0.00010261849466369194,
      "loss": 1.6092,
      "step": 65696
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6087245345115662,
      "learning_rate": 0.00010261062358937841,
      "loss": 1.5092,
      "step": 65697
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6318045854568481,
      "learning_rate": 0.00010260275275466643,
      "loss": 1.5508,
      "step": 65698
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6307842135429382,
      "learning_rate": 0.0001025948821595657,
      "loss": 1.5254,
      "step": 65699
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.599616527557373,
      "learning_rate": 0.00010258701180408561,
      "loss": 1.5326,
      "step": 65700
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6307399272918701,
      "learning_rate": 0.00010257914168823586,
      "loss": 1.5957,
      "step": 65701
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6060374975204468,
      "learning_rate": 0.00010257127181202588,
      "loss": 1.5315,
      "step": 65702
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6510482430458069,
      "learning_rate": 0.00010256340217546538,
      "loss": 1.5274,
      "step": 65703
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5771126747131348,
      "learning_rate": 0.00010255553277856382,
      "loss": 1.5157,
      "step": 65704
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6480444073677063,
      "learning_rate": 0.00010254766362133065,
      "loss": 1.5722,
      "step": 65705
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6448753476142883,
      "learning_rate": 0.00010253979470377563,
      "loss": 1.4812,
      "step": 65706
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6078467965126038,
      "learning_rate": 0.00010253192602590808,
      "loss": 1.5264,
      "step": 65707
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6023033857345581,
      "learning_rate": 0.0001025240575877378,
      "loss": 1.5189,
      "step": 65708
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6120145916938782,
      "learning_rate": 0.0001025161893892742,
      "loss": 1.6008,
      "step": 65709
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6065327525138855,
      "learning_rate": 0.00010250832143052677,
      "loss": 1.5341,
      "step": 65710
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6145229935646057,
      "learning_rate": 0.00010250045371150523,
      "loss": 1.5634,
      "step": 65711
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.610384464263916,
      "learning_rate": 0.00010249258623221894,
      "loss": 1.4687,
      "step": 65712
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5981364846229553,
      "learning_rate": 0.00010248471899267765,
      "loss": 1.5335,
      "step": 65713
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6138606667518616,
      "learning_rate": 0.00010247685199289068,
      "loss": 1.5208,
      "step": 65714
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6016573905944824,
      "learning_rate": 0.00010246898523286785,
      "loss": 1.5274,
      "step": 65715
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.614078164100647,
      "learning_rate": 0.00010246111871261855,
      "loss": 1.571,
      "step": 65716
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6161547303199768,
      "learning_rate": 0.00010245325243215224,
      "loss": 1.5746,
      "step": 65717
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.608518660068512,
      "learning_rate": 0.00010244538639147868,
      "loss": 1.4848,
      "step": 65718
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5948071479797363,
      "learning_rate": 0.0001024375205906073,
      "loss": 1.6001,
      "step": 65719
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6162312030792236,
      "learning_rate": 0.00010242965502954756,
      "loss": 1.5345,
      "step": 65720
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6525468826293945,
      "learning_rate": 0.00010242178970830912,
      "loss": 1.587,
      "step": 65721
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6213460564613342,
      "learning_rate": 0.00010241392462690164,
      "loss": 1.5635,
      "step": 65722
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6011675000190735,
      "learning_rate": 0.00010240605978533453,
      "loss": 1.476,
      "step": 65723
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5936658978462219,
      "learning_rate": 0.00010239819518361723,
      "loss": 1.5222,
      "step": 65724
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6082626581192017,
      "learning_rate": 0.00010239033082175949,
      "loss": 1.5613,
      "step": 65725
    },
    {
      "epoch": 2.19,
      "grad_norm": 1.1055532693862915,
      "learning_rate": 0.00010238246669977081,
      "loss": 1.5203,
      "step": 65726
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6217145323753357,
      "learning_rate": 0.0001023746028176606,
      "loss": 1.5538,
      "step": 65727
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6232311129570007,
      "learning_rate": 0.00010236673917543847,
      "loss": 1.5247,
      "step": 65728
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6171640753746033,
      "learning_rate": 0.00010235887577311422,
      "loss": 1.4722,
      "step": 65729
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6183412671089172,
      "learning_rate": 0.00010235101261069697,
      "loss": 1.6239,
      "step": 65730
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6172564625740051,
      "learning_rate": 0.00010234314968819647,
      "loss": 1.5224,
      "step": 65731
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.593097448348999,
      "learning_rate": 0.00010233528700562234,
      "loss": 1.5762,
      "step": 65732
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5974336862564087,
      "learning_rate": 0.00010232742456298406,
      "loss": 1.5673,
      "step": 65733
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6303735971450806,
      "learning_rate": 0.00010231956236029107,
      "loss": 1.5216,
      "step": 65734
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5919949412345886,
      "learning_rate": 0.00010231170039755301,
      "loss": 1.4663,
      "step": 65735
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5899892449378967,
      "learning_rate": 0.00010230383867477953,
      "loss": 1.499,
      "step": 65736
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5844646692276001,
      "learning_rate": 0.00010229597719198001,
      "loss": 1.5451,
      "step": 65737
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6114997267723083,
      "learning_rate": 0.000102288115949164,
      "loss": 1.4941,
      "step": 65738
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6292610168457031,
      "learning_rate": 0.00010228025494634115,
      "loss": 1.5381,
      "step": 65739
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6225066781044006,
      "learning_rate": 0.00010227239418352096,
      "loss": 1.6261,
      "step": 65740
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5975289344787598,
      "learning_rate": 0.00010226453366071284,
      "loss": 1.5463,
      "step": 65741
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6286308765411377,
      "learning_rate": 0.00010225667337792645,
      "loss": 1.4561,
      "step": 65742
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5963976979255676,
      "learning_rate": 0.00010224881333517139,
      "loss": 1.5078,
      "step": 65743
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6330750584602356,
      "learning_rate": 0.00010224095353245715,
      "loss": 1.5755,
      "step": 65744
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6086968779563904,
      "learning_rate": 0.00010223309396979315,
      "loss": 1.4706,
      "step": 65745
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5949527621269226,
      "learning_rate": 0.00010222523464718918,
      "loss": 1.4832,
      "step": 65746
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6152688264846802,
      "learning_rate": 0.00010221737556465459,
      "loss": 1.5784,
      "step": 65747
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5982173085212708,
      "learning_rate": 0.00010220951672219885,
      "loss": 1.497,
      "step": 65748
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6154569387435913,
      "learning_rate": 0.00010220165811983176,
      "loss": 1.5698,
      "step": 65749
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6073614358901978,
      "learning_rate": 0.00010219379975756259,
      "loss": 1.513,
      "step": 65750
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6041818261146545,
      "learning_rate": 0.00010218594163540108,
      "loss": 1.5796,
      "step": 65751
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6128978729248047,
      "learning_rate": 0.00010217808375335664,
      "loss": 1.5977,
      "step": 65752
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6355594992637634,
      "learning_rate": 0.0001021702261114389,
      "loss": 1.5132,
      "step": 65753
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6166648268699646,
      "learning_rate": 0.00010216236870965739,
      "loss": 1.5363,
      "step": 65754
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5867803692817688,
      "learning_rate": 0.0001021545115480215,
      "loss": 1.5501,
      "step": 65755
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6207621693611145,
      "learning_rate": 0.00010214665462654101,
      "loss": 1.5732,
      "step": 65756
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5994725227355957,
      "learning_rate": 0.00010213879794522521,
      "loss": 1.5894,
      "step": 65757
    },
    {
      "epoch": 2.19,
      "grad_norm": 1.467899203300476,
      "learning_rate": 0.00010213094150408387,
      "loss": 1.5448,
      "step": 65758
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6086178421974182,
      "learning_rate": 0.00010212308530312639,
      "loss": 1.5595,
      "step": 65759
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6321817636489868,
      "learning_rate": 0.00010211522934236223,
      "loss": 1.5113,
      "step": 65760
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.621697187423706,
      "learning_rate": 0.00010210737362180112,
      "loss": 1.5588,
      "step": 65761
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6267961859703064,
      "learning_rate": 0.0001020995181414524,
      "loss": 1.5781,
      "step": 65762
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6296896934509277,
      "learning_rate": 0.00010209166290132584,
      "loss": 1.5229,
      "step": 65763
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5994722247123718,
      "learning_rate": 0.00010208380790143071,
      "loss": 1.5727,
      "step": 65764
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6172365546226501,
      "learning_rate": 0.00010207595314177681,
      "loss": 1.5903,
      "step": 65765
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6303357481956482,
      "learning_rate": 0.00010206809862237349,
      "loss": 1.5475,
      "step": 65766
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6159731149673462,
      "learning_rate": 0.00010206024434323026,
      "loss": 1.5447,
      "step": 65767
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6015892028808594,
      "learning_rate": 0.00010205239030435682,
      "loss": 1.4959,
      "step": 65768
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5995515584945679,
      "learning_rate": 0.00010204453650576265,
      "loss": 1.5625,
      "step": 65769
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6315194964408875,
      "learning_rate": 0.0001020366829474571,
      "loss": 1.5639,
      "step": 65770
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6444109082221985,
      "learning_rate": 0.00010202882962944988,
      "loss": 1.5212,
      "step": 65771
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6075329780578613,
      "learning_rate": 0.00010202097655175055,
      "loss": 1.5249,
      "step": 65772
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6024761199951172,
      "learning_rate": 0.00010201312371436861,
      "loss": 1.5382,
      "step": 65773
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6128523945808411,
      "learning_rate": 0.00010200527111731348,
      "loss": 1.5314,
      "step": 65774
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6006278991699219,
      "learning_rate": 0.00010199741876059486,
      "loss": 1.4496,
      "step": 65775
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6090857982635498,
      "learning_rate": 0.00010198956664422219,
      "loss": 1.5759,
      "step": 65776
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.624760091304779,
      "learning_rate": 0.00010198171476820491,
      "loss": 1.5473,
      "step": 65777
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6109979152679443,
      "learning_rate": 0.00010197386313255268,
      "loss": 1.5081,
      "step": 65778
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.630559504032135,
      "learning_rate": 0.00010196601173727507,
      "loss": 1.5331,
      "step": 65779
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6218035221099854,
      "learning_rate": 0.00010195816058238157,
      "loss": 1.4865,
      "step": 65780
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6253272294998169,
      "learning_rate": 0.00010195030966788156,
      "loss": 1.5097,
      "step": 65781
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5987384915351868,
      "learning_rate": 0.00010194245899378481,
      "loss": 1.5683,
      "step": 65782
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6110140681266785,
      "learning_rate": 0.00010193460856010073,
      "loss": 1.4734,
      "step": 65783
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6470996141433716,
      "learning_rate": 0.00010192675836683875,
      "loss": 1.6411,
      "step": 65784
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6187402009963989,
      "learning_rate": 0.0001019189084140085,
      "loss": 1.4808,
      "step": 65785
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.606796383857727,
      "learning_rate": 0.00010191105870161969,
      "loss": 1.5032,
      "step": 65786
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6406571269035339,
      "learning_rate": 0.00010190320922968149,
      "loss": 1.5015,
      "step": 65787
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5998861789703369,
      "learning_rate": 0.00010189535999820361,
      "loss": 1.6441,
      "step": 65788
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6005765795707703,
      "learning_rate": 0.00010188751100719566,
      "loss": 1.5576,
      "step": 65789
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5998964905738831,
      "learning_rate": 0.0001018796622566671,
      "loss": 1.4849,
      "step": 65790
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5981849431991577,
      "learning_rate": 0.00010187181374662732,
      "loss": 1.5,
      "step": 65791
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6100448369979858,
      "learning_rate": 0.00010186396547708596,
      "loss": 1.5391,
      "step": 65792
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5930063128471375,
      "learning_rate": 0.00010185611744805278,
      "loss": 1.5442,
      "step": 65793
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6174057722091675,
      "learning_rate": 0.00010184826965953685,
      "loss": 1.559,
      "step": 65794
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6004372239112854,
      "learning_rate": 0.00010184042211154795,
      "loss": 1.5206,
      "step": 65795
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5997957587242126,
      "learning_rate": 0.00010183257480409566,
      "loss": 1.4542,
      "step": 65796
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6231235861778259,
      "learning_rate": 0.00010182472773718943,
      "loss": 1.557,
      "step": 65797
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6194941997528076,
      "learning_rate": 0.00010181688091083869,
      "loss": 1.5619,
      "step": 65798
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6047775745391846,
      "learning_rate": 0.00010180903432505303,
      "loss": 1.5591,
      "step": 65799
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6043737530708313,
      "learning_rate": 0.00010180118797984223,
      "loss": 1.5499,
      "step": 65800
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5988534688949585,
      "learning_rate": 0.00010179334187521536,
      "loss": 1.4784,
      "step": 65801
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6322842240333557,
      "learning_rate": 0.00010178549601118216,
      "loss": 1.5208,
      "step": 65802
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6084120869636536,
      "learning_rate": 0.0001017776503877523,
      "loss": 1.5737,
      "step": 65803
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6022639870643616,
      "learning_rate": 0.00010176980500493514,
      "loss": 1.5967,
      "step": 65804
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.624213695526123,
      "learning_rate": 0.00010176195986274014,
      "loss": 1.5745,
      "step": 65805
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6042401790618896,
      "learning_rate": 0.00010175411496117701,
      "loss": 1.5532,
      "step": 65806
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5999917387962341,
      "learning_rate": 0.0001017462703002552,
      "loss": 1.5013,
      "step": 65807
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6340924501419067,
      "learning_rate": 0.00010173842587998408,
      "loss": 1.5769,
      "step": 65808
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6054304838180542,
      "learning_rate": 0.00010173058170037328,
      "loss": 1.5591,
      "step": 65809
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6198366284370422,
      "learning_rate": 0.00010172273776143247,
      "loss": 1.5247,
      "step": 65810
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6109978556632996,
      "learning_rate": 0.000101714894063171,
      "loss": 1.5628,
      "step": 65811
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6045888662338257,
      "learning_rate": 0.00010170705060559837,
      "loss": 1.581,
      "step": 65812
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.621564507484436,
      "learning_rate": 0.00010169920738872427,
      "loss": 1.4985,
      "step": 65813
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5925406813621521,
      "learning_rate": 0.00010169136441255808,
      "loss": 1.5325,
      "step": 65814
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6095854043960571,
      "learning_rate": 0.00010168352167710928,
      "loss": 1.4834,
      "step": 65815
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6138071417808533,
      "learning_rate": 0.00010167567918238758,
      "loss": 1.5559,
      "step": 65816
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6059934496879578,
      "learning_rate": 0.00010166783692840225,
      "loss": 1.5967,
      "step": 65817
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6178215742111206,
      "learning_rate": 0.00010165999491516307,
      "loss": 1.6303,
      "step": 65818
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.643831193447113,
      "learning_rate": 0.0001016521531426793,
      "loss": 1.5242,
      "step": 65819
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6163740754127502,
      "learning_rate": 0.00010164431161096071,
      "loss": 1.5304,
      "step": 65820
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5927197933197021,
      "learning_rate": 0.0001016364703200167,
      "loss": 1.5704,
      "step": 65821
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6061791181564331,
      "learning_rate": 0.0001016286292698567,
      "loss": 1.5685,
      "step": 65822
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6032372117042542,
      "learning_rate": 0.00010162078846049039,
      "loss": 1.5341,
      "step": 65823
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6118098497390747,
      "learning_rate": 0.00010161294789192712,
      "loss": 1.5475,
      "step": 65824
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6346913576126099,
      "learning_rate": 0.00010160510756417659,
      "loss": 1.4931,
      "step": 65825
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6151891350746155,
      "learning_rate": 0.00010159726747724826,
      "loss": 1.5391,
      "step": 65826
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6152130961418152,
      "learning_rate": 0.00010158942763115147,
      "loss": 1.5181,
      "step": 65827
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6004072427749634,
      "learning_rate": 0.00010158158802589602,
      "loss": 1.5794,
      "step": 65828
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6155881881713867,
      "learning_rate": 0.00010157374866149118,
      "loss": 1.5802,
      "step": 65829
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6254622936248779,
      "learning_rate": 0.00010156590953794666,
      "loss": 1.4977,
      "step": 65830
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6191302537918091,
      "learning_rate": 0.00010155807065527179,
      "loss": 1.5554,
      "step": 65831
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6209549903869629,
      "learning_rate": 0.00010155023201347629,
      "loss": 1.4881,
      "step": 65832
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6152563095092773,
      "learning_rate": 0.00010154239361256955,
      "loss": 1.5712,
      "step": 65833
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6373106241226196,
      "learning_rate": 0.00010153455545256104,
      "loss": 1.6229,
      "step": 65834
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6620185375213623,
      "learning_rate": 0.00010152671753346039,
      "loss": 1.5696,
      "step": 65835
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.8348574042320251,
      "learning_rate": 0.0001015188798552771,
      "loss": 1.4705,
      "step": 65836
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6055150032043457,
      "learning_rate": 0.00010151104241802054,
      "loss": 1.6149,
      "step": 65837
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6302046179771423,
      "learning_rate": 0.00010150320522170029,
      "loss": 1.4614,
      "step": 65838
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6342971920967102,
      "learning_rate": 0.00010149536826632603,
      "loss": 1.5042,
      "step": 65839
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6279034614562988,
      "learning_rate": 0.00010148753155190717,
      "loss": 1.5416,
      "step": 65840
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6102086305618286,
      "learning_rate": 0.00010147969507845306,
      "loss": 1.5581,
      "step": 65841
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6153651475906372,
      "learning_rate": 0.00010147185884597346,
      "loss": 1.4786,
      "step": 65842
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6109086275100708,
      "learning_rate": 0.00010146402285447778,
      "loss": 1.5124,
      "step": 65843
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6080042719841003,
      "learning_rate": 0.00010145618710397543,
      "loss": 1.5611,
      "step": 65844
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6457005739212036,
      "learning_rate": 0.000101448351594476,
      "loss": 1.5007,
      "step": 65845
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6001086831092834,
      "learning_rate": 0.00010144051632598921,
      "loss": 1.4486,
      "step": 65846
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6426800489425659,
      "learning_rate": 0.00010143268129852419,
      "loss": 1.5292,
      "step": 65847
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5670589208602905,
      "learning_rate": 0.00010142484651209063,
      "loss": 1.453,
      "step": 65848
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6116555333137512,
      "learning_rate": 0.00010141701196669812,
      "loss": 1.5533,
      "step": 65849
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6296796798706055,
      "learning_rate": 0.00010140917766235613,
      "loss": 1.5689,
      "step": 65850
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6133400797843933,
      "learning_rate": 0.00010140134359907405,
      "loss": 1.6188,
      "step": 65851
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5979543924331665,
      "learning_rate": 0.00010139350977686145,
      "loss": 1.5168,
      "step": 65852
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6062281131744385,
      "learning_rate": 0.000101385676195728,
      "loss": 1.5638,
      "step": 65853
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6380453705787659,
      "learning_rate": 0.00010137784285568305,
      "loss": 1.5343,
      "step": 65854
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6294783353805542,
      "learning_rate": 0.00010137000975673604,
      "loss": 1.5401,
      "step": 65855
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6317551136016846,
      "learning_rate": 0.00010136217689889666,
      "loss": 1.5255,
      "step": 65856
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6196905374526978,
      "learning_rate": 0.00010135434428217432,
      "loss": 1.6188,
      "step": 65857
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6005680561065674,
      "learning_rate": 0.00010134651190657845,
      "loss": 1.5364,
      "step": 65858
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5997694134712219,
      "learning_rate": 0.00010133867977211867,
      "loss": 1.5083,
      "step": 65859
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6787885427474976,
      "learning_rate": 0.00010133084787880453,
      "loss": 1.595,
      "step": 65860
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6015965342521667,
      "learning_rate": 0.00010132301622664547,
      "loss": 1.5641,
      "step": 65861
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.620973527431488,
      "learning_rate": 0.0001013151848156509,
      "loss": 1.5975,
      "step": 65862
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6257417798042297,
      "learning_rate": 0.00010130735364583053,
      "loss": 1.5422,
      "step": 65863
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.616175651550293,
      "learning_rate": 0.00010129952271719374,
      "loss": 1.5779,
      "step": 65864
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6291782259941101,
      "learning_rate": 0.00010129169202974997,
      "loss": 1.5347,
      "step": 65865
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6327869296073914,
      "learning_rate": 0.00010128386158350888,
      "loss": 1.5119,
      "step": 65866
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6306461095809937,
      "learning_rate": 0.00010127603137847982,
      "loss": 1.5168,
      "step": 65867
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5935391783714294,
      "learning_rate": 0.00010126820141467249,
      "loss": 1.537,
      "step": 65868
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5973469018936157,
      "learning_rate": 0.00010126037169209616,
      "loss": 1.524,
      "step": 65869
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6033163666725159,
      "learning_rate": 0.00010125254221076057,
      "loss": 1.5401,
      "step": 65870
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6273949146270752,
      "learning_rate": 0.00010124471297067513,
      "loss": 1.6021,
      "step": 65871
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6153222322463989,
      "learning_rate": 0.00010123688397184919,
      "loss": 1.5865,
      "step": 65872
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.595105767250061,
      "learning_rate": 0.0001012290552142925,
      "loss": 1.5146,
      "step": 65873
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6169432401657104,
      "learning_rate": 0.00010122122669801434,
      "loss": 1.5803,
      "step": 65874
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5999720692634583,
      "learning_rate": 0.00010121339842302443,
      "loss": 1.5131,
      "step": 65875
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6085899472236633,
      "learning_rate": 0.00010120557038933214,
      "loss": 1.5251,
      "step": 65876
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6601346731185913,
      "learning_rate": 0.00010119774259694692,
      "loss": 1.4821,
      "step": 65877
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6028223633766174,
      "learning_rate": 0.00010118991504587846,
      "loss": 1.5055,
      "step": 65878
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.593970537185669,
      "learning_rate": 0.00010118208773613605,
      "loss": 1.4506,
      "step": 65879
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6198360919952393,
      "learning_rate": 0.00010117426066772936,
      "loss": 1.5107,
      "step": 65880
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6338759064674377,
      "learning_rate": 0.00010116643384066774,
      "loss": 1.5522,
      "step": 65881
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6258761286735535,
      "learning_rate": 0.00010115860725496087,
      "loss": 1.5513,
      "step": 65882
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6353799700737,
      "learning_rate": 0.00010115078091061814,
      "loss": 1.5724,
      "step": 65883
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6088658571243286,
      "learning_rate": 0.000101142954807649,
      "loss": 1.5037,
      "step": 65884
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6256288886070251,
      "learning_rate": 0.00010113512894606307,
      "loss": 1.5084,
      "step": 65885
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6211974024772644,
      "learning_rate": 0.00010112730332586982,
      "loss": 1.5289,
      "step": 65886
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6138420701026917,
      "learning_rate": 0.00010111947794707862,
      "loss": 1.4697,
      "step": 65887
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6063930988311768,
      "learning_rate": 0.00010111165280969905,
      "loss": 1.5138,
      "step": 65888
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5712254643440247,
      "learning_rate": 0.00010110382791374074,
      "loss": 1.5463,
      "step": 65889
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6114630699157715,
      "learning_rate": 0.00010109600325921309,
      "loss": 1.5557,
      "step": 65890
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6075130701065063,
      "learning_rate": 0.00010108817884612548,
      "loss": 1.5678,
      "step": 65891
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5962464809417725,
      "learning_rate": 0.0001010803546744876,
      "loss": 1.5397,
      "step": 65892
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6253566741943359,
      "learning_rate": 0.00010107253074430886,
      "loss": 1.4465,
      "step": 65893
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6024976372718811,
      "learning_rate": 0.00010106470705559869,
      "loss": 1.508,
      "step": 65894
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6305955052375793,
      "learning_rate": 0.0001010568836083666,
      "loss": 1.5485,
      "step": 65895
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6250923871994019,
      "learning_rate": 0.00010104906040262239,
      "loss": 1.5052,
      "step": 65896
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6388559937477112,
      "learning_rate": 0.00010104123743837506,
      "loss": 1.5689,
      "step": 65897
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6400011777877808,
      "learning_rate": 0.00010103341471563437,
      "loss": 1.5156,
      "step": 65898
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5963326692581177,
      "learning_rate": 0.0001010255922344099,
      "loss": 1.468,
      "step": 65899
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6219996213912964,
      "learning_rate": 0.00010101776999471106,
      "loss": 1.5723,
      "step": 65900
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6235460042953491,
      "learning_rate": 0.00010100994799654721,
      "loss": 1.5615,
      "step": 65901
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6378154754638672,
      "learning_rate": 0.00010100212623992798,
      "loss": 1.5302,
      "step": 65902
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6202867031097412,
      "learning_rate": 0.00010099430472486303,
      "loss": 1.4895,
      "step": 65903
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6646965742111206,
      "learning_rate": 0.00010098648345136152,
      "loss": 1.5565,
      "step": 65904
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6419667601585388,
      "learning_rate": 0.00010097866241943302,
      "loss": 1.538,
      "step": 65905
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6376079320907593,
      "learning_rate": 0.00010097084162908725,
      "loss": 1.5218,
      "step": 65906
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6305543184280396,
      "learning_rate": 0.00010096302108033353,
      "loss": 1.5137,
      "step": 65907
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6310706734657288,
      "learning_rate": 0.00010095520077318128,
      "loss": 1.5267,
      "step": 65908
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6151193380355835,
      "learning_rate": 0.00010094738070764009,
      "loss": 1.567,
      "step": 65909
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6218008995056152,
      "learning_rate": 0.00010093956088371967,
      "loss": 1.5194,
      "step": 65910
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5893105268478394,
      "learning_rate": 0.00010093174130142908,
      "loss": 1.5586,
      "step": 65911
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6068286895751953,
      "learning_rate": 0.00010092392196077801,
      "loss": 1.5586,
      "step": 65912
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6546820402145386,
      "learning_rate": 0.00010091610286177607,
      "loss": 1.6113,
      "step": 65913
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6524292230606079,
      "learning_rate": 0.00010090828400443266,
      "loss": 1.5626,
      "step": 65914
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6182506680488586,
      "learning_rate": 0.00010090046538875717,
      "loss": 1.4612,
      "step": 65915
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5995800495147705,
      "learning_rate": 0.00010089264701475915,
      "loss": 1.5853,
      "step": 65916
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6638680696487427,
      "learning_rate": 0.00010088482888244835,
      "loss": 1.5386,
      "step": 65917
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6201949119567871,
      "learning_rate": 0.00010087701099183379,
      "loss": 1.5811,
      "step": 65918
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.606964647769928,
      "learning_rate": 0.00010086919334292523,
      "loss": 1.6082,
      "step": 65919
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6124587655067444,
      "learning_rate": 0.00010086137593573222,
      "loss": 1.563,
      "step": 65920
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6089814901351929,
      "learning_rate": 0.00010085355877026415,
      "loss": 1.5131,
      "step": 65921
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6104576587677002,
      "learning_rate": 0.00010084574184653041,
      "loss": 1.5074,
      "step": 65922
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6063700914382935,
      "learning_rate": 0.00010083792516454073,
      "loss": 1.5499,
      "step": 65923
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6432068347930908,
      "learning_rate": 0.00010083010872430444,
      "loss": 1.483,
      "step": 65924
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.622360348701477,
      "learning_rate": 0.00010082229252583096,
      "loss": 1.5112,
      "step": 65925
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6464535593986511,
      "learning_rate": 0.00010081447656912986,
      "loss": 1.5026,
      "step": 65926
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6096691489219666,
      "learning_rate": 0.00010080666085421075,
      "loss": 1.5322,
      "step": 65927
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6027088165283203,
      "learning_rate": 0.00010079884538108297,
      "loss": 1.493,
      "step": 65928
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6180993914604187,
      "learning_rate": 0.00010079103014975597,
      "loss": 1.4654,
      "step": 65929
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6493125557899475,
      "learning_rate": 0.0001007832151602394,
      "loss": 1.5821,
      "step": 65930
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5909521579742432,
      "learning_rate": 0.00010077540041254268,
      "loss": 1.5243,
      "step": 65931
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6382244825363159,
      "learning_rate": 0.00010076758590667514,
      "loss": 1.549,
      "step": 65932
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6541000604629517,
      "learning_rate": 0.0001007597716426465,
      "loss": 1.5655,
      "step": 65933
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6174618601799011,
      "learning_rate": 0.00010075195762046602,
      "loss": 1.5123,
      "step": 65934
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5812677145004272,
      "learning_rate": 0.00010074414384014345,
      "loss": 1.4652,
      "step": 65935
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6470605134963989,
      "learning_rate": 0.000100736330301688,
      "loss": 1.5527,
      "step": 65936
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6028710603713989,
      "learning_rate": 0.0001007285170051094,
      "loss": 1.5625,
      "step": 65937
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6259310245513916,
      "learning_rate": 0.00010072070395041701,
      "loss": 1.6293,
      "step": 65938
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.633948802947998,
      "learning_rate": 0.00010071289113762023,
      "loss": 1.5222,
      "step": 65939
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6017579436302185,
      "learning_rate": 0.00010070507856672872,
      "loss": 1.5507,
      "step": 65940
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6124718189239502,
      "learning_rate": 0.00010069726623775179,
      "loss": 1.4987,
      "step": 65941
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6207106113433838,
      "learning_rate": 0.0001006894541506991,
      "loss": 1.5876,
      "step": 65942
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6234868168830872,
      "learning_rate": 0.00010068164230558005,
      "loss": 1.5321,
      "step": 65943
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6196632385253906,
      "learning_rate": 0.00010067383070240404,
      "loss": 1.5286,
      "step": 65944
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6149739623069763,
      "learning_rate": 0.00010066601934118073,
      "loss": 1.5083,
      "step": 65945
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6219510436058044,
      "learning_rate": 0.00010065820822191939,
      "loss": 1.5061,
      "step": 65946
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6172379851341248,
      "learning_rate": 0.00010065039734462973,
      "loss": 1.4572,
      "step": 65947
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6205238103866577,
      "learning_rate": 0.00010064258670932097,
      "loss": 1.5638,
      "step": 65948
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6082360148429871,
      "learning_rate": 0.00010063477631600287,
      "loss": 1.5083,
      "step": 65949
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6403058171272278,
      "learning_rate": 0.00010062696616468476,
      "loss": 1.4976,
      "step": 65950
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6006432175636292,
      "learning_rate": 0.00010061915625537606,
      "loss": 1.4881,
      "step": 65951
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6161807775497437,
      "learning_rate": 0.0001006113465880864,
      "loss": 1.5688,
      "step": 65952
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6130673289299011,
      "learning_rate": 0.0001006035371628252,
      "loss": 1.5148,
      "step": 65953
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5982720255851746,
      "learning_rate": 0.00010059572797960183,
      "loss": 1.5508,
      "step": 65954
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6211951375007629,
      "learning_rate": 0.00010058791903842588,
      "loss": 1.5622,
      "step": 65955
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6337977051734924,
      "learning_rate": 0.0001005801103393069,
      "loss": 1.6017,
      "step": 65956
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6432069540023804,
      "learning_rate": 0.00010057230188225429,
      "loss": 1.5885,
      "step": 65957
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6175894141197205,
      "learning_rate": 0.0001005644936672774,
      "loss": 1.5529,
      "step": 65958
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5974999070167542,
      "learning_rate": 0.00010055668569438595,
      "loss": 1.5208,
      "step": 65959
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6263939142227173,
      "learning_rate": 0.0001005488779635893,
      "loss": 1.4853,
      "step": 65960
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6176947951316833,
      "learning_rate": 0.0001005410704748968,
      "loss": 1.4895,
      "step": 65961
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5965903997421265,
      "learning_rate": 0.00010053326322831804,
      "loss": 1.5635,
      "step": 65962
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5897453427314758,
      "learning_rate": 0.00010052545622386273,
      "loss": 1.5198,
      "step": 65963
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6062063574790955,
      "learning_rate": 0.00010051764946153994,
      "loss": 1.5209,
      "step": 65964
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6406058073043823,
      "learning_rate": 0.00010050984294135931,
      "loss": 1.5411,
      "step": 65965
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.63790363073349,
      "learning_rate": 0.00010050203666333046,
      "loss": 1.5754,
      "step": 65966
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5991180539131165,
      "learning_rate": 0.00010049423062746273,
      "loss": 1.4628,
      "step": 65967
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6334414482116699,
      "learning_rate": 0.00010048642483376548,
      "loss": 1.5809,
      "step": 65968
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6276015043258667,
      "learning_rate": 0.00010047861928224835,
      "loss": 1.5791,
      "step": 65969
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6389519572257996,
      "learning_rate": 0.00010047081397292088,
      "loss": 1.4893,
      "step": 65970
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6452234387397766,
      "learning_rate": 0.00010046300890579243,
      "loss": 1.519,
      "step": 65971
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.6229828000068665,
      "learning_rate": 0.00010045520408087239,
      "loss": 1.5426,
      "step": 65972
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5902618169784546,
      "learning_rate": 0.00010044739949817041,
      "loss": 1.549,
      "step": 65973
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5902798771858215,
      "learning_rate": 0.0001004395951576959,
      "loss": 1.5144,
      "step": 65974
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.5940829515457153,
      "learning_rate": 0.00010043179105945823,
      "loss": 1.5429,
      "step": 65975
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6198409199714661,
      "learning_rate": 0.00010042398720346695,
      "loss": 1.5754,
      "step": 65976
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6066290140151978,
      "learning_rate": 0.00010041618358973164,
      "loss": 1.513,
      "step": 65977
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.626987636089325,
      "learning_rate": 0.00010040838021826169,
      "loss": 1.545,
      "step": 65978
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6417175531387329,
      "learning_rate": 0.00010040057708906646,
      "loss": 1.5657,
      "step": 65979
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6150982975959778,
      "learning_rate": 0.00010039277420215559,
      "loss": 1.4925,
      "step": 65980
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6138049364089966,
      "learning_rate": 0.0001003849715575385,
      "loss": 1.4943,
      "step": 65981
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6077303886413574,
      "learning_rate": 0.00010037716915522454,
      "loss": 1.4921,
      "step": 65982
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6141188144683838,
      "learning_rate": 0.0001003693669952234,
      "loss": 1.5484,
      "step": 65983
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5873098373413086,
      "learning_rate": 0.0001003615650775443,
      "loss": 1.4721,
      "step": 65984
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.631243109703064,
      "learning_rate": 0.00010035376340219697,
      "loss": 1.5456,
      "step": 65985
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6005564332008362,
      "learning_rate": 0.00010034596196919064,
      "loss": 1.5483,
      "step": 65986
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6101967096328735,
      "learning_rate": 0.000100338160778535,
      "loss": 1.5156,
      "step": 65987
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6255770325660706,
      "learning_rate": 0.00010033035983023944,
      "loss": 1.6044,
      "step": 65988
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.828862190246582,
      "learning_rate": 0.00010032255912431326,
      "loss": 1.5206,
      "step": 65989
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6161310076713562,
      "learning_rate": 0.00010031475866076621,
      "loss": 1.489,
      "step": 65990
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6240183711051941,
      "learning_rate": 0.00010030695843960749,
      "loss": 1.5123,
      "step": 65991
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6211003065109253,
      "learning_rate": 0.0001002991584608468,
      "loss": 1.5934,
      "step": 65992
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6164039373397827,
      "learning_rate": 0.00010029135872449352,
      "loss": 1.5492,
      "step": 65993
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6160721778869629,
      "learning_rate": 0.00010028355923055702,
      "loss": 1.4797,
      "step": 65994
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6171469688415527,
      "learning_rate": 0.00010027575997904694,
      "loss": 1.5992,
      "step": 65995
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6095781326293945,
      "learning_rate": 0.00010026796096997255,
      "loss": 1.5459,
      "step": 65996
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.616894543170929,
      "learning_rate": 0.00010026016220334354,
      "loss": 1.4955,
      "step": 65997
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6463358402252197,
      "learning_rate": 0.00010025236367916914,
      "loss": 1.4908,
      "step": 65998
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6348024606704712,
      "learning_rate": 0.00010024456539745906,
      "loss": 1.5507,
      "step": 65999
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6167342066764832,
      "learning_rate": 0.00010023676735822265,
      "loss": 1.5508,
      "step": 66000
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6003437042236328,
      "learning_rate": 0.00010022896956146924,
      "loss": 1.471,
      "step": 66001
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5979501008987427,
      "learning_rate": 0.00010022117200720857,
      "loss": 1.5053,
      "step": 66002
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6196895837783813,
      "learning_rate": 0.00010021337469544993,
      "loss": 1.5163,
      "step": 66003
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6271485090255737,
      "learning_rate": 0.00010020557762620272,
      "loss": 1.5479,
      "step": 66004
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6565744876861572,
      "learning_rate": 0.0001001977807994765,
      "loss": 1.5901,
      "step": 66005
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6404607892036438,
      "learning_rate": 0.00010018998421528085,
      "loss": 1.596,
      "step": 66006
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6091460585594177,
      "learning_rate": 0.00010018218787362509,
      "loss": 1.4967,
      "step": 66007
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5845195055007935,
      "learning_rate": 0.00010017439177451864,
      "loss": 1.5195,
      "step": 66008
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.623460590839386,
      "learning_rate": 0.00010016659591797113,
      "loss": 1.6558,
      "step": 66009
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6104491949081421,
      "learning_rate": 0.00010015880030399191,
      "loss": 1.5767,
      "step": 66010
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6030217409133911,
      "learning_rate": 0.00010015100493259036,
      "loss": 1.5092,
      "step": 66011
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6020544171333313,
      "learning_rate": 0.00010014320980377606,
      "loss": 1.5949,
      "step": 66012
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6282193660736084,
      "learning_rate": 0.00010013541491755866,
      "loss": 1.5704,
      "step": 66013
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6446799039840698,
      "learning_rate": 0.00010012762027394721,
      "loss": 1.4965,
      "step": 66014
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.9996110796928406,
      "learning_rate": 0.00010011982587295137,
      "loss": 1.5091,
      "step": 66015
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6151261925697327,
      "learning_rate": 0.00010011203171458073,
      "loss": 1.5885,
      "step": 66016
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6070088148117065,
      "learning_rate": 0.00010010423779884464,
      "loss": 1.5377,
      "step": 66017
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6063135862350464,
      "learning_rate": 0.00010009644412575244,
      "loss": 1.5448,
      "step": 66018
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6431973576545715,
      "learning_rate": 0.00010008865069531368,
      "loss": 1.5346,
      "step": 66019
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6237732768058777,
      "learning_rate": 0.00010008085750753807,
      "loss": 1.5291,
      "step": 66020
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6367560029029846,
      "learning_rate": 0.00010007306456243461,
      "loss": 1.529,
      "step": 66021
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6234549880027771,
      "learning_rate": 0.00010006527186001303,
      "loss": 1.5809,
      "step": 66022
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6345015168190002,
      "learning_rate": 0.00010005747940028281,
      "loss": 1.5357,
      "step": 66023
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5980818271636963,
      "learning_rate": 0.00010004968718325339,
      "loss": 1.5824,
      "step": 66024
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.619111955165863,
      "learning_rate": 0.00010004189520893408,
      "loss": 1.4965,
      "step": 66025
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6136792302131653,
      "learning_rate": 0.00010003410347733443,
      "loss": 1.5807,
      "step": 66026
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6086363792419434,
      "learning_rate": 0.00010002631198846414,
      "loss": 1.521,
      "step": 66027
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.629268229007721,
      "learning_rate": 0.00010001852074233221,
      "loss": 1.5114,
      "step": 66028
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6298099756240845,
      "learning_rate": 0.00010001072973894833,
      "loss": 1.4982,
      "step": 66029
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6019391417503357,
      "learning_rate": 0.00010000293897832208,
      "loss": 1.4994,
      "step": 66030
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6445965766906738,
      "learning_rate": 9.999514846046279e-05,
      "loss": 1.509,
      "step": 66031
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6181142926216125,
      "learning_rate": 9.998735818537984e-05,
      "loss": 1.5408,
      "step": 66032
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.601862907409668,
      "learning_rate": 9.997956815308274e-05,
      "loss": 1.5144,
      "step": 66033
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6119414567947388,
      "learning_rate": 9.997177836358117e-05,
      "loss": 1.5157,
      "step": 66034
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6086419224739075,
      "learning_rate": 9.99639888168842e-05,
      "loss": 1.6099,
      "step": 66035
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6020271182060242,
      "learning_rate": 9.995619951300147e-05,
      "loss": 1.5174,
      "step": 66036
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6413375735282898,
      "learning_rate": 9.994841045194253e-05,
      "loss": 1.5185,
      "step": 66037
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6334733963012695,
      "learning_rate": 9.994062163371675e-05,
      "loss": 1.5893,
      "step": 66038
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6026105284690857,
      "learning_rate": 9.993283305833348e-05,
      "loss": 1.5557,
      "step": 66039
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6088101863861084,
      "learning_rate": 9.992504472580237e-05,
      "loss": 1.6098,
      "step": 66040
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6187697052955627,
      "learning_rate": 9.991725663613277e-05,
      "loss": 1.5257,
      "step": 66041
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6114586591720581,
      "learning_rate": 9.990946878933406e-05,
      "loss": 1.4837,
      "step": 66042
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5909008383750916,
      "learning_rate": 9.990168118541576e-05,
      "loss": 1.5489,
      "step": 66043
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6127483248710632,
      "learning_rate": 9.989389382438744e-05,
      "loss": 1.4754,
      "step": 66044
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6296164393424988,
      "learning_rate": 9.988610670625845e-05,
      "loss": 1.5515,
      "step": 66045
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6030706763267517,
      "learning_rate": 9.987831983103813e-05,
      "loss": 1.5202,
      "step": 66046
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6109719276428223,
      "learning_rate": 9.987053319873614e-05,
      "loss": 1.513,
      "step": 66047
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6155936121940613,
      "learning_rate": 9.986274680936184e-05,
      "loss": 1.5072,
      "step": 66048
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6040775775909424,
      "learning_rate": 9.985496066292459e-05,
      "loss": 1.5831,
      "step": 66049
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6150890588760376,
      "learning_rate": 9.984717475943402e-05,
      "loss": 1.5407,
      "step": 66050
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6224514245986938,
      "learning_rate": 9.983938909889939e-05,
      "loss": 1.5596,
      "step": 66051
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6205555200576782,
      "learning_rate": 9.983160368133032e-05,
      "loss": 1.5699,
      "step": 66052
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5988529920578003,
      "learning_rate": 9.982381850673613e-05,
      "loss": 1.495,
      "step": 66053
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6138129830360413,
      "learning_rate": 9.981603357512641e-05,
      "loss": 1.4967,
      "step": 66054
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6079815626144409,
      "learning_rate": 9.980824888651054e-05,
      "loss": 1.4346,
      "step": 66055
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6203471422195435,
      "learning_rate": 9.980046444089786e-05,
      "loss": 1.5597,
      "step": 66056
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6270898580551147,
      "learning_rate": 9.979268023829799e-05,
      "loss": 1.5364,
      "step": 66057
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6189719438552856,
      "learning_rate": 9.978489627872026e-05,
      "loss": 1.6146,
      "step": 66058
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6221395134925842,
      "learning_rate": 9.977711256217423e-05,
      "loss": 1.5708,
      "step": 66059
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6214060187339783,
      "learning_rate": 9.976932908866927e-05,
      "loss": 1.5566,
      "step": 66060
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6248847246170044,
      "learning_rate": 9.976154585821476e-05,
      "loss": 1.5334,
      "step": 66061
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6306962966918945,
      "learning_rate": 9.975376287082033e-05,
      "loss": 1.5808,
      "step": 66062
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6197730302810669,
      "learning_rate": 9.974598012649522e-05,
      "loss": 1.5951,
      "step": 66063
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6481346487998962,
      "learning_rate": 9.973819762524912e-05,
      "loss": 1.5331,
      "step": 66064
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6233964562416077,
      "learning_rate": 9.973041536709118e-05,
      "loss": 1.5788,
      "step": 66065
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5907022953033447,
      "learning_rate": 9.972263335203117e-05,
      "loss": 1.4953,
      "step": 66066
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6388804912567139,
      "learning_rate": 9.971485158007835e-05,
      "loss": 1.6098,
      "step": 66067
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6670529246330261,
      "learning_rate": 9.970707005124206e-05,
      "loss": 1.5181,
      "step": 66068
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5940592885017395,
      "learning_rate": 9.969928876553202e-05,
      "loss": 1.5083,
      "step": 66069
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6235564947128296,
      "learning_rate": 9.969150772295749e-05,
      "loss": 1.5731,
      "step": 66070
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6261613965034485,
      "learning_rate": 9.968372692352786e-05,
      "loss": 1.5973,
      "step": 66071
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6064381003379822,
      "learning_rate": 9.967594636725271e-05,
      "loss": 1.4834,
      "step": 66072
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6289544701576233,
      "learning_rate": 9.96681660541415e-05,
      "loss": 1.563,
      "step": 66073
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.605757474899292,
      "learning_rate": 9.966038598420364e-05,
      "loss": 1.5979,
      "step": 66074
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6114622354507446,
      "learning_rate": 9.965260615744845e-05,
      "loss": 1.5241,
      "step": 66075
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.631138265132904,
      "learning_rate": 9.964482657388557e-05,
      "loss": 1.5658,
      "step": 66076
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6246272325515747,
      "learning_rate": 9.963704723352438e-05,
      "loss": 1.4966,
      "step": 66077
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6199092268943787,
      "learning_rate": 9.962926813637418e-05,
      "loss": 1.5289,
      "step": 66078
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.611652672290802,
      "learning_rate": 9.962148928244452e-05,
      "loss": 1.586,
      "step": 66079
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6286464333534241,
      "learning_rate": 9.961371067174492e-05,
      "loss": 1.5277,
      "step": 66080
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6386370658874512,
      "learning_rate": 9.960593230428475e-05,
      "loss": 1.4946,
      "step": 66081
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6143853664398193,
      "learning_rate": 9.959815418007338e-05,
      "loss": 1.5074,
      "step": 66082
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6185441017150879,
      "learning_rate": 9.959037629912042e-05,
      "loss": 1.5911,
      "step": 66083
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6057584285736084,
      "learning_rate": 9.958259866143521e-05,
      "loss": 1.511,
      "step": 66084
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6034338474273682,
      "learning_rate": 9.957482126702709e-05,
      "loss": 1.5543,
      "step": 66085
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.643606960773468,
      "learning_rate": 9.956704411590562e-05,
      "loss": 1.4758,
      "step": 66086
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6177105903625488,
      "learning_rate": 9.95592672080803e-05,
      "loss": 1.5306,
      "step": 66087
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6173856258392334,
      "learning_rate": 9.955149054356053e-05,
      "loss": 1.503,
      "step": 66088
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6241878867149353,
      "learning_rate": 9.954371412235559e-05,
      "loss": 1.577,
      "step": 66089
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6016173362731934,
      "learning_rate": 9.953593794447517e-05,
      "loss": 1.5194,
      "step": 66090
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6150038242340088,
      "learning_rate": 9.952816200992858e-05,
      "loss": 1.5572,
      "step": 66091
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6247494220733643,
      "learning_rate": 9.952038631872513e-05,
      "loss": 1.452,
      "step": 66092
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6964725255966187,
      "learning_rate": 9.951261087087442e-05,
      "loss": 1.4993,
      "step": 66093
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.610614001750946,
      "learning_rate": 9.950483566638594e-05,
      "loss": 1.5587,
      "step": 66094
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5982120037078857,
      "learning_rate": 9.949706070526909e-05,
      "loss": 1.4867,
      "step": 66095
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6321706771850586,
      "learning_rate": 9.948928598753314e-05,
      "loss": 1.5195,
      "step": 66096
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6220740675926208,
      "learning_rate": 9.948151151318774e-05,
      "loss": 1.5667,
      "step": 66097
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6127479076385498,
      "learning_rate": 9.947373728224224e-05,
      "loss": 1.5014,
      "step": 66098
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6194165945053101,
      "learning_rate": 9.9465963294706e-05,
      "loss": 1.5531,
      "step": 66099
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6427260637283325,
      "learning_rate": 9.945818955058861e-05,
      "loss": 1.5736,
      "step": 66100
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6061341762542725,
      "learning_rate": 9.945041604989933e-05,
      "loss": 1.4985,
      "step": 66101
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.630368709564209,
      "learning_rate": 9.944264279264782e-05,
      "loss": 1.5622,
      "step": 66102
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6255088448524475,
      "learning_rate": 9.943486977884328e-05,
      "loss": 1.4913,
      "step": 66103
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.603285014629364,
      "learning_rate": 9.942709700849535e-05,
      "loss": 1.5218,
      "step": 66104
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5946827530860901,
      "learning_rate": 9.941932448161338e-05,
      "loss": 1.5432,
      "step": 66105
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6000686287879944,
      "learning_rate": 9.941155219820666e-05,
      "loss": 1.5025,
      "step": 66106
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6138287782669067,
      "learning_rate": 9.94037801582849e-05,
      "loss": 1.5903,
      "step": 66107
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6435854434967041,
      "learning_rate": 9.939600836185728e-05,
      "loss": 1.4986,
      "step": 66108
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6447749137878418,
      "learning_rate": 9.938823680893346e-05,
      "loss": 1.518,
      "step": 66109
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5963936448097229,
      "learning_rate": 9.938046549952277e-05,
      "loss": 1.5131,
      "step": 66110
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6352048516273499,
      "learning_rate": 9.937269443363452e-05,
      "loss": 1.5535,
      "step": 66111
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6314855813980103,
      "learning_rate": 9.936492361127833e-05,
      "loss": 1.5412,
      "step": 66112
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6161196231842041,
      "learning_rate": 9.935715303246348e-05,
      "loss": 1.5079,
      "step": 66113
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.632893443107605,
      "learning_rate": 9.93493826971996e-05,
      "loss": 1.5285,
      "step": 66114
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6218574643135071,
      "learning_rate": 9.934161260549591e-05,
      "loss": 1.6222,
      "step": 66115
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6348073482513428,
      "learning_rate": 9.933384275736203e-05,
      "loss": 1.4747,
      "step": 66116
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5912165641784668,
      "learning_rate": 9.932607315280726e-05,
      "loss": 1.5346,
      "step": 66117
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6451616883277893,
      "learning_rate": 9.931830379184101e-05,
      "loss": 1.5475,
      "step": 66118
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6224650740623474,
      "learning_rate": 9.931053467447288e-05,
      "loss": 1.6573,
      "step": 66119
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6238362193107605,
      "learning_rate": 9.930276580071214e-05,
      "loss": 1.4751,
      "step": 66120
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6145214438438416,
      "learning_rate": 9.929499717056822e-05,
      "loss": 1.5694,
      "step": 66121
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6144886016845703,
      "learning_rate": 9.928722878405057e-05,
      "loss": 1.541,
      "step": 66122
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6245326399803162,
      "learning_rate": 9.927946064116875e-05,
      "loss": 1.5224,
      "step": 66123
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.625422477722168,
      "learning_rate": 9.92716927419321e-05,
      "loss": 1.4885,
      "step": 66124
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6053996682167053,
      "learning_rate": 9.926392508634996e-05,
      "loss": 1.592,
      "step": 66125
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6026256084442139,
      "learning_rate": 9.925615767443194e-05,
      "loss": 1.5128,
      "step": 66126
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6064280867576599,
      "learning_rate": 9.924839050618732e-05,
      "loss": 1.4984,
      "step": 66127
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6592342257499695,
      "learning_rate": 9.924062358162552e-05,
      "loss": 1.5688,
      "step": 66128
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.648300290107727,
      "learning_rate": 9.923285690075599e-05,
      "loss": 1.6458,
      "step": 66129
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6152824759483337,
      "learning_rate": 9.92250904635884e-05,
      "loss": 1.5564,
      "step": 66130
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6327603459358215,
      "learning_rate": 9.921732427013178e-05,
      "loss": 1.4756,
      "step": 66131
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6381028890609741,
      "learning_rate": 9.920955832039573e-05,
      "loss": 1.6175,
      "step": 66132
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6375529766082764,
      "learning_rate": 9.920179261438979e-05,
      "loss": 1.5075,
      "step": 66133
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.623400866985321,
      "learning_rate": 9.91940271521233e-05,
      "loss": 1.604,
      "step": 66134
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6025688648223877,
      "learning_rate": 9.918626193360557e-05,
      "loss": 1.5622,
      "step": 66135
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6325221657752991,
      "learning_rate": 9.917849695884612e-05,
      "loss": 1.5118,
      "step": 66136
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6172904372215271,
      "learning_rate": 9.917073222785458e-05,
      "loss": 1.5657,
      "step": 66137
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5990370512008667,
      "learning_rate": 9.916296774064e-05,
      "loss": 1.504,
      "step": 66138
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5850709676742554,
      "learning_rate": 9.915520349721198e-05,
      "loss": 1.4923,
      "step": 66139
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6268162727355957,
      "learning_rate": 9.914743949758004e-05,
      "loss": 1.5375,
      "step": 66140
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6078194379806519,
      "learning_rate": 9.913967574175352e-05,
      "loss": 1.4967,
      "step": 66141
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6142288446426392,
      "learning_rate": 9.913191222974175e-05,
      "loss": 1.5533,
      "step": 66142
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5979408025741577,
      "learning_rate": 9.912414896155421e-05,
      "loss": 1.5097,
      "step": 66143
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6095691323280334,
      "learning_rate": 9.91163859372006e-05,
      "loss": 1.4773,
      "step": 66144
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6033446788787842,
      "learning_rate": 9.910862315668986e-05,
      "loss": 1.5959,
      "step": 66145
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6249452829360962,
      "learning_rate": 9.910086062003167e-05,
      "loss": 1.5358,
      "step": 66146
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6096751093864441,
      "learning_rate": 9.909309832723555e-05,
      "loss": 1.5255,
      "step": 66147
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5939674973487854,
      "learning_rate": 9.908533627831077e-05,
      "loss": 1.5237,
      "step": 66148
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.612677812576294,
      "learning_rate": 9.907757447326671e-05,
      "loss": 1.5537,
      "step": 66149
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6148754358291626,
      "learning_rate": 9.906981291211285e-05,
      "loss": 1.5007,
      "step": 66150
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6163510680198669,
      "learning_rate": 9.906205159485887e-05,
      "loss": 1.4738,
      "step": 66151
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6089121103286743,
      "learning_rate": 9.905429052151371e-05,
      "loss": 1.5044,
      "step": 66152
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6296609044075012,
      "learning_rate": 9.904652969208707e-05,
      "loss": 1.5931,
      "step": 66153
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6089862585067749,
      "learning_rate": 9.903876910658842e-05,
      "loss": 1.5585,
      "step": 66154
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6114805340766907,
      "learning_rate": 9.903100876502708e-05,
      "loss": 1.5119,
      "step": 66155
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6223188638687134,
      "learning_rate": 9.902324866741239e-05,
      "loss": 1.3935,
      "step": 66156
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6285731792449951,
      "learning_rate": 9.901548881375399e-05,
      "loss": 1.5089,
      "step": 66157
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5985076427459717,
      "learning_rate": 9.900772920406113e-05,
      "loss": 1.5229,
      "step": 66158
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6152174472808838,
      "learning_rate": 9.899996983834321e-05,
      "loss": 1.5555,
      "step": 66159
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6357446908950806,
      "learning_rate": 9.899221071660969e-05,
      "loss": 1.6296,
      "step": 66160
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6107502579689026,
      "learning_rate": 9.898445183887012e-05,
      "loss": 1.5186,
      "step": 66161
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6135061383247375,
      "learning_rate": 9.897669320513378e-05,
      "loss": 1.5085,
      "step": 66162
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.617780327796936,
      "learning_rate": 9.896893481541005e-05,
      "loss": 1.5393,
      "step": 66163
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6100459098815918,
      "learning_rate": 9.896117666970849e-05,
      "loss": 1.4763,
      "step": 66164
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6063261032104492,
      "learning_rate": 9.895341876803845e-05,
      "loss": 1.4871,
      "step": 66165
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.625889241695404,
      "learning_rate": 9.894566111040924e-05,
      "loss": 1.5423,
      "step": 66166
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6080986261367798,
      "learning_rate": 9.893790369683047e-05,
      "loss": 1.472,
      "step": 66167
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6105189323425293,
      "learning_rate": 9.893014652731136e-05,
      "loss": 1.4517,
      "step": 66168
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6171679496765137,
      "learning_rate": 9.89223896018615e-05,
      "loss": 1.5924,
      "step": 66169
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.576452374458313,
      "learning_rate": 9.891463292049017e-05,
      "loss": 1.5263,
      "step": 66170
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6010110378265381,
      "learning_rate": 9.890687648320694e-05,
      "loss": 1.5987,
      "step": 66171
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5986148715019226,
      "learning_rate": 9.889912029002112e-05,
      "loss": 1.4725,
      "step": 66172
    },
    {
      "epoch": 2.2,
      "grad_norm": 1.0046216249465942,
      "learning_rate": 9.889136434094205e-05,
      "loss": 1.4919,
      "step": 66173
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6232020258903503,
      "learning_rate": 9.888360863597932e-05,
      "loss": 1.5269,
      "step": 66174
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.654664158821106,
      "learning_rate": 9.887585317514217e-05,
      "loss": 1.599,
      "step": 66175
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.602899968624115,
      "learning_rate": 9.886809795844018e-05,
      "loss": 1.6311,
      "step": 66176
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5970766544342041,
      "learning_rate": 9.88603429858827e-05,
      "loss": 1.5028,
      "step": 66177
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6051154732704163,
      "learning_rate": 9.8852588257479e-05,
      "loss": 1.5343,
      "step": 66178
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6376699209213257,
      "learning_rate": 9.884483377323874e-05,
      "loss": 1.5134,
      "step": 66179
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6457066535949707,
      "learning_rate": 9.883707953317112e-05,
      "loss": 1.5355,
      "step": 66180
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6015910506248474,
      "learning_rate": 9.882932553728575e-05,
      "loss": 1.4678,
      "step": 66181
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6239463090896606,
      "learning_rate": 9.882157178559181e-05,
      "loss": 1.466,
      "step": 66182
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5901618003845215,
      "learning_rate": 9.881381827809897e-05,
      "loss": 1.5417,
      "step": 66183
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6051670908927917,
      "learning_rate": 9.88060650148165e-05,
      "loss": 1.5254,
      "step": 66184
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6070603132247925,
      "learning_rate": 9.879831199575372e-05,
      "loss": 1.4939,
      "step": 66185
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6329612135887146,
      "learning_rate": 9.879055922092024e-05,
      "loss": 1.5155,
      "step": 66186
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6468794941902161,
      "learning_rate": 9.878280669032538e-05,
      "loss": 1.5609,
      "step": 66187
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6060846447944641,
      "learning_rate": 9.877505440397846e-05,
      "loss": 1.5483,
      "step": 66188
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6211109757423401,
      "learning_rate": 9.876730236188894e-05,
      "loss": 1.5485,
      "step": 66189
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.609751284122467,
      "learning_rate": 9.875955056406636e-05,
      "loss": 1.5363,
      "step": 66190
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.625190258026123,
      "learning_rate": 9.875179901052009e-05,
      "loss": 1.5642,
      "step": 66191
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6244557499885559,
      "learning_rate": 9.874404770125934e-05,
      "loss": 1.4878,
      "step": 66192
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6189557313919067,
      "learning_rate": 9.873629663629377e-05,
      "loss": 1.5116,
      "step": 66193
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6293302774429321,
      "learning_rate": 9.872854581563269e-05,
      "loss": 1.5471,
      "step": 66194
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6418282985687256,
      "learning_rate": 9.87207952392854e-05,
      "loss": 1.5445,
      "step": 66195
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6168102622032166,
      "learning_rate": 9.871304490726141e-05,
      "loss": 1.6256,
      "step": 66196
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5993586182594299,
      "learning_rate": 9.87052948195702e-05,
      "loss": 1.5121,
      "step": 66197
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.59561687707901,
      "learning_rate": 9.869754497622111e-05,
      "loss": 1.5422,
      "step": 66198
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6174601912498474,
      "learning_rate": 9.868979537722345e-05,
      "loss": 1.515,
      "step": 66199
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6399566531181335,
      "learning_rate": 9.86820460225868e-05,
      "loss": 1.5447,
      "step": 66200
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6097933053970337,
      "learning_rate": 9.86742969123205e-05,
      "loss": 1.5381,
      "step": 66201
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6124884486198425,
      "learning_rate": 9.866654804643386e-05,
      "loss": 1.5689,
      "step": 66202
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.624651312828064,
      "learning_rate": 9.865879942493635e-05,
      "loss": 1.4834,
      "step": 66203
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6085879802703857,
      "learning_rate": 9.865105104783748e-05,
      "loss": 1.4965,
      "step": 66204
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6215677857398987,
      "learning_rate": 9.864330291514658e-05,
      "loss": 1.5241,
      "step": 66205
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.623949408531189,
      "learning_rate": 9.863555502687291e-05,
      "loss": 1.4882,
      "step": 66206
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6225127577781677,
      "learning_rate": 9.862780738302613e-05,
      "loss": 1.5253,
      "step": 66207
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.625009298324585,
      "learning_rate": 9.862005998361553e-05,
      "loss": 1.5248,
      "step": 66208
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.652326226234436,
      "learning_rate": 9.861231282865039e-05,
      "loss": 1.5202,
      "step": 66209
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6472759246826172,
      "learning_rate": 9.860456591814024e-05,
      "loss": 1.582,
      "step": 66210
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6286247372627258,
      "learning_rate": 9.859681925209457e-05,
      "loss": 1.5279,
      "step": 66211
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.602595329284668,
      "learning_rate": 9.858907283052266e-05,
      "loss": 1.541,
      "step": 66212
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6197142004966736,
      "learning_rate": 9.85813266534339e-05,
      "loss": 1.4992,
      "step": 66213
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5943061113357544,
      "learning_rate": 9.857358072083777e-05,
      "loss": 1.5096,
      "step": 66214
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6360184550285339,
      "learning_rate": 9.856583503274368e-05,
      "loss": 1.5983,
      "step": 66215
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.59902024269104,
      "learning_rate": 9.855808958916084e-05,
      "loss": 1.5267,
      "step": 66216
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6422885656356812,
      "learning_rate": 9.855034439009893e-05,
      "loss": 1.5355,
      "step": 66217
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6346938610076904,
      "learning_rate": 9.854259943556712e-05,
      "loss": 1.558,
      "step": 66218
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6275827288627625,
      "learning_rate": 9.853485472557501e-05,
      "loss": 1.5648,
      "step": 66219
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5903570652008057,
      "learning_rate": 9.852711026013181e-05,
      "loss": 1.4601,
      "step": 66220
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6231438517570496,
      "learning_rate": 9.851936603924707e-05,
      "loss": 1.5824,
      "step": 66221
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6194728016853333,
      "learning_rate": 9.851162206293017e-05,
      "loss": 1.4928,
      "step": 66222
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.610317051410675,
      "learning_rate": 9.850387833119036e-05,
      "loss": 1.4948,
      "step": 66223
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5965459942817688,
      "learning_rate": 9.849613484403728e-05,
      "loss": 1.5668,
      "step": 66224
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5961728692054749,
      "learning_rate": 9.848839160148007e-05,
      "loss": 1.5638,
      "step": 66225
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6190336346626282,
      "learning_rate": 9.848064860352835e-05,
      "loss": 1.5209,
      "step": 66226
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5818771123886108,
      "learning_rate": 9.847290585019148e-05,
      "loss": 1.5052,
      "step": 66227
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6104402542114258,
      "learning_rate": 9.846516334147865e-05,
      "loss": 1.5704,
      "step": 66228
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6035564541816711,
      "learning_rate": 9.845742107739956e-05,
      "loss": 1.5081,
      "step": 66229
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6207884550094604,
      "learning_rate": 9.844967905796336e-05,
      "loss": 1.5587,
      "step": 66230
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6267796158790588,
      "learning_rate": 9.844193728317962e-05,
      "loss": 1.5134,
      "step": 66231
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6219527721405029,
      "learning_rate": 9.84341957530576e-05,
      "loss": 1.4487,
      "step": 66232
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.628944456577301,
      "learning_rate": 9.842645446760687e-05,
      "loss": 1.5904,
      "step": 66233
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6302728652954102,
      "learning_rate": 9.841871342683671e-05,
      "loss": 1.5281,
      "step": 66234
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6074095368385315,
      "learning_rate": 9.841097263075644e-05,
      "loss": 1.5673,
      "step": 66235
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6090306043624878,
      "learning_rate": 9.840323207937565e-05,
      "loss": 1.4619,
      "step": 66236
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6535337567329407,
      "learning_rate": 9.839549177270361e-05,
      "loss": 1.6184,
      "step": 66237
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6190729141235352,
      "learning_rate": 9.838775171074964e-05,
      "loss": 1.516,
      "step": 66238
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6299167275428772,
      "learning_rate": 9.838001189352325e-05,
      "loss": 1.5306,
      "step": 66239
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5955260992050171,
      "learning_rate": 9.837227232103391e-05,
      "loss": 1.4435,
      "step": 66240
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6066291928291321,
      "learning_rate": 9.836453299329095e-05,
      "loss": 1.5831,
      "step": 66241
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5838713645935059,
      "learning_rate": 9.835679391030359e-05,
      "loss": 1.5622,
      "step": 66242
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6101351976394653,
      "learning_rate": 9.83490550720815e-05,
      "loss": 1.5723,
      "step": 66243
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.643360435962677,
      "learning_rate": 9.834131647863392e-05,
      "loss": 1.5032,
      "step": 66244
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6168677806854248,
      "learning_rate": 9.83335781299702e-05,
      "loss": 1.5468,
      "step": 66245
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6264395117759705,
      "learning_rate": 9.83258400260998e-05,
      "loss": 1.5965,
      "step": 66246
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6330167055130005,
      "learning_rate": 9.831810216703231e-05,
      "loss": 1.5903,
      "step": 66247
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6249091029167175,
      "learning_rate": 9.831036455277672e-05,
      "loss": 1.5267,
      "step": 66248
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6100939512252808,
      "learning_rate": 9.830262718334264e-05,
      "loss": 1.5947,
      "step": 66249
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6336609721183777,
      "learning_rate": 9.829489005873952e-05,
      "loss": 1.512,
      "step": 66250
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5962792634963989,
      "learning_rate": 9.828715317897673e-05,
      "loss": 1.5822,
      "step": 66251
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6544308662414551,
      "learning_rate": 9.82794165440635e-05,
      "loss": 1.5315,
      "step": 66252
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6125062108039856,
      "learning_rate": 9.827168015400931e-05,
      "loss": 1.5836,
      "step": 66253
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.602168619632721,
      "learning_rate": 9.826394400882379e-05,
      "loss": 1.5811,
      "step": 66254
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6208001375198364,
      "learning_rate": 9.825620810851595e-05,
      "loss": 1.6202,
      "step": 66255
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6247504949569702,
      "learning_rate": 9.824847245309533e-05,
      "loss": 1.4419,
      "step": 66256
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6534270644187927,
      "learning_rate": 9.82407370425714e-05,
      "loss": 1.5246,
      "step": 66257
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6062251329421997,
      "learning_rate": 9.823300187695354e-05,
      "loss": 1.5259,
      "step": 66258
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6186278462409973,
      "learning_rate": 9.822526695625097e-05,
      "loss": 1.5532,
      "step": 66259
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6249460577964783,
      "learning_rate": 9.821753228047318e-05,
      "loss": 1.4905,
      "step": 66260
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6079055666923523,
      "learning_rate": 9.82097978496298e-05,
      "loss": 1.5633,
      "step": 66261
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6370534896850586,
      "learning_rate": 9.820206366372977e-05,
      "loss": 1.6017,
      "step": 66262
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6273680925369263,
      "learning_rate": 9.81943297227827e-05,
      "loss": 1.5025,
      "step": 66263
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6165155172348022,
      "learning_rate": 9.818659602679809e-05,
      "loss": 1.5464,
      "step": 66264
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6208772659301758,
      "learning_rate": 9.817886257578522e-05,
      "loss": 1.525,
      "step": 66265
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6336198449134827,
      "learning_rate": 9.817112936975336e-05,
      "loss": 1.5025,
      "step": 66266
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6169769763946533,
      "learning_rate": 9.816339640871201e-05,
      "loss": 1.5958,
      "step": 66267
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.602526843547821,
      "learning_rate": 9.815566369267077e-05,
      "loss": 1.5337,
      "step": 66268
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6200685501098633,
      "learning_rate": 9.814793122163863e-05,
      "loss": 1.5163,
      "step": 66269
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6028310656547546,
      "learning_rate": 9.814019899562512e-05,
      "loss": 1.5712,
      "step": 66270
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6080989837646484,
      "learning_rate": 9.813246701463978e-05,
      "loss": 1.536,
      "step": 66271
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6400049328804016,
      "learning_rate": 9.812473527869191e-05,
      "loss": 1.4959,
      "step": 66272
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6459981799125671,
      "learning_rate": 9.811700378779074e-05,
      "loss": 1.532,
      "step": 66273
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6245041489601135,
      "learning_rate": 9.810927254194589e-05,
      "loss": 1.6181,
      "step": 66274
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.6109602451324463,
      "learning_rate": 9.810154154116663e-05,
      "loss": 1.4832,
      "step": 66275
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6191643476486206,
      "learning_rate": 9.809381078546223e-05,
      "loss": 1.5694,
      "step": 66276
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6339711546897888,
      "learning_rate": 9.808608027484223e-05,
      "loss": 1.5386,
      "step": 66277
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6010808944702148,
      "learning_rate": 9.807835000931606e-05,
      "loss": 1.4911,
      "step": 66278
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5939528942108154,
      "learning_rate": 9.8070619988893e-05,
      "loss": 1.4725,
      "step": 66279
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6133961081504822,
      "learning_rate": 9.806289021358241e-05,
      "loss": 1.535,
      "step": 66280
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6196960806846619,
      "learning_rate": 9.805516068339378e-05,
      "loss": 1.5824,
      "step": 66281
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.609563946723938,
      "learning_rate": 9.804743139833642e-05,
      "loss": 1.5075,
      "step": 66282
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6049834489822388,
      "learning_rate": 9.803970235841968e-05,
      "loss": 1.5746,
      "step": 66283
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6227294206619263,
      "learning_rate": 9.803197356365302e-05,
      "loss": 1.6344,
      "step": 66284
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6095353960990906,
      "learning_rate": 9.80242450140457e-05,
      "loss": 1.4806,
      "step": 66285
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6933534741401672,
      "learning_rate": 9.801651670960729e-05,
      "loss": 1.5201,
      "step": 66286
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6046456694602966,
      "learning_rate": 9.800878865034697e-05,
      "loss": 1.479,
      "step": 66287
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6188845038414001,
      "learning_rate": 9.800106083627434e-05,
      "loss": 1.5533,
      "step": 66288
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6143575310707092,
      "learning_rate": 9.799333326739862e-05,
      "loss": 1.5574,
      "step": 66289
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6056616902351379,
      "learning_rate": 9.798560594372916e-05,
      "loss": 1.5787,
      "step": 66290
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6022458076477051,
      "learning_rate": 9.797787886527549e-05,
      "loss": 1.6109,
      "step": 66291
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6046139001846313,
      "learning_rate": 9.797015203204681e-05,
      "loss": 1.5577,
      "step": 66292
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6014880537986755,
      "learning_rate": 9.796242544405273e-05,
      "loss": 1.4473,
      "step": 66293
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6369779109954834,
      "learning_rate": 9.795469910130247e-05,
      "loss": 1.442,
      "step": 66294
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.595964789390564,
      "learning_rate": 9.794697300380533e-05,
      "loss": 1.4978,
      "step": 66295
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6420981287956238,
      "learning_rate": 9.79392471515709e-05,
      "loss": 1.534,
      "step": 66296
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6527703404426575,
      "learning_rate": 9.793152154460834e-05,
      "loss": 1.5175,
      "step": 66297
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6210769414901733,
      "learning_rate": 9.792379618292728e-05,
      "loss": 1.5139,
      "step": 66298
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6226460933685303,
      "learning_rate": 9.79160710665368e-05,
      "loss": 1.5162,
      "step": 66299
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6078619956970215,
      "learning_rate": 9.790834619544656e-05,
      "loss": 1.5286,
      "step": 66300
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6328516006469727,
      "learning_rate": 9.790062156966584e-05,
      "loss": 1.613,
      "step": 66301
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6130435466766357,
      "learning_rate": 9.789289718920385e-05,
      "loss": 1.5521,
      "step": 66302
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6266365647315979,
      "learning_rate": 9.788517305407021e-05,
      "loss": 1.5636,
      "step": 66303
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5951145887374878,
      "learning_rate": 9.787744916427419e-05,
      "loss": 1.4918,
      "step": 66304
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6189327239990234,
      "learning_rate": 9.786972551982508e-05,
      "loss": 1.5297,
      "step": 66305
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6090296506881714,
      "learning_rate": 9.78620021207323e-05,
      "loss": 1.4838,
      "step": 66306
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.631748616695404,
      "learning_rate": 9.785427896700542e-05,
      "loss": 1.579,
      "step": 66307
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6177878975868225,
      "learning_rate": 9.784655605865364e-05,
      "loss": 1.5289,
      "step": 66308
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6132110357284546,
      "learning_rate": 9.783883339568625e-05,
      "loss": 1.5905,
      "step": 66309
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6423296928405762,
      "learning_rate": 9.783111097811281e-05,
      "loss": 1.5363,
      "step": 66310
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6267592906951904,
      "learning_rate": 9.782338880594264e-05,
      "loss": 1.5519,
      "step": 66311
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6089034676551819,
      "learning_rate": 9.781566687918498e-05,
      "loss": 1.57,
      "step": 66312
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6360307931900024,
      "learning_rate": 9.780794519784932e-05,
      "loss": 1.5544,
      "step": 66313
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.7006627917289734,
      "learning_rate": 9.780022376194512e-05,
      "loss": 1.5761,
      "step": 66314
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6004081964492798,
      "learning_rate": 9.779250257148162e-05,
      "loss": 1.4661,
      "step": 66315
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6068713665008545,
      "learning_rate": 9.778478162646819e-05,
      "loss": 1.4986,
      "step": 66316
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6095748543739319,
      "learning_rate": 9.777706092691431e-05,
      "loss": 1.5514,
      "step": 66317
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6327201724052429,
      "learning_rate": 9.776934047282927e-05,
      "loss": 1.5537,
      "step": 66318
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6413924694061279,
      "learning_rate": 9.776162026422234e-05,
      "loss": 1.6031,
      "step": 66319
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6335673332214355,
      "learning_rate": 9.775390030110303e-05,
      "loss": 1.515,
      "step": 66320
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6551049947738647,
      "learning_rate": 9.77461805834808e-05,
      "loss": 1.5394,
      "step": 66321
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6108219027519226,
      "learning_rate": 9.77384611113649e-05,
      "loss": 1.5344,
      "step": 66322
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6199055910110474,
      "learning_rate": 9.773074188476457e-05,
      "loss": 1.4897,
      "step": 66323
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6048974990844727,
      "learning_rate": 9.772302290368946e-05,
      "loss": 1.5692,
      "step": 66324
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6040025949478149,
      "learning_rate": 9.771530416814875e-05,
      "loss": 1.5745,
      "step": 66325
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6038716435432434,
      "learning_rate": 9.770758567815181e-05,
      "loss": 1.5365,
      "step": 66326
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.608365535736084,
      "learning_rate": 9.769986743370801e-05,
      "loss": 1.4998,
      "step": 66327
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5850822925567627,
      "learning_rate": 9.769214943482688e-05,
      "loss": 1.4994,
      "step": 66328
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6176022887229919,
      "learning_rate": 9.768443168151769e-05,
      "loss": 1.5108,
      "step": 66329
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6372290253639221,
      "learning_rate": 9.767671417378968e-05,
      "loss": 1.5877,
      "step": 66330
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6204981803894043,
      "learning_rate": 9.76689969116524e-05,
      "loss": 1.6265,
      "step": 66331
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6175521016120911,
      "learning_rate": 9.766127989511515e-05,
      "loss": 1.5097,
      "step": 66332
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5955309867858887,
      "learning_rate": 9.765356312418722e-05,
      "loss": 1.5285,
      "step": 66333
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6145203113555908,
      "learning_rate": 9.764584659887814e-05,
      "loss": 1.5654,
      "step": 66334
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6155337691307068,
      "learning_rate": 9.763813031919709e-05,
      "loss": 1.5128,
      "step": 66335
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6189842224121094,
      "learning_rate": 9.763041428515365e-05,
      "loss": 1.5912,
      "step": 66336
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.631672739982605,
      "learning_rate": 9.762269849675694e-05,
      "loss": 1.5178,
      "step": 66337
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6132063865661621,
      "learning_rate": 9.761498295401654e-05,
      "loss": 1.5395,
      "step": 66338
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6337599754333496,
      "learning_rate": 9.760726765694175e-05,
      "loss": 1.5821,
      "step": 66339
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6234632730484009,
      "learning_rate": 9.759955260554185e-05,
      "loss": 1.5099,
      "step": 66340
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6232659220695496,
      "learning_rate": 9.759183779982632e-05,
      "loss": 1.5493,
      "step": 66341
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6194556355476379,
      "learning_rate": 9.758412323980442e-05,
      "loss": 1.569,
      "step": 66342
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.615375816822052,
      "learning_rate": 9.757640892548561e-05,
      "loss": 1.5492,
      "step": 66343
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6104881763458252,
      "learning_rate": 9.756869485687925e-05,
      "loss": 1.5676,
      "step": 66344
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6184829473495483,
      "learning_rate": 9.756098103399458e-05,
      "loss": 1.4923,
      "step": 66345
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.620556652545929,
      "learning_rate": 9.755326745684113e-05,
      "loss": 1.5347,
      "step": 66346
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6029241681098938,
      "learning_rate": 9.754555412542812e-05,
      "loss": 1.5577,
      "step": 66347
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6017271876335144,
      "learning_rate": 9.753784103976505e-05,
      "loss": 1.5758,
      "step": 66348
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6037734746932983,
      "learning_rate": 9.75301281998611e-05,
      "loss": 1.4947,
      "step": 66349
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.599523663520813,
      "learning_rate": 9.752241560572585e-05,
      "loss": 1.4922,
      "step": 66350
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6017500162124634,
      "learning_rate": 9.751470325736855e-05,
      "loss": 1.5053,
      "step": 66351
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.620267927646637,
      "learning_rate": 9.750699115479849e-05,
      "loss": 1.5772,
      "step": 66352
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6102572083473206,
      "learning_rate": 9.749927929802517e-05,
      "loss": 1.5707,
      "step": 66353
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6088894009590149,
      "learning_rate": 9.749156768705792e-05,
      "loss": 1.5579,
      "step": 66354
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6342771053314209,
      "learning_rate": 9.748385632190595e-05,
      "loss": 1.5182,
      "step": 66355
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6204745173454285,
      "learning_rate": 9.747614520257875e-05,
      "loss": 1.5309,
      "step": 66356
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6141674518585205,
      "learning_rate": 9.746843432908577e-05,
      "loss": 1.5761,
      "step": 66357
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6111571192741394,
      "learning_rate": 9.746072370143623e-05,
      "loss": 1.608,
      "step": 66358
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6552161574363708,
      "learning_rate": 9.745301331963946e-05,
      "loss": 1.5203,
      "step": 66359
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6099520325660706,
      "learning_rate": 9.744530318370499e-05,
      "loss": 1.5608,
      "step": 66360
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6405900120735168,
      "learning_rate": 9.743759329364208e-05,
      "loss": 1.5755,
      "step": 66361
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6229953765869141,
      "learning_rate": 9.742988364945998e-05,
      "loss": 1.4953,
      "step": 66362
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6132913827896118,
      "learning_rate": 9.742217425116816e-05,
      "loss": 1.4776,
      "step": 66363
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6344804763793945,
      "learning_rate": 9.741446509877617e-05,
      "loss": 1.5643,
      "step": 66364
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6356595754623413,
      "learning_rate": 9.740675619229298e-05,
      "loss": 1.5753,
      "step": 66365
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6238255500793457,
      "learning_rate": 9.73990475317281e-05,
      "loss": 1.5222,
      "step": 66366
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6122216582298279,
      "learning_rate": 9.739133911709107e-05,
      "loss": 1.488,
      "step": 66367
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6357806921005249,
      "learning_rate": 9.738363094839108e-05,
      "loss": 1.4889,
      "step": 66368
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6642605662345886,
      "learning_rate": 9.737592302563738e-05,
      "loss": 1.4097,
      "step": 66369
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6227153539657593,
      "learning_rate": 9.73682153488395e-05,
      "loss": 1.4926,
      "step": 66370
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6104591488838196,
      "learning_rate": 9.736050791800692e-05,
      "loss": 1.5398,
      "step": 66371
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6226928234100342,
      "learning_rate": 9.735280073314862e-05,
      "loss": 1.532,
      "step": 66372
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6175765991210938,
      "learning_rate": 9.734509379427421e-05,
      "loss": 1.5231,
      "step": 66373
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6135697364807129,
      "learning_rate": 9.733738710139305e-05,
      "loss": 1.625,
      "step": 66374
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6302058100700378,
      "learning_rate": 9.732968065451447e-05,
      "loss": 1.5259,
      "step": 66375
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6127461791038513,
      "learning_rate": 9.732197445364768e-05,
      "loss": 1.5079,
      "step": 66376
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6078897714614868,
      "learning_rate": 9.731426849880215e-05,
      "loss": 1.4967,
      "step": 66377
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6121465563774109,
      "learning_rate": 9.730656278998742e-05,
      "loss": 1.5431,
      "step": 66378
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6208568215370178,
      "learning_rate": 9.729885732721248e-05,
      "loss": 1.5832,
      "step": 66379
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6096059679985046,
      "learning_rate": 9.729115211048685e-05,
      "loss": 1.5292,
      "step": 66380
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6338964700698853,
      "learning_rate": 9.728344713981999e-05,
      "loss": 1.5823,
      "step": 66381
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6130169630050659,
      "learning_rate": 9.727574241522117e-05,
      "loss": 1.4994,
      "step": 66382
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6146488189697266,
      "learning_rate": 9.726803793669964e-05,
      "loss": 1.499,
      "step": 66383
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6296272873878479,
      "learning_rate": 9.726033370426493e-05,
      "loss": 1.4698,
      "step": 66384
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6339352130889893,
      "learning_rate": 9.725262971792629e-05,
      "loss": 1.5057,
      "step": 66385
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6093504428863525,
      "learning_rate": 9.7244925977693e-05,
      "loss": 1.5875,
      "step": 66386
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6105006337165833,
      "learning_rate": 9.723722248357446e-05,
      "loss": 1.4755,
      "step": 66387
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6103468537330627,
      "learning_rate": 9.722951923558016e-05,
      "loss": 1.5129,
      "step": 66388
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6518108248710632,
      "learning_rate": 9.722181623371939e-05,
      "loss": 1.5062,
      "step": 66389
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6322725415229797,
      "learning_rate": 9.721411347800134e-05,
      "loss": 1.6458,
      "step": 66390
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6285198330879211,
      "learning_rate": 9.720641096843557e-05,
      "loss": 1.529,
      "step": 66391
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6276906728744507,
      "learning_rate": 9.719870870503132e-05,
      "loss": 1.5152,
      "step": 66392
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6073106527328491,
      "learning_rate": 9.71910066877979e-05,
      "loss": 1.5534,
      "step": 66393
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.643107533454895,
      "learning_rate": 9.718330491674468e-05,
      "loss": 1.5145,
      "step": 66394
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6168383359909058,
      "learning_rate": 9.717560339188114e-05,
      "loss": 1.4904,
      "step": 66395
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.620137631893158,
      "learning_rate": 9.716790211321655e-05,
      "loss": 1.6106,
      "step": 66396
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6099434494972229,
      "learning_rate": 9.716020108076015e-05,
      "loss": 1.5475,
      "step": 66397
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6121491193771362,
      "learning_rate": 9.715250029452148e-05,
      "loss": 1.5554,
      "step": 66398
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.621917188167572,
      "learning_rate": 9.714479975450976e-05,
      "loss": 1.4926,
      "step": 66399
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6189887523651123,
      "learning_rate": 9.713709946073427e-05,
      "loss": 1.5421,
      "step": 66400
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6132851839065552,
      "learning_rate": 9.712939941320456e-05,
      "loss": 1.4966,
      "step": 66401
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6033234000205994,
      "learning_rate": 9.712169961192978e-05,
      "loss": 1.5327,
      "step": 66402
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6144060492515564,
      "learning_rate": 9.711400005691945e-05,
      "loss": 1.5665,
      "step": 66403
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6022619009017944,
      "learning_rate": 9.710630074818272e-05,
      "loss": 1.5476,
      "step": 66404
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.622719943523407,
      "learning_rate": 9.709860168572915e-05,
      "loss": 1.6025,
      "step": 66405
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.623412013053894,
      "learning_rate": 9.7090902869568e-05,
      "loss": 1.5156,
      "step": 66406
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6185438632965088,
      "learning_rate": 9.708320429970846e-05,
      "loss": 1.5409,
      "step": 66407
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6166797876358032,
      "learning_rate": 9.707550597616015e-05,
      "loss": 1.511,
      "step": 66408
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.607647180557251,
      "learning_rate": 9.706780789893216e-05,
      "loss": 1.5328,
      "step": 66409
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6072617769241333,
      "learning_rate": 9.706011006803404e-05,
      "loss": 1.497,
      "step": 66410
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6109957098960876,
      "learning_rate": 9.705241248347509e-05,
      "loss": 1.6518,
      "step": 66411
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6078212261199951,
      "learning_rate": 9.704471514526446e-05,
      "loss": 1.483,
      "step": 66412
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6096023917198181,
      "learning_rate": 9.703701805341174e-05,
      "loss": 1.5464,
      "step": 66413
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6263908743858337,
      "learning_rate": 9.702932120792611e-05,
      "loss": 1.6263,
      "step": 66414
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6400575637817383,
      "learning_rate": 9.702162460881704e-05,
      "loss": 1.5659,
      "step": 66415
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.641624391078949,
      "learning_rate": 9.701392825609374e-05,
      "loss": 1.5152,
      "step": 66416
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6289576292037964,
      "learning_rate": 9.700623214976572e-05,
      "loss": 1.5192,
      "step": 66417
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6061207056045532,
      "learning_rate": 9.699853628984223e-05,
      "loss": 1.5851,
      "step": 66418
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6234059929847717,
      "learning_rate": 9.699084067633248e-05,
      "loss": 1.5506,
      "step": 66419
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6206725239753723,
      "learning_rate": 9.698314530924606e-05,
      "loss": 1.6385,
      "step": 66420
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6429623365402222,
      "learning_rate": 9.697545018859217e-05,
      "loss": 1.5347,
      "step": 66421
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6086485981941223,
      "learning_rate": 9.696775531438006e-05,
      "loss": 1.4857,
      "step": 66422
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6111515760421753,
      "learning_rate": 9.69600606866192e-05,
      "loss": 1.5653,
      "step": 66423
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5969314575195312,
      "learning_rate": 9.695236630531903e-05,
      "loss": 1.5071,
      "step": 66424
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6302390098571777,
      "learning_rate": 9.694467217048873e-05,
      "loss": 1.5564,
      "step": 66425
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6328380703926086,
      "learning_rate": 9.693697828213761e-05,
      "loss": 1.6444,
      "step": 66426
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6234614253044128,
      "learning_rate": 9.692928464027516e-05,
      "loss": 1.5236,
      "step": 66427
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6395431160926819,
      "learning_rate": 9.692159124491064e-05,
      "loss": 1.529,
      "step": 66428
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6219866871833801,
      "learning_rate": 9.69138980960533e-05,
      "loss": 1.5039,
      "step": 66429
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5892083048820496,
      "learning_rate": 9.690620519371254e-05,
      "loss": 1.5341,
      "step": 66430
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6508285999298096,
      "learning_rate": 9.689851253789782e-05,
      "loss": 1.5915,
      "step": 66431
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6491643190383911,
      "learning_rate": 9.68908201286184e-05,
      "loss": 1.5671,
      "step": 66432
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6027103066444397,
      "learning_rate": 9.68831279658835e-05,
      "loss": 1.4507,
      "step": 66433
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6125451326370239,
      "learning_rate": 9.687543604970262e-05,
      "loss": 1.5621,
      "step": 66434
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.610127866268158,
      "learning_rate": 9.686774438008507e-05,
      "loss": 1.5163,
      "step": 66435
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5990381836891174,
      "learning_rate": 9.686005295704003e-05,
      "loss": 1.5844,
      "step": 66436
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5886243581771851,
      "learning_rate": 9.685236178057699e-05,
      "loss": 1.5313,
      "step": 66437
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.593425989151001,
      "learning_rate": 9.684467085070529e-05,
      "loss": 1.5426,
      "step": 66438
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6164863109588623,
      "learning_rate": 9.683698016743427e-05,
      "loss": 1.5254,
      "step": 66439
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5903353095054626,
      "learning_rate": 9.682928973077312e-05,
      "loss": 1.4655,
      "step": 66440
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6264904141426086,
      "learning_rate": 9.682159954073135e-05,
      "loss": 1.5043,
      "step": 66441
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6158464550971985,
      "learning_rate": 9.681390959731824e-05,
      "loss": 1.5438,
      "step": 66442
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6049818396568298,
      "learning_rate": 9.6806219900543e-05,
      "loss": 1.4953,
      "step": 66443
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6299840807914734,
      "learning_rate": 9.67985304504151e-05,
      "loss": 1.5045,
      "step": 66444
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6190518140792847,
      "learning_rate": 9.679084124694389e-05,
      "loss": 1.5375,
      "step": 66445
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6232917904853821,
      "learning_rate": 9.678315229013871e-05,
      "loss": 1.5719,
      "step": 66446
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6139241456985474,
      "learning_rate": 9.677546358000871e-05,
      "loss": 1.5638,
      "step": 66447
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6220791339874268,
      "learning_rate": 9.676777511656344e-05,
      "loss": 1.4773,
      "step": 66448
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6195554137229919,
      "learning_rate": 9.676008689981218e-05,
      "loss": 1.6067,
      "step": 66449
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.621159017086029,
      "learning_rate": 9.67523989297641e-05,
      "loss": 1.5209,
      "step": 66450
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6251505613327026,
      "learning_rate": 9.674471120642877e-05,
      "loss": 1.5376,
      "step": 66451
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6652535200119019,
      "learning_rate": 9.673702372981532e-05,
      "loss": 1.5213,
      "step": 66452
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6339493989944458,
      "learning_rate": 9.672933649993328e-05,
      "loss": 1.5524,
      "step": 66453
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6226809620857239,
      "learning_rate": 9.672164951679175e-05,
      "loss": 1.5118,
      "step": 66454
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6048590540885925,
      "learning_rate": 9.671396278040029e-05,
      "loss": 1.5893,
      "step": 66455
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6290324330329895,
      "learning_rate": 9.670627629076814e-05,
      "loss": 1.5145,
      "step": 66456
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6081923842430115,
      "learning_rate": 9.669859004790453e-05,
      "loss": 1.5999,
      "step": 66457
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6279991269111633,
      "learning_rate": 9.669090405181895e-05,
      "loss": 1.4805,
      "step": 66458
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5991240739822388,
      "learning_rate": 9.668321830252059e-05,
      "loss": 1.5096,
      "step": 66459
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6266698837280273,
      "learning_rate": 9.667553280001891e-05,
      "loss": 1.5837,
      "step": 66460
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6230199933052063,
      "learning_rate": 9.666784754432318e-05,
      "loss": 1.4679,
      "step": 66461
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6180709004402161,
      "learning_rate": 9.666016253544261e-05,
      "loss": 1.5542,
      "step": 66462
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6207394599914551,
      "learning_rate": 9.665247777338677e-05,
      "loss": 1.5082,
      "step": 66463
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6136873960494995,
      "learning_rate": 9.664479325816475e-05,
      "loss": 1.5143,
      "step": 66464
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6616543531417847,
      "learning_rate": 9.663710898978609e-05,
      "loss": 1.5458,
      "step": 66465
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6191282272338867,
      "learning_rate": 9.662942496825992e-05,
      "loss": 1.5266,
      "step": 66466
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5986523032188416,
      "learning_rate": 9.662174119359575e-05,
      "loss": 1.5859,
      "step": 66467
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6260477304458618,
      "learning_rate": 9.661405766580283e-05,
      "loss": 1.5451,
      "step": 66468
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6285768747329712,
      "learning_rate": 9.660637438489037e-05,
      "loss": 1.5188,
      "step": 66469
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6518128514289856,
      "learning_rate": 9.659869135086792e-05,
      "loss": 1.5361,
      "step": 66470
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6321919560432434,
      "learning_rate": 9.659100856374467e-05,
      "loss": 1.5636,
      "step": 66471
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6392782926559448,
      "learning_rate": 9.658332602352988e-05,
      "loss": 1.5371,
      "step": 66472
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6325904130935669,
      "learning_rate": 9.657564373023297e-05,
      "loss": 1.5212,
      "step": 66473
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6374191641807556,
      "learning_rate": 9.65679616838633e-05,
      "loss": 1.5543,
      "step": 66474
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6206496953964233,
      "learning_rate": 9.656027988443022e-05,
      "loss": 1.5198,
      "step": 66475
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6422759294509888,
      "learning_rate": 9.655259833194282e-05,
      "loss": 1.5336,
      "step": 66476
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6072772741317749,
      "learning_rate": 9.654491702641072e-05,
      "loss": 1.4669,
      "step": 66477
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6367932558059692,
      "learning_rate": 9.653723596784313e-05,
      "loss": 1.5346,
      "step": 66478
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6363322734832764,
      "learning_rate": 9.652955515624926e-05,
      "loss": 1.538,
      "step": 66479
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.62565016746521,
      "learning_rate": 9.65218745916385e-05,
      "loss": 1.5515,
      "step": 66480
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6227422952651978,
      "learning_rate": 9.651419427402038e-05,
      "loss": 1.4991,
      "step": 66481
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6054346561431885,
      "learning_rate": 9.650651420340388e-05,
      "loss": 1.5448,
      "step": 66482
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6086066365242004,
      "learning_rate": 9.64988343797985e-05,
      "loss": 1.5421,
      "step": 66483
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6232343316078186,
      "learning_rate": 9.649115480321365e-05,
      "loss": 1.4766,
      "step": 66484
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6319693326950073,
      "learning_rate": 9.648347547365852e-05,
      "loss": 1.4961,
      "step": 66485
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.612895131111145,
      "learning_rate": 9.647579639114239e-05,
      "loss": 1.5529,
      "step": 66486
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6224130988121033,
      "learning_rate": 9.646811755567468e-05,
      "loss": 1.5486,
      "step": 66487
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6170462965965271,
      "learning_rate": 9.646043896726484e-05,
      "loss": 1.4616,
      "step": 66488
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6127464771270752,
      "learning_rate": 9.645276062592186e-05,
      "loss": 1.5783,
      "step": 66489
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6278104186058044,
      "learning_rate": 9.644508253165523e-05,
      "loss": 1.5697,
      "step": 66490
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6221953630447388,
      "learning_rate": 9.643740468447438e-05,
      "loss": 1.5074,
      "step": 66491
    },
    {
      "epoch": 2.21,
      "grad_norm": 1.122525930404663,
      "learning_rate": 9.642972708438851e-05,
      "loss": 1.5936,
      "step": 66492
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6181007623672485,
      "learning_rate": 9.642204973140686e-05,
      "loss": 1.4843,
      "step": 66493
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6266167163848877,
      "learning_rate": 9.641437262553888e-05,
      "loss": 1.487,
      "step": 66494
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5983349084854126,
      "learning_rate": 9.640669576679402e-05,
      "loss": 1.5898,
      "step": 66495
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6104156374931335,
      "learning_rate": 9.639901915518126e-05,
      "loss": 1.5128,
      "step": 66496
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6240570545196533,
      "learning_rate": 9.639134279071006e-05,
      "loss": 1.5812,
      "step": 66497
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6105761528015137,
      "learning_rate": 9.638366667338988e-05,
      "loss": 1.516,
      "step": 66498
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6338682174682617,
      "learning_rate": 9.637599080322996e-05,
      "loss": 1.4504,
      "step": 66499
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6126112341880798,
      "learning_rate": 9.636831518023946e-05,
      "loss": 1.513,
      "step": 66500
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6044245958328247,
      "learning_rate": 9.636063980442791e-05,
      "loss": 1.547,
      "step": 66501
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6454556584358215,
      "learning_rate": 9.635296467580456e-05,
      "loss": 1.507,
      "step": 66502
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6233845353126526,
      "learning_rate": 9.634528979437857e-05,
      "loss": 1.5014,
      "step": 66503
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6234345436096191,
      "learning_rate": 9.633761516015943e-05,
      "loss": 1.5338,
      "step": 66504
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5948850512504578,
      "learning_rate": 9.632994077315651e-05,
      "loss": 1.4918,
      "step": 66505
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6105784177780151,
      "learning_rate": 9.6322266633379e-05,
      "loss": 1.461,
      "step": 66506
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6035987734794617,
      "learning_rate": 9.631459274083618e-05,
      "loss": 1.5335,
      "step": 66507
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6446934342384338,
      "learning_rate": 9.630691909553753e-05,
      "loss": 1.6077,
      "step": 66508
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6228229999542236,
      "learning_rate": 9.629924569749225e-05,
      "loss": 1.4251,
      "step": 66509
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6281378865242004,
      "learning_rate": 9.629157254670959e-05,
      "loss": 1.5399,
      "step": 66510
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6043682098388672,
      "learning_rate": 9.628389964319894e-05,
      "loss": 1.5211,
      "step": 66511
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6229389309883118,
      "learning_rate": 9.62762269869697e-05,
      "loss": 1.5956,
      "step": 66512
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6305243968963623,
      "learning_rate": 9.626855457803113e-05,
      "loss": 1.6033,
      "step": 66513
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6272091865539551,
      "learning_rate": 9.626088241639244e-05,
      "loss": 1.5433,
      "step": 66514
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6664684414863586,
      "learning_rate": 9.625321050206309e-05,
      "loss": 1.6214,
      "step": 66515
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6102449297904968,
      "learning_rate": 9.62455388350523e-05,
      "loss": 1.5024,
      "step": 66516
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6060263514518738,
      "learning_rate": 9.623786741536933e-05,
      "loss": 1.5155,
      "step": 66517
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6405715942382812,
      "learning_rate": 9.623019624302365e-05,
      "loss": 1.4991,
      "step": 66518
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.636716902256012,
      "learning_rate": 9.62225253180244e-05,
      "loss": 1.5376,
      "step": 66519
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.606931209564209,
      "learning_rate": 9.621485464038107e-05,
      "loss": 1.5193,
      "step": 66520
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6140795946121216,
      "learning_rate": 9.62071842101028e-05,
      "loss": 1.4935,
      "step": 66521
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.595308244228363,
      "learning_rate": 9.619951402719905e-05,
      "loss": 1.5651,
      "step": 66522
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5999470949172974,
      "learning_rate": 9.619184409167908e-05,
      "loss": 1.5106,
      "step": 66523
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6060473322868347,
      "learning_rate": 9.618417440355208e-05,
      "loss": 1.466,
      "step": 66524
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6214768290519714,
      "learning_rate": 9.617650496282758e-05,
      "loss": 1.5982,
      "step": 66525
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6206584572792053,
      "learning_rate": 9.616883576951464e-05,
      "loss": 1.4836,
      "step": 66526
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6105725765228271,
      "learning_rate": 9.616116682362282e-05,
      "loss": 1.5108,
      "step": 66527
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6015797853469849,
      "learning_rate": 9.61534981251613e-05,
      "loss": 1.5451,
      "step": 66528
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5896009206771851,
      "learning_rate": 9.614582967413932e-05,
      "loss": 1.4778,
      "step": 66529
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6031328439712524,
      "learning_rate": 9.613816147056634e-05,
      "loss": 1.543,
      "step": 66530
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6396645307540894,
      "learning_rate": 9.61304935144515e-05,
      "loss": 1.5348,
      "step": 66531
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6243801116943359,
      "learning_rate": 9.612282580580429e-05,
      "loss": 1.5245,
      "step": 66532
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5896852612495422,
      "learning_rate": 9.611515834463383e-05,
      "loss": 1.5617,
      "step": 66533
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6365156173706055,
      "learning_rate": 9.610749113094965e-05,
      "loss": 1.5998,
      "step": 66534
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6261698007583618,
      "learning_rate": 9.609982416476094e-05,
      "loss": 1.5419,
      "step": 66535
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6326606273651123,
      "learning_rate": 9.609215744607689e-05,
      "loss": 1.5737,
      "step": 66536
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6152625679969788,
      "learning_rate": 9.6084490974907e-05,
      "loss": 1.5083,
      "step": 66537
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6120265126228333,
      "learning_rate": 9.60768247512605e-05,
      "loss": 1.5503,
      "step": 66538
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5882890820503235,
      "learning_rate": 9.60691587751466e-05,
      "loss": 1.4943,
      "step": 66539
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.608551561832428,
      "learning_rate": 9.606149304657468e-05,
      "loss": 1.5024,
      "step": 66540
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.608823299407959,
      "learning_rate": 9.605382756555414e-05,
      "loss": 1.5319,
      "step": 66541
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6280412077903748,
      "learning_rate": 9.604616233209424e-05,
      "loss": 1.5866,
      "step": 66542
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5983808636665344,
      "learning_rate": 9.603849734620414e-05,
      "loss": 1.5365,
      "step": 66543
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.631075918674469,
      "learning_rate": 9.603083260789334e-05,
      "loss": 1.5165,
      "step": 66544
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5912342071533203,
      "learning_rate": 9.602316811717105e-05,
      "loss": 1.436,
      "step": 66545
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.615348756313324,
      "learning_rate": 9.60155038740465e-05,
      "loss": 1.5543,
      "step": 66546
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6151560544967651,
      "learning_rate": 9.600783987852905e-05,
      "loss": 1.4258,
      "step": 66547
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5965045690536499,
      "learning_rate": 9.600017613062816e-05,
      "loss": 1.5498,
      "step": 66548
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.61800217628479,
      "learning_rate": 9.599251263035296e-05,
      "loss": 1.4703,
      "step": 66549
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6604053378105164,
      "learning_rate": 9.59848493777127e-05,
      "loss": 1.5298,
      "step": 66550
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5945299863815308,
      "learning_rate": 9.597718637271688e-05,
      "loss": 1.4556,
      "step": 66551
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6248577237129211,
      "learning_rate": 9.59695236153747e-05,
      "loss": 1.5323,
      "step": 66552
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5898343324661255,
      "learning_rate": 9.596186110569537e-05,
      "loss": 1.5281,
      "step": 66553
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6224516034126282,
      "learning_rate": 9.595419884368826e-05,
      "loss": 1.4742,
      "step": 66554
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6115882396697998,
      "learning_rate": 9.594653682936279e-05,
      "loss": 1.5059,
      "step": 66555
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6203952431678772,
      "learning_rate": 9.593887506272815e-05,
      "loss": 1.4847,
      "step": 66556
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6171566843986511,
      "learning_rate": 9.593121354379354e-05,
      "loss": 1.5958,
      "step": 66557
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6272464990615845,
      "learning_rate": 9.592355227256848e-05,
      "loss": 1.4914,
      "step": 66558
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6132729649543762,
      "learning_rate": 9.591589124906213e-05,
      "loss": 1.5661,
      "step": 66559
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6157109141349792,
      "learning_rate": 9.590823047328376e-05,
      "loss": 1.5673,
      "step": 66560
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5893417000770569,
      "learning_rate": 9.590056994524272e-05,
      "loss": 1.4974,
      "step": 66561
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6113582849502563,
      "learning_rate": 9.58929096649484e-05,
      "loss": 1.4582,
      "step": 66562
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6155533194541931,
      "learning_rate": 9.588524963241003e-05,
      "loss": 1.5821,
      "step": 66563
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6318321824073792,
      "learning_rate": 9.58775898476368e-05,
      "loss": 1.5105,
      "step": 66564
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6176531910896301,
      "learning_rate": 9.586993031063818e-05,
      "loss": 1.5584,
      "step": 66565
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6184619069099426,
      "learning_rate": 9.586227102142337e-05,
      "loss": 1.575,
      "step": 66566
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6271638870239258,
      "learning_rate": 9.585461198000162e-05,
      "loss": 1.4985,
      "step": 66567
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6053124666213989,
      "learning_rate": 9.58469531863824e-05,
      "loss": 1.5718,
      "step": 66568
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6038671135902405,
      "learning_rate": 9.583929464057476e-05,
      "loss": 1.5542,
      "step": 66569
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6172807216644287,
      "learning_rate": 9.583163634258825e-05,
      "loss": 1.6424,
      "step": 66570
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5947349071502686,
      "learning_rate": 9.582397829243195e-05,
      "loss": 1.5333,
      "step": 66571
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6007691025733948,
      "learning_rate": 9.581632049011535e-05,
      "loss": 1.5354,
      "step": 66572
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6090884804725647,
      "learning_rate": 9.580866293564766e-05,
      "loss": 1.5593,
      "step": 66573
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6082896590232849,
      "learning_rate": 9.580100562903807e-05,
      "loss": 1.4839,
      "step": 66574
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6225215196609497,
      "learning_rate": 9.579334857029608e-05,
      "loss": 1.5099,
      "step": 66575
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.6486427783966064,
      "learning_rate": 9.578569175943078e-05,
      "loss": 1.5778,
      "step": 66576
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6385788321495056,
      "learning_rate": 9.577803519645165e-05,
      "loss": 1.4731,
      "step": 66577
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6323671340942383,
      "learning_rate": 9.577037888136788e-05,
      "loss": 1.5807,
      "step": 66578
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.622469961643219,
      "learning_rate": 9.576272281418868e-05,
      "loss": 1.4866,
      "step": 66579
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6290936470031738,
      "learning_rate": 9.575506699492355e-05,
      "loss": 1.5461,
      "step": 66580
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6216709613800049,
      "learning_rate": 9.57474114235816e-05,
      "loss": 1.5209,
      "step": 66581
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6392371654510498,
      "learning_rate": 9.573975610017223e-05,
      "loss": 1.6032,
      "step": 66582
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.599995493888855,
      "learning_rate": 9.573210102470466e-05,
      "loss": 1.5301,
      "step": 66583
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6420912742614746,
      "learning_rate": 9.57244461971883e-05,
      "loss": 1.5667,
      "step": 66584
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6394902467727661,
      "learning_rate": 9.571679161763236e-05,
      "loss": 1.5411,
      "step": 66585
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.62991863489151,
      "learning_rate": 9.570913728604607e-05,
      "loss": 1.5366,
      "step": 66586
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6248195171356201,
      "learning_rate": 9.570148320243885e-05,
      "loss": 1.516,
      "step": 66587
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6276758909225464,
      "learning_rate": 9.569382936681992e-05,
      "loss": 1.6128,
      "step": 66588
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6232081651687622,
      "learning_rate": 9.568617577919852e-05,
      "loss": 1.5243,
      "step": 66589
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6166747808456421,
      "learning_rate": 9.567852243958396e-05,
      "loss": 1.5602,
      "step": 66590
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6296384334564209,
      "learning_rate": 9.567086934798567e-05,
      "loss": 1.5492,
      "step": 66591
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5980141162872314,
      "learning_rate": 9.566321650441286e-05,
      "loss": 1.5283,
      "step": 66592
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6084737777709961,
      "learning_rate": 9.565556390887468e-05,
      "loss": 1.5144,
      "step": 66593
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6517122387886047,
      "learning_rate": 9.564791156138065e-05,
      "loss": 1.547,
      "step": 66594
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6145486235618591,
      "learning_rate": 9.564025946193996e-05,
      "loss": 1.5424,
      "step": 66595
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5989442467689514,
      "learning_rate": 9.563260761056177e-05,
      "loss": 1.4769,
      "step": 66596
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6368933320045471,
      "learning_rate": 9.562495600725547e-05,
      "loss": 1.5918,
      "step": 66597
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6149646043777466,
      "learning_rate": 9.561730465203053e-05,
      "loss": 1.4996,
      "step": 66598
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6124974489212036,
      "learning_rate": 9.560965354489592e-05,
      "loss": 1.5177,
      "step": 66599
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6261224746704102,
      "learning_rate": 9.560200268586107e-05,
      "loss": 1.5297,
      "step": 66600
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6398745775222778,
      "learning_rate": 9.559435207493535e-05,
      "loss": 1.5832,
      "step": 66601
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6115303635597229,
      "learning_rate": 9.558670171212797e-05,
      "loss": 1.5378,
      "step": 66602
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6027811169624329,
      "learning_rate": 9.557905159744813e-05,
      "loss": 1.4989,
      "step": 66603
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6175621151924133,
      "learning_rate": 9.557140173090521e-05,
      "loss": 1.4899,
      "step": 66604
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6023935079574585,
      "learning_rate": 9.556375211250865e-05,
      "loss": 1.4812,
      "step": 66605
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6204535961151123,
      "learning_rate": 9.555610274226743e-05,
      "loss": 1.4745,
      "step": 66606
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6197482943534851,
      "learning_rate": 9.554845362019092e-05,
      "loss": 1.5401,
      "step": 66607
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6253406405448914,
      "learning_rate": 9.55408047462886e-05,
      "loss": 1.5867,
      "step": 66608
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.619053304195404,
      "learning_rate": 9.553315612056959e-05,
      "loss": 1.5149,
      "step": 66609
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6293681859970093,
      "learning_rate": 9.552550774304314e-05,
      "loss": 1.5964,
      "step": 66610
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6339004635810852,
      "learning_rate": 9.551785961371855e-05,
      "loss": 1.5531,
      "step": 66611
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6255796551704407,
      "learning_rate": 9.551021173260538e-05,
      "loss": 1.5165,
      "step": 66612
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6160328984260559,
      "learning_rate": 9.550256409971249e-05,
      "loss": 1.4982,
      "step": 66613
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6044378876686096,
      "learning_rate": 9.549491671504933e-05,
      "loss": 1.5496,
      "step": 66614
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6417655944824219,
      "learning_rate": 9.548726957862531e-05,
      "loss": 1.501,
      "step": 66615
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6324833631515503,
      "learning_rate": 9.547962269044963e-05,
      "loss": 1.6044,
      "step": 66616
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6392404437065125,
      "learning_rate": 9.547197605053144e-05,
      "loss": 1.5232,
      "step": 66617
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.616969108581543,
      "learning_rate": 9.546432965888022e-05,
      "loss": 1.4973,
      "step": 66618
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6233097910881042,
      "learning_rate": 9.545668351550521e-05,
      "loss": 1.6178,
      "step": 66619
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6036835312843323,
      "learning_rate": 9.544903762041552e-05,
      "loss": 1.4443,
      "step": 66620
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6190423369407654,
      "learning_rate": 9.544139197362058e-05,
      "loss": 1.5688,
      "step": 66621
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6179441213607788,
      "learning_rate": 9.543374657512971e-05,
      "loss": 1.5616,
      "step": 66622
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6054660677909851,
      "learning_rate": 9.542610142495215e-05,
      "loss": 1.5306,
      "step": 66623
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.597720742225647,
      "learning_rate": 9.541845652309705e-05,
      "loss": 1.5167,
      "step": 66624
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6231027841567993,
      "learning_rate": 9.541081186957394e-05,
      "loss": 1.603,
      "step": 66625
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.612287700176239,
      "learning_rate": 9.540316746439192e-05,
      "loss": 1.6026,
      "step": 66626
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6339068412780762,
      "learning_rate": 9.539552330756023e-05,
      "loss": 1.5028,
      "step": 66627
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6339680552482605,
      "learning_rate": 9.53878793990882e-05,
      "loss": 1.6083,
      "step": 66628
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6469179391860962,
      "learning_rate": 9.538023573898528e-05,
      "loss": 1.6005,
      "step": 66629
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6388357281684875,
      "learning_rate": 9.537259232726057e-05,
      "loss": 1.5881,
      "step": 66630
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6280428767204285,
      "learning_rate": 9.53649491639233e-05,
      "loss": 1.5889,
      "step": 66631
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6146364808082581,
      "learning_rate": 9.53573062489829e-05,
      "loss": 1.4644,
      "step": 66632
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6039556264877319,
      "learning_rate": 9.53496635824486e-05,
      "loss": 1.6034,
      "step": 66633
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6474239230155945,
      "learning_rate": 9.534202116432955e-05,
      "loss": 1.4699,
      "step": 66634
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6259729862213135,
      "learning_rate": 9.533437899463525e-05,
      "loss": 1.5444,
      "step": 66635
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6244838237762451,
      "learning_rate": 9.532673707337476e-05,
      "loss": 1.5264,
      "step": 66636
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6150755882263184,
      "learning_rate": 9.531909540055753e-05,
      "loss": 1.5506,
      "step": 66637
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6236075758934021,
      "learning_rate": 9.531145397619267e-05,
      "loss": 1.5026,
      "step": 66638
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6302191019058228,
      "learning_rate": 9.530381280028964e-05,
      "loss": 1.5783,
      "step": 66639
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6386666893959045,
      "learning_rate": 9.529617187285761e-05,
      "loss": 1.5599,
      "step": 66640
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6039429903030396,
      "learning_rate": 9.528853119390581e-05,
      "loss": 1.5104,
      "step": 66641
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.602397620677948,
      "learning_rate": 9.528089076344363e-05,
      "loss": 1.5565,
      "step": 66642
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5944535136222839,
      "learning_rate": 9.527325058148017e-05,
      "loss": 1.4857,
      "step": 66643
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6204414367675781,
      "learning_rate": 9.526561064802497e-05,
      "loss": 1.4883,
      "step": 66644
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6548139452934265,
      "learning_rate": 9.52579709630871e-05,
      "loss": 1.6216,
      "step": 66645
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6186666488647461,
      "learning_rate": 9.525033152667583e-05,
      "loss": 1.57,
      "step": 66646
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6234910488128662,
      "learning_rate": 9.524269233880057e-05,
      "loss": 1.5316,
      "step": 66647
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6233306527137756,
      "learning_rate": 9.523505339947041e-05,
      "loss": 1.4843,
      "step": 66648
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6227824687957764,
      "learning_rate": 9.522741470869482e-05,
      "loss": 1.5322,
      "step": 66649
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6104448437690735,
      "learning_rate": 9.521977626648288e-05,
      "loss": 1.5055,
      "step": 66650
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6264699697494507,
      "learning_rate": 9.521213807284407e-05,
      "loss": 1.5665,
      "step": 66651
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6207998394966125,
      "learning_rate": 9.520450012778754e-05,
      "loss": 1.5318,
      "step": 66652
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6087697148323059,
      "learning_rate": 9.51968624313225e-05,
      "loss": 1.5322,
      "step": 66653
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6108241081237793,
      "learning_rate": 9.518922498345836e-05,
      "loss": 1.512,
      "step": 66654
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6313086152076721,
      "learning_rate": 9.518158778420432e-05,
      "loss": 1.5189,
      "step": 66655
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6207596659660339,
      "learning_rate": 9.517395083356957e-05,
      "loss": 1.4968,
      "step": 66656
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5986708402633667,
      "learning_rate": 9.516631413156344e-05,
      "loss": 1.5771,
      "step": 66657
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6181691288948059,
      "learning_rate": 9.515867767819535e-05,
      "loss": 1.5581,
      "step": 66658
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.638841450214386,
      "learning_rate": 9.515104147347443e-05,
      "loss": 1.5486,
      "step": 66659
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6149777770042419,
      "learning_rate": 9.514340551740987e-05,
      "loss": 1.5238,
      "step": 66660
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6290177702903748,
      "learning_rate": 9.513576981001114e-05,
      "loss": 1.5402,
      "step": 66661
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6369622945785522,
      "learning_rate": 9.51281343512874e-05,
      "loss": 1.5299,
      "step": 66662
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6363755464553833,
      "learning_rate": 9.512049914124781e-05,
      "loss": 1.5246,
      "step": 66663
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6170596480369568,
      "learning_rate": 9.511286417990173e-05,
      "loss": 1.4901,
      "step": 66664
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6185036897659302,
      "learning_rate": 9.510522946725857e-05,
      "loss": 1.5654,
      "step": 66665
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6428902745246887,
      "learning_rate": 9.509759500332743e-05,
      "loss": 1.6009,
      "step": 66666
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6204249262809753,
      "learning_rate": 9.508996078811757e-05,
      "loss": 1.4963,
      "step": 66667
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6284165382385254,
      "learning_rate": 9.508232682163838e-05,
      "loss": 1.5016,
      "step": 66668
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6272851228713989,
      "learning_rate": 9.507469310389904e-05,
      "loss": 1.5258,
      "step": 66669
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6147324442863464,
      "learning_rate": 9.506705963490878e-05,
      "loss": 1.5669,
      "step": 66670
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6227663159370422,
      "learning_rate": 9.505942641467687e-05,
      "loss": 1.572,
      "step": 66671
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6319500207901001,
      "learning_rate": 9.505179344321272e-05,
      "loss": 1.6696,
      "step": 66672
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6268535256385803,
      "learning_rate": 9.504416072052549e-05,
      "loss": 1.5014,
      "step": 66673
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6069011092185974,
      "learning_rate": 9.503652824662437e-05,
      "loss": 1.5525,
      "step": 66674
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6005577445030212,
      "learning_rate": 9.502889602151882e-05,
      "loss": 1.435,
      "step": 66675
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6017218232154846,
      "learning_rate": 9.502126404521795e-05,
      "loss": 1.437,
      "step": 66676
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6103422045707703,
      "learning_rate": 9.501363231773098e-05,
      "loss": 1.5374,
      "step": 66677
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6324880719184875,
      "learning_rate": 9.500600083906728e-05,
      "loss": 1.5105,
      "step": 66678
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5877572894096375,
      "learning_rate": 9.499836960923616e-05,
      "loss": 1.529,
      "step": 66679
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6209025979042053,
      "learning_rate": 9.499073862824682e-05,
      "loss": 1.5601,
      "step": 66680
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6148191094398499,
      "learning_rate": 9.498310789610842e-05,
      "loss": 1.5609,
      "step": 66681
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6178135871887207,
      "learning_rate": 9.497547741283042e-05,
      "loss": 1.4925,
      "step": 66682
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6727679967880249,
      "learning_rate": 9.496784717842198e-05,
      "loss": 1.5659,
      "step": 66683
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6260950565338135,
      "learning_rate": 9.496021719289226e-05,
      "loss": 1.5041,
      "step": 66684
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6077500581741333,
      "learning_rate": 9.495258745625071e-05,
      "loss": 1.537,
      "step": 66685
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5980718731880188,
      "learning_rate": 9.494495796850645e-05,
      "loss": 1.5058,
      "step": 66686
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6185677647590637,
      "learning_rate": 9.493732872966885e-05,
      "loss": 1.5672,
      "step": 66687
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6143167018890381,
      "learning_rate": 9.492969973974706e-05,
      "loss": 1.5379,
      "step": 66688
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.651222288608551,
      "learning_rate": 9.492207099875048e-05,
      "loss": 1.5024,
      "step": 66689
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6061850190162659,
      "learning_rate": 9.491444250668828e-05,
      "loss": 1.4904,
      "step": 66690
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6200144290924072,
      "learning_rate": 9.490681426356965e-05,
      "loss": 1.5399,
      "step": 66691
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6399819254875183,
      "learning_rate": 9.4899186269404e-05,
      "loss": 1.5661,
      "step": 66692
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6275663375854492,
      "learning_rate": 9.489155852420042e-05,
      "loss": 1.4811,
      "step": 66693
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.610337495803833,
      "learning_rate": 9.48839310279684e-05,
      "loss": 1.5649,
      "step": 66694
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6069624423980713,
      "learning_rate": 9.487630378071706e-05,
      "loss": 1.59,
      "step": 66695
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6081404089927673,
      "learning_rate": 9.486867678245553e-05,
      "loss": 1.5489,
      "step": 66696
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6085516214370728,
      "learning_rate": 9.486105003319333e-05,
      "loss": 1.5046,
      "step": 66697
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6255932450294495,
      "learning_rate": 9.485342353293948e-05,
      "loss": 1.5644,
      "step": 66698
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6260687112808228,
      "learning_rate": 9.484579728170343e-05,
      "loss": 1.5118,
      "step": 66699
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6060176491737366,
      "learning_rate": 9.483817127949428e-05,
      "loss": 1.4872,
      "step": 66700
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6200037598609924,
      "learning_rate": 9.483054552632146e-05,
      "loss": 1.5571,
      "step": 66701
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6165390014648438,
      "learning_rate": 9.482292002219411e-05,
      "loss": 1.5607,
      "step": 66702
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6184636354446411,
      "learning_rate": 9.481529476712142e-05,
      "loss": 1.4655,
      "step": 66703
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6236293911933899,
      "learning_rate": 9.480766976111282e-05,
      "loss": 1.5134,
      "step": 66704
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6194338202476501,
      "learning_rate": 9.48000450041775e-05,
      "loss": 1.5049,
      "step": 66705
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6393290162086487,
      "learning_rate": 9.479242049632455e-05,
      "loss": 1.5388,
      "step": 66706
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.625810444355011,
      "learning_rate": 9.478479623756338e-05,
      "loss": 1.5812,
      "step": 66707
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6146708130836487,
      "learning_rate": 9.477717222790333e-05,
      "loss": 1.5695,
      "step": 66708
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.608650803565979,
      "learning_rate": 9.476954846735358e-05,
      "loss": 1.5868,
      "step": 66709
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6065165400505066,
      "learning_rate": 9.476192495592324e-05,
      "loss": 1.5132,
      "step": 66710
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6285519003868103,
      "learning_rate": 9.475430169362175e-05,
      "loss": 1.549,
      "step": 66711
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6072564125061035,
      "learning_rate": 9.474667868045835e-05,
      "loss": 1.4477,
      "step": 66712
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.7318754196166992,
      "learning_rate": 9.473905591644212e-05,
      "loss": 1.5359,
      "step": 66713
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6108006834983826,
      "learning_rate": 9.473143340158242e-05,
      "loss": 1.493,
      "step": 66714
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6391729712486267,
      "learning_rate": 9.472381113588873e-05,
      "loss": 1.551,
      "step": 66715
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6162185072898865,
      "learning_rate": 9.47161891193699e-05,
      "loss": 1.5028,
      "step": 66716
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6250841617584229,
      "learning_rate": 9.470856735203532e-05,
      "loss": 1.5395,
      "step": 66717
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6188642978668213,
      "learning_rate": 9.470094583389443e-05,
      "loss": 1.5321,
      "step": 66718
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6073319315910339,
      "learning_rate": 9.469332456495631e-05,
      "loss": 1.559,
      "step": 66719
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6309040784835815,
      "learning_rate": 9.468570354523019e-05,
      "loss": 1.5926,
      "step": 66720
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6244480609893799,
      "learning_rate": 9.467808277472535e-05,
      "loss": 1.5458,
      "step": 66721
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6130415201187134,
      "learning_rate": 9.467046225345127e-05,
      "loss": 1.4644,
      "step": 66722
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6343149542808533,
      "learning_rate": 9.46628419814168e-05,
      "loss": 1.6263,
      "step": 66723
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6010280251502991,
      "learning_rate": 9.465522195863137e-05,
      "loss": 1.5176,
      "step": 66724
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6031786799430847,
      "learning_rate": 9.464760218510436e-05,
      "loss": 1.5416,
      "step": 66725
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.607867419719696,
      "learning_rate": 9.463998266084488e-05,
      "loss": 1.4469,
      "step": 66726
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6305450797080994,
      "learning_rate": 9.46323633858621e-05,
      "loss": 1.5942,
      "step": 66727
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5961335897445679,
      "learning_rate": 9.462474436016539e-05,
      "loss": 1.5414,
      "step": 66728
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6057148575782776,
      "learning_rate": 9.461712558376419e-05,
      "loss": 1.5411,
      "step": 66729
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6190386414527893,
      "learning_rate": 9.460950705666731e-05,
      "loss": 1.5633,
      "step": 66730
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6079526543617249,
      "learning_rate": 9.460188877888425e-05,
      "loss": 1.5051,
      "step": 66731
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6035189628601074,
      "learning_rate": 9.459427075042434e-05,
      "loss": 1.48,
      "step": 66732
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6238371729850769,
      "learning_rate": 9.458665297129671e-05,
      "loss": 1.5653,
      "step": 66733
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6191163659095764,
      "learning_rate": 9.457903544151049e-05,
      "loss": 1.5466,
      "step": 66734
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6139929294586182,
      "learning_rate": 9.457141816107517e-05,
      "loss": 1.5112,
      "step": 66735
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6032572388648987,
      "learning_rate": 9.45638011299999e-05,
      "loss": 1.5689,
      "step": 66736
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6203936338424683,
      "learning_rate": 9.455618434829377e-05,
      "loss": 1.4812,
      "step": 66737
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6130948066711426,
      "learning_rate": 9.45485678159662e-05,
      "loss": 1.4814,
      "step": 66738
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6247366666793823,
      "learning_rate": 9.454095153302647e-05,
      "loss": 1.439,
      "step": 66739
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6532276272773743,
      "learning_rate": 9.453333549948378e-05,
      "loss": 1.5389,
      "step": 66740
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6176491975784302,
      "learning_rate": 9.452571971534722e-05,
      "loss": 1.5304,
      "step": 66741
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6066164374351501,
      "learning_rate": 9.451810418062625e-05,
      "loss": 1.4717,
      "step": 66742
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6230943202972412,
      "learning_rate": 9.451048889533006e-05,
      "loss": 1.5636,
      "step": 66743
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.612149715423584,
      "learning_rate": 9.450287385946775e-05,
      "loss": 1.509,
      "step": 66744
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6176857352256775,
      "learning_rate": 9.449525907304876e-05,
      "loss": 1.5089,
      "step": 66745
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6462080478668213,
      "learning_rate": 9.448764453608216e-05,
      "loss": 1.6252,
      "step": 66746
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6191704869270325,
      "learning_rate": 9.448003024857736e-05,
      "loss": 1.5667,
      "step": 66747
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6233278512954712,
      "learning_rate": 9.447241621054342e-05,
      "loss": 1.5316,
      "step": 66748
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6237718462944031,
      "learning_rate": 9.44648024219898e-05,
      "loss": 1.5621,
      "step": 66749
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6050077080726624,
      "learning_rate": 9.445718888292562e-05,
      "loss": 1.5691,
      "step": 66750
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6529486179351807,
      "learning_rate": 9.444957559336005e-05,
      "loss": 1.4766,
      "step": 66751
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6227245330810547,
      "learning_rate": 9.444196255330248e-05,
      "loss": 1.5331,
      "step": 66752
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6179947853088379,
      "learning_rate": 9.443434976276196e-05,
      "loss": 1.4955,
      "step": 66753
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6374678015708923,
      "learning_rate": 9.442673722174801e-05,
      "loss": 1.5416,
      "step": 66754
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6506190896034241,
      "learning_rate": 9.441912493026957e-05,
      "loss": 1.5705,
      "step": 66755
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6488134860992432,
      "learning_rate": 9.441151288833613e-05,
      "loss": 1.5992,
      "step": 66756
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6380270719528198,
      "learning_rate": 9.440390109595683e-05,
      "loss": 1.5442,
      "step": 66757
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5968833565711975,
      "learning_rate": 9.439628955314079e-05,
      "loss": 1.5345,
      "step": 66758
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6187784671783447,
      "learning_rate": 9.438867825989746e-05,
      "loss": 1.5979,
      "step": 66759
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.61021888256073,
      "learning_rate": 9.438106721623588e-05,
      "loss": 1.6078,
      "step": 66760
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6124551892280579,
      "learning_rate": 9.437345642216547e-05,
      "loss": 1.5295,
      "step": 66761
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6527340412139893,
      "learning_rate": 9.436584587769541e-05,
      "loss": 1.5107,
      "step": 66762
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6264132261276245,
      "learning_rate": 9.435823558283482e-05,
      "loss": 1.5393,
      "step": 66763
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6425324082374573,
      "learning_rate": 9.435062553759312e-05,
      "loss": 1.6041,
      "step": 66764
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6161623597145081,
      "learning_rate": 9.434301574197936e-05,
      "loss": 1.4723,
      "step": 66765
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6137142777442932,
      "learning_rate": 9.433540619600299e-05,
      "loss": 1.4854,
      "step": 66766
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6116192936897278,
      "learning_rate": 9.432779689967302e-05,
      "loss": 1.4711,
      "step": 66767
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6110806465148926,
      "learning_rate": 9.432018785299888e-05,
      "loss": 1.5374,
      "step": 66768
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.601195752620697,
      "learning_rate": 9.431257905598976e-05,
      "loss": 1.4711,
      "step": 66769
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.61418616771698,
      "learning_rate": 9.430497050865476e-05,
      "loss": 1.5046,
      "step": 66770
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6333770155906677,
      "learning_rate": 9.42973622110033e-05,
      "loss": 1.5451,
      "step": 66771
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6308488249778748,
      "learning_rate": 9.428975416304455e-05,
      "loss": 1.4848,
      "step": 66772
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6124153733253479,
      "learning_rate": 9.42821463647876e-05,
      "loss": 1.5566,
      "step": 66773
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6055324673652649,
      "learning_rate": 9.427453881624185e-05,
      "loss": 1.5299,
      "step": 66774
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6158446669578552,
      "learning_rate": 9.426693151741658e-05,
      "loss": 1.5017,
      "step": 66775
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6466870903968811,
      "learning_rate": 9.425932446832094e-05,
      "loss": 1.5439,
      "step": 66776
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6441569924354553,
      "learning_rate": 9.425171766896407e-05,
      "loss": 1.5762,
      "step": 66777
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6365147829055786,
      "learning_rate": 9.424411111935542e-05,
      "loss": 1.4568,
      "step": 66778
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6430496573448181,
      "learning_rate": 9.423650481950408e-05,
      "loss": 1.563,
      "step": 66779
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6197695732116699,
      "learning_rate": 9.422889876941918e-05,
      "loss": 1.5311,
      "step": 66780
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6168119311332703,
      "learning_rate": 9.422129296911012e-05,
      "loss": 1.5102,
      "step": 66781
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6239602565765381,
      "learning_rate": 9.421368741858618e-05,
      "loss": 1.5839,
      "step": 66782
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6237558126449585,
      "learning_rate": 9.42060821178565e-05,
      "loss": 1.5338,
      "step": 66783
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.609818696975708,
      "learning_rate": 9.419847706693019e-05,
      "loss": 1.5337,
      "step": 66784
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6119558811187744,
      "learning_rate": 9.419087226581672e-05,
      "loss": 1.5093,
      "step": 66785
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6175370812416077,
      "learning_rate": 9.41832677145252e-05,
      "loss": 1.6006,
      "step": 66786
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6245149374008179,
      "learning_rate": 9.41756634130648e-05,
      "loss": 1.5241,
      "step": 66787
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6229104995727539,
      "learning_rate": 9.416805936144479e-05,
      "loss": 1.6087,
      "step": 66788
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6199458241462708,
      "learning_rate": 9.416045555967456e-05,
      "loss": 1.5799,
      "step": 66789
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6132437586784363,
      "learning_rate": 9.415285200776317e-05,
      "loss": 1.4504,
      "step": 66790
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6011621356010437,
      "learning_rate": 9.41452487057198e-05,
      "loss": 1.5466,
      "step": 66791
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6034526824951172,
      "learning_rate": 9.413764565355388e-05,
      "loss": 1.5195,
      "step": 66792
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6262879967689514,
      "learning_rate": 9.413004285127451e-05,
      "loss": 1.5504,
      "step": 66793
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6036518216133118,
      "learning_rate": 9.412244029889084e-05,
      "loss": 1.4885,
      "step": 66794
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6546446084976196,
      "learning_rate": 9.411483799641217e-05,
      "loss": 1.5608,
      "step": 66795
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5994875431060791,
      "learning_rate": 9.410723594384789e-05,
      "loss": 1.5074,
      "step": 66796
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6242214441299438,
      "learning_rate": 9.409963414120706e-05,
      "loss": 1.5015,
      "step": 66797
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6403228044509888,
      "learning_rate": 9.409203258849887e-05,
      "loss": 1.6415,
      "step": 66798
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6352989673614502,
      "learning_rate": 9.408443128573267e-05,
      "loss": 1.53,
      "step": 66799
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6079463362693787,
      "learning_rate": 9.407683023291764e-05,
      "loss": 1.5046,
      "step": 66800
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6092749834060669,
      "learning_rate": 9.406922943006293e-05,
      "loss": 1.516,
      "step": 66801
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6168854832649231,
      "learning_rate": 9.406162887717789e-05,
      "loss": 1.549,
      "step": 66802
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6311627626419067,
      "learning_rate": 9.405402857427163e-05,
      "loss": 1.4931,
      "step": 66803
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6024512648582458,
      "learning_rate": 9.40464285213535e-05,
      "loss": 1.4458,
      "step": 66804
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.622576117515564,
      "learning_rate": 9.403882871843259e-05,
      "loss": 1.5615,
      "step": 66805
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6261016130447388,
      "learning_rate": 9.403122916551826e-05,
      "loss": 1.4961,
      "step": 66806
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6539042592048645,
      "learning_rate": 9.402362986261971e-05,
      "loss": 1.5625,
      "step": 66807
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6007124185562134,
      "learning_rate": 9.401603080974599e-05,
      "loss": 1.5083,
      "step": 66808
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6155826449394226,
      "learning_rate": 9.400843200690656e-05,
      "loss": 1.5187,
      "step": 66809
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6479992866516113,
      "learning_rate": 9.400083345411046e-05,
      "loss": 1.6594,
      "step": 66810
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6061754822731018,
      "learning_rate": 9.39932351513671e-05,
      "loss": 1.5328,
      "step": 66811
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.617131233215332,
      "learning_rate": 9.398563709868558e-05,
      "loss": 1.5543,
      "step": 66812
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6367651224136353,
      "learning_rate": 9.397803929607505e-05,
      "loss": 1.4897,
      "step": 66813
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6391088366508484,
      "learning_rate": 9.397044174354491e-05,
      "loss": 1.526,
      "step": 66814
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5927212238311768,
      "learning_rate": 9.396284444110422e-05,
      "loss": 1.4553,
      "step": 66815
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6338791847229004,
      "learning_rate": 9.395524738876238e-05,
      "loss": 1.5364,
      "step": 66816
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6202879548072815,
      "learning_rate": 9.39476505865284e-05,
      "loss": 1.4929,
      "step": 66817
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6132838129997253,
      "learning_rate": 9.394005403441171e-05,
      "loss": 1.5526,
      "step": 66818
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6171168088912964,
      "learning_rate": 9.393245773242142e-05,
      "loss": 1.5322,
      "step": 66819
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6081113815307617,
      "learning_rate": 9.392486168056669e-05,
      "loss": 1.5534,
      "step": 66820
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6225536465644836,
      "learning_rate": 9.391726587885688e-05,
      "loss": 1.568,
      "step": 66821
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6280778050422668,
      "learning_rate": 9.390967032730117e-05,
      "loss": 1.4981,
      "step": 66822
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6098465323448181,
      "learning_rate": 9.390207502590867e-05,
      "loss": 1.5438,
      "step": 66823
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6211475133895874,
      "learning_rate": 9.389447997468866e-05,
      "loss": 1.529,
      "step": 66824
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6300751566886902,
      "learning_rate": 9.38868851736505e-05,
      "loss": 1.5004,
      "step": 66825
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6232172846794128,
      "learning_rate": 9.387929062280326e-05,
      "loss": 1.5171,
      "step": 66826
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.613772451877594,
      "learning_rate": 9.387169632215611e-05,
      "loss": 1.5934,
      "step": 66827
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6027200222015381,
      "learning_rate": 9.386410227171847e-05,
      "loss": 1.4856,
      "step": 66828
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6254742741584778,
      "learning_rate": 9.385650847149939e-05,
      "loss": 1.5071,
      "step": 66829
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6128584146499634,
      "learning_rate": 9.384891492150809e-05,
      "loss": 1.5591,
      "step": 66830
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.606755256652832,
      "learning_rate": 9.384132162175379e-05,
      "loss": 1.5441,
      "step": 66831
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6455696821212769,
      "learning_rate": 9.383372857224597e-05,
      "loss": 1.6127,
      "step": 66832
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6231565475463867,
      "learning_rate": 9.38261357729934e-05,
      "loss": 1.6237,
      "step": 66833
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6210851073265076,
      "learning_rate": 9.381854322400555e-05,
      "loss": 1.5636,
      "step": 66834
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6105120182037354,
      "learning_rate": 9.38109509252917e-05,
      "loss": 1.5032,
      "step": 66835
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6282451152801514,
      "learning_rate": 9.380335887686096e-05,
      "loss": 1.5928,
      "step": 66836
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6455415487289429,
      "learning_rate": 9.37957670787225e-05,
      "loss": 1.4863,
      "step": 66837
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6071265339851379,
      "learning_rate": 9.378817553088557e-05,
      "loss": 1.5341,
      "step": 66838
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6245571970939636,
      "learning_rate": 9.378058423335961e-05,
      "loss": 1.5751,
      "step": 66839
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5996308922767639,
      "learning_rate": 9.377299318615346e-05,
      "loss": 1.4536,
      "step": 66840
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6352672576904297,
      "learning_rate": 9.376540238927649e-05,
      "loss": 1.6022,
      "step": 66841
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6375362873077393,
      "learning_rate": 9.3757811842738e-05,
      "loss": 1.5377,
      "step": 66842
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6429066061973572,
      "learning_rate": 9.37502215465472e-05,
      "loss": 1.5294,
      "step": 66843
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6384674310684204,
      "learning_rate": 9.374263150071309e-05,
      "loss": 1.5792,
      "step": 66844
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6064890027046204,
      "learning_rate": 9.373504170524509e-05,
      "loss": 1.4615,
      "step": 66845
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5977122187614441,
      "learning_rate": 9.372745216015249e-05,
      "loss": 1.511,
      "step": 66846
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6008924245834351,
      "learning_rate": 9.371986286544422e-05,
      "loss": 1.5049,
      "step": 66847
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6202024221420288,
      "learning_rate": 9.371227382112964e-05,
      "loss": 1.5055,
      "step": 66848
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6087766885757446,
      "learning_rate": 9.370468502721804e-05,
      "loss": 1.529,
      "step": 66849
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6348451972007751,
      "learning_rate": 9.369709648371859e-05,
      "loss": 1.5248,
      "step": 66850
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6323886513710022,
      "learning_rate": 9.368950819064033e-05,
      "loss": 1.5262,
      "step": 66851
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6185969114303589,
      "learning_rate": 9.368192014799274e-05,
      "loss": 1.6059,
      "step": 66852
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6145908236503601,
      "learning_rate": 9.367433235578489e-05,
      "loss": 1.5544,
      "step": 66853
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5909387469291687,
      "learning_rate": 9.366674481402589e-05,
      "loss": 1.5162,
      "step": 66854
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.5981900691986084,
      "learning_rate": 9.365915752272505e-05,
      "loss": 1.4871,
      "step": 66855
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6328811645507812,
      "learning_rate": 9.365157048189171e-05,
      "loss": 1.5983,
      "step": 66856
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6179576516151428,
      "learning_rate": 9.364398369153495e-05,
      "loss": 1.4888,
      "step": 66857
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6146584153175354,
      "learning_rate": 9.36363971516639e-05,
      "loss": 1.4723,
      "step": 66858
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6689012050628662,
      "learning_rate": 9.362881086228794e-05,
      "loss": 1.5748,
      "step": 66859
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6397069692611694,
      "learning_rate": 9.362122482341624e-05,
      "loss": 1.4984,
      "step": 66860
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6149606108665466,
      "learning_rate": 9.361363903505783e-05,
      "loss": 1.513,
      "step": 66861
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6005935072898865,
      "learning_rate": 9.360605349722214e-05,
      "loss": 1.5347,
      "step": 66862
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6202515959739685,
      "learning_rate": 9.35984682099182e-05,
      "loss": 1.5021,
      "step": 66863
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.609986424446106,
      "learning_rate": 9.359088317315542e-05,
      "loss": 1.5779,
      "step": 66864
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6273582577705383,
      "learning_rate": 9.358329838694279e-05,
      "loss": 1.4877,
      "step": 66865
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6322587728500366,
      "learning_rate": 9.357571385128972e-05,
      "loss": 1.4773,
      "step": 66866
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.623492419719696,
      "learning_rate": 9.35681295662053e-05,
      "loss": 1.495,
      "step": 66867
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6212847232818604,
      "learning_rate": 9.356054553169869e-05,
      "loss": 1.5446,
      "step": 66868
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6243590712547302,
      "learning_rate": 9.355296174777924e-05,
      "loss": 1.5078,
      "step": 66869
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6239083409309387,
      "learning_rate": 9.354537821445597e-05,
      "loss": 1.5296,
      "step": 66870
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6430197358131409,
      "learning_rate": 9.35377949317383e-05,
      "loss": 1.5902,
      "step": 66871
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6298250555992126,
      "learning_rate": 9.353021189963522e-05,
      "loss": 1.541,
      "step": 66872
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.618968665599823,
      "learning_rate": 9.352262911815616e-05,
      "loss": 1.5666,
      "step": 66873
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6085848212242126,
      "learning_rate": 9.35150465873102e-05,
      "loss": 1.5147,
      "step": 66874
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6086846590042114,
      "learning_rate": 9.350746430710643e-05,
      "loss": 1.5205,
      "step": 66875
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6486473679542542,
      "learning_rate": 9.349988227755426e-05,
      "loss": 1.588,
      "step": 66876
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.655975878238678,
      "learning_rate": 9.349230049866276e-05,
      "loss": 1.4807,
      "step": 66877
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.645952582359314,
      "learning_rate": 9.348471897044124e-05,
      "loss": 1.5114,
      "step": 66878
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6184189319610596,
      "learning_rate": 9.347713769289886e-05,
      "loss": 1.5813,
      "step": 66879
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6205788850784302,
      "learning_rate": 9.346955666604468e-05,
      "loss": 1.5721,
      "step": 66880
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6311848759651184,
      "learning_rate": 9.346197588988816e-05,
      "loss": 1.4577,
      "step": 66881
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.629515528678894,
      "learning_rate": 9.345439536443824e-05,
      "loss": 1.5791,
      "step": 66882
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6256042122840881,
      "learning_rate": 9.344681508970436e-05,
      "loss": 1.6179,
      "step": 66883
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6387457847595215,
      "learning_rate": 9.343923506569553e-05,
      "loss": 1.5082,
      "step": 66884
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5901971459388733,
      "learning_rate": 9.343165529242112e-05,
      "loss": 1.5609,
      "step": 66885
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6141974925994873,
      "learning_rate": 9.342407576989025e-05,
      "loss": 1.524,
      "step": 66886
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6494460105895996,
      "learning_rate": 9.3416496498112e-05,
      "loss": 1.5801,
      "step": 66887
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6429534554481506,
      "learning_rate": 9.340891747709581e-05,
      "loss": 1.5054,
      "step": 66888
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6498855948448181,
      "learning_rate": 9.340133870685074e-05,
      "loss": 1.5372,
      "step": 66889
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6419277191162109,
      "learning_rate": 9.339376018738589e-05,
      "loss": 1.6251,
      "step": 66890
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6152694225311279,
      "learning_rate": 9.33861819187106e-05,
      "loss": 1.509,
      "step": 66891
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6011170148849487,
      "learning_rate": 9.337860390083412e-05,
      "loss": 1.4906,
      "step": 66892
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6321626305580139,
      "learning_rate": 9.337102613376556e-05,
      "loss": 1.5338,
      "step": 66893
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6128422617912292,
      "learning_rate": 9.336344861751406e-05,
      "loss": 1.5138,
      "step": 66894
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6062398552894592,
      "learning_rate": 9.335587135208898e-05,
      "loss": 1.479,
      "step": 66895
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6237174272537231,
      "learning_rate": 9.33482943374994e-05,
      "loss": 1.4543,
      "step": 66896
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6026176810264587,
      "learning_rate": 9.334071757375448e-05,
      "loss": 1.4958,
      "step": 66897
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6142198443412781,
      "learning_rate": 9.333314106086345e-05,
      "loss": 1.5048,
      "step": 66898
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6294142603874207,
      "learning_rate": 9.332556479883564e-05,
      "loss": 1.4764,
      "step": 66899
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.616679310798645,
      "learning_rate": 9.331798878768015e-05,
      "loss": 1.4972,
      "step": 66900
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6346583366394043,
      "learning_rate": 9.331041302740609e-05,
      "loss": 1.4434,
      "step": 66901
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.628330647945404,
      "learning_rate": 9.330283751802278e-05,
      "loss": 1.4881,
      "step": 66902
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.593901515007019,
      "learning_rate": 9.32952622595394e-05,
      "loss": 1.4119,
      "step": 66903
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6342666149139404,
      "learning_rate": 9.328768725196503e-05,
      "loss": 1.5519,
      "step": 66904
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6490517854690552,
      "learning_rate": 9.328011249530894e-05,
      "loss": 1.5887,
      "step": 66905
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6239460110664368,
      "learning_rate": 9.327253798958041e-05,
      "loss": 1.579,
      "step": 66906
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6399341821670532,
      "learning_rate": 9.326496373478858e-05,
      "loss": 1.5237,
      "step": 66907
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6268410682678223,
      "learning_rate": 9.325738973094255e-05,
      "loss": 1.5283,
      "step": 66908
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6355918049812317,
      "learning_rate": 9.324981597805163e-05,
      "loss": 1.5645,
      "step": 66909
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6041333675384521,
      "learning_rate": 9.324224247612501e-05,
      "loss": 1.5318,
      "step": 66910
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.652026355266571,
      "learning_rate": 9.323466922517172e-05,
      "loss": 1.5809,
      "step": 66911
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6103979349136353,
      "learning_rate": 9.32270962252011e-05,
      "loss": 1.5373,
      "step": 66912
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6274036169052124,
      "learning_rate": 9.321952347622241e-05,
      "loss": 1.5681,
      "step": 66913
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6115545630455017,
      "learning_rate": 9.321195097824475e-05,
      "loss": 1.5093,
      "step": 66914
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6374215483665466,
      "learning_rate": 9.320437873127721e-05,
      "loss": 1.5035,
      "step": 66915
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6234530210494995,
      "learning_rate": 9.31968067353292e-05,
      "loss": 1.5875,
      "step": 66916
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6246151924133301,
      "learning_rate": 9.318923499040977e-05,
      "loss": 1.5432,
      "step": 66917
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.631401538848877,
      "learning_rate": 9.318166349652805e-05,
      "loss": 1.5938,
      "step": 66918
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6125301718711853,
      "learning_rate": 9.31740922536934e-05,
      "loss": 1.496,
      "step": 66919
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6346637606620789,
      "learning_rate": 9.316652126191487e-05,
      "loss": 1.574,
      "step": 66920
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6574101448059082,
      "learning_rate": 9.315895052120176e-05,
      "loss": 1.4173,
      "step": 66921
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.649588406085968,
      "learning_rate": 9.315138003156312e-05,
      "loss": 1.6145,
      "step": 66922
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6379547119140625,
      "learning_rate": 9.314380979300832e-05,
      "loss": 1.5541,
      "step": 66923
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6444345116615295,
      "learning_rate": 9.313623980554648e-05,
      "loss": 1.549,
      "step": 66924
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6452378630638123,
      "learning_rate": 9.312867006918668e-05,
      "loss": 1.5651,
      "step": 66925
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6019437909126282,
      "learning_rate": 9.312110058393825e-05,
      "loss": 1.5402,
      "step": 66926
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6164646148681641,
      "learning_rate": 9.311353134981026e-05,
      "loss": 1.5315,
      "step": 66927
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6584247946739197,
      "learning_rate": 9.310596236681204e-05,
      "loss": 1.5333,
      "step": 66928
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.669735312461853,
      "learning_rate": 9.309839363495269e-05,
      "loss": 1.525,
      "step": 66929
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6418706178665161,
      "learning_rate": 9.30908251542413e-05,
      "loss": 1.5425,
      "step": 66930
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.633469820022583,
      "learning_rate": 9.308325692468727e-05,
      "loss": 1.5833,
      "step": 66931
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6608269214630127,
      "learning_rate": 9.307568894629961e-05,
      "loss": 1.5012,
      "step": 66932
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6629086136817932,
      "learning_rate": 9.306812121908762e-05,
      "loss": 1.5788,
      "step": 66933
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6104185581207275,
      "learning_rate": 9.306055374306038e-05,
      "loss": 1.5362,
      "step": 66934
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.626369833946228,
      "learning_rate": 9.305298651822722e-05,
      "loss": 1.5292,
      "step": 66935
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.64243483543396,
      "learning_rate": 9.304541954459724e-05,
      "loss": 1.5613,
      "step": 66936
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6455527544021606,
      "learning_rate": 9.303785282217956e-05,
      "loss": 1.631,
      "step": 66937
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6352508068084717,
      "learning_rate": 9.30302863509835e-05,
      "loss": 1.5205,
      "step": 66938
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6192466020584106,
      "learning_rate": 9.302272013101816e-05,
      "loss": 1.4795,
      "step": 66939
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.634588897228241,
      "learning_rate": 9.301515416229268e-05,
      "loss": 1.4813,
      "step": 66940
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6565099358558655,
      "learning_rate": 9.30075884448163e-05,
      "loss": 1.5462,
      "step": 66941
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.649462103843689,
      "learning_rate": 9.30000229785983e-05,
      "loss": 1.5315,
      "step": 66942
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6333825588226318,
      "learning_rate": 9.299245776364774e-05,
      "loss": 1.5188,
      "step": 66943
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6030749678611755,
      "learning_rate": 9.298489279997379e-05,
      "loss": 1.4891,
      "step": 66944
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6454953551292419,
      "learning_rate": 9.297732808758576e-05,
      "loss": 1.4924,
      "step": 66945
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6295067071914673,
      "learning_rate": 9.296976362649271e-05,
      "loss": 1.5291,
      "step": 66946
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6604129076004028,
      "learning_rate": 9.296219941670381e-05,
      "loss": 1.4942,
      "step": 66947
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6063776612281799,
      "learning_rate": 9.295463545822828e-05,
      "loss": 1.5609,
      "step": 66948
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6313415169715881,
      "learning_rate": 9.29470717510755e-05,
      "loss": 1.5098,
      "step": 66949
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6236572861671448,
      "learning_rate": 9.293950829525429e-05,
      "loss": 1.5696,
      "step": 66950
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6040226817131042,
      "learning_rate": 9.2931945090774e-05,
      "loss": 1.4763,
      "step": 66951
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6475153565406799,
      "learning_rate": 9.292438213764394e-05,
      "loss": 1.5303,
      "step": 66952
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6283489465713501,
      "learning_rate": 9.291681943587315e-05,
      "loss": 1.5419,
      "step": 66953
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6335203647613525,
      "learning_rate": 9.290925698547072e-05,
      "loss": 1.533,
      "step": 66954
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6545994877815247,
      "learning_rate": 9.290169478644593e-05,
      "loss": 1.5522,
      "step": 66955
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6277202367782593,
      "learning_rate": 9.28941328388082e-05,
      "loss": 1.5083,
      "step": 66956
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.59894859790802,
      "learning_rate": 9.288657114256627e-05,
      "loss": 1.4701,
      "step": 66957
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6444441080093384,
      "learning_rate": 9.28790096977295e-05,
      "loss": 1.597,
      "step": 66958
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6235352158546448,
      "learning_rate": 9.287144850430722e-05,
      "loss": 1.5279,
      "step": 66959
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6258857846260071,
      "learning_rate": 9.286388756230846e-05,
      "loss": 1.5916,
      "step": 66960
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6103185415267944,
      "learning_rate": 9.285632687174234e-05,
      "loss": 1.5279,
      "step": 66961
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.607323169708252,
      "learning_rate": 9.284876643261811e-05,
      "loss": 1.468,
      "step": 66962
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6220806837081909,
      "learning_rate": 9.284120624494515e-05,
      "loss": 1.5395,
      "step": 66963
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6062682271003723,
      "learning_rate": 9.283364630873228e-05,
      "loss": 1.4949,
      "step": 66964
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6182755827903748,
      "learning_rate": 9.282608662398878e-05,
      "loss": 1.5961,
      "step": 66965
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6287697553634644,
      "learning_rate": 9.281852719072402e-05,
      "loss": 1.5186,
      "step": 66966
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6394186019897461,
      "learning_rate": 9.281096800894703e-05,
      "loss": 1.5952,
      "step": 66967
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6201522946357727,
      "learning_rate": 9.280340907866692e-05,
      "loss": 1.5297,
      "step": 66968
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5988391637802124,
      "learning_rate": 9.279585039989304e-05,
      "loss": 1.5463,
      "step": 66969
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6147388219833374,
      "learning_rate": 9.278829197263442e-05,
      "loss": 1.5431,
      "step": 66970
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6026294231414795,
      "learning_rate": 9.278073379690024e-05,
      "loss": 1.5729,
      "step": 66971
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6022883653640747,
      "learning_rate": 9.277317587269969e-05,
      "loss": 1.6432,
      "step": 66972
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6041600704193115,
      "learning_rate": 9.276561820004206e-05,
      "loss": 1.5099,
      "step": 66973
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.630765974521637,
      "learning_rate": 9.275806077893644e-05,
      "loss": 1.5716,
      "step": 66974
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5793092250823975,
      "learning_rate": 9.275050360939192e-05,
      "loss": 1.5832,
      "step": 66975
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.612082302570343,
      "learning_rate": 9.274294669141785e-05,
      "loss": 1.6244,
      "step": 66976
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6314256191253662,
      "learning_rate": 9.273539002502328e-05,
      "loss": 1.5146,
      "step": 66977
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5979947447776794,
      "learning_rate": 9.272783361021731e-05,
      "loss": 1.5842,
      "step": 66978
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6310045123100281,
      "learning_rate": 9.272027744700934e-05,
      "loss": 1.424,
      "step": 66979
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6403218507766724,
      "learning_rate": 9.271272153540827e-05,
      "loss": 1.5426,
      "step": 66980
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6031556725502014,
      "learning_rate": 9.270516587542353e-05,
      "loss": 1.5441,
      "step": 66981
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6103891134262085,
      "learning_rate": 9.269761046706409e-05,
      "loss": 1.5047,
      "step": 66982
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5988283753395081,
      "learning_rate": 9.269005531033928e-05,
      "loss": 1.5516,
      "step": 66983
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6205877661705017,
      "learning_rate": 9.268250040525822e-05,
      "loss": 1.516,
      "step": 66984
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6055152416229248,
      "learning_rate": 9.267494575182996e-05,
      "loss": 1.5889,
      "step": 66985
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6178846955299377,
      "learning_rate": 9.266739135006389e-05,
      "loss": 1.5349,
      "step": 66986
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6148402690887451,
      "learning_rate": 9.265983719996889e-05,
      "loss": 1.4338,
      "step": 66987
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6285014748573303,
      "learning_rate": 9.265228330155444e-05,
      "loss": 1.6347,
      "step": 66988
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6018559336662292,
      "learning_rate": 9.264472965482956e-05,
      "loss": 1.4762,
      "step": 66989
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6310222148895264,
      "learning_rate": 9.263717625980334e-05,
      "loss": 1.5892,
      "step": 66990
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6076355576515198,
      "learning_rate": 9.262962311648512e-05,
      "loss": 1.5915,
      "step": 66991
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6155902743339539,
      "learning_rate": 9.26220702248839e-05,
      "loss": 1.5391,
      "step": 66992
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6233459115028381,
      "learning_rate": 9.2614517585009e-05,
      "loss": 1.5139,
      "step": 66993
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6129925847053528,
      "learning_rate": 9.260696519686945e-05,
      "loss": 1.5673,
      "step": 66994
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6321498155593872,
      "learning_rate": 9.259941306047458e-05,
      "loss": 1.4804,
      "step": 66995
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6110182404518127,
      "learning_rate": 9.259186117583344e-05,
      "loss": 1.5385,
      "step": 66996
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6130071878433228,
      "learning_rate": 9.258430954295514e-05,
      "loss": 1.5625,
      "step": 66997
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6251947283744812,
      "learning_rate": 9.257675816184903e-05,
      "loss": 1.5183,
      "step": 66998
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6458142995834351,
      "learning_rate": 9.256920703252405e-05,
      "loss": 1.5934,
      "step": 66999
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6122580766677856,
      "learning_rate": 9.25616561549896e-05,
      "loss": 1.5248,
      "step": 67000
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6354772448539734,
      "learning_rate": 9.255410552925465e-05,
      "loss": 1.5826,
      "step": 67001
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6115074753761292,
      "learning_rate": 9.254655515532855e-05,
      "loss": 1.5299,
      "step": 67002
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6090648770332336,
      "learning_rate": 9.253900503322033e-05,
      "loss": 1.5308,
      "step": 67003
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6112073659896851,
      "learning_rate": 9.253145516293914e-05,
      "loss": 1.5748,
      "step": 67004
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.613373875617981,
      "learning_rate": 9.252390554449424e-05,
      "loss": 1.5141,
      "step": 67005
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6156508922576904,
      "learning_rate": 9.251635617789477e-05,
      "loss": 1.5078,
      "step": 67006
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.626290500164032,
      "learning_rate": 9.250880706314979e-05,
      "loss": 1.5299,
      "step": 67007
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5958749055862427,
      "learning_rate": 9.250125820026854e-05,
      "loss": 1.5301,
      "step": 67008
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.662246823310852,
      "learning_rate": 9.24937095892603e-05,
      "loss": 1.5642,
      "step": 67009
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6052475571632385,
      "learning_rate": 9.248616123013411e-05,
      "loss": 1.538,
      "step": 67010
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.595394492149353,
      "learning_rate": 9.247861312289904e-05,
      "loss": 1.6183,
      "step": 67011
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6129642128944397,
      "learning_rate": 9.247106526756445e-05,
      "loss": 1.481,
      "step": 67012
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.635113000869751,
      "learning_rate": 9.24635176641394e-05,
      "loss": 1.5089,
      "step": 67013
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6245567202568054,
      "learning_rate": 9.245597031263301e-05,
      "loss": 1.4909,
      "step": 67014
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.614253580570221,
      "learning_rate": 9.244842321305445e-05,
      "loss": 1.5937,
      "step": 67015
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6265220046043396,
      "learning_rate": 9.244087636541305e-05,
      "loss": 1.5306,
      "step": 67016
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.592329204082489,
      "learning_rate": 9.243332976971779e-05,
      "loss": 1.4446,
      "step": 67017
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6505927443504333,
      "learning_rate": 9.242578342597783e-05,
      "loss": 1.6254,
      "step": 67018
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6320632100105286,
      "learning_rate": 9.241823733420248e-05,
      "loss": 1.5568,
      "step": 67019
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6174699068069458,
      "learning_rate": 9.241069149440078e-05,
      "loss": 1.5145,
      "step": 67020
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6173738241195679,
      "learning_rate": 9.240314590658185e-05,
      "loss": 1.5414,
      "step": 67021
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6109008193016052,
      "learning_rate": 9.23956005707549e-05,
      "loss": 1.4935,
      "step": 67022
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6255763173103333,
      "learning_rate": 9.238805548692918e-05,
      "loss": 1.497,
      "step": 67023
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6266335844993591,
      "learning_rate": 9.238051065511381e-05,
      "loss": 1.5581,
      "step": 67024
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6120903491973877,
      "learning_rate": 9.237296607531777e-05,
      "loss": 1.5965,
      "step": 67025
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.640616238117218,
      "learning_rate": 9.23654217475505e-05,
      "loss": 1.5265,
      "step": 67026
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6137918829917908,
      "learning_rate": 9.235787767182097e-05,
      "loss": 1.5963,
      "step": 67027
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6275486350059509,
      "learning_rate": 9.235033384813828e-05,
      "loss": 1.5273,
      "step": 67028
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6196169257164001,
      "learning_rate": 9.234279027651173e-05,
      "loss": 1.5019,
      "step": 67029
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6297126412391663,
      "learning_rate": 9.23352469569505e-05,
      "loss": 1.6039,
      "step": 67030
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6195468902587891,
      "learning_rate": 9.232770388946371e-05,
      "loss": 1.5747,
      "step": 67031
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6137540936470032,
      "learning_rate": 9.232016107406038e-05,
      "loss": 1.4915,
      "step": 67032
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6371232271194458,
      "learning_rate": 9.231261851074985e-05,
      "loss": 1.5668,
      "step": 67033
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.620308518409729,
      "learning_rate": 9.230507619954123e-05,
      "loss": 1.4719,
      "step": 67034
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6113116145133972,
      "learning_rate": 9.229753414044355e-05,
      "loss": 1.4688,
      "step": 67035
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6358374953269958,
      "learning_rate": 9.228999233346611e-05,
      "loss": 1.4902,
      "step": 67036
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5886712670326233,
      "learning_rate": 9.228245077861797e-05,
      "loss": 1.5226,
      "step": 67037
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6112890243530273,
      "learning_rate": 9.227490947590839e-05,
      "loss": 1.4595,
      "step": 67038
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6154094934463501,
      "learning_rate": 9.22673684253464e-05,
      "loss": 1.5697,
      "step": 67039
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6197943091392517,
      "learning_rate": 9.225982762694129e-05,
      "loss": 1.5288,
      "step": 67040
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6308062076568604,
      "learning_rate": 9.225228708070214e-05,
      "loss": 1.4459,
      "step": 67041
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6177871227264404,
      "learning_rate": 9.224474678663801e-05,
      "loss": 1.5622,
      "step": 67042
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6433534622192383,
      "learning_rate": 9.223720674475825e-05,
      "loss": 1.5739,
      "step": 67043
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.59785395860672,
      "learning_rate": 9.222966695507182e-05,
      "loss": 1.5315,
      "step": 67044
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6301020383834839,
      "learning_rate": 9.222212741758805e-05,
      "loss": 1.5256,
      "step": 67045
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6173354387283325,
      "learning_rate": 9.221458813231601e-05,
      "loss": 1.5274,
      "step": 67046
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6248082518577576,
      "learning_rate": 9.220704909926473e-05,
      "loss": 1.4811,
      "step": 67047
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6122626066207886,
      "learning_rate": 9.219951031844357e-05,
      "loss": 1.5987,
      "step": 67048
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6396912336349487,
      "learning_rate": 9.219197178986148e-05,
      "loss": 1.5048,
      "step": 67049
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6262812614440918,
      "learning_rate": 9.218443351352783e-05,
      "loss": 1.567,
      "step": 67050
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6141906380653381,
      "learning_rate": 9.217689548945156e-05,
      "loss": 1.5207,
      "step": 67051
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6042393445968628,
      "learning_rate": 9.216935771764204e-05,
      "loss": 1.5284,
      "step": 67052
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.612619936466217,
      "learning_rate": 9.216182019810827e-05,
      "loss": 1.5769,
      "step": 67053
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6317836046218872,
      "learning_rate": 9.215428293085934e-05,
      "loss": 1.5573,
      "step": 67054
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6086832284927368,
      "learning_rate": 9.214674591590455e-05,
      "loss": 1.5434,
      "step": 67055
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5992831587791443,
      "learning_rate": 9.213920915325302e-05,
      "loss": 1.5157,
      "step": 67056
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6412436366081238,
      "learning_rate": 9.213167264291374e-05,
      "loss": 1.5005,
      "step": 67057
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5968718528747559,
      "learning_rate": 9.212413638489601e-05,
      "loss": 1.4808,
      "step": 67058
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6236002445220947,
      "learning_rate": 9.211660037920906e-05,
      "loss": 1.5249,
      "step": 67059
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6460355520248413,
      "learning_rate": 9.21090646258619e-05,
      "loss": 1.5023,
      "step": 67060
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6293730735778809,
      "learning_rate": 9.21015291248636e-05,
      "loss": 1.5832,
      "step": 67061
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5988677740097046,
      "learning_rate": 9.209399387622351e-05,
      "loss": 1.4749,
      "step": 67062
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6541226506233215,
      "learning_rate": 9.208645887995069e-05,
      "loss": 1.5444,
      "step": 67063
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6197484135627747,
      "learning_rate": 9.207892413605418e-05,
      "loss": 1.6043,
      "step": 67064
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6296453475952148,
      "learning_rate": 9.207138964454321e-05,
      "loss": 1.5862,
      "step": 67065
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6359732747077942,
      "learning_rate": 9.206385540542712e-05,
      "loss": 1.509,
      "step": 67066
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6370972394943237,
      "learning_rate": 9.20563214187147e-05,
      "loss": 1.5414,
      "step": 67067
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6147998571395874,
      "learning_rate": 9.204878768441526e-05,
      "loss": 1.5754,
      "step": 67068
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.633815348148346,
      "learning_rate": 9.204125420253804e-05,
      "loss": 1.4734,
      "step": 67069
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6220202445983887,
      "learning_rate": 9.203372097309209e-05,
      "loss": 1.5375,
      "step": 67070
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6267131567001343,
      "learning_rate": 9.202618799608649e-05,
      "loss": 1.5774,
      "step": 67071
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6044502258300781,
      "learning_rate": 9.201865527153044e-05,
      "loss": 1.5471,
      "step": 67072
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6138502359390259,
      "learning_rate": 9.201112279943328e-05,
      "loss": 1.5585,
      "step": 67073
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6043041944503784,
      "learning_rate": 9.20035905798038e-05,
      "loss": 1.487,
      "step": 67074
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.644737184047699,
      "learning_rate": 9.199605861265132e-05,
      "loss": 1.579,
      "step": 67075
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6299553513526917,
      "learning_rate": 9.198852689798506e-05,
      "loss": 1.5676,
      "step": 67076
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6582534909248352,
      "learning_rate": 9.198099543581407e-05,
      "loss": 1.4775,
      "step": 67077
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6278801560401917,
      "learning_rate": 9.19734642261474e-05,
      "loss": 1.5599,
      "step": 67078
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6341127157211304,
      "learning_rate": 9.19659332689943e-05,
      "loss": 1.4756,
      "step": 67079
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6305763721466064,
      "learning_rate": 9.195840256436412e-05,
      "loss": 1.5715,
      "step": 67080
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6102376580238342,
      "learning_rate": 9.195087211226555e-05,
      "loss": 1.5443,
      "step": 67081
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6329821348190308,
      "learning_rate": 9.1943341912708e-05,
      "loss": 1.5162,
      "step": 67082
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6113861799240112,
      "learning_rate": 9.193581196570067e-05,
      "loss": 1.5677,
      "step": 67083
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6102427840232849,
      "learning_rate": 9.192828227125261e-05,
      "loss": 1.5226,
      "step": 67084
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6166872978210449,
      "learning_rate": 9.192075282937283e-05,
      "loss": 1.5131,
      "step": 67085
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6373914480209351,
      "learning_rate": 9.191322364007075e-05,
      "loss": 1.5697,
      "step": 67086
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6269720792770386,
      "learning_rate": 9.19056947033553e-05,
      "loss": 1.5795,
      "step": 67087
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6127251982688904,
      "learning_rate": 9.189816601923561e-05,
      "loss": 1.4387,
      "step": 67088
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6127052903175354,
      "learning_rate": 9.189063758772088e-05,
      "loss": 1.5248,
      "step": 67089
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6302586197853088,
      "learning_rate": 9.188310940882036e-05,
      "loss": 1.567,
      "step": 67090
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6405300498008728,
      "learning_rate": 9.187558148254305e-05,
      "loss": 1.5298,
      "step": 67091
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5983880162239075,
      "learning_rate": 9.186805380889802e-05,
      "loss": 1.5372,
      "step": 67092
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.599399209022522,
      "learning_rate": 9.186052638789464e-05,
      "loss": 1.5187,
      "step": 67093
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6238687038421631,
      "learning_rate": 9.18529992195419e-05,
      "loss": 1.5668,
      "step": 67094
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6191809773445129,
      "learning_rate": 9.184547230384883e-05,
      "loss": 1.5312,
      "step": 67095
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.643121063709259,
      "learning_rate": 9.18379456408248e-05,
      "loss": 1.4752,
      "step": 67096
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5955093502998352,
      "learning_rate": 9.183041923047874e-05,
      "loss": 1.5806,
      "step": 67097
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6039234399795532,
      "learning_rate": 9.182289307281998e-05,
      "loss": 1.526,
      "step": 67098
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.631657600402832,
      "learning_rate": 9.181536716785745e-05,
      "loss": 1.5059,
      "step": 67099
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6223905682563782,
      "learning_rate": 9.180784151560049e-05,
      "loss": 1.5052,
      "step": 67100
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6358534693717957,
      "learning_rate": 9.18003161160581e-05,
      "loss": 1.6517,
      "step": 67101
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6124676465988159,
      "learning_rate": 9.17927909692394e-05,
      "loss": 1.4925,
      "step": 67102
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6186049580574036,
      "learning_rate": 9.178526607515365e-05,
      "loss": 1.4828,
      "step": 67103
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6234937310218811,
      "learning_rate": 9.17777414338098e-05,
      "loss": 1.4752,
      "step": 67104
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6529077887535095,
      "learning_rate": 9.17702170452172e-05,
      "loss": 1.5649,
      "step": 67105
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6273269653320312,
      "learning_rate": 9.176269290938489e-05,
      "loss": 1.493,
      "step": 67106
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6076607704162598,
      "learning_rate": 9.175516902632189e-05,
      "loss": 1.5413,
      "step": 67107
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6342382431030273,
      "learning_rate": 9.17476453960375e-05,
      "loss": 1.587,
      "step": 67108
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6384947896003723,
      "learning_rate": 9.174012201854072e-05,
      "loss": 1.5509,
      "step": 67109
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6162282824516296,
      "learning_rate": 9.173259889384085e-05,
      "loss": 1.5475,
      "step": 67110
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6527732610702515,
      "learning_rate": 9.172507602194679e-05,
      "loss": 1.4612,
      "step": 67111
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6129282712936401,
      "learning_rate": 9.17175534028679e-05,
      "loss": 1.5149,
      "step": 67112
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.620179295539856,
      "learning_rate": 9.171003103661324e-05,
      "loss": 1.5299,
      "step": 67113
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6618479490280151,
      "learning_rate": 9.170250892319178e-05,
      "loss": 1.5385,
      "step": 67114
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6223887801170349,
      "learning_rate": 9.169498706261289e-05,
      "loss": 1.5194,
      "step": 67115
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6315780878067017,
      "learning_rate": 9.16874654548855e-05,
      "loss": 1.5023,
      "step": 67116
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6249479651451111,
      "learning_rate": 9.167994410001891e-05,
      "loss": 1.5933,
      "step": 67117
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6243322491645813,
      "learning_rate": 9.16724229980221e-05,
      "loss": 1.5331,
      "step": 67118
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6314137578010559,
      "learning_rate": 9.166490214890436e-05,
      "loss": 1.557,
      "step": 67119
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6386659741401672,
      "learning_rate": 9.165738155267476e-05,
      "loss": 1.5148,
      "step": 67120
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6329092383384705,
      "learning_rate": 9.164986120934229e-05,
      "loss": 1.5127,
      "step": 67121
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6105585098266602,
      "learning_rate": 9.164234111891625e-05,
      "loss": 1.529,
      "step": 67122
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6191982626914978,
      "learning_rate": 9.163482128140577e-05,
      "loss": 1.4601,
      "step": 67123
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6475102305412292,
      "learning_rate": 9.162730169681977e-05,
      "loss": 1.4983,
      "step": 67124
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6291716694831848,
      "learning_rate": 9.161978236516754e-05,
      "loss": 1.5593,
      "step": 67125
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.58978271484375,
      "learning_rate": 9.161226328645827e-05,
      "loss": 1.4987,
      "step": 67126
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6265904903411865,
      "learning_rate": 9.160474446070104e-05,
      "loss": 1.6226,
      "step": 67127
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.645556628704071,
      "learning_rate": 9.159722588790483e-05,
      "loss": 1.553,
      "step": 67128
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6167359948158264,
      "learning_rate": 9.158970756807899e-05,
      "loss": 1.5399,
      "step": 67129
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6160609722137451,
      "learning_rate": 9.158218950123251e-05,
      "loss": 1.5599,
      "step": 67130
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6372400522232056,
      "learning_rate": 9.157467168737448e-05,
      "loss": 1.5025,
      "step": 67131
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6252374649047852,
      "learning_rate": 9.156715412651407e-05,
      "loss": 1.5737,
      "step": 67132
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6333816647529602,
      "learning_rate": 9.155963681866053e-05,
      "loss": 1.6396,
      "step": 67133
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6109569668769836,
      "learning_rate": 9.155211976382284e-05,
      "loss": 1.6152,
      "step": 67134
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6324030756950378,
      "learning_rate": 9.154460296201012e-05,
      "loss": 1.5428,
      "step": 67135
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6479622721672058,
      "learning_rate": 9.153708641323162e-05,
      "loss": 1.5437,
      "step": 67136
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6384543776512146,
      "learning_rate": 9.152957011749638e-05,
      "loss": 1.5056,
      "step": 67137
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6402278542518616,
      "learning_rate": 9.152205407481342e-05,
      "loss": 1.5959,
      "step": 67138
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6575517654418945,
      "learning_rate": 9.151453828519195e-05,
      "loss": 1.5536,
      "step": 67139
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6471295952796936,
      "learning_rate": 9.150702274864122e-05,
      "loss": 1.5454,
      "step": 67140
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6528869271278381,
      "learning_rate": 9.149950746517025e-05,
      "loss": 1.4515,
      "step": 67141
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.626340925693512,
      "learning_rate": 9.149199243478806e-05,
      "loss": 1.5624,
      "step": 67142
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6186636686325073,
      "learning_rate": 9.148447765750398e-05,
      "loss": 1.5702,
      "step": 67143
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6417256593704224,
      "learning_rate": 9.1476963133327e-05,
      "loss": 1.5209,
      "step": 67144
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6447739601135254,
      "learning_rate": 9.146944886226619e-05,
      "loss": 1.5543,
      "step": 67145
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6105836033821106,
      "learning_rate": 9.146193484433073e-05,
      "loss": 1.5394,
      "step": 67146
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6080804467201233,
      "learning_rate": 9.145442107952986e-05,
      "loss": 1.5832,
      "step": 67147
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6573948860168457,
      "learning_rate": 9.144690756787257e-05,
      "loss": 1.443,
      "step": 67148
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6136325597763062,
      "learning_rate": 9.143939430936793e-05,
      "loss": 1.4513,
      "step": 67149
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6208925843238831,
      "learning_rate": 9.143188130402521e-05,
      "loss": 1.4928,
      "step": 67150
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6149302124977112,
      "learning_rate": 9.142436855185348e-05,
      "loss": 1.4488,
      "step": 67151
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6404934525489807,
      "learning_rate": 9.141685605286176e-05,
      "loss": 1.5084,
      "step": 67152
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.623305082321167,
      "learning_rate": 9.14093438070593e-05,
      "loss": 1.5794,
      "step": 67153
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6257071495056152,
      "learning_rate": 9.140183181445507e-05,
      "loss": 1.542,
      "step": 67154
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.602678120136261,
      "learning_rate": 9.139432007505838e-05,
      "loss": 1.5736,
      "step": 67155
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6120918393135071,
      "learning_rate": 9.138680858887814e-05,
      "loss": 1.5154,
      "step": 67156
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6109455823898315,
      "learning_rate": 9.137929735592369e-05,
      "loss": 1.4377,
      "step": 67157
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6206048727035522,
      "learning_rate": 9.137178637620405e-05,
      "loss": 1.6042,
      "step": 67158
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6078822016716003,
      "learning_rate": 9.13642756497282e-05,
      "loss": 1.5017,
      "step": 67159
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6137251853942871,
      "learning_rate": 9.135676517650549e-05,
      "loss": 1.5155,
      "step": 67160
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6029621362686157,
      "learning_rate": 9.134925495654479e-05,
      "loss": 1.5016,
      "step": 67161
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6583631634712219,
      "learning_rate": 9.134174498985551e-05,
      "loss": 1.5699,
      "step": 67162
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6076822876930237,
      "learning_rate": 9.133423527644655e-05,
      "loss": 1.5026,
      "step": 67163
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.610001802444458,
      "learning_rate": 9.1326725816327e-05,
      "loss": 1.4912,
      "step": 67164
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6296454668045044,
      "learning_rate": 9.131921660950618e-05,
      "loss": 1.506,
      "step": 67165
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6230461597442627,
      "learning_rate": 9.131170765599297e-05,
      "loss": 1.5525,
      "step": 67166
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5948297381401062,
      "learning_rate": 9.13041989557967e-05,
      "loss": 1.5512,
      "step": 67167
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6334686279296875,
      "learning_rate": 9.129669050892627e-05,
      "loss": 1.6257,
      "step": 67168
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6236204504966736,
      "learning_rate": 9.128918231539104e-05,
      "loss": 1.6032,
      "step": 67169
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6134815812110901,
      "learning_rate": 9.128167437519995e-05,
      "loss": 1.5426,
      "step": 67170
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6672738790512085,
      "learning_rate": 9.127416668836207e-05,
      "loss": 1.6454,
      "step": 67171
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6185517907142639,
      "learning_rate": 9.126665925488671e-05,
      "loss": 1.5546,
      "step": 67172
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6041116714477539,
      "learning_rate": 9.125915207478286e-05,
      "loss": 1.5998,
      "step": 67173
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.610133171081543,
      "learning_rate": 9.125164514805955e-05,
      "loss": 1.5095,
      "step": 67174
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6299671530723572,
      "learning_rate": 9.124413847472598e-05,
      "loss": 1.5646,
      "step": 67175
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6191980838775635,
      "learning_rate": 9.123663205479135e-05,
      "loss": 1.4926,
      "step": 67176
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.619379997253418,
      "learning_rate": 9.122912588826471e-05,
      "loss": 1.5397,
      "step": 67177
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6327564716339111,
      "learning_rate": 9.122161997515506e-05,
      "loss": 1.5975,
      "step": 67178
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6158827543258667,
      "learning_rate": 9.121411431547169e-05,
      "loss": 1.496,
      "step": 67179
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.623909592628479,
      "learning_rate": 9.120660890922359e-05,
      "loss": 1.5566,
      "step": 67180
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6386317014694214,
      "learning_rate": 9.119910375641986e-05,
      "loss": 1.5657,
      "step": 67181
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6191664934158325,
      "learning_rate": 9.119159885706962e-05,
      "loss": 1.5207,
      "step": 67182
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6054597496986389,
      "learning_rate": 9.118409421118219e-05,
      "loss": 1.4658,
      "step": 67183
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.619819700717926,
      "learning_rate": 9.117658981876635e-05,
      "loss": 1.5151,
      "step": 67184
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6235933899879456,
      "learning_rate": 9.116908567983133e-05,
      "loss": 1.5125,
      "step": 67185
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6282066106796265,
      "learning_rate": 9.116158179438638e-05,
      "loss": 1.5652,
      "step": 67186
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6128121018409729,
      "learning_rate": 9.11540781624405e-05,
      "loss": 1.577,
      "step": 67187
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6210232973098755,
      "learning_rate": 9.114657478400269e-05,
      "loss": 1.5048,
      "step": 67188
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5900694727897644,
      "learning_rate": 9.113907165908217e-05,
      "loss": 1.5641,
      "step": 67189
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6495535969734192,
      "learning_rate": 9.113156878768823e-05,
      "loss": 1.5348,
      "step": 67190
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6049209833145142,
      "learning_rate": 9.112406616982963e-05,
      "loss": 1.5806,
      "step": 67191
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6025360226631165,
      "learning_rate": 9.11165638055156e-05,
      "loss": 1.5536,
      "step": 67192
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6011736392974854,
      "learning_rate": 9.110906169475538e-05,
      "loss": 1.5108,
      "step": 67193
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6384883522987366,
      "learning_rate": 9.1101559837558e-05,
      "loss": 1.5792,
      "step": 67194
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5859920978546143,
      "learning_rate": 9.109405823393245e-05,
      "loss": 1.4345,
      "step": 67195
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6444138884544373,
      "learning_rate": 9.108655688388792e-05,
      "loss": 1.6015,
      "step": 67196
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6069796681404114,
      "learning_rate": 9.107905578743371e-05,
      "loss": 1.5471,
      "step": 67197
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6206386089324951,
      "learning_rate": 9.107155494457858e-05,
      "loss": 1.5697,
      "step": 67198
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6177409291267395,
      "learning_rate": 9.106405435533178e-05,
      "loss": 1.5097,
      "step": 67199
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5997110605239868,
      "learning_rate": 9.105655401970254e-05,
      "loss": 1.4577,
      "step": 67200
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.621842086315155,
      "learning_rate": 9.104905393769986e-05,
      "loss": 1.5957,
      "step": 67201
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6325569748878479,
      "learning_rate": 9.104155410933274e-05,
      "loss": 1.5193,
      "step": 67202
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6129016876220703,
      "learning_rate": 9.103405453461048e-05,
      "loss": 1.5708,
      "step": 67203
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6232237815856934,
      "learning_rate": 9.102655521354207e-05,
      "loss": 1.5701,
      "step": 67204
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6251460313796997,
      "learning_rate": 9.101905614613656e-05,
      "loss": 1.5302,
      "step": 67205
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6259005069732666,
      "learning_rate": 9.101155733240313e-05,
      "loss": 1.5136,
      "step": 67206
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6095130443572998,
      "learning_rate": 9.100405877235094e-05,
      "loss": 1.5049,
      "step": 67207
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6044538021087646,
      "learning_rate": 9.099656046598906e-05,
      "loss": 1.526,
      "step": 67208
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6149721145629883,
      "learning_rate": 9.098906241332643e-05,
      "loss": 1.5222,
      "step": 67209
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6076722741127014,
      "learning_rate": 9.098156461437239e-05,
      "loss": 1.5479,
      "step": 67210
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6331208944320679,
      "learning_rate": 9.097406706913597e-05,
      "loss": 1.5388,
      "step": 67211
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6128565669059753,
      "learning_rate": 9.096656977762609e-05,
      "loss": 1.5475,
      "step": 67212
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6257325410842896,
      "learning_rate": 9.09590727398521e-05,
      "loss": 1.5346,
      "step": 67213
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6376890540122986,
      "learning_rate": 9.095157595582294e-05,
      "loss": 1.5918,
      "step": 67214
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6241282820701599,
      "learning_rate": 9.09440794255478e-05,
      "loss": 1.5427,
      "step": 67215
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6233882308006287,
      "learning_rate": 9.09365831490357e-05,
      "loss": 1.5355,
      "step": 67216
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.8673827648162842,
      "learning_rate": 9.092908712629584e-05,
      "loss": 1.4811,
      "step": 67217
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6300599575042725,
      "learning_rate": 9.092159135733728e-05,
      "loss": 1.5076,
      "step": 67218
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6440644860267639,
      "learning_rate": 9.091409584216903e-05,
      "loss": 1.6276,
      "step": 67219
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6234332323074341,
      "learning_rate": 9.090660058080034e-05,
      "loss": 1.6056,
      "step": 67220
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6455845832824707,
      "learning_rate": 9.089910557324012e-05,
      "loss": 1.4721,
      "step": 67221
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6389522552490234,
      "learning_rate": 9.089161081949766e-05,
      "loss": 1.5221,
      "step": 67222
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.638755738735199,
      "learning_rate": 9.0884116319582e-05,
      "loss": 1.5461,
      "step": 67223
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6201465129852295,
      "learning_rate": 9.087662207350209e-05,
      "loss": 1.5541,
      "step": 67224
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6258289813995361,
      "learning_rate": 9.086912808126726e-05,
      "loss": 1.4693,
      "step": 67225
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6181594729423523,
      "learning_rate": 9.08616343428864e-05,
      "loss": 1.5194,
      "step": 67226
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6265316605567932,
      "learning_rate": 9.08541408583688e-05,
      "loss": 1.5349,
      "step": 67227
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6645683646202087,
      "learning_rate": 9.084664762772337e-05,
      "loss": 1.6242,
      "step": 67228
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6199489831924438,
      "learning_rate": 9.083915465095937e-05,
      "loss": 1.5503,
      "step": 67229
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6417621374130249,
      "learning_rate": 9.083166192808583e-05,
      "loss": 1.5781,
      "step": 67230
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6252725720405579,
      "learning_rate": 9.082416945911172e-05,
      "loss": 1.5339,
      "step": 67231
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6089048981666565,
      "learning_rate": 9.081667724404637e-05,
      "loss": 1.5499,
      "step": 67232
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6213985681533813,
      "learning_rate": 9.080918528289873e-05,
      "loss": 1.4915,
      "step": 67233
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6036155223846436,
      "learning_rate": 9.080169357567782e-05,
      "loss": 1.5672,
      "step": 67234
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6371762156486511,
      "learning_rate": 9.079420212239284e-05,
      "loss": 1.5661,
      "step": 67235
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6493499279022217,
      "learning_rate": 9.078671092305295e-05,
      "loss": 1.5087,
      "step": 67236
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6264750361442566,
      "learning_rate": 9.077921997766719e-05,
      "loss": 1.555,
      "step": 67237
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6105896830558777,
      "learning_rate": 9.077172928624451e-05,
      "loss": 1.5587,
      "step": 67238
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6849269866943359,
      "learning_rate": 9.076423884879426e-05,
      "loss": 1.5369,
      "step": 67239
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6104907393455505,
      "learning_rate": 9.075674866532537e-05,
      "loss": 1.5026,
      "step": 67240
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6043266654014587,
      "learning_rate": 9.074925873584687e-05,
      "loss": 1.5028,
      "step": 67241
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6256430745124817,
      "learning_rate": 9.074176906036792e-05,
      "loss": 1.5408,
      "step": 67242
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6240072250366211,
      "learning_rate": 9.073427963889772e-05,
      "loss": 1.4979,
      "step": 67243
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6413211226463318,
      "learning_rate": 9.07267904714453e-05,
      "loss": 1.5221,
      "step": 67244
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6492270827293396,
      "learning_rate": 9.071930155801961e-05,
      "loss": 1.564,
      "step": 67245
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6396747827529907,
      "learning_rate": 9.071181289862994e-05,
      "loss": 1.4707,
      "step": 67246
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6162749528884888,
      "learning_rate": 9.07043244932853e-05,
      "loss": 1.4748,
      "step": 67247
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6166008710861206,
      "learning_rate": 9.069683634199466e-05,
      "loss": 1.5019,
      "step": 67248
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.8251979947090149,
      "learning_rate": 9.068934844476726e-05,
      "loss": 1.4957,
      "step": 67249
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6158793568611145,
      "learning_rate": 9.068186080161222e-05,
      "loss": 1.6215,
      "step": 67250
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6391685009002686,
      "learning_rate": 9.067437341253855e-05,
      "loss": 1.4389,
      "step": 67251
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6333020925521851,
      "learning_rate": 9.066688627755528e-05,
      "loss": 1.5404,
      "step": 67252
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6244909167289734,
      "learning_rate": 9.065939939667163e-05,
      "loss": 1.57,
      "step": 67253
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6367559432983398,
      "learning_rate": 9.065191276989664e-05,
      "loss": 1.582,
      "step": 67254
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6393171548843384,
      "learning_rate": 9.064442639723932e-05,
      "loss": 1.5773,
      "step": 67255
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6083742380142212,
      "learning_rate": 9.063694027870877e-05,
      "loss": 1.532,
      "step": 67256
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6459328532218933,
      "learning_rate": 9.062945441431424e-05,
      "loss": 1.5927,
      "step": 67257
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6256507635116577,
      "learning_rate": 9.062196880406468e-05,
      "loss": 1.4863,
      "step": 67258
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6401904821395874,
      "learning_rate": 9.061448344796915e-05,
      "loss": 1.4858,
      "step": 67259
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6529849171638489,
      "learning_rate": 9.060699834603685e-05,
      "loss": 1.5131,
      "step": 67260
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6065035462379456,
      "learning_rate": 9.05995134982768e-05,
      "loss": 1.5554,
      "step": 67261
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6349790096282959,
      "learning_rate": 9.059202890469799e-05,
      "loss": 1.5259,
      "step": 67262
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6484227776527405,
      "learning_rate": 9.058454456530962e-05,
      "loss": 1.6967,
      "step": 67263
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6462430357933044,
      "learning_rate": 9.057706048012083e-05,
      "loss": 1.5651,
      "step": 67264
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6233646273612976,
      "learning_rate": 9.056957664914068e-05,
      "loss": 1.5987,
      "step": 67265
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6173545718193054,
      "learning_rate": 9.056209307237806e-05,
      "loss": 1.512,
      "step": 67266
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6191716194152832,
      "learning_rate": 9.055460974984232e-05,
      "loss": 1.5323,
      "step": 67267
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6305886507034302,
      "learning_rate": 9.054712668154241e-05,
      "loss": 1.4601,
      "step": 67268
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6350076198577881,
      "learning_rate": 9.053964386748733e-05,
      "loss": 1.5281,
      "step": 67269
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.613228440284729,
      "learning_rate": 9.053216130768637e-05,
      "loss": 1.4787,
      "step": 67270
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6417503356933594,
      "learning_rate": 9.052467900214839e-05,
      "loss": 1.4321,
      "step": 67271
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6093795299530029,
      "learning_rate": 9.05171969508827e-05,
      "loss": 1.5392,
      "step": 67272
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6352165341377258,
      "learning_rate": 9.050971515389815e-05,
      "loss": 1.5841,
      "step": 67273
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6235155463218689,
      "learning_rate": 9.050223361120404e-05,
      "loss": 1.5243,
      "step": 67274
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6691107749938965,
      "learning_rate": 9.049475232280936e-05,
      "loss": 1.5303,
      "step": 67275
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6259390711784363,
      "learning_rate": 9.048727128872308e-05,
      "loss": 1.5713,
      "step": 67276
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6217646598815918,
      "learning_rate": 9.047979050895448e-05,
      "loss": 1.5103,
      "step": 67277
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6447563767433167,
      "learning_rate": 9.047230998351246e-05,
      "loss": 1.5065,
      "step": 67278
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6445906758308411,
      "learning_rate": 9.046482971240626e-05,
      "loss": 1.6058,
      "step": 67279
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6056904792785645,
      "learning_rate": 9.045734969564488e-05,
      "loss": 1.5477,
      "step": 67280
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6166269183158875,
      "learning_rate": 9.044986993323729e-05,
      "loss": 1.5638,
      "step": 67281
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6280660629272461,
      "learning_rate": 9.044239042519281e-05,
      "loss": 1.5648,
      "step": 67282
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6113033294677734,
      "learning_rate": 9.043491117152032e-05,
      "loss": 1.5679,
      "step": 67283
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6415411829948425,
      "learning_rate": 9.042743217222901e-05,
      "loss": 1.611,
      "step": 67284
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6310705542564392,
      "learning_rate": 9.041995342732784e-05,
      "loss": 1.5355,
      "step": 67285
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6150191426277161,
      "learning_rate": 9.041247493682607e-05,
      "loss": 1.5733,
      "step": 67286
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6125600934028625,
      "learning_rate": 9.04049967007327e-05,
      "loss": 1.5586,
      "step": 67287
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6097604036331177,
      "learning_rate": 9.039751871905665e-05,
      "loss": 1.532,
      "step": 67288
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6273797750473022,
      "learning_rate": 9.039004099180725e-05,
      "loss": 1.5364,
      "step": 67289
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6155880689620972,
      "learning_rate": 9.038256351899341e-05,
      "loss": 1.4791,
      "step": 67290
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6543663740158081,
      "learning_rate": 9.037508630062417e-05,
      "loss": 1.4797,
      "step": 67291
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6234333515167236,
      "learning_rate": 9.036760933670873e-05,
      "loss": 1.5875,
      "step": 67292
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6127505898475647,
      "learning_rate": 9.036013262725618e-05,
      "loss": 1.5155,
      "step": 67293
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6385529637336731,
      "learning_rate": 9.035265617227556e-05,
      "loss": 1.5743,
      "step": 67294
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6275711059570312,
      "learning_rate": 9.034517997177582e-05,
      "loss": 1.5528,
      "step": 67295
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6069897413253784,
      "learning_rate": 9.033770402576623e-05,
      "loss": 1.519,
      "step": 67296
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6002752780914307,
      "learning_rate": 9.033022833425581e-05,
      "loss": 1.5682,
      "step": 67297
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6145772337913513,
      "learning_rate": 9.032275289725346e-05,
      "loss": 1.4334,
      "step": 67298
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6388291716575623,
      "learning_rate": 9.031527771476842e-05,
      "loss": 1.474,
      "step": 67299
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6292171478271484,
      "learning_rate": 9.030780278680992e-05,
      "loss": 1.5084,
      "step": 67300
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6062184572219849,
      "learning_rate": 9.030032811338667e-05,
      "loss": 1.485,
      "step": 67301
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6108246445655823,
      "learning_rate": 9.02928536945079e-05,
      "loss": 1.4845,
      "step": 67302
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6173336505889893,
      "learning_rate": 9.028537953018283e-05,
      "loss": 1.4939,
      "step": 67303
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6396608352661133,
      "learning_rate": 9.027790562042037e-05,
      "loss": 1.5844,
      "step": 67304
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6352670192718506,
      "learning_rate": 9.027043196522959e-05,
      "loss": 1.6124,
      "step": 67305
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.628035843372345,
      "learning_rate": 9.026295856461956e-05,
      "loss": 1.5281,
      "step": 67306
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6096275448799133,
      "learning_rate": 9.02554854185996e-05,
      "loss": 1.5753,
      "step": 67307
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6231372952461243,
      "learning_rate": 9.02480125271784e-05,
      "loss": 1.531,
      "step": 67308
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6098007559776306,
      "learning_rate": 9.024053989036519e-05,
      "loss": 1.4751,
      "step": 67309
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6027195453643799,
      "learning_rate": 9.023306750816915e-05,
      "loss": 1.5595,
      "step": 67310
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6277118921279907,
      "learning_rate": 9.022559538059927e-05,
      "loss": 1.5694,
      "step": 67311
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6309993863105774,
      "learning_rate": 9.02181235076645e-05,
      "loss": 1.5302,
      "step": 67312
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6011684536933899,
      "learning_rate": 9.021065188937403e-05,
      "loss": 1.5551,
      "step": 67313
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6577046513557434,
      "learning_rate": 9.020318052573709e-05,
      "loss": 1.5652,
      "step": 67314
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6443522572517395,
      "learning_rate": 9.019570941676242e-05,
      "loss": 1.5646,
      "step": 67315
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6217413544654846,
      "learning_rate": 9.018823856245923e-05,
      "loss": 1.481,
      "step": 67316
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6461092233657837,
      "learning_rate": 9.018076796283668e-05,
      "loss": 1.5336,
      "step": 67317
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6230905652046204,
      "learning_rate": 9.01732976179038e-05,
      "loss": 1.4453,
      "step": 67318
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6366370916366577,
      "learning_rate": 9.016582752766948e-05,
      "loss": 1.6232,
      "step": 67319
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6154806613922119,
      "learning_rate": 9.015835769214305e-05,
      "loss": 1.5336,
      "step": 67320
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6393702626228333,
      "learning_rate": 9.015088811133347e-05,
      "loss": 1.5495,
      "step": 67321
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6465380787849426,
      "learning_rate": 9.014341878524965e-05,
      "loss": 1.5603,
      "step": 67322
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6376197338104248,
      "learning_rate": 9.013594971390084e-05,
      "loss": 1.5981,
      "step": 67323
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6458324790000916,
      "learning_rate": 9.012848089729616e-05,
      "loss": 1.5622,
      "step": 67324
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6420285701751709,
      "learning_rate": 9.012101233544457e-05,
      "loss": 1.4798,
      "step": 67325
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.606877326965332,
      "learning_rate": 9.011354402835505e-05,
      "loss": 1.5405,
      "step": 67326
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6399970650672913,
      "learning_rate": 9.010607597603683e-05,
      "loss": 1.5788,
      "step": 67327
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6148630976676941,
      "learning_rate": 9.009860817849894e-05,
      "loss": 1.5321,
      "step": 67328
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6322523355484009,
      "learning_rate": 9.009114063575031e-05,
      "loss": 1.5751,
      "step": 67329
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6428550481796265,
      "learning_rate": 9.00836733478002e-05,
      "loss": 1.5013,
      "step": 67330
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6271715760231018,
      "learning_rate": 9.007620631465749e-05,
      "loss": 1.5351,
      "step": 67331
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6547791361808777,
      "learning_rate": 9.006873953633143e-05,
      "loss": 1.5457,
      "step": 67332
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6208617091178894,
      "learning_rate": 9.006127301283088e-05,
      "loss": 1.5863,
      "step": 67333
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6108496785163879,
      "learning_rate": 9.005380674416512e-05,
      "loss": 1.5098,
      "step": 67334
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6342381238937378,
      "learning_rate": 9.004634073034311e-05,
      "loss": 1.6496,
      "step": 67335
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6304855346679688,
      "learning_rate": 9.00388749713738e-05,
      "loss": 1.5927,
      "step": 67336
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6182569265365601,
      "learning_rate": 9.003140946726647e-05,
      "loss": 1.5267,
      "step": 67337
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6120294332504272,
      "learning_rate": 9.002394421802995e-05,
      "loss": 1.5588,
      "step": 67338
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6092764735221863,
      "learning_rate": 9.001647922367355e-05,
      "loss": 1.5342,
      "step": 67339
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.623371958732605,
      "learning_rate": 9.00090144842062e-05,
      "loss": 1.4604,
      "step": 67340
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6250956654548645,
      "learning_rate": 9.000154999963685e-05,
      "loss": 1.5083,
      "step": 67341
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5947260856628418,
      "learning_rate": 8.999408576997479e-05,
      "loss": 1.4437,
      "step": 67342
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6195414066314697,
      "learning_rate": 8.998662179522885e-05,
      "loss": 1.5071,
      "step": 67343
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6359630227088928,
      "learning_rate": 8.997915807540833e-05,
      "loss": 1.541,
      "step": 67344
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6206552982330322,
      "learning_rate": 8.997169461052205e-05,
      "loss": 1.5228,
      "step": 67345
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6159627437591553,
      "learning_rate": 8.996423140057926e-05,
      "loss": 1.4879,
      "step": 67346
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6121827363967896,
      "learning_rate": 8.995676844558901e-05,
      "loss": 1.415,
      "step": 67347
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6343254446983337,
      "learning_rate": 8.994930574556014e-05,
      "loss": 1.5986,
      "step": 67348
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6154077053070068,
      "learning_rate": 8.994184330050198e-05,
      "loss": 1.5389,
      "step": 67349
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6452840566635132,
      "learning_rate": 8.993438111042349e-05,
      "loss": 1.5982,
      "step": 67350
    },
    {
      "epoch": 2.24,
      "grad_norm": 1.7856429815292358,
      "learning_rate": 8.99269191753336e-05,
      "loss": 1.5271,
      "step": 67351
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6216998100280762,
      "learning_rate": 8.991945749524147e-05,
      "loss": 1.4862,
      "step": 67352
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6022913455963135,
      "learning_rate": 8.991199607015627e-05,
      "loss": 1.5146,
      "step": 67353
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6264529824256897,
      "learning_rate": 8.990453490008694e-05,
      "loss": 1.5251,
      "step": 67354
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6402859091758728,
      "learning_rate": 8.989707398504245e-05,
      "loss": 1.5365,
      "step": 67355
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6369011998176575,
      "learning_rate": 8.988961332503207e-05,
      "loss": 1.5151,
      "step": 67356
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6146408319473267,
      "learning_rate": 8.988215292006474e-05,
      "loss": 1.5497,
      "step": 67357
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6301703453063965,
      "learning_rate": 8.987469277014939e-05,
      "loss": 1.5677,
      "step": 67358
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6094307899475098,
      "learning_rate": 8.986723287529525e-05,
      "loss": 1.5309,
      "step": 67359
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6335470080375671,
      "learning_rate": 8.98597732355114e-05,
      "loss": 1.533,
      "step": 67360
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6440942883491516,
      "learning_rate": 8.985231385080681e-05,
      "loss": 1.5523,
      "step": 67361
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6231048703193665,
      "learning_rate": 8.984485472119047e-05,
      "loss": 1.4981,
      "step": 67362
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6101998686790466,
      "learning_rate": 8.983739584667162e-05,
      "loss": 1.4515,
      "step": 67363
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6349542140960693,
      "learning_rate": 8.982993722725915e-05,
      "loss": 1.5495,
      "step": 67364
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6216598749160767,
      "learning_rate": 8.982247886296212e-05,
      "loss": 1.609,
      "step": 67365
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6219093203544617,
      "learning_rate": 8.981502075378962e-05,
      "loss": 1.5788,
      "step": 67366
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6182131171226501,
      "learning_rate": 8.980756289975082e-05,
      "loss": 1.5684,
      "step": 67367
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6104133725166321,
      "learning_rate": 8.980010530085467e-05,
      "loss": 1.4936,
      "step": 67368
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6096885204315186,
      "learning_rate": 8.979264795711011e-05,
      "loss": 1.4733,
      "step": 67369
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6291459202766418,
      "learning_rate": 8.978519086852641e-05,
      "loss": 1.5343,
      "step": 67370
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6371636986732483,
      "learning_rate": 8.97777340351125e-05,
      "loss": 1.6235,
      "step": 67371
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6236460208892822,
      "learning_rate": 8.977027745687737e-05,
      "loss": 1.5698,
      "step": 67372
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6526042819023132,
      "learning_rate": 8.97628211338301e-05,
      "loss": 1.5778,
      "step": 67373
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6368059515953064,
      "learning_rate": 8.975536506597994e-05,
      "loss": 1.5499,
      "step": 67374
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6347992420196533,
      "learning_rate": 8.974790925333577e-05,
      "loss": 1.5305,
      "step": 67375
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6209771633148193,
      "learning_rate": 8.974045369590657e-05,
      "loss": 1.5703,
      "step": 67376
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6464029550552368,
      "learning_rate": 8.973299839370156e-05,
      "loss": 1.5531,
      "step": 67377
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6201923489570618,
      "learning_rate": 8.972554334672971e-05,
      "loss": 1.5856,
      "step": 67378
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6057331562042236,
      "learning_rate": 8.971808855499999e-05,
      "loss": 1.4556,
      "step": 67379
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6635351181030273,
      "learning_rate": 8.971063401852151e-05,
      "loss": 1.4969,
      "step": 67380
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6246816515922546,
      "learning_rate": 8.970317973730343e-05,
      "loss": 1.5772,
      "step": 67381
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6099931597709656,
      "learning_rate": 8.969572571135471e-05,
      "loss": 1.483,
      "step": 67382
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6088603734970093,
      "learning_rate": 8.96882719406843e-05,
      "loss": 1.5793,
      "step": 67383
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6197371482849121,
      "learning_rate": 8.968081842530144e-05,
      "loss": 1.5347,
      "step": 67384
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6203487515449524,
      "learning_rate": 8.967336516521506e-05,
      "loss": 1.5596,
      "step": 67385
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6310594081878662,
      "learning_rate": 8.966591216043413e-05,
      "loss": 1.5906,
      "step": 67386
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.8628884553909302,
      "learning_rate": 8.96584594109679e-05,
      "loss": 1.5776,
      "step": 67387
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6199373006820679,
      "learning_rate": 8.965100691682523e-05,
      "loss": 1.453,
      "step": 67388
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6508413553237915,
      "learning_rate": 8.964355467801532e-05,
      "loss": 1.5601,
      "step": 67389
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6380521059036255,
      "learning_rate": 8.963610269454702e-05,
      "loss": 1.5023,
      "step": 67390
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6121923923492432,
      "learning_rate": 8.962865096642962e-05,
      "loss": 1.5098,
      "step": 67391
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6338571310043335,
      "learning_rate": 8.962119949367203e-05,
      "loss": 1.6049,
      "step": 67392
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.63217693567276,
      "learning_rate": 8.96137482762832e-05,
      "loss": 1.4789,
      "step": 67393
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6127896904945374,
      "learning_rate": 8.960629731427243e-05,
      "loss": 1.5479,
      "step": 67394
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6401312947273254,
      "learning_rate": 8.959884660764845e-05,
      "loss": 1.5709,
      "step": 67395
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6490013003349304,
      "learning_rate": 8.959139615642059e-05,
      "loss": 1.6551,
      "step": 67396
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6426610350608826,
      "learning_rate": 8.958394596059779e-05,
      "loss": 1.5693,
      "step": 67397
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6430100202560425,
      "learning_rate": 8.957649602018898e-05,
      "loss": 1.4787,
      "step": 67398
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6443608403205872,
      "learning_rate": 8.956904633520338e-05,
      "loss": 1.5144,
      "step": 67399
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6132052540779114,
      "learning_rate": 8.956159690564983e-05,
      "loss": 1.5901,
      "step": 67400
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6377719640731812,
      "learning_rate": 8.955414773153765e-05,
      "loss": 1.5514,
      "step": 67401
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6553869247436523,
      "learning_rate": 8.95466988128756e-05,
      "loss": 1.5699,
      "step": 67402
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6110701560974121,
      "learning_rate": 8.953925014967292e-05,
      "loss": 1.5563,
      "step": 67403
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.629768967628479,
      "learning_rate": 8.953180174193863e-05,
      "loss": 1.5473,
      "step": 67404
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5963077545166016,
      "learning_rate": 8.952435358968159e-05,
      "loss": 1.5256,
      "step": 67405
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6185134649276733,
      "learning_rate": 8.95169056929111e-05,
      "loss": 1.5296,
      "step": 67406
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6488345861434937,
      "learning_rate": 8.950945805163604e-05,
      "loss": 1.5249,
      "step": 67407
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6051895022392273,
      "learning_rate": 8.950201066586539e-05,
      "loss": 1.5884,
      "step": 67408
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6075542569160461,
      "learning_rate": 8.94945635356083e-05,
      "loss": 1.4957,
      "step": 67409
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6241649985313416,
      "learning_rate": 8.94871166608739e-05,
      "loss": 1.493,
      "step": 67410
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.632115364074707,
      "learning_rate": 8.94796700416711e-05,
      "loss": 1.5433,
      "step": 67411
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6365752220153809,
      "learning_rate": 8.947222367800885e-05,
      "loss": 1.5475,
      "step": 67412
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6403738260269165,
      "learning_rate": 8.946477756989643e-05,
      "loss": 1.5248,
      "step": 67413
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6322591304779053,
      "learning_rate": 8.945733171734274e-05,
      "loss": 1.4965,
      "step": 67414
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6170181632041931,
      "learning_rate": 8.944988612035676e-05,
      "loss": 1.5212,
      "step": 67415
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.626541793346405,
      "learning_rate": 8.944244077894755e-05,
      "loss": 1.581,
      "step": 67416
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6355019211769104,
      "learning_rate": 8.943499569312441e-05,
      "loss": 1.5149,
      "step": 67417
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5947589874267578,
      "learning_rate": 8.942755086289594e-05,
      "loss": 1.483,
      "step": 67418
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6449035406112671,
      "learning_rate": 8.942010628827142e-05,
      "loss": 1.5303,
      "step": 67419
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.641278862953186,
      "learning_rate": 8.941266196925996e-05,
      "loss": 1.5146,
      "step": 67420
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6207345724105835,
      "learning_rate": 8.940521790587049e-05,
      "loss": 1.4775,
      "step": 67421
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.620928168296814,
      "learning_rate": 8.939777409811196e-05,
      "loss": 1.5148,
      "step": 67422
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6305547952651978,
      "learning_rate": 8.939033054599351e-05,
      "loss": 1.4955,
      "step": 67423
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6290699243545532,
      "learning_rate": 8.938288724952433e-05,
      "loss": 1.4871,
      "step": 67424
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6157916784286499,
      "learning_rate": 8.937544420871315e-05,
      "loss": 1.5626,
      "step": 67425
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6352424025535583,
      "learning_rate": 8.936800142356912e-05,
      "loss": 1.5475,
      "step": 67426
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6267910599708557,
      "learning_rate": 8.936055889410141e-05,
      "loss": 1.585,
      "step": 67427
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6306923627853394,
      "learning_rate": 8.93531166203189e-05,
      "loss": 1.5099,
      "step": 67428
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6504480838775635,
      "learning_rate": 8.934567460223062e-05,
      "loss": 1.6022,
      "step": 67429
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6715988516807556,
      "learning_rate": 8.933823283984563e-05,
      "loss": 1.4864,
      "step": 67430
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.643652617931366,
      "learning_rate": 8.93307913331732e-05,
      "loss": 1.5234,
      "step": 67431
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.667887270450592,
      "learning_rate": 8.932335008222194e-05,
      "loss": 1.6037,
      "step": 67432
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6153139472007751,
      "learning_rate": 8.931590908700109e-05,
      "loss": 1.5796,
      "step": 67433
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6227908134460449,
      "learning_rate": 8.93084683475198e-05,
      "loss": 1.5283,
      "step": 67434
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6026009321212769,
      "learning_rate": 8.930102786378697e-05,
      "loss": 1.489,
      "step": 67435
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6343562006950378,
      "learning_rate": 8.929358763581155e-05,
      "loss": 1.5076,
      "step": 67436
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6478762030601501,
      "learning_rate": 8.928614766360274e-05,
      "loss": 1.5448,
      "step": 67437
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6180233359336853,
      "learning_rate": 8.927870794716952e-05,
      "loss": 1.4631,
      "step": 67438
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6212520003318787,
      "learning_rate": 8.927126848652084e-05,
      "loss": 1.5345,
      "step": 67439
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6214596629142761,
      "learning_rate": 8.926382928166575e-05,
      "loss": 1.5305,
      "step": 67440
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6205157041549683,
      "learning_rate": 8.925639033261343e-05,
      "loss": 1.6097,
      "step": 67441
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6075438857078552,
      "learning_rate": 8.924895163937278e-05,
      "loss": 1.4498,
      "step": 67442
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6455405950546265,
      "learning_rate": 8.924151320195276e-05,
      "loss": 1.5126,
      "step": 67443
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6311929821968079,
      "learning_rate": 8.923407502036261e-05,
      "loss": 1.5129,
      "step": 67444
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.625996470451355,
      "learning_rate": 8.922663709461123e-05,
      "loss": 1.552,
      "step": 67445
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6464908123016357,
      "learning_rate": 8.921919942470757e-05,
      "loss": 1.4966,
      "step": 67446
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6095139980316162,
      "learning_rate": 8.92117620106608e-05,
      "loss": 1.4618,
      "step": 67447
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.628714919090271,
      "learning_rate": 8.920432485247983e-05,
      "loss": 1.5109,
      "step": 67448
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6438459157943726,
      "learning_rate": 8.919688795017383e-05,
      "loss": 1.5229,
      "step": 67449
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6476099491119385,
      "learning_rate": 8.918945130375166e-05,
      "loss": 1.6371,
      "step": 67450
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6526768207550049,
      "learning_rate": 8.918201491322253e-05,
      "loss": 1.5016,
      "step": 67451
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6169391870498657,
      "learning_rate": 8.917457877859537e-05,
      "loss": 1.5609,
      "step": 67452
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6056720018386841,
      "learning_rate": 8.916714289987911e-05,
      "loss": 1.4976,
      "step": 67453
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6193767189979553,
      "learning_rate": 8.915970727708299e-05,
      "loss": 1.5631,
      "step": 67454
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6590602397918701,
      "learning_rate": 8.91522719102158e-05,
      "loss": 1.5879,
      "step": 67455
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6319597363471985,
      "learning_rate": 8.914483679928679e-05,
      "loss": 1.5247,
      "step": 67456
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6287267804145813,
      "learning_rate": 8.913740194430489e-05,
      "loss": 1.5838,
      "step": 67457
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.635452926158905,
      "learning_rate": 8.912996734527901e-05,
      "loss": 1.5326,
      "step": 67458
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6162768006324768,
      "learning_rate": 8.912253300221835e-05,
      "loss": 1.5361,
      "step": 67459
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.651946485042572,
      "learning_rate": 8.911509891513179e-05,
      "loss": 1.5567,
      "step": 67460
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6182272434234619,
      "learning_rate": 8.910766508402854e-05,
      "loss": 1.3608,
      "step": 67461
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6293808817863464,
      "learning_rate": 8.910023150891738e-05,
      "loss": 1.5222,
      "step": 67462
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6623368859291077,
      "learning_rate": 8.90927981898076e-05,
      "loss": 1.6273,
      "step": 67463
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6094107031822205,
      "learning_rate": 8.908536512670803e-05,
      "loss": 1.4426,
      "step": 67464
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6148977279663086,
      "learning_rate": 8.907793231962772e-05,
      "loss": 1.5321,
      "step": 67465
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6112838387489319,
      "learning_rate": 8.907049976857577e-05,
      "loss": 1.5494,
      "step": 67466
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6297390460968018,
      "learning_rate": 8.906306747356117e-05,
      "loss": 1.5792,
      "step": 67467
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6346412301063538,
      "learning_rate": 8.905563543459285e-05,
      "loss": 1.5052,
      "step": 67468
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6634956002235413,
      "learning_rate": 8.904820365167989e-05,
      "loss": 1.607,
      "step": 67469
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6251780390739441,
      "learning_rate": 8.904077212483141e-05,
      "loss": 1.5405,
      "step": 67470
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6312562227249146,
      "learning_rate": 8.903334085405638e-05,
      "loss": 1.5576,
      "step": 67471
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.628645658493042,
      "learning_rate": 8.902590983936366e-05,
      "loss": 1.4592,
      "step": 67472
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6263634562492371,
      "learning_rate": 8.901847908076252e-05,
      "loss": 1.4912,
      "step": 67473
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6078301072120667,
      "learning_rate": 8.901104857826186e-05,
      "loss": 1.5422,
      "step": 67474
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.631051242351532,
      "learning_rate": 8.900361833187061e-05,
      "loss": 1.5588,
      "step": 67475
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6210094094276428,
      "learning_rate": 8.899618834159784e-05,
      "loss": 1.5201,
      "step": 67476
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6292589902877808,
      "learning_rate": 8.898875860745273e-05,
      "loss": 1.5058,
      "step": 67477
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6167915463447571,
      "learning_rate": 8.898132912944419e-05,
      "loss": 1.5277,
      "step": 67478
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6354334950447083,
      "learning_rate": 8.897389990758109e-05,
      "loss": 1.5666,
      "step": 67479
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6561052799224854,
      "learning_rate": 8.896647094187273e-05,
      "loss": 1.4756,
      "step": 67480
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6149978637695312,
      "learning_rate": 8.895904223232792e-05,
      "loss": 1.6182,
      "step": 67481
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6191160082817078,
      "learning_rate": 8.895161377895569e-05,
      "loss": 1.585,
      "step": 67482
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6256203651428223,
      "learning_rate": 8.894418558176506e-05,
      "loss": 1.5214,
      "step": 67483
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.645163357257843,
      "learning_rate": 8.893675764076522e-05,
      "loss": 1.5223,
      "step": 67484
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6192770004272461,
      "learning_rate": 8.892932995596507e-05,
      "loss": 1.5304,
      "step": 67485
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6146512627601624,
      "learning_rate": 8.89219025273735e-05,
      "loss": 1.536,
      "step": 67486
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6326565146446228,
      "learning_rate": 8.891447535499972e-05,
      "loss": 1.5711,
      "step": 67487
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6331661939620972,
      "learning_rate": 8.890704843885267e-05,
      "loss": 1.5503,
      "step": 67488
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6166747212409973,
      "learning_rate": 8.889962177894129e-05,
      "loss": 1.5003,
      "step": 67489
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6605855226516724,
      "learning_rate": 8.889219537527464e-05,
      "loss": 1.557,
      "step": 67490
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6375269293785095,
      "learning_rate": 8.888476922786187e-05,
      "loss": 1.5265,
      "step": 67491
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6532191038131714,
      "learning_rate": 8.887734333671187e-05,
      "loss": 1.4987,
      "step": 67492
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6108598113059998,
      "learning_rate": 8.886991770183358e-05,
      "loss": 1.5293,
      "step": 67493
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6302995085716248,
      "learning_rate": 8.886249232323619e-05,
      "loss": 1.4351,
      "step": 67494
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6149761080741882,
      "learning_rate": 8.885506720092865e-05,
      "loss": 1.5463,
      "step": 67495
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6499343514442444,
      "learning_rate": 8.884764233491983e-05,
      "loss": 1.575,
      "step": 67496
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6264755129814148,
      "learning_rate": 8.884021772521886e-05,
      "loss": 1.5578,
      "step": 67497
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6501427888870239,
      "learning_rate": 8.883279337183484e-05,
      "loss": 1.5657,
      "step": 67498
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6301209926605225,
      "learning_rate": 8.882536927477672e-05,
      "loss": 1.5129,
      "step": 67499
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6207073926925659,
      "learning_rate": 8.881794543405337e-05,
      "loss": 1.5479,
      "step": 67500
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6247408390045166,
      "learning_rate": 8.881052184967401e-05,
      "loss": 1.5444,
      "step": 67501
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6396070122718811,
      "learning_rate": 8.88030985216476e-05,
      "loss": 1.5167,
      "step": 67502
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6189500689506531,
      "learning_rate": 8.879567544998298e-05,
      "loss": 1.4942,
      "step": 67503
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.634365975856781,
      "learning_rate": 8.878825263468939e-05,
      "loss": 1.6323,
      "step": 67504
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6256440877914429,
      "learning_rate": 8.878083007577563e-05,
      "loss": 1.4914,
      "step": 67505
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6154670119285583,
      "learning_rate": 8.877340777325093e-05,
      "loss": 1.5254,
      "step": 67506
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6120692491531372,
      "learning_rate": 8.87659857271241e-05,
      "loss": 1.5109,
      "step": 67507
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.62345290184021,
      "learning_rate": 8.875856393740434e-05,
      "loss": 1.5476,
      "step": 67508
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6226522326469421,
      "learning_rate": 8.875114240410053e-05,
      "loss": 1.5196,
      "step": 67509
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6146653294563293,
      "learning_rate": 8.874372112722163e-05,
      "loss": 1.5976,
      "step": 67510
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6159955859184265,
      "learning_rate": 8.873630010677684e-05,
      "loss": 1.4866,
      "step": 67511
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6305124163627625,
      "learning_rate": 8.872887934277493e-05,
      "loss": 1.5979,
      "step": 67512
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6280593872070312,
      "learning_rate": 8.872145883522514e-05,
      "loss": 1.5445,
      "step": 67513
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6393371224403381,
      "learning_rate": 8.871403858413637e-05,
      "loss": 1.5322,
      "step": 67514
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6260126233100891,
      "learning_rate": 8.870661858951753e-05,
      "loss": 1.5075,
      "step": 67515
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6095823049545288,
      "learning_rate": 8.86991988513778e-05,
      "loss": 1.4574,
      "step": 67516
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6113340258598328,
      "learning_rate": 8.869177936972605e-05,
      "loss": 1.5335,
      "step": 67517
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6518378257751465,
      "learning_rate": 8.868436014457141e-05,
      "loss": 1.5073,
      "step": 67518
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6377477645874023,
      "learning_rate": 8.867694117592272e-05,
      "loss": 1.5644,
      "step": 67519
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.61618572473526,
      "learning_rate": 8.86695224637892e-05,
      "loss": 1.486,
      "step": 67520
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.5997487306594849,
      "learning_rate": 8.866210400817974e-05,
      "loss": 1.5302,
      "step": 67521
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6383764147758484,
      "learning_rate": 8.865468580910325e-05,
      "loss": 1.5381,
      "step": 67522
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.622939944267273,
      "learning_rate": 8.864726786656893e-05,
      "loss": 1.6274,
      "step": 67523
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6186192035675049,
      "learning_rate": 8.863985018058568e-05,
      "loss": 1.5043,
      "step": 67524
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6054215431213379,
      "learning_rate": 8.863243275116241e-05,
      "loss": 1.55,
      "step": 67525
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.642458975315094,
      "learning_rate": 8.862501557830823e-05,
      "loss": 1.534,
      "step": 67526
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6509961485862732,
      "learning_rate": 8.861759866203221e-05,
      "loss": 1.5898,
      "step": 67527
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6143930554389954,
      "learning_rate": 8.861018200234332e-05,
      "loss": 1.5874,
      "step": 67528
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6198682188987732,
      "learning_rate": 8.860276559925041e-05,
      "loss": 1.5153,
      "step": 67529
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6283143162727356,
      "learning_rate": 8.859534945276265e-05,
      "loss": 1.4941,
      "step": 67530
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6119365692138672,
      "learning_rate": 8.858793356288903e-05,
      "loss": 1.5301,
      "step": 67531
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6325575709342957,
      "learning_rate": 8.858051792963841e-05,
      "loss": 1.5553,
      "step": 67532
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.64609694480896,
      "learning_rate": 8.857310255301989e-05,
      "loss": 1.6326,
      "step": 67533
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6434481143951416,
      "learning_rate": 8.856568743304265e-05,
      "loss": 1.5144,
      "step": 67534
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.636707603931427,
      "learning_rate": 8.855827256971532e-05,
      "loss": 1.5385,
      "step": 67535
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6498408913612366,
      "learning_rate": 8.855085796304711e-05,
      "loss": 1.573,
      "step": 67536
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.616543710231781,
      "learning_rate": 8.854344361304708e-05,
      "loss": 1.5405,
      "step": 67537
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6376168131828308,
      "learning_rate": 8.853602951972417e-05,
      "loss": 1.5,
      "step": 67538
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6293246150016785,
      "learning_rate": 8.852861568308727e-05,
      "loss": 1.538,
      "step": 67539
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6381751894950867,
      "learning_rate": 8.852120210314546e-05,
      "loss": 1.559,
      "step": 67540
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6304875612258911,
      "learning_rate": 8.851378877990795e-05,
      "loss": 1.5741,
      "step": 67541
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6723077893257141,
      "learning_rate": 8.850637571338332e-05,
      "loss": 1.5621,
      "step": 67542
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6231200695037842,
      "learning_rate": 8.849896290358082e-05,
      "loss": 1.5527,
      "step": 67543
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6062723398208618,
      "learning_rate": 8.849155035050947e-05,
      "loss": 1.5774,
      "step": 67544
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6279764175415039,
      "learning_rate": 8.848413805417825e-05,
      "loss": 1.5271,
      "step": 67545
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.609440803527832,
      "learning_rate": 8.847672601459603e-05,
      "loss": 1.569,
      "step": 67546
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6343247890472412,
      "learning_rate": 8.84693142317719e-05,
      "loss": 1.6197,
      "step": 67547
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6244001388549805,
      "learning_rate": 8.846190270571502e-05,
      "loss": 1.5118,
      "step": 67548
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6255077719688416,
      "learning_rate": 8.845449143643404e-05,
      "loss": 1.4731,
      "step": 67549
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6239582896232605,
      "learning_rate": 8.844708042393817e-05,
      "loss": 1.5426,
      "step": 67550
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6625344157218933,
      "learning_rate": 8.843966966823643e-05,
      "loss": 1.594,
      "step": 67551
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6547255516052246,
      "learning_rate": 8.843225916933775e-05,
      "loss": 1.5432,
      "step": 67552
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.624622106552124,
      "learning_rate": 8.842484892725107e-05,
      "loss": 1.5124,
      "step": 67553
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6238760352134705,
      "learning_rate": 8.841743894198552e-05,
      "loss": 1.5458,
      "step": 67554
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6233834028244019,
      "learning_rate": 8.841002921355007e-05,
      "loss": 1.5454,
      "step": 67555
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6118974089622498,
      "learning_rate": 8.840261974195351e-05,
      "loss": 1.5065,
      "step": 67556
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6121251583099365,
      "learning_rate": 8.839521052720501e-05,
      "loss": 1.5071,
      "step": 67557
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6258038878440857,
      "learning_rate": 8.838780156931366e-05,
      "loss": 1.5522,
      "step": 67558
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6377992630004883,
      "learning_rate": 8.838039286828835e-05,
      "loss": 1.532,
      "step": 67559
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6250840425491333,
      "learning_rate": 8.837298442413794e-05,
      "loss": 1.5754,
      "step": 67560
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6107614040374756,
      "learning_rate": 8.836557623687164e-05,
      "loss": 1.4948,
      "step": 67561
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6275107264518738,
      "learning_rate": 8.835816830649837e-05,
      "loss": 1.5215,
      "step": 67562
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6906770467758179,
      "learning_rate": 8.835076063302699e-05,
      "loss": 1.496,
      "step": 67563
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.68025803565979,
      "learning_rate": 8.834335321646669e-05,
      "loss": 1.6453,
      "step": 67564
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6536219120025635,
      "learning_rate": 8.83359460568263e-05,
      "loss": 1.5905,
      "step": 67565
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6265250444412231,
      "learning_rate": 8.832853915411496e-05,
      "loss": 1.4823,
      "step": 67566
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6043661832809448,
      "learning_rate": 8.83211325083415e-05,
      "loss": 1.5047,
      "step": 67567
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6097409129142761,
      "learning_rate": 8.83137261195151e-05,
      "loss": 1.5099,
      "step": 67568
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6283770203590393,
      "learning_rate": 8.830631998764461e-05,
      "loss": 1.5496,
      "step": 67569
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.615132212638855,
      "learning_rate": 8.829891411273898e-05,
      "loss": 1.4734,
      "step": 67570
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6357727646827698,
      "learning_rate": 8.829150849480736e-05,
      "loss": 1.5579,
      "step": 67571
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6333773732185364,
      "learning_rate": 8.828410313385861e-05,
      "loss": 1.6249,
      "step": 67572
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6097384691238403,
      "learning_rate": 8.827669802990182e-05,
      "loss": 1.5314,
      "step": 67573
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6020285487174988,
      "learning_rate": 8.826929318294592e-05,
      "loss": 1.5691,
      "step": 67574
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6384363174438477,
      "learning_rate": 8.826188859299979e-05,
      "loss": 1.4926,
      "step": 67575
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6370491981506348,
      "learning_rate": 8.825448426007266e-05,
      "loss": 1.4853,
      "step": 67576
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6115896105766296,
      "learning_rate": 8.824708018417328e-05,
      "loss": 1.5433,
      "step": 67577
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6093779802322388,
      "learning_rate": 8.823967636531083e-05,
      "loss": 1.5012,
      "step": 67578
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6291070580482483,
      "learning_rate": 8.823227280349411e-05,
      "loss": 1.5661,
      "step": 67579
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6374498605728149,
      "learning_rate": 8.822486949873235e-05,
      "loss": 1.471,
      "step": 67580
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6192989945411682,
      "learning_rate": 8.821746645103435e-05,
      "loss": 1.5339,
      "step": 67581
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6352997422218323,
      "learning_rate": 8.821006366040904e-05,
      "loss": 1.57,
      "step": 67582
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6186465620994568,
      "learning_rate": 8.820266112686564e-05,
      "loss": 1.5264,
      "step": 67583
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6150412559509277,
      "learning_rate": 8.819525885041298e-05,
      "loss": 1.5202,
      "step": 67584
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6197022199630737,
      "learning_rate": 8.818785683105996e-05,
      "loss": 1.5628,
      "step": 67585
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6531755924224854,
      "learning_rate": 8.81804550688157e-05,
      "loss": 1.5661,
      "step": 67586
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6317706108093262,
      "learning_rate": 8.817305356368925e-05,
      "loss": 1.5603,
      "step": 67587
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6126663088798523,
      "learning_rate": 8.816565231568947e-05,
      "loss": 1.5832,
      "step": 67588
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6347391605377197,
      "learning_rate": 8.815825132482531e-05,
      "loss": 1.5578,
      "step": 67589
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6209065318107605,
      "learning_rate": 8.815085059110589e-05,
      "loss": 1.5657,
      "step": 67590
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6309303641319275,
      "learning_rate": 8.814345011454014e-05,
      "loss": 1.5733,
      "step": 67591
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6091049313545227,
      "learning_rate": 8.813604989513694e-05,
      "loss": 1.4542,
      "step": 67592
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6121135950088501,
      "learning_rate": 8.812864993290535e-05,
      "loss": 1.46,
      "step": 67593
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6382787823677063,
      "learning_rate": 8.812125022785446e-05,
      "loss": 1.5735,
      "step": 67594
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6499037146568298,
      "learning_rate": 8.811385077999316e-05,
      "loss": 1.5422,
      "step": 67595
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6340923309326172,
      "learning_rate": 8.810645158933032e-05,
      "loss": 1.5003,
      "step": 67596
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.7360892295837402,
      "learning_rate": 8.80990526558751e-05,
      "loss": 1.5358,
      "step": 67597
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6351267099380493,
      "learning_rate": 8.809165397963643e-05,
      "loss": 1.535,
      "step": 67598
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6356940865516663,
      "learning_rate": 8.808425556062318e-05,
      "loss": 1.4337,
      "step": 67599
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6250602006912231,
      "learning_rate": 8.807685739884442e-05,
      "loss": 1.567,
      "step": 67600
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6225793361663818,
      "learning_rate": 8.806945949430922e-05,
      "loss": 1.5247,
      "step": 67601
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6196585297584534,
      "learning_rate": 8.806206184702647e-05,
      "loss": 1.548,
      "step": 67602
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6046625971794128,
      "learning_rate": 8.805466445700504e-05,
      "loss": 1.4352,
      "step": 67603
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.637107789516449,
      "learning_rate": 8.80472673242541e-05,
      "loss": 1.5088,
      "step": 67604
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6356856226921082,
      "learning_rate": 8.803987044878261e-05,
      "loss": 1.4856,
      "step": 67605
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6335759162902832,
      "learning_rate": 8.803247383059932e-05,
      "loss": 1.5386,
      "step": 67606
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6482799053192139,
      "learning_rate": 8.802507746971344e-05,
      "loss": 1.6533,
      "step": 67607
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6313175559043884,
      "learning_rate": 8.801768136613392e-05,
      "loss": 1.5787,
      "step": 67608
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6360611319541931,
      "learning_rate": 8.801028551986974e-05,
      "loss": 1.5597,
      "step": 67609
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6139915585517883,
      "learning_rate": 8.800288993092972e-05,
      "loss": 1.5084,
      "step": 67610
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6190612316131592,
      "learning_rate": 8.799549459932306e-05,
      "loss": 1.541,
      "step": 67611
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.624518632888794,
      "learning_rate": 8.798809952505864e-05,
      "loss": 1.5646,
      "step": 67612
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6108052730560303,
      "learning_rate": 8.798070470814533e-05,
      "loss": 1.5179,
      "step": 67613
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6392841935157776,
      "learning_rate": 8.797331014859219e-05,
      "loss": 1.5552,
      "step": 67614
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6602881550788879,
      "learning_rate": 8.79659158464083e-05,
      "loss": 1.598,
      "step": 67615
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.607816755771637,
      "learning_rate": 8.795852180160258e-05,
      "loss": 1.6035,
      "step": 67616
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6543461680412292,
      "learning_rate": 8.795112801418386e-05,
      "loss": 1.5722,
      "step": 67617
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6585789322853088,
      "learning_rate": 8.794373448416131e-05,
      "loss": 1.5538,
      "step": 67618
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6233496069908142,
      "learning_rate": 8.793634121154386e-05,
      "loss": 1.5091,
      "step": 67619
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6481924653053284,
      "learning_rate": 8.79289481963403e-05,
      "loss": 1.5384,
      "step": 67620
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6320751309394836,
      "learning_rate": 8.792155543855989e-05,
      "loss": 1.5275,
      "step": 67621
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6516261696815491,
      "learning_rate": 8.791416293821136e-05,
      "loss": 1.53,
      "step": 67622
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6506734490394592,
      "learning_rate": 8.790677069530385e-05,
      "loss": 1.5094,
      "step": 67623
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6112818121910095,
      "learning_rate": 8.789937870984618e-05,
      "loss": 1.522,
      "step": 67624
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6278623342514038,
      "learning_rate": 8.789198698184753e-05,
      "loss": 1.5824,
      "step": 67625
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6094897389411926,
      "learning_rate": 8.788459551131676e-05,
      "loss": 1.5273,
      "step": 67626
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6225593686103821,
      "learning_rate": 8.787720429826273e-05,
      "loss": 1.5027,
      "step": 67627
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6141689419746399,
      "learning_rate": 8.78698133426946e-05,
      "loss": 1.5763,
      "step": 67628
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6150062680244446,
      "learning_rate": 8.786242264462118e-05,
      "loss": 1.4495,
      "step": 67629
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6502504348754883,
      "learning_rate": 8.78550322040516e-05,
      "loss": 1.5214,
      "step": 67630
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6190213561058044,
      "learning_rate": 8.784764202099479e-05,
      "loss": 1.5618,
      "step": 67631
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6194003224372864,
      "learning_rate": 8.784025209545955e-05,
      "loss": 1.5272,
      "step": 67632
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6648313403129578,
      "learning_rate": 8.78328624274551e-05,
      "loss": 1.5106,
      "step": 67633
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6269969940185547,
      "learning_rate": 8.78254730169902e-05,
      "loss": 1.526,
      "step": 67634
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6144443154335022,
      "learning_rate": 8.781808386407399e-05,
      "loss": 1.4379,
      "step": 67635
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6730307340621948,
      "learning_rate": 8.78106949687153e-05,
      "loss": 1.5178,
      "step": 67636
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.646430253982544,
      "learning_rate": 8.780330633092323e-05,
      "loss": 1.553,
      "step": 67637
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6397223472595215,
      "learning_rate": 8.77959179507067e-05,
      "loss": 1.5648,
      "step": 67638
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6211191415786743,
      "learning_rate": 8.778852982807451e-05,
      "loss": 1.5467,
      "step": 67639
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.626716136932373,
      "learning_rate": 8.778114196303592e-05,
      "loss": 1.4664,
      "step": 67640
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.631463348865509,
      "learning_rate": 8.777375435559976e-05,
      "loss": 1.563,
      "step": 67641
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6312359571456909,
      "learning_rate": 8.776636700577489e-05,
      "loss": 1.5661,
      "step": 67642
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.621288537979126,
      "learning_rate": 8.775897991357035e-05,
      "loss": 1.5053,
      "step": 67643
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6320933699607849,
      "learning_rate": 8.775159307899528e-05,
      "loss": 1.5538,
      "step": 67644
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6356080174446106,
      "learning_rate": 8.774420650205847e-05,
      "loss": 1.5671,
      "step": 67645
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6135965585708618,
      "learning_rate": 8.773682018276883e-05,
      "loss": 1.5072,
      "step": 67646
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6407783627510071,
      "learning_rate": 8.772943412113552e-05,
      "loss": 1.5026,
      "step": 67647
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.624470591545105,
      "learning_rate": 8.772204831716738e-05,
      "loss": 1.5005,
      "step": 67648
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6117645502090454,
      "learning_rate": 8.771466277087333e-05,
      "loss": 1.4765,
      "step": 67649
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6163607239723206,
      "learning_rate": 8.770727748226237e-05,
      "loss": 1.4181,
      "step": 67650
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6057166457176208,
      "learning_rate": 8.769989245134372e-05,
      "loss": 1.6084,
      "step": 67651
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6008265018463135,
      "learning_rate": 8.769250767812588e-05,
      "loss": 1.5316,
      "step": 67652
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6259126663208008,
      "learning_rate": 8.76851231626181e-05,
      "loss": 1.57,
      "step": 67653
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6440407633781433,
      "learning_rate": 8.767773890482937e-05,
      "loss": 1.5461,
      "step": 67654
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6609325408935547,
      "learning_rate": 8.767035490476857e-05,
      "loss": 1.582,
      "step": 67655
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6255485415458679,
      "learning_rate": 8.76629711624446e-05,
      "loss": 1.5279,
      "step": 67656
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6211252212524414,
      "learning_rate": 8.765558767786651e-05,
      "loss": 1.5551,
      "step": 67657
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6244750022888184,
      "learning_rate": 8.764820445104341e-05,
      "loss": 1.6035,
      "step": 67658
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6275498867034912,
      "learning_rate": 8.76408214819839e-05,
      "loss": 1.5808,
      "step": 67659
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.628275990486145,
      "learning_rate": 8.763343877069716e-05,
      "loss": 1.5238,
      "step": 67660
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6142719984054565,
      "learning_rate": 8.762605631719225e-05,
      "loss": 1.5807,
      "step": 67661
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6037899851799011,
      "learning_rate": 8.7618674121478e-05,
      "loss": 1.5407,
      "step": 67662
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6174191236495972,
      "learning_rate": 8.761129218356329e-05,
      "loss": 1.4894,
      "step": 67663
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6209452748298645,
      "learning_rate": 8.760391050345718e-05,
      "loss": 1.5518,
      "step": 67664
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6322726011276245,
      "learning_rate": 8.759652908116882e-05,
      "loss": 1.5716,
      "step": 67665
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.626086413860321,
      "learning_rate": 8.758914791670679e-05,
      "loss": 1.517,
      "step": 67666
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6252952218055725,
      "learning_rate": 8.758176701008019e-05,
      "loss": 1.5084,
      "step": 67667
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.601740300655365,
      "learning_rate": 8.757438636129819e-05,
      "loss": 1.619,
      "step": 67668
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6194272041320801,
      "learning_rate": 8.756700597036955e-05,
      "loss": 1.5473,
      "step": 67669
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.618109405040741,
      "learning_rate": 8.755962583730318e-05,
      "loss": 1.5773,
      "step": 67670
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6300050616264343,
      "learning_rate": 8.75522459621082e-05,
      "loss": 1.548,
      "step": 67671
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6657190918922424,
      "learning_rate": 8.754486634479351e-05,
      "loss": 1.4918,
      "step": 67672
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6198432445526123,
      "learning_rate": 8.753748698536795e-05,
      "loss": 1.531,
      "step": 67673
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.650777280330658,
      "learning_rate": 8.753010788384057e-05,
      "loss": 1.513,
      "step": 67674
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6164700984954834,
      "learning_rate": 8.752272904022045e-05,
      "loss": 1.5945,
      "step": 67675
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6170303821563721,
      "learning_rate": 8.751535045451639e-05,
      "loss": 1.5416,
      "step": 67676
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6184569597244263,
      "learning_rate": 8.750797212673733e-05,
      "loss": 1.5993,
      "step": 67677
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.611961841583252,
      "learning_rate": 8.750059405689235e-05,
      "loss": 1.5746,
      "step": 67678
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6294443607330322,
      "learning_rate": 8.749321624499035e-05,
      "loss": 1.6464,
      "step": 67679
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6210640668869019,
      "learning_rate": 8.748583869104017e-05,
      "loss": 1.5191,
      "step": 67680
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6204106211662292,
      "learning_rate": 8.747846139505097e-05,
      "loss": 1.5047,
      "step": 67681
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6340281963348389,
      "learning_rate": 8.747108435703152e-05,
      "loss": 1.5606,
      "step": 67682
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.641480028629303,
      "learning_rate": 8.746370757699094e-05,
      "loss": 1.605,
      "step": 67683
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6372641921043396,
      "learning_rate": 8.745633105493802e-05,
      "loss": 1.5619,
      "step": 67684
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.644544243812561,
      "learning_rate": 8.74489547908819e-05,
      "loss": 1.6159,
      "step": 67685
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6266831755638123,
      "learning_rate": 8.744157878483143e-05,
      "loss": 1.581,
      "step": 67686
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6093930006027222,
      "learning_rate": 8.743420303679543e-05,
      "loss": 1.5408,
      "step": 67687
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6428440809249878,
      "learning_rate": 8.742682754678313e-05,
      "loss": 1.5867,
      "step": 67688
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6177676916122437,
      "learning_rate": 8.741945231480319e-05,
      "loss": 1.5785,
      "step": 67689
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6260858774185181,
      "learning_rate": 8.741207734086486e-05,
      "loss": 1.5085,
      "step": 67690
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6341127157211304,
      "learning_rate": 8.740470262497692e-05,
      "loss": 1.6403,
      "step": 67691
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6148931980133057,
      "learning_rate": 8.739732816714826e-05,
      "loss": 1.5748,
      "step": 67692
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6102928519248962,
      "learning_rate": 8.738995396738801e-05,
      "loss": 1.49,
      "step": 67693
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.618966817855835,
      "learning_rate": 8.738258002570494e-05,
      "loss": 1.5131,
      "step": 67694
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6001173257827759,
      "learning_rate": 8.737520634210819e-05,
      "loss": 1.5012,
      "step": 67695
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6241198778152466,
      "learning_rate": 8.73678329166065e-05,
      "loss": 1.5035,
      "step": 67696
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6537842750549316,
      "learning_rate": 8.736045974920903e-05,
      "loss": 1.5785,
      "step": 67697
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.5982683897018433,
      "learning_rate": 8.735308683992463e-05,
      "loss": 1.5647,
      "step": 67698
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6188593506813049,
      "learning_rate": 8.734571418876216e-05,
      "loss": 1.5463,
      "step": 67699
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6257712244987488,
      "learning_rate": 8.733834179573077e-05,
      "loss": 1.5452,
      "step": 67700
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6030696630477905,
      "learning_rate": 8.733096966083926e-05,
      "loss": 1.4945,
      "step": 67701
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6127686500549316,
      "learning_rate": 8.732359778409655e-05,
      "loss": 1.5813,
      "step": 67702
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6215168237686157,
      "learning_rate": 8.731622616551165e-05,
      "loss": 1.5548,
      "step": 67703
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6479823589324951,
      "learning_rate": 8.730885480509364e-05,
      "loss": 1.5729,
      "step": 67704
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6177428364753723,
      "learning_rate": 8.730148370285129e-05,
      "loss": 1.5728,
      "step": 67705
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6164762377738953,
      "learning_rate": 8.729411285879354e-05,
      "loss": 1.5454,
      "step": 67706
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6226388812065125,
      "learning_rate": 8.728674227292947e-05,
      "loss": 1.5568,
      "step": 67707
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6187557578086853,
      "learning_rate": 8.727937194526795e-05,
      "loss": 1.5129,
      "step": 67708
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6172078251838684,
      "learning_rate": 8.727200187581785e-05,
      "loss": 1.499,
      "step": 67709
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6238012313842773,
      "learning_rate": 8.72646320645882e-05,
      "loss": 1.5221,
      "step": 67710
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.5964186787605286,
      "learning_rate": 8.725726251158802e-05,
      "loss": 1.4839,
      "step": 67711
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.611549973487854,
      "learning_rate": 8.724989321682618e-05,
      "loss": 1.4832,
      "step": 67712
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6153163909912109,
      "learning_rate": 8.724252418031154e-05,
      "loss": 1.4941,
      "step": 67713
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6289799809455872,
      "learning_rate": 8.72351554020532e-05,
      "loss": 1.5512,
      "step": 67714
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6348878741264343,
      "learning_rate": 8.722778688206004e-05,
      "loss": 1.6153,
      "step": 67715
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6177734136581421,
      "learning_rate": 8.72204186203409e-05,
      "loss": 1.4948,
      "step": 67716
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6577362418174744,
      "learning_rate": 8.721305061690484e-05,
      "loss": 1.5376,
      "step": 67717
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6064667701721191,
      "learning_rate": 8.720568287176089e-05,
      "loss": 1.5449,
      "step": 67718
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.610217809677124,
      "learning_rate": 8.719831538491785e-05,
      "loss": 1.5117,
      "step": 67719
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6119220852851868,
      "learning_rate": 8.719094815638462e-05,
      "loss": 1.5163,
      "step": 67720
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6426771879196167,
      "learning_rate": 8.71835811861703e-05,
      "loss": 1.5743,
      "step": 67721
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.615088701248169,
      "learning_rate": 8.717621447428379e-05,
      "loss": 1.4629,
      "step": 67722
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6111963987350464,
      "learning_rate": 8.716884802073388e-05,
      "loss": 1.5183,
      "step": 67723
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6158877611160278,
      "learning_rate": 8.716148182552963e-05,
      "loss": 1.4657,
      "step": 67724
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6216723322868347,
      "learning_rate": 8.715411588868007e-05,
      "loss": 1.5314,
      "step": 67725
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6552067995071411,
      "learning_rate": 8.714675021019407e-05,
      "loss": 1.5048,
      "step": 67726
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6284646391868591,
      "learning_rate": 8.713938479008045e-05,
      "loss": 1.4894,
      "step": 67727
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6534184813499451,
      "learning_rate": 8.713201962834835e-05,
      "loss": 1.564,
      "step": 67728
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6049031019210815,
      "learning_rate": 8.712465472500659e-05,
      "loss": 1.4916,
      "step": 67729
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6262850165367126,
      "learning_rate": 8.711729008006407e-05,
      "loss": 1.5754,
      "step": 67730
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.618370532989502,
      "learning_rate": 8.710992569352979e-05,
      "loss": 1.5993,
      "step": 67731
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6101263165473938,
      "learning_rate": 8.710256156541278e-05,
      "loss": 1.5007,
      "step": 67732
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6367606520652771,
      "learning_rate": 8.709519769572189e-05,
      "loss": 1.536,
      "step": 67733
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6725401282310486,
      "learning_rate": 8.708783408446597e-05,
      "loss": 1.5816,
      "step": 67734
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.618327796459198,
      "learning_rate": 8.708047073165412e-05,
      "loss": 1.5053,
      "step": 67735
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6164219379425049,
      "learning_rate": 8.707310763729522e-05,
      "loss": 1.5557,
      "step": 67736
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6271397471427917,
      "learning_rate": 8.706574480139812e-05,
      "loss": 1.5165,
      "step": 67737
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6168183088302612,
      "learning_rate": 8.705838222397192e-05,
      "loss": 1.5387,
      "step": 67738
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6312044858932495,
      "learning_rate": 8.705101990502536e-05,
      "loss": 1.6294,
      "step": 67739
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6421452164649963,
      "learning_rate": 8.704365784456757e-05,
      "loss": 1.5277,
      "step": 67740
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.610039234161377,
      "learning_rate": 8.703629604260734e-05,
      "loss": 1.5863,
      "step": 67741
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6180432438850403,
      "learning_rate": 8.702893449915374e-05,
      "loss": 1.5539,
      "step": 67742
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.625190019607544,
      "learning_rate": 8.702157321421563e-05,
      "loss": 1.5843,
      "step": 67743
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6113871932029724,
      "learning_rate": 8.701421218780185e-05,
      "loss": 1.5319,
      "step": 67744
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6230632662773132,
      "learning_rate": 8.700685141992157e-05,
      "loss": 1.4723,
      "step": 67745
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6171293258666992,
      "learning_rate": 8.699949091058345e-05,
      "loss": 1.5574,
      "step": 67746
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6376693248748779,
      "learning_rate": 8.69921306597967e-05,
      "loss": 1.497,
      "step": 67747
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6484153270721436,
      "learning_rate": 8.698477066757009e-05,
      "loss": 1.5537,
      "step": 67748
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6439635753631592,
      "learning_rate": 8.697741093391249e-05,
      "loss": 1.5243,
      "step": 67749
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6725084185600281,
      "learning_rate": 8.6970051458833e-05,
      "loss": 1.5301,
      "step": 67750
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6034448742866516,
      "learning_rate": 8.696269224234041e-05,
      "loss": 1.4986,
      "step": 67751
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.596540629863739,
      "learning_rate": 8.695533328444382e-05,
      "loss": 1.5481,
      "step": 67752
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6395931243896484,
      "learning_rate": 8.694797458515197e-05,
      "loss": 1.5398,
      "step": 67753
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6141595840454102,
      "learning_rate": 8.694061614447395e-05,
      "loss": 1.5371,
      "step": 67754
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6201553344726562,
      "learning_rate": 8.693325796241865e-05,
      "loss": 1.5116,
      "step": 67755
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6010957360267639,
      "learning_rate": 8.692590003899491e-05,
      "loss": 1.5328,
      "step": 67756
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.631844162940979,
      "learning_rate": 8.691854237421181e-05,
      "loss": 1.523,
      "step": 67757
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6832925081253052,
      "learning_rate": 8.691118496807818e-05,
      "loss": 1.5283,
      "step": 67758
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6267223358154297,
      "learning_rate": 8.69038278206029e-05,
      "loss": 1.49,
      "step": 67759
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6151483654975891,
      "learning_rate": 8.689647093179499e-05,
      "loss": 1.5351,
      "step": 67760
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6220036745071411,
      "learning_rate": 8.688911430166345e-05,
      "loss": 1.5497,
      "step": 67761
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.5976101160049438,
      "learning_rate": 8.68817579302171e-05,
      "loss": 1.557,
      "step": 67762
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6295643448829651,
      "learning_rate": 8.687440181746481e-05,
      "loss": 1.5408,
      "step": 67763
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6542962193489075,
      "learning_rate": 8.686704596341571e-05,
      "loss": 1.513,
      "step": 67764
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6373413801193237,
      "learning_rate": 8.685969036807861e-05,
      "loss": 1.5247,
      "step": 67765
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6118406653404236,
      "learning_rate": 8.685233503146235e-05,
      "loss": 1.4532,
      "step": 67766
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6509352326393127,
      "learning_rate": 8.68449799535759e-05,
      "loss": 1.5214,
      "step": 67767
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6250609159469604,
      "learning_rate": 8.683762513442846e-05,
      "loss": 1.5131,
      "step": 67768
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6190466284751892,
      "learning_rate": 8.683027057402858e-05,
      "loss": 1.4835,
      "step": 67769
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.60189288854599,
      "learning_rate": 8.68229162723853e-05,
      "loss": 1.4948,
      "step": 67770
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6468675136566162,
      "learning_rate": 8.681556222950768e-05,
      "loss": 1.567,
      "step": 67771
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6410989761352539,
      "learning_rate": 8.680820844540459e-05,
      "loss": 1.3897,
      "step": 67772
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6350550055503845,
      "learning_rate": 8.680085492008478e-05,
      "loss": 1.507,
      "step": 67773
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6284128427505493,
      "learning_rate": 8.679350165355738e-05,
      "loss": 1.532,
      "step": 67774
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.64453125,
      "learning_rate": 8.678614864583138e-05,
      "loss": 1.603,
      "step": 67775
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6369407176971436,
      "learning_rate": 8.677879589691542e-05,
      "loss": 1.4855,
      "step": 67776
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.6499519348144531,
      "learning_rate": 8.67714434068186e-05,
      "loss": 1.5001,
      "step": 67777
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.640728771686554,
      "learning_rate": 8.67640911755499e-05,
      "loss": 1.4726,
      "step": 67778
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6183829307556152,
      "learning_rate": 8.675673920311818e-05,
      "loss": 1.4689,
      "step": 67779
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6445111036300659,
      "learning_rate": 8.674938748953229e-05,
      "loss": 1.5431,
      "step": 67780
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6682831645011902,
      "learning_rate": 8.674203603480119e-05,
      "loss": 1.4723,
      "step": 67781
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6423878073692322,
      "learning_rate": 8.673468483893406e-05,
      "loss": 1.5345,
      "step": 67782
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6216965913772583,
      "learning_rate": 8.672733390193938e-05,
      "loss": 1.5549,
      "step": 67783
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6134117841720581,
      "learning_rate": 8.671998322382628e-05,
      "loss": 1.5566,
      "step": 67784
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6364971399307251,
      "learning_rate": 8.671263280460384e-05,
      "loss": 1.4983,
      "step": 67785
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6596068143844604,
      "learning_rate": 8.670528264428079e-05,
      "loss": 1.5545,
      "step": 67786
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.620036780834198,
      "learning_rate": 8.669793274286603e-05,
      "loss": 1.4183,
      "step": 67787
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6200868487358093,
      "learning_rate": 8.669058310036863e-05,
      "loss": 1.5843,
      "step": 67788
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6356002688407898,
      "learning_rate": 8.668323371679744e-05,
      "loss": 1.5717,
      "step": 67789
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6397396922111511,
      "learning_rate": 8.667588459216129e-05,
      "loss": 1.4697,
      "step": 67790
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6408880352973938,
      "learning_rate": 8.666853572646919e-05,
      "loss": 1.4736,
      "step": 67791
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6256688833236694,
      "learning_rate": 8.666118711973009e-05,
      "loss": 1.5474,
      "step": 67792
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6069742441177368,
      "learning_rate": 8.665383877195292e-05,
      "loss": 1.4907,
      "step": 67793
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6254168748855591,
      "learning_rate": 8.664649068314647e-05,
      "loss": 1.5064,
      "step": 67794
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6254319548606873,
      "learning_rate": 8.663914285331984e-05,
      "loss": 1.5039,
      "step": 67795
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6115021109580994,
      "learning_rate": 8.663179528248181e-05,
      "loss": 1.5393,
      "step": 67796
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6243039965629578,
      "learning_rate": 8.662444797064128e-05,
      "loss": 1.5471,
      "step": 67797
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.616096556186676,
      "learning_rate": 8.661710091780734e-05,
      "loss": 1.5809,
      "step": 67798
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6290417909622192,
      "learning_rate": 8.660975412398869e-05,
      "loss": 1.4925,
      "step": 67799
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6173970103263855,
      "learning_rate": 8.660240758919446e-05,
      "loss": 1.5403,
      "step": 67800
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6214119791984558,
      "learning_rate": 8.659506131343334e-05,
      "loss": 1.493,
      "step": 67801
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6279768943786621,
      "learning_rate": 8.65877152967145e-05,
      "loss": 1.5302,
      "step": 67802
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.598713219165802,
      "learning_rate": 8.658036953904672e-05,
      "loss": 1.5667,
      "step": 67803
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6371899247169495,
      "learning_rate": 8.657302404043881e-05,
      "loss": 1.5483,
      "step": 67804
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6267313361167908,
      "learning_rate": 8.656567880089991e-05,
      "loss": 1.4898,
      "step": 67805
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6314020156860352,
      "learning_rate": 8.655833382043873e-05,
      "loss": 1.5403,
      "step": 67806
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6080248951911926,
      "learning_rate": 8.655098909906437e-05,
      "loss": 1.4958,
      "step": 67807
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6452217698097229,
      "learning_rate": 8.65436446367857e-05,
      "loss": 1.5347,
      "step": 67808
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6295524835586548,
      "learning_rate": 8.653630043361145e-05,
      "loss": 1.4905,
      "step": 67809
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6260396838188171,
      "learning_rate": 8.652895648955081e-05,
      "loss": 1.5681,
      "step": 67810
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6322041153907776,
      "learning_rate": 8.652161280461245e-05,
      "loss": 1.5548,
      "step": 67811
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6434834599494934,
      "learning_rate": 8.651426937880548e-05,
      "loss": 1.5433,
      "step": 67812
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6304276585578918,
      "learning_rate": 8.650692621213864e-05,
      "loss": 1.5567,
      "step": 67813
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6413143873214722,
      "learning_rate": 8.649958330462106e-05,
      "loss": 1.5516,
      "step": 67814
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6144500374794006,
      "learning_rate": 8.649224065626149e-05,
      "loss": 1.5076,
      "step": 67815
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6253839731216431,
      "learning_rate": 8.648489826706881e-05,
      "loss": 1.4816,
      "step": 67816
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.611112654209137,
      "learning_rate": 8.647755613705212e-05,
      "loss": 1.578,
      "step": 67817
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6070998907089233,
      "learning_rate": 8.647021426622017e-05,
      "loss": 1.4736,
      "step": 67818
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6563764810562134,
      "learning_rate": 8.646287265458184e-05,
      "loss": 1.5544,
      "step": 67819
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6066288948059082,
      "learning_rate": 8.645553130214614e-05,
      "loss": 1.5242,
      "step": 67820
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6321487426757812,
      "learning_rate": 8.644819020892203e-05,
      "loss": 1.4929,
      "step": 67821
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6143730282783508,
      "learning_rate": 8.644084937491836e-05,
      "loss": 1.5442,
      "step": 67822
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6055944561958313,
      "learning_rate": 8.643350880014393e-05,
      "loss": 1.5061,
      "step": 67823
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6443584561347961,
      "learning_rate": 8.642616848460787e-05,
      "loss": 1.6019,
      "step": 67824
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6169803142547607,
      "learning_rate": 8.641882842831893e-05,
      "loss": 1.4253,
      "step": 67825
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6194384694099426,
      "learning_rate": 8.641148863128601e-05,
      "loss": 1.5485,
      "step": 67826
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.5925847291946411,
      "learning_rate": 8.640414909351806e-05,
      "loss": 1.5361,
      "step": 67827
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6168176531791687,
      "learning_rate": 8.639680981502408e-05,
      "loss": 1.5284,
      "step": 67828
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.5950015783309937,
      "learning_rate": 8.638947079581293e-05,
      "loss": 1.4832,
      "step": 67829
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6244376301765442,
      "learning_rate": 8.638213203589337e-05,
      "loss": 1.4438,
      "step": 67830
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6178287267684937,
      "learning_rate": 8.637479353527453e-05,
      "loss": 1.5212,
      "step": 67831
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6431471109390259,
      "learning_rate": 8.636745529396522e-05,
      "loss": 1.4851,
      "step": 67832
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6310439705848694,
      "learning_rate": 8.636011731197424e-05,
      "loss": 1.5414,
      "step": 67833
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6844842433929443,
      "learning_rate": 8.635277958931059e-05,
      "loss": 1.5536,
      "step": 67834
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6271921992301941,
      "learning_rate": 8.63454421259833e-05,
      "loss": 1.5968,
      "step": 67835
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6121194362640381,
      "learning_rate": 8.633810492200115e-05,
      "loss": 1.5099,
      "step": 67836
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6064231991767883,
      "learning_rate": 8.633076797737297e-05,
      "loss": 1.4668,
      "step": 67837
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6382313370704651,
      "learning_rate": 8.632343129210783e-05,
      "loss": 1.5541,
      "step": 67838
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6577157378196716,
      "learning_rate": 8.631609486621457e-05,
      "loss": 1.5601,
      "step": 67839
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.604945182800293,
      "learning_rate": 8.6308758699702e-05,
      "loss": 1.4699,
      "step": 67840
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6379249691963196,
      "learning_rate": 8.630142279257913e-05,
      "loss": 1.5807,
      "step": 67841
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6359423398971558,
      "learning_rate": 8.62940871448549e-05,
      "loss": 1.5773,
      "step": 67842
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6087987422943115,
      "learning_rate": 8.628675175653821e-05,
      "loss": 1.4878,
      "step": 67843
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.7950351238250732,
      "learning_rate": 8.627941662763776e-05,
      "loss": 1.5836,
      "step": 67844
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6088986396789551,
      "learning_rate": 8.627208175816274e-05,
      "loss": 1.4758,
      "step": 67845
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6535414457321167,
      "learning_rate": 8.626474714812192e-05,
      "loss": 1.5879,
      "step": 67846
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6575358510017395,
      "learning_rate": 8.625741279752409e-05,
      "loss": 1.4848,
      "step": 67847
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6717926859855652,
      "learning_rate": 8.62500787063783e-05,
      "loss": 1.5453,
      "step": 67848
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6383562684059143,
      "learning_rate": 8.624274487469349e-05,
      "loss": 1.5288,
      "step": 67849
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6196804642677307,
      "learning_rate": 8.62354113024785e-05,
      "loss": 1.491,
      "step": 67850
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6242110729217529,
      "learning_rate": 8.622807798974211e-05,
      "loss": 1.5132,
      "step": 67851
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6277847290039062,
      "learning_rate": 8.622074493649344e-05,
      "loss": 1.5221,
      "step": 67852
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6336291432380676,
      "learning_rate": 8.621341214274132e-05,
      "loss": 1.5879,
      "step": 67853
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6428285241127014,
      "learning_rate": 8.62060796084945e-05,
      "loss": 1.4504,
      "step": 67854
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6506546139717102,
      "learning_rate": 8.619874733376208e-05,
      "loss": 1.5129,
      "step": 67855
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.7622178196907043,
      "learning_rate": 8.619141531855278e-05,
      "loss": 1.4965,
      "step": 67856
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6350283622741699,
      "learning_rate": 8.618408356287571e-05,
      "loss": 1.5732,
      "step": 67857
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6561258435249329,
      "learning_rate": 8.617675206673958e-05,
      "loss": 1.5046,
      "step": 67858
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6632266640663147,
      "learning_rate": 8.616942083015345e-05,
      "loss": 1.4605,
      "step": 67859
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6198790669441223,
      "learning_rate": 8.616208985312611e-05,
      "loss": 1.554,
      "step": 67860
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.621316134929657,
      "learning_rate": 8.615475913566641e-05,
      "loss": 1.5003,
      "step": 67861
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6696160435676575,
      "learning_rate": 8.614742867778342e-05,
      "loss": 1.5289,
      "step": 67862
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6391112208366394,
      "learning_rate": 8.614009847948584e-05,
      "loss": 1.5194,
      "step": 67863
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6109892725944519,
      "learning_rate": 8.613276854078275e-05,
      "loss": 1.5128,
      "step": 67864
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6637192964553833,
      "learning_rate": 8.612543886168303e-05,
      "loss": 1.4354,
      "step": 67865
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6178698539733887,
      "learning_rate": 8.611810944219536e-05,
      "loss": 1.4694,
      "step": 67866
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6082918643951416,
      "learning_rate": 8.611078028232892e-05,
      "loss": 1.4881,
      "step": 67867
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.61774080991745,
      "learning_rate": 8.610345138209236e-05,
      "loss": 1.5423,
      "step": 67868
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6272685527801514,
      "learning_rate": 8.609612274149478e-05,
      "loss": 1.5227,
      "step": 67869
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6089743971824646,
      "learning_rate": 8.60887943605449e-05,
      "loss": 1.476,
      "step": 67870
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6472079753875732,
      "learning_rate": 8.608146623925181e-05,
      "loss": 1.5357,
      "step": 67871
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6229315996170044,
      "learning_rate": 8.607413837762433e-05,
      "loss": 1.5769,
      "step": 67872
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.690061628818512,
      "learning_rate": 8.606681077567118e-05,
      "loss": 1.5927,
      "step": 67873
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6337823867797852,
      "learning_rate": 8.605948343340152e-05,
      "loss": 1.4943,
      "step": 67874
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6471598744392395,
      "learning_rate": 8.605215635082412e-05,
      "loss": 1.5105,
      "step": 67875
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6213709712028503,
      "learning_rate": 8.604482952794776e-05,
      "loss": 1.5514,
      "step": 67876
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6091096997261047,
      "learning_rate": 8.603750296478148e-05,
      "loss": 1.4812,
      "step": 67877
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6334075927734375,
      "learning_rate": 8.603017666133424e-05,
      "loss": 1.5612,
      "step": 67878
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6472676992416382,
      "learning_rate": 8.602285061761484e-05,
      "loss": 1.497,
      "step": 67879
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.613893985748291,
      "learning_rate": 8.601552483363206e-05,
      "loss": 1.5064,
      "step": 67880
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6413031220436096,
      "learning_rate": 8.600819930939502e-05,
      "loss": 1.5115,
      "step": 67881
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6330921649932861,
      "learning_rate": 8.60008740449125e-05,
      "loss": 1.5409,
      "step": 67882
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.619655430316925,
      "learning_rate": 8.599354904019328e-05,
      "loss": 1.5313,
      "step": 67883
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6384534239768982,
      "learning_rate": 8.598622429524637e-05,
      "loss": 1.5882,
      "step": 67884
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6558826565742493,
      "learning_rate": 8.597889981008081e-05,
      "loss": 1.5076,
      "step": 67885
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6217102408409119,
      "learning_rate": 8.597157558470515e-05,
      "loss": 1.5155,
      "step": 67886
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6270385980606079,
      "learning_rate": 8.596425161912848e-05,
      "loss": 1.5588,
      "step": 67887
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6276314854621887,
      "learning_rate": 8.595692791335974e-05,
      "loss": 1.5632,
      "step": 67888
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6281012892723083,
      "learning_rate": 8.594960446740777e-05,
      "loss": 1.6204,
      "step": 67889
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6363706588745117,
      "learning_rate": 8.594228128128137e-05,
      "loss": 1.55,
      "step": 67890
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6342511773109436,
      "learning_rate": 8.593495835498945e-05,
      "loss": 1.5922,
      "step": 67891
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6163133382797241,
      "learning_rate": 8.592763568854117e-05,
      "loss": 1.5838,
      "step": 67892
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6448650360107422,
      "learning_rate": 8.592031328194501e-05,
      "loss": 1.5561,
      "step": 67893
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6381270885467529,
      "learning_rate": 8.591299113521004e-05,
      "loss": 1.5294,
      "step": 67894
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6211895942687988,
      "learning_rate": 8.590566924834523e-05,
      "loss": 1.4854,
      "step": 67895
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.637579619884491,
      "learning_rate": 8.589834762135944e-05,
      "loss": 1.5341,
      "step": 67896
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.61358642578125,
      "learning_rate": 8.589102625426136e-05,
      "loss": 1.5295,
      "step": 67897
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6419221758842468,
      "learning_rate": 8.588370514706005e-05,
      "loss": 1.5348,
      "step": 67898
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6124431490898132,
      "learning_rate": 8.587638429976458e-05,
      "loss": 1.572,
      "step": 67899
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6222060918807983,
      "learning_rate": 8.586906371238342e-05,
      "loss": 1.5578,
      "step": 67900
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.639912486076355,
      "learning_rate": 8.586174338492569e-05,
      "loss": 1.504,
      "step": 67901
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6246422529220581,
      "learning_rate": 8.585442331740032e-05,
      "loss": 1.5438,
      "step": 67902
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6142072677612305,
      "learning_rate": 8.584710350981612e-05,
      "loss": 1.5118,
      "step": 67903
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6179685592651367,
      "learning_rate": 8.583978396218193e-05,
      "loss": 1.5108,
      "step": 67904
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6174781322479248,
      "learning_rate": 8.583246467450675e-05,
      "loss": 1.486,
      "step": 67905
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6579420566558838,
      "learning_rate": 8.582514564679942e-05,
      "loss": 1.5955,
      "step": 67906
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6100143194198608,
      "learning_rate": 8.58178268790687e-05,
      "loss": 1.5352,
      "step": 67907
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6269403100013733,
      "learning_rate": 8.581050837132357e-05,
      "loss": 1.5304,
      "step": 67908
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6502315402030945,
      "learning_rate": 8.5803190123573e-05,
      "loss": 1.5172,
      "step": 67909
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6108323335647583,
      "learning_rate": 8.579587213582583e-05,
      "loss": 1.5034,
      "step": 67910
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6312288641929626,
      "learning_rate": 8.578855440809083e-05,
      "loss": 1.5528,
      "step": 67911
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6104713678359985,
      "learning_rate": 8.578123694037702e-05,
      "loss": 1.5188,
      "step": 67912
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6398143768310547,
      "learning_rate": 8.577391973269322e-05,
      "loss": 1.52,
      "step": 67913
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6056029200553894,
      "learning_rate": 8.576660278504825e-05,
      "loss": 1.567,
      "step": 67914
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6128802299499512,
      "learning_rate": 8.575928609745117e-05,
      "loss": 1.5455,
      "step": 67915
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6101558804512024,
      "learning_rate": 8.575196966991061e-05,
      "loss": 1.4878,
      "step": 67916
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6292937397956848,
      "learning_rate": 8.574465350243573e-05,
      "loss": 1.512,
      "step": 67917
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6425108313560486,
      "learning_rate": 8.573733759503515e-05,
      "loss": 1.4732,
      "step": 67918
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6384242177009583,
      "learning_rate": 8.573002194771796e-05,
      "loss": 1.5032,
      "step": 67919
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6466193199157715,
      "learning_rate": 8.572270656049296e-05,
      "loss": 1.549,
      "step": 67920
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6404012441635132,
      "learning_rate": 8.571539143336893e-05,
      "loss": 1.5195,
      "step": 67921
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6283499598503113,
      "learning_rate": 8.570807656635495e-05,
      "loss": 1.532,
      "step": 67922
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6107950210571289,
      "learning_rate": 8.570076195945968e-05,
      "loss": 1.5009,
      "step": 67923
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6301409006118774,
      "learning_rate": 8.569344761269221e-05,
      "loss": 1.4584,
      "step": 67924
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6323540210723877,
      "learning_rate": 8.56861335260613e-05,
      "loss": 1.5165,
      "step": 67925
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6054856181144714,
      "learning_rate": 8.567881969957576e-05,
      "loss": 1.5113,
      "step": 67926
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.626586377620697,
      "learning_rate": 8.567150613324468e-05,
      "loss": 1.5535,
      "step": 67927
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6353509426116943,
      "learning_rate": 8.566419282707668e-05,
      "loss": 1.4976,
      "step": 67928
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6068559885025024,
      "learning_rate": 8.565687978108088e-05,
      "loss": 1.4854,
      "step": 67929
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6269776225090027,
      "learning_rate": 8.564956699526592e-05,
      "loss": 1.5921,
      "step": 67930
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6047274470329285,
      "learning_rate": 8.564225446964092e-05,
      "loss": 1.489,
      "step": 67931
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6139348149299622,
      "learning_rate": 8.563494220421466e-05,
      "loss": 1.5075,
      "step": 67932
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6513590216636658,
      "learning_rate": 8.562763019899589e-05,
      "loss": 1.4435,
      "step": 67933
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6385579109191895,
      "learning_rate": 8.562031845399367e-05,
      "loss": 1.4986,
      "step": 67934
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6620246171951294,
      "learning_rate": 8.561300696921681e-05,
      "loss": 1.6047,
      "step": 67935
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6476450562477112,
      "learning_rate": 8.560569574467406e-05,
      "loss": 1.5496,
      "step": 67936
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.633297324180603,
      "learning_rate": 8.559838478037441e-05,
      "loss": 1.5572,
      "step": 67937
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6605644822120667,
      "learning_rate": 8.559107407632683e-05,
      "loss": 1.6063,
      "step": 67938
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6477759480476379,
      "learning_rate": 8.558376363254012e-05,
      "loss": 1.4674,
      "step": 67939
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6329981684684753,
      "learning_rate": 8.5576453449023e-05,
      "loss": 1.5205,
      "step": 67940
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6403903365135193,
      "learning_rate": 8.556914352578458e-05,
      "loss": 1.6005,
      "step": 67941
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6025047898292542,
      "learning_rate": 8.556183386283362e-05,
      "loss": 1.5765,
      "step": 67942
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.651332676410675,
      "learning_rate": 8.555452446017887e-05,
      "loss": 1.5439,
      "step": 67943
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6215056777000427,
      "learning_rate": 8.554721531782938e-05,
      "loss": 1.534,
      "step": 67944
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6221456527709961,
      "learning_rate": 8.553990643579405e-05,
      "loss": 1.5515,
      "step": 67945
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6266676187515259,
      "learning_rate": 8.553259781408168e-05,
      "loss": 1.5319,
      "step": 67946
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6389757394790649,
      "learning_rate": 8.552528945270104e-05,
      "loss": 1.5477,
      "step": 67947
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6201372742652893,
      "learning_rate": 8.551798135166118e-05,
      "loss": 1.5129,
      "step": 67948
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6405903100967407,
      "learning_rate": 8.55106735109709e-05,
      "loss": 1.5386,
      "step": 67949
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6375028491020203,
      "learning_rate": 8.550336593063895e-05,
      "loss": 1.5982,
      "step": 67950
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6048368215560913,
      "learning_rate": 8.549605861067432e-05,
      "loss": 1.551,
      "step": 67951
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6367653608322144,
      "learning_rate": 8.548875155108599e-05,
      "loss": 1.5761,
      "step": 67952
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6518511772155762,
      "learning_rate": 8.548144475188266e-05,
      "loss": 1.5464,
      "step": 67953
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6035423874855042,
      "learning_rate": 8.547413821307319e-05,
      "loss": 1.5481,
      "step": 67954
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6192898750305176,
      "learning_rate": 8.546683193466657e-05,
      "loss": 1.4947,
      "step": 67955
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6424326300621033,
      "learning_rate": 8.545952591667164e-05,
      "loss": 1.6036,
      "step": 67956
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6638767719268799,
      "learning_rate": 8.545222015909711e-05,
      "loss": 1.5764,
      "step": 67957
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.622256338596344,
      "learning_rate": 8.544491466195198e-05,
      "loss": 1.592,
      "step": 67958
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6375445127487183,
      "learning_rate": 8.543760942524523e-05,
      "loss": 1.5108,
      "step": 67959
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6072812676429749,
      "learning_rate": 8.54303044489856e-05,
      "loss": 1.5329,
      "step": 67960
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6205894351005554,
      "learning_rate": 8.542299973318183e-05,
      "loss": 1.6083,
      "step": 67961
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6081966161727905,
      "learning_rate": 8.541569527784304e-05,
      "loss": 1.5083,
      "step": 67962
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6192049980163574,
      "learning_rate": 8.5408391082978e-05,
      "loss": 1.5386,
      "step": 67963
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6291313767433167,
      "learning_rate": 8.540108714859546e-05,
      "loss": 1.5199,
      "step": 67964
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.608834981918335,
      "learning_rate": 8.539378347470434e-05,
      "loss": 1.548,
      "step": 67965
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6267789602279663,
      "learning_rate": 8.538648006131368e-05,
      "loss": 1.5462,
      "step": 67966
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6153634786605835,
      "learning_rate": 8.537917690843221e-05,
      "loss": 1.5608,
      "step": 67967
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6245225667953491,
      "learning_rate": 8.537187401606867e-05,
      "loss": 1.5758,
      "step": 67968
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6297813653945923,
      "learning_rate": 8.536457138423217e-05,
      "loss": 1.5114,
      "step": 67969
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6240296363830566,
      "learning_rate": 8.535726901293147e-05,
      "loss": 1.5284,
      "step": 67970
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6026152968406677,
      "learning_rate": 8.534996690217527e-05,
      "loss": 1.479,
      "step": 67971
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6367180347442627,
      "learning_rate": 8.534266505197273e-05,
      "loss": 1.506,
      "step": 67972
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6470507979393005,
      "learning_rate": 8.533536346233245e-05,
      "loss": 1.5042,
      "step": 67973
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6530978679656982,
      "learning_rate": 8.532806213326351e-05,
      "loss": 1.5567,
      "step": 67974
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6191030740737915,
      "learning_rate": 8.532076106477459e-05,
      "loss": 1.4389,
      "step": 67975
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6418763995170593,
      "learning_rate": 8.531346025687469e-05,
      "loss": 1.4758,
      "step": 67976
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.615933895111084,
      "learning_rate": 8.530615970957266e-05,
      "loss": 1.5462,
      "step": 67977
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6299178004264832,
      "learning_rate": 8.52988594228772e-05,
      "loss": 1.5591,
      "step": 67978
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6196123957633972,
      "learning_rate": 8.529155939679738e-05,
      "loss": 1.5158,
      "step": 67979
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6173864006996155,
      "learning_rate": 8.528425963134188e-05,
      "loss": 1.5507,
      "step": 67980
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6212059855461121,
      "learning_rate": 8.527696012651975e-05,
      "loss": 1.5692,
      "step": 67981
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6540074944496155,
      "learning_rate": 8.526966088233978e-05,
      "loss": 1.6239,
      "step": 67982
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6266552805900574,
      "learning_rate": 8.526236189881065e-05,
      "loss": 1.549,
      "step": 67983
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.616294264793396,
      "learning_rate": 8.525506317594151e-05,
      "loss": 1.5787,
      "step": 67984
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6168868541717529,
      "learning_rate": 8.524776471374101e-05,
      "loss": 1.5572,
      "step": 67985
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6822777390480042,
      "learning_rate": 8.524046651221811e-05,
      "loss": 1.4868,
      "step": 67986
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6311247944831848,
      "learning_rate": 8.52331685713816e-05,
      "loss": 1.5593,
      "step": 67987
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.635223388671875,
      "learning_rate": 8.522587089124046e-05,
      "loss": 1.57,
      "step": 67988
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6610982418060303,
      "learning_rate": 8.521857347180346e-05,
      "loss": 1.5549,
      "step": 67989
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.640669047832489,
      "learning_rate": 8.521127631307936e-05,
      "loss": 1.4325,
      "step": 67990
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6538812518119812,
      "learning_rate": 8.520397941507723e-05,
      "loss": 1.4621,
      "step": 67991
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6268395185470581,
      "learning_rate": 8.51966827778058e-05,
      "loss": 1.5448,
      "step": 67992
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6483262777328491,
      "learning_rate": 8.518938640127388e-05,
      "loss": 1.5378,
      "step": 67993
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6079263091087341,
      "learning_rate": 8.51820902854904e-05,
      "loss": 1.6067,
      "step": 67994
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6196213364601135,
      "learning_rate": 8.517479443046428e-05,
      "loss": 1.5429,
      "step": 67995
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6232492327690125,
      "learning_rate": 8.516749883620432e-05,
      "loss": 1.4685,
      "step": 67996
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6494153141975403,
      "learning_rate": 8.516020350271928e-05,
      "loss": 1.5548,
      "step": 67997
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6101070046424866,
      "learning_rate": 8.515290843001817e-05,
      "loss": 1.5491,
      "step": 67998
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6374214291572571,
      "learning_rate": 8.514561361810976e-05,
      "loss": 1.535,
      "step": 67999
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6174039244651794,
      "learning_rate": 8.513831906700285e-05,
      "loss": 1.4834,
      "step": 68000
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6581388711929321,
      "learning_rate": 8.513102477670637e-05,
      "loss": 1.5832,
      "step": 68001
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6172798275947571,
      "learning_rate": 8.512373074722932e-05,
      "loss": 1.5684,
      "step": 68002
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6490244269371033,
      "learning_rate": 8.511643697858024e-05,
      "loss": 1.5918,
      "step": 68003
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6273300051689148,
      "learning_rate": 8.510914347076813e-05,
      "loss": 1.5785,
      "step": 68004
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.628616988658905,
      "learning_rate": 8.510185022380198e-05,
      "loss": 1.5912,
      "step": 68005
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.633112370967865,
      "learning_rate": 8.50945572376905e-05,
      "loss": 1.5691,
      "step": 68006
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6164299845695496,
      "learning_rate": 8.508726451244245e-05,
      "loss": 1.5221,
      "step": 68007
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6109575629234314,
      "learning_rate": 8.507997204806681e-05,
      "loss": 1.5621,
      "step": 68008
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6225499510765076,
      "learning_rate": 8.50726798445726e-05,
      "loss": 1.5288,
      "step": 68009
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.653626561164856,
      "learning_rate": 8.506538790196833e-05,
      "loss": 1.5213,
      "step": 68010
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6221744418144226,
      "learning_rate": 8.5058096220263e-05,
      "loss": 1.4998,
      "step": 68011
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6322675347328186,
      "learning_rate": 8.505080479946552e-05,
      "loss": 1.5177,
      "step": 68012
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6085814237594604,
      "learning_rate": 8.504351363958474e-05,
      "loss": 1.485,
      "step": 68013
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6293972134590149,
      "learning_rate": 8.503622274062933e-05,
      "loss": 1.5035,
      "step": 68014
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.610382080078125,
      "learning_rate": 8.50289321026083e-05,
      "loss": 1.4922,
      "step": 68015
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6583284735679626,
      "learning_rate": 8.502164172553068e-05,
      "loss": 1.5458,
      "step": 68016
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.641326367855072,
      "learning_rate": 8.501435160940488e-05,
      "loss": 1.536,
      "step": 68017
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6365046501159668,
      "learning_rate": 8.500706175424e-05,
      "loss": 1.5466,
      "step": 68018
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6238752007484436,
      "learning_rate": 8.499977216004496e-05,
      "loss": 1.5095,
      "step": 68019
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6207606792449951,
      "learning_rate": 8.499248282682853e-05,
      "loss": 1.5975,
      "step": 68020
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6192407608032227,
      "learning_rate": 8.498519375459943e-05,
      "loss": 1.5401,
      "step": 68021
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.611372172832489,
      "learning_rate": 8.497790494336675e-05,
      "loss": 1.5127,
      "step": 68022
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6225979924201965,
      "learning_rate": 8.497061639313916e-05,
      "loss": 1.5704,
      "step": 68023
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6351268291473389,
      "learning_rate": 8.49633281039255e-05,
      "loss": 1.596,
      "step": 68024
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6287212371826172,
      "learning_rate": 8.495604007573466e-05,
      "loss": 1.5405,
      "step": 68025
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6323442459106445,
      "learning_rate": 8.494875230857562e-05,
      "loss": 1.5822,
      "step": 68026
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6276821494102478,
      "learning_rate": 8.494146480245709e-05,
      "loss": 1.5698,
      "step": 68027
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6196349263191223,
      "learning_rate": 8.493417755738786e-05,
      "loss": 1.4411,
      "step": 68028
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6240509152412415,
      "learning_rate": 8.492689057337692e-05,
      "loss": 1.5386,
      "step": 68029
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6324763298034668,
      "learning_rate": 8.491960385043305e-05,
      "loss": 1.5562,
      "step": 68030
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6407227516174316,
      "learning_rate": 8.4912317388565e-05,
      "loss": 1.5368,
      "step": 68031
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6313549280166626,
      "learning_rate": 8.490503118778182e-05,
      "loss": 1.5742,
      "step": 68032
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6043511033058167,
      "learning_rate": 8.489774524809212e-05,
      "loss": 1.5574,
      "step": 68033
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6450404524803162,
      "learning_rate": 8.489045956950495e-05,
      "loss": 1.4533,
      "step": 68034
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6206993460655212,
      "learning_rate": 8.488317415202899e-05,
      "loss": 1.4395,
      "step": 68035
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6175863742828369,
      "learning_rate": 8.487588899567325e-05,
      "loss": 1.4986,
      "step": 68036
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6104714274406433,
      "learning_rate": 8.486860410044649e-05,
      "loss": 1.575,
      "step": 68037
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6293637752532959,
      "learning_rate": 8.486131946635745e-05,
      "loss": 1.5699,
      "step": 68038
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6110913753509521,
      "learning_rate": 8.485403509341514e-05,
      "loss": 1.5054,
      "step": 68039
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6018017530441284,
      "learning_rate": 8.484675098162826e-05,
      "loss": 1.451,
      "step": 68040
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6395067572593689,
      "learning_rate": 8.483946713100581e-05,
      "loss": 1.5681,
      "step": 68041
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6165035367012024,
      "learning_rate": 8.483218354155658e-05,
      "loss": 1.5824,
      "step": 68042
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.619437575340271,
      "learning_rate": 8.482490021328925e-05,
      "loss": 1.5447,
      "step": 68043
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6334243416786194,
      "learning_rate": 8.481761714621286e-05,
      "loss": 1.4762,
      "step": 68044
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6271352767944336,
      "learning_rate": 8.481033434033609e-05,
      "loss": 1.5522,
      "step": 68045
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6336529850959778,
      "learning_rate": 8.480305179566798e-05,
      "loss": 1.5499,
      "step": 68046
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.5967295169830322,
      "learning_rate": 8.479576951221716e-05,
      "loss": 1.5855,
      "step": 68047
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6236739754676819,
      "learning_rate": 8.478848748999267e-05,
      "loss": 1.5289,
      "step": 68048
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.667500376701355,
      "learning_rate": 8.478120572900322e-05,
      "loss": 1.5522,
      "step": 68049
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6287370324134827,
      "learning_rate": 8.477392422925763e-05,
      "loss": 1.504,
      "step": 68050
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6490024328231812,
      "learning_rate": 8.476664299076482e-05,
      "loss": 1.5778,
      "step": 68051
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6408543586730957,
      "learning_rate": 8.475936201353363e-05,
      "loss": 1.5155,
      "step": 68052
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6211364269256592,
      "learning_rate": 8.475208129757274e-05,
      "loss": 1.4681,
      "step": 68053
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6100742220878601,
      "learning_rate": 8.474480084289111e-05,
      "loss": 1.5211,
      "step": 68054
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6382434964179993,
      "learning_rate": 8.473752064949772e-05,
      "loss": 1.5384,
      "step": 68055
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6047666072845459,
      "learning_rate": 8.47302407174012e-05,
      "loss": 1.5933,
      "step": 68056
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6364177465438843,
      "learning_rate": 8.47229610466104e-05,
      "loss": 1.5101,
      "step": 68057
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6409897804260254,
      "learning_rate": 8.471568163713426e-05,
      "loss": 1.5666,
      "step": 68058
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6156585216522217,
      "learning_rate": 8.470840248898159e-05,
      "loss": 1.5493,
      "step": 68059
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6274487972259521,
      "learning_rate": 8.470112360216107e-05,
      "loss": 1.4782,
      "step": 68060
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6381224393844604,
      "learning_rate": 8.46938449766817e-05,
      "loss": 1.5488,
      "step": 68061
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6378083825111389,
      "learning_rate": 8.468656661255238e-05,
      "loss": 1.6325,
      "step": 68062
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.736238420009613,
      "learning_rate": 8.467928850978181e-05,
      "loss": 1.5928,
      "step": 68063
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6305447220802307,
      "learning_rate": 8.467201066837876e-05,
      "loss": 1.5729,
      "step": 68064
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6189911961555481,
      "learning_rate": 8.466473308835227e-05,
      "loss": 1.5406,
      "step": 68065
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6278442144393921,
      "learning_rate": 8.465745576971107e-05,
      "loss": 1.4673,
      "step": 68066
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6355170607566833,
      "learning_rate": 8.465017871246389e-05,
      "loss": 1.5115,
      "step": 68067
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6416524648666382,
      "learning_rate": 8.464290191661967e-05,
      "loss": 1.5533,
      "step": 68068
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6496933102607727,
      "learning_rate": 8.463562538218734e-05,
      "loss": 1.5173,
      "step": 68069
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6357385516166687,
      "learning_rate": 8.462834910917561e-05,
      "loss": 1.5776,
      "step": 68070
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6275191307067871,
      "learning_rate": 8.462107309759325e-05,
      "loss": 1.538,
      "step": 68071
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6066713929176331,
      "learning_rate": 8.461379734744925e-05,
      "loss": 1.544,
      "step": 68072
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6297528743743896,
      "learning_rate": 8.460652185875235e-05,
      "loss": 1.5476,
      "step": 68073
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6196904182434082,
      "learning_rate": 8.459924663151134e-05,
      "loss": 1.4731,
      "step": 68074
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6332452893257141,
      "learning_rate": 8.459197166573509e-05,
      "loss": 1.5324,
      "step": 68075
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6241493225097656,
      "learning_rate": 8.458469696143253e-05,
      "loss": 1.4996,
      "step": 68076
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6144645810127258,
      "learning_rate": 8.457742251861245e-05,
      "loss": 1.4679,
      "step": 68077
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6208553314208984,
      "learning_rate": 8.45701483372835e-05,
      "loss": 1.4662,
      "step": 68078
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.6201178431510925,
      "learning_rate": 8.456287441745477e-05,
      "loss": 1.51,
      "step": 68079
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6447919011116028,
      "learning_rate": 8.455560075913495e-05,
      "loss": 1.4891,
      "step": 68080
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6707481145858765,
      "learning_rate": 8.454832736233276e-05,
      "loss": 1.5683,
      "step": 68081
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6421752572059631,
      "learning_rate": 8.45410542270573e-05,
      "loss": 1.5786,
      "step": 68082
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6413242220878601,
      "learning_rate": 8.453378135331714e-05,
      "loss": 1.5677,
      "step": 68083
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6558113098144531,
      "learning_rate": 8.452650874112134e-05,
      "loss": 1.5707,
      "step": 68084
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6080328226089478,
      "learning_rate": 8.451923639047849e-05,
      "loss": 1.523,
      "step": 68085
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6196219325065613,
      "learning_rate": 8.451196430139765e-05,
      "loss": 1.5429,
      "step": 68086
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6217743754386902,
      "learning_rate": 8.45046924738875e-05,
      "loss": 1.5005,
      "step": 68087
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6265282034873962,
      "learning_rate": 8.449742090795685e-05,
      "loss": 1.539,
      "step": 68088
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6199588179588318,
      "learning_rate": 8.449014960361464e-05,
      "loss": 1.5304,
      "step": 68089
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6429201364517212,
      "learning_rate": 8.448287856086954e-05,
      "loss": 1.4445,
      "step": 68090
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6216475367546082,
      "learning_rate": 8.447560777973059e-05,
      "loss": 1.5222,
      "step": 68091
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6339685320854187,
      "learning_rate": 8.44683372602064e-05,
      "loss": 1.5632,
      "step": 68092
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6175910234451294,
      "learning_rate": 8.446106700230596e-05,
      "loss": 1.5545,
      "step": 68093
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5931897759437561,
      "learning_rate": 8.445379700603804e-05,
      "loss": 1.5536,
      "step": 68094
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6863436102867126,
      "learning_rate": 8.444652727141136e-05,
      "loss": 1.5465,
      "step": 68095
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.624987006187439,
      "learning_rate": 8.443925779843494e-05,
      "loss": 1.5481,
      "step": 68096
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6184855103492737,
      "learning_rate": 8.443198858711739e-05,
      "loss": 1.5189,
      "step": 68097
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6355646252632141,
      "learning_rate": 8.442471963746773e-05,
      "loss": 1.4186,
      "step": 68098
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6459717154502869,
      "learning_rate": 8.441745094949471e-05,
      "loss": 1.5373,
      "step": 68099
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6014617085456848,
      "learning_rate": 8.441018252320704e-05,
      "loss": 1.5584,
      "step": 68100
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6273529529571533,
      "learning_rate": 8.440291435861376e-05,
      "loss": 1.5496,
      "step": 68101
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6363213062286377,
      "learning_rate": 8.439564645572345e-05,
      "loss": 1.551,
      "step": 68102
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6260283589363098,
      "learning_rate": 8.438837881454518e-05,
      "loss": 1.5226,
      "step": 68103
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6280918717384338,
      "learning_rate": 8.438111143508752e-05,
      "loss": 1.6443,
      "step": 68104
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6244041919708252,
      "learning_rate": 8.437384431735954e-05,
      "loss": 1.5062,
      "step": 68105
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6337937712669373,
      "learning_rate": 8.436657746136993e-05,
      "loss": 1.5663,
      "step": 68106
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.619901180267334,
      "learning_rate": 8.435931086712743e-05,
      "loss": 1.5546,
      "step": 68107
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6248317360877991,
      "learning_rate": 8.435204453464105e-05,
      "loss": 1.5907,
      "step": 68108
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6274285912513733,
      "learning_rate": 8.434477846391951e-05,
      "loss": 1.5489,
      "step": 68109
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6238317489624023,
      "learning_rate": 8.433751265497155e-05,
      "loss": 1.6179,
      "step": 68110
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6246597170829773,
      "learning_rate": 8.433024710780609e-05,
      "loss": 1.5148,
      "step": 68111
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6353176236152649,
      "learning_rate": 8.4322981822432e-05,
      "loss": 1.5026,
      "step": 68112
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6114908456802368,
      "learning_rate": 8.431571679885803e-05,
      "loss": 1.507,
      "step": 68113
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5918799042701721,
      "learning_rate": 8.43084520370929e-05,
      "loss": 1.5297,
      "step": 68114
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6050626635551453,
      "learning_rate": 8.430118753714565e-05,
      "loss": 1.5879,
      "step": 68115
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6075697541236877,
      "learning_rate": 8.429392329902495e-05,
      "loss": 1.5006,
      "step": 68116
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6112309098243713,
      "learning_rate": 8.428665932273958e-05,
      "loss": 1.4861,
      "step": 68117
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6211886405944824,
      "learning_rate": 8.427939560829838e-05,
      "loss": 1.5323,
      "step": 68118
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6186003684997559,
      "learning_rate": 8.427213215571043e-05,
      "loss": 1.5336,
      "step": 68119
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6284583210945129,
      "learning_rate": 8.426486896498413e-05,
      "loss": 1.5026,
      "step": 68120
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6257116794586182,
      "learning_rate": 8.42576060361285e-05,
      "loss": 1.5615,
      "step": 68121
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.617351233959198,
      "learning_rate": 8.425034336915242e-05,
      "loss": 1.5306,
      "step": 68122
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.61017906665802,
      "learning_rate": 8.424308096406465e-05,
      "loss": 1.4785,
      "step": 68123
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6030939221382141,
      "learning_rate": 8.423581882087388e-05,
      "loss": 1.5636,
      "step": 68124
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6362528800964355,
      "learning_rate": 8.422855693958905e-05,
      "loss": 1.5091,
      "step": 68125
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6198265552520752,
      "learning_rate": 8.422129532021913e-05,
      "loss": 1.5223,
      "step": 68126
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.630104124546051,
      "learning_rate": 8.42140339627726e-05,
      "loss": 1.5185,
      "step": 68127
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6264862418174744,
      "learning_rate": 8.420677286725845e-05,
      "loss": 1.5025,
      "step": 68128
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6116490364074707,
      "learning_rate": 8.419951203368552e-05,
      "loss": 1.5525,
      "step": 68129
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6091955304145813,
      "learning_rate": 8.419225146206264e-05,
      "loss": 1.5662,
      "step": 68130
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6323404908180237,
      "learning_rate": 8.418499115239846e-05,
      "loss": 1.5496,
      "step": 68131
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.620618999004364,
      "learning_rate": 8.417773110470187e-05,
      "loss": 1.5229,
      "step": 68132
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6132099628448486,
      "learning_rate": 8.417047131898196e-05,
      "loss": 1.4986,
      "step": 68133
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6052100658416748,
      "learning_rate": 8.416321179524707e-05,
      "loss": 1.5246,
      "step": 68134
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6378222107887268,
      "learning_rate": 8.415595253350625e-05,
      "loss": 1.6084,
      "step": 68135
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6359682679176331,
      "learning_rate": 8.414869353376839e-05,
      "loss": 1.5155,
      "step": 68136
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6311595439910889,
      "learning_rate": 8.41414347960422e-05,
      "loss": 1.5651,
      "step": 68137
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6198810338973999,
      "learning_rate": 8.413417632033641e-05,
      "loss": 1.5177,
      "step": 68138
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6491220593452454,
      "learning_rate": 8.412691810666006e-05,
      "loss": 1.6052,
      "step": 68139
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6264995336532593,
      "learning_rate": 8.411966015502177e-05,
      "loss": 1.4526,
      "step": 68140
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.633577287197113,
      "learning_rate": 8.411240246543035e-05,
      "loss": 1.5315,
      "step": 68141
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6143515110015869,
      "learning_rate": 8.410514503789465e-05,
      "loss": 1.4923,
      "step": 68142
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6314897537231445,
      "learning_rate": 8.409788787242359e-05,
      "loss": 1.6056,
      "step": 68143
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6711314916610718,
      "learning_rate": 8.409063096902585e-05,
      "loss": 1.5419,
      "step": 68144
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6385111212730408,
      "learning_rate": 8.40833743277102e-05,
      "loss": 1.5379,
      "step": 68145
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6290915012359619,
      "learning_rate": 8.407611794848564e-05,
      "loss": 1.4861,
      "step": 68146
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6078277230262756,
      "learning_rate": 8.406886183136083e-05,
      "loss": 1.4977,
      "step": 68147
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6162045001983643,
      "learning_rate": 8.406160597634451e-05,
      "loss": 1.5306,
      "step": 68148
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6382268071174622,
      "learning_rate": 8.405435038344568e-05,
      "loss": 1.5236,
      "step": 68149
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6168956756591797,
      "learning_rate": 8.404709505267297e-05,
      "loss": 1.587,
      "step": 68150
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6304922103881836,
      "learning_rate": 8.403983998403536e-05,
      "loss": 1.5176,
      "step": 68151
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6665928959846497,
      "learning_rate": 8.403258517754147e-05,
      "loss": 1.4731,
      "step": 68152
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6258118152618408,
      "learning_rate": 8.402533063320028e-05,
      "loss": 1.5526,
      "step": 68153
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6330944895744324,
      "learning_rate": 8.401807635102053e-05,
      "loss": 1.4972,
      "step": 68154
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.629248857498169,
      "learning_rate": 8.401082233101088e-05,
      "loss": 1.5484,
      "step": 68155
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6089985966682434,
      "learning_rate": 8.400356857318043e-05,
      "loss": 1.4838,
      "step": 68156
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6377825140953064,
      "learning_rate": 8.399631507753767e-05,
      "loss": 1.5316,
      "step": 68157
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6253708600997925,
      "learning_rate": 8.398906184409168e-05,
      "loss": 1.4727,
      "step": 68158
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6024529337882996,
      "learning_rate": 8.398180887285114e-05,
      "loss": 1.4723,
      "step": 68159
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6159989833831787,
      "learning_rate": 8.397455616382476e-05,
      "loss": 1.4335,
      "step": 68160
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.618312418460846,
      "learning_rate": 8.396730371702152e-05,
      "loss": 1.589,
      "step": 68161
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6346492767333984,
      "learning_rate": 8.396005153245005e-05,
      "loss": 1.6478,
      "step": 68162
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6057806015014648,
      "learning_rate": 8.395279961011934e-05,
      "loss": 1.5025,
      "step": 68163
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6249854564666748,
      "learning_rate": 8.394554795003801e-05,
      "loss": 1.5074,
      "step": 68164
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.620116651058197,
      "learning_rate": 8.393829655221504e-05,
      "loss": 1.452,
      "step": 68165
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6258739829063416,
      "learning_rate": 8.393104541665914e-05,
      "loss": 1.5316,
      "step": 68166
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6221722960472107,
      "learning_rate": 8.392379454337905e-05,
      "loss": 1.5298,
      "step": 68167
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6590014696121216,
      "learning_rate": 8.391654393238369e-05,
      "loss": 1.523,
      "step": 68168
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6299212574958801,
      "learning_rate": 8.390929358368183e-05,
      "loss": 1.5828,
      "step": 68169
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6179819703102112,
      "learning_rate": 8.390204349728214e-05,
      "loss": 1.5526,
      "step": 68170
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6302300691604614,
      "learning_rate": 8.389479367319354e-05,
      "loss": 1.4688,
      "step": 68171
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6812058687210083,
      "learning_rate": 8.388754411142491e-05,
      "loss": 1.5028,
      "step": 68172
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6307887434959412,
      "learning_rate": 8.388029481198497e-05,
      "loss": 1.5362,
      "step": 68173
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6378340721130371,
      "learning_rate": 8.387304577488238e-05,
      "loss": 1.5919,
      "step": 68174
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.631998598575592,
      "learning_rate": 8.386579700012621e-05,
      "loss": 1.518,
      "step": 68175
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6344766020774841,
      "learning_rate": 8.385854848772507e-05,
      "loss": 1.4346,
      "step": 68176
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6204230785369873,
      "learning_rate": 8.385130023768773e-05,
      "loss": 1.5918,
      "step": 68177
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6375473737716675,
      "learning_rate": 8.384405225002308e-05,
      "loss": 1.5989,
      "step": 68178
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6735417246818542,
      "learning_rate": 8.383680452473999e-05,
      "loss": 1.5786,
      "step": 68179
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6412015557289124,
      "learning_rate": 8.382955706184716e-05,
      "loss": 1.5231,
      "step": 68180
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6431715488433838,
      "learning_rate": 8.38223098613533e-05,
      "loss": 1.4729,
      "step": 68181
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6414588093757629,
      "learning_rate": 8.381506292326738e-05,
      "loss": 1.5379,
      "step": 68182
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6317633390426636,
      "learning_rate": 8.380781624759815e-05,
      "loss": 1.5285,
      "step": 68183
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6327227354049683,
      "learning_rate": 8.38005698343543e-05,
      "loss": 1.4795,
      "step": 68184
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6246523857116699,
      "learning_rate": 8.379332368354465e-05,
      "loss": 1.601,
      "step": 68185
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6582949757575989,
      "learning_rate": 8.378607779517816e-05,
      "loss": 1.5717,
      "step": 68186
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6069819331169128,
      "learning_rate": 8.377883216926355e-05,
      "loss": 1.5043,
      "step": 68187
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6086605787277222,
      "learning_rate": 8.377158680580944e-05,
      "loss": 1.5645,
      "step": 68188
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6377872824668884,
      "learning_rate": 8.376434170482488e-05,
      "loss": 1.4934,
      "step": 68189
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6323626041412354,
      "learning_rate": 8.375709686631855e-05,
      "loss": 1.5037,
      "step": 68190
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6224477291107178,
      "learning_rate": 8.374985229029913e-05,
      "loss": 1.4893,
      "step": 68191
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6058060526847839,
      "learning_rate": 8.374260797677557e-05,
      "loss": 1.5061,
      "step": 68192
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6523278951644897,
      "learning_rate": 8.373536392575666e-05,
      "loss": 1.5509,
      "step": 68193
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6489099264144897,
      "learning_rate": 8.372812013725116e-05,
      "loss": 1.5114,
      "step": 68194
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6012618541717529,
      "learning_rate": 8.37208766112678e-05,
      "loss": 1.527,
      "step": 68195
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6618717312812805,
      "learning_rate": 8.371363334781551e-05,
      "loss": 1.5893,
      "step": 68196
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6204978227615356,
      "learning_rate": 8.370639034690297e-05,
      "loss": 1.5698,
      "step": 68197
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6079381704330444,
      "learning_rate": 8.369914760853896e-05,
      "loss": 1.5918,
      "step": 68198
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6372479200363159,
      "learning_rate": 8.369190513273234e-05,
      "loss": 1.6013,
      "step": 68199
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6385051608085632,
      "learning_rate": 8.368466291949182e-05,
      "loss": 1.5216,
      "step": 68200
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6256983280181885,
      "learning_rate": 8.367742096882635e-05,
      "loss": 1.4537,
      "step": 68201
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6250486969947815,
      "learning_rate": 8.367017928074452e-05,
      "loss": 1.5572,
      "step": 68202
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6181172132492065,
      "learning_rate": 8.36629378552553e-05,
      "loss": 1.5824,
      "step": 68203
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6502131819725037,
      "learning_rate": 8.36556966923674e-05,
      "loss": 1.5704,
      "step": 68204
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6304137110710144,
      "learning_rate": 8.364845579208953e-05,
      "loss": 1.5478,
      "step": 68205
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.612429678440094,
      "learning_rate": 8.364121515443062e-05,
      "loss": 1.4983,
      "step": 68206
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6412273049354553,
      "learning_rate": 8.363397477939933e-05,
      "loss": 1.5803,
      "step": 68207
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6055646538734436,
      "learning_rate": 8.362673466700462e-05,
      "loss": 1.5776,
      "step": 68208
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.630831241607666,
      "learning_rate": 8.361949481725504e-05,
      "loss": 1.4925,
      "step": 68209
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6202735900878906,
      "learning_rate": 8.361225523015962e-05,
      "loss": 1.4915,
      "step": 68210
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6415463089942932,
      "learning_rate": 8.360501590572705e-05,
      "loss": 1.5533,
      "step": 68211
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6135753393173218,
      "learning_rate": 8.359777684396598e-05,
      "loss": 1.5007,
      "step": 68212
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6259111762046814,
      "learning_rate": 8.359053804488546e-05,
      "loss": 1.5386,
      "step": 68213
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6590331792831421,
      "learning_rate": 8.358329950849404e-05,
      "loss": 1.5814,
      "step": 68214
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6285579204559326,
      "learning_rate": 8.357606123480068e-05,
      "loss": 1.6098,
      "step": 68215
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6856729984283447,
      "learning_rate": 8.356882322381408e-05,
      "loss": 1.5578,
      "step": 68216
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6189708113670349,
      "learning_rate": 8.356158547554297e-05,
      "loss": 1.4538,
      "step": 68217
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6115756034851074,
      "learning_rate": 8.35543479899963e-05,
      "loss": 1.4616,
      "step": 68218
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6592247486114502,
      "learning_rate": 8.354711076718266e-05,
      "loss": 1.4514,
      "step": 68219
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6131232976913452,
      "learning_rate": 8.353987380711105e-05,
      "loss": 1.4781,
      "step": 68220
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6304040551185608,
      "learning_rate": 8.353263710979003e-05,
      "loss": 1.4859,
      "step": 68221
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.63065505027771,
      "learning_rate": 8.352540067522855e-05,
      "loss": 1.5563,
      "step": 68222
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6220604181289673,
      "learning_rate": 8.351816450343538e-05,
      "loss": 1.5347,
      "step": 68223
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6337803602218628,
      "learning_rate": 8.351092859441915e-05,
      "loss": 1.6086,
      "step": 68224
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.642661452293396,
      "learning_rate": 8.350369294818888e-05,
      "loss": 1.5385,
      "step": 68225
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6418803930282593,
      "learning_rate": 8.349645756475318e-05,
      "loss": 1.518,
      "step": 68226
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6508526802062988,
      "learning_rate": 8.348922244412081e-05,
      "loss": 1.4817,
      "step": 68227
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.634428083896637,
      "learning_rate": 8.348198758630063e-05,
      "loss": 1.544,
      "step": 68228
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6409361958503723,
      "learning_rate": 8.34747529913015e-05,
      "loss": 1.5512,
      "step": 68229
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6224126219749451,
      "learning_rate": 8.346751865913211e-05,
      "loss": 1.4745,
      "step": 68230
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6500030159950256,
      "learning_rate": 8.346028458980115e-05,
      "loss": 1.5414,
      "step": 68231
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6319848299026489,
      "learning_rate": 8.345305078331763e-05,
      "loss": 1.5853,
      "step": 68232
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6223203539848328,
      "learning_rate": 8.344581723969014e-05,
      "loss": 1.4902,
      "step": 68233
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6452653408050537,
      "learning_rate": 8.34385839589275e-05,
      "loss": 1.5198,
      "step": 68234
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6264145970344543,
      "learning_rate": 8.343135094103847e-05,
      "loss": 1.4706,
      "step": 68235
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.655283510684967,
      "learning_rate": 8.342411818603205e-05,
      "loss": 1.5238,
      "step": 68236
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6078646183013916,
      "learning_rate": 8.341688569391665e-05,
      "loss": 1.4926,
      "step": 68237
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6147940158843994,
      "learning_rate": 8.340965346470124e-05,
      "loss": 1.5953,
      "step": 68238
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6316911578178406,
      "learning_rate": 8.34024214983947e-05,
      "loss": 1.5001,
      "step": 68239
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6297428607940674,
      "learning_rate": 8.339518979500572e-05,
      "loss": 1.5634,
      "step": 68240
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6267585158348083,
      "learning_rate": 8.338795835454293e-05,
      "loss": 1.5092,
      "step": 68241
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6233037710189819,
      "learning_rate": 8.338072717701528e-05,
      "loss": 1.4595,
      "step": 68242
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6478797197341919,
      "learning_rate": 8.337349626243168e-05,
      "loss": 1.5592,
      "step": 68243
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6171493530273438,
      "learning_rate": 8.336626561080057e-05,
      "loss": 1.5671,
      "step": 68244
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5906169414520264,
      "learning_rate": 8.335903522213088e-05,
      "loss": 1.454,
      "step": 68245
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6574224233627319,
      "learning_rate": 8.335180509643151e-05,
      "loss": 1.5977,
      "step": 68246
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6264848709106445,
      "learning_rate": 8.33445752337111e-05,
      "loss": 1.5363,
      "step": 68247
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6341580748558044,
      "learning_rate": 8.333734563397835e-05,
      "loss": 1.5583,
      "step": 68248
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6511862874031067,
      "learning_rate": 8.333011629724217e-05,
      "loss": 1.5682,
      "step": 68249
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6295754909515381,
      "learning_rate": 8.332288722351148e-05,
      "loss": 1.5511,
      "step": 68250
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6084510684013367,
      "learning_rate": 8.33156584127947e-05,
      "loss": 1.493,
      "step": 68251
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6375426054000854,
      "learning_rate": 8.330842986510077e-05,
      "loss": 1.6481,
      "step": 68252
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6582385897636414,
      "learning_rate": 8.330120158043856e-05,
      "loss": 1.5876,
      "step": 68253
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6208844780921936,
      "learning_rate": 8.329397355881679e-05,
      "loss": 1.4365,
      "step": 68254
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6396485567092896,
      "learning_rate": 8.328674580024411e-05,
      "loss": 1.5396,
      "step": 68255
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.64659184217453,
      "learning_rate": 8.327951830472947e-05,
      "loss": 1.546,
      "step": 68256
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6291989088058472,
      "learning_rate": 8.327229107228158e-05,
      "loss": 1.5591,
      "step": 68257
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6073042154312134,
      "learning_rate": 8.326506410290907e-05,
      "loss": 1.5508,
      "step": 68258
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6421253681182861,
      "learning_rate": 8.325783739662087e-05,
      "loss": 1.5637,
      "step": 68259
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6347827911376953,
      "learning_rate": 8.32506109534258e-05,
      "loss": 1.5466,
      "step": 68260
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.632620632648468,
      "learning_rate": 8.324338477333253e-05,
      "loss": 1.5351,
      "step": 68261
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6375685334205627,
      "learning_rate": 8.32361588563498e-05,
      "loss": 1.502,
      "step": 68262
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6283695697784424,
      "learning_rate": 8.322893320248649e-05,
      "loss": 1.5168,
      "step": 68263
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6153386831283569,
      "learning_rate": 8.322170781175133e-05,
      "loss": 1.5643,
      "step": 68264
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6440369486808777,
      "learning_rate": 8.321448268415299e-05,
      "loss": 1.5011,
      "step": 68265
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6305532455444336,
      "learning_rate": 8.320725781970042e-05,
      "loss": 1.5585,
      "step": 68266
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6023109555244446,
      "learning_rate": 8.320003321840222e-05,
      "loss": 1.518,
      "step": 68267
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6391394138336182,
      "learning_rate": 8.31928088802673e-05,
      "loss": 1.4438,
      "step": 68268
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6558040380477905,
      "learning_rate": 8.318558480530428e-05,
      "loss": 1.5117,
      "step": 68269
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6318711638450623,
      "learning_rate": 8.317836099352213e-05,
      "loss": 1.5074,
      "step": 68270
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6461361050605774,
      "learning_rate": 8.317113744492947e-05,
      "loss": 1.5317,
      "step": 68271
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6154985427856445,
      "learning_rate": 8.316391415953502e-05,
      "loss": 1.564,
      "step": 68272
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6167132258415222,
      "learning_rate": 8.315669113734773e-05,
      "loss": 1.5746,
      "step": 68273
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6044365763664246,
      "learning_rate": 8.314946837837614e-05,
      "loss": 1.5453,
      "step": 68274
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6149408221244812,
      "learning_rate": 8.314224588262926e-05,
      "loss": 1.6283,
      "step": 68275
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5997375845909119,
      "learning_rate": 8.313502365011576e-05,
      "loss": 1.539,
      "step": 68276
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6622904539108276,
      "learning_rate": 8.312780168084425e-05,
      "loss": 1.5751,
      "step": 68277
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6354252099990845,
      "learning_rate": 8.312057997482376e-05,
      "loss": 1.5957,
      "step": 68278
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6355754733085632,
      "learning_rate": 8.311335853206286e-05,
      "loss": 1.5541,
      "step": 68279
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6205317378044128,
      "learning_rate": 8.310613735257043e-05,
      "loss": 1.5077,
      "step": 68280
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6209226250648499,
      "learning_rate": 8.309891643635512e-05,
      "loss": 1.5594,
      "step": 68281
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6628484725952148,
      "learning_rate": 8.309169578342585e-05,
      "loss": 1.511,
      "step": 68282
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.631149411201477,
      "learning_rate": 8.308447539379133e-05,
      "loss": 1.5337,
      "step": 68283
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6291669607162476,
      "learning_rate": 8.307725526746018e-05,
      "loss": 1.5206,
      "step": 68284
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6408534646034241,
      "learning_rate": 8.307003540444138e-05,
      "loss": 1.4891,
      "step": 68285
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6193873882293701,
      "learning_rate": 8.306281580474358e-05,
      "loss": 1.52,
      "step": 68286
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6569942235946655,
      "learning_rate": 8.305559646837546e-05,
      "loss": 1.5038,
      "step": 68287
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6306191086769104,
      "learning_rate": 8.30483773953459e-05,
      "loss": 1.5652,
      "step": 68288
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6432210206985474,
      "learning_rate": 8.304115858566375e-05,
      "loss": 1.4951,
      "step": 68289
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6329752206802368,
      "learning_rate": 8.303394003933763e-05,
      "loss": 1.4903,
      "step": 68290
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6267988681793213,
      "learning_rate": 8.302672175637628e-05,
      "loss": 1.5446,
      "step": 68291
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6576842665672302,
      "learning_rate": 8.301950373678858e-05,
      "loss": 1.4954,
      "step": 68292
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6381123065948486,
      "learning_rate": 8.301228598058323e-05,
      "loss": 1.559,
      "step": 68293
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6102504134178162,
      "learning_rate": 8.300506848776893e-05,
      "loss": 1.4871,
      "step": 68294
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6305520534515381,
      "learning_rate": 8.29978512583545e-05,
      "loss": 1.572,
      "step": 68295
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6186696290969849,
      "learning_rate": 8.299063429234879e-05,
      "loss": 1.5042,
      "step": 68296
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6269291043281555,
      "learning_rate": 8.298341758976047e-05,
      "loss": 1.5095,
      "step": 68297
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6186984181404114,
      "learning_rate": 8.297620115059823e-05,
      "loss": 1.4447,
      "step": 68298
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6385359764099121,
      "learning_rate": 8.296898497487096e-05,
      "loss": 1.4852,
      "step": 68299
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6299843788146973,
      "learning_rate": 8.29617690625874e-05,
      "loss": 1.4699,
      "step": 68300
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6128697991371155,
      "learning_rate": 8.295455341375617e-05,
      "loss": 1.5511,
      "step": 68301
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6327736973762512,
      "learning_rate": 8.294733802838614e-05,
      "loss": 1.4817,
      "step": 68302
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6307995319366455,
      "learning_rate": 8.294012290648614e-05,
      "loss": 1.5522,
      "step": 68303
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6318156719207764,
      "learning_rate": 8.293290804806484e-05,
      "loss": 1.485,
      "step": 68304
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6359249949455261,
      "learning_rate": 8.292569345313093e-05,
      "loss": 1.5353,
      "step": 68305
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6555781364440918,
      "learning_rate": 8.291847912169332e-05,
      "loss": 1.5817,
      "step": 68306
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6177002191543579,
      "learning_rate": 8.291126505376074e-05,
      "loss": 1.5234,
      "step": 68307
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6146222352981567,
      "learning_rate": 8.290405124934176e-05,
      "loss": 1.5002,
      "step": 68308
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6146525144577026,
      "learning_rate": 8.289683770844527e-05,
      "loss": 1.5689,
      "step": 68309
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6224027872085571,
      "learning_rate": 8.288962443108012e-05,
      "loss": 1.5617,
      "step": 68310
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6159377098083496,
      "learning_rate": 8.2882411417255e-05,
      "loss": 1.4847,
      "step": 68311
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6135180592536926,
      "learning_rate": 8.287519866697856e-05,
      "loss": 1.5606,
      "step": 68312
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6248818039894104,
      "learning_rate": 8.286798618025969e-05,
      "loss": 1.4869,
      "step": 68313
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.633435845375061,
      "learning_rate": 8.286077395710713e-05,
      "loss": 1.589,
      "step": 68314
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6221925616264343,
      "learning_rate": 8.285356199752949e-05,
      "loss": 1.5516,
      "step": 68315
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6286592483520508,
      "learning_rate": 8.284635030153572e-05,
      "loss": 1.5464,
      "step": 68316
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6455804109573364,
      "learning_rate": 8.283913886913438e-05,
      "loss": 1.6193,
      "step": 68317
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6393758058547974,
      "learning_rate": 8.283192770033446e-05,
      "loss": 1.5756,
      "step": 68318
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6373056173324585,
      "learning_rate": 8.282471679514443e-05,
      "loss": 1.5734,
      "step": 68319
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6260867714881897,
      "learning_rate": 8.281750615357334e-05,
      "loss": 1.5436,
      "step": 68320
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6121618151664734,
      "learning_rate": 8.281029577562979e-05,
      "loss": 1.5384,
      "step": 68321
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6482439041137695,
      "learning_rate": 8.280308566132242e-05,
      "loss": 1.5334,
      "step": 68322
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.630609929561615,
      "learning_rate": 8.27958758106602e-05,
      "loss": 1.483,
      "step": 68323
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6177335381507874,
      "learning_rate": 8.278866622365171e-05,
      "loss": 1.5309,
      "step": 68324
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6477871537208557,
      "learning_rate": 8.278145690030583e-05,
      "loss": 1.5344,
      "step": 68325
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6422961354255676,
      "learning_rate": 8.277424784063128e-05,
      "loss": 1.5569,
      "step": 68326
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6337717175483704,
      "learning_rate": 8.276703904463671e-05,
      "loss": 1.5013,
      "step": 68327
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.605438768863678,
      "learning_rate": 8.275983051233104e-05,
      "loss": 1.5292,
      "step": 68328
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.619749903678894,
      "learning_rate": 8.27526222437228e-05,
      "loss": 1.5622,
      "step": 68329
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.611198902130127,
      "learning_rate": 8.274541423882099e-05,
      "loss": 1.5106,
      "step": 68330
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6226469278335571,
      "learning_rate": 8.273820649763412e-05,
      "loss": 1.5173,
      "step": 68331
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6296452879905701,
      "learning_rate": 8.273099902017116e-05,
      "loss": 1.5541,
      "step": 68332
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.623114824295044,
      "learning_rate": 8.272379180644074e-05,
      "loss": 1.5069,
      "step": 68333
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6189689040184021,
      "learning_rate": 8.271658485645156e-05,
      "loss": 1.5876,
      "step": 68334
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6275132298469543,
      "learning_rate": 8.270937817021251e-05,
      "loss": 1.4683,
      "step": 68335
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6338875889778137,
      "learning_rate": 8.270217174773216e-05,
      "loss": 1.5232,
      "step": 68336
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6489914059638977,
      "learning_rate": 8.269496558901945e-05,
      "loss": 1.5084,
      "step": 68337
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6295747756958008,
      "learning_rate": 8.268775969408294e-05,
      "loss": 1.5194,
      "step": 68338
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6384614109992981,
      "learning_rate": 8.268055406293158e-05,
      "loss": 1.5754,
      "step": 68339
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6612558960914612,
      "learning_rate": 8.267334869557399e-05,
      "loss": 1.5321,
      "step": 68340
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6387293338775635,
      "learning_rate": 8.266614359201883e-05,
      "loss": 1.5794,
      "step": 68341
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6253246665000916,
      "learning_rate": 8.265893875227505e-05,
      "loss": 1.5649,
      "step": 68342
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6411646604537964,
      "learning_rate": 8.26517341763513e-05,
      "loss": 1.5024,
      "step": 68343
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6358129382133484,
      "learning_rate": 8.264452986425625e-05,
      "loss": 1.4949,
      "step": 68344
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6422858834266663,
      "learning_rate": 8.263732581599868e-05,
      "loss": 1.5732,
      "step": 68345
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6641387939453125,
      "learning_rate": 8.263012203158746e-05,
      "loss": 1.5678,
      "step": 68346
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6323553323745728,
      "learning_rate": 8.262291851103127e-05,
      "loss": 1.5246,
      "step": 68347
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6337689161300659,
      "learning_rate": 8.261571525433872e-05,
      "loss": 1.5023,
      "step": 68348
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6166410446166992,
      "learning_rate": 8.260851226151875e-05,
      "loss": 1.4954,
      "step": 68349
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6182010769844055,
      "learning_rate": 8.260130953258003e-05,
      "loss": 1.577,
      "step": 68350
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.637046754360199,
      "learning_rate": 8.25941070675312e-05,
      "loss": 1.5979,
      "step": 68351
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6647599935531616,
      "learning_rate": 8.258690486638105e-05,
      "loss": 1.4969,
      "step": 68352
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6336615085601807,
      "learning_rate": 8.257970292913859e-05,
      "loss": 1.5616,
      "step": 68353
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6239789128303528,
      "learning_rate": 8.257250125581213e-05,
      "loss": 1.4608,
      "step": 68354
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6233727335929871,
      "learning_rate": 8.256529984641062e-05,
      "loss": 1.5117,
      "step": 68355
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6317788362503052,
      "learning_rate": 8.25580987009429e-05,
      "loss": 1.4746,
      "step": 68356
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6440541744232178,
      "learning_rate": 8.255089781941761e-05,
      "loss": 1.5889,
      "step": 68357
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6404587626457214,
      "learning_rate": 8.254369720184338e-05,
      "loss": 1.5498,
      "step": 68358
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6300994157791138,
      "learning_rate": 8.25364968482291e-05,
      "loss": 1.4743,
      "step": 68359
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6566019654273987,
      "learning_rate": 8.252929675858359e-05,
      "loss": 1.5454,
      "step": 68360
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6540908813476562,
      "learning_rate": 8.252209693291534e-05,
      "loss": 1.533,
      "step": 68361
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6069149971008301,
      "learning_rate": 8.251489737123322e-05,
      "loss": 1.4425,
      "step": 68362
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6697646379470825,
      "learning_rate": 8.250769807354605e-05,
      "loss": 1.6217,
      "step": 68363
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6448699235916138,
      "learning_rate": 8.250049903986247e-05,
      "loss": 1.5444,
      "step": 68364
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6294177174568176,
      "learning_rate": 8.249330027019117e-05,
      "loss": 1.5087,
      "step": 68365
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6569802165031433,
      "learning_rate": 8.248610176454094e-05,
      "loss": 1.6271,
      "step": 68366
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6488395929336548,
      "learning_rate": 8.247890352292074e-05,
      "loss": 1.5287,
      "step": 68367
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6474241614341736,
      "learning_rate": 8.24717055453389e-05,
      "loss": 1.508,
      "step": 68368
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6613413095474243,
      "learning_rate": 8.246450783180433e-05,
      "loss": 1.521,
      "step": 68369
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.608320415019989,
      "learning_rate": 8.245731038232592e-05,
      "loss": 1.4815,
      "step": 68370
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6139882802963257,
      "learning_rate": 8.245011319691228e-05,
      "loss": 1.5716,
      "step": 68371
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6328339576721191,
      "learning_rate": 8.244291627557207e-05,
      "loss": 1.5478,
      "step": 68372
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6377716064453125,
      "learning_rate": 8.243571961831418e-05,
      "loss": 1.5914,
      "step": 68373
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6346486806869507,
      "learning_rate": 8.242852322514727e-05,
      "loss": 1.5023,
      "step": 68374
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6057826280593872,
      "learning_rate": 8.242132709607997e-05,
      "loss": 1.4739,
      "step": 68375
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6546493172645569,
      "learning_rate": 8.241413123112114e-05,
      "loss": 1.4499,
      "step": 68376
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6217557191848755,
      "learning_rate": 8.240693563027958e-05,
      "loss": 1.4957,
      "step": 68377
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.6295921802520752,
      "learning_rate": 8.239974029356393e-05,
      "loss": 1.5575,
      "step": 68378
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.638684868812561,
      "learning_rate": 8.239254522098286e-05,
      "loss": 1.5534,
      "step": 68379
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6257091164588928,
      "learning_rate": 8.238535041254526e-05,
      "loss": 1.5349,
      "step": 68380
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6075924634933472,
      "learning_rate": 8.237815586825976e-05,
      "loss": 1.5547,
      "step": 68381
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6150169372558594,
      "learning_rate": 8.237096158813506e-05,
      "loss": 1.5092,
      "step": 68382
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6315555572509766,
      "learning_rate": 8.236376757218002e-05,
      "loss": 1.5126,
      "step": 68383
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6182719469070435,
      "learning_rate": 8.235657382040322e-05,
      "loss": 1.4309,
      "step": 68384
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6158580183982849,
      "learning_rate": 8.234938033281355e-05,
      "loss": 1.5381,
      "step": 68385
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6445271968841553,
      "learning_rate": 8.234218710941956e-05,
      "loss": 1.5363,
      "step": 68386
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6189692616462708,
      "learning_rate": 8.233499415023018e-05,
      "loss": 1.5028,
      "step": 68387
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6442958116531372,
      "learning_rate": 8.232780145525406e-05,
      "loss": 1.5307,
      "step": 68388
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6419426798820496,
      "learning_rate": 8.232060902449982e-05,
      "loss": 1.5284,
      "step": 68389
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6563270092010498,
      "learning_rate": 8.231341685797638e-05,
      "loss": 1.5018,
      "step": 68390
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6413156390190125,
      "learning_rate": 8.230622495569227e-05,
      "loss": 1.4971,
      "step": 68391
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6169813275337219,
      "learning_rate": 8.229903331765645e-05,
      "loss": 1.6004,
      "step": 68392
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6337983012199402,
      "learning_rate": 8.22918419438775e-05,
      "loss": 1.5317,
      "step": 68393
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6559777855873108,
      "learning_rate": 8.228465083436409e-05,
      "loss": 1.5003,
      "step": 68394
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6280438303947449,
      "learning_rate": 8.227745998912513e-05,
      "loss": 1.5174,
      "step": 68395
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.7490188479423523,
      "learning_rate": 8.227026940816916e-05,
      "loss": 1.5377,
      "step": 68396
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6149823665618896,
      "learning_rate": 8.22630790915051e-05,
      "loss": 1.5502,
      "step": 68397
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6507682800292969,
      "learning_rate": 8.22558890391415e-05,
      "loss": 1.5194,
      "step": 68398
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6388424038887024,
      "learning_rate": 8.224869925108721e-05,
      "loss": 1.5645,
      "step": 68399
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6175671815872192,
      "learning_rate": 8.224150972735096e-05,
      "loss": 1.49,
      "step": 68400
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.641420841217041,
      "learning_rate": 8.223432046794134e-05,
      "loss": 1.5252,
      "step": 68401
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6382141709327698,
      "learning_rate": 8.222713147286723e-05,
      "loss": 1.5687,
      "step": 68402
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6318492889404297,
      "learning_rate": 8.221994274213732e-05,
      "loss": 1.5734,
      "step": 68403
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6520245671272278,
      "learning_rate": 8.221275427576022e-05,
      "loss": 1.5026,
      "step": 68404
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6720803380012512,
      "learning_rate": 8.220556607374474e-05,
      "loss": 1.5611,
      "step": 68405
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6111670732498169,
      "learning_rate": 8.219837813609972e-05,
      "loss": 1.5343,
      "step": 68406
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6283748745918274,
      "learning_rate": 8.219119046283375e-05,
      "loss": 1.5785,
      "step": 68407
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.5945215821266174,
      "learning_rate": 8.218400305395548e-05,
      "loss": 1.4936,
      "step": 68408
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6282740235328674,
      "learning_rate": 8.217681590947386e-05,
      "loss": 1.491,
      "step": 68409
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6152218580245972,
      "learning_rate": 8.21696290293975e-05,
      "loss": 1.505,
      "step": 68410
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6371170878410339,
      "learning_rate": 8.216244241373499e-05,
      "loss": 1.4928,
      "step": 68411
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6438765525817871,
      "learning_rate": 8.215525606249521e-05,
      "loss": 1.5266,
      "step": 68412
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6201851963996887,
      "learning_rate": 8.214806997568691e-05,
      "loss": 1.4296,
      "step": 68413
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6271675229072571,
      "learning_rate": 8.214088415331877e-05,
      "loss": 1.5941,
      "step": 68414
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6197713017463684,
      "learning_rate": 8.213369859539939e-05,
      "loss": 1.5905,
      "step": 68415
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6427327394485474,
      "learning_rate": 8.21265133019377e-05,
      "loss": 1.5059,
      "step": 68416
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6283292770385742,
      "learning_rate": 8.211932827294234e-05,
      "loss": 1.5347,
      "step": 68417
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6319100856781006,
      "learning_rate": 8.21121435084219e-05,
      "loss": 1.5332,
      "step": 68418
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6564314365386963,
      "learning_rate": 8.210495900838524e-05,
      "loss": 1.3661,
      "step": 68419
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6271229982376099,
      "learning_rate": 8.209777477284111e-05,
      "loss": 1.5002,
      "step": 68420
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.633338451385498,
      "learning_rate": 8.20905908017982e-05,
      "loss": 1.5325,
      "step": 68421
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6520459651947021,
      "learning_rate": 8.20834070952651e-05,
      "loss": 1.561,
      "step": 68422
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6345208883285522,
      "learning_rate": 8.207622365325074e-05,
      "loss": 1.5414,
      "step": 68423
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6389474272727966,
      "learning_rate": 8.206904047576371e-05,
      "loss": 1.6269,
      "step": 68424
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6595779061317444,
      "learning_rate": 8.206185756281269e-05,
      "loss": 1.5283,
      "step": 68425
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6263524889945984,
      "learning_rate": 8.205467491440644e-05,
      "loss": 1.5529,
      "step": 68426
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.650368332862854,
      "learning_rate": 8.20474925305538e-05,
      "loss": 1.5747,
      "step": 68427
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6250478029251099,
      "learning_rate": 8.20403104112634e-05,
      "loss": 1.5177,
      "step": 68428
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6233118176460266,
      "learning_rate": 8.203312855654385e-05,
      "loss": 1.5434,
      "step": 68429
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6772096157073975,
      "learning_rate": 8.202594696640408e-05,
      "loss": 1.5271,
      "step": 68430
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6453970670700073,
      "learning_rate": 8.201876564085265e-05,
      "loss": 1.5818,
      "step": 68431
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6584038734436035,
      "learning_rate": 8.201158457989825e-05,
      "loss": 1.51,
      "step": 68432
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6323931813240051,
      "learning_rate": 8.200440378354978e-05,
      "loss": 1.4768,
      "step": 68433
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6302549242973328,
      "learning_rate": 8.199722325181574e-05,
      "loss": 1.5243,
      "step": 68434
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6277083158493042,
      "learning_rate": 8.199004298470502e-05,
      "loss": 1.5401,
      "step": 68435
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6195976138114929,
      "learning_rate": 8.198286298222618e-05,
      "loss": 1.4997,
      "step": 68436
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6441855430603027,
      "learning_rate": 8.197568324438812e-05,
      "loss": 1.5366,
      "step": 68437
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6188285946846008,
      "learning_rate": 8.196850377119946e-05,
      "loss": 1.4929,
      "step": 68438
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6242461204528809,
      "learning_rate": 8.196132456266881e-05,
      "loss": 1.5016,
      "step": 68439
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.611819863319397,
      "learning_rate": 8.19541456188051e-05,
      "loss": 1.5114,
      "step": 68440
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6315550208091736,
      "learning_rate": 8.194696693961681e-05,
      "loss": 1.4833,
      "step": 68441
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.8674314022064209,
      "learning_rate": 8.19397885251129e-05,
      "loss": 1.5602,
      "step": 68442
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6535574793815613,
      "learning_rate": 8.193261037530191e-05,
      "loss": 1.5733,
      "step": 68443
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.647072970867157,
      "learning_rate": 8.192543249019256e-05,
      "loss": 1.4705,
      "step": 68444
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6371550559997559,
      "learning_rate": 8.191825486979366e-05,
      "loss": 1.5298,
      "step": 68445
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6401365995407104,
      "learning_rate": 8.191107751411376e-05,
      "loss": 1.5398,
      "step": 68446
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6327983736991882,
      "learning_rate": 8.190390042316178e-05,
      "loss": 1.5003,
      "step": 68447
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6339983344078064,
      "learning_rate": 8.189672359694627e-05,
      "loss": 1.52,
      "step": 68448
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6126397252082825,
      "learning_rate": 8.188954703547608e-05,
      "loss": 1.5456,
      "step": 68449
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6355316042900085,
      "learning_rate": 8.188237073875984e-05,
      "loss": 1.4706,
      "step": 68450
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6588966846466064,
      "learning_rate": 8.187519470680615e-05,
      "loss": 1.547,
      "step": 68451
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6235350370407104,
      "learning_rate": 8.186801893962395e-05,
      "loss": 1.6115,
      "step": 68452
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.651982307434082,
      "learning_rate": 8.186084343722174e-05,
      "loss": 1.5608,
      "step": 68453
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6268846392631531,
      "learning_rate": 8.18536681996084e-05,
      "loss": 1.5919,
      "step": 68454
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6135470867156982,
      "learning_rate": 8.184649322679249e-05,
      "loss": 1.5024,
      "step": 68455
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6197890043258667,
      "learning_rate": 8.183931851878288e-05,
      "loss": 1.5317,
      "step": 68456
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6179708242416382,
      "learning_rate": 8.183214407558821e-05,
      "loss": 1.5343,
      "step": 68457
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.630073606967926,
      "learning_rate": 8.182496989721705e-05,
      "loss": 1.5189,
      "step": 68458
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6303895115852356,
      "learning_rate": 8.181779598367832e-05,
      "loss": 1.4557,
      "step": 68459
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6424571871757507,
      "learning_rate": 8.181062233498066e-05,
      "loss": 1.4914,
      "step": 68460
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.625488817691803,
      "learning_rate": 8.180344895113266e-05,
      "loss": 1.5305,
      "step": 68461
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6160246133804321,
      "learning_rate": 8.179627583214314e-05,
      "loss": 1.475,
      "step": 68462
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6239992380142212,
      "learning_rate": 8.178910297802084e-05,
      "loss": 1.5138,
      "step": 68463
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6077003479003906,
      "learning_rate": 8.178193038877444e-05,
      "loss": 1.5476,
      "step": 68464
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.60041344165802,
      "learning_rate": 8.177475806441255e-05,
      "loss": 1.4614,
      "step": 68465
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.626787543296814,
      "learning_rate": 8.176758600494402e-05,
      "loss": 1.4981,
      "step": 68466
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6372215747833252,
      "learning_rate": 8.176041421037748e-05,
      "loss": 1.5553,
      "step": 68467
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6188545227050781,
      "learning_rate": 8.175324268072155e-05,
      "loss": 1.4679,
      "step": 68468
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6473608613014221,
      "learning_rate": 8.174607141598505e-05,
      "loss": 1.5392,
      "step": 68469
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6735336780548096,
      "learning_rate": 8.173890041617682e-05,
      "loss": 1.5593,
      "step": 68470
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6562594771385193,
      "learning_rate": 8.173172968130524e-05,
      "loss": 1.554,
      "step": 68471
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6641234159469604,
      "learning_rate": 8.172455921137918e-05,
      "loss": 1.5827,
      "step": 68472
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6454475522041321,
      "learning_rate": 8.171738900640741e-05,
      "loss": 1.6033,
      "step": 68473
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6409743428230286,
      "learning_rate": 8.171021906639861e-05,
      "loss": 1.5378,
      "step": 68474
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.624290943145752,
      "learning_rate": 8.170304939136131e-05,
      "loss": 1.5676,
      "step": 68475
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6267818212509155,
      "learning_rate": 8.169587998130435e-05,
      "loss": 1.4782,
      "step": 68476
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.640670120716095,
      "learning_rate": 8.168871083623661e-05,
      "loss": 1.4606,
      "step": 68477
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6213964819908142,
      "learning_rate": 8.168154195616645e-05,
      "loss": 1.5807,
      "step": 68478
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6508657336235046,
      "learning_rate": 8.167437334110272e-05,
      "loss": 1.5027,
      "step": 68479
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6263502836227417,
      "learning_rate": 8.16672049910542e-05,
      "loss": 1.5373,
      "step": 68480
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.639125406742096,
      "learning_rate": 8.166003690602953e-05,
      "loss": 1.5706,
      "step": 68481
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6438371539115906,
      "learning_rate": 8.165286908603735e-05,
      "loss": 1.5281,
      "step": 68482
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6169300079345703,
      "learning_rate": 8.164570153108635e-05,
      "loss": 1.53,
      "step": 68483
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6366725564002991,
      "learning_rate": 8.163853424118554e-05,
      "loss": 1.5864,
      "step": 68484
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.65468430519104,
      "learning_rate": 8.163136721634317e-05,
      "loss": 1.4692,
      "step": 68485
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6061677932739258,
      "learning_rate": 8.162420045656814e-05,
      "loss": 1.4915,
      "step": 68486
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6325388550758362,
      "learning_rate": 8.161703396186922e-05,
      "loss": 1.4839,
      "step": 68487
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.616654098033905,
      "learning_rate": 8.160986773225508e-05,
      "loss": 1.5008,
      "step": 68488
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6519358158111572,
      "learning_rate": 8.16027017677343e-05,
      "loss": 1.5794,
      "step": 68489
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6403008699417114,
      "learning_rate": 8.159553606831573e-05,
      "loss": 1.4936,
      "step": 68490
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6216738820075989,
      "learning_rate": 8.1588370634008e-05,
      "loss": 1.4986,
      "step": 68491
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6268760561943054,
      "learning_rate": 8.15812054648197e-05,
      "loss": 1.4316,
      "step": 68492
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6283033490180969,
      "learning_rate": 8.157404056075968e-05,
      "loss": 1.5901,
      "step": 68493
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6071934103965759,
      "learning_rate": 8.156687592183663e-05,
      "loss": 1.5478,
      "step": 68494
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6387714743614197,
      "learning_rate": 8.155971154805924e-05,
      "loss": 1.5136,
      "step": 68495
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6388207077980042,
      "learning_rate": 8.155254743943606e-05,
      "loss": 1.5275,
      "step": 68496
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6247498989105225,
      "learning_rate": 8.154538359597602e-05,
      "loss": 1.4588,
      "step": 68497
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6280492544174194,
      "learning_rate": 8.15382200176877e-05,
      "loss": 1.5418,
      "step": 68498
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6278250217437744,
      "learning_rate": 8.153105670457967e-05,
      "loss": 1.4725,
      "step": 68499
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6337297558784485,
      "learning_rate": 8.152389365666086e-05,
      "loss": 1.5215,
      "step": 68500
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6275151968002319,
      "learning_rate": 8.151673087393975e-05,
      "loss": 1.543,
      "step": 68501
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.62505042552948,
      "learning_rate": 8.150956835642523e-05,
      "loss": 1.5899,
      "step": 68502
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6257693767547607,
      "learning_rate": 8.150240610412581e-05,
      "loss": 1.535,
      "step": 68503
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6302271485328674,
      "learning_rate": 8.149524411705039e-05,
      "loss": 1.5882,
      "step": 68504
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6233742833137512,
      "learning_rate": 8.148808239520752e-05,
      "loss": 1.5985,
      "step": 68505
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6488089561462402,
      "learning_rate": 8.148092093860585e-05,
      "loss": 1.517,
      "step": 68506
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6288319230079651,
      "learning_rate": 8.147375974725421e-05,
      "loss": 1.4569,
      "step": 68507
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6425581574440002,
      "learning_rate": 8.146659882116115e-05,
      "loss": 1.5382,
      "step": 68508
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6311748027801514,
      "learning_rate": 8.145943816033552e-05,
      "loss": 1.5244,
      "step": 68509
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6070818901062012,
      "learning_rate": 8.145227776478596e-05,
      "loss": 1.57,
      "step": 68510
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6148426532745361,
      "learning_rate": 8.144511763452101e-05,
      "loss": 1.4572,
      "step": 68511
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6619898080825806,
      "learning_rate": 8.14379577695496e-05,
      "loss": 1.5464,
      "step": 68512
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6192042827606201,
      "learning_rate": 8.14307981698802e-05,
      "loss": 1.5135,
      "step": 68513
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6489962339401245,
      "learning_rate": 8.142363883552172e-05,
      "loss": 1.5812,
      "step": 68514
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.609022855758667,
      "learning_rate": 8.14164797664826e-05,
      "loss": 1.559,
      "step": 68515
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.623145580291748,
      "learning_rate": 8.14093209627718e-05,
      "loss": 1.449,
      "step": 68516
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6427223682403564,
      "learning_rate": 8.140216242439787e-05,
      "loss": 1.5482,
      "step": 68517
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.7498910427093506,
      "learning_rate": 8.139500415136941e-05,
      "loss": 1.5698,
      "step": 68518
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6221529245376587,
      "learning_rate": 8.138784614369528e-05,
      "loss": 1.4932,
      "step": 68519
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6394907832145691,
      "learning_rate": 8.138068840138412e-05,
      "loss": 1.5445,
      "step": 68520
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6292778849601746,
      "learning_rate": 8.137353092444449e-05,
      "loss": 1.5339,
      "step": 68521
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6464012265205383,
      "learning_rate": 8.136637371288518e-05,
      "loss": 1.5143,
      "step": 68522
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6333783268928528,
      "learning_rate": 8.135921676671496e-05,
      "loss": 1.4993,
      "step": 68523
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6385820508003235,
      "learning_rate": 8.135206008594242e-05,
      "loss": 1.5021,
      "step": 68524
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6448888778686523,
      "learning_rate": 8.134490367057622e-05,
      "loss": 1.5305,
      "step": 68525
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6526370048522949,
      "learning_rate": 8.133774752062514e-05,
      "loss": 1.4196,
      "step": 68526
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6315209865570068,
      "learning_rate": 8.133059163609784e-05,
      "loss": 1.5346,
      "step": 68527
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.616540789604187,
      "learning_rate": 8.132343601700289e-05,
      "loss": 1.4878,
      "step": 68528
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6122854948043823,
      "learning_rate": 8.131628066334907e-05,
      "loss": 1.4952,
      "step": 68529
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6161772608757019,
      "learning_rate": 8.130912557514513e-05,
      "loss": 1.5304,
      "step": 68530
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6489663124084473,
      "learning_rate": 8.13019707523997e-05,
      "loss": 1.5604,
      "step": 68531
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6178010106086731,
      "learning_rate": 8.129481619512139e-05,
      "loss": 1.482,
      "step": 68532
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.644419252872467,
      "learning_rate": 8.1287661903319e-05,
      "loss": 1.5373,
      "step": 68533
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6322285532951355,
      "learning_rate": 8.128050787700119e-05,
      "loss": 1.5051,
      "step": 68534
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6595916152000427,
      "learning_rate": 8.12733541161765e-05,
      "loss": 1.5775,
      "step": 68535
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6499121785163879,
      "learning_rate": 8.126620062085377e-05,
      "loss": 1.5381,
      "step": 68536
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6504890322685242,
      "learning_rate": 8.125904739104168e-05,
      "loss": 1.5485,
      "step": 68537
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.643257200717926,
      "learning_rate": 8.12518944267489e-05,
      "loss": 1.6138,
      "step": 68538
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6242779493331909,
      "learning_rate": 8.124474172798403e-05,
      "loss": 1.5822,
      "step": 68539
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6162800788879395,
      "learning_rate": 8.123758929475588e-05,
      "loss": 1.5118,
      "step": 68540
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6157916784286499,
      "learning_rate": 8.123043712707304e-05,
      "loss": 1.5641,
      "step": 68541
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6185981631278992,
      "learning_rate": 8.122328522494416e-05,
      "loss": 1.4843,
      "step": 68542
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6316861510276794,
      "learning_rate": 8.121613358837798e-05,
      "loss": 1.5226,
      "step": 68543
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6210886836051941,
      "learning_rate": 8.120898221738322e-05,
      "loss": 1.5449,
      "step": 68544
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6369497776031494,
      "learning_rate": 8.120183111196856e-05,
      "loss": 1.5235,
      "step": 68545
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6358293294906616,
      "learning_rate": 8.119468027214255e-05,
      "loss": 1.4926,
      "step": 68546
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6387549638748169,
      "learning_rate": 8.118752969791402e-05,
      "loss": 1.4702,
      "step": 68547
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6521949172019958,
      "learning_rate": 8.118037938929162e-05,
      "loss": 1.5656,
      "step": 68548
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6048950552940369,
      "learning_rate": 8.11732293462839e-05,
      "loss": 1.5296,
      "step": 68549
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6398494839668274,
      "learning_rate": 8.116607956889969e-05,
      "loss": 1.5429,
      "step": 68550
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.9181856513023376,
      "learning_rate": 8.115893005714756e-05,
      "loss": 1.5957,
      "step": 68551
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6484513282775879,
      "learning_rate": 8.115178081103635e-05,
      "loss": 1.5406,
      "step": 68552
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6237557530403137,
      "learning_rate": 8.114463183057451e-05,
      "loss": 1.4952,
      "step": 68553
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6407028436660767,
      "learning_rate": 8.113748311577095e-05,
      "loss": 1.5284,
      "step": 68554
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6481508612632751,
      "learning_rate": 8.113033466663423e-05,
      "loss": 1.4537,
      "step": 68555
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6328461766242981,
      "learning_rate": 8.112318648317294e-05,
      "loss": 1.6098,
      "step": 68556
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6369028091430664,
      "learning_rate": 8.111603856539594e-05,
      "loss": 1.5652,
      "step": 68557
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6133621335029602,
      "learning_rate": 8.110889091331174e-05,
      "loss": 1.5068,
      "step": 68558
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6632902026176453,
      "learning_rate": 8.110174352692915e-05,
      "loss": 1.5043,
      "step": 68559
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6289485692977905,
      "learning_rate": 8.109459640625683e-05,
      "loss": 1.4822,
      "step": 68560
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6540915369987488,
      "learning_rate": 8.108744955130332e-05,
      "loss": 1.5782,
      "step": 68561
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6450739502906799,
      "learning_rate": 8.108030296207748e-05,
      "loss": 1.4446,
      "step": 68562
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6376962065696716,
      "learning_rate": 8.107315663858778e-05,
      "loss": 1.5983,
      "step": 68563
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6362412571907043,
      "learning_rate": 8.106601058084313e-05,
      "loss": 1.5535,
      "step": 68564
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6551823616027832,
      "learning_rate": 8.105886478885197e-05,
      "loss": 1.5662,
      "step": 68565
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6693594455718994,
      "learning_rate": 8.105171926262322e-05,
      "loss": 1.6157,
      "step": 68566
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6256735324859619,
      "learning_rate": 8.104457400216538e-05,
      "loss": 1.5657,
      "step": 68567
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6239249110221863,
      "learning_rate": 8.10374290074871e-05,
      "loss": 1.4742,
      "step": 68568
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6176564693450928,
      "learning_rate": 8.103028427859719e-05,
      "loss": 1.5314,
      "step": 68569
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6277822852134705,
      "learning_rate": 8.102313981550419e-05,
      "loss": 1.5221,
      "step": 68570
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6211223006248474,
      "learning_rate": 8.10159956182169e-05,
      "loss": 1.5097,
      "step": 68571
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6186473965644836,
      "learning_rate": 8.100885168674384e-05,
      "loss": 1.5497,
      "step": 68572
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.601634681224823,
      "learning_rate": 8.100170802109385e-05,
      "loss": 1.5934,
      "step": 68573
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6157025098800659,
      "learning_rate": 8.099456462127553e-05,
      "loss": 1.5313,
      "step": 68574
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6108248829841614,
      "learning_rate": 8.098742148729745e-05,
      "loss": 1.5363,
      "step": 68575
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6490657329559326,
      "learning_rate": 8.098027861916847e-05,
      "loss": 1.524,
      "step": 68576
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6222682595252991,
      "learning_rate": 8.097313601689714e-05,
      "loss": 1.6054,
      "step": 68577
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6491502523422241,
      "learning_rate": 8.096599368049206e-05,
      "loss": 1.5132,
      "step": 68578
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6106185913085938,
      "learning_rate": 8.0958851609962e-05,
      "loss": 1.4217,
      "step": 68579
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6469143629074097,
      "learning_rate": 8.095170980531574e-05,
      "loss": 1.5565,
      "step": 68580
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.606582522392273,
      "learning_rate": 8.094456826656177e-05,
      "loss": 1.5186,
      "step": 68581
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6378359198570251,
      "learning_rate": 8.093742699370877e-05,
      "loss": 1.5886,
      "step": 68582
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.663629412651062,
      "learning_rate": 8.09302859867655e-05,
      "loss": 1.5756,
      "step": 68583
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6410210132598877,
      "learning_rate": 8.092314524574063e-05,
      "loss": 1.5488,
      "step": 68584
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6160033941268921,
      "learning_rate": 8.09160047706427e-05,
      "loss": 1.5188,
      "step": 68585
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6405574679374695,
      "learning_rate": 8.090886456148044e-05,
      "loss": 1.5397,
      "step": 68586
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6246626377105713,
      "learning_rate": 8.090172461826271e-05,
      "loss": 1.5246,
      "step": 68587
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6206302046775818,
      "learning_rate": 8.089458494099781e-05,
      "loss": 1.541,
      "step": 68588
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6158132553100586,
      "learning_rate": 8.088744552969463e-05,
      "loss": 1.5149,
      "step": 68589
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6347625255584717,
      "learning_rate": 8.088030638436189e-05,
      "loss": 1.5626,
      "step": 68590
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.621385931968689,
      "learning_rate": 8.087316750500816e-05,
      "loss": 1.4547,
      "step": 68591
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6456089019775391,
      "learning_rate": 8.086602889164203e-05,
      "loss": 1.4771,
      "step": 68592
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6293224096298218,
      "learning_rate": 8.085889054427225e-05,
      "loss": 1.5343,
      "step": 68593
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6385762095451355,
      "learning_rate": 8.08517524629077e-05,
      "loss": 1.5657,
      "step": 68594
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6413966417312622,
      "learning_rate": 8.084461464755662e-05,
      "loss": 1.6048,
      "step": 68595
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6460495591163635,
      "learning_rate": 8.08374770982279e-05,
      "loss": 1.5339,
      "step": 68596
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6220801472663879,
      "learning_rate": 8.083033981493027e-05,
      "loss": 1.5701,
      "step": 68597
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6404024362564087,
      "learning_rate": 8.082320279767233e-05,
      "loss": 1.5336,
      "step": 68598
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6395831108093262,
      "learning_rate": 8.081606604646263e-05,
      "loss": 1.5525,
      "step": 68599
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6487317681312561,
      "learning_rate": 8.080892956130993e-05,
      "loss": 1.4799,
      "step": 68600
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6263379454612732,
      "learning_rate": 8.080179334222308e-05,
      "loss": 1.5478,
      "step": 68601
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6304621696472168,
      "learning_rate": 8.079465738921036e-05,
      "loss": 1.4878,
      "step": 68602
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6091339588165283,
      "learning_rate": 8.078752170228064e-05,
      "loss": 1.5121,
      "step": 68603
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6321627497673035,
      "learning_rate": 8.078038628144266e-05,
      "loss": 1.4793,
      "step": 68604
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6294347047805786,
      "learning_rate": 8.077325112670497e-05,
      "loss": 1.5681,
      "step": 68605
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6308872699737549,
      "learning_rate": 8.076611623807619e-05,
      "loss": 1.5631,
      "step": 68606
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6092131733894348,
      "learning_rate": 8.07589816155651e-05,
      "loss": 1.5243,
      "step": 68607
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.61953204870224,
      "learning_rate": 8.075184725918035e-05,
      "loss": 1.485,
      "step": 68608
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6445906162261963,
      "learning_rate": 8.074471316893043e-05,
      "loss": 1.5327,
      "step": 68609
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6386231780052185,
      "learning_rate": 8.073757934482412e-05,
      "loss": 1.4562,
      "step": 68610
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6323999166488647,
      "learning_rate": 8.073044578687018e-05,
      "loss": 1.523,
      "step": 68611
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6348718404769897,
      "learning_rate": 8.072331249507716e-05,
      "loss": 1.5476,
      "step": 68612
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6281912326812744,
      "learning_rate": 8.071617946945367e-05,
      "loss": 1.5029,
      "step": 68613
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6231149435043335,
      "learning_rate": 8.070904671000849e-05,
      "loss": 1.4779,
      "step": 68614
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6276805400848389,
      "learning_rate": 8.070191421675021e-05,
      "loss": 1.5764,
      "step": 68615
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6325021982192993,
      "learning_rate": 8.069478198968742e-05,
      "loss": 1.5363,
      "step": 68616
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6527537107467651,
      "learning_rate": 8.068765002882895e-05,
      "loss": 1.56,
      "step": 68617
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.645318329334259,
      "learning_rate": 8.068051833418324e-05,
      "loss": 1.4883,
      "step": 68618
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.615676760673523,
      "learning_rate": 8.067338690575919e-05,
      "loss": 1.4929,
      "step": 68619
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6604220867156982,
      "learning_rate": 8.066625574356523e-05,
      "loss": 1.6316,
      "step": 68620
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.623511016368866,
      "learning_rate": 8.065912484761021e-05,
      "loss": 1.4668,
      "step": 68621
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6214094161987305,
      "learning_rate": 8.065199421790268e-05,
      "loss": 1.5529,
      "step": 68622
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.620492160320282,
      "learning_rate": 8.064486385445124e-05,
      "loss": 1.4672,
      "step": 68623
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6473475098609924,
      "learning_rate": 8.063773375726467e-05,
      "loss": 1.5505,
      "step": 68624
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6371919512748718,
      "learning_rate": 8.06306039263515e-05,
      "loss": 1.6052,
      "step": 68625
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6545425057411194,
      "learning_rate": 8.062347436172056e-05,
      "loss": 1.534,
      "step": 68626
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6080132722854614,
      "learning_rate": 8.061634506338038e-05,
      "loss": 1.4725,
      "step": 68627
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6201197504997253,
      "learning_rate": 8.060921603133955e-05,
      "loss": 1.5375,
      "step": 68628
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6549376249313354,
      "learning_rate": 8.06020872656069e-05,
      "loss": 1.6019,
      "step": 68629
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6290454864501953,
      "learning_rate": 8.059495876619088e-05,
      "loss": 1.4952,
      "step": 68630
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.629060685634613,
      "learning_rate": 8.058783053310035e-05,
      "loss": 1.5088,
      "step": 68631
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.628657341003418,
      "learning_rate": 8.058070256634378e-05,
      "loss": 1.5888,
      "step": 68632
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6204724311828613,
      "learning_rate": 8.057357486593002e-05,
      "loss": 1.5887,
      "step": 68633
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.61357182264328,
      "learning_rate": 8.056644743186757e-05,
      "loss": 1.5088,
      "step": 68634
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6222254633903503,
      "learning_rate": 8.055932026416507e-05,
      "loss": 1.495,
      "step": 68635
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6185312271118164,
      "learning_rate": 8.055219336283128e-05,
      "loss": 1.5623,
      "step": 68636
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6435153484344482,
      "learning_rate": 8.054506672787481e-05,
      "loss": 1.6423,
      "step": 68637
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6419634222984314,
      "learning_rate": 8.053794035930418e-05,
      "loss": 1.5227,
      "step": 68638
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6368135213851929,
      "learning_rate": 8.053081425712817e-05,
      "loss": 1.5568,
      "step": 68639
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6504015326499939,
      "learning_rate": 8.052368842135549e-05,
      "loss": 1.5959,
      "step": 68640
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6515549421310425,
      "learning_rate": 8.051656285199473e-05,
      "loss": 1.5724,
      "step": 68641
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6215999126434326,
      "learning_rate": 8.050943754905444e-05,
      "loss": 1.5359,
      "step": 68642
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6751395463943481,
      "learning_rate": 8.050231251254344e-05,
      "loss": 1.5817,
      "step": 68643
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6381846070289612,
      "learning_rate": 8.049518774247029e-05,
      "loss": 1.5595,
      "step": 68644
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6057999134063721,
      "learning_rate": 8.048806323884354e-05,
      "loss": 1.5023,
      "step": 68645
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6179534196853638,
      "learning_rate": 8.048093900167194e-05,
      "loss": 1.5594,
      "step": 68646
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6147507429122925,
      "learning_rate": 8.047381503096423e-05,
      "loss": 1.5493,
      "step": 68647
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.625808835029602,
      "learning_rate": 8.046669132672896e-05,
      "loss": 1.5103,
      "step": 68648
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.630718469619751,
      "learning_rate": 8.045956788897469e-05,
      "loss": 1.5931,
      "step": 68649
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6336061358451843,
      "learning_rate": 8.045244471771026e-05,
      "loss": 1.5312,
      "step": 68650
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6293389201164246,
      "learning_rate": 8.044532181294419e-05,
      "loss": 1.5499,
      "step": 68651
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6116212606430054,
      "learning_rate": 8.043819917468509e-05,
      "loss": 1.5831,
      "step": 68652
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6267545819282532,
      "learning_rate": 8.043107680294164e-05,
      "loss": 1.4829,
      "step": 68653
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6373072862625122,
      "learning_rate": 8.04239546977226e-05,
      "loss": 1.5482,
      "step": 68654
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6207054853439331,
      "learning_rate": 8.041683285903654e-05,
      "loss": 1.5061,
      "step": 68655
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6109919548034668,
      "learning_rate": 8.040971128689197e-05,
      "loss": 1.5629,
      "step": 68656
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6176199913024902,
      "learning_rate": 8.040258998129779e-05,
      "loss": 1.5251,
      "step": 68657
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6470497846603394,
      "learning_rate": 8.039546894226248e-05,
      "loss": 1.4583,
      "step": 68658
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6399624943733215,
      "learning_rate": 8.038834816979465e-05,
      "loss": 1.5369,
      "step": 68659
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6277626156806946,
      "learning_rate": 8.038122766390296e-05,
      "loss": 1.5535,
      "step": 68660
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.8403272032737732,
      "learning_rate": 8.037410742459625e-05,
      "loss": 1.5386,
      "step": 68661
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6267668008804321,
      "learning_rate": 8.036698745188297e-05,
      "loss": 1.5693,
      "step": 68662
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.638069748878479,
      "learning_rate": 8.035986774577173e-05,
      "loss": 1.5252,
      "step": 68663
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6480416655540466,
      "learning_rate": 8.035274830627134e-05,
      "loss": 1.4854,
      "step": 68664
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6243768930435181,
      "learning_rate": 8.034562913339035e-05,
      "loss": 1.5793,
      "step": 68665
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6346156597137451,
      "learning_rate": 8.03385102271373e-05,
      "loss": 1.5548,
      "step": 68666
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.635376513004303,
      "learning_rate": 8.033139158752102e-05,
      "loss": 1.4888,
      "step": 68667
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6477195620536804,
      "learning_rate": 8.032427321454998e-05,
      "loss": 1.5874,
      "step": 68668
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.643925666809082,
      "learning_rate": 8.031715510823302e-05,
      "loss": 1.5628,
      "step": 68669
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6199123859405518,
      "learning_rate": 8.031003726857856e-05,
      "loss": 1.5436,
      "step": 68670
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6332364678382874,
      "learning_rate": 8.030291969559544e-05,
      "loss": 1.5092,
      "step": 68671
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6435113549232483,
      "learning_rate": 8.029580238929219e-05,
      "loss": 1.5278,
      "step": 68672
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6183249354362488,
      "learning_rate": 8.028868534967737e-05,
      "loss": 1.5701,
      "step": 68673
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6355820894241333,
      "learning_rate": 8.02815685767598e-05,
      "loss": 1.5952,
      "step": 68674
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6337337493896484,
      "learning_rate": 8.027445207054797e-05,
      "loss": 1.5816,
      "step": 68675
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6329393982887268,
      "learning_rate": 8.026733583105063e-05,
      "loss": 1.4572,
      "step": 68676
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.5984303951263428,
      "learning_rate": 8.02602198582764e-05,
      "loss": 1.5173,
      "step": 68677
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6232908964157104,
      "learning_rate": 8.02531041522338e-05,
      "loss": 1.4863,
      "step": 68678
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6207929253578186,
      "learning_rate": 8.024598871293161e-05,
      "loss": 1.5094,
      "step": 68679
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6098136305809021,
      "learning_rate": 8.023887354037836e-05,
      "loss": 1.5145,
      "step": 68680
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6159648895263672,
      "learning_rate": 8.02317586345828e-05,
      "loss": 1.4914,
      "step": 68681
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6146690249443054,
      "learning_rate": 8.022464399555343e-05,
      "loss": 1.5728,
      "step": 68682
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6275817155838013,
      "learning_rate": 8.021752962329904e-05,
      "loss": 1.4724,
      "step": 68683
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6248154640197754,
      "learning_rate": 8.02104155178282e-05,
      "loss": 1.5741,
      "step": 68684
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6349900960922241,
      "learning_rate": 8.02033016791494e-05,
      "loss": 1.576,
      "step": 68685
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.657059371471405,
      "learning_rate": 8.019618810727156e-05,
      "loss": 1.5272,
      "step": 68686
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.629165768623352,
      "learning_rate": 8.018907480220312e-05,
      "loss": 1.4948,
      "step": 68687
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6377630233764648,
      "learning_rate": 8.018196176395267e-05,
      "loss": 1.5073,
      "step": 68688
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6214767694473267,
      "learning_rate": 8.017484899252893e-05,
      "loss": 1.5199,
      "step": 68689
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6338285803794861,
      "learning_rate": 8.01677364879406e-05,
      "loss": 1.5057,
      "step": 68690
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.636283278465271,
      "learning_rate": 8.01606242501963e-05,
      "loss": 1.5017,
      "step": 68691
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6388238668441772,
      "learning_rate": 8.015351227930448e-05,
      "loss": 1.4876,
      "step": 68692
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6178727746009827,
      "learning_rate": 8.014640057527402e-05,
      "loss": 1.564,
      "step": 68693
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6237425804138184,
      "learning_rate": 8.013928913811341e-05,
      "loss": 1.5247,
      "step": 68694
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6324830055236816,
      "learning_rate": 8.013217796783121e-05,
      "loss": 1.6096,
      "step": 68695
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6132640242576599,
      "learning_rate": 8.01250670644362e-05,
      "loss": 1.54,
      "step": 68696
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6346243023872375,
      "learning_rate": 8.011795642793703e-05,
      "loss": 1.5573,
      "step": 68697
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6360609531402588,
      "learning_rate": 8.011084605834224e-05,
      "loss": 1.4431,
      "step": 68698
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6152607798576355,
      "learning_rate": 8.01037359556604e-05,
      "loss": 1.4841,
      "step": 68699
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6057201027870178,
      "learning_rate": 8.009662611990033e-05,
      "loss": 1.5016,
      "step": 68700
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6434407830238342,
      "learning_rate": 8.008951655107054e-05,
      "loss": 1.4675,
      "step": 68701
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6327544450759888,
      "learning_rate": 8.00824072491796e-05,
      "loss": 1.5366,
      "step": 68702
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6365929245948792,
      "learning_rate": 8.00752982142362e-05,
      "loss": 1.5535,
      "step": 68703
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6503875851631165,
      "learning_rate": 8.006818944624918e-05,
      "loss": 1.5034,
      "step": 68704
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6199789047241211,
      "learning_rate": 8.006108094522676e-05,
      "loss": 1.4507,
      "step": 68705
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6419105529785156,
      "learning_rate": 8.005397271117783e-05,
      "loss": 1.5395,
      "step": 68706
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6251538991928101,
      "learning_rate": 8.004686474411103e-05,
      "loss": 1.4327,
      "step": 68707
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6435975432395935,
      "learning_rate": 8.003975704403492e-05,
      "loss": 1.6134,
      "step": 68708
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6183803677558899,
      "learning_rate": 8.003264961095804e-05,
      "loss": 1.5599,
      "step": 68709
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6259669661521912,
      "learning_rate": 8.002554244488914e-05,
      "loss": 1.5685,
      "step": 68710
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6088826656341553,
      "learning_rate": 8.001843554583699e-05,
      "loss": 1.5505,
      "step": 68711
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6386906504631042,
      "learning_rate": 8.001132891380987e-05,
      "loss": 1.5593,
      "step": 68712
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6312602758407593,
      "learning_rate": 8.000422254881658e-05,
      "loss": 1.6046,
      "step": 68713
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6430182456970215,
      "learning_rate": 7.999711645086584e-05,
      "loss": 1.555,
      "step": 68714
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.614757239818573,
      "learning_rate": 7.999001061996618e-05,
      "loss": 1.5171,
      "step": 68715
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6093065738677979,
      "learning_rate": 7.998290505612613e-05,
      "loss": 1.4413,
      "step": 68716
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6256103515625,
      "learning_rate": 7.997579975935442e-05,
      "loss": 1.4982,
      "step": 68717
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6274176239967346,
      "learning_rate": 7.996869472965987e-05,
      "loss": 1.479,
      "step": 68718
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6346763372421265,
      "learning_rate": 7.996158996705069e-05,
      "loss": 1.5713,
      "step": 68719
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6442533135414124,
      "learning_rate": 7.995448547153575e-05,
      "loss": 1.5119,
      "step": 68720
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6153873801231384,
      "learning_rate": 7.994738124312373e-05,
      "loss": 1.5305,
      "step": 68721
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6179459095001221,
      "learning_rate": 7.994027728182315e-05,
      "loss": 1.519,
      "step": 68722
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6106284260749817,
      "learning_rate": 7.993317358764256e-05,
      "loss": 1.5601,
      "step": 68723
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6261739134788513,
      "learning_rate": 7.992607016059079e-05,
      "loss": 1.529,
      "step": 68724
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6331514716148376,
      "learning_rate": 7.99189670006763e-05,
      "loss": 1.4963,
      "step": 68725
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.636262059211731,
      "learning_rate": 7.991186410790772e-05,
      "loss": 1.4784,
      "step": 68726
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6364930868148804,
      "learning_rate": 7.990476148229367e-05,
      "loss": 1.5475,
      "step": 68727
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.615053653717041,
      "learning_rate": 7.98976591238429e-05,
      "loss": 1.4995,
      "step": 68728
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6506661176681519,
      "learning_rate": 7.989055703256396e-05,
      "loss": 1.5798,
      "step": 68729
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6230061054229736,
      "learning_rate": 7.988345520846533e-05,
      "loss": 1.5216,
      "step": 68730
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6387526988983154,
      "learning_rate": 7.987635365155587e-05,
      "loss": 1.5119,
      "step": 68731
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6361992955207825,
      "learning_rate": 7.986925236184407e-05,
      "loss": 1.4727,
      "step": 68732
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6600555181503296,
      "learning_rate": 7.98621513393385e-05,
      "loss": 1.5331,
      "step": 68733
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6255937218666077,
      "learning_rate": 7.985505058404791e-05,
      "loss": 1.4539,
      "step": 68734
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.625573456287384,
      "learning_rate": 7.984795009598077e-05,
      "loss": 1.5513,
      "step": 68735
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6200727820396423,
      "learning_rate": 7.984084987514585e-05,
      "loss": 1.5206,
      "step": 68736
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.621406614780426,
      "learning_rate": 7.983374992155163e-05,
      "loss": 1.5532,
      "step": 68737
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6300153136253357,
      "learning_rate": 7.982665023520688e-05,
      "loss": 1.5137,
      "step": 68738
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6304246187210083,
      "learning_rate": 7.981955081612013e-05,
      "loss": 1.4998,
      "step": 68739
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6401483416557312,
      "learning_rate": 7.981245166429994e-05,
      "loss": 1.5516,
      "step": 68740
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6331952214241028,
      "learning_rate": 7.980535277975507e-05,
      "loss": 1.5373,
      "step": 68741
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6515668630599976,
      "learning_rate": 7.979825416249397e-05,
      "loss": 1.547,
      "step": 68742
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6337788701057434,
      "learning_rate": 7.979115581252542e-05,
      "loss": 1.5622,
      "step": 68743
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.641263484954834,
      "learning_rate": 7.978405772985796e-05,
      "loss": 1.5,
      "step": 68744
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6360089182853699,
      "learning_rate": 7.977695991450013e-05,
      "loss": 1.4995,
      "step": 68745
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6087039709091187,
      "learning_rate": 7.97698623664607e-05,
      "loss": 1.5126,
      "step": 68746
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.605395495891571,
      "learning_rate": 7.97627650857481e-05,
      "loss": 1.593,
      "step": 68747
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6378288865089417,
      "learning_rate": 7.975566807237116e-05,
      "loss": 1.5252,
      "step": 68748
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6306168437004089,
      "learning_rate": 7.974857132633833e-05,
      "loss": 1.4606,
      "step": 68749
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6196668744087219,
      "learning_rate": 7.974147484765834e-05,
      "loss": 1.5111,
      "step": 68750
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6741558909416199,
      "learning_rate": 7.973437863633975e-05,
      "loss": 1.6099,
      "step": 68751
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6352590918540955,
      "learning_rate": 7.972728269239108e-05,
      "loss": 1.4568,
      "step": 68752
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6386136412620544,
      "learning_rate": 7.97201870158211e-05,
      "loss": 1.5489,
      "step": 68753
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6224936246871948,
      "learning_rate": 7.97130916066384e-05,
      "loss": 1.5607,
      "step": 68754
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6641682982444763,
      "learning_rate": 7.970599646485141e-05,
      "loss": 1.5281,
      "step": 68755
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6546541452407837,
      "learning_rate": 7.969890159046892e-05,
      "loss": 1.5292,
      "step": 68756
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6601712107658386,
      "learning_rate": 7.969180698349958e-05,
      "loss": 1.4939,
      "step": 68757
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6296123266220093,
      "learning_rate": 7.968471264395193e-05,
      "loss": 1.5136,
      "step": 68758
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6225060224533081,
      "learning_rate": 7.967761857183448e-05,
      "loss": 1.4909,
      "step": 68759
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6257389187812805,
      "learning_rate": 7.967052476715604e-05,
      "loss": 1.5052,
      "step": 68760
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6272616386413574,
      "learning_rate": 7.96634312299251e-05,
      "loss": 1.6065,
      "step": 68761
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6498278379440308,
      "learning_rate": 7.965633796015022e-05,
      "loss": 1.6037,
      "step": 68762
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6192044615745544,
      "learning_rate": 7.964924495784009e-05,
      "loss": 1.5747,
      "step": 68763
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6361233592033386,
      "learning_rate": 7.964215222300336e-05,
      "loss": 1.5661,
      "step": 68764
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6309261322021484,
      "learning_rate": 7.963505975564861e-05,
      "loss": 1.5714,
      "step": 68765
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6303505897521973,
      "learning_rate": 7.962796755578435e-05,
      "loss": 1.5187,
      "step": 68766
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6352181434631348,
      "learning_rate": 7.962087562341933e-05,
      "loss": 1.6088,
      "step": 68767
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6413266062736511,
      "learning_rate": 7.96137839585621e-05,
      "loss": 1.5423,
      "step": 68768
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6343697309494019,
      "learning_rate": 7.960669256122119e-05,
      "loss": 1.5242,
      "step": 68769
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.624576210975647,
      "learning_rate": 7.95996014314053e-05,
      "loss": 1.4869,
      "step": 68770
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6499489545822144,
      "learning_rate": 7.959251056912308e-05,
      "loss": 1.5049,
      "step": 68771
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6435523629188538,
      "learning_rate": 7.958541997438309e-05,
      "loss": 1.4816,
      "step": 68772
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6347642540931702,
      "learning_rate": 7.957832964719382e-05,
      "loss": 1.5405,
      "step": 68773
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6419914364814758,
      "learning_rate": 7.957123958756409e-05,
      "loss": 1.5205,
      "step": 68774
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6249808669090271,
      "learning_rate": 7.956414979550235e-05,
      "loss": 1.4971,
      "step": 68775
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6571265459060669,
      "learning_rate": 7.955706027101722e-05,
      "loss": 1.5294,
      "step": 68776
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6279382109642029,
      "learning_rate": 7.954997101411729e-05,
      "loss": 1.5072,
      "step": 68777
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6314099431037903,
      "learning_rate": 7.954288202481132e-05,
      "loss": 1.5404,
      "step": 68778
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6461297273635864,
      "learning_rate": 7.953579330310783e-05,
      "loss": 1.5665,
      "step": 68779
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6409143209457397,
      "learning_rate": 7.95287048490153e-05,
      "loss": 1.4956,
      "step": 68780
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6281319856643677,
      "learning_rate": 7.952161666254254e-05,
      "loss": 1.5352,
      "step": 68781
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6202538013458252,
      "learning_rate": 7.951452874369802e-05,
      "loss": 1.51,
      "step": 68782
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6427969336509705,
      "learning_rate": 7.950744109249032e-05,
      "loss": 1.5489,
      "step": 68783
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6290730237960815,
      "learning_rate": 7.950035370892815e-05,
      "loss": 1.5731,
      "step": 68784
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.667884886264801,
      "learning_rate": 7.949326659301998e-05,
      "loss": 1.5868,
      "step": 68785
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6331117749214172,
      "learning_rate": 7.94861797447746e-05,
      "loss": 1.4933,
      "step": 68786
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.611598789691925,
      "learning_rate": 7.947909316420041e-05,
      "loss": 1.5798,
      "step": 68787
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6048995852470398,
      "learning_rate": 7.94720068513062e-05,
      "loss": 1.5351,
      "step": 68788
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6496126651763916,
      "learning_rate": 7.94649208061005e-05,
      "loss": 1.5607,
      "step": 68789
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6145972013473511,
      "learning_rate": 7.945783502859179e-05,
      "loss": 1.5532,
      "step": 68790
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6273912787437439,
      "learning_rate": 7.945074951878884e-05,
      "loss": 1.5176,
      "step": 68791
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6479650735855103,
      "learning_rate": 7.94436642767001e-05,
      "loss": 1.4821,
      "step": 68792
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6381799578666687,
      "learning_rate": 7.943657930233438e-05,
      "loss": 1.5127,
      "step": 68793
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6225103139877319,
      "learning_rate": 7.942949459570013e-05,
      "loss": 1.4826,
      "step": 68794
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6181715130805969,
      "learning_rate": 7.942241015680587e-05,
      "loss": 1.5071,
      "step": 68795
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.652375340461731,
      "learning_rate": 7.94153259856604e-05,
      "loss": 1.4892,
      "step": 68796
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6120994091033936,
      "learning_rate": 7.940824208227215e-05,
      "loss": 1.6064,
      "step": 68797
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.630452036857605,
      "learning_rate": 7.940115844664985e-05,
      "loss": 1.5854,
      "step": 68798
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6200094223022461,
      "learning_rate": 7.939407507880197e-05,
      "loss": 1.523,
      "step": 68799
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6401681900024414,
      "learning_rate": 7.938699197873727e-05,
      "loss": 1.4929,
      "step": 68800
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6239430904388428,
      "learning_rate": 7.937990914646425e-05,
      "loss": 1.5631,
      "step": 68801
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6398517489433289,
      "learning_rate": 7.937282658199145e-05,
      "loss": 1.5196,
      "step": 68802
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6143504977226257,
      "learning_rate": 7.936574428532758e-05,
      "loss": 1.506,
      "step": 68803
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.8918632864952087,
      "learning_rate": 7.935866225648122e-05,
      "loss": 1.6082,
      "step": 68804
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6418968439102173,
      "learning_rate": 7.935158049546082e-05,
      "loss": 1.5088,
      "step": 68805
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6220994591712952,
      "learning_rate": 7.93444990022751e-05,
      "loss": 1.5566,
      "step": 68806
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6165180206298828,
      "learning_rate": 7.933741777693275e-05,
      "loss": 1.5652,
      "step": 68807
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6201180219650269,
      "learning_rate": 7.933033681944225e-05,
      "loss": 1.4927,
      "step": 68808
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6344565153121948,
      "learning_rate": 7.93232561298121e-05,
      "loss": 1.5186,
      "step": 68809
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6283416748046875,
      "learning_rate": 7.931617570805109e-05,
      "loss": 1.538,
      "step": 68810
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6150208711624146,
      "learning_rate": 7.930909555416775e-05,
      "loss": 1.5107,
      "step": 68811
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6254892945289612,
      "learning_rate": 7.930201566817056e-05,
      "loss": 1.5481,
      "step": 68812
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6531919836997986,
      "learning_rate": 7.92949360500682e-05,
      "loss": 1.507,
      "step": 68813
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6428692936897278,
      "learning_rate": 7.928785669986934e-05,
      "loss": 1.5657,
      "step": 68814
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6148438453674316,
      "learning_rate": 7.928077761758255e-05,
      "loss": 1.5345,
      "step": 68815
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6185621619224548,
      "learning_rate": 7.927369880321623e-05,
      "loss": 1.5368,
      "step": 68816
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6068230271339417,
      "learning_rate": 7.926662025677923e-05,
      "loss": 1.5636,
      "step": 68817
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6320679783821106,
      "learning_rate": 7.925954197828004e-05,
      "loss": 1.5221,
      "step": 68818
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6307045221328735,
      "learning_rate": 7.925246396772715e-05,
      "loss": 1.5591,
      "step": 68819
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6580538749694824,
      "learning_rate": 7.924538622512923e-05,
      "loss": 1.523,
      "step": 68820
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6387934684753418,
      "learning_rate": 7.923830875049505e-05,
      "loss": 1.5453,
      "step": 68821
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6330740451812744,
      "learning_rate": 7.923123154383287e-05,
      "loss": 1.5433,
      "step": 68822
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6426080465316772,
      "learning_rate": 7.922415460515147e-05,
      "loss": 1.5107,
      "step": 68823
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6127170324325562,
      "learning_rate": 7.921707793445949e-05,
      "loss": 1.5143,
      "step": 68824
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6516892313957214,
      "learning_rate": 7.921000153176545e-05,
      "loss": 1.4419,
      "step": 68825
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6326628923416138,
      "learning_rate": 7.92029253970778e-05,
      "loss": 1.5836,
      "step": 68826
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6277938485145569,
      "learning_rate": 7.919584953040532e-05,
      "loss": 1.5164,
      "step": 68827
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6487677097320557,
      "learning_rate": 7.918877393175674e-05,
      "loss": 1.4804,
      "step": 68828
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6418401002883911,
      "learning_rate": 7.91816986011402e-05,
      "loss": 1.417,
      "step": 68829
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6513904929161072,
      "learning_rate": 7.917462353856461e-05,
      "loss": 1.5206,
      "step": 68830
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6234820485115051,
      "learning_rate": 7.916754874403855e-05,
      "loss": 1.5291,
      "step": 68831
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6615177989006042,
      "learning_rate": 7.916047421757055e-05,
      "loss": 1.5252,
      "step": 68832
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6400925517082214,
      "learning_rate": 7.91533999591691e-05,
      "loss": 1.62,
      "step": 68833
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6434104442596436,
      "learning_rate": 7.914632596884289e-05,
      "loss": 1.5034,
      "step": 68834
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6351170539855957,
      "learning_rate": 7.91392522466007e-05,
      "loss": 1.5515,
      "step": 68835
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.632689356803894,
      "learning_rate": 7.91321787924507e-05,
      "loss": 1.5155,
      "step": 68836
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6578705906867981,
      "learning_rate": 7.912510560640173e-05,
      "loss": 1.4279,
      "step": 68837
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6234641075134277,
      "learning_rate": 7.91180326884624e-05,
      "loss": 1.5479,
      "step": 68838
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6269426941871643,
      "learning_rate": 7.911096003864123e-05,
      "loss": 1.5376,
      "step": 68839
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6336396932601929,
      "learning_rate": 7.91038876569467e-05,
      "loss": 1.5397,
      "step": 68840
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6158947944641113,
      "learning_rate": 7.909681554338764e-05,
      "loss": 1.5148,
      "step": 68841
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6164912581443787,
      "learning_rate": 7.908974369797247e-05,
      "loss": 1.5193,
      "step": 68842
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6401721239089966,
      "learning_rate": 7.908267212070971e-05,
      "loss": 1.4883,
      "step": 68843
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6634225249290466,
      "learning_rate": 7.907560081160804e-05,
      "loss": 1.5799,
      "step": 68844
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6349068284034729,
      "learning_rate": 7.906852977067612e-05,
      "loss": 1.5787,
      "step": 68845
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6149876713752747,
      "learning_rate": 7.90614589979225e-05,
      "loss": 1.5036,
      "step": 68846
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6648649573326111,
      "learning_rate": 7.905438849335556e-05,
      "loss": 1.5632,
      "step": 68847
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6346689462661743,
      "learning_rate": 7.904731825698417e-05,
      "loss": 1.5301,
      "step": 68848
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6351215243339539,
      "learning_rate": 7.904024828881675e-05,
      "loss": 1.536,
      "step": 68849
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6321192383766174,
      "learning_rate": 7.903317858886184e-05,
      "loss": 1.5156,
      "step": 68850
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6561148166656494,
      "learning_rate": 7.902610915712819e-05,
      "loss": 1.4782,
      "step": 68851
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6359726786613464,
      "learning_rate": 7.901903999362419e-05,
      "loss": 1.5875,
      "step": 68852
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6691293716430664,
      "learning_rate": 7.901197109835858e-05,
      "loss": 1.523,
      "step": 68853
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6354904770851135,
      "learning_rate": 7.900490247133981e-05,
      "loss": 1.487,
      "step": 68854
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6100074052810669,
      "learning_rate": 7.89978341125766e-05,
      "loss": 1.5302,
      "step": 68855
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6253694891929626,
      "learning_rate": 7.899076602207749e-05,
      "loss": 1.5237,
      "step": 68856
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6183825135231018,
      "learning_rate": 7.898369819985091e-05,
      "loss": 1.513,
      "step": 68857
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6397554874420166,
      "learning_rate": 7.897663064590565e-05,
      "loss": 1.4725,
      "step": 68858
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6296955943107605,
      "learning_rate": 7.89695633602501e-05,
      "loss": 1.5641,
      "step": 68859
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6452764868736267,
      "learning_rate": 7.896249634289302e-05,
      "loss": 1.5533,
      "step": 68860
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6208052039146423,
      "learning_rate": 7.895542959384293e-05,
      "loss": 1.5739,
      "step": 68861
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6540743112564087,
      "learning_rate": 7.894836311310826e-05,
      "loss": 1.5172,
      "step": 68862
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6072974801063538,
      "learning_rate": 7.89412969006978e-05,
      "loss": 1.5045,
      "step": 68863
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6103984713554382,
      "learning_rate": 7.893423095661994e-05,
      "loss": 1.5362,
      "step": 68864
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6208893060684204,
      "learning_rate": 7.892716528088345e-05,
      "loss": 1.5828,
      "step": 68865
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6435272693634033,
      "learning_rate": 7.892009987349673e-05,
      "loss": 1.475,
      "step": 68866
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.622787356376648,
      "learning_rate": 7.891303473446848e-05,
      "loss": 1.5764,
      "step": 68867
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6580885648727417,
      "learning_rate": 7.89059698638073e-05,
      "loss": 1.5095,
      "step": 68868
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6466086506843567,
      "learning_rate": 7.889890526152156e-05,
      "loss": 1.5517,
      "step": 68869
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6290980577468872,
      "learning_rate": 7.889184092762005e-05,
      "loss": 1.474,
      "step": 68870
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6176134347915649,
      "learning_rate": 7.88847768621113e-05,
      "loss": 1.552,
      "step": 68871
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6322087645530701,
      "learning_rate": 7.887771306500373e-05,
      "loss": 1.5409,
      "step": 68872
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.653886616230011,
      "learning_rate": 7.887064953630604e-05,
      "loss": 1.5366,
      "step": 68873
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.655532717704773,
      "learning_rate": 7.886358627602692e-05,
      "loss": 1.4747,
      "step": 68874
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6260585784912109,
      "learning_rate": 7.88565232841748e-05,
      "loss": 1.5591,
      "step": 68875
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6787400841712952,
      "learning_rate": 7.88494605607582e-05,
      "loss": 1.5381,
      "step": 68876
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.648343026638031,
      "learning_rate": 7.884239810578585e-05,
      "loss": 1.512,
      "step": 68877
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.657656729221344,
      "learning_rate": 7.883533591926624e-05,
      "loss": 1.5982,
      "step": 68878
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.653295636177063,
      "learning_rate": 7.882827400120784e-05,
      "loss": 1.5009,
      "step": 68879
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6461063027381897,
      "learning_rate": 7.882121235161937e-05,
      "loss": 1.4846,
      "step": 68880
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6342491507530212,
      "learning_rate": 7.881415097050939e-05,
      "loss": 1.585,
      "step": 68881
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6387665271759033,
      "learning_rate": 7.880708985788649e-05,
      "loss": 1.4916,
      "step": 68882
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6461875438690186,
      "learning_rate": 7.88000290137591e-05,
      "loss": 1.5819,
      "step": 68883
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6236974000930786,
      "learning_rate": 7.879296843813595e-05,
      "loss": 1.5809,
      "step": 68884
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6077068448066711,
      "learning_rate": 7.878590813102555e-05,
      "loss": 1.5406,
      "step": 68885
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6529286503791809,
      "learning_rate": 7.877884809243638e-05,
      "loss": 1.5557,
      "step": 68886
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6067550778388977,
      "learning_rate": 7.87717883223771e-05,
      "loss": 1.503,
      "step": 68887
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6281683444976807,
      "learning_rate": 7.876472882085633e-05,
      "loss": 1.5129,
      "step": 68888
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6778088808059692,
      "learning_rate": 7.87576695878826e-05,
      "loss": 1.5185,
      "step": 68889
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6146663427352905,
      "learning_rate": 7.875061062346437e-05,
      "loss": 1.528,
      "step": 68890
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6294130682945251,
      "learning_rate": 7.874355192761041e-05,
      "loss": 1.5047,
      "step": 68891
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6779714226722717,
      "learning_rate": 7.873649350032916e-05,
      "loss": 1.5361,
      "step": 68892
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6530002951622009,
      "learning_rate": 7.872943534162912e-05,
      "loss": 1.6231,
      "step": 68893
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6330337524414062,
      "learning_rate": 7.872237745151894e-05,
      "loss": 1.5374,
      "step": 68894
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6210010051727295,
      "learning_rate": 7.871531983000727e-05,
      "loss": 1.5862,
      "step": 68895
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6185399293899536,
      "learning_rate": 7.870826247710259e-05,
      "loss": 1.4399,
      "step": 68896
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6791259050369263,
      "learning_rate": 7.870120539281341e-05,
      "loss": 1.498,
      "step": 68897
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6280868649482727,
      "learning_rate": 7.869414857714843e-05,
      "loss": 1.4946,
      "step": 68898
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6757662296295166,
      "learning_rate": 7.868709203011617e-05,
      "loss": 1.5676,
      "step": 68899
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6774063110351562,
      "learning_rate": 7.868003575172507e-05,
      "loss": 1.5956,
      "step": 68900
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6359148621559143,
      "learning_rate": 7.867297974198388e-05,
      "loss": 1.4817,
      "step": 68901
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.639086127281189,
      "learning_rate": 7.866592400090099e-05,
      "loss": 1.4865,
      "step": 68902
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6555215716362,
      "learning_rate": 7.865886852848514e-05,
      "loss": 1.5978,
      "step": 68903
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6234502196311951,
      "learning_rate": 7.865181332474471e-05,
      "loss": 1.4746,
      "step": 68904
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.652484118938446,
      "learning_rate": 7.86447583896885e-05,
      "loss": 1.5718,
      "step": 68905
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6303770542144775,
      "learning_rate": 7.863770372332492e-05,
      "loss": 1.5316,
      "step": 68906
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6291890144348145,
      "learning_rate": 7.863064932566244e-05,
      "loss": 1.5549,
      "step": 68907
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6274480819702148,
      "learning_rate": 7.862359519670983e-05,
      "loss": 1.5278,
      "step": 68908
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6246075630187988,
      "learning_rate": 7.861654133647548e-05,
      "loss": 1.4814,
      "step": 68909
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.612787663936615,
      "learning_rate": 7.860948774496813e-05,
      "loss": 1.5396,
      "step": 68910
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6149542927742004,
      "learning_rate": 7.860243442219623e-05,
      "loss": 1.5666,
      "step": 68911
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6229386925697327,
      "learning_rate": 7.859538136816825e-05,
      "loss": 1.5309,
      "step": 68912
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6521204113960266,
      "learning_rate": 7.858832858289295e-05,
      "loss": 1.554,
      "step": 68913
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.621428906917572,
      "learning_rate": 7.858127606637873e-05,
      "loss": 1.5419,
      "step": 68914
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6343555450439453,
      "learning_rate": 7.857422381863425e-05,
      "loss": 1.4809,
      "step": 68915
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6315621733665466,
      "learning_rate": 7.8567171839668e-05,
      "loss": 1.5803,
      "step": 68916
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6190412640571594,
      "learning_rate": 7.856012012948865e-05,
      "loss": 1.5229,
      "step": 68917
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6298608779907227,
      "learning_rate": 7.855306868810469e-05,
      "loss": 1.5563,
      "step": 68918
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6259154081344604,
      "learning_rate": 7.854601751552457e-05,
      "loss": 1.6529,
      "step": 68919
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6393997669219971,
      "learning_rate": 7.853896661175707e-05,
      "loss": 1.5981,
      "step": 68920
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6262381672859192,
      "learning_rate": 7.85319159768106e-05,
      "loss": 1.4937,
      "step": 68921
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.646040678024292,
      "learning_rate": 7.852486561069369e-05,
      "loss": 1.4481,
      "step": 68922
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6225355267524719,
      "learning_rate": 7.851781551341498e-05,
      "loss": 1.5126,
      "step": 68923
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6378135085105896,
      "learning_rate": 7.851076568498306e-05,
      "loss": 1.5295,
      "step": 68924
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6351845860481262,
      "learning_rate": 7.850371612540643e-05,
      "loss": 1.5821,
      "step": 68925
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6513832211494446,
      "learning_rate": 7.849666683469361e-05,
      "loss": 1.5164,
      "step": 68926
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6215284466743469,
      "learning_rate": 7.848961781285324e-05,
      "loss": 1.5371,
      "step": 68927
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.603676438331604,
      "learning_rate": 7.848256905989386e-05,
      "loss": 1.5634,
      "step": 68928
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6420089602470398,
      "learning_rate": 7.847552057582393e-05,
      "loss": 1.5203,
      "step": 68929
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6419979333877563,
      "learning_rate": 7.846847236065203e-05,
      "loss": 1.5176,
      "step": 68930
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6464265584945679,
      "learning_rate": 7.846142441438698e-05,
      "loss": 1.5711,
      "step": 68931
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6297634840011597,
      "learning_rate": 7.845437673703694e-05,
      "loss": 1.6443,
      "step": 68932
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6244403123855591,
      "learning_rate": 7.844732932861061e-05,
      "loss": 1.6249,
      "step": 68933
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6331769227981567,
      "learning_rate": 7.844028218911669e-05,
      "loss": 1.569,
      "step": 68934
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6220948100090027,
      "learning_rate": 7.843323531856364e-05,
      "loss": 1.5652,
      "step": 68935
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6186532378196716,
      "learning_rate": 7.842618871695988e-05,
      "loss": 1.5724,
      "step": 68936
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6168368458747864,
      "learning_rate": 7.841914238431408e-05,
      "loss": 1.5796,
      "step": 68937
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6376850605010986,
      "learning_rate": 7.841209632063496e-05,
      "loss": 1.5487,
      "step": 68938
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6249946355819702,
      "learning_rate": 7.840505052593076e-05,
      "loss": 1.4072,
      "step": 68939
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6449605226516724,
      "learning_rate": 7.839800500021016e-05,
      "loss": 1.6241,
      "step": 68940
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6393588781356812,
      "learning_rate": 7.839095974348184e-05,
      "loss": 1.5526,
      "step": 68941
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6358723044395447,
      "learning_rate": 7.838391475575422e-05,
      "loss": 1.4455,
      "step": 68942
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6601378917694092,
      "learning_rate": 7.837687003703578e-05,
      "loss": 1.5557,
      "step": 68943
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.652244508266449,
      "learning_rate": 7.836982558733517e-05,
      "loss": 1.512,
      "step": 68944
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6217041611671448,
      "learning_rate": 7.836278140666114e-05,
      "loss": 1.4903,
      "step": 68945
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6134241819381714,
      "learning_rate": 7.835573749502184e-05,
      "loss": 1.5728,
      "step": 68946
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6163386106491089,
      "learning_rate": 7.8348693852426e-05,
      "loss": 1.5547,
      "step": 68947
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6145796775817871,
      "learning_rate": 7.83416504788823e-05,
      "loss": 1.5539,
      "step": 68948
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6337549686431885,
      "learning_rate": 7.833460737439916e-05,
      "loss": 1.5515,
      "step": 68949
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6317146420478821,
      "learning_rate": 7.832756453898507e-05,
      "loss": 1.5091,
      "step": 68950
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6166311502456665,
      "learning_rate": 7.832052197264863e-05,
      "loss": 1.5765,
      "step": 68951
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6167404651641846,
      "learning_rate": 7.831347967539861e-05,
      "loss": 1.4914,
      "step": 68952
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6428813338279724,
      "learning_rate": 7.830643764724321e-05,
      "loss": 1.6282,
      "step": 68953
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6272076964378357,
      "learning_rate": 7.829939588819109e-05,
      "loss": 1.4865,
      "step": 68954
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6260247826576233,
      "learning_rate": 7.829235439825095e-05,
      "loss": 1.5156,
      "step": 68955
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6388041377067566,
      "learning_rate": 7.828531317743121e-05,
      "loss": 1.4704,
      "step": 68956
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6357142925262451,
      "learning_rate": 7.827827222574033e-05,
      "loss": 1.5407,
      "step": 68957
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6427814364433289,
      "learning_rate": 7.82712315431871e-05,
      "loss": 1.5705,
      "step": 68958
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6362635493278503,
      "learning_rate": 7.826419112977986e-05,
      "loss": 1.5711,
      "step": 68959
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6138256788253784,
      "learning_rate": 7.825715098552716e-05,
      "loss": 1.5312,
      "step": 68960
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6378135681152344,
      "learning_rate": 7.825011111043761e-05,
      "loss": 1.557,
      "step": 68961
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.643109917640686,
      "learning_rate": 7.824307150451986e-05,
      "loss": 1.4858,
      "step": 68962
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6143172979354858,
      "learning_rate": 7.823603216778231e-05,
      "loss": 1.4609,
      "step": 68963
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6365525126457214,
      "learning_rate": 7.822899310023347e-05,
      "loss": 1.5352,
      "step": 68964
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6385239958763123,
      "learning_rate": 7.822195430188206e-05,
      "loss": 1.58,
      "step": 68965
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.619388222694397,
      "learning_rate": 7.821491577273651e-05,
      "loss": 1.5109,
      "step": 68966
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6330028176307678,
      "learning_rate": 7.820787751280528e-05,
      "loss": 1.5531,
      "step": 68967
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6187782883644104,
      "learning_rate": 7.820083952209708e-05,
      "loss": 1.5525,
      "step": 68968
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6462347507476807,
      "learning_rate": 7.81938018006203e-05,
      "loss": 1.6316,
      "step": 68969
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.629547655582428,
      "learning_rate": 7.818676434838367e-05,
      "loss": 1.5458,
      "step": 68970
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6310253739356995,
      "learning_rate": 7.81797271653955e-05,
      "loss": 1.5529,
      "step": 68971
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.620945394039154,
      "learning_rate": 7.817269025166458e-05,
      "loss": 1.4834,
      "step": 68972
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6339201927185059,
      "learning_rate": 7.816565360719931e-05,
      "loss": 1.5116,
      "step": 68973
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6436933875083923,
      "learning_rate": 7.815861723200817e-05,
      "loss": 1.5078,
      "step": 68974
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6311290264129639,
      "learning_rate": 7.81515811260999e-05,
      "loss": 1.4803,
      "step": 68975
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.6210721731185913,
      "learning_rate": 7.814454528948277e-05,
      "loss": 1.5997,
      "step": 68976
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.655937910079956,
      "learning_rate": 7.81375097221656e-05,
      "loss": 1.5389,
      "step": 68977
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.607143223285675,
      "learning_rate": 7.81304744241568e-05,
      "loss": 1.5205,
      "step": 68978
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.611575186252594,
      "learning_rate": 7.812343939546485e-05,
      "loss": 1.5298,
      "step": 68979
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.5889189839363098,
      "learning_rate": 7.811640463609841e-05,
      "loss": 1.5318,
      "step": 68980
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6356005072593689,
      "learning_rate": 7.810937014606588e-05,
      "loss": 1.5096,
      "step": 68981
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6148188710212708,
      "learning_rate": 7.810233592537598e-05,
      "loss": 1.4539,
      "step": 68982
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6426210999488831,
      "learning_rate": 7.809530197403703e-05,
      "loss": 1.5213,
      "step": 68983
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6304265856742859,
      "learning_rate": 7.808826829205782e-05,
      "loss": 1.4795,
      "step": 68984
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6141485571861267,
      "learning_rate": 7.808123487944672e-05,
      "loss": 1.5638,
      "step": 68985
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6337793469429016,
      "learning_rate": 7.807420173621222e-05,
      "loss": 1.525,
      "step": 68986
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6016180515289307,
      "learning_rate": 7.806716886236303e-05,
      "loss": 1.4762,
      "step": 68987
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6501794457435608,
      "learning_rate": 7.806013625790761e-05,
      "loss": 1.5424,
      "step": 68988
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6297556161880493,
      "learning_rate": 7.805310392285436e-05,
      "loss": 1.5405,
      "step": 68989
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6379261016845703,
      "learning_rate": 7.804607185721198e-05,
      "loss": 1.5134,
      "step": 68990
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6381095051765442,
      "learning_rate": 7.803904006098905e-05,
      "loss": 1.5417,
      "step": 68991
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6261789202690125,
      "learning_rate": 7.8032008534194e-05,
      "loss": 1.4935,
      "step": 68992
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6237596869468689,
      "learning_rate": 7.802497727683531e-05,
      "loss": 1.6443,
      "step": 68993
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6345546245574951,
      "learning_rate": 7.801794628892166e-05,
      "loss": 1.5044,
      "step": 68994
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6525251269340515,
      "learning_rate": 7.801091557046153e-05,
      "loss": 1.6185,
      "step": 68995
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6367923021316528,
      "learning_rate": 7.800388512146338e-05,
      "loss": 1.5562,
      "step": 68996
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6112099289894104,
      "learning_rate": 7.799685494193574e-05,
      "loss": 1.5264,
      "step": 68997
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6607024073600769,
      "learning_rate": 7.798982503188736e-05,
      "loss": 1.515,
      "step": 68998
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6502294540405273,
      "learning_rate": 7.798279539132659e-05,
      "loss": 1.5292,
      "step": 68999
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.61955726146698,
      "learning_rate": 7.797576602026192e-05,
      "loss": 1.4807,
      "step": 69000
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6199622750282288,
      "learning_rate": 7.796873691870201e-05,
      "loss": 1.483,
      "step": 69001
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6439415216445923,
      "learning_rate": 7.796170808665539e-05,
      "loss": 1.6038,
      "step": 69002
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6197050213813782,
      "learning_rate": 7.795467952413043e-05,
      "loss": 1.5266,
      "step": 69003
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6317881345748901,
      "learning_rate": 7.794765123113573e-05,
      "loss": 1.5795,
      "step": 69004
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6388225555419922,
      "learning_rate": 7.794062320768e-05,
      "loss": 1.5303,
      "step": 69005
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6472763419151306,
      "learning_rate": 7.793359545377165e-05,
      "loss": 1.438,
      "step": 69006
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6152663230895996,
      "learning_rate": 7.792656796941907e-05,
      "loss": 1.5694,
      "step": 69007
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6855369210243225,
      "learning_rate": 7.7919540754631e-05,
      "loss": 1.4752,
      "step": 69008
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6426275372505188,
      "learning_rate": 7.79125138094159e-05,
      "loss": 1.4944,
      "step": 69009
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6361779570579529,
      "learning_rate": 7.790548713378221e-05,
      "loss": 1.5744,
      "step": 69010
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6390860676765442,
      "learning_rate": 7.789846072773852e-05,
      "loss": 1.5181,
      "step": 69011
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.634602963924408,
      "learning_rate": 7.789143459129347e-05,
      "loss": 1.5797,
      "step": 69012
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6295039653778076,
      "learning_rate": 7.788440872445549e-05,
      "loss": 1.5023,
      "step": 69013
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6419281959533691,
      "learning_rate": 7.7877383127233e-05,
      "loss": 1.5728,
      "step": 69014
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6376712322235107,
      "learning_rate": 7.787035779963473e-05,
      "loss": 1.5151,
      "step": 69015
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6451515555381775,
      "learning_rate": 7.786333274166915e-05,
      "loss": 1.5706,
      "step": 69016
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.614511251449585,
      "learning_rate": 7.785630795334465e-05,
      "loss": 1.4424,
      "step": 69017
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6315205097198486,
      "learning_rate": 7.784928343466995e-05,
      "loss": 1.581,
      "step": 69018
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6539896726608276,
      "learning_rate": 7.784225918565337e-05,
      "loss": 1.5166,
      "step": 69019
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6318002343177795,
      "learning_rate": 7.783523520630368e-05,
      "loss": 1.5405,
      "step": 69020
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.657858669757843,
      "learning_rate": 7.782821149662918e-05,
      "loss": 1.5375,
      "step": 69021
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6128392219543457,
      "learning_rate": 7.782118805663858e-05,
      "loss": 1.6423,
      "step": 69022
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6356835961341858,
      "learning_rate": 7.781416488634032e-05,
      "loss": 1.517,
      "step": 69023
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6340584754943848,
      "learning_rate": 7.780714198574283e-05,
      "loss": 1.4816,
      "step": 69024
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6249709725379944,
      "learning_rate": 7.780011935485485e-05,
      "loss": 1.506,
      "step": 69025
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6678703427314758,
      "learning_rate": 7.779309699368466e-05,
      "loss": 1.5403,
      "step": 69026
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6723915934562683,
      "learning_rate": 7.778607490224103e-05,
      "loss": 1.5014,
      "step": 69027
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6643263101577759,
      "learning_rate": 7.777905308053235e-05,
      "loss": 1.53,
      "step": 69028
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6412431001663208,
      "learning_rate": 7.777203152856706e-05,
      "loss": 1.5094,
      "step": 69029
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6592328548431396,
      "learning_rate": 7.77650102463539e-05,
      "loss": 1.5551,
      "step": 69030
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6274402737617493,
      "learning_rate": 7.775798923390113e-05,
      "loss": 1.5112,
      "step": 69031
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6244969964027405,
      "learning_rate": 7.775096849121754e-05,
      "loss": 1.573,
      "step": 69032
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6445474624633789,
      "learning_rate": 7.774394801831143e-05,
      "loss": 1.4858,
      "step": 69033
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6541462540626526,
      "learning_rate": 7.773692781519151e-05,
      "loss": 1.565,
      "step": 69034
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.643528401851654,
      "learning_rate": 7.772990788186624e-05,
      "loss": 1.5366,
      "step": 69035
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6409371495246887,
      "learning_rate": 7.772288821834398e-05,
      "loss": 1.5443,
      "step": 69036
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6513707041740417,
      "learning_rate": 7.77158688246335e-05,
      "loss": 1.5802,
      "step": 69037
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.684518575668335,
      "learning_rate": 7.770884970074318e-05,
      "loss": 1.5836,
      "step": 69038
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6389854550361633,
      "learning_rate": 7.770183084668149e-05,
      "loss": 1.5452,
      "step": 69039
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.633687436580658,
      "learning_rate": 7.769481226245702e-05,
      "loss": 1.4759,
      "step": 69040
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6120859980583191,
      "learning_rate": 7.768779394807836e-05,
      "loss": 1.4714,
      "step": 69041
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6253167986869812,
      "learning_rate": 7.7680775903554e-05,
      "loss": 1.5707,
      "step": 69042
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6272168159484863,
      "learning_rate": 7.767375812889232e-05,
      "loss": 1.5172,
      "step": 69043
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6294175982475281,
      "learning_rate": 7.766674062410199e-05,
      "loss": 1.5989,
      "step": 69044
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6305910348892212,
      "learning_rate": 7.765972338919151e-05,
      "loss": 1.528,
      "step": 69045
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6374107599258423,
      "learning_rate": 7.765270642416928e-05,
      "loss": 1.4943,
      "step": 69046
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6200820207595825,
      "learning_rate": 7.764568972904392e-05,
      "loss": 1.4355,
      "step": 69047
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6250089406967163,
      "learning_rate": 7.763867330382409e-05,
      "loss": 1.5332,
      "step": 69048
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6515349745750427,
      "learning_rate": 7.763165714851795e-05,
      "loss": 1.5683,
      "step": 69049
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6400870680809021,
      "learning_rate": 7.762464126313423e-05,
      "loss": 1.51,
      "step": 69050
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6391273736953735,
      "learning_rate": 7.761762564768152e-05,
      "loss": 1.5358,
      "step": 69051
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6599453687667847,
      "learning_rate": 7.761061030216824e-05,
      "loss": 1.5456,
      "step": 69052
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6308737397193909,
      "learning_rate": 7.760359522660284e-05,
      "loss": 1.5431,
      "step": 69053
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6731569170951843,
      "learning_rate": 7.759658042099388e-05,
      "loss": 1.4691,
      "step": 69054
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.7130218148231506,
      "learning_rate": 7.758956588535011e-05,
      "loss": 1.6127,
      "step": 69055
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6276093125343323,
      "learning_rate": 7.758255161967963e-05,
      "loss": 1.5303,
      "step": 69056
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.5995380878448486,
      "learning_rate": 7.757553762399117e-05,
      "loss": 1.4833,
      "step": 69057
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6628113985061646,
      "learning_rate": 7.756852389829335e-05,
      "loss": 1.5758,
      "step": 69058
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.630403995513916,
      "learning_rate": 7.756151044259451e-05,
      "loss": 1.4816,
      "step": 69059
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6440167427062988,
      "learning_rate": 7.75544972569032e-05,
      "loss": 1.5884,
      "step": 69060
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6308708786964417,
      "learning_rate": 7.754748434122791e-05,
      "loss": 1.4731,
      "step": 69061
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6249727606773376,
      "learning_rate": 7.754047169557738e-05,
      "loss": 1.4798,
      "step": 69062
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6547719836235046,
      "learning_rate": 7.753345931995977e-05,
      "loss": 1.4671,
      "step": 69063
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6318721175193787,
      "learning_rate": 7.752644721438375e-05,
      "loss": 1.4113,
      "step": 69064
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6414622664451599,
      "learning_rate": 7.751943537885794e-05,
      "loss": 1.4787,
      "step": 69065
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6379290223121643,
      "learning_rate": 7.751242381339078e-05,
      "loss": 1.5253,
      "step": 69066
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6491111516952515,
      "learning_rate": 7.750541251799066e-05,
      "loss": 1.4993,
      "step": 69067
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6682775020599365,
      "learning_rate": 7.749840149266615e-05,
      "loss": 1.5604,
      "step": 69068
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6158673167228699,
      "learning_rate": 7.749139073742597e-05,
      "loss": 1.4883,
      "step": 69069
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6302932500839233,
      "learning_rate": 7.74843802522783e-05,
      "loss": 1.5269,
      "step": 69070
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6147975325584412,
      "learning_rate": 7.747737003723182e-05,
      "loss": 1.4943,
      "step": 69071
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6504095792770386,
      "learning_rate": 7.747036009229511e-05,
      "loss": 1.5733,
      "step": 69072
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6422054767608643,
      "learning_rate": 7.746335041747657e-05,
      "loss": 1.5474,
      "step": 69073
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6373974680900574,
      "learning_rate": 7.745634101278467e-05,
      "loss": 1.5811,
      "step": 69074
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6523303389549255,
      "learning_rate": 7.744933187822809e-05,
      "loss": 1.5246,
      "step": 69075
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.646874725818634,
      "learning_rate": 7.74423230138152e-05,
      "loss": 1.5508,
      "step": 69076
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6735014915466309,
      "learning_rate": 7.743531441955445e-05,
      "loss": 1.5093,
      "step": 69077
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6422160863876343,
      "learning_rate": 7.742830609545443e-05,
      "loss": 1.5136,
      "step": 69078
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6396422386169434,
      "learning_rate": 7.742129804152373e-05,
      "loss": 1.5504,
      "step": 69079
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6637523174285889,
      "learning_rate": 7.741429025777081e-05,
      "loss": 1.6094,
      "step": 69080
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6477009654045105,
      "learning_rate": 7.740728274420405e-05,
      "loss": 1.5475,
      "step": 69081
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6227973103523254,
      "learning_rate": 7.74002755008321e-05,
      "loss": 1.5757,
      "step": 69082
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6416191458702087,
      "learning_rate": 7.73932685276635e-05,
      "loss": 1.4834,
      "step": 69083
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.628534734249115,
      "learning_rate": 7.738626182470652e-05,
      "loss": 1.5285,
      "step": 69084
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.670665979385376,
      "learning_rate": 7.73792553919699e-05,
      "loss": 1.5394,
      "step": 69085
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6236487030982971,
      "learning_rate": 7.737224922946201e-05,
      "loss": 1.4837,
      "step": 69086
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6284990906715393,
      "learning_rate": 7.736524333719146e-05,
      "loss": 1.537,
      "step": 69087
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6175681948661804,
      "learning_rate": 7.735823771516664e-05,
      "loss": 1.5869,
      "step": 69088
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6704078912734985,
      "learning_rate": 7.73512323633962e-05,
      "loss": 1.6472,
      "step": 69089
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.62492835521698,
      "learning_rate": 7.734422728188854e-05,
      "loss": 1.5462,
      "step": 69090
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6167237162590027,
      "learning_rate": 7.733722247065211e-05,
      "loss": 1.4713,
      "step": 69091
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6286039352416992,
      "learning_rate": 7.733021792969556e-05,
      "loss": 1.4757,
      "step": 69092
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6196617484092712,
      "learning_rate": 7.732321365902723e-05,
      "loss": 1.5316,
      "step": 69093
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6252556443214417,
      "learning_rate": 7.731620965865581e-05,
      "loss": 1.546,
      "step": 69094
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6327651739120483,
      "learning_rate": 7.73092059285897e-05,
      "loss": 1.5162,
      "step": 69095
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.652089536190033,
      "learning_rate": 7.730220246883731e-05,
      "loss": 1.4786,
      "step": 69096
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6450034976005554,
      "learning_rate": 7.729519927940732e-05,
      "loss": 1.5439,
      "step": 69097
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6250370144844055,
      "learning_rate": 7.728819636030804e-05,
      "loss": 1.5133,
      "step": 69098
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6460332274436951,
      "learning_rate": 7.728119371154818e-05,
      "loss": 1.5893,
      "step": 69099
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6226450204849243,
      "learning_rate": 7.727419133313604e-05,
      "loss": 1.5121,
      "step": 69100
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6260544657707214,
      "learning_rate": 7.726718922508032e-05,
      "loss": 1.5128,
      "step": 69101
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.609780490398407,
      "learning_rate": 7.726018738738938e-05,
      "loss": 1.4653,
      "step": 69102
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6265758275985718,
      "learning_rate": 7.725318582007169e-05,
      "loss": 1.6075,
      "step": 69103
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.642261803150177,
      "learning_rate": 7.724618452313592e-05,
      "loss": 1.6082,
      "step": 69104
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6358225345611572,
      "learning_rate": 7.723918349659042e-05,
      "loss": 1.4926,
      "step": 69105
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6449413895606995,
      "learning_rate": 7.723218274044368e-05,
      "loss": 1.5209,
      "step": 69106
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6369137167930603,
      "learning_rate": 7.722518225470421e-05,
      "loss": 1.5166,
      "step": 69107
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6619232892990112,
      "learning_rate": 7.721818203938064e-05,
      "loss": 1.4114,
      "step": 69108
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6247244477272034,
      "learning_rate": 7.721118209448138e-05,
      "loss": 1.4671,
      "step": 69109
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6196948885917664,
      "learning_rate": 7.720418242001483e-05,
      "loss": 1.5072,
      "step": 69110
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.62099289894104,
      "learning_rate": 7.719718301598966e-05,
      "loss": 1.499,
      "step": 69111
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6361295580863953,
      "learning_rate": 7.719018388241428e-05,
      "loss": 1.5318,
      "step": 69112
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6273233890533447,
      "learning_rate": 7.718318501929712e-05,
      "loss": 1.4802,
      "step": 69113
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6319973468780518,
      "learning_rate": 7.717618642664671e-05,
      "loss": 1.5135,
      "step": 69114
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6781629920005798,
      "learning_rate": 7.716918810447168e-05,
      "loss": 1.5656,
      "step": 69115
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6545959115028381,
      "learning_rate": 7.716219005278044e-05,
      "loss": 1.4876,
      "step": 69116
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6500698328018188,
      "learning_rate": 7.715519227158138e-05,
      "loss": 1.524,
      "step": 69117
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6164110898971558,
      "learning_rate": 7.714819476088314e-05,
      "loss": 1.5423,
      "step": 69118
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6124296188354492,
      "learning_rate": 7.714119752069416e-05,
      "loss": 1.475,
      "step": 69119
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6628075838088989,
      "learning_rate": 7.713420055102287e-05,
      "loss": 1.5945,
      "step": 69120
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6242418885231018,
      "learning_rate": 7.712720385187778e-05,
      "loss": 1.5421,
      "step": 69121
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6582587957382202,
      "learning_rate": 7.712020742326756e-05,
      "loss": 1.5594,
      "step": 69122
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6376474499702454,
      "learning_rate": 7.711321126520054e-05,
      "loss": 1.568,
      "step": 69123
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6398242115974426,
      "learning_rate": 7.710621537768516e-05,
      "loss": 1.508,
      "step": 69124
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6254478693008423,
      "learning_rate": 7.709921976073007e-05,
      "loss": 1.5248,
      "step": 69125
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6159175634384155,
      "learning_rate": 7.709222441434372e-05,
      "loss": 1.538,
      "step": 69126
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6300961971282959,
      "learning_rate": 7.708522933853442e-05,
      "loss": 1.5761,
      "step": 69127
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6160750985145569,
      "learning_rate": 7.707823453331086e-05,
      "loss": 1.4789,
      "step": 69128
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6346093416213989,
      "learning_rate": 7.707123999868153e-05,
      "loss": 1.4849,
      "step": 69129
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6598570346832275,
      "learning_rate": 7.706424573465488e-05,
      "loss": 1.5926,
      "step": 69130
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6614224910736084,
      "learning_rate": 7.70572517412393e-05,
      "loss": 1.4722,
      "step": 69131
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.629716157913208,
      "learning_rate": 7.705025801844347e-05,
      "loss": 1.4869,
      "step": 69132
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6480218172073364,
      "learning_rate": 7.704326456627578e-05,
      "loss": 1.4515,
      "step": 69133
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6308483481407166,
      "learning_rate": 7.703627138474459e-05,
      "loss": 1.5407,
      "step": 69134
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6418890953063965,
      "learning_rate": 7.702927847385863e-05,
      "loss": 1.5792,
      "step": 69135
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6414004564285278,
      "learning_rate": 7.702228583362619e-05,
      "loss": 1.53,
      "step": 69136
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6629838347434998,
      "learning_rate": 7.701529346405589e-05,
      "loss": 1.5059,
      "step": 69137
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6380958557128906,
      "learning_rate": 7.700830136515612e-05,
      "loss": 1.5733,
      "step": 69138
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6324208378791809,
      "learning_rate": 7.70013095369355e-05,
      "loss": 1.5625,
      "step": 69139
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6369867324829102,
      "learning_rate": 7.699431797940241e-05,
      "loss": 1.6344,
      "step": 69140
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6269091963768005,
      "learning_rate": 7.69873266925653e-05,
      "loss": 1.5156,
      "step": 69141
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6511974930763245,
      "learning_rate": 7.698033567643279e-05,
      "loss": 1.5679,
      "step": 69142
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6351664662361145,
      "learning_rate": 7.697334493101322e-05,
      "loss": 1.542,
      "step": 69143
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6638806462287903,
      "learning_rate": 7.696635445631522e-05,
      "loss": 1.5115,
      "step": 69144
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6411797404289246,
      "learning_rate": 7.695936425234719e-05,
      "loss": 1.4964,
      "step": 69145
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6396548748016357,
      "learning_rate": 7.695237431911756e-05,
      "loss": 1.4705,
      "step": 69146
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6212714910507202,
      "learning_rate": 7.694538465663496e-05,
      "loss": 1.5123,
      "step": 69147
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6465892791748047,
      "learning_rate": 7.69383952649077e-05,
      "loss": 1.5705,
      "step": 69148
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6401628851890564,
      "learning_rate": 7.693140614394446e-05,
      "loss": 1.5106,
      "step": 69149
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6267251372337341,
      "learning_rate": 7.692441729375356e-05,
      "loss": 1.5366,
      "step": 69150
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6278567314147949,
      "learning_rate": 7.691742871434362e-05,
      "loss": 1.5393,
      "step": 69151
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6453208923339844,
      "learning_rate": 7.691044040572303e-05,
      "loss": 1.512,
      "step": 69152
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6309425234794617,
      "learning_rate": 7.690345236790024e-05,
      "loss": 1.5264,
      "step": 69153
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6366381645202637,
      "learning_rate": 7.689646460088385e-05,
      "loss": 1.6722,
      "step": 69154
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.631173312664032,
      "learning_rate": 7.68894771046823e-05,
      "loss": 1.5496,
      "step": 69155
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6231388449668884,
      "learning_rate": 7.688248987930395e-05,
      "loss": 1.5349,
      "step": 69156
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6230514645576477,
      "learning_rate": 7.68755029247574e-05,
      "loss": 1.5289,
      "step": 69157
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6685420870780945,
      "learning_rate": 7.686851624105118e-05,
      "loss": 1.5154,
      "step": 69158
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6473062038421631,
      "learning_rate": 7.686152982819371e-05,
      "loss": 1.5484,
      "step": 69159
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6542003750801086,
      "learning_rate": 7.685454368619338e-05,
      "loss": 1.5315,
      "step": 69160
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6187337040901184,
      "learning_rate": 7.684755781505885e-05,
      "loss": 1.5259,
      "step": 69161
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6223490238189697,
      "learning_rate": 7.68405722147985e-05,
      "loss": 1.5539,
      "step": 69162
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6324467658996582,
      "learning_rate": 7.68335868854207e-05,
      "loss": 1.4909,
      "step": 69163
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6370563507080078,
      "learning_rate": 7.682660182693409e-05,
      "loss": 1.5072,
      "step": 69164
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6410430669784546,
      "learning_rate": 7.681961703934724e-05,
      "loss": 1.5069,
      "step": 69165
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6400277614593506,
      "learning_rate": 7.681263252266835e-05,
      "loss": 1.5449,
      "step": 69166
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6273025274276733,
      "learning_rate": 7.680564827690599e-05,
      "loss": 1.5537,
      "step": 69167
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6091050505638123,
      "learning_rate": 7.67986643020688e-05,
      "loss": 1.5506,
      "step": 69168
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6315991878509521,
      "learning_rate": 7.679168059816516e-05,
      "loss": 1.5524,
      "step": 69169
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6210849285125732,
      "learning_rate": 7.678469716520342e-05,
      "loss": 1.5918,
      "step": 69170
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6434203386306763,
      "learning_rate": 7.677771400319218e-05,
      "loss": 1.5399,
      "step": 69171
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6238359808921814,
      "learning_rate": 7.677073111214009e-05,
      "loss": 1.5418,
      "step": 69172
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.632788360118866,
      "learning_rate": 7.676374849205525e-05,
      "loss": 1.5049,
      "step": 69173
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6316709518432617,
      "learning_rate": 7.675676614294636e-05,
      "loss": 1.4645,
      "step": 69174
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6526187062263489,
      "learning_rate": 7.674978406482189e-05,
      "loss": 1.6117,
      "step": 69175
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.640059769153595,
      "learning_rate": 7.674280225769032e-05,
      "loss": 1.4939,
      "step": 69176
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6530550718307495,
      "learning_rate": 7.673582072156001e-05,
      "loss": 1.5481,
      "step": 69177
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6270726323127747,
      "learning_rate": 7.672883945643952e-05,
      "loss": 1.5048,
      "step": 69178
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6451044678688049,
      "learning_rate": 7.67218584623375e-05,
      "loss": 1.5971,
      "step": 69179
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6451455950737,
      "learning_rate": 7.671487773926208e-05,
      "loss": 1.5056,
      "step": 69180
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6389060020446777,
      "learning_rate": 7.670789728722184e-05,
      "loss": 1.5341,
      "step": 69181
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6100521683692932,
      "learning_rate": 7.670091710622547e-05,
      "loss": 1.479,
      "step": 69182
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6901265978813171,
      "learning_rate": 7.669393719628124e-05,
      "loss": 1.5405,
      "step": 69183
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6261212229728699,
      "learning_rate": 7.668695755739758e-05,
      "loss": 1.4866,
      "step": 69184
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6368776559829712,
      "learning_rate": 7.667997818958307e-05,
      "loss": 1.559,
      "step": 69185
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6372956037521362,
      "learning_rate": 7.667299909284634e-05,
      "loss": 1.5519,
      "step": 69186
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6205314993858337,
      "learning_rate": 7.66660202671955e-05,
      "loss": 1.4308,
      "step": 69187
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.657431960105896,
      "learning_rate": 7.665904171263921e-05,
      "loss": 1.5555,
      "step": 69188
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6659891605377197,
      "learning_rate": 7.6652063429186e-05,
      "loss": 1.6052,
      "step": 69189
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6335568428039551,
      "learning_rate": 7.664508541684432e-05,
      "loss": 1.536,
      "step": 69190
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.636898934841156,
      "learning_rate": 7.663810767562245e-05,
      "loss": 1.5576,
      "step": 69191
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6392860412597656,
      "learning_rate": 7.663113020552914e-05,
      "loss": 1.6471,
      "step": 69192
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6496826410293579,
      "learning_rate": 7.662415300657272e-05,
      "loss": 1.509,
      "step": 69193
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6365943551063538,
      "learning_rate": 7.661717607876157e-05,
      "loss": 1.4945,
      "step": 69194
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.615557849407196,
      "learning_rate": 7.661019942210425e-05,
      "loss": 1.4836,
      "step": 69195
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6591310501098633,
      "learning_rate": 7.660322303660932e-05,
      "loss": 1.495,
      "step": 69196
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6645418405532837,
      "learning_rate": 7.659624692228517e-05,
      "loss": 1.5278,
      "step": 69197
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6361454725265503,
      "learning_rate": 7.658927107914018e-05,
      "loss": 1.5445,
      "step": 69198
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6263653635978699,
      "learning_rate": 7.658229550718295e-05,
      "loss": 1.503,
      "step": 69199
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6403771638870239,
      "learning_rate": 7.657532020642193e-05,
      "loss": 1.4877,
      "step": 69200
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6392726898193359,
      "learning_rate": 7.656834517686543e-05,
      "loss": 1.5526,
      "step": 69201
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6370105147361755,
      "learning_rate": 7.656137041852215e-05,
      "loss": 1.4871,
      "step": 69202
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6376356482505798,
      "learning_rate": 7.655439593140038e-05,
      "loss": 1.5872,
      "step": 69203
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6337730288505554,
      "learning_rate": 7.654742171550869e-05,
      "loss": 1.5069,
      "step": 69204
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6278274059295654,
      "learning_rate": 7.654044777085545e-05,
      "loss": 1.5102,
      "step": 69205
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6528496742248535,
      "learning_rate": 7.653347409744924e-05,
      "loss": 1.6046,
      "step": 69206
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6520039439201355,
      "learning_rate": 7.652650069529849e-05,
      "loss": 1.5357,
      "step": 69207
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6434608697891235,
      "learning_rate": 7.651952756441154e-05,
      "loss": 1.598,
      "step": 69208
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6278182864189148,
      "learning_rate": 7.651255470479707e-05,
      "loss": 1.4641,
      "step": 69209
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6297158002853394,
      "learning_rate": 7.650558211646332e-05,
      "loss": 1.5047,
      "step": 69210
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6357605457305908,
      "learning_rate": 7.649860979941894e-05,
      "loss": 1.5367,
      "step": 69211
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6568225622177124,
      "learning_rate": 7.649163775367234e-05,
      "loss": 1.5701,
      "step": 69212
    },
    {
      "epoch": 2.3,
      "grad_norm": 1.2107911109924316,
      "learning_rate": 7.648466597923185e-05,
      "loss": 1.6377,
      "step": 69213
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6679473519325256,
      "learning_rate": 7.647769447610613e-05,
      "loss": 1.5582,
      "step": 69214
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.624666154384613,
      "learning_rate": 7.647072324430348e-05,
      "loss": 1.5085,
      "step": 69215
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6518306136131287,
      "learning_rate": 7.646375228383251e-05,
      "loss": 1.5349,
      "step": 69216
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6910028457641602,
      "learning_rate": 7.645678159470153e-05,
      "loss": 1.4921,
      "step": 69217
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6270257830619812,
      "learning_rate": 7.64498111769192e-05,
      "loss": 1.5479,
      "step": 69218
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.608112096786499,
      "learning_rate": 7.644284103049383e-05,
      "loss": 1.6019,
      "step": 69219
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6282740831375122,
      "learning_rate": 7.64358711554338e-05,
      "loss": 1.4685,
      "step": 69220
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6253214478492737,
      "learning_rate": 7.642890155174781e-05,
      "loss": 1.5189,
      "step": 69221
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.613141655921936,
      "learning_rate": 7.642193221944415e-05,
      "loss": 1.5287,
      "step": 69222
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6094444394111633,
      "learning_rate": 7.641496315853126e-05,
      "loss": 1.5823,
      "step": 69223
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6538462042808533,
      "learning_rate": 7.640799436901768e-05,
      "loss": 1.609,
      "step": 69224
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6423704624176025,
      "learning_rate": 7.64010258509119e-05,
      "loss": 1.5665,
      "step": 69225
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.5958263874053955,
      "learning_rate": 7.639405760422236e-05,
      "loss": 1.4661,
      "step": 69226
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6472535133361816,
      "learning_rate": 7.638708962895737e-05,
      "loss": 1.539,
      "step": 69227
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.64649897813797,
      "learning_rate": 7.63801219251256e-05,
      "loss": 1.5479,
      "step": 69228
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6192908883094788,
      "learning_rate": 7.637315449273543e-05,
      "loss": 1.4685,
      "step": 69229
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6212020516395569,
      "learning_rate": 7.63661873317952e-05,
      "loss": 1.5535,
      "step": 69230
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6094250679016113,
      "learning_rate": 7.635922044231347e-05,
      "loss": 1.5366,
      "step": 69231
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.659903883934021,
      "learning_rate": 7.635225382429881e-05,
      "loss": 1.6166,
      "step": 69232
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6726061701774597,
      "learning_rate": 7.634528747775951e-05,
      "loss": 1.5638,
      "step": 69233
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6116651892662048,
      "learning_rate": 7.633832140270401e-05,
      "loss": 1.5962,
      "step": 69234
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6409846544265747,
      "learning_rate": 7.633135559914086e-05,
      "loss": 1.5926,
      "step": 69235
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6376951932907104,
      "learning_rate": 7.632439006707865e-05,
      "loss": 1.5445,
      "step": 69236
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6583491563796997,
      "learning_rate": 7.631742480652545e-05,
      "loss": 1.552,
      "step": 69237
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6604198217391968,
      "learning_rate": 7.631045981749e-05,
      "loss": 1.5309,
      "step": 69238
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6455320715904236,
      "learning_rate": 7.630349509998075e-05,
      "loss": 1.5424,
      "step": 69239
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.651329755783081,
      "learning_rate": 7.629653065400609e-05,
      "loss": 1.5404,
      "step": 69240
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6427528858184814,
      "learning_rate": 7.628956647957443e-05,
      "loss": 1.5567,
      "step": 69241
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6415213346481323,
      "learning_rate": 7.628260257669434e-05,
      "loss": 1.4943,
      "step": 69242
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6601647138595581,
      "learning_rate": 7.62756389453742e-05,
      "loss": 1.5346,
      "step": 69243
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6442381143569946,
      "learning_rate": 7.626867558562238e-05,
      "loss": 1.4814,
      "step": 69244
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6183037161827087,
      "learning_rate": 7.626171249744744e-05,
      "loss": 1.6104,
      "step": 69245
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6361975073814392,
      "learning_rate": 7.625474968085787e-05,
      "loss": 1.5106,
      "step": 69246
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6268777251243591,
      "learning_rate": 7.62477871358621e-05,
      "loss": 1.4895,
      "step": 69247
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6231648325920105,
      "learning_rate": 7.624082486246845e-05,
      "loss": 1.5411,
      "step": 69248
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6279371976852417,
      "learning_rate": 7.623386286068558e-05,
      "loss": 1.5266,
      "step": 69249
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6231646537780762,
      "learning_rate": 7.62269011305218e-05,
      "loss": 1.5508,
      "step": 69250
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6321099996566772,
      "learning_rate": 7.621993967198551e-05,
      "loss": 1.5963,
      "step": 69251
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6555238962173462,
      "learning_rate": 7.621297848508532e-05,
      "loss": 1.5256,
      "step": 69252
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.651862382888794,
      "learning_rate": 7.620601756982952e-05,
      "loss": 1.5814,
      "step": 69253
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6326636075973511,
      "learning_rate": 7.619905692622672e-05,
      "loss": 1.4744,
      "step": 69254
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6281870603561401,
      "learning_rate": 7.619209655428522e-05,
      "loss": 1.4774,
      "step": 69255
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6295754909515381,
      "learning_rate": 7.618513645401362e-05,
      "loss": 1.5555,
      "step": 69256
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6406490802764893,
      "learning_rate": 7.617817662542028e-05,
      "loss": 1.4799,
      "step": 69257
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6133800745010376,
      "learning_rate": 7.617121706851357e-05,
      "loss": 1.641,
      "step": 69258
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6173226833343506,
      "learning_rate": 7.616425778330214e-05,
      "loss": 1.5764,
      "step": 69259
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.660595715045929,
      "learning_rate": 7.615729876979418e-05,
      "loss": 1.5054,
      "step": 69260
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6268916130065918,
      "learning_rate": 7.615034002799839e-05,
      "loss": 1.455,
      "step": 69261
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.630135715007782,
      "learning_rate": 7.614338155792311e-05,
      "loss": 1.4577,
      "step": 69262
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6199242472648621,
      "learning_rate": 7.613642335957668e-05,
      "loss": 1.402,
      "step": 69263
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6114464998245239,
      "learning_rate": 7.612946543296776e-05,
      "loss": 1.5495,
      "step": 69264
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6369425654411316,
      "learning_rate": 7.612250777810458e-05,
      "loss": 1.5522,
      "step": 69265
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6210326552391052,
      "learning_rate": 7.611555039499575e-05,
      "loss": 1.5807,
      "step": 69266
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6313108801841736,
      "learning_rate": 7.61085932836496e-05,
      "loss": 1.5278,
      "step": 69267
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6551143527030945,
      "learning_rate": 7.610163644407472e-05,
      "loss": 1.5592,
      "step": 69268
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6340726613998413,
      "learning_rate": 7.609467987627944e-05,
      "loss": 1.5863,
      "step": 69269
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6855243444442749,
      "learning_rate": 7.608772358027215e-05,
      "loss": 1.5573,
      "step": 69270
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6565810441970825,
      "learning_rate": 7.608076755606145e-05,
      "loss": 1.551,
      "step": 69271
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6418429017066956,
      "learning_rate": 7.607381180365573e-05,
      "loss": 1.5017,
      "step": 69272
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6436216235160828,
      "learning_rate": 7.606685632306331e-05,
      "loss": 1.5174,
      "step": 69273
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6298820972442627,
      "learning_rate": 7.605990111429272e-05,
      "loss": 1.4845,
      "step": 69274
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6265727281570435,
      "learning_rate": 7.605294617735253e-05,
      "loss": 1.5221,
      "step": 69275
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6436185240745544,
      "learning_rate": 7.604599151225101e-05,
      "loss": 1.5427,
      "step": 69276
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6533446311950684,
      "learning_rate": 7.603903711899662e-05,
      "loss": 1.5443,
      "step": 69277
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6333373188972473,
      "learning_rate": 7.603208299759792e-05,
      "loss": 1.5211,
      "step": 69278
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.640602707862854,
      "learning_rate": 7.602512914806326e-05,
      "loss": 1.6137,
      "step": 69279
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6600176692008972,
      "learning_rate": 7.601817557040102e-05,
      "loss": 1.591,
      "step": 69280
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.6404231786727905,
      "learning_rate": 7.60112222646197e-05,
      "loss": 1.5422,
      "step": 69281
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6242546439170837,
      "learning_rate": 7.600426923072792e-05,
      "loss": 1.5422,
      "step": 69282
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6445801854133606,
      "learning_rate": 7.599731646873378e-05,
      "loss": 1.5472,
      "step": 69283
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6245860457420349,
      "learning_rate": 7.599036397864591e-05,
      "loss": 1.5144,
      "step": 69284
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6550182104110718,
      "learning_rate": 7.598341176047283e-05,
      "loss": 1.5511,
      "step": 69285
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6374531388282776,
      "learning_rate": 7.597645981422286e-05,
      "loss": 1.6272,
      "step": 69286
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6612439751625061,
      "learning_rate": 7.596950813990437e-05,
      "loss": 1.5127,
      "step": 69287
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6230814456939697,
      "learning_rate": 7.596255673752589e-05,
      "loss": 1.515,
      "step": 69288
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6517791748046875,
      "learning_rate": 7.595560560709602e-05,
      "loss": 1.611,
      "step": 69289
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6134839057922363,
      "learning_rate": 7.594865474862286e-05,
      "loss": 1.4831,
      "step": 69290
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6062031388282776,
      "learning_rate": 7.594170416211505e-05,
      "loss": 1.533,
      "step": 69291
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6526082158088684,
      "learning_rate": 7.593475384758105e-05,
      "loss": 1.574,
      "step": 69292
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6272009015083313,
      "learning_rate": 7.592780380502927e-05,
      "loss": 1.5482,
      "step": 69293
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6186569333076477,
      "learning_rate": 7.5920854034468e-05,
      "loss": 1.558,
      "step": 69294
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6298785209655762,
      "learning_rate": 7.591390453590583e-05,
      "loss": 1.5081,
      "step": 69295
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6342434883117676,
      "learning_rate": 7.590695530935132e-05,
      "loss": 1.5284,
      "step": 69296
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6342681646347046,
      "learning_rate": 7.59000063548126e-05,
      "loss": 1.5758,
      "step": 69297
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6221804618835449,
      "learning_rate": 7.589305767229822e-05,
      "loss": 1.5252,
      "step": 69298
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6188194155693054,
      "learning_rate": 7.588610926181677e-05,
      "loss": 1.5586,
      "step": 69299
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6483206152915955,
      "learning_rate": 7.587916112337653e-05,
      "loss": 1.4649,
      "step": 69300
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6280516982078552,
      "learning_rate": 7.587221325698588e-05,
      "loss": 1.485,
      "step": 69301
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6358049511909485,
      "learning_rate": 7.586526566265334e-05,
      "loss": 1.4741,
      "step": 69302
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6710503697395325,
      "learning_rate": 7.585831834038753e-05,
      "loss": 1.5099,
      "step": 69303
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6329718828201294,
      "learning_rate": 7.585137129019652e-05,
      "loss": 1.5342,
      "step": 69304
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6049809455871582,
      "learning_rate": 7.584442451208891e-05,
      "loss": 1.538,
      "step": 69305
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.633706271648407,
      "learning_rate": 7.583747800607324e-05,
      "loss": 1.4901,
      "step": 69306
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.653750479221344,
      "learning_rate": 7.583053177215784e-05,
      "loss": 1.5583,
      "step": 69307
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6197615265846252,
      "learning_rate": 7.582358581035106e-05,
      "loss": 1.497,
      "step": 69308
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6272512674331665,
      "learning_rate": 7.581664012066148e-05,
      "loss": 1.5091,
      "step": 69309
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6041869521141052,
      "learning_rate": 7.580969470309748e-05,
      "loss": 1.5366,
      "step": 69310
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.638277530670166,
      "learning_rate": 7.580274955766739e-05,
      "loss": 1.5533,
      "step": 69311
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6194308400154114,
      "learning_rate": 7.579580468437973e-05,
      "loss": 1.5573,
      "step": 69312
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6154913306236267,
      "learning_rate": 7.578886008324302e-05,
      "loss": 1.5212,
      "step": 69313
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6275239586830139,
      "learning_rate": 7.57819157542656e-05,
      "loss": 1.5567,
      "step": 69314
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6197347640991211,
      "learning_rate": 7.57749716974558e-05,
      "loss": 1.563,
      "step": 69315
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6501578092575073,
      "learning_rate": 7.576802791282225e-05,
      "loss": 1.6121,
      "step": 69316
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6450067162513733,
      "learning_rate": 7.576108440037327e-05,
      "loss": 1.4905,
      "step": 69317
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6482381820678711,
      "learning_rate": 7.57541411601172e-05,
      "loss": 1.5008,
      "step": 69318
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.64222252368927,
      "learning_rate": 7.574719819206262e-05,
      "loss": 1.518,
      "step": 69319
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6390769481658936,
      "learning_rate": 7.574025549621785e-05,
      "loss": 1.5717,
      "step": 69320
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6541264057159424,
      "learning_rate": 7.573331307259145e-05,
      "loss": 1.5659,
      "step": 69321
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6214897036552429,
      "learning_rate": 7.572637092119168e-05,
      "loss": 1.5498,
      "step": 69322
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6241127252578735,
      "learning_rate": 7.571942904202711e-05,
      "loss": 1.5833,
      "step": 69323
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.639491617679596,
      "learning_rate": 7.571248743510614e-05,
      "loss": 1.5987,
      "step": 69324
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6402929425239563,
      "learning_rate": 7.570554610043706e-05,
      "loss": 1.5016,
      "step": 69325
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6592406630516052,
      "learning_rate": 7.569860503802849e-05,
      "loss": 1.553,
      "step": 69326
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6179232001304626,
      "learning_rate": 7.569166424788869e-05,
      "loss": 1.4857,
      "step": 69327
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6493188142776489,
      "learning_rate": 7.568472373002621e-05,
      "loss": 1.5102,
      "step": 69328
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6448578834533691,
      "learning_rate": 7.567778348444945e-05,
      "loss": 1.5999,
      "step": 69329
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6385344862937927,
      "learning_rate": 7.56708435111667e-05,
      "loss": 1.5481,
      "step": 69330
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6223602890968323,
      "learning_rate": 7.56639038101866e-05,
      "loss": 1.437,
      "step": 69331
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6094930768013,
      "learning_rate": 7.565696438151737e-05,
      "loss": 1.5714,
      "step": 69332
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6543919444084167,
      "learning_rate": 7.565002522516764e-05,
      "loss": 1.487,
      "step": 69333
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6645005941390991,
      "learning_rate": 7.564308634114561e-05,
      "loss": 1.545,
      "step": 69334
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.646041750907898,
      "learning_rate": 7.563614772945992e-05,
      "loss": 1.4411,
      "step": 69335
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6309643387794495,
      "learning_rate": 7.56292093901189e-05,
      "loss": 1.5084,
      "step": 69336
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6312206387519836,
      "learning_rate": 7.562227132313083e-05,
      "loss": 1.5461,
      "step": 69337
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6115735173225403,
      "learning_rate": 7.561533352850438e-05,
      "loss": 1.5047,
      "step": 69338
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6174003481864929,
      "learning_rate": 7.560839600624784e-05,
      "loss": 1.4872,
      "step": 69339
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6243279576301575,
      "learning_rate": 7.560145875636956e-05,
      "loss": 1.488,
      "step": 69340
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6557456254959106,
      "learning_rate": 7.559452177887806e-05,
      "loss": 1.4822,
      "step": 69341
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6366681456565857,
      "learning_rate": 7.55875850737818e-05,
      "loss": 1.6005,
      "step": 69342
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.642228364944458,
      "learning_rate": 7.558064864108917e-05,
      "loss": 1.5045,
      "step": 69343
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6779045462608337,
      "learning_rate": 7.55737124808085e-05,
      "loss": 1.5296,
      "step": 69344
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6430264115333557,
      "learning_rate": 7.556677659294832e-05,
      "loss": 1.5663,
      "step": 69345
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6380603313446045,
      "learning_rate": 7.555984097751702e-05,
      "loss": 1.5632,
      "step": 69346
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6364314556121826,
      "learning_rate": 7.555290563452292e-05,
      "loss": 1.4699,
      "step": 69347
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6319398283958435,
      "learning_rate": 7.554597056397452e-05,
      "loss": 1.4753,
      "step": 69348
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.649736225605011,
      "learning_rate": 7.553903576588035e-05,
      "loss": 1.4878,
      "step": 69349
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6335236430168152,
      "learning_rate": 7.55321012402487e-05,
      "loss": 1.5064,
      "step": 69350
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6505652070045471,
      "learning_rate": 7.552516698708789e-05,
      "loss": 1.5196,
      "step": 69351
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6479857563972473,
      "learning_rate": 7.551823300640649e-05,
      "loss": 1.5544,
      "step": 69352
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6341917514801025,
      "learning_rate": 7.551129929821302e-05,
      "loss": 1.5899,
      "step": 69353
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6076611876487732,
      "learning_rate": 7.550436586251562e-05,
      "loss": 1.5017,
      "step": 69354
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6498622298240662,
      "learning_rate": 7.549743269932282e-05,
      "loss": 1.5306,
      "step": 69355
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6289372444152832,
      "learning_rate": 7.549049980864315e-05,
      "loss": 1.5961,
      "step": 69356
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6562743782997131,
      "learning_rate": 7.548356719048494e-05,
      "loss": 1.5848,
      "step": 69357
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6419374942779541,
      "learning_rate": 7.54766348448565e-05,
      "loss": 1.5773,
      "step": 69358
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6437920928001404,
      "learning_rate": 7.546970277176645e-05,
      "loss": 1.4816,
      "step": 69359
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.631088376045227,
      "learning_rate": 7.546277097122305e-05,
      "loss": 1.443,
      "step": 69360
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6427364945411682,
      "learning_rate": 7.545583944323473e-05,
      "loss": 1.5299,
      "step": 69361
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6512817144393921,
      "learning_rate": 7.544890818780992e-05,
      "loss": 1.4757,
      "step": 69362
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6528626084327698,
      "learning_rate": 7.54419772049571e-05,
      "loss": 1.5604,
      "step": 69363
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6232068538665771,
      "learning_rate": 7.543504649468469e-05,
      "loss": 1.4636,
      "step": 69364
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6426675319671631,
      "learning_rate": 7.542811605700091e-05,
      "loss": 1.4907,
      "step": 69365
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6501984000205994,
      "learning_rate": 7.542118589191442e-05,
      "loss": 1.5419,
      "step": 69366
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6322329044342041,
      "learning_rate": 7.541425599943353e-05,
      "loss": 1.4974,
      "step": 69367
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6221476793289185,
      "learning_rate": 7.540732637956654e-05,
      "loss": 1.4831,
      "step": 69368
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6086577773094177,
      "learning_rate": 7.540039703232203e-05,
      "loss": 1.5376,
      "step": 69369
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6279918551445007,
      "learning_rate": 7.539346795770828e-05,
      "loss": 1.5064,
      "step": 69370
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6160556674003601,
      "learning_rate": 7.538653915573385e-05,
      "loss": 1.5601,
      "step": 69371
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6255231499671936,
      "learning_rate": 7.537961062640698e-05,
      "loss": 1.5537,
      "step": 69372
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6318859457969666,
      "learning_rate": 7.537268236973629e-05,
      "loss": 1.4592,
      "step": 69373
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6244420409202576,
      "learning_rate": 7.536575438573e-05,
      "loss": 1.5867,
      "step": 69374
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6288881897926331,
      "learning_rate": 7.535882667439655e-05,
      "loss": 1.6497,
      "step": 69375
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6640909910202026,
      "learning_rate": 7.535189923574442e-05,
      "loss": 1.4775,
      "step": 69376
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6239504814147949,
      "learning_rate": 7.534497206978196e-05,
      "loss": 1.5095,
      "step": 69377
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6435598134994507,
      "learning_rate": 7.533804517651764e-05,
      "loss": 1.5738,
      "step": 69378
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6361101865768433,
      "learning_rate": 7.533111855595985e-05,
      "loss": 1.5131,
      "step": 69379
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6424708366394043,
      "learning_rate": 7.532419220811691e-05,
      "loss": 1.5406,
      "step": 69380
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6390118598937988,
      "learning_rate": 7.531726613299735e-05,
      "loss": 1.5731,
      "step": 69381
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6421692371368408,
      "learning_rate": 7.531034033060945e-05,
      "loss": 1.585,
      "step": 69382
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6400827169418335,
      "learning_rate": 7.530341480096179e-05,
      "loss": 1.5071,
      "step": 69383
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6221877336502075,
      "learning_rate": 7.529648954406256e-05,
      "loss": 1.4862,
      "step": 69384
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.7207697629928589,
      "learning_rate": 7.52895645599204e-05,
      "loss": 1.4536,
      "step": 69385
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6734965443611145,
      "learning_rate": 7.528263984854359e-05,
      "loss": 1.5215,
      "step": 69386
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6479443907737732,
      "learning_rate": 7.527571540994045e-05,
      "loss": 1.4552,
      "step": 69387
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6249765753746033,
      "learning_rate": 7.526879124411958e-05,
      "loss": 1.5591,
      "step": 69388
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6115342378616333,
      "learning_rate": 7.526186735108925e-05,
      "loss": 1.4853,
      "step": 69389
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6576620936393738,
      "learning_rate": 7.525494373085785e-05,
      "loss": 1.5808,
      "step": 69390
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6369124054908752,
      "learning_rate": 7.524802038343383e-05,
      "loss": 1.5572,
      "step": 69391
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6080063581466675,
      "learning_rate": 7.524109730882568e-05,
      "loss": 1.5255,
      "step": 69392
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6367487907409668,
      "learning_rate": 7.523417450704172e-05,
      "loss": 1.4812,
      "step": 69393
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6525396108627319,
      "learning_rate": 7.522725197809028e-05,
      "loss": 1.6034,
      "step": 69394
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6353886127471924,
      "learning_rate": 7.522032972197989e-05,
      "loss": 1.4338,
      "step": 69395
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6251909732818604,
      "learning_rate": 7.521340773871891e-05,
      "loss": 1.464,
      "step": 69396
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6534101963043213,
      "learning_rate": 7.520648602831567e-05,
      "loss": 1.4942,
      "step": 69397
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6263578534126282,
      "learning_rate": 7.519956459077863e-05,
      "loss": 1.5407,
      "step": 69398
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6686160564422607,
      "learning_rate": 7.519264342611634e-05,
      "loss": 1.5168,
      "step": 69399
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.650985062122345,
      "learning_rate": 7.51857225343369e-05,
      "loss": 1.5436,
      "step": 69400
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6542638540267944,
      "learning_rate": 7.517880191544887e-05,
      "loss": 1.5485,
      "step": 69401
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6178115606307983,
      "learning_rate": 7.517188156946074e-05,
      "loss": 1.5321,
      "step": 69402
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6316249966621399,
      "learning_rate": 7.516496149638082e-05,
      "loss": 1.5031,
      "step": 69403
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6318541169166565,
      "learning_rate": 7.51580416962174e-05,
      "loss": 1.5205,
      "step": 69404
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6518827676773071,
      "learning_rate": 7.515112216897902e-05,
      "loss": 1.5602,
      "step": 69405
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6198940873146057,
      "learning_rate": 7.51442029146742e-05,
      "loss": 1.5019,
      "step": 69406
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6563730239868164,
      "learning_rate": 7.513728393331102e-05,
      "loss": 1.5193,
      "step": 69407
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6293460130691528,
      "learning_rate": 7.513036522489808e-05,
      "loss": 1.4849,
      "step": 69408
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6388985514640808,
      "learning_rate": 7.512344678944377e-05,
      "loss": 1.5734,
      "step": 69409
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6183781623840332,
      "learning_rate": 7.511652862695649e-05,
      "loss": 1.4939,
      "step": 69410
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6182979941368103,
      "learning_rate": 7.510961073744452e-05,
      "loss": 1.55,
      "step": 69411
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6341915130615234,
      "learning_rate": 7.510269312091636e-05,
      "loss": 1.489,
      "step": 69412
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6276369690895081,
      "learning_rate": 7.509577577738055e-05,
      "loss": 1.5272,
      "step": 69413
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6420037150382996,
      "learning_rate": 7.508885870684517e-05,
      "loss": 1.4333,
      "step": 69414
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6438243985176086,
      "learning_rate": 7.508194190931874e-05,
      "loss": 1.5743,
      "step": 69415
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6313835978507996,
      "learning_rate": 7.507502538480981e-05,
      "loss": 1.5366,
      "step": 69416
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6520149111747742,
      "learning_rate": 7.506810913332665e-05,
      "loss": 1.4847,
      "step": 69417
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6456214785575867,
      "learning_rate": 7.506119315487758e-05,
      "loss": 1.5183,
      "step": 69418
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6387997269630432,
      "learning_rate": 7.505427744947108e-05,
      "loss": 1.524,
      "step": 69419
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6296024322509766,
      "learning_rate": 7.504736201711572e-05,
      "loss": 1.5505,
      "step": 69420
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6450538635253906,
      "learning_rate": 7.504044685781953e-05,
      "loss": 1.5524,
      "step": 69421
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6794840097427368,
      "learning_rate": 7.503353197159112e-05,
      "loss": 1.5464,
      "step": 69422
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6156157851219177,
      "learning_rate": 7.50266173584389e-05,
      "loss": 1.5099,
      "step": 69423
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6410884857177734,
      "learning_rate": 7.501970301837127e-05,
      "loss": 1.5526,
      "step": 69424
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6433128118515015,
      "learning_rate": 7.501278895139645e-05,
      "loss": 1.5258,
      "step": 69425
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6340339183807373,
      "learning_rate": 7.500587515752305e-05,
      "loss": 1.534,
      "step": 69426
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6285082697868347,
      "learning_rate": 7.499896163675933e-05,
      "loss": 1.5316,
      "step": 69427
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6186047196388245,
      "learning_rate": 7.49920483891137e-05,
      "loss": 1.5127,
      "step": 69428
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6200854778289795,
      "learning_rate": 7.49851354145945e-05,
      "loss": 1.535,
      "step": 69429
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6524003148078918,
      "learning_rate": 7.497822271321033e-05,
      "loss": 1.5079,
      "step": 69430
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6360552906990051,
      "learning_rate": 7.497131028496943e-05,
      "loss": 1.5388,
      "step": 69431
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6478613615036011,
      "learning_rate": 7.496439812988009e-05,
      "loss": 1.5222,
      "step": 69432
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6459460854530334,
      "learning_rate": 7.495748624795091e-05,
      "loss": 1.5277,
      "step": 69433
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6334342360496521,
      "learning_rate": 7.49505746391902e-05,
      "loss": 1.5978,
      "step": 69434
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6397405862808228,
      "learning_rate": 7.494366330360626e-05,
      "loss": 1.4807,
      "step": 69435
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6346713900566101,
      "learning_rate": 7.49367522412076e-05,
      "loss": 1.5995,
      "step": 69436
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6890931725502014,
      "learning_rate": 7.49298414520025e-05,
      "loss": 1.6019,
      "step": 69437
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6291090846061707,
      "learning_rate": 7.492293093599947e-05,
      "loss": 1.5472,
      "step": 69438
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6752973794937134,
      "learning_rate": 7.491602069320679e-05,
      "loss": 1.5305,
      "step": 69439
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6286068558692932,
      "learning_rate": 7.490911072363296e-05,
      "loss": 1.4874,
      "step": 69440
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6262308955192566,
      "learning_rate": 7.49022010272863e-05,
      "loss": 1.5175,
      "step": 69441
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6445256471633911,
      "learning_rate": 7.489529160417511e-05,
      "loss": 1.5368,
      "step": 69442
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6570355892181396,
      "learning_rate": 7.488838245430799e-05,
      "loss": 1.5547,
      "step": 69443
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6446552276611328,
      "learning_rate": 7.488147357769307e-05,
      "loss": 1.5817,
      "step": 69444
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.645173192024231,
      "learning_rate": 7.487456497433902e-05,
      "loss": 1.5246,
      "step": 69445
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6335455775260925,
      "learning_rate": 7.486765664425403e-05,
      "loss": 1.5824,
      "step": 69446
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6465734243392944,
      "learning_rate": 7.486074858744644e-05,
      "loss": 1.4446,
      "step": 69447
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6477478742599487,
      "learning_rate": 7.485384080392485e-05,
      "loss": 1.5906,
      "step": 69448
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6110177636146545,
      "learning_rate": 7.48469332936974e-05,
      "loss": 1.5577,
      "step": 69449
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6451799273490906,
      "learning_rate": 7.484002605677271e-05,
      "loss": 1.6111,
      "step": 69450
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6205917596817017,
      "learning_rate": 7.483311909315897e-05,
      "loss": 1.5438,
      "step": 69451
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6510761976242065,
      "learning_rate": 7.482621240286471e-05,
      "loss": 1.6566,
      "step": 69452
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6320092678070068,
      "learning_rate": 7.48193059858983e-05,
      "loss": 1.5486,
      "step": 69453
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6337713003158569,
      "learning_rate": 7.481239984226793e-05,
      "loss": 1.5288,
      "step": 69454
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6778758764266968,
      "learning_rate": 7.480549397198223e-05,
      "loss": 1.5692,
      "step": 69455
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6080138683319092,
      "learning_rate": 7.479858837504949e-05,
      "loss": 1.5367,
      "step": 69456
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.639212429523468,
      "learning_rate": 7.479168305147796e-05,
      "loss": 1.5194,
      "step": 69457
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6237277388572693,
      "learning_rate": 7.478477800127622e-05,
      "loss": 1.5594,
      "step": 69458
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6741154193878174,
      "learning_rate": 7.477787322445258e-05,
      "loss": 1.4423,
      "step": 69459
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.633639395236969,
      "learning_rate": 7.477096872101545e-05,
      "loss": 1.5783,
      "step": 69460
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6238411664962769,
      "learning_rate": 7.476406449097311e-05,
      "loss": 1.5405,
      "step": 69461
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6099409461021423,
      "learning_rate": 7.475716053433409e-05,
      "loss": 1.5344,
      "step": 69462
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6292146444320679,
      "learning_rate": 7.475025685110667e-05,
      "loss": 1.5303,
      "step": 69463
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6115862727165222,
      "learning_rate": 7.474335344129918e-05,
      "loss": 1.5072,
      "step": 69464
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6391798257827759,
      "learning_rate": 7.473645030492004e-05,
      "loss": 1.5123,
      "step": 69465
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6283526420593262,
      "learning_rate": 7.472954744197777e-05,
      "loss": 1.5511,
      "step": 69466
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6069371700286865,
      "learning_rate": 7.472264485248061e-05,
      "loss": 1.5154,
      "step": 69467
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6383830904960632,
      "learning_rate": 7.471574253643692e-05,
      "loss": 1.6046,
      "step": 69468
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6437788009643555,
      "learning_rate": 7.470884049385509e-05,
      "loss": 1.456,
      "step": 69469
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6222957968711853,
      "learning_rate": 7.470193872474373e-05,
      "loss": 1.5182,
      "step": 69470
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.634291410446167,
      "learning_rate": 7.469503722911086e-05,
      "loss": 1.534,
      "step": 69471
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6300945281982422,
      "learning_rate": 7.468813600696497e-05,
      "loss": 1.4634,
      "step": 69472
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.624653697013855,
      "learning_rate": 7.468123505831461e-05,
      "loss": 1.5707,
      "step": 69473
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6204516291618347,
      "learning_rate": 7.467433438316802e-05,
      "loss": 1.5923,
      "step": 69474
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6494268774986267,
      "learning_rate": 7.466743398153353e-05,
      "loss": 1.5609,
      "step": 69475
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6662662029266357,
      "learning_rate": 7.466053385341961e-05,
      "loss": 1.4994,
      "step": 69476
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6285507082939148,
      "learning_rate": 7.465363399883461e-05,
      "loss": 1.5107,
      "step": 69477
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6178956031799316,
      "learning_rate": 7.464673441778683e-05,
      "loss": 1.5527,
      "step": 69478
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6333677172660828,
      "learning_rate": 7.463983511028469e-05,
      "loss": 1.5718,
      "step": 69479
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6847073435783386,
      "learning_rate": 7.46329360763367e-05,
      "loss": 1.5477,
      "step": 69480
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6514522433280945,
      "learning_rate": 7.462603731595107e-05,
      "loss": 1.5676,
      "step": 69481
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6549332737922668,
      "learning_rate": 7.461913882913619e-05,
      "loss": 1.6155,
      "step": 69482
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6299290060997009,
      "learning_rate": 7.461224061590052e-05,
      "loss": 1.5977,
      "step": 69483
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6322346329689026,
      "learning_rate": 7.460534267625241e-05,
      "loss": 1.5225,
      "step": 69484
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6179139614105225,
      "learning_rate": 7.459844501020008e-05,
      "loss": 1.4444,
      "step": 69485
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6249052882194519,
      "learning_rate": 7.459154761775212e-05,
      "loss": 1.478,
      "step": 69486
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6136227250099182,
      "learning_rate": 7.458465049891677e-05,
      "loss": 1.5557,
      "step": 69487
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6546928286552429,
      "learning_rate": 7.457775365370246e-05,
      "loss": 1.5272,
      "step": 69488
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6217658519744873,
      "learning_rate": 7.457085708211749e-05,
      "loss": 1.5605,
      "step": 69489
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6287358403205872,
      "learning_rate": 7.456396078417039e-05,
      "loss": 1.5266,
      "step": 69490
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6305499076843262,
      "learning_rate": 7.45570647598694e-05,
      "loss": 1.5471,
      "step": 69491
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6407298445701599,
      "learning_rate": 7.455016900922283e-05,
      "loss": 1.517,
      "step": 69492
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6429486870765686,
      "learning_rate": 7.454327353223923e-05,
      "loss": 1.5053,
      "step": 69493
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6529372930526733,
      "learning_rate": 7.453637832892677e-05,
      "loss": 1.4765,
      "step": 69494
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6242653727531433,
      "learning_rate": 7.452948339929403e-05,
      "loss": 1.5294,
      "step": 69495
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6684936285018921,
      "learning_rate": 7.452258874334927e-05,
      "loss": 1.6204,
      "step": 69496
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6281561851501465,
      "learning_rate": 7.45156943611008e-05,
      "loss": 1.6411,
      "step": 69497
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6434569358825684,
      "learning_rate": 7.450880025255712e-05,
      "loss": 1.5323,
      "step": 69498
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6224477887153625,
      "learning_rate": 7.450190641772644e-05,
      "loss": 1.4788,
      "step": 69499
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6265652179718018,
      "learning_rate": 7.449501285661733e-05,
      "loss": 1.5359,
      "step": 69500
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6344327926635742,
      "learning_rate": 7.448811956923792e-05,
      "loss": 1.5396,
      "step": 69501
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6154447197914124,
      "learning_rate": 7.448122655559681e-05,
      "loss": 1.4597,
      "step": 69502
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6487852931022644,
      "learning_rate": 7.447433381570229e-05,
      "loss": 1.5699,
      "step": 69503
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.623352587223053,
      "learning_rate": 7.44674413495626e-05,
      "loss": 1.528,
      "step": 69504
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6390785574913025,
      "learning_rate": 7.446054915718628e-05,
      "loss": 1.5592,
      "step": 69505
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6357684135437012,
      "learning_rate": 7.445365723858159e-05,
      "loss": 1.5362,
      "step": 69506
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6342894434928894,
      "learning_rate": 7.444676559375689e-05,
      "loss": 1.4781,
      "step": 69507
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6275373101234436,
      "learning_rate": 7.443987422272057e-05,
      "loss": 1.5085,
      "step": 69508
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6453929543495178,
      "learning_rate": 7.44329831254811e-05,
      "loss": 1.5527,
      "step": 69509
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6284709572792053,
      "learning_rate": 7.442609230204674e-05,
      "loss": 1.5869,
      "step": 69510
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6406481862068176,
      "learning_rate": 7.441920175242578e-05,
      "loss": 1.5537,
      "step": 69511
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6194884777069092,
      "learning_rate": 7.441231147662676e-05,
      "loss": 1.5597,
      "step": 69512
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6573840379714966,
      "learning_rate": 7.440542147465797e-05,
      "loss": 1.6503,
      "step": 69513
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6490131616592407,
      "learning_rate": 7.439853174652766e-05,
      "loss": 1.5461,
      "step": 69514
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6443631052970886,
      "learning_rate": 7.439164229224429e-05,
      "loss": 1.5173,
      "step": 69515
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6266176700592041,
      "learning_rate": 7.438475311181642e-05,
      "loss": 1.4704,
      "step": 69516
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6706079840660095,
      "learning_rate": 7.437786420525203e-05,
      "loss": 1.5655,
      "step": 69517
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6644623279571533,
      "learning_rate": 7.437097557255966e-05,
      "loss": 1.5451,
      "step": 69518
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6189274191856384,
      "learning_rate": 7.436408721374777e-05,
      "loss": 1.5157,
      "step": 69519
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6070703864097595,
      "learning_rate": 7.435719912882464e-05,
      "loss": 1.55,
      "step": 69520
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6393420696258545,
      "learning_rate": 7.43503113177985e-05,
      "loss": 1.5166,
      "step": 69521
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6373660564422607,
      "learning_rate": 7.434342378067787e-05,
      "loss": 1.4961,
      "step": 69522
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6733332276344299,
      "learning_rate": 7.433653651747125e-05,
      "loss": 1.5927,
      "step": 69523
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6377519369125366,
      "learning_rate": 7.432964952818666e-05,
      "loss": 1.539,
      "step": 69524
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6206989288330078,
      "learning_rate": 7.432276281283258e-05,
      "loss": 1.4953,
      "step": 69525
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6252756118774414,
      "learning_rate": 7.431587637141754e-05,
      "loss": 1.5145,
      "step": 69526
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6461043953895569,
      "learning_rate": 7.430899020394975e-05,
      "loss": 1.5011,
      "step": 69527
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6266670227050781,
      "learning_rate": 7.430210431043753e-05,
      "loss": 1.4786,
      "step": 69528
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6472705006599426,
      "learning_rate": 7.42952186908893e-05,
      "loss": 1.5377,
      "step": 69529
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6219441294670105,
      "learning_rate": 7.428833334531358e-05,
      "loss": 1.5318,
      "step": 69530
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6727163791656494,
      "learning_rate": 7.428144827371839e-05,
      "loss": 1.4997,
      "step": 69531
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6530842185020447,
      "learning_rate": 7.427456347611227e-05,
      "loss": 1.5335,
      "step": 69532
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6383653879165649,
      "learning_rate": 7.426767895250363e-05,
      "loss": 1.5455,
      "step": 69533
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6537420153617859,
      "learning_rate": 7.42607947029008e-05,
      "loss": 1.5444,
      "step": 69534
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6253162622451782,
      "learning_rate": 7.425391072731203e-05,
      "loss": 1.5277,
      "step": 69535
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6804981827735901,
      "learning_rate": 7.42470270257458e-05,
      "loss": 1.5862,
      "step": 69536
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6206187009811401,
      "learning_rate": 7.424014359821044e-05,
      "loss": 1.5243,
      "step": 69537
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6381407976150513,
      "learning_rate": 7.42332604447142e-05,
      "loss": 1.553,
      "step": 69538
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6741887927055359,
      "learning_rate": 7.422637756526547e-05,
      "loss": 1.5261,
      "step": 69539
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6133133172988892,
      "learning_rate": 7.42194949598728e-05,
      "loss": 1.5255,
      "step": 69540
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6415402889251709,
      "learning_rate": 7.421261262854436e-05,
      "loss": 1.4708,
      "step": 69541
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6310086250305176,
      "learning_rate": 7.420573057128844e-05,
      "loss": 1.6062,
      "step": 69542
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6427599787712097,
      "learning_rate": 7.41988487881136e-05,
      "loss": 1.5182,
      "step": 69543
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6338417530059814,
      "learning_rate": 7.41919672790281e-05,
      "loss": 1.6055,
      "step": 69544
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6543635129928589,
      "learning_rate": 7.418508604404017e-05,
      "loss": 1.5351,
      "step": 69545
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6782094240188599,
      "learning_rate": 7.41782050831583e-05,
      "loss": 1.5855,
      "step": 69546
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6358339190483093,
      "learning_rate": 7.417132439639087e-05,
      "loss": 1.505,
      "step": 69547
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6588776707649231,
      "learning_rate": 7.416444398374621e-05,
      "loss": 1.6276,
      "step": 69548
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6326385736465454,
      "learning_rate": 7.415756384523254e-05,
      "loss": 1.5348,
      "step": 69549
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6184356808662415,
      "learning_rate": 7.41506839808584e-05,
      "loss": 1.4639,
      "step": 69550
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.655307412147522,
      "learning_rate": 7.414380439063205e-05,
      "loss": 1.4996,
      "step": 69551
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6591311693191528,
      "learning_rate": 7.413692507456175e-05,
      "loss": 1.5054,
      "step": 69552
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6552439332008362,
      "learning_rate": 7.413004603265604e-05,
      "loss": 1.5399,
      "step": 69553
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6465007662773132,
      "learning_rate": 7.412316726492308e-05,
      "loss": 1.5382,
      "step": 69554
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6349771022796631,
      "learning_rate": 7.411628877137142e-05,
      "loss": 1.5531,
      "step": 69555
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6397465467453003,
      "learning_rate": 7.410941055200917e-05,
      "loss": 1.5682,
      "step": 69556
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6652569770812988,
      "learning_rate": 7.410253260684493e-05,
      "loss": 1.556,
      "step": 69557
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6415955424308777,
      "learning_rate": 7.409565493588695e-05,
      "loss": 1.5312,
      "step": 69558
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6341995000839233,
      "learning_rate": 7.408877753914345e-05,
      "loss": 1.5992,
      "step": 69559
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6526890397071838,
      "learning_rate": 7.408190041662296e-05,
      "loss": 1.5273,
      "step": 69560
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6448706984519958,
      "learning_rate": 7.407502356833368e-05,
      "loss": 1.5018,
      "step": 69561
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6173025369644165,
      "learning_rate": 7.406814699428413e-05,
      "loss": 1.4808,
      "step": 69562
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6468175649642944,
      "learning_rate": 7.406127069448257e-05,
      "loss": 1.5468,
      "step": 69563
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6400033235549927,
      "learning_rate": 7.405439466893723e-05,
      "loss": 1.4861,
      "step": 69564
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6308717727661133,
      "learning_rate": 7.404751891765665e-05,
      "loss": 1.5138,
      "step": 69565
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6454586386680603,
      "learning_rate": 7.404064344064899e-05,
      "loss": 1.5215,
      "step": 69566
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6349691152572632,
      "learning_rate": 7.403376823792284e-05,
      "loss": 1.5272,
      "step": 69567
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6344813704490662,
      "learning_rate": 7.402689330948625e-05,
      "loss": 1.6014,
      "step": 69568
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6359928250312805,
      "learning_rate": 7.402001865534783e-05,
      "loss": 1.5478,
      "step": 69569
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6220967769622803,
      "learning_rate": 7.40131442755158e-05,
      "loss": 1.4762,
      "step": 69570
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6462891101837158,
      "learning_rate": 7.400627016999844e-05,
      "loss": 1.4718,
      "step": 69571
    },
    {
      "epoch": 2.31,
      "grad_norm": 1.6138243675231934,
      "learning_rate": 7.399939633880425e-05,
      "loss": 1.5554,
      "step": 69572
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6334676742553711,
      "learning_rate": 7.39925227819415e-05,
      "loss": 1.569,
      "step": 69573
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6571875810623169,
      "learning_rate": 7.398564949941842e-05,
      "loss": 1.5573,
      "step": 69574
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6351400017738342,
      "learning_rate": 7.39787764912435e-05,
      "loss": 1.5476,
      "step": 69575
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6279706954956055,
      "learning_rate": 7.397190375742507e-05,
      "loss": 1.4818,
      "step": 69576
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6388078927993774,
      "learning_rate": 7.396503129797149e-05,
      "loss": 1.5354,
      "step": 69577
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6303260326385498,
      "learning_rate": 7.395815911289095e-05,
      "loss": 1.537,
      "step": 69578
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6344830989837646,
      "learning_rate": 7.395128720219201e-05,
      "loss": 1.5526,
      "step": 69579
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6623857617378235,
      "learning_rate": 7.39444155658829e-05,
      "loss": 1.5639,
      "step": 69580
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.6285794973373413,
      "learning_rate": 7.393754420397184e-05,
      "loss": 1.52,
      "step": 69581
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6332969069480896,
      "learning_rate": 7.393067311646734e-05,
      "loss": 1.4997,
      "step": 69582
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6420398354530334,
      "learning_rate": 7.392380230337774e-05,
      "loss": 1.5213,
      "step": 69583
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6234179139137268,
      "learning_rate": 7.391693176471134e-05,
      "loss": 1.5712,
      "step": 69584
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.638171374797821,
      "learning_rate": 7.391006150047639e-05,
      "loss": 1.4942,
      "step": 69585
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6144276261329651,
      "learning_rate": 7.390319151068131e-05,
      "loss": 1.4787,
      "step": 69586
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.626398503780365,
      "learning_rate": 7.389632179533464e-05,
      "loss": 1.5221,
      "step": 69587
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6344509124755859,
      "learning_rate": 7.388945235444432e-05,
      "loss": 1.5487,
      "step": 69588
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6576834321022034,
      "learning_rate": 7.388258318801891e-05,
      "loss": 1.5913,
      "step": 69589
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6270661950111389,
      "learning_rate": 7.387571429606677e-05,
      "loss": 1.5418,
      "step": 69590
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6467272043228149,
      "learning_rate": 7.386884567859626e-05,
      "loss": 1.5196,
      "step": 69591
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6594514846801758,
      "learning_rate": 7.386197733561553e-05,
      "loss": 1.5232,
      "step": 69592
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6264130473136902,
      "learning_rate": 7.385510926713313e-05,
      "loss": 1.4818,
      "step": 69593
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6334068179130554,
      "learning_rate": 7.384824147315731e-05,
      "loss": 1.6332,
      "step": 69594
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6691502928733826,
      "learning_rate": 7.384137395369631e-05,
      "loss": 1.5374,
      "step": 69595
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6457453966140747,
      "learning_rate": 7.383450670875853e-05,
      "loss": 1.5567,
      "step": 69596
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6010997295379639,
      "learning_rate": 7.382763973835246e-05,
      "loss": 1.4972,
      "step": 69597
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6334514617919922,
      "learning_rate": 7.382077304248631e-05,
      "loss": 1.5504,
      "step": 69598
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6465262174606323,
      "learning_rate": 7.381390662116832e-05,
      "loss": 1.5778,
      "step": 69599
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6552795171737671,
      "learning_rate": 7.3807040474407e-05,
      "loss": 1.5065,
      "step": 69600
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6197367906570435,
      "learning_rate": 7.380017460221061e-05,
      "loss": 1.6173,
      "step": 69601
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6473017334938049,
      "learning_rate": 7.37933090045874e-05,
      "loss": 1.5083,
      "step": 69602
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6311779618263245,
      "learning_rate": 7.378644368154586e-05,
      "loss": 1.513,
      "step": 69603
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6332439184188843,
      "learning_rate": 7.37795786330942e-05,
      "loss": 1.5382,
      "step": 69604
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6636056900024414,
      "learning_rate": 7.377271385924083e-05,
      "loss": 1.4728,
      "step": 69605
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6543999314308167,
      "learning_rate": 7.3765849359994e-05,
      "loss": 1.5272,
      "step": 69606
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6256598830223083,
      "learning_rate": 7.375898513536217e-05,
      "loss": 1.5213,
      "step": 69607
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6452416181564331,
      "learning_rate": 7.37521211853536e-05,
      "loss": 1.5561,
      "step": 69608
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6484775543212891,
      "learning_rate": 7.374525750997651e-05,
      "loss": 1.5712,
      "step": 69609
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6382797956466675,
      "learning_rate": 7.373839410923943e-05,
      "loss": 1.4845,
      "step": 69610
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6482533812522888,
      "learning_rate": 7.373153098315056e-05,
      "loss": 1.4798,
      "step": 69611
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6329977512359619,
      "learning_rate": 7.372466813171831e-05,
      "loss": 1.5181,
      "step": 69612
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6852530837059021,
      "learning_rate": 7.371780555495099e-05,
      "loss": 1.6387,
      "step": 69613
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6231012344360352,
      "learning_rate": 7.371094325285683e-05,
      "loss": 1.5344,
      "step": 69614
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6361598372459412,
      "learning_rate": 7.370408122544434e-05,
      "loss": 1.5163,
      "step": 69615
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6301603317260742,
      "learning_rate": 7.369721947272165e-05,
      "loss": 1.5294,
      "step": 69616
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6026405692100525,
      "learning_rate": 7.369035799469726e-05,
      "loss": 1.5064,
      "step": 69617
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6209282279014587,
      "learning_rate": 7.368349679137936e-05,
      "loss": 1.5591,
      "step": 69618
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6065489649772644,
      "learning_rate": 7.367663586277644e-05,
      "loss": 1.5096,
      "step": 69619
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6158255338668823,
      "learning_rate": 7.366977520889674e-05,
      "loss": 1.4846,
      "step": 69620
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6496306657791138,
      "learning_rate": 7.366291482974851e-05,
      "loss": 1.4782,
      "step": 69621
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.619804322719574,
      "learning_rate": 7.365605472534021e-05,
      "loss": 1.5172,
      "step": 69622
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6406185030937195,
      "learning_rate": 7.364919489568013e-05,
      "loss": 1.5872,
      "step": 69623
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6434318423271179,
      "learning_rate": 7.364233534077647e-05,
      "loss": 1.5254,
      "step": 69624
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6070749163627625,
      "learning_rate": 7.363547606063768e-05,
      "loss": 1.5522,
      "step": 69625
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6418043971061707,
      "learning_rate": 7.362861705527215e-05,
      "loss": 1.5414,
      "step": 69626
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6108336448669434,
      "learning_rate": 7.362175832468812e-05,
      "loss": 1.5333,
      "step": 69627
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6414558291435242,
      "learning_rate": 7.361489986889384e-05,
      "loss": 1.6029,
      "step": 69628
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6385914087295532,
      "learning_rate": 7.360804168789781e-05,
      "loss": 1.5543,
      "step": 69629
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6168815493583679,
      "learning_rate": 7.360118378170824e-05,
      "loss": 1.5851,
      "step": 69630
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6310749650001526,
      "learning_rate": 7.359432615033341e-05,
      "loss": 1.4966,
      "step": 69631
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6263903379440308,
      "learning_rate": 7.358746879378169e-05,
      "loss": 1.5582,
      "step": 69632
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6318698525428772,
      "learning_rate": 7.358061171206159e-05,
      "loss": 1.4671,
      "step": 69633
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6356454491615295,
      "learning_rate": 7.35737549051811e-05,
      "loss": 1.4936,
      "step": 69634
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6260910034179688,
      "learning_rate": 7.356689837314873e-05,
      "loss": 1.5507,
      "step": 69635
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6539480090141296,
      "learning_rate": 7.356004211597287e-05,
      "loss": 1.5855,
      "step": 69636
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6103543639183044,
      "learning_rate": 7.355318613366173e-05,
      "loss": 1.5049,
      "step": 69637
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6494239568710327,
      "learning_rate": 7.354633042622358e-05,
      "loss": 1.5359,
      "step": 69638
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6552354693412781,
      "learning_rate": 7.353947499366681e-05,
      "loss": 1.5316,
      "step": 69639
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.643171489238739,
      "learning_rate": 7.353261983599992e-05,
      "loss": 1.4756,
      "step": 69640
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6206163167953491,
      "learning_rate": 7.352576495323091e-05,
      "loss": 1.5478,
      "step": 69641
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6292221546173096,
      "learning_rate": 7.351891034536823e-05,
      "loss": 1.5453,
      "step": 69642
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6262189745903015,
      "learning_rate": 7.351205601242031e-05,
      "loss": 1.4779,
      "step": 69643
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6664261817932129,
      "learning_rate": 7.35052019543954e-05,
      "loss": 1.5688,
      "step": 69644
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6603894829750061,
      "learning_rate": 7.34983481713017e-05,
      "loss": 1.5124,
      "step": 69645
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6626702547073364,
      "learning_rate": 7.349149466314765e-05,
      "loss": 1.5746,
      "step": 69646
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6696057319641113,
      "learning_rate": 7.348464142994172e-05,
      "loss": 1.6078,
      "step": 69647
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6390804052352905,
      "learning_rate": 7.347778847169188e-05,
      "loss": 1.4589,
      "step": 69648
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6531747579574585,
      "learning_rate": 7.347093578840663e-05,
      "loss": 1.4958,
      "step": 69649
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.65351802110672,
      "learning_rate": 7.346408338009435e-05,
      "loss": 1.553,
      "step": 69650
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6361451745033264,
      "learning_rate": 7.345723124676331e-05,
      "loss": 1.578,
      "step": 69651
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6320611238479614,
      "learning_rate": 7.345037938842174e-05,
      "loss": 1.552,
      "step": 69652
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6354503035545349,
      "learning_rate": 7.34435278050781e-05,
      "loss": 1.4697,
      "step": 69653
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6176337003707886,
      "learning_rate": 7.343667649674067e-05,
      "loss": 1.5255,
      "step": 69654
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6136538982391357,
      "learning_rate": 7.342982546341758e-05,
      "loss": 1.4852,
      "step": 69655
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6390412449836731,
      "learning_rate": 7.342297470511736e-05,
      "loss": 1.5081,
      "step": 69656
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6393445134162903,
      "learning_rate": 7.341612422184832e-05,
      "loss": 1.4956,
      "step": 69657
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6430088877677917,
      "learning_rate": 7.340927401361872e-05,
      "loss": 1.4853,
      "step": 69658
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6334973573684692,
      "learning_rate": 7.340242408043678e-05,
      "loss": 1.5259,
      "step": 69659
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6432234644889832,
      "learning_rate": 7.339557442231103e-05,
      "loss": 1.6155,
      "step": 69660
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6634830832481384,
      "learning_rate": 7.338872503924964e-05,
      "loss": 1.5504,
      "step": 69661
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6337252259254456,
      "learning_rate": 7.338187593126087e-05,
      "loss": 1.4541,
      "step": 69662
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6524650454521179,
      "learning_rate": 7.33750270983531e-05,
      "loss": 1.5205,
      "step": 69663
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6255404949188232,
      "learning_rate": 7.336817854053475e-05,
      "loss": 1.4456,
      "step": 69664
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6645052433013916,
      "learning_rate": 7.336133025781405e-05,
      "loss": 1.593,
      "step": 69665
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6376025080680847,
      "learning_rate": 7.335448225019921e-05,
      "loss": 1.552,
      "step": 69666
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.663774311542511,
      "learning_rate": 7.33476345176987e-05,
      "loss": 1.4646,
      "step": 69667
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6501984000205994,
      "learning_rate": 7.334078706032079e-05,
      "loss": 1.5271,
      "step": 69668
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6700996160507202,
      "learning_rate": 7.333393987807367e-05,
      "loss": 1.6055,
      "step": 69669
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6951673626899719,
      "learning_rate": 7.332709297096582e-05,
      "loss": 1.5448,
      "step": 69670
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6241839528083801,
      "learning_rate": 7.332024633900541e-05,
      "loss": 1.5155,
      "step": 69671
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6448250412940979,
      "learning_rate": 7.331339998220093e-05,
      "loss": 1.5223,
      "step": 69672
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6459125280380249,
      "learning_rate": 7.330655390056047e-05,
      "loss": 1.5374,
      "step": 69673
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6414519548416138,
      "learning_rate": 7.329970809409253e-05,
      "loss": 1.5258,
      "step": 69674
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6559958457946777,
      "learning_rate": 7.329286256280535e-05,
      "loss": 1.604,
      "step": 69675
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6640217304229736,
      "learning_rate": 7.328601730670716e-05,
      "loss": 1.5244,
      "step": 69676
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6114568710327148,
      "learning_rate": 7.32791723258064e-05,
      "loss": 1.539,
      "step": 69677
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6451563239097595,
      "learning_rate": 7.327232762011127e-05,
      "loss": 1.5353,
      "step": 69678
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6697636842727661,
      "learning_rate": 7.326548318963019e-05,
      "loss": 1.5982,
      "step": 69679
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6252643465995789,
      "learning_rate": 7.32586390343714e-05,
      "loss": 1.5059,
      "step": 69680
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6399194598197937,
      "learning_rate": 7.325179515434313e-05,
      "loss": 1.5153,
      "step": 69681
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6478400826454163,
      "learning_rate": 7.324495154955387e-05,
      "loss": 1.4868,
      "step": 69682
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6336010694503784,
      "learning_rate": 7.323810822001172e-05,
      "loss": 1.4835,
      "step": 69683
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.642058789730072,
      "learning_rate": 7.323126516572521e-05,
      "loss": 1.5131,
      "step": 69684
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6329944133758545,
      "learning_rate": 7.322442238670243e-05,
      "loss": 1.5204,
      "step": 69685
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6483657360076904,
      "learning_rate": 7.321757988295186e-05,
      "loss": 1.5605,
      "step": 69686
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6375160813331604,
      "learning_rate": 7.321073765448175e-05,
      "loss": 1.5957,
      "step": 69687
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6431922316551208,
      "learning_rate": 7.32038957013003e-05,
      "loss": 1.5222,
      "step": 69688
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6508117914199829,
      "learning_rate": 7.319705402341597e-05,
      "loss": 1.5717,
      "step": 69689
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6407926082611084,
      "learning_rate": 7.319021262083703e-05,
      "loss": 1.5238,
      "step": 69690
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6479125618934631,
      "learning_rate": 7.318337149357166e-05,
      "loss": 1.5022,
      "step": 69691
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6254032254219055,
      "learning_rate": 7.317653064162825e-05,
      "loss": 1.5321,
      "step": 69692
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6400681734085083,
      "learning_rate": 7.316969006501518e-05,
      "loss": 1.5187,
      "step": 69693
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6507350206375122,
      "learning_rate": 7.316284976374071e-05,
      "loss": 1.5574,
      "step": 69694
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6344990134239197,
      "learning_rate": 7.315600973781303e-05,
      "loss": 1.5246,
      "step": 69695
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6143393516540527,
      "learning_rate": 7.314916998724054e-05,
      "loss": 1.4943,
      "step": 69696
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6297227144241333,
      "learning_rate": 7.314233051203168e-05,
      "loss": 1.5799,
      "step": 69697
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6525506973266602,
      "learning_rate": 7.313549131219443e-05,
      "loss": 1.529,
      "step": 69698
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6506608724594116,
      "learning_rate": 7.312865238773728e-05,
      "loss": 1.5036,
      "step": 69699
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6437051296234131,
      "learning_rate": 7.312181373866862e-05,
      "loss": 1.412,
      "step": 69700
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6310341358184814,
      "learning_rate": 7.311497536499663e-05,
      "loss": 1.5612,
      "step": 69701
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6052044630050659,
      "learning_rate": 7.310813726672954e-05,
      "loss": 1.4686,
      "step": 69702
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6414892673492432,
      "learning_rate": 7.310129944387573e-05,
      "loss": 1.6122,
      "step": 69703
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.653853178024292,
      "learning_rate": 7.309446189644373e-05,
      "loss": 1.565,
      "step": 69704
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6323826313018799,
      "learning_rate": 7.308762462444142e-05,
      "loss": 1.4367,
      "step": 69705
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6544745564460754,
      "learning_rate": 7.308078762787729e-05,
      "loss": 1.5245,
      "step": 69706
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6374732851982117,
      "learning_rate": 7.307395090675973e-05,
      "loss": 1.4831,
      "step": 69707
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6190590858459473,
      "learning_rate": 7.306711446109698e-05,
      "loss": 1.4611,
      "step": 69708
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.642541229724884,
      "learning_rate": 7.30602782908972e-05,
      "loss": 1.4826,
      "step": 69709
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6753707528114319,
      "learning_rate": 7.305344239616893e-05,
      "loss": 1.5137,
      "step": 69710
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6270259618759155,
      "learning_rate": 7.304660677692033e-05,
      "loss": 1.5292,
      "step": 69711
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6367069482803345,
      "learning_rate": 7.303977143315958e-05,
      "loss": 1.4654,
      "step": 69712
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6184011697769165,
      "learning_rate": 7.303293636489514e-05,
      "loss": 1.5554,
      "step": 69713
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6354760527610779,
      "learning_rate": 7.302610157213539e-05,
      "loss": 1.5398,
      "step": 69714
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.624410092830658,
      "learning_rate": 7.301926705488847e-05,
      "loss": 1.5277,
      "step": 69715
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6632117033004761,
      "learning_rate": 7.301243281316264e-05,
      "loss": 1.4669,
      "step": 69716
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6427614092826843,
      "learning_rate": 7.300559884696636e-05,
      "loss": 1.5973,
      "step": 69717
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6459984183311462,
      "learning_rate": 7.299876515630784e-05,
      "loss": 1.537,
      "step": 69718
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6434504389762878,
      "learning_rate": 7.299193174119529e-05,
      "loss": 1.5583,
      "step": 69719
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.64976567029953,
      "learning_rate": 7.298509860163714e-05,
      "loss": 1.6052,
      "step": 69720
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6227129101753235,
      "learning_rate": 7.297826573764156e-05,
      "loss": 1.533,
      "step": 69721
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.678240954875946,
      "learning_rate": 7.297143314921702e-05,
      "loss": 1.6137,
      "step": 69722
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6574868559837341,
      "learning_rate": 7.296460083637164e-05,
      "loss": 1.5405,
      "step": 69723
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.621518075466156,
      "learning_rate": 7.295776879911383e-05,
      "loss": 1.5331,
      "step": 69724
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6247353553771973,
      "learning_rate": 7.295093703745185e-05,
      "loss": 1.5135,
      "step": 69725
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6183545589447021,
      "learning_rate": 7.294410555139388e-05,
      "loss": 1.5557,
      "step": 69726
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6248050928115845,
      "learning_rate": 7.293727434094839e-05,
      "loss": 1.537,
      "step": 69727
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6516245007514954,
      "learning_rate": 7.293044340612354e-05,
      "loss": 1.5412,
      "step": 69728
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.651577889919281,
      "learning_rate": 7.292361274692773e-05,
      "loss": 1.555,
      "step": 69729
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6582524180412292,
      "learning_rate": 7.291678236336922e-05,
      "loss": 1.5123,
      "step": 69730
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.642985463142395,
      "learning_rate": 7.290995225545617e-05,
      "loss": 1.5379,
      "step": 69731
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6380035281181335,
      "learning_rate": 7.290312242319708e-05,
      "loss": 1.5386,
      "step": 69732
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6635128259658813,
      "learning_rate": 7.289629286660003e-05,
      "loss": 1.5671,
      "step": 69733
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6242372393608093,
      "learning_rate": 7.288946358567354e-05,
      "loss": 1.5443,
      "step": 69734
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6343381404876709,
      "learning_rate": 7.288263458042568e-05,
      "loss": 1.5325,
      "step": 69735
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6714277267456055,
      "learning_rate": 7.28758058508649e-05,
      "loss": 1.4938,
      "step": 69736
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6558452248573303,
      "learning_rate": 7.286897739699946e-05,
      "loss": 1.575,
      "step": 69737
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6387972235679626,
      "learning_rate": 7.286214921883749e-05,
      "loss": 1.546,
      "step": 69738
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6393814086914062,
      "learning_rate": 7.285532131638753e-05,
      "loss": 1.4879,
      "step": 69739
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6461981534957886,
      "learning_rate": 7.284849368965774e-05,
      "loss": 1.4153,
      "step": 69740
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6219838857650757,
      "learning_rate": 7.284166633865629e-05,
      "loss": 1.5078,
      "step": 69741
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.653631865978241,
      "learning_rate": 7.283483926339161e-05,
      "loss": 1.4581,
      "step": 69742
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6113199591636658,
      "learning_rate": 7.282801246387206e-05,
      "loss": 1.5499,
      "step": 69743
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6585209369659424,
      "learning_rate": 7.282118594010579e-05,
      "loss": 1.5796,
      "step": 69744
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6529099345207214,
      "learning_rate": 7.281435969210107e-05,
      "loss": 1.5895,
      "step": 69745
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6282795071601868,
      "learning_rate": 7.280753371986631e-05,
      "loss": 1.4829,
      "step": 69746
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6456810832023621,
      "learning_rate": 7.280070802340977e-05,
      "loss": 1.5233,
      "step": 69747
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6369801759719849,
      "learning_rate": 7.279388260273958e-05,
      "loss": 1.5867,
      "step": 69748
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6295055150985718,
      "learning_rate": 7.278705745786412e-05,
      "loss": 1.4759,
      "step": 69749
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6404687166213989,
      "learning_rate": 7.27802325887919e-05,
      "loss": 1.5696,
      "step": 69750
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6376727819442749,
      "learning_rate": 7.277340799553082e-05,
      "loss": 1.5194,
      "step": 69751
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.7615246772766113,
      "learning_rate": 7.276658367808934e-05,
      "loss": 1.5359,
      "step": 69752
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6218724846839905,
      "learning_rate": 7.275975963647582e-05,
      "loss": 1.614,
      "step": 69753
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6402621269226074,
      "learning_rate": 7.275293587069845e-05,
      "loss": 1.5101,
      "step": 69754
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6345589756965637,
      "learning_rate": 7.274611238076551e-05,
      "loss": 1.5224,
      "step": 69755
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6582382321357727,
      "learning_rate": 7.273928916668526e-05,
      "loss": 1.5128,
      "step": 69756
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.64924156665802,
      "learning_rate": 7.273246622846619e-05,
      "loss": 1.5181,
      "step": 69757
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.628476619720459,
      "learning_rate": 7.272564356611627e-05,
      "loss": 1.5202,
      "step": 69758
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6308563351631165,
      "learning_rate": 7.271882117964395e-05,
      "loss": 1.5262,
      "step": 69759
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6591463088989258,
      "learning_rate": 7.271199906905753e-05,
      "loss": 1.5524,
      "step": 69760
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6444109082221985,
      "learning_rate": 7.27051772343653e-05,
      "loss": 1.5641,
      "step": 69761
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6501233577728271,
      "learning_rate": 7.269835567557539e-05,
      "loss": 1.4703,
      "step": 69762
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.636111319065094,
      "learning_rate": 7.269153439269618e-05,
      "loss": 1.5676,
      "step": 69763
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6168014407157898,
      "learning_rate": 7.268471338573613e-05,
      "loss": 1.4858,
      "step": 69764
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6563670635223389,
      "learning_rate": 7.267789265470319e-05,
      "loss": 1.5886,
      "step": 69765
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6236050724983215,
      "learning_rate": 7.267107219960575e-05,
      "loss": 1.5566,
      "step": 69766
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6593734622001648,
      "learning_rate": 7.266425202045226e-05,
      "loss": 1.5064,
      "step": 69767
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6517902612686157,
      "learning_rate": 7.265743211725084e-05,
      "loss": 1.5056,
      "step": 69768
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6360122561454773,
      "learning_rate": 7.265061249000972e-05,
      "loss": 1.6025,
      "step": 69769
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6361035108566284,
      "learning_rate": 7.264379313873739e-05,
      "loss": 1.5585,
      "step": 69770
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6270888447761536,
      "learning_rate": 7.263697406344197e-05,
      "loss": 1.5119,
      "step": 69771
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6069518327713013,
      "learning_rate": 7.263015526413164e-05,
      "loss": 1.5073,
      "step": 69772
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6567371487617493,
      "learning_rate": 7.262333674081484e-05,
      "loss": 1.4953,
      "step": 69773
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6686070561408997,
      "learning_rate": 7.26165184934999e-05,
      "loss": 1.5672,
      "step": 69774
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6191399693489075,
      "learning_rate": 7.260970052219498e-05,
      "loss": 1.5966,
      "step": 69775
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6325603723526001,
      "learning_rate": 7.260288282690828e-05,
      "loss": 1.5029,
      "step": 69776
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6365633010864258,
      "learning_rate": 7.25960654076483e-05,
      "loss": 1.5023,
      "step": 69777
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6476892232894897,
      "learning_rate": 7.258924826442317e-05,
      "loss": 1.5523,
      "step": 69778
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6504496932029724,
      "learning_rate": 7.258243139724111e-05,
      "loss": 1.6191,
      "step": 69779
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6543228626251221,
      "learning_rate": 7.257561480611051e-05,
      "loss": 1.5178,
      "step": 69780
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.613873302936554,
      "learning_rate": 7.256879849103957e-05,
      "loss": 1.5151,
      "step": 69781
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6511476039886475,
      "learning_rate": 7.256198245203666e-05,
      "loss": 1.4379,
      "step": 69782
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.7463220357894897,
      "learning_rate": 7.255516668910992e-05,
      "loss": 1.53,
      "step": 69783
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6396384835243225,
      "learning_rate": 7.254835120226779e-05,
      "loss": 1.5322,
      "step": 69784
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6192506551742554,
      "learning_rate": 7.25415359915184e-05,
      "loss": 1.515,
      "step": 69785
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6430642008781433,
      "learning_rate": 7.253472105687004e-05,
      "loss": 1.5493,
      "step": 69786
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6306146383285522,
      "learning_rate": 7.252790639833107e-05,
      "loss": 1.5295,
      "step": 69787
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.644649863243103,
      "learning_rate": 7.252109201590963e-05,
      "loss": 1.5319,
      "step": 69788
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6550121903419495,
      "learning_rate": 7.251427790961415e-05,
      "loss": 1.5493,
      "step": 69789
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6492829918861389,
      "learning_rate": 7.250746407945271e-05,
      "loss": 1.5815,
      "step": 69790
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6412511467933655,
      "learning_rate": 7.250065052543379e-05,
      "loss": 1.5226,
      "step": 69791
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.5962164998054504,
      "learning_rate": 7.249383724756557e-05,
      "loss": 1.4814,
      "step": 69792
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6183158159255981,
      "learning_rate": 7.248702424585624e-05,
      "loss": 1.515,
      "step": 69793
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6468764543533325,
      "learning_rate": 7.24802115203142e-05,
      "loss": 1.5604,
      "step": 69794
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6516599059104919,
      "learning_rate": 7.247339907094757e-05,
      "loss": 1.5587,
      "step": 69795
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6206516027450562,
      "learning_rate": 7.24665868977648e-05,
      "loss": 1.5435,
      "step": 69796
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6142834424972534,
      "learning_rate": 7.245977500077409e-05,
      "loss": 1.5067,
      "step": 69797
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6315975189208984,
      "learning_rate": 7.245296337998358e-05,
      "loss": 1.6389,
      "step": 69798
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6287881731987,
      "learning_rate": 7.244615203540171e-05,
      "loss": 1.5375,
      "step": 69799
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.611341118812561,
      "learning_rate": 7.243934096703664e-05,
      "loss": 1.5184,
      "step": 69800
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6310411095619202,
      "learning_rate": 7.243253017489674e-05,
      "loss": 1.491,
      "step": 69801
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6132671236991882,
      "learning_rate": 7.242571965899014e-05,
      "loss": 1.5606,
      "step": 69802
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.648794949054718,
      "learning_rate": 7.241890941932528e-05,
      "loss": 1.5449,
      "step": 69803
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6652913689613342,
      "learning_rate": 7.241209945591033e-05,
      "loss": 1.4884,
      "step": 69804
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6247603893280029,
      "learning_rate": 7.240528976875348e-05,
      "loss": 1.5355,
      "step": 69805
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6184946298599243,
      "learning_rate": 7.239848035786313e-05,
      "loss": 1.504,
      "step": 69806
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6517727375030518,
      "learning_rate": 7.239167122324751e-05,
      "loss": 1.516,
      "step": 69807
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6359040141105652,
      "learning_rate": 7.238486236491475e-05,
      "loss": 1.5721,
      "step": 69808
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6428982019424438,
      "learning_rate": 7.237805378287326e-05,
      "loss": 1.5432,
      "step": 69809
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6265170574188232,
      "learning_rate": 7.237124547713134e-05,
      "loss": 1.5343,
      "step": 69810
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6317218542098999,
      "learning_rate": 7.23644374476972e-05,
      "loss": 1.5008,
      "step": 69811
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6204320192337036,
      "learning_rate": 7.235762969457902e-05,
      "loss": 1.5466,
      "step": 69812
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6408273577690125,
      "learning_rate": 7.23508222177851e-05,
      "loss": 1.5592,
      "step": 69813
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6667706370353699,
      "learning_rate": 7.234401501732397e-05,
      "loss": 1.4552,
      "step": 69814
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6362477540969849,
      "learning_rate": 7.233720809320343e-05,
      "loss": 1.4846,
      "step": 69815
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6470041275024414,
      "learning_rate": 7.233040144543198e-05,
      "loss": 1.5213,
      "step": 69816
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6165223121643066,
      "learning_rate": 7.232359507401801e-05,
      "loss": 1.4489,
      "step": 69817
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6551883816719055,
      "learning_rate": 7.231678897896962e-05,
      "loss": 1.5294,
      "step": 69818
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6085371375083923,
      "learning_rate": 7.2309983160295e-05,
      "loss": 1.4954,
      "step": 69819
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6562517285346985,
      "learning_rate": 7.230317761800256e-05,
      "loss": 1.5187,
      "step": 69820
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6437075734138489,
      "learning_rate": 7.229637235210062e-05,
      "loss": 1.5819,
      "step": 69821
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6368507146835327,
      "learning_rate": 7.228956736259718e-05,
      "loss": 1.5303,
      "step": 69822
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6322181224822998,
      "learning_rate": 7.228276264950069e-05,
      "loss": 1.5633,
      "step": 69823
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6701544523239136,
      "learning_rate": 7.227595821281946e-05,
      "loss": 1.48,
      "step": 69824
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6435312032699585,
      "learning_rate": 7.226915405256162e-05,
      "loss": 1.5166,
      "step": 69825
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6501866579055786,
      "learning_rate": 7.226235016873542e-05,
      "loss": 1.5148,
      "step": 69826
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6469169855117798,
      "learning_rate": 7.22555465613492e-05,
      "loss": 1.5252,
      "step": 69827
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6537121534347534,
      "learning_rate": 7.224874323041126e-05,
      "loss": 1.4133,
      "step": 69828
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6396328806877136,
      "learning_rate": 7.224194017592968e-05,
      "loss": 1.5266,
      "step": 69829
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6614001989364624,
      "learning_rate": 7.22351373979128e-05,
      "loss": 1.5592,
      "step": 69830
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6360020041465759,
      "learning_rate": 7.222833489636902e-05,
      "loss": 1.5864,
      "step": 69831
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6471583247184753,
      "learning_rate": 7.222153267130648e-05,
      "loss": 1.5142,
      "step": 69832
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.642890989780426,
      "learning_rate": 7.221473072273335e-05,
      "loss": 1.5045,
      "step": 69833
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6520547270774841,
      "learning_rate": 7.220792905065806e-05,
      "loss": 1.5221,
      "step": 69834
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6516132354736328,
      "learning_rate": 7.220112765508878e-05,
      "loss": 1.5547,
      "step": 69835
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6348634362220764,
      "learning_rate": 7.219432653603364e-05,
      "loss": 1.5302,
      "step": 69836
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.648470401763916,
      "learning_rate": 7.218752569350115e-05,
      "loss": 1.5349,
      "step": 69837
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6551764011383057,
      "learning_rate": 7.218072512749935e-05,
      "loss": 1.5102,
      "step": 69838
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.618698239326477,
      "learning_rate": 7.217392483803668e-05,
      "loss": 1.483,
      "step": 69839
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.619218111038208,
      "learning_rate": 7.216712482512119e-05,
      "loss": 1.4877,
      "step": 69840
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6238927245140076,
      "learning_rate": 7.216032508876132e-05,
      "loss": 1.5135,
      "step": 69841
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6326530575752258,
      "learning_rate": 7.215352562896525e-05,
      "loss": 1.4712,
      "step": 69842
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6166254281997681,
      "learning_rate": 7.214672644574114e-05,
      "loss": 1.5288,
      "step": 69843
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6246783137321472,
      "learning_rate": 7.213992753909743e-05,
      "loss": 1.5168,
      "step": 69844
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6423538327217102,
      "learning_rate": 7.213312890904221e-05,
      "loss": 1.5256,
      "step": 69845
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6272276043891907,
      "learning_rate": 7.212633055558382e-05,
      "loss": 1.5191,
      "step": 69846
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6283003687858582,
      "learning_rate": 7.211953247873055e-05,
      "loss": 1.5676,
      "step": 69847
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6323029398918152,
      "learning_rate": 7.211273467849046e-05,
      "loss": 1.5513,
      "step": 69848
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6502769589424133,
      "learning_rate": 7.210593715487204e-05,
      "loss": 1.6001,
      "step": 69849
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6330769062042236,
      "learning_rate": 7.209913990788335e-05,
      "loss": 1.4683,
      "step": 69850
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6504377722740173,
      "learning_rate": 7.20923429375328e-05,
      "loss": 1.5093,
      "step": 69851
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6737188100814819,
      "learning_rate": 7.208554624382849e-05,
      "loss": 1.5445,
      "step": 69852
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.639765739440918,
      "learning_rate": 7.207874982677883e-05,
      "loss": 1.527,
      "step": 69853
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6385629773139954,
      "learning_rate": 7.207195368639198e-05,
      "loss": 1.5175,
      "step": 69854
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6579769849777222,
      "learning_rate": 7.20651578226761e-05,
      "loss": 1.4803,
      "step": 69855
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6335229277610779,
      "learning_rate": 7.205836223563966e-05,
      "loss": 1.5473,
      "step": 69856
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6307187676429749,
      "learning_rate": 7.205156692529073e-05,
      "loss": 1.5583,
      "step": 69857
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6409429311752319,
      "learning_rate": 7.204477189163755e-05,
      "loss": 1.5093,
      "step": 69858
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6165899038314819,
      "learning_rate": 7.203797713468843e-05,
      "loss": 1.5022,
      "step": 69859
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6556570529937744,
      "learning_rate": 7.203118265445169e-05,
      "loss": 1.5504,
      "step": 69860
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6556158065795898,
      "learning_rate": 7.202438845093553e-05,
      "loss": 1.3961,
      "step": 69861
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6373850107192993,
      "learning_rate": 7.201759452414808e-05,
      "loss": 1.5918,
      "step": 69862
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6434187889099121,
      "learning_rate": 7.201080087409776e-05,
      "loss": 1.5112,
      "step": 69863
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6411522626876831,
      "learning_rate": 7.200400750079274e-05,
      "loss": 1.5087,
      "step": 69864
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.630663275718689,
      "learning_rate": 7.199721440424113e-05,
      "loss": 1.5239,
      "step": 69865
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6172314286231995,
      "learning_rate": 7.199042158445137e-05,
      "loss": 1.5339,
      "step": 69866
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6175010204315186,
      "learning_rate": 7.19836290414318e-05,
      "loss": 1.487,
      "step": 69867
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.610713541507721,
      "learning_rate": 7.19768367751903e-05,
      "loss": 1.4535,
      "step": 69868
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6168146729469299,
      "learning_rate": 7.197004478573535e-05,
      "loss": 1.4739,
      "step": 69869
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6336299777030945,
      "learning_rate": 7.196325307307525e-05,
      "loss": 1.5228,
      "step": 69870
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6127764582633972,
      "learning_rate": 7.195646163721816e-05,
      "loss": 1.5417,
      "step": 69871
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6375165581703186,
      "learning_rate": 7.194967047817223e-05,
      "loss": 1.541,
      "step": 69872
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6453667879104614,
      "learning_rate": 7.194287959594583e-05,
      "loss": 1.5767,
      "step": 69873
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6459720134735107,
      "learning_rate": 7.19360889905473e-05,
      "loss": 1.5627,
      "step": 69874
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6384516358375549,
      "learning_rate": 7.19292986619846e-05,
      "loss": 1.5785,
      "step": 69875
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6394155025482178,
      "learning_rate": 7.192250861026615e-05,
      "loss": 1.4708,
      "step": 69876
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6188618540763855,
      "learning_rate": 7.19157188354002e-05,
      "loss": 1.5629,
      "step": 69877
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6280888319015503,
      "learning_rate": 7.190892933739503e-05,
      "loss": 1.4967,
      "step": 69878
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6237869262695312,
      "learning_rate": 7.190214011625867e-05,
      "loss": 1.4779,
      "step": 69879
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6304751634597778,
      "learning_rate": 7.189535117199952e-05,
      "loss": 1.5709,
      "step": 69880
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6206799745559692,
      "learning_rate": 7.188856250462601e-05,
      "loss": 1.4694,
      "step": 69881
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.6660304665565491,
      "learning_rate": 7.188177411414597e-05,
      "loss": 1.5863,
      "step": 69882
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6400412917137146,
      "learning_rate": 7.187498600056782e-05,
      "loss": 1.5556,
      "step": 69883
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6171036958694458,
      "learning_rate": 7.186819816389995e-05,
      "loss": 1.5314,
      "step": 69884
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.626452624797821,
      "learning_rate": 7.186141060415046e-05,
      "loss": 1.5528,
      "step": 69885
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6210368275642395,
      "learning_rate": 7.185462332132752e-05,
      "loss": 1.4727,
      "step": 69886
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6628102660179138,
      "learning_rate": 7.184783631543955e-05,
      "loss": 1.5279,
      "step": 69887
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6241675019264221,
      "learning_rate": 7.184104958649467e-05,
      "loss": 1.5547,
      "step": 69888
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6555674076080322,
      "learning_rate": 7.183426313450106e-05,
      "loss": 1.5181,
      "step": 69889
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.653300940990448,
      "learning_rate": 7.182747695946704e-05,
      "loss": 1.5238,
      "step": 69890
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6382670402526855,
      "learning_rate": 7.182069106140092e-05,
      "loss": 1.5414,
      "step": 69891
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6401606798171997,
      "learning_rate": 7.181390544031086e-05,
      "loss": 1.4991,
      "step": 69892
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6232931017875671,
      "learning_rate": 7.1807120096205e-05,
      "loss": 1.5365,
      "step": 69893
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.63587486743927,
      "learning_rate": 7.180033502909179e-05,
      "loss": 1.5618,
      "step": 69894
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6473492980003357,
      "learning_rate": 7.179355023897935e-05,
      "loss": 1.505,
      "step": 69895
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6528154015541077,
      "learning_rate": 7.17867657258758e-05,
      "loss": 1.4803,
      "step": 69896
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6341079473495483,
      "learning_rate": 7.177998148978958e-05,
      "loss": 1.4722,
      "step": 69897
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6460304856300354,
      "learning_rate": 7.177319753072877e-05,
      "loss": 1.5487,
      "step": 69898
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6341027021408081,
      "learning_rate": 7.176641384870176e-05,
      "loss": 1.5128,
      "step": 69899
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6157166957855225,
      "learning_rate": 7.175963044371657e-05,
      "loss": 1.5027,
      "step": 69900
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6286506652832031,
      "learning_rate": 7.17528473157817e-05,
      "loss": 1.4509,
      "step": 69901
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6254161596298218,
      "learning_rate": 7.17460644649052e-05,
      "loss": 1.5494,
      "step": 69902
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6398825645446777,
      "learning_rate": 7.173928189109528e-05,
      "loss": 1.5312,
      "step": 69903
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.629099428653717,
      "learning_rate": 7.173249959436032e-05,
      "loss": 1.5369,
      "step": 69904
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6503943204879761,
      "learning_rate": 7.172571757470837e-05,
      "loss": 1.5102,
      "step": 69905
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6412506699562073,
      "learning_rate": 7.171893583214788e-05,
      "loss": 1.507,
      "step": 69906
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6383501291275024,
      "learning_rate": 7.171215436668687e-05,
      "loss": 1.5012,
      "step": 69907
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6320701837539673,
      "learning_rate": 7.170537317833375e-05,
      "loss": 1.4879,
      "step": 69908
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6485976576805115,
      "learning_rate": 7.169859226709667e-05,
      "loss": 1.5091,
      "step": 69909
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6318233013153076,
      "learning_rate": 7.169181163298375e-05,
      "loss": 1.5651,
      "step": 69910
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6253277659416199,
      "learning_rate": 7.168503127600345e-05,
      "loss": 1.5822,
      "step": 69911
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6412633657455444,
      "learning_rate": 7.167825119616378e-05,
      "loss": 1.6013,
      "step": 69912
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6376329064369202,
      "learning_rate": 7.167147139347319e-05,
      "loss": 1.4385,
      "step": 69913
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6602718830108643,
      "learning_rate": 7.166469186793977e-05,
      "loss": 1.6674,
      "step": 69914
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.618806779384613,
      "learning_rate": 7.165791261957165e-05,
      "loss": 1.5533,
      "step": 69915
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6350861191749573,
      "learning_rate": 7.16511336483773e-05,
      "loss": 1.4892,
      "step": 69916
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6203768253326416,
      "learning_rate": 7.164435495436472e-05,
      "loss": 1.5193,
      "step": 69917
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6343133449554443,
      "learning_rate": 7.163757653754235e-05,
      "loss": 1.5236,
      "step": 69918
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6481301188468933,
      "learning_rate": 7.163079839791824e-05,
      "loss": 1.5581,
      "step": 69919
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6483151912689209,
      "learning_rate": 7.162402053550075e-05,
      "loss": 1.5012,
      "step": 69920
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6465381383895874,
      "learning_rate": 7.161724295029809e-05,
      "loss": 1.5553,
      "step": 69921
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6433106660842896,
      "learning_rate": 7.161046564231834e-05,
      "loss": 1.5647,
      "step": 69922
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6072962880134583,
      "learning_rate": 7.160368861156992e-05,
      "loss": 1.5225,
      "step": 69923
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6225131750106812,
      "learning_rate": 7.159691185806094e-05,
      "loss": 1.5605,
      "step": 69924
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6584192514419556,
      "learning_rate": 7.159013538179961e-05,
      "loss": 1.5842,
      "step": 69925
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6290560364723206,
      "learning_rate": 7.158335918279417e-05,
      "loss": 1.5167,
      "step": 69926
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6298825740814209,
      "learning_rate": 7.157658326105296e-05,
      "loss": 1.5362,
      "step": 69927
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6396943926811218,
      "learning_rate": 7.156980761658417e-05,
      "loss": 1.5695,
      "step": 69928
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6348850727081299,
      "learning_rate": 7.156303224939584e-05,
      "loss": 1.5512,
      "step": 69929
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6348958611488342,
      "learning_rate": 7.155625715949634e-05,
      "loss": 1.4867,
      "step": 69930
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6556034088134766,
      "learning_rate": 7.154948234689409e-05,
      "loss": 1.5025,
      "step": 69931
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6653770804405212,
      "learning_rate": 7.154270781159689e-05,
      "loss": 1.5736,
      "step": 69932
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6448801755905151,
      "learning_rate": 7.153593355361322e-05,
      "loss": 1.528,
      "step": 69933
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6543842554092407,
      "learning_rate": 7.152915957295133e-05,
      "loss": 1.5318,
      "step": 69934
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6600549221038818,
      "learning_rate": 7.152238586961938e-05,
      "loss": 1.4924,
      "step": 69935
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6185300946235657,
      "learning_rate": 7.151561244362549e-05,
      "loss": 1.5365,
      "step": 69936
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6362317800521851,
      "learning_rate": 7.150883929497798e-05,
      "loss": 1.5266,
      "step": 69937
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.651558518409729,
      "learning_rate": 7.150206642368527e-05,
      "loss": 1.5772,
      "step": 69938
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6575403809547424,
      "learning_rate": 7.149529382975521e-05,
      "loss": 1.5184,
      "step": 69939
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6372573375701904,
      "learning_rate": 7.148852151319616e-05,
      "loss": 1.4894,
      "step": 69940
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6406645178794861,
      "learning_rate": 7.14817494740165e-05,
      "loss": 1.5533,
      "step": 69941
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.638493537902832,
      "learning_rate": 7.147497771222429e-05,
      "loss": 1.4998,
      "step": 69942
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6615530252456665,
      "learning_rate": 7.146820622782776e-05,
      "loss": 1.4375,
      "step": 69943
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6506026983261108,
      "learning_rate": 7.146143502083518e-05,
      "loss": 1.5273,
      "step": 69944
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.628905177116394,
      "learning_rate": 7.145466409125476e-05,
      "loss": 1.489,
      "step": 69945
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6438791155815125,
      "learning_rate": 7.144789343909461e-05,
      "loss": 1.5835,
      "step": 69946
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.631348729133606,
      "learning_rate": 7.144112306436306e-05,
      "loss": 1.5424,
      "step": 69947
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6404955983161926,
      "learning_rate": 7.143435296706838e-05,
      "loss": 1.4996,
      "step": 69948
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6547502875328064,
      "learning_rate": 7.142758314721875e-05,
      "loss": 1.5228,
      "step": 69949
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6464934945106506,
      "learning_rate": 7.142081360482223e-05,
      "loss": 1.5871,
      "step": 69950
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6520051956176758,
      "learning_rate": 7.141404433988728e-05,
      "loss": 1.5984,
      "step": 69951
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.61944180727005,
      "learning_rate": 7.140727535242196e-05,
      "loss": 1.5234,
      "step": 69952
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6275086998939514,
      "learning_rate": 7.14005066424345e-05,
      "loss": 1.6036,
      "step": 69953
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6273708939552307,
      "learning_rate": 7.139373820993319e-05,
      "loss": 1.507,
      "step": 69954
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6784182786941528,
      "learning_rate": 7.138697005492611e-05,
      "loss": 1.4497,
      "step": 69955
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6273363828659058,
      "learning_rate": 7.138020217742167e-05,
      "loss": 1.5802,
      "step": 69956
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6327439546585083,
      "learning_rate": 7.137343457742786e-05,
      "loss": 1.5984,
      "step": 69957
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.613675594329834,
      "learning_rate": 7.136666725495312e-05,
      "loss": 1.5486,
      "step": 69958
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6541644334793091,
      "learning_rate": 7.135990021000556e-05,
      "loss": 1.5512,
      "step": 69959
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6535850167274475,
      "learning_rate": 7.135313344259329e-05,
      "loss": 1.5399,
      "step": 69960
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6214375495910645,
      "learning_rate": 7.134636695272475e-05,
      "loss": 1.5038,
      "step": 69961
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6095008254051208,
      "learning_rate": 7.133960074040792e-05,
      "loss": 1.5276,
      "step": 69962
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6240451335906982,
      "learning_rate": 7.133283480565119e-05,
      "loss": 1.5193,
      "step": 69963
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.649369478225708,
      "learning_rate": 7.132606914846273e-05,
      "loss": 1.5396,
      "step": 69964
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6419658660888672,
      "learning_rate": 7.131930376885064e-05,
      "loss": 1.5056,
      "step": 69965
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.640551745891571,
      "learning_rate": 7.131253866682329e-05,
      "loss": 1.5198,
      "step": 69966
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6333246231079102,
      "learning_rate": 7.130577384238876e-05,
      "loss": 1.5413,
      "step": 69967
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6589924097061157,
      "learning_rate": 7.129900929555542e-05,
      "loss": 1.5583,
      "step": 69968
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6189627647399902,
      "learning_rate": 7.129224502633128e-05,
      "loss": 1.5839,
      "step": 69969
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6298093199729919,
      "learning_rate": 7.128548103472473e-05,
      "loss": 1.4819,
      "step": 69970
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6095971465110779,
      "learning_rate": 7.127871732074393e-05,
      "loss": 1.5777,
      "step": 69971
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6356872916221619,
      "learning_rate": 7.127195388439694e-05,
      "loss": 1.6119,
      "step": 69972
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6424573659896851,
      "learning_rate": 7.126519072569224e-05,
      "loss": 1.4946,
      "step": 69973
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6366322636604309,
      "learning_rate": 7.125842784463784e-05,
      "loss": 1.527,
      "step": 69974
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.626828670501709,
      "learning_rate": 7.125166524124197e-05,
      "loss": 1.5131,
      "step": 69975
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6268128752708435,
      "learning_rate": 7.124490291551286e-05,
      "loss": 1.5239,
      "step": 69976
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6672502160072327,
      "learning_rate": 7.12381408674588e-05,
      "loss": 1.482,
      "step": 69977
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6435632109642029,
      "learning_rate": 7.123137909708793e-05,
      "loss": 1.5189,
      "step": 69978
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6605187654495239,
      "learning_rate": 7.122461760440839e-05,
      "loss": 1.5142,
      "step": 69979
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6318672299385071,
      "learning_rate": 7.121785638942853e-05,
      "loss": 1.587,
      "step": 69980
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6720646619796753,
      "learning_rate": 7.12110954521565e-05,
      "loss": 1.58,
      "step": 69981
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6468738913536072,
      "learning_rate": 7.120433479260039e-05,
      "loss": 1.4957,
      "step": 69982
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6334054470062256,
      "learning_rate": 7.11975744107685e-05,
      "loss": 1.4866,
      "step": 69983
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6373456716537476,
      "learning_rate": 7.119081430666921e-05,
      "loss": 1.5519,
      "step": 69984
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6387355923652649,
      "learning_rate": 7.11840544803104e-05,
      "loss": 1.4615,
      "step": 69985
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6212641000747681,
      "learning_rate": 7.117729493170043e-05,
      "loss": 1.5041,
      "step": 69986
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6441720128059387,
      "learning_rate": 7.11705356608476e-05,
      "loss": 1.465,
      "step": 69987
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6498453617095947,
      "learning_rate": 7.116377666776001e-05,
      "loss": 1.5361,
      "step": 69988
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6482641100883484,
      "learning_rate": 7.115701795244583e-05,
      "loss": 1.4878,
      "step": 69989
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6069098711013794,
      "learning_rate": 7.115025951491328e-05,
      "loss": 1.511,
      "step": 69990
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6466581225395203,
      "learning_rate": 7.114350135517075e-05,
      "loss": 1.5455,
      "step": 69991
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6316951513290405,
      "learning_rate": 7.113674347322614e-05,
      "loss": 1.4869,
      "step": 69992
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6389525532722473,
      "learning_rate": 7.112998586908779e-05,
      "loss": 1.5183,
      "step": 69993
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.677510142326355,
      "learning_rate": 7.112322854276402e-05,
      "loss": 1.5341,
      "step": 69994
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6154880523681641,
      "learning_rate": 7.111647149426293e-05,
      "loss": 1.503,
      "step": 69995
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6307490468025208,
      "learning_rate": 7.110971472359259e-05,
      "loss": 1.4931,
      "step": 69996
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6570877432823181,
      "learning_rate": 7.110295823076138e-05,
      "loss": 1.5099,
      "step": 69997
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6470277309417725,
      "learning_rate": 7.10962020157776e-05,
      "loss": 1.5175,
      "step": 69998
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6440588235855103,
      "learning_rate": 7.108944607864914e-05,
      "loss": 1.6027,
      "step": 69999
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6311836838722229,
      "learning_rate": 7.108269041938434e-05,
      "loss": 1.5826,
      "step": 70000
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6534629464149475,
      "learning_rate": 7.107593503799153e-05,
      "loss": 1.5709,
      "step": 70001
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6318487524986267,
      "learning_rate": 7.106917993447881e-05,
      "loss": 1.4963,
      "step": 70002
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6250906586647034,
      "learning_rate": 7.106242510885429e-05,
      "loss": 1.5295,
      "step": 70003
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6472344994544983,
      "learning_rate": 7.105567056112632e-05,
      "loss": 1.5925,
      "step": 70004
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6460602283477783,
      "learning_rate": 7.104891629130305e-05,
      "loss": 1.5011,
      "step": 70005
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6173514127731323,
      "learning_rate": 7.104216229939257e-05,
      "loss": 1.5215,
      "step": 70006
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.643707275390625,
      "learning_rate": 7.103540858540317e-05,
      "loss": 1.5,
      "step": 70007
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6421716809272766,
      "learning_rate": 7.102865514934313e-05,
      "loss": 1.524,
      "step": 70008
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6413446664810181,
      "learning_rate": 7.102190199122059e-05,
      "loss": 1.5635,
      "step": 70009
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6373741626739502,
      "learning_rate": 7.101514911104362e-05,
      "loss": 1.6012,
      "step": 70010
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6575377583503723,
      "learning_rate": 7.100839650882059e-05,
      "loss": 1.5048,
      "step": 70011
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.642681360244751,
      "learning_rate": 7.100164418455964e-05,
      "loss": 1.552,
      "step": 70012
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.648324728012085,
      "learning_rate": 7.099489213826885e-05,
      "loss": 1.5948,
      "step": 70013
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6240472197532654,
      "learning_rate": 7.098814036995662e-05,
      "loss": 1.518,
      "step": 70014
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6545076370239258,
      "learning_rate": 7.098138887963097e-05,
      "loss": 1.5595,
      "step": 70015
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6406235098838806,
      "learning_rate": 7.097463766730023e-05,
      "loss": 1.4966,
      "step": 70016
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6300897598266602,
      "learning_rate": 7.096788673297246e-05,
      "loss": 1.4671,
      "step": 70017
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6567932963371277,
      "learning_rate": 7.096113607665602e-05,
      "loss": 1.4675,
      "step": 70018
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6545710563659668,
      "learning_rate": 7.095438569835902e-05,
      "loss": 1.5873,
      "step": 70019
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6276638507843018,
      "learning_rate": 7.094763559808955e-05,
      "loss": 1.4844,
      "step": 70020
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6249093413352966,
      "learning_rate": 7.094088577585597e-05,
      "loss": 1.5919,
      "step": 70021
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6385484337806702,
      "learning_rate": 7.093413623166635e-05,
      "loss": 1.5274,
      "step": 70022
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6289238333702087,
      "learning_rate": 7.0927386965529e-05,
      "loss": 1.4825,
      "step": 70023
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6523652076721191,
      "learning_rate": 7.092063797745208e-05,
      "loss": 1.5264,
      "step": 70024
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6235933303833008,
      "learning_rate": 7.091388926744365e-05,
      "loss": 1.5651,
      "step": 70025
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6280215978622437,
      "learning_rate": 7.090714083551208e-05,
      "loss": 1.4986,
      "step": 70026
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6404131650924683,
      "learning_rate": 7.09003926816654e-05,
      "loss": 1.4954,
      "step": 70027
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6558884978294373,
      "learning_rate": 7.0893644805912e-05,
      "loss": 1.5329,
      "step": 70028
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6463555693626404,
      "learning_rate": 7.088689720825985e-05,
      "loss": 1.5712,
      "step": 70029
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6259530782699585,
      "learning_rate": 7.088014988871732e-05,
      "loss": 1.642,
      "step": 70030
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6208884716033936,
      "learning_rate": 7.087340284729256e-05,
      "loss": 1.5245,
      "step": 70031
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6312631368637085,
      "learning_rate": 7.086665608399362e-05,
      "loss": 1.5349,
      "step": 70032
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6495169997215271,
      "learning_rate": 7.085990959882887e-05,
      "loss": 1.5007,
      "step": 70033
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6525073647499084,
      "learning_rate": 7.085316339180639e-05,
      "loss": 1.5842,
      "step": 70034
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6618322134017944,
      "learning_rate": 7.084641746293445e-05,
      "loss": 1.5036,
      "step": 70035
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6257020831108093,
      "learning_rate": 7.083967181222113e-05,
      "loss": 1.4778,
      "step": 70036
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6315838098526001,
      "learning_rate": 7.083292643967477e-05,
      "loss": 1.499,
      "step": 70037
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6184523105621338,
      "learning_rate": 7.082618134530347e-05,
      "loss": 1.489,
      "step": 70038
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6482599973678589,
      "learning_rate": 7.08194365291153e-05,
      "loss": 1.5379,
      "step": 70039
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6203351616859436,
      "learning_rate": 7.081269199111861e-05,
      "loss": 1.5516,
      "step": 70040
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.635316014289856,
      "learning_rate": 7.080594773132171e-05,
      "loss": 1.4277,
      "step": 70041
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6315495371818542,
      "learning_rate": 7.079920374973244e-05,
      "loss": 1.4417,
      "step": 70042
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6536094546318054,
      "learning_rate": 7.079246004635914e-05,
      "loss": 1.5785,
      "step": 70043
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6483568549156189,
      "learning_rate": 7.078571662121013e-05,
      "loss": 1.5913,
      "step": 70044
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.654901921749115,
      "learning_rate": 7.077897347429349e-05,
      "loss": 1.5514,
      "step": 70045
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6344406604766846,
      "learning_rate": 7.07722306056173e-05,
      "loss": 1.5098,
      "step": 70046
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6489320993423462,
      "learning_rate": 7.076548801518985e-05,
      "loss": 1.5715,
      "step": 70047
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6393410563468933,
      "learning_rate": 7.075874570301952e-05,
      "loss": 1.5527,
      "step": 70048
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6207407116889954,
      "learning_rate": 7.075200366911411e-05,
      "loss": 1.4965,
      "step": 70049
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6385542750358582,
      "learning_rate": 7.074526191348197e-05,
      "loss": 1.4975,
      "step": 70050
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6217769384384155,
      "learning_rate": 7.07385204361314e-05,
      "loss": 1.5414,
      "step": 70051
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6523405909538269,
      "learning_rate": 7.073177923707051e-05,
      "loss": 1.5946,
      "step": 70052
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6239835023880005,
      "learning_rate": 7.072503831630736e-05,
      "loss": 1.5553,
      "step": 70053
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.621705949306488,
      "learning_rate": 7.071829767385022e-05,
      "loss": 1.5019,
      "step": 70054
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6453483700752258,
      "learning_rate": 7.071155730970745e-05,
      "loss": 1.5044,
      "step": 70055
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.7193568348884583,
      "learning_rate": 7.070481722388689e-05,
      "loss": 1.5653,
      "step": 70056
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6159448623657227,
      "learning_rate": 7.069807741639691e-05,
      "loss": 1.5063,
      "step": 70057
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6499761343002319,
      "learning_rate": 7.069133788724579e-05,
      "loss": 1.5245,
      "step": 70058
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6246969699859619,
      "learning_rate": 7.068459863644154e-05,
      "loss": 1.4924,
      "step": 70059
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6381017565727234,
      "learning_rate": 7.067785966399238e-05,
      "loss": 1.5745,
      "step": 70060
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6289463043212891,
      "learning_rate": 7.067112096990654e-05,
      "loss": 1.5264,
      "step": 70061
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6594042181968689,
      "learning_rate": 7.06643825541922e-05,
      "loss": 1.4959,
      "step": 70062
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6498612761497498,
      "learning_rate": 7.065764441685743e-05,
      "loss": 1.5278,
      "step": 70063
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6195706725120544,
      "learning_rate": 7.065090655791044e-05,
      "loss": 1.4856,
      "step": 70064
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.64891117811203,
      "learning_rate": 7.064416897735957e-05,
      "loss": 1.5421,
      "step": 70065
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6682804822921753,
      "learning_rate": 7.063743167521289e-05,
      "loss": 1.5403,
      "step": 70066
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.675758957862854,
      "learning_rate": 7.063069465147852e-05,
      "loss": 1.6176,
      "step": 70067
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6824488639831543,
      "learning_rate": 7.062395790616471e-05,
      "loss": 1.608,
      "step": 70068
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6221451163291931,
      "learning_rate": 7.061722143927966e-05,
      "loss": 1.4654,
      "step": 70069
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6541752219200134,
      "learning_rate": 7.061048525083142e-05,
      "loss": 1.5732,
      "step": 70070
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.627677857875824,
      "learning_rate": 7.060374934082832e-05,
      "loss": 1.5283,
      "step": 70071
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6639582514762878,
      "learning_rate": 7.059701370927837e-05,
      "loss": 1.5713,
      "step": 70072
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6538688540458679,
      "learning_rate": 7.059027835618997e-05,
      "loss": 1.573,
      "step": 70073
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6507375240325928,
      "learning_rate": 7.058354328157107e-05,
      "loss": 1.5588,
      "step": 70074
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6820987462997437,
      "learning_rate": 7.057680848543002e-05,
      "loss": 1.4985,
      "step": 70075
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6212924122810364,
      "learning_rate": 7.057007396777492e-05,
      "loss": 1.5074,
      "step": 70076
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6265571713447571,
      "learning_rate": 7.056333972861387e-05,
      "loss": 1.4761,
      "step": 70077
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6234570145606995,
      "learning_rate": 7.055660576795519e-05,
      "loss": 1.5229,
      "step": 70078
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6195269823074341,
      "learning_rate": 7.054987208580691e-05,
      "loss": 1.5664,
      "step": 70079
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6637501120567322,
      "learning_rate": 7.054313868217737e-05,
      "loss": 1.5462,
      "step": 70080
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6320604085922241,
      "learning_rate": 7.053640555707465e-05,
      "loss": 1.6046,
      "step": 70081
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6228635311126709,
      "learning_rate": 7.052967271050681e-05,
      "loss": 1.5865,
      "step": 70082
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6840237975120544,
      "learning_rate": 7.052294014248227e-05,
      "loss": 1.5643,
      "step": 70083
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.610730767250061,
      "learning_rate": 7.051620785300893e-05,
      "loss": 1.4743,
      "step": 70084
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6326401233673096,
      "learning_rate": 7.05094758420952e-05,
      "loss": 1.5557,
      "step": 70085
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6218360662460327,
      "learning_rate": 7.050274410974912e-05,
      "loss": 1.501,
      "step": 70086
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6106523871421814,
      "learning_rate": 7.049601265597892e-05,
      "loss": 1.5286,
      "step": 70087
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6401588320732117,
      "learning_rate": 7.048928148079276e-05,
      "loss": 1.5196,
      "step": 70088
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6389966607093811,
      "learning_rate": 7.048255058419871e-05,
      "loss": 1.4735,
      "step": 70089
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6101205945014954,
      "learning_rate": 7.047581996620513e-05,
      "loss": 1.5095,
      "step": 70090
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6543809771537781,
      "learning_rate": 7.046908962682005e-05,
      "loss": 1.5599,
      "step": 70091
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6307308077812195,
      "learning_rate": 7.046235956605165e-05,
      "loss": 1.5266,
      "step": 70092
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6549927592277527,
      "learning_rate": 7.045562978390805e-05,
      "loss": 1.5166,
      "step": 70093
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6217204928398132,
      "learning_rate": 7.044890028039761e-05,
      "loss": 1.5179,
      "step": 70094
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6371898651123047,
      "learning_rate": 7.044217105552841e-05,
      "loss": 1.5709,
      "step": 70095
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6366283297538757,
      "learning_rate": 7.043544210930846e-05,
      "loss": 1.4846,
      "step": 70096
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6305512189865112,
      "learning_rate": 7.042871344174616e-05,
      "loss": 1.553,
      "step": 70097
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6431747078895569,
      "learning_rate": 7.04219850528496e-05,
      "loss": 1.5453,
      "step": 70098
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6174944639205933,
      "learning_rate": 7.041525694262681e-05,
      "loss": 1.495,
      "step": 70099
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6889863610267639,
      "learning_rate": 7.04085291110861e-05,
      "loss": 1.5039,
      "step": 70100
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6513590216636658,
      "learning_rate": 7.040180155823577e-05,
      "loss": 1.4954,
      "step": 70101
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6713755130767822,
      "learning_rate": 7.039507428408362e-05,
      "loss": 1.5919,
      "step": 70102
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.61653071641922,
      "learning_rate": 7.038834728863804e-05,
      "loss": 1.4845,
      "step": 70103
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6363770961761475,
      "learning_rate": 7.038162057190727e-05,
      "loss": 1.5073,
      "step": 70104
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6285696029663086,
      "learning_rate": 7.037489413389935e-05,
      "loss": 1.5084,
      "step": 70105
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6618242859840393,
      "learning_rate": 7.03681679746224e-05,
      "loss": 1.5812,
      "step": 70106
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6303864121437073,
      "learning_rate": 7.036144209408469e-05,
      "loss": 1.5355,
      "step": 70107
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6428165435791016,
      "learning_rate": 7.035471649229449e-05,
      "loss": 1.5182,
      "step": 70108
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6756199598312378,
      "learning_rate": 7.034799116925969e-05,
      "loss": 1.5066,
      "step": 70109
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6416432857513428,
      "learning_rate": 7.034126612498857e-05,
      "loss": 1.4849,
      "step": 70110
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6234135627746582,
      "learning_rate": 7.03345413594894e-05,
      "loss": 1.4937,
      "step": 70111
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6473538875579834,
      "learning_rate": 7.032781687277025e-05,
      "loss": 1.5347,
      "step": 70112
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6379008889198303,
      "learning_rate": 7.032109266483921e-05,
      "loss": 1.5428,
      "step": 70113
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.633949875831604,
      "learning_rate": 7.03143687357045e-05,
      "loss": 1.4452,
      "step": 70114
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6629010438919067,
      "learning_rate": 7.030764508537451e-05,
      "loss": 1.5591,
      "step": 70115
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6249977350234985,
      "learning_rate": 7.030092171385701e-05,
      "loss": 1.5196,
      "step": 70116
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6658403277397156,
      "learning_rate": 7.029419862116036e-05,
      "loss": 1.5593,
      "step": 70117
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.654283344745636,
      "learning_rate": 7.028747580729279e-05,
      "loss": 1.5345,
      "step": 70118
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6491385102272034,
      "learning_rate": 7.028075327226238e-05,
      "loss": 1.6033,
      "step": 70119
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6519615650177002,
      "learning_rate": 7.027403101607718e-05,
      "loss": 1.5305,
      "step": 70120
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6180026531219482,
      "learning_rate": 7.026730903874556e-05,
      "loss": 1.5415,
      "step": 70121
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.62831711769104,
      "learning_rate": 7.026058734027556e-05,
      "loss": 1.5186,
      "step": 70122
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6315891146659851,
      "learning_rate": 7.02538659206753e-05,
      "loss": 1.5372,
      "step": 70123
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6595776677131653,
      "learning_rate": 7.024714477995295e-05,
      "loss": 1.5228,
      "step": 70124
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6412273049354553,
      "learning_rate": 7.024042391811686e-05,
      "loss": 1.577,
      "step": 70125
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6602713465690613,
      "learning_rate": 7.0233703335175e-05,
      "loss": 1.5036,
      "step": 70126
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6341750621795654,
      "learning_rate": 7.022698303113548e-05,
      "loss": 1.4919,
      "step": 70127
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6651448011398315,
      "learning_rate": 7.022026300600666e-05,
      "loss": 1.5287,
      "step": 70128
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6365504860877991,
      "learning_rate": 7.021354325979655e-05,
      "loss": 1.5193,
      "step": 70129
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6627563238143921,
      "learning_rate": 7.02068237925133e-05,
      "loss": 1.5471,
      "step": 70130
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6224155426025391,
      "learning_rate": 7.020010460416519e-05,
      "loss": 1.4317,
      "step": 70131
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6447591185569763,
      "learning_rate": 7.019338569476017e-05,
      "loss": 1.4778,
      "step": 70132
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6165171265602112,
      "learning_rate": 7.018666706430662e-05,
      "loss": 1.5232,
      "step": 70133
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6580753326416016,
      "learning_rate": 7.017994871281253e-05,
      "loss": 1.521,
      "step": 70134
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6396744847297668,
      "learning_rate": 7.017323064028619e-05,
      "loss": 1.5628,
      "step": 70135
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6640164852142334,
      "learning_rate": 7.016651284673568e-05,
      "loss": 1.5567,
      "step": 70136
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6240299344062805,
      "learning_rate": 7.015979533216905e-05,
      "loss": 1.5435,
      "step": 70137
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6578505635261536,
      "learning_rate": 7.015307809659468e-05,
      "loss": 1.5586,
      "step": 70138
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6422116160392761,
      "learning_rate": 7.014636114002052e-05,
      "loss": 1.5601,
      "step": 70139
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6612613201141357,
      "learning_rate": 7.013964446245489e-05,
      "loss": 1.5344,
      "step": 70140
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6467682719230652,
      "learning_rate": 7.013292806390588e-05,
      "loss": 1.5733,
      "step": 70141
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6341455578804016,
      "learning_rate": 7.012621194438152e-05,
      "loss": 1.5138,
      "step": 70142
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6293116807937622,
      "learning_rate": 7.011949610389016e-05,
      "loss": 1.5634,
      "step": 70143
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6426815390586853,
      "learning_rate": 7.011278054243976e-05,
      "loss": 1.5772,
      "step": 70144
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6467167139053345,
      "learning_rate": 7.010606526003867e-05,
      "loss": 1.6286,
      "step": 70145
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6143343448638916,
      "learning_rate": 7.009935025669487e-05,
      "loss": 1.4697,
      "step": 70146
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6531245708465576,
      "learning_rate": 7.009263553241664e-05,
      "loss": 1.511,
      "step": 70147
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6534265875816345,
      "learning_rate": 7.008592108721211e-05,
      "loss": 1.576,
      "step": 70148
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6547589898109436,
      "learning_rate": 7.007920692108929e-05,
      "loss": 1.4778,
      "step": 70149
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6544768810272217,
      "learning_rate": 7.007249303405654e-05,
      "loss": 1.5549,
      "step": 70150
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6576719880104065,
      "learning_rate": 7.006577942612178e-05,
      "loss": 1.5297,
      "step": 70151
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6236135959625244,
      "learning_rate": 7.00590660972934e-05,
      "loss": 1.4924,
      "step": 70152
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6541207432746887,
      "learning_rate": 7.005235304757936e-05,
      "loss": 1.5446,
      "step": 70153
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6434565186500549,
      "learning_rate": 7.004564027698793e-05,
      "loss": 1.5694,
      "step": 70154
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6147602200508118,
      "learning_rate": 7.003892778552723e-05,
      "loss": 1.5071,
      "step": 70155
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6447492241859436,
      "learning_rate": 7.00322155732053e-05,
      "loss": 1.4291,
      "step": 70156
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6325413584709167,
      "learning_rate": 7.002550364003039e-05,
      "loss": 1.5388,
      "step": 70157
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6524621248245239,
      "learning_rate": 7.00187919860108e-05,
      "loss": 1.5299,
      "step": 70158
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6314405202865601,
      "learning_rate": 7.001208061115434e-05,
      "loss": 1.5286,
      "step": 70159
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6341300010681152,
      "learning_rate": 7.000536951546933e-05,
      "loss": 1.565,
      "step": 70160
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6352877616882324,
      "learning_rate": 6.999865869896397e-05,
      "loss": 1.5404,
      "step": 70161
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6331934332847595,
      "learning_rate": 6.999194816164638e-05,
      "loss": 1.5222,
      "step": 70162
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6245275735855103,
      "learning_rate": 6.99852379035246e-05,
      "loss": 1.5396,
      "step": 70163
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6592254042625427,
      "learning_rate": 6.997852792460683e-05,
      "loss": 1.5222,
      "step": 70164
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6327289342880249,
      "learning_rate": 6.997181822490139e-05,
      "loss": 1.5332,
      "step": 70165
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6272899508476257,
      "learning_rate": 6.996510880441613e-05,
      "loss": 1.4864,
      "step": 70166
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6472886204719543,
      "learning_rate": 6.995839966315931e-05,
      "loss": 1.5756,
      "step": 70167
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.621589720249176,
      "learning_rate": 6.995169080113919e-05,
      "loss": 1.569,
      "step": 70168
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6360715627670288,
      "learning_rate": 6.994498221836382e-05,
      "loss": 1.4776,
      "step": 70169
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6383390426635742,
      "learning_rate": 6.993827391484124e-05,
      "loss": 1.5129,
      "step": 70170
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6720060706138611,
      "learning_rate": 6.993156589057972e-05,
      "loss": 1.5498,
      "step": 70171
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6475858688354492,
      "learning_rate": 6.992485814558757e-05,
      "loss": 1.4529,
      "step": 70172
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.654203474521637,
      "learning_rate": 6.991815067987255e-05,
      "loss": 1.5456,
      "step": 70173
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.7303667068481445,
      "learning_rate": 6.9911443493443e-05,
      "loss": 1.5198,
      "step": 70174
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6298970580101013,
      "learning_rate": 6.990473658630713e-05,
      "loss": 1.5118,
      "step": 70175
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6584407091140747,
      "learning_rate": 6.989802995847301e-05,
      "loss": 1.4879,
      "step": 70176
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6676693558692932,
      "learning_rate": 6.98913236099487e-05,
      "loss": 1.4575,
      "step": 70177
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6342558264732361,
      "learning_rate": 6.98846175407425e-05,
      "loss": 1.4824,
      "step": 70178
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6585402488708496,
      "learning_rate": 6.987791175086248e-05,
      "loss": 1.5292,
      "step": 70179
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6291494369506836,
      "learning_rate": 6.987120624031666e-05,
      "loss": 1.451,
      "step": 70180
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6561470627784729,
      "learning_rate": 6.986450100911329e-05,
      "loss": 1.5078,
      "step": 70181
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.6568743586540222,
      "learning_rate": 6.985779605726062e-05,
      "loss": 1.5458,
      "step": 70182
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.638955295085907,
      "learning_rate": 6.985109138476665e-05,
      "loss": 1.5672,
      "step": 70183
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.64345383644104,
      "learning_rate": 6.984438699163946e-05,
      "loss": 1.4475,
      "step": 70184
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6552037596702576,
      "learning_rate": 6.983768287788735e-05,
      "loss": 1.5532,
      "step": 70185
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6524056196212769,
      "learning_rate": 6.983097904351839e-05,
      "loss": 1.5595,
      "step": 70186
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6281397342681885,
      "learning_rate": 6.982427548854063e-05,
      "loss": 1.4878,
      "step": 70187
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.605097234249115,
      "learning_rate": 6.981757221296236e-05,
      "loss": 1.4925,
      "step": 70188
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6400797367095947,
      "learning_rate": 6.981086921679157e-05,
      "loss": 1.4765,
      "step": 70189
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6394047737121582,
      "learning_rate": 6.980416650003655e-05,
      "loss": 1.5917,
      "step": 70190
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6473110914230347,
      "learning_rate": 6.979746406270528e-05,
      "loss": 1.5399,
      "step": 70191
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6592429280281067,
      "learning_rate": 6.979076190480602e-05,
      "loss": 1.5523,
      "step": 70192
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6252164840698242,
      "learning_rate": 6.978406002634688e-05,
      "loss": 1.49,
      "step": 70193
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6304699182510376,
      "learning_rate": 6.977735842733586e-05,
      "loss": 1.5884,
      "step": 70194
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6267952919006348,
      "learning_rate": 6.977065710778132e-05,
      "loss": 1.5022,
      "step": 70195
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6115071177482605,
      "learning_rate": 6.976395606769118e-05,
      "loss": 1.543,
      "step": 70196
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6246785521507263,
      "learning_rate": 6.975725530707377e-05,
      "loss": 1.5026,
      "step": 70197
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6108213067054749,
      "learning_rate": 6.975055482593713e-05,
      "loss": 1.4751,
      "step": 70198
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.632303774356842,
      "learning_rate": 6.974385462428929e-05,
      "loss": 1.487,
      "step": 70199
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.649607241153717,
      "learning_rate": 6.973715470213859e-05,
      "loss": 1.553,
      "step": 70200
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6163137555122375,
      "learning_rate": 6.973045505949293e-05,
      "loss": 1.5125,
      "step": 70201
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6529754400253296,
      "learning_rate": 6.972375569636068e-05,
      "loss": 1.5249,
      "step": 70202
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6651613712310791,
      "learning_rate": 6.971705661274978e-05,
      "loss": 1.5175,
      "step": 70203
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6168636679649353,
      "learning_rate": 6.971035780866854e-05,
      "loss": 1.4782,
      "step": 70204
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6440489888191223,
      "learning_rate": 6.970365928412495e-05,
      "loss": 1.4904,
      "step": 70205
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.638275146484375,
      "learning_rate": 6.969696103912714e-05,
      "loss": 1.5121,
      "step": 70206
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6210517287254333,
      "learning_rate": 6.969026307368335e-05,
      "loss": 1.5456,
      "step": 70207
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6623712778091431,
      "learning_rate": 6.968356538780167e-05,
      "loss": 1.5764,
      "step": 70208
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6085160374641418,
      "learning_rate": 6.96768679814901e-05,
      "loss": 1.5093,
      "step": 70209
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6352792978286743,
      "learning_rate": 6.967017085475689e-05,
      "loss": 1.5482,
      "step": 70210
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6542185544967651,
      "learning_rate": 6.966347400761024e-05,
      "loss": 1.5683,
      "step": 70211
    },
    {
      "epoch": 2.34,
      "grad_norm": 1.0442765951156616,
      "learning_rate": 6.965677744005818e-05,
      "loss": 1.5779,
      "step": 70212
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6398765444755554,
      "learning_rate": 6.965008115210878e-05,
      "loss": 1.4711,
      "step": 70213
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6552620530128479,
      "learning_rate": 6.964338514377031e-05,
      "loss": 1.5331,
      "step": 70214
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.630493700504303,
      "learning_rate": 6.963668941505084e-05,
      "loss": 1.5419,
      "step": 70215
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6359807252883911,
      "learning_rate": 6.962999396595839e-05,
      "loss": 1.5457,
      "step": 70216
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6513246297836304,
      "learning_rate": 6.962329879650122e-05,
      "loss": 1.4786,
      "step": 70217
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6509017944335938,
      "learning_rate": 6.961660390668755e-05,
      "loss": 1.6102,
      "step": 70218
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6589431166648865,
      "learning_rate": 6.960990929652522e-05,
      "loss": 1.5429,
      "step": 70219
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6626843810081482,
      "learning_rate": 6.960321496602253e-05,
      "loss": 1.5048,
      "step": 70220
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.636914849281311,
      "learning_rate": 6.959652091518764e-05,
      "loss": 1.5238,
      "step": 70221
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6407909989356995,
      "learning_rate": 6.958982714402866e-05,
      "loss": 1.4954,
      "step": 70222
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6359760761260986,
      "learning_rate": 6.958313365255357e-05,
      "loss": 1.5407,
      "step": 70223
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6519291400909424,
      "learning_rate": 6.957644044077062e-05,
      "loss": 1.5611,
      "step": 70224
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.653251051902771,
      "learning_rate": 6.95697475086881e-05,
      "loss": 1.5969,
      "step": 70225
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6317793130874634,
      "learning_rate": 6.956305485631377e-05,
      "loss": 1.5259,
      "step": 70226
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6328990459442139,
      "learning_rate": 6.955636248365592e-05,
      "loss": 1.4896,
      "step": 70227
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6348955631256104,
      "learning_rate": 6.954967039072279e-05,
      "loss": 1.5846,
      "step": 70228
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6542328000068665,
      "learning_rate": 6.954297857752242e-05,
      "loss": 1.5179,
      "step": 70229
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6425886154174805,
      "learning_rate": 6.953628704406283e-05,
      "loss": 1.4593,
      "step": 70230
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6384507417678833,
      "learning_rate": 6.952959579035221e-05,
      "loss": 1.5273,
      "step": 70231
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6885051131248474,
      "learning_rate": 6.952290481639888e-05,
      "loss": 1.5157,
      "step": 70232
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6359374523162842,
      "learning_rate": 6.951621412221063e-05,
      "loss": 1.4349,
      "step": 70233
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6775186657905579,
      "learning_rate": 6.950952370779572e-05,
      "loss": 1.5165,
      "step": 70234
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6422097682952881,
      "learning_rate": 6.950283357316241e-05,
      "loss": 1.5235,
      "step": 70235
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6296022534370422,
      "learning_rate": 6.949614371831866e-05,
      "loss": 1.5425,
      "step": 70236
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6317716240882874,
      "learning_rate": 6.948945414327255e-05,
      "loss": 1.5259,
      "step": 70237
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6575455665588379,
      "learning_rate": 6.948276484803236e-05,
      "loss": 1.5633,
      "step": 70238
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.672127902507782,
      "learning_rate": 6.947607583260614e-05,
      "loss": 1.6253,
      "step": 70239
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6323642730712891,
      "learning_rate": 6.946938709700188e-05,
      "loss": 1.5741,
      "step": 70240
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6424981951713562,
      "learning_rate": 6.946269864122786e-05,
      "loss": 1.4813,
      "step": 70241
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6249686479568481,
      "learning_rate": 6.945601046529221e-05,
      "loss": 1.4843,
      "step": 70242
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6272635459899902,
      "learning_rate": 6.944932256920302e-05,
      "loss": 1.4565,
      "step": 70243
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6355412006378174,
      "learning_rate": 6.944263495296826e-05,
      "loss": 1.5537,
      "step": 70244
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.612731397151947,
      "learning_rate": 6.94359476165963e-05,
      "loss": 1.5316,
      "step": 70245
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6249984502792358,
      "learning_rate": 6.94292605600951e-05,
      "loss": 1.5338,
      "step": 70246
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6513634324073792,
      "learning_rate": 6.942257378347272e-05,
      "loss": 1.5457,
      "step": 70247
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6516455411911011,
      "learning_rate": 6.941588728673746e-05,
      "loss": 1.514,
      "step": 70248
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6813754439353943,
      "learning_rate": 6.940920106989724e-05,
      "loss": 1.5683,
      "step": 70249
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6764962673187256,
      "learning_rate": 6.940251513296037e-05,
      "loss": 1.5266,
      "step": 70250
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6500595211982727,
      "learning_rate": 6.939582947593478e-05,
      "loss": 1.5068,
      "step": 70251
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6304132342338562,
      "learning_rate": 6.938914409882874e-05,
      "loss": 1.5375,
      "step": 70252
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6703138947486877,
      "learning_rate": 6.938245900165035e-05,
      "loss": 1.5688,
      "step": 70253
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6724256277084351,
      "learning_rate": 6.937577418440756e-05,
      "loss": 1.5292,
      "step": 70254
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6264804005622864,
      "learning_rate": 6.936908964710867e-05,
      "loss": 1.4387,
      "step": 70255
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6158952116966248,
      "learning_rate": 6.936240538976165e-05,
      "loss": 1.5598,
      "step": 70256
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6254658102989197,
      "learning_rate": 6.935572141237479e-05,
      "loss": 1.5615,
      "step": 70257
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6406789422035217,
      "learning_rate": 6.934903771495607e-05,
      "loss": 1.5047,
      "step": 70258
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6412656903266907,
      "learning_rate": 6.934235429751356e-05,
      "loss": 1.496,
      "step": 70259
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6146433353424072,
      "learning_rate": 6.933567116005555e-05,
      "loss": 1.5681,
      "step": 70260
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6473718881607056,
      "learning_rate": 6.932898830258994e-05,
      "loss": 1.4909,
      "step": 70261
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6336750984191895,
      "learning_rate": 6.932230572512505e-05,
      "loss": 1.5469,
      "step": 70262
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6319317817687988,
      "learning_rate": 6.931562342766878e-05,
      "loss": 1.5201,
      "step": 70263
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6580758094787598,
      "learning_rate": 6.930894141022948e-05,
      "loss": 1.5745,
      "step": 70264
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6327699422836304,
      "learning_rate": 6.930225967281509e-05,
      "loss": 1.5116,
      "step": 70265
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6360251307487488,
      "learning_rate": 6.929557821543372e-05,
      "loss": 1.5367,
      "step": 70266
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6529561281204224,
      "learning_rate": 6.928889703809358e-05,
      "loss": 1.5392,
      "step": 70267
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6431904435157776,
      "learning_rate": 6.928221614080266e-05,
      "loss": 1.4841,
      "step": 70268
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6472854018211365,
      "learning_rate": 6.927553552356922e-05,
      "loss": 1.4918,
      "step": 70269
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6596969962120056,
      "learning_rate": 6.926885518640117e-05,
      "loss": 1.5564,
      "step": 70270
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6396034955978394,
      "learning_rate": 6.926217512930686e-05,
      "loss": 1.4749,
      "step": 70271
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6480271816253662,
      "learning_rate": 6.925549535229424e-05,
      "loss": 1.5379,
      "step": 70272
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6569736003875732,
      "learning_rate": 6.924881585537138e-05,
      "loss": 1.554,
      "step": 70273
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6487303376197815,
      "learning_rate": 6.924213663854645e-05,
      "loss": 1.5262,
      "step": 70274
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6341446042060852,
      "learning_rate": 6.923545770182773e-05,
      "loss": 1.5097,
      "step": 70275
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6385203003883362,
      "learning_rate": 6.922877904522302e-05,
      "loss": 1.4944,
      "step": 70276
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6575318574905396,
      "learning_rate": 6.922210066874055e-05,
      "loss": 1.5309,
      "step": 70277
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6419361233711243,
      "learning_rate": 6.921542257238855e-05,
      "loss": 1.5166,
      "step": 70278
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6765641570091248,
      "learning_rate": 6.920874475617499e-05,
      "loss": 1.627,
      "step": 70279
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6384465098381042,
      "learning_rate": 6.920206722010796e-05,
      "loss": 1.4664,
      "step": 70280
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6551778316497803,
      "learning_rate": 6.919538996419557e-05,
      "loss": 1.5322,
      "step": 70281
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6267381310462952,
      "learning_rate": 6.918871298844617e-05,
      "loss": 1.488,
      "step": 70282
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6478139162063599,
      "learning_rate": 6.918203629286749e-05,
      "loss": 1.4941,
      "step": 70283
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6317307949066162,
      "learning_rate": 6.917535987746779e-05,
      "loss": 1.511,
      "step": 70284
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.686224639415741,
      "learning_rate": 6.91686837422553e-05,
      "loss": 1.509,
      "step": 70285
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6519706845283508,
      "learning_rate": 6.916200788723801e-05,
      "loss": 1.5697,
      "step": 70286
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6359805464744568,
      "learning_rate": 6.915533231242395e-05,
      "loss": 1.4824,
      "step": 70287
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6463386416435242,
      "learning_rate": 6.91486570178213e-05,
      "loss": 1.512,
      "step": 70288
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6383664608001709,
      "learning_rate": 6.914198200343834e-05,
      "loss": 1.5878,
      "step": 70289
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6216731667518616,
      "learning_rate": 6.913530726928282e-05,
      "loss": 1.5229,
      "step": 70290
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6370669007301331,
      "learning_rate": 6.912863281536304e-05,
      "loss": 1.5243,
      "step": 70291
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6274009943008423,
      "learning_rate": 6.912195864168714e-05,
      "loss": 1.578,
      "step": 70292
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6095229387283325,
      "learning_rate": 6.911528474826318e-05,
      "loss": 1.5836,
      "step": 70293
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6217880845069885,
      "learning_rate": 6.910861113509915e-05,
      "loss": 1.5705,
      "step": 70294
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6519432663917542,
      "learning_rate": 6.910193780220334e-05,
      "loss": 1.5542,
      "step": 70295
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6412331461906433,
      "learning_rate": 6.909526474958374e-05,
      "loss": 1.5695,
      "step": 70296
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6501245498657227,
      "learning_rate": 6.908859197724839e-05,
      "loss": 1.5416,
      "step": 70297
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6336537003517151,
      "learning_rate": 6.908191948520546e-05,
      "loss": 1.5224,
      "step": 70298
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6218681931495667,
      "learning_rate": 6.907524727346315e-05,
      "loss": 1.5428,
      "step": 70299
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6445277333259583,
      "learning_rate": 6.906857534202948e-05,
      "loss": 1.5828,
      "step": 70300
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6629765033721924,
      "learning_rate": 6.906190369091242e-05,
      "loss": 1.5566,
      "step": 70301
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6393266320228577,
      "learning_rate": 6.905523232012029e-05,
      "loss": 1.5471,
      "step": 70302
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.632256031036377,
      "learning_rate": 6.904856122966109e-05,
      "loss": 1.4813,
      "step": 70303
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6346903443336487,
      "learning_rate": 6.904189041954279e-05,
      "loss": 1.6008,
      "step": 70304
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6293442249298096,
      "learning_rate": 6.903521988977371e-05,
      "loss": 1.546,
      "step": 70305
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6267040371894836,
      "learning_rate": 6.902854964036172e-05,
      "loss": 1.5704,
      "step": 70306
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6415298581123352,
      "learning_rate": 6.902187967131519e-05,
      "loss": 1.4504,
      "step": 70307
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6322143077850342,
      "learning_rate": 6.901520998264193e-05,
      "loss": 1.4747,
      "step": 70308
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6264870762825012,
      "learning_rate": 6.900854057435026e-05,
      "loss": 1.5035,
      "step": 70309
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.651232898235321,
      "learning_rate": 6.900187144644819e-05,
      "loss": 1.5642,
      "step": 70310
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6370959281921387,
      "learning_rate": 6.899520259894374e-05,
      "loss": 1.4778,
      "step": 70311
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6578662395477295,
      "learning_rate": 6.898853403184515e-05,
      "loss": 1.6001,
      "step": 70312
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6294900178909302,
      "learning_rate": 6.898186574516036e-05,
      "loss": 1.5442,
      "step": 70313
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6469817161560059,
      "learning_rate": 6.897519773889765e-05,
      "loss": 1.5147,
      "step": 70314
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6283541321754456,
      "learning_rate": 6.896853001306498e-05,
      "loss": 1.5385,
      "step": 70315
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6599808931350708,
      "learning_rate": 6.896186256767043e-05,
      "loss": 1.5738,
      "step": 70316
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6735231280326843,
      "learning_rate": 6.895519540272217e-05,
      "loss": 1.5239,
      "step": 70317
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6346961259841919,
      "learning_rate": 6.89485285182282e-05,
      "loss": 1.561,
      "step": 70318
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6414919495582581,
      "learning_rate": 6.894186191419676e-05,
      "loss": 1.5793,
      "step": 70319
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6297911405563354,
      "learning_rate": 6.893519559063575e-05,
      "loss": 1.5774,
      "step": 70320
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6584251523017883,
      "learning_rate": 6.892852954755349e-05,
      "loss": 1.4896,
      "step": 70321
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6325603723526001,
      "learning_rate": 6.892186378495793e-05,
      "loss": 1.4835,
      "step": 70322
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6458499431610107,
      "learning_rate": 6.891519830285707e-05,
      "loss": 1.523,
      "step": 70323
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6483285427093506,
      "learning_rate": 6.890853310125922e-05,
      "loss": 1.45,
      "step": 70324
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6451202630996704,
      "learning_rate": 6.890186818017236e-05,
      "loss": 1.4991,
      "step": 70325
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6375487446784973,
      "learning_rate": 6.88952035396045e-05,
      "loss": 1.5685,
      "step": 70326
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.8010755181312561,
      "learning_rate": 6.888853917956378e-05,
      "loss": 1.538,
      "step": 70327
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6234187483787537,
      "learning_rate": 6.888187510005846e-05,
      "loss": 1.4824,
      "step": 70328
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6172276735305786,
      "learning_rate": 6.887521130109646e-05,
      "loss": 1.5503,
      "step": 70329
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6434237360954285,
      "learning_rate": 6.886854778268581e-05,
      "loss": 1.5191,
      "step": 70330
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6443167924880981,
      "learning_rate": 6.886188454483476e-05,
      "loss": 1.5255,
      "step": 70331
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6363946795463562,
      "learning_rate": 6.885522158755134e-05,
      "loss": 1.4992,
      "step": 70332
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6361626386642456,
      "learning_rate": 6.884855891084357e-05,
      "loss": 1.6229,
      "step": 70333
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6619075536727905,
      "learning_rate": 6.884189651471954e-05,
      "loss": 1.5257,
      "step": 70334
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6239182353019714,
      "learning_rate": 6.88352343991876e-05,
      "loss": 1.4995,
      "step": 70335
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.626261293888092,
      "learning_rate": 6.882857256425543e-05,
      "loss": 1.527,
      "step": 70336
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6416606307029724,
      "learning_rate": 6.882191100993131e-05,
      "loss": 1.5565,
      "step": 70337
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6525399088859558,
      "learning_rate": 6.881524973622341e-05,
      "loss": 1.5246,
      "step": 70338
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6161039471626282,
      "learning_rate": 6.880858874313974e-05,
      "loss": 1.47,
      "step": 70339
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6469238996505737,
      "learning_rate": 6.880192803068831e-05,
      "loss": 1.476,
      "step": 70340
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6318199038505554,
      "learning_rate": 6.879526759887727e-05,
      "loss": 1.4894,
      "step": 70341
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6428914666175842,
      "learning_rate": 6.878860744771486e-05,
      "loss": 1.5811,
      "step": 70342
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.644006073474884,
      "learning_rate": 6.878194757720886e-05,
      "loss": 1.5571,
      "step": 70343
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6545853614807129,
      "learning_rate": 6.877528798736746e-05,
      "loss": 1.5194,
      "step": 70344
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6206411719322205,
      "learning_rate": 6.876862867819894e-05,
      "loss": 1.5572,
      "step": 70345
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6438786387443542,
      "learning_rate": 6.87619696497112e-05,
      "loss": 1.5928,
      "step": 70346
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6340972185134888,
      "learning_rate": 6.87553109019123e-05,
      "loss": 1.4745,
      "step": 70347
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6293904185295105,
      "learning_rate": 6.874865243481035e-05,
      "loss": 1.62,
      "step": 70348
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6253052353858948,
      "learning_rate": 6.874199424841366e-05,
      "loss": 1.4877,
      "step": 70349
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.640031099319458,
      "learning_rate": 6.873533634272992e-05,
      "loss": 1.4864,
      "step": 70350
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6545222997665405,
      "learning_rate": 6.87286787177674e-05,
      "loss": 1.5677,
      "step": 70351
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6113278865814209,
      "learning_rate": 6.872202137353431e-05,
      "loss": 1.5357,
      "step": 70352
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6465375423431396,
      "learning_rate": 6.871536431003859e-05,
      "loss": 1.4971,
      "step": 70353
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6332833766937256,
      "learning_rate": 6.870870752728823e-05,
      "loss": 1.4833,
      "step": 70354
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6323311924934387,
      "learning_rate": 6.870205102529153e-05,
      "loss": 1.5178,
      "step": 70355
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6273738741874695,
      "learning_rate": 6.869539480405646e-05,
      "loss": 1.4684,
      "step": 70356
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6931261420249939,
      "learning_rate": 6.868873886359101e-05,
      "loss": 1.5113,
      "step": 70357
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6358522772789001,
      "learning_rate": 6.868208320390334e-05,
      "loss": 1.5335,
      "step": 70358
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6475856304168701,
      "learning_rate": 6.867542782500165e-05,
      "loss": 1.5543,
      "step": 70359
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6425184607505798,
      "learning_rate": 6.866877272689388e-05,
      "loss": 1.5706,
      "step": 70360
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.627259373664856,
      "learning_rate": 6.866211790958806e-05,
      "loss": 1.4688,
      "step": 70361
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6340780854225159,
      "learning_rate": 6.865546337309242e-05,
      "loss": 1.5332,
      "step": 70362
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6446819305419922,
      "learning_rate": 6.864880911741498e-05,
      "loss": 1.4902,
      "step": 70363
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6649816036224365,
      "learning_rate": 6.864215514256371e-05,
      "loss": 1.539,
      "step": 70364
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6463162302970886,
      "learning_rate": 6.863550144854685e-05,
      "loss": 1.5554,
      "step": 70365
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6369162201881409,
      "learning_rate": 6.86288480353723e-05,
      "loss": 1.543,
      "step": 70366
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6504542827606201,
      "learning_rate": 6.862219490304834e-05,
      "loss": 1.4815,
      "step": 70367
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6226196885108948,
      "learning_rate": 6.861554205158285e-05,
      "loss": 1.5121,
      "step": 70368
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6540163159370422,
      "learning_rate": 6.860888948098412e-05,
      "loss": 1.5408,
      "step": 70369
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6310704946517944,
      "learning_rate": 6.860223719126005e-05,
      "loss": 1.5557,
      "step": 70370
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6334875822067261,
      "learning_rate": 6.859558518241872e-05,
      "loss": 1.4908,
      "step": 70371
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.643826425075531,
      "learning_rate": 6.858893345446835e-05,
      "loss": 1.5296,
      "step": 70372
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6134280562400818,
      "learning_rate": 6.85822820074168e-05,
      "loss": 1.5436,
      "step": 70373
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6438455581665039,
      "learning_rate": 6.857563084127235e-05,
      "loss": 1.5281,
      "step": 70374
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6183553338050842,
      "learning_rate": 6.8568979956043e-05,
      "loss": 1.523,
      "step": 70375
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6202002763748169,
      "learning_rate": 6.85623293517367e-05,
      "loss": 1.523,
      "step": 70376
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6597927808761597,
      "learning_rate": 6.855567902836175e-05,
      "loss": 1.5252,
      "step": 70377
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6683352589607239,
      "learning_rate": 6.854902898592599e-05,
      "loss": 1.5312,
      "step": 70378
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6273688673973083,
      "learning_rate": 6.854237922443771e-05,
      "loss": 1.4594,
      "step": 70379
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6598281264305115,
      "learning_rate": 6.853572974390478e-05,
      "loss": 1.4886,
      "step": 70380
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6421507000923157,
      "learning_rate": 6.852908054433546e-05,
      "loss": 1.5827,
      "step": 70381
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6555770635604858,
      "learning_rate": 6.852243162573773e-05,
      "loss": 1.4914,
      "step": 70382
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6948538422584534,
      "learning_rate": 6.851578298811959e-05,
      "loss": 1.5685,
      "step": 70383
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6347361207008362,
      "learning_rate": 6.850913463148926e-05,
      "loss": 1.5166,
      "step": 70384
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.623319149017334,
      "learning_rate": 6.850248655585473e-05,
      "loss": 1.5381,
      "step": 70385
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6584383845329285,
      "learning_rate": 6.849583876122398e-05,
      "loss": 1.5953,
      "step": 70386
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6698448657989502,
      "learning_rate": 6.84891912476052e-05,
      "loss": 1.4379,
      "step": 70387
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6323251724243164,
      "learning_rate": 6.848254401500646e-05,
      "loss": 1.5294,
      "step": 70388
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6301245093345642,
      "learning_rate": 6.847589706343585e-05,
      "loss": 1.5424,
      "step": 70389
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6582215428352356,
      "learning_rate": 6.846925039290125e-05,
      "loss": 1.5355,
      "step": 70390
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6376357078552246,
      "learning_rate": 6.846260400341091e-05,
      "loss": 1.4943,
      "step": 70391
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6402179598808289,
      "learning_rate": 6.845595789497303e-05,
      "loss": 1.4052,
      "step": 70392
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6368951201438904,
      "learning_rate": 6.844931206759531e-05,
      "loss": 1.5088,
      "step": 70393
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6711796522140503,
      "learning_rate": 6.844266652128599e-05,
      "loss": 1.5377,
      "step": 70394
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6244758367538452,
      "learning_rate": 6.843602125605328e-05,
      "loss": 1.4935,
      "step": 70395
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6230645179748535,
      "learning_rate": 6.842937627190508e-05,
      "loss": 1.5629,
      "step": 70396
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6886764168739319,
      "learning_rate": 6.842273156884943e-05,
      "loss": 1.5356,
      "step": 70397
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6445192694664001,
      "learning_rate": 6.841608714689445e-05,
      "loss": 1.5052,
      "step": 70398
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6280688047409058,
      "learning_rate": 6.840944300604843e-05,
      "loss": 1.4912,
      "step": 70399
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6426838636398315,
      "learning_rate": 6.840279914631902e-05,
      "loss": 1.4818,
      "step": 70400
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6356619000434875,
      "learning_rate": 6.83961555677145e-05,
      "loss": 1.5193,
      "step": 70401
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6416026949882507,
      "learning_rate": 6.8389512270243e-05,
      "loss": 1.4327,
      "step": 70402
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.636146068572998,
      "learning_rate": 6.838286925391249e-05,
      "loss": 1.427,
      "step": 70403
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6171457767486572,
      "learning_rate": 6.8376226518731e-05,
      "loss": 1.4975,
      "step": 70404
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6371762752532959,
      "learning_rate": 6.836958406470662e-05,
      "loss": 1.528,
      "step": 70405
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6225655674934387,
      "learning_rate": 6.836294189184759e-05,
      "loss": 1.5005,
      "step": 70406
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6484023928642273,
      "learning_rate": 6.835630000016168e-05,
      "loss": 1.5609,
      "step": 70407
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6120718121528625,
      "learning_rate": 6.834965838965708e-05,
      "loss": 1.547,
      "step": 70408
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6561751365661621,
      "learning_rate": 6.834301706034196e-05,
      "loss": 1.503,
      "step": 70409
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6609199643135071,
      "learning_rate": 6.833637601222426e-05,
      "loss": 1.5446,
      "step": 70410
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6424373388290405,
      "learning_rate": 6.832973524531198e-05,
      "loss": 1.5717,
      "step": 70411
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6155098676681519,
      "learning_rate": 6.832309475961337e-05,
      "loss": 1.4931,
      "step": 70412
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6332419514656067,
      "learning_rate": 6.831645455513637e-05,
      "loss": 1.5496,
      "step": 70413
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6491079926490784,
      "learning_rate": 6.830981463188898e-05,
      "loss": 1.5939,
      "step": 70414
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6302341818809509,
      "learning_rate": 6.830317498987934e-05,
      "loss": 1.5242,
      "step": 70415
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6300147771835327,
      "learning_rate": 6.82965356291156e-05,
      "loss": 1.4759,
      "step": 70416
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6393905282020569,
      "learning_rate": 6.828989654960571e-05,
      "loss": 1.531,
      "step": 70417
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6241714954376221,
      "learning_rate": 6.828325775135765e-05,
      "loss": 1.549,
      "step": 70418
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6304110884666443,
      "learning_rate": 6.827661923437968e-05,
      "loss": 1.5219,
      "step": 70419
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6831052303314209,
      "learning_rate": 6.826998099867976e-05,
      "loss": 1.5529,
      "step": 70420
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6515910029411316,
      "learning_rate": 6.826334304426581e-05,
      "loss": 1.5371,
      "step": 70421
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6365596652030945,
      "learning_rate": 6.825670537114614e-05,
      "loss": 1.4865,
      "step": 70422
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6392326354980469,
      "learning_rate": 6.82500679793286e-05,
      "loss": 1.4915,
      "step": 70423
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6429117321968079,
      "learning_rate": 6.824343086882142e-05,
      "loss": 1.5294,
      "step": 70424
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6564550995826721,
      "learning_rate": 6.823679403963246e-05,
      "loss": 1.5094,
      "step": 70425
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6325148940086365,
      "learning_rate": 6.823015749176997e-05,
      "loss": 1.5143,
      "step": 70426
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6332690119743347,
      "learning_rate": 6.822352122524192e-05,
      "loss": 1.5829,
      "step": 70427
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6634081602096558,
      "learning_rate": 6.821688524005628e-05,
      "loss": 1.6155,
      "step": 70428
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.655659556388855,
      "learning_rate": 6.821024953622129e-05,
      "loss": 1.5247,
      "step": 70429
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6358696222305298,
      "learning_rate": 6.820361411374479e-05,
      "loss": 1.5217,
      "step": 70430
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6350924372673035,
      "learning_rate": 6.819697897263508e-05,
      "loss": 1.5974,
      "step": 70431
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6078323125839233,
      "learning_rate": 6.819034411290005e-05,
      "loss": 1.5626,
      "step": 70432
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6485131978988647,
      "learning_rate": 6.818370953454769e-05,
      "loss": 1.5337,
      "step": 70433
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.620622456073761,
      "learning_rate": 6.817707523758626e-05,
      "loss": 1.4713,
      "step": 70434
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6328489780426025,
      "learning_rate": 6.817044122202359e-05,
      "loss": 1.5785,
      "step": 70435
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6800455451011658,
      "learning_rate": 6.816380748786797e-05,
      "loss": 1.5356,
      "step": 70436
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6353847980499268,
      "learning_rate": 6.815717403512724e-05,
      "loss": 1.4711,
      "step": 70437
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6280657649040222,
      "learning_rate": 6.81505408638096e-05,
      "loss": 1.4651,
      "step": 70438
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6271282434463501,
      "learning_rate": 6.814390797392305e-05,
      "loss": 1.5172,
      "step": 70439
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.652545690536499,
      "learning_rate": 6.813727536547555e-05,
      "loss": 1.5687,
      "step": 70440
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6147093176841736,
      "learning_rate": 6.813064303847532e-05,
      "loss": 1.4969,
      "step": 70441
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6141480803489685,
      "learning_rate": 6.812401099293031e-05,
      "loss": 1.5416,
      "step": 70442
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6317210793495178,
      "learning_rate": 6.811737922884852e-05,
      "loss": 1.5868,
      "step": 70443
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.627247154712677,
      "learning_rate": 6.811074774623808e-05,
      "loss": 1.5404,
      "step": 70444
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6402931809425354,
      "learning_rate": 6.810411654510709e-05,
      "loss": 1.5268,
      "step": 70445
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.651501476764679,
      "learning_rate": 6.809748562546352e-05,
      "loss": 1.5374,
      "step": 70446
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6521516442298889,
      "learning_rate": 6.809085498731537e-05,
      "loss": 1.4895,
      "step": 70447
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6415852308273315,
      "learning_rate": 6.808422463067082e-05,
      "loss": 1.4723,
      "step": 70448
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6534651517868042,
      "learning_rate": 6.807759455553788e-05,
      "loss": 1.6111,
      "step": 70449
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6712185144424438,
      "learning_rate": 6.807096476192445e-05,
      "loss": 1.5808,
      "step": 70450
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6475906372070312,
      "learning_rate": 6.80643352498387e-05,
      "loss": 1.5292,
      "step": 70451
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6534433960914612,
      "learning_rate": 6.805770601928884e-05,
      "loss": 1.5144,
      "step": 70452
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6953424215316772,
      "learning_rate": 6.805107707028259e-05,
      "loss": 1.5424,
      "step": 70453
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6341030597686768,
      "learning_rate": 6.804444840282816e-05,
      "loss": 1.5386,
      "step": 70454
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6485537886619568,
      "learning_rate": 6.80378200169337e-05,
      "loss": 1.4963,
      "step": 70455
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6266626715660095,
      "learning_rate": 6.80311919126071e-05,
      "loss": 1.5475,
      "step": 70456
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6454232931137085,
      "learning_rate": 6.802456408985642e-05,
      "loss": 1.5444,
      "step": 70457
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6159582734107971,
      "learning_rate": 6.801793654868967e-05,
      "loss": 1.5035,
      "step": 70458
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6376739740371704,
      "learning_rate": 6.801130928911519e-05,
      "loss": 1.5784,
      "step": 70459
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6739222407341003,
      "learning_rate": 6.80046823111406e-05,
      "loss": 1.5806,
      "step": 70460
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6504015326499939,
      "learning_rate": 6.799805561477417e-05,
      "loss": 1.5192,
      "step": 70461
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6359363794326782,
      "learning_rate": 6.7991429200024e-05,
      "loss": 1.5704,
      "step": 70462
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6147148609161377,
      "learning_rate": 6.798480306689805e-05,
      "loss": 1.5757,
      "step": 70463
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6393149495124817,
      "learning_rate": 6.797817721540424e-05,
      "loss": 1.4876,
      "step": 70464
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6374325752258301,
      "learning_rate": 6.797155164555078e-05,
      "loss": 1.516,
      "step": 70465
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6362960934638977,
      "learning_rate": 6.796492635734583e-05,
      "loss": 1.4475,
      "step": 70466
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.660431981086731,
      "learning_rate": 6.795830135079707e-05,
      "loss": 1.5522,
      "step": 70467
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6289766430854797,
      "learning_rate": 6.795167662591277e-05,
      "loss": 1.5677,
      "step": 70468
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6450027823448181,
      "learning_rate": 6.794505218270103e-05,
      "loss": 1.5305,
      "step": 70469
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6304185390472412,
      "learning_rate": 6.79384280211698e-05,
      "loss": 1.5832,
      "step": 70470
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6424880027770996,
      "learning_rate": 6.793180414132704e-05,
      "loss": 1.5225,
      "step": 70471
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6593053340911865,
      "learning_rate": 6.792518054318095e-05,
      "loss": 1.5073,
      "step": 70472
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6864414215087891,
      "learning_rate": 6.791855722673952e-05,
      "loss": 1.547,
      "step": 70473
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.651553750038147,
      "learning_rate": 6.791193419201066e-05,
      "loss": 1.4861,
      "step": 70474
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6267526149749756,
      "learning_rate": 6.790531143900252e-05,
      "loss": 1.5276,
      "step": 70475
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6295226216316223,
      "learning_rate": 6.789868896772324e-05,
      "loss": 1.5495,
      "step": 70476
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6533159017562866,
      "learning_rate": 6.789206677818072e-05,
      "loss": 1.5923,
      "step": 70477
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6597591042518616,
      "learning_rate": 6.788544487038298e-05,
      "loss": 1.4957,
      "step": 70478
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6438958048820496,
      "learning_rate": 6.787882324433817e-05,
      "loss": 1.5222,
      "step": 70479
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6617950797080994,
      "learning_rate": 6.787220190005427e-05,
      "loss": 1.5391,
      "step": 70480
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6392397284507751,
      "learning_rate": 6.786558083753921e-05,
      "loss": 1.5003,
      "step": 70481
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6274611353874207,
      "learning_rate": 6.785896005680126e-05,
      "loss": 1.6039,
      "step": 70482
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6464934945106506,
      "learning_rate": 6.78523395578482e-05,
      "loss": 1.5553,
      "step": 70483
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6748620867729187,
      "learning_rate": 6.784571934068833e-05,
      "loss": 1.5224,
      "step": 70484
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6548657417297363,
      "learning_rate": 6.783909940532941e-05,
      "loss": 1.5234,
      "step": 70485
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6521766185760498,
      "learning_rate": 6.783247975177974e-05,
      "loss": 1.4831,
      "step": 70486
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6162658929824829,
      "learning_rate": 6.782586038004723e-05,
      "loss": 1.5588,
      "step": 70487
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6631577610969543,
      "learning_rate": 6.781924129013981e-05,
      "loss": 1.5026,
      "step": 70488
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6475192904472351,
      "learning_rate": 6.781262248206572e-05,
      "loss": 1.5726,
      "step": 70489
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6834522485733032,
      "learning_rate": 6.780600395583282e-05,
      "loss": 1.5732,
      "step": 70490
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.65508633852005,
      "learning_rate": 6.779938571144926e-05,
      "loss": 1.5656,
      "step": 70491
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6212676763534546,
      "learning_rate": 6.779276774892307e-05,
      "loss": 1.4516,
      "step": 70492
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6360263824462891,
      "learning_rate": 6.778615006826218e-05,
      "loss": 1.5389,
      "step": 70493
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6456618905067444,
      "learning_rate": 6.777953266947475e-05,
      "loss": 1.5517,
      "step": 70494
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6386129260063171,
      "learning_rate": 6.777291555256863e-05,
      "loss": 1.515,
      "step": 70495
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6349278688430786,
      "learning_rate": 6.776629871755209e-05,
      "loss": 1.5354,
      "step": 70496
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6343724727630615,
      "learning_rate": 6.7759682164433e-05,
      "loss": 1.517,
      "step": 70497
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6324132680892944,
      "learning_rate": 6.775306589321946e-05,
      "loss": 1.5275,
      "step": 70498
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6605989933013916,
      "learning_rate": 6.774644990391952e-05,
      "loss": 1.547,
      "step": 70499
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6433101296424866,
      "learning_rate": 6.773983419654106e-05,
      "loss": 1.5207,
      "step": 70500
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6505905985832214,
      "learning_rate": 6.773321877109222e-05,
      "loss": 1.5242,
      "step": 70501
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6421740651130676,
      "learning_rate": 6.772660362758122e-05,
      "loss": 1.5005,
      "step": 70502
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6466050744056702,
      "learning_rate": 6.771998876601569e-05,
      "loss": 1.5628,
      "step": 70503
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6195338368415833,
      "learning_rate": 6.771337418640391e-05,
      "loss": 1.5461,
      "step": 70504
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6457808017730713,
      "learning_rate": 6.770675988875392e-05,
      "loss": 1.453,
      "step": 70505
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6402393579483032,
      "learning_rate": 6.770014587307372e-05,
      "loss": 1.528,
      "step": 70506
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6283396482467651,
      "learning_rate": 6.769353213937123e-05,
      "loss": 1.4788,
      "step": 70507
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6441240906715393,
      "learning_rate": 6.768691868765456e-05,
      "loss": 1.4947,
      "step": 70508
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6584166884422302,
      "learning_rate": 6.768030551793189e-05,
      "loss": 1.471,
      "step": 70509
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6345781683921814,
      "learning_rate": 6.767369263021094e-05,
      "loss": 1.5036,
      "step": 70510
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6625823974609375,
      "learning_rate": 6.766708002449991e-05,
      "loss": 1.5485,
      "step": 70511
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6493957042694092,
      "learning_rate": 6.766046770080689e-05,
      "loss": 1.5652,
      "step": 70512
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6417868733406067,
      "learning_rate": 6.765385565913983e-05,
      "loss": 1.6152,
      "step": 70513
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6320409774780273,
      "learning_rate": 6.764724389950668e-05,
      "loss": 1.5582,
      "step": 70514
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.62557053565979,
      "learning_rate": 6.76406324219155e-05,
      "loss": 1.5155,
      "step": 70515
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.649263322353363,
      "learning_rate": 6.763402122637456e-05,
      "loss": 1.5229,
      "step": 70516
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6528191566467285,
      "learning_rate": 6.762741031289151e-05,
      "loss": 1.5396,
      "step": 70517
    },
    {
      "epoch": 2.35,
      "grad_norm": 1.246886134147644,
      "learning_rate": 6.762079968147454e-05,
      "loss": 1.5205,
      "step": 70518
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.646761417388916,
      "learning_rate": 6.761418933213178e-05,
      "loss": 1.4563,
      "step": 70519
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6529583930969238,
      "learning_rate": 6.760757926487113e-05,
      "loss": 1.4407,
      "step": 70520
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.7882217764854431,
      "learning_rate": 6.760096947970056e-05,
      "loss": 1.5354,
      "step": 70521
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.631345272064209,
      "learning_rate": 6.759435997662818e-05,
      "loss": 1.5138,
      "step": 70522
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6340541243553162,
      "learning_rate": 6.758775075566216e-05,
      "loss": 1.5068,
      "step": 70523
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6278491616249084,
      "learning_rate": 6.758114181681018e-05,
      "loss": 1.4911,
      "step": 70524
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6386717557907104,
      "learning_rate": 6.757453316008048e-05,
      "loss": 1.5658,
      "step": 70525
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6377569437026978,
      "learning_rate": 6.756792478548112e-05,
      "loss": 1.5109,
      "step": 70526
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.628935694694519,
      "learning_rate": 6.756131669302006e-05,
      "loss": 1.4971,
      "step": 70527
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6507158279418945,
      "learning_rate": 6.75547088827052e-05,
      "loss": 1.5208,
      "step": 70528
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6360206604003906,
      "learning_rate": 6.754810135454479e-05,
      "loss": 1.4881,
      "step": 70529
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6519734859466553,
      "learning_rate": 6.754149410854673e-05,
      "loss": 1.588,
      "step": 70530
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.635272204875946,
      "learning_rate": 6.753488714471897e-05,
      "loss": 1.5763,
      "step": 70531
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6319106817245483,
      "learning_rate": 6.75282804630696e-05,
      "loss": 1.4767,
      "step": 70532
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6614334583282471,
      "learning_rate": 6.752167406360672e-05,
      "loss": 1.5304,
      "step": 70533
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6516188979148865,
      "learning_rate": 6.751506794633827e-05,
      "loss": 1.5389,
      "step": 70534
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.668003261089325,
      "learning_rate": 6.750846211127219e-05,
      "loss": 1.5525,
      "step": 70535
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6504318714141846,
      "learning_rate": 6.750185655841669e-05,
      "loss": 1.4931,
      "step": 70536
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6513268351554871,
      "learning_rate": 6.749525128777964e-05,
      "loss": 1.5787,
      "step": 70537
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6306972503662109,
      "learning_rate": 6.748864629936903e-05,
      "loss": 1.5362,
      "step": 70538
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.627122700214386,
      "learning_rate": 6.748204159319303e-05,
      "loss": 1.5077,
      "step": 70539
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6260148882865906,
      "learning_rate": 6.747543716925948e-05,
      "loss": 1.5645,
      "step": 70540
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6465757489204407,
      "learning_rate": 6.746883302757659e-05,
      "loss": 1.5186,
      "step": 70541
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6229060292243958,
      "learning_rate": 6.746222916815219e-05,
      "loss": 1.505,
      "step": 70542
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.627907931804657,
      "learning_rate": 6.745562559099446e-05,
      "loss": 1.5109,
      "step": 70543
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6438113451004028,
      "learning_rate": 6.744902229611131e-05,
      "loss": 1.5398,
      "step": 70544
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6489407420158386,
      "learning_rate": 6.744241928351075e-05,
      "loss": 1.5479,
      "step": 70545
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.654968798160553,
      "learning_rate": 6.743581655320088e-05,
      "loss": 1.5819,
      "step": 70546
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6718868017196655,
      "learning_rate": 6.742921410518957e-05,
      "loss": 1.5921,
      "step": 70547
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6480746865272522,
      "learning_rate": 6.742261193948503e-05,
      "loss": 1.4853,
      "step": 70548
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.644238293170929,
      "learning_rate": 6.741601005609516e-05,
      "loss": 1.5421,
      "step": 70549
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6392876505851746,
      "learning_rate": 6.740940845502789e-05,
      "loss": 1.5527,
      "step": 70550
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6570757627487183,
      "learning_rate": 6.740280713629141e-05,
      "loss": 1.5203,
      "step": 70551
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6381641626358032,
      "learning_rate": 6.739620609989358e-05,
      "loss": 1.5401,
      "step": 70552
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6643975377082825,
      "learning_rate": 6.738960534584257e-05,
      "loss": 1.5501,
      "step": 70553
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6334574222564697,
      "learning_rate": 6.738300487414624e-05,
      "loss": 1.5702,
      "step": 70554
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6396782398223877,
      "learning_rate": 6.73764046848127e-05,
      "loss": 1.4423,
      "step": 70555
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6309957504272461,
      "learning_rate": 6.736980477784995e-05,
      "loss": 1.5499,
      "step": 70556
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.643386721611023,
      "learning_rate": 6.736320515326593e-05,
      "loss": 1.5045,
      "step": 70557
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6443259119987488,
      "learning_rate": 6.735660581106875e-05,
      "loss": 1.5444,
      "step": 70558
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6527681350708008,
      "learning_rate": 6.735000675126639e-05,
      "loss": 1.4994,
      "step": 70559
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6196699142456055,
      "learning_rate": 6.734340797386675e-05,
      "loss": 1.5041,
      "step": 70560
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.65931636095047,
      "learning_rate": 6.733680947887794e-05,
      "loss": 1.4688,
      "step": 70561
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.638189971446991,
      "learning_rate": 6.733021126630802e-05,
      "loss": 1.543,
      "step": 70562
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6186897158622742,
      "learning_rate": 6.732361333616498e-05,
      "loss": 1.6054,
      "step": 70563
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6512581706047058,
      "learning_rate": 6.731701568845668e-05,
      "loss": 1.5063,
      "step": 70564
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6415632963180542,
      "learning_rate": 6.731041832319133e-05,
      "loss": 1.5502,
      "step": 70565
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6503381133079529,
      "learning_rate": 6.730382124037687e-05,
      "loss": 1.5722,
      "step": 70566
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.663095235824585,
      "learning_rate": 6.729722444002116e-05,
      "loss": 1.5164,
      "step": 70567
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6170800924301147,
      "learning_rate": 6.729062792213233e-05,
      "loss": 1.5547,
      "step": 70568
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6374295353889465,
      "learning_rate": 6.728403168671859e-05,
      "loss": 1.5056,
      "step": 70569
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6553668975830078,
      "learning_rate": 6.727743573378758e-05,
      "loss": 1.5241,
      "step": 70570
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6521028876304626,
      "learning_rate": 6.727084006334747e-05,
      "loss": 1.464,
      "step": 70571
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6180018186569214,
      "learning_rate": 6.72642446754063e-05,
      "loss": 1.4492,
      "step": 70572
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6491084098815918,
      "learning_rate": 6.725764956997211e-05,
      "loss": 1.4829,
      "step": 70573
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6558382511138916,
      "learning_rate": 6.725105474705274e-05,
      "loss": 1.5592,
      "step": 70574
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6435303688049316,
      "learning_rate": 6.72444602066563e-05,
      "loss": 1.5268,
      "step": 70575
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6356817483901978,
      "learning_rate": 6.723786594879094e-05,
      "loss": 1.5373,
      "step": 70576
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6486197710037231,
      "learning_rate": 6.723127197346435e-05,
      "loss": 1.4895,
      "step": 70577
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6649351119995117,
      "learning_rate": 6.72246782806847e-05,
      "loss": 1.5564,
      "step": 70578
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6498597264289856,
      "learning_rate": 6.721808487046007e-05,
      "loss": 1.5312,
      "step": 70579
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6516017913818359,
      "learning_rate": 6.721149174279841e-05,
      "loss": 1.5529,
      "step": 70580
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6275154948234558,
      "learning_rate": 6.720489889770759e-05,
      "loss": 1.5075,
      "step": 70581
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6251936554908752,
      "learning_rate": 6.719830633519575e-05,
      "loss": 1.454,
      "step": 70582
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.65452641248703,
      "learning_rate": 6.719171405527101e-05,
      "loss": 1.5709,
      "step": 70583
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.639016330242157,
      "learning_rate": 6.718512205794104e-05,
      "loss": 1.5085,
      "step": 70584
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6375525593757629,
      "learning_rate": 6.717853034321406e-05,
      "loss": 1.5202,
      "step": 70585
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6501662731170654,
      "learning_rate": 6.717193891109813e-05,
      "loss": 1.5666,
      "step": 70586
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6518431305885315,
      "learning_rate": 6.716534776160114e-05,
      "loss": 1.4884,
      "step": 70587
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6440088748931885,
      "learning_rate": 6.715875689473104e-05,
      "loss": 1.5336,
      "step": 70588
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6259472370147705,
      "learning_rate": 6.715216631049598e-05,
      "loss": 1.5775,
      "step": 70589
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.64705890417099,
      "learning_rate": 6.714557600890387e-05,
      "loss": 1.597,
      "step": 70590
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6304011940956116,
      "learning_rate": 6.713898598996266e-05,
      "loss": 1.584,
      "step": 70591
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.635817289352417,
      "learning_rate": 6.713239625368037e-05,
      "loss": 1.5087,
      "step": 70592
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6227149963378906,
      "learning_rate": 6.712580680006518e-05,
      "loss": 1.5123,
      "step": 70593
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6482371091842651,
      "learning_rate": 6.71192176291249e-05,
      "loss": 1.5229,
      "step": 70594
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6278749108314514,
      "learning_rate": 6.711262874086752e-05,
      "loss": 1.4761,
      "step": 70595
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6336110830307007,
      "learning_rate": 6.710604013530119e-05,
      "loss": 1.5613,
      "step": 70596
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.654608428478241,
      "learning_rate": 6.70994518124338e-05,
      "loss": 1.5098,
      "step": 70597
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6417895555496216,
      "learning_rate": 6.709286377227326e-05,
      "loss": 1.5481,
      "step": 70598
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6285053491592407,
      "learning_rate": 6.708627601482773e-05,
      "loss": 1.4997,
      "step": 70599
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6490796208381653,
      "learning_rate": 6.70796885401051e-05,
      "loss": 1.5986,
      "step": 70600
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6232030987739563,
      "learning_rate": 6.70731013481135e-05,
      "loss": 1.5639,
      "step": 70601
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6582671403884888,
      "learning_rate": 6.706651443886072e-05,
      "loss": 1.5524,
      "step": 70602
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6265548467636108,
      "learning_rate": 6.705992781235498e-05,
      "loss": 1.5553,
      "step": 70603
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6562333703041077,
      "learning_rate": 6.705334146860412e-05,
      "loss": 1.5779,
      "step": 70604
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6345962882041931,
      "learning_rate": 6.704675540761613e-05,
      "loss": 1.5141,
      "step": 70605
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6615971326828003,
      "learning_rate": 6.704016962939913e-05,
      "loss": 1.5714,
      "step": 70606
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6484708189964294,
      "learning_rate": 6.703358413396096e-05,
      "loss": 1.589,
      "step": 70607
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6261828541755676,
      "learning_rate": 6.702699892130978e-05,
      "loss": 1.4992,
      "step": 70608
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6691040396690369,
      "learning_rate": 6.70204139914535e-05,
      "loss": 1.5012,
      "step": 70609
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6578559875488281,
      "learning_rate": 6.701382934440002e-05,
      "loss": 1.5608,
      "step": 70610
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6445578932762146,
      "learning_rate": 6.700724498015752e-05,
      "loss": 1.5176,
      "step": 70611
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6237332224845886,
      "learning_rate": 6.700066089873379e-05,
      "loss": 1.4529,
      "step": 70612
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6379870772361755,
      "learning_rate": 6.699407710013701e-05,
      "loss": 1.5639,
      "step": 70613
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6585556864738464,
      "learning_rate": 6.698749358437503e-05,
      "loss": 1.6094,
      "step": 70614
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6555494070053101,
      "learning_rate": 6.698091035145596e-05,
      "loss": 1.4832,
      "step": 70615
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6533138751983643,
      "learning_rate": 6.697432740138774e-05,
      "loss": 1.5132,
      "step": 70616
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6499656438827515,
      "learning_rate": 6.696774473417825e-05,
      "loss": 1.574,
      "step": 70617
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6507912874221802,
      "learning_rate": 6.69611623498356e-05,
      "loss": 1.5558,
      "step": 70618
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6445267796516418,
      "learning_rate": 6.695458024836793e-05,
      "loss": 1.4862,
      "step": 70619
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6485142111778259,
      "learning_rate": 6.694799842978288e-05,
      "loss": 1.5541,
      "step": 70620
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6337729096412659,
      "learning_rate": 6.694141689408864e-05,
      "loss": 1.5452,
      "step": 70621
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6312383413314819,
      "learning_rate": 6.693483564129327e-05,
      "loss": 1.4991,
      "step": 70622
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6437800526618958,
      "learning_rate": 6.692825467140463e-05,
      "loss": 1.4913,
      "step": 70623
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6368443369865417,
      "learning_rate": 6.692167398443073e-05,
      "loss": 1.5148,
      "step": 70624
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6419593095779419,
      "learning_rate": 6.69150935803795e-05,
      "loss": 1.5331,
      "step": 70625
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6301853656768799,
      "learning_rate": 6.690851345925922e-05,
      "loss": 1.483,
      "step": 70626
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6545732021331787,
      "learning_rate": 6.690193362107748e-05,
      "loss": 1.503,
      "step": 70627
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6444090008735657,
      "learning_rate": 6.689535406584243e-05,
      "loss": 1.4683,
      "step": 70628
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6504892706871033,
      "learning_rate": 6.688877479356218e-05,
      "loss": 1.4943,
      "step": 70629
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6730054020881653,
      "learning_rate": 6.688219580424462e-05,
      "loss": 1.5627,
      "step": 70630
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6484062075614929,
      "learning_rate": 6.68756170978976e-05,
      "loss": 1.5069,
      "step": 70631
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6347218751907349,
      "learning_rate": 6.686903867452926e-05,
      "loss": 1.4849,
      "step": 70632
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6748399138450623,
      "learning_rate": 6.686246053414772e-05,
      "loss": 1.5554,
      "step": 70633
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6177052855491638,
      "learning_rate": 6.685588267676064e-05,
      "loss": 1.5466,
      "step": 70634
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6496764421463013,
      "learning_rate": 6.684930510237618e-05,
      "loss": 1.5888,
      "step": 70635
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6509228348731995,
      "learning_rate": 6.684272781100238e-05,
      "loss": 1.5547,
      "step": 70636
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6549546122550964,
      "learning_rate": 6.683615080264714e-05,
      "loss": 1.51,
      "step": 70637
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6281007528305054,
      "learning_rate": 6.682957407731838e-05,
      "loss": 1.5662,
      "step": 70638
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6340534090995789,
      "learning_rate": 6.682299763502417e-05,
      "loss": 1.5939,
      "step": 70639
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6332031488418579,
      "learning_rate": 6.681642147577265e-05,
      "loss": 1.4769,
      "step": 70640
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6417350172996521,
      "learning_rate": 6.680984559957146e-05,
      "loss": 1.5185,
      "step": 70641
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6481499671936035,
      "learning_rate": 6.680327000642877e-05,
      "loss": 1.4838,
      "step": 70642
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6455207467079163,
      "learning_rate": 6.679669469635261e-05,
      "loss": 1.5559,
      "step": 70643
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6815203428268433,
      "learning_rate": 6.679011966935093e-05,
      "loss": 1.5145,
      "step": 70644
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6299169063568115,
      "learning_rate": 6.67835449254316e-05,
      "loss": 1.4456,
      "step": 70645
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.630181074142456,
      "learning_rate": 6.677697046460275e-05,
      "loss": 1.519,
      "step": 70646
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6219125986099243,
      "learning_rate": 6.677039628687228e-05,
      "loss": 1.5228,
      "step": 70647
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6396068334579468,
      "learning_rate": 6.676382239224812e-05,
      "loss": 1.51,
      "step": 70648
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6681860089302063,
      "learning_rate": 6.675724878073833e-05,
      "loss": 1.5486,
      "step": 70649
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6399093866348267,
      "learning_rate": 6.675067545235092e-05,
      "loss": 1.6108,
      "step": 70650
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6922107338905334,
      "learning_rate": 6.674410240709387e-05,
      "loss": 1.5243,
      "step": 70651
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6343914866447449,
      "learning_rate": 6.6737529644975e-05,
      "loss": 1.5743,
      "step": 70652
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6604419946670532,
      "learning_rate": 6.673095716600247e-05,
      "loss": 1.4649,
      "step": 70653
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6313987970352173,
      "learning_rate": 6.67243849701842e-05,
      "loss": 1.5284,
      "step": 70654
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6292351484298706,
      "learning_rate": 6.671781305752809e-05,
      "loss": 1.6109,
      "step": 70655
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6674640774726868,
      "learning_rate": 6.671124142804224e-05,
      "loss": 1.5041,
      "step": 70656
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6289311051368713,
      "learning_rate": 6.67046700817345e-05,
      "loss": 1.4711,
      "step": 70657
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6364591717720032,
      "learning_rate": 6.669809901861297e-05,
      "loss": 1.5045,
      "step": 70658
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6190838813781738,
      "learning_rate": 6.669152823868554e-05,
      "loss": 1.5273,
      "step": 70659
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6377304792404175,
      "learning_rate": 6.668495774196027e-05,
      "loss": 1.4759,
      "step": 70660
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6496246457099915,
      "learning_rate": 6.66783875284451e-05,
      "loss": 1.4741,
      "step": 70661
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6620309352874756,
      "learning_rate": 6.667181759814787e-05,
      "loss": 1.5374,
      "step": 70662
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6662762761116028,
      "learning_rate": 6.666524795107678e-05,
      "loss": 1.5742,
      "step": 70663
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6587130427360535,
      "learning_rate": 6.665867858723963e-05,
      "loss": 1.5349,
      "step": 70664
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6369993686676025,
      "learning_rate": 6.665210950664454e-05,
      "loss": 1.5369,
      "step": 70665
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6571141481399536,
      "learning_rate": 6.664554070929938e-05,
      "loss": 1.466,
      "step": 70666
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6459793448448181,
      "learning_rate": 6.66389721952121e-05,
      "loss": 1.4871,
      "step": 70667
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6386420130729675,
      "learning_rate": 6.66324039643908e-05,
      "loss": 1.509,
      "step": 70668
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6285816431045532,
      "learning_rate": 6.662583601684327e-05,
      "loss": 1.5053,
      "step": 70669
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6102156639099121,
      "learning_rate": 6.66192683525777e-05,
      "loss": 1.5976,
      "step": 70670
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6327255368232727,
      "learning_rate": 6.661270097160187e-05,
      "loss": 1.4715,
      "step": 70671
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6441588401794434,
      "learning_rate": 6.66061338739239e-05,
      "loss": 1.5509,
      "step": 70672
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6218520402908325,
      "learning_rate": 6.659956705955169e-05,
      "loss": 1.5233,
      "step": 70673
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6306105852127075,
      "learning_rate": 6.659300052849316e-05,
      "loss": 1.5359,
      "step": 70674
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6095409393310547,
      "learning_rate": 6.658643428075638e-05,
      "loss": 1.5164,
      "step": 70675
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6683606505393982,
      "learning_rate": 6.657986831634931e-05,
      "loss": 1.5939,
      "step": 70676
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6337378025054932,
      "learning_rate": 6.657330263527978e-05,
      "loss": 1.5057,
      "step": 70677
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6185516119003296,
      "learning_rate": 6.65667372375559e-05,
      "loss": 1.5621,
      "step": 70678
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6374214887619019,
      "learning_rate": 6.656017212318566e-05,
      "loss": 1.5513,
      "step": 70679
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6456249356269836,
      "learning_rate": 6.6553607292177e-05,
      "loss": 1.5399,
      "step": 70680
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6501897573471069,
      "learning_rate": 6.654704274453775e-05,
      "loss": 1.5382,
      "step": 70681
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6294741630554199,
      "learning_rate": 6.65404784802761e-05,
      "loss": 1.553,
      "step": 70682
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6424869894981384,
      "learning_rate": 6.65339144993999e-05,
      "loss": 1.4423,
      "step": 70683
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6555085778236389,
      "learning_rate": 6.652735080191702e-05,
      "loss": 1.5725,
      "step": 70684
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.649688184261322,
      "learning_rate": 6.652078738783556e-05,
      "loss": 1.562,
      "step": 70685
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6406329274177551,
      "learning_rate": 6.651422425716363e-05,
      "loss": 1.4907,
      "step": 70686
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6235786080360413,
      "learning_rate": 6.650766140990889e-05,
      "loss": 1.4806,
      "step": 70687
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6533710360527039,
      "learning_rate": 6.65010988460794e-05,
      "loss": 1.5794,
      "step": 70688
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6416255831718445,
      "learning_rate": 6.649453656568327e-05,
      "loss": 1.5767,
      "step": 70689
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6412657499313354,
      "learning_rate": 6.648797456872836e-05,
      "loss": 1.5791,
      "step": 70690
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6618717312812805,
      "learning_rate": 6.648141285522259e-05,
      "loss": 1.509,
      "step": 70691
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6157562732696533,
      "learning_rate": 6.647485142517396e-05,
      "loss": 1.4167,
      "step": 70692
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.662375807762146,
      "learning_rate": 6.646829027859062e-05,
      "loss": 1.5613,
      "step": 70693
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.644568145275116,
      "learning_rate": 6.646172941548019e-05,
      "loss": 1.4601,
      "step": 70694
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6301099061965942,
      "learning_rate": 6.64551688358508e-05,
      "loss": 1.5401,
      "step": 70695
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6372356414794922,
      "learning_rate": 6.644860853971055e-05,
      "loss": 1.527,
      "step": 70696
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6446244716644287,
      "learning_rate": 6.644204852706725e-05,
      "loss": 1.4815,
      "step": 70697
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6379168629646301,
      "learning_rate": 6.64354887979288e-05,
      "loss": 1.4874,
      "step": 70698
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6508936882019043,
      "learning_rate": 6.642892935230324e-05,
      "loss": 1.5092,
      "step": 70699
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6426085829734802,
      "learning_rate": 6.642237019019875e-05,
      "loss": 1.4672,
      "step": 70700
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6215065121650696,
      "learning_rate": 6.641581131162288e-05,
      "loss": 1.4708,
      "step": 70701
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6440072655677795,
      "learning_rate": 6.640925271658383e-05,
      "loss": 1.51,
      "step": 70702
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6160266995429993,
      "learning_rate": 6.640269440508959e-05,
      "loss": 1.5159,
      "step": 70703
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6292675137519836,
      "learning_rate": 6.639613637714809e-05,
      "loss": 1.4934,
      "step": 70704
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6745342016220093,
      "learning_rate": 6.638957863276714e-05,
      "loss": 1.5386,
      "step": 70705
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6386744976043701,
      "learning_rate": 6.638302117195491e-05,
      "loss": 1.4401,
      "step": 70706
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6227605938911438,
      "learning_rate": 6.63764639947193e-05,
      "loss": 1.4953,
      "step": 70707
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6335155963897705,
      "learning_rate": 6.636990710106813e-05,
      "loss": 1.4752,
      "step": 70708
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6359270215034485,
      "learning_rate": 6.636335049100948e-05,
      "loss": 1.5377,
      "step": 70709
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6546197533607483,
      "learning_rate": 6.635679416455138e-05,
      "loss": 1.5414,
      "step": 70710
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6309356689453125,
      "learning_rate": 6.63502381217017e-05,
      "loss": 1.6053,
      "step": 70711
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.647695004940033,
      "learning_rate": 6.634368236246833e-05,
      "loss": 1.5192,
      "step": 70712
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6395103931427002,
      "learning_rate": 6.633712688685938e-05,
      "loss": 1.4949,
      "step": 70713
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6595430374145508,
      "learning_rate": 6.633057169488276e-05,
      "loss": 1.5557,
      "step": 70714
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6660250425338745,
      "learning_rate": 6.632401678654626e-05,
      "loss": 1.572,
      "step": 70715
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6604991555213928,
      "learning_rate": 6.631746216185808e-05,
      "loss": 1.5537,
      "step": 70716
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6088190674781799,
      "learning_rate": 6.6310907820826e-05,
      "loss": 1.4743,
      "step": 70717
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6399518847465515,
      "learning_rate": 6.630435376345811e-05,
      "loss": 1.4864,
      "step": 70718
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6238512396812439,
      "learning_rate": 6.62977999897622e-05,
      "loss": 1.5514,
      "step": 70719
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6154825091362,
      "learning_rate": 6.629124649974644e-05,
      "loss": 1.5343,
      "step": 70720
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6483119130134583,
      "learning_rate": 6.628469329341869e-05,
      "loss": 1.4757,
      "step": 70721
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6508169770240784,
      "learning_rate": 6.627814037078678e-05,
      "loss": 1.4873,
      "step": 70722
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6270191669464111,
      "learning_rate": 6.627158773185884e-05,
      "loss": 1.4422,
      "step": 70723
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.647887110710144,
      "learning_rate": 6.626503537664267e-05,
      "loss": 1.5912,
      "step": 70724
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6350734829902649,
      "learning_rate": 6.625848330514642e-05,
      "loss": 1.4869,
      "step": 70725
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6277298927307129,
      "learning_rate": 6.62519315173779e-05,
      "loss": 1.4357,
      "step": 70726
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6112639904022217,
      "learning_rate": 6.624538001334502e-05,
      "loss": 1.48,
      "step": 70727
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6646656394004822,
      "learning_rate": 6.62388287930559e-05,
      "loss": 1.5265,
      "step": 70728
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6431562304496765,
      "learning_rate": 6.62322778565183e-05,
      "loss": 1.4689,
      "step": 70729
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6515089273452759,
      "learning_rate": 6.622572720374035e-05,
      "loss": 1.4858,
      "step": 70730
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6618008017539978,
      "learning_rate": 6.621917683472988e-05,
      "loss": 1.5591,
      "step": 70731
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6555326581001282,
      "learning_rate": 6.621262674949495e-05,
      "loss": 1.5431,
      "step": 70732
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6416571140289307,
      "learning_rate": 6.62060769480434e-05,
      "loss": 1.4995,
      "step": 70733
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6237550377845764,
      "learning_rate": 6.619952743038319e-05,
      "loss": 1.5136,
      "step": 70734
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.647493302822113,
      "learning_rate": 6.61929781965223e-05,
      "loss": 1.517,
      "step": 70735
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6343749165534973,
      "learning_rate": 6.618642924646885e-05,
      "loss": 1.5081,
      "step": 70736
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6589094996452332,
      "learning_rate": 6.617988058023043e-05,
      "loss": 1.5253,
      "step": 70737
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6862643957138062,
      "learning_rate": 6.617333219781521e-05,
      "loss": 1.47,
      "step": 70738
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6573466062545776,
      "learning_rate": 6.616678409923118e-05,
      "loss": 1.5321,
      "step": 70739
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6585206389427185,
      "learning_rate": 6.616023628448622e-05,
      "loss": 1.5218,
      "step": 70740
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6554133892059326,
      "learning_rate": 6.615368875358818e-05,
      "loss": 1.4558,
      "step": 70741
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6802910566329956,
      "learning_rate": 6.614714150654516e-05,
      "loss": 1.5163,
      "step": 70742
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6318578720092773,
      "learning_rate": 6.614059454336518e-05,
      "loss": 1.541,
      "step": 70743
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6707921624183655,
      "learning_rate": 6.613404786405589e-05,
      "loss": 1.4803,
      "step": 70744
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6480763554573059,
      "learning_rate": 6.612750146862544e-05,
      "loss": 1.5291,
      "step": 70745
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6498568654060364,
      "learning_rate": 6.612095535708179e-05,
      "loss": 1.541,
      "step": 70746
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6560796499252319,
      "learning_rate": 6.611440952943286e-05,
      "loss": 1.5421,
      "step": 70747
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6445447206497192,
      "learning_rate": 6.610786398568648e-05,
      "loss": 1.5133,
      "step": 70748
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6441413164138794,
      "learning_rate": 6.61013187258507e-05,
      "loss": 1.4911,
      "step": 70749
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6360402703285217,
      "learning_rate": 6.609477374993363e-05,
      "loss": 1.5369,
      "step": 70750
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6432127356529236,
      "learning_rate": 6.608822905794288e-05,
      "loss": 1.507,
      "step": 70751
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6345657706260681,
      "learning_rate": 6.608168464988654e-05,
      "loss": 1.4995,
      "step": 70752
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6450381278991699,
      "learning_rate": 6.607514052577263e-05,
      "loss": 1.4495,
      "step": 70753
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6378142833709717,
      "learning_rate": 6.606859668560905e-05,
      "loss": 1.5408,
      "step": 70754
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6550623774528503,
      "learning_rate": 6.606205312940367e-05,
      "loss": 1.5078,
      "step": 70755
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6721067428588867,
      "learning_rate": 6.605550985716447e-05,
      "loss": 1.5464,
      "step": 70756
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6075975894927979,
      "learning_rate": 6.604896686889955e-05,
      "loss": 1.5339,
      "step": 70757
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6385044455528259,
      "learning_rate": 6.604242416461659e-05,
      "loss": 1.615,
      "step": 70758
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6629639863967896,
      "learning_rate": 6.60358817443236e-05,
      "loss": 1.5518,
      "step": 70759
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.658470094203949,
      "learning_rate": 6.602933960802871e-05,
      "loss": 1.5586,
      "step": 70760
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6489006280899048,
      "learning_rate": 6.60227977557397e-05,
      "loss": 1.4574,
      "step": 70761
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6452512741088867,
      "learning_rate": 6.601625618746447e-05,
      "loss": 1.6009,
      "step": 70762
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6492103934288025,
      "learning_rate": 6.60097149032111e-05,
      "loss": 1.558,
      "step": 70763
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6475545763969421,
      "learning_rate": 6.600317390298748e-05,
      "loss": 1.6011,
      "step": 70764
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6286518573760986,
      "learning_rate": 6.599663318680145e-05,
      "loss": 1.4792,
      "step": 70765
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6472459435462952,
      "learning_rate": 6.5990092754661e-05,
      "loss": 1.4867,
      "step": 70766
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6308192014694214,
      "learning_rate": 6.598355260657421e-05,
      "loss": 1.4672,
      "step": 70767
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6312589049339294,
      "learning_rate": 6.597701274254889e-05,
      "loss": 1.5899,
      "step": 70768
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6255914568901062,
      "learning_rate": 6.59704731625929e-05,
      "loss": 1.517,
      "step": 70769
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6710821986198425,
      "learning_rate": 6.596393386671436e-05,
      "loss": 1.5484,
      "step": 70770
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6628392338752747,
      "learning_rate": 6.595739485492113e-05,
      "loss": 1.589,
      "step": 70771
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6612755060195923,
      "learning_rate": 6.595085612722108e-05,
      "loss": 1.5643,
      "step": 70772
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6384426951408386,
      "learning_rate": 6.594431768362222e-05,
      "loss": 1.453,
      "step": 70773
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6884782314300537,
      "learning_rate": 6.593777952413245e-05,
      "loss": 1.563,
      "step": 70774
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6466847658157349,
      "learning_rate": 6.59312416487598e-05,
      "loss": 1.5241,
      "step": 70775
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6375031471252441,
      "learning_rate": 6.592470405751204e-05,
      "loss": 1.5013,
      "step": 70776
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6610342264175415,
      "learning_rate": 6.591816675039728e-05,
      "loss": 1.5299,
      "step": 70777
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.644929051399231,
      "learning_rate": 6.591162972742338e-05,
      "loss": 1.5271,
      "step": 70778
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6293237805366516,
      "learning_rate": 6.590509298859819e-05,
      "loss": 1.5665,
      "step": 70779
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6641260385513306,
      "learning_rate": 6.589855653392982e-05,
      "loss": 1.533,
      "step": 70780
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6442751288414001,
      "learning_rate": 6.589202036342599e-05,
      "loss": 1.6195,
      "step": 70781
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6257754564285278,
      "learning_rate": 6.588548447709487e-05,
      "loss": 1.5036,
      "step": 70782
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6603341102600098,
      "learning_rate": 6.587894887494427e-05,
      "loss": 1.5253,
      "step": 70783
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6498765349388123,
      "learning_rate": 6.587241355698204e-05,
      "loss": 1.5218,
      "step": 70784
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6421315670013428,
      "learning_rate": 6.586587852321627e-05,
      "loss": 1.4509,
      "step": 70785
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6574112176895142,
      "learning_rate": 6.585934377365477e-05,
      "loss": 1.4971,
      "step": 70786
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.64681476354599,
      "learning_rate": 6.585280930830563e-05,
      "loss": 1.5213,
      "step": 70787
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6349380612373352,
      "learning_rate": 6.584627512717655e-05,
      "loss": 1.5548,
      "step": 70788
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6534901857376099,
      "learning_rate": 6.583974123027569e-05,
      "loss": 1.5361,
      "step": 70789
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6488812565803528,
      "learning_rate": 6.583320761761089e-05,
      "loss": 1.5014,
      "step": 70790
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6549826264381409,
      "learning_rate": 6.582667428918996e-05,
      "loss": 1.607,
      "step": 70791
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6374196410179138,
      "learning_rate": 6.582014124502105e-05,
      "loss": 1.487,
      "step": 70792
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6438879370689392,
      "learning_rate": 6.581360848511199e-05,
      "loss": 1.5167,
      "step": 70793
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6556472778320312,
      "learning_rate": 6.580707600947061e-05,
      "loss": 1.6112,
      "step": 70794
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6824415326118469,
      "learning_rate": 6.580054381810495e-05,
      "loss": 1.5927,
      "step": 70795
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6790048480033875,
      "learning_rate": 6.5794011911023e-05,
      "loss": 1.4757,
      "step": 70796
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6505872011184692,
      "learning_rate": 6.57874802882326e-05,
      "loss": 1.5661,
      "step": 70797
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6618013978004456,
      "learning_rate": 6.578094894974159e-05,
      "loss": 1.549,
      "step": 70798
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6659661531448364,
      "learning_rate": 6.577441789555813e-05,
      "loss": 1.4899,
      "step": 70799
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6179871559143066,
      "learning_rate": 6.576788712568996e-05,
      "loss": 1.5499,
      "step": 70800
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6499170660972595,
      "learning_rate": 6.5761356640145e-05,
      "loss": 1.564,
      "step": 70801
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6619425415992737,
      "learning_rate": 6.575482643893127e-05,
      "loss": 1.5329,
      "step": 70802
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6322233080863953,
      "learning_rate": 6.574829652205681e-05,
      "loss": 1.5715,
      "step": 70803
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6494269967079163,
      "learning_rate": 6.574176688952924e-05,
      "loss": 1.5081,
      "step": 70804
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6440090537071228,
      "learning_rate": 6.573523754135663e-05,
      "loss": 1.5892,
      "step": 70805
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6656937003135681,
      "learning_rate": 6.572870847754703e-05,
      "loss": 1.479,
      "step": 70806
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6295377612113953,
      "learning_rate": 6.572217969810822e-05,
      "loss": 1.4999,
      "step": 70807
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6543927192687988,
      "learning_rate": 6.571565120304814e-05,
      "loss": 1.574,
      "step": 70808
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6238755583763123,
      "learning_rate": 6.57091229923747e-05,
      "loss": 1.4778,
      "step": 70809
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6322191953659058,
      "learning_rate": 6.570259506609604e-05,
      "loss": 1.5029,
      "step": 70810
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6858433485031128,
      "learning_rate": 6.569606742421973e-05,
      "loss": 1.5602,
      "step": 70811
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6620903015136719,
      "learning_rate": 6.568954006675389e-05,
      "loss": 1.4947,
      "step": 70812
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6484878659248352,
      "learning_rate": 6.568301299370648e-05,
      "loss": 1.4465,
      "step": 70813
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6518317461013794,
      "learning_rate": 6.567648620508542e-05,
      "loss": 1.5093,
      "step": 70814
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6604348421096802,
      "learning_rate": 6.566995970089846e-05,
      "loss": 1.5705,
      "step": 70815
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6420015096664429,
      "learning_rate": 6.566343348115365e-05,
      "loss": 1.5576,
      "step": 70816
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6473802328109741,
      "learning_rate": 6.565690754585906e-05,
      "loss": 1.5244,
      "step": 70817
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.651584804058075,
      "learning_rate": 6.56503818950223e-05,
      "loss": 1.4938,
      "step": 70818
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6524328589439392,
      "learning_rate": 6.564385652865141e-05,
      "loss": 1.5685,
      "step": 70819
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6591872572898865,
      "learning_rate": 6.563733144675448e-05,
      "loss": 1.5669,
      "step": 70820
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6434938311576843,
      "learning_rate": 6.563080664933929e-05,
      "loss": 1.5353,
      "step": 70821
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6507667899131775,
      "learning_rate": 6.562428213641366e-05,
      "loss": 1.4871,
      "step": 70822
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6266012191772461,
      "learning_rate": 6.561775790798571e-05,
      "loss": 1.4604,
      "step": 70823
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6531879901885986,
      "learning_rate": 6.56112339640633e-05,
      "loss": 1.5478,
      "step": 70824
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6452118754386902,
      "learning_rate": 6.560471030465418e-05,
      "loss": 1.5268,
      "step": 70825
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6476699709892273,
      "learning_rate": 6.559818692976644e-05,
      "loss": 1.5219,
      "step": 70826
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.66131991147995,
      "learning_rate": 6.559166383940805e-05,
      "loss": 1.5845,
      "step": 70827
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6752804517745972,
      "learning_rate": 6.55851410335868e-05,
      "loss": 1.4881,
      "step": 70828
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6414350867271423,
      "learning_rate": 6.557861851231062e-05,
      "loss": 1.5181,
      "step": 70829
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6325154304504395,
      "learning_rate": 6.557209627558752e-05,
      "loss": 1.5426,
      "step": 70830
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6659764647483826,
      "learning_rate": 6.556557432342535e-05,
      "loss": 1.5462,
      "step": 70831
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.622681200504303,
      "learning_rate": 6.555905265583195e-05,
      "loss": 1.5281,
      "step": 70832
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6186143159866333,
      "learning_rate": 6.555253127281538e-05,
      "loss": 1.5356,
      "step": 70833
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6489244103431702,
      "learning_rate": 6.554601017438344e-05,
      "loss": 1.5602,
      "step": 70834
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6504964828491211,
      "learning_rate": 6.553948936054419e-05,
      "loss": 1.5447,
      "step": 70835
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6292309165000916,
      "learning_rate": 6.553296883130534e-05,
      "loss": 1.4766,
      "step": 70836
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6484954357147217,
      "learning_rate": 6.552644858667499e-05,
      "loss": 1.4981,
      "step": 70837
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6233620643615723,
      "learning_rate": 6.5519928626661e-05,
      "loss": 1.5794,
      "step": 70838
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6277792453765869,
      "learning_rate": 6.551340895127121e-05,
      "loss": 1.4909,
      "step": 70839
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6381354928016663,
      "learning_rate": 6.550688956051364e-05,
      "loss": 1.5913,
      "step": 70840
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6426549553871155,
      "learning_rate": 6.55003704543961e-05,
      "loss": 1.5309,
      "step": 70841
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6352905631065369,
      "learning_rate": 6.54938516329266e-05,
      "loss": 1.5477,
      "step": 70842
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.647034764289856,
      "learning_rate": 6.548733309611305e-05,
      "loss": 1.4632,
      "step": 70843
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6673402190208435,
      "learning_rate": 6.548081484396325e-05,
      "loss": 1.5599,
      "step": 70844
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6628128886222839,
      "learning_rate": 6.547429687648516e-05,
      "loss": 1.56,
      "step": 70845
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6530842781066895,
      "learning_rate": 6.54677791936868e-05,
      "loss": 1.4965,
      "step": 70846
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6572499871253967,
      "learning_rate": 6.5461261795576e-05,
      "loss": 1.5274,
      "step": 70847
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6520565748214722,
      "learning_rate": 6.545474468216061e-05,
      "loss": 1.5887,
      "step": 70848
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6501427888870239,
      "learning_rate": 6.544822785344865e-05,
      "loss": 1.524,
      "step": 70849
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6389335989952087,
      "learning_rate": 6.5441711309448e-05,
      "loss": 1.5614,
      "step": 70850
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6369893550872803,
      "learning_rate": 6.543519505016646e-05,
      "loss": 1.5392,
      "step": 70851
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6374622583389282,
      "learning_rate": 6.542867907561205e-05,
      "loss": 1.5256,
      "step": 70852
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6448516249656677,
      "learning_rate": 6.542216338579282e-05,
      "loss": 1.51,
      "step": 70853
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6491739153862,
      "learning_rate": 6.541564798071634e-05,
      "loss": 1.5309,
      "step": 70854
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6860818266868591,
      "learning_rate": 6.540913286039074e-05,
      "loss": 1.4658,
      "step": 70855
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6500192880630493,
      "learning_rate": 6.540261802482391e-05,
      "loss": 1.5059,
      "step": 70856
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6262723207473755,
      "learning_rate": 6.539610347402378e-05,
      "loss": 1.5258,
      "step": 70857
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6550365090370178,
      "learning_rate": 6.53895892079981e-05,
      "loss": 1.5205,
      "step": 70858
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6096045970916748,
      "learning_rate": 6.538307522675493e-05,
      "loss": 1.4588,
      "step": 70859
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.630251944065094,
      "learning_rate": 6.537656153030226e-05,
      "loss": 1.4764,
      "step": 70860
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6357669830322266,
      "learning_rate": 6.537004811864772e-05,
      "loss": 1.539,
      "step": 70861
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6359792947769165,
      "learning_rate": 6.53635349917994e-05,
      "loss": 1.5097,
      "step": 70862
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6490395665168762,
      "learning_rate": 6.535702214976522e-05,
      "loss": 1.5106,
      "step": 70863
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.64599609375,
      "learning_rate": 6.535050959255308e-05,
      "loss": 1.5262,
      "step": 70864
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.667339026927948,
      "learning_rate": 6.534399732017073e-05,
      "loss": 1.5794,
      "step": 70865
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6553405523300171,
      "learning_rate": 6.533748533262622e-05,
      "loss": 1.4957,
      "step": 70866
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6632863283157349,
      "learning_rate": 6.533097362992758e-05,
      "loss": 1.4606,
      "step": 70867
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6573944687843323,
      "learning_rate": 6.53244622120824e-05,
      "loss": 1.5695,
      "step": 70868
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6391474008560181,
      "learning_rate": 6.531795107909872e-05,
      "loss": 1.4873,
      "step": 70869
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6352698802947998,
      "learning_rate": 6.531144023098457e-05,
      "loss": 1.4548,
      "step": 70870
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6438575983047485,
      "learning_rate": 6.530492966774777e-05,
      "loss": 1.5051,
      "step": 70871
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6489710807800293,
      "learning_rate": 6.529841938939609e-05,
      "loss": 1.5771,
      "step": 70872
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6562682390213013,
      "learning_rate": 6.529190939593766e-05,
      "loss": 1.5316,
      "step": 70873
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6562153697013855,
      "learning_rate": 6.528539968738026e-05,
      "loss": 1.5056,
      "step": 70874
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6282437443733215,
      "learning_rate": 6.527889026373169e-05,
      "loss": 1.5561,
      "step": 70875
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6706165075302124,
      "learning_rate": 6.5272381125e-05,
      "loss": 1.5231,
      "step": 70876
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6497731804847717,
      "learning_rate": 6.526587227119311e-05,
      "loss": 1.5595,
      "step": 70877
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6207887530326843,
      "learning_rate": 6.525936370231889e-05,
      "loss": 1.5552,
      "step": 70878
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6633539795875549,
      "learning_rate": 6.525285541838511e-05,
      "loss": 1.6034,
      "step": 70879
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6696500182151794,
      "learning_rate": 6.524634741939985e-05,
      "loss": 1.5287,
      "step": 70880
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6395758390426636,
      "learning_rate": 6.523983970537097e-05,
      "loss": 1.5843,
      "step": 70881
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6330365538597107,
      "learning_rate": 6.523333227630623e-05,
      "loss": 1.5694,
      "step": 70882
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6840008497238159,
      "learning_rate": 6.522682513221363e-05,
      "loss": 1.5845,
      "step": 70883
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.642842173576355,
      "learning_rate": 6.522031827310118e-05,
      "loss": 1.5173,
      "step": 70884
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6526765823364258,
      "learning_rate": 6.521381169897666e-05,
      "loss": 1.544,
      "step": 70885
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6350052952766418,
      "learning_rate": 6.520730540984787e-05,
      "loss": 1.531,
      "step": 70886
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6169553399085999,
      "learning_rate": 6.520079940572293e-05,
      "loss": 1.5776,
      "step": 70887
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6527226567268372,
      "learning_rate": 6.51942936866096e-05,
      "loss": 1.5542,
      "step": 70888
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6194962859153748,
      "learning_rate": 6.518778825251575e-05,
      "loss": 1.5313,
      "step": 70889
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6189610362052917,
      "learning_rate": 6.518128310344937e-05,
      "loss": 1.4976,
      "step": 70890
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6282903552055359,
      "learning_rate": 6.517477823941824e-05,
      "loss": 1.5552,
      "step": 70891
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6434016823768616,
      "learning_rate": 6.516827366043041e-05,
      "loss": 1.5306,
      "step": 70892
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.622860848903656,
      "learning_rate": 6.516176936649363e-05,
      "loss": 1.5418,
      "step": 70893
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6437940001487732,
      "learning_rate": 6.515526535761596e-05,
      "loss": 1.595,
      "step": 70894
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6197625994682312,
      "learning_rate": 6.514876163380516e-05,
      "loss": 1.5402,
      "step": 70895
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6449165940284729,
      "learning_rate": 6.514225819506909e-05,
      "loss": 1.5002,
      "step": 70896
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6552885174751282,
      "learning_rate": 6.51357550414158e-05,
      "loss": 1.4955,
      "step": 70897
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6542695164680481,
      "learning_rate": 6.512925217285301e-05,
      "loss": 1.4926,
      "step": 70898
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6530191898345947,
      "learning_rate": 6.512274958938879e-05,
      "loss": 1.5658,
      "step": 70899
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6401307582855225,
      "learning_rate": 6.51162472910309e-05,
      "loss": 1.4741,
      "step": 70900
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6431075930595398,
      "learning_rate": 6.510974527778727e-05,
      "loss": 1.4995,
      "step": 70901
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6475327014923096,
      "learning_rate": 6.510324354966584e-05,
      "loss": 1.6218,
      "step": 70902
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6468901634216309,
      "learning_rate": 6.509674210667437e-05,
      "loss": 1.4576,
      "step": 70903
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6370301246643066,
      "learning_rate": 6.509024094882094e-05,
      "loss": 1.5483,
      "step": 70904
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6522461175918579,
      "learning_rate": 6.508374007611327e-05,
      "loss": 1.5803,
      "step": 70905
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6369960904121399,
      "learning_rate": 6.507723948855942e-05,
      "loss": 1.512,
      "step": 70906
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6590082049369812,
      "learning_rate": 6.507073918616716e-05,
      "loss": 1.5208,
      "step": 70907
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.7046319842338562,
      "learning_rate": 6.506423916894433e-05,
      "loss": 1.5814,
      "step": 70908
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6542571783065796,
      "learning_rate": 6.505773943689898e-05,
      "loss": 1.521,
      "step": 70909
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6673623323440552,
      "learning_rate": 6.505123999003891e-05,
      "loss": 1.6002,
      "step": 70910
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6418814063072205,
      "learning_rate": 6.504474082837196e-05,
      "loss": 1.4738,
      "step": 70911
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6562061905860901,
      "learning_rate": 6.503824195190606e-05,
      "loss": 1.5652,
      "step": 70912
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6281059980392456,
      "learning_rate": 6.503174336064921e-05,
      "loss": 1.4395,
      "step": 70913
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.676537811756134,
      "learning_rate": 6.502524505460917e-05,
      "loss": 1.5029,
      "step": 70914
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6722651124000549,
      "learning_rate": 6.50187470337938e-05,
      "loss": 1.5165,
      "step": 70915
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6476792693138123,
      "learning_rate": 6.501224929821111e-05,
      "loss": 1.6029,
      "step": 70916
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6288734078407288,
      "learning_rate": 6.500575184786896e-05,
      "loss": 1.4137,
      "step": 70917
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6278864145278931,
      "learning_rate": 6.499925468277513e-05,
      "loss": 1.543,
      "step": 70918
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6533378958702087,
      "learning_rate": 6.499275780293755e-05,
      "loss": 1.5036,
      "step": 70919
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.983566164970398,
      "learning_rate": 6.498626120836428e-05,
      "loss": 1.533,
      "step": 70920
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6636371612548828,
      "learning_rate": 6.497976489906291e-05,
      "loss": 1.5097,
      "step": 70921
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6679452061653137,
      "learning_rate": 6.497326887504152e-05,
      "loss": 1.5061,
      "step": 70922
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6456153988838196,
      "learning_rate": 6.496677313630799e-05,
      "loss": 1.5764,
      "step": 70923
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6302312016487122,
      "learning_rate": 6.496027768287016e-05,
      "loss": 1.5488,
      "step": 70924
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6670728325843811,
      "learning_rate": 6.495378251473587e-05,
      "loss": 1.5466,
      "step": 70925
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6512003540992737,
      "learning_rate": 6.494728763191304e-05,
      "loss": 1.5549,
      "step": 70926
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6417514681816101,
      "learning_rate": 6.494079303440975e-05,
      "loss": 1.5488,
      "step": 70927
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6285728216171265,
      "learning_rate": 6.493429872223351e-05,
      "loss": 1.4738,
      "step": 70928
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6218366026878357,
      "learning_rate": 6.49278046953924e-05,
      "loss": 1.5121,
      "step": 70929
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.636138379573822,
      "learning_rate": 6.492131095389441e-05,
      "loss": 1.5274,
      "step": 70930
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.655853271484375,
      "learning_rate": 6.49148174977473e-05,
      "loss": 1.467,
      "step": 70931
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6460516452789307,
      "learning_rate": 6.490832432695888e-05,
      "loss": 1.5436,
      "step": 70932
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6366251111030579,
      "learning_rate": 6.49018314415371e-05,
      "loss": 1.5592,
      "step": 70933
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.662574052810669,
      "learning_rate": 6.489533884149004e-05,
      "loss": 1.606,
      "step": 70934
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6682897210121155,
      "learning_rate": 6.488884652682523e-05,
      "loss": 1.613,
      "step": 70935
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6436774134635925,
      "learning_rate": 6.48823544975507e-05,
      "loss": 1.4864,
      "step": 70936
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6562918424606323,
      "learning_rate": 6.487586275367444e-05,
      "loss": 1.5472,
      "step": 70937
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6415391564369202,
      "learning_rate": 6.486937129520425e-05,
      "loss": 1.5349,
      "step": 70938
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6362249851226807,
      "learning_rate": 6.486288012214792e-05,
      "loss": 1.5249,
      "step": 70939
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.640557587146759,
      "learning_rate": 6.485638923451347e-05,
      "loss": 1.4879,
      "step": 70940
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6322744488716125,
      "learning_rate": 6.48498986323087e-05,
      "loss": 1.5384,
      "step": 70941
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6373105049133301,
      "learning_rate": 6.484340831554148e-05,
      "loss": 1.578,
      "step": 70942
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6470724940299988,
      "learning_rate": 6.483691828421965e-05,
      "loss": 1.4749,
      "step": 70943
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6701986789703369,
      "learning_rate": 6.483042853835129e-05,
      "loss": 1.4776,
      "step": 70944
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6523268818855286,
      "learning_rate": 6.482393907794411e-05,
      "loss": 1.5426,
      "step": 70945
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6218088865280151,
      "learning_rate": 6.481744990300595e-05,
      "loss": 1.4965,
      "step": 70946
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6552305221557617,
      "learning_rate": 6.481096101354482e-05,
      "loss": 1.5359,
      "step": 70947
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.627651572227478,
      "learning_rate": 6.480447240956855e-05,
      "loss": 1.5531,
      "step": 70948
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6194555163383484,
      "learning_rate": 6.479798409108489e-05,
      "loss": 1.582,
      "step": 70949
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6474963426589966,
      "learning_rate": 6.479149605810189e-05,
      "loss": 1.5113,
      "step": 70950
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6341482400894165,
      "learning_rate": 6.47850083106273e-05,
      "loss": 1.5265,
      "step": 70951
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6436807513237,
      "learning_rate": 6.477852084866913e-05,
      "loss": 1.5191,
      "step": 70952
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6381010413169861,
      "learning_rate": 6.477203367223511e-05,
      "loss": 1.479,
      "step": 70953
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6588854193687439,
      "learning_rate": 6.476554678133323e-05,
      "loss": 1.5174,
      "step": 70954
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6604077219963074,
      "learning_rate": 6.475906017597135e-05,
      "loss": 1.5165,
      "step": 70955
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6428900957107544,
      "learning_rate": 6.475257385615723e-05,
      "loss": 1.6064,
      "step": 70956
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6375424265861511,
      "learning_rate": 6.474608782189889e-05,
      "loss": 1.5237,
      "step": 70957
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6575450301170349,
      "learning_rate": 6.473960207320404e-05,
      "loss": 1.5585,
      "step": 70958
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.636326789855957,
      "learning_rate": 6.473311661008074e-05,
      "loss": 1.5248,
      "step": 70959
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6302988529205322,
      "learning_rate": 6.47266314325368e-05,
      "loss": 1.4777,
      "step": 70960
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6454034447669983,
      "learning_rate": 6.472014654057993e-05,
      "loss": 1.5946,
      "step": 70961
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6538805961608887,
      "learning_rate": 6.471366193421819e-05,
      "loss": 1.5669,
      "step": 70962
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.652296781539917,
      "learning_rate": 6.470717761345945e-05,
      "loss": 1.4983,
      "step": 70963
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6340957880020142,
      "learning_rate": 6.470069357831151e-05,
      "loss": 1.4672,
      "step": 70964
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6279904246330261,
      "learning_rate": 6.469420982878221e-05,
      "loss": 1.5357,
      "step": 70965
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6197208762168884,
      "learning_rate": 6.468772636487953e-05,
      "loss": 1.465,
      "step": 70966
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6451103687286377,
      "learning_rate": 6.468124318661128e-05,
      "loss": 1.5442,
      "step": 70967
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6317121386528015,
      "learning_rate": 6.467476029398526e-05,
      "loss": 1.533,
      "step": 70968
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6361781358718872,
      "learning_rate": 6.466827768700941e-05,
      "loss": 1.5533,
      "step": 70969
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6618412733078003,
      "learning_rate": 6.466179536569175e-05,
      "loss": 1.6025,
      "step": 70970
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6880622506141663,
      "learning_rate": 6.465531333003982e-05,
      "loss": 1.5025,
      "step": 70971
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6501194834709167,
      "learning_rate": 6.464883158006167e-05,
      "loss": 1.581,
      "step": 70972
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6013430953025818,
      "learning_rate": 6.464235011576526e-05,
      "loss": 1.468,
      "step": 70973
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6417598724365234,
      "learning_rate": 6.463586893715833e-05,
      "loss": 1.508,
      "step": 70974
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6147019267082214,
      "learning_rate": 6.462938804424873e-05,
      "loss": 1.5031,
      "step": 70975
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6552098989486694,
      "learning_rate": 6.462290743704436e-05,
      "loss": 1.5325,
      "step": 70976
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6715409755706787,
      "learning_rate": 6.461642711555323e-05,
      "loss": 1.508,
      "step": 70977
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6291577219963074,
      "learning_rate": 6.460994707978297e-05,
      "loss": 1.4956,
      "step": 70978
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6521179676055908,
      "learning_rate": 6.460346732974149e-05,
      "loss": 1.5316,
      "step": 70979
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6645978689193726,
      "learning_rate": 6.459698786543683e-05,
      "loss": 1.497,
      "step": 70980
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6639629602432251,
      "learning_rate": 6.459050868687674e-05,
      "loss": 1.4684,
      "step": 70981
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6433230042457581,
      "learning_rate": 6.458402979406902e-05,
      "loss": 1.5516,
      "step": 70982
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6805266737937927,
      "learning_rate": 6.457755118702158e-05,
      "loss": 1.6423,
      "step": 70983
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.7080216407775879,
      "learning_rate": 6.457107286574245e-05,
      "loss": 1.5636,
      "step": 70984
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6719034314155579,
      "learning_rate": 6.45645948302392e-05,
      "loss": 1.5655,
      "step": 70985
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6448251605033875,
      "learning_rate": 6.455811708051988e-05,
      "loss": 1.513,
      "step": 70986
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6401007771492004,
      "learning_rate": 6.455163961659234e-05,
      "loss": 1.5342,
      "step": 70987
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6180435419082642,
      "learning_rate": 6.454516243846445e-05,
      "loss": 1.5381,
      "step": 70988
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6489185094833374,
      "learning_rate": 6.453868554614395e-05,
      "loss": 1.5139,
      "step": 70989
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6868880987167358,
      "learning_rate": 6.453220893963889e-05,
      "loss": 1.5279,
      "step": 70990
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6357793211936951,
      "learning_rate": 6.452573261895702e-05,
      "loss": 1.5609,
      "step": 70991
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6664742827415466,
      "learning_rate": 6.451925658410613e-05,
      "loss": 1.6467,
      "step": 70992
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6557751893997192,
      "learning_rate": 6.451278083509418e-05,
      "loss": 1.4863,
      "step": 70993
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.638545572757721,
      "learning_rate": 6.450630537192907e-05,
      "loss": 1.5571,
      "step": 70994
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6460126638412476,
      "learning_rate": 6.449983019461862e-05,
      "loss": 1.4986,
      "step": 70995
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.648729681968689,
      "learning_rate": 6.449335530317063e-05,
      "loss": 1.5214,
      "step": 70996
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.685862123966217,
      "learning_rate": 6.448688069759305e-05,
      "loss": 1.4988,
      "step": 70997
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6388801336288452,
      "learning_rate": 6.448040637789369e-05,
      "loss": 1.497,
      "step": 70998
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6281468868255615,
      "learning_rate": 6.447393234408035e-05,
      "loss": 1.4552,
      "step": 70999
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6517305374145508,
      "learning_rate": 6.446745859616094e-05,
      "loss": 1.5376,
      "step": 71000
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6684105396270752,
      "learning_rate": 6.446098513414345e-05,
      "loss": 1.5461,
      "step": 71001
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6548796892166138,
      "learning_rate": 6.445451195803558e-05,
      "loss": 1.4803,
      "step": 71002
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6664985418319702,
      "learning_rate": 6.444803906784517e-05,
      "loss": 1.4682,
      "step": 71003
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6590301394462585,
      "learning_rate": 6.444156646358017e-05,
      "loss": 1.5278,
      "step": 71004
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6269838809967041,
      "learning_rate": 6.443509414524846e-05,
      "loss": 1.5631,
      "step": 71005
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6424845457077026,
      "learning_rate": 6.44286221128577e-05,
      "loss": 1.5277,
      "step": 71006
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6690205335617065,
      "learning_rate": 6.442215036641603e-05,
      "loss": 1.5325,
      "step": 71007
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6455226540565491,
      "learning_rate": 6.441567890593104e-05,
      "loss": 1.4429,
      "step": 71008
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6220621466636658,
      "learning_rate": 6.440920773141077e-05,
      "loss": 1.4924,
      "step": 71009
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.646502673625946,
      "learning_rate": 6.440273684286294e-05,
      "loss": 1.4826,
      "step": 71010
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6631724238395691,
      "learning_rate": 6.439626624029554e-05,
      "loss": 1.6094,
      "step": 71011
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6562406420707703,
      "learning_rate": 6.438979592371639e-05,
      "loss": 1.4948,
      "step": 71012
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6283538937568665,
      "learning_rate": 6.438332589313324e-05,
      "loss": 1.4644,
      "step": 71013
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6476395726203918,
      "learning_rate": 6.437685614855405e-05,
      "loss": 1.4785,
      "step": 71014
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.665773332118988,
      "learning_rate": 6.43703866899866e-05,
      "loss": 1.5682,
      "step": 71015
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6438415050506592,
      "learning_rate": 6.436391751743881e-05,
      "loss": 1.5,
      "step": 71016
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6541736721992493,
      "learning_rate": 6.435744863091857e-05,
      "loss": 1.5048,
      "step": 71017
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6515803933143616,
      "learning_rate": 6.435098003043353e-05,
      "loss": 1.5622,
      "step": 71018
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6570257544517517,
      "learning_rate": 6.434451171599181e-05,
      "loss": 1.5251,
      "step": 71019
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6381481885910034,
      "learning_rate": 6.433804368760103e-05,
      "loss": 1.5096,
      "step": 71020
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6302502155303955,
      "learning_rate": 6.433157594526922e-05,
      "loss": 1.524,
      "step": 71021
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6765408515930176,
      "learning_rate": 6.432510848900405e-05,
      "loss": 1.4962,
      "step": 71022
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6523682475090027,
      "learning_rate": 6.431864131881358e-05,
      "loss": 1.5481,
      "step": 71023
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6431064009666443,
      "learning_rate": 6.431217443470553e-05,
      "loss": 1.545,
      "step": 71024
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6373352408409119,
      "learning_rate": 6.430570783668773e-05,
      "loss": 1.507,
      "step": 71025
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6269764304161072,
      "learning_rate": 6.429924152476812e-05,
      "loss": 1.4773,
      "step": 71026
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.642071008682251,
      "learning_rate": 6.429277549895454e-05,
      "loss": 1.4892,
      "step": 71027
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6314674019813538,
      "learning_rate": 6.428630975925469e-05,
      "loss": 1.4854,
      "step": 71028
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6741762161254883,
      "learning_rate": 6.42798443056765e-05,
      "loss": 1.5634,
      "step": 71029
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6406320333480835,
      "learning_rate": 6.427337913822797e-05,
      "loss": 1.5499,
      "step": 71030
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6449301838874817,
      "learning_rate": 6.426691425691682e-05,
      "loss": 1.5243,
      "step": 71031
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6300392150878906,
      "learning_rate": 6.426044966175084e-05,
      "loss": 1.5182,
      "step": 71032
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6310084462165833,
      "learning_rate": 6.4253985352738e-05,
      "loss": 1.5462,
      "step": 71033
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6523176431655884,
      "learning_rate": 6.424752132988609e-05,
      "loss": 1.573,
      "step": 71034
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6422101855278015,
      "learning_rate": 6.424105759320285e-05,
      "loss": 1.5233,
      "step": 71035
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6473811864852905,
      "learning_rate": 6.423459414269625e-05,
      "loss": 1.5947,
      "step": 71036
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6588394641876221,
      "learning_rate": 6.422813097837429e-05,
      "loss": 1.6157,
      "step": 71037
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6184966564178467,
      "learning_rate": 6.422166810024445e-05,
      "loss": 1.511,
      "step": 71038
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.634528398513794,
      "learning_rate": 6.421520550831479e-05,
      "loss": 1.4876,
      "step": 71039
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6200749278068542,
      "learning_rate": 6.420874320259317e-05,
      "loss": 1.5046,
      "step": 71040
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6290451884269714,
      "learning_rate": 6.420228118308741e-05,
      "loss": 1.5765,
      "step": 71041
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.656160831451416,
      "learning_rate": 6.41958194498053e-05,
      "loss": 1.5531,
      "step": 71042
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6430860757827759,
      "learning_rate": 6.418935800275466e-05,
      "loss": 1.5077,
      "step": 71043
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6513326168060303,
      "learning_rate": 6.418289684194358e-05,
      "loss": 1.5344,
      "step": 71044
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6315199732780457,
      "learning_rate": 6.417643596737956e-05,
      "loss": 1.5348,
      "step": 71045
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6578145027160645,
      "learning_rate": 6.416997537907059e-05,
      "loss": 1.5316,
      "step": 71046
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6363538503646851,
      "learning_rate": 6.416351507702464e-05,
      "loss": 1.5385,
      "step": 71047
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6546222567558289,
      "learning_rate": 6.41570550612494e-05,
      "loss": 1.5356,
      "step": 71048
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6717474460601807,
      "learning_rate": 6.415059533175265e-05,
      "loss": 1.4926,
      "step": 71049
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6401174664497375,
      "learning_rate": 6.414413588854236e-05,
      "loss": 1.5872,
      "step": 71050
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6273212432861328,
      "learning_rate": 6.413767673162648e-05,
      "loss": 1.5079,
      "step": 71051
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6382488012313843,
      "learning_rate": 6.413121786101257e-05,
      "loss": 1.5083,
      "step": 71052
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6420572996139526,
      "learning_rate": 6.412475927670856e-05,
      "loss": 1.5345,
      "step": 71053
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6627088189125061,
      "learning_rate": 6.411830097872245e-05,
      "loss": 1.5191,
      "step": 71054
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6482867002487183,
      "learning_rate": 6.411184296706195e-05,
      "loss": 1.6043,
      "step": 71055
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6379125714302063,
      "learning_rate": 6.410538524173487e-05,
      "loss": 1.4956,
      "step": 71056
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.644740879535675,
      "learning_rate": 6.409892780274915e-05,
      "loss": 1.4976,
      "step": 71057
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6710682511329651,
      "learning_rate": 6.409247065011259e-05,
      "loss": 1.5906,
      "step": 71058
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6373723149299622,
      "learning_rate": 6.408601378383292e-05,
      "loss": 1.5277,
      "step": 71059
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6775233149528503,
      "learning_rate": 6.407955720391806e-05,
      "loss": 1.5362,
      "step": 71060
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.647979736328125,
      "learning_rate": 6.407310091037594e-05,
      "loss": 1.604,
      "step": 71061
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6443669199943542,
      "learning_rate": 6.40666449032143e-05,
      "loss": 1.4766,
      "step": 71062
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6469062566757202,
      "learning_rate": 6.406018918244095e-05,
      "loss": 1.551,
      "step": 71063
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6323468685150146,
      "learning_rate": 6.405373374806383e-05,
      "loss": 1.4917,
      "step": 71064
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6551191210746765,
      "learning_rate": 6.404727860009072e-05,
      "loss": 1.4517,
      "step": 71065
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6221412420272827,
      "learning_rate": 6.404082373852932e-05,
      "loss": 1.5716,
      "step": 71066
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6340646147727966,
      "learning_rate": 6.403436916338772e-05,
      "loss": 1.5196,
      "step": 71067
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6493366360664368,
      "learning_rate": 6.402791487467354e-05,
      "loss": 1.624,
      "step": 71068
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6760292053222656,
      "learning_rate": 6.402146087239476e-05,
      "loss": 1.4656,
      "step": 71069
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6310534477233887,
      "learning_rate": 6.401500715655912e-05,
      "loss": 1.535,
      "step": 71070
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6430456638336182,
      "learning_rate": 6.400855372717453e-05,
      "loss": 1.5646,
      "step": 71071
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6453133225440979,
      "learning_rate": 6.400210058424878e-05,
      "loss": 1.5391,
      "step": 71072
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6450942158699036,
      "learning_rate": 6.399564772778964e-05,
      "loss": 1.5043,
      "step": 71073
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6566314697265625,
      "learning_rate": 6.398919515780512e-05,
      "loss": 1.4664,
      "step": 71074
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6521302461624146,
      "learning_rate": 6.398274287430283e-05,
      "loss": 1.4805,
      "step": 71075
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6409615874290466,
      "learning_rate": 6.39762908772908e-05,
      "loss": 1.5017,
      "step": 71076
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6548270583152771,
      "learning_rate": 6.396983916677681e-05,
      "loss": 1.5508,
      "step": 71077
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6430264711380005,
      "learning_rate": 6.396338774276853e-05,
      "loss": 1.534,
      "step": 71078
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6342969536781311,
      "learning_rate": 6.395693660527392e-05,
      "loss": 1.4848,
      "step": 71079
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6475740671157837,
      "learning_rate": 6.395048575430093e-05,
      "loss": 1.6013,
      "step": 71080
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6482916474342346,
      "learning_rate": 6.394403518985724e-05,
      "loss": 1.544,
      "step": 71081
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6672425866127014,
      "learning_rate": 6.393758491195063e-05,
      "loss": 1.507,
      "step": 71082
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6935842633247375,
      "learning_rate": 6.393113492058909e-05,
      "loss": 1.5053,
      "step": 71083
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.6482071280479431,
      "learning_rate": 6.392468521578039e-05,
      "loss": 1.5908,
      "step": 71084
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6452442407608032,
      "learning_rate": 6.391823579753224e-05,
      "loss": 1.5183,
      "step": 71085
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6439574956893921,
      "learning_rate": 6.391178666585255e-05,
      "loss": 1.5788,
      "step": 71086
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6239880323410034,
      "learning_rate": 6.390533782074935e-05,
      "loss": 1.5393,
      "step": 71087
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6283315420150757,
      "learning_rate": 6.389888926223013e-05,
      "loss": 1.5566,
      "step": 71088
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.654434323310852,
      "learning_rate": 6.389244099030285e-05,
      "loss": 1.5549,
      "step": 71089
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6122198700904846,
      "learning_rate": 6.388599300497544e-05,
      "loss": 1.457,
      "step": 71090
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6244702935218811,
      "learning_rate": 6.387954530625567e-05,
      "loss": 1.5054,
      "step": 71091
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6325960755348206,
      "learning_rate": 6.387309789415123e-05,
      "loss": 1.4924,
      "step": 71092
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6244015693664551,
      "learning_rate": 6.386665076867009e-05,
      "loss": 1.5026,
      "step": 71093
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6412068605422974,
      "learning_rate": 6.386020392982015e-05,
      "loss": 1.5381,
      "step": 71094
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6531410813331604,
      "learning_rate": 6.3853757377609e-05,
      "loss": 1.5528,
      "step": 71095
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6501443982124329,
      "learning_rate": 6.38473111120446e-05,
      "loss": 1.5436,
      "step": 71096
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6508154273033142,
      "learning_rate": 6.384086513313486e-05,
      "loss": 1.4973,
      "step": 71097
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6271032094955444,
      "learning_rate": 6.383441944088747e-05,
      "loss": 1.5328,
      "step": 71098
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6375979781150818,
      "learning_rate": 6.382797403531025e-05,
      "loss": 1.481,
      "step": 71099
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6254975199699402,
      "learning_rate": 6.382152891641107e-05,
      "loss": 1.4893,
      "step": 71100
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6509333252906799,
      "learning_rate": 6.381508408419794e-05,
      "loss": 1.5798,
      "step": 71101
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6277481317520142,
      "learning_rate": 6.380863953867829e-05,
      "loss": 1.5263,
      "step": 71102
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6818442344665527,
      "learning_rate": 6.380219527986016e-05,
      "loss": 1.5378,
      "step": 71103
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6544708013534546,
      "learning_rate": 6.379575130775148e-05,
      "loss": 1.4986,
      "step": 71104
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6269810795783997,
      "learning_rate": 6.378930762235991e-05,
      "loss": 1.5101,
      "step": 71105
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6498610377311707,
      "learning_rate": 6.378286422369325e-05,
      "loss": 1.5473,
      "step": 71106
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6612673997879028,
      "learning_rate": 6.377642111175947e-05,
      "loss": 1.5579,
      "step": 71107
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6314598321914673,
      "learning_rate": 6.376997828656632e-05,
      "loss": 1.4799,
      "step": 71108
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6288409233093262,
      "learning_rate": 6.376353574812152e-05,
      "loss": 1.5207,
      "step": 71109
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6387280225753784,
      "learning_rate": 6.375709349643297e-05,
      "loss": 1.6097,
      "step": 71110
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6444195508956909,
      "learning_rate": 6.375065153150857e-05,
      "loss": 1.5471,
      "step": 71111
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6547431945800781,
      "learning_rate": 6.374420985335612e-05,
      "loss": 1.5654,
      "step": 71112
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6279661655426025,
      "learning_rate": 6.373776846198326e-05,
      "loss": 1.5749,
      "step": 71113
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6299387216567993,
      "learning_rate": 6.373132735739803e-05,
      "loss": 1.5728,
      "step": 71114
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6210169196128845,
      "learning_rate": 6.372488653960819e-05,
      "loss": 1.5292,
      "step": 71115
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6447367072105408,
      "learning_rate": 6.37184460086214e-05,
      "loss": 1.5362,
      "step": 71116
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6712560653686523,
      "learning_rate": 6.37120057644457e-05,
      "loss": 1.5713,
      "step": 71117
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6552990674972534,
      "learning_rate": 6.370556580708872e-05,
      "loss": 1.5689,
      "step": 71118
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.660129725933075,
      "learning_rate": 6.369912613655846e-05,
      "loss": 1.5315,
      "step": 71119
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6498288512229919,
      "learning_rate": 6.369268675286257e-05,
      "loss": 1.497,
      "step": 71120
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6398367285728455,
      "learning_rate": 6.368624765600898e-05,
      "loss": 1.5762,
      "step": 71121
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6782761216163635,
      "learning_rate": 6.367980884600551e-05,
      "loss": 1.5337,
      "step": 71122
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6301059722900391,
      "learning_rate": 6.367337032285985e-05,
      "loss": 1.5323,
      "step": 71123
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.640542209148407,
      "learning_rate": 6.366693208657994e-05,
      "loss": 1.4418,
      "step": 71124
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6496719717979431,
      "learning_rate": 6.366049413717349e-05,
      "loss": 1.4851,
      "step": 71125
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6328328847885132,
      "learning_rate": 6.365405647464847e-05,
      "loss": 1.5515,
      "step": 71126
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6317877769470215,
      "learning_rate": 6.364761909901252e-05,
      "loss": 1.4724,
      "step": 71127
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.660342276096344,
      "learning_rate": 6.36411820102736e-05,
      "loss": 1.5694,
      "step": 71128
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6317959427833557,
      "learning_rate": 6.363474520843947e-05,
      "loss": 1.5225,
      "step": 71129
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6431426405906677,
      "learning_rate": 6.362830869351784e-05,
      "loss": 1.5421,
      "step": 71130
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6617159247398376,
      "learning_rate": 6.362187246551672e-05,
      "loss": 1.5023,
      "step": 71131
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6782691478729248,
      "learning_rate": 6.361543652444371e-05,
      "loss": 1.4403,
      "step": 71132
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6852504014968872,
      "learning_rate": 6.360900087030683e-05,
      "loss": 1.6067,
      "step": 71133
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6425150632858276,
      "learning_rate": 6.36025655031138e-05,
      "loss": 1.6526,
      "step": 71134
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6397109031677246,
      "learning_rate": 6.359613042287232e-05,
      "loss": 1.5266,
      "step": 71135
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6571869850158691,
      "learning_rate": 6.35896956295904e-05,
      "loss": 1.542,
      "step": 71136
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6425936222076416,
      "learning_rate": 6.358326112327568e-05,
      "loss": 1.4862,
      "step": 71137
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6910175085067749,
      "learning_rate": 6.357682690393611e-05,
      "loss": 1.5668,
      "step": 71138
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6612614393234253,
      "learning_rate": 6.357039297157937e-05,
      "loss": 1.5071,
      "step": 71139
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6226761341094971,
      "learning_rate": 6.356395932621341e-05,
      "loss": 1.5158,
      "step": 71140
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6574492454528809,
      "learning_rate": 6.355752596784598e-05,
      "loss": 1.5314,
      "step": 71141
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6475054025650024,
      "learning_rate": 6.355109289648476e-05,
      "loss": 1.6001,
      "step": 71142
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6280273199081421,
      "learning_rate": 6.354466011213776e-05,
      "loss": 1.5265,
      "step": 71143
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6377394795417786,
      "learning_rate": 6.353822761481274e-05,
      "loss": 1.5702,
      "step": 71144
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6339250206947327,
      "learning_rate": 6.353179540451738e-05,
      "loss": 1.51,
      "step": 71145
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6693810820579529,
      "learning_rate": 6.352536348125955e-05,
      "loss": 1.5632,
      "step": 71146
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6421574950218201,
      "learning_rate": 6.351893184504721e-05,
      "loss": 1.519,
      "step": 71147
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6443049907684326,
      "learning_rate": 6.3512500495888e-05,
      "loss": 1.5196,
      "step": 71148
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6135960817337036,
      "learning_rate": 6.350606943378972e-05,
      "loss": 1.519,
      "step": 71149
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6459844708442688,
      "learning_rate": 6.34996386587603e-05,
      "loss": 1.5296,
      "step": 71150
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6436189413070679,
      "learning_rate": 6.349320817080748e-05,
      "loss": 1.5265,
      "step": 71151
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6354262828826904,
      "learning_rate": 6.348677796993894e-05,
      "loss": 1.487,
      "step": 71152
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6557855010032654,
      "learning_rate": 6.348034805616262e-05,
      "loss": 1.5339,
      "step": 71153
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6210944056510925,
      "learning_rate": 6.347391842948648e-05,
      "loss": 1.4514,
      "step": 71154
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.640328586101532,
      "learning_rate": 6.346748908991797e-05,
      "loss": 1.546,
      "step": 71155
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6517494320869446,
      "learning_rate": 6.34610600374651e-05,
      "loss": 1.544,
      "step": 71156
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.630233645439148,
      "learning_rate": 6.345463127213573e-05,
      "loss": 1.5728,
      "step": 71157
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6624854803085327,
      "learning_rate": 6.34482027939376e-05,
      "loss": 1.5968,
      "step": 71158
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6584997177124023,
      "learning_rate": 6.344177460287839e-05,
      "loss": 1.5711,
      "step": 71159
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6261451840400696,
      "learning_rate": 6.343534669896601e-05,
      "loss": 1.4692,
      "step": 71160
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6612101197242737,
      "learning_rate": 6.342891908220843e-05,
      "loss": 1.4897,
      "step": 71161
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.658607006072998,
      "learning_rate": 6.342249175261311e-05,
      "loss": 1.5346,
      "step": 71162
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6399279236793518,
      "learning_rate": 6.341606471018806e-05,
      "loss": 1.5145,
      "step": 71163
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6581394672393799,
      "learning_rate": 6.34096379549411e-05,
      "loss": 1.5374,
      "step": 71164
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6340043544769287,
      "learning_rate": 6.340321148688e-05,
      "loss": 1.5647,
      "step": 71165
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.642865777015686,
      "learning_rate": 6.339678530601243e-05,
      "loss": 1.5281,
      "step": 71166
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6355524063110352,
      "learning_rate": 6.339035941234632e-05,
      "loss": 1.4936,
      "step": 71167
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6356149315834045,
      "learning_rate": 6.338393380588964e-05,
      "loss": 1.4598,
      "step": 71168
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6405762434005737,
      "learning_rate": 6.337750848664981e-05,
      "loss": 1.5088,
      "step": 71169
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6414042711257935,
      "learning_rate": 6.337108345463482e-05,
      "loss": 1.4851,
      "step": 71170
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6670991778373718,
      "learning_rate": 6.336465870985253e-05,
      "loss": 1.4547,
      "step": 71171
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6429387331008911,
      "learning_rate": 6.335823425231072e-05,
      "loss": 1.5114,
      "step": 71172
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.661226212978363,
      "learning_rate": 6.335181008201705e-05,
      "loss": 1.6046,
      "step": 71173
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6704301834106445,
      "learning_rate": 6.334538619897948e-05,
      "loss": 1.5282,
      "step": 71174
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6508537530899048,
      "learning_rate": 6.333896260320575e-05,
      "loss": 1.5243,
      "step": 71175
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6479892730712891,
      "learning_rate": 6.333253929470355e-05,
      "loss": 1.5398,
      "step": 71176
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6345121264457703,
      "learning_rate": 6.332611627348083e-05,
      "loss": 1.5423,
      "step": 71177
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6423611640930176,
      "learning_rate": 6.331969353954537e-05,
      "loss": 1.5697,
      "step": 71178
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6317657828330994,
      "learning_rate": 6.331327109290493e-05,
      "loss": 1.5887,
      "step": 71179
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6366225481033325,
      "learning_rate": 6.330684893356724e-05,
      "loss": 1.5425,
      "step": 71180
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6632448434829712,
      "learning_rate": 6.330042706154022e-05,
      "loss": 1.4905,
      "step": 71181
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6498355269432068,
      "learning_rate": 6.329400547683163e-05,
      "loss": 1.4955,
      "step": 71182
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.660808265209198,
      "learning_rate": 6.328758417944915e-05,
      "loss": 1.5598,
      "step": 71183
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6855071187019348,
      "learning_rate": 6.328116316940075e-05,
      "loss": 1.5679,
      "step": 71184
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.791496992111206,
      "learning_rate": 6.327474244669404e-05,
      "loss": 1.5053,
      "step": 71185
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6334233283996582,
      "learning_rate": 6.3268322011337e-05,
      "loss": 1.5289,
      "step": 71186
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6017958521842957,
      "learning_rate": 6.326190186333727e-05,
      "loss": 1.4841,
      "step": 71187
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6467046141624451,
      "learning_rate": 6.325548200270277e-05,
      "loss": 1.4621,
      "step": 71188
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6709337830543518,
      "learning_rate": 6.324906242944116e-05,
      "loss": 1.4926,
      "step": 71189
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6471686363220215,
      "learning_rate": 6.324264314356041e-05,
      "loss": 1.5614,
      "step": 71190
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6305925250053406,
      "learning_rate": 6.323622414506818e-05,
      "loss": 1.5378,
      "step": 71191
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6598409414291382,
      "learning_rate": 6.32298054339722e-05,
      "loss": 1.5462,
      "step": 71192
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.651067852973938,
      "learning_rate": 6.322338701028043e-05,
      "loss": 1.5199,
      "step": 71193
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6407124996185303,
      "learning_rate": 6.321696887400063e-05,
      "loss": 1.544,
      "step": 71194
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.651878833770752,
      "learning_rate": 6.32105510251404e-05,
      "loss": 1.4866,
      "step": 71195
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6428831219673157,
      "learning_rate": 6.320413346370771e-05,
      "loss": 1.5226,
      "step": 71196
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6697388291358948,
      "learning_rate": 6.319771618971037e-05,
      "loss": 1.5919,
      "step": 71197
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6688336730003357,
      "learning_rate": 6.319129920315612e-05,
      "loss": 1.4841,
      "step": 71198
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6662448644638062,
      "learning_rate": 6.318488250405266e-05,
      "loss": 1.4973,
      "step": 71199
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6243410706520081,
      "learning_rate": 6.317846609240795e-05,
      "loss": 1.4944,
      "step": 71200
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6552857160568237,
      "learning_rate": 6.317204996822967e-05,
      "loss": 1.538,
      "step": 71201
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6695946455001831,
      "learning_rate": 6.316563413152555e-05,
      "loss": 1.5513,
      "step": 71202
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6695522665977478,
      "learning_rate": 6.315921858230344e-05,
      "loss": 1.5173,
      "step": 71203
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6458945870399475,
      "learning_rate": 6.315280332057134e-05,
      "loss": 1.5194,
      "step": 71204
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6664018034934998,
      "learning_rate": 6.314638834633666e-05,
      "loss": 1.5261,
      "step": 71205
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6708610653877258,
      "learning_rate": 6.313997365960737e-05,
      "loss": 1.5907,
      "step": 71206
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6408433318138123,
      "learning_rate": 6.313355926039131e-05,
      "loss": 1.5337,
      "step": 71207
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6080342531204224,
      "learning_rate": 6.312714514869625e-05,
      "loss": 1.5196,
      "step": 71208
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6522513031959534,
      "learning_rate": 6.31207313245298e-05,
      "loss": 1.5785,
      "step": 71209
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6333581209182739,
      "learning_rate": 6.311431778789992e-05,
      "loss": 1.5045,
      "step": 71210
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6500110030174255,
      "learning_rate": 6.31079045388145e-05,
      "loss": 1.522,
      "step": 71211
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6489616632461548,
      "learning_rate": 6.310149157728103e-05,
      "loss": 1.5217,
      "step": 71212
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6731818914413452,
      "learning_rate": 6.309507890330746e-05,
      "loss": 1.5784,
      "step": 71213
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6608646512031555,
      "learning_rate": 6.30886665169016e-05,
      "loss": 1.5822,
      "step": 71214
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6552736163139343,
      "learning_rate": 6.30822544180712e-05,
      "loss": 1.5463,
      "step": 71215
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6430857181549072,
      "learning_rate": 6.307584260682396e-05,
      "loss": 1.4637,
      "step": 71216
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6216946244239807,
      "learning_rate": 6.306943108316777e-05,
      "loss": 1.5331,
      "step": 71217
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6347491145133972,
      "learning_rate": 6.306301984711049e-05,
      "loss": 1.4922,
      "step": 71218
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6430587768554688,
      "learning_rate": 6.305660889865964e-05,
      "loss": 1.4502,
      "step": 71219
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6610099077224731,
      "learning_rate": 6.305019823782317e-05,
      "loss": 1.5229,
      "step": 71220
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6622202396392822,
      "learning_rate": 6.304378786460895e-05,
      "loss": 1.5547,
      "step": 71221
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6698524951934814,
      "learning_rate": 6.303737777902463e-05,
      "loss": 1.6196,
      "step": 71222
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6351385712623596,
      "learning_rate": 6.303096798107794e-05,
      "loss": 1.4976,
      "step": 71223
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6255834102630615,
      "learning_rate": 6.302455847077684e-05,
      "loss": 1.4112,
      "step": 71224
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6017401814460754,
      "learning_rate": 6.301814924812896e-05,
      "loss": 1.4511,
      "step": 71225
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6308059692382812,
      "learning_rate": 6.301174031314208e-05,
      "loss": 1.4709,
      "step": 71226
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6700779795646667,
      "learning_rate": 6.300533166582402e-05,
      "loss": 1.5087,
      "step": 71227
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.628035306930542,
      "learning_rate": 6.299892330618269e-05,
      "loss": 1.429,
      "step": 71228
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6615883708000183,
      "learning_rate": 6.299251523422568e-05,
      "loss": 1.555,
      "step": 71229
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6527387499809265,
      "learning_rate": 6.298610744996079e-05,
      "loss": 1.5475,
      "step": 71230
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6679295301437378,
      "learning_rate": 6.297969995339592e-05,
      "loss": 1.5496,
      "step": 71231
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6309632658958435,
      "learning_rate": 6.297329274453878e-05,
      "loss": 1.5258,
      "step": 71232
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6406955122947693,
      "learning_rate": 6.296688582339706e-05,
      "loss": 1.5882,
      "step": 71233
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6337727308273315,
      "learning_rate": 6.296047918997868e-05,
      "loss": 1.5023,
      "step": 71234
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.640203595161438,
      "learning_rate": 6.295407284429128e-05,
      "loss": 1.5678,
      "step": 71235
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6257389187812805,
      "learning_rate": 6.294766678634278e-05,
      "loss": 1.5148,
      "step": 71236
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6239445805549622,
      "learning_rate": 6.29412610161408e-05,
      "loss": 1.5499,
      "step": 71237
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6433979272842407,
      "learning_rate": 6.29348555336933e-05,
      "loss": 1.5498,
      "step": 71238
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6459702253341675,
      "learning_rate": 6.292845033900792e-05,
      "loss": 1.4789,
      "step": 71239
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6351195573806763,
      "learning_rate": 6.292204543209243e-05,
      "loss": 1.4586,
      "step": 71240
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6472519040107727,
      "learning_rate": 6.291564081295473e-05,
      "loss": 1.4923,
      "step": 71241
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6451959013938904,
      "learning_rate": 6.290923648160238e-05,
      "loss": 1.6066,
      "step": 71242
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6454012393951416,
      "learning_rate": 6.29028324380434e-05,
      "loss": 1.4764,
      "step": 71243
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6336791515350342,
      "learning_rate": 6.289642868228538e-05,
      "loss": 1.5213,
      "step": 71244
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6622893810272217,
      "learning_rate": 6.289002521433621e-05,
      "loss": 1.5187,
      "step": 71245
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.682382345199585,
      "learning_rate": 6.288362203420363e-05,
      "loss": 1.6121,
      "step": 71246
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6358162760734558,
      "learning_rate": 6.28772191418953e-05,
      "loss": 1.5433,
      "step": 71247
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6244057416915894,
      "learning_rate": 6.287081653741918e-05,
      "loss": 1.5348,
      "step": 71248
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6474639177322388,
      "learning_rate": 6.286441422078286e-05,
      "loss": 1.4959,
      "step": 71249
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6253935098648071,
      "learning_rate": 6.28580121919943e-05,
      "loss": 1.5129,
      "step": 71250
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6549007296562195,
      "learning_rate": 6.285161045106115e-05,
      "loss": 1.501,
      "step": 71251
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6437360644340515,
      "learning_rate": 6.284520899799115e-05,
      "loss": 1.5452,
      "step": 71252
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6617252826690674,
      "learning_rate": 6.283880783279218e-05,
      "loss": 1.5182,
      "step": 71253
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6270400881767273,
      "learning_rate": 6.283240695547187e-05,
      "loss": 1.498,
      "step": 71254
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.638339102268219,
      "learning_rate": 6.282600636603817e-05,
      "loss": 1.4777,
      "step": 71255
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6592664122581482,
      "learning_rate": 6.281960606449865e-05,
      "loss": 1.5263,
      "step": 71256
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6413246989250183,
      "learning_rate": 6.281320605086127e-05,
      "loss": 1.5142,
      "step": 71257
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6747348308563232,
      "learning_rate": 6.28068063251337e-05,
      "loss": 1.5683,
      "step": 71258
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6576104760169983,
      "learning_rate": 6.280040688732367e-05,
      "loss": 1.5125,
      "step": 71259
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6838220953941345,
      "learning_rate": 6.279400773743906e-05,
      "loss": 1.4595,
      "step": 71260
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6396072506904602,
      "learning_rate": 6.278760887548758e-05,
      "loss": 1.5053,
      "step": 71261
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6449462175369263,
      "learning_rate": 6.278121030147691e-05,
      "loss": 1.5705,
      "step": 71262
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6355080008506775,
      "learning_rate": 6.277481201541488e-05,
      "loss": 1.5257,
      "step": 71263
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6319187879562378,
      "learning_rate": 6.276841401730936e-05,
      "loss": 1.5524,
      "step": 71264
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6422022581100464,
      "learning_rate": 6.276201630716804e-05,
      "loss": 1.5221,
      "step": 71265
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.652670681476593,
      "learning_rate": 6.275561888499859e-05,
      "loss": 1.5401,
      "step": 71266
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6628592014312744,
      "learning_rate": 6.274922175080895e-05,
      "loss": 1.5686,
      "step": 71267
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6452159881591797,
      "learning_rate": 6.274282490460681e-05,
      "loss": 1.5369,
      "step": 71268
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6424787044525146,
      "learning_rate": 6.273642834639983e-05,
      "loss": 1.5606,
      "step": 71269
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6453055143356323,
      "learning_rate": 6.273003207619584e-05,
      "loss": 1.5219,
      "step": 71270
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.665142834186554,
      "learning_rate": 6.272363609400284e-05,
      "loss": 1.5394,
      "step": 71271
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6413138508796692,
      "learning_rate": 6.271724039982821e-05,
      "loss": 1.5156,
      "step": 71272
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6645740270614624,
      "learning_rate": 6.271084499367985e-05,
      "loss": 1.5732,
      "step": 71273
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6518074870109558,
      "learning_rate": 6.270444987556568e-05,
      "loss": 1.5246,
      "step": 71274
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6373835206031799,
      "learning_rate": 6.269805504549334e-05,
      "loss": 1.5883,
      "step": 71275
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6347916126251221,
      "learning_rate": 6.269166050347051e-05,
      "loss": 1.515,
      "step": 71276
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6411324143409729,
      "learning_rate": 6.268526624950503e-05,
      "loss": 1.4561,
      "step": 71277
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6748524308204651,
      "learning_rate": 6.267887228360486e-05,
      "loss": 1.5655,
      "step": 71278
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6640673279762268,
      "learning_rate": 6.267247860577738e-05,
      "loss": 1.563,
      "step": 71279
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6356524229049683,
      "learning_rate": 6.266608521603052e-05,
      "loss": 1.602,
      "step": 71280
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.658067524433136,
      "learning_rate": 6.26596921143722e-05,
      "loss": 1.4629,
      "step": 71281
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6530650854110718,
      "learning_rate": 6.265329930081e-05,
      "loss": 1.5787,
      "step": 71282
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6445289850234985,
      "learning_rate": 6.264690677535167e-05,
      "loss": 1.5285,
      "step": 71283
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6475337147712708,
      "learning_rate": 6.264051453800503e-05,
      "loss": 1.5559,
      "step": 71284
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.64726322889328,
      "learning_rate": 6.263412258877798e-05,
      "loss": 1.6024,
      "step": 71285
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6505950689315796,
      "learning_rate": 6.262773092767796e-05,
      "loss": 1.5185,
      "step": 71286
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6403372287750244,
      "learning_rate": 6.262133955471292e-05,
      "loss": 1.4807,
      "step": 71287
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.661665141582489,
      "learning_rate": 6.261494846989065e-05,
      "loss": 1.5498,
      "step": 71288
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6759154200553894,
      "learning_rate": 6.260855767321885e-05,
      "loss": 1.5993,
      "step": 71289
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6617242693901062,
      "learning_rate": 6.260216716470522e-05,
      "loss": 1.549,
      "step": 71290
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6637200117111206,
      "learning_rate": 6.259577694435768e-05,
      "loss": 1.5605,
      "step": 71291
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6591648459434509,
      "learning_rate": 6.258938701218385e-05,
      "loss": 1.5044,
      "step": 71292
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6380048990249634,
      "learning_rate": 6.258299736819149e-05,
      "loss": 1.5139,
      "step": 71293
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6500329375267029,
      "learning_rate": 6.257660801238834e-05,
      "loss": 1.402,
      "step": 71294
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6544404029846191,
      "learning_rate": 6.257021894478234e-05,
      "loss": 1.4942,
      "step": 71295
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6183561682701111,
      "learning_rate": 6.256383016538106e-05,
      "loss": 1.5181,
      "step": 71296
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6423255801200867,
      "learning_rate": 6.255744167419223e-05,
      "loss": 1.4798,
      "step": 71297
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6825073957443237,
      "learning_rate": 6.255105347122379e-05,
      "loss": 1.5862,
      "step": 71298
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6287523508071899,
      "learning_rate": 6.254466555648338e-05,
      "loss": 1.5358,
      "step": 71299
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6654288172721863,
      "learning_rate": 6.253827792997865e-05,
      "loss": 1.5574,
      "step": 71300
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6612060070037842,
      "learning_rate": 6.253189059171758e-05,
      "loss": 1.5133,
      "step": 71301
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6189866662025452,
      "learning_rate": 6.25255035417077e-05,
      "loss": 1.4823,
      "step": 71302
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6185867786407471,
      "learning_rate": 6.251911677995694e-05,
      "loss": 1.542,
      "step": 71303
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6417399048805237,
      "learning_rate": 6.251273030647292e-05,
      "loss": 1.4992,
      "step": 71304
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.643765926361084,
      "learning_rate": 6.250634412126354e-05,
      "loss": 1.5643,
      "step": 71305
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6536290645599365,
      "learning_rate": 6.249995822433637e-05,
      "loss": 1.5147,
      "step": 71306
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6733111143112183,
      "learning_rate": 6.249357261569935e-05,
      "loss": 1.4935,
      "step": 71307
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6631428003311157,
      "learning_rate": 6.24871872953601e-05,
      "loss": 1.485,
      "step": 71308
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6480351686477661,
      "learning_rate": 6.248080226332638e-05,
      "loss": 1.5576,
      "step": 71309
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6580733060836792,
      "learning_rate": 6.247441751960602e-05,
      "loss": 1.5343,
      "step": 71310
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6609068512916565,
      "learning_rate": 6.246803306420674e-05,
      "loss": 1.5427,
      "step": 71311
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6487947702407837,
      "learning_rate": 6.246164889713614e-05,
      "loss": 1.5166,
      "step": 71312
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6584680676460266,
      "learning_rate": 6.245526501840213e-05,
      "loss": 1.5448,
      "step": 71313
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6575323939323425,
      "learning_rate": 6.244888142801254e-05,
      "loss": 1.58,
      "step": 71314
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6461811065673828,
      "learning_rate": 6.244249812597497e-05,
      "loss": 1.4536,
      "step": 71315
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6268266439437866,
      "learning_rate": 6.243611511229715e-05,
      "loss": 1.481,
      "step": 71316
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6442564129829407,
      "learning_rate": 6.242973238698693e-05,
      "loss": 1.453,
      "step": 71317
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6456899046897888,
      "learning_rate": 6.242334995005203e-05,
      "loss": 1.5789,
      "step": 71318
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6865807175636292,
      "learning_rate": 6.24169678015001e-05,
      "loss": 1.5393,
      "step": 71319
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.645764946937561,
      "learning_rate": 6.241058594133893e-05,
      "loss": 1.5547,
      "step": 71320
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6213616132736206,
      "learning_rate": 6.24042043695765e-05,
      "loss": 1.4869,
      "step": 71321
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6299384236335754,
      "learning_rate": 6.239782308622017e-05,
      "loss": 1.5236,
      "step": 71322
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6486064791679382,
      "learning_rate": 6.239144209127791e-05,
      "loss": 1.5289,
      "step": 71323
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6468287110328674,
      "learning_rate": 6.23850613847575e-05,
      "loss": 1.5208,
      "step": 71324
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.637588381767273,
      "learning_rate": 6.237868096666659e-05,
      "loss": 1.4805,
      "step": 71325
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6563949584960938,
      "learning_rate": 6.23723008370129e-05,
      "loss": 1.5611,
      "step": 71326
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6589605808258057,
      "learning_rate": 6.236592099580421e-05,
      "loss": 1.5564,
      "step": 71327
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6213284730911255,
      "learning_rate": 6.235954144304844e-05,
      "loss": 1.5298,
      "step": 71328
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.645297110080719,
      "learning_rate": 6.2353162178753e-05,
      "loss": 1.618,
      "step": 71329
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6969889402389526,
      "learning_rate": 6.234678320292582e-05,
      "loss": 1.5255,
      "step": 71330
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6595599055290222,
      "learning_rate": 6.23404045155747e-05,
      "loss": 1.4852,
      "step": 71331
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6582608819007874,
      "learning_rate": 6.233402611670731e-05,
      "loss": 1.5209,
      "step": 71332
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6580268740653992,
      "learning_rate": 6.232764800633133e-05,
      "loss": 1.5114,
      "step": 71333
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.637962281703949,
      "learning_rate": 6.232127018445454e-05,
      "loss": 1.4787,
      "step": 71334
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6437379717826843,
      "learning_rate": 6.23148926510849e-05,
      "loss": 1.5546,
      "step": 71335
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6368566155433655,
      "learning_rate": 6.230851540622978e-05,
      "loss": 1.4342,
      "step": 71336
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6555213332176208,
      "learning_rate": 6.230213844989708e-05,
      "loss": 1.5264,
      "step": 71337
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6886606216430664,
      "learning_rate": 6.229576178209467e-05,
      "loss": 1.6245,
      "step": 71338
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6247946619987488,
      "learning_rate": 6.228938540283017e-05,
      "loss": 1.446,
      "step": 71339
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6340106129646301,
      "learning_rate": 6.228300931211126e-05,
      "loss": 1.5092,
      "step": 71340
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6583355665206909,
      "learning_rate": 6.227663350994583e-05,
      "loss": 1.5624,
      "step": 71341
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6322640776634216,
      "learning_rate": 6.227025799634152e-05,
      "loss": 1.5081,
      "step": 71342
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.650189220905304,
      "learning_rate": 6.226388277130604e-05,
      "loss": 1.5733,
      "step": 71343
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.629485011100769,
      "learning_rate": 6.225750783484716e-05,
      "loss": 1.5652,
      "step": 71344
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6433534622192383,
      "learning_rate": 6.225113318697272e-05,
      "loss": 1.5684,
      "step": 71345
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6517291069030762,
      "learning_rate": 6.224475882769038e-05,
      "loss": 1.5779,
      "step": 71346
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6663619875907898,
      "learning_rate": 6.223838475700777e-05,
      "loss": 1.4292,
      "step": 71347
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6489909887313843,
      "learning_rate": 6.22320109749328e-05,
      "loss": 1.5557,
      "step": 71348
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6573908925056458,
      "learning_rate": 6.222563748147318e-05,
      "loss": 1.5456,
      "step": 71349
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6579130291938782,
      "learning_rate": 6.22192642766365e-05,
      "loss": 1.538,
      "step": 71350
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6278631687164307,
      "learning_rate": 6.221289136043065e-05,
      "loss": 1.5368,
      "step": 71351
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6210054755210876,
      "learning_rate": 6.220651873286327e-05,
      "loss": 1.457,
      "step": 71352
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6692964434623718,
      "learning_rate": 6.220014639394221e-05,
      "loss": 1.5617,
      "step": 71353
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6491217613220215,
      "learning_rate": 6.219377434367504e-05,
      "loss": 1.4757,
      "step": 71354
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6519674062728882,
      "learning_rate": 6.21874025820697e-05,
      "loss": 1.5251,
      "step": 71355
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6385492086410522,
      "learning_rate": 6.218103110913379e-05,
      "loss": 1.4592,
      "step": 71356
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.636429488658905,
      "learning_rate": 6.217465992487498e-05,
      "loss": 1.4894,
      "step": 71357
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6393342614173889,
      "learning_rate": 6.216828902930119e-05,
      "loss": 1.5934,
      "step": 71358
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6492487192153931,
      "learning_rate": 6.216191842241996e-05,
      "loss": 1.5496,
      "step": 71359
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6535387635231018,
      "learning_rate": 6.21555481042392e-05,
      "loss": 1.4811,
      "step": 71360
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6275712251663208,
      "learning_rate": 6.21491780747665e-05,
      "loss": 1.5629,
      "step": 71361
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6452972292900085,
      "learning_rate": 6.214280833400972e-05,
      "loss": 1.5193,
      "step": 71362
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6359860301017761,
      "learning_rate": 6.213643888197651e-05,
      "loss": 1.6101,
      "step": 71363
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6254711747169495,
      "learning_rate": 6.213006971867455e-05,
      "loss": 1.5273,
      "step": 71364
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6538944244384766,
      "learning_rate": 6.212370084411171e-05,
      "loss": 1.5856,
      "step": 71365
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6426755785942078,
      "learning_rate": 6.211733225829557e-05,
      "loss": 1.5205,
      "step": 71366
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6764770150184631,
      "learning_rate": 6.211096396123402e-05,
      "loss": 1.5397,
      "step": 71367
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6499924063682556,
      "learning_rate": 6.21045959529347e-05,
      "loss": 1.5631,
      "step": 71368
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6921290159225464,
      "learning_rate": 6.209822823340528e-05,
      "loss": 1.6103,
      "step": 71369
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.620736300945282,
      "learning_rate": 6.209186080265364e-05,
      "loss": 1.4582,
      "step": 71370
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6657236814498901,
      "learning_rate": 6.208549366068735e-05,
      "loss": 1.6385,
      "step": 71371
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6362609267234802,
      "learning_rate": 6.207912680751426e-05,
      "loss": 1.5848,
      "step": 71372
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6536937355995178,
      "learning_rate": 6.207276024314201e-05,
      "loss": 1.5705,
      "step": 71373
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6805304288864136,
      "learning_rate": 6.206639396757845e-05,
      "loss": 1.515,
      "step": 71374
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6577914357185364,
      "learning_rate": 6.20600279808312e-05,
      "loss": 1.4975,
      "step": 71375
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6355589628219604,
      "learning_rate": 6.205366228290796e-05,
      "loss": 1.5047,
      "step": 71376
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6304675340652466,
      "learning_rate": 6.20472968738166e-05,
      "loss": 1.5323,
      "step": 71377
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6518428325653076,
      "learning_rate": 6.204093175356476e-05,
      "loss": 1.5414,
      "step": 71378
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6439135670661926,
      "learning_rate": 6.203456692216006e-05,
      "loss": 1.5814,
      "step": 71379
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6594984531402588,
      "learning_rate": 6.202820237961038e-05,
      "loss": 1.534,
      "step": 71380
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6368658542633057,
      "learning_rate": 6.202183812592344e-05,
      "loss": 1.4076,
      "step": 71381
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.640831708908081,
      "learning_rate": 6.201547416110694e-05,
      "loss": 1.4971,
      "step": 71382
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6497936844825745,
      "learning_rate": 6.20091104851685e-05,
      "loss": 1.5443,
      "step": 71383
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6470373868942261,
      "learning_rate": 6.200274709811602e-05,
      "loss": 1.5137,
      "step": 71384
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.6536690592765808,
      "learning_rate": 6.199638399995714e-05,
      "loss": 1.5339,
      "step": 71385
    },
    {
      "epoch": 2.38,
      "grad_norm": 2.2736105918884277,
      "learning_rate": 6.199002119069949e-05,
      "loss": 1.5315,
      "step": 71386
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6718260049819946,
      "learning_rate": 6.19836586703509e-05,
      "loss": 1.614,
      "step": 71387
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6619746685028076,
      "learning_rate": 6.197729643891925e-05,
      "loss": 1.5194,
      "step": 71388
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6380181312561035,
      "learning_rate": 6.197093449641191e-05,
      "loss": 1.5527,
      "step": 71389
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6511297821998596,
      "learning_rate": 6.19645728428368e-05,
      "loss": 1.4914,
      "step": 71390
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6458410620689392,
      "learning_rate": 6.195821147820167e-05,
      "loss": 1.5757,
      "step": 71391
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6318390965461731,
      "learning_rate": 6.195185040251421e-05,
      "loss": 1.4425,
      "step": 71392
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6634915471076965,
      "learning_rate": 6.194548961578209e-05,
      "loss": 1.4987,
      "step": 71393
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6495059132575989,
      "learning_rate": 6.193912911801301e-05,
      "loss": 1.4763,
      "step": 71394
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6350592970848083,
      "learning_rate": 6.193276890921495e-05,
      "loss": 1.5947,
      "step": 71395
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6424662470817566,
      "learning_rate": 6.192640898939526e-05,
      "loss": 1.5624,
      "step": 71396
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.644318699836731,
      "learning_rate": 6.192004935856184e-05,
      "loss": 1.5003,
      "step": 71397
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6227560043334961,
      "learning_rate": 6.191369001672245e-05,
      "loss": 1.4685,
      "step": 71398
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6271020770072937,
      "learning_rate": 6.190733096388481e-05,
      "loss": 1.5198,
      "step": 71399
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6520019173622131,
      "learning_rate": 6.190097220005646e-05,
      "loss": 1.5267,
      "step": 71400
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6269723773002625,
      "learning_rate": 6.18946137252453e-05,
      "loss": 1.5879,
      "step": 71401
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6285703778266907,
      "learning_rate": 6.188825553945911e-05,
      "loss": 1.5125,
      "step": 71402
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6722289323806763,
      "learning_rate": 6.188189764270535e-05,
      "loss": 1.5727,
      "step": 71403
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6353859901428223,
      "learning_rate": 6.187554003499186e-05,
      "loss": 1.5533,
      "step": 71404
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6413202285766602,
      "learning_rate": 6.18691827163265e-05,
      "loss": 1.4873,
      "step": 71405
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6180151104927063,
      "learning_rate": 6.186282568671682e-05,
      "loss": 1.4853,
      "step": 71406
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6545050144195557,
      "learning_rate": 6.185646894617055e-05,
      "loss": 1.493,
      "step": 71407
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.7114872336387634,
      "learning_rate": 6.185011249469547e-05,
      "loss": 1.5981,
      "step": 71408
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6302697062492371,
      "learning_rate": 6.184375633229929e-05,
      "loss": 1.516,
      "step": 71409
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6398051977157593,
      "learning_rate": 6.183740045898963e-05,
      "loss": 1.5147,
      "step": 71410
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6527654528617859,
      "learning_rate": 6.183104487477425e-05,
      "loss": 1.553,
      "step": 71411
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6342305541038513,
      "learning_rate": 6.182468957966097e-05,
      "loss": 1.5517,
      "step": 71412
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6531522274017334,
      "learning_rate": 6.181833457365744e-05,
      "loss": 1.5189,
      "step": 71413
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6770831346511841,
      "learning_rate": 6.181197985677128e-05,
      "loss": 1.5561,
      "step": 71414
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.637317419052124,
      "learning_rate": 6.180562542901033e-05,
      "loss": 1.5055,
      "step": 71415
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6341585516929626,
      "learning_rate": 6.17992712903823e-05,
      "loss": 1.4539,
      "step": 71416
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6558021903038025,
      "learning_rate": 6.179291744089475e-05,
      "loss": 1.5421,
      "step": 71417
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.656904935836792,
      "learning_rate": 6.178656388055558e-05,
      "loss": 1.4582,
      "step": 71418
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6424077749252319,
      "learning_rate": 6.178021060937233e-05,
      "loss": 1.5078,
      "step": 71419
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6387543678283691,
      "learning_rate": 6.17738576273529e-05,
      "loss": 1.5171,
      "step": 71420
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6502485871315002,
      "learning_rate": 6.176750493450485e-05,
      "loss": 1.5064,
      "step": 71421
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6369130611419678,
      "learning_rate": 6.176115253083599e-05,
      "loss": 1.5799,
      "step": 71422
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6092240810394287,
      "learning_rate": 6.175480041635392e-05,
      "loss": 1.4638,
      "step": 71423
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6345243453979492,
      "learning_rate": 6.174844859106651e-05,
      "loss": 1.4963,
      "step": 71424
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6592389345169067,
      "learning_rate": 6.174209705498135e-05,
      "loss": 1.513,
      "step": 71425
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6196517944335938,
      "learning_rate": 6.173574580810613e-05,
      "loss": 1.5436,
      "step": 71426
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6275330781936646,
      "learning_rate": 6.172939485044866e-05,
      "loss": 1.551,
      "step": 71427
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6566587090492249,
      "learning_rate": 6.172304418201663e-05,
      "loss": 1.5073,
      "step": 71428
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6569247841835022,
      "learning_rate": 6.17166938028176e-05,
      "loss": 1.5293,
      "step": 71429
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6521875262260437,
      "learning_rate": 6.171034371285941e-05,
      "loss": 1.525,
      "step": 71430
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6297851800918579,
      "learning_rate": 6.170399391214982e-05,
      "loss": 1.5915,
      "step": 71431
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6554981470108032,
      "learning_rate": 6.169764440069652e-05,
      "loss": 1.5283,
      "step": 71432
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6184713840484619,
      "learning_rate": 6.169129517850703e-05,
      "loss": 1.4687,
      "step": 71433
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6263843774795532,
      "learning_rate": 6.16849462455893e-05,
      "loss": 1.5569,
      "step": 71434
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.669429361820221,
      "learning_rate": 6.16785976019509e-05,
      "loss": 1.5636,
      "step": 71435
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6549251675605774,
      "learning_rate": 6.167224924759953e-05,
      "loss": 1.4918,
      "step": 71436
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6475147008895874,
      "learning_rate": 6.166590118254292e-05,
      "loss": 1.4566,
      "step": 71437
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6389952898025513,
      "learning_rate": 6.165955340678896e-05,
      "loss": 1.4955,
      "step": 71438
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.649348258972168,
      "learning_rate": 6.1653205920345e-05,
      "loss": 1.5134,
      "step": 71439
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.644210696220398,
      "learning_rate": 6.164685872321894e-05,
      "loss": 1.4824,
      "step": 71440
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6490454077720642,
      "learning_rate": 6.164051181541855e-05,
      "loss": 1.5242,
      "step": 71441
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6435002088546753,
      "learning_rate": 6.163416519695148e-05,
      "loss": 1.5162,
      "step": 71442
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6681987643241882,
      "learning_rate": 6.16278188678253e-05,
      "loss": 1.5102,
      "step": 71443
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6516743898391724,
      "learning_rate": 6.162147282804786e-05,
      "loss": 1.5407,
      "step": 71444
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6216157078742981,
      "learning_rate": 6.161512707762696e-05,
      "loss": 1.5106,
      "step": 71445
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6112275719642639,
      "learning_rate": 6.160878161657002e-05,
      "loss": 1.5617,
      "step": 71446
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6307271122932434,
      "learning_rate": 6.160243644488488e-05,
      "loss": 1.4762,
      "step": 71447
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6727939248085022,
      "learning_rate": 6.159609156257936e-05,
      "loss": 1.4912,
      "step": 71448
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6666516065597534,
      "learning_rate": 6.158974696966102e-05,
      "loss": 1.612,
      "step": 71449
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6351150870323181,
      "learning_rate": 6.158340266613756e-05,
      "loss": 1.5253,
      "step": 71450
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6269025802612305,
      "learning_rate": 6.15770586520167e-05,
      "loss": 1.5062,
      "step": 71451
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6124913692474365,
      "learning_rate": 6.157071492730633e-05,
      "loss": 1.4349,
      "step": 71452
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6586013436317444,
      "learning_rate": 6.156437149201382e-05,
      "loss": 1.5098,
      "step": 71453
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6704955697059631,
      "learning_rate": 6.155802834614703e-05,
      "loss": 1.5625,
      "step": 71454
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6479809284210205,
      "learning_rate": 6.155168548971375e-05,
      "loss": 1.4476,
      "step": 71455
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6520056128501892,
      "learning_rate": 6.154534292272156e-05,
      "loss": 1.5554,
      "step": 71456
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6355321407318115,
      "learning_rate": 6.153900064517815e-05,
      "loss": 1.5514,
      "step": 71457
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6610384583473206,
      "learning_rate": 6.153265865709133e-05,
      "loss": 1.5177,
      "step": 71458
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6446325778961182,
      "learning_rate": 6.152631695846869e-05,
      "loss": 1.5096,
      "step": 71459
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.629056990146637,
      "learning_rate": 6.15199755493179e-05,
      "loss": 1.457,
      "step": 71460
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6565878391265869,
      "learning_rate": 6.151363442964675e-05,
      "loss": 1.563,
      "step": 71461
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6228581666946411,
      "learning_rate": 6.150729359946297e-05,
      "loss": 1.4661,
      "step": 71462
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6552368998527527,
      "learning_rate": 6.150095305877418e-05,
      "loss": 1.5172,
      "step": 71463
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.641127347946167,
      "learning_rate": 6.149461280758802e-05,
      "loss": 1.4209,
      "step": 71464
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6292829513549805,
      "learning_rate": 6.148827284591233e-05,
      "loss": 1.5027,
      "step": 71465
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6527401208877563,
      "learning_rate": 6.148193317375476e-05,
      "loss": 1.5752,
      "step": 71466
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6634277105331421,
      "learning_rate": 6.14755937911229e-05,
      "loss": 1.5378,
      "step": 71467
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6570382714271545,
      "learning_rate": 6.146925469802458e-05,
      "loss": 1.5848,
      "step": 71468
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6298352479934692,
      "learning_rate": 6.146291589446737e-05,
      "loss": 1.5344,
      "step": 71469
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6196327805519104,
      "learning_rate": 6.14565773804591e-05,
      "loss": 1.5102,
      "step": 71470
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.643964946269989,
      "learning_rate": 6.145023915600732e-05,
      "loss": 1.5404,
      "step": 71471
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6379069089889526,
      "learning_rate": 6.144390122111991e-05,
      "loss": 1.4781,
      "step": 71472
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.668220579624176,
      "learning_rate": 6.143756357580442e-05,
      "loss": 1.4663,
      "step": 71473
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6285900473594666,
      "learning_rate": 6.14312262200685e-05,
      "loss": 1.5283,
      "step": 71474
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6668168902397156,
      "learning_rate": 6.142488915392005e-05,
      "loss": 1.5223,
      "step": 71475
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6385443210601807,
      "learning_rate": 6.141855237736649e-05,
      "loss": 1.5359,
      "step": 71476
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6134709715843201,
      "learning_rate": 6.141221589041575e-05,
      "loss": 1.5541,
      "step": 71477
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.651888906955719,
      "learning_rate": 6.140587969307545e-05,
      "loss": 1.5594,
      "step": 71478
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6264809370040894,
      "learning_rate": 6.139954378535313e-05,
      "loss": 1.5071,
      "step": 71479
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6628472208976746,
      "learning_rate": 6.139320816725675e-05,
      "loss": 1.5032,
      "step": 71480
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6775821447372437,
      "learning_rate": 6.138687283879374e-05,
      "loss": 1.549,
      "step": 71481
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6760597229003906,
      "learning_rate": 6.138053779997198e-05,
      "loss": 1.5526,
      "step": 71482
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6405042409896851,
      "learning_rate": 6.137420305079903e-05,
      "loss": 1.5083,
      "step": 71483
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6338499188423157,
      "learning_rate": 6.13678685912827e-05,
      "loss": 1.5397,
      "step": 71484
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6340790390968323,
      "learning_rate": 6.136153442143065e-05,
      "loss": 1.5282,
      "step": 71485
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.635820209980011,
      "learning_rate": 6.13552005412504e-05,
      "loss": 1.5583,
      "step": 71486
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6302416920661926,
      "learning_rate": 6.134886695074991e-05,
      "loss": 1.4419,
      "step": 71487
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6578733325004578,
      "learning_rate": 6.134253364993661e-05,
      "loss": 1.5155,
      "step": 71488
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.655458390712738,
      "learning_rate": 6.13362006388184e-05,
      "loss": 1.4463,
      "step": 71489
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6516234874725342,
      "learning_rate": 6.13298679174028e-05,
      "loss": 1.5241,
      "step": 71490
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.631829559803009,
      "learning_rate": 6.132353548569768e-05,
      "loss": 1.5262,
      "step": 71491
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6277542114257812,
      "learning_rate": 6.131720334371059e-05,
      "loss": 1.578,
      "step": 71492
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6559644937515259,
      "learning_rate": 6.131087149144918e-05,
      "loss": 1.5445,
      "step": 71493
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6437225341796875,
      "learning_rate": 6.130453992892127e-05,
      "loss": 1.4889,
      "step": 71494
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.637051522731781,
      "learning_rate": 6.129820865613449e-05,
      "loss": 1.55,
      "step": 71495
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6669792532920837,
      "learning_rate": 6.129187767309645e-05,
      "loss": 1.5455,
      "step": 71496
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6452211141586304,
      "learning_rate": 6.128554697981488e-05,
      "loss": 1.5011,
      "step": 71497
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.636153519153595,
      "learning_rate": 6.127921657629757e-05,
      "loss": 1.5553,
      "step": 71498
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6267388463020325,
      "learning_rate": 6.127288646255208e-05,
      "loss": 1.547,
      "step": 71499
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6653468608856201,
      "learning_rate": 6.12665566385861e-05,
      "loss": 1.5998,
      "step": 71500
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6537079215049744,
      "learning_rate": 6.126022710440739e-05,
      "loss": 1.5092,
      "step": 71501
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6453090906143188,
      "learning_rate": 6.12538978600236e-05,
      "loss": 1.5395,
      "step": 71502
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6460707187652588,
      "learning_rate": 6.124756890544235e-05,
      "loss": 1.5453,
      "step": 71503
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6420912742614746,
      "learning_rate": 6.124124024067134e-05,
      "loss": 1.5485,
      "step": 71504
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6628906726837158,
      "learning_rate": 6.123491186571844e-05,
      "loss": 1.5068,
      "step": 71505
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6501766443252563,
      "learning_rate": 6.122858378059104e-05,
      "loss": 1.4905,
      "step": 71506
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6478598713874817,
      "learning_rate": 6.122225598529692e-05,
      "loss": 1.5295,
      "step": 71507
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6507361531257629,
      "learning_rate": 6.121592847984393e-05,
      "loss": 1.5478,
      "step": 71508
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6350733637809753,
      "learning_rate": 6.120960126423957e-05,
      "loss": 1.5312,
      "step": 71509
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6333584189414978,
      "learning_rate": 6.120327433849153e-05,
      "loss": 1.5008,
      "step": 71510
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6242995858192444,
      "learning_rate": 6.119694770260751e-05,
      "loss": 1.4814,
      "step": 71511
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6280564665794373,
      "learning_rate": 6.119062135659536e-05,
      "loss": 1.5032,
      "step": 71512
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.639268696308136,
      "learning_rate": 6.118429530046246e-05,
      "loss": 1.529,
      "step": 71513
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6509444713592529,
      "learning_rate": 6.117796953421664e-05,
      "loss": 1.5855,
      "step": 71514
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6247167587280273,
      "learning_rate": 6.117164405786566e-05,
      "loss": 1.5034,
      "step": 71515
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6386420130729675,
      "learning_rate": 6.116531887141712e-05,
      "loss": 1.5701,
      "step": 71516
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6336202621459961,
      "learning_rate": 6.115899397487861e-05,
      "loss": 1.5063,
      "step": 71517
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6270226836204529,
      "learning_rate": 6.115266936825786e-05,
      "loss": 1.4546,
      "step": 71518
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.680233359336853,
      "learning_rate": 6.114634505156279e-05,
      "loss": 1.5518,
      "step": 71519
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6533392071723938,
      "learning_rate": 6.114002102480066e-05,
      "loss": 1.6113,
      "step": 71520
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6728516221046448,
      "learning_rate": 6.113369728797936e-05,
      "loss": 1.5726,
      "step": 71521
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.642634928226471,
      "learning_rate": 6.112737384110664e-05,
      "loss": 1.4727,
      "step": 71522
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.622910737991333,
      "learning_rate": 6.112105068419008e-05,
      "loss": 1.5482,
      "step": 71523
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6387665271759033,
      "learning_rate": 6.11147278172373e-05,
      "loss": 1.5103,
      "step": 71524
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6486241817474365,
      "learning_rate": 6.110840524025613e-05,
      "loss": 1.5498,
      "step": 71525
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.657393217086792,
      "learning_rate": 6.110208295325414e-05,
      "loss": 1.5784,
      "step": 71526
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6516374349594116,
      "learning_rate": 6.109576095623895e-05,
      "loss": 1.5796,
      "step": 71527
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6500256657600403,
      "learning_rate": 6.108943924921832e-05,
      "loss": 1.5261,
      "step": 71528
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6557744145393372,
      "learning_rate": 6.108311783219994e-05,
      "loss": 1.5094,
      "step": 71529
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6421040892601013,
      "learning_rate": 6.107679670519152e-05,
      "loss": 1.5243,
      "step": 71530
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6387194991111755,
      "learning_rate": 6.107047586820054e-05,
      "loss": 1.555,
      "step": 71531
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6471707224845886,
      "learning_rate": 6.10641553212349e-05,
      "loss": 1.5022,
      "step": 71532
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6289856433868408,
      "learning_rate": 6.105783506430215e-05,
      "loss": 1.4586,
      "step": 71533
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6545469760894775,
      "learning_rate": 6.10515150974099e-05,
      "loss": 1.5212,
      "step": 71534
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6449497938156128,
      "learning_rate": 6.1045195420566e-05,
      "loss": 1.5039,
      "step": 71535
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6532626748085022,
      "learning_rate": 6.103887603377794e-05,
      "loss": 1.4996,
      "step": 71536
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6246490478515625,
      "learning_rate": 6.103255693705356e-05,
      "loss": 1.5378,
      "step": 71537
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6430596113204956,
      "learning_rate": 6.102623813040034e-05,
      "loss": 1.4273,
      "step": 71538
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.960589587688446,
      "learning_rate": 6.101991961382615e-05,
      "loss": 1.5756,
      "step": 71539
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6385658979415894,
      "learning_rate": 6.1013601387338515e-05,
      "loss": 1.4653,
      "step": 71540
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6195552945137024,
      "learning_rate": 6.10072834509452e-05,
      "loss": 1.5693,
      "step": 71541
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6661860346794128,
      "learning_rate": 6.100096580465382e-05,
      "loss": 1.5612,
      "step": 71542
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6650221943855286,
      "learning_rate": 6.0994648448472014e-05,
      "loss": 1.5215,
      "step": 71543
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6468998789787292,
      "learning_rate": 6.098833138240754e-05,
      "loss": 1.5672,
      "step": 71544
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6649011373519897,
      "learning_rate": 6.098201460646802e-05,
      "loss": 1.526,
      "step": 71545
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6454178094863892,
      "learning_rate": 6.097569812066106e-05,
      "loss": 1.4835,
      "step": 71546
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6469979882240295,
      "learning_rate": 6.0969381924994335e-05,
      "loss": 1.4323,
      "step": 71547
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6296370625495911,
      "learning_rate": 6.096306601947568e-05,
      "loss": 1.5139,
      "step": 71548
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6364918351173401,
      "learning_rate": 6.095675040411263e-05,
      "loss": 1.5291,
      "step": 71549
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.651202380657196,
      "learning_rate": 6.0950435078912775e-05,
      "loss": 1.5531,
      "step": 71550
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6367111802101135,
      "learning_rate": 6.094412004388397e-05,
      "loss": 1.4175,
      "step": 71551
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6542476415634155,
      "learning_rate": 6.0937805299033745e-05,
      "loss": 1.505,
      "step": 71552
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6467268466949463,
      "learning_rate": 6.093149084436977e-05,
      "loss": 1.6201,
      "step": 71553
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6521644592285156,
      "learning_rate": 6.092517667989969e-05,
      "loss": 1.5134,
      "step": 71554
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6476222276687622,
      "learning_rate": 6.0918862805631406e-05,
      "loss": 1.5703,
      "step": 71555
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6467257738113403,
      "learning_rate": 6.091254922157225e-05,
      "loss": 1.5578,
      "step": 71556
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6559509634971619,
      "learning_rate": 6.0906235927730005e-05,
      "loss": 1.4874,
      "step": 71557
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6994284391403198,
      "learning_rate": 6.089992292411244e-05,
      "loss": 1.4657,
      "step": 71558
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6461753249168396,
      "learning_rate": 6.089361021072715e-05,
      "loss": 1.5705,
      "step": 71559
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6434820294380188,
      "learning_rate": 6.0887297787581725e-05,
      "loss": 1.4611,
      "step": 71560
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6329137086868286,
      "learning_rate": 6.0880985654683855e-05,
      "loss": 1.4763,
      "step": 71561
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6617422699928284,
      "learning_rate": 6.087467381204141e-05,
      "loss": 1.4974,
      "step": 71562
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6254076361656189,
      "learning_rate": 6.086836225966171e-05,
      "loss": 1.4542,
      "step": 71563
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6519736647605896,
      "learning_rate": 6.086205099755261e-05,
      "loss": 1.5114,
      "step": 71564
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6455413103103638,
      "learning_rate": 6.0855740025721785e-05,
      "loss": 1.4491,
      "step": 71565
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6256810426712036,
      "learning_rate": 6.084942934417689e-05,
      "loss": 1.6186,
      "step": 71566
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6359628438949585,
      "learning_rate": 6.084311895292545e-05,
      "loss": 1.5263,
      "step": 71567
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6496019959449768,
      "learning_rate": 6.083680885197523e-05,
      "loss": 1.4882,
      "step": 71568
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6564282178878784,
      "learning_rate": 6.0830499041334046e-05,
      "loss": 1.4931,
      "step": 71569
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6471610069274902,
      "learning_rate": 6.082418952100924e-05,
      "loss": 1.4668,
      "step": 71570
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6463261246681213,
      "learning_rate": 6.081788029100862e-05,
      "loss": 1.5642,
      "step": 71571
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.631576657295227,
      "learning_rate": 6.0811571351339935e-05,
      "loss": 1.5545,
      "step": 71572
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6889092922210693,
      "learning_rate": 6.080526270201077e-05,
      "loss": 1.549,
      "step": 71573
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6538853049278259,
      "learning_rate": 6.0798954343028685e-05,
      "loss": 1.5023,
      "step": 71574
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6476877927780151,
      "learning_rate": 6.0792646274401504e-05,
      "loss": 1.4682,
      "step": 71575
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6631264090538025,
      "learning_rate": 6.0786338496136825e-05,
      "loss": 1.562,
      "step": 71576
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6174324154853821,
      "learning_rate": 6.078003100824217e-05,
      "loss": 1.5356,
      "step": 71577
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6467205286026001,
      "learning_rate": 6.077372381072531e-05,
      "loss": 1.5239,
      "step": 71578
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6403404474258423,
      "learning_rate": 6.076741690359399e-05,
      "loss": 1.5295,
      "step": 71579
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6323684453964233,
      "learning_rate": 6.076111028685578e-05,
      "loss": 1.4916,
      "step": 71580
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6459769010543823,
      "learning_rate": 6.0754803960518284e-05,
      "loss": 1.594,
      "step": 71581
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6515474319458008,
      "learning_rate": 6.0748497924589244e-05,
      "loss": 1.5417,
      "step": 71582
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6674472689628601,
      "learning_rate": 6.0742192179076264e-05,
      "loss": 1.5488,
      "step": 71583
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6531306505203247,
      "learning_rate": 6.073588672398697e-05,
      "loss": 1.4984,
      "step": 71584
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6593852043151855,
      "learning_rate": 6.072958155932912e-05,
      "loss": 1.4536,
      "step": 71585
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6367332339286804,
      "learning_rate": 6.072327668511021e-05,
      "loss": 1.5229,
      "step": 71586
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6548975706100464,
      "learning_rate": 6.071697210133807e-05,
      "loss": 1.522,
      "step": 71587
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6555377840995789,
      "learning_rate": 6.071066780802022e-05,
      "loss": 1.5523,
      "step": 71588
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6554492712020874,
      "learning_rate": 6.070436380516439e-05,
      "loss": 1.5192,
      "step": 71589
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.635842502117157,
      "learning_rate": 6.069806009277825e-05,
      "loss": 1.488,
      "step": 71590
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6822223663330078,
      "learning_rate": 6.0691756670869305e-05,
      "loss": 1.5968,
      "step": 71591
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6518392562866211,
      "learning_rate": 6.068545353944537e-05,
      "loss": 1.5102,
      "step": 71592
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6719762682914734,
      "learning_rate": 6.0679150698514004e-05,
      "loss": 1.5559,
      "step": 71593
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6628312468528748,
      "learning_rate": 6.067284814808292e-05,
      "loss": 1.5131,
      "step": 71594
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6398980617523193,
      "learning_rate": 6.0666545888159754e-05,
      "loss": 1.5368,
      "step": 71595
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6373518705368042,
      "learning_rate": 6.066024391875204e-05,
      "loss": 1.5435,
      "step": 71596
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6321374177932739,
      "learning_rate": 6.065394223986763e-05,
      "loss": 1.562,
      "step": 71597
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6387306451797485,
      "learning_rate": 6.0647640851513976e-05,
      "loss": 1.4781,
      "step": 71598
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6340606808662415,
      "learning_rate": 6.064133975369889e-05,
      "loss": 1.5177,
      "step": 71599
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.660382091999054,
      "learning_rate": 6.0635038946429894e-05,
      "loss": 1.4897,
      "step": 71600
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6351569890975952,
      "learning_rate": 6.062873842971474e-05,
      "loss": 1.5012,
      "step": 71601
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6476340293884277,
      "learning_rate": 6.062243820356103e-05,
      "loss": 1.5215,
      "step": 71602
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6411989331245422,
      "learning_rate": 6.061613826797636e-05,
      "loss": 1.5922,
      "step": 71603
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6466650366783142,
      "learning_rate": 6.0609838622968475e-05,
      "loss": 1.5156,
      "step": 71604
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6397220492362976,
      "learning_rate": 6.060353926854492e-05,
      "loss": 1.5294,
      "step": 71605
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6435105800628662,
      "learning_rate": 6.059724020471345e-05,
      "loss": 1.4983,
      "step": 71606
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6370124816894531,
      "learning_rate": 6.059094143148159e-05,
      "loss": 1.5141,
      "step": 71607
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6474230885505676,
      "learning_rate": 6.0584642948857133e-05,
      "loss": 1.4759,
      "step": 71608
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6637241840362549,
      "learning_rate": 6.057834475684764e-05,
      "loss": 1.5015,
      "step": 71609
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6435539722442627,
      "learning_rate": 6.0572046855460676e-05,
      "loss": 1.5025,
      "step": 71610
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.648617684841156,
      "learning_rate": 6.056574924470407e-05,
      "loss": 1.5134,
      "step": 71611
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6688395142555237,
      "learning_rate": 6.0559451924585333e-05,
      "loss": 1.5062,
      "step": 71612
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.638626217842102,
      "learning_rate": 6.055315489511211e-05,
      "loss": 1.5262,
      "step": 71613
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6556408405303955,
      "learning_rate": 6.054685815629202e-05,
      "loss": 1.5273,
      "step": 71614
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.641333281993866,
      "learning_rate": 6.054056170813286e-05,
      "loss": 1.5136,
      "step": 71615
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6624155044555664,
      "learning_rate": 6.053426555064219e-05,
      "loss": 1.544,
      "step": 71616
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.673721969127655,
      "learning_rate": 6.052796968382757e-05,
      "loss": 1.5194,
      "step": 71617
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.630372941493988,
      "learning_rate": 6.052167410769676e-05,
      "loss": 1.5177,
      "step": 71618
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6818190813064575,
      "learning_rate": 6.0515378822257355e-05,
      "loss": 1.5069,
      "step": 71619
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.647395133972168,
      "learning_rate": 6.0509083827516915e-05,
      "loss": 1.5617,
      "step": 71620
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6354709267616272,
      "learning_rate": 6.050278912348316e-05,
      "loss": 1.5552,
      "step": 71621
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6709140539169312,
      "learning_rate": 6.04964947101639e-05,
      "loss": 1.5646,
      "step": 71622
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6580556631088257,
      "learning_rate": 6.049020058756645e-05,
      "loss": 1.4928,
      "step": 71623
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6122074723243713,
      "learning_rate": 6.0483906755698606e-05,
      "loss": 1.559,
      "step": 71624
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6807717680931091,
      "learning_rate": 6.047761321456806e-05,
      "loss": 1.5958,
      "step": 71625
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6480143666267395,
      "learning_rate": 6.047131996418245e-05,
      "loss": 1.4577,
      "step": 71626
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6472498774528503,
      "learning_rate": 6.046502700454926e-05,
      "loss": 1.4961,
      "step": 71627
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6323233842849731,
      "learning_rate": 6.045873433567622e-05,
      "loss": 1.4569,
      "step": 71628
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6388274431228638,
      "learning_rate": 6.045244195757115e-05,
      "loss": 1.499,
      "step": 71629
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6360539793968201,
      "learning_rate": 6.0446149870241356e-05,
      "loss": 1.6088,
      "step": 71630
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6418402194976807,
      "learning_rate": 6.043985807369466e-05,
      "loss": 1.5273,
      "step": 71631
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6951239705085754,
      "learning_rate": 6.043356656793872e-05,
      "loss": 1.5705,
      "step": 71632
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6622756719589233,
      "learning_rate": 6.042727535298116e-05,
      "loss": 1.5425,
      "step": 71633
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6648359894752502,
      "learning_rate": 6.042098442882949e-05,
      "loss": 1.4978,
      "step": 71634
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6555952429771423,
      "learning_rate": 6.0414693795491484e-05,
      "loss": 1.5627,
      "step": 71635
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6115033626556396,
      "learning_rate": 6.0408403452974854e-05,
      "loss": 1.4716,
      "step": 71636
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6215559840202332,
      "learning_rate": 6.040211340128698e-05,
      "loss": 1.5512,
      "step": 71637
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6296831369400024,
      "learning_rate": 6.0395823640435626e-05,
      "loss": 1.5158,
      "step": 71638
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6435310244560242,
      "learning_rate": 6.038953417042855e-05,
      "loss": 1.5367,
      "step": 71639
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6342406868934631,
      "learning_rate": 6.038324499127323e-05,
      "loss": 1.5569,
      "step": 71640
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6635738611221313,
      "learning_rate": 6.03769561029773e-05,
      "loss": 1.6301,
      "step": 71641
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6853957772254944,
      "learning_rate": 6.037066750554851e-05,
      "loss": 1.4716,
      "step": 71642
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6700637936592102,
      "learning_rate": 6.03643791989944e-05,
      "loss": 1.5872,
      "step": 71643
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6403830051422119,
      "learning_rate": 6.0358091183322585e-05,
      "loss": 1.4972,
      "step": 71644
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6487733125686646,
      "learning_rate": 6.035180345854071e-05,
      "loss": 1.4564,
      "step": 71645
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6702281832695007,
      "learning_rate": 6.0345516024656516e-05,
      "loss": 1.4844,
      "step": 71646
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6606441736221313,
      "learning_rate": 6.033922888167755e-05,
      "loss": 1.5968,
      "step": 71647
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6314283013343811,
      "learning_rate": 6.033294202961138e-05,
      "loss": 1.527,
      "step": 71648
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6385819315910339,
      "learning_rate": 6.032665546846579e-05,
      "loss": 1.5412,
      "step": 71649
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6541727185249329,
      "learning_rate": 6.032036919824822e-05,
      "loss": 1.5262,
      "step": 71650
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6524965167045593,
      "learning_rate": 6.031408321896653e-05,
      "loss": 1.4801,
      "step": 71651
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6359185576438904,
      "learning_rate": 6.0307797530628165e-05,
      "loss": 1.5239,
      "step": 71652
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6452503204345703,
      "learning_rate": 6.030151213324077e-05,
      "loss": 1.5304,
      "step": 71653
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.649385392665863,
      "learning_rate": 6.029522702681213e-05,
      "loss": 1.5176,
      "step": 71654
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6140869855880737,
      "learning_rate": 6.028894221134964e-05,
      "loss": 1.4792,
      "step": 71655
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6447768807411194,
      "learning_rate": 6.028265768686117e-05,
      "loss": 1.4955,
      "step": 71656
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6740828156471252,
      "learning_rate": 6.0276373453354135e-05,
      "loss": 1.5099,
      "step": 71657
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6397757530212402,
      "learning_rate": 6.027008951083633e-05,
      "loss": 1.5576,
      "step": 71658
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6787000894546509,
      "learning_rate": 6.0263805859315316e-05,
      "loss": 1.5279,
      "step": 71659
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6329865455627441,
      "learning_rate": 6.025752249879866e-05,
      "loss": 1.5708,
      "step": 71660
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6292665004730225,
      "learning_rate": 6.0251239429294116e-05,
      "loss": 1.5138,
      "step": 71661
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6213276982307434,
      "learning_rate": 6.024495665080925e-05,
      "loss": 1.4306,
      "step": 71662
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6475142240524292,
      "learning_rate": 6.023867416335158e-05,
      "loss": 1.5496,
      "step": 71663
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.7750964164733887,
      "learning_rate": 6.023239196692885e-05,
      "loss": 1.588,
      "step": 71664
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6425955891609192,
      "learning_rate": 6.022611006154874e-05,
      "loss": 1.5644,
      "step": 71665
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.625231146812439,
      "learning_rate": 6.021982844721881e-05,
      "loss": 1.4345,
      "step": 71666
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6390225887298584,
      "learning_rate": 6.021354712394659e-05,
      "loss": 1.519,
      "step": 71667
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6277256608009338,
      "learning_rate": 6.020726609173988e-05,
      "loss": 1.5175,
      "step": 71668
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.9221854209899902,
      "learning_rate": 6.02009853506062e-05,
      "loss": 1.5946,
      "step": 71669
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.661693811416626,
      "learning_rate": 6.019470490055315e-05,
      "loss": 1.4749,
      "step": 71670
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.643240749835968,
      "learning_rate": 6.018842474158835e-05,
      "loss": 1.4804,
      "step": 71671
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6854875683784485,
      "learning_rate": 6.0182144873719664e-05,
      "loss": 1.4867,
      "step": 71672
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6368330121040344,
      "learning_rate": 6.0175865296954354e-05,
      "loss": 1.5442,
      "step": 71673
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6235716938972473,
      "learning_rate": 6.0169586011300174e-05,
      "loss": 1.5641,
      "step": 71674
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6893242597579956,
      "learning_rate": 6.0163307016764896e-05,
      "loss": 1.5278,
      "step": 71675
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6549184322357178,
      "learning_rate": 6.015702831335601e-05,
      "loss": 1.5592,
      "step": 71676
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6326016783714294,
      "learning_rate": 6.015074990108106e-05,
      "loss": 1.4643,
      "step": 71677
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6504577994346619,
      "learning_rate": 6.014447177994777e-05,
      "loss": 1.5106,
      "step": 71678
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.670960545539856,
      "learning_rate": 6.013819394996391e-05,
      "loss": 1.5956,
      "step": 71679
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6308162212371826,
      "learning_rate": 6.0131916411136785e-05,
      "loss": 1.4886,
      "step": 71680
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.7277320623397827,
      "learning_rate": 6.012563916347418e-05,
      "loss": 1.5755,
      "step": 71681
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6705194115638733,
      "learning_rate": 6.0119362206983765e-05,
      "loss": 1.4752,
      "step": 71682
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6511175036430359,
      "learning_rate": 6.01130855416731e-05,
      "loss": 1.5196,
      "step": 71683
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6549745202064514,
      "learning_rate": 6.010680916754974e-05,
      "loss": 1.5921,
      "step": 71684
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6473158597946167,
      "learning_rate": 6.010053308462135e-05,
      "loss": 1.4515,
      "step": 71685
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6545768976211548,
      "learning_rate": 6.0094257292895754e-05,
      "loss": 1.584,
      "step": 71686
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6434431672096252,
      "learning_rate": 6.008798179238018e-05,
      "loss": 1.5571,
      "step": 71687
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6629272103309631,
      "learning_rate": 6.008170658308249e-05,
      "loss": 1.5029,
      "step": 71688
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6470250487327576,
      "learning_rate": 6.007543166501031e-05,
      "loss": 1.5071,
      "step": 71689
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6484012603759766,
      "learning_rate": 6.00691570381712e-05,
      "loss": 1.4897,
      "step": 71690
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6475852727890015,
      "learning_rate": 6.0062882702572726e-05,
      "loss": 1.5406,
      "step": 71691
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6378001570701599,
      "learning_rate": 6.005660865822261e-05,
      "loss": 1.5696,
      "step": 71692
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.626743495464325,
      "learning_rate": 6.005033490512844e-05,
      "loss": 1.5013,
      "step": 71693
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6476227045059204,
      "learning_rate": 6.004406144329772e-05,
      "loss": 1.5105,
      "step": 71694
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6595392227172852,
      "learning_rate": 6.003778827273814e-05,
      "loss": 1.4686,
      "step": 71695
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6634691953659058,
      "learning_rate": 6.003151539345743e-05,
      "loss": 1.4848,
      "step": 71696
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6729040741920471,
      "learning_rate": 6.002524280546308e-05,
      "loss": 1.5127,
      "step": 71697
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6395103931427002,
      "learning_rate": 6.001897050876269e-05,
      "loss": 1.492,
      "step": 71698
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.655780017375946,
      "learning_rate": 6.001269850336394e-05,
      "loss": 1.4258,
      "step": 71699
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6449772715568542,
      "learning_rate": 6.000642678927444e-05,
      "loss": 1.5392,
      "step": 71700
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6467500329017639,
      "learning_rate": 6.000015536650168e-05,
      "loss": 1.4805,
      "step": 71701
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6418680548667908,
      "learning_rate": 5.999388423505348e-05,
      "loss": 1.5928,
      "step": 71702
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.650341272354126,
      "learning_rate": 5.998761339493724e-05,
      "loss": 1.6,
      "step": 71703
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6289911270141602,
      "learning_rate": 5.998134284616075e-05,
      "loss": 1.5262,
      "step": 71704
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6347042322158813,
      "learning_rate": 5.9975072588731474e-05,
      "loss": 1.4987,
      "step": 71705
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6350913643836975,
      "learning_rate": 5.996880262265717e-05,
      "loss": 1.5416,
      "step": 71706
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.645392656326294,
      "learning_rate": 5.996253294794537e-05,
      "loss": 1.5479,
      "step": 71707
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6277452111244202,
      "learning_rate": 5.99562635646036e-05,
      "loss": 1.4053,
      "step": 71708
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6726034283638,
      "learning_rate": 5.994999447263965e-05,
      "loss": 1.5593,
      "step": 71709
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6392693519592285,
      "learning_rate": 5.9943725672060947e-05,
      "loss": 1.5702,
      "step": 71710
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6212155818939209,
      "learning_rate": 5.993745716287529e-05,
      "loss": 1.5171,
      "step": 71711
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6270132660865784,
      "learning_rate": 5.993118894509017e-05,
      "loss": 1.5072,
      "step": 71712
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6351866722106934,
      "learning_rate": 5.9924921018713143e-05,
      "loss": 1.4809,
      "step": 71713
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6522011756896973,
      "learning_rate": 5.991865338375198e-05,
      "loss": 1.4435,
      "step": 71714
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6301372647285461,
      "learning_rate": 5.99123860402141e-05,
      "loss": 1.5146,
      "step": 71715
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6349675059318542,
      "learning_rate": 5.990611898810727e-05,
      "loss": 1.57,
      "step": 71716
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6496844291687012,
      "learning_rate": 5.989985222743897e-05,
      "loss": 1.5572,
      "step": 71717
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.656181812286377,
      "learning_rate": 5.989358575821698e-05,
      "loss": 1.5262,
      "step": 71718
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6838923692703247,
      "learning_rate": 5.988731958044878e-05,
      "loss": 1.531,
      "step": 71719
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6892854571342468,
      "learning_rate": 5.98810536941419e-05,
      "loss": 1.5337,
      "step": 71720
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6487922668457031,
      "learning_rate": 5.9874788099304136e-05,
      "loss": 1.5446,
      "step": 71721
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6343843340873718,
      "learning_rate": 5.986852279594299e-05,
      "loss": 1.5191,
      "step": 71722
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.645944356918335,
      "learning_rate": 5.9862257784066e-05,
      "loss": 1.4785,
      "step": 71723
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6949828863143921,
      "learning_rate": 5.985599306368085e-05,
      "loss": 1.5792,
      "step": 71724
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6690723896026611,
      "learning_rate": 5.984972863479522e-05,
      "loss": 1.5629,
      "step": 71725
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6417677998542786,
      "learning_rate": 5.984346449741665e-05,
      "loss": 1.5155,
      "step": 71726
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6491503715515137,
      "learning_rate": 5.983720065155262e-05,
      "loss": 1.555,
      "step": 71727
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6579192280769348,
      "learning_rate": 5.983093709721093e-05,
      "loss": 1.4934,
      "step": 71728
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6395043134689331,
      "learning_rate": 5.982467383439911e-05,
      "loss": 1.5031,
      "step": 71729
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6401711106300354,
      "learning_rate": 5.9818410863124646e-05,
      "loss": 1.5683,
      "step": 71730
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6231246590614319,
      "learning_rate": 5.981214818339527e-05,
      "loss": 1.4775,
      "step": 71731
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6350983381271362,
      "learning_rate": 5.980588579521861e-05,
      "loss": 1.5265,
      "step": 71732
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6427597403526306,
      "learning_rate": 5.9799623698602226e-05,
      "loss": 1.4473,
      "step": 71733
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6495245695114136,
      "learning_rate": 5.979336189355361e-05,
      "loss": 1.5067,
      "step": 71734
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.670832633972168,
      "learning_rate": 5.9787100380080565e-05,
      "loss": 1.5659,
      "step": 71735
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6407981514930725,
      "learning_rate": 5.9780839158190574e-05,
      "loss": 1.5063,
      "step": 71736
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6797655820846558,
      "learning_rate": 5.977457822789117e-05,
      "loss": 1.5564,
      "step": 71737
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6678102612495422,
      "learning_rate": 5.976831758919004e-05,
      "loss": 1.5418,
      "step": 71738
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6349955797195435,
      "learning_rate": 5.9762057242094916e-05,
      "loss": 1.5208,
      "step": 71739
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6448633670806885,
      "learning_rate": 5.975579718661313e-05,
      "loss": 1.4842,
      "step": 71740
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6555176973342896,
      "learning_rate": 5.974953742275237e-05,
      "loss": 1.4587,
      "step": 71741
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6520172953605652,
      "learning_rate": 5.9743277950520395e-05,
      "loss": 1.5545,
      "step": 71742
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6394421458244324,
      "learning_rate": 5.973701876992464e-05,
      "loss": 1.4803,
      "step": 71743
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6536122560501099,
      "learning_rate": 5.973075988097269e-05,
      "loss": 1.5115,
      "step": 71744
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.685857355594635,
      "learning_rate": 5.972450128367218e-05,
      "loss": 1.4708,
      "step": 71745
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6508057713508606,
      "learning_rate": 5.97182429780309e-05,
      "loss": 1.5274,
      "step": 71746
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6549280881881714,
      "learning_rate": 5.971198496405607e-05,
      "loss": 1.5356,
      "step": 71747
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6508263349533081,
      "learning_rate": 5.970572724175553e-05,
      "loss": 1.468,
      "step": 71748
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6508025527000427,
      "learning_rate": 5.96994698111369e-05,
      "loss": 1.5058,
      "step": 71749
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6496120691299438,
      "learning_rate": 5.969321267220768e-05,
      "loss": 1.482,
      "step": 71750
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6184076070785522,
      "learning_rate": 5.9686955824975426e-05,
      "loss": 1.4708,
      "step": 71751
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6371455192565918,
      "learning_rate": 5.968069926944783e-05,
      "loss": 1.5083,
      "step": 71752
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6477206349372864,
      "learning_rate": 5.967444300563259e-05,
      "loss": 1.5134,
      "step": 71753
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.654220700263977,
      "learning_rate": 5.9668187033537e-05,
      "loss": 1.5586,
      "step": 71754
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6655936241149902,
      "learning_rate": 5.966193135316881e-05,
      "loss": 1.5414,
      "step": 71755
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6327870488166809,
      "learning_rate": 5.965567596453573e-05,
      "loss": 1.5915,
      "step": 71756
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6369525790214539,
      "learning_rate": 5.964942086764525e-05,
      "loss": 1.5415,
      "step": 71757
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6295694708824158,
      "learning_rate": 5.964316606250486e-05,
      "loss": 1.5666,
      "step": 71758
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6622484922409058,
      "learning_rate": 5.963691154912235e-05,
      "loss": 1.5474,
      "step": 71759
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6522956490516663,
      "learning_rate": 5.963065732750518e-05,
      "loss": 1.4734,
      "step": 71760
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6492539644241333,
      "learning_rate": 5.962440339766093e-05,
      "loss": 1.5903,
      "step": 71761
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6486877799034119,
      "learning_rate": 5.961814975959723e-05,
      "loss": 1.5275,
      "step": 71762
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6506611704826355,
      "learning_rate": 5.9611896413321734e-05,
      "loss": 1.5805,
      "step": 71763
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6676504015922546,
      "learning_rate": 5.960564335884199e-05,
      "loss": 1.5054,
      "step": 71764
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6995880007743835,
      "learning_rate": 5.9599390596165495e-05,
      "loss": 1.5582,
      "step": 71765
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6236794590950012,
      "learning_rate": 5.959313812530001e-05,
      "loss": 1.5909,
      "step": 71766
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6661455631256104,
      "learning_rate": 5.9586885946252926e-05,
      "loss": 1.5967,
      "step": 71767
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6579471230506897,
      "learning_rate": 5.958063405903204e-05,
      "loss": 1.5724,
      "step": 71768
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6346057057380676,
      "learning_rate": 5.957438246364484e-05,
      "loss": 1.6151,
      "step": 71769
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6455925107002258,
      "learning_rate": 5.956813116009883e-05,
      "loss": 1.533,
      "step": 71770
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6568911075592041,
      "learning_rate": 5.9561880148401767e-05,
      "loss": 1.5451,
      "step": 71771
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6407619118690491,
      "learning_rate": 5.955562942856107e-05,
      "loss": 1.5912,
      "step": 71772
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6563766002655029,
      "learning_rate": 5.9549379000584506e-05,
      "loss": 1.6451,
      "step": 71773
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6362961530685425,
      "learning_rate": 5.9543128864479474e-05,
      "loss": 1.5186,
      "step": 71774
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6347085237503052,
      "learning_rate": 5.953687902025372e-05,
      "loss": 1.5347,
      "step": 71775
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6253817081451416,
      "learning_rate": 5.953062946791479e-05,
      "loss": 1.5762,
      "step": 71776
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6493234038352966,
      "learning_rate": 5.952438020747017e-05,
      "loss": 1.524,
      "step": 71777
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6354712247848511,
      "learning_rate": 5.951813123892758e-05,
      "loss": 1.4943,
      "step": 71778
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6609901785850525,
      "learning_rate": 5.951188256229452e-05,
      "loss": 1.4883,
      "step": 71779
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6566843390464783,
      "learning_rate": 5.9505634177578555e-05,
      "loss": 1.559,
      "step": 71780
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6430196762084961,
      "learning_rate": 5.9499386084787303e-05,
      "loss": 1.5462,
      "step": 71781
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6749144196510315,
      "learning_rate": 5.9493138283928465e-05,
      "loss": 1.5124,
      "step": 71782
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6342539191246033,
      "learning_rate": 5.94868907750095e-05,
      "loss": 1.5136,
      "step": 71783
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6675536632537842,
      "learning_rate": 5.9480643558037935e-05,
      "loss": 1.4617,
      "step": 71784
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6570938229560852,
      "learning_rate": 5.947439663302149e-05,
      "loss": 1.5952,
      "step": 71785
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6749151945114136,
      "learning_rate": 5.946814999996771e-05,
      "loss": 1.5383,
      "step": 71786
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6564664840698242,
      "learning_rate": 5.946190365888407e-05,
      "loss": 1.5296,
      "step": 71787
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6770301461219788,
      "learning_rate": 5.945565760977824e-05,
      "loss": 1.5518,
      "step": 71788
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6754236817359924,
      "learning_rate": 5.944941185265795e-05,
      "loss": 1.5673,
      "step": 71789
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6743223071098328,
      "learning_rate": 5.944316638753048e-05,
      "loss": 1.5253,
      "step": 71790
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6434159278869629,
      "learning_rate": 5.943692121440358e-05,
      "loss": 1.4872,
      "step": 71791
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6400482058525085,
      "learning_rate": 5.9430676333284853e-05,
      "loss": 1.5102,
      "step": 71792
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6530967950820923,
      "learning_rate": 5.942443174418184e-05,
      "loss": 1.4709,
      "step": 71793
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6551822423934937,
      "learning_rate": 5.941818744710207e-05,
      "loss": 1.546,
      "step": 71794
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6524794101715088,
      "learning_rate": 5.941194344205317e-05,
      "loss": 1.597,
      "step": 71795
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6497277021408081,
      "learning_rate": 5.9405699729042854e-05,
      "loss": 1.5383,
      "step": 71796
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6501253247261047,
      "learning_rate": 5.939945630807843e-05,
      "loss": 1.4383,
      "step": 71797
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6365036964416504,
      "learning_rate": 5.939321317916762e-05,
      "loss": 1.4769,
      "step": 71798
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6528091430664062,
      "learning_rate": 5.938697034231805e-05,
      "loss": 1.5096,
      "step": 71799
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6386393308639526,
      "learning_rate": 5.938072779753729e-05,
      "loss": 1.5704,
      "step": 71800
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6244492530822754,
      "learning_rate": 5.937448554483275e-05,
      "loss": 1.5261,
      "step": 71801
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6335453987121582,
      "learning_rate": 5.936824358421214e-05,
      "loss": 1.5144,
      "step": 71802
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6487129926681519,
      "learning_rate": 5.9362001915683214e-05,
      "loss": 1.5733,
      "step": 71803
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.7111579775810242,
      "learning_rate": 5.935576053925316e-05,
      "loss": 1.5743,
      "step": 71804
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6579488515853882,
      "learning_rate": 5.9349519454929785e-05,
      "loss": 1.4479,
      "step": 71805
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6458559036254883,
      "learning_rate": 5.9343278662720704e-05,
      "loss": 1.4525,
      "step": 71806
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6288019418716431,
      "learning_rate": 5.9337038162633425e-05,
      "loss": 1.5331,
      "step": 71807
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6496743559837341,
      "learning_rate": 5.9330797954675456e-05,
      "loss": 1.5057,
      "step": 71808
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.670470118522644,
      "learning_rate": 5.9324558038854475e-05,
      "loss": 1.5913,
      "step": 71809
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6582828760147095,
      "learning_rate": 5.9318318415178065e-05,
      "loss": 1.5633,
      "step": 71810
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6483446955680847,
      "learning_rate": 5.9312079083653665e-05,
      "loss": 1.5262,
      "step": 71811
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6637701392173767,
      "learning_rate": 5.930584004428892e-05,
      "loss": 1.5344,
      "step": 71812
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.645063042640686,
      "learning_rate": 5.92996012970915e-05,
      "loss": 1.4914,
      "step": 71813
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.67835932970047,
      "learning_rate": 5.92933628420689e-05,
      "loss": 1.5205,
      "step": 71814
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6655850410461426,
      "learning_rate": 5.9287124679228615e-05,
      "loss": 1.6311,
      "step": 71815
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6608567833900452,
      "learning_rate": 5.9280886808578395e-05,
      "loss": 1.568,
      "step": 71816
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6594030857086182,
      "learning_rate": 5.927464923012568e-05,
      "loss": 1.5704,
      "step": 71817
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6697635054588318,
      "learning_rate": 5.9268411943878026e-05,
      "loss": 1.5376,
      "step": 71818
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6507030129432678,
      "learning_rate": 5.926217494984309e-05,
      "loss": 1.5787,
      "step": 71819
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6917797923088074,
      "learning_rate": 5.925593824802834e-05,
      "loss": 1.5297,
      "step": 71820
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6335820555686951,
      "learning_rate": 5.924970183844149e-05,
      "loss": 1.5133,
      "step": 71821
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6684432029724121,
      "learning_rate": 5.924346572108994e-05,
      "loss": 1.6132,
      "step": 71822
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6759688854217529,
      "learning_rate": 5.923722989598143e-05,
      "loss": 1.5623,
      "step": 71823
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.633734405040741,
      "learning_rate": 5.923099436312347e-05,
      "loss": 1.5811,
      "step": 71824
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6562702655792236,
      "learning_rate": 5.92247591225235e-05,
      "loss": 1.4891,
      "step": 71825
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.64048171043396,
      "learning_rate": 5.9218524174189305e-05,
      "loss": 1.5019,
      "step": 71826
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6601606607437134,
      "learning_rate": 5.921228951812825e-05,
      "loss": 1.6006,
      "step": 71827
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6775302886962891,
      "learning_rate": 5.9206055154348064e-05,
      "loss": 1.5047,
      "step": 71828
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6581541895866394,
      "learning_rate": 5.919982108285627e-05,
      "loss": 1.5093,
      "step": 71829
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6737198233604431,
      "learning_rate": 5.9193587303660295e-05,
      "loss": 1.5593,
      "step": 71830
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6648252010345459,
      "learning_rate": 5.918735381676794e-05,
      "loss": 1.5212,
      "step": 71831
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6404414772987366,
      "learning_rate": 5.9181120622186584e-05,
      "loss": 1.5358,
      "step": 71832
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6306697726249695,
      "learning_rate": 5.91748877199239e-05,
      "loss": 1.5695,
      "step": 71833
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6522104740142822,
      "learning_rate": 5.916865510998738e-05,
      "loss": 1.4869,
      "step": 71834
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6294508576393127,
      "learning_rate": 5.916242279238469e-05,
      "loss": 1.5403,
      "step": 71835
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6630604863166809,
      "learning_rate": 5.9156190767123345e-05,
      "loss": 1.4853,
      "step": 71836
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6568771004676819,
      "learning_rate": 5.914995903421078e-05,
      "loss": 1.4842,
      "step": 71837
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6260039806365967,
      "learning_rate": 5.9143727593654786e-05,
      "loss": 1.5299,
      "step": 71838
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6710308790206909,
      "learning_rate": 5.913749644546283e-05,
      "loss": 1.5914,
      "step": 71839
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6482868194580078,
      "learning_rate": 5.913126558964236e-05,
      "loss": 1.5567,
      "step": 71840
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6448834538459778,
      "learning_rate": 5.912503502620105e-05,
      "loss": 1.5437,
      "step": 71841
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6535021066665649,
      "learning_rate": 5.9118804755146554e-05,
      "loss": 1.4098,
      "step": 71842
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6189479231834412,
      "learning_rate": 5.9112574776486334e-05,
      "loss": 1.4961,
      "step": 71843
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6596679091453552,
      "learning_rate": 5.9106345090227844e-05,
      "loss": 1.508,
      "step": 71844
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6519618630409241,
      "learning_rate": 5.9100115696378855e-05,
      "loss": 1.4608,
      "step": 71845
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6604058742523193,
      "learning_rate": 5.909388659494682e-05,
      "loss": 1.5698,
      "step": 71846
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6394609212875366,
      "learning_rate": 5.908765778593928e-05,
      "loss": 1.6326,
      "step": 71847
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6372028589248657,
      "learning_rate": 5.908142926936378e-05,
      "loss": 1.5286,
      "step": 71848
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6302751898765564,
      "learning_rate": 5.907520104522802e-05,
      "loss": 1.5144,
      "step": 71849
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6589192152023315,
      "learning_rate": 5.906897311353945e-05,
      "loss": 1.4704,
      "step": 71850
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6212658882141113,
      "learning_rate": 5.906274547430558e-05,
      "loss": 1.5251,
      "step": 71851
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6465803384780884,
      "learning_rate": 5.9056518127534134e-05,
      "loss": 1.5403,
      "step": 71852
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6459366679191589,
      "learning_rate": 5.905029107323254e-05,
      "loss": 1.5209,
      "step": 71853
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6457437872886658,
      "learning_rate": 5.9044064311408344e-05,
      "loss": 1.5455,
      "step": 71854
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6285922527313232,
      "learning_rate": 5.9037837842069124e-05,
      "loss": 1.5162,
      "step": 71855
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6763926148414612,
      "learning_rate": 5.9031611665222633e-05,
      "loss": 1.5433,
      "step": 71856
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.645293116569519,
      "learning_rate": 5.90253857808761e-05,
      "loss": 1.4889,
      "step": 71857
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6357876658439636,
      "learning_rate": 5.901916018903725e-05,
      "loss": 1.5191,
      "step": 71858
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6614373326301575,
      "learning_rate": 5.9012934889713716e-05,
      "loss": 1.4596,
      "step": 71859
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6273050308227539,
      "learning_rate": 5.900670988291295e-05,
      "loss": 1.5683,
      "step": 71860
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.617262601852417,
      "learning_rate": 5.900048516864249e-05,
      "loss": 1.5797,
      "step": 71861
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.664483904838562,
      "learning_rate": 5.899426074690988e-05,
      "loss": 1.5386,
      "step": 71862
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6301683187484741,
      "learning_rate": 5.898803661772293e-05,
      "loss": 1.5222,
      "step": 71863
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6320220828056335,
      "learning_rate": 5.89818127810888e-05,
      "loss": 1.5473,
      "step": 71864
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6566533446311951,
      "learning_rate": 5.897558923701528e-05,
      "loss": 1.5636,
      "step": 71865
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6402158141136169,
      "learning_rate": 5.896936598550992e-05,
      "loss": 1.5671,
      "step": 71866
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6662389039993286,
      "learning_rate": 5.896314302658023e-05,
      "loss": 1.5698,
      "step": 71867
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6491714119911194,
      "learning_rate": 5.895692036023373e-05,
      "loss": 1.5144,
      "step": 71868
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6374377012252808,
      "learning_rate": 5.895069798647798e-05,
      "loss": 1.5891,
      "step": 71869
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.8139835596084595,
      "learning_rate": 5.894447590532074e-05,
      "loss": 1.5133,
      "step": 71870
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6278952956199646,
      "learning_rate": 5.893825411676921e-05,
      "loss": 1.5778,
      "step": 71871
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6389130353927612,
      "learning_rate": 5.893203262083115e-05,
      "loss": 1.5768,
      "step": 71872
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6158046722412109,
      "learning_rate": 5.892581141751415e-05,
      "loss": 1.5538,
      "step": 71873
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.660890519618988,
      "learning_rate": 5.8919590506825664e-05,
      "loss": 1.5175,
      "step": 71874
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6352808475494385,
      "learning_rate": 5.891336988877323e-05,
      "loss": 1.5342,
      "step": 71875
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6437685489654541,
      "learning_rate": 5.890714956336451e-05,
      "loss": 1.5559,
      "step": 71876
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6715630292892456,
      "learning_rate": 5.890092953060699e-05,
      "loss": 1.5868,
      "step": 71877
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6245690584182739,
      "learning_rate": 5.889470979050813e-05,
      "loss": 1.5426,
      "step": 71878
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6693605184555054,
      "learning_rate": 5.88884903430756e-05,
      "loss": 1.5789,
      "step": 71879
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6541897654533386,
      "learning_rate": 5.888227118831696e-05,
      "loss": 1.5397,
      "step": 71880
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6478307247161865,
      "learning_rate": 5.887605232623972e-05,
      "loss": 1.5021,
      "step": 71881
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6613117456436157,
      "learning_rate": 5.886983375685136e-05,
      "loss": 1.5571,
      "step": 71882
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6297616958618164,
      "learning_rate": 5.8863615480159563e-05,
      "loss": 1.4749,
      "step": 71883
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6436750292778015,
      "learning_rate": 5.885739749617173e-05,
      "loss": 1.5239,
      "step": 71884
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6469684839248657,
      "learning_rate": 5.885117980489555e-05,
      "loss": 1.5128,
      "step": 71885
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6581462025642395,
      "learning_rate": 5.884496240633852e-05,
      "loss": 1.5485,
      "step": 71886
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6416088938713074,
      "learning_rate": 5.8838745300508105e-05,
      "loss": 1.508,
      "step": 71887
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6628268957138062,
      "learning_rate": 5.883252848741199e-05,
      "loss": 1.5175,
      "step": 71888
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6424276232719421,
      "learning_rate": 5.882631196705757e-05,
      "loss": 1.568,
      "step": 71889
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6765129566192627,
      "learning_rate": 5.882009573945254e-05,
      "loss": 1.5376,
      "step": 71890
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6465120315551758,
      "learning_rate": 5.8813879804604334e-05,
      "loss": 1.5278,
      "step": 71891
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6623884439468384,
      "learning_rate": 5.880766416252061e-05,
      "loss": 1.5321,
      "step": 71892
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6508403420448303,
      "learning_rate": 5.8801448813208815e-05,
      "loss": 1.5801,
      "step": 71893
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6250369548797607,
      "learning_rate": 5.8795233756676466e-05,
      "loss": 1.5449,
      "step": 71894
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6677737832069397,
      "learning_rate": 5.878901899293123e-05,
      "loss": 1.5114,
      "step": 71895
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6369758248329163,
      "learning_rate": 5.8782804521980564e-05,
      "loss": 1.4939,
      "step": 71896
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6332997679710388,
      "learning_rate": 5.877659034383197e-05,
      "loss": 1.4665,
      "step": 71897
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6484408974647522,
      "learning_rate": 5.8770376458493097e-05,
      "loss": 1.562,
      "step": 71898
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6295768022537231,
      "learning_rate": 5.876416286597145e-05,
      "loss": 1.5062,
      "step": 71899
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6332111954689026,
      "learning_rate": 5.875794956627461e-05,
      "loss": 1.5738,
      "step": 71900
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6399178504943848,
      "learning_rate": 5.875173655940999e-05,
      "loss": 1.482,
      "step": 71901
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6456546783447266,
      "learning_rate": 5.874552384538529e-05,
      "loss": 1.5709,
      "step": 71902
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6396254301071167,
      "learning_rate": 5.873931142420797e-05,
      "loss": 1.4726,
      "step": 71903
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6537924408912659,
      "learning_rate": 5.873309929588552e-05,
      "loss": 1.5434,
      "step": 71904
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6588262319564819,
      "learning_rate": 5.872688746042551e-05,
      "loss": 1.4971,
      "step": 71905
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6513342261314392,
      "learning_rate": 5.872067591783569e-05,
      "loss": 1.6068,
      "step": 71906
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6372228860855103,
      "learning_rate": 5.871446466812326e-05,
      "loss": 1.4877,
      "step": 71907
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6800710558891296,
      "learning_rate": 5.870825371129588e-05,
      "loss": 1.5487,
      "step": 71908
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6738461852073669,
      "learning_rate": 5.870204304736125e-05,
      "loss": 1.5074,
      "step": 71909
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6424499154090881,
      "learning_rate": 5.869583267632678e-05,
      "loss": 1.4862,
      "step": 71910
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6533027291297913,
      "learning_rate": 5.868962259819992e-05,
      "loss": 1.5283,
      "step": 71911
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6743965148925781,
      "learning_rate": 5.868341281298831e-05,
      "loss": 1.5419,
      "step": 71912
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6736063957214355,
      "learning_rate": 5.867720332069965e-05,
      "loss": 1.5281,
      "step": 71913
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.663175106048584,
      "learning_rate": 5.867099412134111e-05,
      "loss": 1.5298,
      "step": 71914
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.656217098236084,
      "learning_rate": 5.8664785214920475e-05,
      "loss": 1.5296,
      "step": 71915
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6567233800888062,
      "learning_rate": 5.8658576601445274e-05,
      "loss": 1.5343,
      "step": 71916
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6578116416931152,
      "learning_rate": 5.865236828092304e-05,
      "loss": 1.4899,
      "step": 71917
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.7080166339874268,
      "learning_rate": 5.864616025336115e-05,
      "loss": 1.4835,
      "step": 71918
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6444481611251831,
      "learning_rate": 5.863995251876728e-05,
      "loss": 1.4992,
      "step": 71919
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6590550541877747,
      "learning_rate": 5.86337450771491e-05,
      "loss": 1.5597,
      "step": 71920
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6802752614021301,
      "learning_rate": 5.862753792851381e-05,
      "loss": 1.5942,
      "step": 71921
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6709473729133606,
      "learning_rate": 5.862133107286916e-05,
      "loss": 1.577,
      "step": 71922
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6585729122161865,
      "learning_rate": 5.86151245102227e-05,
      "loss": 1.6197,
      "step": 71923
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6538912653923035,
      "learning_rate": 5.8608918240581924e-05,
      "loss": 1.49,
      "step": 71924
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.656226396560669,
      "learning_rate": 5.86027122639543e-05,
      "loss": 1.4574,
      "step": 71925
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6429029703140259,
      "learning_rate": 5.859650658034748e-05,
      "loss": 1.4858,
      "step": 71926
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6646745800971985,
      "learning_rate": 5.85903011897689e-05,
      "loss": 1.4877,
      "step": 71927
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6751323342323303,
      "learning_rate": 5.8584096092226075e-05,
      "loss": 1.5718,
      "step": 71928
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6553509831428528,
      "learning_rate": 5.857789128772658e-05,
      "loss": 1.6116,
      "step": 71929
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6529993414878845,
      "learning_rate": 5.8571686776278024e-05,
      "loss": 1.5312,
      "step": 71930
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6345126032829285,
      "learning_rate": 5.856548255788789e-05,
      "loss": 1.4722,
      "step": 71931
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6820833683013916,
      "learning_rate": 5.855927863256359e-05,
      "loss": 1.5412,
      "step": 71932
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6827107667922974,
      "learning_rate": 5.8553075000312825e-05,
      "loss": 1.5422,
      "step": 71933
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6543424129486084,
      "learning_rate": 5.854687166114304e-05,
      "loss": 1.4987,
      "step": 71934
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6504570841789246,
      "learning_rate": 5.8540668615061725e-05,
      "loss": 1.4585,
      "step": 71935
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6583345532417297,
      "learning_rate": 5.8534465862076555e-05,
      "loss": 1.5228,
      "step": 71936
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6398590207099915,
      "learning_rate": 5.852826340219485e-05,
      "loss": 1.5806,
      "step": 71937
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6530881524085999,
      "learning_rate": 5.852206123542436e-05,
      "loss": 1.5029,
      "step": 71938
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6365094184875488,
      "learning_rate": 5.851585936177239e-05,
      "loss": 1.4647,
      "step": 71939
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6435508131980896,
      "learning_rate": 5.850965778124671e-05,
      "loss": 1.5127,
      "step": 71940
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6798965930938721,
      "learning_rate": 5.8503456493854685e-05,
      "loss": 1.5133,
      "step": 71941
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6213286519050598,
      "learning_rate": 5.8497255499603834e-05,
      "loss": 1.4991,
      "step": 71942
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6601617336273193,
      "learning_rate": 5.849105479850179e-05,
      "loss": 1.5524,
      "step": 71943
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.7009257078170776,
      "learning_rate": 5.848485439055595e-05,
      "loss": 1.4431,
      "step": 71944
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6487964987754822,
      "learning_rate": 5.847865427577396e-05,
      "loss": 1.5415,
      "step": 71945
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6649945974349976,
      "learning_rate": 5.847245445416333e-05,
      "loss": 1.5212,
      "step": 71946
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.733267605304718,
      "learning_rate": 5.8466254925731484e-05,
      "loss": 1.5338,
      "step": 71947
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6722776889801025,
      "learning_rate": 5.8460055690486076e-05,
      "loss": 1.4836,
      "step": 71948
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6497656106948853,
      "learning_rate": 5.84538567484345e-05,
      "loss": 1.474,
      "step": 71949
    },
    {
      "epoch": 2.39,
      "grad_norm": 1.0014597177505493,
      "learning_rate": 5.844765809958443e-05,
      "loss": 1.6105,
      "step": 71950
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.7399003505706787,
      "learning_rate": 5.844145974394321e-05,
      "loss": 1.4812,
      "step": 71951
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6453723311424255,
      "learning_rate": 5.8435261681518575e-05,
      "loss": 1.5011,
      "step": 71952
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6563436985015869,
      "learning_rate": 5.842906391231792e-05,
      "loss": 1.4607,
      "step": 71953
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6533571481704712,
      "learning_rate": 5.842286643634874e-05,
      "loss": 1.5448,
      "step": 71954
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6607874035835266,
      "learning_rate": 5.8416669253618654e-05,
      "loss": 1.446,
      "step": 71955
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6430081129074097,
      "learning_rate": 5.841047236413513e-05,
      "loss": 1.4604,
      "step": 71956
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6322354674339294,
      "learning_rate": 5.840427576790563e-05,
      "loss": 1.536,
      "step": 71957
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6230458617210388,
      "learning_rate": 5.839807946493774e-05,
      "loss": 1.5398,
      "step": 71958
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6422029137611389,
      "learning_rate": 5.839188345523906e-05,
      "loss": 1.5695,
      "step": 71959
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6698811054229736,
      "learning_rate": 5.838568773881706e-05,
      "loss": 1.4456,
      "step": 71960
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6467676758766174,
      "learning_rate": 5.8379492315679114e-05,
      "loss": 1.5394,
      "step": 71961
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6453830003738403,
      "learning_rate": 5.837329718583299e-05,
      "loss": 1.5454,
      "step": 71962
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6470922231674194,
      "learning_rate": 5.8367102349286055e-05,
      "loss": 1.5614,
      "step": 71963
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6458514332771301,
      "learning_rate": 5.8360907806045766e-05,
      "loss": 1.5832,
      "step": 71964
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6500515341758728,
      "learning_rate": 5.835471355611975e-05,
      "loss": 1.5164,
      "step": 71965
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6440707445144653,
      "learning_rate": 5.834851959951563e-05,
      "loss": 1.59,
      "step": 71966
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6777092814445496,
      "learning_rate": 5.8342325936240676e-05,
      "loss": 1.5057,
      "step": 71967
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6566954255104065,
      "learning_rate": 5.8336132566302504e-05,
      "loss": 1.5294,
      "step": 71968
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6367676854133606,
      "learning_rate": 5.832993948970879e-05,
      "loss": 1.4667,
      "step": 71969
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6853017807006836,
      "learning_rate": 5.832374670646688e-05,
      "loss": 1.5306,
      "step": 71970
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6648209095001221,
      "learning_rate": 5.831755421658427e-05,
      "loss": 1.5365,
      "step": 71971
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6513721346855164,
      "learning_rate": 5.831136202006853e-05,
      "loss": 1.5678,
      "step": 71972
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6671419143676758,
      "learning_rate": 5.8305170116927345e-05,
      "loss": 1.4521,
      "step": 71973
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6714872121810913,
      "learning_rate": 5.8298978507167915e-05,
      "loss": 1.5835,
      "step": 71974
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6901549100875854,
      "learning_rate": 5.8292787190797895e-05,
      "loss": 1.5684,
      "step": 71975
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6385433673858643,
      "learning_rate": 5.8286596167824916e-05,
      "loss": 1.4824,
      "step": 71976
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6384857892990112,
      "learning_rate": 5.8280405438256404e-05,
      "loss": 1.4821,
      "step": 71977
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6509296298027039,
      "learning_rate": 5.8274215002099754e-05,
      "loss": 1.5553,
      "step": 71978
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6547425985336304,
      "learning_rate": 5.826802485936263e-05,
      "loss": 1.4766,
      "step": 71979
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.634580135345459,
      "learning_rate": 5.8261835010052615e-05,
      "loss": 1.4813,
      "step": 71980
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6537454128265381,
      "learning_rate": 5.825564545417698e-05,
      "loss": 1.4908,
      "step": 71981
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6475474238395691,
      "learning_rate": 5.824945619174338e-05,
      "loss": 1.5991,
      "step": 71982
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6564536690711975,
      "learning_rate": 5.8243267222759414e-05,
      "loss": 1.5202,
      "step": 71983
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6634114980697632,
      "learning_rate": 5.823707854723247e-05,
      "loss": 1.5336,
      "step": 71984
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6888338923454285,
      "learning_rate": 5.823089016517002e-05,
      "loss": 1.5304,
      "step": 71985
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.641911506652832,
      "learning_rate": 5.822470207657964e-05,
      "loss": 1.5284,
      "step": 71986
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.649276077747345,
      "learning_rate": 5.8218514281469045e-05,
      "loss": 1.5654,
      "step": 71987
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6545968651771545,
      "learning_rate": 5.821232677984534e-05,
      "loss": 1.5453,
      "step": 71988
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6472680568695068,
      "learning_rate": 5.820613957171627e-05,
      "loss": 1.4792,
      "step": 71989
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6589906811714172,
      "learning_rate": 5.819995265708939e-05,
      "loss": 1.5222,
      "step": 71990
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6464403867721558,
      "learning_rate": 5.819376603597215e-05,
      "loss": 1.4493,
      "step": 71991
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6520741581916809,
      "learning_rate": 5.818757970837197e-05,
      "loss": 1.561,
      "step": 71992
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6216027736663818,
      "learning_rate": 5.818139367429648e-05,
      "loss": 1.458,
      "step": 71993
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.643725574016571,
      "learning_rate": 5.817520793375313e-05,
      "loss": 1.5127,
      "step": 71994
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6524442434310913,
      "learning_rate": 5.8169022486749474e-05,
      "loss": 1.4738,
      "step": 71995
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6752994060516357,
      "learning_rate": 5.8162837333292936e-05,
      "loss": 1.5212,
      "step": 71996
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6347086429595947,
      "learning_rate": 5.815665247339118e-05,
      "loss": 1.5152,
      "step": 71997
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6468232870101929,
      "learning_rate": 5.815046790705159e-05,
      "loss": 1.5038,
      "step": 71998
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.65324866771698,
      "learning_rate": 5.814428363428161e-05,
      "loss": 1.5152,
      "step": 71999
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6716405153274536,
      "learning_rate": 5.813809965508892e-05,
      "loss": 1.5636,
      "step": 72000
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6384047269821167,
      "learning_rate": 5.8131915969480856e-05,
      "loss": 1.5274,
      "step": 72001
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6357691884040833,
      "learning_rate": 5.812573257746511e-05,
      "loss": 1.5454,
      "step": 72002
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6614765524864197,
      "learning_rate": 5.811954947904908e-05,
      "loss": 1.4831,
      "step": 72003
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6831941604614258,
      "learning_rate": 5.811336667424018e-05,
      "loss": 1.4847,
      "step": 72004
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6697310209274292,
      "learning_rate": 5.810718416304612e-05,
      "loss": 1.5311,
      "step": 72005
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6341176629066467,
      "learning_rate": 5.810100194547418e-05,
      "loss": 1.5617,
      "step": 72006
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6395955085754395,
      "learning_rate": 5.80948200215321e-05,
      "loss": 1.5556,
      "step": 72007
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.656902551651001,
      "learning_rate": 5.808863839122716e-05,
      "loss": 1.4964,
      "step": 72008
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6336746215820312,
      "learning_rate": 5.808245705456707e-05,
      "loss": 1.5086,
      "step": 72009
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6496511101722717,
      "learning_rate": 5.807627601155921e-05,
      "loss": 1.5276,
      "step": 72010
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6534920930862427,
      "learning_rate": 5.8070095262211014e-05,
      "loss": 1.4997,
      "step": 72011
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6536445021629333,
      "learning_rate": 5.806391480653018e-05,
      "loss": 1.5844,
      "step": 72012
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6521216034889221,
      "learning_rate": 5.8057734644524125e-05,
      "loss": 1.5552,
      "step": 72013
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6529659628868103,
      "learning_rate": 5.8051554776200216e-05,
      "loss": 1.5602,
      "step": 72014
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6190415024757385,
      "learning_rate": 5.804537520156608e-05,
      "loss": 1.5182,
      "step": 72015
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6239758729934692,
      "learning_rate": 5.803919592062928e-05,
      "loss": 1.5447,
      "step": 72016
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.67153000831604,
      "learning_rate": 5.803301693339727e-05,
      "loss": 1.4657,
      "step": 72017
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6593414545059204,
      "learning_rate": 5.8026838239877415e-05,
      "loss": 1.4717,
      "step": 72018
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6521469354629517,
      "learning_rate": 5.8020659840077444e-05,
      "loss": 1.6126,
      "step": 72019
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6545572876930237,
      "learning_rate": 5.8014481734004715e-05,
      "loss": 1.4556,
      "step": 72020
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6643487215042114,
      "learning_rate": 5.800830392166665e-05,
      "loss": 1.4922,
      "step": 72021
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6466127038002014,
      "learning_rate": 5.800212640307089e-05,
      "loss": 1.4856,
      "step": 72022
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6414923071861267,
      "learning_rate": 5.799594917822502e-05,
      "loss": 1.518,
      "step": 72023
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6215718984603882,
      "learning_rate": 5.798977224713627e-05,
      "loss": 1.4807,
      "step": 72024
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6423475742340088,
      "learning_rate": 5.798359560981226e-05,
      "loss": 1.4722,
      "step": 72025
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6526452302932739,
      "learning_rate": 5.7977419266260596e-05,
      "loss": 1.4844,
      "step": 72026
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6491226553916931,
      "learning_rate": 5.797124321648866e-05,
      "loss": 1.4689,
      "step": 72027
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6358844637870789,
      "learning_rate": 5.7965067460503924e-05,
      "loss": 1.5461,
      "step": 72028
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6469634771347046,
      "learning_rate": 5.795889199831394e-05,
      "loss": 1.5386,
      "step": 72029
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.645210862159729,
      "learning_rate": 5.795271682992634e-05,
      "loss": 1.5681,
      "step": 72030
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.7848337888717651,
      "learning_rate": 5.794654195534831e-05,
      "loss": 1.5559,
      "step": 72031
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6417679190635681,
      "learning_rate": 5.794036737458753e-05,
      "loss": 1.5568,
      "step": 72032
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6472575664520264,
      "learning_rate": 5.793419308765157e-05,
      "loss": 1.5123,
      "step": 72033
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6694871187210083,
      "learning_rate": 5.792801909454781e-05,
      "loss": 1.5953,
      "step": 72034
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6459576487541199,
      "learning_rate": 5.7921845395283695e-05,
      "loss": 1.554,
      "step": 72035
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6558290719985962,
      "learning_rate": 5.7915671989866764e-05,
      "loss": 1.5695,
      "step": 72036
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6551051139831543,
      "learning_rate": 5.790949887830474e-05,
      "loss": 1.4822,
      "step": 72037
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6668461561203003,
      "learning_rate": 5.7903326060604716e-05,
      "loss": 1.5434,
      "step": 72038
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.619550347328186,
      "learning_rate": 5.789715353677442e-05,
      "loss": 1.5612,
      "step": 72039
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6513307690620422,
      "learning_rate": 5.789098130682138e-05,
      "loss": 1.5939,
      "step": 72040
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6534999012947083,
      "learning_rate": 5.788480937075299e-05,
      "loss": 1.5789,
      "step": 72041
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6460869908332825,
      "learning_rate": 5.787863772857672e-05,
      "loss": 1.5924,
      "step": 72042
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6401212811470032,
      "learning_rate": 5.7872466380300174e-05,
      "loss": 1.494,
      "step": 72043
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6514941453933716,
      "learning_rate": 5.786629532593077e-05,
      "loss": 1.4793,
      "step": 72044
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6628921031951904,
      "learning_rate": 5.786012456547592e-05,
      "loss": 1.5888,
      "step": 72045
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6458499431610107,
      "learning_rate": 5.7853954098943226e-05,
      "loss": 1.569,
      "step": 72046
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6595352292060852,
      "learning_rate": 5.784778392634021e-05,
      "loss": 1.5178,
      "step": 72047
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6684125065803528,
      "learning_rate": 5.784161404767433e-05,
      "loss": 1.5693,
      "step": 72048
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6728743314743042,
      "learning_rate": 5.7835444462952965e-05,
      "loss": 1.483,
      "step": 72049
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6663488745689392,
      "learning_rate": 5.782927517218375e-05,
      "loss": 1.566,
      "step": 72050
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6479698419570923,
      "learning_rate": 5.7823106175374135e-05,
      "loss": 1.5107,
      "step": 72051
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6403220891952515,
      "learning_rate": 5.78169374725315e-05,
      "loss": 1.4575,
      "step": 72052
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6575790047645569,
      "learning_rate": 5.781076906366348e-05,
      "loss": 1.4972,
      "step": 72053
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6394330859184265,
      "learning_rate": 5.7804600948777426e-05,
      "loss": 1.5444,
      "step": 72054
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6288459300994873,
      "learning_rate": 5.7798433127881005e-05,
      "loss": 1.5289,
      "step": 72055
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6767586469650269,
      "learning_rate": 5.7792265600981514e-05,
      "loss": 1.468,
      "step": 72056
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6662185192108154,
      "learning_rate": 5.778609836808658e-05,
      "loss": 1.4705,
      "step": 72057
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6966500282287598,
      "learning_rate": 5.777993142920365e-05,
      "loss": 1.4965,
      "step": 72058
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6597669124603271,
      "learning_rate": 5.77737647843401e-05,
      "loss": 1.5312,
      "step": 72059
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6601454615592957,
      "learning_rate": 5.776759843350362e-05,
      "loss": 1.6206,
      "step": 72060
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6451623439788818,
      "learning_rate": 5.776143237670148e-05,
      "loss": 1.49,
      "step": 72061
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6537474989891052,
      "learning_rate": 5.775526661394135e-05,
      "loss": 1.5178,
      "step": 72062
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6374027729034424,
      "learning_rate": 5.7749101145230645e-05,
      "loss": 1.5104,
      "step": 72063
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6483654975891113,
      "learning_rate": 5.7742935970576756e-05,
      "loss": 1.5238,
      "step": 72064
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6434267163276672,
      "learning_rate": 5.773677108998733e-05,
      "loss": 1.548,
      "step": 72065
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6350069046020508,
      "learning_rate": 5.773060650346968e-05,
      "loss": 1.4912,
      "step": 72066
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6452448964118958,
      "learning_rate": 5.772444221103145e-05,
      "loss": 1.5446,
      "step": 72067
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6535210609436035,
      "learning_rate": 5.771827821267998e-05,
      "loss": 1.5481,
      "step": 72068
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6277209520339966,
      "learning_rate": 5.771211450842289e-05,
      "loss": 1.524,
      "step": 72069
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6316919922828674,
      "learning_rate": 5.770595109826761e-05,
      "loss": 1.57,
      "step": 72070
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6372017860412598,
      "learning_rate": 5.7699787982221503e-05,
      "loss": 1.5427,
      "step": 72071
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6515761613845825,
      "learning_rate": 5.769362516029226e-05,
      "loss": 1.4384,
      "step": 72072
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6551622748374939,
      "learning_rate": 5.7687462632487236e-05,
      "loss": 1.5108,
      "step": 72073
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6300972104072571,
      "learning_rate": 5.768130039881387e-05,
      "loss": 1.4428,
      "step": 72074
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6421477198600769,
      "learning_rate": 5.767513845927968e-05,
      "loss": 1.5333,
      "step": 72075
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6300446391105652,
      "learning_rate": 5.766897681389223e-05,
      "loss": 1.5655,
      "step": 72076
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6669032573699951,
      "learning_rate": 5.7662815462658985e-05,
      "loss": 1.5738,
      "step": 72077
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6513797640800476,
      "learning_rate": 5.765665440558727e-05,
      "loss": 1.5896,
      "step": 72078
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6528323292732239,
      "learning_rate": 5.765049364268474e-05,
      "loss": 1.4952,
      "step": 72079
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6455438137054443,
      "learning_rate": 5.764433317395879e-05,
      "loss": 1.4627,
      "step": 72080
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6545634865760803,
      "learning_rate": 5.7638172999416854e-05,
      "loss": 1.4795,
      "step": 72081
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.648095965385437,
      "learning_rate": 5.763201311906649e-05,
      "loss": 1.5145,
      "step": 72082
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6499387621879578,
      "learning_rate": 5.7625853532915256e-05,
      "loss": 1.5081,
      "step": 72083
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.663174033164978,
      "learning_rate": 5.7619694240970415e-05,
      "loss": 1.5122,
      "step": 72084
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6392985582351685,
      "learning_rate": 5.7613535243239526e-05,
      "loss": 1.5429,
      "step": 72085
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6650716662406921,
      "learning_rate": 5.7607376539730154e-05,
      "loss": 1.5698,
      "step": 72086
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6585378050804138,
      "learning_rate": 5.7601218130449724e-05,
      "loss": 1.4979,
      "step": 72087
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6378896236419678,
      "learning_rate": 5.759506001540562e-05,
      "loss": 1.4724,
      "step": 72088
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6515808701515198,
      "learning_rate": 5.7588902194605426e-05,
      "loss": 1.5755,
      "step": 72089
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6499034762382507,
      "learning_rate": 5.7582744668056716e-05,
      "loss": 1.5577,
      "step": 72090
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6518615484237671,
      "learning_rate": 5.757658743576668e-05,
      "loss": 1.4709,
      "step": 72091
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6525664925575256,
      "learning_rate": 5.757043049774297e-05,
      "loss": 1.4605,
      "step": 72092
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6564865708351135,
      "learning_rate": 5.756427385399309e-05,
      "loss": 1.5071,
      "step": 72093
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6514091491699219,
      "learning_rate": 5.755811750452445e-05,
      "loss": 1.5399,
      "step": 72094
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6545776724815369,
      "learning_rate": 5.7551961449344494e-05,
      "loss": 1.485,
      "step": 72095
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6840037107467651,
      "learning_rate": 5.75458056884607e-05,
      "loss": 1.47,
      "step": 72096
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6373906135559082,
      "learning_rate": 5.753965022188075e-05,
      "loss": 1.511,
      "step": 72097
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6463093161582947,
      "learning_rate": 5.753349504961178e-05,
      "loss": 1.5359,
      "step": 72098
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6771678924560547,
      "learning_rate": 5.752734017166141e-05,
      "loss": 1.5193,
      "step": 72099
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6527588367462158,
      "learning_rate": 5.75211855880372e-05,
      "loss": 1.4773,
      "step": 72100
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6849572658538818,
      "learning_rate": 5.751503129874655e-05,
      "loss": 1.5622,
      "step": 72101
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6326904892921448,
      "learning_rate": 5.7508877303796855e-05,
      "loss": 1.5534,
      "step": 72102
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.667657732963562,
      "learning_rate": 5.750272360319563e-05,
      "loss": 1.551,
      "step": 72103
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6851582527160645,
      "learning_rate": 5.7496570196950555e-05,
      "loss": 1.5259,
      "step": 72104
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6638883948326111,
      "learning_rate": 5.749041708506874e-05,
      "loss": 1.4692,
      "step": 72105
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.659957230091095,
      "learning_rate": 5.748426426755782e-05,
      "loss": 1.5844,
      "step": 72106
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6616405248641968,
      "learning_rate": 5.747811174442536e-05,
      "loss": 1.5083,
      "step": 72107
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6502997875213623,
      "learning_rate": 5.747195951567874e-05,
      "loss": 1.5309,
      "step": 72108
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6672958135604858,
      "learning_rate": 5.746580758132534e-05,
      "loss": 1.5071,
      "step": 72109
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6618122458457947,
      "learning_rate": 5.7459655941372805e-05,
      "loss": 1.5661,
      "step": 72110
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6524191498756409,
      "learning_rate": 5.7453504595828405e-05,
      "loss": 1.5671,
      "step": 72111
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6297855377197266,
      "learning_rate": 5.7447353544699824e-05,
      "loss": 1.506,
      "step": 72112
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.644889235496521,
      "learning_rate": 5.74412027879943e-05,
      "loss": 1.518,
      "step": 72113
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6855752468109131,
      "learning_rate": 5.7435052325719524e-05,
      "loss": 1.4691,
      "step": 72114
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6569406986236572,
      "learning_rate": 5.742890215788285e-05,
      "loss": 1.5238,
      "step": 72115
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6662077903747559,
      "learning_rate": 5.742275228449168e-05,
      "loss": 1.4195,
      "step": 72116
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6625348329544067,
      "learning_rate": 5.7416602705553604e-05,
      "loss": 1.5653,
      "step": 72117
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.648959219455719,
      "learning_rate": 5.7410453421075955e-05,
      "loss": 1.4817,
      "step": 72118
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.671853244304657,
      "learning_rate": 5.740430443106635e-05,
      "loss": 1.5304,
      "step": 72119
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6517629027366638,
      "learning_rate": 5.739815573553219e-05,
      "loss": 1.4745,
      "step": 72120
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6299868226051331,
      "learning_rate": 5.739200733448084e-05,
      "loss": 1.4703,
      "step": 72121
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6545235514640808,
      "learning_rate": 5.738585922791992e-05,
      "loss": 1.4913,
      "step": 72122
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6469515562057495,
      "learning_rate": 5.737971141585672e-05,
      "loss": 1.4914,
      "step": 72123
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6472575068473816,
      "learning_rate": 5.737356389829891e-05,
      "loss": 1.4862,
      "step": 72124
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.636756181716919,
      "learning_rate": 5.736741667525375e-05,
      "loss": 1.5625,
      "step": 72125
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6627655625343323,
      "learning_rate": 5.736126974672887e-05,
      "loss": 1.5649,
      "step": 72126
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6932218670845032,
      "learning_rate": 5.735512311273168e-05,
      "loss": 1.5553,
      "step": 72127
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.9874528050422668,
      "learning_rate": 5.734897677326953e-05,
      "loss": 1.5815,
      "step": 72128
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6451386213302612,
      "learning_rate": 5.734283072835003e-05,
      "loss": 1.5229,
      "step": 72129
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6423019170761108,
      "learning_rate": 5.733668497798062e-05,
      "loss": 1.6048,
      "step": 72130
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6510390639305115,
      "learning_rate": 5.7330539522168615e-05,
      "loss": 1.4807,
      "step": 72131
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.627387285232544,
      "learning_rate": 5.732439436092155e-05,
      "loss": 1.565,
      "step": 72132
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6598999500274658,
      "learning_rate": 5.731824949424703e-05,
      "loss": 1.5477,
      "step": 72133
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6430800557136536,
      "learning_rate": 5.731210492215239e-05,
      "loss": 1.5536,
      "step": 72134
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6392713785171509,
      "learning_rate": 5.730596064464501e-05,
      "loss": 1.4819,
      "step": 72135
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6559617519378662,
      "learning_rate": 5.7299816661732544e-05,
      "loss": 1.492,
      "step": 72136
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6518443822860718,
      "learning_rate": 5.7293672973422325e-05,
      "loss": 1.5225,
      "step": 72137
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6765499711036682,
      "learning_rate": 5.728752957972174e-05,
      "loss": 1.5891,
      "step": 72138
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6496448516845703,
      "learning_rate": 5.7281386480638314e-05,
      "loss": 1.5666,
      "step": 72139
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6396502256393433,
      "learning_rate": 5.727524367617968e-05,
      "loss": 1.4572,
      "step": 72140
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6551077961921692,
      "learning_rate": 5.7269101166353e-05,
      "loss": 1.557,
      "step": 72141
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6630834937095642,
      "learning_rate": 5.726295895116587e-05,
      "loss": 1.5227,
      "step": 72142
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6292455196380615,
      "learning_rate": 5.7256817030625815e-05,
      "loss": 1.5359,
      "step": 72143
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6424665451049805,
      "learning_rate": 5.725067540474022e-05,
      "loss": 1.5471,
      "step": 72144
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6397956609725952,
      "learning_rate": 5.724453407351646e-05,
      "loss": 1.524,
      "step": 72145
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.643068253993988,
      "learning_rate": 5.723839303696205e-05,
      "loss": 1.5566,
      "step": 72146
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6640956401824951,
      "learning_rate": 5.723225229508462e-05,
      "loss": 1.613,
      "step": 72147
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6505260467529297,
      "learning_rate": 5.7226111847891345e-05,
      "loss": 1.4995,
      "step": 72148
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6392881870269775,
      "learning_rate": 5.721997169538977e-05,
      "loss": 1.5393,
      "step": 72149
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6714494228363037,
      "learning_rate": 5.7213831837587455e-05,
      "loss": 1.5476,
      "step": 72150
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6414350271224976,
      "learning_rate": 5.720769227449177e-05,
      "loss": 1.5003,
      "step": 72151
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6668276190757751,
      "learning_rate": 5.72015530061101e-05,
      "loss": 1.5594,
      "step": 72152
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6498899459838867,
      "learning_rate": 5.7195414032449984e-05,
      "loss": 1.5352,
      "step": 72153
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6570780873298645,
      "learning_rate": 5.7189275353519e-05,
      "loss": 1.5279,
      "step": 72154
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.645086407661438,
      "learning_rate": 5.718313696932433e-05,
      "loss": 1.569,
      "step": 72155
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6328423619270325,
      "learning_rate": 5.717699887987351e-05,
      "loss": 1.5321,
      "step": 72156
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6476829648017883,
      "learning_rate": 5.7170861085174155e-05,
      "loss": 1.5681,
      "step": 72157
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6724722385406494,
      "learning_rate": 5.7164723585233584e-05,
      "loss": 1.52,
      "step": 72158
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6295212507247925,
      "learning_rate": 5.715858638005916e-05,
      "loss": 1.5014,
      "step": 72159
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6378263235092163,
      "learning_rate": 5.715244946965853e-05,
      "loss": 1.5411,
      "step": 72160
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6535414457321167,
      "learning_rate": 5.7146312854039046e-05,
      "loss": 1.5322,
      "step": 72161
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6744660139083862,
      "learning_rate": 5.7140176533208047e-05,
      "loss": 1.6022,
      "step": 72162
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6318937540054321,
      "learning_rate": 5.713404050717311e-05,
      "loss": 1.5678,
      "step": 72163
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6380477547645569,
      "learning_rate": 5.7127904775941746e-05,
      "loss": 1.5662,
      "step": 72164
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6458726525306702,
      "learning_rate": 5.7121769339521327e-05,
      "loss": 1.533,
      "step": 72165
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6681329011917114,
      "learning_rate": 5.7115634197919215e-05,
      "loss": 1.5346,
      "step": 72166
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6248669624328613,
      "learning_rate": 5.7109499351142994e-05,
      "loss": 1.5287,
      "step": 72167
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6506271362304688,
      "learning_rate": 5.710336479920007e-05,
      "loss": 1.5504,
      "step": 72168
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.672107994556427,
      "learning_rate": 5.709723054209776e-05,
      "loss": 1.5456,
      "step": 72169
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6491979956626892,
      "learning_rate": 5.709109657984373e-05,
      "loss": 1.4433,
      "step": 72170
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6533559560775757,
      "learning_rate": 5.7084962912445245e-05,
      "loss": 1.5067,
      "step": 72171
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6430609226226807,
      "learning_rate": 5.7078829539909886e-05,
      "loss": 1.5305,
      "step": 72172
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.675581157207489,
      "learning_rate": 5.707269646224496e-05,
      "loss": 1.5116,
      "step": 72173
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6466488838195801,
      "learning_rate": 5.706656367945809e-05,
      "loss": 1.5047,
      "step": 72174
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6688902378082275,
      "learning_rate": 5.70604311915566e-05,
      "loss": 1.5976,
      "step": 72175
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6680697798728943,
      "learning_rate": 5.705429899854785e-05,
      "loss": 1.5378,
      "step": 72176
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6618764400482178,
      "learning_rate": 5.7048167100439476e-05,
      "loss": 1.5274,
      "step": 72177
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6218356490135193,
      "learning_rate": 5.704203549723877e-05,
      "loss": 1.4555,
      "step": 72178
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6682601571083069,
      "learning_rate": 5.703590418895328e-05,
      "loss": 1.5545,
      "step": 72179
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6416482925415039,
      "learning_rate": 5.702977317559045e-05,
      "loss": 1.5855,
      "step": 72180
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6461332440376282,
      "learning_rate": 5.702364245715757e-05,
      "loss": 1.5048,
      "step": 72181
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6647171974182129,
      "learning_rate": 5.701751203366226e-05,
      "loss": 1.4459,
      "step": 72182
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6642132997512817,
      "learning_rate": 5.701138190511182e-05,
      "loss": 1.5329,
      "step": 72183
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6444544196128845,
      "learning_rate": 5.700525207151384e-05,
      "loss": 1.4802,
      "step": 72184
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6446794867515564,
      "learning_rate": 5.6999122532875584e-05,
      "loss": 1.5145,
      "step": 72185
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6592646837234497,
      "learning_rate": 5.699299328920468e-05,
      "loss": 1.5901,
      "step": 72186
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6386858224868774,
      "learning_rate": 5.698686434050849e-05,
      "loss": 1.5089,
      "step": 72187
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6357717514038086,
      "learning_rate": 5.6980735686794335e-05,
      "loss": 1.4711,
      "step": 72188
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.9142836332321167,
      "learning_rate": 5.697460732806984e-05,
      "loss": 1.5204,
      "step": 72189
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6385866403579712,
      "learning_rate": 5.696847926434238e-05,
      "loss": 1.4656,
      "step": 72190
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.65245121717453,
      "learning_rate": 5.696235149561931e-05,
      "loss": 1.4886,
      "step": 72191
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6623525023460388,
      "learning_rate": 5.6956224021908115e-05,
      "loss": 1.5389,
      "step": 72192
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6566125750541687,
      "learning_rate": 5.695009684321633e-05,
      "loss": 1.5119,
      "step": 72193
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6466530561447144,
      "learning_rate": 5.694396995955132e-05,
      "loss": 1.5012,
      "step": 72194
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6490705013275146,
      "learning_rate": 5.693784337092043e-05,
      "loss": 1.5631,
      "step": 72195
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6859962940216064,
      "learning_rate": 5.6931717077331305e-05,
      "loss": 1.4683,
      "step": 72196
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.659038245677948,
      "learning_rate": 5.69255910787912e-05,
      "loss": 1.5782,
      "step": 72197
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6585250496864319,
      "learning_rate": 5.6919465375307573e-05,
      "loss": 1.5443,
      "step": 72198
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6571232080459595,
      "learning_rate": 5.691333996688788e-05,
      "loss": 1.5502,
      "step": 72199
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6391353607177734,
      "learning_rate": 5.690721485353976e-05,
      "loss": 1.4375,
      "step": 72200
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6293612718582153,
      "learning_rate": 5.690109003527027e-05,
      "loss": 1.4532,
      "step": 72201
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6415796875953674,
      "learning_rate": 5.6894965512087064e-05,
      "loss": 1.5754,
      "step": 72202
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6356651782989502,
      "learning_rate": 5.688884128399761e-05,
      "loss": 1.5182,
      "step": 72203
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6557744145393372,
      "learning_rate": 5.68827173510093e-05,
      "loss": 1.5171,
      "step": 72204
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6729732155799866,
      "learning_rate": 5.687659371312946e-05,
      "loss": 1.473,
      "step": 72205
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6688144207000732,
      "learning_rate": 5.687047037036562e-05,
      "loss": 1.5141,
      "step": 72206
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6568547487258911,
      "learning_rate": 5.6864347322725366e-05,
      "loss": 1.4832,
      "step": 72207
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6353804469108582,
      "learning_rate": 5.685822457021581e-05,
      "loss": 1.5322,
      "step": 72208
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6568106412887573,
      "learning_rate": 5.6852102112844524e-05,
      "loss": 1.4785,
      "step": 72209
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6320852041244507,
      "learning_rate": 5.6845979950619046e-05,
      "loss": 1.4791,
      "step": 72210
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6377754211425781,
      "learning_rate": 5.683985808354674e-05,
      "loss": 1.4859,
      "step": 72211
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6498739719390869,
      "learning_rate": 5.6833736511634934e-05,
      "loss": 1.4861,
      "step": 72212
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6853537559509277,
      "learning_rate": 5.6827615234891146e-05,
      "loss": 1.5051,
      "step": 72213
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.694182813167572,
      "learning_rate": 5.682149425332294e-05,
      "loss": 1.5395,
      "step": 72214
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6556004881858826,
      "learning_rate": 5.6815373566937486e-05,
      "loss": 1.5288,
      "step": 72215
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.661285400390625,
      "learning_rate": 5.68092531757423e-05,
      "loss": 1.5034,
      "step": 72216
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6405943036079407,
      "learning_rate": 5.680313307974494e-05,
      "loss": 1.5078,
      "step": 72217
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6625141501426697,
      "learning_rate": 5.679701327895275e-05,
      "loss": 1.5237,
      "step": 72218
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.651830792427063,
      "learning_rate": 5.6790893773373044e-05,
      "loss": 1.5601,
      "step": 72219
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6521555185317993,
      "learning_rate": 5.678477456301339e-05,
      "loss": 1.525,
      "step": 72220
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6357131600379944,
      "learning_rate": 5.677865564788134e-05,
      "loss": 1.5719,
      "step": 72221
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6625404953956604,
      "learning_rate": 5.6772537027984e-05,
      "loss": 1.4614,
      "step": 72222
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6354084014892578,
      "learning_rate": 5.676641870332895e-05,
      "loss": 1.5036,
      "step": 72223
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6493481993675232,
      "learning_rate": 5.676030067392373e-05,
      "loss": 1.5053,
      "step": 72224
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6522425413131714,
      "learning_rate": 5.675418293977566e-05,
      "loss": 1.5383,
      "step": 72225
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6579188108444214,
      "learning_rate": 5.6748065500892104e-05,
      "loss": 1.4735,
      "step": 72226
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.686836838722229,
      "learning_rate": 5.674194835728059e-05,
      "loss": 1.4906,
      "step": 72227
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6278448104858398,
      "learning_rate": 5.673583150894847e-05,
      "loss": 1.532,
      "step": 72228
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6504863500595093,
      "learning_rate": 5.672971495590328e-05,
      "loss": 1.5218,
      "step": 72229
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6500536203384399,
      "learning_rate": 5.6723598698152285e-05,
      "loss": 1.5592,
      "step": 72230
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6513626575469971,
      "learning_rate": 5.671748273570307e-05,
      "loss": 1.5749,
      "step": 72231
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6739895939826965,
      "learning_rate": 5.6711367068563e-05,
      "loss": 1.5012,
      "step": 72232
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6441970467567444,
      "learning_rate": 5.67052516967394e-05,
      "loss": 1.566,
      "step": 72233
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6339730024337769,
      "learning_rate": 5.669913662023983e-05,
      "loss": 1.484,
      "step": 72234
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6391152143478394,
      "learning_rate": 5.6693021839071615e-05,
      "loss": 1.5191,
      "step": 72235
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6541197299957275,
      "learning_rate": 5.66869073532423e-05,
      "loss": 1.5107,
      "step": 72236
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6497951745986938,
      "learning_rate": 5.6680793162759185e-05,
      "loss": 1.5525,
      "step": 72237
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6544747948646545,
      "learning_rate": 5.667467926762972e-05,
      "loss": 1.5629,
      "step": 72238
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6531615257263184,
      "learning_rate": 5.666856566786139e-05,
      "loss": 1.5363,
      "step": 72239
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.68092942237854,
      "learning_rate": 5.666245236346149e-05,
      "loss": 1.5105,
      "step": 72240
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6307525038719177,
      "learning_rate": 5.665633935443758e-05,
      "loss": 1.4387,
      "step": 72241
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6405460238456726,
      "learning_rate": 5.6650226640796945e-05,
      "loss": 1.5613,
      "step": 72242
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6517607569694519,
      "learning_rate": 5.664411422254717e-05,
      "loss": 1.5702,
      "step": 72243
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6425080299377441,
      "learning_rate": 5.663800209969559e-05,
      "loss": 1.5793,
      "step": 72244
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6678797006607056,
      "learning_rate": 5.663189027224955e-05,
      "loss": 1.5182,
      "step": 72245
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6531343460083008,
      "learning_rate": 5.6625778740216566e-05,
      "loss": 1.4887,
      "step": 72246
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6492021679878235,
      "learning_rate": 5.6619667503604075e-05,
      "loss": 1.5432,
      "step": 72247
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6418365240097046,
      "learning_rate": 5.661355656241936e-05,
      "loss": 1.5878,
      "step": 72248
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6401448845863342,
      "learning_rate": 5.6607445916669924e-05,
      "loss": 1.5459,
      "step": 72249
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6357858777046204,
      "learning_rate": 5.660133556636326e-05,
      "loss": 1.4918,
      "step": 72250
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6466225385665894,
      "learning_rate": 5.6595225511506695e-05,
      "loss": 1.5352,
      "step": 72251
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6504285335540771,
      "learning_rate": 5.658911575210758e-05,
      "loss": 1.5721,
      "step": 72252
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6717308759689331,
      "learning_rate": 5.6583006288173524e-05,
      "loss": 1.496,
      "step": 72253
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6948810815811157,
      "learning_rate": 5.657689711971182e-05,
      "loss": 1.5174,
      "step": 72254
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6566579341888428,
      "learning_rate": 5.657078824672981e-05,
      "loss": 1.5118,
      "step": 72255
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6267994046211243,
      "learning_rate": 5.656467966923501e-05,
      "loss": 1.5369,
      "step": 72256
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6410902142524719,
      "learning_rate": 5.6558571387234974e-05,
      "loss": 1.4824,
      "step": 72257
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6478828191757202,
      "learning_rate": 5.655246340073679e-05,
      "loss": 1.5279,
      "step": 72258
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6565080285072327,
      "learning_rate": 5.654635570974806e-05,
      "loss": 1.5295,
      "step": 72259
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6583110094070435,
      "learning_rate": 5.654024831427627e-05,
      "loss": 1.5871,
      "step": 72260
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6769753694534302,
      "learning_rate": 5.653414121432872e-05,
      "loss": 1.6086,
      "step": 72261
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6590563654899597,
      "learning_rate": 5.6528034409912804e-05,
      "loss": 1.5739,
      "step": 72262
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6677579283714294,
      "learning_rate": 5.6521927901035945e-05,
      "loss": 1.5156,
      "step": 72263
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6507050395011902,
      "learning_rate": 5.6515821687705775e-05,
      "loss": 1.49,
      "step": 72264
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.644381046295166,
      "learning_rate": 5.6509715769929354e-05,
      "loss": 1.4998,
      "step": 72265
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6621024012565613,
      "learning_rate": 5.650361014771427e-05,
      "loss": 1.4961,
      "step": 72266
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6819582581520081,
      "learning_rate": 5.6497504821067996e-05,
      "loss": 1.5299,
      "step": 72267
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6607711315155029,
      "learning_rate": 5.6491399789997885e-05,
      "loss": 1.4868,
      "step": 72268
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.646461009979248,
      "learning_rate": 5.6485295054511225e-05,
      "loss": 1.5399,
      "step": 72269
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6572440266609192,
      "learning_rate": 5.6479190614615555e-05,
      "loss": 1.4979,
      "step": 72270
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6544091701507568,
      "learning_rate": 5.647308647031843e-05,
      "loss": 1.5183,
      "step": 72271
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6594794392585754,
      "learning_rate": 5.646698262162695e-05,
      "loss": 1.4682,
      "step": 72272
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6647767424583435,
      "learning_rate": 5.646087906854866e-05,
      "loss": 1.5432,
      "step": 72273
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6726561784744263,
      "learning_rate": 5.6454775811091034e-05,
      "loss": 1.5917,
      "step": 72274
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.654998242855072,
      "learning_rate": 5.6448672849261434e-05,
      "loss": 1.5275,
      "step": 72275
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6488571763038635,
      "learning_rate": 5.644257018306722e-05,
      "loss": 1.5556,
      "step": 72276
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.655092179775238,
      "learning_rate": 5.643646781251587e-05,
      "loss": 1.53,
      "step": 72277
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6358994245529175,
      "learning_rate": 5.643036573761477e-05,
      "loss": 1.4944,
      "step": 72278
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6370778679847717,
      "learning_rate": 5.642426395837126e-05,
      "loss": 1.5156,
      "step": 72279
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6520971655845642,
      "learning_rate": 5.641816247479278e-05,
      "loss": 1.5314,
      "step": 72280
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6429112553596497,
      "learning_rate": 5.6412061286886856e-05,
      "loss": 1.6109,
      "step": 72281
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6408538222312927,
      "learning_rate": 5.640596039466081e-05,
      "loss": 1.5331,
      "step": 72282
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6463690996170044,
      "learning_rate": 5.639985979812194e-05,
      "loss": 1.484,
      "step": 72283
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6521707773208618,
      "learning_rate": 5.6393759497277834e-05,
      "loss": 1.5256,
      "step": 72284
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6591525077819824,
      "learning_rate": 5.6387659492135795e-05,
      "loss": 1.5542,
      "step": 72285
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6448402404785156,
      "learning_rate": 5.638155978270318e-05,
      "loss": 1.5407,
      "step": 72286
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6531172394752502,
      "learning_rate": 5.6375460368987514e-05,
      "loss": 1.5945,
      "step": 72287
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6559643745422363,
      "learning_rate": 5.636936125099609e-05,
      "loss": 1.5186,
      "step": 72288
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6532062292098999,
      "learning_rate": 5.636326242873641e-05,
      "loss": 1.5441,
      "step": 72289
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6202440857887268,
      "learning_rate": 5.63571639022158e-05,
      "loss": 1.5214,
      "step": 72290
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6277759671211243,
      "learning_rate": 5.6351065671441744e-05,
      "loss": 1.4579,
      "step": 72291
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6318821907043457,
      "learning_rate": 5.634496773642158e-05,
      "loss": 1.5443,
      "step": 72292
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6331536769866943,
      "learning_rate": 5.6338870097162656e-05,
      "loss": 1.4557,
      "step": 72293
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6360626816749573,
      "learning_rate": 5.633277275367255e-05,
      "loss": 1.4648,
      "step": 72294
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6227473020553589,
      "learning_rate": 5.632667570595845e-05,
      "loss": 1.5542,
      "step": 72295
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.665257453918457,
      "learning_rate": 5.632057895402794e-05,
      "loss": 1.5019,
      "step": 72296
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6431885957717896,
      "learning_rate": 5.6314482497888326e-05,
      "loss": 1.5193,
      "step": 72297
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6387690901756287,
      "learning_rate": 5.630838633754699e-05,
      "loss": 1.4798,
      "step": 72298
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6509484052658081,
      "learning_rate": 5.630229047301141e-05,
      "loss": 1.5665,
      "step": 72299
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6449409127235413,
      "learning_rate": 5.629619490428887e-05,
      "loss": 1.5641,
      "step": 72300
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6754660606384277,
      "learning_rate": 5.629009963138693e-05,
      "loss": 1.5872,
      "step": 72301
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6616200804710388,
      "learning_rate": 5.628400465431282e-05,
      "loss": 1.5906,
      "step": 72302
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6522144079208374,
      "learning_rate": 5.6277909973074096e-05,
      "loss": 1.4894,
      "step": 72303
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6731051802635193,
      "learning_rate": 5.627181558767806e-05,
      "loss": 1.5572,
      "step": 72304
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6425887942314148,
      "learning_rate": 5.626572149813206e-05,
      "loss": 1.5282,
      "step": 72305
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6390398740768433,
      "learning_rate": 5.625962770444368e-05,
      "loss": 1.5686,
      "step": 72306
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6263964772224426,
      "learning_rate": 5.6253534206620154e-05,
      "loss": 1.5177,
      "step": 72307
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.642313539981842,
      "learning_rate": 5.624744100466886e-05,
      "loss": 1.5477,
      "step": 72308
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6196582913398743,
      "learning_rate": 5.624134809859725e-05,
      "loss": 1.5953,
      "step": 72309
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6975898146629333,
      "learning_rate": 5.623525548841282e-05,
      "loss": 1.4599,
      "step": 72310
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6397356390953064,
      "learning_rate": 5.622916317412284e-05,
      "loss": 1.5158,
      "step": 72311
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.663247287273407,
      "learning_rate": 5.6223071155734686e-05,
      "loss": 1.6596,
      "step": 72312
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6549867391586304,
      "learning_rate": 5.621697943325587e-05,
      "loss": 1.4694,
      "step": 72313
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6343308687210083,
      "learning_rate": 5.6210888006693744e-05,
      "loss": 1.568,
      "step": 72314
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.645328938961029,
      "learning_rate": 5.6204796876055566e-05,
      "loss": 1.5051,
      "step": 72315
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6914196610450745,
      "learning_rate": 5.619870604134887e-05,
      "loss": 1.6169,
      "step": 72316
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6597219109535217,
      "learning_rate": 5.619261550258118e-05,
      "loss": 1.4959,
      "step": 72317
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.621908962726593,
      "learning_rate": 5.618652525975956e-05,
      "loss": 1.4593,
      "step": 72318
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.625718891620636,
      "learning_rate": 5.61804353128916e-05,
      "loss": 1.4664,
      "step": 72319
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6539572477340698,
      "learning_rate": 5.6174345661984734e-05,
      "loss": 1.5469,
      "step": 72320
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6391270160675049,
      "learning_rate": 5.616825630704628e-05,
      "loss": 1.5308,
      "step": 72321
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6580387949943542,
      "learning_rate": 5.6162167248083535e-05,
      "loss": 1.4703,
      "step": 72322
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6439840793609619,
      "learning_rate": 5.6156078485104025e-05,
      "loss": 1.5322,
      "step": 72323
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6702347993850708,
      "learning_rate": 5.614999001811525e-05,
      "loss": 1.5187,
      "step": 72324
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6443363428115845,
      "learning_rate": 5.6143901847124304e-05,
      "loss": 1.5163,
      "step": 72325
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6363216042518616,
      "learning_rate": 5.613781397213871e-05,
      "loss": 1.5374,
      "step": 72326
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6339531540870667,
      "learning_rate": 5.6131726393166e-05,
      "loss": 1.4999,
      "step": 72327
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6584092378616333,
      "learning_rate": 5.6125639110213396e-05,
      "loss": 1.5668,
      "step": 72328
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6555137634277344,
      "learning_rate": 5.6119552123288294e-05,
      "loss": 1.4768,
      "step": 72329
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6450508832931519,
      "learning_rate": 5.611346543239808e-05,
      "loss": 1.5182,
      "step": 72330
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6505723595619202,
      "learning_rate": 5.610737903755037e-05,
      "loss": 1.4965,
      "step": 72331
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6476746201515198,
      "learning_rate": 5.6101292938752205e-05,
      "loss": 1.5443,
      "step": 72332
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6562101244926453,
      "learning_rate": 5.609520713601112e-05,
      "loss": 1.4361,
      "step": 72333
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6532135605812073,
      "learning_rate": 5.608912162933461e-05,
      "loss": 1.5496,
      "step": 72334
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6828891038894653,
      "learning_rate": 5.608303641872997e-05,
      "loss": 1.5198,
      "step": 72335
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6721994280815125,
      "learning_rate": 5.607695150420451e-05,
      "loss": 1.4557,
      "step": 72336
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6388483047485352,
      "learning_rate": 5.607086688576569e-05,
      "loss": 1.5425,
      "step": 72337
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.65737384557724,
      "learning_rate": 5.606478256342104e-05,
      "loss": 1.5866,
      "step": 72338
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6577016115188599,
      "learning_rate": 5.6058698537177636e-05,
      "loss": 1.5188,
      "step": 72339
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.629988968372345,
      "learning_rate": 5.605261480704304e-05,
      "loss": 1.4866,
      "step": 72340
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6450507640838623,
      "learning_rate": 5.604653137302471e-05,
      "loss": 1.5303,
      "step": 72341
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6304662823677063,
      "learning_rate": 5.6040448235129933e-05,
      "loss": 1.4765,
      "step": 72342
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6202033162117004,
      "learning_rate": 5.603436539336604e-05,
      "loss": 1.4283,
      "step": 72343
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6483861804008484,
      "learning_rate": 5.602828284774057e-05,
      "loss": 1.496,
      "step": 72344
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6853000521659851,
      "learning_rate": 5.60222005982607e-05,
      "loss": 1.5081,
      "step": 72345
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6517058610916138,
      "learning_rate": 5.601611864493404e-05,
      "loss": 1.5134,
      "step": 72346
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6482805013656616,
      "learning_rate": 5.601003698776777e-05,
      "loss": 1.5078,
      "step": 72347
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6750560998916626,
      "learning_rate": 5.600395562676946e-05,
      "loss": 1.5308,
      "step": 72348
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6630470752716064,
      "learning_rate": 5.599787456194637e-05,
      "loss": 1.5485,
      "step": 72349
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6863394379615784,
      "learning_rate": 5.599179379330585e-05,
      "loss": 1.5456,
      "step": 72350
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6657829284667969,
      "learning_rate": 5.598571332085541e-05,
      "loss": 1.5144,
      "step": 72351
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6592934727668762,
      "learning_rate": 5.59796331446023e-05,
      "loss": 1.4751,
      "step": 72352
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6467180252075195,
      "learning_rate": 5.597355326455402e-05,
      "loss": 1.5023,
      "step": 72353
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6444741487503052,
      "learning_rate": 5.596747368071789e-05,
      "loss": 1.5609,
      "step": 72354
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6201120615005493,
      "learning_rate": 5.5961394393101214e-05,
      "loss": 1.5092,
      "step": 72355
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6453347206115723,
      "learning_rate": 5.5955315401711545e-05,
      "loss": 1.4478,
      "step": 72356
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6425808072090149,
      "learning_rate": 5.594923670655608e-05,
      "loss": 1.4978,
      "step": 72357
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6381885409355164,
      "learning_rate": 5.594315830764234e-05,
      "loss": 1.5181,
      "step": 72358
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6581506133079529,
      "learning_rate": 5.593708020497757e-05,
      "loss": 1.5352,
      "step": 72359
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6417274475097656,
      "learning_rate": 5.5931002398569316e-05,
      "loss": 1.5169,
      "step": 72360
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6437374949455261,
      "learning_rate": 5.592492488842487e-05,
      "loss": 1.5653,
      "step": 72361
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6543512344360352,
      "learning_rate": 5.5918847674551505e-05,
      "loss": 1.5152,
      "step": 72362
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6582034826278687,
      "learning_rate": 5.591277075695677e-05,
      "loss": 1.5397,
      "step": 72363
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.640800952911377,
      "learning_rate": 5.5906694135648e-05,
      "loss": 1.5308,
      "step": 72364
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6300973296165466,
      "learning_rate": 5.590061781063242e-05,
      "loss": 1.5036,
      "step": 72365
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6338157653808594,
      "learning_rate": 5.589454178191756e-05,
      "loss": 1.5414,
      "step": 72366
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6453083753585815,
      "learning_rate": 5.58884660495108e-05,
      "loss": 1.5292,
      "step": 72367
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6569170355796814,
      "learning_rate": 5.588239061341949e-05,
      "loss": 1.4938,
      "step": 72368
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6460915207862854,
      "learning_rate": 5.587631547365091e-05,
      "loss": 1.5546,
      "step": 72369
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6266043782234192,
      "learning_rate": 5.587024063021263e-05,
      "loss": 1.4496,
      "step": 72370
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6128702163696289,
      "learning_rate": 5.586416608311186e-05,
      "loss": 1.4573,
      "step": 72371
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6530146598815918,
      "learning_rate": 5.585809183235594e-05,
      "loss": 1.4899,
      "step": 72372
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6785365343093872,
      "learning_rate": 5.585201787795234e-05,
      "loss": 1.5486,
      "step": 72373
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6484158635139465,
      "learning_rate": 5.5845944219908564e-05,
      "loss": 1.492,
      "step": 72374
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6419079899787903,
      "learning_rate": 5.58398708582317e-05,
      "loss": 1.4869,
      "step": 72375
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6500055193901062,
      "learning_rate": 5.5833797792929245e-05,
      "loss": 1.5974,
      "step": 72376
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6515980958938599,
      "learning_rate": 5.582772502400865e-05,
      "loss": 1.5377,
      "step": 72377
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.671340823173523,
      "learning_rate": 5.5821652551477236e-05,
      "loss": 1.5069,
      "step": 72378
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6559652090072632,
      "learning_rate": 5.5815580375342295e-05,
      "loss": 1.526,
      "step": 72379
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6491634845733643,
      "learning_rate": 5.580950849561122e-05,
      "loss": 1.5505,
      "step": 72380
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6511444449424744,
      "learning_rate": 5.580343691229161e-05,
      "loss": 1.56,
      "step": 72381
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6453226208686829,
      "learning_rate": 5.5797365625390486e-05,
      "loss": 1.5809,
      "step": 72382
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6485998630523682,
      "learning_rate": 5.579129463491535e-05,
      "loss": 1.5014,
      "step": 72383
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6683231592178345,
      "learning_rate": 5.578522394087373e-05,
      "loss": 1.502,
      "step": 72384
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.662919819355011,
      "learning_rate": 5.5779153543272805e-05,
      "loss": 1.4696,
      "step": 72385
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6581277847290039,
      "learning_rate": 5.5773083442119983e-05,
      "loss": 1.486,
      "step": 72386
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6635123491287231,
      "learning_rate": 5.576701363742262e-05,
      "loss": 1.5141,
      "step": 72387
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6599116921424866,
      "learning_rate": 5.5760944129188276e-05,
      "loss": 1.4784,
      "step": 72388
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.639549195766449,
      "learning_rate": 5.5754874917423987e-05,
      "loss": 1.4859,
      "step": 72389
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6632541418075562,
      "learning_rate": 5.57488060021373e-05,
      "loss": 1.5576,
      "step": 72390
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6969114542007446,
      "learning_rate": 5.574273738333569e-05,
      "loss": 1.5035,
      "step": 72391
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6370689272880554,
      "learning_rate": 5.573666906102637e-05,
      "loss": 1.5799,
      "step": 72392
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6582172513008118,
      "learning_rate": 5.573060103521668e-05,
      "loss": 1.5564,
      "step": 72393
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6503102779388428,
      "learning_rate": 5.572453330591411e-05,
      "loss": 1.5126,
      "step": 72394
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6580512523651123,
      "learning_rate": 5.571846587312598e-05,
      "loss": 1.5919,
      "step": 72395
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6365336179733276,
      "learning_rate": 5.571239873685956e-05,
      "loss": 1.6121,
      "step": 72396
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6344609260559082,
      "learning_rate": 5.570633189712228e-05,
      "loss": 1.5226,
      "step": 72397
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6726064085960388,
      "learning_rate": 5.5700265353921594e-05,
      "loss": 1.5654,
      "step": 72398
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6856549978256226,
      "learning_rate": 5.569419910726483e-05,
      "loss": 1.5236,
      "step": 72399
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6684454679489136,
      "learning_rate": 5.5688133157159174e-05,
      "loss": 1.4256,
      "step": 72400
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6730161905288696,
      "learning_rate": 5.568206750361224e-05,
      "loss": 1.4949,
      "step": 72401
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6302714943885803,
      "learning_rate": 5.567600214663127e-05,
      "loss": 1.5112,
      "step": 72402
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6547690033912659,
      "learning_rate": 5.566993708622357e-05,
      "loss": 1.5064,
      "step": 72403
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6609535813331604,
      "learning_rate": 5.566387232239663e-05,
      "loss": 1.5042,
      "step": 72404
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6582090854644775,
      "learning_rate": 5.5657807855157674e-05,
      "loss": 1.5336,
      "step": 72405
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6533353924751282,
      "learning_rate": 5.565174368451424e-05,
      "loss": 1.5005,
      "step": 72406
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6360279321670532,
      "learning_rate": 5.564567981047348e-05,
      "loss": 1.5481,
      "step": 72407
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6694369316101074,
      "learning_rate": 5.563961623304291e-05,
      "loss": 1.5705,
      "step": 72408
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6517569422721863,
      "learning_rate": 5.563355295222989e-05,
      "loss": 1.5216,
      "step": 72409
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6560563445091248,
      "learning_rate": 5.562748996804165e-05,
      "loss": 1.545,
      "step": 72410
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6542096734046936,
      "learning_rate": 5.5621427280485666e-05,
      "loss": 1.5968,
      "step": 72411
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6520589590072632,
      "learning_rate": 5.5615364889569225e-05,
      "loss": 1.6161,
      "step": 72412
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6725561022758484,
      "learning_rate": 5.5609302795299795e-05,
      "loss": 1.5801,
      "step": 72413
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6654555797576904,
      "learning_rate": 5.560324099768466e-05,
      "loss": 1.5005,
      "step": 72414
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6502225995063782,
      "learning_rate": 5.5597179496731094e-05,
      "loss": 1.5707,
      "step": 72415
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6578859686851501,
      "learning_rate": 5.5591118292446615e-05,
      "loss": 1.5464,
      "step": 72416
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6576049327850342,
      "learning_rate": 5.5585057384838415e-05,
      "loss": 1.5677,
      "step": 72417
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6360505223274231,
      "learning_rate": 5.557899677391406e-05,
      "loss": 1.5359,
      "step": 72418
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.660330057144165,
      "learning_rate": 5.5572936459680684e-05,
      "loss": 1.5431,
      "step": 72419
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6380980610847473,
      "learning_rate": 5.556687644214584e-05,
      "loss": 1.5121,
      "step": 72420
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6492994427680969,
      "learning_rate": 5.556081672131678e-05,
      "loss": 1.5047,
      "step": 72421
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6681118011474609,
      "learning_rate": 5.5554757297200816e-05,
      "loss": 1.5183,
      "step": 72422
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.661026120185852,
      "learning_rate": 5.554869816980543e-05,
      "loss": 1.5469,
      "step": 72423
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6591091752052307,
      "learning_rate": 5.554263933913788e-05,
      "loss": 1.5204,
      "step": 72424
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6587010622024536,
      "learning_rate": 5.5536580805205476e-05,
      "loss": 1.5675,
      "step": 72425
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6491302847862244,
      "learning_rate": 5.5530522568015666e-05,
      "loss": 1.4683,
      "step": 72426
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6610089540481567,
      "learning_rate": 5.552446462757585e-05,
      "loss": 1.5624,
      "step": 72427
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6485028266906738,
      "learning_rate": 5.5518406983893316e-05,
      "loss": 1.5827,
      "step": 72428
    },
    {
      "epoch": 2.41,
      "grad_norm": 1.4582706689834595,
      "learning_rate": 5.551234963697533e-05,
      "loss": 1.5288,
      "step": 72429
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6434422731399536,
      "learning_rate": 5.5506292586829385e-05,
      "loss": 1.5163,
      "step": 72430
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6293597221374512,
      "learning_rate": 5.5500235833462805e-05,
      "loss": 1.4516,
      "step": 72431
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6547406315803528,
      "learning_rate": 5.549417937688282e-05,
      "loss": 1.5557,
      "step": 72432
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6452707052230835,
      "learning_rate": 5.5488123217096894e-05,
      "loss": 1.5209,
      "step": 72433
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6546915173530579,
      "learning_rate": 5.548206735411248e-05,
      "loss": 1.5352,
      "step": 72434
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.66212397813797,
      "learning_rate": 5.5476011787936684e-05,
      "loss": 1.4689,
      "step": 72435
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6335499286651611,
      "learning_rate": 5.5469956518576984e-05,
      "loss": 1.5495,
      "step": 72436
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6552261114120483,
      "learning_rate": 5.546390154604079e-05,
      "loss": 1.5682,
      "step": 72437
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6296955943107605,
      "learning_rate": 5.545784687033539e-05,
      "loss": 1.4498,
      "step": 72438
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6425684690475464,
      "learning_rate": 5.545179249146804e-05,
      "loss": 1.5133,
      "step": 72439
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6468027234077454,
      "learning_rate": 5.544573840944621e-05,
      "loss": 1.5397,
      "step": 72440
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6375064253807068,
      "learning_rate": 5.543968462427735e-05,
      "loss": 1.5211,
      "step": 72441
    },
    {
      "epoch": 2.41,
      "grad_norm": 1.0804808139801025,
      "learning_rate": 5.5433631135968557e-05,
      "loss": 1.5009,
      "step": 72442
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6723613142967224,
      "learning_rate": 5.542757794452727e-05,
      "loss": 1.5185,
      "step": 72443
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6755785942077637,
      "learning_rate": 5.542152504996097e-05,
      "loss": 1.5588,
      "step": 72444
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.641643226146698,
      "learning_rate": 5.5415472452276856e-05,
      "loss": 1.5802,
      "step": 72445
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6709179282188416,
      "learning_rate": 5.540942015148229e-05,
      "loss": 1.5304,
      "step": 72446
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6386024951934814,
      "learning_rate": 5.540336814758463e-05,
      "loss": 1.4751,
      "step": 72447
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6410566568374634,
      "learning_rate": 5.53973164405914e-05,
      "loss": 1.5368,
      "step": 72448
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6646999716758728,
      "learning_rate": 5.5391265030509636e-05,
      "loss": 1.5176,
      "step": 72449
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.65831059217453,
      "learning_rate": 5.538521391734683e-05,
      "loss": 1.5458,
      "step": 72450
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6586129069328308,
      "learning_rate": 5.53791631011104e-05,
      "loss": 1.575,
      "step": 72451
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6421668529510498,
      "learning_rate": 5.537311258180762e-05,
      "loss": 1.5752,
      "step": 72452
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6530384421348572,
      "learning_rate": 5.536706235944578e-05,
      "loss": 1.4785,
      "step": 72453
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6482076048851013,
      "learning_rate": 5.536101243403227e-05,
      "loss": 1.5411,
      "step": 72454
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6689390540122986,
      "learning_rate": 5.5354962805574524e-05,
      "loss": 1.4777,
      "step": 72455
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.628389298915863,
      "learning_rate": 5.5348913474079824e-05,
      "loss": 1.5075,
      "step": 72456
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6434561014175415,
      "learning_rate": 5.534286443955541e-05,
      "loss": 1.5579,
      "step": 72457
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6155099868774414,
      "learning_rate": 5.533681570200877e-05,
      "loss": 1.4407,
      "step": 72458
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6301080584526062,
      "learning_rate": 5.533076726144721e-05,
      "loss": 1.4439,
      "step": 72459
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6498729586601257,
      "learning_rate": 5.532471911787794e-05,
      "loss": 1.5505,
      "step": 72460
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6509144902229309,
      "learning_rate": 5.531867127130849e-05,
      "loss": 1.5836,
      "step": 72461
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6310610771179199,
      "learning_rate": 5.531262372174606e-05,
      "loss": 1.5262,
      "step": 72462
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6391908526420593,
      "learning_rate": 5.530657646919815e-05,
      "loss": 1.5098,
      "step": 72463
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6739145517349243,
      "learning_rate": 5.530052951367188e-05,
      "loss": 1.5048,
      "step": 72464
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6541467905044556,
      "learning_rate": 5.5294482855174805e-05,
      "loss": 1.4823,
      "step": 72465
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6755750179290771,
      "learning_rate": 5.5288436493714196e-05,
      "loss": 1.5976,
      "step": 72466
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6545746326446533,
      "learning_rate": 5.5282390429297274e-05,
      "loss": 1.5871,
      "step": 72467
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6391728520393372,
      "learning_rate": 5.527634466193154e-05,
      "loss": 1.5154,
      "step": 72468
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6449291110038757,
      "learning_rate": 5.527029919162421e-05,
      "loss": 1.5797,
      "step": 72469
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.7001374959945679,
      "learning_rate": 5.526425401838273e-05,
      "loss": 1.7163,
      "step": 72470
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6466417908668518,
      "learning_rate": 5.52582091422144e-05,
      "loss": 1.5403,
      "step": 72471
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6665892004966736,
      "learning_rate": 5.525216456312648e-05,
      "loss": 1.4372,
      "step": 72472
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6325722336769104,
      "learning_rate": 5.524612028112641e-05,
      "loss": 1.4957,
      "step": 72473
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6527705788612366,
      "learning_rate": 5.524007629622145e-05,
      "loss": 1.5196,
      "step": 72474
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6364127993583679,
      "learning_rate": 5.523403260841903e-05,
      "loss": 1.4973,
      "step": 72475
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6464938521385193,
      "learning_rate": 5.5227989217726353e-05,
      "loss": 1.4787,
      "step": 72476
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6503568291664124,
      "learning_rate": 5.5221946124150906e-05,
      "loss": 1.5054,
      "step": 72477
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.641793429851532,
      "learning_rate": 5.521590332769995e-05,
      "loss": 1.5438,
      "step": 72478
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6508163213729858,
      "learning_rate": 5.5209860828380745e-05,
      "loss": 1.5264,
      "step": 72479
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.627395749092102,
      "learning_rate": 5.520381862620079e-05,
      "loss": 1.5295,
      "step": 72480
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.696259081363678,
      "learning_rate": 5.519777672116731e-05,
      "loss": 1.5562,
      "step": 72481
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.635858416557312,
      "learning_rate": 5.519173511328759e-05,
      "loss": 1.4802,
      "step": 72482
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6598158478736877,
      "learning_rate": 5.518569380256904e-05,
      "loss": 1.53,
      "step": 72483
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6650956869125366,
      "learning_rate": 5.517965278901908e-05,
      "loss": 1.4763,
      "step": 72484
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6385686993598938,
      "learning_rate": 5.51736120726449e-05,
      "loss": 1.5574,
      "step": 72485
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6706329584121704,
      "learning_rate": 5.516757165345384e-05,
      "loss": 1.5424,
      "step": 72486
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.646066427230835,
      "learning_rate": 5.516153153145334e-05,
      "loss": 1.4985,
      "step": 72487
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6535001993179321,
      "learning_rate": 5.515549170665068e-05,
      "loss": 1.4644,
      "step": 72488
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6613407135009766,
      "learning_rate": 5.5149452179053075e-05,
      "loss": 1.5038,
      "step": 72489
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6542210578918457,
      "learning_rate": 5.514341294866797e-05,
      "loss": 1.4978,
      "step": 72490
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6293752789497375,
      "learning_rate": 5.513737401550283e-05,
      "loss": 1.5134,
      "step": 72491
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6506040096282959,
      "learning_rate": 5.5131335379564714e-05,
      "loss": 1.605,
      "step": 72492
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6273714303970337,
      "learning_rate": 5.512529704086106e-05,
      "loss": 1.5122,
      "step": 72493
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6681755185127258,
      "learning_rate": 5.511925899939927e-05,
      "loss": 1.5386,
      "step": 72494
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6366083025932312,
      "learning_rate": 5.511322125518664e-05,
      "loss": 1.545,
      "step": 72495
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6609892249107361,
      "learning_rate": 5.51071838082304e-05,
      "loss": 1.5553,
      "step": 72496
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6527113318443298,
      "learning_rate": 5.5101146658537975e-05,
      "loss": 1.5858,
      "step": 72497
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.651194155216217,
      "learning_rate": 5.509510980611679e-05,
      "loss": 1.5169,
      "step": 72498
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6623303890228271,
      "learning_rate": 5.5089073250973904e-05,
      "loss": 1.4829,
      "step": 72499
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6337534189224243,
      "learning_rate": 5.5083036993116816e-05,
      "loss": 1.4922,
      "step": 72500
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6581836938858032,
      "learning_rate": 5.507700103255292e-05,
      "loss": 1.4996,
      "step": 72501
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6490259766578674,
      "learning_rate": 5.507096536928943e-05,
      "loss": 1.4848,
      "step": 72502
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6519729495048523,
      "learning_rate": 5.506493000333363e-05,
      "loss": 1.6064,
      "step": 72503
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6451927423477173,
      "learning_rate": 5.5058894934692935e-05,
      "loss": 1.5167,
      "step": 72504
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6537483334541321,
      "learning_rate": 5.50528601633748e-05,
      "loss": 1.5574,
      "step": 72505
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.659002423286438,
      "learning_rate": 5.504682568938623e-05,
      "loss": 1.5718,
      "step": 72506
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.63897305727005,
      "learning_rate": 5.504079151273475e-05,
      "loss": 1.5717,
      "step": 72507
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6738967299461365,
      "learning_rate": 5.503475763342768e-05,
      "loss": 1.5504,
      "step": 72508
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6540568470954895,
      "learning_rate": 5.502872405147236e-05,
      "loss": 1.5261,
      "step": 72509
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6512120366096497,
      "learning_rate": 5.502269076687601e-05,
      "loss": 1.5739,
      "step": 72510
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6377330422401428,
      "learning_rate": 5.5016657779646056e-05,
      "loss": 1.5577,
      "step": 72511
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6510627269744873,
      "learning_rate": 5.501062508978983e-05,
      "loss": 1.5494,
      "step": 72512
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6632319688796997,
      "learning_rate": 5.500459269731449e-05,
      "loss": 1.5112,
      "step": 72513
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.644790530204773,
      "learning_rate": 5.499856060222749e-05,
      "loss": 1.469,
      "step": 72514
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6716263294219971,
      "learning_rate": 5.499252880453621e-05,
      "loss": 1.5767,
      "step": 72515
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6265765428543091,
      "learning_rate": 5.4986497304247924e-05,
      "loss": 1.5395,
      "step": 72516
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6584525108337402,
      "learning_rate": 5.49804661013698e-05,
      "loss": 1.6142,
      "step": 72517
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6474743485450745,
      "learning_rate": 5.4974435195909406e-05,
      "loss": 1.5682,
      "step": 72518
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6184309720993042,
      "learning_rate": 5.496840458787396e-05,
      "loss": 1.4863,
      "step": 72519
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.662954568862915,
      "learning_rate": 5.496237427727066e-05,
      "loss": 1.5516,
      "step": 72520
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6552208662033081,
      "learning_rate": 5.4956344264107e-05,
      "loss": 1.5297,
      "step": 72521
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6718766093254089,
      "learning_rate": 5.495031454839017e-05,
      "loss": 1.557,
      "step": 72522
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6533926725387573,
      "learning_rate": 5.494428513012764e-05,
      "loss": 1.5262,
      "step": 72523
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6438305974006653,
      "learning_rate": 5.4938256009326566e-05,
      "loss": 1.4364,
      "step": 72524
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6559627056121826,
      "learning_rate": 5.4932227185994404e-05,
      "loss": 1.4993,
      "step": 72525
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6431747674942017,
      "learning_rate": 5.492619866013842e-05,
      "loss": 1.5341,
      "step": 72526
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6348876953125,
      "learning_rate": 5.492017043176581e-05,
      "loss": 1.5408,
      "step": 72527
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6419512629508972,
      "learning_rate": 5.491414250088413e-05,
      "loss": 1.5658,
      "step": 72528
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6348575949668884,
      "learning_rate": 5.490811486750044e-05,
      "loss": 1.5033,
      "step": 72529
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6539769768714905,
      "learning_rate": 5.490208753162231e-05,
      "loss": 1.4507,
      "step": 72530
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6894065141677856,
      "learning_rate": 5.489606049325692e-05,
      "loss": 1.5513,
      "step": 72531
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6614580154418945,
      "learning_rate": 5.489003375241151e-05,
      "loss": 1.5784,
      "step": 72532
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6659062504768372,
      "learning_rate": 5.488400730909357e-05,
      "loss": 1.5815,
      "step": 72533
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6361864805221558,
      "learning_rate": 5.487798116331022e-05,
      "loss": 1.5248,
      "step": 72534
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6399645805358887,
      "learning_rate": 5.4871955315069005e-05,
      "loss": 1.5762,
      "step": 72535
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6483532190322876,
      "learning_rate": 5.4865929764377004e-05,
      "loss": 1.4759,
      "step": 72536
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6533862948417664,
      "learning_rate": 5.485990451124175e-05,
      "loss": 1.4805,
      "step": 72537
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6495075821876526,
      "learning_rate": 5.485387955567047e-05,
      "loss": 1.5476,
      "step": 72538
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.64438796043396,
      "learning_rate": 5.4847854897670354e-05,
      "loss": 1.5501,
      "step": 72539
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6788884997367859,
      "learning_rate": 5.48418305372489e-05,
      "loss": 1.5879,
      "step": 72540
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6578882932662964,
      "learning_rate": 5.483580647441333e-05,
      "loss": 1.5245,
      "step": 72541
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6409708261489868,
      "learning_rate": 5.482978270917089e-05,
      "loss": 1.5152,
      "step": 72542
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6486589908599854,
      "learning_rate": 5.482375924152899e-05,
      "loss": 1.4884,
      "step": 72543
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.624719500541687,
      "learning_rate": 5.481773607149499e-05,
      "loss": 1.5107,
      "step": 72544
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6525692939758301,
      "learning_rate": 5.4811713199076125e-05,
      "loss": 1.5259,
      "step": 72545
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6440512537956238,
      "learning_rate": 5.480569062427965e-05,
      "loss": 1.5245,
      "step": 72546
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6257094740867615,
      "learning_rate": 5.4799668347113e-05,
      "loss": 1.5083,
      "step": 72547
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6835638880729675,
      "learning_rate": 5.479364636758347e-05,
      "loss": 1.5673,
      "step": 72548
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6752482056617737,
      "learning_rate": 5.4787624685698205e-05,
      "loss": 1.5468,
      "step": 72549
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.631496787071228,
      "learning_rate": 5.4781603301464615e-05,
      "loss": 1.4798,
      "step": 72550
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.651565670967102,
      "learning_rate": 5.477558221489022e-05,
      "loss": 1.458,
      "step": 72551
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6469522714614868,
      "learning_rate": 5.4769561425981954e-05,
      "loss": 1.4685,
      "step": 72552
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6499020457267761,
      "learning_rate": 5.4763540934747344e-05,
      "loss": 1.4606,
      "step": 72553
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6669497489929199,
      "learning_rate": 5.475752074119371e-05,
      "loss": 1.5801,
      "step": 72554
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6612484455108643,
      "learning_rate": 5.475150084532831e-05,
      "loss": 1.499,
      "step": 72555
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6727885603904724,
      "learning_rate": 5.474548124715839e-05,
      "loss": 1.5349,
      "step": 72556
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6602103114128113,
      "learning_rate": 5.473946194669132e-05,
      "loss": 1.5712,
      "step": 72557
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6433460116386414,
      "learning_rate": 5.473344294393455e-05,
      "loss": 1.5301,
      "step": 72558
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6769234538078308,
      "learning_rate": 5.472742423889509e-05,
      "loss": 1.5092,
      "step": 72559
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6488683223724365,
      "learning_rate": 5.472140583158038e-05,
      "loss": 1.5364,
      "step": 72560
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.673392117023468,
      "learning_rate": 5.471538772199784e-05,
      "loss": 1.5528,
      "step": 72561
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6499486565589905,
      "learning_rate": 5.4709369910154666e-05,
      "loss": 1.4962,
      "step": 72562
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.638194739818573,
      "learning_rate": 5.470335239605812e-05,
      "loss": 1.4982,
      "step": 72563
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6563068628311157,
      "learning_rate": 5.469733517971556e-05,
      "loss": 1.5434,
      "step": 72564
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6705234050750732,
      "learning_rate": 5.469131826113442e-05,
      "loss": 1.6036,
      "step": 72565
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6542849540710449,
      "learning_rate": 5.468530164032175e-05,
      "loss": 1.5227,
      "step": 72566
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6565355062484741,
      "learning_rate": 5.467928531728496e-05,
      "loss": 1.5763,
      "step": 72567
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6679220199584961,
      "learning_rate": 5.467326929203143e-05,
      "loss": 1.4535,
      "step": 72568
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6809905171394348,
      "learning_rate": 5.466725356456843e-05,
      "loss": 1.5034,
      "step": 72569
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6479822397232056,
      "learning_rate": 5.466123813490317e-05,
      "loss": 1.4969,
      "step": 72570
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6461271047592163,
      "learning_rate": 5.465522300304307e-05,
      "loss": 1.4359,
      "step": 72571
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6606097221374512,
      "learning_rate": 5.4649208168995305e-05,
      "loss": 1.5544,
      "step": 72572
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6398255825042725,
      "learning_rate": 5.4643193632767344e-05,
      "loss": 1.4938,
      "step": 72573
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6537611484527588,
      "learning_rate": 5.463717939436632e-05,
      "loss": 1.4983,
      "step": 72574
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6276504397392273,
      "learning_rate": 5.4631165453799674e-05,
      "loss": 1.5578,
      "step": 72575
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6488847732543945,
      "learning_rate": 5.4625151811074616e-05,
      "loss": 1.5059,
      "step": 72576
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6467533707618713,
      "learning_rate": 5.461913846619844e-05,
      "loss": 1.5275,
      "step": 72577
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6940511465072632,
      "learning_rate": 5.46131254191785e-05,
      "loss": 1.5625,
      "step": 72578
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6577391624450684,
      "learning_rate": 5.4607112670022035e-05,
      "loss": 1.6031,
      "step": 72579
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6627727150917053,
      "learning_rate": 5.460110021873643e-05,
      "loss": 1.5256,
      "step": 72580
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6319438815116882,
      "learning_rate": 5.4595088065328875e-05,
      "loss": 1.534,
      "step": 72581
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6404446959495544,
      "learning_rate": 5.4589076209806805e-05,
      "loss": 1.5329,
      "step": 72582
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6595554947853088,
      "learning_rate": 5.458306465217741e-05,
      "loss": 1.4586,
      "step": 72583
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6685401201248169,
      "learning_rate": 5.457705339244796e-05,
      "loss": 1.5063,
      "step": 72584
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6549630165100098,
      "learning_rate": 5.457104243062586e-05,
      "loss": 1.5843,
      "step": 72585
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6611933708190918,
      "learning_rate": 5.45650317667183e-05,
      "loss": 1.6026,
      "step": 72586
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6542582511901855,
      "learning_rate": 5.455902140073269e-05,
      "loss": 1.5901,
      "step": 72587
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6598449945449829,
      "learning_rate": 5.4553011332676264e-05,
      "loss": 1.5395,
      "step": 72588
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6528317928314209,
      "learning_rate": 5.454700156255625e-05,
      "loss": 1.5133,
      "step": 72589
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.996322751045227,
      "learning_rate": 5.4540992090380065e-05,
      "loss": 1.5895,
      "step": 72590
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6334694623947144,
      "learning_rate": 5.453498291615488e-05,
      "loss": 1.4765,
      "step": 72591
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6500034332275391,
      "learning_rate": 5.452897403988815e-05,
      "loss": 1.5966,
      "step": 72592
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6292024254798889,
      "learning_rate": 5.452296546158701e-05,
      "loss": 1.4641,
      "step": 72593
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6537231206893921,
      "learning_rate": 5.451695718125888e-05,
      "loss": 1.4607,
      "step": 72594
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6449596285820007,
      "learning_rate": 5.451094919891099e-05,
      "loss": 1.5196,
      "step": 72595
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6246218085289001,
      "learning_rate": 5.450494151455057e-05,
      "loss": 1.4146,
      "step": 72596
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6403528451919556,
      "learning_rate": 5.449893412818505e-05,
      "loss": 1.5438,
      "step": 72597
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6511929035186768,
      "learning_rate": 5.449292703982164e-05,
      "loss": 1.5274,
      "step": 72598
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6912840604782104,
      "learning_rate": 5.448692024946759e-05,
      "loss": 1.6475,
      "step": 72599
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.7129642963409424,
      "learning_rate": 5.4480913757130216e-05,
      "loss": 1.4943,
      "step": 72600
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6666290760040283,
      "learning_rate": 5.447490756281692e-05,
      "loss": 1.5609,
      "step": 72601
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6563844084739685,
      "learning_rate": 5.4468901666534914e-05,
      "loss": 1.5419,
      "step": 72602
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6510700583457947,
      "learning_rate": 5.446289606829144e-05,
      "loss": 1.4816,
      "step": 72603
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6405397653579712,
      "learning_rate": 5.445689076809385e-05,
      "loss": 1.5146,
      "step": 72604
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6485751867294312,
      "learning_rate": 5.445088576594945e-05,
      "loss": 1.4736,
      "step": 72605
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6483994126319885,
      "learning_rate": 5.444488106186542e-05,
      "loss": 1.5,
      "step": 72606
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6652315258979797,
      "learning_rate": 5.4438876655849126e-05,
      "loss": 1.526,
      "step": 72607
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6298859119415283,
      "learning_rate": 5.4432872547908e-05,
      "loss": 1.5599,
      "step": 72608
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6556323170661926,
      "learning_rate": 5.442686873804903e-05,
      "loss": 1.6033,
      "step": 72609
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.654994785785675,
      "learning_rate": 5.442086522627965e-05,
      "loss": 1.5637,
      "step": 72610
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6445328593254089,
      "learning_rate": 5.4414862012607254e-05,
      "loss": 1.5559,
      "step": 72611
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6493372917175293,
      "learning_rate": 5.440885909703899e-05,
      "loss": 1.5318,
      "step": 72612
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.657858669757843,
      "learning_rate": 5.4402856479582133e-05,
      "loss": 1.5317,
      "step": 72613
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.67386394739151,
      "learning_rate": 5.439685416024404e-05,
      "loss": 1.5272,
      "step": 72614
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6213546991348267,
      "learning_rate": 5.4390852139032107e-05,
      "loss": 1.5375,
      "step": 72615
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6521251797676086,
      "learning_rate": 5.438485041595335e-05,
      "loss": 1.5884,
      "step": 72616
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6347475051879883,
      "learning_rate": 5.437884899101518e-05,
      "loss": 1.5581,
      "step": 72617
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6501904726028442,
      "learning_rate": 5.4372847864224976e-05,
      "loss": 1.4081,
      "step": 72618
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6572356820106506,
      "learning_rate": 5.436684703558998e-05,
      "loss": 1.5012,
      "step": 72619
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.681037962436676,
      "learning_rate": 5.4360846505117306e-05,
      "loss": 1.6001,
      "step": 72620
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6313657164573669,
      "learning_rate": 5.435484627281442e-05,
      "loss": 1.4488,
      "step": 72621
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.7033242583274841,
      "learning_rate": 5.434884633868869e-05,
      "loss": 1.5372,
      "step": 72622
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6487574577331543,
      "learning_rate": 5.43428467027471e-05,
      "loss": 1.4515,
      "step": 72623
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6373332738876343,
      "learning_rate": 5.4336847364997115e-05,
      "loss": 1.4718,
      "step": 72624
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6670240759849548,
      "learning_rate": 5.433084832544607e-05,
      "loss": 1.5715,
      "step": 72625
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6677635312080383,
      "learning_rate": 5.4324849584101174e-05,
      "loss": 1.5615,
      "step": 72626
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6593040227890015,
      "learning_rate": 5.431885114096963e-05,
      "loss": 1.6378,
      "step": 72627
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6702990531921387,
      "learning_rate": 5.4312852996058875e-05,
      "loss": 1.5801,
      "step": 72628
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6620504260063171,
      "learning_rate": 5.430685514937613e-05,
      "loss": 1.5699,
      "step": 72629
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6418816447257996,
      "learning_rate": 5.4300857600928584e-05,
      "loss": 1.5157,
      "step": 72630
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6405948400497437,
      "learning_rate": 5.42948603507236e-05,
      "loss": 1.5365,
      "step": 72631
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6754491329193115,
      "learning_rate": 5.428886339876854e-05,
      "loss": 1.5768,
      "step": 72632
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6783095598220825,
      "learning_rate": 5.428286674507057e-05,
      "loss": 1.4606,
      "step": 72633
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6444836258888245,
      "learning_rate": 5.427687038963692e-05,
      "loss": 1.5465,
      "step": 72634
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6551806926727295,
      "learning_rate": 5.427087433247503e-05,
      "loss": 1.5117,
      "step": 72635
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6284712553024292,
      "learning_rate": 5.4264878573592087e-05,
      "loss": 1.5091,
      "step": 72636
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6339511871337891,
      "learning_rate": 5.4258883112995296e-05,
      "loss": 1.5032,
      "step": 72637
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6563911437988281,
      "learning_rate": 5.42528879506921e-05,
      "loss": 1.5236,
      "step": 72638
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6447176337242126,
      "learning_rate": 5.4246893086689626e-05,
      "loss": 1.508,
      "step": 72639
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6403858065605164,
      "learning_rate": 5.424089852099526e-05,
      "loss": 1.4858,
      "step": 72640
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6305795311927795,
      "learning_rate": 5.423490425361616e-05,
      "loss": 1.5455,
      "step": 72641
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6495962738990784,
      "learning_rate": 5.422891028455977e-05,
      "loss": 1.6057,
      "step": 72642
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6481280326843262,
      "learning_rate": 5.422291661383323e-05,
      "loss": 1.5527,
      "step": 72643
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6548459529876709,
      "learning_rate": 5.421692324144382e-05,
      "loss": 1.4982,
      "step": 72644
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6518799662590027,
      "learning_rate": 5.4210930167398927e-05,
      "loss": 1.491,
      "step": 72645
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6272203326225281,
      "learning_rate": 5.420493739170564e-05,
      "loss": 1.5006,
      "step": 72646
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6709508895874023,
      "learning_rate": 5.419894491437146e-05,
      "loss": 1.5457,
      "step": 72647
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6587434411048889,
      "learning_rate": 5.419295273540351e-05,
      "loss": 1.5178,
      "step": 72648
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6306515336036682,
      "learning_rate": 5.418696085480905e-05,
      "loss": 1.4819,
      "step": 72649
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6450372934341431,
      "learning_rate": 5.418096927259544e-05,
      "loss": 1.5387,
      "step": 72650
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6600078344345093,
      "learning_rate": 5.417497798876985e-05,
      "loss": 1.5428,
      "step": 72651
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6514393091201782,
      "learning_rate": 5.41689870033397e-05,
      "loss": 1.5267,
      "step": 72652
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6417218446731567,
      "learning_rate": 5.416299631631213e-05,
      "loss": 1.5149,
      "step": 72653
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6281409859657288,
      "learning_rate": 5.415700592769451e-05,
      "loss": 1.5177,
      "step": 72654
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.9461422562599182,
      "learning_rate": 5.4151015837494047e-05,
      "loss": 1.5685,
      "step": 72655
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6660996079444885,
      "learning_rate": 5.414502604571794e-05,
      "loss": 1.5514,
      "step": 72656
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6571083664894104,
      "learning_rate": 5.413903655237365e-05,
      "loss": 1.4608,
      "step": 72657
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6873201131820679,
      "learning_rate": 5.413304735746836e-05,
      "loss": 1.4749,
      "step": 72658
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6433547139167786,
      "learning_rate": 5.412705846100921e-05,
      "loss": 1.4533,
      "step": 72659
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.664604902267456,
      "learning_rate": 5.412106986300362e-05,
      "loss": 1.5252,
      "step": 72660
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.674064576625824,
      "learning_rate": 5.411508156345889e-05,
      "loss": 1.5776,
      "step": 72661
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.648438572883606,
      "learning_rate": 5.41090935623822e-05,
      "loss": 1.4478,
      "step": 72662
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6576781868934631,
      "learning_rate": 5.410310585978076e-05,
      "loss": 1.5263,
      "step": 72663
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6667589545249939,
      "learning_rate": 5.409711845566203e-05,
      "loss": 1.481,
      "step": 72664
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6797375679016113,
      "learning_rate": 5.4091131350033126e-05,
      "loss": 1.5033,
      "step": 72665
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6515819430351257,
      "learning_rate": 5.408514454290132e-05,
      "loss": 1.5207,
      "step": 72666
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6459754109382629,
      "learning_rate": 5.4079158034273895e-05,
      "loss": 1.4878,
      "step": 72667
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.649992823600769,
      "learning_rate": 5.407317182415829e-05,
      "loss": 1.5647,
      "step": 72668
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6407842040061951,
      "learning_rate": 5.4067185912561464e-05,
      "loss": 1.5343,
      "step": 72669
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.7156714797019958,
      "learning_rate": 5.4061200299490836e-05,
      "loss": 1.5546,
      "step": 72670
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.647859513759613,
      "learning_rate": 5.4055214984953745e-05,
      "loss": 1.5023,
      "step": 72671
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6351125836372375,
      "learning_rate": 5.4049229968957374e-05,
      "loss": 1.4566,
      "step": 72672
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6493761539459229,
      "learning_rate": 5.404324525150896e-05,
      "loss": 1.5284,
      "step": 72673
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6434513926506042,
      "learning_rate": 5.403726083261579e-05,
      "loss": 1.5465,
      "step": 72674
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6432522535324097,
      "learning_rate": 5.40312767122853e-05,
      "loss": 1.5208,
      "step": 72675
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6259140372276306,
      "learning_rate": 5.402529289052441e-05,
      "loss": 1.4783,
      "step": 72676
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6914931535720825,
      "learning_rate": 5.4019309367340616e-05,
      "loss": 1.5528,
      "step": 72677
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6757662892341614,
      "learning_rate": 5.401332614274121e-05,
      "loss": 1.556,
      "step": 72678
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6575167775154114,
      "learning_rate": 5.4007343216733354e-05,
      "loss": 1.4905,
      "step": 72679
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6424334049224854,
      "learning_rate": 5.400136058932428e-05,
      "loss": 1.5304,
      "step": 72680
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6533455848693848,
      "learning_rate": 5.3995378260521315e-05,
      "loss": 1.5283,
      "step": 72681
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6524658799171448,
      "learning_rate": 5.398939623033185e-05,
      "loss": 1.5671,
      "step": 72682
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6888744831085205,
      "learning_rate": 5.3983414498762876e-05,
      "loss": 1.5407,
      "step": 72683
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6477189064025879,
      "learning_rate": 5.3977433065821764e-05,
      "loss": 1.5588,
      "step": 72684
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.654875636100769,
      "learning_rate": 5.3971451931515894e-05,
      "loss": 1.5886,
      "step": 72685
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6367630958557129,
      "learning_rate": 5.396547109585241e-05,
      "loss": 1.5773,
      "step": 72686
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6481961607933044,
      "learning_rate": 5.395949055883853e-05,
      "loss": 1.4875,
      "step": 72687
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6463852524757385,
      "learning_rate": 5.395351032048168e-05,
      "loss": 1.5162,
      "step": 72688
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6776795387268066,
      "learning_rate": 5.3947530380788886e-05,
      "loss": 1.5343,
      "step": 72689
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6473010778427124,
      "learning_rate": 5.3941550739767644e-05,
      "loss": 1.5022,
      "step": 72690
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6489052772521973,
      "learning_rate": 5.3935571397425026e-05,
      "loss": 1.4796,
      "step": 72691
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6505051851272583,
      "learning_rate": 5.3929592353768444e-05,
      "loss": 1.4997,
      "step": 72692
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6495257019996643,
      "learning_rate": 5.392361360880507e-05,
      "loss": 1.4963,
      "step": 72693
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6407000422477722,
      "learning_rate": 5.3917635162542095e-05,
      "loss": 1.4844,
      "step": 72694
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6315203309059143,
      "learning_rate": 5.3911657014986943e-05,
      "loss": 1.5828,
      "step": 72695
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6493564248085022,
      "learning_rate": 5.390567916614671e-05,
      "loss": 1.5165,
      "step": 72696
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6565861105918884,
      "learning_rate": 5.389970161602876e-05,
      "loss": 1.4997,
      "step": 72697
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6327322721481323,
      "learning_rate": 5.389372436464028e-05,
      "loss": 1.5195,
      "step": 72698
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6662008762359619,
      "learning_rate": 5.3887747411988604e-05,
      "loss": 1.5506,
      "step": 72699
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6741442084312439,
      "learning_rate": 5.3881770758080957e-05,
      "loss": 1.5143,
      "step": 72700
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6509463787078857,
      "learning_rate": 5.3875794402924466e-05,
      "loss": 1.4976,
      "step": 72701
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6670857667922974,
      "learning_rate": 5.3869818346526627e-05,
      "loss": 1.5859,
      "step": 72702
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6534836292266846,
      "learning_rate": 5.386384258889444e-05,
      "loss": 1.4881,
      "step": 72703
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.614250659942627,
      "learning_rate": 5.385786713003538e-05,
      "loss": 1.4883,
      "step": 72704
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6518875956535339,
      "learning_rate": 5.38518919699566e-05,
      "loss": 1.5373,
      "step": 72705
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.640002429485321,
      "learning_rate": 5.384591710866527e-05,
      "loss": 1.5114,
      "step": 72706
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6394477486610413,
      "learning_rate": 5.3839942546168804e-05,
      "loss": 1.5473,
      "step": 72707
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6672988533973694,
      "learning_rate": 5.383396828247431e-05,
      "loss": 1.5397,
      "step": 72708
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.65913325548172,
      "learning_rate": 5.382799431758917e-05,
      "loss": 1.5549,
      "step": 72709
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6656792759895325,
      "learning_rate": 5.3822020651520533e-05,
      "loss": 1.5232,
      "step": 72710
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6632283329963684,
      "learning_rate": 5.381604728427573e-05,
      "loss": 1.5609,
      "step": 72711
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6450276970863342,
      "learning_rate": 5.381007421586199e-05,
      "loss": 1.5074,
      "step": 72712
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6649857759475708,
      "learning_rate": 5.3804101446286466e-05,
      "loss": 1.4918,
      "step": 72713
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6520841717720032,
      "learning_rate": 5.3798128975556555e-05,
      "loss": 1.5146,
      "step": 72714
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6509093642234802,
      "learning_rate": 5.379215680367945e-05,
      "loss": 1.5557,
      "step": 72715
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6427507400512695,
      "learning_rate": 5.378618493066229e-05,
      "loss": 1.5403,
      "step": 72716
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6339179277420044,
      "learning_rate": 5.378021335651246e-05,
      "loss": 1.4975,
      "step": 72717
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6535875201225281,
      "learning_rate": 5.3774242081237215e-05,
      "loss": 1.4571,
      "step": 72718
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6571515202522278,
      "learning_rate": 5.37682711048438e-05,
      "loss": 1.6416,
      "step": 72719
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6534225940704346,
      "learning_rate": 5.376230042733929e-05,
      "loss": 1.5013,
      "step": 72720
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6496788859367371,
      "learning_rate": 5.375633004873119e-05,
      "loss": 1.5382,
      "step": 72721
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6564486622810364,
      "learning_rate": 5.3750359969026624e-05,
      "loss": 1.4282,
      "step": 72722
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6273251175880432,
      "learning_rate": 5.374439018823272e-05,
      "loss": 1.5363,
      "step": 72723
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6524977684020996,
      "learning_rate": 5.373842070635688e-05,
      "loss": 1.5737,
      "step": 72724
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6515064239501953,
      "learning_rate": 5.373245152340645e-05,
      "loss": 1.4975,
      "step": 72725
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6683370471000671,
      "learning_rate": 5.37264826393884e-05,
      "loss": 1.571,
      "step": 72726
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6430672407150269,
      "learning_rate": 5.372051405431009e-05,
      "loss": 1.4921,
      "step": 72727
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6556113958358765,
      "learning_rate": 5.371454576817889e-05,
      "loss": 1.5106,
      "step": 72728
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6854418516159058,
      "learning_rate": 5.3708577781001904e-05,
      "loss": 1.5029,
      "step": 72729
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6559268236160278,
      "learning_rate": 5.370261009278638e-05,
      "loss": 1.5875,
      "step": 72730
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6485667824745178,
      "learning_rate": 5.3696642703539574e-05,
      "loss": 1.5418,
      "step": 72731
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6876693367958069,
      "learning_rate": 5.3690675613268905e-05,
      "loss": 1.5781,
      "step": 72732
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6394712924957275,
      "learning_rate": 5.368470882198132e-05,
      "loss": 1.4822,
      "step": 72733
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6374643445014954,
      "learning_rate": 5.3678742329684223e-05,
      "loss": 1.5301,
      "step": 72734
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.65545254945755,
      "learning_rate": 5.367277613638489e-05,
      "loss": 1.489,
      "step": 72735
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6455787420272827,
      "learning_rate": 5.366681024209051e-05,
      "loss": 1.5593,
      "step": 72736
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.643531858921051,
      "learning_rate": 5.366084464680828e-05,
      "loss": 1.4724,
      "step": 72737
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6736499071121216,
      "learning_rate": 5.3654879350545455e-05,
      "loss": 1.5359,
      "step": 72738
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.631722092628479,
      "learning_rate": 5.364891435330947e-05,
      "loss": 1.5546,
      "step": 72739
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6563647985458374,
      "learning_rate": 5.364294965510725e-05,
      "loss": 1.5461,
      "step": 72740
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6561570167541504,
      "learning_rate": 5.363698525594622e-05,
      "loss": 1.4886,
      "step": 72741
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6618319153785706,
      "learning_rate": 5.3631021155833645e-05,
      "loss": 1.5679,
      "step": 72742
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6386902332305908,
      "learning_rate": 5.362505735477668e-05,
      "loss": 1.5485,
      "step": 72743
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6850277185440063,
      "learning_rate": 5.3619093852782557e-05,
      "loss": 1.5833,
      "step": 72744
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6152732968330383,
      "learning_rate": 5.3613130649858604e-05,
      "loss": 1.5437,
      "step": 72745
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6352673768997192,
      "learning_rate": 5.360716774601202e-05,
      "loss": 1.5502,
      "step": 72746
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6388469934463501,
      "learning_rate": 5.3601205141249945e-05,
      "loss": 1.5675,
      "step": 72747
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6870931386947632,
      "learning_rate": 5.359524283557973e-05,
      "loss": 1.5032,
      "step": 72748
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6527908444404602,
      "learning_rate": 5.358928082900863e-05,
      "loss": 1.5707,
      "step": 72749
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.636612057685852,
      "learning_rate": 5.3583319121543866e-05,
      "loss": 1.5084,
      "step": 72750
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6664090752601624,
      "learning_rate": 5.3577357713192535e-05,
      "loss": 1.5009,
      "step": 72751
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6539593935012817,
      "learning_rate": 5.3571396603962067e-05,
      "loss": 1.5176,
      "step": 72752
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6907268166542053,
      "learning_rate": 5.3565435793859623e-05,
      "loss": 1.518,
      "step": 72753
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6681579351425171,
      "learning_rate": 5.355947528289236e-05,
      "loss": 1.4634,
      "step": 72754
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6368352174758911,
      "learning_rate": 5.3553515071067646e-05,
      "loss": 1.5182,
      "step": 72755
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6617017984390259,
      "learning_rate": 5.3547555158392565e-05,
      "loss": 1.5079,
      "step": 72756
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6539395451545715,
      "learning_rate": 5.354159554487455e-05,
      "loss": 1.5721,
      "step": 72757
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6316878795623779,
      "learning_rate": 5.353563623052063e-05,
      "loss": 1.5599,
      "step": 72758
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.7043565511703491,
      "learning_rate": 5.35296772153382e-05,
      "loss": 1.5432,
      "step": 72759
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6473719477653503,
      "learning_rate": 5.352371849933445e-05,
      "loss": 1.5068,
      "step": 72760
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6465694904327393,
      "learning_rate": 5.351776008251647e-05,
      "loss": 1.4927,
      "step": 72761
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6398804187774658,
      "learning_rate": 5.3511801964891735e-05,
      "loss": 1.4328,
      "step": 72762
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6351368427276611,
      "learning_rate": 5.350584414646722e-05,
      "loss": 1.5183,
      "step": 72763
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6716402173042297,
      "learning_rate": 5.349988662725041e-05,
      "loss": 1.5618,
      "step": 72764
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6739820837974548,
      "learning_rate": 5.349392940724841e-05,
      "loss": 1.5222,
      "step": 72765
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6380199790000916,
      "learning_rate": 5.34879724864684e-05,
      "loss": 1.5643,
      "step": 72766
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6477144360542297,
      "learning_rate": 5.3482015864917724e-05,
      "loss": 1.5614,
      "step": 72767
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6584315299987793,
      "learning_rate": 5.347605954260349e-05,
      "loss": 1.4947,
      "step": 72768
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6641663312911987,
      "learning_rate": 5.347010351953308e-05,
      "loss": 1.5251,
      "step": 72769
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6537734270095825,
      "learning_rate": 5.346414779571353e-05,
      "loss": 1.4979,
      "step": 72770
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6752925515174866,
      "learning_rate": 5.3458192371152294e-05,
      "loss": 1.5599,
      "step": 72771
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6484766602516174,
      "learning_rate": 5.345223724585648e-05,
      "loss": 1.562,
      "step": 72772
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6893207430839539,
      "learning_rate": 5.344628241983323e-05,
      "loss": 1.5175,
      "step": 72773
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6577684879302979,
      "learning_rate": 5.344032789308995e-05,
      "loss": 1.484,
      "step": 72774
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6554877161979675,
      "learning_rate": 5.3434373665633764e-05,
      "loss": 1.5501,
      "step": 72775
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6146898865699768,
      "learning_rate": 5.3428419737471875e-05,
      "loss": 1.5351,
      "step": 72776
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6491953134536743,
      "learning_rate": 5.342246610861153e-05,
      "loss": 1.5295,
      "step": 72777
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6826707720756531,
      "learning_rate": 5.341651277906006e-05,
      "loss": 1.557,
      "step": 72778
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.639514148235321,
      "learning_rate": 5.3410559748824635e-05,
      "loss": 1.4975,
      "step": 72779
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6864454746246338,
      "learning_rate": 5.340460701791237e-05,
      "loss": 1.6294,
      "step": 72780
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6368249654769897,
      "learning_rate": 5.3398654586330634e-05,
      "loss": 1.5138,
      "step": 72781
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6610950827598572,
      "learning_rate": 5.3392702454086625e-05,
      "loss": 1.4988,
      "step": 72782
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6412293910980225,
      "learning_rate": 5.3386750621187426e-05,
      "loss": 1.4942,
      "step": 72783
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6382113695144653,
      "learning_rate": 5.3380799087640405e-05,
      "loss": 1.4688,
      "step": 72784
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6338605880737305,
      "learning_rate": 5.3374847853452886e-05,
      "loss": 1.5174,
      "step": 72785
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6729766726493835,
      "learning_rate": 5.3368896918631835e-05,
      "loss": 1.5075,
      "step": 72786
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6705865263938904,
      "learning_rate": 5.3362946283184605e-05,
      "loss": 1.5633,
      "step": 72787
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6700019240379333,
      "learning_rate": 5.3356995947118466e-05,
      "loss": 1.5631,
      "step": 72788
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6734073162078857,
      "learning_rate": 5.33510459104406e-05,
      "loss": 1.5071,
      "step": 72789
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6605996489524841,
      "learning_rate": 5.334509617315819e-05,
      "loss": 1.5131,
      "step": 72790
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6620895862579346,
      "learning_rate": 5.333914673527844e-05,
      "loss": 1.5585,
      "step": 72791
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6432062983512878,
      "learning_rate": 5.333319759680879e-05,
      "loss": 1.5336,
      "step": 72792
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.639656126499176,
      "learning_rate": 5.3327248757756127e-05,
      "loss": 1.55,
      "step": 72793
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6434267163276672,
      "learning_rate": 5.332130021812785e-05,
      "loss": 1.527,
      "step": 72794
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6547603607177734,
      "learning_rate": 5.331535197793125e-05,
      "loss": 1.547,
      "step": 72795
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6354994177818298,
      "learning_rate": 5.330940403717346e-05,
      "loss": 1.4341,
      "step": 72796
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6576212644577026,
      "learning_rate": 5.330345639586164e-05,
      "loss": 1.4749,
      "step": 72797
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6608127355575562,
      "learning_rate": 5.329750905400309e-05,
      "loss": 1.5891,
      "step": 72798
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6334823369979858,
      "learning_rate": 5.329156201160505e-05,
      "loss": 1.5695,
      "step": 72799
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6514233946800232,
      "learning_rate": 5.328561526867473e-05,
      "loss": 1.4911,
      "step": 72800
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.647290825843811,
      "learning_rate": 5.327966882521922e-05,
      "loss": 1.4764,
      "step": 72801
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6687975525856018,
      "learning_rate": 5.3273722681245924e-05,
      "loss": 1.5163,
      "step": 72802
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6469556093215942,
      "learning_rate": 5.326777683676199e-05,
      "loss": 1.5574,
      "step": 72803
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.647257924079895,
      "learning_rate": 5.326183129177455e-05,
      "loss": 1.5697,
      "step": 72804
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6303852200508118,
      "learning_rate": 5.325588604629093e-05,
      "loss": 1.5026,
      "step": 72805
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6336050033569336,
      "learning_rate": 5.324994110031826e-05,
      "loss": 1.5226,
      "step": 72806
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6667182445526123,
      "learning_rate": 5.324399645386387e-05,
      "loss": 1.4441,
      "step": 72807
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6531670093536377,
      "learning_rate": 5.323805210693485e-05,
      "loss": 1.5705,
      "step": 72808
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6359787583351135,
      "learning_rate": 5.323210805953856e-05,
      "loss": 1.502,
      "step": 72809
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6668174266815186,
      "learning_rate": 5.3226164311682094e-05,
      "loss": 1.5445,
      "step": 72810
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6653842329978943,
      "learning_rate": 5.322022086337265e-05,
      "loss": 1.5681,
      "step": 72811
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6602002382278442,
      "learning_rate": 5.3214277714617595e-05,
      "loss": 1.4974,
      "step": 72812
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6253575086593628,
      "learning_rate": 5.320833486542394e-05,
      "loss": 1.5501,
      "step": 72813
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6484905481338501,
      "learning_rate": 5.320239231579909e-05,
      "loss": 1.5125,
      "step": 72814
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6434089541435242,
      "learning_rate": 5.319645006575014e-05,
      "loss": 1.5547,
      "step": 72815
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.66820228099823,
      "learning_rate": 5.3190508115284315e-05,
      "loss": 1.5625,
      "step": 72816
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6555234789848328,
      "learning_rate": 5.318456646440887e-05,
      "loss": 1.5616,
      "step": 72817
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6377295255661011,
      "learning_rate": 5.317862511313095e-05,
      "loss": 1.5478,
      "step": 72818
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6408069729804993,
      "learning_rate": 5.3172684061457895e-05,
      "loss": 1.5051,
      "step": 72819
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6502931118011475,
      "learning_rate": 5.316674330939674e-05,
      "loss": 1.4596,
      "step": 72820
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6607089042663574,
      "learning_rate": 5.3160802856954854e-05,
      "loss": 1.5635,
      "step": 72821
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6522082686424255,
      "learning_rate": 5.315486270413939e-05,
      "loss": 1.5186,
      "step": 72822
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6563495993614197,
      "learning_rate": 5.314892285095748e-05,
      "loss": 1.485,
      "step": 72823
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6449096202850342,
      "learning_rate": 5.3142983297416506e-05,
      "loss": 1.4964,
      "step": 72824
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.662266731262207,
      "learning_rate": 5.313704404352348e-05,
      "loss": 1.5571,
      "step": 72825
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.647806704044342,
      "learning_rate": 5.313110508928579e-05,
      "loss": 1.487,
      "step": 72826
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6667621731758118,
      "learning_rate": 5.312516643471045e-05,
      "loss": 1.5344,
      "step": 72827
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6469181776046753,
      "learning_rate": 5.311922807980491e-05,
      "loss": 1.6078,
      "step": 72828
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.664075493812561,
      "learning_rate": 5.311329002457625e-05,
      "loss": 1.4977,
      "step": 72829
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6669049859046936,
      "learning_rate": 5.310735226903156e-05,
      "loss": 1.5078,
      "step": 72830
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6456187963485718,
      "learning_rate": 5.310141481317829e-05,
      "loss": 1.4917,
      "step": 72831
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6517161130905151,
      "learning_rate": 5.309547765702348e-05,
      "loss": 1.5214,
      "step": 72832
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.658993661403656,
      "learning_rate": 5.3089540800574325e-05,
      "loss": 1.5473,
      "step": 72833
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6589314937591553,
      "learning_rate": 5.30836042438381e-05,
      "loss": 1.4958,
      "step": 72834
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.7001133561134338,
      "learning_rate": 5.3077667986822045e-05,
      "loss": 1.4597,
      "step": 72835
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6708642244338989,
      "learning_rate": 5.3071732029533345e-05,
      "loss": 1.5311,
      "step": 72836
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6466777324676514,
      "learning_rate": 5.3065796371979105e-05,
      "loss": 1.5364,
      "step": 72837
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6566624641418457,
      "learning_rate": 5.305986101416667e-05,
      "loss": 1.5277,
      "step": 72838
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6721823811531067,
      "learning_rate": 5.305392595610316e-05,
      "loss": 1.5833,
      "step": 72839
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6695981621742249,
      "learning_rate": 5.304799119779577e-05,
      "loss": 1.522,
      "step": 72840
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6563972234725952,
      "learning_rate": 5.3042056739251696e-05,
      "loss": 1.5067,
      "step": 72841
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6481207609176636,
      "learning_rate": 5.3036122580478325e-05,
      "loss": 1.4751,
      "step": 72842
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6583738327026367,
      "learning_rate": 5.303018872148256e-05,
      "loss": 1.4828,
      "step": 72843
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.656177282333374,
      "learning_rate": 5.302425516227179e-05,
      "loss": 1.5211,
      "step": 72844
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6511467695236206,
      "learning_rate": 5.301832190285324e-05,
      "loss": 1.53,
      "step": 72845
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6607910394668579,
      "learning_rate": 5.301238894323405e-05,
      "loss": 1.4885,
      "step": 72846
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6577911972999573,
      "learning_rate": 5.300645628342134e-05,
      "loss": 1.5136,
      "step": 72847
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6824721097946167,
      "learning_rate": 5.3000523923422435e-05,
      "loss": 1.5912,
      "step": 72848
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6501725912094116,
      "learning_rate": 5.299459186324463e-05,
      "loss": 1.4645,
      "step": 72849
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6594341993331909,
      "learning_rate": 5.298866010289485e-05,
      "loss": 1.5317,
      "step": 72850
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6660842895507812,
      "learning_rate": 5.2982728642380436e-05,
      "loss": 1.4652,
      "step": 72851
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6785963773727417,
      "learning_rate": 5.297679748170866e-05,
      "loss": 1.4134,
      "step": 72852
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6605379581451416,
      "learning_rate": 5.2970866620886675e-05,
      "loss": 1.5536,
      "step": 72853
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6652732491493225,
      "learning_rate": 5.296493605992156e-05,
      "loss": 1.5583,
      "step": 72854
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6513333320617676,
      "learning_rate": 5.2959005798820644e-05,
      "loss": 1.5135,
      "step": 72855
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6517621874809265,
      "learning_rate": 5.295307583759122e-05,
      "loss": 1.4881,
      "step": 72856
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6543901562690735,
      "learning_rate": 5.294714617624022e-05,
      "loss": 1.4479,
      "step": 72857
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.659895122051239,
      "learning_rate": 5.2941216814775e-05,
      "loss": 1.5471,
      "step": 72858
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.656803548336029,
      "learning_rate": 5.293528775320279e-05,
      "loss": 1.4948,
      "step": 72859
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6423972249031067,
      "learning_rate": 5.292935899153076e-05,
      "loss": 1.5111,
      "step": 72860
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6688376665115356,
      "learning_rate": 5.292343052976599e-05,
      "loss": 1.5604,
      "step": 72861
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6649342179298401,
      "learning_rate": 5.2917502367915843e-05,
      "loss": 1.5267,
      "step": 72862
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6648862957954407,
      "learning_rate": 5.2911574505987456e-05,
      "loss": 1.5769,
      "step": 72863
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6545922756195068,
      "learning_rate": 5.2905646943987946e-05,
      "loss": 1.5653,
      "step": 72864
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6578056216239929,
      "learning_rate": 5.2899719681924545e-05,
      "loss": 1.5947,
      "step": 72865
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6423267722129822,
      "learning_rate": 5.289379271980455e-05,
      "loss": 1.5423,
      "step": 72866
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6626982092857361,
      "learning_rate": 5.288786605763512e-05,
      "loss": 1.4866,
      "step": 72867
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6392317414283752,
      "learning_rate": 5.288193969542328e-05,
      "loss": 1.578,
      "step": 72868
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6457211971282959,
      "learning_rate": 5.287601363317646e-05,
      "loss": 1.5421,
      "step": 72869
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6447298526763916,
      "learning_rate": 5.287008787090176e-05,
      "loss": 1.5373,
      "step": 72870
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6339351534843445,
      "learning_rate": 5.286416240860626e-05,
      "loss": 1.5476,
      "step": 72871
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6856457591056824,
      "learning_rate": 5.285823724629736e-05,
      "loss": 1.599,
      "step": 72872
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6616248488426208,
      "learning_rate": 5.285231238398203e-05,
      "loss": 1.5217,
      "step": 72873
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6505804657936096,
      "learning_rate": 5.284638782166769e-05,
      "loss": 1.5702,
      "step": 72874
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6581190824508667,
      "learning_rate": 5.2840463559361336e-05,
      "loss": 1.602,
      "step": 72875
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.647268533706665,
      "learning_rate": 5.283453959707029e-05,
      "loss": 1.5235,
      "step": 72876
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.666054368019104,
      "learning_rate": 5.282861593480172e-05,
      "loss": 1.5975,
      "step": 72877
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6393606662750244,
      "learning_rate": 5.282269257256272e-05,
      "loss": 1.5047,
      "step": 72878
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6165046095848083,
      "learning_rate": 5.2816769510360614e-05,
      "loss": 1.5214,
      "step": 72879
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6479673981666565,
      "learning_rate": 5.281084674820243e-05,
      "loss": 1.5092,
      "step": 72880
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6508270502090454,
      "learning_rate": 5.280492428609556e-05,
      "loss": 1.5568,
      "step": 72881
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6310458183288574,
      "learning_rate": 5.279900212404711e-05,
      "loss": 1.5691,
      "step": 72882
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6526370048522949,
      "learning_rate": 5.2793080262064126e-05,
      "loss": 1.5416,
      "step": 72883
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6720374822616577,
      "learning_rate": 5.2787158700154006e-05,
      "loss": 1.4653,
      "step": 72884
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6534708142280579,
      "learning_rate": 5.2781237438323785e-05,
      "loss": 1.509,
      "step": 72885
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6499969959259033,
      "learning_rate": 5.277531647658082e-05,
      "loss": 1.5024,
      "step": 72886
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6835597157478333,
      "learning_rate": 5.276939581493207e-05,
      "loss": 1.4526,
      "step": 72887
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.6703622341156006,
      "learning_rate": 5.2763475453384965e-05,
      "loss": 1.5497,
      "step": 72888
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6575230360031128,
      "learning_rate": 5.275755539194653e-05,
      "loss": 1.5963,
      "step": 72889
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6537706851959229,
      "learning_rate": 5.2751635630623924e-05,
      "loss": 1.3719,
      "step": 72890
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6485969424247742,
      "learning_rate": 5.2745716169424515e-05,
      "loss": 1.5447,
      "step": 72891
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6288309097290039,
      "learning_rate": 5.273979700835532e-05,
      "loss": 1.4604,
      "step": 72892
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6724806427955627,
      "learning_rate": 5.273387814742355e-05,
      "loss": 1.618,
      "step": 72893
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.641925036907196,
      "learning_rate": 5.2727959586636414e-05,
      "loss": 1.481,
      "step": 72894
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6464900970458984,
      "learning_rate": 5.2722041326001155e-05,
      "loss": 1.5039,
      "step": 72895
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6642093658447266,
      "learning_rate": 5.271612336552492e-05,
      "loss": 1.5134,
      "step": 72896
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6495028734207153,
      "learning_rate": 5.271020570521478e-05,
      "loss": 1.543,
      "step": 72897
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6510752439498901,
      "learning_rate": 5.270428834507813e-05,
      "loss": 1.5436,
      "step": 72898
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6265867352485657,
      "learning_rate": 5.269837128512199e-05,
      "loss": 1.506,
      "step": 72899
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6485528349876404,
      "learning_rate": 5.269245452535352e-05,
      "loss": 1.5276,
      "step": 72900
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.656340479850769,
      "learning_rate": 5.268653806577999e-05,
      "loss": 1.556,
      "step": 72901
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6680814027786255,
      "learning_rate": 5.2680621906408726e-05,
      "loss": 1.5035,
      "step": 72902
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6603243947029114,
      "learning_rate": 5.2674706047246585e-05,
      "loss": 1.6099,
      "step": 72903
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6516690254211426,
      "learning_rate": 5.266879048830089e-05,
      "loss": 1.5352,
      "step": 72904
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6497767567634583,
      "learning_rate": 5.2662875229578914e-05,
      "loss": 1.5084,
      "step": 72905
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6171144247055054,
      "learning_rate": 5.265696027108778e-05,
      "loss": 1.459,
      "step": 72906
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6804009079933167,
      "learning_rate": 5.2651045612834576e-05,
      "loss": 1.5666,
      "step": 72907
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6627751588821411,
      "learning_rate": 5.264513125482657e-05,
      "loss": 1.5479,
      "step": 72908
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6522002816200256,
      "learning_rate": 5.263921719707105e-05,
      "loss": 1.5514,
      "step": 72909
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6466778516769409,
      "learning_rate": 5.263330343957495e-05,
      "loss": 1.5326,
      "step": 72910
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6311628818511963,
      "learning_rate": 5.262738998234556e-05,
      "loss": 1.4966,
      "step": 72911
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6342427730560303,
      "learning_rate": 5.262147682539014e-05,
      "loss": 1.52,
      "step": 72912
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6492781639099121,
      "learning_rate": 5.261556396871582e-05,
      "loss": 1.4744,
      "step": 72913
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.645929217338562,
      "learning_rate": 5.260965141232967e-05,
      "loss": 1.5243,
      "step": 72914
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.644331693649292,
      "learning_rate": 5.260373915623893e-05,
      "loss": 1.5437,
      "step": 72915
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6698580980300903,
      "learning_rate": 5.259782720045088e-05,
      "loss": 1.5203,
      "step": 72916
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6573318839073181,
      "learning_rate": 5.259191554497264e-05,
      "loss": 1.476,
      "step": 72917
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6355818510055542,
      "learning_rate": 5.258600418981127e-05,
      "loss": 1.5722,
      "step": 72918
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6391184329986572,
      "learning_rate": 5.25800931349741e-05,
      "loss": 1.5444,
      "step": 72919
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6361750364303589,
      "learning_rate": 5.257418238046825e-05,
      "loss": 1.5219,
      "step": 72920
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6452500820159912,
      "learning_rate": 5.25682719263008e-05,
      "loss": 1.5354,
      "step": 72921
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6841080188751221,
      "learning_rate": 5.256236177247912e-05,
      "loss": 1.4853,
      "step": 72922
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6292959451675415,
      "learning_rate": 5.255645191901016e-05,
      "loss": 1.5057,
      "step": 72923
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.666388213634491,
      "learning_rate": 5.255054236590129e-05,
      "loss": 1.5079,
      "step": 72924
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6690539717674255,
      "learning_rate": 5.2544633113159565e-05,
      "loss": 1.5171,
      "step": 72925
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6319513916969299,
      "learning_rate": 5.253872416079222e-05,
      "loss": 1.4865,
      "step": 72926
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6295534372329712,
      "learning_rate": 5.253281550880644e-05,
      "loss": 1.4953,
      "step": 72927
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6837084889411926,
      "learning_rate": 5.252690715720927e-05,
      "loss": 1.5888,
      "step": 72928
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6301396489143372,
      "learning_rate": 5.2520999106008035e-05,
      "loss": 1.4411,
      "step": 72929
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6607382893562317,
      "learning_rate": 5.251509135520977e-05,
      "loss": 1.4476,
      "step": 72930
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6534545421600342,
      "learning_rate": 5.2509183904821806e-05,
      "loss": 1.5115,
      "step": 72931
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6520434617996216,
      "learning_rate": 5.250327675485123e-05,
      "loss": 1.5635,
      "step": 72932
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6613652110099792,
      "learning_rate": 5.2497369905305106e-05,
      "loss": 1.4966,
      "step": 72933
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6510798335075378,
      "learning_rate": 5.2491463356190835e-05,
      "loss": 1.5454,
      "step": 72934
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6542977690696716,
      "learning_rate": 5.248555710751533e-05,
      "loss": 1.5498,
      "step": 72935
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6626471281051636,
      "learning_rate": 5.2479651159285993e-05,
      "loss": 1.5147,
      "step": 72936
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6774457097053528,
      "learning_rate": 5.247374551150979e-05,
      "loss": 1.5447,
      "step": 72937
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6651598215103149,
      "learning_rate": 5.246784016419411e-05,
      "loss": 1.6206,
      "step": 72938
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6722792387008667,
      "learning_rate": 5.246193511734594e-05,
      "loss": 1.4524,
      "step": 72939
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6641831994056702,
      "learning_rate": 5.245603037097249e-05,
      "loss": 1.5578,
      "step": 72940
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6751998066902161,
      "learning_rate": 5.245012592508098e-05,
      "loss": 1.5249,
      "step": 72941
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6423269510269165,
      "learning_rate": 5.24442217796785e-05,
      "loss": 1.5786,
      "step": 72942
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6447812914848328,
      "learning_rate": 5.243831793477231e-05,
      "loss": 1.5318,
      "step": 72943
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6522182822227478,
      "learning_rate": 5.2432414390369447e-05,
      "loss": 1.6266,
      "step": 72944
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.674238383769989,
      "learning_rate": 5.242651114647723e-05,
      "loss": 1.5566,
      "step": 72945
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6519366502761841,
      "learning_rate": 5.2420608203102766e-05,
      "loss": 1.5699,
      "step": 72946
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6595966219902039,
      "learning_rate": 5.24147055602531e-05,
      "loss": 1.5221,
      "step": 72947
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6698052883148193,
      "learning_rate": 5.24088032179356e-05,
      "loss": 1.5793,
      "step": 72948
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6573835015296936,
      "learning_rate": 5.240290117615733e-05,
      "loss": 1.4579,
      "step": 72949
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6399145126342773,
      "learning_rate": 5.2396999434925415e-05,
      "loss": 1.5195,
      "step": 72950
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6380494832992554,
      "learning_rate": 5.239109799424701e-05,
      "loss": 1.4682,
      "step": 72951
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6241628527641296,
      "learning_rate": 5.238519685412942e-05,
      "loss": 1.4798,
      "step": 72952
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6627815961837769,
      "learning_rate": 5.237929601457973e-05,
      "loss": 1.4703,
      "step": 72953
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6374143958091736,
      "learning_rate": 5.237339547560497e-05,
      "loss": 1.5407,
      "step": 72954
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6791645288467407,
      "learning_rate": 5.236749523721254e-05,
      "loss": 1.5148,
      "step": 72955
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6233018636703491,
      "learning_rate": 5.236159529940947e-05,
      "loss": 1.467,
      "step": 72956
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6608020067214966,
      "learning_rate": 5.235569566220287e-05,
      "loss": 1.5664,
      "step": 72957
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6490207314491272,
      "learning_rate": 5.234979632559998e-05,
      "loss": 1.4797,
      "step": 72958
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6616674661636353,
      "learning_rate": 5.234389728960806e-05,
      "loss": 1.5314,
      "step": 72959
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6288790702819824,
      "learning_rate": 5.233799855423404e-05,
      "loss": 1.5357,
      "step": 72960
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6876501441001892,
      "learning_rate": 5.233210011948518e-05,
      "loss": 1.5684,
      "step": 72961
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6636010408401489,
      "learning_rate": 5.232620198536873e-05,
      "loss": 1.4929,
      "step": 72962
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6387662887573242,
      "learning_rate": 5.232030415189177e-05,
      "loss": 1.4886,
      "step": 72963
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6626082062721252,
      "learning_rate": 5.2314406619061414e-05,
      "loss": 1.5396,
      "step": 72964
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6653651595115662,
      "learning_rate": 5.230850938688489e-05,
      "loss": 1.5521,
      "step": 72965
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6522929668426514,
      "learning_rate": 5.230261245536946e-05,
      "loss": 1.5536,
      "step": 72966
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6271036863327026,
      "learning_rate": 5.2296715824521994e-05,
      "loss": 1.5741,
      "step": 72967
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6673535108566284,
      "learning_rate": 5.2290819494349844e-05,
      "loss": 1.6031,
      "step": 72968
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.635564923286438,
      "learning_rate": 5.228492346486024e-05,
      "loss": 1.5155,
      "step": 72969
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6500174403190613,
      "learning_rate": 5.2279027736060206e-05,
      "loss": 1.5424,
      "step": 72970
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6704450249671936,
      "learning_rate": 5.227313230795688e-05,
      "loss": 1.5281,
      "step": 72971
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6406589150428772,
      "learning_rate": 5.226723718055744e-05,
      "loss": 1.5475,
      "step": 72972
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6562045216560364,
      "learning_rate": 5.2261342353869226e-05,
      "loss": 1.4697,
      "step": 72973
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6681153774261475,
      "learning_rate": 5.22554478278991e-05,
      "loss": 1.4996,
      "step": 72974
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6656751036643982,
      "learning_rate": 5.224955360265438e-05,
      "loss": 1.5061,
      "step": 72975
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6496049165725708,
      "learning_rate": 5.224365967814224e-05,
      "loss": 1.4485,
      "step": 72976
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6534637808799744,
      "learning_rate": 5.223776605436979e-05,
      "loss": 1.5549,
      "step": 72977
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6619545817375183,
      "learning_rate": 5.223187273134414e-05,
      "loss": 1.5291,
      "step": 72978
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.7120434641838074,
      "learning_rate": 5.222597970907254e-05,
      "loss": 1.545,
      "step": 72979
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6772823929786682,
      "learning_rate": 5.2220086987562124e-05,
      "loss": 1.5005,
      "step": 72980
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.656522274017334,
      "learning_rate": 5.221419456681989e-05,
      "loss": 1.5282,
      "step": 72981
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6646252870559692,
      "learning_rate": 5.220830244685316e-05,
      "loss": 1.5713,
      "step": 72982
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.651400089263916,
      "learning_rate": 5.220241062766909e-05,
      "loss": 1.597,
      "step": 72983
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.65994793176651,
      "learning_rate": 5.2196519109274785e-05,
      "loss": 1.5702,
      "step": 72984
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6457290649414062,
      "learning_rate": 5.2190627891677325e-05,
      "loss": 1.5297,
      "step": 72985
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6496140360832214,
      "learning_rate": 5.218473697488399e-05,
      "loss": 1.4618,
      "step": 72986
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6562680006027222,
      "learning_rate": 5.2178846358901895e-05,
      "loss": 1.4398,
      "step": 72987
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6765649318695068,
      "learning_rate": 5.217295604373807e-05,
      "loss": 1.5072,
      "step": 72988
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6386021971702576,
      "learning_rate": 5.216706602939984e-05,
      "loss": 1.5859,
      "step": 72989
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6209595203399658,
      "learning_rate": 5.21611763158942e-05,
      "loss": 1.5301,
      "step": 72990
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6560453176498413,
      "learning_rate": 5.215528690322849e-05,
      "loss": 1.5179,
      "step": 72991
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6352384686470032,
      "learning_rate": 5.214939779140962e-05,
      "loss": 1.5356,
      "step": 72992
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6370055079460144,
      "learning_rate": 5.214350898044496e-05,
      "loss": 1.48,
      "step": 72993
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6594873666763306,
      "learning_rate": 5.2137620470341534e-05,
      "loss": 1.5549,
      "step": 72994
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6449261903762817,
      "learning_rate": 5.213173226110647e-05,
      "loss": 1.5288,
      "step": 72995
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6549196243286133,
      "learning_rate": 5.2125844352747e-05,
      "loss": 1.5333,
      "step": 72996
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6359176635742188,
      "learning_rate": 5.211995674527019e-05,
      "loss": 1.5805,
      "step": 72997
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6408343315124512,
      "learning_rate": 5.211406943868328e-05,
      "loss": 1.4925,
      "step": 72998
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6813549995422363,
      "learning_rate": 5.2108182432993384e-05,
      "loss": 1.5896,
      "step": 72999
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.663856029510498,
      "learning_rate": 5.210229572820756e-05,
      "loss": 1.4802,
      "step": 73000
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6473535299301147,
      "learning_rate": 5.2096409324333086e-05,
      "loss": 1.4578,
      "step": 73001
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.650375485420227,
      "learning_rate": 5.2090523221376975e-05,
      "loss": 1.4779,
      "step": 73002
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6469796895980835,
      "learning_rate": 5.208463741934652e-05,
      "loss": 1.4883,
      "step": 73003
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6732513308525085,
      "learning_rate": 5.2078751918248705e-05,
      "loss": 1.4292,
      "step": 73004
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6505692601203918,
      "learning_rate": 5.207286671809083e-05,
      "loss": 1.4728,
      "step": 73005
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6760784387588501,
      "learning_rate": 5.206698181887996e-05,
      "loss": 1.5545,
      "step": 73006
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6570532917976379,
      "learning_rate": 5.206109722062318e-05,
      "loss": 1.5438,
      "step": 73007
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6530329585075378,
      "learning_rate": 5.205521292332776e-05,
      "loss": 1.5366,
      "step": 73008
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6523164510726929,
      "learning_rate": 5.2049328927000785e-05,
      "loss": 1.4794,
      "step": 73009
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6663594245910645,
      "learning_rate": 5.2043445231649295e-05,
      "loss": 1.4861,
      "step": 73010
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6478009223937988,
      "learning_rate": 5.203756183728054e-05,
      "loss": 1.5292,
      "step": 73011
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6374958157539368,
      "learning_rate": 5.203167874390175e-05,
      "loss": 1.4961,
      "step": 73012
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6460599303245544,
      "learning_rate": 5.202579595151992e-05,
      "loss": 1.5287,
      "step": 73013
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6805588603019714,
      "learning_rate": 5.2019913460142214e-05,
      "loss": 1.5379,
      "step": 73014
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6500372886657715,
      "learning_rate": 5.2014031269775825e-05,
      "loss": 1.508,
      "step": 73015
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6440284848213196,
      "learning_rate": 5.2008149380427875e-05,
      "loss": 1.496,
      "step": 73016
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6427900195121765,
      "learning_rate": 5.2002267792105434e-05,
      "loss": 1.5436,
      "step": 73017
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6771962642669678,
      "learning_rate": 5.199638650481569e-05,
      "loss": 1.4839,
      "step": 73018
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6495785713195801,
      "learning_rate": 5.199050551856594e-05,
      "loss": 1.5068,
      "step": 73019
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6379848122596741,
      "learning_rate": 5.198462483336301e-05,
      "loss": 1.4829,
      "step": 73020
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6423382759094238,
      "learning_rate": 5.1978744449214225e-05,
      "loss": 1.5437,
      "step": 73021
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6381913423538208,
      "learning_rate": 5.197286436612675e-05,
      "loss": 1.5787,
      "step": 73022
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6185027360916138,
      "learning_rate": 5.1966984584107715e-05,
      "loss": 1.5398,
      "step": 73023
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6472184062004089,
      "learning_rate": 5.1961105103164113e-05,
      "loss": 1.5572,
      "step": 73024
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6454060077667236,
      "learning_rate": 5.195522592330317e-05,
      "loss": 1.52,
      "step": 73025
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6714824438095093,
      "learning_rate": 5.194934704453221e-05,
      "loss": 1.476,
      "step": 73026
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6383692622184753,
      "learning_rate": 5.194346846685803e-05,
      "loss": 1.5053,
      "step": 73027
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6263043284416199,
      "learning_rate": 5.1937590190287925e-05,
      "loss": 1.4954,
      "step": 73028
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6525660753250122,
      "learning_rate": 5.193171221482909e-05,
      "loss": 1.5458,
      "step": 73029
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6734949350357056,
      "learning_rate": 5.192583454048865e-05,
      "loss": 1.5088,
      "step": 73030
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6488300561904907,
      "learning_rate": 5.1919957167273605e-05,
      "loss": 1.495,
      "step": 73031
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6538057923316956,
      "learning_rate": 5.191408009519118e-05,
      "loss": 1.4975,
      "step": 73032
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6540042757987976,
      "learning_rate": 5.190820332424856e-05,
      "loss": 1.5177,
      "step": 73033
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.64903724193573,
      "learning_rate": 5.190232685445286e-05,
      "loss": 1.5578,
      "step": 73034
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6486622095108032,
      "learning_rate": 5.1896450685811085e-05,
      "loss": 1.5627,
      "step": 73035
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6644372344017029,
      "learning_rate": 5.189057481833054e-05,
      "loss": 1.6155,
      "step": 73036
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6714563369750977,
      "learning_rate": 5.1884699252018294e-05,
      "loss": 1.5303,
      "step": 73037
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6614511013031006,
      "learning_rate": 5.187882398688136e-05,
      "loss": 1.5151,
      "step": 73038
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.677617073059082,
      "learning_rate": 5.187294902292707e-05,
      "loss": 1.4371,
      "step": 73039
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6408970952033997,
      "learning_rate": 5.1867074360162386e-05,
      "loss": 1.445,
      "step": 73040
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6511829495429993,
      "learning_rate": 5.186119999859457e-05,
      "loss": 1.4851,
      "step": 73041
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6514747142791748,
      "learning_rate": 5.1855325938230653e-05,
      "loss": 1.5073,
      "step": 73042
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6436241269111633,
      "learning_rate": 5.184945217907786e-05,
      "loss": 1.5484,
      "step": 73043
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.668448269367218,
      "learning_rate": 5.184357872114328e-05,
      "loss": 1.4753,
      "step": 73044
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6405518054962158,
      "learning_rate": 5.183770556443394e-05,
      "loss": 1.5152,
      "step": 73045
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6661686897277832,
      "learning_rate": 5.1831832708957146e-05,
      "loss": 1.598,
      "step": 73046
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6871998310089111,
      "learning_rate": 5.1825960154719884e-05,
      "loss": 1.5852,
      "step": 73047
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6848259568214417,
      "learning_rate": 5.182008790172938e-05,
      "loss": 1.5149,
      "step": 73048
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6468058228492737,
      "learning_rate": 5.181421594999273e-05,
      "loss": 1.4839,
      "step": 73049
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6760199666023254,
      "learning_rate": 5.1808344299517e-05,
      "loss": 1.5746,
      "step": 73050
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6355000138282776,
      "learning_rate": 5.1802472950309446e-05,
      "loss": 1.5101,
      "step": 73051
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6474089026451111,
      "learning_rate": 5.179660190237703e-05,
      "loss": 1.5629,
      "step": 73052
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6561306715011597,
      "learning_rate": 5.179073115572702e-05,
      "loss": 1.4817,
      "step": 73053
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6462479829788208,
      "learning_rate": 5.178486071036646e-05,
      "loss": 1.5086,
      "step": 73054
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6448293924331665,
      "learning_rate": 5.177899056630256e-05,
      "loss": 1.5166,
      "step": 73055
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6462262868881226,
      "learning_rate": 5.177312072354237e-05,
      "loss": 1.5373,
      "step": 73056
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6705731153488159,
      "learning_rate": 5.1767251182092996e-05,
      "loss": 1.5146,
      "step": 73057
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.642203152179718,
      "learning_rate": 5.176138194196169e-05,
      "loss": 1.5597,
      "step": 73058
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6514060497283936,
      "learning_rate": 5.175551300315545e-05,
      "loss": 1.6065,
      "step": 73059
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6464869379997253,
      "learning_rate": 5.17496443656814e-05,
      "loss": 1.4672,
      "step": 73060
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6328904032707214,
      "learning_rate": 5.174377602954667e-05,
      "loss": 1.5084,
      "step": 73061
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6342482566833496,
      "learning_rate": 5.173790799475852e-05,
      "loss": 1.4838,
      "step": 73062
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6263039112091064,
      "learning_rate": 5.173204026132395e-05,
      "loss": 1.5484,
      "step": 73063
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6383594870567322,
      "learning_rate": 5.172617282925004e-05,
      "loss": 1.522,
      "step": 73064
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6521718502044678,
      "learning_rate": 5.172030569854404e-05,
      "loss": 1.5035,
      "step": 73065
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6584683656692505,
      "learning_rate": 5.1714438869213025e-05,
      "loss": 1.5876,
      "step": 73066
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6452720165252686,
      "learning_rate": 5.1708572341263996e-05,
      "loss": 1.5085,
      "step": 73067
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6346865296363831,
      "learning_rate": 5.1702706114704184e-05,
      "loss": 1.5184,
      "step": 73068
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6547086834907532,
      "learning_rate": 5.169684018954078e-05,
      "loss": 1.542,
      "step": 73069
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6611375212669373,
      "learning_rate": 5.169097456578084e-05,
      "loss": 1.5563,
      "step": 73070
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6572430729866028,
      "learning_rate": 5.1685109243431396e-05,
      "loss": 1.5409,
      "step": 73071
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6378874778747559,
      "learning_rate": 5.1679244222499684e-05,
      "loss": 1.5674,
      "step": 73072
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.659395694732666,
      "learning_rate": 5.167337950299282e-05,
      "loss": 1.5004,
      "step": 73073
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.630358874797821,
      "learning_rate": 5.16675150849178e-05,
      "loss": 1.4904,
      "step": 73074
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6581882834434509,
      "learning_rate": 5.166165096828182e-05,
      "loss": 1.4687,
      "step": 73075
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6537847518920898,
      "learning_rate": 5.1655787153092144e-05,
      "loss": 1.5736,
      "step": 73076
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6771454215049744,
      "learning_rate": 5.16499236393556e-05,
      "loss": 1.53,
      "step": 73077
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6801775097846985,
      "learning_rate": 5.164406042707947e-05,
      "loss": 1.5738,
      "step": 73078
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6916475296020508,
      "learning_rate": 5.1638197516270926e-05,
      "loss": 1.5837,
      "step": 73079
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6603463888168335,
      "learning_rate": 5.163233490693703e-05,
      "loss": 1.4751,
      "step": 73080
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6413167119026184,
      "learning_rate": 5.1626472599084775e-05,
      "loss": 1.4498,
      "step": 73081
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6750366687774658,
      "learning_rate": 5.162061059272142e-05,
      "loss": 1.5094,
      "step": 73082
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6435797810554504,
      "learning_rate": 5.161474888785419e-05,
      "loss": 1.5324,
      "step": 73083
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6404805779457092,
      "learning_rate": 5.1608887484489894e-05,
      "loss": 1.5084,
      "step": 73084
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6351649165153503,
      "learning_rate": 5.1603026382635836e-05,
      "loss": 1.4506,
      "step": 73085
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.646460235118866,
      "learning_rate": 5.159716558229916e-05,
      "loss": 1.417,
      "step": 73086
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.652849018573761,
      "learning_rate": 5.1591305083486924e-05,
      "loss": 1.4839,
      "step": 73087
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6367650628089905,
      "learning_rate": 5.158544488620615e-05,
      "loss": 1.5024,
      "step": 73088
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6515355706214905,
      "learning_rate": 5.157958499046407e-05,
      "loss": 1.5019,
      "step": 73089
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6372707486152649,
      "learning_rate": 5.157372539626792e-05,
      "loss": 1.519,
      "step": 73090
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6405853033065796,
      "learning_rate": 5.156786610362451e-05,
      "loss": 1.4866,
      "step": 73091
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6309174299240112,
      "learning_rate": 5.156200711254111e-05,
      "loss": 1.5028,
      "step": 73092
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6709505319595337,
      "learning_rate": 5.155614842302489e-05,
      "loss": 1.529,
      "step": 73093
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6484490633010864,
      "learning_rate": 5.15502900350829e-05,
      "loss": 1.5325,
      "step": 73094
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6433629393577576,
      "learning_rate": 5.15444319487222e-05,
      "loss": 1.5314,
      "step": 73095
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6485217809677124,
      "learning_rate": 5.153857416394999e-05,
      "loss": 1.4528,
      "step": 73096
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6609088182449341,
      "learning_rate": 5.1532716680773355e-05,
      "loss": 1.5645,
      "step": 73097
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6359619498252869,
      "learning_rate": 5.152685949919933e-05,
      "loss": 1.487,
      "step": 73098
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6721001863479614,
      "learning_rate": 5.152100261923509e-05,
      "loss": 1.5032,
      "step": 73099
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6499435901641846,
      "learning_rate": 5.15151460408878e-05,
      "loss": 1.5925,
      "step": 73100
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6350346207618713,
      "learning_rate": 5.150928976416451e-05,
      "loss": 1.5373,
      "step": 73101
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6726493835449219,
      "learning_rate": 5.150343378907227e-05,
      "loss": 1.5715,
      "step": 73102
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6640602350234985,
      "learning_rate": 5.1497578115618276e-05,
      "loss": 1.5038,
      "step": 73103
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6448885202407837,
      "learning_rate": 5.149172274380966e-05,
      "loss": 1.4915,
      "step": 73104
    },
    {
      "epoch": 2.43,
      "grad_norm": 1.5754334926605225,
      "learning_rate": 5.148586767365338e-05,
      "loss": 1.639,
      "step": 73105
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6862877011299133,
      "learning_rate": 5.148001290515673e-05,
      "loss": 1.6058,
      "step": 73106
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6588869690895081,
      "learning_rate": 5.147415843832664e-05,
      "loss": 1.5709,
      "step": 73107
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6628649830818176,
      "learning_rate": 5.146830427317037e-05,
      "loss": 1.5309,
      "step": 73108
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.651335597038269,
      "learning_rate": 5.1462450409694875e-05,
      "loss": 1.5026,
      "step": 73109
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6558389067649841,
      "learning_rate": 5.145659684790746e-05,
      "loss": 1.5356,
      "step": 73110
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6760426759719849,
      "learning_rate": 5.145074358781508e-05,
      "loss": 1.4877,
      "step": 73111
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6665938496589661,
      "learning_rate": 5.144489062942483e-05,
      "loss": 1.5263,
      "step": 73112
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6569249033927917,
      "learning_rate": 5.14390379727439e-05,
      "loss": 1.5035,
      "step": 73113
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6416248083114624,
      "learning_rate": 5.143318561777929e-05,
      "loss": 1.541,
      "step": 73114
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6734387278556824,
      "learning_rate": 5.142733356453826e-05,
      "loss": 1.5771,
      "step": 73115
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6538293957710266,
      "learning_rate": 5.142148181302781e-05,
      "loss": 1.4947,
      "step": 73116
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6301261782646179,
      "learning_rate": 5.141563036325499e-05,
      "loss": 1.4925,
      "step": 73117
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6526749730110168,
      "learning_rate": 5.140977921522703e-05,
      "loss": 1.5345,
      "step": 73118
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6680481433868408,
      "learning_rate": 5.14039283689509e-05,
      "loss": 1.5641,
      "step": 73119
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6878635287284851,
      "learning_rate": 5.1398077824433846e-05,
      "loss": 1.5036,
      "step": 73120
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6592935919761658,
      "learning_rate": 5.139222758168281e-05,
      "loss": 1.5584,
      "step": 73121
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6806418895721436,
      "learning_rate": 5.138637764070504e-05,
      "loss": 1.4525,
      "step": 73122
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6476171612739563,
      "learning_rate": 5.1380528001507614e-05,
      "loss": 1.5221,
      "step": 73123
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6617323160171509,
      "learning_rate": 5.1374678664097515e-05,
      "loss": 1.5408,
      "step": 73124
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6454482674598694,
      "learning_rate": 5.1368829628482e-05,
      "loss": 1.4976,
      "step": 73125
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6603078246116638,
      "learning_rate": 5.136298089466807e-05,
      "loss": 1.5731,
      "step": 73126
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6521762013435364,
      "learning_rate": 5.135713246266279e-05,
      "loss": 1.5348,
      "step": 73127
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6533262133598328,
      "learning_rate": 5.135128433247331e-05,
      "loss": 1.5156,
      "step": 73128
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6781176328659058,
      "learning_rate": 5.1345436504106796e-05,
      "loss": 1.5154,
      "step": 73129
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6539086699485779,
      "learning_rate": 5.133958897757028e-05,
      "loss": 1.5149,
      "step": 73130
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6683734059333801,
      "learning_rate": 5.1333741752870814e-05,
      "loss": 1.5159,
      "step": 73131
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6435400247573853,
      "learning_rate": 5.1327894830015605e-05,
      "loss": 1.5038,
      "step": 73132
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.671812117099762,
      "learning_rate": 5.13220482090117e-05,
      "loss": 1.5236,
      "step": 73133
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6358817219734192,
      "learning_rate": 5.131620188986611e-05,
      "loss": 1.5445,
      "step": 73134
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6777951121330261,
      "learning_rate": 5.1310355872586006e-05,
      "loss": 1.484,
      "step": 73135
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.66502445936203,
      "learning_rate": 5.1304510157178636e-05,
      "loss": 1.5203,
      "step": 73136
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.682881772518158,
      "learning_rate": 5.129866474365082e-05,
      "loss": 1.5622,
      "step": 73137
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6698779463768005,
      "learning_rate": 5.1292819632009754e-05,
      "loss": 1.5181,
      "step": 73138
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6586277484893799,
      "learning_rate": 5.128697482226266e-05,
      "loss": 1.4933,
      "step": 73139
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6484159827232361,
      "learning_rate": 5.128113031441651e-05,
      "loss": 1.4817,
      "step": 73140
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6695916652679443,
      "learning_rate": 5.127528610847835e-05,
      "loss": 1.5208,
      "step": 73141
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6596714854240417,
      "learning_rate": 5.126944220445536e-05,
      "loss": 1.4831,
      "step": 73142
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6728267669677734,
      "learning_rate": 5.126359860235475e-05,
      "loss": 1.5048,
      "step": 73143
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6686716675758362,
      "learning_rate": 5.1257755302183326e-05,
      "loss": 1.4882,
      "step": 73144
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6690444946289062,
      "learning_rate": 5.1251912303948336e-05,
      "loss": 1.5243,
      "step": 73145
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6518661975860596,
      "learning_rate": 5.1246069607656956e-05,
      "loss": 1.5077,
      "step": 73146
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6468727588653564,
      "learning_rate": 5.1240227213316207e-05,
      "loss": 1.5559,
      "step": 73147
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6692310571670532,
      "learning_rate": 5.123438512093309e-05,
      "loss": 1.5291,
      "step": 73148
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6674501299858093,
      "learning_rate": 5.122854333051478e-05,
      "loss": 1.503,
      "step": 73149
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6535093188285828,
      "learning_rate": 5.122270184206842e-05,
      "loss": 1.5644,
      "step": 73150
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6613023281097412,
      "learning_rate": 5.1216860655601046e-05,
      "loss": 1.4809,
      "step": 73151
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6762633919715881,
      "learning_rate": 5.12110197711197e-05,
      "loss": 1.4327,
      "step": 73152
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6634992361068726,
      "learning_rate": 5.120517918863155e-05,
      "loss": 1.5169,
      "step": 73153
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6751123666763306,
      "learning_rate": 5.119933890814369e-05,
      "loss": 1.4662,
      "step": 73154
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6462268829345703,
      "learning_rate": 5.119349892966309e-05,
      "loss": 1.5742,
      "step": 73155
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6344319581985474,
      "learning_rate": 5.1187659253197e-05,
      "loss": 1.4919,
      "step": 73156
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6584621071815491,
      "learning_rate": 5.118181987875235e-05,
      "loss": 1.4936,
      "step": 73157
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6561149954795837,
      "learning_rate": 5.117598080633637e-05,
      "loss": 1.5167,
      "step": 73158
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.673385739326477,
      "learning_rate": 5.117014203595602e-05,
      "loss": 1.5773,
      "step": 73159
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6524501442909241,
      "learning_rate": 5.116430356761856e-05,
      "loss": 1.5808,
      "step": 73160
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6666745543479919,
      "learning_rate": 5.115846540133092e-05,
      "loss": 1.5775,
      "step": 73161
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6524062752723694,
      "learning_rate": 5.1152627537100186e-05,
      "loss": 1.552,
      "step": 73162
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.66119784116745,
      "learning_rate": 5.11467899749336e-05,
      "loss": 1.5535,
      "step": 73163
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.64466792345047,
      "learning_rate": 5.1140952714838046e-05,
      "loss": 1.4929,
      "step": 73164
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6666522026062012,
      "learning_rate": 5.113511575682075e-05,
      "loss": 1.5347,
      "step": 73165
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6726725697517395,
      "learning_rate": 5.112927910088879e-05,
      "loss": 1.5952,
      "step": 73166
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.639082670211792,
      "learning_rate": 5.112344274704914e-05,
      "loss": 1.5146,
      "step": 73167
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6708642840385437,
      "learning_rate": 5.1117606695309034e-05,
      "loss": 1.4951,
      "step": 73168
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6356691718101501,
      "learning_rate": 5.11117709456754e-05,
      "loss": 1.5703,
      "step": 73169
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6614642143249512,
      "learning_rate": 5.11059354981555e-05,
      "loss": 1.5535,
      "step": 73170
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6581262350082397,
      "learning_rate": 5.110010035275624e-05,
      "loss": 1.5526,
      "step": 73171
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6691176891326904,
      "learning_rate": 5.109426550948482e-05,
      "loss": 1.5039,
      "step": 73172
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6376944780349731,
      "learning_rate": 5.1088430968348325e-05,
      "loss": 1.5368,
      "step": 73173
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6567754745483398,
      "learning_rate": 5.108259672935371e-05,
      "loss": 1.5029,
      "step": 73174
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6510959267616272,
      "learning_rate": 5.107676279250823e-05,
      "loss": 1.5381,
      "step": 73175
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6655848026275635,
      "learning_rate": 5.1070929157818886e-05,
      "loss": 1.5348,
      "step": 73176
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6244447827339172,
      "learning_rate": 5.106509582529267e-05,
      "loss": 1.4774,
      "step": 73177
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6553890705108643,
      "learning_rate": 5.105926279493677e-05,
      "loss": 1.5321,
      "step": 73178
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6427505016326904,
      "learning_rate": 5.1053430066758295e-05,
      "loss": 1.4908,
      "step": 73179
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6684041023254395,
      "learning_rate": 5.104759764076429e-05,
      "loss": 1.5622,
      "step": 73180
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6625415086746216,
      "learning_rate": 5.104176551696173e-05,
      "loss": 1.5339,
      "step": 73181
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6567912697792053,
      "learning_rate": 5.103593369535787e-05,
      "loss": 1.5389,
      "step": 73182
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6290143132209778,
      "learning_rate": 5.10301021759597e-05,
      "loss": 1.4379,
      "step": 73183
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6679225564002991,
      "learning_rate": 5.102427095877425e-05,
      "loss": 1.4421,
      "step": 73184
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6534631848335266,
      "learning_rate": 5.1018440043808614e-05,
      "loss": 1.5224,
      "step": 73185
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6624010801315308,
      "learning_rate": 5.101260943106999e-05,
      "loss": 1.5422,
      "step": 73186
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6469129920005798,
      "learning_rate": 5.100677912056538e-05,
      "loss": 1.4884,
      "step": 73187
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.6934787034988403,
      "learning_rate": 5.100094911230179e-05,
      "loss": 1.5282,
      "step": 73188
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6533359885215759,
      "learning_rate": 5.09951194062864e-05,
      "loss": 1.4726,
      "step": 73189
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6496686339378357,
      "learning_rate": 5.098929000252626e-05,
      "loss": 1.5652,
      "step": 73190
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6707534790039062,
      "learning_rate": 5.098346090102837e-05,
      "loss": 1.5154,
      "step": 73191
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6652874946594238,
      "learning_rate": 5.097763210179986e-05,
      "loss": 1.5394,
      "step": 73192
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6748083233833313,
      "learning_rate": 5.097180360484798e-05,
      "loss": 1.5307,
      "step": 73193
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6627269983291626,
      "learning_rate": 5.096597541017947e-05,
      "loss": 1.5477,
      "step": 73194
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6782366037368774,
      "learning_rate": 5.096014751780158e-05,
      "loss": 1.5545,
      "step": 73195
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6506929993629456,
      "learning_rate": 5.0954319927721455e-05,
      "loss": 1.514,
      "step": 73196
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.61834716796875,
      "learning_rate": 5.094849263994607e-05,
      "loss": 1.5078,
      "step": 73197
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6789292693138123,
      "learning_rate": 5.0942665654482463e-05,
      "loss": 1.5493,
      "step": 73198
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6670509576797485,
      "learning_rate": 5.093683897133776e-05,
      "loss": 1.5513,
      "step": 73199
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6356840133666992,
      "learning_rate": 5.0931012590519147e-05,
      "loss": 1.5173,
      "step": 73200
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6440818309783936,
      "learning_rate": 5.09251865120335e-05,
      "loss": 1.553,
      "step": 73201
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6686275601387024,
      "learning_rate": 5.0919360735887936e-05,
      "loss": 1.5576,
      "step": 73202
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6691922545433044,
      "learning_rate": 5.0913535262089655e-05,
      "loss": 1.5516,
      "step": 73203
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6468514800071716,
      "learning_rate": 5.0907710090645645e-05,
      "loss": 1.5217,
      "step": 73204
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.623124897480011,
      "learning_rate": 5.0901885221562874e-05,
      "loss": 1.5612,
      "step": 73205
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.650776743888855,
      "learning_rate": 5.089606065484854e-05,
      "loss": 1.6126,
      "step": 73206
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6602090001106262,
      "learning_rate": 5.089023639050982e-05,
      "loss": 1.4551,
      "step": 73207
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6300824284553528,
      "learning_rate": 5.0884412428553524e-05,
      "loss": 1.5166,
      "step": 73208
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6606355905532837,
      "learning_rate": 5.087858876898681e-05,
      "loss": 1.5583,
      "step": 73209
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6485344171524048,
      "learning_rate": 5.08727654118169e-05,
      "loss": 1.4671,
      "step": 73210
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6703487038612366,
      "learning_rate": 5.086694235705069e-05,
      "loss": 1.5276,
      "step": 73211
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6246135234832764,
      "learning_rate": 5.0861119604695275e-05,
      "loss": 1.4381,
      "step": 73212
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6751362085342407,
      "learning_rate": 5.0855297154757825e-05,
      "loss": 1.5909,
      "step": 73213
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6790400147438049,
      "learning_rate": 5.084947500724529e-05,
      "loss": 1.5341,
      "step": 73214
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6447333097457886,
      "learning_rate": 5.084365316216476e-05,
      "loss": 1.6219,
      "step": 73215
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6822559237480164,
      "learning_rate": 5.083783161952329e-05,
      "loss": 1.5089,
      "step": 73216
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6705678701400757,
      "learning_rate": 5.083201037932807e-05,
      "loss": 1.4912,
      "step": 73217
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6748995780944824,
      "learning_rate": 5.082618944158605e-05,
      "loss": 1.5187,
      "step": 73218
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6694816946983337,
      "learning_rate": 5.082036880630429e-05,
      "loss": 1.5638,
      "step": 73219
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6450175046920776,
      "learning_rate": 5.0814548473489944e-05,
      "loss": 1.5733,
      "step": 73220
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6608203649520874,
      "learning_rate": 5.0808728443150017e-05,
      "loss": 1.5286,
      "step": 73221
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6641327142715454,
      "learning_rate": 5.080290871529149e-05,
      "loss": 1.5521,
      "step": 73222
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6674001216888428,
      "learning_rate": 5.07970892899216e-05,
      "loss": 1.5071,
      "step": 73223
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6574652791023254,
      "learning_rate": 5.079127016704727e-05,
      "loss": 1.517,
      "step": 73224
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6444293260574341,
      "learning_rate": 5.078545134667567e-05,
      "loss": 1.511,
      "step": 73225
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6493859887123108,
      "learning_rate": 5.077963282881374e-05,
      "loss": 1.58,
      "step": 73226
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6464353203773499,
      "learning_rate": 5.07738146134687e-05,
      "loss": 1.5584,
      "step": 73227
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.668613076210022,
      "learning_rate": 5.076799670064753e-05,
      "loss": 1.4453,
      "step": 73228
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6669381856918335,
      "learning_rate": 5.076217909035719e-05,
      "loss": 1.528,
      "step": 73229
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6483002305030823,
      "learning_rate": 5.075636178260492e-05,
      "loss": 1.4938,
      "step": 73230
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6365580558776855,
      "learning_rate": 5.075054477739766e-05,
      "loss": 1.5134,
      "step": 73231
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6779301166534424,
      "learning_rate": 5.074472807474256e-05,
      "loss": 1.5217,
      "step": 73232
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6752983927726746,
      "learning_rate": 5.073891167464663e-05,
      "loss": 1.4911,
      "step": 73233
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6592180728912354,
      "learning_rate": 5.0733095577116876e-05,
      "loss": 1.4911,
      "step": 73234
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6624332666397095,
      "learning_rate": 5.072727978216049e-05,
      "loss": 1.5512,
      "step": 73235
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6490373611450195,
      "learning_rate": 5.0721464289784364e-05,
      "loss": 1.4799,
      "step": 73236
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.649337649345398,
      "learning_rate": 5.0715649099995756e-05,
      "loss": 1.5001,
      "step": 73237
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6521428227424622,
      "learning_rate": 5.0709834212801503e-05,
      "loss": 1.525,
      "step": 73238
    },
    {
      "epoch": 2.44,
      "grad_norm": 1.2398402690887451,
      "learning_rate": 5.070401962820889e-05,
      "loss": 1.5402,
      "step": 73239
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6489027738571167,
      "learning_rate": 5.0698205346224855e-05,
      "loss": 1.5005,
      "step": 73240
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6384609937667847,
      "learning_rate": 5.069239136685641e-05,
      "loss": 1.4506,
      "step": 73241
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.65468430519104,
      "learning_rate": 5.068657769011073e-05,
      "loss": 1.4789,
      "step": 73242
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6388248205184937,
      "learning_rate": 5.06807643159948e-05,
      "loss": 1.5081,
      "step": 73243
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6427626609802246,
      "learning_rate": 5.0674951244515594e-05,
      "loss": 1.5322,
      "step": 73244
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6483486890792847,
      "learning_rate": 5.0669138475680296e-05,
      "loss": 1.5747,
      "step": 73245
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6522320508956909,
      "learning_rate": 5.0663326009495996e-05,
      "loss": 1.4952,
      "step": 73246
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.63829505443573,
      "learning_rate": 5.0657513845969666e-05,
      "loss": 1.4301,
      "step": 73247
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6656758189201355,
      "learning_rate": 5.0651701985108294e-05,
      "loss": 1.5439,
      "step": 73248
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6579025387763977,
      "learning_rate": 5.064589042691911e-05,
      "loss": 1.6136,
      "step": 73249
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6481785178184509,
      "learning_rate": 5.0640079171409076e-05,
      "loss": 1.4463,
      "step": 73250
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6474548578262329,
      "learning_rate": 5.063426821858515e-05,
      "loss": 1.564,
      "step": 73251
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6661574840545654,
      "learning_rate": 5.06284575684545e-05,
      "loss": 1.5241,
      "step": 73252
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6442813277244568,
      "learning_rate": 5.0622647221024304e-05,
      "loss": 1.584,
      "step": 73253
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6542438268661499,
      "learning_rate": 5.06168371763013e-05,
      "loss": 1.535,
      "step": 73254
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6648270487785339,
      "learning_rate": 5.061102743429276e-05,
      "loss": 1.53,
      "step": 73255
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6497388482093811,
      "learning_rate": 5.060521799500573e-05,
      "loss": 1.5441,
      "step": 73256
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6466816663742065,
      "learning_rate": 5.059940885844721e-05,
      "loss": 1.5184,
      "step": 73257
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6491633653640747,
      "learning_rate": 5.059360002462419e-05,
      "loss": 1.4924,
      "step": 73258
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6557514667510986,
      "learning_rate": 5.0587791493543804e-05,
      "loss": 1.5648,
      "step": 73259
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.690368115901947,
      "learning_rate": 5.058198326521314e-05,
      "loss": 1.5271,
      "step": 73260
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6474800109863281,
      "learning_rate": 5.0576175339639236e-05,
      "loss": 1.4953,
      "step": 73261
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6335746049880981,
      "learning_rate": 5.057036771682901e-05,
      "loss": 1.5268,
      "step": 73262
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6198936104774475,
      "learning_rate": 5.0564560396789654e-05,
      "loss": 1.4932,
      "step": 73263
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6883823871612549,
      "learning_rate": 5.05587533795282e-05,
      "loss": 1.5488,
      "step": 73264
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6629108190536499,
      "learning_rate": 5.0552946665051585e-05,
      "loss": 1.5144,
      "step": 73265
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6307003498077393,
      "learning_rate": 5.054714025336696e-05,
      "loss": 1.5032,
      "step": 73266
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6839027404785156,
      "learning_rate": 5.054133414448138e-05,
      "loss": 1.5311,
      "step": 73267
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6705880761146545,
      "learning_rate": 5.053552833840192e-05,
      "loss": 1.5458,
      "step": 73268
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6468525528907776,
      "learning_rate": 5.052972283513547e-05,
      "loss": 1.4827,
      "step": 73269
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6332664489746094,
      "learning_rate": 5.052391763468925e-05,
      "loss": 1.5353,
      "step": 73270
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6599935293197632,
      "learning_rate": 5.051811273707023e-05,
      "loss": 1.5122,
      "step": 73271
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6580565571784973,
      "learning_rate": 5.05123081422854e-05,
      "loss": 1.5,
      "step": 73272
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6364087462425232,
      "learning_rate": 5.0506503850341915e-05,
      "loss": 1.4459,
      "step": 73273
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6463742852210999,
      "learning_rate": 5.0500699861246716e-05,
      "loss": 1.5306,
      "step": 73274
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6443711519241333,
      "learning_rate": 5.0494896175006994e-05,
      "loss": 1.4983,
      "step": 73275
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6687027812004089,
      "learning_rate": 5.04890927916296e-05,
      "loss": 1.4528,
      "step": 73276
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6404463648796082,
      "learning_rate": 5.0483289711121776e-05,
      "loss": 1.5228,
      "step": 73277
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6645997166633606,
      "learning_rate": 5.0477486933490475e-05,
      "loss": 1.5337,
      "step": 73278
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6357062458992004,
      "learning_rate": 5.0471684458742686e-05,
      "loss": 1.4626,
      "step": 73279
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6355116963386536,
      "learning_rate": 5.046588228688555e-05,
      "loss": 1.5024,
      "step": 73280
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6839181780815125,
      "learning_rate": 5.046008041792599e-05,
      "loss": 1.6238,
      "step": 73281
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6674829721450806,
      "learning_rate": 5.045427885187122e-05,
      "loss": 1.5802,
      "step": 73282
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6518169641494751,
      "learning_rate": 5.0448477588728184e-05,
      "loss": 1.5189,
      "step": 73283
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6595404744148254,
      "learning_rate": 5.044267662850384e-05,
      "loss": 1.552,
      "step": 73284
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6355738043785095,
      "learning_rate": 5.043687597120538e-05,
      "loss": 1.5156,
      "step": 73285
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6516595482826233,
      "learning_rate": 5.0431075616839734e-05,
      "loss": 1.5413,
      "step": 73286
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6288722157478333,
      "learning_rate": 5.042527556541406e-05,
      "loss": 1.5274,
      "step": 73287
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6353403925895691,
      "learning_rate": 5.041947581693525e-05,
      "loss": 1.5543,
      "step": 73288
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6601992249488831,
      "learning_rate": 5.041367637141047e-05,
      "loss": 1.5594,
      "step": 73289
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6117022633552551,
      "learning_rate": 5.0407877228846746e-05,
      "loss": 1.4974,
      "step": 73290
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6704252362251282,
      "learning_rate": 5.040207838925101e-05,
      "loss": 1.5557,
      "step": 73291
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6499845385551453,
      "learning_rate": 5.039627985263042e-05,
      "loss": 1.4654,
      "step": 73292
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6383150815963745,
      "learning_rate": 5.0390481618992e-05,
      "loss": 1.5525,
      "step": 73293
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6689029932022095,
      "learning_rate": 5.0384683688342645e-05,
      "loss": 1.5809,
      "step": 73294
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6697441935539246,
      "learning_rate": 5.0378886060689546e-05,
      "loss": 1.5692,
      "step": 73295
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6514390110969543,
      "learning_rate": 5.037308873603974e-05,
      "loss": 1.5848,
      "step": 73296
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6583935618400574,
      "learning_rate": 5.036729171440026e-05,
      "loss": 1.5859,
      "step": 73297
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6613873243331909,
      "learning_rate": 5.036149499577798e-05,
      "loss": 1.5729,
      "step": 73298
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6359092593193054,
      "learning_rate": 5.035569858018018e-05,
      "loss": 1.5943,
      "step": 73299
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6571877598762512,
      "learning_rate": 5.034990246761378e-05,
      "loss": 1.522,
      "step": 73300
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6445525884628296,
      "learning_rate": 5.03441066580857e-05,
      "loss": 1.5465,
      "step": 73301
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6475523710250854,
      "learning_rate": 5.033831115160312e-05,
      "loss": 1.518,
      "step": 73302
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6487420797348022,
      "learning_rate": 5.0332515948173114e-05,
      "loss": 1.4845,
      "step": 73303
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6770274639129639,
      "learning_rate": 5.0326721047802655e-05,
      "loss": 1.5387,
      "step": 73304
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.634332537651062,
      "learning_rate": 5.03209264504987e-05,
      "loss": 1.4267,
      "step": 73305
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6628379821777344,
      "learning_rate": 5.0315132156268414e-05,
      "loss": 1.548,
      "step": 73306
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6440017819404602,
      "learning_rate": 5.030933816511875e-05,
      "loss": 1.536,
      "step": 73307
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6422939896583557,
      "learning_rate": 5.030354447705671e-05,
      "loss": 1.4982,
      "step": 73308
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6590349078178406,
      "learning_rate": 5.029775109208936e-05,
      "loss": 1.509,
      "step": 73309
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6362005472183228,
      "learning_rate": 5.029195801022391e-05,
      "loss": 1.5411,
      "step": 73310
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6835901737213135,
      "learning_rate": 5.028616523146707e-05,
      "loss": 1.5797,
      "step": 73311
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6524859666824341,
      "learning_rate": 5.0280372755826056e-05,
      "loss": 1.498,
      "step": 73312
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6613812446594238,
      "learning_rate": 5.027458058330791e-05,
      "loss": 1.4267,
      "step": 73313
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6588053107261658,
      "learning_rate": 5.026878871391965e-05,
      "loss": 1.5767,
      "step": 73314
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6516051292419434,
      "learning_rate": 5.02629971476682e-05,
      "loss": 1.5682,
      "step": 73315
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6290084719657898,
      "learning_rate": 5.0257205884560706e-05,
      "loss": 1.4754,
      "step": 73316
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6414012908935547,
      "learning_rate": 5.02514149246043e-05,
      "loss": 1.5908,
      "step": 73317
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.643961489200592,
      "learning_rate": 5.024562426780571e-05,
      "loss": 1.5014,
      "step": 73318
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.66520094871521,
      "learning_rate": 5.0239833914172136e-05,
      "loss": 1.4607,
      "step": 73319
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6748899221420288,
      "learning_rate": 5.0234043863710685e-05,
      "loss": 1.5332,
      "step": 73320
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6589928269386292,
      "learning_rate": 5.022825411642831e-05,
      "loss": 1.5478,
      "step": 73321
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6413525342941284,
      "learning_rate": 5.022246467233195e-05,
      "loss": 1.5746,
      "step": 73322
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6592034697532654,
      "learning_rate": 5.021667553142873e-05,
      "loss": 1.578,
      "step": 73323
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6535714864730835,
      "learning_rate": 5.0210886693725804e-05,
      "loss": 1.5108,
      "step": 73324
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6309530138969421,
      "learning_rate": 5.020509815922991e-05,
      "loss": 1.4554,
      "step": 73325
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6500053405761719,
      "learning_rate": 5.019930992794819e-05,
      "loss": 1.5042,
      "step": 73326
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6411499381065369,
      "learning_rate": 5.01935219998878e-05,
      "loss": 1.4294,
      "step": 73327
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6525565981864929,
      "learning_rate": 5.018773437505568e-05,
      "loss": 1.5361,
      "step": 73328
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6151694655418396,
      "learning_rate": 5.018194705345876e-05,
      "loss": 1.5193,
      "step": 73329
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.67350172996521,
      "learning_rate": 5.017616003510421e-05,
      "loss": 1.5009,
      "step": 73330
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6564348340034485,
      "learning_rate": 5.017037331999898e-05,
      "loss": 1.5109,
      "step": 73331
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6429766416549683,
      "learning_rate": 5.016458690815007e-05,
      "loss": 1.5215,
      "step": 73332
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6544493436813354,
      "learning_rate": 5.0158800799564514e-05,
      "loss": 1.5754,
      "step": 73333
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6263550519943237,
      "learning_rate": 5.015301499424943e-05,
      "loss": 1.4458,
      "step": 73334
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6568568348884583,
      "learning_rate": 5.014722949221178e-05,
      "loss": 1.5528,
      "step": 73335
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6542340517044067,
      "learning_rate": 5.014144429345853e-05,
      "loss": 1.5173,
      "step": 73336
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6659557819366455,
      "learning_rate": 5.0135659397996777e-05,
      "loss": 1.5124,
      "step": 73337
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6544318199157715,
      "learning_rate": 5.012987480583357e-05,
      "loss": 1.493,
      "step": 73338
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6797047257423401,
      "learning_rate": 5.012409051697578e-05,
      "loss": 1.5961,
      "step": 73339
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6468302607536316,
      "learning_rate": 5.01183065314306e-05,
      "loss": 1.5502,
      "step": 73340
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6569616794586182,
      "learning_rate": 5.011252284920488e-05,
      "loss": 1.5364,
      "step": 73341
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6428369879722595,
      "learning_rate": 5.0106739470305834e-05,
      "loss": 1.5143,
      "step": 73342
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.670884907245636,
      "learning_rate": 5.0100956394740345e-05,
      "loss": 1.4666,
      "step": 73343
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6355828046798706,
      "learning_rate": 5.009517362251551e-05,
      "loss": 1.4665,
      "step": 73344
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6699687838554382,
      "learning_rate": 5.0089391153638316e-05,
      "loss": 1.5619,
      "step": 73345
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6893576979637146,
      "learning_rate": 5.0083608988115695e-05,
      "loss": 1.5785,
      "step": 73346
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6519840359687805,
      "learning_rate": 5.007782712595485e-05,
      "loss": 1.5276,
      "step": 73347
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6484149098396301,
      "learning_rate": 5.0072045567162596e-05,
      "loss": 1.5272,
      "step": 73348
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6277201771736145,
      "learning_rate": 5.006626431174614e-05,
      "loss": 1.5479,
      "step": 73349
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6786805391311646,
      "learning_rate": 5.0060483359712436e-05,
      "loss": 1.5395,
      "step": 73350
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6314267516136169,
      "learning_rate": 5.005470271106837e-05,
      "loss": 1.5326,
      "step": 73351
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6356326937675476,
      "learning_rate": 5.004892236582115e-05,
      "loss": 1.5212,
      "step": 73352
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6217195391654968,
      "learning_rate": 5.004314232397764e-05,
      "loss": 1.494,
      "step": 73353
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6445558667182922,
      "learning_rate": 5.003736258554501e-05,
      "loss": 1.48,
      "step": 73354
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6463949680328369,
      "learning_rate": 5.003158315053012e-05,
      "loss": 1.5181,
      "step": 73355
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6290475726127625,
      "learning_rate": 5.0025804018940106e-05,
      "loss": 1.5144,
      "step": 73356
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6254542469978333,
      "learning_rate": 5.002002519078194e-05,
      "loss": 1.5429,
      "step": 73357
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6452070474624634,
      "learning_rate": 5.001424666606259e-05,
      "loss": 1.5708,
      "step": 73358
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.666951596736908,
      "learning_rate": 5.000846844478913e-05,
      "loss": 1.5293,
      "step": 73359
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6860381960868835,
      "learning_rate": 5.00026905269686e-05,
      "loss": 1.4448,
      "step": 73360
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6445756554603577,
      "learning_rate": 4.999691291260787e-05,
      "loss": 1.5745,
      "step": 73361
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6714911460876465,
      "learning_rate": 4.999113560171405e-05,
      "loss": 1.5633,
      "step": 73362
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6491149663925171,
      "learning_rate": 4.998535859429424e-05,
      "loss": 1.5767,
      "step": 73363
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.658498227596283,
      "learning_rate": 4.997958189035538e-05,
      "loss": 1.5351,
      "step": 73364
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6752266883850098,
      "learning_rate": 4.997380548990438e-05,
      "loss": 1.5333,
      "step": 73365
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6630715131759644,
      "learning_rate": 4.9968029392948416e-05,
      "loss": 1.4494,
      "step": 73366
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6571534872055054,
      "learning_rate": 4.9962253599494405e-05,
      "loss": 1.4637,
      "step": 73367
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6340609788894653,
      "learning_rate": 4.9956478109549314e-05,
      "loss": 1.5291,
      "step": 73368
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6794018149375916,
      "learning_rate": 4.995070292312023e-05,
      "loss": 1.5346,
      "step": 73369
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6327230334281921,
      "learning_rate": 4.994492804021429e-05,
      "loss": 1.5379,
      "step": 73370
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6594182848930359,
      "learning_rate": 4.993915346083822e-05,
      "loss": 1.528,
      "step": 73371
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6345818042755127,
      "learning_rate": 4.993337918499918e-05,
      "loss": 1.5421,
      "step": 73372
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6480923295021057,
      "learning_rate": 4.992760521270422e-05,
      "loss": 1.5559,
      "step": 73373
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6721401810646057,
      "learning_rate": 4.992183154396032e-05,
      "loss": 1.4877,
      "step": 73374
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6497825980186462,
      "learning_rate": 4.99160581787744e-05,
      "loss": 1.5259,
      "step": 73375
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6524277925491333,
      "learning_rate": 4.9910285117153514e-05,
      "loss": 1.5188,
      "step": 73376
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6309585571289062,
      "learning_rate": 4.9904512359104764e-05,
      "loss": 1.5408,
      "step": 73377
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6487269401550293,
      "learning_rate": 4.989873990463511e-05,
      "loss": 1.4616,
      "step": 73378
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.657344400882721,
      "learning_rate": 4.9892967753751446e-05,
      "loss": 1.6007,
      "step": 73379
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6687350273132324,
      "learning_rate": 4.988719590646097e-05,
      "loss": 1.5111,
      "step": 73380
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6606550216674805,
      "learning_rate": 4.988142436277056e-05,
      "loss": 1.5041,
      "step": 73381
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6677469611167908,
      "learning_rate": 4.9875653122687165e-05,
      "loss": 1.5338,
      "step": 73382
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6616767048835754,
      "learning_rate": 4.98698821862179e-05,
      "loss": 1.5118,
      "step": 73383
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6606470346450806,
      "learning_rate": 4.98641115533698e-05,
      "loss": 1.4738,
      "step": 73384
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6845625042915344,
      "learning_rate": 4.985834122414982e-05,
      "loss": 1.5677,
      "step": 73385
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6539179682731628,
      "learning_rate": 4.9852571198564864e-05,
      "loss": 1.5114,
      "step": 73386
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6468363404273987,
      "learning_rate": 4.984680147662215e-05,
      "loss": 1.5166,
      "step": 73387
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6470547914505005,
      "learning_rate": 4.98410320583285e-05,
      "loss": 1.5562,
      "step": 73388
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6419923305511475,
      "learning_rate": 4.9835262943690956e-05,
      "loss": 1.5247,
      "step": 73389
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6529838442802429,
      "learning_rate": 4.9829494132716576e-05,
      "loss": 1.5208,
      "step": 73390
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6524138450622559,
      "learning_rate": 4.982372562541228e-05,
      "loss": 1.5805,
      "step": 73391
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6484717130661011,
      "learning_rate": 4.981795742178517e-05,
      "loss": 1.4815,
      "step": 73392
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6705977916717529,
      "learning_rate": 4.981218952184214e-05,
      "loss": 1.4354,
      "step": 73393
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.636240541934967,
      "learning_rate": 4.980642192559034e-05,
      "loss": 1.5349,
      "step": 73394
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6554713845252991,
      "learning_rate": 4.980065463303665e-05,
      "loss": 1.5392,
      "step": 73395
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.656087338924408,
      "learning_rate": 4.9794887644188056e-05,
      "loss": 1.5255,
      "step": 73396
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6510622501373291,
      "learning_rate": 4.978912095905164e-05,
      "loss": 1.5329,
      "step": 73397
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6534243822097778,
      "learning_rate": 4.978335457763432e-05,
      "loss": 1.4998,
      "step": 73398
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6452019810676575,
      "learning_rate": 4.97775884999432e-05,
      "loss": 1.5252,
      "step": 73399
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6721509099006653,
      "learning_rate": 4.977182272598522e-05,
      "loss": 1.529,
      "step": 73400
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6479544639587402,
      "learning_rate": 4.976605725576731e-05,
      "loss": 1.4946,
      "step": 73401
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6635004281997681,
      "learning_rate": 4.9760292089296595e-05,
      "loss": 1.5091,
      "step": 73402
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6526035070419312,
      "learning_rate": 4.9754527226579965e-05,
      "loss": 1.5799,
      "step": 73403
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6524050235748291,
      "learning_rate": 4.974876266762452e-05,
      "loss": 1.5556,
      "step": 73404
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6462584137916565,
      "learning_rate": 4.9742998412437116e-05,
      "loss": 1.5429,
      "step": 73405
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6532484292984009,
      "learning_rate": 4.973723446102496e-05,
      "loss": 1.4826,
      "step": 73406
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6446486115455627,
      "learning_rate": 4.973147081339489e-05,
      "loss": 1.4967,
      "step": 73407
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6810798048973083,
      "learning_rate": 4.9725707469553856e-05,
      "loss": 1.6051,
      "step": 73408
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6245230436325073,
      "learning_rate": 4.971994442950904e-05,
      "loss": 1.5125,
      "step": 73409
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6587555408477783,
      "learning_rate": 4.9714181693267343e-05,
      "loss": 1.5158,
      "step": 73410
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6735187768936157,
      "learning_rate": 4.970841926083565e-05,
      "loss": 1.5539,
      "step": 73411
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6547024846076965,
      "learning_rate": 4.970265713222107e-05,
      "loss": 1.5171,
      "step": 73412
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.643171489238739,
      "learning_rate": 4.969689530743065e-05,
      "loss": 1.5133,
      "step": 73413
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6718490123748779,
      "learning_rate": 4.9691133786471324e-05,
      "loss": 1.5314,
      "step": 73414
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6784222722053528,
      "learning_rate": 4.968537256934999e-05,
      "loss": 1.5945,
      "step": 73415
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.667636513710022,
      "learning_rate": 4.9679611656073836e-05,
      "loss": 1.5619,
      "step": 73416
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6595401763916016,
      "learning_rate": 4.967385104664973e-05,
      "loss": 1.5243,
      "step": 73417
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6508716940879822,
      "learning_rate": 4.966809074108462e-05,
      "loss": 1.4885,
      "step": 73418
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6539153456687927,
      "learning_rate": 4.9662330739385545e-05,
      "loss": 1.5713,
      "step": 73419
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6392426490783691,
      "learning_rate": 4.96565710415597e-05,
      "loss": 1.5363,
      "step": 73420
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.660198450088501,
      "learning_rate": 4.965081164761371e-05,
      "loss": 1.4855,
      "step": 73421
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6601071953773499,
      "learning_rate": 4.964505255755477e-05,
      "loss": 1.5088,
      "step": 73422
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6588536500930786,
      "learning_rate": 4.96392937713899e-05,
      "loss": 1.5708,
      "step": 73423
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6489458680152893,
      "learning_rate": 4.963353528912604e-05,
      "loss": 1.5187,
      "step": 73424
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6842043995857239,
      "learning_rate": 4.962777711077011e-05,
      "loss": 1.4662,
      "step": 73425
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6621885895729065,
      "learning_rate": 4.962201923632917e-05,
      "loss": 1.4412,
      "step": 73426
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6713123917579651,
      "learning_rate": 4.9616261665810385e-05,
      "loss": 1.5225,
      "step": 73427
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6649825572967529,
      "learning_rate": 4.9610504399220384e-05,
      "loss": 1.5934,
      "step": 73428
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6296674013137817,
      "learning_rate": 4.960474743656633e-05,
      "loss": 1.4631,
      "step": 73429
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.643166184425354,
      "learning_rate": 4.959899077785531e-05,
      "loss": 1.531,
      "step": 73430
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.670473039150238,
      "learning_rate": 4.959323442309422e-05,
      "loss": 1.5257,
      "step": 73431
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6389686465263367,
      "learning_rate": 4.958747837228996e-05,
      "loss": 1.5285,
      "step": 73432
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6800832152366638,
      "learning_rate": 4.9581722625449616e-05,
      "loss": 1.5586,
      "step": 73433
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6757997274398804,
      "learning_rate": 4.957596718258032e-05,
      "loss": 1.5386,
      "step": 73434
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6774492859840393,
      "learning_rate": 4.957021204368874e-05,
      "loss": 1.5812,
      "step": 73435
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6348000168800354,
      "learning_rate": 4.9564457208782026e-05,
      "loss": 1.5112,
      "step": 73436
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6829554438591003,
      "learning_rate": 4.955870267786724e-05,
      "loss": 1.5355,
      "step": 73437
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6452186703681946,
      "learning_rate": 4.955294845095129e-05,
      "loss": 1.5666,
      "step": 73438
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6475080251693726,
      "learning_rate": 4.954719452804105e-05,
      "loss": 1.4464,
      "step": 73439
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6591693162918091,
      "learning_rate": 4.9541440909143673e-05,
      "loss": 1.5089,
      "step": 73440
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6545098423957825,
      "learning_rate": 4.953568759426619e-05,
      "loss": 1.4561,
      "step": 73441
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6375042796134949,
      "learning_rate": 4.952993458341536e-05,
      "loss": 1.5292,
      "step": 73442
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.692106306552887,
      "learning_rate": 4.952418187659824e-05,
      "loss": 1.485,
      "step": 73443
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.671593189239502,
      "learning_rate": 4.9518429473821966e-05,
      "loss": 1.4879,
      "step": 73444
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6606214046478271,
      "learning_rate": 4.9512677375093404e-05,
      "loss": 1.5691,
      "step": 73445
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6550492644309998,
      "learning_rate": 4.9506925580419454e-05,
      "loss": 1.5151,
      "step": 73446
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6408997178077698,
      "learning_rate": 4.950117408980728e-05,
      "loss": 1.48,
      "step": 73447
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6944640278816223,
      "learning_rate": 4.949542290326378e-05,
      "loss": 1.5142,
      "step": 73448
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6531248092651367,
      "learning_rate": 4.948967202079584e-05,
      "loss": 1.5163,
      "step": 73449
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6560383439064026,
      "learning_rate": 4.948392144241053e-05,
      "loss": 1.4858,
      "step": 73450
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6492443680763245,
      "learning_rate": 4.9478171168114875e-05,
      "loss": 1.4679,
      "step": 73451
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6488813757896423,
      "learning_rate": 4.9472421197915836e-05,
      "loss": 1.5122,
      "step": 73452
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6711474061012268,
      "learning_rate": 4.94666715318203e-05,
      "loss": 1.5874,
      "step": 73453
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6654797196388245,
      "learning_rate": 4.946092216983537e-05,
      "loss": 1.4362,
      "step": 73454
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6467545032501221,
      "learning_rate": 4.945517311196797e-05,
      "loss": 1.527,
      "step": 73455
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6512511968612671,
      "learning_rate": 4.9449424358225e-05,
      "loss": 1.5099,
      "step": 73456
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.669064462184906,
      "learning_rate": 4.944367590861358e-05,
      "loss": 1.5561,
      "step": 73457
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.677810549736023,
      "learning_rate": 4.943792776314054e-05,
      "loss": 1.4391,
      "step": 73458
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6882340908050537,
      "learning_rate": 4.943217992181301e-05,
      "loss": 1.5661,
      "step": 73459
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6384703516960144,
      "learning_rate": 4.942643238463785e-05,
      "loss": 1.5397,
      "step": 73460
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6683568358421326,
      "learning_rate": 4.942068515162212e-05,
      "loss": 1.489,
      "step": 73461
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6579800844192505,
      "learning_rate": 4.941493822277278e-05,
      "loss": 1.5242,
      "step": 73462
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6350361108779907,
      "learning_rate": 4.9409191598096696e-05,
      "loss": 1.5469,
      "step": 73463
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6703407764434814,
      "learning_rate": 4.940344527760099e-05,
      "loss": 1.53,
      "step": 73464
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.652359127998352,
      "learning_rate": 4.9397699261292534e-05,
      "loss": 1.5279,
      "step": 73465
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6794655323028564,
      "learning_rate": 4.939195354917841e-05,
      "loss": 1.5198,
      "step": 73466
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6561025977134705,
      "learning_rate": 4.938620814126551e-05,
      "loss": 1.4575,
      "step": 73467
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6373547911643982,
      "learning_rate": 4.938046303756078e-05,
      "loss": 1.5757,
      "step": 73468
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.625851035118103,
      "learning_rate": 4.93747182380713e-05,
      "loss": 1.4936,
      "step": 73469
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.652306854724884,
      "learning_rate": 4.936897374280393e-05,
      "loss": 1.5754,
      "step": 73470
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6381997466087341,
      "learning_rate": 4.936322955176574e-05,
      "loss": 1.4985,
      "step": 73471
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6263459920883179,
      "learning_rate": 4.935748566496362e-05,
      "loss": 1.5225,
      "step": 73472
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6482374668121338,
      "learning_rate": 4.935174208240462e-05,
      "loss": 1.5197,
      "step": 73473
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6942437291145325,
      "learning_rate": 4.934599880409569e-05,
      "loss": 1.404,
      "step": 73474
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6476777195930481,
      "learning_rate": 4.934025583004374e-05,
      "loss": 1.5296,
      "step": 73475
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6588382720947266,
      "learning_rate": 4.9334513160255803e-05,
      "loss": 1.5409,
      "step": 73476
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6428008675575256,
      "learning_rate": 4.932877079473888e-05,
      "loss": 1.5068,
      "step": 73477
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.665073573589325,
      "learning_rate": 4.9323028733499794e-05,
      "loss": 1.5635,
      "step": 73478
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6492414474487305,
      "learning_rate": 4.931728697654563e-05,
      "loss": 1.5477,
      "step": 73479
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6650271415710449,
      "learning_rate": 4.9311545523883434e-05,
      "loss": 1.5055,
      "step": 73480
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6605244874954224,
      "learning_rate": 4.930580437552005e-05,
      "loss": 1.5353,
      "step": 73481
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6574486494064331,
      "learning_rate": 4.930006353146242e-05,
      "loss": 1.5349,
      "step": 73482
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6492186784744263,
      "learning_rate": 4.929432299171766e-05,
      "loss": 1.6485,
      "step": 73483
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6760205626487732,
      "learning_rate": 4.928858275629264e-05,
      "loss": 1.5555,
      "step": 73484
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6449700593948364,
      "learning_rate": 4.9282842825194246e-05,
      "loss": 1.569,
      "step": 73485
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6681963801383972,
      "learning_rate": 4.927710319842958e-05,
      "loss": 1.574,
      "step": 73486
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6500560641288757,
      "learning_rate": 4.92713638760057e-05,
      "loss": 1.5144,
      "step": 73487
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.6324405670166016,
      "learning_rate": 4.92656248579293e-05,
      "loss": 1.454,
      "step": 73488
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.622029721736908,
      "learning_rate": 4.9259886144207475e-05,
      "loss": 1.515,
      "step": 73489
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.641072154045105,
      "learning_rate": 4.9254147734847284e-05,
      "loss": 1.4628,
      "step": 73490
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6390932202339172,
      "learning_rate": 4.924840962985559e-05,
      "loss": 1.444,
      "step": 73491
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6418459415435791,
      "learning_rate": 4.924267182923932e-05,
      "loss": 1.5826,
      "step": 73492
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6643288135528564,
      "learning_rate": 4.9236934333005503e-05,
      "loss": 1.567,
      "step": 73493
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6500590443611145,
      "learning_rate": 4.9231197141161174e-05,
      "loss": 1.4985,
      "step": 73494
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.641208827495575,
      "learning_rate": 4.922546025371321e-05,
      "loss": 1.4923,
      "step": 73495
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6764383316040039,
      "learning_rate": 4.921972367066855e-05,
      "loss": 1.4392,
      "step": 73496
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6470610499382019,
      "learning_rate": 4.921398739203423e-05,
      "loss": 1.5421,
      "step": 73497
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6537156105041504,
      "learning_rate": 4.920825141781719e-05,
      "loss": 1.5192,
      "step": 73498
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6617299914360046,
      "learning_rate": 4.9202515748024306e-05,
      "loss": 1.6054,
      "step": 73499
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.649623692035675,
      "learning_rate": 4.919678038266264e-05,
      "loss": 1.5015,
      "step": 73500
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6705034971237183,
      "learning_rate": 4.919104532173918e-05,
      "loss": 1.5447,
      "step": 73501
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6720194816589355,
      "learning_rate": 4.9185310565260816e-05,
      "loss": 1.514,
      "step": 73502
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6554151773452759,
      "learning_rate": 4.917957611323449e-05,
      "loss": 1.5829,
      "step": 73503
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6335486173629761,
      "learning_rate": 4.917384196566725e-05,
      "loss": 1.5067,
      "step": 73504
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6609117388725281,
      "learning_rate": 4.916810812256603e-05,
      "loss": 1.5589,
      "step": 73505
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6499146223068237,
      "learning_rate": 4.9162374583937695e-05,
      "loss": 1.5587,
      "step": 73506
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6844093203544617,
      "learning_rate": 4.9156641349789325e-05,
      "loss": 1.5576,
      "step": 73507
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.642662525177002,
      "learning_rate": 4.9150908420127765e-05,
      "loss": 1.5078,
      "step": 73508
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6475360989570618,
      "learning_rate": 4.9145175794960136e-05,
      "loss": 1.4714,
      "step": 73509
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.672755777835846,
      "learning_rate": 4.913944347429323e-05,
      "loss": 1.5297,
      "step": 73510
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6531994938850403,
      "learning_rate": 4.9133711458134104e-05,
      "loss": 1.5013,
      "step": 73511
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.655235230922699,
      "learning_rate": 4.9127979746489734e-05,
      "loss": 1.5096,
      "step": 73512
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6536318063735962,
      "learning_rate": 4.912224833936696e-05,
      "loss": 1.5232,
      "step": 73513
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6456115245819092,
      "learning_rate": 4.911651723677287e-05,
      "loss": 1.4817,
      "step": 73514
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6648197174072266,
      "learning_rate": 4.911078643871427e-05,
      "loss": 1.5567,
      "step": 73515
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.681765615940094,
      "learning_rate": 4.910505594519832e-05,
      "loss": 1.4947,
      "step": 73516
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6590819954872131,
      "learning_rate": 4.9099325756231836e-05,
      "loss": 1.5326,
      "step": 73517
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6407157182693481,
      "learning_rate": 4.909359587182175e-05,
      "loss": 1.5264,
      "step": 73518
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6815923452377319,
      "learning_rate": 4.908786629197512e-05,
      "loss": 1.5066,
      "step": 73519
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6560929417610168,
      "learning_rate": 4.9082137016698784e-05,
      "loss": 1.5791,
      "step": 73520
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6545289158821106,
      "learning_rate": 4.907640804599985e-05,
      "loss": 1.5377,
      "step": 73521
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.656350314617157,
      "learning_rate": 4.90706793798851e-05,
      "loss": 1.5071,
      "step": 73522
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6284474730491638,
      "learning_rate": 4.906495101836164e-05,
      "loss": 1.6154,
      "step": 73523
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6681615710258484,
      "learning_rate": 4.905922296143636e-05,
      "loss": 1.5221,
      "step": 73524
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6697051525115967,
      "learning_rate": 4.905349520911616e-05,
      "loss": 1.6052,
      "step": 73525
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6540756225585938,
      "learning_rate": 4.9047767761408085e-05,
      "loss": 1.4633,
      "step": 73526
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6846017241477966,
      "learning_rate": 4.904204061831905e-05,
      "loss": 1.5048,
      "step": 73527
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6783573627471924,
      "learning_rate": 4.903631377985593e-05,
      "loss": 1.4862,
      "step": 73528
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6647911667823792,
      "learning_rate": 4.903058724602576e-05,
      "loss": 1.5637,
      "step": 73529
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6382092833518982,
      "learning_rate": 4.902486101683555e-05,
      "loss": 1.5689,
      "step": 73530
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.650809109210968,
      "learning_rate": 4.901913509229217e-05,
      "loss": 1.4328,
      "step": 73531
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6194404363632202,
      "learning_rate": 4.90134094724025e-05,
      "loss": 1.4587,
      "step": 73532
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6607330441474915,
      "learning_rate": 4.9007684157173656e-05,
      "loss": 1.536,
      "step": 73533
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6444178223609924,
      "learning_rate": 4.900195914661247e-05,
      "loss": 1.528,
      "step": 73534
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6691561341285706,
      "learning_rate": 4.89962344407259e-05,
      "loss": 1.4916,
      "step": 73535
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6313387751579285,
      "learning_rate": 4.899051003952088e-05,
      "loss": 1.5191,
      "step": 73536
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.654179573059082,
      "learning_rate": 4.8984785943004536e-05,
      "loss": 1.5003,
      "step": 73537
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6669039726257324,
      "learning_rate": 4.897906215118356e-05,
      "loss": 1.5118,
      "step": 73538
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6643248796463013,
      "learning_rate": 4.8973338664065006e-05,
      "loss": 1.5202,
      "step": 73539
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6553446650505066,
      "learning_rate": 4.896761548165592e-05,
      "loss": 1.4953,
      "step": 73540
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6793200969696045,
      "learning_rate": 4.8961892603963115e-05,
      "loss": 1.5604,
      "step": 73541
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7074978947639465,
      "learning_rate": 4.895617003099356e-05,
      "loss": 1.5325,
      "step": 73542
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6653314232826233,
      "learning_rate": 4.8950447762754206e-05,
      "loss": 1.5241,
      "step": 73543
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6492553353309631,
      "learning_rate": 4.894472579925216e-05,
      "loss": 1.4985,
      "step": 73544
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6627234220504761,
      "learning_rate": 4.893900414049407e-05,
      "loss": 1.5282,
      "step": 73545
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6490359306335449,
      "learning_rate": 4.893328278648705e-05,
      "loss": 1.507,
      "step": 73546
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6566157937049866,
      "learning_rate": 4.8927561737238106e-05,
      "loss": 1.5408,
      "step": 73547
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6550432443618774,
      "learning_rate": 4.8921840992754116e-05,
      "loss": 1.5881,
      "step": 73548
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6669765114784241,
      "learning_rate": 4.8916120553041925e-05,
      "loss": 1.5261,
      "step": 73549
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6583353877067566,
      "learning_rate": 4.891040041810857e-05,
      "loss": 1.543,
      "step": 73550
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6613503694534302,
      "learning_rate": 4.8904680587961156e-05,
      "loss": 1.5269,
      "step": 73551
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.644757091999054,
      "learning_rate": 4.889896106260633e-05,
      "loss": 1.4955,
      "step": 73552
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6514012813568115,
      "learning_rate": 4.889324184205111e-05,
      "loss": 1.4574,
      "step": 73553
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6704275608062744,
      "learning_rate": 4.8887522926302616e-05,
      "loss": 1.4811,
      "step": 73554
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6881151795387268,
      "learning_rate": 4.8881804315367654e-05,
      "loss": 1.5695,
      "step": 73555
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6455441117286682,
      "learning_rate": 4.88760860092531e-05,
      "loss": 1.5044,
      "step": 73556
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6461247801780701,
      "learning_rate": 4.887036800796601e-05,
      "loss": 1.4906,
      "step": 73557
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6784408688545227,
      "learning_rate": 4.886465031151341e-05,
      "loss": 1.58,
      "step": 73558
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6559668183326721,
      "learning_rate": 4.885893291990196e-05,
      "loss": 1.5035,
      "step": 73559
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.698053777217865,
      "learning_rate": 4.885321583313879e-05,
      "loss": 1.5409,
      "step": 73560
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.634532630443573,
      "learning_rate": 4.8847499051230863e-05,
      "loss": 1.4693,
      "step": 73561
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6802176237106323,
      "learning_rate": 4.8841782574185076e-05,
      "loss": 1.5381,
      "step": 73562
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6497109532356262,
      "learning_rate": 4.883606640200831e-05,
      "loss": 1.5476,
      "step": 73563
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6361097693443298,
      "learning_rate": 4.883035053470761e-05,
      "loss": 1.4079,
      "step": 73564
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6752598285675049,
      "learning_rate": 4.882463497228982e-05,
      "loss": 1.5415,
      "step": 73565
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6677451729774475,
      "learning_rate": 4.881891971476188e-05,
      "loss": 1.4233,
      "step": 73566
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6626712679862976,
      "learning_rate": 4.8813204762130755e-05,
      "loss": 1.4603,
      "step": 73567
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.718898355960846,
      "learning_rate": 4.880749011440346e-05,
      "loss": 1.5895,
      "step": 73568
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6484771370887756,
      "learning_rate": 4.880177577158686e-05,
      "loss": 1.5525,
      "step": 73569
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6727685332298279,
      "learning_rate": 4.879606173368782e-05,
      "loss": 1.5264,
      "step": 73570
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6496941447257996,
      "learning_rate": 4.8790348000713396e-05,
      "loss": 1.5228,
      "step": 73571
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6791184544563293,
      "learning_rate": 4.878463457267052e-05,
      "loss": 1.5136,
      "step": 73572
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6912123560905457,
      "learning_rate": 4.877892144956599e-05,
      "loss": 1.5272,
      "step": 73573
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6413573026657104,
      "learning_rate": 4.877320863140689e-05,
      "loss": 1.4805,
      "step": 73574
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6461416482925415,
      "learning_rate": 4.876749611820006e-05,
      "loss": 1.5142,
      "step": 73575
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6766613125801086,
      "learning_rate": 4.876178390995251e-05,
      "loss": 1.5098,
      "step": 73576
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6467539072036743,
      "learning_rate": 4.8756072006671085e-05,
      "loss": 1.5563,
      "step": 73577
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6449738144874573,
      "learning_rate": 4.875036040836284e-05,
      "loss": 1.5508,
      "step": 73578
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.63908851146698,
      "learning_rate": 4.874464911503464e-05,
      "loss": 1.515,
      "step": 73579
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6526501774787903,
      "learning_rate": 4.8738938126693306e-05,
      "loss": 1.5116,
      "step": 73580
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7016427516937256,
      "learning_rate": 4.8733227443346e-05,
      "loss": 1.4722,
      "step": 73581
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6366281509399414,
      "learning_rate": 4.8727517064999456e-05,
      "loss": 1.5967,
      "step": 73582
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.676841139793396,
      "learning_rate": 4.872180699166073e-05,
      "loss": 1.5501,
      "step": 73583
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6991263628005981,
      "learning_rate": 4.8716097223336714e-05,
      "loss": 1.5496,
      "step": 73584
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6449998021125793,
      "learning_rate": 4.871038776003427e-05,
      "loss": 1.4921,
      "step": 73585
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6566523909568787,
      "learning_rate": 4.870467860176044e-05,
      "loss": 1.5449,
      "step": 73586
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6556312441825867,
      "learning_rate": 4.8698969748522064e-05,
      "loss": 1.5353,
      "step": 73587
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6413176655769348,
      "learning_rate": 4.869326120032615e-05,
      "loss": 1.4338,
      "step": 73588
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6759693622589111,
      "learning_rate": 4.868755295717955e-05,
      "loss": 1.5139,
      "step": 73589
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6558042764663696,
      "learning_rate": 4.868184501908927e-05,
      "loss": 1.4859,
      "step": 73590
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.635242223739624,
      "learning_rate": 4.867613738606223e-05,
      "loss": 1.473,
      "step": 73591
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6606215834617615,
      "learning_rate": 4.867043005810522e-05,
      "loss": 1.5317,
      "step": 73592
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.659195065498352,
      "learning_rate": 4.866472303522538e-05,
      "loss": 1.5474,
      "step": 73593
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6429932713508606,
      "learning_rate": 4.8659016317429534e-05,
      "loss": 1.4752,
      "step": 73594
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6422128081321716,
      "learning_rate": 4.865330990472453e-05,
      "loss": 1.5486,
      "step": 73595
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6883565187454224,
      "learning_rate": 4.864760379711735e-05,
      "loss": 1.5965,
      "step": 73596
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6947250962257385,
      "learning_rate": 4.864189799461504e-05,
      "loss": 1.5739,
      "step": 73597
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6701089143753052,
      "learning_rate": 4.863619249722444e-05,
      "loss": 1.5154,
      "step": 73598
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6488924622535706,
      "learning_rate": 4.863048730495239e-05,
      "loss": 1.5153,
      "step": 73599
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6330482959747314,
      "learning_rate": 4.862478241780594e-05,
      "loss": 1.5516,
      "step": 73600
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6784565448760986,
      "learning_rate": 4.8619077835791974e-05,
      "loss": 1.4988,
      "step": 73601
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6499039530754089,
      "learning_rate": 4.861337355891736e-05,
      "loss": 1.5111,
      "step": 73602
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6464632153511047,
      "learning_rate": 4.8607669587189044e-05,
      "loss": 1.6117,
      "step": 73603
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6834210157394409,
      "learning_rate": 4.860196592061404e-05,
      "loss": 1.5085,
      "step": 73604
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6656756401062012,
      "learning_rate": 4.859626255919923e-05,
      "loss": 1.5734,
      "step": 73605
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6621556282043457,
      "learning_rate": 4.8590559502951443e-05,
      "loss": 1.5573,
      "step": 73606
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6546407341957092,
      "learning_rate": 4.858485675187774e-05,
      "loss": 1.5705,
      "step": 73607
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6518020033836365,
      "learning_rate": 4.857915430598496e-05,
      "loss": 1.5394,
      "step": 73608
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6653270125389099,
      "learning_rate": 4.857345216527998e-05,
      "loss": 1.5124,
      "step": 73609
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6593430638313293,
      "learning_rate": 4.8567750329769804e-05,
      "loss": 1.4538,
      "step": 73610
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6553890705108643,
      "learning_rate": 4.856204879946139e-05,
      "loss": 1.5458,
      "step": 73611
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6730594635009766,
      "learning_rate": 4.8556347574361606e-05,
      "loss": 1.4889,
      "step": 73612
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6597933173179626,
      "learning_rate": 4.8550646654477274e-05,
      "loss": 1.5462,
      "step": 73613
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6519429087638855,
      "learning_rate": 4.854494603981549e-05,
      "loss": 1.487,
      "step": 73614
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6528871655464172,
      "learning_rate": 4.8539245730383115e-05,
      "loss": 1.5285,
      "step": 73615
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6334187984466553,
      "learning_rate": 4.853354572618694e-05,
      "loss": 1.4738,
      "step": 73616
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6471633315086365,
      "learning_rate": 4.8527846027234e-05,
      "loss": 1.4422,
      "step": 73617
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6448638439178467,
      "learning_rate": 4.852214663353128e-05,
      "loss": 1.4862,
      "step": 73618
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6493417620658875,
      "learning_rate": 4.8516447545085614e-05,
      "loss": 1.4674,
      "step": 73619
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6760345697402954,
      "learning_rate": 4.851074876190386e-05,
      "loss": 1.5258,
      "step": 73620
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6817510724067688,
      "learning_rate": 4.8505050283993085e-05,
      "loss": 1.4945,
      "step": 73621
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6603943705558777,
      "learning_rate": 4.849935211136011e-05,
      "loss": 1.4117,
      "step": 73622
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6414307951927185,
      "learning_rate": 4.849365424401177e-05,
      "loss": 1.5614,
      "step": 73623
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6519439220428467,
      "learning_rate": 4.8487956681955184e-05,
      "loss": 1.514,
      "step": 73624
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6680463552474976,
      "learning_rate": 4.848225942519706e-05,
      "loss": 1.5053,
      "step": 73625
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6488388180732727,
      "learning_rate": 4.847656247374451e-05,
      "loss": 1.5025,
      "step": 73626
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6442490816116333,
      "learning_rate": 4.847086582760427e-05,
      "loss": 1.5221,
      "step": 73627
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6420577764511108,
      "learning_rate": 4.84651694867834e-05,
      "loss": 1.4965,
      "step": 73628
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.647802472114563,
      "learning_rate": 4.845947345128876e-05,
      "loss": 1.5101,
      "step": 73629
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6420580148696899,
      "learning_rate": 4.845377772112721e-05,
      "loss": 1.4027,
      "step": 73630
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.672857940196991,
      "learning_rate": 4.8448082296305744e-05,
      "loss": 1.5543,
      "step": 73631
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6617922186851501,
      "learning_rate": 4.84423871768312e-05,
      "loss": 1.5215,
      "step": 73632
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6373529434204102,
      "learning_rate": 4.843669236271056e-05,
      "loss": 1.5227,
      "step": 73633
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6539387702941895,
      "learning_rate": 4.8430997853950756e-05,
      "loss": 1.4866,
      "step": 73634
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6566638350486755,
      "learning_rate": 4.842530365055855e-05,
      "loss": 1.5168,
      "step": 73635
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6580892205238342,
      "learning_rate": 4.8419609752541046e-05,
      "loss": 1.4627,
      "step": 73636
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6735078692436218,
      "learning_rate": 4.8413916159904985e-05,
      "loss": 1.597,
      "step": 73637
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6241852641105652,
      "learning_rate": 4.8408222872657444e-05,
      "loss": 1.5606,
      "step": 73638
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.68288254737854,
      "learning_rate": 4.840252989080517e-05,
      "loss": 1.5569,
      "step": 73639
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6691113114356995,
      "learning_rate": 4.8396837214355245e-05,
      "loss": 1.4868,
      "step": 73640
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6726391911506653,
      "learning_rate": 4.839114484331448e-05,
      "loss": 1.5028,
      "step": 73641
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6581923961639404,
      "learning_rate": 4.83854527776897e-05,
      "loss": 1.5872,
      "step": 73642
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6905941963195801,
      "learning_rate": 4.8379761017487985e-05,
      "loss": 1.5185,
      "step": 73643
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6467653512954712,
      "learning_rate": 4.837406956271618e-05,
      "loss": 1.5625,
      "step": 73644
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6618432998657227,
      "learning_rate": 4.836837841338112e-05,
      "loss": 1.529,
      "step": 73645
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6899475455284119,
      "learning_rate": 4.836268756948972e-05,
      "loss": 1.5695,
      "step": 73646
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6482902765274048,
      "learning_rate": 4.835699703104906e-05,
      "loss": 1.5576,
      "step": 73647
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6837990283966064,
      "learning_rate": 4.835130679806593e-05,
      "loss": 1.6087,
      "step": 73648
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6758653521537781,
      "learning_rate": 4.834561687054714e-05,
      "loss": 1.5413,
      "step": 73649
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6541176438331604,
      "learning_rate": 4.833992724849974e-05,
      "loss": 1.5326,
      "step": 73650
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6647951602935791,
      "learning_rate": 4.833423793193062e-05,
      "loss": 1.5304,
      "step": 73651
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6693090796470642,
      "learning_rate": 4.83285489208466e-05,
      "loss": 1.5409,
      "step": 73652
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6849958896636963,
      "learning_rate": 4.832286021525461e-05,
      "loss": 1.5369,
      "step": 73653
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6831752061843872,
      "learning_rate": 4.8317171815161746e-05,
      "loss": 1.5258,
      "step": 73654
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6314900517463684,
      "learning_rate": 4.8311483720574574e-05,
      "loss": 1.527,
      "step": 73655
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.662967324256897,
      "learning_rate": 4.830579593150021e-05,
      "loss": 1.5824,
      "step": 73656
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6729331612586975,
      "learning_rate": 4.83001084479456e-05,
      "loss": 1.5004,
      "step": 73657
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6681857705116272,
      "learning_rate": 4.829442126991755e-05,
      "loss": 1.5752,
      "step": 73658
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6563525199890137,
      "learning_rate": 4.8288734397422936e-05,
      "loss": 1.5284,
      "step": 73659
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6566116809844971,
      "learning_rate": 4.828304783046868e-05,
      "loss": 1.5619,
      "step": 73660
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6581345796585083,
      "learning_rate": 4.827736156906188e-05,
      "loss": 1.4691,
      "step": 73661
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6361103653907776,
      "learning_rate": 4.827167561320913e-05,
      "loss": 1.535,
      "step": 73662
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6549220681190491,
      "learning_rate": 4.826598996291748e-05,
      "loss": 1.505,
      "step": 73663
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6493717432022095,
      "learning_rate": 4.826030461819388e-05,
      "loss": 1.549,
      "step": 73664
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6259169578552246,
      "learning_rate": 4.8254619579045176e-05,
      "loss": 1.5678,
      "step": 73665
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6556254625320435,
      "learning_rate": 4.8248934845478226e-05,
      "loss": 1.4818,
      "step": 73666
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6757973432540894,
      "learning_rate": 4.824325041749997e-05,
      "loss": 1.5252,
      "step": 73667
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6513288021087646,
      "learning_rate": 4.8237566295117427e-05,
      "loss": 1.4638,
      "step": 73668
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.671198308467865,
      "learning_rate": 4.823188247833726e-05,
      "loss": 1.5733,
      "step": 73669
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6763058304786682,
      "learning_rate": 4.8226198967166496e-05,
      "loss": 1.6059,
      "step": 73670
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6827049255371094,
      "learning_rate": 4.82205157616121e-05,
      "loss": 1.6019,
      "step": 73671
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6387695670127869,
      "learning_rate": 4.82148328616809e-05,
      "loss": 1.4708,
      "step": 73672
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6423981785774231,
      "learning_rate": 4.8209150267379715e-05,
      "loss": 1.5237,
      "step": 73673
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6574127674102783,
      "learning_rate": 4.820346797871552e-05,
      "loss": 1.5376,
      "step": 73674
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6736412644386292,
      "learning_rate": 4.819778599569536e-05,
      "loss": 1.5555,
      "step": 73675
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6529987454414368,
      "learning_rate": 4.8192104318325844e-05,
      "loss": 1.4602,
      "step": 73676
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6533142328262329,
      "learning_rate": 4.818642294661402e-05,
      "loss": 1.4825,
      "step": 73677
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6661113500595093,
      "learning_rate": 4.818074188056683e-05,
      "loss": 1.5219,
      "step": 73678
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7244150042533875,
      "learning_rate": 4.817506112019113e-05,
      "loss": 1.4918,
      "step": 73679
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6831598281860352,
      "learning_rate": 4.816938066549374e-05,
      "loss": 1.5521,
      "step": 73680
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6489983797073364,
      "learning_rate": 4.816370051648166e-05,
      "loss": 1.5676,
      "step": 73681
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6778852343559265,
      "learning_rate": 4.815802067316176e-05,
      "loss": 1.4951,
      "step": 73682
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6558749079704285,
      "learning_rate": 4.815234113554085e-05,
      "loss": 1.5073,
      "step": 73683
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6501993536949158,
      "learning_rate": 4.814666190362587e-05,
      "loss": 1.6591,
      "step": 73684
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6655257344245911,
      "learning_rate": 4.814098297742381e-05,
      "loss": 1.5295,
      "step": 73685
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6783861517906189,
      "learning_rate": 4.8135304356941504e-05,
      "loss": 1.5346,
      "step": 73686
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.663903534412384,
      "learning_rate": 4.812962604218574e-05,
      "loss": 1.5293,
      "step": 73687
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6618437767028809,
      "learning_rate": 4.812394803316358e-05,
      "loss": 1.493,
      "step": 73688
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6671638488769531,
      "learning_rate": 4.811827032988183e-05,
      "loss": 1.5185,
      "step": 73689
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6971210837364197,
      "learning_rate": 4.8112592932347294e-05,
      "loss": 1.4589,
      "step": 73690
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6349690556526184,
      "learning_rate": 4.810691584056705e-05,
      "loss": 1.4492,
      "step": 73691
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6615710258483887,
      "learning_rate": 4.8101239054547824e-05,
      "loss": 1.4677,
      "step": 73692
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6472920775413513,
      "learning_rate": 4.809556257429664e-05,
      "loss": 1.5605,
      "step": 73693
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6692516803741455,
      "learning_rate": 4.808988639982026e-05,
      "loss": 1.5323,
      "step": 73694
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6323725581169128,
      "learning_rate": 4.8084210531125725e-05,
      "loss": 1.4781,
      "step": 73695
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6351662278175354,
      "learning_rate": 4.807853496821984e-05,
      "loss": 1.5568,
      "step": 73696
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.670691192150116,
      "learning_rate": 4.8072859711109414e-05,
      "loss": 1.5085,
      "step": 73697
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6924881935119629,
      "learning_rate": 4.806718475980147e-05,
      "loss": 1.5493,
      "step": 73698
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6443060040473938,
      "learning_rate": 4.80615101143028e-05,
      "loss": 1.4941,
      "step": 73699
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.634675920009613,
      "learning_rate": 4.805583577462041e-05,
      "loss": 1.4838,
      "step": 73700
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6463450789451599,
      "learning_rate": 4.8050161740761086e-05,
      "loss": 1.5214,
      "step": 73701
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6680014133453369,
      "learning_rate": 4.804448801273169e-05,
      "loss": 1.4768,
      "step": 73702
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6394235491752625,
      "learning_rate": 4.803881459053921e-05,
      "loss": 1.4503,
      "step": 73703
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6585031747817993,
      "learning_rate": 4.803314147419045e-05,
      "loss": 1.5047,
      "step": 73704
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6434156894683838,
      "learning_rate": 4.802746866369237e-05,
      "loss": 1.4855,
      "step": 73705
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6922740936279297,
      "learning_rate": 4.8021796159051765e-05,
      "loss": 1.557,
      "step": 73706
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6684754490852356,
      "learning_rate": 4.801612396027562e-05,
      "loss": 1.5468,
      "step": 73707
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6391496062278748,
      "learning_rate": 4.801045206737081e-05,
      "loss": 1.4957,
      "step": 73708
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6483498215675354,
      "learning_rate": 4.800478048034409e-05,
      "loss": 1.5314,
      "step": 73709
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6534935832023621,
      "learning_rate": 4.7999109199202516e-05,
      "loss": 1.4647,
      "step": 73710
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6349407434463501,
      "learning_rate": 4.7993438223952886e-05,
      "loss": 1.5521,
      "step": 73711
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6332297921180725,
      "learning_rate": 4.7987767554601996e-05,
      "loss": 1.5842,
      "step": 73712
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6349198818206787,
      "learning_rate": 4.7982097191156845e-05,
      "loss": 1.4866,
      "step": 73713
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6305065751075745,
      "learning_rate": 4.7976427133624385e-05,
      "loss": 1.5356,
      "step": 73714
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6547513008117676,
      "learning_rate": 4.7970757382011385e-05,
      "loss": 1.5294,
      "step": 73715
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6840827465057373,
      "learning_rate": 4.7965087936324664e-05,
      "loss": 1.581,
      "step": 73716
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6465244293212891,
      "learning_rate": 4.7959418796571294e-05,
      "loss": 1.4997,
      "step": 73717
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.669961154460907,
      "learning_rate": 4.795374996275806e-05,
      "loss": 1.5349,
      "step": 73718
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6631851196289062,
      "learning_rate": 4.794808143489173e-05,
      "loss": 1.5335,
      "step": 73719
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6434729695320129,
      "learning_rate": 4.7942413212979325e-05,
      "loss": 1.5597,
      "step": 73720
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6802140474319458,
      "learning_rate": 4.7936745297027744e-05,
      "loss": 1.5159,
      "step": 73721
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6356278657913208,
      "learning_rate": 4.7931077687043815e-05,
      "loss": 1.5344,
      "step": 73722
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6730255484580994,
      "learning_rate": 4.792541038303434e-05,
      "loss": 1.5111,
      "step": 73723
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6464696526527405,
      "learning_rate": 4.791974338500636e-05,
      "loss": 1.5199,
      "step": 73724
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.669063925743103,
      "learning_rate": 4.791407669296665e-05,
      "loss": 1.5508,
      "step": 73725
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6467634439468384,
      "learning_rate": 4.790841030692204e-05,
      "loss": 1.4993,
      "step": 73726
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6743617653846741,
      "learning_rate": 4.790274422687949e-05,
      "loss": 1.5825,
      "step": 73727
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6472379565238953,
      "learning_rate": 4.789707845284595e-05,
      "loss": 1.4348,
      "step": 73728
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6518681645393372,
      "learning_rate": 4.789141298482819e-05,
      "loss": 1.6261,
      "step": 73729
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6556817293167114,
      "learning_rate": 4.788574782283301e-05,
      "loss": 1.5697,
      "step": 73730
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6445776224136353,
      "learning_rate": 4.7880082966867496e-05,
      "loss": 1.5562,
      "step": 73731
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6880288124084473,
      "learning_rate": 4.787441841693841e-05,
      "loss": 1.5967,
      "step": 73732
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6764770150184631,
      "learning_rate": 4.786875417305255e-05,
      "loss": 1.5728,
      "step": 73733
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6439674496650696,
      "learning_rate": 4.7863090235216874e-05,
      "loss": 1.4741,
      "step": 73734
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6441915035247803,
      "learning_rate": 4.785742660343831e-05,
      "loss": 1.5132,
      "step": 73735
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6511439681053162,
      "learning_rate": 4.785176327772372e-05,
      "loss": 1.4474,
      "step": 73736
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6210708618164062,
      "learning_rate": 4.7846100258079835e-05,
      "loss": 1.5636,
      "step": 73737
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6661127209663391,
      "learning_rate": 4.784043754451371e-05,
      "loss": 1.56,
      "step": 73738
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6415193676948547,
      "learning_rate": 4.7834775137032146e-05,
      "loss": 1.5196,
      "step": 73739
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6646996736526489,
      "learning_rate": 4.782911303564193e-05,
      "loss": 1.5578,
      "step": 73740
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.676995575428009,
      "learning_rate": 4.7823451240350064e-05,
      "loss": 1.4989,
      "step": 73741
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6377841234207153,
      "learning_rate": 4.781778975116334e-05,
      "loss": 1.466,
      "step": 73742
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6643723845481873,
      "learning_rate": 4.7812128568088713e-05,
      "loss": 1.4778,
      "step": 73743
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6449447870254517,
      "learning_rate": 4.7806467691132956e-05,
      "loss": 1.5228,
      "step": 73744
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6425010561943054,
      "learning_rate": 4.780080712030302e-05,
      "loss": 1.4512,
      "step": 73745
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6544241309165955,
      "learning_rate": 4.779514685560577e-05,
      "loss": 1.5448,
      "step": 73746
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6716842651367188,
      "learning_rate": 4.778948689704797e-05,
      "loss": 1.5222,
      "step": 73747
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6667366027832031,
      "learning_rate": 4.778382724463664e-05,
      "loss": 1.5712,
      "step": 73748
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6509132981300354,
      "learning_rate": 4.777816789837852e-05,
      "loss": 1.5167,
      "step": 73749
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.66004478931427,
      "learning_rate": 4.777250885828062e-05,
      "loss": 1.4487,
      "step": 73750
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6983087062835693,
      "learning_rate": 4.7766850124349724e-05,
      "loss": 1.5,
      "step": 73751
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6626548767089844,
      "learning_rate": 4.776119169659264e-05,
      "loss": 1.5054,
      "step": 73752
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6462957859039307,
      "learning_rate": 4.775553357501637e-05,
      "loss": 1.4836,
      "step": 73753
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.65936678647995,
      "learning_rate": 4.7749875759627644e-05,
      "loss": 1.5454,
      "step": 73754
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6768528819084167,
      "learning_rate": 4.7744218250433455e-05,
      "loss": 1.5784,
      "step": 73755
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6736277341842651,
      "learning_rate": 4.773856104744056e-05,
      "loss": 1.5257,
      "step": 73756
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6919256448745728,
      "learning_rate": 4.773290415065596e-05,
      "loss": 1.4184,
      "step": 73757
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6450468897819519,
      "learning_rate": 4.772724756008644e-05,
      "loss": 1.5782,
      "step": 73758
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6422924995422363,
      "learning_rate": 4.772159127573878e-05,
      "loss": 1.4793,
      "step": 73759
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6331061124801636,
      "learning_rate": 4.771593529762005e-05,
      "loss": 1.4816,
      "step": 73760
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6843467950820923,
      "learning_rate": 4.771027962573697e-05,
      "loss": 1.4466,
      "step": 73761
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6752367615699768,
      "learning_rate": 4.770462426009638e-05,
      "loss": 1.5304,
      "step": 73762
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6638451814651489,
      "learning_rate": 4.769896920070518e-05,
      "loss": 1.5645,
      "step": 73763
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6532891988754272,
      "learning_rate": 4.769331444757038e-05,
      "loss": 1.5224,
      "step": 73764
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6417216062545776,
      "learning_rate": 4.768766000069868e-05,
      "loss": 1.4597,
      "step": 73765
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.652917742729187,
      "learning_rate": 4.7682005860096894e-05,
      "loss": 1.5769,
      "step": 73766
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6627523303031921,
      "learning_rate": 4.767635202577208e-05,
      "loss": 1.5887,
      "step": 73767
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6652799844741821,
      "learning_rate": 4.7670698497731e-05,
      "loss": 1.5445,
      "step": 73768
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.641693651676178,
      "learning_rate": 4.766504527598044e-05,
      "loss": 1.5462,
      "step": 73769
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6785369515419006,
      "learning_rate": 4.765939236052731e-05,
      "loss": 1.4571,
      "step": 73770
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.637872576713562,
      "learning_rate": 4.765373975137865e-05,
      "loss": 1.4782,
      "step": 73771
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6950452327728271,
      "learning_rate": 4.764808744854104e-05,
      "loss": 1.5279,
      "step": 73772
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6614887714385986,
      "learning_rate": 4.764243545202147e-05,
      "loss": 1.5443,
      "step": 73773
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6938340663909912,
      "learning_rate": 4.763678376182686e-05,
      "loss": 1.4999,
      "step": 73774
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6907736659049988,
      "learning_rate": 4.763113237796401e-05,
      "loss": 1.5484,
      "step": 73775
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6740849614143372,
      "learning_rate": 4.7625481300439715e-05,
      "loss": 1.5527,
      "step": 73776
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6512065529823303,
      "learning_rate": 4.761983052926087e-05,
      "loss": 1.5554,
      "step": 73777
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6542760133743286,
      "learning_rate": 4.7614180064434536e-05,
      "loss": 1.5429,
      "step": 73778
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6566958427429199,
      "learning_rate": 4.760852990596727e-05,
      "loss": 1.4835,
      "step": 73779
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6608906984329224,
      "learning_rate": 4.760288005386605e-05,
      "loss": 1.5606,
      "step": 73780
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.663546621799469,
      "learning_rate": 4.7597230508137804e-05,
      "loss": 1.4822,
      "step": 73781
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6726199388504028,
      "learning_rate": 4.759158126878936e-05,
      "loss": 1.4717,
      "step": 73782
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6558056473731995,
      "learning_rate": 4.7585932335827424e-05,
      "loss": 1.5406,
      "step": 73783
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.662035346031189,
      "learning_rate": 4.7580283709259e-05,
      "loss": 1.5215,
      "step": 73784
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6409633755683899,
      "learning_rate": 4.757463538909109e-05,
      "loss": 1.5093,
      "step": 73785
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.7326500415802002,
      "learning_rate": 4.75689873753302e-05,
      "loss": 1.5829,
      "step": 73786
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6895194053649902,
      "learning_rate": 4.756333966798338e-05,
      "loss": 1.509,
      "step": 73787
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6480904817581177,
      "learning_rate": 4.755769226705755e-05,
      "loss": 1.4855,
      "step": 73788
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6656935214996338,
      "learning_rate": 4.755204517255946e-05,
      "loss": 1.5728,
      "step": 73789
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.658739447593689,
      "learning_rate": 4.754639838449595e-05,
      "loss": 1.5449,
      "step": 73790
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6748010516166687,
      "learning_rate": 4.754075190287389e-05,
      "loss": 1.4896,
      "step": 73791
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6567018628120422,
      "learning_rate": 4.7535105727700315e-05,
      "loss": 1.5696,
      "step": 73792
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6468194127082825,
      "learning_rate": 4.752945985898178e-05,
      "loss": 1.4417,
      "step": 73793
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6579544544219971,
      "learning_rate": 4.752381429672526e-05,
      "loss": 1.54,
      "step": 73794
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6322000622749329,
      "learning_rate": 4.751816904093772e-05,
      "loss": 1.5365,
      "step": 73795
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6425850987434387,
      "learning_rate": 4.7512524091625934e-05,
      "loss": 1.5889,
      "step": 73796
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6457583904266357,
      "learning_rate": 4.750687944879665e-05,
      "loss": 1.5454,
      "step": 73797
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6435034275054932,
      "learning_rate": 4.7501235112456906e-05,
      "loss": 1.4721,
      "step": 73798
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6554504632949829,
      "learning_rate": 4.7495591082613416e-05,
      "loss": 1.4619,
      "step": 73799
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6608973145484924,
      "learning_rate": 4.748994735927302e-05,
      "loss": 1.4898,
      "step": 73800
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6875550746917725,
      "learning_rate": 4.7484303942442634e-05,
      "loss": 1.5355,
      "step": 73801
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6449135541915894,
      "learning_rate": 4.7478660832129166e-05,
      "loss": 1.4974,
      "step": 73802
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6421246528625488,
      "learning_rate": 4.7473018028339405e-05,
      "loss": 1.4775,
      "step": 73803
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6725155115127563,
      "learning_rate": 4.746737553108011e-05,
      "loss": 1.5908,
      "step": 73804
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6198183298110962,
      "learning_rate": 4.746173334035828e-05,
      "loss": 1.5566,
      "step": 73805
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.662567138671875,
      "learning_rate": 4.74560914561807e-05,
      "loss": 1.5044,
      "step": 73806
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6597782373428345,
      "learning_rate": 4.745044987855414e-05,
      "loss": 1.5189,
      "step": 73807
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6543971300125122,
      "learning_rate": 4.74448086074856e-05,
      "loss": 1.5879,
      "step": 73808
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6773620843887329,
      "learning_rate": 4.7439167642981756e-05,
      "loss": 1.5052,
      "step": 73809
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6391953825950623,
      "learning_rate": 4.743352698504965e-05,
      "loss": 1.5592,
      "step": 73810
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6443411111831665,
      "learning_rate": 4.7427886633695945e-05,
      "loss": 1.5371,
      "step": 73811
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.677241861820221,
      "learning_rate": 4.742224658892766e-05,
      "loss": 1.5918,
      "step": 73812
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6590235829353333,
      "learning_rate": 4.741660685075153e-05,
      "loss": 1.5616,
      "step": 73813
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6769621968269348,
      "learning_rate": 4.741096741917434e-05,
      "loss": 1.5037,
      "step": 73814
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6438881158828735,
      "learning_rate": 4.7405328294203126e-05,
      "loss": 1.5428,
      "step": 73815
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.652251124382019,
      "learning_rate": 4.739968947584452e-05,
      "loss": 1.4751,
      "step": 73816
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6799881458282471,
      "learning_rate": 4.739405096410557e-05,
      "loss": 1.4656,
      "step": 73817
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6421886086463928,
      "learning_rate": 4.738841275899301e-05,
      "loss": 1.5371,
      "step": 73818
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.650007426738739,
      "learning_rate": 4.7382774860513604e-05,
      "loss": 1.5625,
      "step": 73819
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6779133081436157,
      "learning_rate": 4.7377137268674384e-05,
      "loss": 1.5374,
      "step": 73820
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6490389108657837,
      "learning_rate": 4.737149998348203e-05,
      "loss": 1.5388,
      "step": 73821
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6649984121322632,
      "learning_rate": 4.7365863004943513e-05,
      "loss": 1.5422,
      "step": 73822
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6429076194763184,
      "learning_rate": 4.736022633306553e-05,
      "loss": 1.55,
      "step": 73823
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6445649266242981,
      "learning_rate": 4.735458996785511e-05,
      "loss": 1.5022,
      "step": 73824
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6563839912414551,
      "learning_rate": 4.734895390931897e-05,
      "loss": 1.5774,
      "step": 73825
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6401113271713257,
      "learning_rate": 4.7343318157463906e-05,
      "loss": 1.5163,
      "step": 73826
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6523426175117493,
      "learning_rate": 4.733768271229692e-05,
      "loss": 1.5391,
      "step": 73827
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.657612681388855,
      "learning_rate": 4.7332047573824735e-05,
      "loss": 1.4854,
      "step": 73828
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6713114976882935,
      "learning_rate": 4.732641274205415e-05,
      "loss": 1.4928,
      "step": 73829
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6518837213516235,
      "learning_rate": 4.732077821699206e-05,
      "loss": 1.614,
      "step": 73830
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6300230026245117,
      "learning_rate": 4.731514399864539e-05,
      "loss": 1.5368,
      "step": 73831
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6521497368812561,
      "learning_rate": 4.730951008702093e-05,
      "loss": 1.5612,
      "step": 73832
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6446961760520935,
      "learning_rate": 4.730387648212538e-05,
      "loss": 1.4818,
      "step": 73833
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6614320874214172,
      "learning_rate": 4.72982431839658e-05,
      "loss": 1.5826,
      "step": 73834
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6652324199676514,
      "learning_rate": 4.729261019254889e-05,
      "loss": 1.5722,
      "step": 73835
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6785980463027954,
      "learning_rate": 4.7286977507881464e-05,
      "loss": 1.5689,
      "step": 73836
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6723991632461548,
      "learning_rate": 4.7281345129970396e-05,
      "loss": 1.4416,
      "step": 73837
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6864302754402161,
      "learning_rate": 4.727571305882264e-05,
      "loss": 1.6131,
      "step": 73838
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6487953662872314,
      "learning_rate": 4.7270081294444897e-05,
      "loss": 1.4733,
      "step": 73839
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6636470556259155,
      "learning_rate": 4.726444983684399e-05,
      "loss": 1.5697,
      "step": 73840
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6950023174285889,
      "learning_rate": 4.725881868602684e-05,
      "loss": 1.5176,
      "step": 73841
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6802518963813782,
      "learning_rate": 4.7253187842000265e-05,
      "loss": 1.5961,
      "step": 73842
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6403008699417114,
      "learning_rate": 4.7247557304771034e-05,
      "loss": 1.4659,
      "step": 73843
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6569828987121582,
      "learning_rate": 4.7241927074345986e-05,
      "loss": 1.5686,
      "step": 73844
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6579959392547607,
      "learning_rate": 4.723629715073208e-05,
      "loss": 1.431,
      "step": 73845
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6620624661445618,
      "learning_rate": 4.7230667533936086e-05,
      "loss": 1.543,
      "step": 73846
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6718640923500061,
      "learning_rate": 4.722503822396472e-05,
      "loss": 1.4988,
      "step": 73847
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6401472687721252,
      "learning_rate": 4.721940922082501e-05,
      "loss": 1.4772,
      "step": 73848
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6341596245765686,
      "learning_rate": 4.721378052452366e-05,
      "loss": 1.5844,
      "step": 73849
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6287966370582581,
      "learning_rate": 4.720815213506749e-05,
      "loss": 1.4638,
      "step": 73850
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6486129760742188,
      "learning_rate": 4.7202524052463364e-05,
      "loss": 1.5331,
      "step": 73851
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6601948738098145,
      "learning_rate": 4.719689627671821e-05,
      "loss": 1.5481,
      "step": 73852
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6436516046524048,
      "learning_rate": 4.7191268807838757e-05,
      "loss": 1.4847,
      "step": 73853
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6665776968002319,
      "learning_rate": 4.7185641645831793e-05,
      "loss": 1.5349,
      "step": 73854
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6530359387397766,
      "learning_rate": 4.718001479070426e-05,
      "loss": 1.4986,
      "step": 73855
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6698705554008484,
      "learning_rate": 4.7174388242462965e-05,
      "loss": 1.5178,
      "step": 73856
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6697372794151306,
      "learning_rate": 4.7168762001114625e-05,
      "loss": 1.5372,
      "step": 73857
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6487788558006287,
      "learning_rate": 4.716313606666625e-05,
      "loss": 1.465,
      "step": 73858
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6399106383323669,
      "learning_rate": 4.7157510439124476e-05,
      "loss": 1.5311,
      "step": 73859
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6583724021911621,
      "learning_rate": 4.71518851184963e-05,
      "loss": 1.4733,
      "step": 73860
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6413325071334839,
      "learning_rate": 4.7146260104788415e-05,
      "loss": 1.5258,
      "step": 73861
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7052990198135376,
      "learning_rate": 4.714063539800781e-05,
      "loss": 1.469,
      "step": 73862
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6613881587982178,
      "learning_rate": 4.7135010998161185e-05,
      "loss": 1.5509,
      "step": 73863
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6579663157463074,
      "learning_rate": 4.712938690525533e-05,
      "loss": 1.4917,
      "step": 73864
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6425095796585083,
      "learning_rate": 4.712376311929721e-05,
      "loss": 1.5242,
      "step": 73865
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6475469470024109,
      "learning_rate": 4.7118139640293515e-05,
      "loss": 1.5756,
      "step": 73866
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.659344494342804,
      "learning_rate": 4.711251646825125e-05,
      "loss": 1.5046,
      "step": 73867
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.654924213886261,
      "learning_rate": 4.710689360317706e-05,
      "loss": 1.4535,
      "step": 73868
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6549589037895203,
      "learning_rate": 4.710127104507783e-05,
      "loss": 1.4383,
      "step": 73869
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6286121010780334,
      "learning_rate": 4.7095648793960426e-05,
      "loss": 1.4987,
      "step": 73870
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6626359224319458,
      "learning_rate": 4.709002684983156e-05,
      "loss": 1.5276,
      "step": 73871
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6630846858024597,
      "learning_rate": 4.7084405212698226e-05,
      "loss": 1.554,
      "step": 73872
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6709293127059937,
      "learning_rate": 4.707878388256712e-05,
      "loss": 1.5534,
      "step": 73873
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6549503803253174,
      "learning_rate": 4.707316285944512e-05,
      "loss": 1.5277,
      "step": 73874
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6732519865036011,
      "learning_rate": 4.7067542143339074e-05,
      "loss": 1.5075,
      "step": 73875
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6327152848243713,
      "learning_rate": 4.706192173425567e-05,
      "loss": 1.5169,
      "step": 73876
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6657187342643738,
      "learning_rate": 4.70563016322019e-05,
      "loss": 1.48,
      "step": 73877
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6584399342536926,
      "learning_rate": 4.7050681837184524e-05,
      "loss": 1.5779,
      "step": 73878
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6504011154174805,
      "learning_rate": 4.7045062349210275e-05,
      "loss": 1.5471,
      "step": 73879
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6636022925376892,
      "learning_rate": 4.703944316828604e-05,
      "loss": 1.4949,
      "step": 73880
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7030336260795593,
      "learning_rate": 4.703382429441872e-05,
      "loss": 1.454,
      "step": 73881
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6521636843681335,
      "learning_rate": 4.702820572761504e-05,
      "loss": 1.5548,
      "step": 73882
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6301825642585754,
      "learning_rate": 4.70225874678818e-05,
      "loss": 1.5132,
      "step": 73883
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6553652286529541,
      "learning_rate": 4.701696951522595e-05,
      "loss": 1.5138,
      "step": 73884
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6402257084846497,
      "learning_rate": 4.70113518696542e-05,
      "loss": 1.4835,
      "step": 73885
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6759235858917236,
      "learning_rate": 4.7005734531173334e-05,
      "loss": 1.5073,
      "step": 73886
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6614795327186584,
      "learning_rate": 4.7000117499790216e-05,
      "loss": 1.523,
      "step": 73887
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.654487669467926,
      "learning_rate": 4.6994500775511835e-05,
      "loss": 1.4781,
      "step": 73888
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6456584334373474,
      "learning_rate": 4.6988884358344725e-05,
      "loss": 1.5589,
      "step": 73889
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6538513898849487,
      "learning_rate": 4.698326824829578e-05,
      "loss": 1.4766,
      "step": 73890
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.657829761505127,
      "learning_rate": 4.6977652445371995e-05,
      "loss": 1.4581,
      "step": 73891
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6803164482116699,
      "learning_rate": 4.697203694958003e-05,
      "loss": 1.472,
      "step": 73892
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6407836675643921,
      "learning_rate": 4.696642176092664e-05,
      "loss": 1.4552,
      "step": 73893
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6484258770942688,
      "learning_rate": 4.6960806879418767e-05,
      "loss": 1.4788,
      "step": 73894
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.68316251039505,
      "learning_rate": 4.695519230506329e-05,
      "loss": 1.6382,
      "step": 73895
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6504238247871399,
      "learning_rate": 4.694957803786682e-05,
      "loss": 1.507,
      "step": 73896
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6327285766601562,
      "learning_rate": 4.6943964077836275e-05,
      "loss": 1.5125,
      "step": 73897
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6739324927330017,
      "learning_rate": 4.693835042497854e-05,
      "loss": 1.5837,
      "step": 73898
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6458210349082947,
      "learning_rate": 4.693273707930036e-05,
      "loss": 1.522,
      "step": 73899
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6473711133003235,
      "learning_rate": 4.692712404080846e-05,
      "loss": 1.4924,
      "step": 73900
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7139850854873657,
      "learning_rate": 4.692151130950976e-05,
      "loss": 1.5815,
      "step": 73901
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6580559611320496,
      "learning_rate": 4.6915898885411194e-05,
      "loss": 1.5267,
      "step": 73902
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6691440939903259,
      "learning_rate": 4.691028676851929e-05,
      "loss": 1.5029,
      "step": 73903
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.652610719203949,
      "learning_rate": 4.6904674958841005e-05,
      "loss": 1.5603,
      "step": 73904
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6454164385795593,
      "learning_rate": 4.6899063456383234e-05,
      "loss": 1.5245,
      "step": 73905
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6775553226470947,
      "learning_rate": 4.689345226115271e-05,
      "loss": 1.5982,
      "step": 73906
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6504352688789368,
      "learning_rate": 4.688784137315615e-05,
      "loss": 1.4676,
      "step": 73907
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6618722677230835,
      "learning_rate": 4.688223079240057e-05,
      "loss": 1.509,
      "step": 73908
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6975515484809875,
      "learning_rate": 4.687662051889264e-05,
      "loss": 1.6073,
      "step": 73909
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6448267698287964,
      "learning_rate": 4.68710105526391e-05,
      "loss": 1.5143,
      "step": 73910
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6582903265953064,
      "learning_rate": 4.686540089364691e-05,
      "loss": 1.5481,
      "step": 73911
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.638312578201294,
      "learning_rate": 4.685979154192287e-05,
      "loss": 1.4969,
      "step": 73912
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6584534645080566,
      "learning_rate": 4.6854182497473726e-05,
      "loss": 1.5659,
      "step": 73913
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.648595929145813,
      "learning_rate": 4.684857376030625e-05,
      "loss": 1.463,
      "step": 73914
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6638471484184265,
      "learning_rate": 4.684296533042737e-05,
      "loss": 1.5161,
      "step": 73915
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6311460733413696,
      "learning_rate": 4.683735720784385e-05,
      "loss": 1.4831,
      "step": 73916
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6459411978721619,
      "learning_rate": 4.683174939256238e-05,
      "loss": 1.5152,
      "step": 73917
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6631625294685364,
      "learning_rate": 4.682614188458989e-05,
      "loss": 1.5199,
      "step": 73918
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6675319671630859,
      "learning_rate": 4.68205346839332e-05,
      "loss": 1.4866,
      "step": 73919
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6796558499336243,
      "learning_rate": 4.681492779059911e-05,
      "loss": 1.5536,
      "step": 73920
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6447643041610718,
      "learning_rate": 4.6809321204594286e-05,
      "loss": 1.4679,
      "step": 73921
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6649552583694458,
      "learning_rate": 4.680371492592572e-05,
      "loss": 1.609,
      "step": 73922
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6525729298591614,
      "learning_rate": 4.6798108954600165e-05,
      "loss": 1.5291,
      "step": 73923
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6588373780250549,
      "learning_rate": 4.679250329062429e-05,
      "loss": 1.5387,
      "step": 73924
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6852729916572571,
      "learning_rate": 4.6786897934005094e-05,
      "loss": 1.5629,
      "step": 73925
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6508986353874207,
      "learning_rate": 4.6781292884749234e-05,
      "loss": 1.518,
      "step": 73926
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6405767798423767,
      "learning_rate": 4.6775688142863634e-05,
      "loss": 1.5763,
      "step": 73927
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.657972514629364,
      "learning_rate": 4.677008370835499e-05,
      "loss": 1.5718,
      "step": 73928
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7115486860275269,
      "learning_rate": 4.67644795812302e-05,
      "loss": 1.5629,
      "step": 73929
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6735124588012695,
      "learning_rate": 4.675887576149602e-05,
      "loss": 1.5225,
      "step": 73930
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6822280883789062,
      "learning_rate": 4.675327224915918e-05,
      "loss": 1.4748,
      "step": 73931
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6472271084785461,
      "learning_rate": 4.674766904422664e-05,
      "loss": 1.5254,
      "step": 73932
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6398006677627563,
      "learning_rate": 4.674206614670504e-05,
      "loss": 1.4965,
      "step": 73933
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6525347828865051,
      "learning_rate": 4.673646355660132e-05,
      "loss": 1.5771,
      "step": 73934
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6922768950462341,
      "learning_rate": 4.673086127392219e-05,
      "loss": 1.5716,
      "step": 73935
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6683534979820251,
      "learning_rate": 4.672525929867444e-05,
      "loss": 1.5419,
      "step": 73936
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6764920949935913,
      "learning_rate": 4.671965763086497e-05,
      "loss": 1.4882,
      "step": 73937
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6648486256599426,
      "learning_rate": 4.6714056270500467e-05,
      "loss": 1.4782,
      "step": 73938
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.644399106502533,
      "learning_rate": 4.670845521758783e-05,
      "loss": 1.4733,
      "step": 73939
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6544601321220398,
      "learning_rate": 4.670285447213374e-05,
      "loss": 1.5129,
      "step": 73940
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6808658242225647,
      "learning_rate": 4.6697254034145116e-05,
      "loss": 1.5315,
      "step": 73941
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6366938352584839,
      "learning_rate": 4.669165390362873e-05,
      "loss": 1.4338,
      "step": 73942
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6269579529762268,
      "learning_rate": 4.668605408059126e-05,
      "loss": 1.5761,
      "step": 73943
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6293013095855713,
      "learning_rate": 4.6680454565039696e-05,
      "loss": 1.4838,
      "step": 73944
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6516614556312561,
      "learning_rate": 4.667485535698069e-05,
      "loss": 1.4979,
      "step": 73945
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6309961676597595,
      "learning_rate": 4.6669256456421044e-05,
      "loss": 1.4281,
      "step": 73946
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6489713788032532,
      "learning_rate": 4.6663657863367585e-05,
      "loss": 1.4345,
      "step": 73947
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6557899713516235,
      "learning_rate": 4.665805957782721e-05,
      "loss": 1.5572,
      "step": 73948
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6502384543418884,
      "learning_rate": 4.6652461599806576e-05,
      "loss": 1.4817,
      "step": 73949
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6531439423561096,
      "learning_rate": 4.6646863929312516e-05,
      "loss": 1.5374,
      "step": 73950
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6444426774978638,
      "learning_rate": 4.6641266566351853e-05,
      "loss": 1.5327,
      "step": 73951
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6472119092941284,
      "learning_rate": 4.6635669510931385e-05,
      "loss": 1.5017,
      "step": 73952
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.67076176404953,
      "learning_rate": 4.66300727630578e-05,
      "loss": 1.5298,
      "step": 73953
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6387926936149597,
      "learning_rate": 4.6624476322738e-05,
      "loss": 1.5145,
      "step": 73954
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6607289910316467,
      "learning_rate": 4.661888018997878e-05,
      "loss": 1.6085,
      "step": 73955
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6606107354164124,
      "learning_rate": 4.661328436478693e-05,
      "loss": 1.546,
      "step": 73956
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6458536386489868,
      "learning_rate": 4.6607688847169175e-05,
      "loss": 1.4882,
      "step": 73957
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6420074105262756,
      "learning_rate": 4.660209363713239e-05,
      "loss": 1.5128,
      "step": 73958
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6417300701141357,
      "learning_rate": 4.659649873468332e-05,
      "loss": 1.4502,
      "step": 73959
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6421202421188354,
      "learning_rate": 4.65909041398287e-05,
      "loss": 1.5414,
      "step": 73960
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6549047231674194,
      "learning_rate": 4.658530985257539e-05,
      "loss": 1.5189,
      "step": 73961
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6728793382644653,
      "learning_rate": 4.657971587293026e-05,
      "loss": 1.5858,
      "step": 73962
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6734376549720764,
      "learning_rate": 4.657412220089999e-05,
      "loss": 1.516,
      "step": 73963
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6439862847328186,
      "learning_rate": 4.6568528836491314e-05,
      "loss": 1.5954,
      "step": 73964
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6394179463386536,
      "learning_rate": 4.65629357797112e-05,
      "loss": 1.545,
      "step": 73965
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6482146978378296,
      "learning_rate": 4.655734303056633e-05,
      "loss": 1.4432,
      "step": 73966
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6510998010635376,
      "learning_rate": 4.655175058906344e-05,
      "loss": 1.4944,
      "step": 73967
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.654190719127655,
      "learning_rate": 4.654615845520936e-05,
      "loss": 1.5261,
      "step": 73968
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6705052256584167,
      "learning_rate": 4.654056662901101e-05,
      "loss": 1.5449,
      "step": 73969
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6631364822387695,
      "learning_rate": 4.6534975110475023e-05,
      "loss": 1.5354,
      "step": 73970
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6389907598495483,
      "learning_rate": 4.6529383899608196e-05,
      "loss": 1.4698,
      "step": 73971
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6614972949028015,
      "learning_rate": 4.652379299641739e-05,
      "loss": 1.5225,
      "step": 73972
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6801233291625977,
      "learning_rate": 4.651820240090936e-05,
      "loss": 1.5518,
      "step": 73973
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6521894931793213,
      "learning_rate": 4.651261211309083e-05,
      "loss": 1.5714,
      "step": 73974
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6633930206298828,
      "learning_rate": 4.6507022132968676e-05,
      "loss": 1.6161,
      "step": 73975
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6795646548271179,
      "learning_rate": 4.650143246054962e-05,
      "loss": 1.4821,
      "step": 73976
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6663098335266113,
      "learning_rate": 4.649584309584051e-05,
      "loss": 1.4989,
      "step": 73977
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6399245262145996,
      "learning_rate": 4.6490254038848026e-05,
      "loss": 1.5959,
      "step": 73978
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6528726816177368,
      "learning_rate": 4.6484665289579094e-05,
      "loss": 1.5596,
      "step": 73979
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6597464084625244,
      "learning_rate": 4.647907684804043e-05,
      "loss": 1.4392,
      "step": 73980
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7077983021736145,
      "learning_rate": 4.6473488714238736e-05,
      "loss": 1.4451,
      "step": 73981
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6499072909355164,
      "learning_rate": 4.646790088818094e-05,
      "loss": 1.6064,
      "step": 73982
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6628573536872864,
      "learning_rate": 4.646231336987371e-05,
      "loss": 1.582,
      "step": 73983
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6647275686264038,
      "learning_rate": 4.645672615932392e-05,
      "loss": 1.491,
      "step": 73984
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6616252064704895,
      "learning_rate": 4.6451139256538314e-05,
      "loss": 1.5255,
      "step": 73985
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6447851657867432,
      "learning_rate": 4.644555266152359e-05,
      "loss": 1.5288,
      "step": 73986
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6471365690231323,
      "learning_rate": 4.64399663742867e-05,
      "loss": 1.4924,
      "step": 73987
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6515551209449768,
      "learning_rate": 4.643438039483424e-05,
      "loss": 1.5348,
      "step": 73988
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6634179353713989,
      "learning_rate": 4.642879472317317e-05,
      "loss": 1.456,
      "step": 73989
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6684327721595764,
      "learning_rate": 4.6423209359310086e-05,
      "loss": 1.5661,
      "step": 73990
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6938687562942505,
      "learning_rate": 4.6417624303251924e-05,
      "loss": 1.5918,
      "step": 73991
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6655968427658081,
      "learning_rate": 4.641203955500543e-05,
      "loss": 1.5428,
      "step": 73992
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6970227360725403,
      "learning_rate": 4.640645511457728e-05,
      "loss": 1.5055,
      "step": 73993
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6562297344207764,
      "learning_rate": 4.640087098197439e-05,
      "loss": 1.5327,
      "step": 73994
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.639784038066864,
      "learning_rate": 4.6395287157203464e-05,
      "loss": 1.518,
      "step": 73995
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6549397110939026,
      "learning_rate": 4.638970364027126e-05,
      "loss": 1.4439,
      "step": 73996
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.636106550693512,
      "learning_rate": 4.638412043118457e-05,
      "loss": 1.5175,
      "step": 73997
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6620405912399292,
      "learning_rate": 4.6378537529950254e-05,
      "loss": 1.5218,
      "step": 73998
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6729084849357605,
      "learning_rate": 4.6372954936575015e-05,
      "loss": 1.4801,
      "step": 73999
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.651954174041748,
      "learning_rate": 4.636737265106557e-05,
      "loss": 1.568,
      "step": 74000
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6768592000007629,
      "learning_rate": 4.6361790673428855e-05,
      "loss": 1.4928,
      "step": 74001
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6337655782699585,
      "learning_rate": 4.635620900367156e-05,
      "loss": 1.465,
      "step": 74002
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6481229662895203,
      "learning_rate": 4.635062764180035e-05,
      "loss": 1.5588,
      "step": 74003
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6683688163757324,
      "learning_rate": 4.634504658782212e-05,
      "loss": 1.5291,
      "step": 74004
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.66140216588974,
      "learning_rate": 4.633946584174379e-05,
      "loss": 1.4635,
      "step": 74005
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.66868656873703,
      "learning_rate": 4.63338854035718e-05,
      "loss": 1.4664,
      "step": 74006
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6624317169189453,
      "learning_rate": 4.6328305273313106e-05,
      "loss": 1.5246,
      "step": 74007
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6660027503967285,
      "learning_rate": 4.632272545097456e-05,
      "loss": 1.5455,
      "step": 74008
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6443907618522644,
      "learning_rate": 4.631714593656284e-05,
      "loss": 1.5821,
      "step": 74009
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6586887836456299,
      "learning_rate": 4.631156673008466e-05,
      "loss": 1.516,
      "step": 74010
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6494465470314026,
      "learning_rate": 4.630598783154685e-05,
      "loss": 1.4728,
      "step": 74011
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6678104400634766,
      "learning_rate": 4.6300409240956316e-05,
      "loss": 1.5679,
      "step": 74012
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6608321070671082,
      "learning_rate": 4.6294830958319576e-05,
      "loss": 1.5257,
      "step": 74013
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6778970956802368,
      "learning_rate": 4.628925298364355e-05,
      "loss": 1.5851,
      "step": 74014
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6712865233421326,
      "learning_rate": 4.628367531693502e-05,
      "loss": 1.4661,
      "step": 74015
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6569401621818542,
      "learning_rate": 4.627809795820077e-05,
      "loss": 1.5487,
      "step": 74016
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.626676082611084,
      "learning_rate": 4.627252090744742e-05,
      "loss": 1.4626,
      "step": 74017
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6636208295822144,
      "learning_rate": 4.6266944164681876e-05,
      "loss": 1.5426,
      "step": 74018
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6547081470489502,
      "learning_rate": 4.626136772991099e-05,
      "loss": 1.5348,
      "step": 74019
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6912099719047546,
      "learning_rate": 4.625579160314127e-05,
      "loss": 1.4868,
      "step": 74020
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.8263149857521057,
      "learning_rate": 4.625021578437966e-05,
      "loss": 1.5416,
      "step": 74021
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6737976670265198,
      "learning_rate": 4.624464027363294e-05,
      "loss": 1.4456,
      "step": 74022
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.646071195602417,
      "learning_rate": 4.623906507090785e-05,
      "loss": 1.5227,
      "step": 74023
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6377266645431519,
      "learning_rate": 4.623349017621107e-05,
      "loss": 1.5072,
      "step": 74024
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6404455900192261,
      "learning_rate": 4.622791558954953e-05,
      "loss": 1.5087,
      "step": 74025
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6555051207542419,
      "learning_rate": 4.62223413109299e-05,
      "loss": 1.5053,
      "step": 74026
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.7106391787528992,
      "learning_rate": 4.6216767340358896e-05,
      "loss": 1.5774,
      "step": 74027
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6628735661506653,
      "learning_rate": 4.62111936778433e-05,
      "loss": 1.4094,
      "step": 74028
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6779488325119019,
      "learning_rate": 4.6205620323390056e-05,
      "loss": 1.4945,
      "step": 74029
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.66905677318573,
      "learning_rate": 4.620004727700575e-05,
      "loss": 1.5632,
      "step": 74030
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6455320715904236,
      "learning_rate": 4.6194474538697134e-05,
      "loss": 1.4956,
      "step": 74031
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6326397061347961,
      "learning_rate": 4.618890210847108e-05,
      "loss": 1.4614,
      "step": 74032
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6721248030662537,
      "learning_rate": 4.6183329986334314e-05,
      "loss": 1.5913,
      "step": 74033
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6698704957962036,
      "learning_rate": 4.617775817229353e-05,
      "loss": 1.5169,
      "step": 74034
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.67050701379776,
      "learning_rate": 4.617218666635556e-05,
      "loss": 1.5174,
      "step": 74035
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6723744869232178,
      "learning_rate": 4.616661546852719e-05,
      "loss": 1.5164,
      "step": 74036
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6684284806251526,
      "learning_rate": 4.6161044578815154e-05,
      "loss": 1.5677,
      "step": 74037
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6601495742797852,
      "learning_rate": 4.615547399722615e-05,
      "loss": 1.5262,
      "step": 74038
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6799864172935486,
      "learning_rate": 4.614990372376709e-05,
      "loss": 1.5275,
      "step": 74039
    },
    {
      "epoch": 2.46,
      "grad_norm": 1.0554229021072388,
      "learning_rate": 4.614433375844462e-05,
      "loss": 1.512,
      "step": 74040
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6613496541976929,
      "learning_rate": 4.6138764101265426e-05,
      "loss": 1.5467,
      "step": 74041
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6618950366973877,
      "learning_rate": 4.6133194752236467e-05,
      "loss": 1.5665,
      "step": 74042
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6479864716529846,
      "learning_rate": 4.612762571136435e-05,
      "loss": 1.5102,
      "step": 74043
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6413375735282898,
      "learning_rate": 4.6122056978655955e-05,
      "loss": 1.5566,
      "step": 74044
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6672651767730713,
      "learning_rate": 4.611648855411788e-05,
      "loss": 1.5778,
      "step": 74045
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6525539755821228,
      "learning_rate": 4.6110920437757056e-05,
      "loss": 1.5879,
      "step": 74046
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.662382960319519,
      "learning_rate": 4.6105352629580185e-05,
      "loss": 1.5506,
      "step": 74047
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6787744760513306,
      "learning_rate": 4.6099785129593914e-05,
      "loss": 1.5001,
      "step": 74048
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6760050058364868,
      "learning_rate": 4.6094217937805175e-05,
      "loss": 1.5229,
      "step": 74049
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6602427959442139,
      "learning_rate": 4.608865105422057e-05,
      "loss": 1.4631,
      "step": 74050
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6643638014793396,
      "learning_rate": 4.608308447884702e-05,
      "loss": 1.5058,
      "step": 74051
    },
    {
      "epoch": 2.46,
      "grad_norm": 1.1470874547958374,
      "learning_rate": 4.6077518211691155e-05,
      "loss": 1.6307,
      "step": 74052
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6537817716598511,
      "learning_rate": 4.607195225275974e-05,
      "loss": 1.4857,
      "step": 74053
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6801486611366272,
      "learning_rate": 4.606638660205959e-05,
      "loss": 1.5916,
      "step": 74054
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6675735712051392,
      "learning_rate": 4.606082125959741e-05,
      "loss": 1.4893,
      "step": 74055
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6524045467376709,
      "learning_rate": 4.605525622538e-05,
      "loss": 1.5379,
      "step": 74056
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6653906106948853,
      "learning_rate": 4.6049691499414044e-05,
      "loss": 1.4733,
      "step": 74057
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6994994282722473,
      "learning_rate": 4.6044127081706406e-05,
      "loss": 1.4515,
      "step": 74058
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6437080502510071,
      "learning_rate": 4.603856297226378e-05,
      "loss": 1.5407,
      "step": 74059
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6519593596458435,
      "learning_rate": 4.6032999171092864e-05,
      "loss": 1.582,
      "step": 74060
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.67084801197052,
      "learning_rate": 4.602743567820052e-05,
      "loss": 1.5253,
      "step": 74061
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6788196563720703,
      "learning_rate": 4.602187249359347e-05,
      "loss": 1.4091,
      "step": 74062
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6522666215896606,
      "learning_rate": 4.601630961727834e-05,
      "loss": 1.5672,
      "step": 74063
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6623945236206055,
      "learning_rate": 4.601074704926201e-05,
      "loss": 1.5012,
      "step": 74064
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6603692770004272,
      "learning_rate": 4.6005184789551287e-05,
      "loss": 1.5327,
      "step": 74065
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6617298126220703,
      "learning_rate": 4.5999622838152836e-05,
      "loss": 1.6309,
      "step": 74066
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6459531784057617,
      "learning_rate": 4.599406119507336e-05,
      "loss": 1.5116,
      "step": 74067
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6577185392379761,
      "learning_rate": 4.5988499860319715e-05,
      "loss": 1.538,
      "step": 74068
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6566867232322693,
      "learning_rate": 4.59829388338986e-05,
      "loss": 1.6045,
      "step": 74069
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6660621166229248,
      "learning_rate": 4.597737811581673e-05,
      "loss": 1.5335,
      "step": 74070
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.655265212059021,
      "learning_rate": 4.5971817706080884e-05,
      "loss": 1.5121,
      "step": 74071
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6417683959007263,
      "learning_rate": 4.5966257604697874e-05,
      "loss": 1.5139,
      "step": 74072
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6571716666221619,
      "learning_rate": 4.5960697811674404e-05,
      "loss": 1.5396,
      "step": 74073
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6625772714614868,
      "learning_rate": 4.595513832701714e-05,
      "loss": 1.5312,
      "step": 74074
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.641173779964447,
      "learning_rate": 4.5949579150732997e-05,
      "loss": 1.5409,
      "step": 74075
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6579157114028931,
      "learning_rate": 4.594402028282861e-05,
      "loss": 1.5195,
      "step": 74076
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6248087882995605,
      "learning_rate": 4.59384617233107e-05,
      "loss": 1.4672,
      "step": 74077
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6637502908706665,
      "learning_rate": 4.593290347218604e-05,
      "loss": 1.5206,
      "step": 74078
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6568212509155273,
      "learning_rate": 4.592734552946149e-05,
      "loss": 1.4729,
      "step": 74079
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6775862574577332,
      "learning_rate": 4.59217878951437e-05,
      "loss": 1.5747,
      "step": 74080
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6658036708831787,
      "learning_rate": 4.591623056923938e-05,
      "loss": 1.5986,
      "step": 74081
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.656204879283905,
      "learning_rate": 4.591067355175534e-05,
      "loss": 1.5588,
      "step": 74082
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6332288980484009,
      "learning_rate": 4.5905116842698353e-05,
      "loss": 1.4061,
      "step": 74083
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6599394679069519,
      "learning_rate": 4.5899560442075014e-05,
      "loss": 1.483,
      "step": 74084
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6686244606971741,
      "learning_rate": 4.5894004349892176e-05,
      "loss": 1.5649,
      "step": 74085
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6527624130249023,
      "learning_rate": 4.588844856615664e-05,
      "loss": 1.5314,
      "step": 74086
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6575360298156738,
      "learning_rate": 4.588289309087507e-05,
      "loss": 1.4933,
      "step": 74087
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6516165137290955,
      "learning_rate": 4.587733792405419e-05,
      "loss": 1.58,
      "step": 74088
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.651587963104248,
      "learning_rate": 4.5871783065700826e-05,
      "loss": 1.5145,
      "step": 74089
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.678372323513031,
      "learning_rate": 4.586622851582168e-05,
      "loss": 1.5545,
      "step": 74090
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6614706516265869,
      "learning_rate": 4.586067427442344e-05,
      "loss": 1.444,
      "step": 74091
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6483428478240967,
      "learning_rate": 4.585512034151293e-05,
      "loss": 1.5134,
      "step": 74092
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6415379047393799,
      "learning_rate": 4.584956671709679e-05,
      "loss": 1.5242,
      "step": 74093
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6727240085601807,
      "learning_rate": 4.58440134011819e-05,
      "loss": 1.5933,
      "step": 74094
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6470134854316711,
      "learning_rate": 4.58384603937749e-05,
      "loss": 1.5494,
      "step": 74095
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6477355360984802,
      "learning_rate": 4.583290769488258e-05,
      "loss": 1.5658,
      "step": 74096
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6575934886932373,
      "learning_rate": 4.582735530451167e-05,
      "loss": 1.5597,
      "step": 74097
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6386429667472839,
      "learning_rate": 4.5821803222668865e-05,
      "loss": 1.5006,
      "step": 74098
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.656799852848053,
      "learning_rate": 4.581625144936098e-05,
      "loss": 1.4304,
      "step": 74099
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6695826053619385,
      "learning_rate": 4.581069998459464e-05,
      "loss": 1.5171,
      "step": 74100
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6484941244125366,
      "learning_rate": 4.580514882837674e-05,
      "loss": 1.5668,
      "step": 74101
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6517707109451294,
      "learning_rate": 4.579959798071392e-05,
      "loss": 1.5322,
      "step": 74102
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6546550393104553,
      "learning_rate": 4.579404744161288e-05,
      "loss": 1.5309,
      "step": 74103
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6586576104164124,
      "learning_rate": 4.578849721108048e-05,
      "loss": 1.523,
      "step": 74104
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6574205756187439,
      "learning_rate": 4.5782947289123306e-05,
      "loss": 1.5696,
      "step": 74105
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6684848070144653,
      "learning_rate": 4.577739767574826e-05,
      "loss": 1.4894,
      "step": 74106
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6763477325439453,
      "learning_rate": 4.577184837096191e-05,
      "loss": 1.6134,
      "step": 74107
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6609828472137451,
      "learning_rate": 4.5766299374771164e-05,
      "loss": 1.5068,
      "step": 74108
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.636765718460083,
      "learning_rate": 4.5760750687182665e-05,
      "loss": 1.4912,
      "step": 74109
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6572602391242981,
      "learning_rate": 4.575520230820308e-05,
      "loss": 1.5233,
      "step": 74110
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6670749187469482,
      "learning_rate": 4.5749654237839283e-05,
      "loss": 1.5427,
      "step": 74111
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6293131709098816,
      "learning_rate": 4.574410647609795e-05,
      "loss": 1.5251,
      "step": 74112
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6624671816825867,
      "learning_rate": 4.573855902298574e-05,
      "loss": 1.5442,
      "step": 74113
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6696586608886719,
      "learning_rate": 4.5733011878509485e-05,
      "loss": 1.5888,
      "step": 74114
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6483585834503174,
      "learning_rate": 4.57274650426759e-05,
      "loss": 1.5533,
      "step": 74115
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6407105922698975,
      "learning_rate": 4.572191851549176e-05,
      "loss": 1.4473,
      "step": 74116
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6480149030685425,
      "learning_rate": 4.571637229696366e-05,
      "loss": 1.5377,
      "step": 74117
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6622409224510193,
      "learning_rate": 4.5710826387098476e-05,
      "loss": 1.6058,
      "step": 74118
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6668829917907715,
      "learning_rate": 4.570528078590289e-05,
      "loss": 1.5349,
      "step": 74119
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6559865474700928,
      "learning_rate": 4.569973549338355e-05,
      "loss": 1.572,
      "step": 74120
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6338649988174438,
      "learning_rate": 4.569419050954726e-05,
      "loss": 1.5441,
      "step": 74121
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6602330207824707,
      "learning_rate": 4.568864583440087e-05,
      "loss": 1.4603,
      "step": 74122
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6853537559509277,
      "learning_rate": 4.5683101467950886e-05,
      "loss": 1.5091,
      "step": 74123
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6771839261054993,
      "learning_rate": 4.567755741020414e-05,
      "loss": 1.5268,
      "step": 74124
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.7129805684089661,
      "learning_rate": 4.567201366116744e-05,
      "loss": 1.5848,
      "step": 74125
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6537477374076843,
      "learning_rate": 4.566647022084743e-05,
      "loss": 1.4642,
      "step": 74126
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6520755887031555,
      "learning_rate": 4.5660927089250766e-05,
      "loss": 1.5034,
      "step": 74127
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6810723543167114,
      "learning_rate": 4.565538426638428e-05,
      "loss": 1.5077,
      "step": 74128
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6318598985671997,
      "learning_rate": 4.564984175225482e-05,
      "loss": 1.5354,
      "step": 74129
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6624559760093689,
      "learning_rate": 4.5644299546868835e-05,
      "loss": 1.5723,
      "step": 74130
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6799154281616211,
      "learning_rate": 4.563875765023321e-05,
      "loss": 1.5495,
      "step": 74131
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6843534708023071,
      "learning_rate": 4.5633216062354696e-05,
      "loss": 1.5725,
      "step": 74132
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.67661452293396,
      "learning_rate": 4.5627674783239995e-05,
      "loss": 1.5371,
      "step": 74133
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6505897045135498,
      "learning_rate": 4.5622133812895746e-05,
      "loss": 1.5214,
      "step": 74134
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6537190079689026,
      "learning_rate": 4.561659315132876e-05,
      "loss": 1.5552,
      "step": 74135
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6825829744338989,
      "learning_rate": 4.561105279854588e-05,
      "loss": 1.5237,
      "step": 74136
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.672135591506958,
      "learning_rate": 4.560551275455352e-05,
      "loss": 1.5201,
      "step": 74137
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6548344492912292,
      "learning_rate": 4.5599973019358616e-05,
      "loss": 1.5344,
      "step": 74138
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6607087254524231,
      "learning_rate": 4.559443359296796e-05,
      "loss": 1.4963,
      "step": 74139
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6825073957443237,
      "learning_rate": 4.558889447538815e-05,
      "loss": 1.4996,
      "step": 74140
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6727936863899231,
      "learning_rate": 4.5583355666625844e-05,
      "loss": 1.5964,
      "step": 74141
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6472628712654114,
      "learning_rate": 4.5577817166687935e-05,
      "loss": 1.5294,
      "step": 74142
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6486770510673523,
      "learning_rate": 4.557227897558109e-05,
      "loss": 1.5369,
      "step": 74143
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6632117629051208,
      "learning_rate": 4.556674109331193e-05,
      "loss": 1.4459,
      "step": 74144
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6512269973754883,
      "learning_rate": 4.5561203519887256e-05,
      "loss": 1.4906,
      "step": 74145
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6703554391860962,
      "learning_rate": 4.555566625531386e-05,
      "loss": 1.5013,
      "step": 74146
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6628279089927673,
      "learning_rate": 4.55501292995984e-05,
      "loss": 1.504,
      "step": 74147
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6413156390190125,
      "learning_rate": 4.5544592652747546e-05,
      "loss": 1.5152,
      "step": 74148
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6445278525352478,
      "learning_rate": 4.553905631476809e-05,
      "loss": 1.507,
      "step": 74149
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6505576372146606,
      "learning_rate": 4.553352028566675e-05,
      "loss": 1.4458,
      "step": 74150
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6487653255462646,
      "learning_rate": 4.552798456545016e-05,
      "loss": 1.4666,
      "step": 74151
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6560312509536743,
      "learning_rate": 4.552244915412508e-05,
      "loss": 1.4849,
      "step": 74152
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6531087756156921,
      "learning_rate": 4.551691405169832e-05,
      "loss": 1.5215,
      "step": 74153
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6518375873565674,
      "learning_rate": 4.551137925817655e-05,
      "loss": 1.4701,
      "step": 74154
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6348442435264587,
      "learning_rate": 4.550584477356638e-05,
      "loss": 1.4858,
      "step": 74155
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6520411372184753,
      "learning_rate": 4.55003105978747e-05,
      "loss": 1.5668,
      "step": 74156
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6746873259544373,
      "learning_rate": 4.549477673110814e-05,
      "loss": 1.5335,
      "step": 74157
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6498207449913025,
      "learning_rate": 4.548924317327336e-05,
      "loss": 1.5323,
      "step": 74158
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6736535429954529,
      "learning_rate": 4.548370992437719e-05,
      "loss": 1.5731,
      "step": 74159
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6598734259605408,
      "learning_rate": 4.547817698442622e-05,
      "loss": 1.4901,
      "step": 74160
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6474452614784241,
      "learning_rate": 4.5472644353427346e-05,
      "loss": 1.4637,
      "step": 74161
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6725900173187256,
      "learning_rate": 4.546711203138707e-05,
      "loss": 1.5061,
      "step": 74162
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6718225479125977,
      "learning_rate": 4.546158001831231e-05,
      "loss": 1.5556,
      "step": 74163
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6633322834968567,
      "learning_rate": 4.5456048314209695e-05,
      "loss": 1.57,
      "step": 74164
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6456354260444641,
      "learning_rate": 4.545051691908586e-05,
      "loss": 1.5256,
      "step": 74165
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.660978376865387,
      "learning_rate": 4.5444985832947625e-05,
      "loss": 1.5491,
      "step": 74166
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.62812340259552,
      "learning_rate": 4.5439455055801624e-05,
      "loss": 1.5095,
      "step": 74167
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6731317639350891,
      "learning_rate": 4.543392458765468e-05,
      "loss": 1.6389,
      "step": 74168
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6434459686279297,
      "learning_rate": 4.542839442851346e-05,
      "loss": 1.4426,
      "step": 74169
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6596574187278748,
      "learning_rate": 4.5422864578384586e-05,
      "loss": 1.4419,
      "step": 74170
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6638184785842896,
      "learning_rate": 4.5417335037274924e-05,
      "loss": 1.4059,
      "step": 74171
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.652228832244873,
      "learning_rate": 4.5411805805191e-05,
      "loss": 1.5749,
      "step": 74172
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.675382673740387,
      "learning_rate": 4.5406276882139746e-05,
      "loss": 1.5092,
      "step": 74173
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6579686999320984,
      "learning_rate": 4.5400748268127655e-05,
      "loss": 1.5999,
      "step": 74174
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6385757923126221,
      "learning_rate": 4.539521996316161e-05,
      "loss": 1.4983,
      "step": 74175
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6386781334877014,
      "learning_rate": 4.538969196724829e-05,
      "loss": 1.5358,
      "step": 74176
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6497063636779785,
      "learning_rate": 4.538416428039427e-05,
      "loss": 1.5786,
      "step": 74177
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6510165333747864,
      "learning_rate": 4.537863690260644e-05,
      "loss": 1.5064,
      "step": 74178
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6432129144668579,
      "learning_rate": 4.537310983389143e-05,
      "loss": 1.4866,
      "step": 74179
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6415280103683472,
      "learning_rate": 4.536758307425585e-05,
      "loss": 1.5493,
      "step": 74180
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6653604507446289,
      "learning_rate": 4.5362056623706534e-05,
      "loss": 1.5224,
      "step": 74181
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6527861952781677,
      "learning_rate": 4.5356530482250233e-05,
      "loss": 1.542,
      "step": 74182
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.673732578754425,
      "learning_rate": 4.5351004649893575e-05,
      "loss": 1.5065,
      "step": 74183
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6354895234107971,
      "learning_rate": 4.534547912664319e-05,
      "loss": 1.5369,
      "step": 74184
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6470769047737122,
      "learning_rate": 4.533995391250598e-05,
      "loss": 1.5511,
      "step": 74185
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6595386862754822,
      "learning_rate": 4.533442900748853e-05,
      "loss": 1.5463,
      "step": 74186
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.66253662109375,
      "learning_rate": 4.532890441159747e-05,
      "loss": 1.506,
      "step": 74187
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6647122502326965,
      "learning_rate": 4.532338012483959e-05,
      "loss": 1.5129,
      "step": 74188
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6735492944717407,
      "learning_rate": 4.53178561472217e-05,
      "loss": 1.542,
      "step": 74189
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6612381339073181,
      "learning_rate": 4.531233247875041e-05,
      "loss": 1.5871,
      "step": 74190
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6486133337020874,
      "learning_rate": 4.530680911943233e-05,
      "loss": 1.5005,
      "step": 74191
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6573142409324646,
      "learning_rate": 4.530128606927435e-05,
      "loss": 1.5255,
      "step": 74192
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6730920672416687,
      "learning_rate": 4.5295763328283055e-05,
      "loss": 1.5453,
      "step": 74193
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6503441333770752,
      "learning_rate": 4.529024089646511e-05,
      "loss": 1.437,
      "step": 74194
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6757662296295166,
      "learning_rate": 4.528471877382729e-05,
      "loss": 1.6092,
      "step": 74195
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6628970503807068,
      "learning_rate": 4.527919696037637e-05,
      "loss": 1.482,
      "step": 74196
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6628459692001343,
      "learning_rate": 4.527367545611896e-05,
      "loss": 1.5194,
      "step": 74197
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6790809035301208,
      "learning_rate": 4.526815426106168e-05,
      "loss": 1.5204,
      "step": 74198
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6659083962440491,
      "learning_rate": 4.526263337521143e-05,
      "loss": 1.5143,
      "step": 74199
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.640346884727478,
      "learning_rate": 4.525711279857483e-05,
      "loss": 1.4768,
      "step": 74200
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6531955003738403,
      "learning_rate": 4.5251592531158454e-05,
      "loss": 1.4807,
      "step": 74201
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6463668346405029,
      "learning_rate": 4.524607257296912e-05,
      "loss": 1.4942,
      "step": 74202
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6513851881027222,
      "learning_rate": 4.524055292401358e-05,
      "loss": 1.4446,
      "step": 74203
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6360965371131897,
      "learning_rate": 4.5235033584298486e-05,
      "loss": 1.4753,
      "step": 74204
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6603909730911255,
      "learning_rate": 4.522951455383045e-05,
      "loss": 1.4831,
      "step": 74205
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6531838774681091,
      "learning_rate": 4.522399583261633e-05,
      "loss": 1.5303,
      "step": 74206
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.657454788684845,
      "learning_rate": 4.52184774206627e-05,
      "loss": 1.4518,
      "step": 74207
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6772401928901672,
      "learning_rate": 4.5212959317976246e-05,
      "loss": 1.521,
      "step": 74208
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6362958550453186,
      "learning_rate": 4.52074415245638e-05,
      "loss": 1.5853,
      "step": 74209
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6451683640480042,
      "learning_rate": 4.520192404043192e-05,
      "loss": 1.4355,
      "step": 74210
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6761618256568909,
      "learning_rate": 4.519640686558741e-05,
      "loss": 1.5171,
      "step": 74211
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.626774787902832,
      "learning_rate": 4.519089000003685e-05,
      "loss": 1.4691,
      "step": 74212
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6564785242080688,
      "learning_rate": 4.518537344378708e-05,
      "loss": 1.4289,
      "step": 74213
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6645401120185852,
      "learning_rate": 4.517985719684472e-05,
      "loss": 1.5488,
      "step": 74214
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6732324957847595,
      "learning_rate": 4.517434125921639e-05,
      "loss": 1.6118,
      "step": 74215
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6358487010002136,
      "learning_rate": 4.516882563090894e-05,
      "loss": 1.4773,
      "step": 74216
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6623606085777283,
      "learning_rate": 4.5163310311928925e-05,
      "loss": 1.585,
      "step": 74217
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6709025502204895,
      "learning_rate": 4.5157795302283165e-05,
      "loss": 1.5117,
      "step": 74218
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6448942422866821,
      "learning_rate": 4.515228060197828e-05,
      "loss": 1.5158,
      "step": 74219
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6375430822372437,
      "learning_rate": 4.5146766211020925e-05,
      "loss": 1.4685,
      "step": 74220
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.663192093372345,
      "learning_rate": 4.51412521294179e-05,
      "loss": 1.5158,
      "step": 74221
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6460006833076477,
      "learning_rate": 4.513573835717579e-05,
      "loss": 1.5235,
      "step": 74222
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6570841670036316,
      "learning_rate": 4.513022489430137e-05,
      "loss": 1.5133,
      "step": 74223
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6508920192718506,
      "learning_rate": 4.5124711740801275e-05,
      "loss": 1.4908,
      "step": 74224
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6825910806655884,
      "learning_rate": 4.5119198896682306e-05,
      "loss": 1.464,
      "step": 74225
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6622287034988403,
      "learning_rate": 4.511368636195105e-05,
      "loss": 1.5328,
      "step": 74226
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6627054810523987,
      "learning_rate": 4.510817413661414e-05,
      "loss": 1.5392,
      "step": 74227
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6534550786018372,
      "learning_rate": 4.510266222067843e-05,
      "loss": 1.5904,
      "step": 74228
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6567422151565552,
      "learning_rate": 4.509715061415056e-05,
      "loss": 1.5762,
      "step": 74229
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6859169006347656,
      "learning_rate": 4.509163931703711e-05,
      "loss": 1.4761,
      "step": 74230
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6666920185089111,
      "learning_rate": 4.508612832934482e-05,
      "loss": 1.4893,
      "step": 74231
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6627179384231567,
      "learning_rate": 4.508061765108051e-05,
      "loss": 1.542,
      "step": 74232
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6584217548370361,
      "learning_rate": 4.507510728225074e-05,
      "loss": 1.4882,
      "step": 74233
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6558143496513367,
      "learning_rate": 4.5069597222862186e-05,
      "loss": 1.5087,
      "step": 74234
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.660419762134552,
      "learning_rate": 4.506408747292166e-05,
      "loss": 1.4949,
      "step": 74235
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6634389758110046,
      "learning_rate": 4.505857803243573e-05,
      "loss": 1.5131,
      "step": 74236
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6320427060127258,
      "learning_rate": 4.50530689014111e-05,
      "loss": 1.5056,
      "step": 74237
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6459936499595642,
      "learning_rate": 4.504756007985444e-05,
      "loss": 1.4449,
      "step": 74238
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6553769111633301,
      "learning_rate": 4.504205156777263e-05,
      "loss": 1.5404,
      "step": 74239
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6351379752159119,
      "learning_rate": 4.5036543365172064e-05,
      "loss": 1.5197,
      "step": 74240
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6445682048797607,
      "learning_rate": 4.5031035472059565e-05,
      "loss": 1.5029,
      "step": 74241
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6823008060455322,
      "learning_rate": 4.502552788844189e-05,
      "loss": 1.5816,
      "step": 74242
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6656376123428345,
      "learning_rate": 4.502002061432565e-05,
      "loss": 1.5105,
      "step": 74243
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6460491418838501,
      "learning_rate": 4.5014513649717486e-05,
      "loss": 1.5376,
      "step": 74244
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6441749334335327,
      "learning_rate": 4.500900699462411e-05,
      "loss": 1.4466,
      "step": 74245
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6439003348350525,
      "learning_rate": 4.500350064905237e-05,
      "loss": 1.4808,
      "step": 74246
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6786147952079773,
      "learning_rate": 4.499799461300867e-05,
      "loss": 1.5557,
      "step": 74247
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6587342619895935,
      "learning_rate": 4.499248888649983e-05,
      "loss": 1.5881,
      "step": 74248
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6697324514389038,
      "learning_rate": 4.4986983469532624e-05,
      "loss": 1.4861,
      "step": 74249
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6608421802520752,
      "learning_rate": 4.4981478362113635e-05,
      "loss": 1.6003,
      "step": 74250
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6897362470626831,
      "learning_rate": 4.497597356424949e-05,
      "loss": 1.5381,
      "step": 74251
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6944119930267334,
      "learning_rate": 4.497046907594693e-05,
      "loss": 1.5113,
      "step": 74252
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6748035550117493,
      "learning_rate": 4.4964964897212794e-05,
      "loss": 1.5266,
      "step": 74253
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.656752347946167,
      "learning_rate": 4.4959461028053435e-05,
      "loss": 1.4895,
      "step": 74254
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6599448323249817,
      "learning_rate": 4.495395746847576e-05,
      "loss": 1.531,
      "step": 74255
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6823939681053162,
      "learning_rate": 4.494845421848645e-05,
      "loss": 1.5069,
      "step": 74256
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6502753496170044,
      "learning_rate": 4.4942951278092124e-05,
      "loss": 1.5575,
      "step": 74257
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6619593501091003,
      "learning_rate": 4.493744864729943e-05,
      "loss": 1.5252,
      "step": 74258
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6936269998550415,
      "learning_rate": 4.4931946326115154e-05,
      "loss": 1.4898,
      "step": 74259
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6567726135253906,
      "learning_rate": 4.4926444314545906e-05,
      "loss": 1.5492,
      "step": 74260
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6530465483665466,
      "learning_rate": 4.492094261259832e-05,
      "loss": 1.4673,
      "step": 74261
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6728577613830566,
      "learning_rate": 4.491544122027909e-05,
      "loss": 1.5788,
      "step": 74262
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6863151788711548,
      "learning_rate": 4.490994013759501e-05,
      "loss": 1.4737,
      "step": 74263
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6440111994743347,
      "learning_rate": 4.490443936455271e-05,
      "loss": 1.5072,
      "step": 74264
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6543344259262085,
      "learning_rate": 4.489893890115872e-05,
      "loss": 1.4204,
      "step": 74265
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6432686448097229,
      "learning_rate": 4.489343874741993e-05,
      "loss": 1.478,
      "step": 74266
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6623009443283081,
      "learning_rate": 4.48879389033429e-05,
      "loss": 1.4522,
      "step": 74267
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6662570834159851,
      "learning_rate": 4.488243936893426e-05,
      "loss": 1.5286,
      "step": 74268
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6648674607276917,
      "learning_rate": 4.487694014420085e-05,
      "loss": 1.4418,
      "step": 74269
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6591613292694092,
      "learning_rate": 4.487144122914914e-05,
      "loss": 1.4517,
      "step": 74270
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6666317582130432,
      "learning_rate": 4.486594262378598e-05,
      "loss": 1.5724,
      "step": 74271
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6568037867546082,
      "learning_rate": 4.4860444328117886e-05,
      "loss": 1.4802,
      "step": 74272
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6728377342224121,
      "learning_rate": 4.485494634215172e-05,
      "loss": 1.538,
      "step": 74273
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6753645539283752,
      "learning_rate": 4.484944866589405e-05,
      "loss": 1.4561,
      "step": 74274
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6652349233627319,
      "learning_rate": 4.4843951299351465e-05,
      "loss": 1.5061,
      "step": 74275
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.628155529499054,
      "learning_rate": 4.483845424253083e-05,
      "loss": 1.4401,
      "step": 74276
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6700850129127502,
      "learning_rate": 4.4832957495438636e-05,
      "loss": 1.4619,
      "step": 74277
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.675280749797821,
      "learning_rate": 4.4827461058081683e-05,
      "loss": 1.4771,
      "step": 74278
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6660379767417908,
      "learning_rate": 4.4821964930466526e-05,
      "loss": 1.4281,
      "step": 74279
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.655671238899231,
      "learning_rate": 4.4816469112599995e-05,
      "loss": 1.521,
      "step": 74280
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6571799516677856,
      "learning_rate": 4.481097360448869e-05,
      "loss": 1.4577,
      "step": 74281
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6493816375732422,
      "learning_rate": 4.480547840613916e-05,
      "loss": 1.5232,
      "step": 74282
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6643968820571899,
      "learning_rate": 4.4799983517558244e-05,
      "loss": 1.5372,
      "step": 74283
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6771644353866577,
      "learning_rate": 4.479448893875247e-05,
      "loss": 1.5913,
      "step": 74284
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6468314528465271,
      "learning_rate": 4.4788994669728695e-05,
      "loss": 1.5457,
      "step": 74285
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6486569046974182,
      "learning_rate": 4.478350071049345e-05,
      "loss": 1.4924,
      "step": 74286
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6445699334144592,
      "learning_rate": 4.477800706105336e-05,
      "loss": 1.4735,
      "step": 74287
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6681464910507202,
      "learning_rate": 4.477251372141522e-05,
      "loss": 1.5566,
      "step": 74288
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6917663812637329,
      "learning_rate": 4.4767020691585584e-05,
      "loss": 1.5367,
      "step": 74289
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6555883884429932,
      "learning_rate": 4.476152797157126e-05,
      "loss": 1.5212,
      "step": 74290
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6681463718414307,
      "learning_rate": 4.475603556137874e-05,
      "loss": 1.529,
      "step": 74291
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6489006280899048,
      "learning_rate": 4.475054346101489e-05,
      "loss": 1.513,
      "step": 74292
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.649455726146698,
      "learning_rate": 4.4745051670486255e-05,
      "loss": 1.5401,
      "step": 74293
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6535502076148987,
      "learning_rate": 4.473956018979944e-05,
      "loss": 1.5231,
      "step": 74294
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6677706837654114,
      "learning_rate": 4.473406901896127e-05,
      "loss": 1.61,
      "step": 74295
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6712564826011658,
      "learning_rate": 4.472857815797831e-05,
      "loss": 1.597,
      "step": 74296
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6600090265274048,
      "learning_rate": 4.4723087606857185e-05,
      "loss": 1.5183,
      "step": 74297
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6579376459121704,
      "learning_rate": 4.4717597365604626e-05,
      "loss": 1.5742,
      "step": 74298
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.652398407459259,
      "learning_rate": 4.471210743422733e-05,
      "loss": 1.5073,
      "step": 74299
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.645510196685791,
      "learning_rate": 4.470661781273195e-05,
      "loss": 1.4907,
      "step": 74300
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.651463508605957,
      "learning_rate": 4.470112850112505e-05,
      "loss": 1.5016,
      "step": 74301
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6486228108406067,
      "learning_rate": 4.4695639499413424e-05,
      "loss": 1.5416,
      "step": 74302
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6663134098052979,
      "learning_rate": 4.4690150807603676e-05,
      "loss": 1.5762,
      "step": 74303
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6410864591598511,
      "learning_rate": 4.4684662425702386e-05,
      "loss": 1.515,
      "step": 74304
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6712998151779175,
      "learning_rate": 4.467917435371633e-05,
      "loss": 1.5216,
      "step": 74305
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.685772716999054,
      "learning_rate": 4.4673686591652155e-05,
      "loss": 1.5799,
      "step": 74306
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6487078070640564,
      "learning_rate": 4.4668199139516536e-05,
      "loss": 1.546,
      "step": 74307
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6346338987350464,
      "learning_rate": 4.4662711997316025e-05,
      "loss": 1.5305,
      "step": 74308
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6507694125175476,
      "learning_rate": 4.465722516505745e-05,
      "loss": 1.5052,
      "step": 74309
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6460050940513611,
      "learning_rate": 4.4651738642747346e-05,
      "loss": 1.5181,
      "step": 74310
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6557229161262512,
      "learning_rate": 4.464625243039237e-05,
      "loss": 1.5506,
      "step": 74311
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6649137139320374,
      "learning_rate": 4.4640766527999216e-05,
      "loss": 1.4668,
      "step": 74312
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6352819204330444,
      "learning_rate": 4.463528093557458e-05,
      "loss": 1.4932,
      "step": 74313
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6374655961990356,
      "learning_rate": 4.462979565312512e-05,
      "loss": 1.5157,
      "step": 74314
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6539590954780579,
      "learning_rate": 4.462431068065737e-05,
      "loss": 1.5203,
      "step": 74315
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6554089784622192,
      "learning_rate": 4.4618826018178186e-05,
      "loss": 1.4887,
      "step": 74316
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6523709297180176,
      "learning_rate": 4.461334166569407e-05,
      "loss": 1.5285,
      "step": 74317
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6457974314689636,
      "learning_rate": 4.460785762321171e-05,
      "loss": 1.4979,
      "step": 74318
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6524845361709595,
      "learning_rate": 4.460237389073773e-05,
      "loss": 1.4861,
      "step": 74319
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6511803269386292,
      "learning_rate": 4.459689046827893e-05,
      "loss": 1.4919,
      "step": 74320
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.647827684879303,
      "learning_rate": 4.459140735584188e-05,
      "loss": 1.4771,
      "step": 74321
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.656715452671051,
      "learning_rate": 4.458592455343316e-05,
      "loss": 1.5453,
      "step": 74322
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6589205861091614,
      "learning_rate": 4.458044206105954e-05,
      "loss": 1.4759,
      "step": 74323
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6502261757850647,
      "learning_rate": 4.457495987872765e-05,
      "loss": 1.4835,
      "step": 74324
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6653918027877808,
      "learning_rate": 4.456947800644404e-05,
      "loss": 1.5238,
      "step": 74325
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6717366576194763,
      "learning_rate": 4.4563996444215544e-05,
      "loss": 1.5655,
      "step": 74326
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6418106555938721,
      "learning_rate": 4.4558515192048625e-05,
      "loss": 1.5242,
      "step": 74327
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6675856709480286,
      "learning_rate": 4.455303424995012e-05,
      "loss": 1.4696,
      "step": 74328
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6409948468208313,
      "learning_rate": 4.45475536179265e-05,
      "loss": 1.4929,
      "step": 74329
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6593781113624573,
      "learning_rate": 4.454207329598458e-05,
      "loss": 1.4906,
      "step": 74330
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6597306728363037,
      "learning_rate": 4.453659328413095e-05,
      "loss": 1.5688,
      "step": 74331
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6677361130714417,
      "learning_rate": 4.4531113582372204e-05,
      "loss": 1.5412,
      "step": 74332
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6549323797225952,
      "learning_rate": 4.45256341907151e-05,
      "loss": 1.5224,
      "step": 74333
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.648672342300415,
      "learning_rate": 4.452015510916617e-05,
      "loss": 1.651,
      "step": 74334
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6468654870986938,
      "learning_rate": 4.451467633773217e-05,
      "loss": 1.4871,
      "step": 74335
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6557804942131042,
      "learning_rate": 4.4509197876419735e-05,
      "loss": 1.5442,
      "step": 74336
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6939868927001953,
      "learning_rate": 4.450371972523542e-05,
      "loss": 1.5541,
      "step": 74337
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6472477912902832,
      "learning_rate": 4.449824188418599e-05,
      "loss": 1.5491,
      "step": 74338
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6820923089981079,
      "learning_rate": 4.449276435327801e-05,
      "loss": 1.5476,
      "step": 74339
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6579563021659851,
      "learning_rate": 4.448728713251823e-05,
      "loss": 1.4983,
      "step": 74340
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6646361351013184,
      "learning_rate": 4.448181022191316e-05,
      "loss": 1.5971,
      "step": 74341
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6560947299003601,
      "learning_rate": 4.447633362146958e-05,
      "loss": 1.5457,
      "step": 74342
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6740145683288574,
      "learning_rate": 4.44708573311941e-05,
      "loss": 1.5328,
      "step": 74343
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.668302059173584,
      "learning_rate": 4.4465381351093264e-05,
      "loss": 1.4725,
      "step": 74344
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6638079881668091,
      "learning_rate": 4.445990568117388e-05,
      "loss": 1.5534,
      "step": 74345
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6552491784095764,
      "learning_rate": 4.445443032144253e-05,
      "loss": 1.5409,
      "step": 74346
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6650758981704712,
      "learning_rate": 4.444895527190576e-05,
      "loss": 1.4937,
      "step": 74347
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6414054036140442,
      "learning_rate": 4.444348053257032e-05,
      "loss": 1.545,
      "step": 74348
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6603689193725586,
      "learning_rate": 4.44380061034429e-05,
      "loss": 1.5074,
      "step": 74349
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6843656897544861,
      "learning_rate": 4.443253198453011e-05,
      "loss": 1.5359,
      "step": 74350
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6898582577705383,
      "learning_rate": 4.442705817583846e-05,
      "loss": 1.5549,
      "step": 74351
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6605976223945618,
      "learning_rate": 4.442158467737479e-05,
      "loss": 1.5038,
      "step": 74352
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6571017503738403,
      "learning_rate": 4.441611148914566e-05,
      "loss": 1.5168,
      "step": 74353
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6538851261138916,
      "learning_rate": 4.441063861115766e-05,
      "loss": 1.4786,
      "step": 74354
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.649599552154541,
      "learning_rate": 4.440516604341745e-05,
      "loss": 1.5298,
      "step": 74355
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6664279699325562,
      "learning_rate": 4.439969378593187e-05,
      "loss": 1.5447,
      "step": 74356
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6416797637939453,
      "learning_rate": 4.4394221838707264e-05,
      "loss": 1.5092,
      "step": 74357
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.653813898563385,
      "learning_rate": 4.4388750201750415e-05,
      "loss": 1.5029,
      "step": 74358
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6416009664535522,
      "learning_rate": 4.438327887506803e-05,
      "loss": 1.4715,
      "step": 74359
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6340209245681763,
      "learning_rate": 4.4377807858666646e-05,
      "loss": 1.4674,
      "step": 74360
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.651378870010376,
      "learning_rate": 4.4372337152552894e-05,
      "loss": 1.5482,
      "step": 74361
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6494370698928833,
      "learning_rate": 4.4366866756733466e-05,
      "loss": 1.5498,
      "step": 74362
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6626372337341309,
      "learning_rate": 4.436139667121512e-05,
      "loss": 1.528,
      "step": 74363
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6563403010368347,
      "learning_rate": 4.4355926896004256e-05,
      "loss": 1.5337,
      "step": 74364
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6548395156860352,
      "learning_rate": 4.4350457431107634e-05,
      "loss": 1.5134,
      "step": 74365
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6674206256866455,
      "learning_rate": 4.4344988276531914e-05,
      "loss": 1.5382,
      "step": 74366
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.660441517829895,
      "learning_rate": 4.4339519432283756e-05,
      "loss": 1.5563,
      "step": 74367
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6336691975593567,
      "learning_rate": 4.433405089836965e-05,
      "loss": 1.5188,
      "step": 74368
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6564226150512695,
      "learning_rate": 4.4328582674796345e-05,
      "loss": 1.4493,
      "step": 74369
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6538647413253784,
      "learning_rate": 4.432311476157061e-05,
      "loss": 1.5208,
      "step": 74370
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6936702132225037,
      "learning_rate": 4.431764715869882e-05,
      "loss": 1.4542,
      "step": 74371
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6530436277389526,
      "learning_rate": 4.4312179866187705e-05,
      "loss": 1.5811,
      "step": 74372
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6574630737304688,
      "learning_rate": 4.430671288404402e-05,
      "loss": 1.5351,
      "step": 74373
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6653425693511963,
      "learning_rate": 4.430124621227429e-05,
      "loss": 1.5663,
      "step": 74374
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6695780754089355,
      "learning_rate": 4.429577985088512e-05,
      "loss": 1.5575,
      "step": 74375
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6797816157341003,
      "learning_rate": 4.429031379988326e-05,
      "loss": 1.5304,
      "step": 74376
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6677701473236084,
      "learning_rate": 4.428484805927528e-05,
      "loss": 1.4648,
      "step": 74377
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6513493657112122,
      "learning_rate": 4.427938262906774e-05,
      "loss": 1.556,
      "step": 74378
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.655940592288971,
      "learning_rate": 4.427391750926737e-05,
      "loss": 1.485,
      "step": 74379
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6496978402137756,
      "learning_rate": 4.4268452699880854e-05,
      "loss": 1.5025,
      "step": 74380
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6672925353050232,
      "learning_rate": 4.426298820091473e-05,
      "loss": 1.5754,
      "step": 74381
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6731650829315186,
      "learning_rate": 4.4257524012375626e-05,
      "loss": 1.5175,
      "step": 74382
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6714830994606018,
      "learning_rate": 4.4252060134270226e-05,
      "loss": 1.5538,
      "step": 74383
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6472113132476807,
      "learning_rate": 4.424659656660517e-05,
      "loss": 1.4923,
      "step": 74384
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6727146506309509,
      "learning_rate": 4.424113330938702e-05,
      "loss": 1.4754,
      "step": 74385
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6547083854675293,
      "learning_rate": 4.42356703626225e-05,
      "loss": 1.46,
      "step": 74386
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.7077937126159668,
      "learning_rate": 4.42302077263181e-05,
      "loss": 1.597,
      "step": 74387
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6752055883407593,
      "learning_rate": 4.422474540048062e-05,
      "loss": 1.5141,
      "step": 74388
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6771397590637207,
      "learning_rate": 4.421928338511655e-05,
      "loss": 1.5759,
      "step": 74389
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6377222537994385,
      "learning_rate": 4.421382168023266e-05,
      "loss": 1.5718,
      "step": 74390
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6283276677131653,
      "learning_rate": 4.4208360285835475e-05,
      "loss": 1.4963,
      "step": 74391
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6441085338592529,
      "learning_rate": 4.420289920193162e-05,
      "loss": 1.5684,
      "step": 74392
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6817113161087036,
      "learning_rate": 4.419743842852779e-05,
      "loss": 1.5282,
      "step": 74393
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6550071835517883,
      "learning_rate": 4.419197796563054e-05,
      "loss": 1.5571,
      "step": 74394
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6626872420310974,
      "learning_rate": 4.418651781324658e-05,
      "loss": 1.5347,
      "step": 74395
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6676608324050903,
      "learning_rate": 4.418105797138243e-05,
      "loss": 1.5143,
      "step": 74396
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6562923789024353,
      "learning_rate": 4.417559844004484e-05,
      "loss": 1.5566,
      "step": 74397
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6521889567375183,
      "learning_rate": 4.417013921924043e-05,
      "loss": 1.5023,
      "step": 74398
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.652540922164917,
      "learning_rate": 4.416468030897568e-05,
      "loss": 1.5326,
      "step": 74399
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6654439568519592,
      "learning_rate": 4.415922170925737e-05,
      "loss": 1.5764,
      "step": 74400
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6370741724967957,
      "learning_rate": 4.415376342009199e-05,
      "loss": 1.5581,
      "step": 74401
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6448961496353149,
      "learning_rate": 4.414830544148632e-05,
      "loss": 1.5429,
      "step": 74402
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6722770929336548,
      "learning_rate": 4.414284777344692e-05,
      "loss": 1.5674,
      "step": 74403
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6618665456771851,
      "learning_rate": 4.4137390415980355e-05,
      "loss": 1.5024,
      "step": 74404
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6479212045669556,
      "learning_rate": 4.413193336909332e-05,
      "loss": 1.4665,
      "step": 74405
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6395909786224365,
      "learning_rate": 4.4126476632792375e-05,
      "loss": 1.5279,
      "step": 74406
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.669182538986206,
      "learning_rate": 4.4121020207084276e-05,
      "loss": 1.5365,
      "step": 74407
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.670080304145813,
      "learning_rate": 4.411556409197546e-05,
      "loss": 1.5033,
      "step": 74408
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6598274111747742,
      "learning_rate": 4.411010828747272e-05,
      "loss": 1.5642,
      "step": 74409
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6694296598434448,
      "learning_rate": 4.410465279358262e-05,
      "loss": 1.6081,
      "step": 74410
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6578017473220825,
      "learning_rate": 4.409919761031168e-05,
      "loss": 1.485,
      "step": 74411
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6557257175445557,
      "learning_rate": 4.409374273766666e-05,
      "loss": 1.4661,
      "step": 74412
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6397747993469238,
      "learning_rate": 4.4088288175654165e-05,
      "loss": 1.5611,
      "step": 74413
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6454291343688965,
      "learning_rate": 4.408283392428068e-05,
      "loss": 1.5252,
      "step": 74414
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6337895393371582,
      "learning_rate": 4.4077379983552976e-05,
      "loss": 1.5163,
      "step": 74415
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6547101140022278,
      "learning_rate": 4.4071926353477635e-05,
      "loss": 1.4943,
      "step": 74416
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6530232429504395,
      "learning_rate": 4.40664730340613e-05,
      "loss": 1.5905,
      "step": 74417
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6416507363319397,
      "learning_rate": 4.406102002531049e-05,
      "loss": 1.4799,
      "step": 74418
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6523860692977905,
      "learning_rate": 4.4055567327231964e-05,
      "loss": 1.5963,
      "step": 74419
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6665728688240051,
      "learning_rate": 4.405011493983226e-05,
      "loss": 1.5914,
      "step": 74420
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6474622488021851,
      "learning_rate": 4.404466286311793e-05,
      "loss": 1.5116,
      "step": 74421
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6946954727172852,
      "learning_rate": 4.403921109709567e-05,
      "loss": 1.5048,
      "step": 74422
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6853293180465698,
      "learning_rate": 4.403375964177215e-05,
      "loss": 1.4772,
      "step": 74423
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6369640827178955,
      "learning_rate": 4.4028308497153956e-05,
      "loss": 1.5301,
      "step": 74424
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6709750890731812,
      "learning_rate": 4.402285766324758e-05,
      "loss": 1.4684,
      "step": 74425
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6599105596542358,
      "learning_rate": 4.401740714005982e-05,
      "loss": 1.5627,
      "step": 74426
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6341466307640076,
      "learning_rate": 4.4011956927597217e-05,
      "loss": 1.4693,
      "step": 74427
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6813888549804688,
      "learning_rate": 4.400650702586631e-05,
      "loss": 1.5521,
      "step": 74428
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6544663310050964,
      "learning_rate": 4.400105743487378e-05,
      "loss": 1.5052,
      "step": 74429
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.642673671245575,
      "learning_rate": 4.39956081546263e-05,
      "loss": 1.4845,
      "step": 74430
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6768875122070312,
      "learning_rate": 4.399015918513046e-05,
      "loss": 1.5834,
      "step": 74431
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6627840995788574,
      "learning_rate": 4.3984710526392765e-05,
      "loss": 1.5763,
      "step": 74432
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.669704794883728,
      "learning_rate": 4.3979262178419986e-05,
      "loss": 1.5523,
      "step": 74433
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.662308931350708,
      "learning_rate": 4.397381414121864e-05,
      "loss": 1.5067,
      "step": 74434
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.658635139465332,
      "learning_rate": 4.396836641479531e-05,
      "loss": 1.4203,
      "step": 74435
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6500473618507385,
      "learning_rate": 4.396291899915664e-05,
      "loss": 1.4135,
      "step": 74436
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6460511684417725,
      "learning_rate": 4.395747189430936e-05,
      "loss": 1.4946,
      "step": 74437
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6528687477111816,
      "learning_rate": 4.3952025100259967e-05,
      "loss": 1.4499,
      "step": 74438
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6488637328147888,
      "learning_rate": 4.394657861701503e-05,
      "loss": 1.5447,
      "step": 74439
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7055259346961975,
      "learning_rate": 4.394113244458126e-05,
      "loss": 1.5351,
      "step": 74440
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6845409274101257,
      "learning_rate": 4.393568658296524e-05,
      "loss": 1.5352,
      "step": 74441
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6836708188056946,
      "learning_rate": 4.393024103217351e-05,
      "loss": 1.5024,
      "step": 74442
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6399655938148499,
      "learning_rate": 4.3924795792212775e-05,
      "loss": 1.5369,
      "step": 74443
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.672944188117981,
      "learning_rate": 4.391935086308956e-05,
      "loss": 1.4908,
      "step": 74444
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6459134221076965,
      "learning_rate": 4.3913906244810604e-05,
      "loss": 1.5048,
      "step": 74445
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6471341848373413,
      "learning_rate": 4.3908461937382355e-05,
      "loss": 1.5047,
      "step": 74446
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6508007049560547,
      "learning_rate": 4.3903017940811546e-05,
      "loss": 1.479,
      "step": 74447
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.8632929921150208,
      "learning_rate": 4.3897574255104775e-05,
      "loss": 1.6285,
      "step": 74448
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.663677990436554,
      "learning_rate": 4.389213088026853e-05,
      "loss": 1.4957,
      "step": 74449
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6915109753608704,
      "learning_rate": 4.388668781630957e-05,
      "loss": 1.555,
      "step": 74450
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6658942699432373,
      "learning_rate": 4.388124506323437e-05,
      "loss": 1.6273,
      "step": 74451
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6728614568710327,
      "learning_rate": 4.387580262104965e-05,
      "loss": 1.4965,
      "step": 74452
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6594949960708618,
      "learning_rate": 4.387036048976197e-05,
      "loss": 1.5024,
      "step": 74453
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6464026570320129,
      "learning_rate": 4.386491866937789e-05,
      "loss": 1.5927,
      "step": 74454
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6209714412689209,
      "learning_rate": 4.385947715990411e-05,
      "loss": 1.4995,
      "step": 74455
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6646151542663574,
      "learning_rate": 4.3854035961347124e-05,
      "loss": 1.5624,
      "step": 74456
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6469278931617737,
      "learning_rate": 4.384859507371366e-05,
      "loss": 1.5338,
      "step": 74457
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6475259065628052,
      "learning_rate": 4.3843154497010204e-05,
      "loss": 1.527,
      "step": 74458
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6628522276878357,
      "learning_rate": 4.383771423124346e-05,
      "loss": 1.5491,
      "step": 74459
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.653484046459198,
      "learning_rate": 4.383227427642002e-05,
      "loss": 1.5238,
      "step": 74460
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6551290154457092,
      "learning_rate": 4.382683463254635e-05,
      "loss": 1.4528,
      "step": 74461
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6511254906654358,
      "learning_rate": 4.382139529962924e-05,
      "loss": 1.4859,
      "step": 74462
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6413475275039673,
      "learning_rate": 4.381595627767521e-05,
      "loss": 1.5259,
      "step": 74463
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6629538536071777,
      "learning_rate": 4.381051756669081e-05,
      "loss": 1.5162,
      "step": 74464
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6750659346580505,
      "learning_rate": 4.3805079166682675e-05,
      "loss": 1.5526,
      "step": 74465
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6813601851463318,
      "learning_rate": 4.379964107765749e-05,
      "loss": 1.4798,
      "step": 74466
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6748449802398682,
      "learning_rate": 4.37942032996218e-05,
      "loss": 1.5725,
      "step": 74467
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6603769659996033,
      "learning_rate": 4.378876583258214e-05,
      "loss": 1.6223,
      "step": 74468
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6687665581703186,
      "learning_rate": 4.3783328676545206e-05,
      "loss": 1.5226,
      "step": 74469
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6691340804100037,
      "learning_rate": 4.377789183151759e-05,
      "loss": 1.5874,
      "step": 74470
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6852637529373169,
      "learning_rate": 4.377245529750578e-05,
      "loss": 1.5176,
      "step": 74471
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.631779670715332,
      "learning_rate": 4.376701907451645e-05,
      "loss": 1.4755,
      "step": 74472
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6628170609474182,
      "learning_rate": 4.3761583162556354e-05,
      "loss": 1.5251,
      "step": 74473
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.673556923866272,
      "learning_rate": 4.375614756163179e-05,
      "loss": 1.5391,
      "step": 74474
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7041203379631042,
      "learning_rate": 4.375071227174952e-05,
      "loss": 1.5074,
      "step": 74475
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.656607985496521,
      "learning_rate": 4.374527729291617e-05,
      "loss": 1.5426,
      "step": 74476
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6501111388206482,
      "learning_rate": 4.3739842625138334e-05,
      "loss": 1.4643,
      "step": 74477
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6753706336021423,
      "learning_rate": 4.373440826842247e-05,
      "loss": 1.5548,
      "step": 74478
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6548516750335693,
      "learning_rate": 4.372897422277531e-05,
      "loss": 1.5475,
      "step": 74479
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6707490086555481,
      "learning_rate": 4.3723540488203524e-05,
      "loss": 1.5182,
      "step": 74480
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6600143909454346,
      "learning_rate": 4.3718107064713456e-05,
      "loss": 1.5163,
      "step": 74481
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6392213106155396,
      "learning_rate": 4.3712673952311884e-05,
      "loss": 1.3847,
      "step": 74482
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6663406491279602,
      "learning_rate": 4.370724115100539e-05,
      "loss": 1.5626,
      "step": 74483
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7060445547103882,
      "learning_rate": 4.3701808660800574e-05,
      "loss": 1.5231,
      "step": 74484
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6563194990158081,
      "learning_rate": 4.36963764817039e-05,
      "loss": 1.5578,
      "step": 74485
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6492694616317749,
      "learning_rate": 4.369094461372209e-05,
      "loss": 1.4911,
      "step": 74486
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6694411635398865,
      "learning_rate": 4.368551305686184e-05,
      "loss": 1.4653,
      "step": 74487
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6540355086326599,
      "learning_rate": 4.3680081811129454e-05,
      "loss": 1.5205,
      "step": 74488
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.661322832107544,
      "learning_rate": 4.367465087653172e-05,
      "loss": 1.5557,
      "step": 74489
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6422154307365417,
      "learning_rate": 4.366922025307522e-05,
      "loss": 1.4653,
      "step": 74490
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.650382399559021,
      "learning_rate": 4.366378994076654e-05,
      "loss": 1.5388,
      "step": 74491
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6787835359573364,
      "learning_rate": 4.3658359939612154e-05,
      "loss": 1.5623,
      "step": 74492
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6202836632728577,
      "learning_rate": 4.365293024961883e-05,
      "loss": 1.4867,
      "step": 74493
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.689143180847168,
      "learning_rate": 4.364750087079311e-05,
      "loss": 1.653,
      "step": 74494
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6427891850471497,
      "learning_rate": 4.364207180314143e-05,
      "loss": 1.508,
      "step": 74495
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6744385957717896,
      "learning_rate": 4.363664304667054e-05,
      "loss": 1.4732,
      "step": 74496
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6530030965805054,
      "learning_rate": 4.363121460138705e-05,
      "loss": 1.4987,
      "step": 74497
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6743303537368774,
      "learning_rate": 4.3625786467297506e-05,
      "loss": 1.5002,
      "step": 74498
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6664240956306458,
      "learning_rate": 4.3620358644408394e-05,
      "loss": 1.5125,
      "step": 74499
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.67304527759552,
      "learning_rate": 4.361493113272647e-05,
      "loss": 1.5455,
      "step": 74500
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6616452932357788,
      "learning_rate": 4.3609503932258236e-05,
      "loss": 1.4734,
      "step": 74501
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6460641622543335,
      "learning_rate": 4.360407704301022e-05,
      "loss": 1.5017,
      "step": 74502
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6688302755355835,
      "learning_rate": 4.359865046498915e-05,
      "loss": 1.5694,
      "step": 74503
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6569704413414001,
      "learning_rate": 4.359322419820145e-05,
      "loss": 1.5437,
      "step": 74504
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6716014742851257,
      "learning_rate": 4.358779824265388e-05,
      "loss": 1.5402,
      "step": 74505
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6738470792770386,
      "learning_rate": 4.358237259835288e-05,
      "loss": 1.4957,
      "step": 74506
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6449557542800903,
      "learning_rate": 4.357694726530516e-05,
      "loss": 1.5642,
      "step": 74507
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6459842920303345,
      "learning_rate": 4.3571522243517264e-05,
      "loss": 1.5049,
      "step": 74508
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.660296618938446,
      "learning_rate": 4.3566097532995646e-05,
      "loss": 1.5257,
      "step": 74509
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6290316581726074,
      "learning_rate": 4.35606731337471e-05,
      "loss": 1.4774,
      "step": 74510
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6911334991455078,
      "learning_rate": 4.3555249045778065e-05,
      "loss": 1.6051,
      "step": 74511
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6624985933303833,
      "learning_rate": 4.354982526909519e-05,
      "loss": 1.4588,
      "step": 74512
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6560288071632385,
      "learning_rate": 4.354440180370506e-05,
      "loss": 1.5466,
      "step": 74513
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6515374779701233,
      "learning_rate": 4.3538978649614196e-05,
      "loss": 1.4962,
      "step": 74514
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6714488863945007,
      "learning_rate": 4.353355580682928e-05,
      "loss": 1.5844,
      "step": 74515
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6755651235580444,
      "learning_rate": 4.3528133275356734e-05,
      "loss": 1.4731,
      "step": 74516
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.653110146522522,
      "learning_rate": 4.3522711055203366e-05,
      "loss": 1.4811,
      "step": 74517
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.655885636806488,
      "learning_rate": 4.351728914637552e-05,
      "loss": 1.4765,
      "step": 74518
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6590802669525146,
      "learning_rate": 4.351186754888001e-05,
      "loss": 1.5328,
      "step": 74519
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6747739315032959,
      "learning_rate": 4.350644626272328e-05,
      "loss": 1.5427,
      "step": 74520
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6699510812759399,
      "learning_rate": 4.350102528791184e-05,
      "loss": 1.6128,
      "step": 74521
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6507439017295837,
      "learning_rate": 4.349560462445247e-05,
      "loss": 1.5359,
      "step": 74522
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6737247705459595,
      "learning_rate": 4.349018427235155e-05,
      "loss": 1.5255,
      "step": 74523
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6584726572036743,
      "learning_rate": 4.348476423161582e-05,
      "loss": 1.5471,
      "step": 74524
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6643200516700745,
      "learning_rate": 4.3479344502251726e-05,
      "loss": 1.5055,
      "step": 74525
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6636393666267395,
      "learning_rate": 4.347392508426598e-05,
      "loss": 1.5265,
      "step": 74526
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6783643960952759,
      "learning_rate": 4.346850597766509e-05,
      "loss": 1.5197,
      "step": 74527
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6419767737388611,
      "learning_rate": 4.346308718245558e-05,
      "loss": 1.5019,
      "step": 74528
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6721996665000916,
      "learning_rate": 4.345766869864415e-05,
      "loss": 1.57,
      "step": 74529
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6737937927246094,
      "learning_rate": 4.345225052623728e-05,
      "loss": 1.4803,
      "step": 74530
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6529803276062012,
      "learning_rate": 4.3446832665241536e-05,
      "loss": 1.5202,
      "step": 74531
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6674118041992188,
      "learning_rate": 4.344141511566352e-05,
      "loss": 1.5125,
      "step": 74532
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6464173197746277,
      "learning_rate": 4.34359978775099e-05,
      "loss": 1.4389,
      "step": 74533
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6577030420303345,
      "learning_rate": 4.343058095078719e-05,
      "loss": 1.4963,
      "step": 74534
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6337646842002869,
      "learning_rate": 4.3425164335501884e-05,
      "loss": 1.5599,
      "step": 74535
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6523756384849548,
      "learning_rate": 4.341974803166065e-05,
      "loss": 1.442,
      "step": 74536
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6650176048278809,
      "learning_rate": 4.3414332039270083e-05,
      "loss": 1.589,
      "step": 74537
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.8875640034675598,
      "learning_rate": 4.340891635833661e-05,
      "loss": 1.6051,
      "step": 74538
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6599302887916565,
      "learning_rate": 4.3403500988866926e-05,
      "loss": 1.4743,
      "step": 74539
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6860132217407227,
      "learning_rate": 4.339808593086765e-05,
      "loss": 1.5614,
      "step": 74540
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6575213074684143,
      "learning_rate": 4.33926711843453e-05,
      "loss": 1.5662,
      "step": 74541
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6445825099945068,
      "learning_rate": 4.338725674930634e-05,
      "loss": 1.5374,
      "step": 74542
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6726003289222717,
      "learning_rate": 4.338184262575752e-05,
      "loss": 1.498,
      "step": 74543
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6651948690414429,
      "learning_rate": 4.3376428813705335e-05,
      "loss": 1.5111,
      "step": 74544
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6827260851860046,
      "learning_rate": 4.3371015313156296e-05,
      "loss": 1.5149,
      "step": 74545
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6381080746650696,
      "learning_rate": 4.3365602124117014e-05,
      "loss": 1.4872,
      "step": 74546
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6230981945991516,
      "learning_rate": 4.336018924659415e-05,
      "loss": 1.4175,
      "step": 74547
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6444562673568726,
      "learning_rate": 4.3354776680594214e-05,
      "loss": 1.5484,
      "step": 74548
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6595687866210938,
      "learning_rate": 4.334936442612369e-05,
      "loss": 1.4533,
      "step": 74549
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6476161479949951,
      "learning_rate": 4.334395248318929e-05,
      "loss": 1.5113,
      "step": 74550
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6918525099754333,
      "learning_rate": 4.333854085179752e-05,
      "loss": 1.4739,
      "step": 74551
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6916508078575134,
      "learning_rate": 4.333312953195487e-05,
      "loss": 1.5409,
      "step": 74552
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6541039943695068,
      "learning_rate": 4.3327718523667967e-05,
      "loss": 1.6186,
      "step": 74553
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6862055063247681,
      "learning_rate": 4.3322307826943504e-05,
      "loss": 1.5721,
      "step": 74554
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.662572979927063,
      "learning_rate": 4.331689744178791e-05,
      "loss": 1.445,
      "step": 74555
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6991097927093506,
      "learning_rate": 4.331148736820772e-05,
      "loss": 1.5573,
      "step": 74556
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6406128406524658,
      "learning_rate": 4.330607760620962e-05,
      "loss": 1.4646,
      "step": 74557
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.646477460861206,
      "learning_rate": 4.330066815580011e-05,
      "loss": 1.4368,
      "step": 74558
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6459458470344543,
      "learning_rate": 4.3295259016985714e-05,
      "loss": 1.5497,
      "step": 74559
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6456645727157593,
      "learning_rate": 4.3289850189773134e-05,
      "loss": 1.5102,
      "step": 74560
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6583860516548157,
      "learning_rate": 4.328444167416879e-05,
      "loss": 1.534,
      "step": 74561
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6791695952415466,
      "learning_rate": 4.327903347017935e-05,
      "loss": 1.5214,
      "step": 74562
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6681492328643799,
      "learning_rate": 4.3273625577811264e-05,
      "loss": 1.4801,
      "step": 74563
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6749305725097656,
      "learning_rate": 4.326821799707124e-05,
      "loss": 1.6081,
      "step": 74564
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6580011248588562,
      "learning_rate": 4.32628107279658e-05,
      "loss": 1.5308,
      "step": 74565
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6727510690689087,
      "learning_rate": 4.325740377050138e-05,
      "loss": 1.5091,
      "step": 74566
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6725119948387146,
      "learning_rate": 4.3251997124684724e-05,
      "loss": 1.5037,
      "step": 74567
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6687584519386292,
      "learning_rate": 4.324659079052224e-05,
      "loss": 1.5889,
      "step": 74568
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6604285836219788,
      "learning_rate": 4.3241184768020655e-05,
      "loss": 1.5283,
      "step": 74569
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6658182144165039,
      "learning_rate": 4.3235779057186426e-05,
      "loss": 1.574,
      "step": 74570
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6897996664047241,
      "learning_rate": 4.3230373658026054e-05,
      "loss": 1.5607,
      "step": 74571
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6570067405700684,
      "learning_rate": 4.322496857054623e-05,
      "loss": 1.4815,
      "step": 74572
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6642910242080688,
      "learning_rate": 4.321956379475341e-05,
      "loss": 1.5219,
      "step": 74573
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6531518697738647,
      "learning_rate": 4.3214159330654264e-05,
      "loss": 1.4264,
      "step": 74574
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6796706914901733,
      "learning_rate": 4.320875517825525e-05,
      "loss": 1.5514,
      "step": 74575
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6728348135948181,
      "learning_rate": 4.320335133756303e-05,
      "loss": 1.5279,
      "step": 74576
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.667479395866394,
      "learning_rate": 4.3197947808584066e-05,
      "loss": 1.4733,
      "step": 74577
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6313642859458923,
      "learning_rate": 4.319254459132492e-05,
      "loss": 1.5166,
      "step": 74578
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.660304069519043,
      "learning_rate": 4.318714168579225e-05,
      "loss": 1.5627,
      "step": 74579
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6406447887420654,
      "learning_rate": 4.318173909199255e-05,
      "loss": 1.4565,
      "step": 74580
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6713688373565674,
      "learning_rate": 4.317633680993232e-05,
      "loss": 1.5065,
      "step": 74581
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6576012372970581,
      "learning_rate": 4.317093483961815e-05,
      "loss": 1.5211,
      "step": 74582
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6500036120414734,
      "learning_rate": 4.316553318105671e-05,
      "loss": 1.5802,
      "step": 74583
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6574684381484985,
      "learning_rate": 4.3160131834254485e-05,
      "loss": 1.5749,
      "step": 74584
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6488063335418701,
      "learning_rate": 4.315473079921794e-05,
      "loss": 1.5741,
      "step": 74585
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6631878614425659,
      "learning_rate": 4.314933007595377e-05,
      "loss": 1.5468,
      "step": 74586
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6690583825111389,
      "learning_rate": 4.314392966446844e-05,
      "loss": 1.5809,
      "step": 74587
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6689629554748535,
      "learning_rate": 4.31385295647685e-05,
      "loss": 1.4626,
      "step": 74588
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6393003463745117,
      "learning_rate": 4.313312977686052e-05,
      "loss": 1.5038,
      "step": 74589
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7053557634353638,
      "learning_rate": 4.312773030075123e-05,
      "loss": 1.5771,
      "step": 74590
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6514920592308044,
      "learning_rate": 4.312233113644689e-05,
      "loss": 1.5073,
      "step": 74591
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6764060854911804,
      "learning_rate": 4.3116932283954156e-05,
      "loss": 1.573,
      "step": 74592
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6508324146270752,
      "learning_rate": 4.3111533743279725e-05,
      "loss": 1.5162,
      "step": 74593
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6542649269104004,
      "learning_rate": 4.310613551443003e-05,
      "loss": 1.5312,
      "step": 74594
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.67605060338974,
      "learning_rate": 4.3100737597411525e-05,
      "loss": 1.5737,
      "step": 74595
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6586238741874695,
      "learning_rate": 4.3095339992230916e-05,
      "loss": 1.4722,
      "step": 74596
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6404898166656494,
      "learning_rate": 4.308994269889485e-05,
      "loss": 1.5284,
      "step": 74597
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.675297200679779,
      "learning_rate": 4.3084545717409605e-05,
      "loss": 1.5593,
      "step": 74598
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6714608073234558,
      "learning_rate": 4.3079149047781826e-05,
      "loss": 1.4728,
      "step": 74599
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6694178581237793,
      "learning_rate": 4.3073752690018216e-05,
      "loss": 1.5292,
      "step": 74600
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.66060870885849,
      "learning_rate": 4.3068356644125204e-05,
      "loss": 1.5682,
      "step": 74601
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6790805459022522,
      "learning_rate": 4.3062960910109276e-05,
      "loss": 1.5494,
      "step": 74602
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6425662636756897,
      "learning_rate": 4.305756548797704e-05,
      "loss": 1.4101,
      "step": 74603
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6481883525848389,
      "learning_rate": 4.3052170377735216e-05,
      "loss": 1.5333,
      "step": 74604
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6647002100944519,
      "learning_rate": 4.3046775579390066e-05,
      "loss": 1.514,
      "step": 74605
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6534525156021118,
      "learning_rate": 4.304138109294826e-05,
      "loss": 1.5186,
      "step": 74606
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.648175060749054,
      "learning_rate": 4.303598691841644e-05,
      "loss": 1.5216,
      "step": 74607
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6673685908317566,
      "learning_rate": 4.3030593055801055e-05,
      "loss": 1.5438,
      "step": 74608
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6479651927947998,
      "learning_rate": 4.302519950510859e-05,
      "loss": 1.5046,
      "step": 74609
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6930810213088989,
      "learning_rate": 4.301980626634577e-05,
      "loss": 1.5827,
      "step": 74610
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6696714162826538,
      "learning_rate": 4.3014413339518996e-05,
      "loss": 1.4971,
      "step": 74611
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6679120063781738,
      "learning_rate": 4.3009020724634825e-05,
      "loss": 1.4027,
      "step": 74612
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6686223745346069,
      "learning_rate": 4.300362842169982e-05,
      "loss": 1.5399,
      "step": 74613
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6468029618263245,
      "learning_rate": 4.2998236430720614e-05,
      "loss": 1.5038,
      "step": 74614
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6400212645530701,
      "learning_rate": 4.299284475170369e-05,
      "loss": 1.5884,
      "step": 74615
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6305010914802551,
      "learning_rate": 4.298745338465552e-05,
      "loss": 1.4451,
      "step": 74616
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6600720286369324,
      "learning_rate": 4.298206232958277e-05,
      "loss": 1.5102,
      "step": 74617
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6678107976913452,
      "learning_rate": 4.2976671586491954e-05,
      "loss": 1.4454,
      "step": 74618
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6713704466819763,
      "learning_rate": 4.297128115538947e-05,
      "loss": 1.5242,
      "step": 74619
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6698501706123352,
      "learning_rate": 4.2965891036282084e-05,
      "loss": 1.5904,
      "step": 74620
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6438590884208679,
      "learning_rate": 4.296050122917616e-05,
      "loss": 1.5256,
      "step": 74621
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6487990021705627,
      "learning_rate": 4.2955111734078354e-05,
      "loss": 1.5119,
      "step": 74622
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6793118119239807,
      "learning_rate": 4.294972255099512e-05,
      "loss": 1.5585,
      "step": 74623
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6739778518676758,
      "learning_rate": 4.294433367993314e-05,
      "loss": 1.5131,
      "step": 74624
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6522341966629028,
      "learning_rate": 4.293894512089883e-05,
      "loss": 1.5115,
      "step": 74625
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6569124460220337,
      "learning_rate": 4.293355687389871e-05,
      "loss": 1.4831,
      "step": 74626
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6471573710441589,
      "learning_rate": 4.292816893893946e-05,
      "loss": 1.5233,
      "step": 74627
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.682136058807373,
      "learning_rate": 4.2922781316027454e-05,
      "loss": 1.5423,
      "step": 74628
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6413115859031677,
      "learning_rate": 4.291739400516937e-05,
      "loss": 1.534,
      "step": 74629
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6758032441139221,
      "learning_rate": 4.29120070063717e-05,
      "loss": 1.483,
      "step": 74630
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6416943669319153,
      "learning_rate": 4.2906620319640895e-05,
      "loss": 1.5704,
      "step": 74631
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6756352782249451,
      "learning_rate": 4.290123394498366e-05,
      "loss": 1.482,
      "step": 74632
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6944286823272705,
      "learning_rate": 4.2895847882406356e-05,
      "loss": 1.4793,
      "step": 74633
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6555464267730713,
      "learning_rate": 4.2890462131915707e-05,
      "loss": 1.5125,
      "step": 74634
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6510749459266663,
      "learning_rate": 4.288507669351804e-05,
      "loss": 1.5704,
      "step": 74635
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6525086760520935,
      "learning_rate": 4.2879691567220124e-05,
      "loss": 1.4663,
      "step": 74636
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6517829298973083,
      "learning_rate": 4.287430675302834e-05,
      "loss": 1.4834,
      "step": 74637
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6569452285766602,
      "learning_rate": 4.2868922250949203e-05,
      "loss": 1.4305,
      "step": 74638
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6932730674743652,
      "learning_rate": 4.2863538060989385e-05,
      "loss": 1.5123,
      "step": 74639
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6818552613258362,
      "learning_rate": 4.2858154183155266e-05,
      "loss": 1.5139,
      "step": 74640
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6706655025482178,
      "learning_rate": 4.285277061745353e-05,
      "loss": 1.5151,
      "step": 74641
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6951623558998108,
      "learning_rate": 4.284738736389058e-05,
      "loss": 1.5429,
      "step": 74642
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6720051765441895,
      "learning_rate": 4.2842004422473076e-05,
      "loss": 1.4978,
      "step": 74643
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6618608236312866,
      "learning_rate": 4.283662179320751e-05,
      "loss": 1.567,
      "step": 74644
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6397592425346375,
      "learning_rate": 4.28312394761003e-05,
      "loss": 1.5469,
      "step": 74645
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6425531506538391,
      "learning_rate": 4.2825857471158155e-05,
      "loss": 1.5119,
      "step": 74646
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6574705839157104,
      "learning_rate": 4.28204757783875e-05,
      "loss": 1.5185,
      "step": 74647
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6777560114860535,
      "learning_rate": 4.281509439779486e-05,
      "loss": 1.5554,
      "step": 74648
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6455316543579102,
      "learning_rate": 4.2809713329386766e-05,
      "loss": 1.489,
      "step": 74649
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6587595343589783,
      "learning_rate": 4.2804332573169876e-05,
      "loss": 1.583,
      "step": 74650
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6628285050392151,
      "learning_rate": 4.279895212915062e-05,
      "loss": 1.5597,
      "step": 74651
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6429675817489624,
      "learning_rate": 4.27935719973355e-05,
      "loss": 1.5323,
      "step": 74652
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6577554941177368,
      "learning_rate": 4.27881921777311e-05,
      "loss": 1.5614,
      "step": 74653
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7195977568626404,
      "learning_rate": 4.278281267034398e-05,
      "loss": 1.5353,
      "step": 74654
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6527631282806396,
      "learning_rate": 4.277743347518054e-05,
      "loss": 1.4551,
      "step": 74655
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6629499197006226,
      "learning_rate": 4.277205459224742e-05,
      "loss": 1.4973,
      "step": 74656
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6364689469337463,
      "learning_rate": 4.276667602155116e-05,
      "loss": 1.5354,
      "step": 74657
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6839472055435181,
      "learning_rate": 4.276129776309827e-05,
      "loss": 1.5998,
      "step": 74658
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6695073246955872,
      "learning_rate": 4.2755919816895204e-05,
      "loss": 1.5506,
      "step": 74659
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6802265644073486,
      "learning_rate": 4.275054218294859e-05,
      "loss": 1.5016,
      "step": 74660
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6485581994056702,
      "learning_rate": 4.2745164861264924e-05,
      "loss": 1.4898,
      "step": 74661
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6591169238090515,
      "learning_rate": 4.273978785185067e-05,
      "loss": 1.4745,
      "step": 74662
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6415478587150574,
      "learning_rate": 4.273441115471239e-05,
      "loss": 1.531,
      "step": 74663
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6312358975410461,
      "learning_rate": 4.272903476985671e-05,
      "loss": 1.4859,
      "step": 74664
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6558089852333069,
      "learning_rate": 4.2723658697290056e-05,
      "loss": 1.4708,
      "step": 74665
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6556735634803772,
      "learning_rate": 4.271828293701892e-05,
      "loss": 1.4986,
      "step": 74666
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.7188076972961426,
      "learning_rate": 4.2712907489049944e-05,
      "loss": 1.5253,
      "step": 74667
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6296712756156921,
      "learning_rate": 4.2707532353389604e-05,
      "loss": 1.5452,
      "step": 74668
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6329502463340759,
      "learning_rate": 4.270215753004431e-05,
      "loss": 1.411,
      "step": 74669
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6893339157104492,
      "learning_rate": 4.269678301902072e-05,
      "loss": 1.4627,
      "step": 74670
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6825998425483704,
      "learning_rate": 4.269140882032536e-05,
      "loss": 1.562,
      "step": 74671
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6701145172119141,
      "learning_rate": 4.268603493396475e-05,
      "loss": 1.5811,
      "step": 74672
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6698563694953918,
      "learning_rate": 4.268066135994527e-05,
      "loss": 1.5305,
      "step": 74673
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6639785766601562,
      "learning_rate": 4.2675288098273665e-05,
      "loss": 1.5369,
      "step": 74674
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6766452193260193,
      "learning_rate": 4.2669915148956304e-05,
      "loss": 1.5436,
      "step": 74675
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6577298641204834,
      "learning_rate": 4.266454251199971e-05,
      "loss": 1.5291,
      "step": 74676
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6439357399940491,
      "learning_rate": 4.2659170187410516e-05,
      "loss": 1.5209,
      "step": 74677
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6678359508514404,
      "learning_rate": 4.2653798175195087e-05,
      "loss": 1.5252,
      "step": 74678
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6736008524894714,
      "learning_rate": 4.264842647536011e-05,
      "loss": 1.4871,
      "step": 74679
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6466526389122009,
      "learning_rate": 4.2643055087911946e-05,
      "loss": 1.4793,
      "step": 74680
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6567268371582031,
      "learning_rate": 4.2637684012857265e-05,
      "loss": 1.4933,
      "step": 74681
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6582163572311401,
      "learning_rate": 4.263231325020252e-05,
      "loss": 1.4501,
      "step": 74682
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.665745198726654,
      "learning_rate": 4.262694279995414e-05,
      "loss": 1.4271,
      "step": 74683
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.633171021938324,
      "learning_rate": 4.262157266211883e-05,
      "loss": 1.5323,
      "step": 74684
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6619152426719666,
      "learning_rate": 4.2616202836702905e-05,
      "loss": 1.5711,
      "step": 74685
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6628722548484802,
      "learning_rate": 4.261083332371307e-05,
      "loss": 1.5579,
      "step": 74686
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6552295684814453,
      "learning_rate": 4.260546412315578e-05,
      "loss": 1.5222,
      "step": 74687
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6962074041366577,
      "learning_rate": 4.2600095235037425e-05,
      "loss": 1.5086,
      "step": 74688
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6472877860069275,
      "learning_rate": 4.2594726659364705e-05,
      "loss": 1.4751,
      "step": 74689
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6513381004333496,
      "learning_rate": 4.258935839614399e-05,
      "loss": 1.4923,
      "step": 74690
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.6653990149497986,
      "learning_rate": 4.258399044538197e-05,
      "loss": 1.4352,
      "step": 74691
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.652437686920166,
      "learning_rate": 4.257862280708496e-05,
      "loss": 1.4913,
      "step": 74692
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6655925512313843,
      "learning_rate": 4.2573255481259636e-05,
      "loss": 1.5706,
      "step": 74693
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6511655449867249,
      "learning_rate": 4.256788846791246e-05,
      "loss": 1.5263,
      "step": 74694
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.639649510383606,
      "learning_rate": 4.256252176704985e-05,
      "loss": 1.5499,
      "step": 74695
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6651113629341125,
      "learning_rate": 4.255715537867851e-05,
      "loss": 1.4976,
      "step": 74696
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6513649225234985,
      "learning_rate": 4.255178930280483e-05,
      "loss": 1.4834,
      "step": 74697
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6516058444976807,
      "learning_rate": 4.254642353943527e-05,
      "loss": 1.5408,
      "step": 74698
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6762486100196838,
      "learning_rate": 4.254105808857643e-05,
      "loss": 1.5495,
      "step": 74699
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6763333678245544,
      "learning_rate": 4.253569295023487e-05,
      "loss": 1.4852,
      "step": 74700
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6751927137374878,
      "learning_rate": 4.253032812441704e-05,
      "loss": 1.5256,
      "step": 74701
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6452850699424744,
      "learning_rate": 4.2524963611129395e-05,
      "loss": 1.4797,
      "step": 74702
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6551837921142578,
      "learning_rate": 4.251959941037857e-05,
      "loss": 1.4648,
      "step": 74703
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6392834782600403,
      "learning_rate": 4.2514235522171034e-05,
      "loss": 1.5131,
      "step": 74704
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6770025491714478,
      "learning_rate": 4.250887194651319e-05,
      "loss": 1.5709,
      "step": 74705
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.641919732093811,
      "learning_rate": 4.2503508683411626e-05,
      "loss": 1.5248,
      "step": 74706
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6609455943107605,
      "learning_rate": 4.2498145732873034e-05,
      "loss": 1.5201,
      "step": 74707
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6717926859855652,
      "learning_rate": 4.2492783094903585e-05,
      "loss": 1.4917,
      "step": 74708
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6576966643333435,
      "learning_rate": 4.248742076950996e-05,
      "loss": 1.5985,
      "step": 74709
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6541283130645752,
      "learning_rate": 4.2482058756698736e-05,
      "loss": 1.5049,
      "step": 74710
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6776230335235596,
      "learning_rate": 4.247669705647636e-05,
      "loss": 1.5393,
      "step": 74711
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6682388186454773,
      "learning_rate": 4.2471335668849237e-05,
      "loss": 1.5461,
      "step": 74712
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6594880819320679,
      "learning_rate": 4.246597459382399e-05,
      "loss": 1.4954,
      "step": 74713
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6589082479476929,
      "learning_rate": 4.246061383140722e-05,
      "loss": 1.5387,
      "step": 74714
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6484869718551636,
      "learning_rate": 4.2455253381605214e-05,
      "loss": 1.5456,
      "step": 74715
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6528574824333191,
      "learning_rate": 4.244989324442454e-05,
      "loss": 1.5371,
      "step": 74716
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6349745392799377,
      "learning_rate": 4.2444533419871854e-05,
      "loss": 1.3504,
      "step": 74717
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6487453579902649,
      "learning_rate": 4.243917390795351e-05,
      "loss": 1.525,
      "step": 74718
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6621022820472717,
      "learning_rate": 4.243381470867603e-05,
      "loss": 1.548,
      "step": 74719
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6628851890563965,
      "learning_rate": 4.242845582204595e-05,
      "loss": 1.5628,
      "step": 74720
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6601543426513672,
      "learning_rate": 4.2423097248069905e-05,
      "loss": 1.4717,
      "step": 74721
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6292986869812012,
      "learning_rate": 4.2417738986754125e-05,
      "loss": 1.4553,
      "step": 74722
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6888349652290344,
      "learning_rate": 4.2412381038105236e-05,
      "loss": 1.5555,
      "step": 74723
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6673057079315186,
      "learning_rate": 4.2407023402129866e-05,
      "loss": 1.5239,
      "step": 74724
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6374416947364807,
      "learning_rate": 4.2401666078834384e-05,
      "loss": 1.5168,
      "step": 74725
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6522347331047058,
      "learning_rate": 4.2396309068225276e-05,
      "loss": 1.4889,
      "step": 74726
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6244036555290222,
      "learning_rate": 4.2390952370309174e-05,
      "loss": 1.5318,
      "step": 74727
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6380383372306824,
      "learning_rate": 4.238559598509247e-05,
      "loss": 1.4853,
      "step": 74728
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.659033477306366,
      "learning_rate": 4.2380239912581627e-05,
      "loss": 1.562,
      "step": 74729
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6516390442848206,
      "learning_rate": 4.237488415278324e-05,
      "loss": 1.5392,
      "step": 74730
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6603591442108154,
      "learning_rate": 4.236952870570384e-05,
      "loss": 1.5223,
      "step": 74731
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6670142412185669,
      "learning_rate": 4.236417357134988e-05,
      "loss": 1.5171,
      "step": 74732
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6689867973327637,
      "learning_rate": 4.235881874972776e-05,
      "loss": 1.5112,
      "step": 74733
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6603380441665649,
      "learning_rate": 4.235346424084415e-05,
      "loss": 1.4865,
      "step": 74734
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6603584289550781,
      "learning_rate": 4.2348110044705494e-05,
      "loss": 1.44,
      "step": 74735
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6581034660339355,
      "learning_rate": 4.234275616131817e-05,
      "loss": 1.5371,
      "step": 74736
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6717252135276794,
      "learning_rate": 4.2337402590688866e-05,
      "loss": 1.4415,
      "step": 74737
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6568654775619507,
      "learning_rate": 4.2332049332823905e-05,
      "loss": 1.5289,
      "step": 74738
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6651085019111633,
      "learning_rate": 4.232669638772995e-05,
      "loss": 1.4913,
      "step": 74739
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6653746366500854,
      "learning_rate": 4.232134375541334e-05,
      "loss": 1.5533,
      "step": 74740
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6351263523101807,
      "learning_rate": 4.2315991435880723e-05,
      "loss": 1.5337,
      "step": 74741
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6569526195526123,
      "learning_rate": 4.231063942913854e-05,
      "loss": 1.4821,
      "step": 74742
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6474529504776001,
      "learning_rate": 4.2305287735193205e-05,
      "loss": 1.3976,
      "step": 74743
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6289440393447876,
      "learning_rate": 4.2299936354051325e-05,
      "loss": 1.4694,
      "step": 74744
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6865728497505188,
      "learning_rate": 4.2294585285719316e-05,
      "loss": 1.5537,
      "step": 74745
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6567183136940002,
      "learning_rate": 4.228923453020375e-05,
      "loss": 1.4939,
      "step": 74746
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.664125919342041,
      "learning_rate": 4.228388408751109e-05,
      "loss": 1.5909,
      "step": 74747
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6621178388595581,
      "learning_rate": 4.2278533957647754e-05,
      "loss": 1.4868,
      "step": 74748
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6657088398933411,
      "learning_rate": 4.2273184140620375e-05,
      "loss": 1.4668,
      "step": 74749
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.659165620803833,
      "learning_rate": 4.226783463643528e-05,
      "loss": 1.5784,
      "step": 74750
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6808422207832336,
      "learning_rate": 4.226248544509917e-05,
      "loss": 1.5001,
      "step": 74751
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6518780589103699,
      "learning_rate": 4.225713656661833e-05,
      "loss": 1.5441,
      "step": 74752
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6433354616165161,
      "learning_rate": 4.225178800099943e-05,
      "loss": 1.4538,
      "step": 74753
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6356940269470215,
      "learning_rate": 4.22464397482489e-05,
      "loss": 1.4383,
      "step": 74754
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6524731516838074,
      "learning_rate": 4.2241091808373117e-05,
      "loss": 1.5093,
      "step": 74755
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6450072526931763,
      "learning_rate": 4.223574418137876e-05,
      "loss": 1.4861,
      "step": 74756
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.675048828125,
      "learning_rate": 4.223039686727219e-05,
      "loss": 1.5092,
      "step": 74757
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6677801609039307,
      "learning_rate": 4.222504986605993e-05,
      "loss": 1.531,
      "step": 74758
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.650058925151825,
      "learning_rate": 4.2219703177748434e-05,
      "loss": 1.5425,
      "step": 74759
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6636614799499512,
      "learning_rate": 4.221435680234431e-05,
      "loss": 1.5331,
      "step": 74760
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6547717452049255,
      "learning_rate": 4.2209010739853975e-05,
      "loss": 1.4783,
      "step": 74761
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6549679636955261,
      "learning_rate": 4.2203664990283836e-05,
      "loss": 1.5532,
      "step": 74762
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6652092337608337,
      "learning_rate": 4.2198319553640546e-05,
      "loss": 1.4819,
      "step": 74763
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6749117970466614,
      "learning_rate": 4.2192974429930535e-05,
      "loss": 1.5123,
      "step": 74764
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6547794938087463,
      "learning_rate": 4.218762961916017e-05,
      "loss": 1.5054,
      "step": 74765
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7117593884468079,
      "learning_rate": 4.2182285121336036e-05,
      "loss": 1.6022,
      "step": 74766
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6449167132377625,
      "learning_rate": 4.21769409364647e-05,
      "loss": 1.43,
      "step": 74767
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6246132850646973,
      "learning_rate": 4.217159706455256e-05,
      "loss": 1.4851,
      "step": 74768
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6653071045875549,
      "learning_rate": 4.216625350560606e-05,
      "loss": 1.5004,
      "step": 74769
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6603421568870544,
      "learning_rate": 4.2160910259631786e-05,
      "loss": 1.5386,
      "step": 74770
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6577856540679932,
      "learning_rate": 4.215556732663619e-05,
      "loss": 1.5089,
      "step": 74771
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6636666059494019,
      "learning_rate": 4.2150224706625656e-05,
      "loss": 1.5022,
      "step": 74772
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6515675783157349,
      "learning_rate": 4.2144882399606795e-05,
      "loss": 1.4634,
      "step": 74773
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6388801336288452,
      "learning_rate": 4.213954040558609e-05,
      "loss": 1.4969,
      "step": 74774
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.662238597869873,
      "learning_rate": 4.2134198724569976e-05,
      "loss": 1.547,
      "step": 74775
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6853850483894348,
      "learning_rate": 4.2128857356564914e-05,
      "loss": 1.5638,
      "step": 74776
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6693649888038635,
      "learning_rate": 4.212351630157746e-05,
      "loss": 1.5738,
      "step": 74777
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6576027870178223,
      "learning_rate": 4.2118175559614086e-05,
      "loss": 1.4839,
      "step": 74778
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6491401791572571,
      "learning_rate": 4.2112835130681175e-05,
      "loss": 1.5685,
      "step": 74779
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.661399781703949,
      "learning_rate": 4.2107495014785295e-05,
      "loss": 1.5701,
      "step": 74780
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6526364088058472,
      "learning_rate": 4.210215521193298e-05,
      "loss": 1.5148,
      "step": 74781
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6583179831504822,
      "learning_rate": 4.209681572213064e-05,
      "loss": 1.5378,
      "step": 74782
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6786470413208008,
      "learning_rate": 4.209147654538472e-05,
      "loss": 1.6416,
      "step": 74783
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6618718504905701,
      "learning_rate": 4.2086137681701804e-05,
      "loss": 1.6017,
      "step": 74784
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6616998314857483,
      "learning_rate": 4.208079913108829e-05,
      "loss": 1.5027,
      "step": 74785
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6502242684364319,
      "learning_rate": 4.207546089355065e-05,
      "loss": 1.5597,
      "step": 74786
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6492271423339844,
      "learning_rate": 4.2070122969095364e-05,
      "loss": 1.53,
      "step": 74787
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6541708707809448,
      "learning_rate": 4.2064785357729034e-05,
      "loss": 1.6117,
      "step": 74788
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6648429036140442,
      "learning_rate": 4.205944805945806e-05,
      "loss": 1.5324,
      "step": 74789
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6619338989257812,
      "learning_rate": 4.205411107428882e-05,
      "loss": 1.6114,
      "step": 74790
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6649165153503418,
      "learning_rate": 4.204877440222796e-05,
      "loss": 1.5492,
      "step": 74791
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.660944402217865,
      "learning_rate": 4.204343804328186e-05,
      "loss": 1.5155,
      "step": 74792
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6703264117240906,
      "learning_rate": 4.203810199745696e-05,
      "loss": 1.4293,
      "step": 74793
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6820871233940125,
      "learning_rate": 4.203276626475989e-05,
      "loss": 1.548,
      "step": 74794
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6771056652069092,
      "learning_rate": 4.202743084519693e-05,
      "loss": 1.6226,
      "step": 74795
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6654197573661804,
      "learning_rate": 4.2022095738774756e-05,
      "loss": 1.5259,
      "step": 74796
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.656705379486084,
      "learning_rate": 4.201676094549965e-05,
      "loss": 1.5741,
      "step": 74797
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.652448832988739,
      "learning_rate": 4.2011426465378285e-05,
      "loss": 1.5619,
      "step": 74798
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6503918170928955,
      "learning_rate": 4.2006092298417014e-05,
      "loss": 1.5699,
      "step": 74799
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6435562372207642,
      "learning_rate": 4.2000758444622276e-05,
      "loss": 1.4592,
      "step": 74800
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6729515790939331,
      "learning_rate": 4.199542490400065e-05,
      "loss": 1.4725,
      "step": 74801
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6709949970245361,
      "learning_rate": 4.199009167655851e-05,
      "loss": 1.4455,
      "step": 74802
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6436490416526794,
      "learning_rate": 4.198475876230245e-05,
      "loss": 1.4455,
      "step": 74803
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6640871167182922,
      "learning_rate": 4.197942616123889e-05,
      "loss": 1.5225,
      "step": 74804
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6479824185371399,
      "learning_rate": 4.1974093873374204e-05,
      "loss": 1.5093,
      "step": 74805
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6596416234970093,
      "learning_rate": 4.196876189871501e-05,
      "loss": 1.5314,
      "step": 74806
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6518964171409607,
      "learning_rate": 4.196343023726767e-05,
      "loss": 1.5325,
      "step": 74807
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.694038987159729,
      "learning_rate": 4.195809888903875e-05,
      "loss": 1.4701,
      "step": 74808
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6460358500480652,
      "learning_rate": 4.195276785403464e-05,
      "loss": 1.5264,
      "step": 74809
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6733493804931641,
      "learning_rate": 4.194743713226191e-05,
      "loss": 1.5591,
      "step": 74810
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6456909775733948,
      "learning_rate": 4.194210672372694e-05,
      "loss": 1.5501,
      "step": 74811
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6562957763671875,
      "learning_rate": 4.1936776628436175e-05,
      "loss": 1.4995,
      "step": 74812
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6867018938064575,
      "learning_rate": 4.193144684639623e-05,
      "loss": 1.495,
      "step": 74813
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6613406538963318,
      "learning_rate": 4.192611737761348e-05,
      "loss": 1.5727,
      "step": 74814
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6571268439292908,
      "learning_rate": 4.19207882220943e-05,
      "loss": 1.4582,
      "step": 74815
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6590031981468201,
      "learning_rate": 4.1915459379845274e-05,
      "loss": 1.5128,
      "step": 74816
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6697254180908203,
      "learning_rate": 4.191013085087291e-05,
      "loss": 1.55,
      "step": 74817
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6802123785018921,
      "learning_rate": 4.1904802635183656e-05,
      "loss": 1.4881,
      "step": 74818
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6746034026145935,
      "learning_rate": 4.189947473278385e-05,
      "loss": 1.4638,
      "step": 74819
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6624162793159485,
      "learning_rate": 4.189414714368011e-05,
      "loss": 1.5174,
      "step": 74820
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6709692478179932,
      "learning_rate": 4.188881986787885e-05,
      "loss": 1.4799,
      "step": 74821
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6527451872825623,
      "learning_rate": 4.1883492905386475e-05,
      "loss": 1.4877,
      "step": 74822
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6653426289558411,
      "learning_rate": 4.18781662562095e-05,
      "loss": 1.4404,
      "step": 74823
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6731672286987305,
      "learning_rate": 4.187283992035456e-05,
      "loss": 1.5069,
      "step": 74824
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6642428636550903,
      "learning_rate": 4.1867513897827786e-05,
      "loss": 1.533,
      "step": 74825
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6467912793159485,
      "learning_rate": 4.186218818863584e-05,
      "loss": 1.4893,
      "step": 74826
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.643767774105072,
      "learning_rate": 4.185686279278521e-05,
      "loss": 1.518,
      "step": 74827
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6599149703979492,
      "learning_rate": 4.185153771028232e-05,
      "loss": 1.4581,
      "step": 74828
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7335442900657654,
      "learning_rate": 4.184621294113358e-05,
      "loss": 1.5106,
      "step": 74829
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6715474724769592,
      "learning_rate": 4.184088848534548e-05,
      "loss": 1.5458,
      "step": 74830
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6604965925216675,
      "learning_rate": 4.183556434292464e-05,
      "loss": 1.5456,
      "step": 74831
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6742408275604248,
      "learning_rate": 4.1830240513877265e-05,
      "loss": 1.4713,
      "step": 74832
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6590949296951294,
      "learning_rate": 4.1824916998209914e-05,
      "loss": 1.5575,
      "step": 74833
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6934592127799988,
      "learning_rate": 4.181959379592914e-05,
      "loss": 1.4607,
      "step": 74834
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6696829795837402,
      "learning_rate": 4.181427090704138e-05,
      "loss": 1.5129,
      "step": 74835
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6480587124824524,
      "learning_rate": 4.180894833155296e-05,
      "loss": 1.5102,
      "step": 74836
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.662782609462738,
      "learning_rate": 4.180362606947041e-05,
      "loss": 1.5883,
      "step": 74837
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6535797119140625,
      "learning_rate": 4.179830412080038e-05,
      "loss": 1.5435,
      "step": 74838
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7428610324859619,
      "learning_rate": 4.179298248554902e-05,
      "loss": 1.5467,
      "step": 74839
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6613903045654297,
      "learning_rate": 4.1787661163722944e-05,
      "loss": 1.5052,
      "step": 74840
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.665169358253479,
      "learning_rate": 4.178234015532864e-05,
      "loss": 1.5174,
      "step": 74841
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6619629859924316,
      "learning_rate": 4.177701946037255e-05,
      "loss": 1.5341,
      "step": 74842
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7019787430763245,
      "learning_rate": 4.177169907886107e-05,
      "loss": 1.5918,
      "step": 74843
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.671069860458374,
      "learning_rate": 4.176637901080071e-05,
      "loss": 1.5367,
      "step": 74844
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6354731917381287,
      "learning_rate": 4.1761059256197946e-05,
      "loss": 1.5201,
      "step": 74845
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6635182499885559,
      "learning_rate": 4.1755739815059145e-05,
      "loss": 1.5092,
      "step": 74846
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.645376443862915,
      "learning_rate": 4.175042068739082e-05,
      "loss": 1.5254,
      "step": 74847
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6736371517181396,
      "learning_rate": 4.1745101873199507e-05,
      "loss": 1.6622,
      "step": 74848
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7026428580284119,
      "learning_rate": 4.1739783372491565e-05,
      "loss": 1.5471,
      "step": 74849
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6489918828010559,
      "learning_rate": 4.173446518527342e-05,
      "loss": 1.5004,
      "step": 74850
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6669790744781494,
      "learning_rate": 4.172914731155168e-05,
      "loss": 1.51,
      "step": 74851
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.639214813709259,
      "learning_rate": 4.172382975133266e-05,
      "loss": 1.4424,
      "step": 74852
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.649817168712616,
      "learning_rate": 4.171851250462279e-05,
      "loss": 1.528,
      "step": 74853
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6645727753639221,
      "learning_rate": 4.171319557142867e-05,
      "loss": 1.49,
      "step": 74854
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6614682674407959,
      "learning_rate": 4.170787895175659e-05,
      "loss": 1.4937,
      "step": 74855
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6705430150032043,
      "learning_rate": 4.170256264561318e-05,
      "loss": 1.493,
      "step": 74856
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6522067189216614,
      "learning_rate": 4.169724665300473e-05,
      "loss": 1.4633,
      "step": 74857
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.694028377532959,
      "learning_rate": 4.169193097393782e-05,
      "loss": 1.4928,
      "step": 74858
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6752457022666931,
      "learning_rate": 4.168661560841885e-05,
      "loss": 1.5781,
      "step": 74859
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6512048840522766,
      "learning_rate": 4.16813005564542e-05,
      "loss": 1.4636,
      "step": 74860
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6696349382400513,
      "learning_rate": 4.1675985818050425e-05,
      "loss": 1.4799,
      "step": 74861
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6585355997085571,
      "learning_rate": 4.1670671393213926e-05,
      "loss": 1.492,
      "step": 74862
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6878912448883057,
      "learning_rate": 4.16653572819512e-05,
      "loss": 1.5408,
      "step": 74863
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6595554947853088,
      "learning_rate": 4.166004348426869e-05,
      "loss": 1.5141,
      "step": 74864
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6790274977684021,
      "learning_rate": 4.165473000017274e-05,
      "loss": 1.5692,
      "step": 74865
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6645225286483765,
      "learning_rate": 4.164941682966994e-05,
      "loss": 1.572,
      "step": 74866
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.689986526966095,
      "learning_rate": 4.164410397276663e-05,
      "loss": 1.6061,
      "step": 74867
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6391552090644836,
      "learning_rate": 4.163879142946939e-05,
      "loss": 1.4618,
      "step": 74868
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.65298992395401,
      "learning_rate": 4.1633479199784514e-05,
      "loss": 1.4187,
      "step": 74869
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6732270121574402,
      "learning_rate": 4.162816728371857e-05,
      "loss": 1.521,
      "step": 74870
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6448224186897278,
      "learning_rate": 4.1622855681277986e-05,
      "loss": 1.5855,
      "step": 74871
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6707630157470703,
      "learning_rate": 4.1617544392469124e-05,
      "loss": 1.4944,
      "step": 74872
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6522079706192017,
      "learning_rate": 4.1612233417298545e-05,
      "loss": 1.5351,
      "step": 74873
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6451225280761719,
      "learning_rate": 4.1606922755772645e-05,
      "loss": 1.5051,
      "step": 74874
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6806241869926453,
      "learning_rate": 4.1601612407897814e-05,
      "loss": 1.5162,
      "step": 74875
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6553452014923096,
      "learning_rate": 4.159630237368051e-05,
      "loss": 1.4771,
      "step": 74876
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.685610830783844,
      "learning_rate": 4.159099265312734e-05,
      "loss": 1.5888,
      "step": 74877
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6567177772521973,
      "learning_rate": 4.158568324624459e-05,
      "loss": 1.499,
      "step": 74878
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6468742489814758,
      "learning_rate": 4.1580374153038696e-05,
      "loss": 1.4728,
      "step": 74879
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6659888029098511,
      "learning_rate": 4.1575065373516246e-05,
      "loss": 1.519,
      "step": 74880
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6479406356811523,
      "learning_rate": 4.156975690768354e-05,
      "loss": 1.6224,
      "step": 74881
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6574575901031494,
      "learning_rate": 4.156444875554703e-05,
      "loss": 1.4596,
      "step": 74882
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6592432260513306,
      "learning_rate": 4.155914091711319e-05,
      "loss": 1.5581,
      "step": 74883
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6498303413391113,
      "learning_rate": 4.155383339238857e-05,
      "loss": 1.5369,
      "step": 74884
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6569689512252808,
      "learning_rate": 4.154852618137947e-05,
      "loss": 1.536,
      "step": 74885
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6700503826141357,
      "learning_rate": 4.1543219284092354e-05,
      "loss": 1.5014,
      "step": 74886
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6622249484062195,
      "learning_rate": 4.1537912700533714e-05,
      "loss": 1.5545,
      "step": 74887
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6521979570388794,
      "learning_rate": 4.153260643071001e-05,
      "loss": 1.4857,
      "step": 74888
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.661414384841919,
      "learning_rate": 4.1527300474627544e-05,
      "loss": 1.5094,
      "step": 74889
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6501340866088867,
      "learning_rate": 4.1521994832292836e-05,
      "loss": 1.4858,
      "step": 74890
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6393156051635742,
      "learning_rate": 4.1516689503712454e-05,
      "loss": 1.5012,
      "step": 74891
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7058215141296387,
      "learning_rate": 4.1511384488892685e-05,
      "loss": 1.5257,
      "step": 74892
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6676732301712036,
      "learning_rate": 4.150607978783996e-05,
      "loss": 1.5423,
      "step": 74893
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6649755239486694,
      "learning_rate": 4.1500775400560816e-05,
      "loss": 1.4519,
      "step": 74894
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6436399221420288,
      "learning_rate": 4.149547132706167e-05,
      "loss": 1.414,
      "step": 74895
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.671078622341156,
      "learning_rate": 4.1490167567348856e-05,
      "loss": 1.5233,
      "step": 74896
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.654305100440979,
      "learning_rate": 4.148486412142886e-05,
      "loss": 1.5002,
      "step": 74897
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6530114412307739,
      "learning_rate": 4.147956098930826e-05,
      "loss": 1.5808,
      "step": 74898
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6583144068717957,
      "learning_rate": 4.147425817099337e-05,
      "loss": 1.5551,
      "step": 74899
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6447494029998779,
      "learning_rate": 4.1468955666490554e-05,
      "loss": 1.5286,
      "step": 74900
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6927463412284851,
      "learning_rate": 4.146365347580641e-05,
      "loss": 1.5588,
      "step": 74901
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6603690385818481,
      "learning_rate": 4.1458351598947306e-05,
      "loss": 1.5001,
      "step": 74902
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6482672691345215,
      "learning_rate": 4.1453050035919585e-05,
      "loss": 1.5202,
      "step": 74903
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6643785834312439,
      "learning_rate": 4.144774878672976e-05,
      "loss": 1.5468,
      "step": 74904
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6637814044952393,
      "learning_rate": 4.1442447851384355e-05,
      "loss": 1.5006,
      "step": 74905
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6551774740219116,
      "learning_rate": 4.143714722988972e-05,
      "loss": 1.5135,
      "step": 74906
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6443631052970886,
      "learning_rate": 4.143184692225223e-05,
      "loss": 1.4305,
      "step": 74907
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6396085023880005,
      "learning_rate": 4.1426546928478445e-05,
      "loss": 1.4407,
      "step": 74908
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6427269577980042,
      "learning_rate": 4.142124724857472e-05,
      "loss": 1.5138,
      "step": 74909
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6288917064666748,
      "learning_rate": 4.141594788254745e-05,
      "loss": 1.5236,
      "step": 74910
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6862131357192993,
      "learning_rate": 4.141064883040317e-05,
      "loss": 1.5423,
      "step": 74911
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6807519197463989,
      "learning_rate": 4.1405350092148204e-05,
      "loss": 1.4988,
      "step": 74912
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6588681936264038,
      "learning_rate": 4.1400051667789117e-05,
      "loss": 1.5315,
      "step": 74913
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6284826397895813,
      "learning_rate": 4.139475355733216e-05,
      "loss": 1.4398,
      "step": 74914
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6636687517166138,
      "learning_rate": 4.138945576078397e-05,
      "loss": 1.4815,
      "step": 74915
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6489198207855225,
      "learning_rate": 4.138415827815088e-05,
      "loss": 1.5175,
      "step": 74916
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6827479004859924,
      "learning_rate": 4.137886110943924e-05,
      "loss": 1.5785,
      "step": 74917
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6829235553741455,
      "learning_rate": 4.1373564254655625e-05,
      "loss": 1.5076,
      "step": 74918
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6787596940994263,
      "learning_rate": 4.136826771380631e-05,
      "loss": 1.4872,
      "step": 74919
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6742103695869446,
      "learning_rate": 4.1362971486897914e-05,
      "loss": 1.5313,
      "step": 74920
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6407886147499084,
      "learning_rate": 4.135767557393671e-05,
      "loss": 1.4718,
      "step": 74921
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6771905422210693,
      "learning_rate": 4.135237997492914e-05,
      "loss": 1.4704,
      "step": 74922
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6469907164573669,
      "learning_rate": 4.134708468988176e-05,
      "loss": 1.4592,
      "step": 74923
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6887071132659912,
      "learning_rate": 4.1341789718800834e-05,
      "loss": 1.5531,
      "step": 74924
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6451486349105835,
      "learning_rate": 4.1336495061692885e-05,
      "loss": 1.5865,
      "step": 74925
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6859681010246277,
      "learning_rate": 4.1331200718564316e-05,
      "loss": 1.575,
      "step": 74926
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6771109700202942,
      "learning_rate": 4.132590668942158e-05,
      "loss": 1.5536,
      "step": 74927
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6731594800949097,
      "learning_rate": 4.1320612974271084e-05,
      "loss": 1.5532,
      "step": 74928
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6631904244422913,
      "learning_rate": 4.131531957311921e-05,
      "loss": 1.4799,
      "step": 74929
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6748750805854797,
      "learning_rate": 4.1310026485972455e-05,
      "loss": 1.5076,
      "step": 74930
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6534550189971924,
      "learning_rate": 4.130473371283722e-05,
      "loss": 1.5163,
      "step": 74931
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.667542576789856,
      "learning_rate": 4.129944125371987e-05,
      "loss": 1.5652,
      "step": 74932
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6605246663093567,
      "learning_rate": 4.129414910862688e-05,
      "loss": 1.5825,
      "step": 74933
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.649939239025116,
      "learning_rate": 4.1288857277564734e-05,
      "loss": 1.5678,
      "step": 74934
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6745826601982117,
      "learning_rate": 4.128356576053978e-05,
      "loss": 1.5307,
      "step": 74935
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7144141793251038,
      "learning_rate": 4.1278274557558424e-05,
      "loss": 1.5129,
      "step": 74936
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6398202180862427,
      "learning_rate": 4.1272983668627144e-05,
      "loss": 1.5153,
      "step": 74937
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6509479284286499,
      "learning_rate": 4.1267693093752384e-05,
      "loss": 1.5385,
      "step": 74938
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6299900412559509,
      "learning_rate": 4.126240283294043e-05,
      "loss": 1.5615,
      "step": 74939
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6437719464302063,
      "learning_rate": 4.125711288619779e-05,
      "loss": 1.5252,
      "step": 74940
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.66517174243927,
      "learning_rate": 4.1251823253531035e-05,
      "loss": 1.4717,
      "step": 74941
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6653611063957214,
      "learning_rate": 4.1246533934946316e-05,
      "loss": 1.5634,
      "step": 74942
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6884856224060059,
      "learning_rate": 4.1241244930450176e-05,
      "loss": 1.5893,
      "step": 74943
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6652564406394958,
      "learning_rate": 4.123595624004909e-05,
      "loss": 1.4956,
      "step": 74944
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.653275191783905,
      "learning_rate": 4.1230667863749455e-05,
      "loss": 1.4404,
      "step": 74945
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6658700704574585,
      "learning_rate": 4.122537980155759e-05,
      "loss": 1.5892,
      "step": 74946
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6499013304710388,
      "learning_rate": 4.122009205347996e-05,
      "loss": 1.4965,
      "step": 74947
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6739031076431274,
      "learning_rate": 4.121480461952316e-05,
      "loss": 1.5351,
      "step": 74948
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6601367592811584,
      "learning_rate": 4.120951749969331e-05,
      "loss": 1.5695,
      "step": 74949
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6641501188278198,
      "learning_rate": 4.120423069399699e-05,
      "loss": 1.577,
      "step": 74950
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6639623641967773,
      "learning_rate": 4.1198944202440674e-05,
      "loss": 1.5344,
      "step": 74951
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6195763349533081,
      "learning_rate": 4.119365802503071e-05,
      "loss": 1.4998,
      "step": 74952
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6436578631401062,
      "learning_rate": 4.118837216177341e-05,
      "loss": 1.5526,
      "step": 74953
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6705730557441711,
      "learning_rate": 4.1183086612675306e-05,
      "loss": 1.5854,
      "step": 74954
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6542859077453613,
      "learning_rate": 4.117780137774297e-05,
      "loss": 1.5395,
      "step": 74955
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7153412103652954,
      "learning_rate": 4.1172516456982484e-05,
      "loss": 1.6436,
      "step": 74956
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6705471873283386,
      "learning_rate": 4.116723185040042e-05,
      "loss": 1.4915,
      "step": 74957
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6667351722717285,
      "learning_rate": 4.116194755800326e-05,
      "loss": 1.4903,
      "step": 74958
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6865445971488953,
      "learning_rate": 4.115666357979738e-05,
      "loss": 1.5375,
      "step": 74959
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6663978099822998,
      "learning_rate": 4.1151379915789095e-05,
      "loss": 1.5091,
      "step": 74960
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6465955376625061,
      "learning_rate": 4.1146096565984974e-05,
      "loss": 1.461,
      "step": 74961
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6727638244628906,
      "learning_rate": 4.114081353039135e-05,
      "loss": 1.5426,
      "step": 74962
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.663735032081604,
      "learning_rate": 4.113553080901454e-05,
      "loss": 1.5468,
      "step": 74963
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6536292433738708,
      "learning_rate": 4.113024840186108e-05,
      "loss": 1.495,
      "step": 74964
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6698878407478333,
      "learning_rate": 4.112496630893742e-05,
      "loss": 1.461,
      "step": 74965
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6641217470169067,
      "learning_rate": 4.111968453024991e-05,
      "loss": 1.4918,
      "step": 74966
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6422692537307739,
      "learning_rate": 4.111440306580489e-05,
      "loss": 1.5227,
      "step": 74967
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.642423689365387,
      "learning_rate": 4.11091219156089e-05,
      "loss": 1.486,
      "step": 74968
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6439418792724609,
      "learning_rate": 4.11038410796683e-05,
      "loss": 1.5133,
      "step": 74969
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6735867857933044,
      "learning_rate": 4.1098560557989416e-05,
      "loss": 1.5267,
      "step": 74970
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6560966968536377,
      "learning_rate": 4.109328035057877e-05,
      "loss": 1.5057,
      "step": 74971
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.662108838558197,
      "learning_rate": 4.10880004574427e-05,
      "loss": 1.5385,
      "step": 74972
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6598563194274902,
      "learning_rate": 4.108272087858774e-05,
      "loss": 1.5604,
      "step": 74973
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7175309658050537,
      "learning_rate": 4.10774416140201e-05,
      "loss": 1.5049,
      "step": 74974
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6961653232574463,
      "learning_rate": 4.107216266374639e-05,
      "loss": 1.4773,
      "step": 74975
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6702224016189575,
      "learning_rate": 4.10668840277729e-05,
      "loss": 1.5587,
      "step": 74976
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6826351284980774,
      "learning_rate": 4.1061605706105984e-05,
      "loss": 1.4755,
      "step": 74977
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6516866087913513,
      "learning_rate": 4.105632769875221e-05,
      "loss": 1.5236,
      "step": 74978
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6568154096603394,
      "learning_rate": 4.1051050005717846e-05,
      "loss": 1.5094,
      "step": 74979
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6650698781013489,
      "learning_rate": 4.104577262700941e-05,
      "loss": 1.5288,
      "step": 74980
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.681974470615387,
      "learning_rate": 4.1040495562633233e-05,
      "loss": 1.5858,
      "step": 74981
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6557697057723999,
      "learning_rate": 4.103521881259572e-05,
      "loss": 1.5011,
      "step": 74982
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6654325127601624,
      "learning_rate": 4.1029942376903315e-05,
      "loss": 1.5222,
      "step": 74983
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6577423214912415,
      "learning_rate": 4.102466625556236e-05,
      "loss": 1.5425,
      "step": 74984
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6616473197937012,
      "learning_rate": 4.101939044857934e-05,
      "loss": 1.5297,
      "step": 74985
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6546345353126526,
      "learning_rate": 4.101411495596059e-05,
      "loss": 1.5865,
      "step": 74986
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6599200367927551,
      "learning_rate": 4.10088397777126e-05,
      "loss": 1.5006,
      "step": 74987
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6552385091781616,
      "learning_rate": 4.1003564913841705e-05,
      "loss": 1.4658,
      "step": 74988
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6439086198806763,
      "learning_rate": 4.099829036435426e-05,
      "loss": 1.4571,
      "step": 74989
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.7029879093170166,
      "learning_rate": 4.0993016129256797e-05,
      "loss": 1.5828,
      "step": 74990
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6617027521133423,
      "learning_rate": 4.098774220855564e-05,
      "loss": 1.6045,
      "step": 74991
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6894101500511169,
      "learning_rate": 4.098246860225716e-05,
      "loss": 1.4944,
      "step": 74992
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6854422092437744,
      "learning_rate": 4.097719531036777e-05,
      "loss": 1.4959,
      "step": 74993
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6538827419281006,
      "learning_rate": 4.097192233289398e-05,
      "loss": 1.4733,
      "step": 74994
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6660670638084412,
      "learning_rate": 4.0966649669842114e-05,
      "loss": 1.5274,
      "step": 74995
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6489725112915039,
      "learning_rate": 4.096137732121849e-05,
      "loss": 1.4913,
      "step": 74996
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6698374152183533,
      "learning_rate": 4.095610528702965e-05,
      "loss": 1.5296,
      "step": 74997
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.639366626739502,
      "learning_rate": 4.095083356728195e-05,
      "loss": 1.5414,
      "step": 74998
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6464751958847046,
      "learning_rate": 4.094556216198168e-05,
      "loss": 1.5543,
      "step": 74999
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6351845860481262,
      "learning_rate": 4.0940291071135345e-05,
      "loss": 1.5496,
      "step": 75000
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6820531487464905,
      "learning_rate": 4.09350202947494e-05,
      "loss": 1.548,
      "step": 75001
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6739916205406189,
      "learning_rate": 4.092974983283014e-05,
      "loss": 1.5138,
      "step": 75002
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6446766257286072,
      "learning_rate": 4.092447968538396e-05,
      "loss": 1.521,
      "step": 75003
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6506282091140747,
      "learning_rate": 4.091920985241732e-05,
      "loss": 1.5372,
      "step": 75004
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6383553147315979,
      "learning_rate": 4.091394033393659e-05,
      "loss": 1.4174,
      "step": 75005
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6552303433418274,
      "learning_rate": 4.0908671129948126e-05,
      "loss": 1.5606,
      "step": 75006
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6553143858909607,
      "learning_rate": 4.090340224045832e-05,
      "loss": 1.5322,
      "step": 75007
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6577941179275513,
      "learning_rate": 4.0898133665473696e-05,
      "loss": 1.4612,
      "step": 75008
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.641687273979187,
      "learning_rate": 4.0892865405000564e-05,
      "loss": 1.5954,
      "step": 75009
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6436043381690979,
      "learning_rate": 4.088759745904524e-05,
      "loss": 1.498,
      "step": 75010
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6509891748428345,
      "learning_rate": 4.088232982761429e-05,
      "loss": 1.5697,
      "step": 75011
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6474499702453613,
      "learning_rate": 4.0877062510713973e-05,
      "loss": 1.4294,
      "step": 75012
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6735317707061768,
      "learning_rate": 4.0871795508350656e-05,
      "loss": 1.5238,
      "step": 75013
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6750045418739319,
      "learning_rate": 4.0866528820530834e-05,
      "loss": 1.5898,
      "step": 75014
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6532729268074036,
      "learning_rate": 4.086126244726089e-05,
      "loss": 1.5424,
      "step": 75015
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6487124562263489,
      "learning_rate": 4.085599638854723e-05,
      "loss": 1.5489,
      "step": 75016
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6410290002822876,
      "learning_rate": 4.085073064439611e-05,
      "loss": 1.4691,
      "step": 75017
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6454145312309265,
      "learning_rate": 4.08454652148141e-05,
      "loss": 1.5224,
      "step": 75018
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.648807168006897,
      "learning_rate": 4.084020009980752e-05,
      "loss": 1.4743,
      "step": 75019
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6673887372016907,
      "learning_rate": 4.0834935299382664e-05,
      "loss": 1.5334,
      "step": 75020
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6396112442016602,
      "learning_rate": 4.082967081354603e-05,
      "loss": 1.5257,
      "step": 75021
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6709727048873901,
      "learning_rate": 4.082440664230405e-05,
      "loss": 1.5068,
      "step": 75022
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6483307480812073,
      "learning_rate": 4.081914278566305e-05,
      "loss": 1.4741,
      "step": 75023
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6435665488243103,
      "learning_rate": 4.081387924362936e-05,
      "loss": 1.5091,
      "step": 75024
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6494256854057312,
      "learning_rate": 4.0808616016209464e-05,
      "loss": 1.4769,
      "step": 75025
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.670369565486908,
      "learning_rate": 4.080335310340976e-05,
      "loss": 1.519,
      "step": 75026
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6439197063446045,
      "learning_rate": 4.079809050523649e-05,
      "loss": 1.5261,
      "step": 75027
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6707162857055664,
      "learning_rate": 4.079282822169624e-05,
      "loss": 1.4892,
      "step": 75028
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6500568985939026,
      "learning_rate": 4.078756625279523e-05,
      "loss": 1.4564,
      "step": 75029
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6768624782562256,
      "learning_rate": 4.0782304598540005e-05,
      "loss": 1.5373,
      "step": 75030
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6543989181518555,
      "learning_rate": 4.077704325893678e-05,
      "loss": 1.5069,
      "step": 75031
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6748924255371094,
      "learning_rate": 4.0771782233992126e-05,
      "loss": 1.4617,
      "step": 75032
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6558845639228821,
      "learning_rate": 4.076652152371229e-05,
      "loss": 1.5547,
      "step": 75033
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6898085474967957,
      "learning_rate": 4.076126112810365e-05,
      "loss": 1.5165,
      "step": 75034
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6615429520606995,
      "learning_rate": 4.0756001047172725e-05,
      "loss": 1.4791,
      "step": 75035
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6510288715362549,
      "learning_rate": 4.075074128092575e-05,
      "loss": 1.5556,
      "step": 75036
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6360854506492615,
      "learning_rate": 4.074548182936924e-05,
      "loss": 1.4533,
      "step": 75037
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6606866121292114,
      "learning_rate": 4.0740222692509506e-05,
      "loss": 1.5047,
      "step": 75038
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6633844375610352,
      "learning_rate": 4.073496387035286e-05,
      "loss": 1.5572,
      "step": 75039
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6655920743942261,
      "learning_rate": 4.072970536290585e-05,
      "loss": 1.4939,
      "step": 75040
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6420962810516357,
      "learning_rate": 4.072444717017472e-05,
      "loss": 1.4826,
      "step": 75041
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6481719613075256,
      "learning_rate": 4.0719189292165975e-05,
      "loss": 1.4798,
      "step": 75042
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6560522317886353,
      "learning_rate": 4.071393172888584e-05,
      "loss": 1.5303,
      "step": 75043
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6765434145927429,
      "learning_rate": 4.070867448034087e-05,
      "loss": 1.5574,
      "step": 75044
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7253430485725403,
      "learning_rate": 4.070341754653738e-05,
      "loss": 1.5601,
      "step": 75045
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6929237842559814,
      "learning_rate": 4.0698160927481636e-05,
      "loss": 1.6016,
      "step": 75046
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6542735695838928,
      "learning_rate": 4.069290462318019e-05,
      "loss": 1.4734,
      "step": 75047
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6767702102661133,
      "learning_rate": 4.068764863363939e-05,
      "loss": 1.5574,
      "step": 75048
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6712775826454163,
      "learning_rate": 4.0682392958865474e-05,
      "loss": 1.5374,
      "step": 75049
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6784932017326355,
      "learning_rate": 4.067713759886493e-05,
      "loss": 1.5603,
      "step": 75050
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6901149749755859,
      "learning_rate": 4.0671882553644184e-05,
      "loss": 1.5568,
      "step": 75051
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6502603888511658,
      "learning_rate": 4.0666627823209605e-05,
      "loss": 1.5082,
      "step": 75052
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6880091428756714,
      "learning_rate": 4.066137340756742e-05,
      "loss": 1.5376,
      "step": 75053
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6640945672988892,
      "learning_rate": 4.065611930672419e-05,
      "loss": 1.5356,
      "step": 75054
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6701562404632568,
      "learning_rate": 4.0650865520686235e-05,
      "loss": 1.59,
      "step": 75055
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6739118099212646,
      "learning_rate": 4.064561204945986e-05,
      "loss": 1.489,
      "step": 75056
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6557269096374512,
      "learning_rate": 4.0640358893051464e-05,
      "loss": 1.5037,
      "step": 75057
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6670638918876648,
      "learning_rate": 4.063510605146762e-05,
      "loss": 1.5547,
      "step": 75058
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6404836177825928,
      "learning_rate": 4.062985352471439e-05,
      "loss": 1.5243,
      "step": 75059
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6559784412384033,
      "learning_rate": 4.06246013127983e-05,
      "loss": 1.6197,
      "step": 75060
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6613990068435669,
      "learning_rate": 4.0619349415725797e-05,
      "loss": 1.51,
      "step": 75061
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6602596044540405,
      "learning_rate": 4.061409783350318e-05,
      "loss": 1.5081,
      "step": 75062
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.676125705242157,
      "learning_rate": 4.06088465661368e-05,
      "loss": 1.572,
      "step": 75063
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6765658259391785,
      "learning_rate": 4.0603595613633024e-05,
      "loss": 1.5317,
      "step": 75064
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6549875736236572,
      "learning_rate": 4.059834497599841e-05,
      "loss": 1.5464,
      "step": 75065
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6480566263198853,
      "learning_rate": 4.0593094653239025e-05,
      "loss": 1.4902,
      "step": 75066
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6533977389335632,
      "learning_rate": 4.058784464536142e-05,
      "loss": 1.5324,
      "step": 75067
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6766136884689331,
      "learning_rate": 4.0582594952372035e-05,
      "loss": 1.5447,
      "step": 75068
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6885532736778259,
      "learning_rate": 4.057734557427713e-05,
      "loss": 1.5117,
      "step": 75069
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6915679574012756,
      "learning_rate": 4.057209651108303e-05,
      "loss": 1.5365,
      "step": 75070
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6406281590461731,
      "learning_rate": 4.056684776279619e-05,
      "loss": 1.5343,
      "step": 75071
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.689369261264801,
      "learning_rate": 4.056159932942312e-05,
      "loss": 1.5057,
      "step": 75072
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6533434391021729,
      "learning_rate": 4.055635121096991e-05,
      "loss": 1.5535,
      "step": 75073
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6875123977661133,
      "learning_rate": 4.055110340744304e-05,
      "loss": 1.534,
      "step": 75074
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6686804294586182,
      "learning_rate": 4.054585591884899e-05,
      "loss": 1.4629,
      "step": 75075
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.681125283241272,
      "learning_rate": 4.054060874519401e-05,
      "loss": 1.523,
      "step": 75076
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.700302243232727,
      "learning_rate": 4.0535361886484474e-05,
      "loss": 1.5126,
      "step": 75077
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6356239318847656,
      "learning_rate": 4.053011534272683e-05,
      "loss": 1.5443,
      "step": 75078
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7004808187484741,
      "learning_rate": 4.0524869113927386e-05,
      "loss": 1.606,
      "step": 75079
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6409821510314941,
      "learning_rate": 4.051962320009245e-05,
      "loss": 1.5448,
      "step": 75080
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6492666602134705,
      "learning_rate": 4.0514377601228475e-05,
      "loss": 1.5479,
      "step": 75081
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6624065637588501,
      "learning_rate": 4.050913231734187e-05,
      "loss": 1.5102,
      "step": 75082
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6630586385726929,
      "learning_rate": 4.0503887348438944e-05,
      "loss": 1.5036,
      "step": 75083
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6644721627235413,
      "learning_rate": 4.049864269452602e-05,
      "loss": 1.5382,
      "step": 75084
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6871811747550964,
      "learning_rate": 4.049339835560955e-05,
      "loss": 1.5763,
      "step": 75085
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6648631691932678,
      "learning_rate": 4.048815433169584e-05,
      "loss": 1.5428,
      "step": 75086
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6512457728385925,
      "learning_rate": 4.048291062279125e-05,
      "loss": 1.4472,
      "step": 75087
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6508638262748718,
      "learning_rate": 4.047766722890221e-05,
      "loss": 1.461,
      "step": 75088
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6650791168212891,
      "learning_rate": 4.0472424150034974e-05,
      "loss": 1.5379,
      "step": 75089
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6751524806022644,
      "learning_rate": 4.0467181386196045e-05,
      "loss": 1.5779,
      "step": 75090
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6762662529945374,
      "learning_rate": 4.046193893739165e-05,
      "loss": 1.449,
      "step": 75091
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6586790084838867,
      "learning_rate": 4.045669680362831e-05,
      "loss": 1.5433,
      "step": 75092
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6874209642410278,
      "learning_rate": 4.045145498491226e-05,
      "loss": 1.5354,
      "step": 75093
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6639119386672974,
      "learning_rate": 4.0446213481249854e-05,
      "loss": 1.5277,
      "step": 75094
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6670856475830078,
      "learning_rate": 4.0440972292647564e-05,
      "loss": 1.5566,
      "step": 75095
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6734079718589783,
      "learning_rate": 4.043573141911165e-05,
      "loss": 1.4698,
      "step": 75096
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6749870777130127,
      "learning_rate": 4.043049086064853e-05,
      "loss": 1.5306,
      "step": 75097
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6960160136222839,
      "learning_rate": 4.0425250617264585e-05,
      "loss": 1.5223,
      "step": 75098
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6779949069023132,
      "learning_rate": 4.042001068896605e-05,
      "loss": 1.5452,
      "step": 75099
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.658888578414917,
      "learning_rate": 4.041477107575948e-05,
      "loss": 1.5077,
      "step": 75100
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6607573628425598,
      "learning_rate": 4.040953177765102e-05,
      "loss": 1.4604,
      "step": 75101
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.651648759841919,
      "learning_rate": 4.040429279464723e-05,
      "loss": 1.4665,
      "step": 75102
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6766102313995361,
      "learning_rate": 4.0399054126754284e-05,
      "loss": 1.5526,
      "step": 75103
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6572592258453369,
      "learning_rate": 4.0393815773978734e-05,
      "loss": 1.5128,
      "step": 75104
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6464619636535645,
      "learning_rate": 4.0388577736326844e-05,
      "loss": 1.4754,
      "step": 75105
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6888484358787537,
      "learning_rate": 4.0383340013804875e-05,
      "loss": 1.5003,
      "step": 75106
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6704283356666565,
      "learning_rate": 4.037810260641936e-05,
      "loss": 1.5098,
      "step": 75107
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6816574931144714,
      "learning_rate": 4.0372865514176557e-05,
      "loss": 1.4374,
      "step": 75108
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.65650475025177,
      "learning_rate": 4.036762873708279e-05,
      "loss": 1.4073,
      "step": 75109
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6570411920547485,
      "learning_rate": 4.036239227514446e-05,
      "loss": 1.543,
      "step": 75110
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6833060383796692,
      "learning_rate": 4.0357156128368026e-05,
      "loss": 1.5017,
      "step": 75111
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6453259587287903,
      "learning_rate": 4.035192029675972e-05,
      "loss": 1.4332,
      "step": 75112
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6619157195091248,
      "learning_rate": 4.0346684780325864e-05,
      "loss": 1.5332,
      "step": 75113
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6528816819190979,
      "learning_rate": 4.034144957907293e-05,
      "loss": 1.4591,
      "step": 75114
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6716532707214355,
      "learning_rate": 4.033621469300723e-05,
      "loss": 1.5503,
      "step": 75115
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6811675429344177,
      "learning_rate": 4.033098012213504e-05,
      "loss": 1.5483,
      "step": 75116
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6590598225593567,
      "learning_rate": 4.032574586646278e-05,
      "loss": 1.499,
      "step": 75117
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6868072748184204,
      "learning_rate": 4.032051192599688e-05,
      "loss": 1.4881,
      "step": 75118
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.682915985584259,
      "learning_rate": 4.0315278300743605e-05,
      "loss": 1.5957,
      "step": 75119
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6410609483718872,
      "learning_rate": 4.031004499070924e-05,
      "loss": 1.4868,
      "step": 75120
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6614830493927002,
      "learning_rate": 4.03048119959003e-05,
      "loss": 1.5115,
      "step": 75121
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6503219604492188,
      "learning_rate": 4.029957931632303e-05,
      "loss": 1.4888,
      "step": 75122
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6439225673675537,
      "learning_rate": 4.0294346951983755e-05,
      "loss": 1.4832,
      "step": 75123
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6522433757781982,
      "learning_rate": 4.028911490288889e-05,
      "loss": 1.5357,
      "step": 75124
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6702078580856323,
      "learning_rate": 4.028388316904484e-05,
      "loss": 1.5615,
      "step": 75125
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7106202244758606,
      "learning_rate": 4.027865175045788e-05,
      "loss": 1.5074,
      "step": 75126
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6836566925048828,
      "learning_rate": 4.0273420647134304e-05,
      "loss": 1.4923,
      "step": 75127
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6684351563453674,
      "learning_rate": 4.0268189859080566e-05,
      "loss": 1.4961,
      "step": 75128
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6550068855285645,
      "learning_rate": 4.026295938630301e-05,
      "loss": 1.5583,
      "step": 75129
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6496899724006653,
      "learning_rate": 4.025772922880788e-05,
      "loss": 1.4466,
      "step": 75130
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6473158001899719,
      "learning_rate": 4.025249938660158e-05,
      "loss": 1.4764,
      "step": 75131
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6589739918708801,
      "learning_rate": 4.024726985969053e-05,
      "loss": 1.4742,
      "step": 75132
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6369982361793518,
      "learning_rate": 4.0242040648081044e-05,
      "loss": 1.5216,
      "step": 75133
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6682852506637573,
      "learning_rate": 4.0236811751779394e-05,
      "loss": 1.6109,
      "step": 75134
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6571767926216125,
      "learning_rate": 4.023158317079203e-05,
      "loss": 1.5618,
      "step": 75135
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6637519001960754,
      "learning_rate": 4.022635490512526e-05,
      "loss": 1.4999,
      "step": 75136
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6600149273872375,
      "learning_rate": 4.022112695478532e-05,
      "loss": 1.5327,
      "step": 75137
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6623325943946838,
      "learning_rate": 4.0215899319778674e-05,
      "loss": 1.5775,
      "step": 75138
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6913331151008606,
      "learning_rate": 4.021067200011172e-05,
      "loss": 1.5028,
      "step": 75139
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6451993584632874,
      "learning_rate": 4.020544499579075e-05,
      "loss": 1.5125,
      "step": 75140
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6650682687759399,
      "learning_rate": 4.020021830682198e-05,
      "loss": 1.47,
      "step": 75141
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.646015465259552,
      "learning_rate": 4.019499193321196e-05,
      "loss": 1.5006,
      "step": 75142
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6580643653869629,
      "learning_rate": 4.018976587496694e-05,
      "loss": 1.5444,
      "step": 75143
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6666913032531738,
      "learning_rate": 4.018454013209318e-05,
      "loss": 1.5517,
      "step": 75144
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6719905138015747,
      "learning_rate": 4.017931470459721e-05,
      "loss": 1.4509,
      "step": 75145
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6787447929382324,
      "learning_rate": 4.0174089592485156e-05,
      "loss": 1.4535,
      "step": 75146
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6731777191162109,
      "learning_rate": 4.0168864795763557e-05,
      "loss": 1.5669,
      "step": 75147
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6522833108901978,
      "learning_rate": 4.0163640314438626e-05,
      "loss": 1.4896,
      "step": 75148
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6774269938468933,
      "learning_rate": 4.01584161485168e-05,
      "loss": 1.5633,
      "step": 75149
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6751434206962585,
      "learning_rate": 4.015319229800438e-05,
      "loss": 1.5044,
      "step": 75150
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6687672138214111,
      "learning_rate": 4.0147968762907615e-05,
      "loss": 1.493,
      "step": 75151
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.645808219909668,
      "learning_rate": 4.0142745543233e-05,
      "loss": 1.4413,
      "step": 75152
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6650491952896118,
      "learning_rate": 4.013752263898674e-05,
      "loss": 1.487,
      "step": 75153
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6828927993774414,
      "learning_rate": 4.013230005017529e-05,
      "loss": 1.5471,
      "step": 75154
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6471083164215088,
      "learning_rate": 4.012707777680495e-05,
      "loss": 1.5745,
      "step": 75155
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6518800854682922,
      "learning_rate": 4.012185581888201e-05,
      "loss": 1.5553,
      "step": 75156
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.652958333492279,
      "learning_rate": 4.011663417641287e-05,
      "loss": 1.5301,
      "step": 75157
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6526331305503845,
      "learning_rate": 4.011141284940381e-05,
      "loss": 1.5354,
      "step": 75158
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6649295091629028,
      "learning_rate": 4.010619183786125e-05,
      "loss": 1.5303,
      "step": 75159
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6504021883010864,
      "learning_rate": 4.010097114179139e-05,
      "loss": 1.4849,
      "step": 75160
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6653391718864441,
      "learning_rate": 4.009575076120079e-05,
      "loss": 1.4906,
      "step": 75161
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6781108975410461,
      "learning_rate": 4.009053069609558e-05,
      "loss": 1.5757,
      "step": 75162
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6627650260925293,
      "learning_rate": 4.008531094648214e-05,
      "loss": 1.5281,
      "step": 75163
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.683713972568512,
      "learning_rate": 4.0080091512366894e-05,
      "loss": 1.5477,
      "step": 75164
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6721571683883667,
      "learning_rate": 4.007487239375614e-05,
      "loss": 1.5809,
      "step": 75165
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7025302648544312,
      "learning_rate": 4.00696535906561e-05,
      "loss": 1.4793,
      "step": 75166
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6791655421257019,
      "learning_rate": 4.0064435103073215e-05,
      "loss": 1.5575,
      "step": 75167
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6700473427772522,
      "learning_rate": 4.005921693101386e-05,
      "loss": 1.5,
      "step": 75168
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6447991132736206,
      "learning_rate": 4.005399907448435e-05,
      "loss": 1.5069,
      "step": 75169
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6356556415557861,
      "learning_rate": 4.004878153349086e-05,
      "loss": 1.4885,
      "step": 75170
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6396836042404175,
      "learning_rate": 4.004356430803997e-05,
      "loss": 1.4988,
      "step": 75171
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6369024515151978,
      "learning_rate": 4.003834739813786e-05,
      "loss": 1.54,
      "step": 75172
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6911957263946533,
      "learning_rate": 4.0033130803790835e-05,
      "loss": 1.5613,
      "step": 75173
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6513099670410156,
      "learning_rate": 4.0027914525005286e-05,
      "loss": 1.4384,
      "step": 75174
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6800798773765564,
      "learning_rate": 4.002269856178765e-05,
      "loss": 1.5301,
      "step": 75175
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6407390236854553,
      "learning_rate": 4.001748291414404e-05,
      "loss": 1.5439,
      "step": 75176
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6731053590774536,
      "learning_rate": 4.0012267582080926e-05,
      "loss": 1.5034,
      "step": 75177
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6548380255699158,
      "learning_rate": 4.000705256560464e-05,
      "loss": 1.5832,
      "step": 75178
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6794465184211731,
      "learning_rate": 4.00018378647215e-05,
      "loss": 1.5672,
      "step": 75179
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6404591798782349,
      "learning_rate": 3.999662347943774e-05,
      "loss": 1.5261,
      "step": 75180
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6741868257522583,
      "learning_rate": 3.999140940975979e-05,
      "loss": 1.4783,
      "step": 75181
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6700770854949951,
      "learning_rate": 3.998619565569407e-05,
      "loss": 1.4683,
      "step": 75182
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6692513823509216,
      "learning_rate": 3.998098221724669e-05,
      "loss": 1.534,
      "step": 75183
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6905601620674133,
      "learning_rate": 3.997576909442407e-05,
      "loss": 1.4996,
      "step": 75184
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6579597592353821,
      "learning_rate": 3.9970556287232606e-05,
      "loss": 1.5193,
      "step": 75185
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6289850473403931,
      "learning_rate": 3.9965343795678586e-05,
      "loss": 1.4886,
      "step": 75186
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.652317225933075,
      "learning_rate": 3.996013161976828e-05,
      "loss": 1.4954,
      "step": 75187
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6744134426116943,
      "learning_rate": 3.995491975950804e-05,
      "loss": 1.4918,
      "step": 75188
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6575565934181213,
      "learning_rate": 3.9949708214904344e-05,
      "loss": 1.5335,
      "step": 75189
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6746033430099487,
      "learning_rate": 3.9944496985963236e-05,
      "loss": 1.5218,
      "step": 75190
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6684854030609131,
      "learning_rate": 3.993928607269122e-05,
      "loss": 1.4642,
      "step": 75191
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.674359142780304,
      "learning_rate": 3.9934075475094627e-05,
      "loss": 1.5182,
      "step": 75192
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.647126317024231,
      "learning_rate": 3.992886519317978e-05,
      "loss": 1.4831,
      "step": 75193
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6612602472305298,
      "learning_rate": 3.992365522695288e-05,
      "loss": 1.5496,
      "step": 75194
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6487125754356384,
      "learning_rate": 3.991844557642041e-05,
      "loss": 1.4685,
      "step": 75195
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6436035633087158,
      "learning_rate": 3.9913236241588644e-05,
      "loss": 1.5323,
      "step": 75196
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6660516858100891,
      "learning_rate": 3.990802722246384e-05,
      "loss": 1.5548,
      "step": 75197
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6614691615104675,
      "learning_rate": 3.990281851905231e-05,
      "loss": 1.5163,
      "step": 75198
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6698975563049316,
      "learning_rate": 3.989761013136055e-05,
      "loss": 1.5537,
      "step": 75199
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6885903477668762,
      "learning_rate": 3.989240205939476e-05,
      "loss": 1.5291,
      "step": 75200
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6570447683334351,
      "learning_rate": 3.988719430316117e-05,
      "loss": 1.4392,
      "step": 75201
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6595634818077087,
      "learning_rate": 3.988198686266629e-05,
      "loss": 1.545,
      "step": 75202
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6664977073669434,
      "learning_rate": 3.987677973791634e-05,
      "loss": 1.5154,
      "step": 75203
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6624665856361389,
      "learning_rate": 3.987157292891762e-05,
      "loss": 1.4987,
      "step": 75204
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6559012532234192,
      "learning_rate": 3.986636643567651e-05,
      "loss": 1.5873,
      "step": 75205
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6583864092826843,
      "learning_rate": 3.986116025819925e-05,
      "loss": 1.5692,
      "step": 75206
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6708827614784241,
      "learning_rate": 3.9855954396492274e-05,
      "loss": 1.4923,
      "step": 75207
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6586443781852722,
      "learning_rate": 3.985074885056177e-05,
      "loss": 1.4751,
      "step": 75208
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6395435929298401,
      "learning_rate": 3.984554362041422e-05,
      "loss": 1.5027,
      "step": 75209
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6749339699745178,
      "learning_rate": 3.984033870605581e-05,
      "loss": 1.5495,
      "step": 75210
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6610954999923706,
      "learning_rate": 3.983513410749285e-05,
      "loss": 1.5396,
      "step": 75211
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6491122245788574,
      "learning_rate": 3.982992982473178e-05,
      "loss": 1.5611,
      "step": 75212
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6646624207496643,
      "learning_rate": 3.982472585777875e-05,
      "loss": 1.5552,
      "step": 75213
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6506415009498596,
      "learning_rate": 3.9819522206640234e-05,
      "loss": 1.5394,
      "step": 75214
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6557837128639221,
      "learning_rate": 3.981431887132252e-05,
      "loss": 1.4895,
      "step": 75215
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6394420266151428,
      "learning_rate": 3.980911585183176e-05,
      "loss": 1.5057,
      "step": 75216
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6610163450241089,
      "learning_rate": 3.9803913148174505e-05,
      "loss": 1.5148,
      "step": 75217
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6591356992721558,
      "learning_rate": 3.97987107603569e-05,
      "loss": 1.5395,
      "step": 75218
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6693935394287109,
      "learning_rate": 3.979350868838538e-05,
      "loss": 1.5207,
      "step": 75219
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6718543171882629,
      "learning_rate": 3.97883069322661e-05,
      "loss": 1.4872,
      "step": 75220
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6755993962287903,
      "learning_rate": 3.9783105492005595e-05,
      "loss": 1.4972,
      "step": 75221
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6707413196563721,
      "learning_rate": 3.9777904367610024e-05,
      "loss": 1.4759,
      "step": 75222
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6613125205039978,
      "learning_rate": 3.9772703559085684e-05,
      "loss": 1.4456,
      "step": 75223
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.64848792552948,
      "learning_rate": 3.9767503066439e-05,
      "loss": 1.5071,
      "step": 75224
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6617943644523621,
      "learning_rate": 3.97623028896762e-05,
      "loss": 1.5572,
      "step": 75225
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6283140778541565,
      "learning_rate": 3.975710302880358e-05,
      "loss": 1.4657,
      "step": 75226
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7018783092498779,
      "learning_rate": 3.9751903483827506e-05,
      "loss": 1.6048,
      "step": 75227
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6557064652442932,
      "learning_rate": 3.97467042547543e-05,
      "loss": 1.5241,
      "step": 75228
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6592497825622559,
      "learning_rate": 3.9741505341590294e-05,
      "loss": 1.5214,
      "step": 75229
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6759084463119507,
      "learning_rate": 3.973630674434165e-05,
      "loss": 1.5457,
      "step": 75230
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6699385643005371,
      "learning_rate": 3.973110846301486e-05,
      "loss": 1.5448,
      "step": 75231
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6626709699630737,
      "learning_rate": 3.972591049761619e-05,
      "loss": 1.5729,
      "step": 75232
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6650403738021851,
      "learning_rate": 3.972071284815179e-05,
      "loss": 1.4983,
      "step": 75233
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6652873754501343,
      "learning_rate": 3.971551551462814e-05,
      "loss": 1.4738,
      "step": 75234
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6425564289093018,
      "learning_rate": 3.971031849705155e-05,
      "loss": 1.503,
      "step": 75235
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7263417840003967,
      "learning_rate": 3.9705121795428296e-05,
      "loss": 1.5698,
      "step": 75236
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6784604787826538,
      "learning_rate": 3.9699925409764566e-05,
      "loss": 1.4833,
      "step": 75237
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6881653070449829,
      "learning_rate": 3.9694729340066887e-05,
      "loss": 1.488,
      "step": 75238
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.669105589389801,
      "learning_rate": 3.9689533586341424e-05,
      "loss": 1.4924,
      "step": 75239
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.667324960231781,
      "learning_rate": 3.968433814859444e-05,
      "loss": 1.4905,
      "step": 75240
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.646677553653717,
      "learning_rate": 3.9679143026832325e-05,
      "loss": 1.5251,
      "step": 75241
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6543710827827454,
      "learning_rate": 3.967394822106145e-05,
      "loss": 1.4392,
      "step": 75242
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6626003980636597,
      "learning_rate": 3.966875373128803e-05,
      "loss": 1.4796,
      "step": 75243
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6750061511993408,
      "learning_rate": 3.966355955751833e-05,
      "loss": 1.5724,
      "step": 75244
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6755229830741882,
      "learning_rate": 3.965836569975879e-05,
      "loss": 1.5337,
      "step": 75245
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6642456650733948,
      "learning_rate": 3.965317215801559e-05,
      "loss": 1.4602,
      "step": 75246
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6478628516197205,
      "learning_rate": 3.9647978932295064e-05,
      "loss": 1.6164,
      "step": 75247
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6729204654693604,
      "learning_rate": 3.964278602260348e-05,
      "loss": 1.492,
      "step": 75248
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6447163820266724,
      "learning_rate": 3.963759342894729e-05,
      "loss": 1.4764,
      "step": 75249
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6527004837989807,
      "learning_rate": 3.9632401151332695e-05,
      "loss": 1.5589,
      "step": 75250
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6695588827133179,
      "learning_rate": 3.962720918976595e-05,
      "loss": 1.5816,
      "step": 75251
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6330931186676025,
      "learning_rate": 3.962201754425346e-05,
      "loss": 1.5019,
      "step": 75252
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6864523887634277,
      "learning_rate": 3.9616826214801444e-05,
      "loss": 1.5198,
      "step": 75253
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6602007150650024,
      "learning_rate": 3.96116352014162e-05,
      "loss": 1.4888,
      "step": 75254
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6539660096168518,
      "learning_rate": 3.9606444504104064e-05,
      "loss": 1.4524,
      "step": 75255
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7022260427474976,
      "learning_rate": 3.9601254122871417e-05,
      "loss": 1.5733,
      "step": 75256
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6577943563461304,
      "learning_rate": 3.959606405772446e-05,
      "loss": 1.5332,
      "step": 75257
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6650649905204773,
      "learning_rate": 3.959087430866946e-05,
      "loss": 1.4835,
      "step": 75258
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6576141715049744,
      "learning_rate": 3.958568487571281e-05,
      "loss": 1.4729,
      "step": 75259
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6633909940719604,
      "learning_rate": 3.95804957588608e-05,
      "loss": 1.5326,
      "step": 75260
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.652087390422821,
      "learning_rate": 3.957530695811962e-05,
      "loss": 1.472,
      "step": 75261
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6643267869949341,
      "learning_rate": 3.9570118473495685e-05,
      "loss": 1.465,
      "step": 75262
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6415148973464966,
      "learning_rate": 3.956493030499523e-05,
      "loss": 1.5921,
      "step": 75263
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6792834401130676,
      "learning_rate": 3.955974245262461e-05,
      "loss": 1.5745,
      "step": 75264
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.632423996925354,
      "learning_rate": 3.9554554916390034e-05,
      "loss": 1.4391,
      "step": 75265
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6585400104522705,
      "learning_rate": 3.954936769629794e-05,
      "loss": 1.587,
      "step": 75266
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6663317084312439,
      "learning_rate": 3.9544180792354516e-05,
      "loss": 1.5086,
      "step": 75267
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6963687539100647,
      "learning_rate": 3.9538994204566e-05,
      "loss": 1.5285,
      "step": 75268
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6520024538040161,
      "learning_rate": 3.953380793293884e-05,
      "loss": 1.537,
      "step": 75269
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6500679850578308,
      "learning_rate": 3.9528621977479217e-05,
      "loss": 1.4679,
      "step": 75270
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6978475451469421,
      "learning_rate": 3.952343633819354e-05,
      "loss": 1.6433,
      "step": 75271
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6705493927001953,
      "learning_rate": 3.951825101508801e-05,
      "loss": 1.499,
      "step": 75272
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6550675630569458,
      "learning_rate": 3.951306600816886e-05,
      "loss": 1.4947,
      "step": 75273
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6493492126464844,
      "learning_rate": 3.950788131744255e-05,
      "loss": 1.5361,
      "step": 75274
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.653749406337738,
      "learning_rate": 3.950269694291523e-05,
      "loss": 1.5153,
      "step": 75275
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.645513117313385,
      "learning_rate": 3.949751288459332e-05,
      "loss": 1.4934,
      "step": 75276
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6477202773094177,
      "learning_rate": 3.949232914248299e-05,
      "loss": 1.4908,
      "step": 75277
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6671687960624695,
      "learning_rate": 3.948714571659065e-05,
      "loss": 1.5491,
      "step": 75278
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6605954766273499,
      "learning_rate": 3.948196260692252e-05,
      "loss": 1.5693,
      "step": 75279
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6496504545211792,
      "learning_rate": 3.9476779813484836e-05,
      "loss": 1.4844,
      "step": 75280
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6564253568649292,
      "learning_rate": 3.947159733628402e-05,
      "loss": 1.5223,
      "step": 75281
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6798958778381348,
      "learning_rate": 3.9466415175326306e-05,
      "loss": 1.5452,
      "step": 75282
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6780686974525452,
      "learning_rate": 3.946123333061788e-05,
      "loss": 1.5908,
      "step": 75283
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6494845747947693,
      "learning_rate": 3.945605180216518e-05,
      "loss": 1.5248,
      "step": 75284
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6662039160728455,
      "learning_rate": 3.945087058997446e-05,
      "loss": 1.4938,
      "step": 75285
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6848622560501099,
      "learning_rate": 3.944568969405202e-05,
      "loss": 1.5038,
      "step": 75286
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6781021356582642,
      "learning_rate": 3.944050911440405e-05,
      "loss": 1.4778,
      "step": 75287
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6622483730316162,
      "learning_rate": 3.943532885103698e-05,
      "loss": 1.5346,
      "step": 75288
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6496725082397461,
      "learning_rate": 3.9430148903957016e-05,
      "loss": 1.4884,
      "step": 75289
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6533544063568115,
      "learning_rate": 3.94249692731704e-05,
      "loss": 1.5435,
      "step": 75290
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6729736328125,
      "learning_rate": 3.941978995868348e-05,
      "loss": 1.507,
      "step": 75291
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.6728209853172302,
      "learning_rate": 3.941461096050267e-05,
      "loss": 1.5725,
      "step": 75292
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6689636707305908,
      "learning_rate": 3.9409432278634e-05,
      "loss": 1.5152,
      "step": 75293
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6622340083122253,
      "learning_rate": 3.940425391308391e-05,
      "loss": 1.505,
      "step": 75294
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6426815390586853,
      "learning_rate": 3.939907586385867e-05,
      "loss": 1.5045,
      "step": 75295
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6945843696594238,
      "learning_rate": 3.939389813096457e-05,
      "loss": 1.5207,
      "step": 75296
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6553598046302795,
      "learning_rate": 3.938872071440783e-05,
      "loss": 1.4892,
      "step": 75297
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6480138897895813,
      "learning_rate": 3.938354361419477e-05,
      "loss": 1.5361,
      "step": 75298
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6571637392044067,
      "learning_rate": 3.937836683033182e-05,
      "loss": 1.4988,
      "step": 75299
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6495961546897888,
      "learning_rate": 3.9373190362825015e-05,
      "loss": 1.4776,
      "step": 75300
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.656362771987915,
      "learning_rate": 3.936801421168074e-05,
      "loss": 1.5736,
      "step": 75301
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6731538772583008,
      "learning_rate": 3.936283837690537e-05,
      "loss": 1.4769,
      "step": 75302
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6889951825141907,
      "learning_rate": 3.935766285850512e-05,
      "loss": 1.4441,
      "step": 75303
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6773650646209717,
      "learning_rate": 3.935248765648617e-05,
      "loss": 1.4833,
      "step": 75304
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6700962781906128,
      "learning_rate": 3.934731277085492e-05,
      "loss": 1.5538,
      "step": 75305
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6591949462890625,
      "learning_rate": 3.9342138201617756e-05,
      "loss": 1.4867,
      "step": 75306
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6825815439224243,
      "learning_rate": 3.9336963948780664e-05,
      "loss": 1.4823,
      "step": 75307
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6964576840400696,
      "learning_rate": 3.933179001235014e-05,
      "loss": 1.4443,
      "step": 75308
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6530081033706665,
      "learning_rate": 3.932661639233244e-05,
      "loss": 1.5041,
      "step": 75309
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6567972898483276,
      "learning_rate": 3.932144308873384e-05,
      "loss": 1.5438,
      "step": 75310
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6793426275253296,
      "learning_rate": 3.931627010156055e-05,
      "loss": 1.4803,
      "step": 75311
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6717614531517029,
      "learning_rate": 3.9311097430818916e-05,
      "loss": 1.5402,
      "step": 75312
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6580219268798828,
      "learning_rate": 3.930592507651525e-05,
      "loss": 1.474,
      "step": 75313
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6685272455215454,
      "learning_rate": 3.93007530386557e-05,
      "loss": 1.5583,
      "step": 75314
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.7077186703681946,
      "learning_rate": 3.929558131724661e-05,
      "loss": 1.4622,
      "step": 75315
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6548512578010559,
      "learning_rate": 3.929040991229434e-05,
      "loss": 1.5546,
      "step": 75316
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6646746397018433,
      "learning_rate": 3.92852388238051e-05,
      "loss": 1.5344,
      "step": 75317
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6682427525520325,
      "learning_rate": 3.928006805178511e-05,
      "loss": 1.5076,
      "step": 75318
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6555991172790527,
      "learning_rate": 3.9274897596240726e-05,
      "loss": 1.4786,
      "step": 75319
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6537691354751587,
      "learning_rate": 3.9269727457178256e-05,
      "loss": 1.5285,
      "step": 75320
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6514447331428528,
      "learning_rate": 3.926455763460382e-05,
      "loss": 1.5092,
      "step": 75321
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6665377616882324,
      "learning_rate": 3.9259388128523886e-05,
      "loss": 1.5453,
      "step": 75322
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.665513277053833,
      "learning_rate": 3.925421893894454e-05,
      "loss": 1.5086,
      "step": 75323
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6376304626464844,
      "learning_rate": 3.924905006587225e-05,
      "loss": 1.5117,
      "step": 75324
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6343791484832764,
      "learning_rate": 3.9243881509313105e-05,
      "loss": 1.5091,
      "step": 75325
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6721429228782654,
      "learning_rate": 3.923871326927354e-05,
      "loss": 1.5074,
      "step": 75326
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6636782884597778,
      "learning_rate": 3.923354534575974e-05,
      "loss": 1.6032,
      "step": 75327
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6836153268814087,
      "learning_rate": 3.922837773877795e-05,
      "loss": 1.5571,
      "step": 75328
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6726219654083252,
      "learning_rate": 3.9223210448334554e-05,
      "loss": 1.5341,
      "step": 75329
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6806841492652893,
      "learning_rate": 3.921804347443568e-05,
      "loss": 1.563,
      "step": 75330
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6834165453910828,
      "learning_rate": 3.921287681708772e-05,
      "loss": 1.4424,
      "step": 75331
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6627246737480164,
      "learning_rate": 3.920771047629695e-05,
      "loss": 1.5336,
      "step": 75332
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6480051875114441,
      "learning_rate": 3.920254445206948e-05,
      "loss": 1.5052,
      "step": 75333
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6908702850341797,
      "learning_rate": 3.919737874441179e-05,
      "loss": 1.5739,
      "step": 75334
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6926887035369873,
      "learning_rate": 3.919221335332999e-05,
      "loss": 1.4956,
      "step": 75335
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6316765546798706,
      "learning_rate": 3.9187048278830494e-05,
      "loss": 1.5358,
      "step": 75336
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6626054644584656,
      "learning_rate": 3.918188352091941e-05,
      "loss": 1.4876,
      "step": 75337
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6584773659706116,
      "learning_rate": 3.9176719079603146e-05,
      "loss": 1.5045,
      "step": 75338
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6594079732894897,
      "learning_rate": 3.91715549548879e-05,
      "loss": 1.5637,
      "step": 75339
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6589720249176025,
      "learning_rate": 3.916639114677992e-05,
      "loss": 1.4569,
      "step": 75340
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6932181119918823,
      "learning_rate": 3.916122765528557e-05,
      "loss": 1.5166,
      "step": 75341
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6517820954322815,
      "learning_rate": 3.9156064480411064e-05,
      "loss": 1.4781,
      "step": 75342
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6668926477432251,
      "learning_rate": 3.915090162216258e-05,
      "loss": 1.4786,
      "step": 75343
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6561660170555115,
      "learning_rate": 3.914573908054648e-05,
      "loss": 1.4734,
      "step": 75344
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6594364643096924,
      "learning_rate": 3.9140576855569064e-05,
      "loss": 1.534,
      "step": 75345
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6610809564590454,
      "learning_rate": 3.9135414947236555e-05,
      "loss": 1.5173,
      "step": 75346
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6799202561378479,
      "learning_rate": 3.913025335555515e-05,
      "loss": 1.5104,
      "step": 75347
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6496614217758179,
      "learning_rate": 3.912509208053125e-05,
      "loss": 1.5063,
      "step": 75348
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6753056645393372,
      "learning_rate": 3.9119931122171075e-05,
      "loss": 1.5561,
      "step": 75349
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6631813645362854,
      "learning_rate": 3.911477048048076e-05,
      "loss": 1.4474,
      "step": 75350
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6628935933113098,
      "learning_rate": 3.91096101554667e-05,
      "loss": 1.5633,
      "step": 75351
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6761677861213684,
      "learning_rate": 3.910445014713518e-05,
      "loss": 1.5848,
      "step": 75352
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6940913200378418,
      "learning_rate": 3.909929045549244e-05,
      "loss": 1.5328,
      "step": 75353
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6737050414085388,
      "learning_rate": 3.9094131080544634e-05,
      "loss": 1.4854,
      "step": 75354
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6854456067085266,
      "learning_rate": 3.908897202229819e-05,
      "loss": 1.5548,
      "step": 75355
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6626289486885071,
      "learning_rate": 3.908381328075928e-05,
      "loss": 1.5105,
      "step": 75356
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.654863715171814,
      "learning_rate": 3.907865485593412e-05,
      "loss": 1.5296,
      "step": 75357
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6716723442077637,
      "learning_rate": 3.907349674782901e-05,
      "loss": 1.5023,
      "step": 75358
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6668500304222107,
      "learning_rate": 3.9068338956450316e-05,
      "loss": 1.4802,
      "step": 75359
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.70164555311203,
      "learning_rate": 3.9063181481804196e-05,
      "loss": 1.5499,
      "step": 75360
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6760690808296204,
      "learning_rate": 3.905802432389688e-05,
      "loss": 1.5628,
      "step": 75361
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6434767246246338,
      "learning_rate": 3.905286748273472e-05,
      "loss": 1.5027,
      "step": 75362
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.645936906337738,
      "learning_rate": 3.904771095832395e-05,
      "loss": 1.4857,
      "step": 75363
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.656112015247345,
      "learning_rate": 3.904255475067071e-05,
      "loss": 1.5109,
      "step": 75364
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6825798749923706,
      "learning_rate": 3.903739885978138e-05,
      "loss": 1.5665,
      "step": 75365
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6597610712051392,
      "learning_rate": 3.9032243285662254e-05,
      "loss": 1.514,
      "step": 75366
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6506783962249756,
      "learning_rate": 3.9027088028319576e-05,
      "loss": 1.5076,
      "step": 75367
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6578728556632996,
      "learning_rate": 3.902193308775946e-05,
      "loss": 1.4209,
      "step": 75368
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6555213332176208,
      "learning_rate": 3.9016778463988306e-05,
      "loss": 1.5601,
      "step": 75369
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6547801494598389,
      "learning_rate": 3.9011624157012346e-05,
      "loss": 1.5399,
      "step": 75370
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6464307904243469,
      "learning_rate": 3.900647016683777e-05,
      "loss": 1.4106,
      "step": 75371
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6884573698043823,
      "learning_rate": 3.900131649347087e-05,
      "loss": 1.4907,
      "step": 75372
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6456895470619202,
      "learning_rate": 3.899616313691798e-05,
      "loss": 1.5509,
      "step": 75373
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6631022095680237,
      "learning_rate": 3.8991010097185295e-05,
      "loss": 1.5322,
      "step": 75374
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6632066965103149,
      "learning_rate": 3.898585737427901e-05,
      "loss": 1.4539,
      "step": 75375
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6224156022071838,
      "learning_rate": 3.898070496820551e-05,
      "loss": 1.4961,
      "step": 75376
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6452173590660095,
      "learning_rate": 3.8975552878970936e-05,
      "loss": 1.4566,
      "step": 75377
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6592597961425781,
      "learning_rate": 3.897040110658155e-05,
      "loss": 1.5919,
      "step": 75378
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6669039726257324,
      "learning_rate": 3.896524965104367e-05,
      "loss": 1.5603,
      "step": 75379
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.669784426689148,
      "learning_rate": 3.896009851236347e-05,
      "loss": 1.5059,
      "step": 75380
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6534039378166199,
      "learning_rate": 3.8954947690547334e-05,
      "loss": 1.4979,
      "step": 75381
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6524701714515686,
      "learning_rate": 3.894979718560133e-05,
      "loss": 1.5056,
      "step": 75382
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6687757968902588,
      "learning_rate": 3.894464699753188e-05,
      "loss": 1.4745,
      "step": 75383
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6610580086708069,
      "learning_rate": 3.8939497126345156e-05,
      "loss": 1.5022,
      "step": 75384
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6647469997406006,
      "learning_rate": 3.893434757204737e-05,
      "loss": 1.4994,
      "step": 75385
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6637505888938904,
      "learning_rate": 3.892919833464487e-05,
      "loss": 1.4994,
      "step": 75386
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6756213903427124,
      "learning_rate": 3.892404941414381e-05,
      "loss": 1.5112,
      "step": 75387
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6532709002494812,
      "learning_rate": 3.8918900810550545e-05,
      "loss": 1.4952,
      "step": 75388
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6570769548416138,
      "learning_rate": 3.8913752523871245e-05,
      "loss": 1.5373,
      "step": 75389
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6693676114082336,
      "learning_rate": 3.8908604554112135e-05,
      "loss": 1.5575,
      "step": 75390
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6801818609237671,
      "learning_rate": 3.890345690127957e-05,
      "loss": 1.481,
      "step": 75391
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6515610814094543,
      "learning_rate": 3.889830956537969e-05,
      "loss": 1.4509,
      "step": 75392
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6415671110153198,
      "learning_rate": 3.889316254641882e-05,
      "loss": 1.5092,
      "step": 75393
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6882138252258301,
      "learning_rate": 3.888801584440315e-05,
      "loss": 1.4609,
      "step": 75394
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6828972697257996,
      "learning_rate": 3.888286945933898e-05,
      "loss": 1.5354,
      "step": 75395
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6903280019760132,
      "learning_rate": 3.887772339123258e-05,
      "loss": 1.5434,
      "step": 75396
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6758769154548645,
      "learning_rate": 3.8872577640090054e-05,
      "loss": 1.5618,
      "step": 75397
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6587353348731995,
      "learning_rate": 3.886743220591782e-05,
      "loss": 1.4671,
      "step": 75398
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6827752590179443,
      "learning_rate": 3.886228708872202e-05,
      "loss": 1.5697,
      "step": 75399
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6666436791419983,
      "learning_rate": 3.88571422885089e-05,
      "loss": 1.4963,
      "step": 75400
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6743944883346558,
      "learning_rate": 3.885199780528472e-05,
      "loss": 1.4898,
      "step": 75401
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6570997834205627,
      "learning_rate": 3.88468536390558e-05,
      "loss": 1.489,
      "step": 75402
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6572545170783997,
      "learning_rate": 3.88417097898283e-05,
      "loss": 1.4616,
      "step": 75403
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6857963800430298,
      "learning_rate": 3.8836566257608456e-05,
      "loss": 1.5365,
      "step": 75404
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.704549252986908,
      "learning_rate": 3.883142304240256e-05,
      "loss": 1.4891,
      "step": 75405
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6601126194000244,
      "learning_rate": 3.882628014421688e-05,
      "loss": 1.5224,
      "step": 75406
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.652112603187561,
      "learning_rate": 3.8821137563057536e-05,
      "loss": 1.4948,
      "step": 75407
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6760188341140747,
      "learning_rate": 3.8815995298930824e-05,
      "loss": 1.6025,
      "step": 75408
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6333759427070618,
      "learning_rate": 3.881085335184317e-05,
      "loss": 1.5144,
      "step": 75409
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6658006310462952,
      "learning_rate": 3.880571172180051e-05,
      "loss": 1.5683,
      "step": 75410
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6663952469825745,
      "learning_rate": 3.880057040880924e-05,
      "loss": 1.5362,
      "step": 75411
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6442382335662842,
      "learning_rate": 3.879542941287564e-05,
      "loss": 1.5217,
      "step": 75412
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6660129427909851,
      "learning_rate": 3.879028873400593e-05,
      "loss": 1.5051,
      "step": 75413
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6600498557090759,
      "learning_rate": 3.8785148372206206e-05,
      "loss": 1.4689,
      "step": 75414
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6747798919677734,
      "learning_rate": 3.878000832748286e-05,
      "loss": 1.5231,
      "step": 75415
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6692452430725098,
      "learning_rate": 3.877486859984224e-05,
      "loss": 1.4676,
      "step": 75416
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6832334995269775,
      "learning_rate": 3.87697291892903e-05,
      "loss": 1.4649,
      "step": 75417
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6885281205177307,
      "learning_rate": 3.876459009583338e-05,
      "loss": 1.4878,
      "step": 75418
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6469524502754211,
      "learning_rate": 3.8759451319477876e-05,
      "loss": 1.4899,
      "step": 75419
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6542308926582336,
      "learning_rate": 3.875431286022987e-05,
      "loss": 1.5107,
      "step": 75420
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6422848701477051,
      "learning_rate": 3.874917471809558e-05,
      "loss": 1.5262,
      "step": 75421
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6560267210006714,
      "learning_rate": 3.874403689308131e-05,
      "loss": 1.5238,
      "step": 75422
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6757737994194031,
      "learning_rate": 3.87388993851934e-05,
      "loss": 1.5102,
      "step": 75423
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6771402955055237,
      "learning_rate": 3.8733762194437844e-05,
      "loss": 1.4908,
      "step": 75424
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6735895872116089,
      "learning_rate": 3.8728625320821e-05,
      "loss": 1.5032,
      "step": 75425
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6456830501556396,
      "learning_rate": 3.872348876434917e-05,
      "loss": 1.5216,
      "step": 75426
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6639277338981628,
      "learning_rate": 3.871835252502855e-05,
      "loss": 1.5683,
      "step": 75427
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6755433082580566,
      "learning_rate": 3.8713216602865296e-05,
      "loss": 1.5643,
      "step": 75428
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6736264824867249,
      "learning_rate": 3.870808099786573e-05,
      "loss": 1.5695,
      "step": 75429
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6677144169807434,
      "learning_rate": 3.870294571003606e-05,
      "loss": 1.4694,
      "step": 75430
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.644433856010437,
      "learning_rate": 3.8697810739382474e-05,
      "loss": 1.4307,
      "step": 75431
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6339787840843201,
      "learning_rate": 3.86926760859112e-05,
      "loss": 1.495,
      "step": 75432
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6564563512802124,
      "learning_rate": 3.86875417496286e-05,
      "loss": 1.5739,
      "step": 75433
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6609362959861755,
      "learning_rate": 3.8682407730540845e-05,
      "loss": 1.3982,
      "step": 75434
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6567079424858093,
      "learning_rate": 3.8677274028654046e-05,
      "loss": 1.52,
      "step": 75435
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6582037210464478,
      "learning_rate": 3.8672140643974614e-05,
      "loss": 1.5113,
      "step": 75436
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6293188333511353,
      "learning_rate": 3.86670075765087e-05,
      "loss": 1.5116,
      "step": 75437
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6612225770950317,
      "learning_rate": 3.866187482626247e-05,
      "loss": 1.5639,
      "step": 75438
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6572327613830566,
      "learning_rate": 3.865674239324229e-05,
      "loss": 1.5041,
      "step": 75439
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6480282545089722,
      "learning_rate": 3.865161027745425e-05,
      "loss": 1.5388,
      "step": 75440
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6716922521591187,
      "learning_rate": 3.864647847890467e-05,
      "loss": 1.5875,
      "step": 75441
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.682703971862793,
      "learning_rate": 3.864134699759973e-05,
      "loss": 1.5145,
      "step": 75442
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6509624123573303,
      "learning_rate": 3.8636215833545746e-05,
      "loss": 1.5026,
      "step": 75443
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6522356867790222,
      "learning_rate": 3.8631084986748884e-05,
      "loss": 1.4999,
      "step": 75444
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6537322402000427,
      "learning_rate": 3.8625954457215334e-05,
      "loss": 1.5709,
      "step": 75445
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.655228316783905,
      "learning_rate": 3.86208242449514e-05,
      "loss": 1.5125,
      "step": 75446
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6447637677192688,
      "learning_rate": 3.86156943499632e-05,
      "loss": 1.6001,
      "step": 75447
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6596925854682922,
      "learning_rate": 3.86105647722571e-05,
      "loss": 1.5353,
      "step": 75448
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.651524007320404,
      "learning_rate": 3.86054355118393e-05,
      "loss": 1.4654,
      "step": 75449
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6665837168693542,
      "learning_rate": 3.860030656871589e-05,
      "loss": 1.5185,
      "step": 75450
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6737024188041687,
      "learning_rate": 3.859517794289326e-05,
      "loss": 1.5271,
      "step": 75451
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.64351487159729,
      "learning_rate": 3.859004963437748e-05,
      "loss": 1.4714,
      "step": 75452
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.656842052936554,
      "learning_rate": 3.858492164317495e-05,
      "loss": 1.4285,
      "step": 75453
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6571332812309265,
      "learning_rate": 3.857979396929175e-05,
      "loss": 1.5635,
      "step": 75454
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6395580172538757,
      "learning_rate": 3.857466661273422e-05,
      "loss": 1.4509,
      "step": 75455
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6405230164527893,
      "learning_rate": 3.8569539573508543e-05,
      "loss": 1.5809,
      "step": 75456
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.7124603986740112,
      "learning_rate": 3.856441285162083e-05,
      "loss": 1.4681,
      "step": 75457
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6614012122154236,
      "learning_rate": 3.8559286447077464e-05,
      "loss": 1.5321,
      "step": 75458
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.661371648311615,
      "learning_rate": 3.855416035988461e-05,
      "loss": 1.4778,
      "step": 75459
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6934252381324768,
      "learning_rate": 3.8549034590048436e-05,
      "loss": 1.5684,
      "step": 75460
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6883478760719299,
      "learning_rate": 3.854390913757519e-05,
      "loss": 1.5575,
      "step": 75461
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6639459729194641,
      "learning_rate": 3.853878400247121e-05,
      "loss": 1.5004,
      "step": 75462
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6701634526252747,
      "learning_rate": 3.8533659184742597e-05,
      "loss": 1.529,
      "step": 75463
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6472252011299133,
      "learning_rate": 3.852853468439553e-05,
      "loss": 1.5109,
      "step": 75464
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6625669598579407,
      "learning_rate": 3.852341050143635e-05,
      "loss": 1.5234,
      "step": 75465
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6599006056785583,
      "learning_rate": 3.851828663587124e-05,
      "loss": 1.4906,
      "step": 75466
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6717657446861267,
      "learning_rate": 3.8513163087706346e-05,
      "loss": 1.5148,
      "step": 75467
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6825438737869263,
      "learning_rate": 3.850803985694795e-05,
      "loss": 1.5367,
      "step": 75468
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6647524833679199,
      "learning_rate": 3.850291694360231e-05,
      "loss": 1.5189,
      "step": 75469
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6485443711280823,
      "learning_rate": 3.84977943476756e-05,
      "loss": 1.5517,
      "step": 75470
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6881293654441833,
      "learning_rate": 3.8492672069173943e-05,
      "loss": 1.4418,
      "step": 75471
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6326473355293274,
      "learning_rate": 3.848755010810377e-05,
      "loss": 1.4748,
      "step": 75472
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6538599133491516,
      "learning_rate": 3.848242846447114e-05,
      "loss": 1.5126,
      "step": 75473
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.65780109167099,
      "learning_rate": 3.847730713828227e-05,
      "loss": 1.563,
      "step": 75474
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6826660633087158,
      "learning_rate": 3.847218612954341e-05,
      "loss": 1.5411,
      "step": 75475
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6589725613594055,
      "learning_rate": 3.8467065438260845e-05,
      "loss": 1.5329,
      "step": 75476
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6770794987678528,
      "learning_rate": 3.846194506444074e-05,
      "loss": 1.5504,
      "step": 75477
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6557091474533081,
      "learning_rate": 3.845682500808921e-05,
      "loss": 1.5942,
      "step": 75478
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6479187607765198,
      "learning_rate": 3.845170526921263e-05,
      "loss": 1.4989,
      "step": 75479
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6672792434692383,
      "learning_rate": 3.844658584781712e-05,
      "loss": 1.517,
      "step": 75480
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.658723771572113,
      "learning_rate": 3.844146674390889e-05,
      "loss": 1.485,
      "step": 75481
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6369664072990417,
      "learning_rate": 3.843634795749415e-05,
      "loss": 1.4786,
      "step": 75482
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6637787222862244,
      "learning_rate": 3.843122948857924e-05,
      "loss": 1.5603,
      "step": 75483
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6634705066680908,
      "learning_rate": 3.842611133717025e-05,
      "loss": 1.5664,
      "step": 75484
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6517406702041626,
      "learning_rate": 3.842099350327338e-05,
      "loss": 1.4945,
      "step": 75485
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6641625165939331,
      "learning_rate": 3.8415875986894917e-05,
      "loss": 1.5284,
      "step": 75486
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6763532757759094,
      "learning_rate": 3.841075878804106e-05,
      "loss": 1.5823,
      "step": 75487
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6562123894691467,
      "learning_rate": 3.840564190671794e-05,
      "loss": 1.5253,
      "step": 75488
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6524985432624817,
      "learning_rate": 3.8400525342931786e-05,
      "loss": 1.5179,
      "step": 75489
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6455320119857788,
      "learning_rate": 3.839540909668895e-05,
      "loss": 1.5037,
      "step": 75490
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6736907958984375,
      "learning_rate": 3.8390293167995546e-05,
      "loss": 1.5495,
      "step": 75491
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6547008752822876,
      "learning_rate": 3.8385177556857684e-05,
      "loss": 1.5215,
      "step": 75492
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6492339372634888,
      "learning_rate": 3.8380062263281765e-05,
      "loss": 1.4766,
      "step": 75493
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6459931135177612,
      "learning_rate": 3.837494728727388e-05,
      "loss": 1.5105,
      "step": 75494
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6705831289291382,
      "learning_rate": 3.8369832628840236e-05,
      "loss": 1.5023,
      "step": 75495
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6804759502410889,
      "learning_rate": 3.836471828798709e-05,
      "loss": 1.5767,
      "step": 75496
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6583472490310669,
      "learning_rate": 3.835960426472055e-05,
      "loss": 1.5556,
      "step": 75497
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6696627140045166,
      "learning_rate": 3.835449055904701e-05,
      "loss": 1.5747,
      "step": 75498
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6858763694763184,
      "learning_rate": 3.834937717097248e-05,
      "loss": 1.6116,
      "step": 75499
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6737270951271057,
      "learning_rate": 3.83442641005033e-05,
      "loss": 1.4872,
      "step": 75500
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6646360754966736,
      "learning_rate": 3.8339151347645645e-05,
      "loss": 1.565,
      "step": 75501
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6962690949440002,
      "learning_rate": 3.833403891240566e-05,
      "loss": 1.5635,
      "step": 75502
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6586453914642334,
      "learning_rate": 3.832892679478964e-05,
      "loss": 1.4863,
      "step": 75503
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6671889424324036,
      "learning_rate": 3.832381499480367e-05,
      "loss": 1.5554,
      "step": 75504
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6458244323730469,
      "learning_rate": 3.831870351245412e-05,
      "loss": 1.4947,
      "step": 75505
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6469933986663818,
      "learning_rate": 3.831359234774711e-05,
      "loss": 1.4446,
      "step": 75506
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6793609857559204,
      "learning_rate": 3.830848150068878e-05,
      "loss": 1.5901,
      "step": 75507
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6593233942985535,
      "learning_rate": 3.830337097128545e-05,
      "loss": 1.557,
      "step": 75508
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6637922525405884,
      "learning_rate": 3.829826075954319e-05,
      "loss": 1.4955,
      "step": 75509
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6445672512054443,
      "learning_rate": 3.8293150865468346e-05,
      "loss": 1.4733,
      "step": 75510
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6405051946640015,
      "learning_rate": 3.828804128906703e-05,
      "loss": 1.5211,
      "step": 75511
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6790859699249268,
      "learning_rate": 3.828293203034549e-05,
      "loss": 1.4864,
      "step": 75512
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6728135347366333,
      "learning_rate": 3.827782308930993e-05,
      "loss": 1.5197,
      "step": 75513
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6582434177398682,
      "learning_rate": 3.8272714465966447e-05,
      "loss": 1.4953,
      "step": 75514
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.64959317445755,
      "learning_rate": 3.826760616032143e-05,
      "loss": 1.5313,
      "step": 75515
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6633751392364502,
      "learning_rate": 3.826249817238094e-05,
      "loss": 1.489,
      "step": 75516
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6505357623100281,
      "learning_rate": 3.825739050215114e-05,
      "loss": 1.5835,
      "step": 75517
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6488966345787048,
      "learning_rate": 3.825228314963833e-05,
      "loss": 1.5336,
      "step": 75518
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6725914478302002,
      "learning_rate": 3.824717611484873e-05,
      "loss": 1.5245,
      "step": 75519
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6742258071899414,
      "learning_rate": 3.824206939778851e-05,
      "loss": 1.5412,
      "step": 75520
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6954624056816101,
      "learning_rate": 3.823696299846376e-05,
      "loss": 1.4898,
      "step": 75521
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.661623477935791,
      "learning_rate": 3.8231856916880845e-05,
      "loss": 1.5058,
      "step": 75522
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6604812741279602,
      "learning_rate": 3.822675115304589e-05,
      "loss": 1.5048,
      "step": 75523
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6829334497451782,
      "learning_rate": 3.822164570696502e-05,
      "loss": 1.5223,
      "step": 75524
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6872064471244812,
      "learning_rate": 3.8216540578644505e-05,
      "loss": 1.5417,
      "step": 75525
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6502959728240967,
      "learning_rate": 3.821143576809067e-05,
      "loss": 1.4838,
      "step": 75526
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6531552672386169,
      "learning_rate": 3.820633127530941e-05,
      "loss": 1.5291,
      "step": 75527
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6735666394233704,
      "learning_rate": 3.820122710030715e-05,
      "loss": 1.5191,
      "step": 75528
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6617848873138428,
      "learning_rate": 3.819612324309006e-05,
      "loss": 1.4532,
      "step": 75529
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6524615287780762,
      "learning_rate": 3.819101970366429e-05,
      "loss": 1.4473,
      "step": 75530
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.679150402545929,
      "learning_rate": 3.818591648203598e-05,
      "loss": 1.5188,
      "step": 75531
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6753547787666321,
      "learning_rate": 3.818081357821142e-05,
      "loss": 1.4797,
      "step": 75532
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6703877449035645,
      "learning_rate": 3.817571099219691e-05,
      "loss": 1.5511,
      "step": 75533
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6579350829124451,
      "learning_rate": 3.8170608723998334e-05,
      "loss": 1.5321,
      "step": 75534
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6586039066314697,
      "learning_rate": 3.816550677362209e-05,
      "loss": 1.3919,
      "step": 75535
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6515258550643921,
      "learning_rate": 3.816040514107441e-05,
      "loss": 1.5435,
      "step": 75536
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6495782732963562,
      "learning_rate": 3.815530382636139e-05,
      "loss": 1.5817,
      "step": 75537
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6382535696029663,
      "learning_rate": 3.8150202829489226e-05,
      "loss": 1.5141,
      "step": 75538
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6413103342056274,
      "learning_rate": 3.8145102150464114e-05,
      "loss": 1.5255,
      "step": 75539
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.657159686088562,
      "learning_rate": 3.8140001789292405e-05,
      "loss": 1.4678,
      "step": 75540
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.640999972820282,
      "learning_rate": 3.813490174598001e-05,
      "loss": 1.5089,
      "step": 75541
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6577717065811157,
      "learning_rate": 3.812980202053324e-05,
      "loss": 1.5792,
      "step": 75542
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6754217743873596,
      "learning_rate": 3.8124702612958404e-05,
      "loss": 1.641,
      "step": 75543
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6494587659835815,
      "learning_rate": 3.811960352326159e-05,
      "loss": 1.5269,
      "step": 75544
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6378542184829712,
      "learning_rate": 3.811450475144889e-05,
      "loss": 1.4744,
      "step": 75545
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6626066565513611,
      "learning_rate": 3.8109406297526714e-05,
      "loss": 1.5908,
      "step": 75546
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6649636626243591,
      "learning_rate": 3.810430816150107e-05,
      "loss": 1.4997,
      "step": 75547
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6899603605270386,
      "learning_rate": 3.809921034337821e-05,
      "loss": 1.4583,
      "step": 75548
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6661888360977173,
      "learning_rate": 3.809411284316427e-05,
      "loss": 1.5766,
      "step": 75549
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6332391500473022,
      "learning_rate": 3.808901566086556e-05,
      "loss": 1.5127,
      "step": 75550
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6555578112602234,
      "learning_rate": 3.8083918796488213e-05,
      "loss": 1.5484,
      "step": 75551
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6590855121612549,
      "learning_rate": 3.807882225003831e-05,
      "loss": 1.4436,
      "step": 75552
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6568581461906433,
      "learning_rate": 3.807372602152219e-05,
      "loss": 1.5406,
      "step": 75553
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6535876989364624,
      "learning_rate": 3.806863011094601e-05,
      "loss": 1.4687,
      "step": 75554
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6709035634994507,
      "learning_rate": 3.806353451831583e-05,
      "loss": 1.4553,
      "step": 75555
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6429729461669922,
      "learning_rate": 3.805843924363798e-05,
      "loss": 1.5275,
      "step": 75556
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6649425625801086,
      "learning_rate": 3.805334428691853e-05,
      "loss": 1.5296,
      "step": 75557
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6662207841873169,
      "learning_rate": 3.80482496481638e-05,
      "loss": 1.5531,
      "step": 75558
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.665728747844696,
      "learning_rate": 3.804315532737981e-05,
      "loss": 1.5326,
      "step": 75559
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6388667225837708,
      "learning_rate": 3.803806132457291e-05,
      "loss": 1.4948,
      "step": 75560
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.65235435962677,
      "learning_rate": 3.803296763974921e-05,
      "loss": 1.5138,
      "step": 75561
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6897205710411072,
      "learning_rate": 3.802787427291481e-05,
      "loss": 1.5403,
      "step": 75562
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6576154232025146,
      "learning_rate": 3.802278122407605e-05,
      "loss": 1.5174,
      "step": 75563
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6729544401168823,
      "learning_rate": 3.8017688493238975e-05,
      "loss": 1.554,
      "step": 75564
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6411411762237549,
      "learning_rate": 3.801259608040985e-05,
      "loss": 1.5768,
      "step": 75565
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6799880266189575,
      "learning_rate": 3.800750398559488e-05,
      "loss": 1.5864,
      "step": 75566
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.675492525100708,
      "learning_rate": 3.800241220880011e-05,
      "loss": 1.4881,
      "step": 75567
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6576941013336182,
      "learning_rate": 3.7997320750031857e-05,
      "loss": 1.5396,
      "step": 75568
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6902734637260437,
      "learning_rate": 3.7992229609296235e-05,
      "loss": 1.5264,
      "step": 75569
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.675471305847168,
      "learning_rate": 3.798713878659947e-05,
      "loss": 1.5482,
      "step": 75570
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6638268232345581,
      "learning_rate": 3.798204828194763e-05,
      "loss": 1.6156,
      "step": 75571
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.654371440410614,
      "learning_rate": 3.7976958095347074e-05,
      "loss": 1.5253,
      "step": 75572
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6631167531013489,
      "learning_rate": 3.797186822680387e-05,
      "loss": 1.5393,
      "step": 75573
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6596750617027283,
      "learning_rate": 3.7966778676324174e-05,
      "loss": 1.5393,
      "step": 75574
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6496001482009888,
      "learning_rate": 3.796168944391421e-05,
      "loss": 1.5591,
      "step": 75575
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6758207678794861,
      "learning_rate": 3.7956600529580186e-05,
      "loss": 1.5071,
      "step": 75576
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6569288372993469,
      "learning_rate": 3.7951511933328184e-05,
      "loss": 1.5107,
      "step": 75577
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6486942172050476,
      "learning_rate": 3.79464236551644e-05,
      "loss": 1.4864,
      "step": 75578
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6750102043151855,
      "learning_rate": 3.794133569509514e-05,
      "loss": 1.5387,
      "step": 75579
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6808804869651794,
      "learning_rate": 3.7936248053126465e-05,
      "loss": 1.448,
      "step": 75580
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.651861846446991,
      "learning_rate": 3.793116072926452e-05,
      "loss": 1.5678,
      "step": 75581
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6507472991943359,
      "learning_rate": 3.792607372351558e-05,
      "loss": 1.506,
      "step": 75582
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.663558840751648,
      "learning_rate": 3.792098703588577e-05,
      "loss": 1.5104,
      "step": 75583
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6707797646522522,
      "learning_rate": 3.791590066638123e-05,
      "loss": 1.4888,
      "step": 75584
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6554574966430664,
      "learning_rate": 3.791081461500817e-05,
      "loss": 1.5619,
      "step": 75585
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6597672700881958,
      "learning_rate": 3.790572888177279e-05,
      "loss": 1.4701,
      "step": 75586
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6791306138038635,
      "learning_rate": 3.790064346668126e-05,
      "loss": 1.5265,
      "step": 75587
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6465907692909241,
      "learning_rate": 3.789555836973966e-05,
      "loss": 1.4271,
      "step": 75588
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6463459730148315,
      "learning_rate": 3.7890473590954306e-05,
      "loss": 1.498,
      "step": 75589
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.683368444442749,
      "learning_rate": 3.788538913033131e-05,
      "loss": 1.5017,
      "step": 75590
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6708828210830688,
      "learning_rate": 3.788030498787674e-05,
      "loss": 1.4107,
      "step": 75591
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6432462930679321,
      "learning_rate": 3.787522116359689e-05,
      "loss": 1.5243,
      "step": 75592
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.6672735810279846,
      "learning_rate": 3.7870137657497924e-05,
      "loss": 1.5638,
      "step": 75593
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6661810278892517,
      "learning_rate": 3.7865054469586e-05,
      "loss": 1.4845,
      "step": 75594
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6541000008583069,
      "learning_rate": 3.785997159986724e-05,
      "loss": 1.4652,
      "step": 75595
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.668845534324646,
      "learning_rate": 3.7854889048347894e-05,
      "loss": 1.4911,
      "step": 75596
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6541656851768494,
      "learning_rate": 3.784980681503407e-05,
      "loss": 1.5243,
      "step": 75597
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6665831804275513,
      "learning_rate": 3.78447248999319e-05,
      "loss": 1.5565,
      "step": 75598
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6716300845146179,
      "learning_rate": 3.783964330304762e-05,
      "loss": 1.5971,
      "step": 75599
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6501519680023193,
      "learning_rate": 3.783456202438745e-05,
      "loss": 1.5208,
      "step": 75600
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6625640988349915,
      "learning_rate": 3.782948106395749e-05,
      "loss": 1.5532,
      "step": 75601
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6543615460395813,
      "learning_rate": 3.782440042176384e-05,
      "loss": 1.4742,
      "step": 75602
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6841872334480286,
      "learning_rate": 3.781932009781281e-05,
      "loss": 1.4889,
      "step": 75603
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6693709492683411,
      "learning_rate": 3.781424009211048e-05,
      "loss": 1.5667,
      "step": 75604
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6615670323371887,
      "learning_rate": 3.780916040466298e-05,
      "loss": 1.5683,
      "step": 75605
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6758609414100647,
      "learning_rate": 3.780408103547659e-05,
      "loss": 1.5357,
      "step": 75606
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6453872323036194,
      "learning_rate": 3.779900198455734e-05,
      "loss": 1.5119,
      "step": 75607
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6678357720375061,
      "learning_rate": 3.779392325191154e-05,
      "loss": 1.5174,
      "step": 75608
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6711291670799255,
      "learning_rate": 3.778884483754524e-05,
      "loss": 1.5258,
      "step": 75609
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6783095002174377,
      "learning_rate": 3.778376674146467e-05,
      "loss": 1.5137,
      "step": 75610
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6800774931907654,
      "learning_rate": 3.7778688963675996e-05,
      "loss": 1.4566,
      "step": 75611
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6637604832649231,
      "learning_rate": 3.777361150418531e-05,
      "loss": 1.6314,
      "step": 75612
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7031259536743164,
      "learning_rate": 3.776853436299887e-05,
      "loss": 1.5379,
      "step": 75613
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6765374541282654,
      "learning_rate": 3.776345754012271e-05,
      "loss": 1.5821,
      "step": 75614
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6764159798622131,
      "learning_rate": 3.7758381035563155e-05,
      "loss": 1.5325,
      "step": 75615
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6781474351882935,
      "learning_rate": 3.7753304849326205e-05,
      "loss": 1.512,
      "step": 75616
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7004249691963196,
      "learning_rate": 3.774822898141818e-05,
      "loss": 1.5236,
      "step": 75617
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.657651960849762,
      "learning_rate": 3.7743153431845185e-05,
      "loss": 1.4335,
      "step": 75618
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6428347826004028,
      "learning_rate": 3.773807820061327e-05,
      "loss": 1.5277,
      "step": 75619
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6756808161735535,
      "learning_rate": 3.7733003287728745e-05,
      "loss": 1.5748,
      "step": 75620
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6726829409599304,
      "learning_rate": 3.772792869319766e-05,
      "loss": 1.5429,
      "step": 75621
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6674705147743225,
      "learning_rate": 3.772285441702628e-05,
      "loss": 1.5087,
      "step": 75622
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6501215100288391,
      "learning_rate": 3.771778045922071e-05,
      "loss": 1.464,
      "step": 75623
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.658612072467804,
      "learning_rate": 3.7712706819787054e-05,
      "loss": 1.5263,
      "step": 75624
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6967034935951233,
      "learning_rate": 3.770763349873159e-05,
      "loss": 1.5577,
      "step": 75625
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6734736561775208,
      "learning_rate": 3.770256049606035e-05,
      "loss": 1.4899,
      "step": 75626
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.9252059459686279,
      "learning_rate": 3.769748781177959e-05,
      "loss": 1.5297,
      "step": 75627
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6671419739723206,
      "learning_rate": 3.769241544589541e-05,
      "loss": 1.4961,
      "step": 75628
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6615824699401855,
      "learning_rate": 3.768734339841403e-05,
      "loss": 1.549,
      "step": 75629
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6688919067382812,
      "learning_rate": 3.7682271669341546e-05,
      "loss": 1.6148,
      "step": 75630
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6595032811164856,
      "learning_rate": 3.767720025868409e-05,
      "loss": 1.4909,
      "step": 75631
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6565214395523071,
      "learning_rate": 3.767212916644793e-05,
      "loss": 1.4824,
      "step": 75632
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6673811674118042,
      "learning_rate": 3.766705839263915e-05,
      "loss": 1.5156,
      "step": 75633
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6509008407592773,
      "learning_rate": 3.766198793726385e-05,
      "loss": 1.4667,
      "step": 75634
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6789855360984802,
      "learning_rate": 3.765691780032822e-05,
      "loss": 1.5,
      "step": 75635
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6655139327049255,
      "learning_rate": 3.765184798183853e-05,
      "loss": 1.5157,
      "step": 75636
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6387475728988647,
      "learning_rate": 3.7646778481800845e-05,
      "loss": 1.4863,
      "step": 75637
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6661317944526672,
      "learning_rate": 3.764170930022121e-05,
      "loss": 1.4956,
      "step": 75638
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6694087982177734,
      "learning_rate": 3.7636640437105966e-05,
      "loss": 1.4616,
      "step": 75639
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6737505793571472,
      "learning_rate": 3.763157189246121e-05,
      "loss": 1.5296,
      "step": 75640
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6518210172653198,
      "learning_rate": 3.7626503666292994e-05,
      "loss": 1.5188,
      "step": 75641
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6755261421203613,
      "learning_rate": 3.762143575860752e-05,
      "loss": 1.4838,
      "step": 75642
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.655841588973999,
      "learning_rate": 3.7616368169411116e-05,
      "loss": 1.5499,
      "step": 75643
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6540225744247437,
      "learning_rate": 3.761130089870964e-05,
      "loss": 1.5856,
      "step": 75644
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6417682766914368,
      "learning_rate": 3.760623394650935e-05,
      "loss": 1.4868,
      "step": 75645
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6645249128341675,
      "learning_rate": 3.7601167312816564e-05,
      "loss": 1.5269,
      "step": 75646
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6637729406356812,
      "learning_rate": 3.7596100997637246e-05,
      "loss": 1.5218,
      "step": 75647
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6923816800117493,
      "learning_rate": 3.7591035000977546e-05,
      "loss": 1.5437,
      "step": 75648
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6715255379676819,
      "learning_rate": 3.758596932284368e-05,
      "loss": 1.5276,
      "step": 75649
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6732472777366638,
      "learning_rate": 3.758090396324188e-05,
      "loss": 1.4479,
      "step": 75650
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6489349603652954,
      "learning_rate": 3.7575838922178116e-05,
      "loss": 1.4509,
      "step": 75651
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6526301503181458,
      "learning_rate": 3.757077419965857e-05,
      "loss": 1.5574,
      "step": 75652
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6889357566833496,
      "learning_rate": 3.756570979568951e-05,
      "loss": 1.5015,
      "step": 75653
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6853352189064026,
      "learning_rate": 3.7560645710277036e-05,
      "loss": 1.4786,
      "step": 75654
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6753151416778564,
      "learning_rate": 3.7555581943427206e-05,
      "loss": 1.5354,
      "step": 75655
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6527792811393738,
      "learning_rate": 3.755051849514621e-05,
      "loss": 1.5905,
      "step": 75656
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6741588711738586,
      "learning_rate": 3.754545536544035e-05,
      "loss": 1.5706,
      "step": 75657
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6409063935279846,
      "learning_rate": 3.754039255431548e-05,
      "loss": 1.4902,
      "step": 75658
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6417093276977539,
      "learning_rate": 3.7535330061777936e-05,
      "loss": 1.5549,
      "step": 75659
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6535305976867676,
      "learning_rate": 3.753026788783388e-05,
      "loss": 1.463,
      "step": 75660
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6718178987503052,
      "learning_rate": 3.752520603248943e-05,
      "loss": 1.5537,
      "step": 75661
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.705633819103241,
      "learning_rate": 3.752014449575059e-05,
      "loss": 1.5445,
      "step": 75662
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6692367196083069,
      "learning_rate": 3.7515083277623725e-05,
      "loss": 1.4229,
      "step": 75663
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6539318561553955,
      "learning_rate": 3.751002237811489e-05,
      "loss": 1.5339,
      "step": 75664
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7005572319030762,
      "learning_rate": 3.7504961797230115e-05,
      "loss": 1.4537,
      "step": 75665
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6500651240348816,
      "learning_rate": 3.749990153497563e-05,
      "loss": 1.49,
      "step": 75666
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6674110293388367,
      "learning_rate": 3.749484159135766e-05,
      "loss": 1.5244,
      "step": 75667
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.657280683517456,
      "learning_rate": 3.7489781966382305e-05,
      "loss": 1.4979,
      "step": 75668
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6752514243125916,
      "learning_rate": 3.748472266005559e-05,
      "loss": 1.5905,
      "step": 75669
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.668519139289856,
      "learning_rate": 3.7479663672383805e-05,
      "loss": 1.4369,
      "step": 75670
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6462528705596924,
      "learning_rate": 3.747460500337302e-05,
      "loss": 1.4579,
      "step": 75671
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6775977611541748,
      "learning_rate": 3.746954665302934e-05,
      "loss": 1.6057,
      "step": 75672
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6560997366905212,
      "learning_rate": 3.746448862135897e-05,
      "loss": 1.4833,
      "step": 75673
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6614335775375366,
      "learning_rate": 3.745943090836802e-05,
      "loss": 1.4816,
      "step": 75674
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6561990976333618,
      "learning_rate": 3.7454373514062674e-05,
      "loss": 1.5145,
      "step": 75675
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6643887758255005,
      "learning_rate": 3.744931643844894e-05,
      "loss": 1.5319,
      "step": 75676
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6697322130203247,
      "learning_rate": 3.744425968153317e-05,
      "loss": 1.5607,
      "step": 75677
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6456581950187683,
      "learning_rate": 3.7439203243321334e-05,
      "loss": 1.5043,
      "step": 75678
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.672174334526062,
      "learning_rate": 3.743414712381959e-05,
      "loss": 1.4439,
      "step": 75679
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6853512525558472,
      "learning_rate": 3.742909132303417e-05,
      "loss": 1.4827,
      "step": 75680
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6648404598236084,
      "learning_rate": 3.742403584097105e-05,
      "loss": 1.4799,
      "step": 75681
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6621713042259216,
      "learning_rate": 3.741898067763656e-05,
      "loss": 1.5903,
      "step": 75682
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6643103957176208,
      "learning_rate": 3.741392583303673e-05,
      "loss": 1.5496,
      "step": 75683
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6902087926864624,
      "learning_rate": 3.7408871307177604e-05,
      "loss": 1.5054,
      "step": 75684
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6549027562141418,
      "learning_rate": 3.74038171000655e-05,
      "loss": 1.5312,
      "step": 75685
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6651022434234619,
      "learning_rate": 3.739876321170643e-05,
      "loss": 1.5175,
      "step": 75686
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6776071786880493,
      "learning_rate": 3.7393709642106606e-05,
      "loss": 1.5827,
      "step": 75687
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6740778684616089,
      "learning_rate": 3.73886563912721e-05,
      "loss": 1.5025,
      "step": 75688
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6524091362953186,
      "learning_rate": 3.73836034592091e-05,
      "loss": 1.5513,
      "step": 75689
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6485455632209778,
      "learning_rate": 3.7378550845923705e-05,
      "loss": 1.5225,
      "step": 75690
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.699652910232544,
      "learning_rate": 3.737349855142201e-05,
      "loss": 1.4326,
      "step": 75691
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6797726154327393,
      "learning_rate": 3.736844657571024e-05,
      "loss": 1.4966,
      "step": 75692
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6548200845718384,
      "learning_rate": 3.73633949187945e-05,
      "loss": 1.5809,
      "step": 75693
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6470450162887573,
      "learning_rate": 3.735834358068084e-05,
      "loss": 1.5047,
      "step": 75694
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6531351804733276,
      "learning_rate": 3.735329256137543e-05,
      "loss": 1.5669,
      "step": 75695
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.685712993144989,
      "learning_rate": 3.7348241860884485e-05,
      "loss": 1.513,
      "step": 75696
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6329469680786133,
      "learning_rate": 3.734319147921409e-05,
      "loss": 1.4632,
      "step": 75697
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6808327436447144,
      "learning_rate": 3.733814141637028e-05,
      "loss": 1.4988,
      "step": 75698
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6431902647018433,
      "learning_rate": 3.7333091672359336e-05,
      "loss": 1.5785,
      "step": 75699
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6589098572731018,
      "learning_rate": 3.732804224718735e-05,
      "loss": 1.4809,
      "step": 75700
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6612508893013,
      "learning_rate": 3.7322993140860314e-05,
      "loss": 1.5629,
      "step": 75701
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6919047236442566,
      "learning_rate": 3.7317944353384454e-05,
      "loss": 1.5207,
      "step": 75702
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6657496094703674,
      "learning_rate": 3.7312895884766e-05,
      "loss": 1.4578,
      "step": 75703
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.650528073310852,
      "learning_rate": 3.730784773501099e-05,
      "loss": 1.5289,
      "step": 75704
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6637512445449829,
      "learning_rate": 3.7302799904125436e-05,
      "loss": 1.5172,
      "step": 75705
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6516931653022766,
      "learning_rate": 3.729775239211568e-05,
      "loss": 1.4646,
      "step": 75706
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6335909962654114,
      "learning_rate": 3.729270519898774e-05,
      "loss": 1.5086,
      "step": 75707
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6558420658111572,
      "learning_rate": 3.728765832474768e-05,
      "loss": 1.4899,
      "step": 75708
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.661949872970581,
      "learning_rate": 3.728261176940167e-05,
      "loss": 1.5197,
      "step": 75709
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6768986582756042,
      "learning_rate": 3.7277565532955964e-05,
      "loss": 1.4475,
      "step": 75710
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6666176915168762,
      "learning_rate": 3.727251961541656e-05,
      "loss": 1.5777,
      "step": 75711
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6457371711730957,
      "learning_rate": 3.726747401678955e-05,
      "loss": 1.511,
      "step": 75712
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6912057399749756,
      "learning_rate": 3.726242873708117e-05,
      "loss": 1.5799,
      "step": 75713
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7157167792320251,
      "learning_rate": 3.725738377629748e-05,
      "loss": 1.5307,
      "step": 75714
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6526365280151367,
      "learning_rate": 3.725233913444456e-05,
      "loss": 1.5492,
      "step": 75715
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6506128907203674,
      "learning_rate": 3.7247294811528594e-05,
      "loss": 1.5568,
      "step": 75716
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6618931889533997,
      "learning_rate": 3.724225080755576e-05,
      "loss": 1.5895,
      "step": 75717
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6646633744239807,
      "learning_rate": 3.7237207122532134e-05,
      "loss": 1.5518,
      "step": 75718
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7031294703483582,
      "learning_rate": 3.723216375646373e-05,
      "loss": 1.4956,
      "step": 75719
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6596609950065613,
      "learning_rate": 3.722712070935682e-05,
      "loss": 1.5088,
      "step": 75720
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6825211048126221,
      "learning_rate": 3.722207798121749e-05,
      "loss": 1.4902,
      "step": 75721
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6657020449638367,
      "learning_rate": 3.721703557205178e-05,
      "loss": 1.5747,
      "step": 75722
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6590162515640259,
      "learning_rate": 3.7211993481865907e-05,
      "loss": 1.447,
      "step": 75723
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6371588706970215,
      "learning_rate": 3.720695171066591e-05,
      "loss": 1.5258,
      "step": 75724
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6403151750564575,
      "learning_rate": 3.720191025845801e-05,
      "loss": 1.4612,
      "step": 75725
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6664084196090698,
      "learning_rate": 3.7196869125248205e-05,
      "loss": 1.5832,
      "step": 75726
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6653037071228027,
      "learning_rate": 3.719182831104276e-05,
      "loss": 1.5006,
      "step": 75727
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6676504611968994,
      "learning_rate": 3.7186787815847693e-05,
      "loss": 1.5466,
      "step": 75728
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6684739589691162,
      "learning_rate": 3.718174763966908e-05,
      "loss": 1.5227,
      "step": 75729
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6630274057388306,
      "learning_rate": 3.717670778251317e-05,
      "loss": 1.5363,
      "step": 75730
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6601265668869019,
      "learning_rate": 3.7171668244385933e-05,
      "loss": 1.5458,
      "step": 75731
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6661142706871033,
      "learning_rate": 3.716662902529363e-05,
      "loss": 1.5594,
      "step": 75732
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6762683391571045,
      "learning_rate": 3.716159012524228e-05,
      "loss": 1.4359,
      "step": 75733
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6971327662467957,
      "learning_rate": 3.715655154423806e-05,
      "loss": 1.5156,
      "step": 75734
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6582619547843933,
      "learning_rate": 3.715151328228708e-05,
      "loss": 1.4977,
      "step": 75735
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6593136191368103,
      "learning_rate": 3.7146475339395354e-05,
      "loss": 1.5154,
      "step": 75736
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6636841893196106,
      "learning_rate": 3.7141437715569135e-05,
      "loss": 1.4955,
      "step": 75737
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6704805493354797,
      "learning_rate": 3.713640041081445e-05,
      "loss": 1.551,
      "step": 75738
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6586867570877075,
      "learning_rate": 3.713136342513749e-05,
      "loss": 1.561,
      "step": 75739
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6856896281242371,
      "learning_rate": 3.71263267585443e-05,
      "loss": 1.5602,
      "step": 75740
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6413818597793579,
      "learning_rate": 3.712129041104099e-05,
      "loss": 1.5464,
      "step": 75741
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6627023816108704,
      "learning_rate": 3.7116254382633734e-05,
      "loss": 1.522,
      "step": 75742
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6652401685714722,
      "learning_rate": 3.711121867332859e-05,
      "loss": 1.5305,
      "step": 75743
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6747663617134094,
      "learning_rate": 3.710618328313172e-05,
      "loss": 1.4473,
      "step": 75744
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.652270495891571,
      "learning_rate": 3.710114821204915e-05,
      "loss": 1.5197,
      "step": 75745
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6470916271209717,
      "learning_rate": 3.709611346008711e-05,
      "loss": 1.5843,
      "step": 75746
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6646884679794312,
      "learning_rate": 3.7091079027251656e-05,
      "loss": 1.5287,
      "step": 75747
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6795639991760254,
      "learning_rate": 3.708604491354883e-05,
      "loss": 1.4991,
      "step": 75748
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6532851457595825,
      "learning_rate": 3.708101111898488e-05,
      "loss": 1.5935,
      "step": 75749
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6629687547683716,
      "learning_rate": 3.7075977643565814e-05,
      "loss": 1.5051,
      "step": 75750
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6625884175300598,
      "learning_rate": 3.707094448729775e-05,
      "loss": 1.5217,
      "step": 75751
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6622456908226013,
      "learning_rate": 3.7065911650186783e-05,
      "loss": 1.5141,
      "step": 75752
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.650479257106781,
      "learning_rate": 3.7060879132239155e-05,
      "loss": 1.4973,
      "step": 75753
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6688738465309143,
      "learning_rate": 3.705584693346084e-05,
      "loss": 1.5219,
      "step": 75754
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6482639312744141,
      "learning_rate": 3.7050815053857955e-05,
      "loss": 1.4915,
      "step": 75755
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.641143262386322,
      "learning_rate": 3.7045783493436676e-05,
      "loss": 1.5667,
      "step": 75756
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6833732724189758,
      "learning_rate": 3.704075225220308e-05,
      "loss": 1.5416,
      "step": 75757
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6376252174377441,
      "learning_rate": 3.703572133016318e-05,
      "loss": 1.4823,
      "step": 75758
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6666656136512756,
      "learning_rate": 3.703069072732319e-05,
      "loss": 1.5195,
      "step": 75759
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6613849401473999,
      "learning_rate": 3.702566044368932e-05,
      "loss": 1.4971,
      "step": 75760
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6802296042442322,
      "learning_rate": 3.702063047926744e-05,
      "loss": 1.5736,
      "step": 75761
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.670805037021637,
      "learning_rate": 3.701560083406375e-05,
      "loss": 1.5285,
      "step": 75762
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6833972334861755,
      "learning_rate": 3.701057150808444e-05,
      "loss": 1.5799,
      "step": 75763
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.651172935962677,
      "learning_rate": 3.700554250133554e-05,
      "loss": 1.5411,
      "step": 75764
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6594454050064087,
      "learning_rate": 3.7000513813823104e-05,
      "loss": 1.4944,
      "step": 75765
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.669989287853241,
      "learning_rate": 3.6995485445553277e-05,
      "loss": 1.516,
      "step": 75766
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6696023941040039,
      "learning_rate": 3.69904573965323e-05,
      "loss": 1.5333,
      "step": 75767
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6472334861755371,
      "learning_rate": 3.698542966676605e-05,
      "loss": 1.5088,
      "step": 75768
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6627675294876099,
      "learning_rate": 3.698040225626075e-05,
      "loss": 1.5712,
      "step": 75769
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6749089360237122,
      "learning_rate": 3.697537516502253e-05,
      "loss": 1.5519,
      "step": 75770
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6542157530784607,
      "learning_rate": 3.697034839305746e-05,
      "loss": 1.4999,
      "step": 75771
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6339452266693115,
      "learning_rate": 3.6965321940371554e-05,
      "loss": 1.4322,
      "step": 75772
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7110249400138855,
      "learning_rate": 3.696029580697097e-05,
      "loss": 1.5304,
      "step": 75773
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6742986440658569,
      "learning_rate": 3.695526999286199e-05,
      "loss": 1.4864,
      "step": 75774
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6462375521659851,
      "learning_rate": 3.695024449805043e-05,
      "loss": 1.5395,
      "step": 75775
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6638332009315491,
      "learning_rate": 3.694521932254252e-05,
      "loss": 1.4945,
      "step": 75776
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6750531792640686,
      "learning_rate": 3.694019446634438e-05,
      "loss": 1.5908,
      "step": 75777
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6671143174171448,
      "learning_rate": 3.693516992946213e-05,
      "loss": 1.5096,
      "step": 75778
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6833091378211975,
      "learning_rate": 3.693014571190174e-05,
      "loss": 1.4544,
      "step": 75779
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.66606205701828,
      "learning_rate": 3.6925121813669445e-05,
      "loss": 1.476,
      "step": 75780
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6786208748817444,
      "learning_rate": 3.6920098234771275e-05,
      "loss": 1.5414,
      "step": 75781
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6672534346580505,
      "learning_rate": 3.69150749752133e-05,
      "loss": 1.5072,
      "step": 75782
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6545236706733704,
      "learning_rate": 3.691005203500167e-05,
      "loss": 1.5856,
      "step": 75783
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6449141502380371,
      "learning_rate": 3.6905029414142515e-05,
      "loss": 1.5111,
      "step": 75784
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6340685486793518,
      "learning_rate": 3.6900007112641906e-05,
      "loss": 1.4298,
      "step": 75785
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6605606079101562,
      "learning_rate": 3.689498513050586e-05,
      "loss": 1.5691,
      "step": 75786
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6707764863967896,
      "learning_rate": 3.688996346774058e-05,
      "loss": 1.48,
      "step": 75787
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6561252474784851,
      "learning_rate": 3.688494212435216e-05,
      "loss": 1.5408,
      "step": 75788
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6745077967643738,
      "learning_rate": 3.687992110034655e-05,
      "loss": 1.5497,
      "step": 75789
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6791439056396484,
      "learning_rate": 3.687490039573e-05,
      "loss": 1.4935,
      "step": 75790
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6673932075500488,
      "learning_rate": 3.6869880010508524e-05,
      "loss": 1.5385,
      "step": 75791
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6663190126419067,
      "learning_rate": 3.6864859944688285e-05,
      "loss": 1.5168,
      "step": 75792
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6606099009513855,
      "learning_rate": 3.685984019827528e-05,
      "loss": 1.5702,
      "step": 75793
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.672371506690979,
      "learning_rate": 3.685482077127571e-05,
      "loss": 1.4942,
      "step": 75794
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7153679728507996,
      "learning_rate": 3.6849801663695624e-05,
      "loss": 1.5242,
      "step": 75795
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6707075238227844,
      "learning_rate": 3.684478287554102e-05,
      "loss": 1.5333,
      "step": 75796
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6501978635787964,
      "learning_rate": 3.6839764406818175e-05,
      "loss": 1.5657,
      "step": 75797
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6703941822052002,
      "learning_rate": 3.6834746257532996e-05,
      "loss": 1.547,
      "step": 75798
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.670234739780426,
      "learning_rate": 3.682972842769173e-05,
      "loss": 1.5719,
      "step": 75799
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6707040071487427,
      "learning_rate": 3.6824710917300396e-05,
      "loss": 1.554,
      "step": 75800
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6732221245765686,
      "learning_rate": 3.6819693726365016e-05,
      "loss": 1.5118,
      "step": 75801
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6720443964004517,
      "learning_rate": 3.68146768548918e-05,
      "loss": 1.6069,
      "step": 75802
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6660799980163574,
      "learning_rate": 3.680966030288677e-05,
      "loss": 1.5912,
      "step": 75803
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6394864320755005,
      "learning_rate": 3.680464407035605e-05,
      "loss": 1.4864,
      "step": 75804
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6349308490753174,
      "learning_rate": 3.679962815730567e-05,
      "loss": 1.5105,
      "step": 75805
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6905533075332642,
      "learning_rate": 3.679461256374183e-05,
      "loss": 1.4653,
      "step": 75806
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6674196124076843,
      "learning_rate": 3.6789597289670526e-05,
      "loss": 1.4541,
      "step": 75807
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.691871702671051,
      "learning_rate": 3.6784582335097846e-05,
      "loss": 1.4595,
      "step": 75808
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6838443875312805,
      "learning_rate": 3.6779567700029924e-05,
      "loss": 1.5311,
      "step": 75809
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6785487532615662,
      "learning_rate": 3.6774553384472846e-05,
      "loss": 1.5007,
      "step": 75810
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6679235100746155,
      "learning_rate": 3.676953938843259e-05,
      "loss": 1.5823,
      "step": 75811
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6468316316604614,
      "learning_rate": 3.676452571191534e-05,
      "loss": 1.534,
      "step": 75812
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6647921204566956,
      "learning_rate": 3.6759512354927254e-05,
      "loss": 1.4713,
      "step": 75813
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6639803051948547,
      "learning_rate": 3.6754499317474304e-05,
      "loss": 1.5025,
      "step": 75814
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6862416863441467,
      "learning_rate": 3.674948659956255e-05,
      "loss": 1.5221,
      "step": 75815
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6870809197425842,
      "learning_rate": 3.6744474201198185e-05,
      "loss": 1.5439,
      "step": 75816
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6623688340187073,
      "learning_rate": 3.673946212238727e-05,
      "loss": 1.5509,
      "step": 75817
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6479175686836243,
      "learning_rate": 3.673445036313576e-05,
      "loss": 1.5247,
      "step": 75818
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6628586649894714,
      "learning_rate": 3.672943892344986e-05,
      "loss": 1.5082,
      "step": 75819
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6550599336624146,
      "learning_rate": 3.672442780333567e-05,
      "loss": 1.5004,
      "step": 75820
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6752449870109558,
      "learning_rate": 3.671941700279927e-05,
      "loss": 1.5931,
      "step": 75821
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6532371640205383,
      "learning_rate": 3.6714406521846596e-05,
      "loss": 1.5296,
      "step": 75822
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6758998036384583,
      "learning_rate": 3.670939636048395e-05,
      "loss": 1.5849,
      "step": 75823
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6779105067253113,
      "learning_rate": 3.670438651871728e-05,
      "loss": 1.4858,
      "step": 75824
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6552228331565857,
      "learning_rate": 3.6699376996552623e-05,
      "loss": 1.4851,
      "step": 75825
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6845362186431885,
      "learning_rate": 3.66943677939961e-05,
      "loss": 1.5407,
      "step": 75826
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6420661807060242,
      "learning_rate": 3.668935891105392e-05,
      "loss": 1.5263,
      "step": 75827
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6378336548805237,
      "learning_rate": 3.668435034773207e-05,
      "loss": 1.5125,
      "step": 75828
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6662688255310059,
      "learning_rate": 3.6679342104036545e-05,
      "loss": 1.5139,
      "step": 75829
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6569848656654358,
      "learning_rate": 3.6674334179973544e-05,
      "loss": 1.4818,
      "step": 75830
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6684518456459045,
      "learning_rate": 3.666932657554912e-05,
      "loss": 1.5122,
      "step": 75831
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6412515044212341,
      "learning_rate": 3.666431929076927e-05,
      "loss": 1.5383,
      "step": 75832
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6675434112548828,
      "learning_rate": 3.665931232564013e-05,
      "loss": 1.5962,
      "step": 75833
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6928027272224426,
      "learning_rate": 3.665430568016783e-05,
      "loss": 1.5367,
      "step": 75834
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6438456177711487,
      "learning_rate": 3.664929935435842e-05,
      "loss": 1.479,
      "step": 75835
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6801312565803528,
      "learning_rate": 3.66442933482179e-05,
      "loss": 1.5268,
      "step": 75836
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6723430752754211,
      "learning_rate": 3.663928766175247e-05,
      "loss": 1.5962,
      "step": 75837
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6711779832839966,
      "learning_rate": 3.663428229496812e-05,
      "loss": 1.5113,
      "step": 75838
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6511945724487305,
      "learning_rate": 3.662927724787091e-05,
      "loss": 1.4528,
      "step": 75839
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6739869117736816,
      "learning_rate": 3.6624272520467015e-05,
      "loss": 1.5241,
      "step": 75840
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6931870579719543,
      "learning_rate": 3.661926811276235e-05,
      "loss": 1.5091,
      "step": 75841
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6620535254478455,
      "learning_rate": 3.661426402476317e-05,
      "loss": 1.495,
      "step": 75842
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6636287569999695,
      "learning_rate": 3.660926025647539e-05,
      "loss": 1.5593,
      "step": 75843
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6538470387458801,
      "learning_rate": 3.660425680790523e-05,
      "loss": 1.5015,
      "step": 75844
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.674615740776062,
      "learning_rate": 3.6599253679058716e-05,
      "loss": 1.471,
      "step": 75845
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6552244424819946,
      "learning_rate": 3.6594250869941813e-05,
      "loss": 1.5221,
      "step": 75846
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6620793342590332,
      "learning_rate": 3.6589248380560746e-05,
      "loss": 1.6172,
      "step": 75847
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6667961478233337,
      "learning_rate": 3.658424621092144e-05,
      "loss": 1.6248,
      "step": 75848
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6544968485832214,
      "learning_rate": 3.657924436103013e-05,
      "loss": 1.5366,
      "step": 75849
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6823628544807434,
      "learning_rate": 3.657424283089278e-05,
      "loss": 1.5108,
      "step": 75850
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6478890180587769,
      "learning_rate": 3.6569241620515454e-05,
      "loss": 1.4208,
      "step": 75851
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6507962346076965,
      "learning_rate": 3.6564240729904304e-05,
      "loss": 1.5483,
      "step": 75852
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.66315758228302,
      "learning_rate": 3.655924015906526e-05,
      "loss": 1.43,
      "step": 75853
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6527253985404968,
      "learning_rate": 3.655423990800459e-05,
      "loss": 1.5072,
      "step": 75854
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6695365905761719,
      "learning_rate": 3.6549239976728185e-05,
      "loss": 1.3894,
      "step": 75855
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6615557074546814,
      "learning_rate": 3.6544240365242204e-05,
      "loss": 1.5048,
      "step": 75856
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.693423867225647,
      "learning_rate": 3.653924107355275e-05,
      "loss": 1.5616,
      "step": 75857
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6519938111305237,
      "learning_rate": 3.653424210166575e-05,
      "loss": 1.5719,
      "step": 75858
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6782395839691162,
      "learning_rate": 3.652924344958742e-05,
      "loss": 1.4961,
      "step": 75859
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6626027822494507,
      "learning_rate": 3.65242451173237e-05,
      "loss": 1.5429,
      "step": 75860
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6693294048309326,
      "learning_rate": 3.651924710488082e-05,
      "loss": 1.5075,
      "step": 75861
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6435372829437256,
      "learning_rate": 3.6514249412264675e-05,
      "loss": 1.4511,
      "step": 75862
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.667816162109375,
      "learning_rate": 3.6509252039481454e-05,
      "loss": 1.4963,
      "step": 75863
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.9040368795394897,
      "learning_rate": 3.650425498653718e-05,
      "loss": 1.5579,
      "step": 75864
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6866981387138367,
      "learning_rate": 3.649925825343787e-05,
      "loss": 1.4645,
      "step": 75865
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6737733483314514,
      "learning_rate": 3.64942618401897e-05,
      "loss": 1.544,
      "step": 75866
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.680755078792572,
      "learning_rate": 3.648926574679867e-05,
      "loss": 1.5406,
      "step": 75867
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7058373093605042,
      "learning_rate": 3.6484269973270774e-05,
      "loss": 1.4379,
      "step": 75868
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6445493102073669,
      "learning_rate": 3.647927451961214e-05,
      "loss": 1.482,
      "step": 75869
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6752124428749084,
      "learning_rate": 3.647427938582891e-05,
      "loss": 1.5404,
      "step": 75870
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6331164240837097,
      "learning_rate": 3.646928457192706e-05,
      "loss": 1.4949,
      "step": 75871
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6673048138618469,
      "learning_rate": 3.646429007791263e-05,
      "loss": 1.5648,
      "step": 75872
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.712348997592926,
      "learning_rate": 3.6459295903791776e-05,
      "loss": 1.5312,
      "step": 75873
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6637099385261536,
      "learning_rate": 3.6454302049570496e-05,
      "loss": 1.4987,
      "step": 75874
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6452848315238953,
      "learning_rate": 3.6449308515254816e-05,
      "loss": 1.5283,
      "step": 75875
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.7076144218444824,
      "learning_rate": 3.6444315300850836e-05,
      "loss": 1.5171,
      "step": 75876
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6381381154060364,
      "learning_rate": 3.643932240636474e-05,
      "loss": 1.5179,
      "step": 75877
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6741793751716614,
      "learning_rate": 3.643432983180234e-05,
      "loss": 1.5367,
      "step": 75878
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.650131344795227,
      "learning_rate": 3.642933757716986e-05,
      "loss": 1.5124,
      "step": 75879
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6403789520263672,
      "learning_rate": 3.6424345642473385e-05,
      "loss": 1.4931,
      "step": 75880
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6843786835670471,
      "learning_rate": 3.6419354027718916e-05,
      "loss": 1.4834,
      "step": 75881
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.644361138343811,
      "learning_rate": 3.6414362732912447e-05,
      "loss": 1.5656,
      "step": 75882
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6658722758293152,
      "learning_rate": 3.640937175806008e-05,
      "loss": 1.5808,
      "step": 75883
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6578832268714905,
      "learning_rate": 3.6404381103168065e-05,
      "loss": 1.5101,
      "step": 75884
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6815496683120728,
      "learning_rate": 3.639939076824214e-05,
      "loss": 1.4845,
      "step": 75885
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6693511605262756,
      "learning_rate": 3.639440075328853e-05,
      "loss": 1.5509,
      "step": 75886
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.66685551404953,
      "learning_rate": 3.638941105831333e-05,
      "loss": 1.4867,
      "step": 75887
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6754396557807922,
      "learning_rate": 3.638442168332254e-05,
      "loss": 1.5252,
      "step": 75888
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.69489586353302,
      "learning_rate": 3.637943262832215e-05,
      "loss": 1.5804,
      "step": 75889
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.655747652053833,
      "learning_rate": 3.637444389331832e-05,
      "loss": 1.5326,
      "step": 75890
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6639481782913208,
      "learning_rate": 3.6369455478317176e-05,
      "loss": 1.5444,
      "step": 75891
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6572980880737305,
      "learning_rate": 3.636446738332453e-05,
      "loss": 1.457,
      "step": 75892
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.6567727327346802,
      "learning_rate": 3.635947960834658e-05,
      "loss": 1.4846,
      "step": 75893
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6813583374023438,
      "learning_rate": 3.635449215338946e-05,
      "loss": 1.5597,
      "step": 75894
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6699032187461853,
      "learning_rate": 3.6349505018459133e-05,
      "loss": 1.5356,
      "step": 75895
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6929468512535095,
      "learning_rate": 3.634451820356158e-05,
      "loss": 1.543,
      "step": 75896
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6685840487480164,
      "learning_rate": 3.633953170870302e-05,
      "loss": 1.5375,
      "step": 75897
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6495962142944336,
      "learning_rate": 3.633454553388941e-05,
      "loss": 1.5567,
      "step": 75898
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6569992899894714,
      "learning_rate": 3.632955967912673e-05,
      "loss": 1.4823,
      "step": 75899
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6715437769889832,
      "learning_rate": 3.632457414442116e-05,
      "loss": 1.5125,
      "step": 75900
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6650094985961914,
      "learning_rate": 3.631958892977873e-05,
      "loss": 1.5115,
      "step": 75901
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6638023257255554,
      "learning_rate": 3.631460403520547e-05,
      "loss": 1.4999,
      "step": 75902
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6639176607131958,
      "learning_rate": 3.630961946070739e-05,
      "loss": 1.5405,
      "step": 75903
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6687554717063904,
      "learning_rate": 3.630463520629062e-05,
      "loss": 1.6109,
      "step": 75904
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6593502759933472,
      "learning_rate": 3.6299651271961185e-05,
      "loss": 1.4983,
      "step": 75905
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6526614427566528,
      "learning_rate": 3.629466765772503e-05,
      "loss": 1.4851,
      "step": 75906
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6729413270950317,
      "learning_rate": 3.6289684363588387e-05,
      "loss": 1.4798,
      "step": 75907
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6704495549201965,
      "learning_rate": 3.6284701389557125e-05,
      "loss": 1.5013,
      "step": 75908
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.687747061252594,
      "learning_rate": 3.627971873563746e-05,
      "loss": 1.5193,
      "step": 75909
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6428737640380859,
      "learning_rate": 3.62747364018353e-05,
      "loss": 1.5204,
      "step": 75910
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6830406188964844,
      "learning_rate": 3.62697543881568e-05,
      "loss": 1.5412,
      "step": 75911
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6717097759246826,
      "learning_rate": 3.6264772694607954e-05,
      "loss": 1.5013,
      "step": 75912
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6995653510093689,
      "learning_rate": 3.625979132119476e-05,
      "loss": 1.4624,
      "step": 75913
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7099631428718567,
      "learning_rate": 3.6254810267923383e-05,
      "loss": 1.5156,
      "step": 75914
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6555027961730957,
      "learning_rate": 3.624982953479974e-05,
      "loss": 1.4718,
      "step": 75915
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6411707401275635,
      "learning_rate": 3.624484912183001e-05,
      "loss": 1.5467,
      "step": 75916
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6644004583358765,
      "learning_rate": 3.6239869029020176e-05,
      "loss": 1.4783,
      "step": 75917
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6566647887229919,
      "learning_rate": 3.6234889256376196e-05,
      "loss": 1.5328,
      "step": 75918
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.658918023109436,
      "learning_rate": 3.622990980390428e-05,
      "loss": 1.5383,
      "step": 75919
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6726575493812561,
      "learning_rate": 3.622493067161031e-05,
      "loss": 1.4905,
      "step": 75920
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6869550347328186,
      "learning_rate": 3.621995185950049e-05,
      "loss": 1.6263,
      "step": 75921
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.677503228187561,
      "learning_rate": 3.62149733675807e-05,
      "loss": 1.5771,
      "step": 75922
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6758369207382202,
      "learning_rate": 3.6209995195857125e-05,
      "loss": 1.4948,
      "step": 75923
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6683763265609741,
      "learning_rate": 3.6205017344335776e-05,
      "loss": 1.5277,
      "step": 75924
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7105985283851624,
      "learning_rate": 3.620003981302259e-05,
      "loss": 1.4713,
      "step": 75925
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.666685163974762,
      "learning_rate": 3.619506260192372e-05,
      "loss": 1.5138,
      "step": 75926
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6718081831932068,
      "learning_rate": 3.6190085711045206e-05,
      "loss": 1.5412,
      "step": 75927
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.659692108631134,
      "learning_rate": 3.6185109140393e-05,
      "loss": 1.4686,
      "step": 75928
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6568323373794556,
      "learning_rate": 3.618013288997317e-05,
      "loss": 1.5295,
      "step": 75929
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6578642725944519,
      "learning_rate": 3.6175156959791876e-05,
      "loss": 1.5604,
      "step": 75930
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6597545146942139,
      "learning_rate": 3.6170181349855076e-05,
      "loss": 1.5223,
      "step": 75931
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6624926924705505,
      "learning_rate": 3.616520606016871e-05,
      "loss": 1.5901,
      "step": 75932
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6673719882965088,
      "learning_rate": 3.616023109073899e-05,
      "loss": 1.5025,
      "step": 75933
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6545502543449402,
      "learning_rate": 3.615525644157186e-05,
      "loss": 1.4379,
      "step": 75934
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6602745056152344,
      "learning_rate": 3.6150282112673335e-05,
      "loss": 1.5341,
      "step": 75935
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6879690289497375,
      "learning_rate": 3.614530810404949e-05,
      "loss": 1.567,
      "step": 75936
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6776939630508423,
      "learning_rate": 3.6140334415706406e-05,
      "loss": 1.5629,
      "step": 75937
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.684790849685669,
      "learning_rate": 3.613536104765009e-05,
      "loss": 1.5654,
      "step": 75938
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6608490943908691,
      "learning_rate": 3.61303879998865e-05,
      "loss": 1.484,
      "step": 75939
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6888657808303833,
      "learning_rate": 3.61254152724218e-05,
      "loss": 1.4193,
      "step": 75940
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6480979919433594,
      "learning_rate": 3.612044286526198e-05,
      "loss": 1.5117,
      "step": 75941
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6343664526939392,
      "learning_rate": 3.6115470778412966e-05,
      "loss": 1.5275,
      "step": 75942
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6889378428459167,
      "learning_rate": 3.61104990118809e-05,
      "loss": 1.4417,
      "step": 75943
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6738664507865906,
      "learning_rate": 3.61055275656719e-05,
      "loss": 1.4965,
      "step": 75944
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6311912536621094,
      "learning_rate": 3.61005564397919e-05,
      "loss": 1.5235,
      "step": 75945
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6523047685623169,
      "learning_rate": 3.6095585634246846e-05,
      "loss": 1.4581,
      "step": 75946
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6817132234573364,
      "learning_rate": 3.609061514904296e-05,
      "loss": 1.4633,
      "step": 75947
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6456419229507446,
      "learning_rate": 3.608564498418615e-05,
      "loss": 1.4805,
      "step": 75948
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6724910736083984,
      "learning_rate": 3.608067513968245e-05,
      "loss": 1.5163,
      "step": 75949
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6388916969299316,
      "learning_rate": 3.607570561553792e-05,
      "loss": 1.517,
      "step": 75950
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.675753653049469,
      "learning_rate": 3.6070736411758625e-05,
      "loss": 1.5363,
      "step": 75951
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6572185158729553,
      "learning_rate": 3.6065767528350597e-05,
      "loss": 1.5802,
      "step": 75952
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6662492752075195,
      "learning_rate": 3.6060798965319757e-05,
      "loss": 1.5757,
      "step": 75953
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6432786583900452,
      "learning_rate": 3.6055830722672305e-05,
      "loss": 1.5249,
      "step": 75954
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6773877739906311,
      "learning_rate": 3.605086280041417e-05,
      "loss": 1.5625,
      "step": 75955
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6684154868125916,
      "learning_rate": 3.6045895198551346e-05,
      "loss": 1.5151,
      "step": 75956
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6626327037811279,
      "learning_rate": 3.6040927917089954e-05,
      "loss": 1.5682,
      "step": 75957
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6835827231407166,
      "learning_rate": 3.603596095603594e-05,
      "loss": 1.4286,
      "step": 75958
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6783528327941895,
      "learning_rate": 3.603099431539545e-05,
      "loss": 1.5619,
      "step": 75959
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6730735898017883,
      "learning_rate": 3.6026027995174345e-05,
      "loss": 1.5277,
      "step": 75960
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7089777588844299,
      "learning_rate": 3.602106199537883e-05,
      "loss": 1.4535,
      "step": 75961
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6601807475090027,
      "learning_rate": 3.601609631601483e-05,
      "loss": 1.5563,
      "step": 75962
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.667760968208313,
      "learning_rate": 3.601113095708837e-05,
      "loss": 1.4808,
      "step": 75963
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6648279428482056,
      "learning_rate": 3.600616591860552e-05,
      "loss": 1.5163,
      "step": 75964
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6829922199249268,
      "learning_rate": 3.600120120057224e-05,
      "loss": 1.5991,
      "step": 75965
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.665970504283905,
      "learning_rate": 3.5996236802994686e-05,
      "loss": 1.5042,
      "step": 75966
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6544777750968933,
      "learning_rate": 3.599127272587878e-05,
      "loss": 1.5113,
      "step": 75967
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6999644041061401,
      "learning_rate": 3.59863089692305e-05,
      "loss": 1.614,
      "step": 75968
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6660465598106384,
      "learning_rate": 3.5981345533056005e-05,
      "loss": 1.5205,
      "step": 75969
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6715227365493774,
      "learning_rate": 3.5976382417361215e-05,
      "loss": 1.5287,
      "step": 75970
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6545698642730713,
      "learning_rate": 3.597141962215223e-05,
      "loss": 1.5103,
      "step": 75971
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6755698919296265,
      "learning_rate": 3.596645714743498e-05,
      "loss": 1.4804,
      "step": 75972
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6395725607872009,
      "learning_rate": 3.596149499321562e-05,
      "loss": 1.4429,
      "step": 75973
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6354740262031555,
      "learning_rate": 3.595653315950012e-05,
      "loss": 1.5302,
      "step": 75974
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6422649025917053,
      "learning_rate": 3.5951571646294376e-05,
      "loss": 1.4931,
      "step": 75975
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6810234785079956,
      "learning_rate": 3.594661045360461e-05,
      "loss": 1.5298,
      "step": 75976
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6987168788909912,
      "learning_rate": 3.594164958143668e-05,
      "loss": 1.552,
      "step": 75977
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6333747506141663,
      "learning_rate": 3.593668902979676e-05,
      "loss": 1.4996,
      "step": 75978
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6865572333335876,
      "learning_rate": 3.593172879869071e-05,
      "loss": 1.5222,
      "step": 75979
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6577540040016174,
      "learning_rate": 3.592676888812471e-05,
      "loss": 1.549,
      "step": 75980
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6520506739616394,
      "learning_rate": 3.592180929810471e-05,
      "loss": 1.4731,
      "step": 75981
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7003443837165833,
      "learning_rate": 3.5916850028636624e-05,
      "loss": 1.5891,
      "step": 75982
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6458072066307068,
      "learning_rate": 3.591189107972665e-05,
      "loss": 1.5158,
      "step": 75983
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6619659662246704,
      "learning_rate": 3.5906932451380755e-05,
      "loss": 1.4976,
      "step": 75984
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6635666489601135,
      "learning_rate": 3.5901974143604826e-05,
      "loss": 1.5226,
      "step": 75985
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6586493849754333,
      "learning_rate": 3.5897016156405036e-05,
      "loss": 1.517,
      "step": 75986
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6581999659538269,
      "learning_rate": 3.589205848978737e-05,
      "loss": 1.4687,
      "step": 75987
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6538857817649841,
      "learning_rate": 3.5887101143757856e-05,
      "loss": 1.5455,
      "step": 75988
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6789038777351379,
      "learning_rate": 3.588214411832243e-05,
      "loss": 1.4992,
      "step": 75989
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6770491600036621,
      "learning_rate": 3.587718741348722e-05,
      "loss": 1.4875,
      "step": 75990
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6879898905754089,
      "learning_rate": 3.587223102925818e-05,
      "loss": 1.4778,
      "step": 75991
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6845732927322388,
      "learning_rate": 3.586727496564128e-05,
      "loss": 1.4724,
      "step": 75992
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6458790898323059,
      "learning_rate": 3.586231922264258e-05,
      "loss": 1.5548,
      "step": 75993
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6451200246810913,
      "learning_rate": 3.585736380026824e-05,
      "loss": 1.5553,
      "step": 75994
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6601098775863647,
      "learning_rate": 3.5852408698524014e-05,
      "loss": 1.478,
      "step": 75995
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.65206378698349,
      "learning_rate": 3.584745391741605e-05,
      "loss": 1.5193,
      "step": 75996
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6637406945228577,
      "learning_rate": 3.5842499456950394e-05,
      "loss": 1.5219,
      "step": 75997
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6586465835571289,
      "learning_rate": 3.5837545317133045e-05,
      "loss": 1.5078,
      "step": 75998
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6629875898361206,
      "learning_rate": 3.583259149796993e-05,
      "loss": 1.5772,
      "step": 75999
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.659040629863739,
      "learning_rate": 3.582763799946712e-05,
      "loss": 1.4789,
      "step": 76000
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6686988472938538,
      "learning_rate": 3.582268482163076e-05,
      "loss": 1.654,
      "step": 76001
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6645753383636475,
      "learning_rate": 3.5817731964466604e-05,
      "loss": 1.529,
      "step": 76002
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6743143796920776,
      "learning_rate": 3.5812779427980784e-05,
      "loss": 1.4533,
      "step": 76003
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6664190888404846,
      "learning_rate": 3.5807827212179416e-05,
      "loss": 1.5479,
      "step": 76004
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.676284670829773,
      "learning_rate": 3.5802875317068394e-05,
      "loss": 1.5328,
      "step": 76005
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6836165189743042,
      "learning_rate": 3.57979237426537e-05,
      "loss": 1.5506,
      "step": 76006
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6529690027236938,
      "learning_rate": 3.5792972488941405e-05,
      "loss": 1.4782,
      "step": 76007
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6631954908370972,
      "learning_rate": 3.578802155593764e-05,
      "loss": 1.4972,
      "step": 76008
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6776780486106873,
      "learning_rate": 3.5783070943648166e-05,
      "loss": 1.5315,
      "step": 76009
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6965800523757935,
      "learning_rate": 3.57781206520791e-05,
      "loss": 1.5052,
      "step": 76010
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6660220623016357,
      "learning_rate": 3.577317068123652e-05,
      "loss": 1.5053,
      "step": 76011
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6612760424613953,
      "learning_rate": 3.576822103112641e-05,
      "loss": 1.5584,
      "step": 76012
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6780844330787659,
      "learning_rate": 3.576327170175467e-05,
      "loss": 1.6272,
      "step": 76013
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.645804226398468,
      "learning_rate": 3.5758322693127426e-05,
      "loss": 1.5274,
      "step": 76014
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6703096628189087,
      "learning_rate": 3.5753374005250647e-05,
      "loss": 1.5891,
      "step": 76015
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7261366248130798,
      "learning_rate": 3.574842563813028e-05,
      "loss": 1.4632,
      "step": 76016
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6673660278320312,
      "learning_rate": 3.5743477591772404e-05,
      "loss": 1.4933,
      "step": 76017
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6775825619697571,
      "learning_rate": 3.573852986618308e-05,
      "loss": 1.5851,
      "step": 76018
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6797269582748413,
      "learning_rate": 3.573358246136822e-05,
      "loss": 1.5381,
      "step": 76019
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.692828893661499,
      "learning_rate": 3.572863537733379e-05,
      "loss": 1.5385,
      "step": 76020
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6655234098434448,
      "learning_rate": 3.572368861408593e-05,
      "loss": 1.5317,
      "step": 76021
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6690088510513306,
      "learning_rate": 3.571874217163057e-05,
      "loss": 1.5034,
      "step": 76022
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6729583740234375,
      "learning_rate": 3.5713796049973656e-05,
      "loss": 1.5228,
      "step": 76023
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6552703380584717,
      "learning_rate": 3.5708850249121324e-05,
      "loss": 1.4957,
      "step": 76024
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.657970130443573,
      "learning_rate": 3.570390476907944e-05,
      "loss": 1.5621,
      "step": 76025
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6782060861587524,
      "learning_rate": 3.5698959609854126e-05,
      "loss": 1.479,
      "step": 76026
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6683579087257385,
      "learning_rate": 3.569401477145128e-05,
      "loss": 1.4768,
      "step": 76027
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6747585535049438,
      "learning_rate": 3.5689070253877006e-05,
      "loss": 1.524,
      "step": 76028
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6913446187973022,
      "learning_rate": 3.5684126057137255e-05,
      "loss": 1.5696,
      "step": 76029
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6756595969200134,
      "learning_rate": 3.5679182181237986e-05,
      "loss": 1.4682,
      "step": 76030
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6766494512557983,
      "learning_rate": 3.5674238626185304e-05,
      "loss": 1.5059,
      "step": 76031
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6569808721542358,
      "learning_rate": 3.566929539198506e-05,
      "loss": 1.5438,
      "step": 76032
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6626288890838623,
      "learning_rate": 3.566435247864343e-05,
      "loss": 1.5051,
      "step": 76033
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.66716468334198,
      "learning_rate": 3.5659409886166334e-05,
      "loss": 1.4792,
      "step": 76034
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6865436434745789,
      "learning_rate": 3.56544676145597e-05,
      "loss": 1.5225,
      "step": 76035
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6463237404823303,
      "learning_rate": 3.564952566382963e-05,
      "loss": 1.4919,
      "step": 76036
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6732731461524963,
      "learning_rate": 3.564458403398204e-05,
      "loss": 1.4725,
      "step": 76037
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6631518006324768,
      "learning_rate": 3.563964272502303e-05,
      "loss": 1.4898,
      "step": 76038
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7075473070144653,
      "learning_rate": 3.5634701736958504e-05,
      "loss": 1.5438,
      "step": 76039
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6878319978713989,
      "learning_rate": 3.562976106979455e-05,
      "loss": 1.5766,
      "step": 76040
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6822879910469055,
      "learning_rate": 3.5624820723537095e-05,
      "loss": 1.5572,
      "step": 76041
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.652586817741394,
      "learning_rate": 3.561988069819211e-05,
      "loss": 1.5638,
      "step": 76042
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6531994938850403,
      "learning_rate": 3.5614940993765704e-05,
      "loss": 1.496,
      "step": 76043
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6914867162704468,
      "learning_rate": 3.5610001610263795e-05,
      "loss": 1.5366,
      "step": 76044
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6753280162811279,
      "learning_rate": 3.5605062547692295e-05,
      "loss": 1.5812,
      "step": 76045
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6760515570640564,
      "learning_rate": 3.560012380605731e-05,
      "loss": 1.5126,
      "step": 76046
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6548377871513367,
      "learning_rate": 3.55951853853649e-05,
      "loss": 1.4881,
      "step": 76047
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6519377827644348,
      "learning_rate": 3.5590247285620986e-05,
      "loss": 1.5495,
      "step": 76048
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6720796227455139,
      "learning_rate": 3.558530950683147e-05,
      "loss": 1.4793,
      "step": 76049
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6873090267181396,
      "learning_rate": 3.558037204900248e-05,
      "loss": 1.5181,
      "step": 76050
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6756306886672974,
      "learning_rate": 3.557543491213998e-05,
      "loss": 1.5043,
      "step": 76051
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6850888133049011,
      "learning_rate": 3.5570498096249854e-05,
      "loss": 1.4597,
      "step": 76052
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6601971387863159,
      "learning_rate": 3.556556160133821e-05,
      "loss": 1.5022,
      "step": 76053
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6733108162879944,
      "learning_rate": 3.556062542741104e-05,
      "loss": 1.5343,
      "step": 76054
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6497390270233154,
      "learning_rate": 3.555568957447433e-05,
      "loss": 1.4678,
      "step": 76055
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6858115792274475,
      "learning_rate": 3.555075404253399e-05,
      "loss": 1.5262,
      "step": 76056
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6711823344230652,
      "learning_rate": 3.554581883159611e-05,
      "loss": 1.4674,
      "step": 76057
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6447444558143616,
      "learning_rate": 3.554088394166668e-05,
      "loss": 1.4445,
      "step": 76058
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6650960445404053,
      "learning_rate": 3.553594937275156e-05,
      "loss": 1.5235,
      "step": 76059
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6715991497039795,
      "learning_rate": 3.553101512485682e-05,
      "loss": 1.5435,
      "step": 76060
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6771124601364136,
      "learning_rate": 3.552608119798855e-05,
      "loss": 1.4554,
      "step": 76061
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.8536179661750793,
      "learning_rate": 3.552114759215262e-05,
      "loss": 1.4983,
      "step": 76062
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6630663275718689,
      "learning_rate": 3.5516214307355014e-05,
      "loss": 1.4962,
      "step": 76063
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6841000914573669,
      "learning_rate": 3.55112813436018e-05,
      "loss": 1.5183,
      "step": 76064
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6672864556312561,
      "learning_rate": 3.5506348700898914e-05,
      "loss": 1.5482,
      "step": 76065
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.705680251121521,
      "learning_rate": 3.55014163792523e-05,
      "loss": 1.5699,
      "step": 76066
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6907338500022888,
      "learning_rate": 3.5496484378668e-05,
      "loss": 1.6039,
      "step": 76067
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6722188591957092,
      "learning_rate": 3.549155269915204e-05,
      "loss": 1.4658,
      "step": 76068
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6776475310325623,
      "learning_rate": 3.5486621340710374e-05,
      "loss": 1.5218,
      "step": 76069
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6500903367996216,
      "learning_rate": 3.548169030334891e-05,
      "loss": 1.4902,
      "step": 76070
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6887547373771667,
      "learning_rate": 3.5476759587073765e-05,
      "loss": 1.531,
      "step": 76071
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6801398396492004,
      "learning_rate": 3.547182919189084e-05,
      "loss": 1.5072,
      "step": 76072
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6759259700775146,
      "learning_rate": 3.54668991178061e-05,
      "loss": 1.5033,
      "step": 76073
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6678788661956787,
      "learning_rate": 3.5461969364825604e-05,
      "loss": 1.4985,
      "step": 76074
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6954206824302673,
      "learning_rate": 3.545703993295525e-05,
      "loss": 1.5487,
      "step": 76075
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6680393218994141,
      "learning_rate": 3.545211082220115e-05,
      "loss": 1.4867,
      "step": 76076
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6788427829742432,
      "learning_rate": 3.544718203256912e-05,
      "loss": 1.5199,
      "step": 76077
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6410459876060486,
      "learning_rate": 3.544225356406532e-05,
      "loss": 1.5099,
      "step": 76078
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6529196500778198,
      "learning_rate": 3.543732541669563e-05,
      "loss": 1.5701,
      "step": 76079
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6848514080047607,
      "learning_rate": 3.543239759046596e-05,
      "loss": 1.4947,
      "step": 76080
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6647706627845764,
      "learning_rate": 3.5427470085382456e-05,
      "loss": 1.544,
      "step": 76081
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.675349771976471,
      "learning_rate": 3.542254290145097e-05,
      "loss": 1.5931,
      "step": 76082
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6831732988357544,
      "learning_rate": 3.541761603867758e-05,
      "loss": 1.4471,
      "step": 76083
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6675955653190613,
      "learning_rate": 3.5412689497068245e-05,
      "loss": 1.5361,
      "step": 76084
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6595604419708252,
      "learning_rate": 3.540776327662884e-05,
      "loss": 1.5251,
      "step": 76085
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6752914786338806,
      "learning_rate": 3.540283737736549e-05,
      "loss": 1.5181,
      "step": 76086
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6819891929626465,
      "learning_rate": 3.539791179928402e-05,
      "loss": 1.5472,
      "step": 76087
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.67354416847229,
      "learning_rate": 3.539298654239059e-05,
      "loss": 1.5283,
      "step": 76088
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6691463589668274,
      "learning_rate": 3.538806160669103e-05,
      "loss": 1.5726,
      "step": 76089
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6580557227134705,
      "learning_rate": 3.5383136992191404e-05,
      "loss": 1.5213,
      "step": 76090
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6638867259025574,
      "learning_rate": 3.537821269889768e-05,
      "loss": 1.5518,
      "step": 76091
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.659801185131073,
      "learning_rate": 3.537328872681577e-05,
      "loss": 1.5468,
      "step": 76092
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6558017134666443,
      "learning_rate": 3.536836507595175e-05,
      "loss": 1.4627,
      "step": 76093
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6728472709655762,
      "learning_rate": 3.5363441746311446e-05,
      "loss": 1.5857,
      "step": 76094
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6451972723007202,
      "learning_rate": 3.535851873790105e-05,
      "loss": 1.492,
      "step": 76095
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6673222780227661,
      "learning_rate": 3.535359605072633e-05,
      "loss": 1.5098,
      "step": 76096
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.667658805847168,
      "learning_rate": 3.5348673684793404e-05,
      "loss": 1.4771,
      "step": 76097
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6471828818321228,
      "learning_rate": 3.534375164010821e-05,
      "loss": 1.4831,
      "step": 76098
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6653349995613098,
      "learning_rate": 3.53388299166766e-05,
      "loss": 1.5115,
      "step": 76099
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6482610106468201,
      "learning_rate": 3.5333908514504786e-05,
      "loss": 1.5283,
      "step": 76100
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6632871031761169,
      "learning_rate": 3.532898743359854e-05,
      "loss": 1.5352,
      "step": 76101
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6738153100013733,
      "learning_rate": 3.532406667396391e-05,
      "loss": 1.4836,
      "step": 76102
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6615458726882935,
      "learning_rate": 3.531914623560682e-05,
      "loss": 1.5169,
      "step": 76103
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6575427055358887,
      "learning_rate": 3.531422611853336e-05,
      "loss": 1.5607,
      "step": 76104
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6376798748970032,
      "learning_rate": 3.530930632274943e-05,
      "loss": 1.5725,
      "step": 76105
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6851058006286621,
      "learning_rate": 3.530438684826096e-05,
      "loss": 1.6052,
      "step": 76106
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6863306164741516,
      "learning_rate": 3.5299467695074e-05,
      "loss": 1.5446,
      "step": 76107
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6816539764404297,
      "learning_rate": 3.5294548863194495e-05,
      "loss": 1.4813,
      "step": 76108
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.664332389831543,
      "learning_rate": 3.528963035262833e-05,
      "loss": 1.5043,
      "step": 76109
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6699742674827576,
      "learning_rate": 3.528471216338157e-05,
      "loss": 1.444,
      "step": 76110
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6780389547348022,
      "learning_rate": 3.5279794295460275e-05,
      "loss": 1.533,
      "step": 76111
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6844257116317749,
      "learning_rate": 3.527487674887021e-05,
      "loss": 1.5724,
      "step": 76112
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6638991236686707,
      "learning_rate": 3.52699595236174e-05,
      "loss": 1.4491,
      "step": 76113
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6701890230178833,
      "learning_rate": 3.526504261970794e-05,
      "loss": 1.4495,
      "step": 76114
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6515363454818726,
      "learning_rate": 3.5260126037147696e-05,
      "loss": 1.5186,
      "step": 76115
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6729140877723694,
      "learning_rate": 3.5255209775942596e-05,
      "loss": 1.5493,
      "step": 76116
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6701636910438538,
      "learning_rate": 3.5250293836098664e-05,
      "loss": 1.5539,
      "step": 76117
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6611024141311646,
      "learning_rate": 3.5245378217622e-05,
      "loss": 1.5573,
      "step": 76118
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6538920998573303,
      "learning_rate": 3.52404629205183e-05,
      "loss": 1.4797,
      "step": 76119
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6658236384391785,
      "learning_rate": 3.5235547944793655e-05,
      "loss": 1.4987,
      "step": 76120
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6770560145378113,
      "learning_rate": 3.523063329045412e-05,
      "loss": 1.5358,
      "step": 76121
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6698232293128967,
      "learning_rate": 3.522571895750561e-05,
      "loss": 1.5664,
      "step": 76122
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6603161096572876,
      "learning_rate": 3.522080494595397e-05,
      "loss": 1.4718,
      "step": 76123
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.636487603187561,
      "learning_rate": 3.5215891255805276e-05,
      "loss": 1.5244,
      "step": 76124
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6776811480522156,
      "learning_rate": 3.521097788706557e-05,
      "loss": 1.5107,
      "step": 76125
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6732839941978455,
      "learning_rate": 3.5206064839740634e-05,
      "loss": 1.5524,
      "step": 76126
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6681848764419556,
      "learning_rate": 3.5201152113836484e-05,
      "loss": 1.504,
      "step": 76127
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6902559995651245,
      "learning_rate": 3.519623970935922e-05,
      "loss": 1.5714,
      "step": 76128
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6876904964447021,
      "learning_rate": 3.519132762631467e-05,
      "loss": 1.5135,
      "step": 76129
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6569432020187378,
      "learning_rate": 3.51864158647088e-05,
      "loss": 1.4707,
      "step": 76130
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6815937161445618,
      "learning_rate": 3.5181504424547624e-05,
      "loss": 1.5972,
      "step": 76131
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6667936444282532,
      "learning_rate": 3.517659330583712e-05,
      "loss": 1.5188,
      "step": 76132
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6595245599746704,
      "learning_rate": 3.5171682508583144e-05,
      "loss": 1.5092,
      "step": 76133
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6613095998764038,
      "learning_rate": 3.516677203279172e-05,
      "loss": 1.5571,
      "step": 76134
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6675974726676941,
      "learning_rate": 3.5161861878468853e-05,
      "loss": 1.5456,
      "step": 76135
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6570006608963013,
      "learning_rate": 3.51569520456205e-05,
      "loss": 1.5206,
      "step": 76136
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.670264720916748,
      "learning_rate": 3.515204253425252e-05,
      "loss": 1.5554,
      "step": 76137
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6391145586967468,
      "learning_rate": 3.514713334437098e-05,
      "loss": 1.4985,
      "step": 76138
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6527955532073975,
      "learning_rate": 3.5142224475981806e-05,
      "loss": 1.4952,
      "step": 76139
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6802954077720642,
      "learning_rate": 3.513731592909086e-05,
      "loss": 1.501,
      "step": 76140
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6505058407783508,
      "learning_rate": 3.513240770370427e-05,
      "loss": 1.5323,
      "step": 76141
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.679717481136322,
      "learning_rate": 3.5127499799827865e-05,
      "loss": 1.4857,
      "step": 76142
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.8321591019630432,
      "learning_rate": 3.512259221746767e-05,
      "loss": 1.4543,
      "step": 76143
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6513559818267822,
      "learning_rate": 3.5117684956629585e-05,
      "loss": 1.5682,
      "step": 76144
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6734010577201843,
      "learning_rate": 3.5112778017319676e-05,
      "loss": 1.5827,
      "step": 76145
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6718061566352844,
      "learning_rate": 3.51078713995438e-05,
      "loss": 1.5843,
      "step": 76146
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6692632436752319,
      "learning_rate": 3.5102965103307875e-05,
      "loss": 1.5559,
      "step": 76147
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6472234129905701,
      "learning_rate": 3.5098059128617985e-05,
      "loss": 1.4786,
      "step": 76148
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6433228254318237,
      "learning_rate": 3.5093153475479976e-05,
      "loss": 1.5151,
      "step": 76149
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6746413111686707,
      "learning_rate": 3.508824814389991e-05,
      "loss": 1.5155,
      "step": 76150
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6647018790245056,
      "learning_rate": 3.5083343133883655e-05,
      "loss": 1.5161,
      "step": 76151
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6781527996063232,
      "learning_rate": 3.507843844543714e-05,
      "loss": 1.4829,
      "step": 76152
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6502492427825928,
      "learning_rate": 3.507353407856642e-05,
      "loss": 1.5348,
      "step": 76153
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6365402936935425,
      "learning_rate": 3.5068630033277336e-05,
      "loss": 1.4821,
      "step": 76154
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6566069722175598,
      "learning_rate": 3.5063726309575965e-05,
      "loss": 1.5966,
      "step": 76155
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.638615071773529,
      "learning_rate": 3.505882290746812e-05,
      "loss": 1.5188,
      "step": 76156
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6469767689704895,
      "learning_rate": 3.5053919826959884e-05,
      "loss": 1.5933,
      "step": 76157
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6588814854621887,
      "learning_rate": 3.504901706805716e-05,
      "loss": 1.4502,
      "step": 76158
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7001211047172546,
      "learning_rate": 3.504411463076584e-05,
      "loss": 1.4929,
      "step": 76159
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6315128207206726,
      "learning_rate": 3.5039212515091985e-05,
      "loss": 1.4869,
      "step": 76160
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6590007543563843,
      "learning_rate": 3.503431072104149e-05,
      "loss": 1.458,
      "step": 76161
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6651626229286194,
      "learning_rate": 3.502940924862022e-05,
      "loss": 1.4674,
      "step": 76162
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6648766398429871,
      "learning_rate": 3.5024508097834235e-05,
      "loss": 1.4841,
      "step": 76163
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6879547834396362,
      "learning_rate": 3.5019607268689495e-05,
      "loss": 1.5523,
      "step": 76164
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6855303049087524,
      "learning_rate": 3.50147067611919e-05,
      "loss": 1.5503,
      "step": 76165
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6669015288352966,
      "learning_rate": 3.500980657534734e-05,
      "loss": 1.503,
      "step": 76166
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6470513939857483,
      "learning_rate": 3.5004906711161914e-05,
      "loss": 1.5108,
      "step": 76167
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6512826085090637,
      "learning_rate": 3.5000007168641484e-05,
      "loss": 1.5392,
      "step": 76168
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6860958933830261,
      "learning_rate": 3.499510794779195e-05,
      "loss": 1.5972,
      "step": 76169
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6483268737792969,
      "learning_rate": 3.499020904861929e-05,
      "loss": 1.5107,
      "step": 76170
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6623668074607849,
      "learning_rate": 3.4985310471129516e-05,
      "loss": 1.4299,
      "step": 76171
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6685557961463928,
      "learning_rate": 3.498041221532855e-05,
      "loss": 1.5094,
      "step": 76172
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6454663872718811,
      "learning_rate": 3.497551428122225e-05,
      "loss": 1.5419,
      "step": 76173
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6626781225204468,
      "learning_rate": 3.4970616668816684e-05,
      "loss": 1.5682,
      "step": 76174
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6542908549308777,
      "learning_rate": 3.496571937811775e-05,
      "loss": 1.4552,
      "step": 76175
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6745809316635132,
      "learning_rate": 3.4960822409131306e-05,
      "loss": 1.5588,
      "step": 76176
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6543561220169067,
      "learning_rate": 3.495592576186338e-05,
      "loss": 1.5215,
      "step": 76177
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6757773756980896,
      "learning_rate": 3.4951029436319963e-05,
      "loss": 1.5334,
      "step": 76178
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6805089712142944,
      "learning_rate": 3.4946133432506926e-05,
      "loss": 1.4998,
      "step": 76179
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.666236400604248,
      "learning_rate": 3.494123775043019e-05,
      "loss": 1.498,
      "step": 76180
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6563961505889893,
      "learning_rate": 3.493634239009583e-05,
      "loss": 1.5062,
      "step": 76181
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6812413334846497,
      "learning_rate": 3.493144735150966e-05,
      "loss": 1.5386,
      "step": 76182
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6806809902191162,
      "learning_rate": 3.492655263467757e-05,
      "loss": 1.5212,
      "step": 76183
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6598694920539856,
      "learning_rate": 3.492165823960561e-05,
      "loss": 1.5527,
      "step": 76184
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6637251377105713,
      "learning_rate": 3.4916764166299794e-05,
      "loss": 1.5243,
      "step": 76185
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6562575101852417,
      "learning_rate": 3.491187041476592e-05,
      "loss": 1.5278,
      "step": 76186
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6677245497703552,
      "learning_rate": 3.490697698500995e-05,
      "loss": 1.5256,
      "step": 76187
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6558164358139038,
      "learning_rate": 3.4902083877037876e-05,
      "loss": 1.4682,
      "step": 76188
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6532893180847168,
      "learning_rate": 3.489719109085564e-05,
      "loss": 1.3802,
      "step": 76189
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6532465219497681,
      "learning_rate": 3.4892298626469084e-05,
      "loss": 1.534,
      "step": 76190
    },
    {
      "epoch": 2.53,
      "grad_norm": 1.825848937034607,
      "learning_rate": 3.4887406483884285e-05,
      "loss": 1.6815,
      "step": 76191
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.687231719493866,
      "learning_rate": 3.488251466310703e-05,
      "loss": 1.4793,
      "step": 76192
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6756085157394409,
      "learning_rate": 3.487762316414342e-05,
      "loss": 1.522,
      "step": 76193
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.6822744011878967,
      "learning_rate": 3.487273198699925e-05,
      "loss": 1.4458,
      "step": 76194
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6350842714309692,
      "learning_rate": 3.486784113168057e-05,
      "loss": 1.4978,
      "step": 76195
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6677202582359314,
      "learning_rate": 3.486295059819326e-05,
      "loss": 1.5007,
      "step": 76196
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6669224500656128,
      "learning_rate": 3.485806038654321e-05,
      "loss": 1.5162,
      "step": 76197
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6888845562934875,
      "learning_rate": 3.485317049673647e-05,
      "loss": 1.4797,
      "step": 76198
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6969422698020935,
      "learning_rate": 3.484828092877885e-05,
      "loss": 1.6054,
      "step": 76199
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6651356816291809,
      "learning_rate": 3.48433916826764e-05,
      "loss": 1.4865,
      "step": 76200
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6570115089416504,
      "learning_rate": 3.483850275843503e-05,
      "loss": 1.5379,
      "step": 76201
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6433922052383423,
      "learning_rate": 3.483361415606055e-05,
      "loss": 1.4267,
      "step": 76202
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6654772162437439,
      "learning_rate": 3.4828725875559075e-05,
      "loss": 1.4846,
      "step": 76203
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6830093264579773,
      "learning_rate": 3.482383791693641e-05,
      "loss": 1.5394,
      "step": 76204
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7223068475723267,
      "learning_rate": 3.481895028019858e-05,
      "loss": 1.4836,
      "step": 76205
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6890689134597778,
      "learning_rate": 3.481406296535139e-05,
      "loss": 1.5537,
      "step": 76206
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6975346207618713,
      "learning_rate": 3.4809175972400935e-05,
      "loss": 1.5736,
      "step": 76207
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.691094696521759,
      "learning_rate": 3.4804289301353064e-05,
      "loss": 1.623,
      "step": 76208
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6495141983032227,
      "learning_rate": 3.479940295221365e-05,
      "loss": 1.469,
      "step": 76209
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6501495242118835,
      "learning_rate": 3.479451692498877e-05,
      "loss": 1.5671,
      "step": 76210
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6629539132118225,
      "learning_rate": 3.4789631219684244e-05,
      "loss": 1.5712,
      "step": 76211
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6988279223442078,
      "learning_rate": 3.478474583630597e-05,
      "loss": 1.578,
      "step": 76212
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6624965667724609,
      "learning_rate": 3.4779860774859946e-05,
      "loss": 1.5147,
      "step": 76213
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6560983657836914,
      "learning_rate": 3.477497603535213e-05,
      "loss": 1.5172,
      "step": 76214
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6489250659942627,
      "learning_rate": 3.477009161778842e-05,
      "loss": 1.4423,
      "step": 76215
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6726387143135071,
      "learning_rate": 3.476520752217471e-05,
      "loss": 1.4758,
      "step": 76216
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6507745981216431,
      "learning_rate": 3.4760323748516994e-05,
      "loss": 1.5686,
      "step": 76217
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.678672194480896,
      "learning_rate": 3.475544029682117e-05,
      "loss": 1.4935,
      "step": 76218
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6557249426841736,
      "learning_rate": 3.475055716709309e-05,
      "loss": 1.4827,
      "step": 76219
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6466782093048096,
      "learning_rate": 3.474567435933877e-05,
      "loss": 1.5627,
      "step": 76220
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6474483013153076,
      "learning_rate": 3.4740791873564154e-05,
      "loss": 1.4497,
      "step": 76221
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6722300052642822,
      "learning_rate": 3.4735909709775146e-05,
      "loss": 1.6351,
      "step": 76222
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6728286743164062,
      "learning_rate": 3.47310278679776e-05,
      "loss": 1.5293,
      "step": 76223
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6587924957275391,
      "learning_rate": 3.4726146348177554e-05,
      "loss": 1.5431,
      "step": 76224
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6693643927574158,
      "learning_rate": 3.472126515038086e-05,
      "loss": 1.5007,
      "step": 76225
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6842091083526611,
      "learning_rate": 3.471638427459345e-05,
      "loss": 1.5513,
      "step": 76226
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6444140076637268,
      "learning_rate": 3.471150372082123e-05,
      "loss": 1.4744,
      "step": 76227
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6541646718978882,
      "learning_rate": 3.4706623489070285e-05,
      "loss": 1.4534,
      "step": 76228
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7005815505981445,
      "learning_rate": 3.4701743579346275e-05,
      "loss": 1.585,
      "step": 76229
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6841021180152893,
      "learning_rate": 3.4696863991655267e-05,
      "loss": 1.5341,
      "step": 76230
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6540940999984741,
      "learning_rate": 3.469198472600325e-05,
      "loss": 1.5708,
      "step": 76231
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6726453900337219,
      "learning_rate": 3.468710578239606e-05,
      "loss": 1.5142,
      "step": 76232
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6877117156982422,
      "learning_rate": 3.4682227160839595e-05,
      "loss": 1.4303,
      "step": 76233
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.645483672618866,
      "learning_rate": 3.467734886133977e-05,
      "loss": 1.4568,
      "step": 76234
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.664911150932312,
      "learning_rate": 3.4672470883902694e-05,
      "loss": 1.5661,
      "step": 76235
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6387407779693604,
      "learning_rate": 3.4667593228534016e-05,
      "loss": 1.4585,
      "step": 76236
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6548221707344055,
      "learning_rate": 3.466271589523981e-05,
      "loss": 1.5088,
      "step": 76237
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6892275810241699,
      "learning_rate": 3.4657838884026e-05,
      "loss": 1.5825,
      "step": 76238
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6868141889572144,
      "learning_rate": 3.465296219489852e-05,
      "loss": 1.4908,
      "step": 76239
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6465640664100647,
      "learning_rate": 3.4648085827863145e-05,
      "loss": 1.4904,
      "step": 76240
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6683565974235535,
      "learning_rate": 3.4643209782925894e-05,
      "loss": 1.5497,
      "step": 76241
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6579319834709167,
      "learning_rate": 3.463833406009282e-05,
      "loss": 1.5418,
      "step": 76242
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6402021050453186,
      "learning_rate": 3.463345865936962e-05,
      "loss": 1.5087,
      "step": 76243
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6473854184150696,
      "learning_rate": 3.462858358076225e-05,
      "loss": 1.4814,
      "step": 76244
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.674708902835846,
      "learning_rate": 3.462370882427678e-05,
      "loss": 1.5797,
      "step": 76245
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6562616229057312,
      "learning_rate": 3.4618834389918994e-05,
      "loss": 1.5159,
      "step": 76246
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6937877535820007,
      "learning_rate": 3.46139602776948e-05,
      "loss": 1.5051,
      "step": 76247
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6582100987434387,
      "learning_rate": 3.460908648761022e-05,
      "loss": 1.4718,
      "step": 76248
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6812152862548828,
      "learning_rate": 3.460421301967108e-05,
      "loss": 1.3766,
      "step": 76249
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6640023589134216,
      "learning_rate": 3.459933987388328e-05,
      "loss": 1.4753,
      "step": 76250
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6575613617897034,
      "learning_rate": 3.459446705025278e-05,
      "loss": 1.4777,
      "step": 76251
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6620761752128601,
      "learning_rate": 3.458959454878555e-05,
      "loss": 1.5168,
      "step": 76252
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6669995188713074,
      "learning_rate": 3.458472236948744e-05,
      "loss": 1.4826,
      "step": 76253
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6600279211997986,
      "learning_rate": 3.457985051236428e-05,
      "loss": 1.5035,
      "step": 76254
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6642665266990662,
      "learning_rate": 3.457497897742218e-05,
      "loss": 1.592,
      "step": 76255
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6665492057800293,
      "learning_rate": 3.4570107764666944e-05,
      "loss": 1.439,
      "step": 76256
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6747156977653503,
      "learning_rate": 3.4565236874104416e-05,
      "loss": 1.4742,
      "step": 76257
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6746627688407898,
      "learning_rate": 3.456036630574063e-05,
      "loss": 1.5435,
      "step": 76258
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6669670343399048,
      "learning_rate": 3.45554960595814e-05,
      "loss": 1.4771,
      "step": 76259
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6745664477348328,
      "learning_rate": 3.455062613563273e-05,
      "loss": 1.5045,
      "step": 76260
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6468408107757568,
      "learning_rate": 3.454575653390045e-05,
      "loss": 1.5151,
      "step": 76261
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6319214701652527,
      "learning_rate": 3.454088725439055e-05,
      "loss": 1.4705,
      "step": 76262
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6689296960830688,
      "learning_rate": 3.453601829710893e-05,
      "loss": 1.5757,
      "step": 76263
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.648841381072998,
      "learning_rate": 3.4531149662061375e-05,
      "loss": 1.4894,
      "step": 76264
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.668187141418457,
      "learning_rate": 3.452628134925396e-05,
      "loss": 1.542,
      "step": 76265
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6459102630615234,
      "learning_rate": 3.452141335869247e-05,
      "loss": 1.5083,
      "step": 76266
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6656191349029541,
      "learning_rate": 3.451654569038295e-05,
      "loss": 1.5301,
      "step": 76267
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6637436747550964,
      "learning_rate": 3.4511678344331175e-05,
      "loss": 1.465,
      "step": 76268
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6927142143249512,
      "learning_rate": 3.450681132054308e-05,
      "loss": 1.5822,
      "step": 76269
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6557494401931763,
      "learning_rate": 3.450194461902467e-05,
      "loss": 1.5671,
      "step": 76270
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6607095003128052,
      "learning_rate": 3.44970782397817e-05,
      "loss": 1.5044,
      "step": 76271
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6903828978538513,
      "learning_rate": 3.449221218282019e-05,
      "loss": 1.5425,
      "step": 76272
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6863077282905579,
      "learning_rate": 3.448734644814598e-05,
      "loss": 1.5776,
      "step": 76273
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6645729541778564,
      "learning_rate": 3.448248103576507e-05,
      "loss": 1.4949,
      "step": 76274
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6737126708030701,
      "learning_rate": 3.44776159456833e-05,
      "loss": 1.5105,
      "step": 76275
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6742381453514099,
      "learning_rate": 3.447275117790656e-05,
      "loss": 1.4491,
      "step": 76276
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6622680425643921,
      "learning_rate": 3.4467886732440785e-05,
      "loss": 1.5153,
      "step": 76277
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6687393188476562,
      "learning_rate": 3.446302260929189e-05,
      "loss": 1.5597,
      "step": 76278
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.686926543712616,
      "learning_rate": 3.4458158808465694e-05,
      "loss": 1.5528,
      "step": 76279
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6755332946777344,
      "learning_rate": 3.445329532996817e-05,
      "loss": 1.4739,
      "step": 76280
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6689867973327637,
      "learning_rate": 3.4448432173805294e-05,
      "loss": 1.5396,
      "step": 76281
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6512647867202759,
      "learning_rate": 3.444356933998288e-05,
      "loss": 1.5411,
      "step": 76282
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6663005948066711,
      "learning_rate": 3.443870682850678e-05,
      "loss": 1.5849,
      "step": 76283
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6766550540924072,
      "learning_rate": 3.4433844639383026e-05,
      "loss": 1.509,
      "step": 76284
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6678181886672974,
      "learning_rate": 3.4428982772617473e-05,
      "loss": 1.5592,
      "step": 76285
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6580417156219482,
      "learning_rate": 3.442412122821593e-05,
      "loss": 1.5288,
      "step": 76286
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6523422598838806,
      "learning_rate": 3.441926000618438e-05,
      "loss": 1.4806,
      "step": 76287
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6672502756118774,
      "learning_rate": 3.4414399106528756e-05,
      "loss": 1.5279,
      "step": 76288
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6747334599494934,
      "learning_rate": 3.4409538529254924e-05,
      "loss": 1.5044,
      "step": 76289
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6902972459793091,
      "learning_rate": 3.4404678274368736e-05,
      "loss": 1.5053,
      "step": 76290
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6643068790435791,
      "learning_rate": 3.43998183418762e-05,
      "loss": 1.5477,
      "step": 76291
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6641052961349487,
      "learning_rate": 3.439495873178313e-05,
      "loss": 1.5348,
      "step": 76292
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6546804308891296,
      "learning_rate": 3.4390099444095395e-05,
      "loss": 1.4602,
      "step": 76293
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6873672008514404,
      "learning_rate": 3.438524047881893e-05,
      "loss": 1.589,
      "step": 76294
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6387405395507812,
      "learning_rate": 3.438038183595973e-05,
      "loss": 1.456,
      "step": 76295
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6675750017166138,
      "learning_rate": 3.437552351552357e-05,
      "loss": 1.5042,
      "step": 76296
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7392763495445251,
      "learning_rate": 3.437066551751637e-05,
      "loss": 1.5343,
      "step": 76297
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6631595492362976,
      "learning_rate": 3.436580784194408e-05,
      "loss": 1.4881,
      "step": 76298
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6754267811775208,
      "learning_rate": 3.4360950488812565e-05,
      "loss": 1.5254,
      "step": 76299
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6403852701187134,
      "learning_rate": 3.435609345812765e-05,
      "loss": 1.5148,
      "step": 76300
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7828492522239685,
      "learning_rate": 3.4351236749895306e-05,
      "loss": 1.5426,
      "step": 76301
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6538370847702026,
      "learning_rate": 3.4346380364121486e-05,
      "loss": 1.5223,
      "step": 76302
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6828294992446899,
      "learning_rate": 3.434152430081202e-05,
      "loss": 1.5698,
      "step": 76303
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6708055138587952,
      "learning_rate": 3.4336668559972735e-05,
      "loss": 1.569,
      "step": 76304
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6684189438819885,
      "learning_rate": 3.433181314160963e-05,
      "loss": 1.5032,
      "step": 76305
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6791820526123047,
      "learning_rate": 3.432695804572857e-05,
      "loss": 1.4934,
      "step": 76306
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.648801326751709,
      "learning_rate": 3.4322103272335414e-05,
      "loss": 1.5599,
      "step": 76307
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6606758236885071,
      "learning_rate": 3.431724882143608e-05,
      "loss": 1.5501,
      "step": 76308
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6753199696540833,
      "learning_rate": 3.4312394693036446e-05,
      "loss": 1.5269,
      "step": 76309
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6615020632743835,
      "learning_rate": 3.4307540887142437e-05,
      "loss": 1.5642,
      "step": 76310
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6602461338043213,
      "learning_rate": 3.430268740375991e-05,
      "loss": 1.4882,
      "step": 76311
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.8214643597602844,
      "learning_rate": 3.42978342428948e-05,
      "loss": 1.4869,
      "step": 76312
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6723834872245789,
      "learning_rate": 3.429298140455299e-05,
      "loss": 1.5761,
      "step": 76313
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6655385494232178,
      "learning_rate": 3.428812888874025e-05,
      "loss": 1.467,
      "step": 76314
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6604403257369995,
      "learning_rate": 3.428327669546268e-05,
      "loss": 1.5121,
      "step": 76315
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6701978445053101,
      "learning_rate": 3.427842482472597e-05,
      "loss": 1.5124,
      "step": 76316
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6735876202583313,
      "learning_rate": 3.427357327653618e-05,
      "loss": 1.4765,
      "step": 76317
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6696081757545471,
      "learning_rate": 3.426872205089911e-05,
      "loss": 1.4355,
      "step": 76318
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6623871922492981,
      "learning_rate": 3.426387114782059e-05,
      "loss": 1.5496,
      "step": 76319
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6453054547309875,
      "learning_rate": 3.425902056730664e-05,
      "loss": 1.495,
      "step": 76320
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6723040342330933,
      "learning_rate": 3.425417030936303e-05,
      "loss": 1.5365,
      "step": 76321
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6688367128372192,
      "learning_rate": 3.424932037399578e-05,
      "loss": 1.5419,
      "step": 76322
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6717653274536133,
      "learning_rate": 3.42444707612106e-05,
      "loss": 1.5202,
      "step": 76323
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6886460185050964,
      "learning_rate": 3.423962147101357e-05,
      "loss": 1.5429,
      "step": 76324
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6493049263954163,
      "learning_rate": 3.4234772503410454e-05,
      "loss": 1.5144,
      "step": 76325
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.681279718875885,
      "learning_rate": 3.422992385840713e-05,
      "loss": 1.5153,
      "step": 76326
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6708536744117737,
      "learning_rate": 3.422507553600954e-05,
      "loss": 1.5734,
      "step": 76327
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6830931901931763,
      "learning_rate": 3.422022753622359e-05,
      "loss": 1.6041,
      "step": 76328
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6611881852149963,
      "learning_rate": 3.4215379859055035e-05,
      "loss": 1.528,
      "step": 76329
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6973924040794373,
      "learning_rate": 3.421053250450985e-05,
      "loss": 1.5196,
      "step": 76330
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6292497515678406,
      "learning_rate": 3.420568547259401e-05,
      "loss": 1.5175,
      "step": 76331
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.666711688041687,
      "learning_rate": 3.4200838763313265e-05,
      "loss": 1.542,
      "step": 76332
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6637195944786072,
      "learning_rate": 3.41959923766735e-05,
      "loss": 1.5198,
      "step": 76333
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7098636031150818,
      "learning_rate": 3.419114631268067e-05,
      "loss": 1.5869,
      "step": 76334
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6522852182388306,
      "learning_rate": 3.418630057134065e-05,
      "loss": 1.4756,
      "step": 76335
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.654438853263855,
      "learning_rate": 3.418145515265923e-05,
      "loss": 1.5032,
      "step": 76336
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6259192824363708,
      "learning_rate": 3.4176610056642375e-05,
      "loss": 1.4861,
      "step": 76337
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6833892464637756,
      "learning_rate": 3.417176528329597e-05,
      "loss": 1.5642,
      "step": 76338
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6820361018180847,
      "learning_rate": 3.416692083262589e-05,
      "loss": 1.5154,
      "step": 76339
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6666696667671204,
      "learning_rate": 3.416207670463795e-05,
      "loss": 1.4754,
      "step": 76340
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6594723463058472,
      "learning_rate": 3.4157232899338126e-05,
      "loss": 1.5545,
      "step": 76341
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6663597226142883,
      "learning_rate": 3.415238941673224e-05,
      "loss": 1.553,
      "step": 76342
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6451173424720764,
      "learning_rate": 3.414754625682615e-05,
      "loss": 1.4916,
      "step": 76343
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6529202461242676,
      "learning_rate": 3.414270341962576e-05,
      "loss": 1.4804,
      "step": 76344
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6793396472930908,
      "learning_rate": 3.413786090513706e-05,
      "loss": 1.5171,
      "step": 76345
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.64478600025177,
      "learning_rate": 3.413301871336571e-05,
      "loss": 1.5326,
      "step": 76346
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.682633101940155,
      "learning_rate": 3.412817684431771e-05,
      "loss": 1.5536,
      "step": 76347
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6734640598297119,
      "learning_rate": 3.4123335297998986e-05,
      "loss": 1.5352,
      "step": 76348
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6767152547836304,
      "learning_rate": 3.411849407441537e-05,
      "loss": 1.514,
      "step": 76349
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6498569846153259,
      "learning_rate": 3.411365317357265e-05,
      "loss": 1.4894,
      "step": 76350
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6575762033462524,
      "learning_rate": 3.41088125954768e-05,
      "loss": 1.4461,
      "step": 76351
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6705633997917175,
      "learning_rate": 3.4103972340133765e-05,
      "loss": 1.4996,
      "step": 76352
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6855912208557129,
      "learning_rate": 3.4099132407549226e-05,
      "loss": 1.5602,
      "step": 76353
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6510823369026184,
      "learning_rate": 3.409429279772916e-05,
      "loss": 1.4461,
      "step": 76354
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6598385572433472,
      "learning_rate": 3.4089453510679475e-05,
      "loss": 1.5054,
      "step": 76355
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6763280630111694,
      "learning_rate": 3.408461454640606e-05,
      "loss": 1.5008,
      "step": 76356
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6628130078315735,
      "learning_rate": 3.407977590491465e-05,
      "loss": 1.4931,
      "step": 76357
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6585696339607239,
      "learning_rate": 3.4074937586211204e-05,
      "loss": 1.5399,
      "step": 76358
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6844688057899475,
      "learning_rate": 3.407009959030175e-05,
      "loss": 1.51,
      "step": 76359
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6716252565383911,
      "learning_rate": 3.406526191719188e-05,
      "loss": 1.5416,
      "step": 76360
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6662554740905762,
      "learning_rate": 3.406042456688759e-05,
      "loss": 1.5306,
      "step": 76361
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6696040034294128,
      "learning_rate": 3.405558753939485e-05,
      "loss": 1.5358,
      "step": 76362
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6569079160690308,
      "learning_rate": 3.405075083471941e-05,
      "loss": 1.5934,
      "step": 76363
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6597762107849121,
      "learning_rate": 3.404591445286714e-05,
      "loss": 1.5376,
      "step": 76364
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6794742941856384,
      "learning_rate": 3.404107839384397e-05,
      "loss": 1.5094,
      "step": 76365
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6720094680786133,
      "learning_rate": 3.403624265765575e-05,
      "loss": 1.5491,
      "step": 76366
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6416301131248474,
      "learning_rate": 3.403140724430833e-05,
      "loss": 1.4891,
      "step": 76367
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.657209038734436,
      "learning_rate": 3.402657215380755e-05,
      "loss": 1.5038,
      "step": 76368
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6929574608802795,
      "learning_rate": 3.402173738615939e-05,
      "loss": 1.4999,
      "step": 76369
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6513627767562866,
      "learning_rate": 3.401690294136963e-05,
      "loss": 1.4537,
      "step": 76370
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6799416542053223,
      "learning_rate": 3.401206881944414e-05,
      "loss": 1.5468,
      "step": 76371
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6704954504966736,
      "learning_rate": 3.4007235020388846e-05,
      "loss": 1.5133,
      "step": 76372
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6999813914299011,
      "learning_rate": 3.4002401544209576e-05,
      "loss": 1.543,
      "step": 76373
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6642194390296936,
      "learning_rate": 3.3997568390912136e-05,
      "loss": 1.4741,
      "step": 76374
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.64859539270401,
      "learning_rate": 3.3992735560502504e-05,
      "loss": 1.5389,
      "step": 76375
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6500830054283142,
      "learning_rate": 3.398790305298645e-05,
      "loss": 1.5224,
      "step": 76376
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6754007339477539,
      "learning_rate": 3.3983070868369946e-05,
      "loss": 1.4841,
      "step": 76377
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.681128203868866,
      "learning_rate": 3.3978239006658735e-05,
      "loss": 1.5566,
      "step": 76378
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6743084192276001,
      "learning_rate": 3.3973407467858826e-05,
      "loss": 1.4954,
      "step": 76379
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7038540244102478,
      "learning_rate": 3.396857625197598e-05,
      "loss": 1.5574,
      "step": 76380
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6596488952636719,
      "learning_rate": 3.396374535901602e-05,
      "loss": 1.4365,
      "step": 76381
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6753857731819153,
      "learning_rate": 3.3958914788984935e-05,
      "loss": 1.5159,
      "step": 76382
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6768920421600342,
      "learning_rate": 3.3954084541888505e-05,
      "loss": 1.5414,
      "step": 76383
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.9115415215492249,
      "learning_rate": 3.394925461773265e-05,
      "loss": 1.5366,
      "step": 76384
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6669256687164307,
      "learning_rate": 3.394442501652319e-05,
      "loss": 1.4644,
      "step": 76385
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6770444512367249,
      "learning_rate": 3.393959573826594e-05,
      "loss": 1.4692,
      "step": 76386
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6585044264793396,
      "learning_rate": 3.393476678296687e-05,
      "loss": 1.465,
      "step": 76387
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6592516899108887,
      "learning_rate": 3.3929938150631764e-05,
      "loss": 1.551,
      "step": 76388
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.653256893157959,
      "learning_rate": 3.392510984126654e-05,
      "loss": 1.5194,
      "step": 76389
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6496188044548035,
      "learning_rate": 3.3920281854877e-05,
      "loss": 1.4458,
      "step": 76390
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6788622736930847,
      "learning_rate": 3.391545419146906e-05,
      "loss": 1.5469,
      "step": 76391
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6765710711479187,
      "learning_rate": 3.391062685104856e-05,
      "loss": 1.5467,
      "step": 76392
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6800662279129028,
      "learning_rate": 3.390579983362129e-05,
      "loss": 1.5051,
      "step": 76393
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6741774082183838,
      "learning_rate": 3.3900973139193255e-05,
      "loss": 1.5396,
      "step": 76394
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6677787899971008,
      "learning_rate": 3.389614676777021e-05,
      "loss": 1.4839,
      "step": 76395
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6446260213851929,
      "learning_rate": 3.389132071935797e-05,
      "loss": 1.4992,
      "step": 76396
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6624392867088318,
      "learning_rate": 3.388649499396245e-05,
      "loss": 1.4807,
      "step": 76397
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6501728296279907,
      "learning_rate": 3.388166959158961e-05,
      "loss": 1.468,
      "step": 76398
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6617472767829895,
      "learning_rate": 3.3876844512245175e-05,
      "loss": 1.5127,
      "step": 76399
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6890158653259277,
      "learning_rate": 3.3872019755934997e-05,
      "loss": 1.5572,
      "step": 76400
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6469575762748718,
      "learning_rate": 3.386719532266505e-05,
      "loss": 1.441,
      "step": 76401
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6642547845840454,
      "learning_rate": 3.38623712124411e-05,
      "loss": 1.5585,
      "step": 76402
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6629714369773865,
      "learning_rate": 3.385754742526896e-05,
      "loss": 1.5198,
      "step": 76403
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6864827871322632,
      "learning_rate": 3.3852723961154535e-05,
      "loss": 1.5542,
      "step": 76404
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6696299910545349,
      "learning_rate": 3.3847900820103756e-05,
      "loss": 1.5289,
      "step": 76405
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6377953886985779,
      "learning_rate": 3.3843078002122415e-05,
      "loss": 1.5045,
      "step": 76406
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6564651131629944,
      "learning_rate": 3.383825550721627e-05,
      "loss": 1.5503,
      "step": 76407
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6496056318283081,
      "learning_rate": 3.383343333539136e-05,
      "loss": 1.5898,
      "step": 76408
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6497164368629456,
      "learning_rate": 3.3828611486653435e-05,
      "loss": 1.508,
      "step": 76409
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6602575182914734,
      "learning_rate": 3.3823789961008294e-05,
      "loss": 1.5416,
      "step": 76410
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6648085713386536,
      "learning_rate": 3.381896875846184e-05,
      "loss": 1.5223,
      "step": 76411
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6762004494667053,
      "learning_rate": 3.381414787902003e-05,
      "loss": 1.5802,
      "step": 76412
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6886223554611206,
      "learning_rate": 3.3809327322688615e-05,
      "loss": 1.5398,
      "step": 76413
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6792450547218323,
      "learning_rate": 3.3804507089473375e-05,
      "loss": 1.5071,
      "step": 76414
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6755676865577698,
      "learning_rate": 3.379968717938033e-05,
      "loss": 1.5506,
      "step": 76415
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6544150114059448,
      "learning_rate": 3.379486759241521e-05,
      "loss": 1.5068,
      "step": 76416
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6918038129806519,
      "learning_rate": 3.379004832858384e-05,
      "loss": 1.4695,
      "step": 76417
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.643056333065033,
      "learning_rate": 3.3785229387892154e-05,
      "loss": 1.4522,
      "step": 76418
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6576406955718994,
      "learning_rate": 3.378041077034601e-05,
      "loss": 1.5889,
      "step": 76419
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6688672304153442,
      "learning_rate": 3.377559247595124e-05,
      "loss": 1.5576,
      "step": 76420
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6657265424728394,
      "learning_rate": 3.37707745047136e-05,
      "loss": 1.4862,
      "step": 76421
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6616020798683167,
      "learning_rate": 3.3765956856639095e-05,
      "loss": 1.4931,
      "step": 76422
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6633039116859436,
      "learning_rate": 3.376113953173345e-05,
      "loss": 1.4939,
      "step": 76423
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6687134504318237,
      "learning_rate": 3.375632253000252e-05,
      "loss": 1.5211,
      "step": 76424
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6770696640014648,
      "learning_rate": 3.375150585145224e-05,
      "loss": 1.5981,
      "step": 76425
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6719528436660767,
      "learning_rate": 3.3746689496088376e-05,
      "loss": 1.5408,
      "step": 76426
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6701847314834595,
      "learning_rate": 3.374187346391681e-05,
      "loss": 1.4812,
      "step": 76427
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6815378069877625,
      "learning_rate": 3.373705775494335e-05,
      "loss": 1.573,
      "step": 76428
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6565961241722107,
      "learning_rate": 3.373224236917392e-05,
      "loss": 1.4842,
      "step": 76429
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6802102327346802,
      "learning_rate": 3.372742730661432e-05,
      "loss": 1.5509,
      "step": 76430
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6693847179412842,
      "learning_rate": 3.3722612567270305e-05,
      "loss": 1.4888,
      "step": 76431
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6666601896286011,
      "learning_rate": 3.3717798151147865e-05,
      "loss": 1.5341,
      "step": 76432
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.665561318397522,
      "learning_rate": 3.371298405825274e-05,
      "loss": 1.4896,
      "step": 76433
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6934283971786499,
      "learning_rate": 3.3708170288590896e-05,
      "loss": 1.4958,
      "step": 76434
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6658249497413635,
      "learning_rate": 3.3703356842168084e-05,
      "loss": 1.4685,
      "step": 76435
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6649659872055054,
      "learning_rate": 3.369854371899007e-05,
      "loss": 1.451,
      "step": 76436
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6697514653205872,
      "learning_rate": 3.3693730919062875e-05,
      "loss": 1.4287,
      "step": 76437
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6566177010536194,
      "learning_rate": 3.368891844239221e-05,
      "loss": 1.4905,
      "step": 76438
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6798677444458008,
      "learning_rate": 3.3684106288983994e-05,
      "loss": 1.4689,
      "step": 76439
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6904576420783997,
      "learning_rate": 3.367929445884395e-05,
      "loss": 1.5196,
      "step": 76440
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6767639517784119,
      "learning_rate": 3.367448295197809e-05,
      "loss": 1.5589,
      "step": 76441
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.682620108127594,
      "learning_rate": 3.366967176839216e-05,
      "loss": 1.4269,
      "step": 76442
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6748315095901489,
      "learning_rate": 3.366486090809196e-05,
      "loss": 1.5583,
      "step": 76443
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6574770212173462,
      "learning_rate": 3.366005037108342e-05,
      "loss": 1.4876,
      "step": 76444
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6871917247772217,
      "learning_rate": 3.3655240157372344e-05,
      "loss": 1.5155,
      "step": 76445
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6713401675224304,
      "learning_rate": 3.365043026696451e-05,
      "loss": 1.5004,
      "step": 76446
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6785438656806946,
      "learning_rate": 3.3645620699865794e-05,
      "loss": 1.4915,
      "step": 76447
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6615980863571167,
      "learning_rate": 3.364081145608212e-05,
      "loss": 1.4851,
      "step": 76448
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6649223566055298,
      "learning_rate": 3.3636002535619245e-05,
      "loss": 1.4862,
      "step": 76449
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6781123280525208,
      "learning_rate": 3.363119393848297e-05,
      "loss": 1.5387,
      "step": 76450
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6420463919639587,
      "learning_rate": 3.362638566467922e-05,
      "loss": 1.465,
      "step": 76451
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6568498015403748,
      "learning_rate": 3.36215777142138e-05,
      "loss": 1.467,
      "step": 76452
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6860671639442444,
      "learning_rate": 3.361677008709246e-05,
      "loss": 1.5467,
      "step": 76453
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6862371563911438,
      "learning_rate": 3.3611962783321133e-05,
      "loss": 1.5112,
      "step": 76454
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6682182550430298,
      "learning_rate": 3.360715580290575e-05,
      "loss": 1.518,
      "step": 76455
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6417074799537659,
      "learning_rate": 3.360234914585191e-05,
      "loss": 1.527,
      "step": 76456
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6344839334487915,
      "learning_rate": 3.3597542812165554e-05,
      "loss": 1.5242,
      "step": 76457
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6739491820335388,
      "learning_rate": 3.359273680185257e-05,
      "loss": 1.5295,
      "step": 76458
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6864655613899231,
      "learning_rate": 3.358793111491878e-05,
      "loss": 1.484,
      "step": 76459
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6585347652435303,
      "learning_rate": 3.358312575136993e-05,
      "loss": 1.5033,
      "step": 76460
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6535505652427673,
      "learning_rate": 3.35783207112119e-05,
      "loss": 1.4433,
      "step": 76461
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6638984084129333,
      "learning_rate": 3.357351599445065e-05,
      "loss": 1.5095,
      "step": 76462
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6654342412948608,
      "learning_rate": 3.35687116010918e-05,
      "loss": 1.4833,
      "step": 76463
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6895338892936707,
      "learning_rate": 3.356390753114126e-05,
      "loss": 1.5006,
      "step": 76464
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6625056266784668,
      "learning_rate": 3.3559103784604935e-05,
      "loss": 1.5258,
      "step": 76465
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7040274739265442,
      "learning_rate": 3.355430036148861e-05,
      "loss": 1.5646,
      "step": 76466
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6809641122817993,
      "learning_rate": 3.354949726179803e-05,
      "loss": 1.5627,
      "step": 76467
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6685974597930908,
      "learning_rate": 3.35446944855391e-05,
      "loss": 1.498,
      "step": 76468
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6402026414871216,
      "learning_rate": 3.3539892032717785e-05,
      "loss": 1.5152,
      "step": 76469
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6562747359275818,
      "learning_rate": 3.353508990333964e-05,
      "loss": 1.5014,
      "step": 76470
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6998605132102966,
      "learning_rate": 3.353028809741066e-05,
      "loss": 1.5248,
      "step": 76471
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6926685571670532,
      "learning_rate": 3.352548661493668e-05,
      "loss": 1.4527,
      "step": 76472
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6617488265037537,
      "learning_rate": 3.3520685455923525e-05,
      "loss": 1.5559,
      "step": 76473
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6463818550109863,
      "learning_rate": 3.3515884620376924e-05,
      "loss": 1.5592,
      "step": 76474
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6655986905097961,
      "learning_rate": 3.3511084108302766e-05,
      "loss": 1.543,
      "step": 76475
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6753526329994202,
      "learning_rate": 3.3506283919706987e-05,
      "loss": 1.538,
      "step": 76476
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6839674711227417,
      "learning_rate": 3.350148405459525e-05,
      "loss": 1.4741,
      "step": 76477
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6660422086715698,
      "learning_rate": 3.349668451297338e-05,
      "loss": 1.5043,
      "step": 76478
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6520518660545349,
      "learning_rate": 3.3491885294847374e-05,
      "loss": 1.5232,
      "step": 76479
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6674110293388367,
      "learning_rate": 3.348708640022293e-05,
      "loss": 1.6071,
      "step": 76480
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.68559730052948,
      "learning_rate": 3.3482287829105834e-05,
      "loss": 1.534,
      "step": 76481
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6685410737991333,
      "learning_rate": 3.347748958150206e-05,
      "loss": 1.5361,
      "step": 76482
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6723482012748718,
      "learning_rate": 3.347269165741733e-05,
      "loss": 1.5688,
      "step": 76483
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6813977360725403,
      "learning_rate": 3.34678940568574e-05,
      "loss": 1.4672,
      "step": 76484
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.7007280588150024,
      "learning_rate": 3.346309677982818e-05,
      "loss": 1.5375,
      "step": 76485
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6580682992935181,
      "learning_rate": 3.345829982633556e-05,
      "loss": 1.4802,
      "step": 76486
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6612737774848938,
      "learning_rate": 3.345350319638529e-05,
      "loss": 1.489,
      "step": 76487
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6643307209014893,
      "learning_rate": 3.344870688998315e-05,
      "loss": 1.6116,
      "step": 76488
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6680228114128113,
      "learning_rate": 3.344391090713502e-05,
      "loss": 1.567,
      "step": 76489
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6698452830314636,
      "learning_rate": 3.343911524784674e-05,
      "loss": 1.5063,
      "step": 76490
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6580877304077148,
      "learning_rate": 3.343431991212403e-05,
      "loss": 1.4805,
      "step": 76491
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6278553605079651,
      "learning_rate": 3.3429524899972826e-05,
      "loss": 1.5242,
      "step": 76492
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6737175583839417,
      "learning_rate": 3.3424730211398886e-05,
      "loss": 1.4981,
      "step": 76493
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6709498167037964,
      "learning_rate": 3.341993584640807e-05,
      "loss": 1.5334,
      "step": 76494
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.6485116481781006,
      "learning_rate": 3.341514180500612e-05,
      "loss": 1.5512,
      "step": 76495
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6668484807014465,
      "learning_rate": 3.3410348087198944e-05,
      "loss": 1.4964,
      "step": 76496
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6614766716957092,
      "learning_rate": 3.3405554692992354e-05,
      "loss": 1.5405,
      "step": 76497
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6441226005554199,
      "learning_rate": 3.340076162239207e-05,
      "loss": 1.5047,
      "step": 76498
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.66580730676651,
      "learning_rate": 3.3395968875404054e-05,
      "loss": 1.4635,
      "step": 76499
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6363475918769836,
      "learning_rate": 3.339117645203397e-05,
      "loss": 1.4766,
      "step": 76500
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6508505940437317,
      "learning_rate": 3.3386384352287785e-05,
      "loss": 1.5013,
      "step": 76501
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6806750297546387,
      "learning_rate": 3.3381592576171256e-05,
      "loss": 1.4855,
      "step": 76502
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6688709855079651,
      "learning_rate": 3.337680112369011e-05,
      "loss": 1.6079,
      "step": 76503
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6525495052337646,
      "learning_rate": 3.337200999485031e-05,
      "loss": 1.5715,
      "step": 76504
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.672581672668457,
      "learning_rate": 3.3367219189657555e-05,
      "loss": 1.5007,
      "step": 76505
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6507664918899536,
      "learning_rate": 3.3362428708117736e-05,
      "loss": 1.561,
      "step": 76506
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7016929388046265,
      "learning_rate": 3.335763855023662e-05,
      "loss": 1.5075,
      "step": 76507
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6519593596458435,
      "learning_rate": 3.33528487160201e-05,
      "loss": 1.5002,
      "step": 76508
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6401993632316589,
      "learning_rate": 3.33480592054739e-05,
      "loss": 1.4758,
      "step": 76509
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6638033390045166,
      "learning_rate": 3.334327001860382e-05,
      "loss": 1.5654,
      "step": 76510
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6664627194404602,
      "learning_rate": 3.333848115541579e-05,
      "loss": 1.5149,
      "step": 76511
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6773816347122192,
      "learning_rate": 3.333369261591556e-05,
      "loss": 1.5351,
      "step": 76512
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6738353371620178,
      "learning_rate": 3.332890440010888e-05,
      "loss": 1.4641,
      "step": 76513
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6571561098098755,
      "learning_rate": 3.33241165080016e-05,
      "loss": 1.5091,
      "step": 76514
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6763822436332703,
      "learning_rate": 3.331932893959961e-05,
      "loss": 1.4997,
      "step": 76515
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6730863451957703,
      "learning_rate": 3.331454169490865e-05,
      "loss": 1.5767,
      "step": 76516
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6622301340103149,
      "learning_rate": 3.3309754773934504e-05,
      "loss": 1.5178,
      "step": 76517
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.665884792804718,
      "learning_rate": 3.3304968176683076e-05,
      "loss": 1.5682,
      "step": 76518
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6692799925804138,
      "learning_rate": 3.330018190316013e-05,
      "loss": 1.498,
      "step": 76519
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6525766849517822,
      "learning_rate": 3.329539595337139e-05,
      "loss": 1.5222,
      "step": 76520
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6749361753463745,
      "learning_rate": 3.329061032732274e-05,
      "loss": 1.5023,
      "step": 76521
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.649843692779541,
      "learning_rate": 3.328582502502006e-05,
      "loss": 1.5014,
      "step": 76522
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6737363338470459,
      "learning_rate": 3.328104004646908e-05,
      "loss": 1.4882,
      "step": 76523
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.638390064239502,
      "learning_rate": 3.327625539167558e-05,
      "loss": 1.4822,
      "step": 76524
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6479525566101074,
      "learning_rate": 3.327147106064543e-05,
      "loss": 1.5324,
      "step": 76525
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6595617532730103,
      "learning_rate": 3.326668705338446e-05,
      "loss": 1.5435,
      "step": 76526
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.654165506362915,
      "learning_rate": 3.326190336989832e-05,
      "loss": 1.4439,
      "step": 76527
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6454992294311523,
      "learning_rate": 3.325712001019296e-05,
      "loss": 1.5617,
      "step": 76528
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6878102421760559,
      "learning_rate": 3.325233697427423e-05,
      "loss": 1.4514,
      "step": 76529
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6641713380813599,
      "learning_rate": 3.3247554262147824e-05,
      "loss": 1.4747,
      "step": 76530
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6893309950828552,
      "learning_rate": 3.324277187381954e-05,
      "loss": 1.5568,
      "step": 76531
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6718989610671997,
      "learning_rate": 3.323798980929527e-05,
      "loss": 1.5479,
      "step": 76532
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.670448899269104,
      "learning_rate": 3.323320806858078e-05,
      "loss": 1.493,
      "step": 76533
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6764923334121704,
      "learning_rate": 3.322842665168184e-05,
      "loss": 1.5254,
      "step": 76534
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6948752403259277,
      "learning_rate": 3.3223645558604264e-05,
      "loss": 1.5691,
      "step": 76535
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6640093326568604,
      "learning_rate": 3.3218864789353916e-05,
      "loss": 1.5378,
      "step": 76536
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6872116327285767,
      "learning_rate": 3.321408434393656e-05,
      "loss": 1.4895,
      "step": 76537
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.705086350440979,
      "learning_rate": 3.320930422235797e-05,
      "loss": 1.4933,
      "step": 76538
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6873472929000854,
      "learning_rate": 3.320452442462399e-05,
      "loss": 1.4537,
      "step": 76539
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6494936943054199,
      "learning_rate": 3.3199744950740456e-05,
      "loss": 1.5446,
      "step": 76540
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6435942053794861,
      "learning_rate": 3.319496580071303e-05,
      "loss": 1.5138,
      "step": 76541
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7125677466392517,
      "learning_rate": 3.319018697454765e-05,
      "loss": 1.569,
      "step": 76542
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6799362301826477,
      "learning_rate": 3.318540847225003e-05,
      "loss": 1.555,
      "step": 76543
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6841306090354919,
      "learning_rate": 3.3180630293826074e-05,
      "loss": 1.6131,
      "step": 76544
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6561676859855652,
      "learning_rate": 3.317585243928147e-05,
      "loss": 1.4851,
      "step": 76545
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.674156129360199,
      "learning_rate": 3.317107490862212e-05,
      "loss": 1.5346,
      "step": 76546
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.668110191822052,
      "learning_rate": 3.316629770185375e-05,
      "loss": 1.5505,
      "step": 76547
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6936297416687012,
      "learning_rate": 3.316152081898212e-05,
      "loss": 1.5579,
      "step": 76548
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6828737258911133,
      "learning_rate": 3.315674426001317e-05,
      "loss": 1.5379,
      "step": 76549
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6750636696815491,
      "learning_rate": 3.315196802495254e-05,
      "loss": 1.4865,
      "step": 76550
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6530969738960266,
      "learning_rate": 3.314719211380615e-05,
      "loss": 1.5148,
      "step": 76551
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6875517964363098,
      "learning_rate": 3.314241652657975e-05,
      "loss": 1.6094,
      "step": 76552
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6686789989471436,
      "learning_rate": 3.31376412632791e-05,
      "loss": 1.518,
      "step": 76553
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6542298793792725,
      "learning_rate": 3.31328663239101e-05,
      "loss": 1.5642,
      "step": 76554
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6686128377914429,
      "learning_rate": 3.3128091708478375e-05,
      "loss": 1.5577,
      "step": 76555
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6860950589179993,
      "learning_rate": 3.3123317416989924e-05,
      "loss": 1.5262,
      "step": 76556
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7332456111907959,
      "learning_rate": 3.3118543449450375e-05,
      "loss": 1.5531,
      "step": 76557
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6717578768730164,
      "learning_rate": 3.311376980586565e-05,
      "loss": 1.5287,
      "step": 76558
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6692084074020386,
      "learning_rate": 3.310899648624149e-05,
      "loss": 1.4704,
      "step": 76559
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6404101848602295,
      "learning_rate": 3.310422349058362e-05,
      "loss": 1.5157,
      "step": 76560
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6557669043540955,
      "learning_rate": 3.3099450818897955e-05,
      "loss": 1.4872,
      "step": 76561
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6657790541648865,
      "learning_rate": 3.3094678471190205e-05,
      "loss": 1.5858,
      "step": 76562
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6567201018333435,
      "learning_rate": 3.308990644746616e-05,
      "loss": 1.5388,
      "step": 76563
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6838117241859436,
      "learning_rate": 3.3085134747731655e-05,
      "loss": 1.4407,
      "step": 76564
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6801071763038635,
      "learning_rate": 3.308036337199248e-05,
      "loss": 1.467,
      "step": 76565
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.658913254737854,
      "learning_rate": 3.307559232025446e-05,
      "loss": 1.5157,
      "step": 76566
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6775820851325989,
      "learning_rate": 3.307082159252327e-05,
      "loss": 1.5416,
      "step": 76567
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6630605459213257,
      "learning_rate": 3.306605118880482e-05,
      "loss": 1.5057,
      "step": 76568
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6720765829086304,
      "learning_rate": 3.306128110910485e-05,
      "loss": 1.4508,
      "step": 76569
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6825017929077148,
      "learning_rate": 3.305651135342909e-05,
      "loss": 1.5825,
      "step": 76570
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6769533157348633,
      "learning_rate": 3.3051741921783435e-05,
      "loss": 1.5199,
      "step": 76571
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6729398369789124,
      "learning_rate": 3.3046972814173714e-05,
      "loss": 1.5542,
      "step": 76572
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6796565055847168,
      "learning_rate": 3.3042204030605514e-05,
      "loss": 1.5274,
      "step": 76573
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6677330136299133,
      "learning_rate": 3.303743557108477e-05,
      "loss": 1.5418,
      "step": 76574
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6542054414749146,
      "learning_rate": 3.303266743561728e-05,
      "loss": 1.5806,
      "step": 76575
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6885453462600708,
      "learning_rate": 3.30278996242088e-05,
      "loss": 1.535,
      "step": 76576
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6654016971588135,
      "learning_rate": 3.302313213686506e-05,
      "loss": 1.5006,
      "step": 76577
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6748852133750916,
      "learning_rate": 3.301836497359189e-05,
      "loss": 1.5332,
      "step": 76578
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6901199817657471,
      "learning_rate": 3.301359813439523e-05,
      "loss": 1.4557,
      "step": 76579
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6700947284698486,
      "learning_rate": 3.300883161928059e-05,
      "loss": 1.5381,
      "step": 76580
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.639239490032196,
      "learning_rate": 3.300406542825387e-05,
      "loss": 1.3981,
      "step": 76581
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.675535261631012,
      "learning_rate": 3.299929956132097e-05,
      "loss": 1.5725,
      "step": 76582
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6396548748016357,
      "learning_rate": 3.299453401848755e-05,
      "loss": 1.4684,
      "step": 76583
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6610514521598816,
      "learning_rate": 3.2989768799759374e-05,
      "loss": 1.4733,
      "step": 76584
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6828166246414185,
      "learning_rate": 3.298500390514227e-05,
      "loss": 1.5332,
      "step": 76585
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6710700392723083,
      "learning_rate": 3.2980239334642165e-05,
      "loss": 1.5011,
      "step": 76586
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6501481533050537,
      "learning_rate": 3.297547508826456e-05,
      "loss": 1.5174,
      "step": 76587
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6875004172325134,
      "learning_rate": 3.2970711166015404e-05,
      "loss": 1.4968,
      "step": 76588
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6564514636993408,
      "learning_rate": 3.296594756790054e-05,
      "loss": 1.4864,
      "step": 76589
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6584311723709106,
      "learning_rate": 3.2961184293925625e-05,
      "loss": 1.5317,
      "step": 76590
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6352778077125549,
      "learning_rate": 3.295642134409645e-05,
      "loss": 1.5617,
      "step": 76591
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6756535768508911,
      "learning_rate": 3.295165871841885e-05,
      "loss": 1.4479,
      "step": 76592
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6862587332725525,
      "learning_rate": 3.2946896416898683e-05,
      "loss": 1.5076,
      "step": 76593
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.673315703868866,
      "learning_rate": 3.2942134439541514e-05,
      "loss": 1.4968,
      "step": 76594
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6778582334518433,
      "learning_rate": 3.2937372786353266e-05,
      "loss": 1.5009,
      "step": 76595
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6789696216583252,
      "learning_rate": 3.293261145733974e-05,
      "loss": 1.5676,
      "step": 76596
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6591543555259705,
      "learning_rate": 3.292785045250667e-05,
      "loss": 1.5317,
      "step": 76597
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6671469211578369,
      "learning_rate": 3.292308977185977e-05,
      "loss": 1.4581,
      "step": 76598
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6399711966514587,
      "learning_rate": 3.291832941540497e-05,
      "loss": 1.5591,
      "step": 76599
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6682454347610474,
      "learning_rate": 3.291356938314795e-05,
      "loss": 1.5938,
      "step": 76600
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6670135855674744,
      "learning_rate": 3.290880967509446e-05,
      "loss": 1.5256,
      "step": 76601
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6712563037872314,
      "learning_rate": 3.290405029125029e-05,
      "loss": 1.5213,
      "step": 76602
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6556255221366882,
      "learning_rate": 3.289929123162135e-05,
      "loss": 1.4599,
      "step": 76603
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6640223860740662,
      "learning_rate": 3.289453249621329e-05,
      "loss": 1.5354,
      "step": 76604
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6678226590156555,
      "learning_rate": 3.288977408503187e-05,
      "loss": 1.5072,
      "step": 76605
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.655501663684845,
      "learning_rate": 3.288501599808293e-05,
      "loss": 1.4669,
      "step": 76606
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6402240991592407,
      "learning_rate": 3.288025823537226e-05,
      "loss": 1.5074,
      "step": 76607
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6732568740844727,
      "learning_rate": 3.287550079690552e-05,
      "loss": 1.4486,
      "step": 76608
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6574187278747559,
      "learning_rate": 3.287074368268864e-05,
      "loss": 1.527,
      "step": 76609
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6869218945503235,
      "learning_rate": 3.2865986892727246e-05,
      "loss": 1.4672,
      "step": 76610
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.660247802734375,
      "learning_rate": 3.286123042702724e-05,
      "loss": 1.4136,
      "step": 76611
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6924413442611694,
      "learning_rate": 3.2856474285594284e-05,
      "loss": 1.4759,
      "step": 76612
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6676533222198486,
      "learning_rate": 3.285171846843426e-05,
      "loss": 1.4712,
      "step": 76613
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6854904890060425,
      "learning_rate": 3.284696297555288e-05,
      "loss": 1.5409,
      "step": 76614
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6881825923919678,
      "learning_rate": 3.28422078069559e-05,
      "loss": 1.6082,
      "step": 76615
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6838775277137756,
      "learning_rate": 3.2837452962649144e-05,
      "loss": 1.5261,
      "step": 76616
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6789865493774414,
      "learning_rate": 3.283269844263832e-05,
      "loss": 1.5611,
      "step": 76617
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6708489060401917,
      "learning_rate": 3.282794424692927e-05,
      "loss": 1.4493,
      "step": 76618
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6505974531173706,
      "learning_rate": 3.282319037552774e-05,
      "loss": 1.4615,
      "step": 76619
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6908820271492004,
      "learning_rate": 3.281843682843942e-05,
      "loss": 1.5511,
      "step": 76620
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6623004674911499,
      "learning_rate": 3.2813683605670205e-05,
      "loss": 1.4533,
      "step": 76621
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6896677613258362,
      "learning_rate": 3.280893070722579e-05,
      "loss": 1.4562,
      "step": 76622
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6888319253921509,
      "learning_rate": 3.2804178133111966e-05,
      "loss": 1.5059,
      "step": 76623
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6777807474136353,
      "learning_rate": 3.2799425883334474e-05,
      "loss": 1.4936,
      "step": 76624
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.659376323223114,
      "learning_rate": 3.27946739578992e-05,
      "loss": 1.5635,
      "step": 76625
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.677433967590332,
      "learning_rate": 3.278992235681177e-05,
      "loss": 1.5073,
      "step": 76626
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6639007925987244,
      "learning_rate": 3.278517108007795e-05,
      "loss": 1.4536,
      "step": 76627
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6559467315673828,
      "learning_rate": 3.2780420127703644e-05,
      "loss": 1.5022,
      "step": 76628
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6663928031921387,
      "learning_rate": 3.277566949969453e-05,
      "loss": 1.574,
      "step": 76629
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6537554264068604,
      "learning_rate": 3.2770919196056286e-05,
      "loss": 1.4797,
      "step": 76630
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6393660306930542,
      "learning_rate": 3.27661692167948e-05,
      "loss": 1.467,
      "step": 76631
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6522412300109863,
      "learning_rate": 3.276141956191587e-05,
      "loss": 1.5192,
      "step": 76632
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6586837768554688,
      "learning_rate": 3.275667023142522e-05,
      "loss": 1.478,
      "step": 76633
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6674785017967224,
      "learning_rate": 3.2751921225328516e-05,
      "loss": 1.432,
      "step": 76634
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6600052118301392,
      "learning_rate": 3.274717254363165e-05,
      "loss": 1.482,
      "step": 76635
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7087077498435974,
      "learning_rate": 3.2742424186340356e-05,
      "loss": 1.4943,
      "step": 76636
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6739785671234131,
      "learning_rate": 3.273767615346029e-05,
      "loss": 1.4979,
      "step": 76637
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6592622399330139,
      "learning_rate": 3.2732928444997354e-05,
      "loss": 1.4799,
      "step": 76638
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.63248211145401,
      "learning_rate": 3.272818106095727e-05,
      "loss": 1.4396,
      "step": 76639
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6577682495117188,
      "learning_rate": 3.272343400134584e-05,
      "loss": 1.4885,
      "step": 76640
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6813459992408752,
      "learning_rate": 3.2718687266168686e-05,
      "loss": 1.5925,
      "step": 76641
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6634570956230164,
      "learning_rate": 3.271394085543174e-05,
      "loss": 1.5613,
      "step": 76642
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6444137692451477,
      "learning_rate": 3.2709194769140704e-05,
      "loss": 1.5002,
      "step": 76643
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6519544124603271,
      "learning_rate": 3.2704449007301226e-05,
      "loss": 1.5061,
      "step": 76644
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6936286091804504,
      "learning_rate": 3.2699703569919176e-05,
      "loss": 1.4758,
      "step": 76645
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6888289451599121,
      "learning_rate": 3.269495845700039e-05,
      "loss": 1.5467,
      "step": 76646
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6472550630569458,
      "learning_rate": 3.269021366855051e-05,
      "loss": 1.4952,
      "step": 76647
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6589295268058777,
      "learning_rate": 3.2685469204575254e-05,
      "loss": 1.4707,
      "step": 76648
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6684813499450684,
      "learning_rate": 3.268072506508054e-05,
      "loss": 1.5269,
      "step": 76649
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6456695199012756,
      "learning_rate": 3.267598125007202e-05,
      "loss": 1.5058,
      "step": 76650
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6495449542999268,
      "learning_rate": 3.267123775955541e-05,
      "loss": 1.578,
      "step": 76651
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6369088292121887,
      "learning_rate": 3.266649459353653e-05,
      "loss": 1.468,
      "step": 76652
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6469174027442932,
      "learning_rate": 3.2661751752021206e-05,
      "loss": 1.5708,
      "step": 76653
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6696256995201111,
      "learning_rate": 3.265700923501513e-05,
      "loss": 1.537,
      "step": 76654
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6502975225448608,
      "learning_rate": 3.265226704252397e-05,
      "loss": 1.5555,
      "step": 76655
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6385740637779236,
      "learning_rate": 3.2647525174553626e-05,
      "loss": 1.5689,
      "step": 76656
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6667169332504272,
      "learning_rate": 3.2642783631109814e-05,
      "loss": 1.5267,
      "step": 76657
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6633787155151367,
      "learning_rate": 3.2638042412198206e-05,
      "loss": 1.5335,
      "step": 76658
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6640562415122986,
      "learning_rate": 3.263330151782466e-05,
      "loss": 1.5,
      "step": 76659
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6659209728240967,
      "learning_rate": 3.2628560947994875e-05,
      "loss": 1.4414,
      "step": 76660
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6609119176864624,
      "learning_rate": 3.262382070271464e-05,
      "loss": 1.5049,
      "step": 76661
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6617474555969238,
      "learning_rate": 3.261908078198966e-05,
      "loss": 1.4294,
      "step": 76662
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.688393771648407,
      "learning_rate": 3.2614341185825757e-05,
      "loss": 1.5355,
      "step": 76663
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6513533592224121,
      "learning_rate": 3.260960191422866e-05,
      "loss": 1.4902,
      "step": 76664
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6812548041343689,
      "learning_rate": 3.2604862967204025e-05,
      "loss": 1.5343,
      "step": 76665
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6707957983016968,
      "learning_rate": 3.260012434475776e-05,
      "loss": 1.5357,
      "step": 76666
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6633018851280212,
      "learning_rate": 3.259538604689549e-05,
      "loss": 1.4828,
      "step": 76667
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6667274832725525,
      "learning_rate": 3.259064807362307e-05,
      "loss": 1.5737,
      "step": 76668
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6630200743675232,
      "learning_rate": 3.2585910424946235e-05,
      "loss": 1.5129,
      "step": 76669
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6802951693534851,
      "learning_rate": 3.258117310087062e-05,
      "loss": 1.5764,
      "step": 76670
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6677184104919434,
      "learning_rate": 3.25764361014021e-05,
      "loss": 1.5022,
      "step": 76671
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.681877076625824,
      "learning_rate": 3.257169942654636e-05,
      "loss": 1.5,
      "step": 76672
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6625745892524719,
      "learning_rate": 3.256696307630922e-05,
      "loss": 1.5502,
      "step": 76673
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6610205769538879,
      "learning_rate": 3.2562227050696296e-05,
      "loss": 1.4946,
      "step": 76674
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6619488000869751,
      "learning_rate": 3.255749134971351e-05,
      "loss": 1.5945,
      "step": 76675
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6732082366943359,
      "learning_rate": 3.255275597336653e-05,
      "loss": 1.5306,
      "step": 76676
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6574322581291199,
      "learning_rate": 3.2548020921661e-05,
      "loss": 1.532,
      "step": 76677
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6861438155174255,
      "learning_rate": 3.254328619460288e-05,
      "loss": 1.5594,
      "step": 76678
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6807675361633301,
      "learning_rate": 3.253855179219776e-05,
      "loss": 1.4788,
      "step": 76679
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6710317730903625,
      "learning_rate": 3.253381771445138e-05,
      "loss": 1.5191,
      "step": 76680
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6879776120185852,
      "learning_rate": 3.252908396136953e-05,
      "loss": 1.552,
      "step": 76681
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6618030667304993,
      "learning_rate": 3.252435053295803e-05,
      "loss": 1.5428,
      "step": 76682
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6411727070808411,
      "learning_rate": 3.251961742922259e-05,
      "loss": 1.5322,
      "step": 76683
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6312515139579773,
      "learning_rate": 3.251488465016883e-05,
      "loss": 1.4935,
      "step": 76684
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.650991678237915,
      "learning_rate": 3.2510152195802645e-05,
      "loss": 1.4638,
      "step": 76685
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6587904691696167,
      "learning_rate": 3.250542006612973e-05,
      "loss": 1.5229,
      "step": 76686
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6459745764732361,
      "learning_rate": 3.250068826115575e-05,
      "loss": 1.511,
      "step": 76687
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6683496832847595,
      "learning_rate": 3.249595678088653e-05,
      "loss": 1.532,
      "step": 76688
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.684950590133667,
      "learning_rate": 3.249122562532791e-05,
      "loss": 1.5377,
      "step": 76689
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6629064083099365,
      "learning_rate": 3.248649479448544e-05,
      "loss": 1.5546,
      "step": 76690
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6779344081878662,
      "learning_rate": 3.248176428836492e-05,
      "loss": 1.534,
      "step": 76691
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6543029546737671,
      "learning_rate": 3.247703410697218e-05,
      "loss": 1.5034,
      "step": 76692
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6668329238891602,
      "learning_rate": 3.247230425031291e-05,
      "loss": 1.4905,
      "step": 76693
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6649909615516663,
      "learning_rate": 3.246757471839281e-05,
      "loss": 1.4928,
      "step": 76694
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6415005326271057,
      "learning_rate": 3.246284551121764e-05,
      "loss": 1.446,
      "step": 76695
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.655961275100708,
      "learning_rate": 3.2458116628793266e-05,
      "loss": 1.5241,
      "step": 76696
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6790526509284973,
      "learning_rate": 3.245338807112518e-05,
      "loss": 1.5628,
      "step": 76697
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6506282091140747,
      "learning_rate": 3.244865983821927e-05,
      "loss": 1.5549,
      "step": 76698
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6927875280380249,
      "learning_rate": 3.2443931930081344e-05,
      "loss": 1.5272,
      "step": 76699
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7065175175666809,
      "learning_rate": 3.2439204346717064e-05,
      "loss": 1.4245,
      "step": 76700
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6749368906021118,
      "learning_rate": 3.2434477088132084e-05,
      "loss": 1.4189,
      "step": 76701
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6900153756141663,
      "learning_rate": 3.242975015433224e-05,
      "loss": 1.5729,
      "step": 76702
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6493173837661743,
      "learning_rate": 3.242502354532338e-05,
      "loss": 1.5974,
      "step": 76703
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6863924860954285,
      "learning_rate": 3.242029726111098e-05,
      "loss": 1.5108,
      "step": 76704
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6588652729988098,
      "learning_rate": 3.241557130170094e-05,
      "loss": 1.5043,
      "step": 76705
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6596347093582153,
      "learning_rate": 3.241084566709901e-05,
      "loss": 1.5394,
      "step": 76706
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6559246182441711,
      "learning_rate": 3.2406120357310884e-05,
      "loss": 1.4608,
      "step": 76707
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6908872127532959,
      "learning_rate": 3.240139537234223e-05,
      "loss": 1.4733,
      "step": 76708
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.652827799320221,
      "learning_rate": 3.239667071219888e-05,
      "loss": 1.4719,
      "step": 76709
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6743164658546448,
      "learning_rate": 3.239194637688662e-05,
      "loss": 1.4448,
      "step": 76710
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6685048341751099,
      "learning_rate": 3.2387222366411024e-05,
      "loss": 1.4915,
      "step": 76711
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.679402232170105,
      "learning_rate": 3.2382498680777915e-05,
      "loss": 1.5185,
      "step": 76712
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.681305468082428,
      "learning_rate": 3.237777531999305e-05,
      "loss": 1.5696,
      "step": 76713
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6433497667312622,
      "learning_rate": 3.237305228406216e-05,
      "loss": 1.4792,
      "step": 76714
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6609676480293274,
      "learning_rate": 3.236832957299088e-05,
      "loss": 1.5241,
      "step": 76715
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.672858715057373,
      "learning_rate": 3.2363607186785065e-05,
      "loss": 1.5188,
      "step": 76716
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6691842675209045,
      "learning_rate": 3.2358885125450416e-05,
      "loss": 1.543,
      "step": 76717
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6788933277130127,
      "learning_rate": 3.235416338899256e-05,
      "loss": 1.5697,
      "step": 76718
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6758003830909729,
      "learning_rate": 3.234944197741736e-05,
      "loss": 1.4517,
      "step": 76719
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6636492609977722,
      "learning_rate": 3.23447208907305e-05,
      "loss": 1.5117,
      "step": 76720
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6597215533256531,
      "learning_rate": 3.234000012893776e-05,
      "loss": 1.5303,
      "step": 76721
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6616405248641968,
      "learning_rate": 3.2335279692044727e-05,
      "loss": 1.4851,
      "step": 76722
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6779583692550659,
      "learning_rate": 3.233055958005732e-05,
      "loss": 1.5529,
      "step": 76723
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6578866243362427,
      "learning_rate": 3.2325839792981154e-05,
      "loss": 1.5679,
      "step": 76724
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6685578227043152,
      "learning_rate": 3.232112033082192e-05,
      "loss": 1.5108,
      "step": 76725
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6687849164009094,
      "learning_rate": 3.231640119358546e-05,
      "loss": 1.5292,
      "step": 76726
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6898592710494995,
      "learning_rate": 3.2311682381277395e-05,
      "loss": 1.5655,
      "step": 76727
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6595156192779541,
      "learning_rate": 3.230696389390357e-05,
      "loss": 1.4893,
      "step": 76728
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6605703234672546,
      "learning_rate": 3.2302245731469586e-05,
      "loss": 1.4843,
      "step": 76729
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6463876962661743,
      "learning_rate": 3.229752789398128e-05,
      "loss": 1.4889,
      "step": 76730
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6448833346366882,
      "learning_rate": 3.2292810381444365e-05,
      "loss": 1.4344,
      "step": 76731
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6802515387535095,
      "learning_rate": 3.228809319386445e-05,
      "loss": 1.5365,
      "step": 76732
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6623539328575134,
      "learning_rate": 3.228337633124739e-05,
      "loss": 1.5438,
      "step": 76733
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6603932976722717,
      "learning_rate": 3.227865979359882e-05,
      "loss": 1.4731,
      "step": 76734
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6632496118545532,
      "learning_rate": 3.227394358092459e-05,
      "loss": 1.5365,
      "step": 76735
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6816734075546265,
      "learning_rate": 3.2269227693230304e-05,
      "loss": 1.524,
      "step": 76736
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6668756008148193,
      "learning_rate": 3.2264512130521694e-05,
      "loss": 1.5725,
      "step": 76737
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.68149334192276,
      "learning_rate": 3.2259796892804576e-05,
      "loss": 1.5535,
      "step": 76738
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6840124130249023,
      "learning_rate": 3.225508198008453e-05,
      "loss": 1.5011,
      "step": 76739
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7109231352806091,
      "learning_rate": 3.225036739236747e-05,
      "loss": 1.5788,
      "step": 76740
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6672213673591614,
      "learning_rate": 3.22456531296589e-05,
      "loss": 1.4294,
      "step": 76741
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6654031276702881,
      "learning_rate": 3.224093919196474e-05,
      "loss": 1.5314,
      "step": 76742
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6403082609176636,
      "learning_rate": 3.2236225579290633e-05,
      "loss": 1.5143,
      "step": 76743
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.640459418296814,
      "learning_rate": 3.223151229164222e-05,
      "loss": 1.4952,
      "step": 76744
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6923936009407043,
      "learning_rate": 3.2226799329025386e-05,
      "loss": 1.4834,
      "step": 76745
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.645689070224762,
      "learning_rate": 3.222208669144575e-05,
      "loss": 1.535,
      "step": 76746
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6865349411964417,
      "learning_rate": 3.2217374378908964e-05,
      "loss": 1.5107,
      "step": 76747
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6588821411132812,
      "learning_rate": 3.221266239142087e-05,
      "loss": 1.5462,
      "step": 76748
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6758447289466858,
      "learning_rate": 3.220795072898717e-05,
      "loss": 1.5008,
      "step": 76749
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6872549057006836,
      "learning_rate": 3.2203239391613564e-05,
      "loss": 1.5591,
      "step": 76750
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6643144488334656,
      "learning_rate": 3.219852837930574e-05,
      "loss": 1.4599,
      "step": 76751
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.667410135269165,
      "learning_rate": 3.219381769206949e-05,
      "loss": 1.5118,
      "step": 76752
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.683766782283783,
      "learning_rate": 3.218910732991047e-05,
      "loss": 1.5164,
      "step": 76753
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6460903286933899,
      "learning_rate": 3.218439729283434e-05,
      "loss": 1.4932,
      "step": 76754
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6600967645645142,
      "learning_rate": 3.217968758084694e-05,
      "loss": 1.4874,
      "step": 76755
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6661388874053955,
      "learning_rate": 3.2174978193953946e-05,
      "loss": 1.5062,
      "step": 76756
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6665782332420349,
      "learning_rate": 3.217026913216111e-05,
      "loss": 1.5647,
      "step": 76757
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6412078738212585,
      "learning_rate": 3.216556039547401e-05,
      "loss": 1.649,
      "step": 76758
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6839346885681152,
      "learning_rate": 3.216085198389848e-05,
      "loss": 1.4956,
      "step": 76759
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6904844045639038,
      "learning_rate": 3.2156143897440325e-05,
      "loss": 1.5257,
      "step": 76760
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6985305547714233,
      "learning_rate": 3.2151436136105025e-05,
      "loss": 1.6115,
      "step": 76761
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6359664797782898,
      "learning_rate": 3.2146728699898417e-05,
      "loss": 1.5545,
      "step": 76762
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6663857102394104,
      "learning_rate": 3.214202158882626e-05,
      "loss": 1.5522,
      "step": 76763
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6804642081260681,
      "learning_rate": 3.213731480289422e-05,
      "loss": 1.4797,
      "step": 76764
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6561759114265442,
      "learning_rate": 3.213260834210799e-05,
      "loss": 1.5283,
      "step": 76765
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.66410893201828,
      "learning_rate": 3.2127902206473334e-05,
      "loss": 1.476,
      "step": 76766
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.66673743724823,
      "learning_rate": 3.212319639599594e-05,
      "loss": 1.5604,
      "step": 76767
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6763006448745728,
      "learning_rate": 3.211849091068145e-05,
      "loss": 1.525,
      "step": 76768
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6698752045631409,
      "learning_rate": 3.211378575053565e-05,
      "loss": 1.6236,
      "step": 76769
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.680280864238739,
      "learning_rate": 3.21090809155643e-05,
      "loss": 1.4891,
      "step": 76770
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6869572401046753,
      "learning_rate": 3.210437640577307e-05,
      "loss": 1.5196,
      "step": 76771
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6531359553337097,
      "learning_rate": 3.2099672221167584e-05,
      "loss": 1.5524,
      "step": 76772
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6794948577880859,
      "learning_rate": 3.209496836175367e-05,
      "loss": 1.5445,
      "step": 76773
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6584334969520569,
      "learning_rate": 3.2090264827536995e-05,
      "loss": 1.4448,
      "step": 76774
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6473615169525146,
      "learning_rate": 3.2085561618523214e-05,
      "loss": 1.563,
      "step": 76775
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6406276822090149,
      "learning_rate": 3.208085873471813e-05,
      "loss": 1.4522,
      "step": 76776
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6537976861000061,
      "learning_rate": 3.2076156176127365e-05,
      "loss": 1.4888,
      "step": 76777
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6793158650398254,
      "learning_rate": 3.207145394275672e-05,
      "loss": 1.5015,
      "step": 76778
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6915276050567627,
      "learning_rate": 3.206675203461182e-05,
      "loss": 1.5069,
      "step": 76779
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6932427287101746,
      "learning_rate": 3.206205045169843e-05,
      "loss": 1.579,
      "step": 76780
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6620767712593079,
      "learning_rate": 3.2057349194022244e-05,
      "loss": 1.5146,
      "step": 76781
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6692319512367249,
      "learning_rate": 3.2052648261588884e-05,
      "loss": 1.5653,
      "step": 76782
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6788883805274963,
      "learning_rate": 3.2047947654404194e-05,
      "loss": 1.4824,
      "step": 76783
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6940881609916687,
      "learning_rate": 3.204324737247376e-05,
      "loss": 1.5504,
      "step": 76784
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.676601767539978,
      "learning_rate": 3.203854741580341e-05,
      "loss": 1.5365,
      "step": 76785
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6749359965324402,
      "learning_rate": 3.203384778439877e-05,
      "loss": 1.4646,
      "step": 76786
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6583439707756042,
      "learning_rate": 3.202914847826551e-05,
      "loss": 1.493,
      "step": 76787
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6787331104278564,
      "learning_rate": 3.2024449497409424e-05,
      "loss": 1.4596,
      "step": 76788
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6732831597328186,
      "learning_rate": 3.2019750841836134e-05,
      "loss": 1.4649,
      "step": 76789
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6541972160339355,
      "learning_rate": 3.2015052511551406e-05,
      "loss": 1.5528,
      "step": 76790
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6704468727111816,
      "learning_rate": 3.201035450656087e-05,
      "loss": 1.4962,
      "step": 76791
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.7044797539710999,
      "learning_rate": 3.200565682687036e-05,
      "loss": 1.4961,
      "step": 76792
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6451705694198608,
      "learning_rate": 3.200095947248546e-05,
      "loss": 1.4951,
      "step": 76793
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6542702317237854,
      "learning_rate": 3.199626244341188e-05,
      "loss": 1.4689,
      "step": 76794
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.6365092396736145,
      "learning_rate": 3.19915657396554e-05,
      "loss": 1.5039,
      "step": 76795
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7372060418128967,
      "learning_rate": 3.198686936122166e-05,
      "loss": 1.5009,
      "step": 76796
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.662898063659668,
      "learning_rate": 3.198217330811631e-05,
      "loss": 1.4949,
      "step": 76797
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.69053053855896,
      "learning_rate": 3.1977477580345126e-05,
      "loss": 1.5053,
      "step": 76798
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7128879427909851,
      "learning_rate": 3.197278217791386e-05,
      "loss": 1.5297,
      "step": 76799
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6582902073860168,
      "learning_rate": 3.196808710082811e-05,
      "loss": 1.4444,
      "step": 76800
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6870803833007812,
      "learning_rate": 3.1963392349093575e-05,
      "loss": 1.5316,
      "step": 76801
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6670111417770386,
      "learning_rate": 3.195869792271605e-05,
      "loss": 1.4919,
      "step": 76802
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6684141159057617,
      "learning_rate": 3.195400382170116e-05,
      "loss": 1.5527,
      "step": 76803
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6683027744293213,
      "learning_rate": 3.194931004605457e-05,
      "loss": 1.5473,
      "step": 76804
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6662921905517578,
      "learning_rate": 3.1944616595782005e-05,
      "loss": 1.5172,
      "step": 76805
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6655753254890442,
      "learning_rate": 3.19399234708893e-05,
      "loss": 1.5169,
      "step": 76806
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6615491509437561,
      "learning_rate": 3.19352306713819e-05,
      "loss": 1.5511,
      "step": 76807
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6905414462089539,
      "learning_rate": 3.1930538197265665e-05,
      "loss": 1.5219,
      "step": 76808
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6612523198127747,
      "learning_rate": 3.19258460485463e-05,
      "loss": 1.57,
      "step": 76809
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6768859028816223,
      "learning_rate": 3.192115422522947e-05,
      "loss": 1.5775,
      "step": 76810
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6736758947372437,
      "learning_rate": 3.191646272732078e-05,
      "loss": 1.5287,
      "step": 76811
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.69245845079422,
      "learning_rate": 3.191177155482602e-05,
      "loss": 1.4769,
      "step": 76812
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6878747940063477,
      "learning_rate": 3.190708070775097e-05,
      "loss": 1.543,
      "step": 76813
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.656970202922821,
      "learning_rate": 3.190239018610112e-05,
      "loss": 1.4771,
      "step": 76814
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6759057641029358,
      "learning_rate": 3.1897699989882284e-05,
      "loss": 1.4386,
      "step": 76815
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6566349267959595,
      "learning_rate": 3.189301011910016e-05,
      "loss": 1.4944,
      "step": 76816
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6705726981163025,
      "learning_rate": 3.188832057376044e-05,
      "loss": 1.5691,
      "step": 76817
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6327351927757263,
      "learning_rate": 3.188363135386872e-05,
      "loss": 1.4755,
      "step": 76818
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.684333860874176,
      "learning_rate": 3.1878942459430764e-05,
      "loss": 1.4731,
      "step": 76819
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6796552538871765,
      "learning_rate": 3.1874253890452404e-05,
      "loss": 1.6105,
      "step": 76820
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6699537634849548,
      "learning_rate": 3.186956564693907e-05,
      "loss": 1.4744,
      "step": 76821
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6536398530006409,
      "learning_rate": 3.1864877728896575e-05,
      "loss": 1.5522,
      "step": 76822
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6590192317962646,
      "learning_rate": 3.186019013633067e-05,
      "loss": 1.5461,
      "step": 76823
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6743979454040527,
      "learning_rate": 3.185550286924696e-05,
      "loss": 1.5578,
      "step": 76824
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6634586453437805,
      "learning_rate": 3.185081592765113e-05,
      "loss": 1.5014,
      "step": 76825
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6661569476127625,
      "learning_rate": 3.1846129311548895e-05,
      "loss": 1.5113,
      "step": 76826
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6807264685630798,
      "learning_rate": 3.1841443020946055e-05,
      "loss": 1.501,
      "step": 76827
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6644262671470642,
      "learning_rate": 3.18367570558481e-05,
      "loss": 1.4826,
      "step": 76828
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6669015884399414,
      "learning_rate": 3.183207141626077e-05,
      "loss": 1.4852,
      "step": 76829
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6647995710372925,
      "learning_rate": 3.182738610218989e-05,
      "loss": 1.5049,
      "step": 76830
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.679617166519165,
      "learning_rate": 3.182270111364105e-05,
      "loss": 1.4638,
      "step": 76831
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6752090454101562,
      "learning_rate": 3.1818016450619844e-05,
      "loss": 1.5302,
      "step": 76832
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6740420460700989,
      "learning_rate": 3.1813332113132136e-05,
      "loss": 1.5779,
      "step": 76833
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6669953465461731,
      "learning_rate": 3.180864810118353e-05,
      "loss": 1.488,
      "step": 76834
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6659267544746399,
      "learning_rate": 3.180396441477962e-05,
      "loss": 1.5735,
      "step": 76835
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.677836537361145,
      "learning_rate": 3.179928105392622e-05,
      "loss": 1.5376,
      "step": 76836
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6826344132423401,
      "learning_rate": 3.1794598018629e-05,
      "loss": 1.481,
      "step": 76837
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6624688506126404,
      "learning_rate": 3.178991530889363e-05,
      "loss": 1.5168,
      "step": 76838
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6628119945526123,
      "learning_rate": 3.178523292472573e-05,
      "loss": 1.4452,
      "step": 76839
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6818370819091797,
      "learning_rate": 3.17805508661311e-05,
      "loss": 1.5404,
      "step": 76840
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6754222512245178,
      "learning_rate": 3.177586913311534e-05,
      "loss": 1.4923,
      "step": 76841
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6864840388298035,
      "learning_rate": 3.177118772568413e-05,
      "loss": 1.4981,
      "step": 76842
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6540074944496155,
      "learning_rate": 3.176650664384321e-05,
      "loss": 1.4775,
      "step": 76843
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6430100202560425,
      "learning_rate": 3.176182588759818e-05,
      "loss": 1.4791,
      "step": 76844
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6495474576950073,
      "learning_rate": 3.1757145456954825e-05,
      "loss": 1.5053,
      "step": 76845
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6492331624031067,
      "learning_rate": 3.175246535191871e-05,
      "loss": 1.4531,
      "step": 76846
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6530518531799316,
      "learning_rate": 3.174778557249563e-05,
      "loss": 1.5036,
      "step": 76847
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6640627384185791,
      "learning_rate": 3.174310611869125e-05,
      "loss": 1.464,
      "step": 76848
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6697789430618286,
      "learning_rate": 3.17384269905111e-05,
      "loss": 1.5153,
      "step": 76849
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6638017296791077,
      "learning_rate": 3.173374818796107e-05,
      "loss": 1.5071,
      "step": 76850
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6487823724746704,
      "learning_rate": 3.1729069711046696e-05,
      "loss": 1.4923,
      "step": 76851
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6524808406829834,
      "learning_rate": 3.172439155977373e-05,
      "loss": 1.5191,
      "step": 76852
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6667951345443726,
      "learning_rate": 3.1719713734147846e-05,
      "loss": 1.5405,
      "step": 76853
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6719347834587097,
      "learning_rate": 3.171503623417459e-05,
      "loss": 1.5694,
      "step": 76854
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6843586564064026,
      "learning_rate": 3.171035905985988e-05,
      "loss": 1.5033,
      "step": 76855
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6610061526298523,
      "learning_rate": 3.170568221120916e-05,
      "loss": 1.5161,
      "step": 76856
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6852912306785583,
      "learning_rate": 3.17010056882283e-05,
      "loss": 1.4693,
      "step": 76857
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6559361815452576,
      "learning_rate": 3.169632949092279e-05,
      "loss": 1.4866,
      "step": 76858
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6736120581626892,
      "learning_rate": 3.1691653619298495e-05,
      "loss": 1.5328,
      "step": 76859
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.659976601600647,
      "learning_rate": 3.168697807336098e-05,
      "loss": 1.5473,
      "step": 76860
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6538273692131042,
      "learning_rate": 3.16823028531159e-05,
      "loss": 1.4409,
      "step": 76861
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6604258418083191,
      "learning_rate": 3.1677627958568996e-05,
      "loss": 1.529,
      "step": 76862
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6679567098617554,
      "learning_rate": 3.1672953389725956e-05,
      "loss": 1.4301,
      "step": 76863
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6967990398406982,
      "learning_rate": 3.166827914659233e-05,
      "loss": 1.5095,
      "step": 76864
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6722586750984192,
      "learning_rate": 3.166360522917387e-05,
      "loss": 1.4994,
      "step": 76865
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6567878723144531,
      "learning_rate": 3.1658931637476326e-05,
      "loss": 1.4675,
      "step": 76866
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6466965079307556,
      "learning_rate": 3.165425837150533e-05,
      "loss": 1.4823,
      "step": 76867
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6634894609451294,
      "learning_rate": 3.1649585431266434e-05,
      "loss": 1.4471,
      "step": 76868
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6684954762458801,
      "learning_rate": 3.164491281676544e-05,
      "loss": 1.5411,
      "step": 76869
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6658058166503906,
      "learning_rate": 3.164024052800802e-05,
      "loss": 1.526,
      "step": 76870
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6736303567886353,
      "learning_rate": 3.1635568564999726e-05,
      "loss": 1.4382,
      "step": 76871
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6726664900779724,
      "learning_rate": 3.163089692774632e-05,
      "loss": 1.5094,
      "step": 76872
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6753568053245544,
      "learning_rate": 3.162622561625353e-05,
      "loss": 1.5093,
      "step": 76873
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7020757794380188,
      "learning_rate": 3.162155463052696e-05,
      "loss": 1.5753,
      "step": 76874
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6618776321411133,
      "learning_rate": 3.161688397057219e-05,
      "loss": 1.5282,
      "step": 76875
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.660484790802002,
      "learning_rate": 3.1612213636395e-05,
      "loss": 1.5334,
      "step": 76876
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7670586109161377,
      "learning_rate": 3.160754362800114e-05,
      "loss": 1.5101,
      "step": 76877
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6868894100189209,
      "learning_rate": 3.160287394539608e-05,
      "loss": 1.4988,
      "step": 76878
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6825637817382812,
      "learning_rate": 3.159820458858557e-05,
      "loss": 1.5228,
      "step": 76879
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6706148386001587,
      "learning_rate": 3.159353555757535e-05,
      "loss": 1.521,
      "step": 76880
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6587991118431091,
      "learning_rate": 3.1588866852371056e-05,
      "loss": 1.5111,
      "step": 76881
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.654283881187439,
      "learning_rate": 3.158419847297826e-05,
      "loss": 1.4689,
      "step": 76882
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6586883068084717,
      "learning_rate": 3.1579530419402746e-05,
      "loss": 1.5663,
      "step": 76883
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7137582302093506,
      "learning_rate": 3.1574862691650124e-05,
      "loss": 1.5825,
      "step": 76884
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6846112608909607,
      "learning_rate": 3.157019528972604e-05,
      "loss": 1.507,
      "step": 76885
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6688694953918457,
      "learning_rate": 3.156552821363615e-05,
      "loss": 1.5476,
      "step": 76886
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6557923555374146,
      "learning_rate": 3.1560861463386245e-05,
      "loss": 1.5084,
      "step": 76887
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6647085547447205,
      "learning_rate": 3.1556195038981894e-05,
      "loss": 1.5176,
      "step": 76888
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.681950569152832,
      "learning_rate": 3.1551528940428685e-05,
      "loss": 1.4987,
      "step": 76889
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6834019422531128,
      "learning_rate": 3.154686316773245e-05,
      "loss": 1.4821,
      "step": 76890
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6665075421333313,
      "learning_rate": 3.154219772089875e-05,
      "loss": 1.473,
      "step": 76891
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6566457748413086,
      "learning_rate": 3.153753259993326e-05,
      "loss": 1.5159,
      "step": 76892
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6665152311325073,
      "learning_rate": 3.1532867804841654e-05,
      "loss": 1.5685,
      "step": 76893
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.655247688293457,
      "learning_rate": 3.1528203335629544e-05,
      "loss": 1.476,
      "step": 76894
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6840804219245911,
      "learning_rate": 3.152353919230268e-05,
      "loss": 1.5425,
      "step": 76895
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6969079375267029,
      "learning_rate": 3.151887537486667e-05,
      "loss": 1.4533,
      "step": 76896
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6828991770744324,
      "learning_rate": 3.15142118833272e-05,
      "loss": 1.5015,
      "step": 76897
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.686557412147522,
      "learning_rate": 3.150954871768994e-05,
      "loss": 1.5888,
      "step": 76898
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.672336220741272,
      "learning_rate": 3.1504885877960474e-05,
      "loss": 1.4953,
      "step": 76899
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6967393159866333,
      "learning_rate": 3.1500223364144536e-05,
      "loss": 1.532,
      "step": 76900
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6434130668640137,
      "learning_rate": 3.149556117624777e-05,
      "loss": 1.5024,
      "step": 76901
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6602724194526672,
      "learning_rate": 3.149089931427584e-05,
      "loss": 1.4456,
      "step": 76902
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6742132902145386,
      "learning_rate": 3.14862377782344e-05,
      "loss": 1.5206,
      "step": 76903
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6852661967277527,
      "learning_rate": 3.1481576568129075e-05,
      "loss": 1.5092,
      "step": 76904
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6810172200202942,
      "learning_rate": 3.1476915683965584e-05,
      "loss": 1.4957,
      "step": 76905
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6702411770820618,
      "learning_rate": 3.14722551257495e-05,
      "loss": 1.4458,
      "step": 76906
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6417343020439148,
      "learning_rate": 3.146759489348658e-05,
      "loss": 1.5046,
      "step": 76907
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6638320088386536,
      "learning_rate": 3.146293498718239e-05,
      "loss": 1.5188,
      "step": 76908
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6815862059593201,
      "learning_rate": 3.145827540684268e-05,
      "loss": 1.5438,
      "step": 76909
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.673993706703186,
      "learning_rate": 3.145361615247306e-05,
      "loss": 1.4638,
      "step": 76910
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6693111658096313,
      "learning_rate": 3.1448957224079116e-05,
      "loss": 1.5399,
      "step": 76911
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6820166110992432,
      "learning_rate": 3.144429862166662e-05,
      "loss": 1.577,
      "step": 76912
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6552863121032715,
      "learning_rate": 3.143964034524119e-05,
      "loss": 1.5031,
      "step": 76913
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.688323438167572,
      "learning_rate": 3.143498239480843e-05,
      "loss": 1.5202,
      "step": 76914
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6695135831832886,
      "learning_rate": 3.1430324770373994e-05,
      "loss": 1.5344,
      "step": 76915
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6523692607879639,
      "learning_rate": 3.142566747194365e-05,
      "loss": 1.5236,
      "step": 76916
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6739967465400696,
      "learning_rate": 3.142101049952296e-05,
      "loss": 1.5239,
      "step": 76917
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6360917687416077,
      "learning_rate": 3.141635385311755e-05,
      "loss": 1.5031,
      "step": 76918
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6595356464385986,
      "learning_rate": 3.141169753273315e-05,
      "loss": 1.5829,
      "step": 76919
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6813545823097229,
      "learning_rate": 3.1407041538375386e-05,
      "loss": 1.5341,
      "step": 76920
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.641858696937561,
      "learning_rate": 3.140238587004983e-05,
      "loss": 1.4911,
      "step": 76921
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6853225231170654,
      "learning_rate": 3.13977305277622e-05,
      "loss": 1.5353,
      "step": 76922
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6366305351257324,
      "learning_rate": 3.13930755115183e-05,
      "loss": 1.5437,
      "step": 76923
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6803613305091858,
      "learning_rate": 3.138842082132348e-05,
      "loss": 1.5352,
      "step": 76924
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6603244543075562,
      "learning_rate": 3.138376645718354e-05,
      "loss": 1.5388,
      "step": 76925
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6707009077072144,
      "learning_rate": 3.137911241910419e-05,
      "loss": 1.5709,
      "step": 76926
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6675556302070618,
      "learning_rate": 3.137445870709101e-05,
      "loss": 1.5569,
      "step": 76927
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6583404541015625,
      "learning_rate": 3.13698053211496e-05,
      "loss": 1.5206,
      "step": 76928
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.664969265460968,
      "learning_rate": 3.136515226128569e-05,
      "loss": 1.4925,
      "step": 76929
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.676876962184906,
      "learning_rate": 3.1360499527505004e-05,
      "loss": 1.6072,
      "step": 76930
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6638680100440979,
      "learning_rate": 3.135584711981297e-05,
      "loss": 1.5628,
      "step": 76931
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6660429835319519,
      "learning_rate": 3.135119503821536e-05,
      "loss": 1.566,
      "step": 76932
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6503897309303284,
      "learning_rate": 3.134654328271786e-05,
      "loss": 1.5024,
      "step": 76933
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6518670320510864,
      "learning_rate": 3.1341891853326105e-05,
      "loss": 1.5109,
      "step": 76934
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6913222074508667,
      "learning_rate": 3.133724075004562e-05,
      "loss": 1.5771,
      "step": 76935
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6540324091911316,
      "learning_rate": 3.133258997288214e-05,
      "loss": 1.428,
      "step": 76936
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6755125522613525,
      "learning_rate": 3.132793952184145e-05,
      "loss": 1.5551,
      "step": 76937
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6662840843200684,
      "learning_rate": 3.132328939692892e-05,
      "loss": 1.5676,
      "step": 76938
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6708476543426514,
      "learning_rate": 3.131863959815034e-05,
      "loss": 1.5124,
      "step": 76939
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6678558588027954,
      "learning_rate": 3.131399012551138e-05,
      "loss": 1.4207,
      "step": 76940
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6484503746032715,
      "learning_rate": 3.130934097901766e-05,
      "loss": 1.5985,
      "step": 76941
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6747019290924072,
      "learning_rate": 3.1304692158674746e-05,
      "loss": 1.5731,
      "step": 76942
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6457485556602478,
      "learning_rate": 3.1300043664488375e-05,
      "loss": 1.4695,
      "step": 76943
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6641884446144104,
      "learning_rate": 3.129539549646422e-05,
      "loss": 1.5246,
      "step": 76944
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6489915251731873,
      "learning_rate": 3.129074765460781e-05,
      "loss": 1.4285,
      "step": 76945
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6842986345291138,
      "learning_rate": 3.1286100138924806e-05,
      "loss": 1.5991,
      "step": 76946
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6927714347839355,
      "learning_rate": 3.1281452949420925e-05,
      "loss": 1.5489,
      "step": 76947
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.675531268119812,
      "learning_rate": 3.127680608610179e-05,
      "loss": 1.5247,
      "step": 76948
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6530652046203613,
      "learning_rate": 3.1272159548972966e-05,
      "loss": 1.5381,
      "step": 76949
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6426817178726196,
      "learning_rate": 3.1267513338040204e-05,
      "loss": 1.6158,
      "step": 76950
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6669068932533264,
      "learning_rate": 3.1262867453309046e-05,
      "loss": 1.5353,
      "step": 76951
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6635922193527222,
      "learning_rate": 3.125822189478515e-05,
      "loss": 1.5263,
      "step": 76952
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6498064398765564,
      "learning_rate": 3.125357666247418e-05,
      "loss": 1.4663,
      "step": 76953
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6470640301704407,
      "learning_rate": 3.1248931756381824e-05,
      "loss": 1.4973,
      "step": 76954
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.650542140007019,
      "learning_rate": 3.124428717651365e-05,
      "loss": 1.55,
      "step": 76955
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6652299761772156,
      "learning_rate": 3.1239642922875254e-05,
      "loss": 1.5631,
      "step": 76956
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6762418150901794,
      "learning_rate": 3.123499899547239e-05,
      "loss": 1.4385,
      "step": 76957
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7120884656906128,
      "learning_rate": 3.123035539431064e-05,
      "loss": 1.4618,
      "step": 76958
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.643074631690979,
      "learning_rate": 3.1225712119395577e-05,
      "loss": 1.4926,
      "step": 76959
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6494209170341492,
      "learning_rate": 3.122106917073297e-05,
      "loss": 1.4999,
      "step": 76960
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6663154363632202,
      "learning_rate": 3.121642654832832e-05,
      "loss": 1.4688,
      "step": 76961
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.659213125705719,
      "learning_rate": 3.121178425218736e-05,
      "loss": 1.465,
      "step": 76962
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6744000911712646,
      "learning_rate": 3.1207142282315664e-05,
      "loss": 1.5785,
      "step": 76963
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6654715538024902,
      "learning_rate": 3.120250063871892e-05,
      "loss": 1.5174,
      "step": 76964
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6998898983001709,
      "learning_rate": 3.119785932140277e-05,
      "loss": 1.4345,
      "step": 76965
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6522785425186157,
      "learning_rate": 3.119321833037273e-05,
      "loss": 1.525,
      "step": 76966
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6629492044448853,
      "learning_rate": 3.118857766563457e-05,
      "loss": 1.4857,
      "step": 76967
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.660702109336853,
      "learning_rate": 3.118393732719381e-05,
      "loss": 1.5645,
      "step": 76968
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6707620024681091,
      "learning_rate": 3.117929731505623e-05,
      "loss": 1.4895,
      "step": 76969
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6671281456947327,
      "learning_rate": 3.117465762922736e-05,
      "loss": 1.4691,
      "step": 76970
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6611734628677368,
      "learning_rate": 3.117001826971277e-05,
      "loss": 1.4684,
      "step": 76971
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7031968235969543,
      "learning_rate": 3.116537923651825e-05,
      "loss": 1.5504,
      "step": 76972
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6631128787994385,
      "learning_rate": 3.1160740529649266e-05,
      "loss": 1.4777,
      "step": 76973
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6537428498268127,
      "learning_rate": 3.115610214911161e-05,
      "loss": 1.5415,
      "step": 76974
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6726341843605042,
      "learning_rate": 3.115146409491077e-05,
      "loss": 1.4027,
      "step": 76975
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6685113310813904,
      "learning_rate": 3.1146826367052494e-05,
      "loss": 1.4218,
      "step": 76976
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6825859546661377,
      "learning_rate": 3.114218896554236e-05,
      "loss": 1.5941,
      "step": 76977
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6772618889808655,
      "learning_rate": 3.1137551890385934e-05,
      "loss": 1.6072,
      "step": 76978
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6443789005279541,
      "learning_rate": 3.113291514158895e-05,
      "loss": 1.5026,
      "step": 76979
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6591638922691345,
      "learning_rate": 3.1128278719157005e-05,
      "loss": 1.5106,
      "step": 76980
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6625238656997681,
      "learning_rate": 3.112364262309566e-05,
      "loss": 1.5122,
      "step": 76981
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6563465595245361,
      "learning_rate": 3.11190068534106e-05,
      "loss": 1.4723,
      "step": 76982
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6776472330093384,
      "learning_rate": 3.11143714101075e-05,
      "loss": 1.5239,
      "step": 76983
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6633029580116272,
      "learning_rate": 3.110973629319191e-05,
      "loss": 1.497,
      "step": 76984
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6900598406791687,
      "learning_rate": 3.110510150266944e-05,
      "loss": 1.5868,
      "step": 76985
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6753187775611877,
      "learning_rate": 3.110046703854584e-05,
      "loss": 1.4861,
      "step": 76986
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6635264754295349,
      "learning_rate": 3.109583290082661e-05,
      "loss": 1.4477,
      "step": 76987
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6450695395469666,
      "learning_rate": 3.1091199089517385e-05,
      "loss": 1.5612,
      "step": 76988
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6620604991912842,
      "learning_rate": 3.1086565604623847e-05,
      "loss": 1.5558,
      "step": 76989
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6646979451179504,
      "learning_rate": 3.1081932446151605e-05,
      "loss": 1.4943,
      "step": 76990
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6581450700759888,
      "learning_rate": 3.107729961410631e-05,
      "loss": 1.497,
      "step": 76991
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6540146470069885,
      "learning_rate": 3.107266710849346e-05,
      "loss": 1.4465,
      "step": 76992
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6773168444633484,
      "learning_rate": 3.10680349293188e-05,
      "loss": 1.5216,
      "step": 76993
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6487777233123779,
      "learning_rate": 3.1063403076588e-05,
      "loss": 1.5473,
      "step": 76994
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6628397703170776,
      "learning_rate": 3.105877155030651e-05,
      "loss": 1.4978,
      "step": 76995
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6693447828292847,
      "learning_rate": 3.105414035048004e-05,
      "loss": 1.524,
      "step": 76996
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6518574953079224,
      "learning_rate": 3.10495094771143e-05,
      "loss": 1.5445,
      "step": 76997
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6667551398277283,
      "learning_rate": 3.104487893021478e-05,
      "loss": 1.5295,
      "step": 76998
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6707818508148193,
      "learning_rate": 3.104024870978711e-05,
      "loss": 1.6093,
      "step": 76999
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6825024485588074,
      "learning_rate": 3.1035618815837016e-05,
      "loss": 1.5312,
      "step": 77000
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6881272792816162,
      "learning_rate": 3.103098924837006e-05,
      "loss": 1.5209,
      "step": 77001
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6953484416007996,
      "learning_rate": 3.102636000739178e-05,
      "loss": 1.5493,
      "step": 77002
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6880035996437073,
      "learning_rate": 3.1021731092907866e-05,
      "loss": 1.4861,
      "step": 77003
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6328040361404419,
      "learning_rate": 3.1017102504923974e-05,
      "loss": 1.5136,
      "step": 77004
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6736956834793091,
      "learning_rate": 3.1012474243445736e-05,
      "loss": 1.5782,
      "step": 77005
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6830582618713379,
      "learning_rate": 3.100784630847862e-05,
      "loss": 1.4914,
      "step": 77006
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.669813871383667,
      "learning_rate": 3.100321870002842e-05,
      "loss": 1.5665,
      "step": 77007
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6744289398193359,
      "learning_rate": 3.0998591418100694e-05,
      "loss": 1.4399,
      "step": 77008
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6544512510299683,
      "learning_rate": 3.099396446270097e-05,
      "loss": 1.5392,
      "step": 77009
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6648040413856506,
      "learning_rate": 3.098933783383498e-05,
      "loss": 1.4967,
      "step": 77010
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6516577005386353,
      "learning_rate": 3.098471153150825e-05,
      "loss": 1.4642,
      "step": 77011
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7059895396232605,
      "learning_rate": 3.0980085555726517e-05,
      "loss": 1.51,
      "step": 77012
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6938755512237549,
      "learning_rate": 3.097545990649524e-05,
      "loss": 1.5039,
      "step": 77013
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.691052258014679,
      "learning_rate": 3.097083458382017e-05,
      "loss": 1.5954,
      "step": 77014
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6697818636894226,
      "learning_rate": 3.096620958770688e-05,
      "loss": 1.5721,
      "step": 77015
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6910263299942017,
      "learning_rate": 3.096158491816093e-05,
      "loss": 1.4707,
      "step": 77016
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6681440472602844,
      "learning_rate": 3.0956960575188015e-05,
      "loss": 1.5098,
      "step": 77017
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6609271764755249,
      "learning_rate": 3.0952336558793636e-05,
      "loss": 1.4225,
      "step": 77018
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6532541513442993,
      "learning_rate": 3.094771286898358e-05,
      "loss": 1.5096,
      "step": 77019
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7027431726455688,
      "learning_rate": 3.094308950576331e-05,
      "loss": 1.5292,
      "step": 77020
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6830453872680664,
      "learning_rate": 3.0938466469138457e-05,
      "loss": 1.543,
      "step": 77021
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6662164330482483,
      "learning_rate": 3.0933843759114684e-05,
      "loss": 1.4909,
      "step": 77022
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6615607738494873,
      "learning_rate": 3.092922137569755e-05,
      "loss": 1.5093,
      "step": 77023
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7135955095291138,
      "learning_rate": 3.092459931889276e-05,
      "loss": 1.5015,
      "step": 77024
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.669421374797821,
      "learning_rate": 3.09199775887058e-05,
      "loss": 1.4653,
      "step": 77025
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6669704914093018,
      "learning_rate": 3.091535618514237e-05,
      "loss": 1.5236,
      "step": 77026
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6773641705513,
      "learning_rate": 3.09107351082081e-05,
      "loss": 1.5453,
      "step": 77027
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6725489497184753,
      "learning_rate": 3.090611435790844e-05,
      "loss": 1.5922,
      "step": 77028
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6683344841003418,
      "learning_rate": 3.09014939342492e-05,
      "loss": 1.5439,
      "step": 77029
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6459494829177856,
      "learning_rate": 3.089687383723587e-05,
      "loss": 1.5286,
      "step": 77030
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6745465993881226,
      "learning_rate": 3.089225406687405e-05,
      "loss": 1.5749,
      "step": 77031
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6695168018341064,
      "learning_rate": 3.088763462316939e-05,
      "loss": 1.5595,
      "step": 77032
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6537140607833862,
      "learning_rate": 3.0883015506127526e-05,
      "loss": 1.482,
      "step": 77033
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6703311800956726,
      "learning_rate": 3.087839671575403e-05,
      "loss": 1.5701,
      "step": 77034
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.65618497133255,
      "learning_rate": 3.087377825205445e-05,
      "loss": 1.4912,
      "step": 77035
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6698597073554993,
      "learning_rate": 3.086916011503452e-05,
      "loss": 1.5105,
      "step": 77036
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6616582870483398,
      "learning_rate": 3.086454230469974e-05,
      "loss": 1.5506,
      "step": 77037
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6496472358703613,
      "learning_rate": 3.0859924821055726e-05,
      "loss": 1.5344,
      "step": 77038
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6633685827255249,
      "learning_rate": 3.0855307664108086e-05,
      "loss": 1.5087,
      "step": 77039
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6774320006370544,
      "learning_rate": 3.085069083386258e-05,
      "loss": 1.5602,
      "step": 77040
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6749380230903625,
      "learning_rate": 3.0846074330324565e-05,
      "loss": 1.5292,
      "step": 77041
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6534727811813354,
      "learning_rate": 3.084145815349974e-05,
      "loss": 1.458,
      "step": 77042
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6783614158630371,
      "learning_rate": 3.08368423033938e-05,
      "loss": 1.4998,
      "step": 77043
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6500073671340942,
      "learning_rate": 3.083222678001228e-05,
      "loss": 1.5287,
      "step": 77044
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6420935392379761,
      "learning_rate": 3.08276115833607e-05,
      "loss": 1.4971,
      "step": 77045
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6851902604103088,
      "learning_rate": 3.082299671344476e-05,
      "loss": 1.5949,
      "step": 77046
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7164715528488159,
      "learning_rate": 3.0818382170270116e-05,
      "loss": 1.5381,
      "step": 77047
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6594904661178589,
      "learning_rate": 3.0813767953842205e-05,
      "loss": 1.5473,
      "step": 77048
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.673419713973999,
      "learning_rate": 3.080915406416672e-05,
      "loss": 1.5856,
      "step": 77049
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6428998708724976,
      "learning_rate": 3.080454050124932e-05,
      "loss": 1.4637,
      "step": 77050
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6592867374420166,
      "learning_rate": 3.079992726509554e-05,
      "loss": 1.5161,
      "step": 77051
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6826432943344116,
      "learning_rate": 3.079531435571093e-05,
      "loss": 1.4729,
      "step": 77052
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7016948461532593,
      "learning_rate": 3.079070177310113e-05,
      "loss": 1.5376,
      "step": 77053
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6545822620391846,
      "learning_rate": 3.078608951727187e-05,
      "loss": 1.5393,
      "step": 77054
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6695396304130554,
      "learning_rate": 3.078147758822851e-05,
      "loss": 1.501,
      "step": 77055
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6577035188674927,
      "learning_rate": 3.0776865985976774e-05,
      "loss": 1.5056,
      "step": 77056
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6499203443527222,
      "learning_rate": 3.077225471052232e-05,
      "loss": 1.4861,
      "step": 77057
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6525492668151855,
      "learning_rate": 3.076764376187067e-05,
      "loss": 1.4932,
      "step": 77058
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6756814122200012,
      "learning_rate": 3.076303314002738e-05,
      "loss": 1.5216,
      "step": 77059
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6776942014694214,
      "learning_rate": 3.0758422844998144e-05,
      "loss": 1.5263,
      "step": 77060
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6484163403511047,
      "learning_rate": 3.075381287678854e-05,
      "loss": 1.5292,
      "step": 77061
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6666088104248047,
      "learning_rate": 3.074920323540404e-05,
      "loss": 1.6243,
      "step": 77062
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6579804420471191,
      "learning_rate": 3.074459392085037e-05,
      "loss": 1.5193,
      "step": 77063
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6730610728263855,
      "learning_rate": 3.0739984933133125e-05,
      "loss": 1.5106,
      "step": 77064
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6916115283966064,
      "learning_rate": 3.073537627225786e-05,
      "loss": 1.4866,
      "step": 77065
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6689574718475342,
      "learning_rate": 3.073076793823015e-05,
      "loss": 1.5064,
      "step": 77066
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6573363542556763,
      "learning_rate": 3.0726159931055646e-05,
      "loss": 1.528,
      "step": 77067
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6615952849388123,
      "learning_rate": 3.072155225073989e-05,
      "loss": 1.5126,
      "step": 77068
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.672596275806427,
      "learning_rate": 3.071694489728847e-05,
      "loss": 1.491,
      "step": 77069
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6391115188598633,
      "learning_rate": 3.071233787070697e-05,
      "loss": 1.5211,
      "step": 77070
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6566404104232788,
      "learning_rate": 3.070773117100111e-05,
      "loss": 1.502,
      "step": 77071
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6781466007232666,
      "learning_rate": 3.070312479817636e-05,
      "loss": 1.4575,
      "step": 77072
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6806457042694092,
      "learning_rate": 3.0698518752238265e-05,
      "loss": 1.5751,
      "step": 77073
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6979547142982483,
      "learning_rate": 3.069391303319259e-05,
      "loss": 1.5486,
      "step": 77074
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6748737692832947,
      "learning_rate": 3.068930764104478e-05,
      "loss": 1.5429,
      "step": 77075
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6681199669837952,
      "learning_rate": 3.068470257580045e-05,
      "loss": 1.5869,
      "step": 77076
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6679131984710693,
      "learning_rate": 3.0680097837465246e-05,
      "loss": 1.5386,
      "step": 77077
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6791804432868958,
      "learning_rate": 3.067549342604467e-05,
      "loss": 1.5635,
      "step": 77078
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6732951402664185,
      "learning_rate": 3.067088934154443e-05,
      "loss": 1.5465,
      "step": 77079
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6795104742050171,
      "learning_rate": 3.0666285583969966e-05,
      "loss": 1.5138,
      "step": 77080
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6760050058364868,
      "learning_rate": 3.066168215332701e-05,
      "loss": 1.4642,
      "step": 77081
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.673234760761261,
      "learning_rate": 3.065707904962108e-05,
      "loss": 1.4662,
      "step": 77082
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6645563244819641,
      "learning_rate": 3.065247627285772e-05,
      "loss": 1.4909,
      "step": 77083
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6685118079185486,
      "learning_rate": 3.0647873823042624e-05,
      "loss": 1.491,
      "step": 77084
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6844038367271423,
      "learning_rate": 3.064327170018126e-05,
      "loss": 1.5352,
      "step": 77085
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6516814827919006,
      "learning_rate": 3.0638669904279354e-05,
      "loss": 1.4811,
      "step": 77086
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6666525602340698,
      "learning_rate": 3.0634068435342407e-05,
      "loss": 1.4631,
      "step": 77087
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6623278260231018,
      "learning_rate": 3.0629467293375945e-05,
      "loss": 1.5109,
      "step": 77088
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6864448189735413,
      "learning_rate": 3.062486647838569e-05,
      "loss": 1.5024,
      "step": 77089
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6535017490386963,
      "learning_rate": 3.062026599037708e-05,
      "loss": 1.5071,
      "step": 77090
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.7023373246192932,
      "learning_rate": 3.061566582935584e-05,
      "loss": 1.538,
      "step": 77091
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6851498484611511,
      "learning_rate": 3.061106599532743e-05,
      "loss": 1.5263,
      "step": 77092
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6797763109207153,
      "learning_rate": 3.060646648829759e-05,
      "loss": 1.4932,
      "step": 77093
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6690044403076172,
      "learning_rate": 3.0601867308271765e-05,
      "loss": 1.535,
      "step": 77094
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6726992130279541,
      "learning_rate": 3.059726845525553e-05,
      "loss": 1.4829,
      "step": 77095
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6522213816642761,
      "learning_rate": 3.0592669929254576e-05,
      "loss": 1.4839,
      "step": 77096
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6473797559738159,
      "learning_rate": 3.05880717302744e-05,
      "loss": 1.5195,
      "step": 77097
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6869538426399231,
      "learning_rate": 3.058347385832059e-05,
      "loss": 1.5479,
      "step": 77098
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6703945398330688,
      "learning_rate": 3.057887631339873e-05,
      "loss": 1.4848,
      "step": 77099
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6625099778175354,
      "learning_rate": 3.057427909551449e-05,
      "loss": 1.5357,
      "step": 77100
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6585243940353394,
      "learning_rate": 3.056968220467334e-05,
      "loss": 1.477,
      "step": 77101
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6506508588790894,
      "learning_rate": 3.0565085640880885e-05,
      "loss": 1.443,
      "step": 77102
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6572045683860779,
      "learning_rate": 3.056048940414274e-05,
      "loss": 1.4696,
      "step": 77103
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6651042699813843,
      "learning_rate": 3.055589349446448e-05,
      "loss": 1.524,
      "step": 77104
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6806245446205139,
      "learning_rate": 3.055129791185159e-05,
      "loss": 1.4981,
      "step": 77105
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.66338711977005,
      "learning_rate": 3.054670265630974e-05,
      "loss": 1.5449,
      "step": 77106
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.687854528427124,
      "learning_rate": 3.054210772784452e-05,
      "loss": 1.5913,
      "step": 77107
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6388493776321411,
      "learning_rate": 3.0537513126461496e-05,
      "loss": 1.5063,
      "step": 77108
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6687046885490417,
      "learning_rate": 3.0532918852166166e-05,
      "loss": 1.5022,
      "step": 77109
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6701772212982178,
      "learning_rate": 3.052832490496418e-05,
      "loss": 1.4715,
      "step": 77110
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.662473738193512,
      "learning_rate": 3.052373128486122e-05,
      "loss": 1.4982,
      "step": 77111
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6840763688087463,
      "learning_rate": 3.051913799186263e-05,
      "loss": 1.5021,
      "step": 77112
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6471704840660095,
      "learning_rate": 3.051454502597408e-05,
      "loss": 1.4567,
      "step": 77113
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6660447120666504,
      "learning_rate": 3.050995238720123e-05,
      "loss": 1.5458,
      "step": 77114
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.661749541759491,
      "learning_rate": 3.050536007554961e-05,
      "loss": 1.5972,
      "step": 77115
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.668396532535553,
      "learning_rate": 3.050076809102472e-05,
      "loss": 1.5076,
      "step": 77116
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6668659448623657,
      "learning_rate": 3.0496176433632214e-05,
      "loss": 1.4802,
      "step": 77117
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6773406267166138,
      "learning_rate": 3.0491585103377658e-05,
      "loss": 1.4711,
      "step": 77118
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6583732962608337,
      "learning_rate": 3.0486994100266548e-05,
      "loss": 1.5035,
      "step": 77119
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6410691738128662,
      "learning_rate": 3.0482403424304512e-05,
      "loss": 1.4488,
      "step": 77120
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6855916380882263,
      "learning_rate": 3.0477813075497182e-05,
      "loss": 1.5774,
      "step": 77121
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6615861654281616,
      "learning_rate": 3.0473223053850084e-05,
      "loss": 1.526,
      "step": 77122
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.668567955493927,
      "learning_rate": 3.0468633359368743e-05,
      "loss": 1.5408,
      "step": 77123
    },
    {
      "epoch": 2.57,
      "grad_norm": 1.0308201313018799,
      "learning_rate": 3.0464043992058794e-05,
      "loss": 1.5256,
      "step": 77124
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6624897718429565,
      "learning_rate": 3.04594549519258e-05,
      "loss": 1.5346,
      "step": 77125
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6727718710899353,
      "learning_rate": 3.0454866238975217e-05,
      "loss": 1.4868,
      "step": 77126
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6622145175933838,
      "learning_rate": 3.045027785321281e-05,
      "loss": 1.5171,
      "step": 77127
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6514624357223511,
      "learning_rate": 3.044568979464398e-05,
      "loss": 1.5605,
      "step": 77128
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6816310286521912,
      "learning_rate": 3.0441102063274413e-05,
      "loss": 1.431,
      "step": 77129
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6476889252662659,
      "learning_rate": 3.0436514659109578e-05,
      "loss": 1.4443,
      "step": 77130
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6671677827835083,
      "learning_rate": 3.043192758215517e-05,
      "loss": 1.5231,
      "step": 77131
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6832895874977112,
      "learning_rate": 3.0427340832416647e-05,
      "loss": 1.4845,
      "step": 77132
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6874571442604065,
      "learning_rate": 3.042275440989961e-05,
      "loss": 1.6118,
      "step": 77133
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.686985433101654,
      "learning_rate": 3.0418168314609648e-05,
      "loss": 1.5157,
      "step": 77134
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6817424297332764,
      "learning_rate": 3.0413582546552262e-05,
      "loss": 1.5568,
      "step": 77135
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6823282837867737,
      "learning_rate": 3.0408997105733112e-05,
      "loss": 1.5572,
      "step": 77136
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6624032855033875,
      "learning_rate": 3.0404411992157728e-05,
      "loss": 1.5106,
      "step": 77137
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6607665419578552,
      "learning_rate": 3.039982720583157e-05,
      "loss": 1.5512,
      "step": 77138
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.673423171043396,
      "learning_rate": 3.0395242746760406e-05,
      "loss": 1.4964,
      "step": 77139
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6545032262802124,
      "learning_rate": 3.0390658614949625e-05,
      "loss": 1.5004,
      "step": 77140
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6961410641670227,
      "learning_rate": 3.0386074810404894e-05,
      "loss": 1.5349,
      "step": 77141
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.645740807056427,
      "learning_rate": 3.03814913331317e-05,
      "loss": 1.5237,
      "step": 77142
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7350507974624634,
      "learning_rate": 3.037690818313572e-05,
      "loss": 1.4449,
      "step": 77143
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6699221730232239,
      "learning_rate": 3.0372325360422435e-05,
      "loss": 1.516,
      "step": 77144
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6757482886314392,
      "learning_rate": 3.0367742864997346e-05,
      "loss": 1.5853,
      "step": 77145
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6593815684318542,
      "learning_rate": 3.036316069686615e-05,
      "loss": 1.4714,
      "step": 77146
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6676687598228455,
      "learning_rate": 3.0358578856034377e-05,
      "loss": 1.6116,
      "step": 77147
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6590831279754639,
      "learning_rate": 3.0353997342507486e-05,
      "loss": 1.5549,
      "step": 77148
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6798341870307922,
      "learning_rate": 3.0349416156291106e-05,
      "loss": 1.5322,
      "step": 77149
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6458711624145508,
      "learning_rate": 3.034483529739087e-05,
      "loss": 1.4992,
      "step": 77150
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6980095505714417,
      "learning_rate": 3.0340254765812234e-05,
      "loss": 1.6076,
      "step": 77151
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6607791781425476,
      "learning_rate": 3.0335674561560798e-05,
      "loss": 1.5003,
      "step": 77152
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.696622908115387,
      "learning_rate": 3.033109468464212e-05,
      "loss": 1.5502,
      "step": 77153
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6898159384727478,
      "learning_rate": 3.03265151350618e-05,
      "loss": 1.5446,
      "step": 77154
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7137474417686462,
      "learning_rate": 3.03219359128253e-05,
      "loss": 1.5637,
      "step": 77155
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6725948452949524,
      "learning_rate": 3.0317357017938214e-05,
      "loss": 1.5924,
      "step": 77156
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6756324172019958,
      "learning_rate": 3.0312778450406238e-05,
      "loss": 1.5385,
      "step": 77157
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6729066967964172,
      "learning_rate": 3.03082002102347e-05,
      "loss": 1.4444,
      "step": 77158
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6664888262748718,
      "learning_rate": 3.0303622297429262e-05,
      "loss": 1.4967,
      "step": 77159
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6477181911468506,
      "learning_rate": 3.029904471199559e-05,
      "loss": 1.4848,
      "step": 77160
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6466885209083557,
      "learning_rate": 3.0294467453939074e-05,
      "loss": 1.5065,
      "step": 77161
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6662939786911011,
      "learning_rate": 3.0289890523265315e-05,
      "loss": 1.5828,
      "step": 77162
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6611508727073669,
      "learning_rate": 3.0285313919979904e-05,
      "loss": 1.5012,
      "step": 77163
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6533346176147461,
      "learning_rate": 3.0280737644088472e-05,
      "loss": 1.5238,
      "step": 77164
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6520887613296509,
      "learning_rate": 3.027616169559638e-05,
      "loss": 1.5416,
      "step": 77165
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6668979525566101,
      "learning_rate": 3.027158607450926e-05,
      "loss": 1.5235,
      "step": 77166
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6243603825569153,
      "learning_rate": 3.0267010780832766e-05,
      "loss": 1.4892,
      "step": 77167
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6844842433929443,
      "learning_rate": 3.0262435814572374e-05,
      "loss": 1.5219,
      "step": 77168
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6843407154083252,
      "learning_rate": 3.02578611757336e-05,
      "loss": 1.508,
      "step": 77169
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6813308596611023,
      "learning_rate": 3.0253286864322013e-05,
      "loss": 1.524,
      "step": 77170
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7042231559753418,
      "learning_rate": 3.024871288034334e-05,
      "loss": 1.5392,
      "step": 77171
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6735129952430725,
      "learning_rate": 3.0244139223802843e-05,
      "loss": 1.5601,
      "step": 77172
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.687003493309021,
      "learning_rate": 3.023956589470622e-05,
      "loss": 1.5243,
      "step": 77173
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6880144476890564,
      "learning_rate": 3.0234992893059063e-05,
      "loss": 1.521,
      "step": 77174
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6596934199333191,
      "learning_rate": 3.0230420218866902e-05,
      "loss": 1.4653,
      "step": 77175
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6575542688369751,
      "learning_rate": 3.0225847872135168e-05,
      "loss": 1.5051,
      "step": 77176
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.664482057094574,
      "learning_rate": 3.0221275852869587e-05,
      "loss": 1.5417,
      "step": 77177
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6685996651649475,
      "learning_rate": 3.0216704161075623e-05,
      "loss": 1.4345,
      "step": 77178
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6753287315368652,
      "learning_rate": 3.021213279675877e-05,
      "loss": 1.5,
      "step": 77179
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6780164241790771,
      "learning_rate": 3.020756175992466e-05,
      "loss": 1.5649,
      "step": 77180
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.666944682598114,
      "learning_rate": 3.0202991050578852e-05,
      "loss": 1.5478,
      "step": 77181
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6391932368278503,
      "learning_rate": 3.0198420668726874e-05,
      "loss": 1.4559,
      "step": 77182
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6854529976844788,
      "learning_rate": 3.0193850614374192e-05,
      "loss": 1.4958,
      "step": 77183
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.672867476940155,
      "learning_rate": 3.018928088752647e-05,
      "loss": 1.4923,
      "step": 77184
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.687651515007019,
      "learning_rate": 3.0184711488189193e-05,
      "loss": 1.5037,
      "step": 77185
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6787987351417542,
      "learning_rate": 3.0180142416367903e-05,
      "loss": 1.5295,
      "step": 77186
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6540074348449707,
      "learning_rate": 3.0175573672068154e-05,
      "loss": 1.5152,
      "step": 77187
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6634480953216553,
      "learning_rate": 3.0171005255295544e-05,
      "loss": 1.5221,
      "step": 77188
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6937426924705505,
      "learning_rate": 3.016643716605557e-05,
      "loss": 1.5546,
      "step": 77189
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6633161306381226,
      "learning_rate": 3.0161869404353754e-05,
      "loss": 1.5351,
      "step": 77190
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6868952512741089,
      "learning_rate": 3.01573019701957e-05,
      "loss": 1.4486,
      "step": 77191
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6538810729980469,
      "learning_rate": 3.0152734863586935e-05,
      "loss": 1.5054,
      "step": 77192
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6801189184188843,
      "learning_rate": 3.0148168084532953e-05,
      "loss": 1.553,
      "step": 77193
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.648032009601593,
      "learning_rate": 3.014360163303935e-05,
      "loss": 1.4998,
      "step": 77194
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6798495650291443,
      "learning_rate": 3.013903550911162e-05,
      "loss": 1.5547,
      "step": 77195
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.688808262348175,
      "learning_rate": 3.0134469712755392e-05,
      "loss": 1.6142,
      "step": 77196
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6445356011390686,
      "learning_rate": 3.01299042439761e-05,
      "loss": 1.5305,
      "step": 77197
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6668784022331238,
      "learning_rate": 3.01253391027794e-05,
      "loss": 1.5178,
      "step": 77198
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6763077974319458,
      "learning_rate": 3.0120774289170757e-05,
      "loss": 1.5079,
      "step": 77199
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.669721782207489,
      "learning_rate": 3.01162098031557e-05,
      "loss": 1.6145,
      "step": 77200
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6507653594017029,
      "learning_rate": 3.0111645644739824e-05,
      "loss": 1.4802,
      "step": 77201
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6786770224571228,
      "learning_rate": 3.0107081813928623e-05,
      "loss": 1.6509,
      "step": 77202
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.683626651763916,
      "learning_rate": 3.0102518310727695e-05,
      "loss": 1.5659,
      "step": 77203
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6962519288063049,
      "learning_rate": 3.0097955135142537e-05,
      "loss": 1.4712,
      "step": 77204
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6517806649208069,
      "learning_rate": 3.009339228717864e-05,
      "loss": 1.5271,
      "step": 77205
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6863321661949158,
      "learning_rate": 3.008882976684164e-05,
      "loss": 1.4823,
      "step": 77206
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6667174696922302,
      "learning_rate": 3.008426757413699e-05,
      "loss": 1.4951,
      "step": 77207
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6591358184814453,
      "learning_rate": 3.0079705709070325e-05,
      "loss": 1.4599,
      "step": 77208
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6629630923271179,
      "learning_rate": 3.007514417164707e-05,
      "loss": 1.4775,
      "step": 77209
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.664033055305481,
      "learning_rate": 3.0070582961872892e-05,
      "loss": 1.4546,
      "step": 77210
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.661395251750946,
      "learning_rate": 3.0066022079753248e-05,
      "loss": 1.5088,
      "step": 77211
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6754628419876099,
      "learning_rate": 3.0061461525293608e-05,
      "loss": 1.4514,
      "step": 77212
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6497429609298706,
      "learning_rate": 3.0056901298499625e-05,
      "loss": 1.516,
      "step": 77213
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.648316502571106,
      "learning_rate": 3.00523413993768e-05,
      "loss": 1.5186,
      "step": 77214
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6575220227241516,
      "learning_rate": 3.0047781827930628e-05,
      "loss": 1.4839,
      "step": 77215
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6716940402984619,
      "learning_rate": 3.0043222584166637e-05,
      "loss": 1.5113,
      "step": 77216
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6726385951042175,
      "learning_rate": 3.0038663668090457e-05,
      "loss": 1.5207,
      "step": 77217
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6637983918190002,
      "learning_rate": 3.0034105079707584e-05,
      "loss": 1.5433,
      "step": 77218
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7100873589515686,
      "learning_rate": 3.0029546819023475e-05,
      "loss": 1.5802,
      "step": 77219
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6549407839775085,
      "learning_rate": 3.00249888860437e-05,
      "loss": 1.455,
      "step": 77220
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6867092251777649,
      "learning_rate": 3.0020431280773915e-05,
      "loss": 1.5265,
      "step": 77221
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6824795007705688,
      "learning_rate": 3.0015874003219454e-05,
      "loss": 1.5592,
      "step": 77222
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6703574061393738,
      "learning_rate": 3.001131705338594e-05,
      "loss": 1.4753,
      "step": 77223
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6585113406181335,
      "learning_rate": 3.0006760431278974e-05,
      "loss": 1.5291,
      "step": 77224
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6757180094718933,
      "learning_rate": 3.0002204136903983e-05,
      "loss": 1.5315,
      "step": 77225
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6653030514717102,
      "learning_rate": 2.9997648170266498e-05,
      "loss": 1.4079,
      "step": 77226
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.665244996547699,
      "learning_rate": 2.999309253137211e-05,
      "loss": 1.5786,
      "step": 77227
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6886295676231384,
      "learning_rate": 2.998853722022638e-05,
      "loss": 1.555,
      "step": 77228
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6739270687103271,
      "learning_rate": 2.9983982236834715e-05,
      "loss": 1.5175,
      "step": 77229
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6585121750831604,
      "learning_rate": 2.99794275812027e-05,
      "loss": 1.5326,
      "step": 77230
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6689531207084656,
      "learning_rate": 2.997487325333593e-05,
      "loss": 1.574,
      "step": 77231
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6936202645301819,
      "learning_rate": 2.997031925323987e-05,
      "loss": 1.5364,
      "step": 77232
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6693680882453918,
      "learning_rate": 2.9965765580919987e-05,
      "loss": 1.5489,
      "step": 77233
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.682039201259613,
      "learning_rate": 2.9961212236381972e-05,
      "loss": 1.475,
      "step": 77234
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6824014186859131,
      "learning_rate": 2.9956659219631217e-05,
      "loss": 1.4795,
      "step": 77235
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.665648877620697,
      "learning_rate": 2.995210653067326e-05,
      "loss": 1.4865,
      "step": 77236
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6613669395446777,
      "learning_rate": 2.9947554169513653e-05,
      "loss": 1.5281,
      "step": 77237
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6869416236877441,
      "learning_rate": 2.9943002136157968e-05,
      "loss": 1.5119,
      "step": 77238
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6721529364585876,
      "learning_rate": 2.9938450430611694e-05,
      "loss": 1.5427,
      "step": 77239
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6430780291557312,
      "learning_rate": 2.9933899052880296e-05,
      "loss": 1.5048,
      "step": 77240
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6571924686431885,
      "learning_rate": 2.99293480029694e-05,
      "loss": 1.5195,
      "step": 77241
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.654268741607666,
      "learning_rate": 2.9924797280884504e-05,
      "loss": 1.466,
      "step": 77242
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6781436204910278,
      "learning_rate": 2.9920246886631037e-05,
      "loss": 1.502,
      "step": 77243
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6824742555618286,
      "learning_rate": 2.991569682021463e-05,
      "loss": 1.5412,
      "step": 77244
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6857379674911499,
      "learning_rate": 2.991114708164074e-05,
      "loss": 1.5106,
      "step": 77245
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6621273159980774,
      "learning_rate": 2.9906597670915002e-05,
      "loss": 1.4922,
      "step": 77246
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6813599467277527,
      "learning_rate": 2.990204858804277e-05,
      "loss": 1.5701,
      "step": 77247
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.679911732673645,
      "learning_rate": 2.9897499833029714e-05,
      "loss": 1.5854,
      "step": 77248
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6607566475868225,
      "learning_rate": 2.9892951405881294e-05,
      "loss": 1.4445,
      "step": 77249
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6868270039558411,
      "learning_rate": 2.988840330660297e-05,
      "loss": 1.4496,
      "step": 77250
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.680671751499176,
      "learning_rate": 2.9883855535200408e-05,
      "loss": 1.5061,
      "step": 77251
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6669914722442627,
      "learning_rate": 2.9879308091678966e-05,
      "loss": 1.524,
      "step": 77252
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.683138370513916,
      "learning_rate": 2.987476097604431e-05,
      "loss": 1.5033,
      "step": 77253
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6825996041297913,
      "learning_rate": 2.98702141883019e-05,
      "loss": 1.4806,
      "step": 77254
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6725045442581177,
      "learning_rate": 2.9865667728457165e-05,
      "loss": 1.5262,
      "step": 77255
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6418328881263733,
      "learning_rate": 2.986112159651577e-05,
      "loss": 1.5177,
      "step": 77256
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6682432293891907,
      "learning_rate": 2.985657579248314e-05,
      "loss": 1.4517,
      "step": 77257
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6534035205841064,
      "learning_rate": 2.985203031636487e-05,
      "loss": 1.5649,
      "step": 77258
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6775515079498291,
      "learning_rate": 2.9847485168166365e-05,
      "loss": 1.4417,
      "step": 77259
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6457414031028748,
      "learning_rate": 2.9842940347893275e-05,
      "loss": 1.4673,
      "step": 77260
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6660222411155701,
      "learning_rate": 2.9838395855551034e-05,
      "loss": 1.6024,
      "step": 77261
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6925443410873413,
      "learning_rate": 2.9833851691145138e-05,
      "loss": 1.5224,
      "step": 77262
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6683973073959351,
      "learning_rate": 2.9829307854681182e-05,
      "loss": 1.5617,
      "step": 77263
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6596792340278625,
      "learning_rate": 2.982476434616463e-05,
      "loss": 1.5432,
      "step": 77264
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6738971471786499,
      "learning_rate": 2.9820221165600945e-05,
      "loss": 1.5659,
      "step": 77265
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6510283946990967,
      "learning_rate": 2.9815678312995716e-05,
      "loss": 1.5001,
      "step": 77266
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6856992840766907,
      "learning_rate": 2.9811135788354512e-05,
      "loss": 1.5256,
      "step": 77267
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6502750515937805,
      "learning_rate": 2.980659359168276e-05,
      "loss": 1.5003,
      "step": 77268
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6652061343193054,
      "learning_rate": 2.9802051722985954e-05,
      "loss": 1.5097,
      "step": 77269
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.657823920249939,
      "learning_rate": 2.979751018226969e-05,
      "loss": 1.4631,
      "step": 77270
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6759661436080933,
      "learning_rate": 2.979296896953943e-05,
      "loss": 1.5132,
      "step": 77271
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6728360056877136,
      "learning_rate": 2.9788428084800643e-05,
      "loss": 1.5429,
      "step": 77272
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6706246733665466,
      "learning_rate": 2.978388752805888e-05,
      "loss": 1.4432,
      "step": 77273
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6669985055923462,
      "learning_rate": 2.977934729931981e-05,
      "loss": 1.4901,
      "step": 77274
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6382373571395874,
      "learning_rate": 2.9774807398588664e-05,
      "loss": 1.4896,
      "step": 77275
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6526600122451782,
      "learning_rate": 2.9770267825871064e-05,
      "loss": 1.5057,
      "step": 77276
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6730218529701233,
      "learning_rate": 2.976572858117261e-05,
      "loss": 1.5531,
      "step": 77277
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.658970832824707,
      "learning_rate": 2.9761189664498762e-05,
      "loss": 1.4672,
      "step": 77278
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6638389825820923,
      "learning_rate": 2.9756651075854953e-05,
      "loss": 1.4907,
      "step": 77279
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.666827380657196,
      "learning_rate": 2.9752112815246744e-05,
      "loss": 1.5064,
      "step": 77280
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6956161856651306,
      "learning_rate": 2.9747574882679758e-05,
      "loss": 1.551,
      "step": 77281
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6490650773048401,
      "learning_rate": 2.97430372781593e-05,
      "loss": 1.525,
      "step": 77282
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6636411547660828,
      "learning_rate": 2.9738500001690956e-05,
      "loss": 1.4559,
      "step": 77283
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6911993026733398,
      "learning_rate": 2.973396305328033e-05,
      "loss": 1.5107,
      "step": 77284
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6627053022384644,
      "learning_rate": 2.972942643293281e-05,
      "loss": 1.4492,
      "step": 77285
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6427642703056335,
      "learning_rate": 2.9724890140653934e-05,
      "loss": 1.5708,
      "step": 77286
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6736672520637512,
      "learning_rate": 2.972035417644919e-05,
      "loss": 1.5366,
      "step": 77287
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6681850552558899,
      "learning_rate": 2.9715818540324242e-05,
      "loss": 1.4839,
      "step": 77288
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6782559156417847,
      "learning_rate": 2.9711283232284323e-05,
      "loss": 1.5246,
      "step": 77289
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6880091428756714,
      "learning_rate": 2.9706748252335122e-05,
      "loss": 1.5057,
      "step": 77290
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6363193392753601,
      "learning_rate": 2.9702213600482138e-05,
      "loss": 1.4573,
      "step": 77291
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6466989517211914,
      "learning_rate": 2.9697679276730835e-05,
      "loss": 1.4691,
      "step": 77292
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6920406818389893,
      "learning_rate": 2.9693145281086672e-05,
      "loss": 1.5108,
      "step": 77293
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6606047749519348,
      "learning_rate": 2.9688611613555247e-05,
      "loss": 1.5443,
      "step": 77294
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6550784707069397,
      "learning_rate": 2.9684078274142053e-05,
      "loss": 1.4515,
      "step": 77295
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6767065525054932,
      "learning_rate": 2.9679545262852456e-05,
      "loss": 1.5211,
      "step": 77296
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6793493032455444,
      "learning_rate": 2.9675012579692116e-05,
      "loss": 1.4934,
      "step": 77297
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6650382280349731,
      "learning_rate": 2.9670480224666492e-05,
      "loss": 1.5083,
      "step": 77298
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6784537434577942,
      "learning_rate": 2.9665948197781087e-05,
      "loss": 1.529,
      "step": 77299
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6727461218833923,
      "learning_rate": 2.9661416499041323e-05,
      "loss": 1.5231,
      "step": 77300
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6526183485984802,
      "learning_rate": 2.9656885128452834e-05,
      "loss": 1.5204,
      "step": 77301
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6740193367004395,
      "learning_rate": 2.965235408602108e-05,
      "loss": 1.5002,
      "step": 77302
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6702061891555786,
      "learning_rate": 2.964782337175142e-05,
      "loss": 1.5183,
      "step": 77303
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.650970995426178,
      "learning_rate": 2.964329298564956e-05,
      "loss": 1.4823,
      "step": 77304
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6753465533256531,
      "learning_rate": 2.963876292772085e-05,
      "loss": 1.5759,
      "step": 77305
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6860582828521729,
      "learning_rate": 2.9634233197970924e-05,
      "loss": 1.5571,
      "step": 77306
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.659511923789978,
      "learning_rate": 2.9629703796405114e-05,
      "loss": 1.5144,
      "step": 77307
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6586959362030029,
      "learning_rate": 2.9625174723029077e-05,
      "loss": 1.5502,
      "step": 77308
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6647126078605652,
      "learning_rate": 2.9620645977848213e-05,
      "loss": 1.5505,
      "step": 77309
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6788667440414429,
      "learning_rate": 2.9616117560868015e-05,
      "loss": 1.456,
      "step": 77310
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6525189876556396,
      "learning_rate": 2.9611589472094043e-05,
      "loss": 1.5698,
      "step": 77311
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6663086414337158,
      "learning_rate": 2.960706171153173e-05,
      "loss": 1.4829,
      "step": 77312
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6820623278617859,
      "learning_rate": 2.9602534279186674e-05,
      "loss": 1.5468,
      "step": 77313
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6700623631477356,
      "learning_rate": 2.9598007175064196e-05,
      "loss": 1.4891,
      "step": 77314
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6584754586219788,
      "learning_rate": 2.959348039917e-05,
      "loss": 1.4719,
      "step": 77315
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6695032119750977,
      "learning_rate": 2.9588953951509442e-05,
      "loss": 1.4756,
      "step": 77316
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7302805185317993,
      "learning_rate": 2.958442783208802e-05,
      "loss": 1.4736,
      "step": 77317
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6574198007583618,
      "learning_rate": 2.9579902040911295e-05,
      "loss": 1.5505,
      "step": 77318
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6630103588104248,
      "learning_rate": 2.95753765779847e-05,
      "loss": 1.582,
      "step": 77319
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6667117476463318,
      "learning_rate": 2.957085144331376e-05,
      "loss": 1.4957,
      "step": 77320
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6605005860328674,
      "learning_rate": 2.9566326636904e-05,
      "loss": 1.484,
      "step": 77321
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6522300839424133,
      "learning_rate": 2.9561802158760796e-05,
      "loss": 1.432,
      "step": 77322
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.652063250541687,
      "learning_rate": 2.9557278008889796e-05,
      "loss": 1.4674,
      "step": 77323
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6477653384208679,
      "learning_rate": 2.9552754187296335e-05,
      "loss": 1.5502,
      "step": 77324
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6724876165390015,
      "learning_rate": 2.9548230693986042e-05,
      "loss": 1.5538,
      "step": 77325
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6655818819999695,
      "learning_rate": 2.954370752896428e-05,
      "loss": 1.5617,
      "step": 77326
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6503042578697205,
      "learning_rate": 2.9539184692236673e-05,
      "loss": 1.5215,
      "step": 77327
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6469224095344543,
      "learning_rate": 2.9534662183808656e-05,
      "loss": 1.4847,
      "step": 77328
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6520355343818665,
      "learning_rate": 2.9530140003685654e-05,
      "loss": 1.4855,
      "step": 77329
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6899300217628479,
      "learning_rate": 2.952561815187323e-05,
      "loss": 1.4917,
      "step": 77330
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6557808518409729,
      "learning_rate": 2.9521096628376884e-05,
      "loss": 1.5249,
      "step": 77331
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6872851848602295,
      "learning_rate": 2.9516575433202037e-05,
      "loss": 1.598,
      "step": 77332
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6703091263771057,
      "learning_rate": 2.9512054566354193e-05,
      "loss": 1.5401,
      "step": 77333
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6604101657867432,
      "learning_rate": 2.9507534027838908e-05,
      "loss": 1.502,
      "step": 77334
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6368879079818726,
      "learning_rate": 2.9503013817661613e-05,
      "loss": 1.4937,
      "step": 77335
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6707203984260559,
      "learning_rate": 2.949849393582777e-05,
      "loss": 1.498,
      "step": 77336
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6677306890487671,
      "learning_rate": 2.9493974382342878e-05,
      "loss": 1.5028,
      "step": 77337
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6516066193580627,
      "learning_rate": 2.948945515721256e-05,
      "loss": 1.4744,
      "step": 77338
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6763213872909546,
      "learning_rate": 2.9484936260442084e-05,
      "loss": 1.5389,
      "step": 77339
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6772154569625854,
      "learning_rate": 2.948041769203704e-05,
      "loss": 1.533,
      "step": 77340
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6901804804801941,
      "learning_rate": 2.947589945200296e-05,
      "loss": 1.4308,
      "step": 77341
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6901684403419495,
      "learning_rate": 2.9471381540345273e-05,
      "loss": 1.4836,
      "step": 77342
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6327821612358093,
      "learning_rate": 2.9466863957069408e-05,
      "loss": 1.4226,
      "step": 77343
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6769648194313049,
      "learning_rate": 2.9462346702180928e-05,
      "loss": 1.5206,
      "step": 77344
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7036533951759338,
      "learning_rate": 2.9457829775685394e-05,
      "loss": 1.5692,
      "step": 77345
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6574015021324158,
      "learning_rate": 2.94533131775881e-05,
      "loss": 1.4972,
      "step": 77346
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6579445600509644,
      "learning_rate": 2.9448796907894613e-05,
      "loss": 1.518,
      "step": 77347
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6606488823890686,
      "learning_rate": 2.9444280966610456e-05,
      "loss": 1.4814,
      "step": 77348
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.668704092502594,
      "learning_rate": 2.9439765353741098e-05,
      "loss": 1.5459,
      "step": 77349
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6643735766410828,
      "learning_rate": 2.9435250069291926e-05,
      "loss": 1.4598,
      "step": 77350
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6757250428199768,
      "learning_rate": 2.9430735113268578e-05,
      "loss": 1.5428,
      "step": 77351
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6574092507362366,
      "learning_rate": 2.9426220485676445e-05,
      "loss": 1.5793,
      "step": 77352
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6608740091323853,
      "learning_rate": 2.9421706186520954e-05,
      "loss": 1.538,
      "step": 77353
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6828648447990417,
      "learning_rate": 2.941719221580764e-05,
      "loss": 1.6037,
      "step": 77354
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6862558722496033,
      "learning_rate": 2.9412678573542025e-05,
      "loss": 1.5278,
      "step": 77355
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6568048596382141,
      "learning_rate": 2.9408165259729577e-05,
      "loss": 1.4909,
      "step": 77356
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6679462194442749,
      "learning_rate": 2.9403652274375655e-05,
      "loss": 1.4684,
      "step": 77357
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6806651949882507,
      "learning_rate": 2.9399139617485922e-05,
      "loss": 1.3665,
      "step": 77358
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.666409432888031,
      "learning_rate": 2.9394627289065743e-05,
      "loss": 1.4967,
      "step": 77359
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6533305048942566,
      "learning_rate": 2.9390115289120574e-05,
      "loss": 1.5466,
      "step": 77360
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6772974729537964,
      "learning_rate": 2.9385603617655985e-05,
      "loss": 1.466,
      "step": 77361
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6729795336723328,
      "learning_rate": 2.9381092274677332e-05,
      "loss": 1.5659,
      "step": 77362
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6612315773963928,
      "learning_rate": 2.9376581260190213e-05,
      "loss": 1.4745,
      "step": 77363
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6471712589263916,
      "learning_rate": 2.937207057419999e-05,
      "loss": 1.5026,
      "step": 77364
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6978961825370789,
      "learning_rate": 2.9367560216712262e-05,
      "loss": 1.5506,
      "step": 77365
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6933353543281555,
      "learning_rate": 2.9363050187732452e-05,
      "loss": 1.4578,
      "step": 77366
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6357239484786987,
      "learning_rate": 2.935854048726596e-05,
      "loss": 1.4695,
      "step": 77367
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.68721604347229,
      "learning_rate": 2.9354031115318378e-05,
      "loss": 1.5077,
      "step": 77368
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6684834361076355,
      "learning_rate": 2.934952207189507e-05,
      "loss": 1.5118,
      "step": 77369
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6481444239616394,
      "learning_rate": 2.9345013357001602e-05,
      "loss": 1.4504,
      "step": 77370
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6609712243080139,
      "learning_rate": 2.934050497064343e-05,
      "loss": 1.4638,
      "step": 77371
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6836138963699341,
      "learning_rate": 2.9335996912825954e-05,
      "loss": 1.5425,
      "step": 77372
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6784363389015198,
      "learning_rate": 2.9331489183554735e-05,
      "loss": 1.5884,
      "step": 77373
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6547905802726746,
      "learning_rate": 2.932698178283517e-05,
      "loss": 1.4979,
      "step": 77374
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6779093742370605,
      "learning_rate": 2.9322474710672818e-05,
      "loss": 1.5572,
      "step": 77375
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.655494749546051,
      "learning_rate": 2.931796796707301e-05,
      "loss": 1.4943,
      "step": 77376
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6583071947097778,
      "learning_rate": 2.9313461552041407e-05,
      "loss": 1.5299,
      "step": 77377
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6524572968482971,
      "learning_rate": 2.930895546558334e-05,
      "loss": 1.5607,
      "step": 77378
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6638237237930298,
      "learning_rate": 2.9304449707704302e-05,
      "loss": 1.4878,
      "step": 77379
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6658355593681335,
      "learning_rate": 2.9299944278409793e-05,
      "loss": 1.5074,
      "step": 77380
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6700799465179443,
      "learning_rate": 2.9295439177705304e-05,
      "loss": 1.4924,
      "step": 77381
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6533949375152588,
      "learning_rate": 2.9290934405596168e-05,
      "loss": 1.5559,
      "step": 77382
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6715714931488037,
      "learning_rate": 2.9286429962087978e-05,
      "loss": 1.5963,
      "step": 77383
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6847191452980042,
      "learning_rate": 2.9281925847186226e-05,
      "loss": 1.4972,
      "step": 77384
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6794167160987854,
      "learning_rate": 2.9277422060896318e-05,
      "loss": 1.5237,
      "step": 77385
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6892118453979492,
      "learning_rate": 2.9272918603223703e-05,
      "loss": 1.5042,
      "step": 77386
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.654564619064331,
      "learning_rate": 2.926841547417389e-05,
      "loss": 1.4298,
      "step": 77387
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6579701900482178,
      "learning_rate": 2.9263912673752367e-05,
      "loss": 1.4967,
      "step": 77388
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7271751165390015,
      "learning_rate": 2.9259410201964493e-05,
      "loss": 1.4908,
      "step": 77389
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.669441282749176,
      "learning_rate": 2.9254908058815774e-05,
      "loss": 1.512,
      "step": 77390
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6922279000282288,
      "learning_rate": 2.9250406244311865e-05,
      "loss": 1.6024,
      "step": 77391
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7242801189422607,
      "learning_rate": 2.9245904758457928e-05,
      "loss": 1.5014,
      "step": 77392
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6847222447395325,
      "learning_rate": 2.924140360125956e-05,
      "loss": 1.5187,
      "step": 77393
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6713427305221558,
      "learning_rate": 2.9236902772722327e-05,
      "loss": 1.4526,
      "step": 77394
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.7043453454971313,
      "learning_rate": 2.9232402272851586e-05,
      "loss": 1.4274,
      "step": 77395
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.6546882390975952,
      "learning_rate": 2.9227902101652733e-05,
      "loss": 1.5517,
      "step": 77396
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6659632325172424,
      "learning_rate": 2.9223402259131334e-05,
      "loss": 1.5371,
      "step": 77397
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6646036505699158,
      "learning_rate": 2.9218902745292918e-05,
      "loss": 1.5168,
      "step": 77398
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6606513857841492,
      "learning_rate": 2.9214403560142774e-05,
      "loss": 1.5372,
      "step": 77399
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6743895411491394,
      "learning_rate": 2.920990470368644e-05,
      "loss": 1.4889,
      "step": 77400
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.697271466255188,
      "learning_rate": 2.9205406175929404e-05,
      "loss": 1.4969,
      "step": 77401
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6958687901496887,
      "learning_rate": 2.920090797687713e-05,
      "loss": 1.515,
      "step": 77402
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6848258972167969,
      "learning_rate": 2.9196410106535018e-05,
      "loss": 1.5134,
      "step": 77403
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6838092803955078,
      "learning_rate": 2.9191912564908526e-05,
      "loss": 1.5518,
      "step": 77404
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.691163957118988,
      "learning_rate": 2.9187415352003287e-05,
      "loss": 1.501,
      "step": 77405
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6536849141120911,
      "learning_rate": 2.918291846782449e-05,
      "loss": 1.4924,
      "step": 77406
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6706119179725647,
      "learning_rate": 2.9178421912377737e-05,
      "loss": 1.5074,
      "step": 77407
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6637982130050659,
      "learning_rate": 2.9173925685668553e-05,
      "loss": 1.5005,
      "step": 77408
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6629502177238464,
      "learning_rate": 2.9169429787702302e-05,
      "loss": 1.5194,
      "step": 77409
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6469576954841614,
      "learning_rate": 2.9164934218484382e-05,
      "loss": 1.5052,
      "step": 77410
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6672348380088806,
      "learning_rate": 2.9160438978020416e-05,
      "loss": 1.587,
      "step": 77411
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6492607593536377,
      "learning_rate": 2.915594406631574e-05,
      "loss": 1.5031,
      "step": 77412
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6429222822189331,
      "learning_rate": 2.9151449483375812e-05,
      "loss": 1.5195,
      "step": 77413
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6858857274055481,
      "learning_rate": 2.9146955229206093e-05,
      "loss": 1.5428,
      "step": 77414
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6805003881454468,
      "learning_rate": 2.914246130381215e-05,
      "loss": 1.4319,
      "step": 77415
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6715880036354065,
      "learning_rate": 2.913796770719934e-05,
      "loss": 1.4721,
      "step": 77416
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6863482594490051,
      "learning_rate": 2.9133474439373063e-05,
      "loss": 1.5355,
      "step": 77417
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6657575964927673,
      "learning_rate": 2.912898150033888e-05,
      "loss": 1.4627,
      "step": 77418
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6636753678321838,
      "learning_rate": 2.9124488890102217e-05,
      "loss": 1.4881,
      "step": 77419
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6841447353363037,
      "learning_rate": 2.9119996608668438e-05,
      "loss": 1.4872,
      "step": 77420
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6932944059371948,
      "learning_rate": 2.9115504656043142e-05,
      "loss": 1.5432,
      "step": 77421
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6789887547492981,
      "learning_rate": 2.9111013032231655e-05,
      "loss": 1.52,
      "step": 77422
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6946852207183838,
      "learning_rate": 2.9106521737239575e-05,
      "loss": 1.5574,
      "step": 77423
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6845976710319519,
      "learning_rate": 2.910203077107216e-05,
      "loss": 1.4826,
      "step": 77424
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6561934351921082,
      "learning_rate": 2.9097540133735044e-05,
      "loss": 1.488,
      "step": 77425
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6677778363227844,
      "learning_rate": 2.9093049825233583e-05,
      "loss": 1.4372,
      "step": 77426
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6428562998771667,
      "learning_rate": 2.908855984557318e-05,
      "loss": 1.5059,
      "step": 77427
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6659671068191528,
      "learning_rate": 2.9084070194759423e-05,
      "loss": 1.5521,
      "step": 77428
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6692638397216797,
      "learning_rate": 2.9079580872797613e-05,
      "loss": 1.5745,
      "step": 77429
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6515600085258484,
      "learning_rate": 2.9075091879693346e-05,
      "loss": 1.517,
      "step": 77430
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6693288087844849,
      "learning_rate": 2.9070603215451948e-05,
      "loss": 1.4427,
      "step": 77431
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6554284691810608,
      "learning_rate": 2.9066114880078983e-05,
      "loss": 1.4887,
      "step": 77432
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6667377948760986,
      "learning_rate": 2.9061626873579814e-05,
      "loss": 1.5693,
      "step": 77433
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6821237206459045,
      "learning_rate": 2.9057139195959832e-05,
      "loss": 1.442,
      "step": 77434
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6744183301925659,
      "learning_rate": 2.905265184722467e-05,
      "loss": 1.586,
      "step": 77435
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6918225884437561,
      "learning_rate": 2.904816482737956e-05,
      "loss": 1.4267,
      "step": 77436
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6913012266159058,
      "learning_rate": 2.904367813643016e-05,
      "loss": 1.5595,
      "step": 77437
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6740641593933105,
      "learning_rate": 2.9039191774381766e-05,
      "loss": 1.4777,
      "step": 77438
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6717787384986877,
      "learning_rate": 2.903470574123984e-05,
      "loss": 1.5029,
      "step": 77439
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6658504009246826,
      "learning_rate": 2.903022003700991e-05,
      "loss": 1.5268,
      "step": 77440
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7015606164932251,
      "learning_rate": 2.902573466169731e-05,
      "loss": 1.4847,
      "step": 77441
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6940289735794067,
      "learning_rate": 2.9021249615307562e-05,
      "loss": 1.5727,
      "step": 77442
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6553335785865784,
      "learning_rate": 2.901676489784607e-05,
      "loss": 1.5231,
      "step": 77443
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6477346420288086,
      "learning_rate": 2.9012280509318352e-05,
      "loss": 1.5417,
      "step": 77444
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6854893565177917,
      "learning_rate": 2.9007796449729815e-05,
      "loss": 1.5358,
      "step": 77445
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6681481003761292,
      "learning_rate": 2.900331271908578e-05,
      "loss": 1.5053,
      "step": 77446
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6766052842140198,
      "learning_rate": 2.8998829317391882e-05,
      "loss": 1.4085,
      "step": 77447
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.651136040687561,
      "learning_rate": 2.8994346244653477e-05,
      "loss": 1.5336,
      "step": 77448
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7110154032707214,
      "learning_rate": 2.8989863500875932e-05,
      "loss": 1.5036,
      "step": 77449
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6961490511894226,
      "learning_rate": 2.8985381086064775e-05,
      "loss": 1.5011,
      "step": 77450
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6500558853149414,
      "learning_rate": 2.89808990002255e-05,
      "loss": 1.5038,
      "step": 77451
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6454324722290039,
      "learning_rate": 2.897641724336347e-05,
      "loss": 1.4924,
      "step": 77452
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6518510580062866,
      "learning_rate": 2.8971935815484082e-05,
      "loss": 1.3503,
      "step": 77453
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6516005992889404,
      "learning_rate": 2.8967454716592798e-05,
      "loss": 1.5059,
      "step": 77454
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6770477890968323,
      "learning_rate": 2.8962973946695243e-05,
      "loss": 1.4048,
      "step": 77455
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6468804478645325,
      "learning_rate": 2.8958493505796588e-05,
      "loss": 1.4631,
      "step": 77456
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6818760633468628,
      "learning_rate": 2.8954013393902352e-05,
      "loss": 1.6146,
      "step": 77457
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6656045913696289,
      "learning_rate": 2.8949533611018104e-05,
      "loss": 1.4457,
      "step": 77458
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6478899717330933,
      "learning_rate": 2.8945054157149138e-05,
      "loss": 1.4903,
      "step": 77459
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6840162873268127,
      "learning_rate": 2.8940575032300917e-05,
      "loss": 1.4988,
      "step": 77460
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6765384674072266,
      "learning_rate": 2.89360962364789e-05,
      "loss": 1.5232,
      "step": 77461
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6956239342689514,
      "learning_rate": 2.893161776968862e-05,
      "loss": 1.5648,
      "step": 77462
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6843893527984619,
      "learning_rate": 2.8927139631935303e-05,
      "loss": 1.5538,
      "step": 77463
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6755264401435852,
      "learning_rate": 2.8922661823224515e-05,
      "loss": 1.5028,
      "step": 77464
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6628227233886719,
      "learning_rate": 2.8918184343561713e-05,
      "loss": 1.5048,
      "step": 77465
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.669736921787262,
      "learning_rate": 2.8913707192952296e-05,
      "loss": 1.5519,
      "step": 77466
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.667592465877533,
      "learning_rate": 2.890923037140166e-05,
      "loss": 1.5008,
      "step": 77467
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6753637194633484,
      "learning_rate": 2.8904753878915297e-05,
      "loss": 1.4899,
      "step": 77468
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.684288740158081,
      "learning_rate": 2.8900277715498643e-05,
      "loss": 1.5044,
      "step": 77469
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6783677935600281,
      "learning_rate": 2.8895801881157053e-05,
      "loss": 1.4925,
      "step": 77470
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6819651126861572,
      "learning_rate": 2.8891326375895997e-05,
      "loss": 1.5797,
      "step": 77471
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6770209074020386,
      "learning_rate": 2.8886851199720996e-05,
      "loss": 1.5561,
      "step": 77472
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6664628386497498,
      "learning_rate": 2.8882376352637415e-05,
      "loss": 1.4736,
      "step": 77473
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6565380096435547,
      "learning_rate": 2.8877901834650585e-05,
      "loss": 1.5375,
      "step": 77474
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6730070114135742,
      "learning_rate": 2.8873427645766133e-05,
      "loss": 1.5393,
      "step": 77475
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6814154386520386,
      "learning_rate": 2.886895378598939e-05,
      "loss": 1.5289,
      "step": 77476
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6646353602409363,
      "learning_rate": 2.886448025532572e-05,
      "loss": 1.5256,
      "step": 77477
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6789458990097046,
      "learning_rate": 2.8860007053780677e-05,
      "loss": 1.5144,
      "step": 77478
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6483473181724548,
      "learning_rate": 2.8855534181359564e-05,
      "loss": 1.4491,
      "step": 77479
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6657946109771729,
      "learning_rate": 2.8851061638067973e-05,
      "loss": 1.5044,
      "step": 77480
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6657900810241699,
      "learning_rate": 2.8846589423911136e-05,
      "loss": 1.5355,
      "step": 77481
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6766650676727295,
      "learning_rate": 2.8842117538894683e-05,
      "loss": 1.4439,
      "step": 77482
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6855508089065552,
      "learning_rate": 2.8837645983023937e-05,
      "loss": 1.5338,
      "step": 77483
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6872401833534241,
      "learning_rate": 2.8833174756304266e-05,
      "loss": 1.4791,
      "step": 77484
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6350116729736328,
      "learning_rate": 2.8828703858741266e-05,
      "loss": 1.4636,
      "step": 77485
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6860511302947998,
      "learning_rate": 2.882423329034016e-05,
      "loss": 1.586,
      "step": 77486
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.66522216796875,
      "learning_rate": 2.881976305110655e-05,
      "loss": 1.4327,
      "step": 77487
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6706565618515015,
      "learning_rate": 2.881529314104579e-05,
      "loss": 1.4918,
      "step": 77488
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6860935688018799,
      "learning_rate": 2.8810823560163256e-05,
      "loss": 1.6127,
      "step": 77489
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6547935605049133,
      "learning_rate": 2.8806354308464463e-05,
      "loss": 1.4782,
      "step": 77490
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.650948703289032,
      "learning_rate": 2.880188538595475e-05,
      "loss": 1.512,
      "step": 77491
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6865136027336121,
      "learning_rate": 2.8797416792639673e-05,
      "loss": 1.5212,
      "step": 77492
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6748785972595215,
      "learning_rate": 2.8792948528524495e-05,
      "loss": 1.5424,
      "step": 77493
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.698103666305542,
      "learning_rate": 2.878848059361475e-05,
      "loss": 1.5278,
      "step": 77494
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6647478342056274,
      "learning_rate": 2.8784012987915862e-05,
      "loss": 1.5103,
      "step": 77495
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6608130931854248,
      "learning_rate": 2.877954571143316e-05,
      "loss": 1.4546,
      "step": 77496
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6701348423957825,
      "learning_rate": 2.8775078764172178e-05,
      "loss": 1.4679,
      "step": 77497
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6582397818565369,
      "learning_rate": 2.877061214613827e-05,
      "loss": 1.567,
      "step": 77498
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6701031923294067,
      "learning_rate": 2.876614585733684e-05,
      "loss": 1.5406,
      "step": 77499
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6721932888031006,
      "learning_rate": 2.876167989777335e-05,
      "loss": 1.4344,
      "step": 77500
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7144083976745605,
      "learning_rate": 2.8757214267453253e-05,
      "loss": 1.6411,
      "step": 77501
    },
    {
      "epoch": 2.58,
      "grad_norm": 1.3719388246536255,
      "learning_rate": 2.8752748966381924e-05,
      "loss": 1.4764,
      "step": 77502
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6659419536590576,
      "learning_rate": 2.8748283994564746e-05,
      "loss": 1.4688,
      "step": 77503
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.678737461566925,
      "learning_rate": 2.8743819352007258e-05,
      "loss": 1.4885,
      "step": 77504
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6672649383544922,
      "learning_rate": 2.8739355038714784e-05,
      "loss": 1.5647,
      "step": 77505
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6601411700248718,
      "learning_rate": 2.873489105469272e-05,
      "loss": 1.4995,
      "step": 77506
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6369200348854065,
      "learning_rate": 2.873042739994653e-05,
      "loss": 1.4903,
      "step": 77507
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6658977270126343,
      "learning_rate": 2.8725964074481746e-05,
      "loss": 1.5211,
      "step": 77508
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6649042367935181,
      "learning_rate": 2.8721501078303556e-05,
      "loss": 1.5094,
      "step": 77509
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.709337055683136,
      "learning_rate": 2.871703841141746e-05,
      "loss": 1.528,
      "step": 77510
    },
    {
      "epoch": 2.58,
      "grad_norm": 1.0043435096740723,
      "learning_rate": 2.871257607382902e-05,
      "loss": 1.5332,
      "step": 77511
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6813602447509766,
      "learning_rate": 2.8708114065543496e-05,
      "loss": 1.4816,
      "step": 77512
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6839213371276855,
      "learning_rate": 2.870365238656632e-05,
      "loss": 1.5438,
      "step": 77513
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6682823300361633,
      "learning_rate": 2.8699191036902925e-05,
      "loss": 1.5245,
      "step": 77514
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6772386431694031,
      "learning_rate": 2.869473001655883e-05,
      "loss": 1.4554,
      "step": 77515
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.664560854434967,
      "learning_rate": 2.8690269325539272e-05,
      "loss": 1.5179,
      "step": 77516
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6533933281898499,
      "learning_rate": 2.8685808963849742e-05,
      "loss": 1.5445,
      "step": 77517
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.68451988697052,
      "learning_rate": 2.868134893149574e-05,
      "loss": 1.5517,
      "step": 77518
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6861400604248047,
      "learning_rate": 2.867688922848259e-05,
      "loss": 1.5903,
      "step": 77519
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6710830926895142,
      "learning_rate": 2.8672429854815658e-05,
      "loss": 1.4915,
      "step": 77520
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6959032416343689,
      "learning_rate": 2.8667970810500408e-05,
      "loss": 1.5254,
      "step": 77521
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6616100072860718,
      "learning_rate": 2.8663512095542396e-05,
      "loss": 1.4599,
      "step": 77522
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6564418077468872,
      "learning_rate": 2.865905370994679e-05,
      "loss": 1.4674,
      "step": 77523
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6730126738548279,
      "learning_rate": 2.865459565371908e-05,
      "loss": 1.5661,
      "step": 77524
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6555966138839722,
      "learning_rate": 2.8650137926864803e-05,
      "loss": 1.5037,
      "step": 77525
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6797271966934204,
      "learning_rate": 2.8645680529389247e-05,
      "loss": 1.5487,
      "step": 77526
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6622519493103027,
      "learning_rate": 2.864122346129781e-05,
      "loss": 1.4819,
      "step": 77527
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6415874361991882,
      "learning_rate": 2.8636766722595995e-05,
      "loss": 1.5738,
      "step": 77528
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6617557406425476,
      "learning_rate": 2.8632310313289187e-05,
      "loss": 1.4749,
      "step": 77529
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6714041829109192,
      "learning_rate": 2.8627854233382685e-05,
      "loss": 1.4845,
      "step": 77530
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6403260231018066,
      "learning_rate": 2.8623398482881986e-05,
      "loss": 1.431,
      "step": 77531
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.662697434425354,
      "learning_rate": 2.8618943061792587e-05,
      "loss": 1.445,
      "step": 77532
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6533316373825073,
      "learning_rate": 2.861448797011978e-05,
      "loss": 1.4851,
      "step": 77533
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6768681406974792,
      "learning_rate": 2.861003320786893e-05,
      "loss": 1.4651,
      "step": 77534
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6468347907066345,
      "learning_rate": 2.8605578775045568e-05,
      "loss": 1.5142,
      "step": 77535
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6543280482292175,
      "learning_rate": 2.8601124671655052e-05,
      "loss": 1.4902,
      "step": 77536
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6682219505310059,
      "learning_rate": 2.8596670897702744e-05,
      "loss": 1.5055,
      "step": 77537
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.652789831161499,
      "learning_rate": 2.859221745319411e-05,
      "loss": 1.5785,
      "step": 77538
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.654556393623352,
      "learning_rate": 2.858776433813451e-05,
      "loss": 1.5398,
      "step": 77539
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.664387047290802,
      "learning_rate": 2.8583311552529408e-05,
      "loss": 1.4588,
      "step": 77540
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6736474633216858,
      "learning_rate": 2.8578859096384133e-05,
      "loss": 1.5009,
      "step": 77541
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6472823023796082,
      "learning_rate": 2.8574406969704177e-05,
      "loss": 1.4528,
      "step": 77542
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6789924502372742,
      "learning_rate": 2.8569955172494908e-05,
      "loss": 1.5466,
      "step": 77543
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6629613041877747,
      "learning_rate": 2.856550370476165e-05,
      "loss": 1.5325,
      "step": 77544
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6657642126083374,
      "learning_rate": 2.8561052566509935e-05,
      "loss": 1.5314,
      "step": 77545
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6682115793228149,
      "learning_rate": 2.8556601757745056e-05,
      "loss": 1.5279,
      "step": 77546
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6589407324790955,
      "learning_rate": 2.8552151278472547e-05,
      "loss": 1.5066,
      "step": 77547
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6672587394714355,
      "learning_rate": 2.85477011286977e-05,
      "loss": 1.5227,
      "step": 77548
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6722057461738586,
      "learning_rate": 2.8543251308425907e-05,
      "loss": 1.4728,
      "step": 77549
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6675938963890076,
      "learning_rate": 2.8538801817662637e-05,
      "loss": 1.5699,
      "step": 77550
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6853051781654358,
      "learning_rate": 2.8534352656413252e-05,
      "loss": 1.5198,
      "step": 77551
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6784952878952026,
      "learning_rate": 2.8529903824683174e-05,
      "loss": 1.5816,
      "step": 77552
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6884159445762634,
      "learning_rate": 2.8525455322477776e-05,
      "loss": 1.5355,
      "step": 77553
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6832579374313354,
      "learning_rate": 2.852100714980251e-05,
      "loss": 1.5067,
      "step": 77554
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6732063889503479,
      "learning_rate": 2.8516559306662744e-05,
      "loss": 1.4565,
      "step": 77555
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6888784766197205,
      "learning_rate": 2.851211179306384e-05,
      "loss": 1.5159,
      "step": 77556
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6796001195907593,
      "learning_rate": 2.850766460901126e-05,
      "loss": 1.5265,
      "step": 77557
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.641160786151886,
      "learning_rate": 2.8503217754510334e-05,
      "loss": 1.4296,
      "step": 77558
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.653356671333313,
      "learning_rate": 2.8498771229566518e-05,
      "loss": 1.4624,
      "step": 77559
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6516789793968201,
      "learning_rate": 2.8494325034185183e-05,
      "loss": 1.4628,
      "step": 77560
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6719772219657898,
      "learning_rate": 2.8489879168371755e-05,
      "loss": 1.4978,
      "step": 77561
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6766994595527649,
      "learning_rate": 2.8485433632131626e-05,
      "loss": 1.5837,
      "step": 77562
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6639904975891113,
      "learning_rate": 2.84809884254701e-05,
      "loss": 1.474,
      "step": 77563
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6736064553260803,
      "learning_rate": 2.847654354839266e-05,
      "loss": 1.5375,
      "step": 77564
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7065891027450562,
      "learning_rate": 2.8472099000904813e-05,
      "loss": 1.5413,
      "step": 77565
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.686671793460846,
      "learning_rate": 2.8467654783011682e-05,
      "loss": 1.5181,
      "step": 77566
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6723174452781677,
      "learning_rate": 2.8463210894718835e-05,
      "loss": 1.5058,
      "step": 77567
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6578034162521362,
      "learning_rate": 2.8458767336031695e-05,
      "loss": 1.4586,
      "step": 77568
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6488081812858582,
      "learning_rate": 2.8454324106955628e-05,
      "loss": 1.5002,
      "step": 77569
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6568639874458313,
      "learning_rate": 2.8449881207495894e-05,
      "loss": 1.5079,
      "step": 77570
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6637171506881714,
      "learning_rate": 2.8445438637658025e-05,
      "loss": 1.4581,
      "step": 77571
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.675247311592102,
      "learning_rate": 2.844099639744748e-05,
      "loss": 1.4945,
      "step": 77572
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6645747423171997,
      "learning_rate": 2.8436554486869455e-05,
      "loss": 1.5088,
      "step": 77573
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6924381852149963,
      "learning_rate": 2.843211290592945e-05,
      "loss": 1.5155,
      "step": 77574
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6780614256858826,
      "learning_rate": 2.842767165463289e-05,
      "loss": 1.571,
      "step": 77575
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6697614192962646,
      "learning_rate": 2.8423230732985102e-05,
      "loss": 1.4238,
      "step": 77576
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6492177248001099,
      "learning_rate": 2.8418790140991455e-05,
      "loss": 1.5602,
      "step": 77577
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6752788424491882,
      "learning_rate": 2.8414349878657374e-05,
      "loss": 1.5347,
      "step": 77578
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6860923767089844,
      "learning_rate": 2.8409909945988386e-05,
      "loss": 1.4956,
      "step": 77579
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.674651563167572,
      "learning_rate": 2.8405470342989623e-05,
      "loss": 1.4646,
      "step": 77580
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6678680181503296,
      "learning_rate": 2.8401031069666613e-05,
      "loss": 1.5058,
      "step": 77581
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6570447087287903,
      "learning_rate": 2.8396592126024787e-05,
      "loss": 1.465,
      "step": 77582
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6765812635421753,
      "learning_rate": 2.8392153512069473e-05,
      "loss": 1.5041,
      "step": 77583
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6797131299972534,
      "learning_rate": 2.8387715227805995e-05,
      "loss": 1.5496,
      "step": 77584
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6557274460792542,
      "learning_rate": 2.838327727323989e-05,
      "loss": 1.493,
      "step": 77585
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6860653758049011,
      "learning_rate": 2.8378839648376484e-05,
      "loss": 1.5962,
      "step": 77586
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.681851327419281,
      "learning_rate": 2.8374402353221036e-05,
      "loss": 1.5407,
      "step": 77587
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6735361814498901,
      "learning_rate": 2.836996538777908e-05,
      "loss": 1.4207,
      "step": 77588
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6751039028167725,
      "learning_rate": 2.836552875205601e-05,
      "loss": 1.5339,
      "step": 77589
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.684280276298523,
      "learning_rate": 2.8361092446057155e-05,
      "loss": 1.4853,
      "step": 77590
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6445010304450989,
      "learning_rate": 2.8356656469787876e-05,
      "loss": 1.5666,
      "step": 77591
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6699464917182922,
      "learning_rate": 2.8352220823253636e-05,
      "loss": 1.4688,
      "step": 77592
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.680229127407074,
      "learning_rate": 2.8347785506459765e-05,
      "loss": 1.5065,
      "step": 77593
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6739338040351868,
      "learning_rate": 2.8343350519411622e-05,
      "loss": 1.5822,
      "step": 77594
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6694363951683044,
      "learning_rate": 2.833891586211464e-05,
      "loss": 1.5327,
      "step": 77595
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6897402405738831,
      "learning_rate": 2.833448153457418e-05,
      "loss": 1.5363,
      "step": 77596
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6833832263946533,
      "learning_rate": 2.833004753679564e-05,
      "loss": 1.5216,
      "step": 77597
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6646236777305603,
      "learning_rate": 2.832561386878438e-05,
      "loss": 1.5133,
      "step": 77598
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.677230179309845,
      "learning_rate": 2.832118053054583e-05,
      "loss": 1.5528,
      "step": 77599
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6825263500213623,
      "learning_rate": 2.8316747522085347e-05,
      "loss": 1.5046,
      "step": 77600
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6557803750038147,
      "learning_rate": 2.8312314843408234e-05,
      "loss": 1.5831,
      "step": 77601
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6714158058166504,
      "learning_rate": 2.8307882494519984e-05,
      "loss": 1.574,
      "step": 77602
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7026069760322571,
      "learning_rate": 2.8303450475425893e-05,
      "loss": 1.5805,
      "step": 77603
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6810939311981201,
      "learning_rate": 2.8299018786131455e-05,
      "loss": 1.4944,
      "step": 77604
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.639024555683136,
      "learning_rate": 2.8294587426641933e-05,
      "loss": 1.4879,
      "step": 77605
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6699032187461853,
      "learning_rate": 2.8290156396962728e-05,
      "loss": 1.4574,
      "step": 77606
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6519936919212341,
      "learning_rate": 2.8285725697099294e-05,
      "loss": 1.4714,
      "step": 77607
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6833494305610657,
      "learning_rate": 2.8281295327056862e-05,
      "loss": 1.5171,
      "step": 77608
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6524054408073425,
      "learning_rate": 2.8276865286841e-05,
      "loss": 1.5422,
      "step": 77609
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6512905955314636,
      "learning_rate": 2.8272435576456898e-05,
      "loss": 1.5288,
      "step": 77610
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6745540499687195,
      "learning_rate": 2.8268006195910085e-05,
      "loss": 1.5289,
      "step": 77611
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6631713509559631,
      "learning_rate": 2.8263577145205895e-05,
      "loss": 1.5848,
      "step": 77612
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6693994402885437,
      "learning_rate": 2.8259148424349622e-05,
      "loss": 1.5295,
      "step": 77613
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6571402549743652,
      "learning_rate": 2.8254720033346756e-05,
      "loss": 1.5338,
      "step": 77614
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6883952021598816,
      "learning_rate": 2.82502919722026e-05,
      "loss": 1.4942,
      "step": 77615
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6704181432723999,
      "learning_rate": 2.824586424092251e-05,
      "loss": 1.5121,
      "step": 77616
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6709564328193665,
      "learning_rate": 2.824143683951192e-05,
      "loss": 1.5196,
      "step": 77617
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6655283570289612,
      "learning_rate": 2.8237009767976227e-05,
      "loss": 1.4909,
      "step": 77618
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6611924171447754,
      "learning_rate": 2.823258302632072e-05,
      "loss": 1.4908,
      "step": 77619
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6925214529037476,
      "learning_rate": 2.82281566145508e-05,
      "loss": 1.4713,
      "step": 77620
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6756235361099243,
      "learning_rate": 2.822373053267193e-05,
      "loss": 1.5072,
      "step": 77621
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6569231152534485,
      "learning_rate": 2.8219304780689366e-05,
      "loss": 1.5158,
      "step": 77622
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6859317421913147,
      "learning_rate": 2.8214879358608477e-05,
      "loss": 1.5246,
      "step": 77623
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7120590806007385,
      "learning_rate": 2.821045426643469e-05,
      "loss": 1.535,
      "step": 77624
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6543039679527283,
      "learning_rate": 2.8206029504173465e-05,
      "loss": 1.4411,
      "step": 77625
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.673883318901062,
      "learning_rate": 2.8201605071829968e-05,
      "loss": 1.5156,
      "step": 77626
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6670095920562744,
      "learning_rate": 2.8197180969409662e-05,
      "loss": 1.5579,
      "step": 77627
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6632545590400696,
      "learning_rate": 2.8192757196918004e-05,
      "loss": 1.4511,
      "step": 77628
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.689234733581543,
      "learning_rate": 2.8188333754360258e-05,
      "loss": 1.5788,
      "step": 77629
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6764575839042664,
      "learning_rate": 2.818391064174179e-05,
      "loss": 1.5705,
      "step": 77630
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6257980465888977,
      "learning_rate": 2.817948785906803e-05,
      "loss": 1.4561,
      "step": 77631
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6509414315223694,
      "learning_rate": 2.81750654063444e-05,
      "loss": 1.4681,
      "step": 77632
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6511345505714417,
      "learning_rate": 2.8170643283576065e-05,
      "loss": 1.5135,
      "step": 77633
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6794832944869995,
      "learning_rate": 2.8166221490768557e-05,
      "loss": 1.5141,
      "step": 77634
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6516414284706116,
      "learning_rate": 2.816180002792724e-05,
      "loss": 1.4426,
      "step": 77635
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6801931262016296,
      "learning_rate": 2.8157378895057437e-05,
      "loss": 1.5124,
      "step": 77636
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6792575120925903,
      "learning_rate": 2.815295809216448e-05,
      "loss": 1.535,
      "step": 77637
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6705347895622253,
      "learning_rate": 2.8148537619253764e-05,
      "loss": 1.5448,
      "step": 77638
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6660263538360596,
      "learning_rate": 2.8144117476330784e-05,
      "loss": 1.4671,
      "step": 77639
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6611618399620056,
      "learning_rate": 2.8139697663400673e-05,
      "loss": 1.4717,
      "step": 77640
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6287562847137451,
      "learning_rate": 2.8135278180468922e-05,
      "loss": 1.4386,
      "step": 77641
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6804162263870239,
      "learning_rate": 2.813085902754093e-05,
      "loss": 1.4838,
      "step": 77642
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6714998483657837,
      "learning_rate": 2.8126440204622027e-05,
      "loss": 1.5323,
      "step": 77643
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6637141108512878,
      "learning_rate": 2.8122021711717533e-05,
      "loss": 1.4952,
      "step": 77644
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6586278080940247,
      "learning_rate": 2.8117603548832855e-05,
      "loss": 1.5069,
      "step": 77645
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6506234407424927,
      "learning_rate": 2.8113185715973385e-05,
      "loss": 1.5223,
      "step": 77646
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.700384795665741,
      "learning_rate": 2.8108768213144383e-05,
      "loss": 1.557,
      "step": 77647
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6962698101997375,
      "learning_rate": 2.8104351040351248e-05,
      "loss": 1.5988,
      "step": 77648
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6654771566390991,
      "learning_rate": 2.809993419759944e-05,
      "loss": 1.4868,
      "step": 77649
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6759600639343262,
      "learning_rate": 2.809551768489425e-05,
      "loss": 1.5342,
      "step": 77650
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6457647681236267,
      "learning_rate": 2.809110150224099e-05,
      "loss": 1.5863,
      "step": 77651
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6839454174041748,
      "learning_rate": 2.8086685649645135e-05,
      "loss": 1.5363,
      "step": 77652
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6584748029708862,
      "learning_rate": 2.808227012711196e-05,
      "loss": 1.4778,
      "step": 77653
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6589018106460571,
      "learning_rate": 2.807785493464679e-05,
      "loss": 1.592,
      "step": 77654
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6609742045402527,
      "learning_rate": 2.8073440072255093e-05,
      "loss": 1.5095,
      "step": 77655
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6921914219856262,
      "learning_rate": 2.8069025539942125e-05,
      "loss": 1.4568,
      "step": 77656
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6653690934181213,
      "learning_rate": 2.806461133771335e-05,
      "loss": 1.5768,
      "step": 77657
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6766746640205383,
      "learning_rate": 2.8060197465574e-05,
      "loss": 1.5021,
      "step": 77658
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6483204960823059,
      "learning_rate": 2.8055783923529563e-05,
      "loss": 1.5305,
      "step": 77659
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6780685782432556,
      "learning_rate": 2.805137071158534e-05,
      "loss": 1.5167,
      "step": 77660
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6678765416145325,
      "learning_rate": 2.804695782974663e-05,
      "loss": 1.5693,
      "step": 77661
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6787293553352356,
      "learning_rate": 2.804254527801889e-05,
      "loss": 1.5259,
      "step": 77662
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6852555871009827,
      "learning_rate": 2.8038133056407385e-05,
      "loss": 1.5638,
      "step": 77663
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6940450072288513,
      "learning_rate": 2.8033721164917545e-05,
      "loss": 1.4786,
      "step": 77664
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.647186815738678,
      "learning_rate": 2.8029309603554727e-05,
      "loss": 1.4879,
      "step": 77665
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6637691855430603,
      "learning_rate": 2.802489837232417e-05,
      "loss": 1.5781,
      "step": 77666
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6788630485534668,
      "learning_rate": 2.802048747123139e-05,
      "loss": 1.5603,
      "step": 77667
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6564452052116394,
      "learning_rate": 2.801607690028159e-05,
      "loss": 1.4615,
      "step": 77668
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6837794780731201,
      "learning_rate": 2.801166665948027e-05,
      "loss": 1.5204,
      "step": 77669
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7038957476615906,
      "learning_rate": 2.8007256748832652e-05,
      "loss": 1.5404,
      "step": 77670
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6507613658905029,
      "learning_rate": 2.80028471683442e-05,
      "loss": 1.5372,
      "step": 77671
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6815472841262817,
      "learning_rate": 2.799843791802021e-05,
      "loss": 1.5178,
      "step": 77672
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6452488899230957,
      "learning_rate": 2.7994028997866015e-05,
      "loss": 1.4823,
      "step": 77673
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6806792616844177,
      "learning_rate": 2.7989620407887003e-05,
      "loss": 1.5306,
      "step": 77674
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.684458315372467,
      "learning_rate": 2.7985212148088475e-05,
      "loss": 1.4397,
      "step": 77675
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6679784059524536,
      "learning_rate": 2.7980804218475895e-05,
      "loss": 1.5792,
      "step": 77676
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6894225478172302,
      "learning_rate": 2.7976396619054454e-05,
      "loss": 1.5917,
      "step": 77677
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6779214143753052,
      "learning_rate": 2.7971989349829648e-05,
      "loss": 1.56,
      "step": 77678
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6815025210380554,
      "learning_rate": 2.796758241080678e-05,
      "loss": 1.4807,
      "step": 77679
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6723827123641968,
      "learning_rate": 2.79631758019911e-05,
      "loss": 1.5512,
      "step": 77680
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.673349142074585,
      "learning_rate": 2.795876952338808e-05,
      "loss": 1.4713,
      "step": 77681
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6820874214172363,
      "learning_rate": 2.7954363575003112e-05,
      "loss": 1.5661,
      "step": 77682
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6960051655769348,
      "learning_rate": 2.794995795684136e-05,
      "loss": 1.5585,
      "step": 77683
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6678024530410767,
      "learning_rate": 2.7945552668908255e-05,
      "loss": 1.5023,
      "step": 77684
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6627861261367798,
      "learning_rate": 2.7941147711209254e-05,
      "loss": 1.49,
      "step": 77685
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6841396689414978,
      "learning_rate": 2.793674308374959e-05,
      "loss": 1.5626,
      "step": 77686
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6523941159248352,
      "learning_rate": 2.7932338786534592e-05,
      "loss": 1.4786,
      "step": 77687
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6787223219871521,
      "learning_rate": 2.7927934819569653e-05,
      "loss": 1.577,
      "step": 77688
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.684142529964447,
      "learning_rate": 2.7923531182860203e-05,
      "loss": 1.5231,
      "step": 77689
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6755832433700562,
      "learning_rate": 2.7919127876411406e-05,
      "loss": 1.4842,
      "step": 77690
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6745277643203735,
      "learning_rate": 2.791472490022869e-05,
      "loss": 1.5858,
      "step": 77691
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7018656730651855,
      "learning_rate": 2.791032225431745e-05,
      "loss": 1.5059,
      "step": 77692
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.7108971476554871,
      "learning_rate": 2.790591993868302e-05,
      "loss": 1.5356,
      "step": 77693
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6713134050369263,
      "learning_rate": 2.7901517953330622e-05,
      "loss": 1.5148,
      "step": 77694
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6815863847732544,
      "learning_rate": 2.789711629826572e-05,
      "loss": 1.495,
      "step": 77695
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6879889369010925,
      "learning_rate": 2.7892714973493712e-05,
      "loss": 1.5392,
      "step": 77696
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.6855565309524536,
      "learning_rate": 2.788831397901976e-05,
      "loss": 1.5428,
      "step": 77697
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6787179708480835,
      "learning_rate": 2.7883913314849293e-05,
      "loss": 1.5408,
      "step": 77698
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6524559855461121,
      "learning_rate": 2.7879512980987707e-05,
      "loss": 1.5232,
      "step": 77699
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6973642110824585,
      "learning_rate": 2.7875112977440327e-05,
      "loss": 1.5077,
      "step": 77700
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6574220061302185,
      "learning_rate": 2.7870713304212387e-05,
      "loss": 1.4653,
      "step": 77701
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6971322894096375,
      "learning_rate": 2.786631396130935e-05,
      "loss": 1.5235,
      "step": 77702
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6610488891601562,
      "learning_rate": 2.7861914948736542e-05,
      "loss": 1.5019,
      "step": 77703
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.716158390045166,
      "learning_rate": 2.785751626649919e-05,
      "loss": 1.4743,
      "step": 77704
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6611496210098267,
      "learning_rate": 2.785311791460273e-05,
      "loss": 1.4892,
      "step": 77705
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.693503737449646,
      "learning_rate": 2.784871989305255e-05,
      "loss": 1.5065,
      "step": 77706
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6742265224456787,
      "learning_rate": 2.7844322201853885e-05,
      "loss": 1.4796,
      "step": 77707
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6796647906303406,
      "learning_rate": 2.7839924841012095e-05,
      "loss": 1.4801,
      "step": 77708
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6918622851371765,
      "learning_rate": 2.7835527810532575e-05,
      "loss": 1.5093,
      "step": 77709
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6607242822647095,
      "learning_rate": 2.7831131110420624e-05,
      "loss": 1.4304,
      "step": 77710
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6575786471366882,
      "learning_rate": 2.7826734740681532e-05,
      "loss": 1.5748,
      "step": 77711
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6918526887893677,
      "learning_rate": 2.7822338701320736e-05,
      "loss": 1.5446,
      "step": 77712
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.703528881072998,
      "learning_rate": 2.7817942992343457e-05,
      "loss": 1.5108,
      "step": 77713
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7071887254714966,
      "learning_rate": 2.7813547613755126e-05,
      "loss": 1.5141,
      "step": 77714
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6539421677589417,
      "learning_rate": 2.780915256556101e-05,
      "loss": 1.4824,
      "step": 77715
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6650976538658142,
      "learning_rate": 2.7804757847766533e-05,
      "loss": 1.5487,
      "step": 77716
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6827517151832581,
      "learning_rate": 2.7800363460376963e-05,
      "loss": 1.4917,
      "step": 77717
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6695349812507629,
      "learning_rate": 2.779596940339759e-05,
      "loss": 1.5029,
      "step": 77718
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6752307415008545,
      "learning_rate": 2.7791575676833875e-05,
      "loss": 1.5289,
      "step": 77719
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6947036981582642,
      "learning_rate": 2.778718228069099e-05,
      "loss": 1.5637,
      "step": 77720
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6638711094856262,
      "learning_rate": 2.7782789214974456e-05,
      "loss": 1.4832,
      "step": 77721
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6859251260757446,
      "learning_rate": 2.777839647968947e-05,
      "loss": 1.5101,
      "step": 77722
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6656402945518494,
      "learning_rate": 2.777400407484136e-05,
      "loss": 1.5154,
      "step": 77723
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6721400618553162,
      "learning_rate": 2.776961200043556e-05,
      "loss": 1.5538,
      "step": 77724
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6775496602058411,
      "learning_rate": 2.7765220256477295e-05,
      "loss": 1.4643,
      "step": 77725
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6638679504394531,
      "learning_rate": 2.776082884297196e-05,
      "loss": 1.5299,
      "step": 77726
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6512205600738525,
      "learning_rate": 2.7756437759924853e-05,
      "loss": 1.5043,
      "step": 77727
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6602799892425537,
      "learning_rate": 2.775204700734134e-05,
      "loss": 1.4437,
      "step": 77728
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6724588871002197,
      "learning_rate": 2.774765658522674e-05,
      "loss": 1.4821,
      "step": 77729
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6783718466758728,
      "learning_rate": 2.7743266493586325e-05,
      "loss": 1.5174,
      "step": 77730
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6798464059829712,
      "learning_rate": 2.7738876732425487e-05,
      "loss": 1.5497,
      "step": 77731
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6743303537368774,
      "learning_rate": 2.7734487301749587e-05,
      "loss": 1.5018,
      "step": 77732
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6941302418708801,
      "learning_rate": 2.773009820156382e-05,
      "loss": 1.5924,
      "step": 77733
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6723918914794922,
      "learning_rate": 2.7725709431873588e-05,
      "loss": 1.484,
      "step": 77734
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6940867900848389,
      "learning_rate": 2.7721320992684314e-05,
      "loss": 1.6038,
      "step": 77735
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6790422201156616,
      "learning_rate": 2.77169328840012e-05,
      "loss": 1.6531,
      "step": 77736
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6798014640808105,
      "learning_rate": 2.7712545105829597e-05,
      "loss": 1.5021,
      "step": 77737
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6591858267784119,
      "learning_rate": 2.770815765817488e-05,
      "loss": 1.5164,
      "step": 77738
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.666079044342041,
      "learning_rate": 2.7703770541042304e-05,
      "loss": 1.4824,
      "step": 77739
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6746888160705566,
      "learning_rate": 2.769938375443723e-05,
      "loss": 1.5613,
      "step": 77740
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6852734684944153,
      "learning_rate": 2.7694997298364964e-05,
      "loss": 1.5595,
      "step": 77741
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6835734844207764,
      "learning_rate": 2.7690611172830956e-05,
      "loss": 1.5427,
      "step": 77742
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6801742315292358,
      "learning_rate": 2.768622537784031e-05,
      "loss": 1.5776,
      "step": 77743
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6891506314277649,
      "learning_rate": 2.7681839913398453e-05,
      "loss": 1.4736,
      "step": 77744
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6817463636398315,
      "learning_rate": 2.767745477951078e-05,
      "loss": 1.5316,
      "step": 77745
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6798758506774902,
      "learning_rate": 2.767306997618255e-05,
      "loss": 1.5253,
      "step": 77746
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.68058180809021,
      "learning_rate": 2.7668685503419064e-05,
      "loss": 1.5164,
      "step": 77747
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6585396528244019,
      "learning_rate": 2.7664301361225615e-05,
      "loss": 1.4868,
      "step": 77748
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6802910566329956,
      "learning_rate": 2.7659917549607735e-05,
      "loss": 1.5776,
      "step": 77749
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6504103541374207,
      "learning_rate": 2.765553406857045e-05,
      "loss": 1.4476,
      "step": 77750
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6687050461769104,
      "learning_rate": 2.7651150918119225e-05,
      "loss": 1.6007,
      "step": 77751
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6779215931892395,
      "learning_rate": 2.764676809825942e-05,
      "loss": 1.5118,
      "step": 77752
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6683928966522217,
      "learning_rate": 2.764238560899633e-05,
      "loss": 1.4968,
      "step": 77753
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6913845539093018,
      "learning_rate": 2.763800345033519e-05,
      "loss": 1.5643,
      "step": 77754
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6458499431610107,
      "learning_rate": 2.7633621622281388e-05,
      "loss": 1.5577,
      "step": 77755
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6961883902549744,
      "learning_rate": 2.7629240124840323e-05,
      "loss": 1.5047,
      "step": 77756
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6942175030708313,
      "learning_rate": 2.762485895801716e-05,
      "loss": 1.5551,
      "step": 77757
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6429347991943359,
      "learning_rate": 2.7620478121817257e-05,
      "loss": 1.5133,
      "step": 77758
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6916110515594482,
      "learning_rate": 2.7616097616246014e-05,
      "loss": 1.591,
      "step": 77759
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6772253513336182,
      "learning_rate": 2.7611717441308724e-05,
      "loss": 1.5499,
      "step": 77760
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6675994992256165,
      "learning_rate": 2.760733759701058e-05,
      "loss": 1.5805,
      "step": 77761
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.69936603307724,
      "learning_rate": 2.7602958083357053e-05,
      "loss": 1.5318,
      "step": 77762
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6822047233581543,
      "learning_rate": 2.759857890035343e-05,
      "loss": 1.5395,
      "step": 77763
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.661031186580658,
      "learning_rate": 2.7594200048004912e-05,
      "loss": 1.4407,
      "step": 77764
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6539146304130554,
      "learning_rate": 2.7589821526316924e-05,
      "loss": 1.5391,
      "step": 77765
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6833967566490173,
      "learning_rate": 2.7585443335294766e-05,
      "loss": 1.5671,
      "step": 77766
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6697801947593689,
      "learning_rate": 2.7581065474943798e-05,
      "loss": 1.5845,
      "step": 77767
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6828278303146362,
      "learning_rate": 2.7576687945269183e-05,
      "loss": 1.5355,
      "step": 77768
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.658083438873291,
      "learning_rate": 2.7572310746276384e-05,
      "loss": 1.4706,
      "step": 77769
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6584968566894531,
      "learning_rate": 2.7567933877970695e-05,
      "loss": 1.5054,
      "step": 77770
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6757447123527527,
      "learning_rate": 2.756355734035731e-05,
      "loss": 1.5532,
      "step": 77771
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6732681393623352,
      "learning_rate": 2.7559181133441665e-05,
      "loss": 1.542,
      "step": 77772
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.671459972858429,
      "learning_rate": 2.7554805257229018e-05,
      "loss": 1.475,
      "step": 77773
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.657943069934845,
      "learning_rate": 2.7550429711724698e-05,
      "loss": 1.4626,
      "step": 77774
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7024299502372742,
      "learning_rate": 2.7546054496934e-05,
      "loss": 1.486,
      "step": 77775
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6811025738716125,
      "learning_rate": 2.754167961286229e-05,
      "loss": 1.5661,
      "step": 77776
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6633543968200684,
      "learning_rate": 2.7537305059514824e-05,
      "loss": 1.5455,
      "step": 77777
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.667567253112793,
      "learning_rate": 2.7532930836896904e-05,
      "loss": 1.4666,
      "step": 77778
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6523351669311523,
      "learning_rate": 2.7528556945013892e-05,
      "loss": 1.5071,
      "step": 77779
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6630553007125854,
      "learning_rate": 2.7524183383871012e-05,
      "loss": 1.509,
      "step": 77780
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6793144941329956,
      "learning_rate": 2.7519810153473664e-05,
      "loss": 1.5471,
      "step": 77781
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7199913859367371,
      "learning_rate": 2.7515437253827143e-05,
      "loss": 1.5829,
      "step": 77782
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6711708307266235,
      "learning_rate": 2.7511064684936645e-05,
      "loss": 1.5209,
      "step": 77783
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6705777049064636,
      "learning_rate": 2.7506692446807664e-05,
      "loss": 1.5291,
      "step": 77784
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6687600612640381,
      "learning_rate": 2.7502320539445334e-05,
      "loss": 1.493,
      "step": 77785
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6753266453742981,
      "learning_rate": 2.7497948962855075e-05,
      "loss": 1.553,
      "step": 77786
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6700769066810608,
      "learning_rate": 2.7493577717042126e-05,
      "loss": 1.5282,
      "step": 77787
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6547826528549194,
      "learning_rate": 2.7489206802011842e-05,
      "loss": 1.4669,
      "step": 77788
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6855201125144958,
      "learning_rate": 2.748483621776956e-05,
      "loss": 1.5869,
      "step": 77789
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6811785697937012,
      "learning_rate": 2.748046596432043e-05,
      "loss": 1.4662,
      "step": 77790
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6857113242149353,
      "learning_rate": 2.7476096041669927e-05,
      "loss": 1.4958,
      "step": 77791
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6688306331634521,
      "learning_rate": 2.7471726449823305e-05,
      "loss": 1.5322,
      "step": 77792
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6525090932846069,
      "learning_rate": 2.74673571887858e-05,
      "loss": 1.524,
      "step": 77793
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6652883291244507,
      "learning_rate": 2.7462988258562735e-05,
      "loss": 1.5594,
      "step": 77794
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6561502814292908,
      "learning_rate": 2.7458619659159542e-05,
      "loss": 1.455,
      "step": 77795
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6808112859725952,
      "learning_rate": 2.7454251390581385e-05,
      "loss": 1.5077,
      "step": 77796
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6560264229774475,
      "learning_rate": 2.7449883452833588e-05,
      "loss": 1.4704,
      "step": 77797
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6774919033050537,
      "learning_rate": 2.744551584592145e-05,
      "loss": 1.5401,
      "step": 77798
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6739009618759155,
      "learning_rate": 2.7441148569850436e-05,
      "loss": 1.5263,
      "step": 77799
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6600567698478699,
      "learning_rate": 2.743678162462557e-05,
      "loss": 1.5776,
      "step": 77800
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6900638341903687,
      "learning_rate": 2.7432415010252317e-05,
      "loss": 1.4732,
      "step": 77801
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6616399884223938,
      "learning_rate": 2.7428048726735973e-05,
      "loss": 1.5349,
      "step": 77802
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6735731363296509,
      "learning_rate": 2.7423682774081835e-05,
      "loss": 1.5279,
      "step": 77803
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6737933158874512,
      "learning_rate": 2.7419317152295128e-05,
      "loss": 1.524,
      "step": 77804
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7125493884086609,
      "learning_rate": 2.7414951861381218e-05,
      "loss": 1.5048,
      "step": 77805
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6834220290184021,
      "learning_rate": 2.74105869013455e-05,
      "loss": 1.5369,
      "step": 77806
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6874732375144958,
      "learning_rate": 2.7406222272193033e-05,
      "loss": 1.57,
      "step": 77807
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6733502745628357,
      "learning_rate": 2.7401857973929286e-05,
      "loss": 1.513,
      "step": 77808
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.675783634185791,
      "learning_rate": 2.7397494006559552e-05,
      "loss": 1.5094,
      "step": 77809
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7043723464012146,
      "learning_rate": 2.739313037008909e-05,
      "loss": 1.5635,
      "step": 77810
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6640316247940063,
      "learning_rate": 2.7388767064523132e-05,
      "loss": 1.5295,
      "step": 77811
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6591461896896362,
      "learning_rate": 2.7384404089867074e-05,
      "loss": 1.4651,
      "step": 77812
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6752263903617859,
      "learning_rate": 2.7380041446126278e-05,
      "loss": 1.4785,
      "step": 77813
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6802836656570435,
      "learning_rate": 2.7375679133305807e-05,
      "loss": 1.4083,
      "step": 77814
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6642637252807617,
      "learning_rate": 2.737131715141112e-05,
      "loss": 1.5096,
      "step": 77815
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6997028589248657,
      "learning_rate": 2.736695550044755e-05,
      "loss": 1.5756,
      "step": 77816
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6567643880844116,
      "learning_rate": 2.7362594180420293e-05,
      "loss": 1.551,
      "step": 77817
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6627610325813293,
      "learning_rate": 2.7358233191334645e-05,
      "loss": 1.5018,
      "step": 77818
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6677795648574829,
      "learning_rate": 2.7353872533195998e-05,
      "loss": 1.573,
      "step": 77819
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6616184711456299,
      "learning_rate": 2.734951220600955e-05,
      "loss": 1.527,
      "step": 77820
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6654258966445923,
      "learning_rate": 2.7345152209780563e-05,
      "loss": 1.5508,
      "step": 77821
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6672186255455017,
      "learning_rate": 2.73407925445144e-05,
      "loss": 1.5365,
      "step": 77822
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6758089661598206,
      "learning_rate": 2.733643321021639e-05,
      "loss": 1.5733,
      "step": 77823
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6662001013755798,
      "learning_rate": 2.7332074206891796e-05,
      "loss": 1.5528,
      "step": 77824
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.717278778553009,
      "learning_rate": 2.7327715534545814e-05,
      "loss": 1.5471,
      "step": 77825
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6763779520988464,
      "learning_rate": 2.732335719318387e-05,
      "loss": 1.4763,
      "step": 77826
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6768034100532532,
      "learning_rate": 2.7318999182811165e-05,
      "loss": 1.4922,
      "step": 77827
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6699330806732178,
      "learning_rate": 2.731464150343299e-05,
      "loss": 1.4948,
      "step": 77828
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6417263746261597,
      "learning_rate": 2.731028415505471e-05,
      "loss": 1.4904,
      "step": 77829
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6592757105827332,
      "learning_rate": 2.7305927137681515e-05,
      "loss": 1.5118,
      "step": 77830
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6819447875022888,
      "learning_rate": 2.730157045131881e-05,
      "loss": 1.54,
      "step": 77831
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6575037240982056,
      "learning_rate": 2.7297214095971752e-05,
      "loss": 1.5487,
      "step": 77832
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6758147478103638,
      "learning_rate": 2.729285807164574e-05,
      "loss": 1.524,
      "step": 77833
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6788814067840576,
      "learning_rate": 2.7288502378346033e-05,
      "loss": 1.4949,
      "step": 77834
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.704888105392456,
      "learning_rate": 2.728414701607786e-05,
      "loss": 1.5142,
      "step": 77835
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6860549449920654,
      "learning_rate": 2.7279791984846588e-05,
      "loss": 1.5463,
      "step": 77836
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6838013529777527,
      "learning_rate": 2.727543728465741e-05,
      "loss": 1.4296,
      "step": 77837
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6518977880477905,
      "learning_rate": 2.7271082915515718e-05,
      "loss": 1.5991,
      "step": 77838
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.65891432762146,
      "learning_rate": 2.7266728877426747e-05,
      "loss": 1.5241,
      "step": 77839
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6685050129890442,
      "learning_rate": 2.7262375170395724e-05,
      "loss": 1.4772,
      "step": 77840
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7057617902755737,
      "learning_rate": 2.7258021794428044e-05,
      "loss": 1.4709,
      "step": 77841
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.635876476764679,
      "learning_rate": 2.72536687495289e-05,
      "loss": 1.5575,
      "step": 77842
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6785728931427002,
      "learning_rate": 2.7249316035703662e-05,
      "loss": 1.6013,
      "step": 77843
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6887264251708984,
      "learning_rate": 2.724496365295752e-05,
      "loss": 1.5132,
      "step": 77844
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6767910718917847,
      "learning_rate": 2.7240611601295836e-05,
      "loss": 1.5313,
      "step": 77845
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6701542735099792,
      "learning_rate": 2.7236259880723876e-05,
      "loss": 1.5195,
      "step": 77846
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6447016000747681,
      "learning_rate": 2.7231908491246835e-05,
      "loss": 1.4522,
      "step": 77847
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6936460137367249,
      "learning_rate": 2.722755743287014e-05,
      "loss": 1.6067,
      "step": 77848
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.652912974357605,
      "learning_rate": 2.7223206705598988e-05,
      "loss": 1.5194,
      "step": 77849
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6933632493019104,
      "learning_rate": 2.7218856309438643e-05,
      "loss": 1.5567,
      "step": 77850
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6725811958312988,
      "learning_rate": 2.7214506244394397e-05,
      "loss": 1.5394,
      "step": 77851
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6659078001976013,
      "learning_rate": 2.721015651047158e-05,
      "loss": 1.4993,
      "step": 77852
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6661402583122253,
      "learning_rate": 2.720580710767546e-05,
      "loss": 1.4771,
      "step": 77853
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6885900497436523,
      "learning_rate": 2.720145803601126e-05,
      "loss": 1.4546,
      "step": 77854
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6927012205123901,
      "learning_rate": 2.719710929548431e-05,
      "loss": 1.5165,
      "step": 77855
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6645954847335815,
      "learning_rate": 2.7192760886099908e-05,
      "loss": 1.5211,
      "step": 77856
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6743716597557068,
      "learning_rate": 2.7188412807863215e-05,
      "loss": 1.513,
      "step": 77857
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6646130681037903,
      "learning_rate": 2.7184065060779625e-05,
      "loss": 1.4509,
      "step": 77858
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6750524640083313,
      "learning_rate": 2.717971764485447e-05,
      "loss": 1.5016,
      "step": 77859
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.67620450258255,
      "learning_rate": 2.7175370560092813e-05,
      "loss": 1.5463,
      "step": 77860
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6730432510375977,
      "learning_rate": 2.717102380650008e-05,
      "loss": 1.4969,
      "step": 77861
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6861387491226196,
      "learning_rate": 2.716667738408157e-05,
      "loss": 1.5101,
      "step": 77862
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6622690558433533,
      "learning_rate": 2.7162331292842543e-05,
      "loss": 1.5021,
      "step": 77863
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6563996076583862,
      "learning_rate": 2.715798553278816e-05,
      "loss": 1.5278,
      "step": 77864
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7062128782272339,
      "learning_rate": 2.715364010392379e-05,
      "loss": 1.5678,
      "step": 77865
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6649593114852905,
      "learning_rate": 2.714929500625479e-05,
      "loss": 1.4186,
      "step": 77866
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6691432595252991,
      "learning_rate": 2.7144950239786257e-05,
      "loss": 1.4973,
      "step": 77867
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7021164298057556,
      "learning_rate": 2.714060580452355e-05,
      "loss": 1.5282,
      "step": 77868
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6950217485427856,
      "learning_rate": 2.7136261700471974e-05,
      "loss": 1.5356,
      "step": 77869
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6698728799819946,
      "learning_rate": 2.7131917927636816e-05,
      "loss": 1.515,
      "step": 77870
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6729568243026733,
      "learning_rate": 2.7127574486023205e-05,
      "loss": 1.4817,
      "step": 77871
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.670824408531189,
      "learning_rate": 2.7123231375636543e-05,
      "loss": 1.5556,
      "step": 77872
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6694524884223938,
      "learning_rate": 2.711888859648216e-05,
      "loss": 1.5083,
      "step": 77873
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6643649339675903,
      "learning_rate": 2.7114546148565142e-05,
      "loss": 1.5098,
      "step": 77874
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6838245987892151,
      "learning_rate": 2.711020403189086e-05,
      "loss": 1.5701,
      "step": 77875
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6687961220741272,
      "learning_rate": 2.710586224646464e-05,
      "loss": 1.5377,
      "step": 77876
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.680169403553009,
      "learning_rate": 2.7101520792291677e-05,
      "loss": 1.5813,
      "step": 77877
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6639446020126343,
      "learning_rate": 2.70971796693772e-05,
      "loss": 1.4739,
      "step": 77878
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6577518582344055,
      "learning_rate": 2.709283887772661e-05,
      "loss": 1.4687,
      "step": 77879
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6707416772842407,
      "learning_rate": 2.7088498417345094e-05,
      "loss": 1.513,
      "step": 77880
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6460215449333191,
      "learning_rate": 2.708415828823789e-05,
      "loss": 1.4644,
      "step": 77881
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6460628509521484,
      "learning_rate": 2.7079818490410288e-05,
      "loss": 1.4571,
      "step": 77882
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6597089171409607,
      "learning_rate": 2.7075479023867618e-05,
      "loss": 1.5476,
      "step": 77883
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6695353388786316,
      "learning_rate": 2.707113988861511e-05,
      "loss": 1.4556,
      "step": 77884
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6542389392852783,
      "learning_rate": 2.7066801084657998e-05,
      "loss": 1.6101,
      "step": 77885
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6672452092170715,
      "learning_rate": 2.70624626120016e-05,
      "loss": 1.504,
      "step": 77886
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6633692383766174,
      "learning_rate": 2.7058124470651153e-05,
      "loss": 1.5482,
      "step": 77887
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6830721497535706,
      "learning_rate": 2.705378666061189e-05,
      "loss": 1.4982,
      "step": 77888
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6697028279304504,
      "learning_rate": 2.704944918188916e-05,
      "loss": 1.4806,
      "step": 77889
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.650823712348938,
      "learning_rate": 2.7045112034488138e-05,
      "loss": 1.4611,
      "step": 77890
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6728840470314026,
      "learning_rate": 2.704077521841418e-05,
      "loss": 1.5523,
      "step": 77891
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6777862906455994,
      "learning_rate": 2.703643873367245e-05,
      "loss": 1.5018,
      "step": 77892
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6483227014541626,
      "learning_rate": 2.703210258026831e-05,
      "loss": 1.5602,
      "step": 77893
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6534822583198547,
      "learning_rate": 2.7027766758206993e-05,
      "loss": 1.4275,
      "step": 77894
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6564756631851196,
      "learning_rate": 2.7023431267493656e-05,
      "loss": 1.4424,
      "step": 77895
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6875481009483337,
      "learning_rate": 2.701909610813373e-05,
      "loss": 1.4929,
      "step": 77896
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6503263115882874,
      "learning_rate": 2.7014761280132347e-05,
      "loss": 1.4308,
      "step": 77897
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6491116285324097,
      "learning_rate": 2.7010426783494864e-05,
      "loss": 1.4966,
      "step": 77898
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6759559512138367,
      "learning_rate": 2.7006092618226516e-05,
      "loss": 1.5483,
      "step": 77899
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6586299538612366,
      "learning_rate": 2.7001758784332493e-05,
      "loss": 1.4901,
      "step": 77900
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6549839377403259,
      "learning_rate": 2.6997425281818163e-05,
      "loss": 1.5175,
      "step": 77901
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6679790019989014,
      "learning_rate": 2.6993092110688686e-05,
      "loss": 1.5168,
      "step": 77902
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6420853137969971,
      "learning_rate": 2.698875927094939e-05,
      "loss": 1.5441,
      "step": 77903
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6782999038696289,
      "learning_rate": 2.6984426762605504e-05,
      "loss": 1.5056,
      "step": 77904
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6884394288063049,
      "learning_rate": 2.6980094585662327e-05,
      "loss": 1.5974,
      "step": 77905
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6575759053230286,
      "learning_rate": 2.6975762740125083e-05,
      "loss": 1.5454,
      "step": 77906
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6794797778129578,
      "learning_rate": 2.6971431225999007e-05,
      "loss": 1.5156,
      "step": 77907
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6914950013160706,
      "learning_rate": 2.6967100043289392e-05,
      "loss": 1.5298,
      "step": 77908
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6576889157295227,
      "learning_rate": 2.6962769192001533e-05,
      "loss": 1.4967,
      "step": 77909
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6634045243263245,
      "learning_rate": 2.695843867214056e-05,
      "loss": 1.5409,
      "step": 77910
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6867477297782898,
      "learning_rate": 2.6954108483711834e-05,
      "loss": 1.5974,
      "step": 77911
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6747460961341858,
      "learning_rate": 2.694977862672062e-05,
      "loss": 1.4954,
      "step": 77912
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6752253770828247,
      "learning_rate": 2.694544910117218e-05,
      "loss": 1.511,
      "step": 77913
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6636467576026917,
      "learning_rate": 2.694111990707164e-05,
      "loss": 1.5361,
      "step": 77914
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6644557118415833,
      "learning_rate": 2.6936791044424365e-05,
      "loss": 1.5271,
      "step": 77915
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6751880645751953,
      "learning_rate": 2.6932462513235687e-05,
      "loss": 1.5186,
      "step": 77916
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.660514235496521,
      "learning_rate": 2.6928134313510662e-05,
      "loss": 1.5142,
      "step": 77917
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6497540473937988,
      "learning_rate": 2.6923806445254657e-05,
      "loss": 1.5047,
      "step": 77918
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6507540941238403,
      "learning_rate": 2.691947890847297e-05,
      "loss": 1.4943,
      "step": 77919
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6625215411186218,
      "learning_rate": 2.691515170317079e-05,
      "loss": 1.5351,
      "step": 77920
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.666326105594635,
      "learning_rate": 2.6910824829353315e-05,
      "loss": 1.5196,
      "step": 77921
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6720324754714966,
      "learning_rate": 2.6906498287025878e-05,
      "loss": 1.4472,
      "step": 77922
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6715123057365417,
      "learning_rate": 2.6902172076193807e-05,
      "loss": 1.5456,
      "step": 77923
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6629620790481567,
      "learning_rate": 2.689784619686216e-05,
      "loss": 1.5093,
      "step": 77924
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6637192964553833,
      "learning_rate": 2.6893520649036272e-05,
      "loss": 1.5336,
      "step": 77925
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6623055338859558,
      "learning_rate": 2.68891954327215e-05,
      "loss": 1.5276,
      "step": 77926
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6708931922912598,
      "learning_rate": 2.6884870547922976e-05,
      "loss": 1.5886,
      "step": 77927
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6350972652435303,
      "learning_rate": 2.688054599464593e-05,
      "loss": 1.5004,
      "step": 77928
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6648669838905334,
      "learning_rate": 2.6876221772895656e-05,
      "loss": 1.5574,
      "step": 77929
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.660035252571106,
      "learning_rate": 2.6871897882677518e-05,
      "loss": 1.4617,
      "step": 77930
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6639986038208008,
      "learning_rate": 2.6867574323996542e-05,
      "loss": 1.5909,
      "step": 77931
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6789137721061707,
      "learning_rate": 2.6863251096858096e-05,
      "loss": 1.4696,
      "step": 77932
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6878222227096558,
      "learning_rate": 2.685892820126747e-05,
      "loss": 1.5673,
      "step": 77933
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6543806791305542,
      "learning_rate": 2.685460563722983e-05,
      "loss": 1.5441,
      "step": 77934
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6666236519813538,
      "learning_rate": 2.6850283404750438e-05,
      "loss": 1.502,
      "step": 77935
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6780688166618347,
      "learning_rate": 2.684596150383459e-05,
      "loss": 1.5657,
      "step": 77936
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6661049127578735,
      "learning_rate": 2.6841639934487514e-05,
      "loss": 1.567,
      "step": 77937
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.659192681312561,
      "learning_rate": 2.683731869671437e-05,
      "loss": 1.5009,
      "step": 77938
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6716960072517395,
      "learning_rate": 2.683299779052046e-05,
      "loss": 1.5088,
      "step": 77939
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6629037261009216,
      "learning_rate": 2.682867721591111e-05,
      "loss": 1.5252,
      "step": 77940
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6711755990982056,
      "learning_rate": 2.6824356972891513e-05,
      "loss": 1.5321,
      "step": 77941
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.8082374930381775,
      "learning_rate": 2.6820037061466804e-05,
      "loss": 1.5504,
      "step": 77942
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7063215374946594,
      "learning_rate": 2.6815717481642407e-05,
      "loss": 1.4791,
      "step": 77943
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6757946014404297,
      "learning_rate": 2.6811398233423452e-05,
      "loss": 1.5329,
      "step": 77944
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6731899380683899,
      "learning_rate": 2.6807079316815173e-05,
      "loss": 1.5282,
      "step": 77945
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.673058807849884,
      "learning_rate": 2.680276073182289e-05,
      "loss": 1.5532,
      "step": 77946
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6548066139221191,
      "learning_rate": 2.6798442478451743e-05,
      "loss": 1.4709,
      "step": 77947
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6775734424591064,
      "learning_rate": 2.679412455670712e-05,
      "loss": 1.6062,
      "step": 77948
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.658307671546936,
      "learning_rate": 2.6789806966594086e-05,
      "loss": 1.51,
      "step": 77949
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6590585112571716,
      "learning_rate": 2.6785489708118036e-05,
      "loss": 1.4793,
      "step": 77950
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6508509516716003,
      "learning_rate": 2.6781172781284133e-05,
      "loss": 1.5315,
      "step": 77951
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6705535054206848,
      "learning_rate": 2.6776856186097574e-05,
      "loss": 1.5074,
      "step": 77952
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6866099834442139,
      "learning_rate": 2.677253992256375e-05,
      "loss": 1.5436,
      "step": 77953
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6671079397201538,
      "learning_rate": 2.6768223990687697e-05,
      "loss": 1.5294,
      "step": 77954
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.676795244216919,
      "learning_rate": 2.676390839047484e-05,
      "loss": 1.5712,
      "step": 77955
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.665900707244873,
      "learning_rate": 2.6759593121930347e-05,
      "loss": 1.5436,
      "step": 77956
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6576545238494873,
      "learning_rate": 2.675527818505937e-05,
      "loss": 1.5983,
      "step": 77957
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6713851094245911,
      "learning_rate": 2.675096357986731e-05,
      "loss": 1.4385,
      "step": 77958
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6450529098510742,
      "learning_rate": 2.6746649306359237e-05,
      "loss": 1.4762,
      "step": 77959
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6669678092002869,
      "learning_rate": 2.6742335364540536e-05,
      "loss": 1.5563,
      "step": 77960
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6644803881645203,
      "learning_rate": 2.6738021754416306e-05,
      "loss": 1.522,
      "step": 77961
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6509530544281006,
      "learning_rate": 2.6733708475991943e-05,
      "loss": 1.4654,
      "step": 77962
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6459410190582275,
      "learning_rate": 2.672939552927258e-05,
      "loss": 1.5264,
      "step": 77963
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6621449589729309,
      "learning_rate": 2.6725082914263406e-05,
      "loss": 1.5389,
      "step": 77964
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6798494458198547,
      "learning_rate": 2.6720770630969758e-05,
      "loss": 1.4942,
      "step": 77965
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6498856544494629,
      "learning_rate": 2.6716458679396856e-05,
      "loss": 1.5207,
      "step": 77966
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6768041253089905,
      "learning_rate": 2.6712147059549838e-05,
      "loss": 1.5912,
      "step": 77967
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6602358818054199,
      "learning_rate": 2.6707835771433994e-05,
      "loss": 1.4966,
      "step": 77968
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6526341438293457,
      "learning_rate": 2.6703524815054657e-05,
      "loss": 1.5283,
      "step": 77969
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6575821042060852,
      "learning_rate": 2.6699214190416952e-05,
      "loss": 1.4712,
      "step": 77970
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6597743630409241,
      "learning_rate": 2.6694903897526078e-05,
      "loss": 1.5075,
      "step": 77971
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6710281372070312,
      "learning_rate": 2.669059393638736e-05,
      "loss": 1.5105,
      "step": 77972
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6920748353004456,
      "learning_rate": 2.6686284307006e-05,
      "loss": 1.4262,
      "step": 77973
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6557576060295105,
      "learning_rate": 2.668197500938719e-05,
      "loss": 1.5181,
      "step": 77974
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6873922944068909,
      "learning_rate": 2.6677666043536163e-05,
      "loss": 1.5476,
      "step": 77975
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6551079154014587,
      "learning_rate": 2.6673357409458275e-05,
      "loss": 1.5078,
      "step": 77976
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6981432437896729,
      "learning_rate": 2.666904910715859e-05,
      "loss": 1.6089,
      "step": 77977
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6829522848129272,
      "learning_rate": 2.6664741136642377e-05,
      "loss": 1.5503,
      "step": 77978
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6841148138046265,
      "learning_rate": 2.666043349791496e-05,
      "loss": 1.5077,
      "step": 77979
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6590425372123718,
      "learning_rate": 2.6656126190981496e-05,
      "loss": 1.4727,
      "step": 77980
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6701492071151733,
      "learning_rate": 2.665181921584716e-05,
      "loss": 1.5126,
      "step": 77981
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7102230191230774,
      "learning_rate": 2.6647512572517272e-05,
      "loss": 1.5184,
      "step": 77982
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.678728461265564,
      "learning_rate": 2.6643206260997098e-05,
      "loss": 1.4878,
      "step": 77983
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6692759990692139,
      "learning_rate": 2.6638900281291697e-05,
      "loss": 1.5132,
      "step": 77984
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.7057604193687439,
      "learning_rate": 2.6634594633406404e-05,
      "loss": 1.4535,
      "step": 77985
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6595611572265625,
      "learning_rate": 2.6630289317346475e-05,
      "loss": 1.4577,
      "step": 77986
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6686223745346069,
      "learning_rate": 2.662598433311711e-05,
      "loss": 1.5514,
      "step": 77987
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6691238284111023,
      "learning_rate": 2.662167968072344e-05,
      "loss": 1.5228,
      "step": 77988
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6657208800315857,
      "learning_rate": 2.6617375360170788e-05,
      "loss": 1.5494,
      "step": 77989
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.665591299533844,
      "learning_rate": 2.6613071371464488e-05,
      "loss": 1.5479,
      "step": 77990
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6713882684707642,
      "learning_rate": 2.66087677146095e-05,
      "loss": 1.5225,
      "step": 77991
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6947087049484253,
      "learning_rate": 2.6604464389611192e-05,
      "loss": 1.6457,
      "step": 77992
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6932746171951294,
      "learning_rate": 2.6600161396474852e-05,
      "loss": 1.5208,
      "step": 77993
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.666226863861084,
      "learning_rate": 2.659585873520561e-05,
      "loss": 1.4845,
      "step": 77994
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6733183264732361,
      "learning_rate": 2.6591556405808668e-05,
      "loss": 1.5328,
      "step": 77995
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6883540153503418,
      "learning_rate": 2.658725440828935e-05,
      "loss": 1.5545,
      "step": 77996
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6692036390304565,
      "learning_rate": 2.6582952742652818e-05,
      "loss": 1.478,
      "step": 77997
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6770203113555908,
      "learning_rate": 2.657865140890424e-05,
      "loss": 1.5357,
      "step": 77998
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6634456515312195,
      "learning_rate": 2.6574350407048873e-05,
      "loss": 1.5075,
      "step": 77999
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7032603025436401,
      "learning_rate": 2.6570049737092047e-05,
      "loss": 1.5047,
      "step": 78000
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6681756377220154,
      "learning_rate": 2.656574939903886e-05,
      "loss": 1.5354,
      "step": 78001
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6581652164459229,
      "learning_rate": 2.6561449392894542e-05,
      "loss": 1.4245,
      "step": 78002
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7031581401824951,
      "learning_rate": 2.655714971866435e-05,
      "loss": 1.5461,
      "step": 78003
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6672359704971313,
      "learning_rate": 2.6552850376353518e-05,
      "loss": 1.5456,
      "step": 78004
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6643139123916626,
      "learning_rate": 2.6548551365967176e-05,
      "loss": 1.4842,
      "step": 78005
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7180127501487732,
      "learning_rate": 2.6544252687510647e-05,
      "loss": 1.4587,
      "step": 78006
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.681920051574707,
      "learning_rate": 2.653995434098907e-05,
      "loss": 1.5234,
      "step": 78007
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6719735264778137,
      "learning_rate": 2.6535656326407728e-05,
      "loss": 1.5221,
      "step": 78008
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6563929915428162,
      "learning_rate": 2.6531358643771762e-05,
      "loss": 1.4341,
      "step": 78009
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6680766940116882,
      "learning_rate": 2.6527061293086494e-05,
      "loss": 1.5043,
      "step": 78010
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.668704092502594,
      "learning_rate": 2.6522764274357056e-05,
      "loss": 1.4694,
      "step": 78011
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6664385795593262,
      "learning_rate": 2.6518467587588643e-05,
      "loss": 1.5667,
      "step": 78012
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6582565307617188,
      "learning_rate": 2.6514171232786584e-05,
      "loss": 1.5315,
      "step": 78013
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6815732717514038,
      "learning_rate": 2.6509875209955944e-05,
      "loss": 1.5055,
      "step": 78014
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6926791667938232,
      "learning_rate": 2.6505579519102117e-05,
      "loss": 1.513,
      "step": 78015
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6662083864212036,
      "learning_rate": 2.6501284160230163e-05,
      "loss": 1.5556,
      "step": 78016
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6581313014030457,
      "learning_rate": 2.6496989133345348e-05,
      "loss": 1.5273,
      "step": 78017
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6538944840431213,
      "learning_rate": 2.64926944384529e-05,
      "loss": 1.5539,
      "step": 78018
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6731643080711365,
      "learning_rate": 2.6488400075558014e-05,
      "loss": 1.5782,
      "step": 78019
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6687482595443726,
      "learning_rate": 2.648410604466592e-05,
      "loss": 1.5049,
      "step": 78020
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.690778911113739,
      "learning_rate": 2.647981234578178e-05,
      "loss": 1.5072,
      "step": 78021
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6699897646903992,
      "learning_rate": 2.6475518978910926e-05,
      "loss": 1.5154,
      "step": 78022
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6573733687400818,
      "learning_rate": 2.647122594405845e-05,
      "loss": 1.5181,
      "step": 78023
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6681855320930481,
      "learning_rate": 2.6466933241229582e-05,
      "loss": 1.4957,
      "step": 78024
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.659971296787262,
      "learning_rate": 2.6462640870429518e-05,
      "loss": 1.5056,
      "step": 78025
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6621478199958801,
      "learning_rate": 2.6458348831663655e-05,
      "loss": 1.471,
      "step": 78026
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6626520752906799,
      "learning_rate": 2.6454057124936923e-05,
      "loss": 1.5045,
      "step": 78027
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6830752491950989,
      "learning_rate": 2.644976575025465e-05,
      "loss": 1.5427,
      "step": 78028
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6672411561012268,
      "learning_rate": 2.6445474707622127e-05,
      "loss": 1.4825,
      "step": 78029
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6822332143783569,
      "learning_rate": 2.6441183997044492e-05,
      "loss": 1.5258,
      "step": 78030
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6640492677688599,
      "learning_rate": 2.64368936185269e-05,
      "loss": 1.4845,
      "step": 78031
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.670084536075592,
      "learning_rate": 2.6432603572074584e-05,
      "loss": 1.5179,
      "step": 78032
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6782470345497131,
      "learning_rate": 2.6428313857692906e-05,
      "loss": 1.5877,
      "step": 78033
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.688066840171814,
      "learning_rate": 2.642402447538683e-05,
      "loss": 1.4707,
      "step": 78034
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7062594294548035,
      "learning_rate": 2.6419735425161713e-05,
      "loss": 1.4298,
      "step": 78035
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6817219257354736,
      "learning_rate": 2.641544670702276e-05,
      "loss": 1.5646,
      "step": 78036
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6870680451393127,
      "learning_rate": 2.6411158320975123e-05,
      "loss": 1.5516,
      "step": 78037
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6795315146446228,
      "learning_rate": 2.6406870267024003e-05,
      "loss": 1.5084,
      "step": 78038
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6685318946838379,
      "learning_rate": 2.64025825451746e-05,
      "loss": 1.5256,
      "step": 78039
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6748294830322266,
      "learning_rate": 2.639829515543227e-05,
      "loss": 1.4903,
      "step": 78040
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.667570173740387,
      "learning_rate": 2.6394008097802012e-05,
      "loss": 1.5522,
      "step": 78041
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6653213500976562,
      "learning_rate": 2.6389721372289086e-05,
      "loss": 1.5167,
      "step": 78042
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6752474904060364,
      "learning_rate": 2.638543497889879e-05,
      "loss": 1.5899,
      "step": 78043
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.675162672996521,
      "learning_rate": 2.6381148917636252e-05,
      "loss": 1.4789,
      "step": 78044
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.693040132522583,
      "learning_rate": 2.6376863188506637e-05,
      "loss": 1.5335,
      "step": 78045
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6631224751472473,
      "learning_rate": 2.6372577791515202e-05,
      "loss": 1.4551,
      "step": 78046
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.666354238986969,
      "learning_rate": 2.636829272666722e-05,
      "loss": 1.503,
      "step": 78047
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6786094903945923,
      "learning_rate": 2.636400799396774e-05,
      "loss": 1.5929,
      "step": 78048
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6703566312789917,
      "learning_rate": 2.6359723593422e-05,
      "loss": 1.5348,
      "step": 78049
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7075530886650085,
      "learning_rate": 2.6355439525035326e-05,
      "loss": 1.5969,
      "step": 78050
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6891317367553711,
      "learning_rate": 2.6351155788812818e-05,
      "loss": 1.5464,
      "step": 78051
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6740602850914001,
      "learning_rate": 2.634687238475963e-05,
      "loss": 1.5018,
      "step": 78052
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6554398536682129,
      "learning_rate": 2.634258931288107e-05,
      "loss": 1.515,
      "step": 78053
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.678565502166748,
      "learning_rate": 2.6338306573182287e-05,
      "loss": 1.5559,
      "step": 78054
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6866061687469482,
      "learning_rate": 2.633402416566842e-05,
      "loss": 1.5024,
      "step": 78055
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6847424507141113,
      "learning_rate": 2.6329742090344698e-05,
      "loss": 1.4319,
      "step": 78056
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6645175218582153,
      "learning_rate": 2.632546034721644e-05,
      "loss": 1.5366,
      "step": 78057
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6953918933868408,
      "learning_rate": 2.6321178936288757e-05,
      "loss": 1.5472,
      "step": 78058
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6520975232124329,
      "learning_rate": 2.631689785756673e-05,
      "loss": 1.5651,
      "step": 78059
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6726930737495422,
      "learning_rate": 2.6312617111055766e-05,
      "loss": 1.4541,
      "step": 78060
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6756220459938049,
      "learning_rate": 2.6308336696760956e-05,
      "loss": 1.539,
      "step": 78061
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.692442774772644,
      "learning_rate": 2.630405661468743e-05,
      "loss": 1.497,
      "step": 78062
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6658211946487427,
      "learning_rate": 2.6299776864840517e-05,
      "loss": 1.4523,
      "step": 78063
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6656114459037781,
      "learning_rate": 2.629549744722528e-05,
      "loss": 1.5272,
      "step": 78064
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6393686532974243,
      "learning_rate": 2.6291218361847043e-05,
      "loss": 1.4264,
      "step": 78065
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6633356809616089,
      "learning_rate": 2.6286939608710877e-05,
      "loss": 1.5161,
      "step": 78066
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6488279700279236,
      "learning_rate": 2.6282661187822073e-05,
      "loss": 1.4815,
      "step": 78067
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6616169214248657,
      "learning_rate": 2.627838309918583e-05,
      "loss": 1.5356,
      "step": 78068
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.672122597694397,
      "learning_rate": 2.6274105342807207e-05,
      "loss": 1.5289,
      "step": 78069
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6741980314254761,
      "learning_rate": 2.6269827918691566e-05,
      "loss": 1.491,
      "step": 78070
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.667874813079834,
      "learning_rate": 2.6265550826843972e-05,
      "loss": 1.543,
      "step": 78071
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6607770919799805,
      "learning_rate": 2.6261274067269687e-05,
      "loss": 1.4649,
      "step": 78072
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6821762919425964,
      "learning_rate": 2.6256997639973908e-05,
      "loss": 1.5674,
      "step": 78073
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6943325400352478,
      "learning_rate": 2.6252721544961765e-05,
      "loss": 1.5541,
      "step": 78074
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6533724069595337,
      "learning_rate": 2.6248445782238516e-05,
      "loss": 1.4701,
      "step": 78075
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6420952677726746,
      "learning_rate": 2.6244170351809256e-05,
      "loss": 1.5383,
      "step": 78076
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6926655173301697,
      "learning_rate": 2.623989525367929e-05,
      "loss": 1.4086,
      "step": 78077
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6755316853523254,
      "learning_rate": 2.6235620487853703e-05,
      "loss": 1.5106,
      "step": 78078
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6718037128448486,
      "learning_rate": 2.6231346054337797e-05,
      "loss": 1.5554,
      "step": 78079
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6799567341804504,
      "learning_rate": 2.62270719531367e-05,
      "loss": 1.5239,
      "step": 78080
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6827026009559631,
      "learning_rate": 2.6222798184255545e-05,
      "loss": 1.5702,
      "step": 78081
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6822062134742737,
      "learning_rate": 2.621852474769962e-05,
      "loss": 1.514,
      "step": 78082
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6530251502990723,
      "learning_rate": 2.621425164347406e-05,
      "loss": 1.4723,
      "step": 78083
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6567844152450562,
      "learning_rate": 2.6209978871584026e-05,
      "loss": 1.4553,
      "step": 78084
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6727449297904968,
      "learning_rate": 2.6205706432034713e-05,
      "loss": 1.4976,
      "step": 78085
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6870863437652588,
      "learning_rate": 2.6201434324831415e-05,
      "loss": 1.5234,
      "step": 78086
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6874544024467468,
      "learning_rate": 2.61971625499792e-05,
      "loss": 1.5438,
      "step": 78087
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6626701951026917,
      "learning_rate": 2.619289110748326e-05,
      "loss": 1.4819,
      "step": 78088
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6808323860168457,
      "learning_rate": 2.6188619997348858e-05,
      "loss": 1.5708,
      "step": 78089
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6481925249099731,
      "learning_rate": 2.6184349219581125e-05,
      "loss": 1.4936,
      "step": 78090
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6672337055206299,
      "learning_rate": 2.6180078774185153e-05,
      "loss": 1.5173,
      "step": 78091
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7024035453796387,
      "learning_rate": 2.6175808661166274e-05,
      "loss": 1.4137,
      "step": 78092
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6940916776657104,
      "learning_rate": 2.6171538880529684e-05,
      "loss": 1.58,
      "step": 78093
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6692835688591003,
      "learning_rate": 2.6167269432280413e-05,
      "loss": 1.5807,
      "step": 78094
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6721875667572021,
      "learning_rate": 2.6163000316423754e-05,
      "loss": 1.5327,
      "step": 78095
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6766473650932312,
      "learning_rate": 2.6158731532964873e-05,
      "loss": 1.5164,
      "step": 78096
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6676016449928284,
      "learning_rate": 2.615446308190896e-05,
      "loss": 1.5433,
      "step": 78097
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6726493835449219,
      "learning_rate": 2.615019496326115e-05,
      "loss": 1.5047,
      "step": 78098
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6789961457252502,
      "learning_rate": 2.6145927177026603e-05,
      "loss": 1.5852,
      "step": 78099
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6906246542930603,
      "learning_rate": 2.614165972321072e-05,
      "loss": 1.5391,
      "step": 78100
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6720259189605713,
      "learning_rate": 2.6137392601818352e-05,
      "loss": 1.5282,
      "step": 78101
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6997281908988953,
      "learning_rate": 2.613312581285487e-05,
      "loss": 1.5374,
      "step": 78102
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6918599009513855,
      "learning_rate": 2.6128859356325437e-05,
      "loss": 1.5187,
      "step": 78103
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6804738640785217,
      "learning_rate": 2.6124593232235246e-05,
      "loss": 1.4866,
      "step": 78104
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6917992830276489,
      "learning_rate": 2.6120327440589394e-05,
      "loss": 1.5565,
      "step": 78105
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6849203705787659,
      "learning_rate": 2.611606198139311e-05,
      "loss": 1.508,
      "step": 78106
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6524695754051208,
      "learning_rate": 2.6111796854651655e-05,
      "loss": 1.5002,
      "step": 78107
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7043516039848328,
      "learning_rate": 2.6107532060370028e-05,
      "loss": 1.4911,
      "step": 78108
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6770125031471252,
      "learning_rate": 2.610326759855349e-05,
      "loss": 1.4866,
      "step": 78109
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6649274230003357,
      "learning_rate": 2.60990034692073e-05,
      "loss": 1.4194,
      "step": 78110
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6768165230751038,
      "learning_rate": 2.6094739672336562e-05,
      "loss": 1.5285,
      "step": 78111
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6732034087181091,
      "learning_rate": 2.6090476207946397e-05,
      "loss": 1.5062,
      "step": 78112
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7070525288581848,
      "learning_rate": 2.6086213076042105e-05,
      "loss": 1.5247,
      "step": 78113
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6694509387016296,
      "learning_rate": 2.6081950276628748e-05,
      "loss": 1.525,
      "step": 78114
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.667158305644989,
      "learning_rate": 2.6077687809711524e-05,
      "loss": 1.4956,
      "step": 78115
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6567593812942505,
      "learning_rate": 2.6073425675295623e-05,
      "loss": 1.5164,
      "step": 78116
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6590229272842407,
      "learning_rate": 2.606916387338628e-05,
      "loss": 1.4927,
      "step": 78117
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6590652465820312,
      "learning_rate": 2.6064902403988587e-05,
      "loss": 1.4807,
      "step": 78118
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7031442523002625,
      "learning_rate": 2.6060641267107708e-05,
      "loss": 1.5443,
      "step": 78119
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6786493062973022,
      "learning_rate": 2.605638046274887e-05,
      "loss": 1.5287,
      "step": 78120
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.8607333302497864,
      "learning_rate": 2.605211999091724e-05,
      "loss": 1.5555,
      "step": 78121
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7001358866691589,
      "learning_rate": 2.6047859851617946e-05,
      "loss": 1.5655,
      "step": 78122
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6413675546646118,
      "learning_rate": 2.6043600044856218e-05,
      "loss": 1.4833,
      "step": 78123
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6530492305755615,
      "learning_rate": 2.6039340570637114e-05,
      "loss": 1.5228,
      "step": 78124
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6716304421424866,
      "learning_rate": 2.6035081428965964e-05,
      "loss": 1.4896,
      "step": 78125
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.672435462474823,
      "learning_rate": 2.6030822619847803e-05,
      "loss": 1.4844,
      "step": 78126
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6555399894714355,
      "learning_rate": 2.602656414328792e-05,
      "loss": 1.5329,
      "step": 78127
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6686533093452454,
      "learning_rate": 2.6022305999291416e-05,
      "loss": 1.5446,
      "step": 78128
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6928979158401489,
      "learning_rate": 2.6018048187863382e-05,
      "loss": 1.6633,
      "step": 78129
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6996951699256897,
      "learning_rate": 2.6013790709009153e-05,
      "loss": 1.5369,
      "step": 78130
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7062002420425415,
      "learning_rate": 2.6009533562733754e-05,
      "loss": 1.5589,
      "step": 78131
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6731193661689758,
      "learning_rate": 2.6005276749042447e-05,
      "loss": 1.5512,
      "step": 78132
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6930152177810669,
      "learning_rate": 2.6001020267940365e-05,
      "loss": 1.4992,
      "step": 78133
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6742684841156006,
      "learning_rate": 2.5996764119432635e-05,
      "loss": 1.4822,
      "step": 78134
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6587844491004944,
      "learning_rate": 2.5992508303524517e-05,
      "loss": 1.4632,
      "step": 78135
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.662603497505188,
      "learning_rate": 2.5988252820221046e-05,
      "loss": 1.481,
      "step": 78136
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6555437445640564,
      "learning_rate": 2.5983997669527546e-05,
      "loss": 1.4521,
      "step": 78137
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6678391098976135,
      "learning_rate": 2.5979742851449014e-05,
      "loss": 1.5004,
      "step": 78138
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6694100499153137,
      "learning_rate": 2.5975488365990783e-05,
      "loss": 1.5214,
      "step": 78139
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6841750741004944,
      "learning_rate": 2.597123421315791e-05,
      "loss": 1.5708,
      "step": 78140
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6608445644378662,
      "learning_rate": 2.5966980392955527e-05,
      "loss": 1.4717,
      "step": 78141
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6686874032020569,
      "learning_rate": 2.5962726905388864e-05,
      "loss": 1.4846,
      "step": 78142
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6777692437171936,
      "learning_rate": 2.5958473750463183e-05,
      "loss": 1.5342,
      "step": 78143
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.699852466583252,
      "learning_rate": 2.595422092818341e-05,
      "loss": 1.5516,
      "step": 78144
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6580176949501038,
      "learning_rate": 2.5949968438554845e-05,
      "loss": 1.527,
      "step": 78145
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6598160266876221,
      "learning_rate": 2.594571628158272e-05,
      "loss": 1.4831,
      "step": 78146
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6569367051124573,
      "learning_rate": 2.594146445727209e-05,
      "loss": 1.5099,
      "step": 78147
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6752978563308716,
      "learning_rate": 2.5937212965628086e-05,
      "loss": 1.5434,
      "step": 78148
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6561513543128967,
      "learning_rate": 2.5932961806655904e-05,
      "loss": 1.5186,
      "step": 78149
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6868085861206055,
      "learning_rate": 2.592871098036088e-05,
      "loss": 1.5352,
      "step": 78150
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6443599462509155,
      "learning_rate": 2.5924460486747865e-05,
      "loss": 1.5125,
      "step": 78151
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6643956303596497,
      "learning_rate": 2.59202103258222e-05,
      "loss": 1.5735,
      "step": 78152
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.686030387878418,
      "learning_rate": 2.5915960497589072e-05,
      "loss": 1.4536,
      "step": 78153
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6907704472541809,
      "learning_rate": 2.5911711002053548e-05,
      "loss": 1.4911,
      "step": 78154
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6744736433029175,
      "learning_rate": 2.590746183922079e-05,
      "loss": 1.4857,
      "step": 78155
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6453590989112854,
      "learning_rate": 2.590321300909599e-05,
      "loss": 1.4916,
      "step": 78156
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6853905320167542,
      "learning_rate": 2.5898964511684416e-05,
      "loss": 1.6077,
      "step": 78157
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6846494674682617,
      "learning_rate": 2.589471634699103e-05,
      "loss": 1.5196,
      "step": 78158
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6784170269966125,
      "learning_rate": 2.5890468515021024e-05,
      "loss": 1.5383,
      "step": 78159
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6484823822975159,
      "learning_rate": 2.5886221015779662e-05,
      "loss": 1.5059,
      "step": 78160
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.647861897945404,
      "learning_rate": 2.5881973849272075e-05,
      "loss": 1.5467,
      "step": 78161
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6677588820457458,
      "learning_rate": 2.587772701550329e-05,
      "loss": 1.4552,
      "step": 78162
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6646876335144043,
      "learning_rate": 2.5873480514478574e-05,
      "loss": 1.5476,
      "step": 78163
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6538200378417969,
      "learning_rate": 2.5869234346203148e-05,
      "loss": 1.429,
      "step": 78164
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.656292736530304,
      "learning_rate": 2.5864988510681982e-05,
      "loss": 1.5691,
      "step": 78165
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6874548196792603,
      "learning_rate": 2.5860743007920336e-05,
      "loss": 1.4735,
      "step": 78166
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6490641236305237,
      "learning_rate": 2.5856497837923407e-05,
      "loss": 1.5107,
      "step": 78167
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6665696501731873,
      "learning_rate": 2.585225300069632e-05,
      "loss": 1.5355,
      "step": 78168
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6817225813865662,
      "learning_rate": 2.584800849624411e-05,
      "loss": 1.4997,
      "step": 78169
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6768734455108643,
      "learning_rate": 2.5843764324572102e-05,
      "loss": 1.5077,
      "step": 78170
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6459308862686157,
      "learning_rate": 2.583952048568536e-05,
      "loss": 1.485,
      "step": 78171
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6692794561386108,
      "learning_rate": 2.5835276979588983e-05,
      "loss": 1.5348,
      "step": 78172
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.675754964351654,
      "learning_rate": 2.5831033806288193e-05,
      "loss": 1.5206,
      "step": 78173
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6578564047813416,
      "learning_rate": 2.582679096578819e-05,
      "loss": 1.5667,
      "step": 78174
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6739610433578491,
      "learning_rate": 2.582254845809404e-05,
      "loss": 1.4764,
      "step": 78175
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6736224889755249,
      "learning_rate": 2.58183062832109e-05,
      "loss": 1.4563,
      "step": 78176
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6639631986618042,
      "learning_rate": 2.5814064441143967e-05,
      "loss": 1.5299,
      "step": 78177
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6729451417922974,
      "learning_rate": 2.5809822931898373e-05,
      "loss": 1.5012,
      "step": 78178
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6562355756759644,
      "learning_rate": 2.580558175547921e-05,
      "loss": 1.5436,
      "step": 78179
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6595683097839355,
      "learning_rate": 2.580134091189171e-05,
      "loss": 1.5226,
      "step": 78180
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6530787944793701,
      "learning_rate": 2.5797100401140903e-05,
      "loss": 1.4998,
      "step": 78181
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6774362921714783,
      "learning_rate": 2.5792860223232083e-05,
      "loss": 1.5639,
      "step": 78182
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6440274715423584,
      "learning_rate": 2.578862037817031e-05,
      "loss": 1.4931,
      "step": 78183
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6792236566543579,
      "learning_rate": 2.578438086596075e-05,
      "loss": 1.4872,
      "step": 78184
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6882121562957764,
      "learning_rate": 2.578014168660857e-05,
      "loss": 1.5284,
      "step": 78185
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6699408292770386,
      "learning_rate": 2.5775902840118855e-05,
      "loss": 1.465,
      "step": 78186
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.67877596616745,
      "learning_rate": 2.5771664326496843e-05,
      "loss": 1.5652,
      "step": 78187
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6524790525436401,
      "learning_rate": 2.576742614574756e-05,
      "loss": 1.4619,
      "step": 78188
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6590509414672852,
      "learning_rate": 2.5763188297876268e-05,
      "loss": 1.5376,
      "step": 78189
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6992487907409668,
      "learning_rate": 2.575895078288803e-05,
      "loss": 1.4702,
      "step": 78190
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6610536575317383,
      "learning_rate": 2.5754713600788013e-05,
      "loss": 1.4008,
      "step": 78191
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6603051424026489,
      "learning_rate": 2.5750476751581405e-05,
      "loss": 1.5122,
      "step": 78192
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6757607460021973,
      "learning_rate": 2.574624023527324e-05,
      "loss": 1.4941,
      "step": 78193
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6693532466888428,
      "learning_rate": 2.574200405186878e-05,
      "loss": 1.479,
      "step": 78194
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6667144298553467,
      "learning_rate": 2.5737768201373086e-05,
      "loss": 1.4949,
      "step": 78195
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6952549815177917,
      "learning_rate": 2.573353268379139e-05,
      "loss": 1.538,
      "step": 78196
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6743284463882446,
      "learning_rate": 2.5729297499128753e-05,
      "loss": 1.5355,
      "step": 78197
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6883400082588196,
      "learning_rate": 2.572506264739027e-05,
      "loss": 1.4476,
      "step": 78198
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6795847415924072,
      "learning_rate": 2.572082812858124e-05,
      "loss": 1.565,
      "step": 78199
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6648589968681335,
      "learning_rate": 2.5716593942706685e-05,
      "loss": 1.4418,
      "step": 78200
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6687431335449219,
      "learning_rate": 2.571236008977171e-05,
      "loss": 1.5249,
      "step": 78201
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6710340976715088,
      "learning_rate": 2.570812656978154e-05,
      "loss": 1.4811,
      "step": 78202
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6625399589538574,
      "learning_rate": 2.5703893382741335e-05,
      "loss": 1.4478,
      "step": 78203
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6932130455970764,
      "learning_rate": 2.5699660528656198e-05,
      "loss": 1.4626,
      "step": 78204
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6692051887512207,
      "learning_rate": 2.569542800753118e-05,
      "loss": 1.5223,
      "step": 78205
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6957215070724487,
      "learning_rate": 2.5691195819371557e-05,
      "loss": 1.4782,
      "step": 78206
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.689318060874939,
      "learning_rate": 2.5686963964182417e-05,
      "loss": 1.6114,
      "step": 78207
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6679288744926453,
      "learning_rate": 2.5682732441968824e-05,
      "loss": 1.5391,
      "step": 78208
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6835311055183411,
      "learning_rate": 2.5678501252735974e-05,
      "loss": 1.5294,
      "step": 78209
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6780786514282227,
      "learning_rate": 2.5674270396489093e-05,
      "loss": 1.5059,
      "step": 78210
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6579719185829163,
      "learning_rate": 2.567003987323315e-05,
      "loss": 1.433,
      "step": 78211
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6844824552536011,
      "learning_rate": 2.5665809682973337e-05,
      "loss": 1.5725,
      "step": 78212
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.676317572593689,
      "learning_rate": 2.5661579825714884e-05,
      "loss": 1.5253,
      "step": 78213
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.650088369846344,
      "learning_rate": 2.5657350301462854e-05,
      "loss": 1.5278,
      "step": 78214
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.656818687915802,
      "learning_rate": 2.5653121110222308e-05,
      "loss": 1.5007,
      "step": 78215
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6563805341720581,
      "learning_rate": 2.5648892251998444e-05,
      "loss": 1.4988,
      "step": 78216
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6951900720596313,
      "learning_rate": 2.5644663726796523e-05,
      "loss": 1.5051,
      "step": 78217
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6661341786384583,
      "learning_rate": 2.5640435534621438e-05,
      "loss": 1.5131,
      "step": 78218
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6576133966445923,
      "learning_rate": 2.563620767547846e-05,
      "loss": 1.5118,
      "step": 78219
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.679482638835907,
      "learning_rate": 2.5631980149372712e-05,
      "loss": 1.4848,
      "step": 78220
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6717610359191895,
      "learning_rate": 2.5627752956309356e-05,
      "loss": 1.4778,
      "step": 78221
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6660559773445129,
      "learning_rate": 2.562352609629339e-05,
      "loss": 1.5438,
      "step": 78222
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6546949148178101,
      "learning_rate": 2.5619299569330076e-05,
      "loss": 1.4941,
      "step": 78223
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.656096875667572,
      "learning_rate": 2.5615073375424576e-05,
      "loss": 1.4996,
      "step": 78224
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6492330431938171,
      "learning_rate": 2.5610847514581857e-05,
      "loss": 1.5023,
      "step": 78225
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6638332009315491,
      "learning_rate": 2.560662198680714e-05,
      "loss": 1.5088,
      "step": 78226
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.672397255897522,
      "learning_rate": 2.560239679210563e-05,
      "loss": 1.4419,
      "step": 78227
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6512677669525146,
      "learning_rate": 2.5598171930482348e-05,
      "loss": 1.4824,
      "step": 78228
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.699044942855835,
      "learning_rate": 2.5593947401942393e-05,
      "loss": 1.4771,
      "step": 78229
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6703898906707764,
      "learning_rate": 2.558972320649103e-05,
      "loss": 1.4927,
      "step": 78230
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6918322443962097,
      "learning_rate": 2.558549934413332e-05,
      "loss": 1.4865,
      "step": 78231
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6753405928611755,
      "learning_rate": 2.5581275814874325e-05,
      "loss": 1.5429,
      "step": 78232
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6582100987434387,
      "learning_rate": 2.5577052618719206e-05,
      "loss": 1.5764,
      "step": 78233
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.668290376663208,
      "learning_rate": 2.5572829755673162e-05,
      "loss": 1.5829,
      "step": 78234
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.66254061460495,
      "learning_rate": 2.5568607225741287e-05,
      "loss": 1.533,
      "step": 78235
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6707908511161804,
      "learning_rate": 2.5564385028928612e-05,
      "loss": 1.4598,
      "step": 78236
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6613215208053589,
      "learning_rate": 2.55601631652404e-05,
      "loss": 1.4525,
      "step": 78237
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6649226546287537,
      "learning_rate": 2.5555941634681743e-05,
      "loss": 1.4795,
      "step": 78238
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6704732775688171,
      "learning_rate": 2.5551720437257638e-05,
      "loss": 1.5578,
      "step": 78239
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7086169719696045,
      "learning_rate": 2.5547499572973383e-05,
      "loss": 1.5244,
      "step": 78240
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6517327427864075,
      "learning_rate": 2.5543279041833974e-05,
      "loss": 1.4569,
      "step": 78241
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6729981899261475,
      "learning_rate": 2.553905884384464e-05,
      "loss": 1.3944,
      "step": 78242
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6325154900550842,
      "learning_rate": 2.5534838979010376e-05,
      "loss": 1.4226,
      "step": 78243
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6768441796302795,
      "learning_rate": 2.5530619447336444e-05,
      "loss": 1.5413,
      "step": 78244
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6577344536781311,
      "learning_rate": 2.552640024882787e-05,
      "loss": 1.4388,
      "step": 78245
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7088028192520142,
      "learning_rate": 2.5522181383489792e-05,
      "loss": 1.4358,
      "step": 78246
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6723251938819885,
      "learning_rate": 2.551796285132737e-05,
      "loss": 1.5497,
      "step": 78247
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6720953583717346,
      "learning_rate": 2.5513744652345656e-05,
      "loss": 1.4674,
      "step": 78248
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6698819398880005,
      "learning_rate": 2.5509526786549894e-05,
      "loss": 1.4962,
      "step": 78249
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6726441383361816,
      "learning_rate": 2.550530925394507e-05,
      "loss": 1.4794,
      "step": 78250
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6970059275627136,
      "learning_rate": 2.550109205453632e-05,
      "loss": 1.544,
      "step": 78251
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6624264121055603,
      "learning_rate": 2.549687518832887e-05,
      "loss": 1.4842,
      "step": 78252
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6591614484786987,
      "learning_rate": 2.5492658655327713e-05,
      "loss": 1.4958,
      "step": 78253
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6766831874847412,
      "learning_rate": 2.548844245553805e-05,
      "loss": 1.5576,
      "step": 78254
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6621888875961304,
      "learning_rate": 2.548422658896494e-05,
      "loss": 1.4955,
      "step": 78255
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6668469309806824,
      "learning_rate": 2.548001105561358e-05,
      "loss": 1.5943,
      "step": 78256
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7071288824081421,
      "learning_rate": 2.5475795855489034e-05,
      "loss": 1.5089,
      "step": 78257
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6846838593482971,
      "learning_rate": 2.547158098859636e-05,
      "loss": 1.4879,
      "step": 78258
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6835021376609802,
      "learning_rate": 2.546736645494073e-05,
      "loss": 1.5648,
      "step": 78259
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6835322380065918,
      "learning_rate": 2.5463152254527396e-05,
      "loss": 1.4894,
      "step": 78260
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6906996965408325,
      "learning_rate": 2.5458938387361226e-05,
      "loss": 1.5173,
      "step": 78261
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6886252164840698,
      "learning_rate": 2.5454724853447485e-05,
      "loss": 1.5948,
      "step": 78262
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6759597659111023,
      "learning_rate": 2.545051165279126e-05,
      "loss": 1.5811,
      "step": 78263
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6602837443351746,
      "learning_rate": 2.544629878539769e-05,
      "loss": 1.4783,
      "step": 78264
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6807984709739685,
      "learning_rate": 2.54420862512718e-05,
      "loss": 1.5802,
      "step": 78265
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6591172218322754,
      "learning_rate": 2.543787405041875e-05,
      "loss": 1.4985,
      "step": 78266
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6649724841117859,
      "learning_rate": 2.5433662182843804e-05,
      "loss": 1.5447,
      "step": 78267
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6993959546089172,
      "learning_rate": 2.5429450648551797e-05,
      "loss": 1.4776,
      "step": 78268
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6636425256729126,
      "learning_rate": 2.5425239447547986e-05,
      "loss": 1.4367,
      "step": 78269
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6807824373245239,
      "learning_rate": 2.5421028579837565e-05,
      "loss": 1.5023,
      "step": 78270
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6561033129692078,
      "learning_rate": 2.5416818045425502e-05,
      "loss": 1.4714,
      "step": 78271
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.668252170085907,
      "learning_rate": 2.5412607844316957e-05,
      "loss": 1.542,
      "step": 78272
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6744754314422607,
      "learning_rate": 2.5408397976517025e-05,
      "loss": 1.5516,
      "step": 78273
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6667449474334717,
      "learning_rate": 2.540418844203097e-05,
      "loss": 1.5195,
      "step": 78274
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6820774674415588,
      "learning_rate": 2.539997924086362e-05,
      "loss": 1.5468,
      "step": 78275
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6777102947235107,
      "learning_rate": 2.5395770373020275e-05,
      "loss": 1.5154,
      "step": 78276
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6719356179237366,
      "learning_rate": 2.5391561838506025e-05,
      "loss": 1.5512,
      "step": 78277
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6622581481933594,
      "learning_rate": 2.5387353637326002e-05,
      "loss": 1.5081,
      "step": 78278
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6908624172210693,
      "learning_rate": 2.538314576948517e-05,
      "loss": 1.4814,
      "step": 78279
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6598926782608032,
      "learning_rate": 2.5378938234988755e-05,
      "loss": 1.5214,
      "step": 78280
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6760173439979553,
      "learning_rate": 2.5374731033841956e-05,
      "loss": 1.5727,
      "step": 78281
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6939851641654968,
      "learning_rate": 2.5370524166049665e-05,
      "loss": 1.5026,
      "step": 78282
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6810493469238281,
      "learning_rate": 2.5366317631617084e-05,
      "loss": 1.4541,
      "step": 78283
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6545436978340149,
      "learning_rate": 2.536211143054937e-05,
      "loss": 1.5344,
      "step": 78284
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6492584347724915,
      "learning_rate": 2.5357905562851622e-05,
      "loss": 1.532,
      "step": 78285
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6789037585258484,
      "learning_rate": 2.5353700028528833e-05,
      "loss": 1.4823,
      "step": 78286
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6669778823852539,
      "learning_rate": 2.5349494827586235e-05,
      "loss": 1.5586,
      "step": 78287
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6565942764282227,
      "learning_rate": 2.534528996002889e-05,
      "loss": 1.539,
      "step": 78288
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6808101534843445,
      "learning_rate": 2.534108542586183e-05,
      "loss": 1.5124,
      "step": 78289
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6520431041717529,
      "learning_rate": 2.5336881225090243e-05,
      "loss": 1.5564,
      "step": 78290
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6737316250801086,
      "learning_rate": 2.5332677357719265e-05,
      "loss": 1.4604,
      "step": 78291
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6777530908584595,
      "learning_rate": 2.5328473823753927e-05,
      "loss": 1.5093,
      "step": 78292
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6805647015571594,
      "learning_rate": 2.5324270623199316e-05,
      "loss": 1.5242,
      "step": 78293
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6787958145141602,
      "learning_rate": 2.5320067756060604e-05,
      "loss": 1.5679,
      "step": 78294
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6674789786338806,
      "learning_rate": 2.531586522234288e-05,
      "loss": 1.5157,
      "step": 78295
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.7230694890022278,
      "learning_rate": 2.5311663022051143e-05,
      "loss": 1.6232,
      "step": 78296
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.666653037071228,
      "learning_rate": 2.5307461155190623e-05,
      "loss": 1.4913,
      "step": 78297
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.6506078839302063,
      "learning_rate": 2.5303259621766348e-05,
      "loss": 1.5051,
      "step": 78298
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.689453661441803,
      "learning_rate": 2.529905842178348e-05,
      "loss": 1.5312,
      "step": 78299
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6688041090965271,
      "learning_rate": 2.5294857555247017e-05,
      "loss": 1.503,
      "step": 78300
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6596238613128662,
      "learning_rate": 2.5290657022162187e-05,
      "loss": 1.517,
      "step": 78301
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6805256605148315,
      "learning_rate": 2.5286456822534053e-05,
      "loss": 1.5078,
      "step": 78302
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6929064393043518,
      "learning_rate": 2.5282256956367574e-05,
      "loss": 1.5947,
      "step": 78303
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6476858258247375,
      "learning_rate": 2.5278057423668052e-05,
      "loss": 1.4757,
      "step": 78304
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6493298411369324,
      "learning_rate": 2.5273858224440414e-05,
      "loss": 1.4423,
      "step": 78305
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6775864958763123,
      "learning_rate": 2.5269659358689885e-05,
      "loss": 1.4762,
      "step": 78306
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6603556275367737,
      "learning_rate": 2.5265460826421537e-05,
      "loss": 1.5218,
      "step": 78307
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6846179962158203,
      "learning_rate": 2.5261262627640356e-05,
      "loss": 1.5471,
      "step": 78308
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6804138422012329,
      "learning_rate": 2.5257064762351574e-05,
      "loss": 1.5389,
      "step": 78309
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6637848615646362,
      "learning_rate": 2.5252867230560193e-05,
      "loss": 1.4754,
      "step": 78310
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7067367434501648,
      "learning_rate": 2.5248670032271402e-05,
      "loss": 1.5874,
      "step": 78311
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6741750240325928,
      "learning_rate": 2.52444731674902e-05,
      "loss": 1.4844,
      "step": 78312
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7029553651809692,
      "learning_rate": 2.5240276636221745e-05,
      "loss": 1.564,
      "step": 78313
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7132841944694519,
      "learning_rate": 2.523608043847114e-05,
      "loss": 1.569,
      "step": 78314
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6729885935783386,
      "learning_rate": 2.523188457424338e-05,
      "loss": 1.5334,
      "step": 78315
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6779050827026367,
      "learning_rate": 2.5227689043543686e-05,
      "loss": 1.5042,
      "step": 78316
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6731786131858826,
      "learning_rate": 2.5223493846377097e-05,
      "loss": 1.5509,
      "step": 78317
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6693035364151001,
      "learning_rate": 2.5219298982748637e-05,
      "loss": 1.4959,
      "step": 78318
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6509184837341309,
      "learning_rate": 2.521510445266347e-05,
      "loss": 1.5334,
      "step": 78319
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6847803592681885,
      "learning_rate": 2.5210910256126727e-05,
      "loss": 1.5906,
      "step": 78320
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6851506233215332,
      "learning_rate": 2.5206716393143465e-05,
      "loss": 1.5628,
      "step": 78321
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6904771327972412,
      "learning_rate": 2.5202522863718688e-05,
      "loss": 1.5358,
      "step": 78322
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6607511043548584,
      "learning_rate": 2.519832966785762e-05,
      "loss": 1.5697,
      "step": 78323
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6702559590339661,
      "learning_rate": 2.519413680556529e-05,
      "loss": 1.5088,
      "step": 78324
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6759546995162964,
      "learning_rate": 2.518994427684673e-05,
      "loss": 1.5176,
      "step": 78325
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6593657732009888,
      "learning_rate": 2.5185752081707065e-05,
      "loss": 1.5124,
      "step": 78326
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6785838007926941,
      "learning_rate": 2.5181560220151564e-05,
      "loss": 1.5293,
      "step": 78327
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6702536344528198,
      "learning_rate": 2.5177368692185017e-05,
      "loss": 1.5391,
      "step": 78328
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.656497597694397,
      "learning_rate": 2.5173177497812625e-05,
      "loss": 1.5517,
      "step": 78329
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6775029897689819,
      "learning_rate": 2.5168986637039613e-05,
      "loss": 1.5168,
      "step": 78330
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7157885432243347,
      "learning_rate": 2.516479610987091e-05,
      "loss": 1.4843,
      "step": 78331
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6620243191719055,
      "learning_rate": 2.5160605916311617e-05,
      "loss": 1.4911,
      "step": 78332
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7052838802337646,
      "learning_rate": 2.5156416056366857e-05,
      "loss": 1.5523,
      "step": 78333
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6635216474533081,
      "learning_rate": 2.5152226530041798e-05,
      "loss": 1.519,
      "step": 78334
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6538127660751343,
      "learning_rate": 2.5148037337341366e-05,
      "loss": 1.5128,
      "step": 78335
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6678276062011719,
      "learning_rate": 2.514384847827069e-05,
      "loss": 1.5578,
      "step": 78336
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6652402877807617,
      "learning_rate": 2.5139659952834935e-05,
      "loss": 1.546,
      "step": 78337
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.639238178730011,
      "learning_rate": 2.513547176103916e-05,
      "loss": 1.4875,
      "step": 78338
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6703243255615234,
      "learning_rate": 2.5131283902888334e-05,
      "loss": 1.5157,
      "step": 78339
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6566210389137268,
      "learning_rate": 2.5127096378387647e-05,
      "loss": 1.5939,
      "step": 78340
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6527191400527954,
      "learning_rate": 2.5122909187542294e-05,
      "loss": 1.5061,
      "step": 78341
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6647038459777832,
      "learning_rate": 2.5118722330357077e-05,
      "loss": 1.4913,
      "step": 78342
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.8610038161277771,
      "learning_rate": 2.5114535806837253e-05,
      "loss": 1.5605,
      "step": 78343
    },
    {
      "epoch": 2.61,
      "grad_norm": 1.1697425842285156,
      "learning_rate": 2.5110349616987957e-05,
      "loss": 1.5058,
      "step": 78344
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.674013614654541,
      "learning_rate": 2.5106163760814147e-05,
      "loss": 1.5255,
      "step": 78345
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6643263697624207,
      "learning_rate": 2.510197823832095e-05,
      "loss": 1.5802,
      "step": 78346
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.647350549697876,
      "learning_rate": 2.509779304951347e-05,
      "loss": 1.4805,
      "step": 78347
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6759541034698486,
      "learning_rate": 2.5093608194396763e-05,
      "loss": 1.5341,
      "step": 78348
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6556817889213562,
      "learning_rate": 2.5089423672975863e-05,
      "loss": 1.4646,
      "step": 78349
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6889104247093201,
      "learning_rate": 2.5085239485255894e-05,
      "loss": 1.6326,
      "step": 78350
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7240099906921387,
      "learning_rate": 2.5081055631241986e-05,
      "loss": 1.4794,
      "step": 78351
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6766924262046814,
      "learning_rate": 2.5076872110939172e-05,
      "loss": 1.5252,
      "step": 78352
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6921563148498535,
      "learning_rate": 2.5072688924352448e-05,
      "loss": 1.4984,
      "step": 78353
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6525142192840576,
      "learning_rate": 2.5068506071487072e-05,
      "loss": 1.5438,
      "step": 78354
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6805248856544495,
      "learning_rate": 2.5064323552347975e-05,
      "loss": 1.4963,
      "step": 78355
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.67067950963974,
      "learning_rate": 2.5060141366940256e-05,
      "loss": 1.5567,
      "step": 78356
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6536589860916138,
      "learning_rate": 2.5055959515269075e-05,
      "loss": 1.5124,
      "step": 78357
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6597345471382141,
      "learning_rate": 2.505177799733936e-05,
      "loss": 1.5336,
      "step": 78358
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6590977311134338,
      "learning_rate": 2.504759681315638e-05,
      "loss": 1.4927,
      "step": 78359
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6611924767494202,
      "learning_rate": 2.5043415962725023e-05,
      "loss": 1.495,
      "step": 78360
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6629797220230103,
      "learning_rate": 2.503923544605049e-05,
      "loss": 1.4916,
      "step": 78361
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6671634912490845,
      "learning_rate": 2.5035055263137806e-05,
      "loss": 1.4848,
      "step": 78362
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6849159598350525,
      "learning_rate": 2.5030875413992e-05,
      "loss": 1.5006,
      "step": 78363
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6794788837432861,
      "learning_rate": 2.5026695898618275e-05,
      "loss": 1.5547,
      "step": 78364
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6839189529418945,
      "learning_rate": 2.5022516717021555e-05,
      "loss": 1.4826,
      "step": 78365
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.664600670337677,
      "learning_rate": 2.501833786920704e-05,
      "loss": 1.5713,
      "step": 78366
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6776460409164429,
      "learning_rate": 2.5014159355179752e-05,
      "loss": 1.5456,
      "step": 78367
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6921278238296509,
      "learning_rate": 2.500998117494469e-05,
      "loss": 1.4848,
      "step": 78368
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6392230987548828,
      "learning_rate": 2.5005803328507023e-05,
      "loss": 1.5136,
      "step": 78369
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6911123991012573,
      "learning_rate": 2.5001625815871808e-05,
      "loss": 1.5812,
      "step": 78370
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6602509021759033,
      "learning_rate": 2.4997448637044105e-05,
      "loss": 1.525,
      "step": 78371
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6666813492774963,
      "learning_rate": 2.4993271792028946e-05,
      "loss": 1.5389,
      "step": 78372
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.654149055480957,
      "learning_rate": 2.4989095280831494e-05,
      "loss": 1.5975,
      "step": 78373
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6740166544914246,
      "learning_rate": 2.4984919103456747e-05,
      "loss": 1.548,
      "step": 78374
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6880670785903931,
      "learning_rate": 2.498074325990973e-05,
      "loss": 1.6069,
      "step": 78375
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6589081287384033,
      "learning_rate": 2.4976567750195543e-05,
      "loss": 1.483,
      "step": 78376
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6621463298797607,
      "learning_rate": 2.4972392574319444e-05,
      "loss": 1.5689,
      "step": 78377
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6650283932685852,
      "learning_rate": 2.49682177322862e-05,
      "loss": 1.5647,
      "step": 78378
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6699398159980774,
      "learning_rate": 2.4964043224101006e-05,
      "loss": 1.4914,
      "step": 78379
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6457705497741699,
      "learning_rate": 2.495986904976899e-05,
      "loss": 1.4817,
      "step": 78380
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6499698162078857,
      "learning_rate": 2.495569520929518e-05,
      "loss": 1.4884,
      "step": 78381
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6768446564674377,
      "learning_rate": 2.4951521702684575e-05,
      "loss": 1.5149,
      "step": 78382
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6492879986763,
      "learning_rate": 2.4947348529942303e-05,
      "loss": 1.456,
      "step": 78383
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.683285117149353,
      "learning_rate": 2.4943175691073524e-05,
      "loss": 1.4922,
      "step": 78384
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6861369609832764,
      "learning_rate": 2.4939003186083107e-05,
      "loss": 1.4698,
      "step": 78385
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7096906304359436,
      "learning_rate": 2.4934831014976175e-05,
      "loss": 1.5512,
      "step": 78386
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6594242453575134,
      "learning_rate": 2.4930659177757927e-05,
      "loss": 1.5477,
      "step": 78387
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6748337149620056,
      "learning_rate": 2.4926487674433295e-05,
      "loss": 1.5831,
      "step": 78388
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6819716691970825,
      "learning_rate": 2.4922316505007332e-05,
      "loss": 1.6373,
      "step": 78389
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6830025315284729,
      "learning_rate": 2.4918145669485146e-05,
      "loss": 1.5237,
      "step": 78390
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6729674935340881,
      "learning_rate": 2.4913975167871926e-05,
      "loss": 1.5627,
      "step": 78391
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6765961050987244,
      "learning_rate": 2.49098050001725e-05,
      "loss": 1.5406,
      "step": 78392
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6815330982208252,
      "learning_rate": 2.4905635166392003e-05,
      "loss": 1.5018,
      "step": 78393
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6701529026031494,
      "learning_rate": 2.4901465666535626e-05,
      "loss": 1.5465,
      "step": 78394
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6443259119987488,
      "learning_rate": 2.48972965006083e-05,
      "loss": 1.466,
      "step": 78395
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6977027654647827,
      "learning_rate": 2.4893127668615087e-05,
      "loss": 1.4905,
      "step": 78396
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.661590039730072,
      "learning_rate": 2.4888959170561153e-05,
      "loss": 1.5458,
      "step": 78397
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6728979349136353,
      "learning_rate": 2.4884791006451455e-05,
      "loss": 1.4712,
      "step": 78398
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6626067161560059,
      "learning_rate": 2.488062317629106e-05,
      "loss": 1.4731,
      "step": 78399
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6755034923553467,
      "learning_rate": 2.487645568008503e-05,
      "loss": 1.4807,
      "step": 78400
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6426694393157959,
      "learning_rate": 2.487228851783849e-05,
      "loss": 1.525,
      "step": 78401
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.68470698595047,
      "learning_rate": 2.4868121689556475e-05,
      "loss": 1.4894,
      "step": 78402
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6780487298965454,
      "learning_rate": 2.4863955195243945e-05,
      "loss": 1.5339,
      "step": 78403
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7032796740531921,
      "learning_rate": 2.485978903490613e-05,
      "loss": 1.5177,
      "step": 78404
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6693880558013916,
      "learning_rate": 2.4855623208547957e-05,
      "loss": 1.5431,
      "step": 78405
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6991367340087891,
      "learning_rate": 2.485145771617446e-05,
      "loss": 1.5595,
      "step": 78406
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6903428435325623,
      "learning_rate": 2.4847292557790765e-05,
      "loss": 1.5364,
      "step": 78407
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6610435247421265,
      "learning_rate": 2.484312773340197e-05,
      "loss": 1.4916,
      "step": 78408
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6790212392807007,
      "learning_rate": 2.4838963243013067e-05,
      "loss": 1.5675,
      "step": 78409
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6569713354110718,
      "learning_rate": 2.4834799086629087e-05,
      "loss": 1.4849,
      "step": 78410
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6746735572814941,
      "learning_rate": 2.4830635264255128e-05,
      "loss": 1.5559,
      "step": 78411
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6629431247711182,
      "learning_rate": 2.4826471775896285e-05,
      "loss": 1.4926,
      "step": 78412
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7023606896400452,
      "learning_rate": 2.4822308621557486e-05,
      "loss": 1.5175,
      "step": 78413
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.66423100233078,
      "learning_rate": 2.4818145801243893e-05,
      "loss": 1.5107,
      "step": 78414
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6542800664901733,
      "learning_rate": 2.4813983314960474e-05,
      "loss": 1.5425,
      "step": 78415
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6588484048843384,
      "learning_rate": 2.480982116271242e-05,
      "loss": 1.5709,
      "step": 78416
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6528217196464539,
      "learning_rate": 2.4805659344504624e-05,
      "loss": 1.5678,
      "step": 78417
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6668978929519653,
      "learning_rate": 2.4801497860342255e-05,
      "loss": 1.4878,
      "step": 78418
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6675993800163269,
      "learning_rate": 2.479733671023031e-05,
      "loss": 1.4916,
      "step": 78419
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.66202712059021,
      "learning_rate": 2.479317589417381e-05,
      "loss": 1.5122,
      "step": 78420
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6663909554481506,
      "learning_rate": 2.4789015412177894e-05,
      "loss": 1.5353,
      "step": 78421
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6588169932365417,
      "learning_rate": 2.4784855264247517e-05,
      "loss": 1.4603,
      "step": 78422
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6656913757324219,
      "learning_rate": 2.4780695450387843e-05,
      "loss": 1.6019,
      "step": 78423
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6846784353256226,
      "learning_rate": 2.4776535970603807e-05,
      "loss": 1.5174,
      "step": 78424
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.664640486240387,
      "learning_rate": 2.4772376824900496e-05,
      "loss": 1.5366,
      "step": 78425
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6607814431190491,
      "learning_rate": 2.476821801328298e-05,
      "loss": 1.5244,
      "step": 78426
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6615716218948364,
      "learning_rate": 2.4764059535756288e-05,
      "loss": 1.5176,
      "step": 78427
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6615051627159119,
      "learning_rate": 2.4759901392325477e-05,
      "loss": 1.502,
      "step": 78428
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6841623187065125,
      "learning_rate": 2.475574358299558e-05,
      "loss": 1.4766,
      "step": 78429
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6720308661460876,
      "learning_rate": 2.4751586107771692e-05,
      "loss": 1.5328,
      "step": 78430
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6593764424324036,
      "learning_rate": 2.474742896665881e-05,
      "loss": 1.5138,
      "step": 78431
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6847108602523804,
      "learning_rate": 2.4743272159661964e-05,
      "loss": 1.5462,
      "step": 78432
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6515625715255737,
      "learning_rate": 2.473911568678625e-05,
      "loss": 1.5043,
      "step": 78433
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6988166570663452,
      "learning_rate": 2.4734959548036725e-05,
      "loss": 1.5034,
      "step": 78434
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6589637398719788,
      "learning_rate": 2.4730803743418326e-05,
      "loss": 1.5084,
      "step": 78435
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6708104610443115,
      "learning_rate": 2.4726648272936177e-05,
      "loss": 1.5601,
      "step": 78436
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6597760915756226,
      "learning_rate": 2.472249313659538e-05,
      "loss": 1.479,
      "step": 78437
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6745155453681946,
      "learning_rate": 2.471833833440089e-05,
      "loss": 1.5225,
      "step": 78438
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6810646057128906,
      "learning_rate": 2.471418386635774e-05,
      "loss": 1.5232,
      "step": 78439
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6417054533958435,
      "learning_rate": 2.471002973247106e-05,
      "loss": 1.4678,
      "step": 78440
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6555764675140381,
      "learning_rate": 2.4705875932745846e-05,
      "loss": 1.5035,
      "step": 78441
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6825393438339233,
      "learning_rate": 2.470172246718709e-05,
      "loss": 1.4199,
      "step": 78442
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7062948346138,
      "learning_rate": 2.469756933579986e-05,
      "loss": 1.5955,
      "step": 78443
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6583794355392456,
      "learning_rate": 2.469341653858935e-05,
      "loss": 1.5225,
      "step": 78444
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6834080219268799,
      "learning_rate": 2.4689264075560356e-05,
      "loss": 1.4803,
      "step": 78445
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6833004951477051,
      "learning_rate": 2.4685111946718007e-05,
      "loss": 1.4986,
      "step": 78446
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6566888093948364,
      "learning_rate": 2.468096015206743e-05,
      "loss": 1.4945,
      "step": 78447
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6927512288093567,
      "learning_rate": 2.4676808691613625e-05,
      "loss": 1.5352,
      "step": 78448
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.689733624458313,
      "learning_rate": 2.467265756536152e-05,
      "loss": 1.5208,
      "step": 78449
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6605432033538818,
      "learning_rate": 2.4668506773316245e-05,
      "loss": 1.4848,
      "step": 78450
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.657948911190033,
      "learning_rate": 2.4664356315482958e-05,
      "loss": 1.4861,
      "step": 78451
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6726212501525879,
      "learning_rate": 2.4660206191866462e-05,
      "loss": 1.5382,
      "step": 78452
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6665833592414856,
      "learning_rate": 2.4656056402471912e-05,
      "loss": 1.5284,
      "step": 78453
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6597579121589661,
      "learning_rate": 2.465190694730438e-05,
      "loss": 1.562,
      "step": 78454
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.677875816822052,
      "learning_rate": 2.4647757826368854e-05,
      "loss": 1.5547,
      "step": 78455
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6678515076637268,
      "learning_rate": 2.4643609039670365e-05,
      "loss": 1.4858,
      "step": 78456
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6449342966079712,
      "learning_rate": 2.463946058721391e-05,
      "loss": 1.5388,
      "step": 78457
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6760951280593872,
      "learning_rate": 2.463531246900472e-05,
      "loss": 1.4688,
      "step": 78458
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6589990258216858,
      "learning_rate": 2.4631164685047556e-05,
      "loss": 1.4751,
      "step": 78459
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6681596636772156,
      "learning_rate": 2.4627017235347613e-05,
      "loss": 1.5321,
      "step": 78460
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6550286412239075,
      "learning_rate": 2.4622870119909954e-05,
      "loss": 1.4656,
      "step": 78461
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6824333667755127,
      "learning_rate": 2.461872333873951e-05,
      "loss": 1.5875,
      "step": 78462
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6867106556892395,
      "learning_rate": 2.4614576891841343e-05,
      "loss": 1.5045,
      "step": 78463
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6563682556152344,
      "learning_rate": 2.4610430779220546e-05,
      "loss": 1.5456,
      "step": 78464
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6612907648086548,
      "learning_rate": 2.460628500088212e-05,
      "loss": 1.4489,
      "step": 78465
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6649898290634155,
      "learning_rate": 2.4602139556831023e-05,
      "loss": 1.4569,
      "step": 78466
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7150789499282837,
      "learning_rate": 2.4597994447072356e-05,
      "loss": 1.5167,
      "step": 78467
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6626039147377014,
      "learning_rate": 2.459384967161121e-05,
      "loss": 1.5328,
      "step": 78468
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6894387602806091,
      "learning_rate": 2.4589705230452518e-05,
      "loss": 1.4743,
      "step": 78469
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6726657152175903,
      "learning_rate": 2.4585561123601305e-05,
      "loss": 1.4818,
      "step": 78470
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6792486310005188,
      "learning_rate": 2.4581417351062703e-05,
      "loss": 1.5161,
      "step": 78471
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6788341403007507,
      "learning_rate": 2.4577273912841677e-05,
      "loss": 1.5988,
      "step": 78472
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.642007052898407,
      "learning_rate": 2.457313080894322e-05,
      "loss": 1.5263,
      "step": 78473
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6822806000709534,
      "learning_rate": 2.4568988039372428e-05,
      "loss": 1.4548,
      "step": 78474
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6957094073295593,
      "learning_rate": 2.4564845604134265e-05,
      "loss": 1.5608,
      "step": 78475
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6536280512809753,
      "learning_rate": 2.4560703503233826e-05,
      "loss": 1.501,
      "step": 78476
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6667206287384033,
      "learning_rate": 2.4556561736676072e-05,
      "loss": 1.4944,
      "step": 78477
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6919192671775818,
      "learning_rate": 2.4552420304466136e-05,
      "loss": 1.5457,
      "step": 78478
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6635802984237671,
      "learning_rate": 2.4548279206608947e-05,
      "loss": 1.5703,
      "step": 78479
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7205588221549988,
      "learning_rate": 2.454413844310953e-05,
      "loss": 1.5048,
      "step": 78480
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6581159234046936,
      "learning_rate": 2.4539998013972984e-05,
      "loss": 1.5501,
      "step": 78481
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6629320383071899,
      "learning_rate": 2.453585791920424e-05,
      "loss": 1.6342,
      "step": 78482
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6797612309455872,
      "learning_rate": 2.4531718158808422e-05,
      "loss": 1.6326,
      "step": 78483
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6657949686050415,
      "learning_rate": 2.4527578732790532e-05,
      "loss": 1.4743,
      "step": 78484
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6879478693008423,
      "learning_rate": 2.4523439641155497e-05,
      "loss": 1.5614,
      "step": 78485
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6505075693130493,
      "learning_rate": 2.4519300883908443e-05,
      "loss": 1.4871,
      "step": 78486
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6756560802459717,
      "learning_rate": 2.4515162461054404e-05,
      "loss": 1.5526,
      "step": 78487
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6645343899726868,
      "learning_rate": 2.4511024372598374e-05,
      "loss": 1.5216,
      "step": 78488
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6447354555130005,
      "learning_rate": 2.4506886618545284e-05,
      "loss": 1.4754,
      "step": 78489
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6748607158660889,
      "learning_rate": 2.450274919890033e-05,
      "loss": 1.5758,
      "step": 78490
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.9697396755218506,
      "learning_rate": 2.4498612113668436e-05,
      "loss": 1.6052,
      "step": 78491
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6719011664390564,
      "learning_rate": 2.449447536285457e-05,
      "loss": 1.4767,
      "step": 78492
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6590995192527771,
      "learning_rate": 2.449033894646386e-05,
      "loss": 1.5372,
      "step": 78493
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.677469789981842,
      "learning_rate": 2.4486202864501336e-05,
      "loss": 1.4796,
      "step": 78494
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6598322987556458,
      "learning_rate": 2.4482067116971893e-05,
      "loss": 1.4894,
      "step": 78495
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6552266478538513,
      "learning_rate": 2.4477931703880628e-05,
      "loss": 1.4649,
      "step": 78496
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6829498410224915,
      "learning_rate": 2.4473796625232567e-05,
      "loss": 1.4693,
      "step": 78497
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6707841753959656,
      "learning_rate": 2.4469661881032776e-05,
      "loss": 1.4941,
      "step": 78498
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6715086698532104,
      "learning_rate": 2.446552747128612e-05,
      "loss": 1.5757,
      "step": 78499
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6822812557220459,
      "learning_rate": 2.4461393395997752e-05,
      "loss": 1.5262,
      "step": 78500
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6841504573822021,
      "learning_rate": 2.4457259655172746e-05,
      "loss": 1.5321,
      "step": 78501
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6731381416320801,
      "learning_rate": 2.4453126248815924e-05,
      "loss": 1.4574,
      "step": 78502
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.680109977722168,
      "learning_rate": 2.4448993176932386e-05,
      "loss": 1.5332,
      "step": 78503
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.682572603225708,
      "learning_rate": 2.4444860439527223e-05,
      "loss": 1.5244,
      "step": 78504
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7052214741706848,
      "learning_rate": 2.4440728036605438e-05,
      "loss": 1.5287,
      "step": 78505
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6838831305503845,
      "learning_rate": 2.4436595968171922e-05,
      "loss": 1.5588,
      "step": 78506
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6643288731575012,
      "learning_rate": 2.4432464234231774e-05,
      "loss": 1.5328,
      "step": 78507
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6428813934326172,
      "learning_rate": 2.442833283479012e-05,
      "loss": 1.538,
      "step": 78508
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.63643479347229,
      "learning_rate": 2.442420176985179e-05,
      "loss": 1.491,
      "step": 78509
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6713268160820007,
      "learning_rate": 2.4420071039421853e-05,
      "loss": 1.499,
      "step": 78510
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.695967435836792,
      "learning_rate": 2.4415940643505395e-05,
      "loss": 1.6146,
      "step": 78511
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.676612377166748,
      "learning_rate": 2.4411810582107384e-05,
      "loss": 1.4998,
      "step": 78512
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7070953845977783,
      "learning_rate": 2.440768085523278e-05,
      "loss": 1.4829,
      "step": 78513
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6936114430427551,
      "learning_rate": 2.4403551462886684e-05,
      "loss": 1.5259,
      "step": 78514
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6654024124145508,
      "learning_rate": 2.4399422405074055e-05,
      "loss": 1.5776,
      "step": 78515
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6505485773086548,
      "learning_rate": 2.4395293681799887e-05,
      "loss": 1.4849,
      "step": 78516
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6710373759269714,
      "learning_rate": 2.4391165293069248e-05,
      "loss": 1.4764,
      "step": 78517
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6674330234527588,
      "learning_rate": 2.4387037238887164e-05,
      "loss": 1.4965,
      "step": 78518
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6859481334686279,
      "learning_rate": 2.4382909519258598e-05,
      "loss": 1.5725,
      "step": 78519
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6640035510063171,
      "learning_rate": 2.4378782134188513e-05,
      "loss": 1.5681,
      "step": 78520
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6666514873504639,
      "learning_rate": 2.4374655083682036e-05,
      "loss": 1.4523,
      "step": 78521
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6689726710319519,
      "learning_rate": 2.43705283677441e-05,
      "loss": 1.4691,
      "step": 78522
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6833379864692688,
      "learning_rate": 2.4366401986379703e-05,
      "loss": 1.572,
      "step": 78523
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6756695508956909,
      "learning_rate": 2.4362275939593866e-05,
      "loss": 1.4689,
      "step": 78524
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6865156888961792,
      "learning_rate": 2.435815022739166e-05,
      "loss": 1.5014,
      "step": 78525
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.657400369644165,
      "learning_rate": 2.4354024849778042e-05,
      "loss": 1.5371,
      "step": 78526
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6688863635063171,
      "learning_rate": 2.434989980675801e-05,
      "loss": 1.4268,
      "step": 78527
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6722166538238525,
      "learning_rate": 2.4345775098336596e-05,
      "loss": 1.4462,
      "step": 78528
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6675682067871094,
      "learning_rate": 2.4341650724518824e-05,
      "loss": 1.5159,
      "step": 78529
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6744529604911804,
      "learning_rate": 2.4337526685309594e-05,
      "loss": 1.4942,
      "step": 78530
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6566542387008667,
      "learning_rate": 2.4333402980714034e-05,
      "loss": 1.5387,
      "step": 78531
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6902871131896973,
      "learning_rate": 2.4329279610737074e-05,
      "loss": 1.4732,
      "step": 78532
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.67747962474823,
      "learning_rate": 2.4325156575383808e-05,
      "loss": 1.5245,
      "step": 78533
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6755799651145935,
      "learning_rate": 2.4321033874659134e-05,
      "loss": 1.4897,
      "step": 78534
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6607090830802917,
      "learning_rate": 2.4316911508568147e-05,
      "loss": 1.5025,
      "step": 78535
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6671460270881653,
      "learning_rate": 2.4312789477115813e-05,
      "loss": 1.5944,
      "step": 78536
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6597990393638611,
      "learning_rate": 2.4308667780307056e-05,
      "loss": 1.481,
      "step": 78537
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6854088306427002,
      "learning_rate": 2.430454641814704e-05,
      "loss": 1.5206,
      "step": 78538
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6561816334724426,
      "learning_rate": 2.430042539064063e-05,
      "loss": 1.5186,
      "step": 78539
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6857417821884155,
      "learning_rate": 2.4296304697792922e-05,
      "loss": 1.4296,
      "step": 78540
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6606666445732117,
      "learning_rate": 2.429218433960888e-05,
      "loss": 1.488,
      "step": 78541
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6427461504936218,
      "learning_rate": 2.4288064316093425e-05,
      "loss": 1.5001,
      "step": 78542
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6716592907905579,
      "learning_rate": 2.428394462725173e-05,
      "loss": 1.4848,
      "step": 78543
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6594975590705872,
      "learning_rate": 2.4279825273088615e-05,
      "loss": 1.4856,
      "step": 78544
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6834196448326111,
      "learning_rate": 2.427570625360922e-05,
      "loss": 1.5117,
      "step": 78545
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.673730731010437,
      "learning_rate": 2.427158756881846e-05,
      "loss": 1.5065,
      "step": 78546
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6753932237625122,
      "learning_rate": 2.4267469218721413e-05,
      "loss": 1.509,
      "step": 78547
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6715172529220581,
      "learning_rate": 2.4263351203323034e-05,
      "loss": 1.4836,
      "step": 78548
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6885684728622437,
      "learning_rate": 2.4259233522628253e-05,
      "loss": 1.5471,
      "step": 78549
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6701014637947083,
      "learning_rate": 2.4255116176642197e-05,
      "loss": 1.5187,
      "step": 78550
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7367497682571411,
      "learning_rate": 2.42509991653698e-05,
      "loss": 1.4723,
      "step": 78551
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6690694093704224,
      "learning_rate": 2.424688248881599e-05,
      "loss": 1.5708,
      "step": 78552
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.723780632019043,
      "learning_rate": 2.424276614698586e-05,
      "loss": 1.5189,
      "step": 78553
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6573905348777771,
      "learning_rate": 2.423865013988444e-05,
      "loss": 1.4634,
      "step": 78554
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.671644389629364,
      "learning_rate": 2.423453446751663e-05,
      "loss": 1.4589,
      "step": 78555
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.671893298625946,
      "learning_rate": 2.4230419129887423e-05,
      "loss": 1.5608,
      "step": 78556
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6608583927154541,
      "learning_rate": 2.4226304127001918e-05,
      "loss": 1.4235,
      "step": 78557
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6755909323692322,
      "learning_rate": 2.4222189458865073e-05,
      "loss": 1.5294,
      "step": 78558
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6870142221450806,
      "learning_rate": 2.421807512548175e-05,
      "loss": 1.5526,
      "step": 78559
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.687113881111145,
      "learning_rate": 2.4213961126857084e-05,
      "loss": 1.4578,
      "step": 78560
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6881598830223083,
      "learning_rate": 2.4209847462996136e-05,
      "loss": 1.5242,
      "step": 78561
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6639111042022705,
      "learning_rate": 2.4205734133903665e-05,
      "loss": 1.4589,
      "step": 78562
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6832653284072876,
      "learning_rate": 2.4201621139584836e-05,
      "loss": 1.5127,
      "step": 78563
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.695594847202301,
      "learning_rate": 2.4197508480044615e-05,
      "loss": 1.4931,
      "step": 78564
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.648923397064209,
      "learning_rate": 2.4193396155288024e-05,
      "loss": 1.5531,
      "step": 78565
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6825616955757141,
      "learning_rate": 2.4189284165319932e-05,
      "loss": 1.6005,
      "step": 78566
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6872815489768982,
      "learning_rate": 2.41851725101454e-05,
      "loss": 1.4938,
      "step": 78567
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6756793856620789,
      "learning_rate": 2.4181061189769558e-05,
      "loss": 1.4723,
      "step": 78568
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7045068144798279,
      "learning_rate": 2.4176950204197132e-05,
      "loss": 1.5374,
      "step": 78569
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6680421829223633,
      "learning_rate": 2.4172839553433286e-05,
      "loss": 1.5192,
      "step": 78570
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6732543110847473,
      "learning_rate": 2.416872923748302e-05,
      "loss": 1.4979,
      "step": 78571
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6692097187042236,
      "learning_rate": 2.416461925635126e-05,
      "loss": 1.4644,
      "step": 78572
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.685953676700592,
      "learning_rate": 2.4160509610042932e-05,
      "loss": 1.4919,
      "step": 78573
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6585517525672913,
      "learning_rate": 2.415640029856314e-05,
      "loss": 1.5291,
      "step": 78574
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6591874957084656,
      "learning_rate": 2.415229132191694e-05,
      "loss": 1.4748,
      "step": 78575
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7150164842605591,
      "learning_rate": 2.4148182680109097e-05,
      "loss": 1.5818,
      "step": 78576
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6606625914573669,
      "learning_rate": 2.4144074373144705e-05,
      "loss": 1.4513,
      "step": 78577
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6789079904556274,
      "learning_rate": 2.4139966401028833e-05,
      "loss": 1.5037,
      "step": 78578
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6704759001731873,
      "learning_rate": 2.4135858763766402e-05,
      "loss": 1.5674,
      "step": 78579
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6695436239242554,
      "learning_rate": 2.4131751461362313e-05,
      "loss": 1.5658,
      "step": 78580
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6582667231559753,
      "learning_rate": 2.4127644493821695e-05,
      "loss": 1.5325,
      "step": 78581
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6664390563964844,
      "learning_rate": 2.4123537861149478e-05,
      "loss": 1.4847,
      "step": 78582
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6685466766357422,
      "learning_rate": 2.4119431563350554e-05,
      "loss": 1.5868,
      "step": 78583
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7251679301261902,
      "learning_rate": 2.4115325600430026e-05,
      "loss": 1.4727,
      "step": 78584
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6485762000083923,
      "learning_rate": 2.411121997239288e-05,
      "loss": 1.4596,
      "step": 78585
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6684237718582153,
      "learning_rate": 2.4107114679244055e-05,
      "loss": 1.5065,
      "step": 78586
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.676058828830719,
      "learning_rate": 2.410300972098851e-05,
      "loss": 1.5979,
      "step": 78587
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6833085417747498,
      "learning_rate": 2.4098905097631305e-05,
      "loss": 1.501,
      "step": 78588
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6916099786758423,
      "learning_rate": 2.4094800809177373e-05,
      "loss": 1.5155,
      "step": 78589
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6888391375541687,
      "learning_rate": 2.409069685563164e-05,
      "loss": 1.5577,
      "step": 78590
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6473869681358337,
      "learning_rate": 2.4086593236999207e-05,
      "loss": 1.5045,
      "step": 78591
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6877887845039368,
      "learning_rate": 2.4082489953284965e-05,
      "loss": 1.5344,
      "step": 78592
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6556205153465271,
      "learning_rate": 2.4078387004493948e-05,
      "loss": 1.5488,
      "step": 78593
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.7022103071212769,
      "learning_rate": 2.407428439063108e-05,
      "loss": 1.5317,
      "step": 78594
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6856660842895508,
      "learning_rate": 2.40701821117014e-05,
      "loss": 1.5163,
      "step": 78595
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6762605905532837,
      "learning_rate": 2.406608016770989e-05,
      "loss": 1.5637,
      "step": 78596
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6747505068778992,
      "learning_rate": 2.4061978558661455e-05,
      "loss": 1.5238,
      "step": 78597
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.685196578502655,
      "learning_rate": 2.4057877284561155e-05,
      "loss": 1.5312,
      "step": 78598
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.6725368499755859,
      "learning_rate": 2.4053776345413887e-05,
      "loss": 1.4997,
      "step": 78599
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6782999038696289,
      "learning_rate": 2.4049675741224718e-05,
      "loss": 1.5373,
      "step": 78600
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6523809432983398,
      "learning_rate": 2.40455754719986e-05,
      "loss": 1.4429,
      "step": 78601
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6506680846214294,
      "learning_rate": 2.404147553774044e-05,
      "loss": 1.5254,
      "step": 78602
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6707348823547363,
      "learning_rate": 2.403737593845523e-05,
      "loss": 1.5356,
      "step": 78603
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6568220257759094,
      "learning_rate": 2.4033276674148095e-05,
      "loss": 1.5028,
      "step": 78604
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6657432317733765,
      "learning_rate": 2.4029177744823867e-05,
      "loss": 1.4014,
      "step": 78605
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6526914834976196,
      "learning_rate": 2.4025079150487513e-05,
      "loss": 1.4649,
      "step": 78606
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6492053270339966,
      "learning_rate": 2.4020980891144093e-05,
      "loss": 1.4942,
      "step": 78607
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6692720651626587,
      "learning_rate": 2.4016882966798535e-05,
      "loss": 1.5083,
      "step": 78608
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6812136173248291,
      "learning_rate": 2.4012785377455768e-05,
      "loss": 1.5476,
      "step": 78609
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6565688848495483,
      "learning_rate": 2.4008688123120823e-05,
      "loss": 1.4937,
      "step": 78610
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6782451272010803,
      "learning_rate": 2.4004591203798762e-05,
      "loss": 1.5532,
      "step": 78611
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6788143515586853,
      "learning_rate": 2.400049461949438e-05,
      "loss": 1.5652,
      "step": 78612
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6792836785316467,
      "learning_rate": 2.399639837021271e-05,
      "loss": 1.5039,
      "step": 78613
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6683814525604248,
      "learning_rate": 2.3992302455958777e-05,
      "loss": 1.5291,
      "step": 78614
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6555143594741821,
      "learning_rate": 2.3988206876737547e-05,
      "loss": 1.4983,
      "step": 78615
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.708158016204834,
      "learning_rate": 2.3984111632553915e-05,
      "loss": 1.4717,
      "step": 78616
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6776403784751892,
      "learning_rate": 2.3980016723412908e-05,
      "loss": 1.5066,
      "step": 78617
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6740504503250122,
      "learning_rate": 2.397592214931959e-05,
      "loss": 1.4973,
      "step": 78618
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6628161072731018,
      "learning_rate": 2.3971827910278695e-05,
      "loss": 1.4875,
      "step": 78619
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6873581409454346,
      "learning_rate": 2.396773400629538e-05,
      "loss": 1.572,
      "step": 78620
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6719967126846313,
      "learning_rate": 2.3963640437374575e-05,
      "loss": 1.4938,
      "step": 78621
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6836684942245483,
      "learning_rate": 2.395954720352128e-05,
      "loss": 1.5497,
      "step": 78622
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6552837491035461,
      "learning_rate": 2.3955454304740352e-05,
      "loss": 1.4959,
      "step": 78623
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6754100918769836,
      "learning_rate": 2.3951361741036822e-05,
      "loss": 1.4817,
      "step": 78624
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6784989833831787,
      "learning_rate": 2.3947269512415755e-05,
      "loss": 1.4961,
      "step": 78625
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.663536787033081,
      "learning_rate": 2.3943177618881948e-05,
      "loss": 1.4637,
      "step": 78626
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6531937718391418,
      "learning_rate": 2.3939086060440427e-05,
      "loss": 1.4589,
      "step": 78627
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6977375745773315,
      "learning_rate": 2.3934994837096255e-05,
      "loss": 1.5765,
      "step": 78628
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.666143000125885,
      "learning_rate": 2.393090394885433e-05,
      "loss": 1.4733,
      "step": 78629
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6708027124404907,
      "learning_rate": 2.3926813395719547e-05,
      "loss": 1.4994,
      "step": 78630
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6785009503364563,
      "learning_rate": 2.392272317769697e-05,
      "loss": 1.4624,
      "step": 78631
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6564502120018005,
      "learning_rate": 2.3918633294791557e-05,
      "loss": 1.4785,
      "step": 78632
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6800984144210815,
      "learning_rate": 2.3914543747008175e-05,
      "loss": 1.4774,
      "step": 78633
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7059893012046814,
      "learning_rate": 2.391045453435185e-05,
      "loss": 1.5664,
      "step": 78634
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6813976168632507,
      "learning_rate": 2.390636565682762e-05,
      "loss": 1.4743,
      "step": 78635
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6608827710151672,
      "learning_rate": 2.3902277114440372e-05,
      "loss": 1.4597,
      "step": 78636
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6556722521781921,
      "learning_rate": 2.3898188907195036e-05,
      "loss": 1.4971,
      "step": 78637
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6817021369934082,
      "learning_rate": 2.3894101035096646e-05,
      "loss": 1.5135,
      "step": 78638
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6838147044181824,
      "learning_rate": 2.389001349815016e-05,
      "loss": 1.4981,
      "step": 78639
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6673725843429565,
      "learning_rate": 2.3885926296360446e-05,
      "loss": 1.4948,
      "step": 78640
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6553577780723572,
      "learning_rate": 2.3881839429732597e-05,
      "loss": 1.5099,
      "step": 78641
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6733933687210083,
      "learning_rate": 2.3877752898271474e-05,
      "loss": 1.5874,
      "step": 78642
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6840075850486755,
      "learning_rate": 2.3873666701982108e-05,
      "loss": 1.5566,
      "step": 78643
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6596985459327698,
      "learning_rate": 2.386958084086936e-05,
      "loss": 1.5169,
      "step": 78644
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6793163418769836,
      "learning_rate": 2.3865495314938332e-05,
      "loss": 1.5258,
      "step": 78645
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6785480380058289,
      "learning_rate": 2.3861410124193914e-05,
      "loss": 1.4829,
      "step": 78646
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6785734295845032,
      "learning_rate": 2.385732526864097e-05,
      "loss": 1.5175,
      "step": 78647
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6628553867340088,
      "learning_rate": 2.385324074828463e-05,
      "loss": 1.5284,
      "step": 78648
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6831952929496765,
      "learning_rate": 2.384915656312969e-05,
      "loss": 1.4905,
      "step": 78649
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6916629672050476,
      "learning_rate": 2.3845072713181247e-05,
      "loss": 1.5509,
      "step": 78650
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6568248271942139,
      "learning_rate": 2.384098919844416e-05,
      "loss": 1.4618,
      "step": 78651
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6601119637489319,
      "learning_rate": 2.3836906018923463e-05,
      "loss": 1.543,
      "step": 78652
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6902673840522766,
      "learning_rate": 2.383282317462405e-05,
      "loss": 1.4793,
      "step": 78653
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6701042056083679,
      "learning_rate": 2.3828740665550884e-05,
      "loss": 1.4859,
      "step": 78654
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6688835024833679,
      "learning_rate": 2.382465849170896e-05,
      "loss": 1.5581,
      "step": 78655
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6756715774536133,
      "learning_rate": 2.382057665310314e-05,
      "loss": 1.5452,
      "step": 78656
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6818820834159851,
      "learning_rate": 2.3816495149738523e-05,
      "loss": 1.4858,
      "step": 78657
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6329391598701477,
      "learning_rate": 2.3812413981620006e-05,
      "loss": 1.4408,
      "step": 78658
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.66935133934021,
      "learning_rate": 2.3808333148752444e-05,
      "loss": 1.4823,
      "step": 78659
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6984050273895264,
      "learning_rate": 2.3804252651140942e-05,
      "loss": 1.4874,
      "step": 78660
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.674634575843811,
      "learning_rate": 2.3800172488790292e-05,
      "loss": 1.5319,
      "step": 78661
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6806108951568604,
      "learning_rate": 2.3796092661705624e-05,
      "loss": 1.5286,
      "step": 78662
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6592810153961182,
      "learning_rate": 2.3792013169891733e-05,
      "loss": 1.4972,
      "step": 78663
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6770142316818237,
      "learning_rate": 2.3787934013353714e-05,
      "loss": 1.5248,
      "step": 78664
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.656079888343811,
      "learning_rate": 2.3783855192096435e-05,
      "loss": 1.5223,
      "step": 78665
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6797089576721191,
      "learning_rate": 2.3779776706124788e-05,
      "loss": 1.5387,
      "step": 78666
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6971230506896973,
      "learning_rate": 2.3775698555443866e-05,
      "loss": 1.5296,
      "step": 78667
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6811361312866211,
      "learning_rate": 2.377162074005854e-05,
      "loss": 1.5362,
      "step": 78668
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6781286597251892,
      "learning_rate": 2.376754325997373e-05,
      "loss": 1.4772,
      "step": 78669
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6765156984329224,
      "learning_rate": 2.3763466115194408e-05,
      "loss": 1.4336,
      "step": 78670
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6919468641281128,
      "learning_rate": 2.3759389305725563e-05,
      "loss": 1.5179,
      "step": 78671
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6796216368675232,
      "learning_rate": 2.375531283157216e-05,
      "loss": 1.5605,
      "step": 78672
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.647057056427002,
      "learning_rate": 2.3751236692739027e-05,
      "loss": 1.4576,
      "step": 78673
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6994130611419678,
      "learning_rate": 2.374716088923123e-05,
      "loss": 1.5664,
      "step": 78674
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6935738325119019,
      "learning_rate": 2.3743085421053697e-05,
      "loss": 1.5666,
      "step": 78675
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6584910154342651,
      "learning_rate": 2.373901028821129e-05,
      "loss": 1.5164,
      "step": 78676
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.673828661441803,
      "learning_rate": 2.373493549070904e-05,
      "loss": 1.5158,
      "step": 78677
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6874641180038452,
      "learning_rate": 2.3730861028551973e-05,
      "loss": 1.4946,
      "step": 78678
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6434412002563477,
      "learning_rate": 2.372678690174482e-05,
      "loss": 1.4863,
      "step": 78679
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6646342873573303,
      "learning_rate": 2.3722713110292646e-05,
      "loss": 1.4265,
      "step": 78680
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6635802388191223,
      "learning_rate": 2.371863965420041e-05,
      "loss": 1.4897,
      "step": 78681
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6928765773773193,
      "learning_rate": 2.371456653347308e-05,
      "loss": 1.5634,
      "step": 78682
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6678765416145325,
      "learning_rate": 2.3710493748115478e-05,
      "loss": 1.5196,
      "step": 78683
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.700025737285614,
      "learning_rate": 2.3706421298132637e-05,
      "loss": 1.605,
      "step": 78684
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6916954517364502,
      "learning_rate": 2.3702349183529623e-05,
      "loss": 1.4549,
      "step": 78685
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6480356454849243,
      "learning_rate": 2.3698277404311096e-05,
      "loss": 1.5697,
      "step": 78686
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6522887349128723,
      "learning_rate": 2.3694205960482183e-05,
      "loss": 1.4591,
      "step": 78687
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6888331770896912,
      "learning_rate": 2.3690134852047848e-05,
      "loss": 1.4494,
      "step": 78688
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6596454381942749,
      "learning_rate": 2.3686064079012956e-05,
      "loss": 1.4707,
      "step": 78689
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6915227770805359,
      "learning_rate": 2.3681993641382403e-05,
      "loss": 1.4984,
      "step": 78690
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6779133081436157,
      "learning_rate": 2.3677923539161213e-05,
      "loss": 1.373,
      "step": 78691
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7066072225570679,
      "learning_rate": 2.367385377235442e-05,
      "loss": 1.5444,
      "step": 78692
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6731370091438293,
      "learning_rate": 2.3669784340966758e-05,
      "loss": 1.4562,
      "step": 78693
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6691124439239502,
      "learning_rate": 2.3665715245003247e-05,
      "loss": 1.4558,
      "step": 78694
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6753275990486145,
      "learning_rate": 2.3661646484468886e-05,
      "loss": 1.5183,
      "step": 78695
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6629944443702698,
      "learning_rate": 2.3657578059368575e-05,
      "loss": 1.4156,
      "step": 78696
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.673014760017395,
      "learning_rate": 2.365350996970721e-05,
      "loss": 1.4914,
      "step": 78697
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6793479323387146,
      "learning_rate": 2.3649442215489813e-05,
      "loss": 1.4718,
      "step": 78698
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.672115683555603,
      "learning_rate": 2.3645374796721285e-05,
      "loss": 1.491,
      "step": 78699
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6526904106140137,
      "learning_rate": 2.3641307713406455e-05,
      "loss": 1.4876,
      "step": 78700
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6708729267120361,
      "learning_rate": 2.3637240965550418e-05,
      "loss": 1.4762,
      "step": 78701
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6733372211456299,
      "learning_rate": 2.3633174553158073e-05,
      "loss": 1.4758,
      "step": 78702
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6530861258506775,
      "learning_rate": 2.3629108476234316e-05,
      "loss": 1.4696,
      "step": 78703
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6788148880004883,
      "learning_rate": 2.3625042734784073e-05,
      "loss": 1.5153,
      "step": 78704
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6738944053649902,
      "learning_rate": 2.362097732881234e-05,
      "loss": 1.5264,
      "step": 78705
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6496900916099548,
      "learning_rate": 2.361691225832405e-05,
      "loss": 1.4344,
      "step": 78706
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.677318274974823,
      "learning_rate": 2.361284752332403e-05,
      "loss": 1.5236,
      "step": 78707
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6762956976890564,
      "learning_rate": 2.3608783123817342e-05,
      "loss": 1.5377,
      "step": 78708
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.662453830242157,
      "learning_rate": 2.360471905980882e-05,
      "loss": 1.4991,
      "step": 78709
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7149962186813354,
      "learning_rate": 2.3600655331303486e-05,
      "loss": 1.5073,
      "step": 78710
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.690824031829834,
      "learning_rate": 2.3596591938306174e-05,
      "loss": 1.5583,
      "step": 78711
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6596143245697021,
      "learning_rate": 2.3592528880821947e-05,
      "loss": 1.5256,
      "step": 78712
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6947126984596252,
      "learning_rate": 2.35884661588556e-05,
      "loss": 1.5308,
      "step": 78713
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6798787713050842,
      "learning_rate": 2.3584403772412196e-05,
      "loss": 1.526,
      "step": 78714
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6583389043807983,
      "learning_rate": 2.3580341721496567e-05,
      "loss": 1.5161,
      "step": 78715
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6598786115646362,
      "learning_rate": 2.3576280006113635e-05,
      "loss": 1.5104,
      "step": 78716
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6770260334014893,
      "learning_rate": 2.3572218626268436e-05,
      "loss": 1.4988,
      "step": 78717
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6920521855354309,
      "learning_rate": 2.356815758196583e-05,
      "loss": 1.5306,
      "step": 78718
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6591997742652893,
      "learning_rate": 2.356409687321068e-05,
      "loss": 1.5139,
      "step": 78719
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6815733313560486,
      "learning_rate": 2.3560036500007984e-05,
      "loss": 1.5055,
      "step": 78720
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6623328328132629,
      "learning_rate": 2.3555976462362737e-05,
      "loss": 1.4854,
      "step": 78721
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6723995208740234,
      "learning_rate": 2.355191676027983e-05,
      "loss": 1.6183,
      "step": 78722
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6671980023384094,
      "learning_rate": 2.354785739376407e-05,
      "loss": 1.4922,
      "step": 78723
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6780637502670288,
      "learning_rate": 2.3543798362820543e-05,
      "loss": 1.577,
      "step": 78724
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6952402591705322,
      "learning_rate": 2.3539739667454117e-05,
      "loss": 1.4545,
      "step": 78725
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6773574352264404,
      "learning_rate": 2.353568130766965e-05,
      "loss": 1.5023,
      "step": 78726
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6467002034187317,
      "learning_rate": 2.3531623283472145e-05,
      "loss": 1.4999,
      "step": 78727
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6578231453895569,
      "learning_rate": 2.3527565594866593e-05,
      "loss": 1.5312,
      "step": 78728
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6554433703422546,
      "learning_rate": 2.3523508241857757e-05,
      "loss": 1.4826,
      "step": 78729
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.686957836151123,
      "learning_rate": 2.3519451224450636e-05,
      "loss": 1.4879,
      "step": 78730
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6640886068344116,
      "learning_rate": 2.3515394542650223e-05,
      "loss": 1.5366,
      "step": 78731
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.657642662525177,
      "learning_rate": 2.351133819646138e-05,
      "loss": 1.4573,
      "step": 78732
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6633713245391846,
      "learning_rate": 2.3507282185888975e-05,
      "loss": 1.5466,
      "step": 78733
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.645084023475647,
      "learning_rate": 2.3503226510938e-05,
      "loss": 1.4358,
      "step": 78734
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6714056134223938,
      "learning_rate": 2.3499171171613484e-05,
      "loss": 1.5282,
      "step": 78735
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6823727488517761,
      "learning_rate": 2.3495116167920093e-05,
      "loss": 1.4928,
      "step": 78736
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6613311767578125,
      "learning_rate": 2.3491061499862917e-05,
      "loss": 1.5389,
      "step": 78737
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6722461581230164,
      "learning_rate": 2.348700716744689e-05,
      "loss": 1.5964,
      "step": 78738
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6773154735565186,
      "learning_rate": 2.3482953170676912e-05,
      "loss": 1.4552,
      "step": 78739
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6695126295089722,
      "learning_rate": 2.3478899509557837e-05,
      "loss": 1.4935,
      "step": 78740
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6869171857833862,
      "learning_rate": 2.3474846184094598e-05,
      "loss": 1.4633,
      "step": 78741
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.665386974811554,
      "learning_rate": 2.3470793194292292e-05,
      "loss": 1.4814,
      "step": 78742
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6546019315719604,
      "learning_rate": 2.3466740540155583e-05,
      "loss": 1.4338,
      "step": 78743
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6645709276199341,
      "learning_rate": 2.3462688221689497e-05,
      "loss": 1.4996,
      "step": 78744
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6617929339408875,
      "learning_rate": 2.345863623889903e-05,
      "loss": 1.5221,
      "step": 78745
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6522757411003113,
      "learning_rate": 2.3454584591789015e-05,
      "loss": 1.4909,
      "step": 78746
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6516076922416687,
      "learning_rate": 2.3450533280364347e-05,
      "loss": 1.4657,
      "step": 78747
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6481639742851257,
      "learning_rate": 2.344648230463002e-05,
      "loss": 1.5309,
      "step": 78748
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6604709029197693,
      "learning_rate": 2.3442431664590933e-05,
      "loss": 1.5289,
      "step": 78749
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6818901300430298,
      "learning_rate": 2.3438381360251912e-05,
      "loss": 1.5688,
      "step": 78750
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6620373725891113,
      "learning_rate": 2.3434331391617987e-05,
      "loss": 1.5017,
      "step": 78751
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6974875330924988,
      "learning_rate": 2.3430281758694058e-05,
      "loss": 1.5021,
      "step": 78752
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7160397171974182,
      "learning_rate": 2.3426232461485017e-05,
      "loss": 1.5164,
      "step": 78753
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6824841499328613,
      "learning_rate": 2.3422183499995727e-05,
      "loss": 1.5444,
      "step": 78754
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6489661335945129,
      "learning_rate": 2.3418134874231187e-05,
      "loss": 1.4926,
      "step": 78755
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6712628602981567,
      "learning_rate": 2.3414086584196325e-05,
      "loss": 1.5099,
      "step": 78756
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6733006834983826,
      "learning_rate": 2.3410038629895934e-05,
      "loss": 1.4771,
      "step": 78757
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6729263663291931,
      "learning_rate": 2.3405991011335047e-05,
      "loss": 1.5142,
      "step": 78758
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6592394113540649,
      "learning_rate": 2.3401943728518457e-05,
      "loss": 1.5399,
      "step": 78759
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6778597235679626,
      "learning_rate": 2.3397896781451263e-05,
      "loss": 1.5363,
      "step": 78760
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.9151971340179443,
      "learning_rate": 2.339385017013816e-05,
      "loss": 1.5683,
      "step": 78761
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6829887628555298,
      "learning_rate": 2.3389803894584248e-05,
      "loss": 1.4761,
      "step": 78762
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6927784085273743,
      "learning_rate": 2.3385757954794347e-05,
      "loss": 1.5357,
      "step": 78763
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6856606602668762,
      "learning_rate": 2.338171235077333e-05,
      "loss": 1.4974,
      "step": 78764
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7029007077217102,
      "learning_rate": 2.3377667082526218e-05,
      "loss": 1.6348,
      "step": 78765
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.671973466873169,
      "learning_rate": 2.3373622150057812e-05,
      "loss": 1.514,
      "step": 78766
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6723300218582153,
      "learning_rate": 2.336957755337311e-05,
      "loss": 1.4815,
      "step": 78767
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.683451235294342,
      "learning_rate": 2.3365533292476935e-05,
      "loss": 1.5715,
      "step": 78768
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6540715098381042,
      "learning_rate": 2.3361489367374286e-05,
      "loss": 1.505,
      "step": 78769
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6750289797782898,
      "learning_rate": 2.3357445778070026e-05,
      "loss": 1.5219,
      "step": 78770
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6500307321548462,
      "learning_rate": 2.335340252456902e-05,
      "loss": 1.5785,
      "step": 78771
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6486719250679016,
      "learning_rate": 2.3349359606876262e-05,
      "loss": 1.4636,
      "step": 78772
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6478999257087708,
      "learning_rate": 2.334531702499658e-05,
      "loss": 1.4917,
      "step": 78773
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6729893684387207,
      "learning_rate": 2.334127477893497e-05,
      "loss": 1.4661,
      "step": 78774
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6903588175773621,
      "learning_rate": 2.3337232868696298e-05,
      "loss": 1.5065,
      "step": 78775
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6676766276359558,
      "learning_rate": 2.3333191294285393e-05,
      "loss": 1.5017,
      "step": 78776
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6800006031990051,
      "learning_rate": 2.332915005570728e-05,
      "loss": 1.4808,
      "step": 78777
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6724667549133301,
      "learning_rate": 2.332510915296676e-05,
      "loss": 1.4946,
      "step": 78778
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6534691452980042,
      "learning_rate": 2.3321068586068857e-05,
      "loss": 1.4945,
      "step": 78779
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.685878574848175,
      "learning_rate": 2.3317028355018373e-05,
      "loss": 1.5707,
      "step": 78780
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6706618070602417,
      "learning_rate": 2.331298845982027e-05,
      "loss": 1.4744,
      "step": 78781
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6804359555244446,
      "learning_rate": 2.330894890047944e-05,
      "loss": 1.4718,
      "step": 78782
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6734160780906677,
      "learning_rate": 2.3304909677000715e-05,
      "loss": 1.5281,
      "step": 78783
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6525819301605225,
      "learning_rate": 2.3300870789389127e-05,
      "loss": 1.5139,
      "step": 78784
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.677099347114563,
      "learning_rate": 2.329683223764953e-05,
      "loss": 1.462,
      "step": 78785
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.680181086063385,
      "learning_rate": 2.3292794021786733e-05,
      "loss": 1.5663,
      "step": 78786
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6790444254875183,
      "learning_rate": 2.328875614180572e-05,
      "loss": 1.5045,
      "step": 78787
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6595587730407715,
      "learning_rate": 2.328471859771143e-05,
      "loss": 1.4952,
      "step": 78788
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6852163076400757,
      "learning_rate": 2.3280681389508714e-05,
      "loss": 1.5206,
      "step": 78789
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6710448861122131,
      "learning_rate": 2.3276644517202448e-05,
      "loss": 1.4733,
      "step": 78790
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6856341361999512,
      "learning_rate": 2.3272607980797587e-05,
      "loss": 1.5374,
      "step": 78791
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6647847294807434,
      "learning_rate": 2.3268571780299026e-05,
      "loss": 1.4565,
      "step": 78792
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6612942814826965,
      "learning_rate": 2.3264535915711568e-05,
      "loss": 1.5379,
      "step": 78793
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.686918318271637,
      "learning_rate": 2.326050038704024e-05,
      "loss": 1.5293,
      "step": 78794
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6706198453903198,
      "learning_rate": 2.325646519428993e-05,
      "loss": 1.487,
      "step": 78795
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6490740180015564,
      "learning_rate": 2.3252430337465444e-05,
      "loss": 1.519,
      "step": 78796
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6468408107757568,
      "learning_rate": 2.3248395816571707e-05,
      "loss": 1.4263,
      "step": 78797
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6596083641052246,
      "learning_rate": 2.3244361631613682e-05,
      "loss": 1.482,
      "step": 78798
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6840658783912659,
      "learning_rate": 2.3240327782596236e-05,
      "loss": 1.56,
      "step": 78799
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6759998798370361,
      "learning_rate": 2.3236294269524193e-05,
      "loss": 1.6121,
      "step": 78800
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6644185781478882,
      "learning_rate": 2.3232261092402517e-05,
      "loss": 1.5102,
      "step": 78801
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6704086065292358,
      "learning_rate": 2.3228228251236202e-05,
      "loss": 1.5168,
      "step": 78802
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6769589781761169,
      "learning_rate": 2.322419574602995e-05,
      "loss": 1.5122,
      "step": 78803
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6698727011680603,
      "learning_rate": 2.322016357678872e-05,
      "loss": 1.5204,
      "step": 78804
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6497606635093689,
      "learning_rate": 2.3216131743517475e-05,
      "loss": 1.5033,
      "step": 78805
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6736428141593933,
      "learning_rate": 2.3212100246221078e-05,
      "loss": 1.4462,
      "step": 78806
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6556997299194336,
      "learning_rate": 2.3208069084904357e-05,
      "loss": 1.5941,
      "step": 78807
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6968096494674683,
      "learning_rate": 2.3204038259572245e-05,
      "loss": 1.5352,
      "step": 78808
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.687874436378479,
      "learning_rate": 2.3200007770229767e-05,
      "loss": 1.4985,
      "step": 78809
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6867478489875793,
      "learning_rate": 2.319597761688159e-05,
      "loss": 1.5694,
      "step": 78810
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6735149621963501,
      "learning_rate": 2.3191947799532708e-05,
      "loss": 1.5398,
      "step": 78811
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6792516708374023,
      "learning_rate": 2.3187918318188047e-05,
      "loss": 1.5398,
      "step": 78812
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6711435914039612,
      "learning_rate": 2.3183889172852475e-05,
      "loss": 1.5941,
      "step": 78813
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6733949184417725,
      "learning_rate": 2.3179860363530856e-05,
      "loss": 1.5384,
      "step": 78814
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6858569979667664,
      "learning_rate": 2.3175831890228115e-05,
      "loss": 1.4785,
      "step": 78815
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6815199255943298,
      "learning_rate": 2.3171803752949148e-05,
      "loss": 1.554,
      "step": 78816
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6619189977645874,
      "learning_rate": 2.3167775951698752e-05,
      "loss": 1.5855,
      "step": 78817
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6789638996124268,
      "learning_rate": 2.3163748486481892e-05,
      "loss": 1.5106,
      "step": 78818
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6729182004928589,
      "learning_rate": 2.3159721357303527e-05,
      "loss": 1.486,
      "step": 78819
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6607014536857605,
      "learning_rate": 2.3155694564168425e-05,
      "loss": 1.5031,
      "step": 78820
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.663920521736145,
      "learning_rate": 2.3151668107081512e-05,
      "loss": 1.4562,
      "step": 78821
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.678438663482666,
      "learning_rate": 2.3147641986047717e-05,
      "loss": 1.4722,
      "step": 78822
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6814549565315247,
      "learning_rate": 2.314361620107187e-05,
      "loss": 1.5369,
      "step": 78823
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6815195679664612,
      "learning_rate": 2.3139590752158864e-05,
      "loss": 1.5062,
      "step": 78824
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6844808459281921,
      "learning_rate": 2.3135565639313635e-05,
      "loss": 1.5124,
      "step": 78825
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6803109645843506,
      "learning_rate": 2.3131540862540975e-05,
      "loss": 1.5614,
      "step": 78826
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6760711073875427,
      "learning_rate": 2.3127516421845883e-05,
      "loss": 1.4798,
      "step": 78827
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6612881422042847,
      "learning_rate": 2.312349231723315e-05,
      "loss": 1.535,
      "step": 78828
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6782363653182983,
      "learning_rate": 2.3119468548707744e-05,
      "loss": 1.4698,
      "step": 78829
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6571789383888245,
      "learning_rate": 2.3115445116274454e-05,
      "loss": 1.4874,
      "step": 78830
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6688899397850037,
      "learning_rate": 2.3111422019938285e-05,
      "loss": 1.4805,
      "step": 78831
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6457889080047607,
      "learning_rate": 2.3107399259704028e-05,
      "loss": 1.4376,
      "step": 78832
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6516475081443787,
      "learning_rate": 2.310337683557658e-05,
      "loss": 1.5119,
      "step": 78833
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6799997687339783,
      "learning_rate": 2.309935474756084e-05,
      "loss": 1.4198,
      "step": 78834
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6738678216934204,
      "learning_rate": 2.3095332995661696e-05,
      "loss": 1.4817,
      "step": 78835
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6824623942375183,
      "learning_rate": 2.3091311579883987e-05,
      "loss": 1.4865,
      "step": 78836
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6791775226593018,
      "learning_rate": 2.30872905002326e-05,
      "loss": 1.5308,
      "step": 78837
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6542935371398926,
      "learning_rate": 2.3083269756712508e-05,
      "loss": 1.4199,
      "step": 78838
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6784062385559082,
      "learning_rate": 2.3079249349328532e-05,
      "loss": 1.4757,
      "step": 78839
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6553694605827332,
      "learning_rate": 2.3075229278085472e-05,
      "loss": 1.5306,
      "step": 78840
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6711726784706116,
      "learning_rate": 2.3071209542988355e-05,
      "loss": 1.4805,
      "step": 78841
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6562605500221252,
      "learning_rate": 2.3067190144041948e-05,
      "loss": 1.5308,
      "step": 78842
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6762059330940247,
      "learning_rate": 2.306317108125114e-05,
      "loss": 1.4549,
      "step": 78843
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6843286156654358,
      "learning_rate": 2.305915235462087e-05,
      "loss": 1.5,
      "step": 78844
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7140281796455383,
      "learning_rate": 2.3055133964156024e-05,
      "loss": 1.5695,
      "step": 78845
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6724581122398376,
      "learning_rate": 2.3051115909861373e-05,
      "loss": 1.4726,
      "step": 78846
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.661454439163208,
      "learning_rate": 2.3047098191741875e-05,
      "loss": 1.457,
      "step": 78847
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6853693127632141,
      "learning_rate": 2.304308080980243e-05,
      "loss": 1.507,
      "step": 78848
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6794602274894714,
      "learning_rate": 2.303906376404786e-05,
      "loss": 1.5283,
      "step": 78849
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6655792593955994,
      "learning_rate": 2.3035047054483003e-05,
      "loss": 1.5227,
      "step": 78850
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6635069251060486,
      "learning_rate": 2.3031030681112816e-05,
      "loss": 1.5889,
      "step": 78851
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6716555953025818,
      "learning_rate": 2.3027014643942232e-05,
      "loss": 1.4966,
      "step": 78852
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6714845299720764,
      "learning_rate": 2.3022998942975947e-05,
      "loss": 1.4935,
      "step": 78853
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6556980609893799,
      "learning_rate": 2.3018983578218952e-05,
      "loss": 1.4365,
      "step": 78854
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6793924570083618,
      "learning_rate": 2.3014968549676117e-05,
      "loss": 1.497,
      "step": 78855
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6651642322540283,
      "learning_rate": 2.301095385735233e-05,
      "loss": 1.5462,
      "step": 78856
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.675179123878479,
      "learning_rate": 2.3006939501252365e-05,
      "loss": 1.4596,
      "step": 78857
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.659545361995697,
      "learning_rate": 2.300292548138114e-05,
      "loss": 1.5831,
      "step": 78858
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.674217939376831,
      "learning_rate": 2.299891179774369e-05,
      "loss": 1.5592,
      "step": 78859
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6998923420906067,
      "learning_rate": 2.2994898450344613e-05,
      "loss": 1.523,
      "step": 78860
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6794667840003967,
      "learning_rate": 2.2990885439188934e-05,
      "loss": 1.6269,
      "step": 78861
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6869239807128906,
      "learning_rate": 2.298687276428155e-05,
      "loss": 1.4992,
      "step": 78862
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6841838955879211,
      "learning_rate": 2.298286042562729e-05,
      "loss": 1.6142,
      "step": 78863
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6731545925140381,
      "learning_rate": 2.2978848423230955e-05,
      "loss": 1.5059,
      "step": 78864
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6684838533401489,
      "learning_rate": 2.297483675709757e-05,
      "loss": 1.4458,
      "step": 78865
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6584910154342651,
      "learning_rate": 2.2970825427231864e-05,
      "loss": 1.4821,
      "step": 78866
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6725891828536987,
      "learning_rate": 2.2966814433638738e-05,
      "loss": 1.5151,
      "step": 78867
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6783635020256042,
      "learning_rate": 2.296280377632308e-05,
      "loss": 1.5015,
      "step": 78868
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6601287722587585,
      "learning_rate": 2.2958793455289827e-05,
      "loss": 1.4947,
      "step": 78869
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6600030064582825,
      "learning_rate": 2.2954783470543735e-05,
      "loss": 1.4933,
      "step": 78870
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6878587007522583,
      "learning_rate": 2.2950773822089674e-05,
      "loss": 1.4905,
      "step": 78871
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6452887058258057,
      "learning_rate": 2.2946764509932635e-05,
      "loss": 1.4608,
      "step": 78872
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6654499769210815,
      "learning_rate": 2.2942755534077384e-05,
      "loss": 1.5162,
      "step": 78873
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6690068244934082,
      "learning_rate": 2.2938746894528748e-05,
      "loss": 1.5201,
      "step": 78874
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6768441796302795,
      "learning_rate": 2.293473859129169e-05,
      "loss": 1.434,
      "step": 78875
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6630612015724182,
      "learning_rate": 2.2930730624371007e-05,
      "loss": 1.4354,
      "step": 78876
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.667141318321228,
      "learning_rate": 2.292672299377163e-05,
      "loss": 1.5581,
      "step": 78877
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7002347111701965,
      "learning_rate": 2.2922715699498352e-05,
      "loss": 1.5733,
      "step": 78878
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6845342516899109,
      "learning_rate": 2.29187087415561e-05,
      "loss": 1.4792,
      "step": 78879
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6695849299430847,
      "learning_rate": 2.2914702119949747e-05,
      "loss": 1.5253,
      "step": 78880
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6673503518104553,
      "learning_rate": 2.2910695834684044e-05,
      "loss": 1.4738,
      "step": 78881
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6808328032493591,
      "learning_rate": 2.290668988576396e-05,
      "loss": 1.5674,
      "step": 78882
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6601371765136719,
      "learning_rate": 2.2902684273194295e-05,
      "loss": 1.4017,
      "step": 78883
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6613303422927856,
      "learning_rate": 2.2898678996980003e-05,
      "loss": 1.4747,
      "step": 78884
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6991947889328003,
      "learning_rate": 2.2894674057125818e-05,
      "loss": 1.5214,
      "step": 78885
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6645697355270386,
      "learning_rate": 2.2890669453636734e-05,
      "loss": 1.5748,
      "step": 78886
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6997380256652832,
      "learning_rate": 2.288666518651755e-05,
      "loss": 1.4599,
      "step": 78887
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6938527822494507,
      "learning_rate": 2.288266125577306e-05,
      "loss": 1.5125,
      "step": 78888
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6931482553482056,
      "learning_rate": 2.287865766140823e-05,
      "loss": 1.6166,
      "step": 78889
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.663127601146698,
      "learning_rate": 2.287465440342785e-05,
      "loss": 1.5273,
      "step": 78890
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6645816564559937,
      "learning_rate": 2.2870651481836854e-05,
      "loss": 1.506,
      "step": 78891
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7012276649475098,
      "learning_rate": 2.286664889664004e-05,
      "loss": 1.4889,
      "step": 78892
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6770146489143372,
      "learning_rate": 2.2862646647842233e-05,
      "loss": 1.4931,
      "step": 78893
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6870105862617493,
      "learning_rate": 2.2858644735448393e-05,
      "loss": 1.5628,
      "step": 78894
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6538264155387878,
      "learning_rate": 2.2854643159463294e-05,
      "loss": 1.5336,
      "step": 78895
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6679033041000366,
      "learning_rate": 2.2850641919891855e-05,
      "loss": 1.5123,
      "step": 78896
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6544862389564514,
      "learning_rate": 2.2846641016738843e-05,
      "loss": 1.543,
      "step": 78897
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6545324325561523,
      "learning_rate": 2.284264045000922e-05,
      "loss": 1.4827,
      "step": 78898
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.6536599397659302,
      "learning_rate": 2.2838640219707815e-05,
      "loss": 1.5269,
      "step": 78899
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6749919652938843,
      "learning_rate": 2.283464032583939e-05,
      "loss": 1.5769,
      "step": 78900
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6674486398696899,
      "learning_rate": 2.2830640768408914e-05,
      "loss": 1.5578,
      "step": 78901
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6897433996200562,
      "learning_rate": 2.2826641547421244e-05,
      "loss": 1.5591,
      "step": 78902
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6854009032249451,
      "learning_rate": 2.282264266288111e-05,
      "loss": 1.5246,
      "step": 78903
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.672329306602478,
      "learning_rate": 2.2818644114793438e-05,
      "loss": 1.4863,
      "step": 78904
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6556393504142761,
      "learning_rate": 2.2814645903163164e-05,
      "loss": 1.472,
      "step": 78905
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6603214740753174,
      "learning_rate": 2.2810648027995082e-05,
      "loss": 1.5606,
      "step": 78906
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6995770335197449,
      "learning_rate": 2.2806650489293955e-05,
      "loss": 1.5611,
      "step": 78907
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6570271253585815,
      "learning_rate": 2.2802653287064778e-05,
      "loss": 1.4895,
      "step": 78908
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.9657642245292664,
      "learning_rate": 2.279865642131231e-05,
      "loss": 1.5311,
      "step": 78909
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6618143916130066,
      "learning_rate": 2.279465989204139e-05,
      "loss": 1.5916,
      "step": 78910
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6885812878608704,
      "learning_rate": 2.279066369925694e-05,
      "loss": 1.463,
      "step": 78911
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.656960666179657,
      "learning_rate": 2.2786667842963858e-05,
      "loss": 1.5146,
      "step": 78912
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.701423168182373,
      "learning_rate": 2.2782672323166805e-05,
      "loss": 1.5043,
      "step": 78913
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6818583607673645,
      "learning_rate": 2.277867713987075e-05,
      "loss": 1.5411,
      "step": 78914
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6438978314399719,
      "learning_rate": 2.277468229308058e-05,
      "loss": 1.4625,
      "step": 78915
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6786718368530273,
      "learning_rate": 2.27706877828011e-05,
      "loss": 1.4509,
      "step": 78916
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6635306477546692,
      "learning_rate": 2.27666936090371e-05,
      "loss": 1.5376,
      "step": 78917
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6989226937294006,
      "learning_rate": 2.2762699771793513e-05,
      "loss": 1.5209,
      "step": 78918
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6658591032028198,
      "learning_rate": 2.275870627107523e-05,
      "loss": 1.495,
      "step": 78919
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6725375652313232,
      "learning_rate": 2.275471310688696e-05,
      "loss": 1.4949,
      "step": 78920
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6790655255317688,
      "learning_rate": 2.275072027923358e-05,
      "loss": 1.5219,
      "step": 78921
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6845651268959045,
      "learning_rate": 2.2746727788120035e-05,
      "loss": 1.5714,
      "step": 78922
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6782630681991577,
      "learning_rate": 2.2742735633551145e-05,
      "loss": 1.4986,
      "step": 78923
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6600809693336487,
      "learning_rate": 2.2738743815531647e-05,
      "loss": 1.5172,
      "step": 78924
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6967030167579651,
      "learning_rate": 2.273475233406643e-05,
      "loss": 1.5291,
      "step": 78925
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.693629264831543,
      "learning_rate": 2.273076118916053e-05,
      "loss": 1.5418,
      "step": 78926
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6823782920837402,
      "learning_rate": 2.2726770380818504e-05,
      "loss": 1.5314,
      "step": 78927
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6741278767585754,
      "learning_rate": 2.2722779909045318e-05,
      "loss": 1.5014,
      "step": 78928
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6762274503707886,
      "learning_rate": 2.271878977384587e-05,
      "loss": 1.5368,
      "step": 78929
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.694996178150177,
      "learning_rate": 2.2714799975224952e-05,
      "loss": 1.4687,
      "step": 78930
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7005359530448914,
      "learning_rate": 2.2710810513187393e-05,
      "loss": 1.5376,
      "step": 78931
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7148931622505188,
      "learning_rate": 2.270682138773806e-05,
      "loss": 1.5612,
      "step": 78932
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6970148682594299,
      "learning_rate": 2.2702832598881814e-05,
      "loss": 1.5322,
      "step": 78933
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6603659391403198,
      "learning_rate": 2.269884414662342e-05,
      "loss": 1.4557,
      "step": 78934
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.705558717250824,
      "learning_rate": 2.2694856030967767e-05,
      "loss": 1.5828,
      "step": 78935
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6762420535087585,
      "learning_rate": 2.2690868251919758e-05,
      "loss": 1.5245,
      "step": 78936
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.683517336845398,
      "learning_rate": 2.2686880809484187e-05,
      "loss": 1.4875,
      "step": 78937
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6926965117454529,
      "learning_rate": 2.2682893703665818e-05,
      "loss": 1.5414,
      "step": 78938
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6598986983299255,
      "learning_rate": 2.267890693446961e-05,
      "loss": 1.4888,
      "step": 78939
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7007476687431335,
      "learning_rate": 2.267492050190033e-05,
      "loss": 1.5074,
      "step": 78940
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6662003993988037,
      "learning_rate": 2.2670934405962803e-05,
      "loss": 1.4849,
      "step": 78941
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6935106515884399,
      "learning_rate": 2.266694864666193e-05,
      "loss": 1.4673,
      "step": 78942
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6809192895889282,
      "learning_rate": 2.2662963224002473e-05,
      "loss": 1.5174,
      "step": 78943
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.67122882604599,
      "learning_rate": 2.265897813798936e-05,
      "loss": 1.475,
      "step": 78944
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6460751891136169,
      "learning_rate": 2.2654993388627352e-05,
      "loss": 1.4908,
      "step": 78945
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.666172206401825,
      "learning_rate": 2.265100897592138e-05,
      "loss": 1.4825,
      "step": 78946
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6677342653274536,
      "learning_rate": 2.2647024899876142e-05,
      "loss": 1.5262,
      "step": 78947
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6875931620597839,
      "learning_rate": 2.26430411604966e-05,
      "loss": 1.4574,
      "step": 78948
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6755645871162415,
      "learning_rate": 2.2639057757787547e-05,
      "loss": 1.4777,
      "step": 78949
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6832587122917175,
      "learning_rate": 2.263507469175375e-05,
      "loss": 1.5782,
      "step": 78950
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6523544788360596,
      "learning_rate": 2.2631091962400173e-05,
      "loss": 1.4611,
      "step": 78951
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6836421489715576,
      "learning_rate": 2.2627109569731572e-05,
      "loss": 1.5985,
      "step": 78952
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6862506866455078,
      "learning_rate": 2.2623127513752748e-05,
      "loss": 1.4291,
      "step": 78953
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.958916962146759,
      "learning_rate": 2.2619145794468564e-05,
      "loss": 1.5698,
      "step": 78954
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6694954037666321,
      "learning_rate": 2.2615164411883914e-05,
      "loss": 1.5006,
      "step": 78955
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6793732047080994,
      "learning_rate": 2.2611183366003592e-05,
      "loss": 1.5387,
      "step": 78956
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6716455221176147,
      "learning_rate": 2.2607202656832368e-05,
      "loss": 1.5882,
      "step": 78957
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6794843673706055,
      "learning_rate": 2.26032222843752e-05,
      "loss": 1.5426,
      "step": 78958
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.678994357585907,
      "learning_rate": 2.259924224863682e-05,
      "loss": 1.4964,
      "step": 78959
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6545073390007019,
      "learning_rate": 2.259526254962205e-05,
      "loss": 1.5015,
      "step": 78960
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6616427302360535,
      "learning_rate": 2.259128318733576e-05,
      "loss": 1.4543,
      "step": 78961
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6579146981239319,
      "learning_rate": 2.2587304161782884e-05,
      "loss": 1.544,
      "step": 78962
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6857811212539673,
      "learning_rate": 2.2583325472968005e-05,
      "loss": 1.4603,
      "step": 78963
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6712563633918762,
      "learning_rate": 2.257934712089613e-05,
      "loss": 1.5094,
      "step": 78964
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.686474621295929,
      "learning_rate": 2.2575369105572082e-05,
      "loss": 1.4562,
      "step": 78965
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.679377555847168,
      "learning_rate": 2.2571391427000697e-05,
      "loss": 1.5091,
      "step": 78966
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6707366108894348,
      "learning_rate": 2.2567414085186698e-05,
      "loss": 1.5635,
      "step": 78967
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6683031916618347,
      "learning_rate": 2.256343708013495e-05,
      "loss": 1.4519,
      "step": 78968
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6933347582817078,
      "learning_rate": 2.255946041185045e-05,
      "loss": 1.5408,
      "step": 78969
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6831902265548706,
      "learning_rate": 2.255548408033776e-05,
      "loss": 1.4493,
      "step": 78970
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6593335270881653,
      "learning_rate": 2.2551508085601845e-05,
      "loss": 1.5174,
      "step": 78971
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6690442562103271,
      "learning_rate": 2.2547532427647563e-05,
      "loss": 1.5696,
      "step": 78972
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6530192494392395,
      "learning_rate": 2.2543557106479713e-05,
      "loss": 1.4834,
      "step": 78973
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6653954386711121,
      "learning_rate": 2.253958212210303e-05,
      "loss": 1.5398,
      "step": 78974
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.681157112121582,
      "learning_rate": 2.2535607474522433e-05,
      "loss": 1.5476,
      "step": 78975
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6553274989128113,
      "learning_rate": 2.2531633163742822e-05,
      "loss": 1.5417,
      "step": 78976
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.692896842956543,
      "learning_rate": 2.25276591897688e-05,
      "loss": 1.5596,
      "step": 78977
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6803848147392273,
      "learning_rate": 2.2523685552605353e-05,
      "loss": 1.4818,
      "step": 78978
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6815391182899475,
      "learning_rate": 2.2519712252257284e-05,
      "loss": 1.61,
      "step": 78979
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6741442680358887,
      "learning_rate": 2.2515739288729417e-05,
      "loss": 1.5202,
      "step": 78980
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7029074430465698,
      "learning_rate": 2.251176666202652e-05,
      "loss": 1.4619,
      "step": 78981
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6591405272483826,
      "learning_rate": 2.250779437215349e-05,
      "loss": 1.5269,
      "step": 78982
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6988306045532227,
      "learning_rate": 2.2503822419115114e-05,
      "loss": 1.5695,
      "step": 78983
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6457403898239136,
      "learning_rate": 2.2499850802916132e-05,
      "loss": 1.4651,
      "step": 78984
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6835524439811707,
      "learning_rate": 2.2495879523561468e-05,
      "loss": 1.5597,
      "step": 78985
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6817309856414795,
      "learning_rate": 2.2491908581055985e-05,
      "loss": 1.5332,
      "step": 78986
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6639264822006226,
      "learning_rate": 2.2487937975404412e-05,
      "loss": 1.5081,
      "step": 78987
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6684114933013916,
      "learning_rate": 2.248396770661155e-05,
      "loss": 1.5362,
      "step": 78988
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6736792922019958,
      "learning_rate": 2.247999777468229e-05,
      "loss": 1.5554,
      "step": 78989
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.678824782371521,
      "learning_rate": 2.2476028179621464e-05,
      "loss": 1.462,
      "step": 78990
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6592674851417542,
      "learning_rate": 2.2472058921433766e-05,
      "loss": 1.5606,
      "step": 78991
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6707884669303894,
      "learning_rate": 2.246809000012416e-05,
      "loss": 1.4931,
      "step": 78992
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6877196431159973,
      "learning_rate": 2.2464121415697345e-05,
      "loss": 1.4862,
      "step": 78993
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6806966662406921,
      "learning_rate": 2.2460153168158246e-05,
      "loss": 1.5556,
      "step": 78994
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6691983342170715,
      "learning_rate": 2.2456185257511595e-05,
      "loss": 1.5464,
      "step": 78995
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.695393443107605,
      "learning_rate": 2.2452217683762252e-05,
      "loss": 1.5289,
      "step": 78996
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6990522146224976,
      "learning_rate": 2.244825044691505e-05,
      "loss": 1.4627,
      "step": 78997
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6462225317955017,
      "learning_rate": 2.244428354697472e-05,
      "loss": 1.4546,
      "step": 78998
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7003182768821716,
      "learning_rate": 2.2440316983946184e-05,
      "loss": 1.6375,
      "step": 78999
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6442226767539978,
      "learning_rate": 2.2436350757834145e-05,
      "loss": 1.4589,
      "step": 79000
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6699431538581848,
      "learning_rate": 2.243238486864356e-05,
      "loss": 1.4575,
      "step": 79001
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7026281356811523,
      "learning_rate": 2.242841931637913e-05,
      "loss": 1.4718,
      "step": 79002
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6736739873886108,
      "learning_rate": 2.2424454101045687e-05,
      "loss": 1.5085,
      "step": 79003
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6746518015861511,
      "learning_rate": 2.242048922264805e-05,
      "loss": 1.4695,
      "step": 79004
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6817499995231628,
      "learning_rate": 2.241652468119103e-05,
      "loss": 1.4945,
      "step": 79005
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6774410605430603,
      "learning_rate": 2.2412560476679507e-05,
      "loss": 1.5649,
      "step": 79006
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6588294506072998,
      "learning_rate": 2.2408596609118157e-05,
      "loss": 1.5023,
      "step": 79007
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6843699216842651,
      "learning_rate": 2.2404633078511937e-05,
      "loss": 1.4788,
      "step": 79008
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6803982257843018,
      "learning_rate": 2.240066988486561e-05,
      "loss": 1.543,
      "step": 79009
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6754118800163269,
      "learning_rate": 2.239670702818387e-05,
      "loss": 1.4954,
      "step": 79010
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6675404906272888,
      "learning_rate": 2.2392744508471717e-05,
      "loss": 1.4514,
      "step": 79011
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7031937837600708,
      "learning_rate": 2.238878232573378e-05,
      "loss": 1.484,
      "step": 79012
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6651809811592102,
      "learning_rate": 2.2384820479975052e-05,
      "loss": 1.454,
      "step": 79013
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6581457853317261,
      "learning_rate": 2.2380858971200167e-05,
      "loss": 1.5029,
      "step": 79014
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.654177188873291,
      "learning_rate": 2.2376897799414084e-05,
      "loss": 1.4213,
      "step": 79015
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6735910177230835,
      "learning_rate": 2.2372936964621502e-05,
      "loss": 1.4648,
      "step": 79016
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6549756526947021,
      "learning_rate": 2.236897646682725e-05,
      "loss": 1.4499,
      "step": 79017
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6665482521057129,
      "learning_rate": 2.2365016306036186e-05,
      "loss": 1.5023,
      "step": 79018
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6988862752914429,
      "learning_rate": 2.2361056482253114e-05,
      "loss": 1.4828,
      "step": 79019
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6738905906677246,
      "learning_rate": 2.2357096995482727e-05,
      "loss": 1.5314,
      "step": 79020
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6759595274925232,
      "learning_rate": 2.2353137845729952e-05,
      "loss": 1.465,
      "step": 79021
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6551634669303894,
      "learning_rate": 2.2349179032999586e-05,
      "loss": 1.4116,
      "step": 79022
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6861137747764587,
      "learning_rate": 2.2345220557296395e-05,
      "loss": 1.5939,
      "step": 79023
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6623202562332153,
      "learning_rate": 2.2341262418625172e-05,
      "loss": 1.444,
      "step": 79024
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6706324219703674,
      "learning_rate": 2.233730461699078e-05,
      "loss": 1.5223,
      "step": 79025
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6864417791366577,
      "learning_rate": 2.2333347152397985e-05,
      "loss": 1.5007,
      "step": 79026
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7158801555633545,
      "learning_rate": 2.2329390024851546e-05,
      "loss": 1.5051,
      "step": 79027
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6603793501853943,
      "learning_rate": 2.2325433234356325e-05,
      "loss": 1.547,
      "step": 79028
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6909828782081604,
      "learning_rate": 2.2321476780917225e-05,
      "loss": 1.5891,
      "step": 79029
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6862362027168274,
      "learning_rate": 2.23175206645388e-05,
      "loss": 1.571,
      "step": 79030
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6669453382492065,
      "learning_rate": 2.231356488522602e-05,
      "loss": 1.4646,
      "step": 79031
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6843221783638,
      "learning_rate": 2.2309609442983712e-05,
      "loss": 1.5564,
      "step": 79032
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6624517440795898,
      "learning_rate": 2.2305654337816604e-05,
      "loss": 1.5127,
      "step": 79033
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6621352434158325,
      "learning_rate": 2.230169956972946e-05,
      "loss": 1.5365,
      "step": 79034
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6837432980537415,
      "learning_rate": 2.2297745138727142e-05,
      "loss": 1.5414,
      "step": 79035
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6697752475738525,
      "learning_rate": 2.229379104481458e-05,
      "loss": 1.5407,
      "step": 79036
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6908783316612244,
      "learning_rate": 2.2289837287996304e-05,
      "loss": 1.5563,
      "step": 79037
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6735554933547974,
      "learning_rate": 2.2285883868277245e-05,
      "loss": 1.5246,
      "step": 79038
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6715127229690552,
      "learning_rate": 2.2281930785662262e-05,
      "loss": 1.4745,
      "step": 79039
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6742565631866455,
      "learning_rate": 2.2277978040156086e-05,
      "loss": 1.4806,
      "step": 79040
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.658543050289154,
      "learning_rate": 2.227402563176348e-05,
      "loss": 1.4643,
      "step": 79041
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6647915840148926,
      "learning_rate": 2.2270073560489275e-05,
      "loss": 1.4832,
      "step": 79042
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6512505412101746,
      "learning_rate": 2.2266121826338402e-05,
      "loss": 1.5005,
      "step": 79043
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6924195885658264,
      "learning_rate": 2.2262170429315417e-05,
      "loss": 1.5346,
      "step": 79044
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6611427664756775,
      "learning_rate": 2.2258219369425222e-05,
      "loss": 1.4739,
      "step": 79045
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6772451996803284,
      "learning_rate": 2.225426864667271e-05,
      "loss": 1.4888,
      "step": 79046
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6459842920303345,
      "learning_rate": 2.2250318261062583e-05,
      "loss": 1.4161,
      "step": 79047
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.67212975025177,
      "learning_rate": 2.2246368212599564e-05,
      "loss": 1.528,
      "step": 79048
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6669613122940063,
      "learning_rate": 2.2242418501288618e-05,
      "loss": 1.5066,
      "step": 79049
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6777058839797974,
      "learning_rate": 2.223846912713444e-05,
      "loss": 1.4524,
      "step": 79050
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6803106069564819,
      "learning_rate": 2.223452009014176e-05,
      "loss": 1.5646,
      "step": 79051
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6604062914848328,
      "learning_rate": 2.2230571390315477e-05,
      "loss": 1.4687,
      "step": 79052
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6713255047798157,
      "learning_rate": 2.2226623027660384e-05,
      "loss": 1.4704,
      "step": 79053
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6664007902145386,
      "learning_rate": 2.2222675002181243e-05,
      "loss": 1.5655,
      "step": 79054
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6653481721878052,
      "learning_rate": 2.2218727313882822e-05,
      "loss": 1.4357,
      "step": 79055
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6798016428947449,
      "learning_rate": 2.2214779962769946e-05,
      "loss": 1.4034,
      "step": 79056
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6592084169387817,
      "learning_rate": 2.2210832948847444e-05,
      "loss": 1.4478,
      "step": 79057
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6660040616989136,
      "learning_rate": 2.2206886272119984e-05,
      "loss": 1.5178,
      "step": 79058
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6715428233146667,
      "learning_rate": 2.2202939932592457e-05,
      "loss": 1.4844,
      "step": 79059
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6633723378181458,
      "learning_rate": 2.2198993930269628e-05,
      "loss": 1.4931,
      "step": 79060
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6649383306503296,
      "learning_rate": 2.2195048265156323e-05,
      "loss": 1.5332,
      "step": 79061
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6743983626365662,
      "learning_rate": 2.219110293725721e-05,
      "loss": 1.4376,
      "step": 79062
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6647197604179382,
      "learning_rate": 2.218715794657725e-05,
      "loss": 1.4953,
      "step": 79063
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6722462177276611,
      "learning_rate": 2.2183213293121105e-05,
      "loss": 1.4865,
      "step": 79064
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6645065546035767,
      "learning_rate": 2.2179268976893637e-05,
      "loss": 1.5354,
      "step": 79065
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6932361721992493,
      "learning_rate": 2.2175324997899612e-05,
      "loss": 1.5449,
      "step": 79066
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6647655367851257,
      "learning_rate": 2.2171381356143758e-05,
      "loss": 1.5482,
      "step": 79067
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7055752277374268,
      "learning_rate": 2.216743805163094e-05,
      "loss": 1.5712,
      "step": 79068
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6745419502258301,
      "learning_rate": 2.2163495084365944e-05,
      "loss": 1.5742,
      "step": 79069
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6941526532173157,
      "learning_rate": 2.2159552454353446e-05,
      "loss": 1.6023,
      "step": 79070
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.671609103679657,
      "learning_rate": 2.2155610161598337e-05,
      "loss": 1.527,
      "step": 79071
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6810455322265625,
      "learning_rate": 2.215166820610541e-05,
      "loss": 1.4763,
      "step": 79072
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.674307107925415,
      "learning_rate": 2.214772658787943e-05,
      "loss": 1.5272,
      "step": 79073
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6889956593513489,
      "learning_rate": 2.214378530692513e-05,
      "loss": 1.5477,
      "step": 79074
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6771199703216553,
      "learning_rate": 2.2139844363247374e-05,
      "loss": 1.4838,
      "step": 79075
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6530927419662476,
      "learning_rate": 2.2135903756850916e-05,
      "loss": 1.4812,
      "step": 79076
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6910853981971741,
      "learning_rate": 2.2131963487740456e-05,
      "loss": 1.518,
      "step": 79077
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6682721376419067,
      "learning_rate": 2.212802355592089e-05,
      "loss": 1.5567,
      "step": 79078
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6797621846199036,
      "learning_rate": 2.2124083961397022e-05,
      "loss": 1.5795,
      "step": 79079
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6643667221069336,
      "learning_rate": 2.2120144704173504e-05,
      "loss": 1.4953,
      "step": 79080
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6914750337600708,
      "learning_rate": 2.211620578425517e-05,
      "loss": 1.5729,
      "step": 79081
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6749541163444519,
      "learning_rate": 2.211226720164685e-05,
      "loss": 1.4974,
      "step": 79082
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6744417548179626,
      "learning_rate": 2.2108328956353306e-05,
      "loss": 1.4944,
      "step": 79083
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6501709818840027,
      "learning_rate": 2.2104391048379266e-05,
      "loss": 1.4875,
      "step": 79084
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6690282821655273,
      "learning_rate": 2.210045347772956e-05,
      "loss": 1.5168,
      "step": 79085
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6623989939689636,
      "learning_rate": 2.2096516244409024e-05,
      "loss": 1.5072,
      "step": 79086
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6746507287025452,
      "learning_rate": 2.2092579348422278e-05,
      "loss": 1.5011,
      "step": 79087
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.668545126914978,
      "learning_rate": 2.2088642789774224e-05,
      "loss": 1.5486,
      "step": 79088
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6847267746925354,
      "learning_rate": 2.2084706568469624e-05,
      "loss": 1.4741,
      "step": 79089
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6748540997505188,
      "learning_rate": 2.2080770684513273e-05,
      "loss": 1.5751,
      "step": 79090
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6498698592185974,
      "learning_rate": 2.2076835137909833e-05,
      "loss": 1.505,
      "step": 79091
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6655153036117554,
      "learning_rate": 2.2072899928664166e-05,
      "loss": 1.5102,
      "step": 79092
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7013338208198547,
      "learning_rate": 2.2068965056781175e-05,
      "loss": 1.521,
      "step": 79093
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.655368983745575,
      "learning_rate": 2.2065030522265416e-05,
      "loss": 1.5253,
      "step": 79094
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6711568832397461,
      "learning_rate": 2.206109632512172e-05,
      "loss": 1.551,
      "step": 79095
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6521757245063782,
      "learning_rate": 2.2057162465354984e-05,
      "loss": 1.4823,
      "step": 79096
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7243552803993225,
      "learning_rate": 2.2053228942969868e-05,
      "loss": 1.5486,
      "step": 79097
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6655023694038391,
      "learning_rate": 2.204929575797114e-05,
      "loss": 1.5411,
      "step": 79098
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6299805641174316,
      "learning_rate": 2.2045362910363697e-05,
      "loss": 1.4739,
      "step": 79099
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6447339057922363,
      "learning_rate": 2.2041430400152192e-05,
      "loss": 1.6306,
      "step": 79100
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.696405291557312,
      "learning_rate": 2.2037498227341398e-05,
      "loss": 1.4977,
      "step": 79101
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.8915762305259705,
      "learning_rate": 2.203356639193611e-05,
      "loss": 1.5087,
      "step": 79102
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6749017834663391,
      "learning_rate": 2.2029634893941184e-05,
      "loss": 1.5392,
      "step": 79103
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6723888516426086,
      "learning_rate": 2.2025703733361322e-05,
      "loss": 1.539,
      "step": 79104
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6742528676986694,
      "learning_rate": 2.202177291020122e-05,
      "loss": 1.5417,
      "step": 79105
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6770336627960205,
      "learning_rate": 2.2017842424465804e-05,
      "loss": 1.5349,
      "step": 79106
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.670806884765625,
      "learning_rate": 2.2013912276159774e-05,
      "loss": 1.543,
      "step": 79107
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6734172701835632,
      "learning_rate": 2.2009982465287824e-05,
      "loss": 1.4849,
      "step": 79108
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6548010110855103,
      "learning_rate": 2.200605299185485e-05,
      "loss": 1.4387,
      "step": 79109
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6591170430183411,
      "learning_rate": 2.200212385586555e-05,
      "loss": 1.5023,
      "step": 79110
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.664961040019989,
      "learning_rate": 2.199819505732472e-05,
      "loss": 1.5802,
      "step": 79111
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.674006998538971,
      "learning_rate": 2.1994266596237087e-05,
      "loss": 1.5124,
      "step": 79112
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7091904878616333,
      "learning_rate": 2.1990338472607517e-05,
      "loss": 1.5319,
      "step": 79113
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6810091733932495,
      "learning_rate": 2.1986410686440668e-05,
      "loss": 1.5778,
      "step": 79114
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6424302458763123,
      "learning_rate": 2.1982483237741344e-05,
      "loss": 1.454,
      "step": 79115
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6500006318092346,
      "learning_rate": 2.197855612651437e-05,
      "loss": 1.5305,
      "step": 79116
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6662415266036987,
      "learning_rate": 2.1974629352764405e-05,
      "loss": 1.4856,
      "step": 79117
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6712931990623474,
      "learning_rate": 2.197070291649632e-05,
      "loss": 1.6313,
      "step": 79118
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6552294492721558,
      "learning_rate": 2.196677681771484e-05,
      "loss": 1.4806,
      "step": 79119
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6850090622901917,
      "learning_rate": 2.1962851056424658e-05,
      "loss": 1.5197,
      "step": 79120
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6856622695922852,
      "learning_rate": 2.1958925632630676e-05,
      "loss": 1.5108,
      "step": 79121
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6658127307891846,
      "learning_rate": 2.1955000546337554e-05,
      "loss": 1.4628,
      "step": 79122
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6764175295829773,
      "learning_rate": 2.195107579755012e-05,
      "loss": 1.4128,
      "step": 79123
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6989041566848755,
      "learning_rate": 2.1947151386273077e-05,
      "loss": 1.5924,
      "step": 79124
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.790399968624115,
      "learning_rate": 2.1943227312511248e-05,
      "loss": 1.5321,
      "step": 79125
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6788454055786133,
      "learning_rate": 2.1939303576269396e-05,
      "loss": 1.5463,
      "step": 79126
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6945308446884155,
      "learning_rate": 2.193538017755222e-05,
      "loss": 1.5816,
      "step": 79127
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6676468849182129,
      "learning_rate": 2.1931457116364547e-05,
      "loss": 1.4587,
      "step": 79128
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6551839709281921,
      "learning_rate": 2.1927534392711077e-05,
      "loss": 1.5365,
      "step": 79129
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6499572992324829,
      "learning_rate": 2.1923612006596636e-05,
      "loss": 1.5781,
      "step": 79130
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6579731702804565,
      "learning_rate": 2.191968995802592e-05,
      "loss": 1.55,
      "step": 79131
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6699872016906738,
      "learning_rate": 2.1915768247003796e-05,
      "loss": 1.5675,
      "step": 79132
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7128469944000244,
      "learning_rate": 2.1911846873534956e-05,
      "loss": 1.4993,
      "step": 79133
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6659504175186157,
      "learning_rate": 2.1907925837624098e-05,
      "loss": 1.5125,
      "step": 79134
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6808599829673767,
      "learning_rate": 2.1904005139276082e-05,
      "loss": 1.5358,
      "step": 79135
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6613094806671143,
      "learning_rate": 2.1900084778495642e-05,
      "loss": 1.4212,
      "step": 79136
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6709709763526917,
      "learning_rate": 2.1896164755287438e-05,
      "loss": 1.4521,
      "step": 79137
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6846235990524292,
      "learning_rate": 2.1892245069656368e-05,
      "loss": 1.5651,
      "step": 79138
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6845678687095642,
      "learning_rate": 2.1888325721607158e-05,
      "loss": 1.5216,
      "step": 79139
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7625426054000854,
      "learning_rate": 2.1884406711144542e-05,
      "loss": 1.546,
      "step": 79140
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6755053400993347,
      "learning_rate": 2.1880488038273213e-05,
      "loss": 1.5239,
      "step": 79141
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6722425222396851,
      "learning_rate": 2.187656970299807e-05,
      "loss": 1.5832,
      "step": 79142
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6748626232147217,
      "learning_rate": 2.1872651705323774e-05,
      "loss": 1.5262,
      "step": 79143
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6837953329086304,
      "learning_rate": 2.1868734045255055e-05,
      "loss": 1.5932,
      "step": 79144
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6949794888496399,
      "learning_rate": 2.186481672279671e-05,
      "loss": 1.531,
      "step": 79145
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6478570699691772,
      "learning_rate": 2.1860899737953596e-05,
      "loss": 1.5116,
      "step": 79146
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6720346808433533,
      "learning_rate": 2.1856983090730284e-05,
      "loss": 1.526,
      "step": 79147
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.683735728263855,
      "learning_rate": 2.18530667811316e-05,
      "loss": 1.5097,
      "step": 79148
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6854548454284668,
      "learning_rate": 2.1849150809162342e-05,
      "loss": 1.4946,
      "step": 79149
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6843072772026062,
      "learning_rate": 2.184523517482727e-05,
      "loss": 1.53,
      "step": 79150
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6771331429481506,
      "learning_rate": 2.1841319878131016e-05,
      "loss": 1.4639,
      "step": 79151
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6675540804862976,
      "learning_rate": 2.183740491907844e-05,
      "loss": 1.4817,
      "step": 79152
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6538745164871216,
      "learning_rate": 2.183349029767434e-05,
      "loss": 1.4123,
      "step": 79153
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.681033194065094,
      "learning_rate": 2.182957601392331e-05,
      "loss": 1.5248,
      "step": 79154
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6642934083938599,
      "learning_rate": 2.1825662067830184e-05,
      "loss": 1.5682,
      "step": 79155
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6610296964645386,
      "learning_rate": 2.182174845939979e-05,
      "loss": 1.5438,
      "step": 79156
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6900806427001953,
      "learning_rate": 2.181783518863679e-05,
      "loss": 1.4707,
      "step": 79157
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6694942116737366,
      "learning_rate": 2.1813922255545878e-05,
      "loss": 1.4338,
      "step": 79158
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6772157549858093,
      "learning_rate": 2.1810009660131923e-05,
      "loss": 1.471,
      "step": 79159
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.648344099521637,
      "learning_rate": 2.180609740239968e-05,
      "loss": 1.5044,
      "step": 79160
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6706466674804688,
      "learning_rate": 2.1802185482353786e-05,
      "loss": 1.4983,
      "step": 79161
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6737810373306274,
      "learning_rate": 2.179827389999903e-05,
      "loss": 1.4583,
      "step": 79162
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.673656702041626,
      "learning_rate": 2.1794362655340215e-05,
      "loss": 1.5322,
      "step": 79163
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6635788679122925,
      "learning_rate": 2.1790451748382066e-05,
      "loss": 1.4903,
      "step": 79164
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.9810613989830017,
      "learning_rate": 2.1786541179129248e-05,
      "loss": 1.5372,
      "step": 79165
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7221043109893799,
      "learning_rate": 2.1782630947586653e-05,
      "loss": 1.4702,
      "step": 79166
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6945885419845581,
      "learning_rate": 2.177872105375895e-05,
      "loss": 1.5006,
      "step": 79167
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6750356554985046,
      "learning_rate": 2.17748114976508e-05,
      "loss": 1.4744,
      "step": 79168
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7114450335502625,
      "learning_rate": 2.1770902279267065e-05,
      "loss": 1.5299,
      "step": 79169
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6662535667419434,
      "learning_rate": 2.176699339861251e-05,
      "loss": 1.5088,
      "step": 79170
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6592629551887512,
      "learning_rate": 2.1763084855691824e-05,
      "loss": 1.5674,
      "step": 79171
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6669967174530029,
      "learning_rate": 2.1759176650509714e-05,
      "loss": 1.499,
      "step": 79172
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6703029870986938,
      "learning_rate": 2.1755268783071e-05,
      "loss": 1.4903,
      "step": 79173
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6640417575836182,
      "learning_rate": 2.175136125338035e-05,
      "loss": 1.5243,
      "step": 79174
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7077845335006714,
      "learning_rate": 2.1747454061442593e-05,
      "loss": 1.4516,
      "step": 79175
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6886976957321167,
      "learning_rate": 2.1743547207262424e-05,
      "loss": 1.4777,
      "step": 79176
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6941215395927429,
      "learning_rate": 2.173964069084457e-05,
      "loss": 1.5421,
      "step": 79177
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6907821893692017,
      "learning_rate": 2.1735734512193802e-05,
      "loss": 1.5471,
      "step": 79178
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6539121866226196,
      "learning_rate": 2.1731828671314845e-05,
      "loss": 1.5096,
      "step": 79179
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7048346400260925,
      "learning_rate": 2.1727923168212458e-05,
      "loss": 1.4946,
      "step": 79180
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6642422676086426,
      "learning_rate": 2.172401800289134e-05,
      "loss": 1.5127,
      "step": 79181
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6712989211082458,
      "learning_rate": 2.1720113175356323e-05,
      "loss": 1.4927,
      "step": 79182
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6892489790916443,
      "learning_rate": 2.171620868561207e-05,
      "loss": 1.4834,
      "step": 79183
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.7562152743339539,
      "learning_rate": 2.1712304533663272e-05,
      "loss": 1.5019,
      "step": 79184
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6667742133140564,
      "learning_rate": 2.1708400719514828e-05,
      "loss": 1.468,
      "step": 79185
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6851600408554077,
      "learning_rate": 2.170449724317134e-05,
      "loss": 1.553,
      "step": 79186
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6696163415908813,
      "learning_rate": 2.170059410463756e-05,
      "loss": 1.5323,
      "step": 79187
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6435502767562866,
      "learning_rate": 2.1696691303918224e-05,
      "loss": 1.4991,
      "step": 79188
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6698565483093262,
      "learning_rate": 2.1692788841018194e-05,
      "loss": 1.5307,
      "step": 79189
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.687993049621582,
      "learning_rate": 2.1688886715942066e-05,
      "loss": 1.5497,
      "step": 79190
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6606107354164124,
      "learning_rate": 2.1684984928694604e-05,
      "loss": 1.509,
      "step": 79191
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6878364086151123,
      "learning_rate": 2.1681083479280605e-05,
      "loss": 1.5444,
      "step": 79192
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6758798956871033,
      "learning_rate": 2.167718236770476e-05,
      "loss": 1.4868,
      "step": 79193
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.675910234451294,
      "learning_rate": 2.1673281593971737e-05,
      "loss": 1.5123,
      "step": 79194
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6705539226531982,
      "learning_rate": 2.1669381158086364e-05,
      "loss": 1.4779,
      "step": 79195
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6805325150489807,
      "learning_rate": 2.1665481060053436e-05,
      "loss": 1.4608,
      "step": 79196
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6829418540000916,
      "learning_rate": 2.1661581299877518e-05,
      "loss": 1.5441,
      "step": 79197
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6681947708129883,
      "learning_rate": 2.165768187756344e-05,
      "loss": 1.5065,
      "step": 79198
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6856880784034729,
      "learning_rate": 2.165378279311596e-05,
      "loss": 1.5126,
      "step": 79199
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.6981134414672852,
      "learning_rate": 2.164988404653978e-05,
      "loss": 1.5611,
      "step": 79200
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6651210188865662,
      "learning_rate": 2.1645985637839558e-05,
      "loss": 1.4798,
      "step": 79201
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6659866571426392,
      "learning_rate": 2.1642087567020127e-05,
      "loss": 1.5422,
      "step": 79202
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6600254774093628,
      "learning_rate": 2.163818983408625e-05,
      "loss": 1.548,
      "step": 79203
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6826058626174927,
      "learning_rate": 2.1634292439042522e-05,
      "loss": 1.5312,
      "step": 79204
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6545129418373108,
      "learning_rate": 2.163039538189374e-05,
      "loss": 1.5068,
      "step": 79205
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7095478177070618,
      "learning_rate": 2.1626498662644698e-05,
      "loss": 1.4311,
      "step": 79206
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6707291603088379,
      "learning_rate": 2.1622602281300063e-05,
      "loss": 1.5368,
      "step": 79207
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6544479727745056,
      "learning_rate": 2.1618706237864524e-05,
      "loss": 1.5463,
      "step": 79208
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6519786715507507,
      "learning_rate": 2.1614810532342852e-05,
      "loss": 1.5371,
      "step": 79209
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6629774570465088,
      "learning_rate": 2.1610915164739907e-05,
      "loss": 1.5302,
      "step": 79210
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6782450675964355,
      "learning_rate": 2.1607020135060182e-05,
      "loss": 1.4812,
      "step": 79211
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6670250296592712,
      "learning_rate": 2.160312544330851e-05,
      "loss": 1.5061,
      "step": 79212
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6999375224113464,
      "learning_rate": 2.1599231089489654e-05,
      "loss": 1.5622,
      "step": 79213
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6624029278755188,
      "learning_rate": 2.1595337073608343e-05,
      "loss": 1.5025,
      "step": 79214
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6794624924659729,
      "learning_rate": 2.1591443395669207e-05,
      "loss": 1.5693,
      "step": 79215
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6955086588859558,
      "learning_rate": 2.158755005567707e-05,
      "loss": 1.5249,
      "step": 79216
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6944161653518677,
      "learning_rate": 2.158365705363667e-05,
      "loss": 1.5167,
      "step": 79217
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.665041983127594,
      "learning_rate": 2.15797643895526e-05,
      "loss": 1.5254,
      "step": 79218
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6724358797073364,
      "learning_rate": 2.1575872063429687e-05,
      "loss": 1.4223,
      "step": 79219
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6514407992362976,
      "learning_rate": 2.1571980075272665e-05,
      "loss": 1.4341,
      "step": 79220
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6640889048576355,
      "learning_rate": 2.156808842508626e-05,
      "loss": 1.5023,
      "step": 79221
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.705868661403656,
      "learning_rate": 2.1564197112875137e-05,
      "loss": 1.4967,
      "step": 79222
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6458385586738586,
      "learning_rate": 2.156030613864409e-05,
      "loss": 1.4839,
      "step": 79223
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6770572662353516,
      "learning_rate": 2.1556415502397782e-05,
      "loss": 1.5362,
      "step": 79224
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6479272246360779,
      "learning_rate": 2.1552525204140947e-05,
      "loss": 1.4707,
      "step": 79225
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.66648930311203,
      "learning_rate": 2.1548635243878344e-05,
      "loss": 1.4848,
      "step": 79226
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7114666700363159,
      "learning_rate": 2.15447456216146e-05,
      "loss": 1.5756,
      "step": 79227
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6701326370239258,
      "learning_rate": 2.1540856337354583e-05,
      "loss": 1.535,
      "step": 79228
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6521016955375671,
      "learning_rate": 2.1536967391102888e-05,
      "loss": 1.5045,
      "step": 79229
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7030633687973022,
      "learning_rate": 2.1533078782864342e-05,
      "loss": 1.5535,
      "step": 79230
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.681571900844574,
      "learning_rate": 2.152919051264361e-05,
      "loss": 1.5475,
      "step": 79231
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6535841226577759,
      "learning_rate": 2.1525302580445323e-05,
      "loss": 1.5529,
      "step": 79232
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6963744759559631,
      "learning_rate": 2.1521414986274378e-05,
      "loss": 1.5382,
      "step": 79233
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6651687026023865,
      "learning_rate": 2.1517527730135332e-05,
      "loss": 1.5566,
      "step": 79234
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.688600480556488,
      "learning_rate": 2.151364081203305e-05,
      "loss": 1.4598,
      "step": 79235
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.701453685760498,
      "learning_rate": 2.1509754231972132e-05,
      "loss": 1.4685,
      "step": 79236
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6679971218109131,
      "learning_rate": 2.1505867989957336e-05,
      "loss": 1.5592,
      "step": 79237
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6716699004173279,
      "learning_rate": 2.1501982085993396e-05,
      "loss": 1.4891,
      "step": 79238
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6957840919494629,
      "learning_rate": 2.1498096520084974e-05,
      "loss": 1.5044,
      "step": 79239
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6745264530181885,
      "learning_rate": 2.1494211292236895e-05,
      "loss": 1.4538,
      "step": 79240
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7016560435295105,
      "learning_rate": 2.1490326402453726e-05,
      "loss": 1.465,
      "step": 79241
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6781577467918396,
      "learning_rate": 2.1486441850740333e-05,
      "loss": 1.5333,
      "step": 79242
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6825665831565857,
      "learning_rate": 2.1482557637101373e-05,
      "loss": 1.4926,
      "step": 79243
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6776840090751648,
      "learning_rate": 2.1478673761541476e-05,
      "loss": 1.509,
      "step": 79244
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6889838576316833,
      "learning_rate": 2.147479022406551e-05,
      "loss": 1.4931,
      "step": 79245
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6969504356384277,
      "learning_rate": 2.1470907024678095e-05,
      "loss": 1.5261,
      "step": 79246
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.684084951877594,
      "learning_rate": 2.1467024163383906e-05,
      "loss": 1.5491,
      "step": 79247
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6535782217979431,
      "learning_rate": 2.1463141640187698e-05,
      "loss": 1.4443,
      "step": 79248
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6644879579544067,
      "learning_rate": 2.145925945509427e-05,
      "loss": 1.4535,
      "step": 79249
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6640264391899109,
      "learning_rate": 2.1455377608108248e-05,
      "loss": 1.4889,
      "step": 79250
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6566274166107178,
      "learning_rate": 2.14514960992343e-05,
      "loss": 1.5612,
      "step": 79251
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6801577806472778,
      "learning_rate": 2.144761492847725e-05,
      "loss": 1.5445,
      "step": 79252
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.690155029296875,
      "learning_rate": 2.144373409584177e-05,
      "loss": 1.3969,
      "step": 79253
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6868447661399841,
      "learning_rate": 2.143985360133248e-05,
      "loss": 1.4738,
      "step": 79254
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.670707643032074,
      "learning_rate": 2.143597344495418e-05,
      "loss": 1.3776,
      "step": 79255
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6971316933631897,
      "learning_rate": 2.14320936267116e-05,
      "loss": 1.5431,
      "step": 79256
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6843022108078003,
      "learning_rate": 2.1428214146609434e-05,
      "loss": 1.5347,
      "step": 79257
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6659383177757263,
      "learning_rate": 2.142433500465228e-05,
      "loss": 1.5025,
      "step": 79258
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6726683974266052,
      "learning_rate": 2.1420456200845036e-05,
      "loss": 1.5896,
      "step": 79259
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6728127598762512,
      "learning_rate": 2.1416577735192263e-05,
      "loss": 1.4896,
      "step": 79260
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6870995163917542,
      "learning_rate": 2.1412699607698692e-05,
      "loss": 1.6066,
      "step": 79261
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7085930109024048,
      "learning_rate": 2.1408821818369083e-05,
      "loss": 1.5283,
      "step": 79262
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6773157119750977,
      "learning_rate": 2.1404944367208165e-05,
      "loss": 1.5451,
      "step": 79263
    },
    {
      "epoch": 2.64,
      "grad_norm": 1.3881675004959106,
      "learning_rate": 2.1401067254220538e-05,
      "loss": 1.4552,
      "step": 79264
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6782311201095581,
      "learning_rate": 2.139719047941093e-05,
      "loss": 1.5115,
      "step": 79265
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6826379895210266,
      "learning_rate": 2.1393314042784138e-05,
      "loss": 1.4674,
      "step": 79266
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6795015335083008,
      "learning_rate": 2.1389437944344822e-05,
      "loss": 1.4678,
      "step": 79267
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.665695071220398,
      "learning_rate": 2.1385562184097648e-05,
      "loss": 1.5278,
      "step": 79268
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6509643793106079,
      "learning_rate": 2.1381686762047313e-05,
      "loss": 1.4995,
      "step": 79269
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6914169788360596,
      "learning_rate": 2.1377811678198675e-05,
      "loss": 1.5437,
      "step": 79270
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6814743876457214,
      "learning_rate": 2.1373936932556235e-05,
      "loss": 1.5295,
      "step": 79271
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6718090772628784,
      "learning_rate": 2.1370062525124754e-05,
      "loss": 1.4942,
      "step": 79272
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6928354501724243,
      "learning_rate": 2.136618845590903e-05,
      "loss": 1.5383,
      "step": 79273
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6580843925476074,
      "learning_rate": 2.136231472491369e-05,
      "loss": 1.5303,
      "step": 79274
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6796659827232361,
      "learning_rate": 2.1358441332143395e-05,
      "loss": 1.4886,
      "step": 79275
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6879124641418457,
      "learning_rate": 2.1354568277602912e-05,
      "loss": 1.4758,
      "step": 79276
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6514788269996643,
      "learning_rate": 2.1350695561297003e-05,
      "loss": 1.5117,
      "step": 79277
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6858888268470764,
      "learning_rate": 2.134682318323023e-05,
      "loss": 1.5335,
      "step": 79278
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.685768723487854,
      "learning_rate": 2.1342951143407328e-05,
      "loss": 1.5096,
      "step": 79279
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6936185956001282,
      "learning_rate": 2.1339079441833052e-05,
      "loss": 1.5124,
      "step": 79280
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6822990775108337,
      "learning_rate": 2.13352080785121e-05,
      "loss": 1.476,
      "step": 79281
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6545910835266113,
      "learning_rate": 2.1331337053449105e-05,
      "loss": 1.524,
      "step": 79282
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6794049739837646,
      "learning_rate": 2.132746636664886e-05,
      "loss": 1.5658,
      "step": 79283
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6679428815841675,
      "learning_rate": 2.1323596018115994e-05,
      "loss": 1.5008,
      "step": 79284
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6873142123222351,
      "learning_rate": 2.1319726007855177e-05,
      "loss": 1.5319,
      "step": 79285
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6821979284286499,
      "learning_rate": 2.1315856335871162e-05,
      "loss": 1.5412,
      "step": 79286
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6869686841964722,
      "learning_rate": 2.131198700216865e-05,
      "loss": 1.5429,
      "step": 79287
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6709923148155212,
      "learning_rate": 2.130811800675234e-05,
      "loss": 1.4737,
      "step": 79288
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6751847267150879,
      "learning_rate": 2.130424934962689e-05,
      "loss": 1.4197,
      "step": 79289
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6623948216438293,
      "learning_rate": 2.1300381030797032e-05,
      "loss": 1.5156,
      "step": 79290
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6927309632301331,
      "learning_rate": 2.129651305026743e-05,
      "loss": 1.4974,
      "step": 79291
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.672895073890686,
      "learning_rate": 2.1292645408042808e-05,
      "loss": 1.445,
      "step": 79292
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6687727570533752,
      "learning_rate": 2.128877810412787e-05,
      "loss": 1.4707,
      "step": 79293
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6593272089958191,
      "learning_rate": 2.1284911138527238e-05,
      "loss": 1.4186,
      "step": 79294
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6630157828330994,
      "learning_rate": 2.1281044511245714e-05,
      "loss": 1.4402,
      "step": 79295
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6835724711418152,
      "learning_rate": 2.127717822228786e-05,
      "loss": 1.4306,
      "step": 79296
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6782700419425964,
      "learning_rate": 2.1273312271658504e-05,
      "loss": 1.4999,
      "step": 79297
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6859027147293091,
      "learning_rate": 2.1269446659362243e-05,
      "loss": 1.5393,
      "step": 79298
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6667928695678711,
      "learning_rate": 2.126558138540384e-05,
      "loss": 1.4876,
      "step": 79299
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6919225454330444,
      "learning_rate": 2.1261716449787957e-05,
      "loss": 1.6022,
      "step": 79300
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.672385573387146,
      "learning_rate": 2.1257851852519225e-05,
      "loss": 1.4992,
      "step": 79301
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6579458713531494,
      "learning_rate": 2.1253987593602473e-05,
      "loss": 1.5333,
      "step": 79302
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6744791865348816,
      "learning_rate": 2.1250123673042264e-05,
      "loss": 1.4669,
      "step": 79303
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6834332346916199,
      "learning_rate": 2.124626009084329e-05,
      "loss": 1.5385,
      "step": 79304
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6959790587425232,
      "learning_rate": 2.1242396847010322e-05,
      "loss": 1.5341,
      "step": 79305
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6763893365859985,
      "learning_rate": 2.1238533941548018e-05,
      "loss": 1.5316,
      "step": 79306
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6736473441123962,
      "learning_rate": 2.1234671374461078e-05,
      "loss": 1.6367,
      "step": 79307
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6988846063613892,
      "learning_rate": 2.1230809145754124e-05,
      "loss": 1.515,
      "step": 79308
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6661339998245239,
      "learning_rate": 2.1226947255431927e-05,
      "loss": 1.5442,
      "step": 79309
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6582168936729431,
      "learning_rate": 2.1223085703499175e-05,
      "loss": 1.4974,
      "step": 79310
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6839324235916138,
      "learning_rate": 2.121922448996044e-05,
      "loss": 1.5102,
      "step": 79311
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6756073832511902,
      "learning_rate": 2.1215363614820514e-05,
      "loss": 1.5687,
      "step": 79312
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6882596015930176,
      "learning_rate": 2.1211503078084125e-05,
      "loss": 1.588,
      "step": 79313
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7104215025901794,
      "learning_rate": 2.1207642879755804e-05,
      "loss": 1.4721,
      "step": 79314
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6941925287246704,
      "learning_rate": 2.120378301984035e-05,
      "loss": 1.5341,
      "step": 79315
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.664176881313324,
      "learning_rate": 2.1199923498342452e-05,
      "loss": 1.5037,
      "step": 79316
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6599044799804688,
      "learning_rate": 2.119606431526678e-05,
      "loss": 1.4958,
      "step": 79317
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.682536780834198,
      "learning_rate": 2.1192205470617964e-05,
      "loss": 1.4481,
      "step": 79318
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6738996505737305,
      "learning_rate": 2.1188346964400727e-05,
      "loss": 1.5033,
      "step": 79319
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.681742787361145,
      "learning_rate": 2.1184488796619837e-05,
      "loss": 1.4683,
      "step": 79320
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.683104932308197,
      "learning_rate": 2.1180630967279788e-05,
      "loss": 1.4281,
      "step": 79321
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6511398553848267,
      "learning_rate": 2.117677347638541e-05,
      "loss": 1.48,
      "step": 79322
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7039793133735657,
      "learning_rate": 2.117291632394137e-05,
      "loss": 1.5489,
      "step": 79323
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6436554789543152,
      "learning_rate": 2.1169059509952325e-05,
      "loss": 1.5206,
      "step": 79324
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.668676495552063,
      "learning_rate": 2.1165203034422938e-05,
      "loss": 1.4615,
      "step": 79325
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6872656941413879,
      "learning_rate": 2.1161346897357878e-05,
      "loss": 1.5354,
      "step": 79326
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6824186444282532,
      "learning_rate": 2.115749109876197e-05,
      "loss": 1.4766,
      "step": 79327
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6685423851013184,
      "learning_rate": 2.1153635638639677e-05,
      "loss": 1.5163,
      "step": 79328
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6888164281845093,
      "learning_rate": 2.1149780516995796e-05,
      "loss": 1.4527,
      "step": 79329
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6692782640457153,
      "learning_rate": 2.1145925733835022e-05,
      "loss": 1.5098,
      "step": 79330
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6606870889663696,
      "learning_rate": 2.114207128916202e-05,
      "loss": 1.524,
      "step": 79331
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6867911219596863,
      "learning_rate": 2.113821718298142e-05,
      "loss": 1.5636,
      "step": 79332
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6704864501953125,
      "learning_rate": 2.113436341529795e-05,
      "loss": 1.4981,
      "step": 79333
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7241685390472412,
      "learning_rate": 2.1130509986116308e-05,
      "loss": 1.5137,
      "step": 79334
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6891482472419739,
      "learning_rate": 2.1126656895441085e-05,
      "loss": 1.532,
      "step": 79335
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6461237072944641,
      "learning_rate": 2.1122804143276983e-05,
      "loss": 1.5512,
      "step": 79336
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6547572612762451,
      "learning_rate": 2.1118951729628765e-05,
      "loss": 1.5258,
      "step": 79337
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6798720955848694,
      "learning_rate": 2.1115099654501055e-05,
      "loss": 1.5101,
      "step": 79338
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6889519691467285,
      "learning_rate": 2.111124791789849e-05,
      "loss": 1.5373,
      "step": 79339
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.646751880645752,
      "learning_rate": 2.1107396519825827e-05,
      "loss": 1.5319,
      "step": 79340
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6732261180877686,
      "learning_rate": 2.1103545460287663e-05,
      "loss": 1.5372,
      "step": 79341
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6879892945289612,
      "learning_rate": 2.1099694739288663e-05,
      "loss": 1.5798,
      "step": 79342
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6560795307159424,
      "learning_rate": 2.109584435683359e-05,
      "loss": 1.513,
      "step": 79343
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6640850305557251,
      "learning_rate": 2.109199431292704e-05,
      "loss": 1.5096,
      "step": 79344
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6809492707252502,
      "learning_rate": 2.1088144607573744e-05,
      "loss": 1.5269,
      "step": 79345
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6834240555763245,
      "learning_rate": 2.1084295240778294e-05,
      "loss": 1.4848,
      "step": 79346
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.686080813407898,
      "learning_rate": 2.1080446212545454e-05,
      "loss": 1.5403,
      "step": 79347
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6925104856491089,
      "learning_rate": 2.1076597522879858e-05,
      "loss": 1.602,
      "step": 79348
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6762675642967224,
      "learning_rate": 2.107274917178613e-05,
      "loss": 1.5578,
      "step": 79349
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6637412309646606,
      "learning_rate": 2.1068901159269035e-05,
      "loss": 1.5082,
      "step": 79350
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7054742574691772,
      "learning_rate": 2.106505348533314e-05,
      "loss": 1.5954,
      "step": 79351
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6795752644538879,
      "learning_rate": 2.1061206149983234e-05,
      "loss": 1.5213,
      "step": 79352
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6723757386207581,
      "learning_rate": 2.1057359153223917e-05,
      "loss": 1.4928,
      "step": 79353
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6813153624534607,
      "learning_rate": 2.105351249505982e-05,
      "loss": 1.5484,
      "step": 79354
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7049185633659363,
      "learning_rate": 2.1049666175495706e-05,
      "loss": 1.525,
      "step": 79355
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.660003125667572,
      "learning_rate": 2.1045820194536165e-05,
      "loss": 1.4418,
      "step": 79356
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6620521545410156,
      "learning_rate": 2.1041974552185937e-05,
      "loss": 1.5549,
      "step": 79357
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6697813272476196,
      "learning_rate": 2.1038129248449577e-05,
      "loss": 1.5284,
      "step": 79358
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7034025192260742,
      "learning_rate": 2.1034284283331883e-05,
      "loss": 1.5141,
      "step": 79359
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6783746480941772,
      "learning_rate": 2.1030439656837484e-05,
      "loss": 1.5111,
      "step": 79360
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6741268038749695,
      "learning_rate": 2.1026595368970946e-05,
      "loss": 1.5471,
      "step": 79361
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6646455526351929,
      "learning_rate": 2.1022751419737095e-05,
      "loss": 1.5523,
      "step": 79362
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6680153012275696,
      "learning_rate": 2.1018907809140493e-05,
      "loss": 1.536,
      "step": 79363
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6547727584838867,
      "learning_rate": 2.101506453718581e-05,
      "loss": 1.4669,
      "step": 79364
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6756258010864258,
      "learning_rate": 2.1011221603877703e-05,
      "loss": 1.513,
      "step": 79365
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6539115905761719,
      "learning_rate": 2.1007379009220937e-05,
      "loss": 1.5226,
      "step": 79366
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.702743411064148,
      "learning_rate": 2.1003536753220072e-05,
      "loss": 1.617,
      "step": 79367
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6517452597618103,
      "learning_rate": 2.099969483587981e-05,
      "loss": 1.433,
      "step": 79368
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.650873601436615,
      "learning_rate": 2.099585325720481e-05,
      "loss": 1.5975,
      "step": 79369
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6866875886917114,
      "learning_rate": 2.0992012017199767e-05,
      "loss": 1.5267,
      "step": 79370
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6761707663536072,
      "learning_rate": 2.0988171115869246e-05,
      "loss": 1.5258,
      "step": 79371
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6925657391548157,
      "learning_rate": 2.0984330553217977e-05,
      "loss": 1.6291,
      "step": 79372
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6897006630897522,
      "learning_rate": 2.0980490329250688e-05,
      "loss": 1.5544,
      "step": 79373
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6934410333633423,
      "learning_rate": 2.097665044397194e-05,
      "loss": 1.4922,
      "step": 79374
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6930476427078247,
      "learning_rate": 2.0972810897386404e-05,
      "loss": 1.5131,
      "step": 79375
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6588448882102966,
      "learning_rate": 2.096897168949877e-05,
      "loss": 1.5254,
      "step": 79376
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6886154413223267,
      "learning_rate": 2.0965132820313735e-05,
      "loss": 1.6354,
      "step": 79377
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.65956711769104,
      "learning_rate": 2.0961294289835863e-05,
      "loss": 1.5016,
      "step": 79378
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6704345345497131,
      "learning_rate": 2.0957456098069847e-05,
      "loss": 1.4287,
      "step": 79379
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6651477217674255,
      "learning_rate": 2.0953618245020453e-05,
      "loss": 1.5132,
      "step": 79380
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6807044148445129,
      "learning_rate": 2.0949780730692178e-05,
      "loss": 1.5671,
      "step": 79381
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6753578186035156,
      "learning_rate": 2.094594355508975e-05,
      "loss": 1.4922,
      "step": 79382
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6594938635826111,
      "learning_rate": 2.0942106718217864e-05,
      "loss": 1.4565,
      "step": 79383
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6698017716407776,
      "learning_rate": 2.0938270220081156e-05,
      "loss": 1.5513,
      "step": 79384
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.68918776512146,
      "learning_rate": 2.0934434060684212e-05,
      "loss": 1.4481,
      "step": 79385
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6333728432655334,
      "learning_rate": 2.093059824003177e-05,
      "loss": 1.5027,
      "step": 79386
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6807076930999756,
      "learning_rate": 2.0926762758128522e-05,
      "loss": 1.5045,
      "step": 79387
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6994810104370117,
      "learning_rate": 2.0922927614979e-05,
      "loss": 1.533,
      "step": 79388
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6391707062721252,
      "learning_rate": 2.09190928105879e-05,
      "loss": 1.4483,
      "step": 79389
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6562433242797852,
      "learning_rate": 2.0915258344959983e-05,
      "loss": 1.4895,
      "step": 79390
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6686440110206604,
      "learning_rate": 2.0911424218099783e-05,
      "loss": 1.5375,
      "step": 79391
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6885390281677246,
      "learning_rate": 2.0907590430011955e-05,
      "loss": 1.4752,
      "step": 79392
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6676355004310608,
      "learning_rate": 2.0903756980701202e-05,
      "loss": 1.5108,
      "step": 79393
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6718452572822571,
      "learning_rate": 2.0899923870172253e-05,
      "loss": 1.56,
      "step": 79394
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6810246109962463,
      "learning_rate": 2.089609109842957e-05,
      "loss": 1.4621,
      "step": 79395
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6755368709564209,
      "learning_rate": 2.0892258665477945e-05,
      "loss": 1.4922,
      "step": 79396
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6679571866989136,
      "learning_rate": 2.088842657132198e-05,
      "loss": 1.4174,
      "step": 79397
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6499562859535217,
      "learning_rate": 2.0884594815966405e-05,
      "loss": 1.4375,
      "step": 79398
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6769657731056213,
      "learning_rate": 2.0880763399415714e-05,
      "loss": 1.485,
      "step": 79399
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6892567873001099,
      "learning_rate": 2.08769323216747e-05,
      "loss": 1.525,
      "step": 79400
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6726049184799194,
      "learning_rate": 2.0873101582747966e-05,
      "loss": 1.5797,
      "step": 79401
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6632178425788879,
      "learning_rate": 2.0869271182640135e-05,
      "loss": 1.5554,
      "step": 79402
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6829964518547058,
      "learning_rate": 2.0865441121355875e-05,
      "loss": 1.5193,
      "step": 79403
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6932948231697083,
      "learning_rate": 2.086161139889988e-05,
      "loss": 1.571,
      "step": 79404
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6827266216278076,
      "learning_rate": 2.0857782015276747e-05,
      "loss": 1.507,
      "step": 79405
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.681788980960846,
      "learning_rate": 2.0853952970491105e-05,
      "loss": 1.5023,
      "step": 79406
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7151134610176086,
      "learning_rate": 2.0850124264547652e-05,
      "loss": 1.5201,
      "step": 79407
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6921250820159912,
      "learning_rate": 2.0846295897451015e-05,
      "loss": 1.4665,
      "step": 79408
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6532644033432007,
      "learning_rate": 2.084246786920586e-05,
      "loss": 1.4958,
      "step": 79409
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6874862909317017,
      "learning_rate": 2.0838640179816845e-05,
      "loss": 1.4549,
      "step": 79410
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6705979108810425,
      "learning_rate": 2.0834812829288507e-05,
      "loss": 1.5003,
      "step": 79411
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6960886120796204,
      "learning_rate": 2.0830985817625634e-05,
      "loss": 1.5243,
      "step": 79412
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6797771453857422,
      "learning_rate": 2.082715914483276e-05,
      "loss": 1.63,
      "step": 79413
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6868735551834106,
      "learning_rate": 2.082333281091465e-05,
      "loss": 1.5446,
      "step": 79414
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6726665496826172,
      "learning_rate": 2.08195068158758e-05,
      "loss": 1.4713,
      "step": 79415
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6794233322143555,
      "learning_rate": 2.0815681159720997e-05,
      "loss": 1.5012,
      "step": 79416
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.666339635848999,
      "learning_rate": 2.0811855842454815e-05,
      "loss": 1.4997,
      "step": 79417
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6891582012176514,
      "learning_rate": 2.080803086408188e-05,
      "loss": 1.5088,
      "step": 79418
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6602321267127991,
      "learning_rate": 2.080420622460689e-05,
      "loss": 1.4191,
      "step": 79419
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.653363049030304,
      "learning_rate": 2.080038192403444e-05,
      "loss": 1.544,
      "step": 79420
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6606296896934509,
      "learning_rate": 2.0796557962369154e-05,
      "loss": 1.5882,
      "step": 79421
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6859130263328552,
      "learning_rate": 2.0792734339615703e-05,
      "loss": 1.5706,
      "step": 79422
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6514569520950317,
      "learning_rate": 2.078891105577881e-05,
      "loss": 1.5106,
      "step": 79423
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6868704557418823,
      "learning_rate": 2.0785088110863012e-05,
      "loss": 1.5376,
      "step": 79424
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6801408529281616,
      "learning_rate": 2.0781265504872936e-05,
      "loss": 1.5538,
      "step": 79425
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6769875884056091,
      "learning_rate": 2.077744323781331e-05,
      "loss": 1.5083,
      "step": 79426
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6954613924026489,
      "learning_rate": 2.0773621309688725e-05,
      "loss": 1.425,
      "step": 79427
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6698576807975769,
      "learning_rate": 2.0769799720503755e-05,
      "loss": 1.4679,
      "step": 79428
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6847362518310547,
      "learning_rate": 2.076597847026312e-05,
      "loss": 1.6386,
      "step": 79429
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6457337141036987,
      "learning_rate": 2.0762157558971558e-05,
      "loss": 1.461,
      "step": 79430
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6677582263946533,
      "learning_rate": 2.0758336986633463e-05,
      "loss": 1.5159,
      "step": 79431
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6835187077522278,
      "learning_rate": 2.0754516753253626e-05,
      "loss": 1.5603,
      "step": 79432
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6637313961982727,
      "learning_rate": 2.0750696858836714e-05,
      "loss": 1.54,
      "step": 79433
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6747708320617676,
      "learning_rate": 2.074687730338729e-05,
      "loss": 1.5701,
      "step": 79434
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6535475850105286,
      "learning_rate": 2.074305808690998e-05,
      "loss": 1.5245,
      "step": 79435
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6578307151794434,
      "learning_rate": 2.073923920940945e-05,
      "loss": 1.4395,
      "step": 79436
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7010231018066406,
      "learning_rate": 2.0735420670890402e-05,
      "loss": 1.489,
      "step": 79437
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6941428184509277,
      "learning_rate": 2.0731602471357357e-05,
      "loss": 1.5536,
      "step": 79438
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6556410789489746,
      "learning_rate": 2.072778461081498e-05,
      "loss": 1.5558,
      "step": 79439
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6697449088096619,
      "learning_rate": 2.072396708926797e-05,
      "loss": 1.4368,
      "step": 79440
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6697179079055786,
      "learning_rate": 2.0720149906720885e-05,
      "loss": 1.5062,
      "step": 79441
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6869774460792542,
      "learning_rate": 2.0716333063178392e-05,
      "loss": 1.5264,
      "step": 79442
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6595326662063599,
      "learning_rate": 2.0712516558645086e-05,
      "loss": 1.4828,
      "step": 79443
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6811022162437439,
      "learning_rate": 2.070870039312573e-05,
      "loss": 1.5026,
      "step": 79444
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6862906813621521,
      "learning_rate": 2.0704884566624793e-05,
      "loss": 1.5341,
      "step": 79445
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6840827465057373,
      "learning_rate": 2.0701069079146927e-05,
      "loss": 1.5048,
      "step": 79446
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6617510914802551,
      "learning_rate": 2.06972539306969e-05,
      "loss": 1.5279,
      "step": 79447
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.664336085319519,
      "learning_rate": 2.0693439121279242e-05,
      "loss": 1.539,
      "step": 79448
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6716743111610413,
      "learning_rate": 2.068962465089855e-05,
      "loss": 1.5483,
      "step": 79449
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6642631888389587,
      "learning_rate": 2.0685810519559522e-05,
      "loss": 1.4036,
      "step": 79450
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6783332228660583,
      "learning_rate": 2.068199672726678e-05,
      "loss": 1.5173,
      "step": 79451
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6467970609664917,
      "learning_rate": 2.0678183274024894e-05,
      "loss": 1.4622,
      "step": 79452
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6604633927345276,
      "learning_rate": 2.067437015983856e-05,
      "loss": 1.5645,
      "step": 79453
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6846038103103638,
      "learning_rate": 2.0670557384712404e-05,
      "loss": 1.4833,
      "step": 79454
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6873796582221985,
      "learning_rate": 2.0666744948651026e-05,
      "loss": 1.504,
      "step": 79455
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6770544052124023,
      "learning_rate": 2.066293285165902e-05,
      "loss": 1.5314,
      "step": 79456
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6658532023429871,
      "learning_rate": 2.0659121093741117e-05,
      "loss": 1.5201,
      "step": 79457
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6798183917999268,
      "learning_rate": 2.0655309674901876e-05,
      "loss": 1.5578,
      "step": 79458
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.668479323387146,
      "learning_rate": 2.06514985951459e-05,
      "loss": 1.4207,
      "step": 79459
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6859682202339172,
      "learning_rate": 2.0647687854477845e-05,
      "loss": 1.6006,
      "step": 79460
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6616852879524231,
      "learning_rate": 2.0643877452902348e-05,
      "loss": 1.4677,
      "step": 79461
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6499988436698914,
      "learning_rate": 2.064006739042403e-05,
      "loss": 1.4473,
      "step": 79462
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6663765907287598,
      "learning_rate": 2.0636257667047462e-05,
      "loss": 1.5868,
      "step": 79463
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7045795917510986,
      "learning_rate": 2.063244828277737e-05,
      "loss": 1.5392,
      "step": 79464
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6546480059623718,
      "learning_rate": 2.0628639237618316e-05,
      "loss": 1.5047,
      "step": 79465
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6783989071846008,
      "learning_rate": 2.0624830531574898e-05,
      "loss": 1.462,
      "step": 79466
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6812437772750854,
      "learning_rate": 2.0621022164651812e-05,
      "loss": 1.4481,
      "step": 79467
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6559349894523621,
      "learning_rate": 2.0617214136853587e-05,
      "loss": 1.5021,
      "step": 79468
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6527441143989563,
      "learning_rate": 2.0613406448184954e-05,
      "loss": 1.4662,
      "step": 79469
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6692723035812378,
      "learning_rate": 2.0609599098650475e-05,
      "loss": 1.4872,
      "step": 79470
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6728164553642273,
      "learning_rate": 2.0605792088254748e-05,
      "loss": 1.5085,
      "step": 79471
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6850062012672424,
      "learning_rate": 2.0601985417002464e-05,
      "loss": 1.4924,
      "step": 79472
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6757330298423767,
      "learning_rate": 2.0598179084898124e-05,
      "loss": 1.4812,
      "step": 79473
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6795247793197632,
      "learning_rate": 2.0594373091946494e-05,
      "loss": 1.4722,
      "step": 79474
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6896035075187683,
      "learning_rate": 2.0590567438152094e-05,
      "loss": 1.5764,
      "step": 79475
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6902573704719543,
      "learning_rate": 2.0586762123519596e-05,
      "loss": 1.4338,
      "step": 79476
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6912811994552612,
      "learning_rate": 2.0582957148053626e-05,
      "loss": 1.5702,
      "step": 79477
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6604354381561279,
      "learning_rate": 2.0579152511758712e-05,
      "loss": 1.5618,
      "step": 79478
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6810460090637207,
      "learning_rate": 2.0575348214639586e-05,
      "loss": 1.5355,
      "step": 79479
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6999588012695312,
      "learning_rate": 2.057154425670081e-05,
      "loss": 1.5411,
      "step": 79480
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6681143045425415,
      "learning_rate": 2.0567740637946983e-05,
      "loss": 1.4819,
      "step": 79481
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6652378439903259,
      "learning_rate": 2.0563937358382733e-05,
      "loss": 1.4834,
      "step": 79482
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.7061538696289062,
      "learning_rate": 2.056013441801272e-05,
      "loss": 1.5432,
      "step": 79483
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6739479303359985,
      "learning_rate": 2.0556331816841542e-05,
      "loss": 1.5496,
      "step": 79484
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6756353974342346,
      "learning_rate": 2.0552529554873763e-05,
      "loss": 1.532,
      "step": 79485
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6657528281211853,
      "learning_rate": 2.054872763211408e-05,
      "loss": 1.5211,
      "step": 79486
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6815674304962158,
      "learning_rate": 2.054492604856709e-05,
      "loss": 1.531,
      "step": 79487
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6559272408485413,
      "learning_rate": 2.0541124804237286e-05,
      "loss": 1.4524,
      "step": 79488
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6899185180664062,
      "learning_rate": 2.053732389912943e-05,
      "loss": 1.5243,
      "step": 79489
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6767780184745789,
      "learning_rate": 2.0533523333248158e-05,
      "loss": 1.4743,
      "step": 79490
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6746872663497925,
      "learning_rate": 2.0529723106597928e-05,
      "loss": 1.5411,
      "step": 79491
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6833527088165283,
      "learning_rate": 2.0525923219183405e-05,
      "loss": 1.4832,
      "step": 79492
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6719262599945068,
      "learning_rate": 2.0522123671009317e-05,
      "loss": 1.552,
      "step": 79493
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6890692114830017,
      "learning_rate": 2.051832446208016e-05,
      "loss": 1.5188,
      "step": 79494
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6723515391349792,
      "learning_rate": 2.0514525592400566e-05,
      "loss": 1.4371,
      "step": 79495
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6738799214363098,
      "learning_rate": 2.051072706197513e-05,
      "loss": 1.5035,
      "step": 79496
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6810884475708008,
      "learning_rate": 2.050692887080858e-05,
      "loss": 1.4652,
      "step": 79497
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6593055129051208,
      "learning_rate": 2.050313101890535e-05,
      "loss": 1.4932,
      "step": 79498
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.701216995716095,
      "learning_rate": 2.0499333506270165e-05,
      "loss": 1.4841,
      "step": 79499
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.6736481189727783,
      "learning_rate": 2.0495536332907624e-05,
      "loss": 1.4952,
      "step": 79500
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6832948923110962,
      "learning_rate": 2.0491739498822323e-05,
      "loss": 1.5024,
      "step": 79501
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7004374265670776,
      "learning_rate": 2.0487943004018824e-05,
      "loss": 1.5141,
      "step": 79502
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6646736860275269,
      "learning_rate": 2.0484146848501792e-05,
      "loss": 1.4918,
      "step": 79503
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6627524495124817,
      "learning_rate": 2.048035103227589e-05,
      "loss": 1.5395,
      "step": 79504
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6871011853218079,
      "learning_rate": 2.0476555555345575e-05,
      "loss": 1.5195,
      "step": 79505
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6808617115020752,
      "learning_rate": 2.0472760417715516e-05,
      "loss": 1.5756,
      "step": 79506
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6844242215156555,
      "learning_rate": 2.046896561939041e-05,
      "loss": 1.5441,
      "step": 79507
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6799688935279846,
      "learning_rate": 2.046517116037478e-05,
      "loss": 1.5365,
      "step": 79508
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6632245779037476,
      "learning_rate": 2.0461377040673198e-05,
      "loss": 1.4966,
      "step": 79509
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6569240093231201,
      "learning_rate": 2.0457583260290323e-05,
      "loss": 1.5226,
      "step": 79510
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6672833561897278,
      "learning_rate": 2.045378981923085e-05,
      "loss": 1.5647,
      "step": 79511
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6948454976081848,
      "learning_rate": 2.0449996717499205e-05,
      "loss": 1.5549,
      "step": 79512
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6724905371665955,
      "learning_rate": 2.044620395510006e-05,
      "loss": 1.5713,
      "step": 79513
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6518082618713379,
      "learning_rate": 2.0442411532038073e-05,
      "loss": 1.5555,
      "step": 79514
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6851382255554199,
      "learning_rate": 2.0438619448317805e-05,
      "loss": 1.425,
      "step": 79515
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6693220734596252,
      "learning_rate": 2.0434827703943824e-05,
      "loss": 1.61,
      "step": 79516
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6516344547271729,
      "learning_rate": 2.043103629892082e-05,
      "loss": 1.4755,
      "step": 79517
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6830158829689026,
      "learning_rate": 2.0427245233253297e-05,
      "loss": 1.5012,
      "step": 79518
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.683282732963562,
      "learning_rate": 2.0423454506945945e-05,
      "loss": 1.5323,
      "step": 79519
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6713789105415344,
      "learning_rate": 2.04196641200033e-05,
      "loss": 1.4834,
      "step": 79520
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6914872527122498,
      "learning_rate": 2.0415874072430015e-05,
      "loss": 1.543,
      "step": 79521
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6628856658935547,
      "learning_rate": 2.0412084364230663e-05,
      "loss": 1.5072,
      "step": 79522
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6786123514175415,
      "learning_rate": 2.0408294995409802e-05,
      "loss": 1.4789,
      "step": 79523
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6867557168006897,
      "learning_rate": 2.040450596597213e-05,
      "loss": 1.5335,
      "step": 79524
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6572318077087402,
      "learning_rate": 2.040071727592214e-05,
      "loss": 1.4581,
      "step": 79525
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6813955903053284,
      "learning_rate": 2.0396928925264498e-05,
      "loss": 1.5467,
      "step": 79526
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6689966917037964,
      "learning_rate": 2.0393140914003837e-05,
      "loss": 1.5083,
      "step": 79527
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7087955474853516,
      "learning_rate": 2.0389353242144612e-05,
      "loss": 1.5458,
      "step": 79528
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6859448552131653,
      "learning_rate": 2.0385565909691594e-05,
      "loss": 1.5156,
      "step": 79529
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6557000279426575,
      "learning_rate": 2.038177891664924e-05,
      "loss": 1.5524,
      "step": 79530
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6738996505737305,
      "learning_rate": 2.037799226302228e-05,
      "loss": 1.4766,
      "step": 79531
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6681144833564758,
      "learning_rate": 2.0374205948815146e-05,
      "loss": 1.4981,
      "step": 79532
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6699758172035217,
      "learning_rate": 2.0370419974032604e-05,
      "loss": 1.5064,
      "step": 79533
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6575849652290344,
      "learning_rate": 2.0366634338679143e-05,
      "loss": 1.5389,
      "step": 79534
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6634023189544678,
      "learning_rate": 2.0362849042759367e-05,
      "loss": 1.5714,
      "step": 79535
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.675196647644043,
      "learning_rate": 2.0359064086277934e-05,
      "loss": 1.5157,
      "step": 79536
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.660433292388916,
      "learning_rate": 2.035527946923937e-05,
      "loss": 1.526,
      "step": 79537
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6706892848014832,
      "learning_rate": 2.035149519164828e-05,
      "loss": 1.4834,
      "step": 79538
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6793844699859619,
      "learning_rate": 2.0347711253509224e-05,
      "loss": 1.5221,
      "step": 79539
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6656355857849121,
      "learning_rate": 2.0343927654826932e-05,
      "loss": 1.5535,
      "step": 79540
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6775815486907959,
      "learning_rate": 2.0340144395605897e-05,
      "loss": 1.4659,
      "step": 79541
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6698197722434998,
      "learning_rate": 2.033636147585065e-05,
      "loss": 1.5127,
      "step": 79542
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6688480377197266,
      "learning_rate": 2.033257889556592e-05,
      "loss": 1.5397,
      "step": 79543
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6658114790916443,
      "learning_rate": 2.032879665475624e-05,
      "loss": 1.5256,
      "step": 79544
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6438575983047485,
      "learning_rate": 2.0325014753426138e-05,
      "loss": 1.4946,
      "step": 79545
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6989779472351074,
      "learning_rate": 2.0321233191580243e-05,
      "loss": 1.4848,
      "step": 79546
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6792865991592407,
      "learning_rate": 2.0317451969223287e-05,
      "loss": 1.5072,
      "step": 79547
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6902803182601929,
      "learning_rate": 2.031367108635963e-05,
      "loss": 1.551,
      "step": 79548
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6744046807289124,
      "learning_rate": 2.0309890542993967e-05,
      "loss": 1.521,
      "step": 79549
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6719233393669128,
      "learning_rate": 2.030611033913093e-05,
      "loss": 1.4677,
      "step": 79550
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6772913932800293,
      "learning_rate": 2.030233047477505e-05,
      "loss": 1.4943,
      "step": 79551
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.683897078037262,
      "learning_rate": 2.029855094993089e-05,
      "loss": 1.4545,
      "step": 79552
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6822282671928406,
      "learning_rate": 2.029477176460308e-05,
      "loss": 1.5629,
      "step": 79553
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6880783438682556,
      "learning_rate": 2.029099291879631e-05,
      "loss": 1.5156,
      "step": 79554
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6607746481895447,
      "learning_rate": 2.028721441251495e-05,
      "loss": 1.5788,
      "step": 79555
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6499667763710022,
      "learning_rate": 2.0283436245763697e-05,
      "loss": 1.544,
      "step": 79556
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6877176761627197,
      "learning_rate": 2.0279658418547206e-05,
      "loss": 1.465,
      "step": 79557
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6742737889289856,
      "learning_rate": 2.027588093086998e-05,
      "loss": 1.4312,
      "step": 79558
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6784389615058899,
      "learning_rate": 2.027210378273658e-05,
      "loss": 1.5084,
      "step": 79559
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6694809794425964,
      "learning_rate": 2.026832697415164e-05,
      "loss": 1.4459,
      "step": 79560
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6974810361862183,
      "learning_rate": 2.0264550505119813e-05,
      "loss": 1.5388,
      "step": 79561
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6867484450340271,
      "learning_rate": 2.0260774375645505e-05,
      "loss": 1.5664,
      "step": 79562
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7001228332519531,
      "learning_rate": 2.0256998585733407e-05,
      "loss": 1.5189,
      "step": 79563
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6553340554237366,
      "learning_rate": 2.025322313538812e-05,
      "loss": 1.5124,
      "step": 79564
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6606245040893555,
      "learning_rate": 2.0249448024614233e-05,
      "loss": 1.5304,
      "step": 79565
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6847352981567383,
      "learning_rate": 2.024567325341625e-05,
      "loss": 1.5348,
      "step": 79566
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.654341995716095,
      "learning_rate": 2.024189882179883e-05,
      "loss": 1.5079,
      "step": 79567
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6659295558929443,
      "learning_rate": 2.0238124729766536e-05,
      "loss": 1.4361,
      "step": 79568
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.8310389518737793,
      "learning_rate": 2.0234350977323864e-05,
      "loss": 1.538,
      "step": 79569
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.671666145324707,
      "learning_rate": 2.023057756447548e-05,
      "loss": 1.4834,
      "step": 79570
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6830998659133911,
      "learning_rate": 2.0226804491226012e-05,
      "loss": 1.5279,
      "step": 79571
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6889725923538208,
      "learning_rate": 2.0223031757579987e-05,
      "loss": 1.5459,
      "step": 79572
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6809117197990417,
      "learning_rate": 2.0219259363541905e-05,
      "loss": 1.4544,
      "step": 79573
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6641789078712463,
      "learning_rate": 2.0215487309116496e-05,
      "loss": 1.4703,
      "step": 79574
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6609652638435364,
      "learning_rate": 2.0211715594308253e-05,
      "loss": 1.4603,
      "step": 79575
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6692367196083069,
      "learning_rate": 2.0207944219121708e-05,
      "loss": 1.5545,
      "step": 79576
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6580547094345093,
      "learning_rate": 2.020417318356152e-05,
      "loss": 1.523,
      "step": 79577
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6878100633621216,
      "learning_rate": 2.020040248763223e-05,
      "loss": 1.5478,
      "step": 79578
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6545682549476624,
      "learning_rate": 2.0196632131338452e-05,
      "loss": 1.4676,
      "step": 79579
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6679790019989014,
      "learning_rate": 2.0192862114684694e-05,
      "loss": 1.4981,
      "step": 79580
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6659315824508667,
      "learning_rate": 2.0189092437675613e-05,
      "loss": 1.5578,
      "step": 79581
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6899188756942749,
      "learning_rate": 2.0185323100315743e-05,
      "loss": 1.5337,
      "step": 79582
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.659945011138916,
      "learning_rate": 2.0181554102609643e-05,
      "loss": 1.5669,
      "step": 79583
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6638866066932678,
      "learning_rate": 2.0177785444561943e-05,
      "loss": 1.4432,
      "step": 79584
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6679693460464478,
      "learning_rate": 2.017401712617711e-05,
      "loss": 1.6009,
      "step": 79585
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6684310436248779,
      "learning_rate": 2.017024914745984e-05,
      "loss": 1.5307,
      "step": 79586
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6917253136634827,
      "learning_rate": 2.016648150841469e-05,
      "loss": 1.5148,
      "step": 79587
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6687402725219727,
      "learning_rate": 2.0162714209046126e-05,
      "loss": 1.5924,
      "step": 79588
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6473923325538635,
      "learning_rate": 2.015894724935885e-05,
      "loss": 1.4722,
      "step": 79589
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.650626540184021,
      "learning_rate": 2.0155180629357316e-05,
      "loss": 1.4926,
      "step": 79590
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6960964202880859,
      "learning_rate": 2.0151414349046224e-05,
      "loss": 1.4857,
      "step": 79591
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6621764898300171,
      "learning_rate": 2.014764840843004e-05,
      "loss": 1.5133,
      "step": 79592
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6685555577278137,
      "learning_rate": 2.0143882807513422e-05,
      "loss": 1.5645,
      "step": 79593
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6605565547943115,
      "learning_rate": 2.0140117546300872e-05,
      "loss": 1.503,
      "step": 79594
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6533929109573364,
      "learning_rate": 2.0136352624796948e-05,
      "loss": 1.5278,
      "step": 79595
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6852217316627502,
      "learning_rate": 2.0132588043006314e-05,
      "loss": 1.528,
      "step": 79596
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.683467447757721,
      "learning_rate": 2.0128823800933503e-05,
      "loss": 1.4726,
      "step": 79597
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6837698817253113,
      "learning_rate": 2.0125059898582972e-05,
      "loss": 1.4411,
      "step": 79598
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6716127395629883,
      "learning_rate": 2.0121296335959392e-05,
      "loss": 1.5153,
      "step": 79599
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6454704403877258,
      "learning_rate": 2.0117533113067384e-05,
      "loss": 1.4965,
      "step": 79600
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7039273381233215,
      "learning_rate": 2.011377022991142e-05,
      "loss": 1.5628,
      "step": 79601
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7012829184532166,
      "learning_rate": 2.011000768649609e-05,
      "loss": 1.4757,
      "step": 79602
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6620509624481201,
      "learning_rate": 2.010624548282599e-05,
      "loss": 1.5296,
      "step": 79603
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.64369797706604,
      "learning_rate": 2.0102483618905686e-05,
      "loss": 1.4777,
      "step": 79604
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6771236658096313,
      "learning_rate": 2.009872209473967e-05,
      "loss": 1.5446,
      "step": 79605
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6979502439498901,
      "learning_rate": 2.009496091033258e-05,
      "loss": 1.4812,
      "step": 79606
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7021986842155457,
      "learning_rate": 2.009120006568904e-05,
      "loss": 1.4697,
      "step": 79607
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6463276147842407,
      "learning_rate": 2.0087439560813447e-05,
      "loss": 1.502,
      "step": 79608
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6943226456642151,
      "learning_rate": 2.008367939571046e-05,
      "loss": 1.406,
      "step": 79609
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6635269522666931,
      "learning_rate": 2.0079919570384685e-05,
      "loss": 1.5483,
      "step": 79610
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6910455226898193,
      "learning_rate": 2.0076160084840643e-05,
      "loss": 1.4773,
      "step": 79611
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6900063157081604,
      "learning_rate": 2.0072400939082868e-05,
      "loss": 1.5816,
      "step": 79612
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6999916434288025,
      "learning_rate": 2.0068642133115952e-05,
      "loss": 1.5365,
      "step": 79613
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6501468420028687,
      "learning_rate": 2.0064883666944532e-05,
      "loss": 1.5685,
      "step": 79614
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6693360805511475,
      "learning_rate": 2.006112554057303e-05,
      "loss": 1.4631,
      "step": 79615
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6700499653816223,
      "learning_rate": 2.0057367754006048e-05,
      "loss": 1.4815,
      "step": 79616
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6728612780570984,
      "learning_rate": 2.0053610307248247e-05,
      "loss": 1.4969,
      "step": 79617
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6702541708946228,
      "learning_rate": 2.004985320030409e-05,
      "loss": 1.407,
      "step": 79618
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6854867339134216,
      "learning_rate": 2.0046096433178138e-05,
      "loss": 1.5569,
      "step": 79619
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.666508674621582,
      "learning_rate": 2.004234000587496e-05,
      "loss": 1.4876,
      "step": 79620
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6792306303977966,
      "learning_rate": 2.003858391839921e-05,
      "loss": 1.5034,
      "step": 79621
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6931804418563843,
      "learning_rate": 2.003482817075529e-05,
      "loss": 1.4509,
      "step": 79622
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6830598711967468,
      "learning_rate": 2.0031072762947863e-05,
      "loss": 1.4368,
      "step": 79623
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6867324113845825,
      "learning_rate": 2.0027317694981494e-05,
      "loss": 1.5394,
      "step": 79624
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6811814904212952,
      "learning_rate": 2.0023562966860674e-05,
      "loss": 1.5951,
      "step": 79625
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.672879159450531,
      "learning_rate": 2.001980857859e-05,
      "loss": 1.5677,
      "step": 79626
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6743294596672058,
      "learning_rate": 2.001605453017401e-05,
      "loss": 1.5569,
      "step": 79627
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6722496747970581,
      "learning_rate": 2.0012300821617356e-05,
      "loss": 1.5188,
      "step": 79628
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7090297937393188,
      "learning_rate": 2.0008547452924406e-05,
      "loss": 1.5411,
      "step": 79629
    },
    {
      "epoch": 2.65,
      "grad_norm": 1.5969001054763794,
      "learning_rate": 2.0004794424099858e-05,
      "loss": 1.5418,
      "step": 79630
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6695557236671448,
      "learning_rate": 2.000104173514827e-05,
      "loss": 1.4763,
      "step": 79631
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.683081328868866,
      "learning_rate": 1.9997289386074177e-05,
      "loss": 1.5775,
      "step": 79632
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6614065170288086,
      "learning_rate": 1.999353737688204e-05,
      "loss": 1.5651,
      "step": 79633
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.691215455532074,
      "learning_rate": 1.9989785707576557e-05,
      "loss": 1.4347,
      "step": 79634
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6481236815452576,
      "learning_rate": 1.9986034378162153e-05,
      "loss": 1.4156,
      "step": 79635
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6650360822677612,
      "learning_rate": 1.9982283388643528e-05,
      "loss": 1.535,
      "step": 79636
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6550122499465942,
      "learning_rate": 1.997853273902508e-05,
      "loss": 1.4564,
      "step": 79637
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6661509871482849,
      "learning_rate": 1.9974782429311464e-05,
      "loss": 1.5254,
      "step": 79638
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.685935914516449,
      "learning_rate": 1.997103245950722e-05,
      "loss": 1.5381,
      "step": 79639
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6390845775604248,
      "learning_rate": 1.9967282829616837e-05,
      "loss": 1.4767,
      "step": 79640
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6722215414047241,
      "learning_rate": 1.9963533539644982e-05,
      "loss": 1.5828,
      "step": 79641
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6831305623054504,
      "learning_rate": 1.995978458959605e-05,
      "loss": 1.4969,
      "step": 79642
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6563261151313782,
      "learning_rate": 1.9956035979474737e-05,
      "loss": 1.5587,
      "step": 79643
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6635376811027527,
      "learning_rate": 1.9952287709285542e-05,
      "loss": 1.5167,
      "step": 79644
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6873456239700317,
      "learning_rate": 1.9948539779032956e-05,
      "loss": 1.535,
      "step": 79645
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6889131665229797,
      "learning_rate": 1.9944792188721615e-05,
      "loss": 1.6162,
      "step": 79646
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6660740375518799,
      "learning_rate": 1.994104493835601e-05,
      "loss": 1.4854,
      "step": 79647
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6390663385391235,
      "learning_rate": 1.993729802794074e-05,
      "loss": 1.4296,
      "step": 79648
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7336719632148743,
      "learning_rate": 1.99335514574803e-05,
      "loss": 1.4898,
      "step": 79649
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6995868682861328,
      "learning_rate": 1.992980522697929e-05,
      "loss": 1.4241,
      "step": 79650
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7000951766967773,
      "learning_rate": 1.99260593364422e-05,
      "loss": 1.4894,
      "step": 79651
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6898080706596375,
      "learning_rate": 1.99223137858736e-05,
      "loss": 1.5271,
      "step": 79652
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.675475537776947,
      "learning_rate": 1.991856857527808e-05,
      "loss": 1.4836,
      "step": 79653
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6550815105438232,
      "learning_rate": 1.9914823704660177e-05,
      "loss": 1.5184,
      "step": 79654
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6751865744590759,
      "learning_rate": 1.9911079174024314e-05,
      "loss": 1.4867,
      "step": 79655
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6736658811569214,
      "learning_rate": 1.9907334983375156e-05,
      "loss": 1.5073,
      "step": 79656
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6746478080749512,
      "learning_rate": 1.9903591132717268e-05,
      "loss": 1.4738,
      "step": 79657
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6688394546508789,
      "learning_rate": 1.9899847622055176e-05,
      "loss": 1.5027,
      "step": 79658
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.655162513256073,
      "learning_rate": 1.9896104451393312e-05,
      "loss": 1.5286,
      "step": 79659
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6660277843475342,
      "learning_rate": 1.9892361620736375e-05,
      "loss": 1.495,
      "step": 79660
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6988089680671692,
      "learning_rate": 1.9888619130088824e-05,
      "loss": 1.5548,
      "step": 79661
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6753606200218201,
      "learning_rate": 1.988487697945519e-05,
      "loss": 1.4976,
      "step": 79662
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6869942545890808,
      "learning_rate": 1.988113516884e-05,
      "loss": 1.5556,
      "step": 79663
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6703555583953857,
      "learning_rate": 1.987739369824799e-05,
      "loss": 1.5506,
      "step": 79664
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6579767465591431,
      "learning_rate": 1.9873652567683417e-05,
      "loss": 1.4694,
      "step": 79665
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6714185476303101,
      "learning_rate": 1.9869911777150948e-05,
      "loss": 1.5237,
      "step": 79666
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6847584843635559,
      "learning_rate": 1.986617132665521e-05,
      "loss": 1.5676,
      "step": 79667
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6890020370483398,
      "learning_rate": 1.986243121620067e-05,
      "loss": 1.4553,
      "step": 79668
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7144644260406494,
      "learning_rate": 1.9858691445791786e-05,
      "loss": 1.5514,
      "step": 79669
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6671593189239502,
      "learning_rate": 1.985495201543319e-05,
      "loss": 1.4654,
      "step": 79670
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6840994954109192,
      "learning_rate": 1.9851212925129477e-05,
      "loss": 1.6233,
      "step": 79671
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6714159250259399,
      "learning_rate": 1.9847474174885048e-05,
      "loss": 1.5234,
      "step": 79672
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6757297515869141,
      "learning_rate": 1.9843735764704493e-05,
      "loss": 1.4899,
      "step": 79673
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6801035404205322,
      "learning_rate": 1.9839997694592412e-05,
      "loss": 1.5044,
      "step": 79674
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6869035959243774,
      "learning_rate": 1.983625996455327e-05,
      "loss": 1.4909,
      "step": 79675
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6556657552719116,
      "learning_rate": 1.9832522574591624e-05,
      "loss": 1.4902,
      "step": 79676
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6989796161651611,
      "learning_rate": 1.9828785524711975e-05,
      "loss": 1.4965,
      "step": 79677
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6605358719825745,
      "learning_rate": 1.982504881491902e-05,
      "loss": 1.4526,
      "step": 79678
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.667683482170105,
      "learning_rate": 1.9821312445217087e-05,
      "loss": 1.5396,
      "step": 79679
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.694807231426239,
      "learning_rate": 1.981757641561077e-05,
      "loss": 1.5226,
      "step": 79680
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6669492721557617,
      "learning_rate": 1.9813840726104702e-05,
      "loss": 1.534,
      "step": 79681
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7164761424064636,
      "learning_rate": 1.9810105376703343e-05,
      "loss": 1.555,
      "step": 79682
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6688645482063293,
      "learning_rate": 1.980637036741116e-05,
      "loss": 1.5268,
      "step": 79683
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6748130321502686,
      "learning_rate": 1.9802635698232848e-05,
      "loss": 1.555,
      "step": 79684
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6929269433021545,
      "learning_rate": 1.9798901369172836e-05,
      "loss": 1.5042,
      "step": 79685
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.665289580821991,
      "learning_rate": 1.979516738023562e-05,
      "loss": 1.4599,
      "step": 79686
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6552849411964417,
      "learning_rate": 1.9791433731425766e-05,
      "loss": 1.4881,
      "step": 79687
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6771894097328186,
      "learning_rate": 1.97877004227479e-05,
      "loss": 1.519,
      "step": 79688
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7258252501487732,
      "learning_rate": 1.978396745420645e-05,
      "loss": 1.5064,
      "step": 79689
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6809074878692627,
      "learning_rate": 1.9780234825805953e-05,
      "loss": 1.4898,
      "step": 79690
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6799476146697998,
      "learning_rate": 1.9776502537550996e-05,
      "loss": 1.4977,
      "step": 79691
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6764634251594543,
      "learning_rate": 1.9772770589446084e-05,
      "loss": 1.5177,
      "step": 79692
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6658472418785095,
      "learning_rate": 1.976903898149571e-05,
      "loss": 1.5315,
      "step": 79693
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.675571858882904,
      "learning_rate": 1.976530771370447e-05,
      "loss": 1.5286,
      "step": 79694
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6976028680801392,
      "learning_rate": 1.9761576786076792e-05,
      "loss": 1.5367,
      "step": 79695
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6718139052391052,
      "learning_rate": 1.9757846198617312e-05,
      "loss": 1.5452,
      "step": 79696
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.675330400466919,
      "learning_rate": 1.9754115951330485e-05,
      "loss": 1.5595,
      "step": 79697
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6794813275337219,
      "learning_rate": 1.9750386044220912e-05,
      "loss": 1.4515,
      "step": 79698
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6763952970504761,
      "learning_rate": 1.974665647729309e-05,
      "loss": 1.5483,
      "step": 79699
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6650299429893494,
      "learning_rate": 1.9742927250551442e-05,
      "loss": 1.4451,
      "step": 79700
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6966047883033752,
      "learning_rate": 1.9739198364000676e-05,
      "loss": 1.5791,
      "step": 79701
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6575366854667664,
      "learning_rate": 1.9735469817645176e-05,
      "loss": 1.5575,
      "step": 79702
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6803967952728271,
      "learning_rate": 1.973174161148955e-05,
      "loss": 1.4708,
      "step": 79703
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6798232793807983,
      "learning_rate": 1.972801374553832e-05,
      "loss": 1.589,
      "step": 79704
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6668805480003357,
      "learning_rate": 1.9724286219795914e-05,
      "loss": 1.534,
      "step": 79705
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6513565182685852,
      "learning_rate": 1.972055903426697e-05,
      "loss": 1.494,
      "step": 79706
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6701807379722595,
      "learning_rate": 1.9716832188955945e-05,
      "loss": 1.5188,
      "step": 79707
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.676293134689331,
      "learning_rate": 1.9713105683867435e-05,
      "loss": 1.5711,
      "step": 79708
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6812670826911926,
      "learning_rate": 1.9709379519005842e-05,
      "loss": 1.4317,
      "step": 79709
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6988774538040161,
      "learning_rate": 1.9705653694375856e-05,
      "loss": 1.5522,
      "step": 79710
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6551863551139832,
      "learning_rate": 1.9701928209981875e-05,
      "loss": 1.5149,
      "step": 79711
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.686162531375885,
      "learning_rate": 1.96982030658284e-05,
      "loss": 1.48,
      "step": 79712
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6606327891349792,
      "learning_rate": 1.969447826192009e-05,
      "loss": 1.4835,
      "step": 79713
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6708531975746155,
      "learning_rate": 1.969075379826134e-05,
      "loss": 1.4091,
      "step": 79714
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6666839122772217,
      "learning_rate": 1.968702967485668e-05,
      "loss": 1.4626,
      "step": 79715
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6627789735794067,
      "learning_rate": 1.9683305891710678e-05,
      "loss": 1.516,
      "step": 79716
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6692672371864319,
      "learning_rate": 1.967958244882786e-05,
      "loss": 1.5088,
      "step": 79717
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6775431632995605,
      "learning_rate": 1.967585934621275e-05,
      "loss": 1.5318,
      "step": 79718
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6965596079826355,
      "learning_rate": 1.967213658386979e-05,
      "loss": 1.4526,
      "step": 79719
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6883484125137329,
      "learning_rate": 1.9668414161803603e-05,
      "loss": 1.4636,
      "step": 79720
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6833809018135071,
      "learning_rate": 1.966469208001865e-05,
      "loss": 1.5493,
      "step": 79721
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6865917444229126,
      "learning_rate": 1.96609703385194e-05,
      "loss": 1.5368,
      "step": 79722
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6507370471954346,
      "learning_rate": 1.9657248937310444e-05,
      "loss": 1.5135,
      "step": 79723
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6606147885322571,
      "learning_rate": 1.9653527876396345e-05,
      "loss": 1.4782,
      "step": 79724
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6991709470748901,
      "learning_rate": 1.9649807155781504e-05,
      "loss": 1.5648,
      "step": 79725
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6779758930206299,
      "learning_rate": 1.964608677547045e-05,
      "loss": 1.5088,
      "step": 79726
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6773233413696289,
      "learning_rate": 1.9642366735467806e-05,
      "loss": 1.457,
      "step": 79727
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6956159472465515,
      "learning_rate": 1.963864703577801e-05,
      "loss": 1.5669,
      "step": 79728
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6668596267700195,
      "learning_rate": 1.9634927676405554e-05,
      "loss": 1.4933,
      "step": 79729
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6857962608337402,
      "learning_rate": 1.963120865735497e-05,
      "loss": 1.5948,
      "step": 79730
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.656936764717102,
      "learning_rate": 1.9627489978630918e-05,
      "loss": 1.5064,
      "step": 79731
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6913015842437744,
      "learning_rate": 1.9623771640237664e-05,
      "loss": 1.5812,
      "step": 79732
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6496824622154236,
      "learning_rate": 1.9620053642179835e-05,
      "loss": 1.5108,
      "step": 79733
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.67668217420578,
      "learning_rate": 1.9616335984461996e-05,
      "loss": 1.5256,
      "step": 79734
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6821424961090088,
      "learning_rate": 1.961261866708861e-05,
      "loss": 1.5364,
      "step": 79735
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6761134266853333,
      "learning_rate": 1.960890169006414e-05,
      "loss": 1.5694,
      "step": 79736
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7048888206481934,
      "learning_rate": 1.9605185053393178e-05,
      "loss": 1.5112,
      "step": 79737
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6840234398841858,
      "learning_rate": 1.9601468757080262e-05,
      "loss": 1.4605,
      "step": 79738
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6501926183700562,
      "learning_rate": 1.9597752801129785e-05,
      "loss": 1.4905,
      "step": 79739
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6619665026664734,
      "learning_rate": 1.9594037185546308e-05,
      "loss": 1.4632,
      "step": 79740
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6799432635307312,
      "learning_rate": 1.9590321910334395e-05,
      "loss": 1.5044,
      "step": 79741
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6554584503173828,
      "learning_rate": 1.958660697549854e-05,
      "loss": 1.5746,
      "step": 79742
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6916391849517822,
      "learning_rate": 1.9582892381043148e-05,
      "loss": 1.5828,
      "step": 79743
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6695839762687683,
      "learning_rate": 1.9579178126972838e-05,
      "loss": 1.5959,
      "step": 79744
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6633954644203186,
      "learning_rate": 1.9575464213292146e-05,
      "loss": 1.5154,
      "step": 79745
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6701317429542542,
      "learning_rate": 1.957175064000547e-05,
      "loss": 1.5632,
      "step": 79746
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6819408535957336,
      "learning_rate": 1.956803740711733e-05,
      "loss": 1.5063,
      "step": 79747
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6796466112136841,
      "learning_rate": 1.9564324514632334e-05,
      "loss": 1.5575,
      "step": 79748
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6758966445922852,
      "learning_rate": 1.956061196255494e-05,
      "loss": 1.5137,
      "step": 79749
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6863894462585449,
      "learning_rate": 1.9556899750889578e-05,
      "loss": 1.4187,
      "step": 79750
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6821041107177734,
      "learning_rate": 1.9553187879640875e-05,
      "loss": 1.4837,
      "step": 79751
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6828019618988037,
      "learning_rate": 1.954947634881323e-05,
      "loss": 1.4346,
      "step": 79752
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.668607234954834,
      "learning_rate": 1.954576515841124e-05,
      "loss": 1.5322,
      "step": 79753
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6711294054985046,
      "learning_rate": 1.9542054308439338e-05,
      "loss": 1.4997,
      "step": 79754
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6825250387191772,
      "learning_rate": 1.9538343798902113e-05,
      "loss": 1.5341,
      "step": 79755
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6469230055809021,
      "learning_rate": 1.9534633629803997e-05,
      "loss": 1.4444,
      "step": 79756
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6604211926460266,
      "learning_rate": 1.9530923801149456e-05,
      "loss": 1.5766,
      "step": 79757
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6972471475601196,
      "learning_rate": 1.952721431294312e-05,
      "loss": 1.4728,
      "step": 79758
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6577261686325073,
      "learning_rate": 1.9523505165189345e-05,
      "loss": 1.4197,
      "step": 79759
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6929688453674316,
      "learning_rate": 1.951979635789277e-05,
      "loss": 1.5116,
      "step": 79760
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6866616606712341,
      "learning_rate": 1.951608789105782e-05,
      "loss": 1.4828,
      "step": 79761
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6863079071044922,
      "learning_rate": 1.951237976468899e-05,
      "loss": 1.496,
      "step": 79762
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6730948090553284,
      "learning_rate": 1.9508671978790846e-05,
      "loss": 1.4589,
      "step": 79763
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6534629464149475,
      "learning_rate": 1.9504964533367786e-05,
      "loss": 1.4631,
      "step": 79764
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6823660135269165,
      "learning_rate": 1.95012574284244e-05,
      "loss": 1.541,
      "step": 79765
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6720445156097412,
      "learning_rate": 1.9497550663965157e-05,
      "loss": 1.4474,
      "step": 79766
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7088636159896851,
      "learning_rate": 1.949384423999458e-05,
      "loss": 1.5634,
      "step": 79767
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6941689848899841,
      "learning_rate": 1.9490138156517142e-05,
      "loss": 1.4834,
      "step": 79768
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6805694699287415,
      "learning_rate": 1.9486432413537302e-05,
      "loss": 1.5184,
      "step": 79769
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6955973505973816,
      "learning_rate": 1.948272701105965e-05,
      "loss": 1.507,
      "step": 79770
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6743299961090088,
      "learning_rate": 1.9479021949088625e-05,
      "loss": 1.4326,
      "step": 79771
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6729631423950195,
      "learning_rate": 1.9475317227628683e-05,
      "loss": 1.508,
      "step": 79772
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6846168637275696,
      "learning_rate": 1.947161284668439e-05,
      "loss": 1.5436,
      "step": 79773
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6932114362716675,
      "learning_rate": 1.946790880626028e-05,
      "loss": 1.5626,
      "step": 79774
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6623913645744324,
      "learning_rate": 1.9464205106360775e-05,
      "loss": 1.4826,
      "step": 79775
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6753660440444946,
      "learning_rate": 1.9460501746990344e-05,
      "loss": 1.4771,
      "step": 79776
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7119162678718567,
      "learning_rate": 1.945679872815358e-05,
      "loss": 1.6033,
      "step": 79777
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7000200152397156,
      "learning_rate": 1.9453096049854944e-05,
      "loss": 1.5414,
      "step": 79778
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6771947741508484,
      "learning_rate": 1.9449393712098838e-05,
      "loss": 1.428,
      "step": 79779
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6905670166015625,
      "learning_rate": 1.9445691714889856e-05,
      "loss": 1.5058,
      "step": 79780
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.7094119787216187,
      "learning_rate": 1.9441990058232526e-05,
      "loss": 1.5596,
      "step": 79781
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6953577995300293,
      "learning_rate": 1.9438288742131214e-05,
      "loss": 1.5728,
      "step": 79782
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6700195074081421,
      "learning_rate": 1.9434587766590482e-05,
      "loss": 1.5281,
      "step": 79783
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6852564215660095,
      "learning_rate": 1.9430887131614858e-05,
      "loss": 1.5587,
      "step": 79784
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6813303232192993,
      "learning_rate": 1.9427186837208776e-05,
      "loss": 1.4904,
      "step": 79785
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.677401065826416,
      "learning_rate": 1.9423486883376725e-05,
      "loss": 1.4963,
      "step": 79786
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6833848357200623,
      "learning_rate": 1.9419787270123243e-05,
      "loss": 1.496,
      "step": 79787
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6622738242149353,
      "learning_rate": 1.9416087997452856e-05,
      "loss": 1.4941,
      "step": 79788
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6957948207855225,
      "learning_rate": 1.9412389065369928e-05,
      "loss": 1.5765,
      "step": 79789
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6994827389717102,
      "learning_rate": 1.9408690473878985e-05,
      "loss": 1.4659,
      "step": 79790
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6920742392539978,
      "learning_rate": 1.9404992222984628e-05,
      "loss": 1.4389,
      "step": 79791
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6715368628501892,
      "learning_rate": 1.9401294312691252e-05,
      "loss": 1.4856,
      "step": 79792
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6643970608711243,
      "learning_rate": 1.939759674300332e-05,
      "loss": 1.474,
      "step": 79793
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6759684681892395,
      "learning_rate": 1.939389951392536e-05,
      "loss": 1.5692,
      "step": 79794
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6744035482406616,
      "learning_rate": 1.9390202625461937e-05,
      "loss": 1.559,
      "step": 79795
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6761260032653809,
      "learning_rate": 1.938650607761738e-05,
      "loss": 1.5032,
      "step": 79796
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6604834198951721,
      "learning_rate": 1.9382809870396255e-05,
      "loss": 1.5337,
      "step": 79797
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6448767781257629,
      "learning_rate": 1.937911400380312e-05,
      "loss": 1.4972,
      "step": 79798
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6749869585037231,
      "learning_rate": 1.9375418477842375e-05,
      "loss": 1.5496,
      "step": 79799
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6730580925941467,
      "learning_rate": 1.937172329251848e-05,
      "loss": 1.4897,
      "step": 79800
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.6745536923408508,
      "learning_rate": 1.9368028447836004e-05,
      "loss": 1.5067,
      "step": 79801
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6808565258979797,
      "learning_rate": 1.9364333943799405e-05,
      "loss": 1.5155,
      "step": 79802
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.677874743938446,
      "learning_rate": 1.936063978041308e-05,
      "loss": 1.5032,
      "step": 79803
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.669590175151825,
      "learning_rate": 1.9356945957681624e-05,
      "loss": 1.4899,
      "step": 79804
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7047482132911682,
      "learning_rate": 1.9353252475609503e-05,
      "loss": 1.5119,
      "step": 79805
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6931671500205994,
      "learning_rate": 1.9349559334201213e-05,
      "loss": 1.5869,
      "step": 79806
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6696074604988098,
      "learning_rate": 1.9345866533461117e-05,
      "loss": 1.5094,
      "step": 79807
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6778114438056946,
      "learning_rate": 1.9342174073393878e-05,
      "loss": 1.4805,
      "step": 79808
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.656356930732727,
      "learning_rate": 1.933848195400386e-05,
      "loss": 1.5062,
      "step": 79809
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6743090152740479,
      "learning_rate": 1.933479017529552e-05,
      "loss": 1.5485,
      "step": 79810
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6918697357177734,
      "learning_rate": 1.9331098737273466e-05,
      "loss": 1.5416,
      "step": 79811
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6774957776069641,
      "learning_rate": 1.9327407639942048e-05,
      "loss": 1.5005,
      "step": 79812
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6637945771217346,
      "learning_rate": 1.932371688330584e-05,
      "loss": 1.5007,
      "step": 79813
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.672027587890625,
      "learning_rate": 1.9320026467369232e-05,
      "loss": 1.5159,
      "step": 79814
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6916728019714355,
      "learning_rate": 1.9316336392136788e-05,
      "loss": 1.5267,
      "step": 79815
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.67093425989151,
      "learning_rate": 1.9312646657612973e-05,
      "loss": 1.4503,
      "step": 79816
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6804340481758118,
      "learning_rate": 1.9308957263802215e-05,
      "loss": 1.4772,
      "step": 79817
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6731685996055603,
      "learning_rate": 1.9305268210709046e-05,
      "loss": 1.567,
      "step": 79818
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6763125658035278,
      "learning_rate": 1.9301579498337893e-05,
      "loss": 1.5674,
      "step": 79819
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6669269800186157,
      "learning_rate": 1.9297891126693322e-05,
      "loss": 1.5074,
      "step": 79820
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6523086428642273,
      "learning_rate": 1.9294203095779725e-05,
      "loss": 1.4757,
      "step": 79821
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6838120222091675,
      "learning_rate": 1.929051540560157e-05,
      "loss": 1.6092,
      "step": 79822
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6642395257949829,
      "learning_rate": 1.9286828056163417e-05,
      "loss": 1.5095,
      "step": 79823
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6810935735702515,
      "learning_rate": 1.9283141047469665e-05,
      "loss": 1.4323,
      "step": 79824
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.663551926612854,
      "learning_rate": 1.927945437952484e-05,
      "loss": 1.5909,
      "step": 79825
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6729645133018494,
      "learning_rate": 1.927576805233334e-05,
      "loss": 1.5257,
      "step": 79826
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6812270283699036,
      "learning_rate": 1.9272082065899762e-05,
      "loss": 1.4536,
      "step": 79827
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6796592473983765,
      "learning_rate": 1.9268396420228504e-05,
      "loss": 1.5242,
      "step": 79828
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6850441694259644,
      "learning_rate": 1.9264711115323995e-05,
      "loss": 1.5332,
      "step": 79829
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6721511483192444,
      "learning_rate": 1.926102615119083e-05,
      "loss": 1.4979,
      "step": 79830
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6541603803634644,
      "learning_rate": 1.9257341527833404e-05,
      "loss": 1.5263,
      "step": 79831
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6590192914009094,
      "learning_rate": 1.9253657245256148e-05,
      "loss": 1.5272,
      "step": 79832
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6971467733383179,
      "learning_rate": 1.9249973303463594e-05,
      "loss": 1.5048,
      "step": 79833
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6597633957862854,
      "learning_rate": 1.9246289702460238e-05,
      "loss": 1.4038,
      "step": 79834
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6860023736953735,
      "learning_rate": 1.9242606442250543e-05,
      "loss": 1.5255,
      "step": 79835
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6671299934387207,
      "learning_rate": 1.92389235228389e-05,
      "loss": 1.4196,
      "step": 79836
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6967487335205078,
      "learning_rate": 1.923524094422988e-05,
      "loss": 1.4603,
      "step": 79837
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6831594109535217,
      "learning_rate": 1.9231558706427906e-05,
      "loss": 1.5204,
      "step": 79838
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6709802746772766,
      "learning_rate": 1.922787680943738e-05,
      "loss": 1.5098,
      "step": 79839
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6576561331748962,
      "learning_rate": 1.9224195253262896e-05,
      "loss": 1.4947,
      "step": 79840
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6817704439163208,
      "learning_rate": 1.9220514037908917e-05,
      "loss": 1.4835,
      "step": 79841
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6665934920310974,
      "learning_rate": 1.9216833163379776e-05,
      "loss": 1.4817,
      "step": 79842
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6495082378387451,
      "learning_rate": 1.921315262968006e-05,
      "loss": 1.4562,
      "step": 79843
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6689630746841431,
      "learning_rate": 1.920947243681421e-05,
      "loss": 1.5085,
      "step": 79844
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6751956939697266,
      "learning_rate": 1.9205792584786715e-05,
      "loss": 1.5055,
      "step": 79845
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6672442555427551,
      "learning_rate": 1.920211307360198e-05,
      "loss": 1.4617,
      "step": 79846
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7105598449707031,
      "learning_rate": 1.9198433903264455e-05,
      "loss": 1.4488,
      "step": 79847
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.677014172077179,
      "learning_rate": 1.9194755073778777e-05,
      "loss": 1.48,
      "step": 79848
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7067906260490417,
      "learning_rate": 1.9191076585149213e-05,
      "loss": 1.5114,
      "step": 79849
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6585472822189331,
      "learning_rate": 1.918739843738032e-05,
      "loss": 1.4985,
      "step": 79850
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6689051985740662,
      "learning_rate": 1.9183720630476562e-05,
      "loss": 1.5393,
      "step": 79851
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6942431330680847,
      "learning_rate": 1.9180043164442404e-05,
      "loss": 1.4811,
      "step": 79852
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6992051601409912,
      "learning_rate": 1.9176366039282242e-05,
      "loss": 1.5183,
      "step": 79853
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6669645309448242,
      "learning_rate": 1.9172689255000607e-05,
      "loss": 1.4954,
      "step": 79854
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7027879357337952,
      "learning_rate": 1.9169012811602025e-05,
      "loss": 1.5078,
      "step": 79855
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6514697074890137,
      "learning_rate": 1.9165336709090795e-05,
      "loss": 1.501,
      "step": 79856
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6742904186248779,
      "learning_rate": 1.916166094747148e-05,
      "loss": 1.5004,
      "step": 79857
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6906819343566895,
      "learning_rate": 1.9157985526748578e-05,
      "loss": 1.592,
      "step": 79858
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6541329622268677,
      "learning_rate": 1.915431044692648e-05,
      "loss": 1.4549,
      "step": 79859
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6596146821975708,
      "learning_rate": 1.915063570800962e-05,
      "loss": 1.5257,
      "step": 79860
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.665408194065094,
      "learning_rate": 1.914696131000253e-05,
      "loss": 1.4722,
      "step": 79861
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6748315095901489,
      "learning_rate": 1.9143287252909735e-05,
      "loss": 1.4773,
      "step": 79862
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6757348775863647,
      "learning_rate": 1.91396135367355e-05,
      "loss": 1.5306,
      "step": 79863
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.671803891658783,
      "learning_rate": 1.913594016148442e-05,
      "loss": 1.52,
      "step": 79864
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6429442763328552,
      "learning_rate": 1.9132267127160926e-05,
      "loss": 1.4895,
      "step": 79865
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.667999267578125,
      "learning_rate": 1.9128594433769518e-05,
      "loss": 1.4835,
      "step": 79866
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6680960655212402,
      "learning_rate": 1.9124922081314554e-05,
      "loss": 1.4702,
      "step": 79867
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6774888038635254,
      "learning_rate": 1.9121250069800596e-05,
      "loss": 1.5623,
      "step": 79868
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6647043824195862,
      "learning_rate": 1.911757839923198e-05,
      "loss": 1.5322,
      "step": 79869
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6716686487197876,
      "learning_rate": 1.911390706961333e-05,
      "loss": 1.5966,
      "step": 79870
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6946426033973694,
      "learning_rate": 1.9110236080948917e-05,
      "loss": 1.5151,
      "step": 79871
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6775325536727905,
      "learning_rate": 1.9106565433243358e-05,
      "loss": 1.5297,
      "step": 79872
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6935970783233643,
      "learning_rate": 1.910289512650106e-05,
      "loss": 1.4987,
      "step": 79873
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6814700365066528,
      "learning_rate": 1.9099225160726382e-05,
      "loss": 1.5244,
      "step": 79874
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6520712375640869,
      "learning_rate": 1.9095555535923923e-05,
      "loss": 1.5468,
      "step": 79875
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6866574883460999,
      "learning_rate": 1.9091886252098043e-05,
      "loss": 1.4547,
      "step": 79876
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6475017666816711,
      "learning_rate": 1.908821730925324e-05,
      "loss": 1.5307,
      "step": 79877
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6547122001647949,
      "learning_rate": 1.9084548707393943e-05,
      "loss": 1.4742,
      "step": 79878
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6862636804580688,
      "learning_rate": 1.9080880446524583e-05,
      "loss": 1.5573,
      "step": 79879
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6540182828903198,
      "learning_rate": 1.9077212526649688e-05,
      "loss": 1.4928,
      "step": 79880
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6714535355567932,
      "learning_rate": 1.907354494777362e-05,
      "loss": 1.5308,
      "step": 79881
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6669489145278931,
      "learning_rate": 1.9069877709900917e-05,
      "loss": 1.4357,
      "step": 79882
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7039692401885986,
      "learning_rate": 1.9066210813035933e-05,
      "loss": 1.5057,
      "step": 79883
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6920871138572693,
      "learning_rate": 1.906254425718323e-05,
      "loss": 1.518,
      "step": 79884
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6652172803878784,
      "learning_rate": 1.9058878042347214e-05,
      "loss": 1.467,
      "step": 79885
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6914489269256592,
      "learning_rate": 1.9055212168532275e-05,
      "loss": 1.5782,
      "step": 79886
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7030185461044312,
      "learning_rate": 1.905154663574294e-05,
      "loss": 1.4623,
      "step": 79887
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6776741743087769,
      "learning_rate": 1.9047881443983648e-05,
      "loss": 1.5109,
      "step": 79888
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6891965866088867,
      "learning_rate": 1.9044216593258786e-05,
      "loss": 1.4373,
      "step": 79889
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.664402961730957,
      "learning_rate": 1.904055208357286e-05,
      "loss": 1.5838,
      "step": 79890
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6724674701690674,
      "learning_rate": 1.9036887914930355e-05,
      "loss": 1.5595,
      "step": 79891
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6652281880378723,
      "learning_rate": 1.903322408733564e-05,
      "loss": 1.4716,
      "step": 79892
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6657612323760986,
      "learning_rate": 1.902956060079318e-05,
      "loss": 1.4548,
      "step": 79893
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6593856811523438,
      "learning_rate": 1.9025897455307438e-05,
      "loss": 1.3984,
      "step": 79894
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6613088846206665,
      "learning_rate": 1.9022234650882907e-05,
      "loss": 1.5341,
      "step": 79895
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7035222053527832,
      "learning_rate": 1.9018572187523883e-05,
      "loss": 1.5976,
      "step": 79896
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6772444248199463,
      "learning_rate": 1.9014910065234934e-05,
      "loss": 1.477,
      "step": 79897
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6835154891014099,
      "learning_rate": 1.9011248284020586e-05,
      "loss": 1.5617,
      "step": 79898
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6575871706008911,
      "learning_rate": 1.9007586843885104e-05,
      "loss": 1.4864,
      "step": 79899
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6888187527656555,
      "learning_rate": 1.9003925744832982e-05,
      "loss": 1.5637,
      "step": 79900
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6658673882484436,
      "learning_rate": 1.9000264986868752e-05,
      "loss": 1.5355,
      "step": 79901
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6662600636482239,
      "learning_rate": 1.8996604569996776e-05,
      "loss": 1.5592,
      "step": 79902
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6527414321899414,
      "learning_rate": 1.8992944494221484e-05,
      "loss": 1.5481,
      "step": 79903
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.650063157081604,
      "learning_rate": 1.898928475954734e-05,
      "loss": 1.5097,
      "step": 79904
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6630126237869263,
      "learning_rate": 1.8985625365978906e-05,
      "loss": 1.4885,
      "step": 79905
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6704240441322327,
      "learning_rate": 1.8981966313520446e-05,
      "loss": 1.5304,
      "step": 79906
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6953331828117371,
      "learning_rate": 1.8978307602176458e-05,
      "loss": 1.564,
      "step": 79907
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6844770312309265,
      "learning_rate": 1.8974649231951435e-05,
      "loss": 1.5082,
      "step": 79908
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.671083390712738,
      "learning_rate": 1.897099120284977e-05,
      "loss": 1.4576,
      "step": 79909
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6734001040458679,
      "learning_rate": 1.8967333514875873e-05,
      "loss": 1.4878,
      "step": 79910
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6792196035385132,
      "learning_rate": 1.8963676168034258e-05,
      "loss": 1.4202,
      "step": 79911
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6592742800712585,
      "learning_rate": 1.89600191623294e-05,
      "loss": 1.5267,
      "step": 79912
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6770804524421692,
      "learning_rate": 1.8956362497765555e-05,
      "loss": 1.5244,
      "step": 79913
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6760725378990173,
      "learning_rate": 1.8952706174347287e-05,
      "loss": 1.5224,
      "step": 79914
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6856505274772644,
      "learning_rate": 1.8949050192079094e-05,
      "loss": 1.4762,
      "step": 79915
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.675823986530304,
      "learning_rate": 1.8945394550965344e-05,
      "loss": 1.5309,
      "step": 79916
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6768973469734192,
      "learning_rate": 1.894173925101039e-05,
      "loss": 1.4882,
      "step": 79917
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6798396110534668,
      "learning_rate": 1.8938084292218835e-05,
      "loss": 1.5044,
      "step": 79918
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7160452008247375,
      "learning_rate": 1.893442967459501e-05,
      "loss": 1.5411,
      "step": 79919
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6577408313751221,
      "learning_rate": 1.8930775398143337e-05,
      "loss": 1.4665,
      "step": 79920
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6581180095672607,
      "learning_rate": 1.8927121462868287e-05,
      "loss": 1.4894,
      "step": 79921
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6642835140228271,
      "learning_rate": 1.8923467868774354e-05,
      "loss": 1.4283,
      "step": 79922
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6560239195823669,
      "learning_rate": 1.8919814615865902e-05,
      "loss": 1.4985,
      "step": 79923
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6971222162246704,
      "learning_rate": 1.8916161704147326e-05,
      "loss": 1.5106,
      "step": 79924
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.678183913230896,
      "learning_rate": 1.8912509133623188e-05,
      "loss": 1.4737,
      "step": 79925
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6944097876548767,
      "learning_rate": 1.890885690429782e-05,
      "loss": 1.4774,
      "step": 79926
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6784616708755493,
      "learning_rate": 1.890520501617565e-05,
      "loss": 1.4771,
      "step": 79927
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6694656014442444,
      "learning_rate": 1.890155346926121e-05,
      "loss": 1.5969,
      "step": 79928
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6834092736244202,
      "learning_rate": 1.8897902263558794e-05,
      "loss": 1.483,
      "step": 79929
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6537715792655945,
      "learning_rate": 1.889425139907297e-05,
      "loss": 1.5042,
      "step": 79930
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6960407495498657,
      "learning_rate": 1.8890600875808027e-05,
      "loss": 1.527,
      "step": 79931
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6710209250450134,
      "learning_rate": 1.8886950693768533e-05,
      "loss": 1.5755,
      "step": 79932
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6904697418212891,
      "learning_rate": 1.8883300852958884e-05,
      "loss": 1.4801,
      "step": 79933
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6614477634429932,
      "learning_rate": 1.887965135338344e-05,
      "loss": 1.3812,
      "step": 79934
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6566803455352783,
      "learning_rate": 1.8876002195046703e-05,
      "loss": 1.4346,
      "step": 79935
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6811113357543945,
      "learning_rate": 1.887235337795303e-05,
      "loss": 1.5419,
      "step": 79936
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6838165521621704,
      "learning_rate": 1.8868704902106957e-05,
      "loss": 1.5126,
      "step": 79937
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6598398685455322,
      "learning_rate": 1.8865056767512843e-05,
      "loss": 1.4379,
      "step": 79938
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6812097430229187,
      "learning_rate": 1.8861408974175084e-05,
      "loss": 1.4985,
      "step": 79939
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.696203351020813,
      "learning_rate": 1.8857761522098214e-05,
      "loss": 1.5081,
      "step": 79940
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6749107837677002,
      "learning_rate": 1.8854114411286525e-05,
      "loss": 1.5523,
      "step": 79941
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6642792820930481,
      "learning_rate": 1.8850467641744583e-05,
      "loss": 1.5366,
      "step": 79942
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.673379123210907,
      "learning_rate": 1.884682121347668e-05,
      "loss": 1.5298,
      "step": 79943
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6873415112495422,
      "learning_rate": 1.8843175126487387e-05,
      "loss": 1.5831,
      "step": 79944
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6414623260498047,
      "learning_rate": 1.8839529380781026e-05,
      "loss": 1.4583,
      "step": 79945
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6814647912979126,
      "learning_rate": 1.883588397636203e-05,
      "loss": 1.5114,
      "step": 79946
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6899203658103943,
      "learning_rate": 1.8832238913234863e-05,
      "loss": 1.5253,
      "step": 79947
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.696054220199585,
      "learning_rate": 1.882859419140392e-05,
      "loss": 1.5329,
      "step": 79948
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6880373358726501,
      "learning_rate": 1.8824949810873637e-05,
      "loss": 1.5313,
      "step": 79949
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6567262411117554,
      "learning_rate": 1.88213057716484e-05,
      "loss": 1.4775,
      "step": 79950
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6827504634857178,
      "learning_rate": 1.8817662073732707e-05,
      "loss": 1.5334,
      "step": 79951
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6738482117652893,
      "learning_rate": 1.8814018717130964e-05,
      "loss": 1.5036,
      "step": 79952
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6578063368797302,
      "learning_rate": 1.8810375701847523e-05,
      "loss": 1.5692,
      "step": 79953
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6857067346572876,
      "learning_rate": 1.880673302788689e-05,
      "loss": 1.4956,
      "step": 79954
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6928669810295105,
      "learning_rate": 1.8803090695253455e-05,
      "loss": 1.5597,
      "step": 79955
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6728014349937439,
      "learning_rate": 1.879944870395158e-05,
      "loss": 1.5401,
      "step": 79956
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6830106973648071,
      "learning_rate": 1.8795807053985767e-05,
      "loss": 1.512,
      "step": 79957
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6396424770355225,
      "learning_rate": 1.8792165745360476e-05,
      "loss": 1.51,
      "step": 79958
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6441766023635864,
      "learning_rate": 1.8788524778079973e-05,
      "loss": 1.4224,
      "step": 79959
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6660541892051697,
      "learning_rate": 1.878488415214878e-05,
      "loss": 1.5269,
      "step": 79960
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6922950744628906,
      "learning_rate": 1.8781243867571338e-05,
      "loss": 1.5459,
      "step": 79961
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6682248115539551,
      "learning_rate": 1.8777603924352035e-05,
      "loss": 1.5171,
      "step": 79962
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6876918077468872,
      "learning_rate": 1.877396432249524e-05,
      "loss": 1.5489,
      "step": 79963
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.700461745262146,
      "learning_rate": 1.877032506200544e-05,
      "loss": 1.4532,
      "step": 79964
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.674728512763977,
      "learning_rate": 1.8766686142887078e-05,
      "loss": 1.5667,
      "step": 79965
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6554639935493469,
      "learning_rate": 1.876304756514444e-05,
      "loss": 1.5202,
      "step": 79966
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6792653799057007,
      "learning_rate": 1.875940932878203e-05,
      "loss": 1.5643,
      "step": 79967
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6789926290512085,
      "learning_rate": 1.87557714338043e-05,
      "loss": 1.5367,
      "step": 79968
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6580529808998108,
      "learning_rate": 1.875213388021566e-05,
      "loss": 1.4374,
      "step": 79969
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6643607020378113,
      "learning_rate": 1.8748496668020395e-05,
      "loss": 1.5389,
      "step": 79970
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6584731340408325,
      "learning_rate": 1.8744859797223045e-05,
      "loss": 1.5522,
      "step": 79971
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6595138311386108,
      "learning_rate": 1.8741223267828066e-05,
      "loss": 1.4968,
      "step": 79972
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6666808128356934,
      "learning_rate": 1.8737587079839722e-05,
      "loss": 1.5172,
      "step": 79973
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6542927026748657,
      "learning_rate": 1.873395123326248e-05,
      "loss": 1.5005,
      "step": 79974
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6805793046951294,
      "learning_rate": 1.8730315728100865e-05,
      "loss": 1.5363,
      "step": 79975
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.670453667640686,
      "learning_rate": 1.8726680564359174e-05,
      "loss": 1.5023,
      "step": 79976
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6738548278808594,
      "learning_rate": 1.8723045742041807e-05,
      "loss": 1.4138,
      "step": 79977
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.684207558631897,
      "learning_rate": 1.8719411261153227e-05,
      "loss": 1.5681,
      "step": 79978
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6538065075874329,
      "learning_rate": 1.871577712169786e-05,
      "loss": 1.4895,
      "step": 79979
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6734799146652222,
      "learning_rate": 1.8712143323680106e-05,
      "loss": 1.4514,
      "step": 79980
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7078608274459839,
      "learning_rate": 1.8708509867104328e-05,
      "loss": 1.4886,
      "step": 79981
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6819912791252136,
      "learning_rate": 1.870487675197502e-05,
      "loss": 1.5159,
      "step": 79982
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6808936595916748,
      "learning_rate": 1.8701243978296543e-05,
      "loss": 1.5108,
      "step": 79983
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6564019322395325,
      "learning_rate": 1.8697611546073266e-05,
      "loss": 1.5624,
      "step": 79984
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6498050093650818,
      "learning_rate": 1.8693979455309683e-05,
      "loss": 1.4228,
      "step": 79985
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6607995629310608,
      "learning_rate": 1.8690347706010088e-05,
      "loss": 1.5054,
      "step": 79986
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6889539957046509,
      "learning_rate": 1.868671629817905e-05,
      "loss": 1.4794,
      "step": 79987
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6779612898826599,
      "learning_rate": 1.868308523182083e-05,
      "loss": 1.5078,
      "step": 79988
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6760330200195312,
      "learning_rate": 1.8679454506939916e-05,
      "loss": 1.5332,
      "step": 79989
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7019516229629517,
      "learning_rate": 1.8675824123540718e-05,
      "loss": 1.6022,
      "step": 79990
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7215821146965027,
      "learning_rate": 1.8672194081627556e-05,
      "loss": 1.5315,
      "step": 79991
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6990474462509155,
      "learning_rate": 1.8668564381204963e-05,
      "loss": 1.5413,
      "step": 79992
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6661067008972168,
      "learning_rate": 1.8664935022277238e-05,
      "loss": 1.4794,
      "step": 79993
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6674376726150513,
      "learning_rate": 1.866130600484884e-05,
      "loss": 1.4949,
      "step": 79994
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6498503684997559,
      "learning_rate": 1.8657677328924204e-05,
      "loss": 1.4726,
      "step": 79995
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6611984968185425,
      "learning_rate": 1.865404899450762e-05,
      "loss": 1.5315,
      "step": 79996
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6622847318649292,
      "learning_rate": 1.865042100160362e-05,
      "loss": 1.5148,
      "step": 79997
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6802850961685181,
      "learning_rate": 1.8646793350216506e-05,
      "loss": 1.529,
      "step": 79998
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6766089797019958,
      "learning_rate": 1.8643166040350798e-05,
      "loss": 1.5315,
      "step": 79999
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6955447196960449,
      "learning_rate": 1.8639539072010767e-05,
      "loss": 1.5411,
      "step": 80000
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6800737380981445,
      "learning_rate": 1.8635912445200905e-05,
      "loss": 1.4873,
      "step": 80001
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6686695218086243,
      "learning_rate": 1.8632286159925614e-05,
      "loss": 1.548,
      "step": 80002
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6575049161911011,
      "learning_rate": 1.8628660216189216e-05,
      "loss": 1.468,
      "step": 80003
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6855243444442749,
      "learning_rate": 1.8625034613996215e-05,
      "loss": 1.5146,
      "step": 80004
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6637912392616272,
      "learning_rate": 1.862140935335097e-05,
      "loss": 1.5878,
      "step": 80005
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.690801739692688,
      "learning_rate": 1.861778443425781e-05,
      "loss": 1.4907,
      "step": 80006
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6773996949195862,
      "learning_rate": 1.8614159856721232e-05,
      "loss": 1.4857,
      "step": 80007
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6715993881225586,
      "learning_rate": 1.8610535620745635e-05,
      "loss": 1.5514,
      "step": 80008
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6840497851371765,
      "learning_rate": 1.8606911726335384e-05,
      "loss": 1.5191,
      "step": 80009
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6799952387809753,
      "learning_rate": 1.86032881734948e-05,
      "loss": 1.5259,
      "step": 80010
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7005491256713867,
      "learning_rate": 1.8599664962228455e-05,
      "loss": 1.404,
      "step": 80011
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6641570925712585,
      "learning_rate": 1.859604209254064e-05,
      "loss": 1.476,
      "step": 80012
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6800864338874817,
      "learning_rate": 1.8592419564435723e-05,
      "loss": 1.5155,
      "step": 80013
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6949409246444702,
      "learning_rate": 1.858879737791813e-05,
      "loss": 1.4657,
      "step": 80014
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6984832882881165,
      "learning_rate": 1.858517553299239e-05,
      "loss": 1.482,
      "step": 80015
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6784830689430237,
      "learning_rate": 1.858155402966267e-05,
      "loss": 1.5454,
      "step": 80016
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6763451099395752,
      "learning_rate": 1.8577932867933497e-05,
      "loss": 1.473,
      "step": 80017
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6764573454856873,
      "learning_rate": 1.857431204780927e-05,
      "loss": 1.5125,
      "step": 80018
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6700623631477356,
      "learning_rate": 1.857069156929438e-05,
      "loss": 1.5261,
      "step": 80019
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6938641667366028,
      "learning_rate": 1.8567071432393167e-05,
      "loss": 1.5265,
      "step": 80020
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6543533205986023,
      "learning_rate": 1.856345163711005e-05,
      "loss": 1.4593,
      "step": 80021
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6807060837745667,
      "learning_rate": 1.855983218344953e-05,
      "loss": 1.5013,
      "step": 80022
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7004022598266602,
      "learning_rate": 1.8556213071415803e-05,
      "loss": 1.5854,
      "step": 80023
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6959853768348694,
      "learning_rate": 1.8552594301013367e-05,
      "loss": 1.5519,
      "step": 80024
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6733461618423462,
      "learning_rate": 1.854897587224665e-05,
      "loss": 1.4958,
      "step": 80025
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6811579465866089,
      "learning_rate": 1.854535778512002e-05,
      "loss": 1.54,
      "step": 80026
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6561797261238098,
      "learning_rate": 1.85417400396378e-05,
      "loss": 1.5016,
      "step": 80027
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6717793345451355,
      "learning_rate": 1.8538122635804453e-05,
      "loss": 1.4514,
      "step": 80028
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6535805463790894,
      "learning_rate": 1.8534505573624448e-05,
      "loss": 1.4842,
      "step": 80029
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7090799808502197,
      "learning_rate": 1.853088885310198e-05,
      "loss": 1.6271,
      "step": 80030
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6641860008239746,
      "learning_rate": 1.8527272474241538e-05,
      "loss": 1.4993,
      "step": 80031
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6921567320823669,
      "learning_rate": 1.8523656437047564e-05,
      "loss": 1.5399,
      "step": 80032
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6898817420005798,
      "learning_rate": 1.8520040741524377e-05,
      "loss": 1.5205,
      "step": 80033
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6810346245765686,
      "learning_rate": 1.8516425387676347e-05,
      "loss": 1.5401,
      "step": 80034
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6898800730705261,
      "learning_rate": 1.8512810375507968e-05,
      "loss": 1.52,
      "step": 80035
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6481519341468811,
      "learning_rate": 1.850919570502354e-05,
      "loss": 1.557,
      "step": 80036
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.673247754573822,
      "learning_rate": 1.8505581376227453e-05,
      "loss": 1.5955,
      "step": 80037
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6745610237121582,
      "learning_rate": 1.8501967389124107e-05,
      "loss": 1.5633,
      "step": 80038
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6755753755569458,
      "learning_rate": 1.849835374371793e-05,
      "loss": 1.5056,
      "step": 80039
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.674606204032898,
      "learning_rate": 1.8494740440013288e-05,
      "loss": 1.5234,
      "step": 80040
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6899493336677551,
      "learning_rate": 1.849112747801448e-05,
      "loss": 1.5452,
      "step": 80041
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6594422459602356,
      "learning_rate": 1.8487514857726027e-05,
      "loss": 1.5331,
      "step": 80042
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6720249056816101,
      "learning_rate": 1.8483902579152266e-05,
      "loss": 1.5268,
      "step": 80043
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6608158349990845,
      "learning_rate": 1.848029064229749e-05,
      "loss": 1.5642,
      "step": 80044
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6794429421424866,
      "learning_rate": 1.847667904716623e-05,
      "loss": 1.5494,
      "step": 80045
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.669395923614502,
      "learning_rate": 1.847306779376275e-05,
      "loss": 1.5125,
      "step": 80046
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.693462073802948,
      "learning_rate": 1.846945688209155e-05,
      "loss": 1.4999,
      "step": 80047
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6595363616943359,
      "learning_rate": 1.8465846312156884e-05,
      "loss": 1.4924,
      "step": 80048
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6632348895072937,
      "learning_rate": 1.8462236083963255e-05,
      "loss": 1.5247,
      "step": 80049
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6628230810165405,
      "learning_rate": 1.845862619751496e-05,
      "loss": 1.5754,
      "step": 80050
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6784420609474182,
      "learning_rate": 1.845501665281639e-05,
      "loss": 1.4237,
      "step": 80051
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6958940029144287,
      "learning_rate": 1.845140744987198e-05,
      "loss": 1.566,
      "step": 80052
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6688741445541382,
      "learning_rate": 1.8447798588686026e-05,
      "loss": 1.5471,
      "step": 80053
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7019094824790955,
      "learning_rate": 1.844419006926302e-05,
      "loss": 1.5834,
      "step": 80054
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.674654483795166,
      "learning_rate": 1.84405818916073e-05,
      "loss": 1.5676,
      "step": 80055
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6893280148506165,
      "learning_rate": 1.8436974055723152e-05,
      "loss": 1.4619,
      "step": 80056
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6717370748519897,
      "learning_rate": 1.843336656161508e-05,
      "loss": 1.4596,
      "step": 80057
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6779546737670898,
      "learning_rate": 1.8429759409287383e-05,
      "loss": 1.5439,
      "step": 80058
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6790293455123901,
      "learning_rate": 1.8426152598744482e-05,
      "loss": 1.5316,
      "step": 80059
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6760685443878174,
      "learning_rate": 1.8422546129990746e-05,
      "loss": 1.5951,
      "step": 80060
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6680657267570496,
      "learning_rate": 1.841894000303057e-05,
      "loss": 1.551,
      "step": 80061
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6770056486129761,
      "learning_rate": 1.8415334217868315e-05,
      "loss": 1.5262,
      "step": 80062
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6787799000740051,
      "learning_rate": 1.8411728774508284e-05,
      "loss": 1.4698,
      "step": 80063
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6639621257781982,
      "learning_rate": 1.8408123672955e-05,
      "loss": 1.5281,
      "step": 80064
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6619208455085754,
      "learning_rate": 1.8404518913212762e-05,
      "loss": 1.4526,
      "step": 80065
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6919692158699036,
      "learning_rate": 1.84009144952859e-05,
      "loss": 1.526,
      "step": 80066
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6583254337310791,
      "learning_rate": 1.8397310419178813e-05,
      "loss": 1.542,
      "step": 80067
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6526633501052856,
      "learning_rate": 1.8393706684895994e-05,
      "loss": 1.4591,
      "step": 80068
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6864225268363953,
      "learning_rate": 1.8390103292441673e-05,
      "loss": 1.5258,
      "step": 80069
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6749143600463867,
      "learning_rate": 1.8386500241820247e-05,
      "loss": 1.5629,
      "step": 80070
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6644542217254639,
      "learning_rate": 1.838289753303618e-05,
      "loss": 1.4662,
      "step": 80071
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6646322011947632,
      "learning_rate": 1.8379295166093733e-05,
      "loss": 1.526,
      "step": 80072
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6651601195335388,
      "learning_rate": 1.837569314099734e-05,
      "loss": 1.4928,
      "step": 80073
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6871153116226196,
      "learning_rate": 1.8372091457751325e-05,
      "loss": 1.4921,
      "step": 80074
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.671559751033783,
      "learning_rate": 1.836849011636019e-05,
      "loss": 1.4749,
      "step": 80075
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6781926155090332,
      "learning_rate": 1.836488911682813e-05,
      "loss": 1.4964,
      "step": 80076
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6828678846359253,
      "learning_rate": 1.8361288459159573e-05,
      "loss": 1.5646,
      "step": 80077
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6626893281936646,
      "learning_rate": 1.8357688143358984e-05,
      "loss": 1.5084,
      "step": 80078
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6757100820541382,
      "learning_rate": 1.8354088169430657e-05,
      "loss": 1.4406,
      "step": 80079
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6731830835342407,
      "learning_rate": 1.8350488537378925e-05,
      "loss": 1.4936,
      "step": 80080
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6687929034233093,
      "learning_rate": 1.8346889247208184e-05,
      "loss": 1.4648,
      "step": 80081
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6770924925804138,
      "learning_rate": 1.8343290298922932e-05,
      "loss": 1.4727,
      "step": 80082
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6764452457427979,
      "learning_rate": 1.8339691692527326e-05,
      "loss": 1.4676,
      "step": 80083
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6848384737968445,
      "learning_rate": 1.8336093428025833e-05,
      "loss": 1.6178,
      "step": 80084
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6916797161102295,
      "learning_rate": 1.8332495505422883e-05,
      "loss": 1.5258,
      "step": 80085
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.656669020652771,
      "learning_rate": 1.832889792472274e-05,
      "loss": 1.4903,
      "step": 80086
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.669612467288971,
      "learning_rate": 1.83253006859298e-05,
      "loss": 1.4817,
      "step": 80087
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6880705952644348,
      "learning_rate": 1.832170378904846e-05,
      "loss": 1.526,
      "step": 80088
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6736697554588318,
      "learning_rate": 1.8318107234083114e-05,
      "loss": 1.5325,
      "step": 80089
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6992059350013733,
      "learning_rate": 1.8314511021038024e-05,
      "loss": 1.4501,
      "step": 80090
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.691636323928833,
      "learning_rate": 1.8310915149917593e-05,
      "loss": 1.4544,
      "step": 80091
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.684552788734436,
      "learning_rate": 1.8307319620726278e-05,
      "loss": 1.5279,
      "step": 80092
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6597425937652588,
      "learning_rate": 1.8303724433468346e-05,
      "loss": 1.4988,
      "step": 80093
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6641970872879028,
      "learning_rate": 1.830012958814816e-05,
      "loss": 1.4842,
      "step": 80094
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6645575165748596,
      "learning_rate": 1.829653508477015e-05,
      "loss": 1.5335,
      "step": 80095
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6785013675689697,
      "learning_rate": 1.8292940923338573e-05,
      "loss": 1.4514,
      "step": 80096
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6579694747924805,
      "learning_rate": 1.828934710385793e-05,
      "loss": 1.4813,
      "step": 80097
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6558601260185242,
      "learning_rate": 1.8285753626332457e-05,
      "loss": 1.4838,
      "step": 80098
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.7011537551879883,
      "learning_rate": 1.8282160490766607e-05,
      "loss": 1.5029,
      "step": 80099
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.6595594882965088,
      "learning_rate": 1.8278567697164716e-05,
      "loss": 1.4836,
      "step": 80100
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.714560866355896,
      "learning_rate": 1.8274975245531076e-05,
      "loss": 1.5309,
      "step": 80101
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7000247240066528,
      "learning_rate": 1.8271383135870156e-05,
      "loss": 1.5445,
      "step": 80102
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6613306999206543,
      "learning_rate": 1.8267791368186245e-05,
      "loss": 1.4823,
      "step": 80103
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6889523267745972,
      "learning_rate": 1.826419994248375e-05,
      "loss": 1.4607,
      "step": 80104
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6738595366477966,
      "learning_rate": 1.8260608858766957e-05,
      "loss": 1.5779,
      "step": 80105
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6543517708778381,
      "learning_rate": 1.82570181170403e-05,
      "loss": 1.4555,
      "step": 80106
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6824096441268921,
      "learning_rate": 1.8253427717308145e-05,
      "loss": 1.4717,
      "step": 80107
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6680884957313538,
      "learning_rate": 1.824983765957475e-05,
      "loss": 1.4934,
      "step": 80108
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6787769794464111,
      "learning_rate": 1.824624794384458e-05,
      "loss": 1.4471,
      "step": 80109
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6666471362113953,
      "learning_rate": 1.8242658570121904e-05,
      "loss": 1.503,
      "step": 80110
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6930947303771973,
      "learning_rate": 1.823906953841118e-05,
      "loss": 1.5714,
      "step": 80111
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6777207255363464,
      "learning_rate": 1.8235480848716734e-05,
      "loss": 1.5213,
      "step": 80112
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6657499074935913,
      "learning_rate": 1.8231892501042833e-05,
      "loss": 1.4842,
      "step": 80113
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6588343381881714,
      "learning_rate": 1.8228304495393908e-05,
      "loss": 1.492,
      "step": 80114
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6810559630393982,
      "learning_rate": 1.8224716831774288e-05,
      "loss": 1.5319,
      "step": 80115
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6763817071914673,
      "learning_rate": 1.8221129510188405e-05,
      "loss": 1.4747,
      "step": 80116
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6623690724372864,
      "learning_rate": 1.8217542530640484e-05,
      "loss": 1.4553,
      "step": 80117
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6667155027389526,
      "learning_rate": 1.8213955893135025e-05,
      "loss": 1.4497,
      "step": 80118
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6622932553291321,
      "learning_rate": 1.821036959767629e-05,
      "loss": 1.5881,
      "step": 80119
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6969980597496033,
      "learning_rate": 1.8206783644268574e-05,
      "loss": 1.5169,
      "step": 80120
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6829766035079956,
      "learning_rate": 1.8203198032916378e-05,
      "loss": 1.5027,
      "step": 80121
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7029625177383423,
      "learning_rate": 1.819961276362396e-05,
      "loss": 1.5035,
      "step": 80122
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7115610837936401,
      "learning_rate": 1.8196027836395654e-05,
      "loss": 1.4624,
      "step": 80123
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.685339629650116,
      "learning_rate": 1.8192443251235854e-05,
      "loss": 1.5639,
      "step": 80124
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6904973387718201,
      "learning_rate": 1.8188859008148927e-05,
      "loss": 1.4659,
      "step": 80125
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6847316026687622,
      "learning_rate": 1.818527510713923e-05,
      "loss": 1.5251,
      "step": 80126
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6584210991859436,
      "learning_rate": 1.818169154821103e-05,
      "loss": 1.5563,
      "step": 80127
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6777178645133972,
      "learning_rate": 1.817810833136879e-05,
      "loss": 1.5093,
      "step": 80128
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6601884365081787,
      "learning_rate": 1.817452545661677e-05,
      "loss": 1.5132,
      "step": 80129
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6821925044059753,
      "learning_rate": 1.8170942923959342e-05,
      "loss": 1.5199,
      "step": 80130
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6853194236755371,
      "learning_rate": 1.8167360733400827e-05,
      "loss": 1.5646,
      "step": 80131
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6678212285041809,
      "learning_rate": 1.8163778884945722e-05,
      "loss": 1.4127,
      "step": 80132
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6720114350318909,
      "learning_rate": 1.8160197378598196e-05,
      "loss": 1.5571,
      "step": 80133
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7679476737976074,
      "learning_rate": 1.8156616214362608e-05,
      "loss": 1.4921,
      "step": 80134
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6811880469322205,
      "learning_rate": 1.8153035392243454e-05,
      "loss": 1.5288,
      "step": 80135
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6822699308395386,
      "learning_rate": 1.8149454912244964e-05,
      "loss": 1.5366,
      "step": 80136
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.679547131061554,
      "learning_rate": 1.814587477437147e-05,
      "loss": 1.5053,
      "step": 80137
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6820489764213562,
      "learning_rate": 1.8142294978627336e-05,
      "loss": 1.4755,
      "step": 80138
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6836559176445007,
      "learning_rate": 1.8138715525017056e-05,
      "loss": 1.4901,
      "step": 80139
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6869202852249146,
      "learning_rate": 1.8135136413544728e-05,
      "loss": 1.4557,
      "step": 80140
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6819407939910889,
      "learning_rate": 1.813155764421481e-05,
      "loss": 1.4816,
      "step": 80141
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6914629936218262,
      "learning_rate": 1.8127979217031707e-05,
      "loss": 1.4966,
      "step": 80142
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6565722227096558,
      "learning_rate": 1.8124401131999678e-05,
      "loss": 1.6051,
      "step": 80143
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6668915748596191,
      "learning_rate": 1.8120823389123084e-05,
      "loss": 1.4502,
      "step": 80144
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6790868639945984,
      "learning_rate": 1.811724598840626e-05,
      "loss": 1.5108,
      "step": 80145
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6716217398643494,
      "learning_rate": 1.8113668929853665e-05,
      "loss": 1.5188,
      "step": 80146
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6706385612487793,
      "learning_rate": 1.811009221346943e-05,
      "loss": 1.5163,
      "step": 80147
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6836197376251221,
      "learning_rate": 1.810651583925802e-05,
      "loss": 1.5301,
      "step": 80148
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6677300930023193,
      "learning_rate": 1.8102939807223828e-05,
      "loss": 1.558,
      "step": 80149
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.697577178478241,
      "learning_rate": 1.809936411737112e-05,
      "loss": 1.4979,
      "step": 80150
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6694777011871338,
      "learning_rate": 1.809578876970419e-05,
      "loss": 1.4809,
      "step": 80151
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7087324261665344,
      "learning_rate": 1.8092213764227503e-05,
      "loss": 1.5073,
      "step": 80152
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6564342379570007,
      "learning_rate": 1.8088639100945323e-05,
      "loss": 1.551,
      "step": 80153
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6539183259010315,
      "learning_rate": 1.8085064779861946e-05,
      "loss": 1.6018,
      "step": 80154
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6737501621246338,
      "learning_rate": 1.8081490800981767e-05,
      "loss": 1.5416,
      "step": 80155
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7044025659561157,
      "learning_rate": 1.8077917164309154e-05,
      "loss": 1.5998,
      "step": 80156
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6738492250442505,
      "learning_rate": 1.807434386984843e-05,
      "loss": 1.459,
      "step": 80157
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6754155158996582,
      "learning_rate": 1.807077091760386e-05,
      "loss": 1.4309,
      "step": 80158
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6688539981842041,
      "learning_rate": 1.806719830757988e-05,
      "loss": 1.5762,
      "step": 80159
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7017225623130798,
      "learning_rate": 1.8063626039780776e-05,
      "loss": 1.4664,
      "step": 80160
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6865875124931335,
      "learning_rate": 1.806005411421082e-05,
      "loss": 1.5352,
      "step": 80161
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6623536348342896,
      "learning_rate": 1.8056482530874505e-05,
      "loss": 1.4926,
      "step": 80162
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6804446578025818,
      "learning_rate": 1.8052911289775997e-05,
      "loss": 1.4572,
      "step": 80163
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6876983642578125,
      "learning_rate": 1.8049340390919786e-05,
      "loss": 1.5155,
      "step": 80164
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6766358017921448,
      "learning_rate": 1.8045769834310076e-05,
      "loss": 1.4657,
      "step": 80165
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6460059881210327,
      "learning_rate": 1.8042199619951294e-05,
      "loss": 1.4969,
      "step": 80166
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6791221499443054,
      "learning_rate": 1.8038629747847733e-05,
      "loss": 1.5124,
      "step": 80167
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6919772624969482,
      "learning_rate": 1.8035060218003695e-05,
      "loss": 1.5224,
      "step": 80168
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.661524772644043,
      "learning_rate": 1.8031491030423604e-05,
      "loss": 1.5282,
      "step": 80169
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6870606541633606,
      "learning_rate": 1.8027922185111665e-05,
      "loss": 1.5366,
      "step": 80170
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6934540271759033,
      "learning_rate": 1.8024353682072367e-05,
      "loss": 1.5194,
      "step": 80171
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6510627865791321,
      "learning_rate": 1.802078552130991e-05,
      "loss": 1.5214,
      "step": 80172
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6767883896827698,
      "learning_rate": 1.801721770282866e-05,
      "loss": 1.529,
      "step": 80173
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6659660935401917,
      "learning_rate": 1.8013650226633003e-05,
      "loss": 1.587,
      "step": 80174
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7094798684120178,
      "learning_rate": 1.801008309272718e-05,
      "loss": 1.6149,
      "step": 80175
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6601355075836182,
      "learning_rate": 1.8006516301115583e-05,
      "loss": 1.5237,
      "step": 80176
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6713322997093201,
      "learning_rate": 1.8002949851802506e-05,
      "loss": 1.4504,
      "step": 80177
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.694708526134491,
      "learning_rate": 1.799938374479235e-05,
      "loss": 1.5401,
      "step": 80178
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7023911476135254,
      "learning_rate": 1.7995817980089377e-05,
      "loss": 1.5637,
      "step": 80179
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6891042590141296,
      "learning_rate": 1.7992252557697883e-05,
      "loss": 1.4942,
      "step": 80180
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6859118938446045,
      "learning_rate": 1.79886874776223e-05,
      "loss": 1.5146,
      "step": 80181
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.674750566482544,
      "learning_rate": 1.7985122739866886e-05,
      "loss": 1.4888,
      "step": 80182
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.662378191947937,
      "learning_rate": 1.7981558344435942e-05,
      "loss": 1.4985,
      "step": 80183
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6739474534988403,
      "learning_rate": 1.7977994291333797e-05,
      "loss": 1.5171,
      "step": 80184
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6465579271316528,
      "learning_rate": 1.7974430580564914e-05,
      "loss": 1.4727,
      "step": 80185
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.687630295753479,
      "learning_rate": 1.797086721213349e-05,
      "loss": 1.4955,
      "step": 80186
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7046118378639221,
      "learning_rate": 1.796730418604382e-05,
      "loss": 1.4954,
      "step": 80187
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6786737442016602,
      "learning_rate": 1.7963741502300368e-05,
      "loss": 1.5211,
      "step": 80188
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6814780235290527,
      "learning_rate": 1.7960179160907363e-05,
      "loss": 1.5328,
      "step": 80189
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6613105535507202,
      "learning_rate": 1.795661716186907e-05,
      "loss": 1.5127,
      "step": 80190
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6787800788879395,
      "learning_rate": 1.7953055505189917e-05,
      "loss": 1.5229,
      "step": 80191
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6997715830802917,
      "learning_rate": 1.7949494190874302e-05,
      "loss": 1.4965,
      "step": 80192
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6682619452476501,
      "learning_rate": 1.794593321892632e-05,
      "loss": 1.5311,
      "step": 80193
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.661858856678009,
      "learning_rate": 1.794237258935044e-05,
      "loss": 1.5091,
      "step": 80194
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6669667363166809,
      "learning_rate": 1.7938812302150985e-05,
      "loss": 1.5458,
      "step": 80195
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6702870726585388,
      "learning_rate": 1.7935252357332253e-05,
      "loss": 1.4692,
      "step": 80196
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6740148067474365,
      "learning_rate": 1.7931692754898542e-05,
      "loss": 1.4582,
      "step": 80197
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.681264340877533,
      "learning_rate": 1.792813349485418e-05,
      "loss": 1.5308,
      "step": 80198
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6917673349380493,
      "learning_rate": 1.79245745772036e-05,
      "loss": 1.4797,
      "step": 80199
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6647687554359436,
      "learning_rate": 1.7921016001950927e-05,
      "loss": 1.4044,
      "step": 80200
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6795307993888855,
      "learning_rate": 1.7917457769100564e-05,
      "loss": 1.4801,
      "step": 80201
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6698215007781982,
      "learning_rate": 1.79138998786569e-05,
      "loss": 1.569,
      "step": 80202
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6826021075248718,
      "learning_rate": 1.7910342330624205e-05,
      "loss": 1.5125,
      "step": 80203
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.679588258266449,
      "learning_rate": 1.790678512500674e-05,
      "loss": 1.4483,
      "step": 80204
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7031772136688232,
      "learning_rate": 1.7903228261808866e-05,
      "loss": 1.5502,
      "step": 80205
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6957544684410095,
      "learning_rate": 1.7899671741035015e-05,
      "loss": 1.5336,
      "step": 80206
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6810469627380371,
      "learning_rate": 1.7896115562689317e-05,
      "loss": 1.523,
      "step": 80207
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6897007822990417,
      "learning_rate": 1.7892559726776136e-05,
      "loss": 1.4741,
      "step": 80208
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7375122308731079,
      "learning_rate": 1.7889004233299896e-05,
      "loss": 1.531,
      "step": 80209
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.656792163848877,
      "learning_rate": 1.7885449082264803e-05,
      "loss": 1.501,
      "step": 80210
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6761150360107422,
      "learning_rate": 1.7881894273675213e-05,
      "loss": 1.4864,
      "step": 80211
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6655317544937134,
      "learning_rate": 1.7878339807535426e-05,
      "loss": 1.5431,
      "step": 80212
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6702150702476501,
      "learning_rate": 1.787478568384977e-05,
      "loss": 1.5543,
      "step": 80213
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6548728942871094,
      "learning_rate": 1.787123190262254e-05,
      "loss": 1.4903,
      "step": 80214
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6941139101982117,
      "learning_rate": 1.786767846385807e-05,
      "loss": 1.5245,
      "step": 80215
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6829128861427307,
      "learning_rate": 1.786412536756069e-05,
      "loss": 1.4979,
      "step": 80216
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6814743876457214,
      "learning_rate": 1.7860572613734693e-05,
      "loss": 1.5706,
      "step": 80217
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.678731381893158,
      "learning_rate": 1.7857020202384374e-05,
      "loss": 1.5202,
      "step": 80218
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6598014831542969,
      "learning_rate": 1.785346813351407e-05,
      "loss": 1.4674,
      "step": 80219
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6968603134155273,
      "learning_rate": 1.784991640712804e-05,
      "loss": 1.4602,
      "step": 80220
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6710343360900879,
      "learning_rate": 1.7846365023230712e-05,
      "loss": 1.4543,
      "step": 80221
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6790640354156494,
      "learning_rate": 1.7842813981826254e-05,
      "loss": 1.5243,
      "step": 80222
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6856250166893005,
      "learning_rate": 1.7839263282919093e-05,
      "loss": 1.4816,
      "step": 80223
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6612056493759155,
      "learning_rate": 1.783571292651349e-05,
      "loss": 1.5507,
      "step": 80224
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6917503476142883,
      "learning_rate": 1.7832162912613712e-05,
      "loss": 1.4536,
      "step": 80225
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.656761646270752,
      "learning_rate": 1.782861324122419e-05,
      "loss": 1.5183,
      "step": 80226
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6938185095787048,
      "learning_rate": 1.782506391234908e-05,
      "loss": 1.5204,
      "step": 80227
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7003740668296814,
      "learning_rate": 1.782151492599282e-05,
      "loss": 1.4937,
      "step": 80228
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6602590084075928,
      "learning_rate": 1.7817966282159636e-05,
      "loss": 1.4877,
      "step": 80229
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6909310221672058,
      "learning_rate": 1.7814417980853856e-05,
      "loss": 1.4306,
      "step": 80230
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6762421727180481,
      "learning_rate": 1.7810870022079815e-05,
      "loss": 1.5404,
      "step": 80231
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6926527619361877,
      "learning_rate": 1.7807322405841774e-05,
      "loss": 1.5005,
      "step": 80232
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6686639189720154,
      "learning_rate": 1.7803775132144094e-05,
      "loss": 1.4684,
      "step": 80233
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6704280972480774,
      "learning_rate": 1.7800228200991007e-05,
      "loss": 1.4939,
      "step": 80234
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6836998462677002,
      "learning_rate": 1.7796681612386908e-05,
      "loss": 1.5148,
      "step": 80235
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6991339325904846,
      "learning_rate": 1.7793135366336064e-05,
      "loss": 1.4992,
      "step": 80236
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6624749898910522,
      "learning_rate": 1.7789589462842736e-05,
      "loss": 1.5344,
      "step": 80237
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6643797159194946,
      "learning_rate": 1.7786043901911283e-05,
      "loss": 1.4436,
      "step": 80238
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6563649773597717,
      "learning_rate": 1.778249868354601e-05,
      "loss": 1.5216,
      "step": 80239
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6511592268943787,
      "learning_rate": 1.777895380775114e-05,
      "loss": 1.5422,
      "step": 80240
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6704810857772827,
      "learning_rate": 1.7775409274531073e-05,
      "loss": 1.4926,
      "step": 80241
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6743448376655579,
      "learning_rate": 1.7771865083890068e-05,
      "loss": 1.4921,
      "step": 80242
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6805158853530884,
      "learning_rate": 1.7768321235832493e-05,
      "loss": 1.5129,
      "step": 80243
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6770786046981812,
      "learning_rate": 1.776477773036251e-05,
      "loss": 1.4994,
      "step": 80244
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6762398481369019,
      "learning_rate": 1.776123456748455e-05,
      "loss": 1.5188,
      "step": 80245
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6683720946311951,
      "learning_rate": 1.7757691747202874e-05,
      "loss": 1.5352,
      "step": 80246
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6739599704742432,
      "learning_rate": 1.775414926952171e-05,
      "loss": 1.5071,
      "step": 80247
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6598717570304871,
      "learning_rate": 1.7750607134445428e-05,
      "loss": 1.5083,
      "step": 80248
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6987084150314331,
      "learning_rate": 1.7747065341978418e-05,
      "loss": 1.5749,
      "step": 80249
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6695477962493896,
      "learning_rate": 1.7743523892124777e-05,
      "loss": 1.4966,
      "step": 80250
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6785145998001099,
      "learning_rate": 1.773998278488894e-05,
      "loss": 1.6296,
      "step": 80251
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6883976459503174,
      "learning_rate": 1.7736442020275197e-05,
      "loss": 1.4673,
      "step": 80252
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6692137718200684,
      "learning_rate": 1.7732901598287818e-05,
      "loss": 1.566,
      "step": 80253
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7007375359535217,
      "learning_rate": 1.7729361518931096e-05,
      "loss": 1.5446,
      "step": 80254
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6669029593467712,
      "learning_rate": 1.7725821782209326e-05,
      "loss": 1.5164,
      "step": 80255
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6760050058364868,
      "learning_rate": 1.7722282388126873e-05,
      "loss": 1.5124,
      "step": 80256
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6820401549339294,
      "learning_rate": 1.7718743336687934e-05,
      "loss": 1.4728,
      "step": 80257
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6628594398498535,
      "learning_rate": 1.7715204627896806e-05,
      "loss": 1.4515,
      "step": 80258
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6669427156448364,
      "learning_rate": 1.7711666261757886e-05,
      "loss": 1.5233,
      "step": 80259
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6762797236442566,
      "learning_rate": 1.770812823827543e-05,
      "loss": 1.4418,
      "step": 80260
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6487966179847717,
      "learning_rate": 1.7704590557453646e-05,
      "loss": 1.4761,
      "step": 80261
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6910917162895203,
      "learning_rate": 1.7701053219296922e-05,
      "loss": 1.4937,
      "step": 80262
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6660047769546509,
      "learning_rate": 1.7697516223809593e-05,
      "loss": 1.4836,
      "step": 80263
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6934537291526794,
      "learning_rate": 1.7693979570995785e-05,
      "loss": 1.5301,
      "step": 80264
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6741488575935364,
      "learning_rate": 1.76904432608599e-05,
      "loss": 1.5101,
      "step": 80265
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.698514997959137,
      "learning_rate": 1.768690729340626e-05,
      "loss": 1.5919,
      "step": 80266
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6752135753631592,
      "learning_rate": 1.7683371668639133e-05,
      "loss": 1.4823,
      "step": 80267
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6802583336830139,
      "learning_rate": 1.7679836386562752e-05,
      "loss": 1.4634,
      "step": 80268
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6643604040145874,
      "learning_rate": 1.7676301447181475e-05,
      "loss": 1.4537,
      "step": 80269
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6813384890556335,
      "learning_rate": 1.7672766850499597e-05,
      "loss": 1.4948,
      "step": 80270
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.697504997253418,
      "learning_rate": 1.766923259652132e-05,
      "loss": 1.5684,
      "step": 80271
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6815229654312134,
      "learning_rate": 1.7665698685250973e-05,
      "loss": 1.4952,
      "step": 80272
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6800827383995056,
      "learning_rate": 1.766216511669295e-05,
      "loss": 1.4394,
      "step": 80273
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6750544309616089,
      "learning_rate": 1.7658631890851448e-05,
      "loss": 1.5742,
      "step": 80274
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6644458770751953,
      "learning_rate": 1.76550990077307e-05,
      "loss": 1.5014,
      "step": 80275
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.661414623260498,
      "learning_rate": 1.765156646733513e-05,
      "loss": 1.4992,
      "step": 80276
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6753939390182495,
      "learning_rate": 1.764803426966894e-05,
      "loss": 1.4626,
      "step": 80277
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6896787881851196,
      "learning_rate": 1.7644502414736393e-05,
      "loss": 1.531,
      "step": 80278
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6688070893287659,
      "learning_rate": 1.7640970902541883e-05,
      "loss": 1.5394,
      "step": 80279
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6610403060913086,
      "learning_rate": 1.763743973308954e-05,
      "loss": 1.504,
      "step": 80280
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6750913262367249,
      "learning_rate": 1.763390890638383e-05,
      "loss": 1.5245,
      "step": 80281
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6475468277931213,
      "learning_rate": 1.7630378422428883e-05,
      "loss": 1.46,
      "step": 80282
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6843432784080505,
      "learning_rate": 1.7626848281229087e-05,
      "loss": 1.4884,
      "step": 80283
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.693616509437561,
      "learning_rate": 1.7623318482788716e-05,
      "loss": 1.5643,
      "step": 80284
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.667353630065918,
      "learning_rate": 1.7619789027111997e-05,
      "loss": 1.5676,
      "step": 80285
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.666481077671051,
      "learning_rate": 1.7616259914203257e-05,
      "loss": 1.5683,
      "step": 80286
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6695559024810791,
      "learning_rate": 1.7612731144066728e-05,
      "loss": 1.4648,
      "step": 80287
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6568711400032043,
      "learning_rate": 1.7609202716706804e-05,
      "loss": 1.5054,
      "step": 80288
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6861911416053772,
      "learning_rate": 1.7605674632127687e-05,
      "loss": 1.5903,
      "step": 80289
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6920482516288757,
      "learning_rate": 1.7602146890333635e-05,
      "loss": 1.4575,
      "step": 80290
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6624523997306824,
      "learning_rate": 1.759861949132898e-05,
      "loss": 1.505,
      "step": 80291
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6522911190986633,
      "learning_rate": 1.7595092435117984e-05,
      "loss": 1.4977,
      "step": 80292
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.685507595539093,
      "learning_rate": 1.759156572170498e-05,
      "loss": 1.508,
      "step": 80293
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6555910706520081,
      "learning_rate": 1.758803935109413e-05,
      "loss": 1.4733,
      "step": 80294
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6792586445808411,
      "learning_rate": 1.7584513323289863e-05,
      "loss": 1.5108,
      "step": 80295
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7061401009559631,
      "learning_rate": 1.7580987638296373e-05,
      "loss": 1.5076,
      "step": 80296
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6763315200805664,
      "learning_rate": 1.7577462296117895e-05,
      "loss": 1.5558,
      "step": 80297
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6632788777351379,
      "learning_rate": 1.7573937296758822e-05,
      "loss": 1.5163,
      "step": 80298
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6937798261642456,
      "learning_rate": 1.7570412640223385e-05,
      "loss": 1.5782,
      "step": 80299
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6837146282196045,
      "learning_rate": 1.7566888326515782e-05,
      "loss": 1.5801,
      "step": 80300
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.684387743473053,
      "learning_rate": 1.7563364355640376e-05,
      "loss": 1.4927,
      "step": 80301
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6820707321166992,
      "learning_rate": 1.755984072760149e-05,
      "loss": 1.4895,
      "step": 80302
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7003725171089172,
      "learning_rate": 1.7556317442403333e-05,
      "loss": 1.4888,
      "step": 80303
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6919026374816895,
      "learning_rate": 1.7552794500050128e-05,
      "loss": 1.5525,
      "step": 80304
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.662295401096344,
      "learning_rate": 1.754927190054627e-05,
      "loss": 1.5148,
      "step": 80305
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6604313254356384,
      "learning_rate": 1.754574964389599e-05,
      "loss": 1.4837,
      "step": 80306
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6685065031051636,
      "learning_rate": 1.7542227730103488e-05,
      "loss": 1.4673,
      "step": 80307
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6830092072486877,
      "learning_rate": 1.7538706159173122e-05,
      "loss": 1.5714,
      "step": 80308
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7150797843933105,
      "learning_rate": 1.7535184931109225e-05,
      "loss": 1.5264,
      "step": 80309
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7014296054840088,
      "learning_rate": 1.7531664045915893e-05,
      "loss": 1.6105,
      "step": 80310
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.672423243522644,
      "learning_rate": 1.7528143503597523e-05,
      "loss": 1.4701,
      "step": 80311
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6768411993980408,
      "learning_rate": 1.7524623304158413e-05,
      "loss": 1.5488,
      "step": 80312
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6899276971817017,
      "learning_rate": 1.7521103447602793e-05,
      "loss": 1.5209,
      "step": 80313
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6512749195098877,
      "learning_rate": 1.7517583933934855e-05,
      "loss": 1.4487,
      "step": 80314
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6989893317222595,
      "learning_rate": 1.7514064763158963e-05,
      "loss": 1.5316,
      "step": 80315
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6646728515625,
      "learning_rate": 1.7510545935279487e-05,
      "loss": 1.556,
      "step": 80316
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6537057161331177,
      "learning_rate": 1.7507027450300483e-05,
      "loss": 1.5523,
      "step": 80317
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.694160521030426,
      "learning_rate": 1.7503509308226315e-05,
      "loss": 1.4492,
      "step": 80318
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6679250001907349,
      "learning_rate": 1.7499991509061316e-05,
      "loss": 1.4752,
      "step": 80319
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6924971342086792,
      "learning_rate": 1.7496474052809685e-05,
      "loss": 1.504,
      "step": 80320
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6789677739143372,
      "learning_rate": 1.7492956939475677e-05,
      "loss": 1.5496,
      "step": 80321
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6747086048126221,
      "learning_rate": 1.7489440169063597e-05,
      "loss": 1.5074,
      "step": 80322
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6952707171440125,
      "learning_rate": 1.7485923741577766e-05,
      "loss": 1.5532,
      "step": 80323
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.683738112449646,
      "learning_rate": 1.748240765702239e-05,
      "loss": 1.5608,
      "step": 80324
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6784185171127319,
      "learning_rate": 1.7478891915401694e-05,
      "loss": 1.5236,
      "step": 80325
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6768691539764404,
      "learning_rate": 1.7475376516720042e-05,
      "loss": 1.4837,
      "step": 80326
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.675822913646698,
      "learning_rate": 1.747186146098163e-05,
      "loss": 1.5531,
      "step": 80327
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6978368163108826,
      "learning_rate": 1.7468346748190754e-05,
      "loss": 1.4711,
      "step": 80328
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6719501614570618,
      "learning_rate": 1.7464832378351677e-05,
      "loss": 1.49,
      "step": 80329
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6786602735519409,
      "learning_rate": 1.7461318351468635e-05,
      "loss": 1.5393,
      "step": 80330
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6758175492286682,
      "learning_rate": 1.7457804667545983e-05,
      "loss": 1.5034,
      "step": 80331
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7109498381614685,
      "learning_rate": 1.7454291326587856e-05,
      "loss": 1.516,
      "step": 80332
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6703792214393616,
      "learning_rate": 1.7450778328598648e-05,
      "loss": 1.5339,
      "step": 80333
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6820738315582275,
      "learning_rate": 1.7447265673582557e-05,
      "loss": 1.4835,
      "step": 80334
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6780925989151001,
      "learning_rate": 1.744375336154381e-05,
      "loss": 1.5789,
      "step": 80335
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6848428249359131,
      "learning_rate": 1.7440241392486775e-05,
      "loss": 1.5506,
      "step": 80336
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6902639865875244,
      "learning_rate": 1.743672976641558e-05,
      "loss": 1.5723,
      "step": 80337
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6891511678695679,
      "learning_rate": 1.743321848333462e-05,
      "loss": 1.5315,
      "step": 80338
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6751498579978943,
      "learning_rate": 1.7429707543248094e-05,
      "loss": 1.5023,
      "step": 80339
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6967609524726868,
      "learning_rate": 1.7426196946160232e-05,
      "loss": 1.4734,
      "step": 80340
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6886636018753052,
      "learning_rate": 1.742268669207536e-05,
      "loss": 1.5213,
      "step": 80341
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6716018319129944,
      "learning_rate": 1.7419176780997678e-05,
      "loss": 1.5301,
      "step": 80342
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6610082387924194,
      "learning_rate": 1.741566721293155e-05,
      "loss": 1.4717,
      "step": 80343
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6663033962249756,
      "learning_rate": 1.741215798788107e-05,
      "loss": 1.4969,
      "step": 80344
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7187308073043823,
      "learning_rate": 1.740864910585067e-05,
      "loss": 1.5025,
      "step": 80345
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6665670275688171,
      "learning_rate": 1.740514056684451e-05,
      "loss": 1.5378,
      "step": 80346
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.649602472782135,
      "learning_rate": 1.7401632370866858e-05,
      "loss": 1.4755,
      "step": 80347
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6969189643859863,
      "learning_rate": 1.7398124517922007e-05,
      "loss": 1.4381,
      "step": 80348
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6658409833908081,
      "learning_rate": 1.7394617008014156e-05,
      "loss": 1.5536,
      "step": 80349
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6669682860374451,
      "learning_rate": 1.7391109841147632e-05,
      "loss": 1.5034,
      "step": 80350
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6673802733421326,
      "learning_rate": 1.7387603017326636e-05,
      "loss": 1.4779,
      "step": 80351
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6776134967803955,
      "learning_rate": 1.738409653655549e-05,
      "loss": 1.5255,
      "step": 80352
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6851630210876465,
      "learning_rate": 1.73805903988384e-05,
      "loss": 1.5125,
      "step": 80353
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6433660387992859,
      "learning_rate": 1.7377084604179592e-05,
      "loss": 1.5274,
      "step": 80354
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6777006983757019,
      "learning_rate": 1.7373579152583395e-05,
      "loss": 1.5024,
      "step": 80355
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6568735241889954,
      "learning_rate": 1.737007404405404e-05,
      "loss": 1.5061,
      "step": 80356
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.686795175075531,
      "learning_rate": 1.7366569278595722e-05,
      "loss": 1.5273,
      "step": 80357
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.717957079410553,
      "learning_rate": 1.736306485621274e-05,
      "loss": 1.5433,
      "step": 80358
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6936161518096924,
      "learning_rate": 1.735956077690942e-05,
      "loss": 1.564,
      "step": 80359
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7193350195884705,
      "learning_rate": 1.7356057040689932e-05,
      "loss": 1.536,
      "step": 80360
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6955476999282837,
      "learning_rate": 1.73525536475585e-05,
      "loss": 1.5232,
      "step": 80361
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7022304534912109,
      "learning_rate": 1.7349050597519453e-05,
      "loss": 1.4949,
      "step": 80362
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7120555639266968,
      "learning_rate": 1.7345547890577028e-05,
      "loss": 1.481,
      "step": 80363
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6817988157272339,
      "learning_rate": 1.7342045526735415e-05,
      "loss": 1.4715,
      "step": 80364
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6802461743354797,
      "learning_rate": 1.7338543505998913e-05,
      "loss": 1.5609,
      "step": 80365
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6851450800895691,
      "learning_rate": 1.7335041828371854e-05,
      "loss": 1.5179,
      "step": 80366
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6500001549720764,
      "learning_rate": 1.7331540493858333e-05,
      "loss": 1.4864,
      "step": 80367
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6750611066818237,
      "learning_rate": 1.7328039502462676e-05,
      "loss": 1.4781,
      "step": 80368
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6629679799079895,
      "learning_rate": 1.7324538854189153e-05,
      "loss": 1.49,
      "step": 80369
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.665172278881073,
      "learning_rate": 1.732103854904199e-05,
      "loss": 1.5641,
      "step": 80370
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6534546613693237,
      "learning_rate": 1.731753858702538e-05,
      "loss": 1.4929,
      "step": 80371
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6680874824523926,
      "learning_rate": 1.731403896814366e-05,
      "loss": 1.5923,
      "step": 80372
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6720830798149109,
      "learning_rate": 1.7310539692401092e-05,
      "loss": 1.5417,
      "step": 80373
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6878077983856201,
      "learning_rate": 1.7307040759801837e-05,
      "loss": 1.5488,
      "step": 80374
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6806609034538269,
      "learning_rate": 1.730354217035016e-05,
      "loss": 1.4741,
      "step": 80375
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.672519862651825,
      "learning_rate": 1.7300043924050354e-05,
      "loss": 1.5205,
      "step": 80376
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6581376791000366,
      "learning_rate": 1.7296546020906656e-05,
      "loss": 1.5088,
      "step": 80377
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6550476551055908,
      "learning_rate": 1.7293048460923254e-05,
      "loss": 1.4557,
      "step": 80378
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6964983344078064,
      "learning_rate": 1.728955124410445e-05,
      "loss": 1.6029,
      "step": 80379
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6865891814231873,
      "learning_rate": 1.728605437045454e-05,
      "loss": 1.5219,
      "step": 80380
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6667572855949402,
      "learning_rate": 1.728255783997762e-05,
      "loss": 1.5829,
      "step": 80381
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6741913557052612,
      "learning_rate": 1.7279061652678017e-05,
      "loss": 1.4845,
      "step": 80382
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6678910851478577,
      "learning_rate": 1.7275565808560032e-05,
      "loss": 1.5351,
      "step": 80383
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7009080648422241,
      "learning_rate": 1.727207030762786e-05,
      "loss": 1.4016,
      "step": 80384
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6594271659851074,
      "learning_rate": 1.7268575149885666e-05,
      "loss": 1.4884,
      "step": 80385
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6758025288581848,
      "learning_rate": 1.726508033533781e-05,
      "loss": 1.4467,
      "step": 80386
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6942409873008728,
      "learning_rate": 1.7261585863988524e-05,
      "loss": 1.4672,
      "step": 80387
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6701776385307312,
      "learning_rate": 1.7258091735841938e-05,
      "loss": 1.6378,
      "step": 80388
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6868664026260376,
      "learning_rate": 1.7254597950902383e-05,
      "loss": 1.5495,
      "step": 80389
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.695388674736023,
      "learning_rate": 1.725110450917412e-05,
      "loss": 1.512,
      "step": 80390
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6656200885772705,
      "learning_rate": 1.7247611410661343e-05,
      "loss": 1.5174,
      "step": 80391
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6798509955406189,
      "learning_rate": 1.724411865536829e-05,
      "loss": 1.4922,
      "step": 80392
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6678287386894226,
      "learning_rate": 1.7240626243299216e-05,
      "loss": 1.4704,
      "step": 80393
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6734688878059387,
      "learning_rate": 1.723713417445839e-05,
      "loss": 1.4907,
      "step": 80394
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6711852550506592,
      "learning_rate": 1.723364244884997e-05,
      "loss": 1.4944,
      "step": 80395
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6813935041427612,
      "learning_rate": 1.7230151066478292e-05,
      "loss": 1.4896,
      "step": 80396
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6643255949020386,
      "learning_rate": 1.7226660027347515e-05,
      "loss": 1.4802,
      "step": 80397
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.666296660900116,
      "learning_rate": 1.722316933146194e-05,
      "loss": 1.5318,
      "step": 80398
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6560192108154297,
      "learning_rate": 1.7219678978825724e-05,
      "loss": 1.563,
      "step": 80399
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6717183589935303,
      "learning_rate": 1.7216188969443167e-05,
      "loss": 1.5186,
      "step": 80400
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.6701772809028625,
      "learning_rate": 1.7212699303318534e-05,
      "loss": 1.5269,
      "step": 80401
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.7084945440292358,
      "learning_rate": 1.720920998045595e-05,
      "loss": 1.5725,
      "step": 80402
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6714627742767334,
      "learning_rate": 1.7205721000859784e-05,
      "loss": 1.5151,
      "step": 80403
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6702919006347656,
      "learning_rate": 1.720223236453413e-05,
      "loss": 1.4435,
      "step": 80404
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6792390942573547,
      "learning_rate": 1.7198744071483383e-05,
      "loss": 1.5465,
      "step": 80405
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6621679067611694,
      "learning_rate": 1.7195256121711676e-05,
      "loss": 1.5267,
      "step": 80406
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6567233204841614,
      "learning_rate": 1.7191768515223202e-05,
      "loss": 1.5251,
      "step": 80407
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6922107934951782,
      "learning_rate": 1.7188281252022294e-05,
      "loss": 1.475,
      "step": 80408
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.8657582998275757,
      "learning_rate": 1.7184794332113117e-05,
      "loss": 1.4575,
      "step": 80409
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6795362830162048,
      "learning_rate": 1.7181307755499928e-05,
      "loss": 1.562,
      "step": 80410
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6937183141708374,
      "learning_rate": 1.7177821522186963e-05,
      "loss": 1.5058,
      "step": 80411
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6757920384407043,
      "learning_rate": 1.717433563217848e-05,
      "loss": 1.5394,
      "step": 80412
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6731263995170593,
      "learning_rate": 1.7170850085478684e-05,
      "loss": 1.5192,
      "step": 80413
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6739358901977539,
      "learning_rate": 1.7167364882091762e-05,
      "loss": 1.5433,
      "step": 80414
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6872831583023071,
      "learning_rate": 1.7163880022022015e-05,
      "loss": 1.5608,
      "step": 80415
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.683612585067749,
      "learning_rate": 1.716039550527367e-05,
      "loss": 1.5055,
      "step": 80416
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6524680256843567,
      "learning_rate": 1.7156911331850865e-05,
      "loss": 1.4474,
      "step": 80417
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7096875905990601,
      "learning_rate": 1.7153427501757887e-05,
      "loss": 1.5773,
      "step": 80418
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6990022659301758,
      "learning_rate": 1.714994401499904e-05,
      "loss": 1.5266,
      "step": 80419
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6706826686859131,
      "learning_rate": 1.714646087157848e-05,
      "loss": 1.5379,
      "step": 80420
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6850696802139282,
      "learning_rate": 1.714297807150038e-05,
      "loss": 1.5384,
      "step": 80421
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6686219573020935,
      "learning_rate": 1.7139495614769094e-05,
      "loss": 1.5484,
      "step": 80422
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6927990913391113,
      "learning_rate": 1.7136013501388758e-05,
      "loss": 1.4975,
      "step": 80423
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6611683964729309,
      "learning_rate": 1.7132531731363596e-05,
      "loss": 1.5024,
      "step": 80424
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6877040266990662,
      "learning_rate": 1.7129050304697844e-05,
      "loss": 1.5948,
      "step": 80425
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6870014071464539,
      "learning_rate": 1.7125569221395862e-05,
      "loss": 1.4749,
      "step": 80426
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6748633980751038,
      "learning_rate": 1.712208848146165e-05,
      "loss": 1.5274,
      "step": 80427
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.682481050491333,
      "learning_rate": 1.7118608084899533e-05,
      "loss": 1.4613,
      "step": 80428
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6938133835792542,
      "learning_rate": 1.711512803171381e-05,
      "loss": 1.4954,
      "step": 80429
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6849759817123413,
      "learning_rate": 1.7111648321908643e-05,
      "loss": 1.5348,
      "step": 80430
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6668049097061157,
      "learning_rate": 1.71081689554882e-05,
      "loss": 1.5326,
      "step": 80431
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6762065291404724,
      "learning_rate": 1.710468993245677e-05,
      "loss": 1.5103,
      "step": 80432
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6733226776123047,
      "learning_rate": 1.7101211252818625e-05,
      "loss": 1.5117,
      "step": 80433
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6559175848960876,
      "learning_rate": 1.7097732916577854e-05,
      "loss": 1.4975,
      "step": 80434
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6970874667167664,
      "learning_rate": 1.709425492373876e-05,
      "loss": 1.5452,
      "step": 80435
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.678779125213623,
      "learning_rate": 1.70907772743056e-05,
      "loss": 1.5123,
      "step": 80436
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6582110524177551,
      "learning_rate": 1.708729996828254e-05,
      "loss": 1.4941,
      "step": 80437
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6959435939788818,
      "learning_rate": 1.708382300567378e-05,
      "loss": 1.4708,
      "step": 80438
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6882199048995972,
      "learning_rate": 1.7080346386483545e-05,
      "loss": 1.4812,
      "step": 80439
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.686818540096283,
      "learning_rate": 1.7076870110716168e-05,
      "loss": 1.5365,
      "step": 80440
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7038908004760742,
      "learning_rate": 1.7073394178375742e-05,
      "loss": 1.4618,
      "step": 80441
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6759766340255737,
      "learning_rate": 1.7069918589466535e-05,
      "loss": 1.4981,
      "step": 80442
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6450464129447937,
      "learning_rate": 1.7066443343992776e-05,
      "loss": 1.4479,
      "step": 80443
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6992006897926331,
      "learning_rate": 1.706296844195866e-05,
      "loss": 1.542,
      "step": 80444
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6753162145614624,
      "learning_rate": 1.705949388336838e-05,
      "loss": 1.4755,
      "step": 80445
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6751251816749573,
      "learning_rate": 1.7056019668226206e-05,
      "loss": 1.4528,
      "step": 80446
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7072214484214783,
      "learning_rate": 1.70525457965363e-05,
      "loss": 1.6236,
      "step": 80447
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6668970584869385,
      "learning_rate": 1.7049072268302954e-05,
      "loss": 1.5585,
      "step": 80448
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6911935210227966,
      "learning_rate": 1.7045599083530336e-05,
      "loss": 1.4694,
      "step": 80449
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6944641470909119,
      "learning_rate": 1.7042126242222676e-05,
      "loss": 1.4885,
      "step": 80450
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6724866628646851,
      "learning_rate": 1.70386537443842e-05,
      "loss": 1.4773,
      "step": 80451
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.705753743648529,
      "learning_rate": 1.703518159001904e-05,
      "loss": 1.4443,
      "step": 80452
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.680770218372345,
      "learning_rate": 1.703170977913153e-05,
      "loss": 1.4991,
      "step": 80453
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6765312552452087,
      "learning_rate": 1.7028238311725795e-05,
      "loss": 1.4673,
      "step": 80454
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.661697506904602,
      "learning_rate": 1.7024767187806134e-05,
      "loss": 1.4917,
      "step": 80455
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.659326434135437,
      "learning_rate": 1.7021296407376706e-05,
      "loss": 1.4908,
      "step": 80456
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6795397996902466,
      "learning_rate": 1.701782597044168e-05,
      "loss": 1.5539,
      "step": 80457
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.678238034248352,
      "learning_rate": 1.7014355877005348e-05,
      "loss": 1.5376,
      "step": 80458
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6788341403007507,
      "learning_rate": 1.7010886127071878e-05,
      "loss": 1.5277,
      "step": 80459
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6760813593864441,
      "learning_rate": 1.7007416720645528e-05,
      "loss": 1.5769,
      "step": 80460
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6832066178321838,
      "learning_rate": 1.700394765773043e-05,
      "loss": 1.5593,
      "step": 80461
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6632425785064697,
      "learning_rate": 1.7000478938330886e-05,
      "loss": 1.4974,
      "step": 80462
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6958571672439575,
      "learning_rate": 1.6997010562451054e-05,
      "loss": 1.5561,
      "step": 80463
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6661840081214905,
      "learning_rate": 1.6993542530095127e-05,
      "loss": 1.5134,
      "step": 80464
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6652927994728088,
      "learning_rate": 1.6990074841267374e-05,
      "loss": 1.5325,
      "step": 80465
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6531835794448853,
      "learning_rate": 1.6986607495971926e-05,
      "loss": 1.5935,
      "step": 80466
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7083879113197327,
      "learning_rate": 1.6983140494213075e-05,
      "loss": 1.5788,
      "step": 80467
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6804077625274658,
      "learning_rate": 1.6979673835994955e-05,
      "loss": 1.4938,
      "step": 80468
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6795102953910828,
      "learning_rate": 1.697620752132186e-05,
      "loss": 1.5153,
      "step": 80469
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6594128012657166,
      "learning_rate": 1.6972741550197955e-05,
      "loss": 1.5099,
      "step": 80470
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6752341985702515,
      "learning_rate": 1.6969275922627367e-05,
      "loss": 1.4885,
      "step": 80471
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.697547197341919,
      "learning_rate": 1.696581063861443e-05,
      "loss": 1.5201,
      "step": 80472
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6725367307662964,
      "learning_rate": 1.6962345698163303e-05,
      "loss": 1.4427,
      "step": 80473
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6917362213134766,
      "learning_rate": 1.6958881101278153e-05,
      "loss": 1.5736,
      "step": 80474
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6514211297035217,
      "learning_rate": 1.6955416847963177e-05,
      "loss": 1.4831,
      "step": 80475
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6886681914329529,
      "learning_rate": 1.69519529382227e-05,
      "loss": 1.5027,
      "step": 80476
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6776565313339233,
      "learning_rate": 1.6948489372060827e-05,
      "loss": 1.5459,
      "step": 80477
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6685705184936523,
      "learning_rate": 1.6945026149481744e-05,
      "loss": 1.4736,
      "step": 80478
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6557177305221558,
      "learning_rate": 1.6941563270489756e-05,
      "loss": 1.464,
      "step": 80479
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.663263738155365,
      "learning_rate": 1.6938100735088988e-05,
      "loss": 1.5265,
      "step": 80480
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6842840313911438,
      "learning_rate": 1.6934638543283608e-05,
      "loss": 1.4955,
      "step": 80481
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6787655353546143,
      "learning_rate": 1.6931176695077875e-05,
      "loss": 1.4326,
      "step": 80482
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6718180179595947,
      "learning_rate": 1.692771519047609e-05,
      "loss": 1.5243,
      "step": 80483
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6752845644950867,
      "learning_rate": 1.6924254029482243e-05,
      "loss": 1.5402,
      "step": 80484
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6950935125350952,
      "learning_rate": 1.6920793212100638e-05,
      "loss": 1.6305,
      "step": 80485
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.695250391960144,
      "learning_rate": 1.6917332738335532e-05,
      "loss": 1.5429,
      "step": 80486
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6877042055130005,
      "learning_rate": 1.691387260819106e-05,
      "loss": 1.4876,
      "step": 80487
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6709598898887634,
      "learning_rate": 1.6910412821671415e-05,
      "loss": 1.4422,
      "step": 80488
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6756099462509155,
      "learning_rate": 1.6906953378780795e-05,
      "loss": 1.4722,
      "step": 80489
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6902132630348206,
      "learning_rate": 1.6903494279523534e-05,
      "loss": 1.4672,
      "step": 80490
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6786078214645386,
      "learning_rate": 1.690003552390362e-05,
      "loss": 1.5367,
      "step": 80491
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6850953698158264,
      "learning_rate": 1.689657711192536e-05,
      "loss": 1.513,
      "step": 80492
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6734890937805176,
      "learning_rate": 1.6893119043592972e-05,
      "loss": 1.4564,
      "step": 80493
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6744732856750488,
      "learning_rate": 1.6889661318910597e-05,
      "loss": 1.4714,
      "step": 80494
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6771141290664673,
      "learning_rate": 1.6886203937882458e-05,
      "loss": 1.5281,
      "step": 80495
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6676742434501648,
      "learning_rate": 1.6882746900512723e-05,
      "loss": 1.4798,
      "step": 80496
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.649877667427063,
      "learning_rate": 1.6879290206805753e-05,
      "loss": 1.541,
      "step": 80497
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6529628038406372,
      "learning_rate": 1.6875833856765473e-05,
      "loss": 1.5274,
      "step": 80498
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.695673942565918,
      "learning_rate": 1.6872377850396222e-05,
      "loss": 1.5048,
      "step": 80499
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6640676856040955,
      "learning_rate": 1.686892218770226e-05,
      "loss": 1.5179,
      "step": 80500
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6989712119102478,
      "learning_rate": 1.6865466868687683e-05,
      "loss": 1.5066,
      "step": 80501
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6673806309700012,
      "learning_rate": 1.6862011893356653e-05,
      "loss": 1.4766,
      "step": 80502
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6813368201255798,
      "learning_rate": 1.68585572617135e-05,
      "loss": 1.514,
      "step": 80503
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6655537486076355,
      "learning_rate": 1.6855102973762323e-05,
      "loss": 1.562,
      "step": 80504
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6806668043136597,
      "learning_rate": 1.6851649029507284e-05,
      "loss": 1.5653,
      "step": 80505
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6498391032218933,
      "learning_rate": 1.684819542895265e-05,
      "loss": 1.4865,
      "step": 80506
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6740432381629944,
      "learning_rate": 1.684474217210261e-05,
      "loss": 1.5153,
      "step": 80507
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6695489883422852,
      "learning_rate": 1.6841289258961334e-05,
      "loss": 1.4581,
      "step": 80508
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6627397537231445,
      "learning_rate": 1.6837836689532946e-05,
      "loss": 1.5105,
      "step": 80509
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6964095830917358,
      "learning_rate": 1.6834384463821783e-05,
      "loss": 1.4418,
      "step": 80510
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6752480864524841,
      "learning_rate": 1.6830932581831935e-05,
      "loss": 1.5458,
      "step": 80511
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6781958937644958,
      "learning_rate": 1.682748104356757e-05,
      "loss": 1.5725,
      "step": 80512
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6639912128448486,
      "learning_rate": 1.682402984903295e-05,
      "loss": 1.5183,
      "step": 80513
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6915237903594971,
      "learning_rate": 1.6820578998232204e-05,
      "loss": 1.5796,
      "step": 80514
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6504979133605957,
      "learning_rate": 1.6817128491169597e-05,
      "loss": 1.5786,
      "step": 80515
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6482265591621399,
      "learning_rate": 1.6813678327849223e-05,
      "loss": 1.4855,
      "step": 80516
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6928508281707764,
      "learning_rate": 1.681022850827538e-05,
      "loss": 1.5307,
      "step": 80517
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6849453449249268,
      "learning_rate": 1.6806779032452166e-05,
      "loss": 1.4334,
      "step": 80518
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.672164797782898,
      "learning_rate": 1.6803329900383776e-05,
      "loss": 1.4665,
      "step": 80519
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6760926842689514,
      "learning_rate": 1.6799881112074442e-05,
      "loss": 1.4201,
      "step": 80520
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6813057065010071,
      "learning_rate": 1.6796432667528293e-05,
      "loss": 1.4643,
      "step": 80521
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6869415044784546,
      "learning_rate": 1.6792984566749558e-05,
      "loss": 1.497,
      "step": 80522
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6931010484695435,
      "learning_rate": 1.678953680974243e-05,
      "loss": 1.4779,
      "step": 80523
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6758152842521667,
      "learning_rate": 1.678608939651105e-05,
      "loss": 1.4827,
      "step": 80524
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.690514087677002,
      "learning_rate": 1.678264232705967e-05,
      "loss": 1.5171,
      "step": 80525
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6805161237716675,
      "learning_rate": 1.677919560139236e-05,
      "loss": 1.5116,
      "step": 80526
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6981275081634521,
      "learning_rate": 1.6775749219513447e-05,
      "loss": 1.5475,
      "step": 80527
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6894586086273193,
      "learning_rate": 1.6772303181426993e-05,
      "loss": 1.5125,
      "step": 80528
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6715387105941772,
      "learning_rate": 1.6768857487137268e-05,
      "loss": 1.4906,
      "step": 80529
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6819151639938354,
      "learning_rate": 1.6765412136648427e-05,
      "loss": 1.4444,
      "step": 80530
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6832502484321594,
      "learning_rate": 1.6761967129964605e-05,
      "loss": 1.5368,
      "step": 80531
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6667356491088867,
      "learning_rate": 1.675852246709003e-05,
      "loss": 1.5402,
      "step": 80532
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6580407619476318,
      "learning_rate": 1.67550781480289e-05,
      "loss": 1.5022,
      "step": 80533
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6845283508300781,
      "learning_rate": 1.6751634172785343e-05,
      "loss": 1.5031,
      "step": 80534
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6631745100021362,
      "learning_rate": 1.674819054136356e-05,
      "loss": 1.4721,
      "step": 80535
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6926316618919373,
      "learning_rate": 1.674474725376774e-05,
      "loss": 1.486,
      "step": 80536
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.681343674659729,
      "learning_rate": 1.6741304310002125e-05,
      "loss": 1.523,
      "step": 80537
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6679726243019104,
      "learning_rate": 1.6737861710070733e-05,
      "loss": 1.4605,
      "step": 80538
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6541904807090759,
      "learning_rate": 1.6734419453977932e-05,
      "loss": 1.5094,
      "step": 80539
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6823862195014954,
      "learning_rate": 1.6730977541727785e-05,
      "loss": 1.507,
      "step": 80540
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6928600668907166,
      "learning_rate": 1.6727535973324422e-05,
      "loss": 1.537,
      "step": 80541
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6655340790748596,
      "learning_rate": 1.6724094748772143e-05,
      "loss": 1.5455,
      "step": 80542
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6786674857139587,
      "learning_rate": 1.672065386807514e-05,
      "loss": 1.542,
      "step": 80543
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6655157208442688,
      "learning_rate": 1.671721333123741e-05,
      "loss": 1.4441,
      "step": 80544
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6645898222923279,
      "learning_rate": 1.6713773138263287e-05,
      "loss": 1.5462,
      "step": 80545
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7004467844963074,
      "learning_rate": 1.671033328915693e-05,
      "loss": 1.5175,
      "step": 80546
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6764512658119202,
      "learning_rate": 1.670689378392247e-05,
      "loss": 1.4742,
      "step": 80547
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6651201844215393,
      "learning_rate": 1.670345462256407e-05,
      "loss": 1.4721,
      "step": 80548
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6662793159484863,
      "learning_rate": 1.670001580508593e-05,
      "loss": 1.495,
      "step": 80549
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6813532114028931,
      "learning_rate": 1.6696577331492313e-05,
      "loss": 1.5671,
      "step": 80550
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6578325033187866,
      "learning_rate": 1.6693139201787244e-05,
      "loss": 1.4839,
      "step": 80551
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.688278079032898,
      "learning_rate": 1.6689701415974953e-05,
      "loss": 1.4472,
      "step": 80552
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6810857057571411,
      "learning_rate": 1.6686263974059644e-05,
      "loss": 1.5239,
      "step": 80553
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.677081286907196,
      "learning_rate": 1.6682826876045476e-05,
      "loss": 1.5506,
      "step": 80554
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6781232357025146,
      "learning_rate": 1.6679390121936577e-05,
      "loss": 1.5152,
      "step": 80555
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6682278513908386,
      "learning_rate": 1.6675953711737146e-05,
      "loss": 1.5208,
      "step": 80556
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6611921191215515,
      "learning_rate": 1.667251764545141e-05,
      "loss": 1.6013,
      "step": 80557
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6916441321372986,
      "learning_rate": 1.6669081923083473e-05,
      "loss": 1.4982,
      "step": 80558
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6793931126594543,
      "learning_rate": 1.666564654463749e-05,
      "loss": 1.4989,
      "step": 80559
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6545000076293945,
      "learning_rate": 1.666221151011773e-05,
      "loss": 1.5336,
      "step": 80560
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6937242746353149,
      "learning_rate": 1.6658776819528285e-05,
      "loss": 1.4788,
      "step": 80561
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6758159399032593,
      "learning_rate": 1.665534247287329e-05,
      "loss": 1.5673,
      "step": 80562
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6811968684196472,
      "learning_rate": 1.665190847015697e-05,
      "loss": 1.4822,
      "step": 80563
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6817747950553894,
      "learning_rate": 1.6648474811383493e-05,
      "loss": 1.4792,
      "step": 80564
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7346253991127014,
      "learning_rate": 1.6645041496557022e-05,
      "loss": 1.5306,
      "step": 80565
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6884506940841675,
      "learning_rate": 1.6641608525681717e-05,
      "loss": 1.4805,
      "step": 80566
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7061207294464111,
      "learning_rate": 1.6638175898761776e-05,
      "loss": 1.521,
      "step": 80567
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6891434788703918,
      "learning_rate": 1.6634743615801328e-05,
      "loss": 1.5391,
      "step": 80568
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6870573163032532,
      "learning_rate": 1.6631311676804503e-05,
      "loss": 1.553,
      "step": 80569
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6845732927322388,
      "learning_rate": 1.662788008177557e-05,
      "loss": 1.5529,
      "step": 80570
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6681714653968811,
      "learning_rate": 1.6624448830718585e-05,
      "loss": 1.4863,
      "step": 80571
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6756988167762756,
      "learning_rate": 1.6621017923637813e-05,
      "loss": 1.4682,
      "step": 80572
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.687997043132782,
      "learning_rate": 1.6617587360537354e-05,
      "loss": 1.4504,
      "step": 80573
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6776924729347229,
      "learning_rate": 1.661415714142137e-05,
      "loss": 1.5277,
      "step": 80574
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6849074363708496,
      "learning_rate": 1.6610727266294088e-05,
      "loss": 1.5041,
      "step": 80575
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6832616329193115,
      "learning_rate": 1.6607297735159574e-05,
      "loss": 1.5321,
      "step": 80576
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7262083292007446,
      "learning_rate": 1.660386854802209e-05,
      "loss": 1.5045,
      "step": 80577
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6881312727928162,
      "learning_rate": 1.6600439704885705e-05,
      "loss": 1.4995,
      "step": 80578
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6816430687904358,
      "learning_rate": 1.6597011205754675e-05,
      "loss": 1.4916,
      "step": 80579
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6571366190910339,
      "learning_rate": 1.659358305063313e-05,
      "loss": 1.4777,
      "step": 80580
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6859690546989441,
      "learning_rate": 1.659015523952514e-05,
      "loss": 1.5382,
      "step": 80581
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6730123162269592,
      "learning_rate": 1.6586727772435025e-05,
      "loss": 1.4901,
      "step": 80582
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7028781175613403,
      "learning_rate": 1.6583300649366826e-05,
      "loss": 1.528,
      "step": 80583
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6712764501571655,
      "learning_rate": 1.6579873870324734e-05,
      "loss": 1.5535,
      "step": 80584
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6461675763130188,
      "learning_rate": 1.657644743531288e-05,
      "loss": 1.4262,
      "step": 80585
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6790068745613098,
      "learning_rate": 1.6573021344335525e-05,
      "loss": 1.5386,
      "step": 80586
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6475942730903625,
      "learning_rate": 1.6569595597396767e-05,
      "loss": 1.5011,
      "step": 80587
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6790552735328674,
      "learning_rate": 1.6566170194500705e-05,
      "loss": 1.5009,
      "step": 80588
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6979610323905945,
      "learning_rate": 1.65627451356516e-05,
      "loss": 1.4849,
      "step": 80589
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6944335699081421,
      "learning_rate": 1.655932042085355e-05,
      "loss": 1.5373,
      "step": 80590
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6761007905006409,
      "learning_rate": 1.6555896050110684e-05,
      "loss": 1.5376,
      "step": 80591
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.673534095287323,
      "learning_rate": 1.6552472023427198e-05,
      "loss": 1.5166,
      "step": 80592
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6721721291542053,
      "learning_rate": 1.6549048340807293e-05,
      "loss": 1.5295,
      "step": 80593
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6642919182777405,
      "learning_rate": 1.6545625002255057e-05,
      "loss": 1.4796,
      "step": 80594
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6907837986946106,
      "learning_rate": 1.654220200777463e-05,
      "loss": 1.4646,
      "step": 80595
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6628597974777222,
      "learning_rate": 1.653877935737027e-05,
      "loss": 1.4884,
      "step": 80596
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6636536121368408,
      "learning_rate": 1.6535357051046037e-05,
      "loss": 1.4755,
      "step": 80597
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6776906251907349,
      "learning_rate": 1.6531935088806105e-05,
      "loss": 1.5218,
      "step": 80598
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6825273633003235,
      "learning_rate": 1.6528513470654625e-05,
      "loss": 1.504,
      "step": 80599
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6600936651229858,
      "learning_rate": 1.6525092196595836e-05,
      "loss": 1.5028,
      "step": 80600
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6773125529289246,
      "learning_rate": 1.652167126663373e-05,
      "loss": 1.5302,
      "step": 80601
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.708929717540741,
      "learning_rate": 1.651825068077257e-05,
      "loss": 1.503,
      "step": 80602
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6963052153587341,
      "learning_rate": 1.651483043901649e-05,
      "loss": 1.5215,
      "step": 80603
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6818967461585999,
      "learning_rate": 1.6511410541369653e-05,
      "loss": 1.5724,
      "step": 80604
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6610584259033203,
      "learning_rate": 1.650799098783615e-05,
      "loss": 1.4217,
      "step": 80605
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6773993372917175,
      "learning_rate": 1.6504571778420184e-05,
      "loss": 1.5175,
      "step": 80606
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6965616941452026,
      "learning_rate": 1.6501152913125982e-05,
      "loss": 1.6063,
      "step": 80607
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.663406491279602,
      "learning_rate": 1.649773439195754e-05,
      "loss": 1.4697,
      "step": 80608
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6682251691818237,
      "learning_rate": 1.6494316214919058e-05,
      "loss": 1.5457,
      "step": 80609
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6624795794487,
      "learning_rate": 1.649089838201473e-05,
      "loss": 1.4831,
      "step": 80610
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7125442028045654,
      "learning_rate": 1.6487480893248684e-05,
      "loss": 1.5386,
      "step": 80611
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6642122864723206,
      "learning_rate": 1.6484063748625055e-05,
      "loss": 1.5076,
      "step": 80612
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6811920404434204,
      "learning_rate": 1.6480646948147968e-05,
      "loss": 1.4384,
      "step": 80613
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6557886004447937,
      "learning_rate": 1.6477230491821692e-05,
      "loss": 1.4399,
      "step": 80614
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7183482050895691,
      "learning_rate": 1.6473814379650185e-05,
      "loss": 1.5561,
      "step": 80615
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6658893823623657,
      "learning_rate": 1.6470398611637713e-05,
      "loss": 1.483,
      "step": 80616
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6605622172355652,
      "learning_rate": 1.6466983187788407e-05,
      "loss": 1.4531,
      "step": 80617
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6895390748977661,
      "learning_rate": 1.646356810810646e-05,
      "loss": 1.5272,
      "step": 80618
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.672461211681366,
      "learning_rate": 1.6460153372595875e-05,
      "loss": 1.5034,
      "step": 80619
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6913543343544006,
      "learning_rate": 1.6456738981260942e-05,
      "loss": 1.5739,
      "step": 80620
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6727933883666992,
      "learning_rate": 1.6453324934105762e-05,
      "loss": 1.5469,
      "step": 80621
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.656696081161499,
      "learning_rate": 1.6449911231134427e-05,
      "loss": 1.4317,
      "step": 80622
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6513248085975647,
      "learning_rate": 1.6446497872351105e-05,
      "loss": 1.5115,
      "step": 80623
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6894004940986633,
      "learning_rate": 1.6443084857760025e-05,
      "loss": 1.4928,
      "step": 80624
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6737208962440491,
      "learning_rate": 1.6439672187365217e-05,
      "loss": 1.504,
      "step": 80625
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6692698001861572,
      "learning_rate": 1.643625986117084e-05,
      "loss": 1.4603,
      "step": 80626
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6814681887626648,
      "learning_rate": 1.6432847879181132e-05,
      "loss": 1.5761,
      "step": 80627
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6696772575378418,
      "learning_rate": 1.6429436241400152e-05,
      "loss": 1.4598,
      "step": 80628
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6798294186592102,
      "learning_rate": 1.6426024947831996e-05,
      "loss": 1.5271,
      "step": 80629
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7032586336135864,
      "learning_rate": 1.6422613998480893e-05,
      "loss": 1.5183,
      "step": 80630
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6866233348846436,
      "learning_rate": 1.6419203393350942e-05,
      "loss": 1.5428,
      "step": 80631
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6798505187034607,
      "learning_rate": 1.641579313244634e-05,
      "loss": 1.4795,
      "step": 80632
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6625139713287354,
      "learning_rate": 1.641238321577112e-05,
      "loss": 1.452,
      "step": 80633
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6918030977249146,
      "learning_rate": 1.6408973643329537e-05,
      "loss": 1.4938,
      "step": 80634
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6688191294670105,
      "learning_rate": 1.640556441512566e-05,
      "loss": 1.538,
      "step": 80635
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6810081005096436,
      "learning_rate": 1.6402155531163584e-05,
      "loss": 1.4906,
      "step": 80636
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6791829466819763,
      "learning_rate": 1.6398746991447574e-05,
      "loss": 1.4502,
      "step": 80637
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6826395988464355,
      "learning_rate": 1.639533879598166e-05,
      "loss": 1.5293,
      "step": 80638
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6808999180793762,
      "learning_rate": 1.639193094477007e-05,
      "loss": 1.4884,
      "step": 80639
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6922060251235962,
      "learning_rate": 1.638852343781687e-05,
      "loss": 1.5789,
      "step": 80640
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.668310821056366,
      "learning_rate": 1.6385116275126154e-05,
      "loss": 1.5137,
      "step": 80641
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6774593591690063,
      "learning_rate": 1.6381709456702185e-05,
      "loss": 1.5183,
      "step": 80642
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6553303599357605,
      "learning_rate": 1.6378302982548997e-05,
      "loss": 1.4345,
      "step": 80643
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6874143481254578,
      "learning_rate": 1.6374896852670782e-05,
      "loss": 1.4882,
      "step": 80644
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6544195413589478,
      "learning_rate": 1.6371491067071605e-05,
      "loss": 1.4867,
      "step": 80645
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.686774730682373,
      "learning_rate": 1.63680856257557e-05,
      "loss": 1.5381,
      "step": 80646
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6795427203178406,
      "learning_rate": 1.636468052872716e-05,
      "loss": 1.532,
      "step": 80647
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6810574531555176,
      "learning_rate": 1.6361275775990045e-05,
      "loss": 1.4679,
      "step": 80648
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6815693974494934,
      "learning_rate": 1.635787136754859e-05,
      "loss": 1.5593,
      "step": 80649
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.67038893699646,
      "learning_rate": 1.6354467303406894e-05,
      "loss": 1.4997,
      "step": 80650
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6953328847885132,
      "learning_rate": 1.6351063583569047e-05,
      "loss": 1.5371,
      "step": 80651
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6739987134933472,
      "learning_rate": 1.6347660208039217e-05,
      "loss": 1.4756,
      "step": 80652
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6732324361801147,
      "learning_rate": 1.634425717682156e-05,
      "loss": 1.5119,
      "step": 80653
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6801067590713501,
      "learning_rate": 1.6340854489920186e-05,
      "loss": 1.5142,
      "step": 80654
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6705044507980347,
      "learning_rate": 1.633745214733918e-05,
      "loss": 1.4963,
      "step": 80655
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6919087767601013,
      "learning_rate": 1.6334050149082745e-05,
      "loss": 1.5612,
      "step": 80656
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6753568649291992,
      "learning_rate": 1.6330648495154973e-05,
      "loss": 1.5812,
      "step": 80657
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6947308778762817,
      "learning_rate": 1.6327247185559966e-05,
      "loss": 1.5133,
      "step": 80658
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6710390448570251,
      "learning_rate": 1.6323846220301882e-05,
      "loss": 1.4919,
      "step": 80659
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6840051412582397,
      "learning_rate": 1.6320445599384956e-05,
      "loss": 1.4313,
      "step": 80660
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6852264404296875,
      "learning_rate": 1.6317045322813082e-05,
      "loss": 1.4399,
      "step": 80661
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6636934876441956,
      "learning_rate": 1.6313645390590557e-05,
      "loss": 1.509,
      "step": 80662
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6730526685714722,
      "learning_rate": 1.6310245802721477e-05,
      "loss": 1.4942,
      "step": 80663
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6725262999534607,
      "learning_rate": 1.6306846559210007e-05,
      "loss": 1.4868,
      "step": 80664
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.685685396194458,
      "learning_rate": 1.6303447660060144e-05,
      "loss": 1.5289,
      "step": 80665
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6596347093582153,
      "learning_rate": 1.6300049105276082e-05,
      "loss": 1.4721,
      "step": 80666
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.671416699886322,
      "learning_rate": 1.6296650894862085e-05,
      "loss": 1.5468,
      "step": 80667
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7198570370674133,
      "learning_rate": 1.629325302882205e-05,
      "loss": 1.5087,
      "step": 80668
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6655980348587036,
      "learning_rate": 1.6289855507160176e-05,
      "loss": 1.4881,
      "step": 80669
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6647734045982361,
      "learning_rate": 1.628645832988069e-05,
      "loss": 1.5169,
      "step": 80670
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6803275346755981,
      "learning_rate": 1.6283061496987627e-05,
      "loss": 1.4936,
      "step": 80671
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6719837188720703,
      "learning_rate": 1.6279665008485078e-05,
      "loss": 1.4732,
      "step": 80672
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7009980082511902,
      "learning_rate": 1.627626886437724e-05,
      "loss": 1.5417,
      "step": 80673
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6513060331344604,
      "learning_rate": 1.6272873064668212e-05,
      "loss": 1.5263,
      "step": 80674
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6647875905036926,
      "learning_rate": 1.6269477609362124e-05,
      "loss": 1.4945,
      "step": 80675
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7079119086265564,
      "learning_rate": 1.626608249846304e-05,
      "loss": 1.5438,
      "step": 80676
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6616994142532349,
      "learning_rate": 1.6262687731975187e-05,
      "loss": 1.5649,
      "step": 80677
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.651224672794342,
      "learning_rate": 1.62592933099026e-05,
      "loss": 1.4705,
      "step": 80678
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6960934996604919,
      "learning_rate": 1.6255899232249402e-05,
      "loss": 1.5179,
      "step": 80679
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6672382950782776,
      "learning_rate": 1.6252505499019765e-05,
      "loss": 1.4649,
      "step": 80680
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6718294620513916,
      "learning_rate": 1.6249112110217743e-05,
      "loss": 1.4637,
      "step": 80681
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6936121582984924,
      "learning_rate": 1.6245719065847506e-05,
      "loss": 1.5519,
      "step": 80682
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6900554895401001,
      "learning_rate": 1.624232636591315e-05,
      "loss": 1.5745,
      "step": 80683
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6989796161651611,
      "learning_rate": 1.6238934010418835e-05,
      "loss": 1.5347,
      "step": 80684
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6854785084724426,
      "learning_rate": 1.6235541999368627e-05,
      "loss": 1.4524,
      "step": 80685
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6552125811576843,
      "learning_rate": 1.6232150332766624e-05,
      "loss": 1.5234,
      "step": 80686
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6768532991409302,
      "learning_rate": 1.622875901061702e-05,
      "loss": 1.5204,
      "step": 80687
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.66156005859375,
      "learning_rate": 1.622536803292388e-05,
      "loss": 1.489,
      "step": 80688
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6779066920280457,
      "learning_rate": 1.6221977399691333e-05,
      "loss": 1.4242,
      "step": 80689
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6661389470100403,
      "learning_rate": 1.621858711092351e-05,
      "loss": 1.4954,
      "step": 80690
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6621229648590088,
      "learning_rate": 1.621519716662447e-05,
      "loss": 1.5324,
      "step": 80691
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6868515610694885,
      "learning_rate": 1.6211807566798384e-05,
      "loss": 1.5585,
      "step": 80692
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6867896318435669,
      "learning_rate": 1.6208418311449344e-05,
      "loss": 1.5265,
      "step": 80693
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.7054018378257751,
      "learning_rate": 1.6205029400581482e-05,
      "loss": 1.5632,
      "step": 80694
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6687901020050049,
      "learning_rate": 1.620164083419886e-05,
      "loss": 1.4875,
      "step": 80695
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6604325175285339,
      "learning_rate": 1.6198252612305673e-05,
      "loss": 1.487,
      "step": 80696
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6798502206802368,
      "learning_rate": 1.619486473490602e-05,
      "loss": 1.4808,
      "step": 80697
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6735069751739502,
      "learning_rate": 1.61914772020039e-05,
      "loss": 1.473,
      "step": 80698
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6843677759170532,
      "learning_rate": 1.618809001360357e-05,
      "loss": 1.6088,
      "step": 80699
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6878809332847595,
      "learning_rate": 1.61847031697091e-05,
      "loss": 1.5027,
      "step": 80700
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6709403991699219,
      "learning_rate": 1.6181316670324518e-05,
      "loss": 1.49,
      "step": 80701
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6617803573608398,
      "learning_rate": 1.6177930515454018e-05,
      "loss": 1.5472,
      "step": 80702
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6740015149116516,
      "learning_rate": 1.61745447051017e-05,
      "loss": 1.5322,
      "step": 80703
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6629984974861145,
      "learning_rate": 1.6171159239271693e-05,
      "loss": 1.5447,
      "step": 80704
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6522144675254822,
      "learning_rate": 1.6167774117968024e-05,
      "loss": 1.5239,
      "step": 80705
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6625227928161621,
      "learning_rate": 1.6164389341194928e-05,
      "loss": 1.4916,
      "step": 80706
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6772990226745605,
      "learning_rate": 1.61610049089564e-05,
      "loss": 1.4604,
      "step": 80707
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6622679829597473,
      "learning_rate": 1.6157620821256566e-05,
      "loss": 1.4321,
      "step": 80708
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6599816083908081,
      "learning_rate": 1.6154237078099565e-05,
      "loss": 1.5,
      "step": 80709
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6954109072685242,
      "learning_rate": 1.6150853679489518e-05,
      "loss": 1.5683,
      "step": 80710
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6879456043243408,
      "learning_rate": 1.6147470625430526e-05,
      "loss": 1.4938,
      "step": 80711
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6718157529830933,
      "learning_rate": 1.614408791592665e-05,
      "loss": 1.5231,
      "step": 80712
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6731088757514954,
      "learning_rate": 1.6140705550982057e-05,
      "loss": 1.5211,
      "step": 80713
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6783543825149536,
      "learning_rate": 1.613732353060081e-05,
      "loss": 1.5791,
      "step": 80714
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6840819716453552,
      "learning_rate": 1.6133941854787002e-05,
      "loss": 1.5859,
      "step": 80715
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6948661804199219,
      "learning_rate": 1.6130560523544768e-05,
      "loss": 1.5365,
      "step": 80716
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6872064471244812,
      "learning_rate": 1.6127179536878264e-05,
      "loss": 1.5803,
      "step": 80717
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6788771152496338,
      "learning_rate": 1.6123798894791495e-05,
      "loss": 1.5023,
      "step": 80718
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6926390528678894,
      "learning_rate": 1.6120418597288588e-05,
      "loss": 1.5499,
      "step": 80719
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7017730474472046,
      "learning_rate": 1.611703864437367e-05,
      "loss": 1.4714,
      "step": 80720
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6759724617004395,
      "learning_rate": 1.6113659036050873e-05,
      "loss": 1.5618,
      "step": 80721
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7187210321426392,
      "learning_rate": 1.611027977232423e-05,
      "loss": 1.4679,
      "step": 80722
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6820310950279236,
      "learning_rate": 1.610690085319787e-05,
      "loss": 1.5298,
      "step": 80723
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6590200662612915,
      "learning_rate": 1.6103522278675984e-05,
      "loss": 1.4483,
      "step": 80724
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6841391921043396,
      "learning_rate": 1.610014404876251e-05,
      "loss": 1.5606,
      "step": 80725
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6849435567855835,
      "learning_rate": 1.609676616346164e-05,
      "loss": 1.5408,
      "step": 80726
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6864959001541138,
      "learning_rate": 1.6093388622777503e-05,
      "loss": 1.5124,
      "step": 80727
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6810444593429565,
      "learning_rate": 1.6090011426714166e-05,
      "loss": 1.5355,
      "step": 80728
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6726922392845154,
      "learning_rate": 1.608663457527566e-05,
      "loss": 1.4673,
      "step": 80729
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6837233304977417,
      "learning_rate": 1.608325806846614e-05,
      "loss": 1.5011,
      "step": 80730
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6766378879547119,
      "learning_rate": 1.6079881906289817e-05,
      "loss": 1.4877,
      "step": 80731
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6938965916633606,
      "learning_rate": 1.607650608875061e-05,
      "loss": 1.4809,
      "step": 80732
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6799415946006775,
      "learning_rate": 1.607313061585268e-05,
      "loss": 1.5336,
      "step": 80733
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.667564332485199,
      "learning_rate": 1.6069755487600168e-05,
      "loss": 1.453,
      "step": 80734
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6643325686454773,
      "learning_rate": 1.6066380703997127e-05,
      "loss": 1.5026,
      "step": 80735
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6645448803901672,
      "learning_rate": 1.606300626504763e-05,
      "loss": 1.5406,
      "step": 80736
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6800918579101562,
      "learning_rate": 1.6059632170755864e-05,
      "loss": 1.4958,
      "step": 80737
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7132353782653809,
      "learning_rate": 1.6056258421125868e-05,
      "loss": 1.5165,
      "step": 80738
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6471425890922546,
      "learning_rate": 1.60528850161617e-05,
      "loss": 1.5181,
      "step": 80739
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6543146967887878,
      "learning_rate": 1.6049511955867455e-05,
      "loss": 1.4434,
      "step": 80740
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6589834690093994,
      "learning_rate": 1.6046139240247335e-05,
      "loss": 1.4758,
      "step": 80741
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6698927283287048,
      "learning_rate": 1.604276686930537e-05,
      "loss": 1.5305,
      "step": 80742
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6707953810691833,
      "learning_rate": 1.603939484304558e-05,
      "loss": 1.5106,
      "step": 80743
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6754072308540344,
      "learning_rate": 1.6036023161472178e-05,
      "loss": 1.5122,
      "step": 80744
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6719304919242859,
      "learning_rate": 1.6032651824589216e-05,
      "loss": 1.5242,
      "step": 80745
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6769492030143738,
      "learning_rate": 1.6029280832400725e-05,
      "loss": 1.5637,
      "step": 80746
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6699158549308777,
      "learning_rate": 1.6025910184910873e-05,
      "loss": 1.5061,
      "step": 80747
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6720095276832581,
      "learning_rate": 1.602253988212372e-05,
      "loss": 1.475,
      "step": 80748
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6736111640930176,
      "learning_rate": 1.6019169924043363e-05,
      "loss": 1.4968,
      "step": 80749
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6746389865875244,
      "learning_rate": 1.6015800310673867e-05,
      "loss": 1.4626,
      "step": 80750
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6851540803909302,
      "learning_rate": 1.601243104201939e-05,
      "loss": 1.5933,
      "step": 80751
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6834211945533752,
      "learning_rate": 1.600906211808397e-05,
      "loss": 1.504,
      "step": 80752
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6909754872322083,
      "learning_rate": 1.6005693538871667e-05,
      "loss": 1.5127,
      "step": 80753
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.662697970867157,
      "learning_rate": 1.6002325304386642e-05,
      "loss": 1.5575,
      "step": 80754
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6708506345748901,
      "learning_rate": 1.599895741463293e-05,
      "loss": 1.4784,
      "step": 80755
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.701099157333374,
      "learning_rate": 1.5995589869614656e-05,
      "loss": 1.562,
      "step": 80756
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6566697359085083,
      "learning_rate": 1.599222266933592e-05,
      "loss": 1.5583,
      "step": 80757
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6726129651069641,
      "learning_rate": 1.5988855813800683e-05,
      "loss": 1.5149,
      "step": 80758
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6790474057197571,
      "learning_rate": 1.598548930301321e-05,
      "loss": 1.4865,
      "step": 80759
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6800605654716492,
      "learning_rate": 1.5982123136977466e-05,
      "loss": 1.5478,
      "step": 80760
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6900017857551575,
      "learning_rate": 1.5978757315697612e-05,
      "loss": 1.4614,
      "step": 80761
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7225537896156311,
      "learning_rate": 1.5975391839177643e-05,
      "loss": 1.5117,
      "step": 80762
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.675882875919342,
      "learning_rate": 1.5972026707421758e-05,
      "loss": 1.5172,
      "step": 80763
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6571791768074036,
      "learning_rate": 1.5968661920433954e-05,
      "loss": 1.501,
      "step": 80764
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.673891544342041,
      "learning_rate": 1.5965297478218332e-05,
      "loss": 1.4717,
      "step": 80765
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6928864121437073,
      "learning_rate": 1.5961933380779014e-05,
      "loss": 1.4775,
      "step": 80766
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6611216068267822,
      "learning_rate": 1.5958569628120066e-05,
      "loss": 1.4907,
      "step": 80767
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6717522740364075,
      "learning_rate": 1.595520622024552e-05,
      "loss": 1.5396,
      "step": 80768
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6949990391731262,
      "learning_rate": 1.5951843157159506e-05,
      "loss": 1.4772,
      "step": 80769
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.668258786201477,
      "learning_rate": 1.594848043886615e-05,
      "loss": 1.6151,
      "step": 80770
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6717685461044312,
      "learning_rate": 1.594511806536949e-05,
      "loss": 1.4512,
      "step": 80771
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6839864253997803,
      "learning_rate": 1.594175603667355e-05,
      "loss": 1.5294,
      "step": 80772
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6719641089439392,
      "learning_rate": 1.593839435278249e-05,
      "loss": 1.4598,
      "step": 80773
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.677047848701477,
      "learning_rate": 1.593503301370038e-05,
      "loss": 1.4503,
      "step": 80774
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.695138692855835,
      "learning_rate": 1.5931672019431253e-05,
      "loss": 1.5318,
      "step": 80775
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6834420561790466,
      "learning_rate": 1.5928311369979195e-05,
      "loss": 1.5829,
      "step": 80776
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6702862977981567,
      "learning_rate": 1.5924951065348412e-05,
      "loss": 1.5485,
      "step": 80777
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6657800674438477,
      "learning_rate": 1.5921591105542798e-05,
      "loss": 1.5375,
      "step": 80778
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.677476704120636,
      "learning_rate": 1.5918231490566512e-05,
      "loss": 1.5463,
      "step": 80779
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6838027834892273,
      "learning_rate": 1.5914872220423657e-05,
      "loss": 1.6306,
      "step": 80780
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7096954584121704,
      "learning_rate": 1.5911513295118328e-05,
      "loss": 1.5034,
      "step": 80781
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.676559329032898,
      "learning_rate": 1.5908154714654487e-05,
      "loss": 1.5857,
      "step": 80782
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6715185642242432,
      "learning_rate": 1.5904796479036298e-05,
      "loss": 1.5694,
      "step": 80783
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6593347787857056,
      "learning_rate": 1.590143858826789e-05,
      "loss": 1.4176,
      "step": 80784
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7034298181533813,
      "learning_rate": 1.589808104235326e-05,
      "loss": 1.5148,
      "step": 80785
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6497423648834229,
      "learning_rate": 1.5894723841296442e-05,
      "loss": 1.4271,
      "step": 80786
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.69267737865448,
      "learning_rate": 1.5891366985101627e-05,
      "loss": 1.5701,
      "step": 80787
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.695564866065979,
      "learning_rate": 1.588801047377285e-05,
      "loss": 1.5844,
      "step": 80788
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6792784333229065,
      "learning_rate": 1.5884654307314105e-05,
      "loss": 1.4688,
      "step": 80789
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6831011176109314,
      "learning_rate": 1.588129848572952e-05,
      "loss": 1.5656,
      "step": 80790
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7048050165176392,
      "learning_rate": 1.5877943009023232e-05,
      "loss": 1.465,
      "step": 80791
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6915041208267212,
      "learning_rate": 1.587458787719923e-05,
      "loss": 1.5311,
      "step": 80792
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6687734723091125,
      "learning_rate": 1.587123309026158e-05,
      "loss": 1.4588,
      "step": 80793
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6707484126091003,
      "learning_rate": 1.586787864821445e-05,
      "loss": 1.4367,
      "step": 80794
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6670194268226624,
      "learning_rate": 1.5864524551061864e-05,
      "loss": 1.5394,
      "step": 80795
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6685698628425598,
      "learning_rate": 1.5861170798807788e-05,
      "loss": 1.5292,
      "step": 80796
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.69176185131073,
      "learning_rate": 1.5857817391456486e-05,
      "loss": 1.4757,
      "step": 80797
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6719478964805603,
      "learning_rate": 1.5854464329011853e-05,
      "loss": 1.5022,
      "step": 80798
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6781305074691772,
      "learning_rate": 1.585111161147805e-05,
      "loss": 1.5376,
      "step": 80799
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6864827275276184,
      "learning_rate": 1.5847759238859116e-05,
      "loss": 1.5063,
      "step": 80800
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6675695180892944,
      "learning_rate": 1.584440721115917e-05,
      "loss": 1.5544,
      "step": 80801
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6809929609298706,
      "learning_rate": 1.5841055528382253e-05,
      "loss": 1.4462,
      "step": 80802
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6652839183807373,
      "learning_rate": 1.5837704190532384e-05,
      "loss": 1.468,
      "step": 80803
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7122203707695007,
      "learning_rate": 1.5834353197613735e-05,
      "loss": 1.6121,
      "step": 80804
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6621080636978149,
      "learning_rate": 1.5831002549630234e-05,
      "loss": 1.4922,
      "step": 80805
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6960572004318237,
      "learning_rate": 1.5827652246586076e-05,
      "loss": 1.543,
      "step": 80806
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7167708277702332,
      "learning_rate": 1.5824302288485292e-05,
      "loss": 1.4868,
      "step": 80807
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6685594916343689,
      "learning_rate": 1.5820952675331876e-05,
      "loss": 1.5399,
      "step": 80808
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6982136964797974,
      "learning_rate": 1.581760340713e-05,
      "loss": 1.4915,
      "step": 80809
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.697664737701416,
      "learning_rate": 1.5814254483883647e-05,
      "loss": 1.4864,
      "step": 80810
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.680146336555481,
      "learning_rate": 1.5810905905596926e-05,
      "loss": 1.4812,
      "step": 80811
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6569466590881348,
      "learning_rate": 1.5807557672273896e-05,
      "loss": 1.5211,
      "step": 80812
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6723323464393616,
      "learning_rate": 1.580420978391862e-05,
      "loss": 1.5095,
      "step": 80813
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6894248127937317,
      "learning_rate": 1.5800862240535194e-05,
      "loss": 1.5039,
      "step": 80814
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6786859631538391,
      "learning_rate": 1.5797515042127584e-05,
      "loss": 1.523,
      "step": 80815
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6883098483085632,
      "learning_rate": 1.579416818869995e-05,
      "loss": 1.448,
      "step": 80816
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6715921759605408,
      "learning_rate": 1.5790821680256326e-05,
      "loss": 1.4929,
      "step": 80817
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6854321360588074,
      "learning_rate": 1.578747551680074e-05,
      "loss": 1.4899,
      "step": 80818
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6734005808830261,
      "learning_rate": 1.5784129698337255e-05,
      "loss": 1.5011,
      "step": 80819
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6757284998893738,
      "learning_rate": 1.5780784224870035e-05,
      "loss": 1.5025,
      "step": 80820
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6844826936721802,
      "learning_rate": 1.5777439096403045e-05,
      "loss": 1.523,
      "step": 80821
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7104232311248779,
      "learning_rate": 1.5774094312940312e-05,
      "loss": 1.4352,
      "step": 80822
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7055395841598511,
      "learning_rate": 1.5770749874486e-05,
      "loss": 1.491,
      "step": 80823
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6625780463218689,
      "learning_rate": 1.576740578104414e-05,
      "loss": 1.5476,
      "step": 80824
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6957314014434814,
      "learning_rate": 1.5764062032618696e-05,
      "loss": 1.4314,
      "step": 80825
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6703848242759705,
      "learning_rate": 1.576071862921383e-05,
      "loss": 1.5267,
      "step": 80826
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.671987771987915,
      "learning_rate": 1.5757375570833607e-05,
      "loss": 1.4595,
      "step": 80827
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.685806930065155,
      "learning_rate": 1.5754032857482023e-05,
      "loss": 1.498,
      "step": 80828
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6689686179161072,
      "learning_rate": 1.5750690489163144e-05,
      "loss": 1.4956,
      "step": 80829
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6509907841682434,
      "learning_rate": 1.5747348465881093e-05,
      "loss": 1.4699,
      "step": 80830
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7004685401916504,
      "learning_rate": 1.5744006787639875e-05,
      "loss": 1.5802,
      "step": 80831
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6596381068229675,
      "learning_rate": 1.574066545444348e-05,
      "loss": 1.5344,
      "step": 80832
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6879920959472656,
      "learning_rate": 1.573732446629604e-05,
      "loss": 1.5587,
      "step": 80833
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.675386369228363,
      "learning_rate": 1.5733983823201725e-05,
      "loss": 1.4567,
      "step": 80834
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6747640371322632,
      "learning_rate": 1.5730643525164353e-05,
      "loss": 1.4962,
      "step": 80835
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6643324494361877,
      "learning_rate": 1.57273035721881e-05,
      "loss": 1.5045,
      "step": 80836
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.673123836517334,
      "learning_rate": 1.572396396427705e-05,
      "loss": 1.4912,
      "step": 80837
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6853832006454468,
      "learning_rate": 1.5720624701435247e-05,
      "loss": 1.5113,
      "step": 80838
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.681130588054657,
      "learning_rate": 1.5717285783666645e-05,
      "loss": 1.4927,
      "step": 80839
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6861521005630493,
      "learning_rate": 1.571394721097541e-05,
      "loss": 1.5015,
      "step": 80840
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6890438199043274,
      "learning_rate": 1.5710608983365604e-05,
      "loss": 1.5379,
      "step": 80841
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6572142839431763,
      "learning_rate": 1.5707271100841158e-05,
      "loss": 1.4599,
      "step": 80842
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.650124192237854,
      "learning_rate": 1.5703933563406202e-05,
      "loss": 1.5287,
      "step": 80843
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6865646243095398,
      "learning_rate": 1.57005963710648e-05,
      "loss": 1.4991,
      "step": 80844
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6605008244514465,
      "learning_rate": 1.5697259523821015e-05,
      "loss": 1.5417,
      "step": 80845
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6974464654922485,
      "learning_rate": 1.569392302167881e-05,
      "loss": 1.4919,
      "step": 80846
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6664380431175232,
      "learning_rate": 1.5690586864642285e-05,
      "loss": 1.4533,
      "step": 80847
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6825799345970154,
      "learning_rate": 1.5687251052715598e-05,
      "loss": 1.4912,
      "step": 80848
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6746185421943665,
      "learning_rate": 1.568391558590262e-05,
      "loss": 1.5548,
      "step": 80849
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6581470966339111,
      "learning_rate": 1.5680580464207437e-05,
      "loss": 1.5514,
      "step": 80850
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6835536360740662,
      "learning_rate": 1.567724568763422e-05,
      "loss": 1.519,
      "step": 80851
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.656339704990387,
      "learning_rate": 1.56739112561869e-05,
      "loss": 1.4868,
      "step": 80852
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6712319254875183,
      "learning_rate": 1.5670577169869536e-05,
      "loss": 1.511,
      "step": 80853
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6904016137123108,
      "learning_rate": 1.566724342868626e-05,
      "loss": 1.4596,
      "step": 80854
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6682789325714111,
      "learning_rate": 1.5663910032641002e-05,
      "loss": 1.5063,
      "step": 80855
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.669459342956543,
      "learning_rate": 1.566057698173786e-05,
      "loss": 1.5137,
      "step": 80856
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7053812146186829,
      "learning_rate": 1.5657244275980895e-05,
      "loss": 1.5271,
      "step": 80857
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.670461893081665,
      "learning_rate": 1.565391191537414e-05,
      "loss": 1.642,
      "step": 80858
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6551887392997742,
      "learning_rate": 1.5650579899921655e-05,
      "loss": 1.4419,
      "step": 80859
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6647078990936279,
      "learning_rate": 1.564724822962744e-05,
      "loss": 1.506,
      "step": 80860
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6536992788314819,
      "learning_rate": 1.564391690449559e-05,
      "loss": 1.4943,
      "step": 80861
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6717647314071655,
      "learning_rate": 1.5640585924530136e-05,
      "loss": 1.5487,
      "step": 80862
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6841365098953247,
      "learning_rate": 1.5637255289735074e-05,
      "loss": 1.5531,
      "step": 80863
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6789838671684265,
      "learning_rate": 1.5633925000114534e-05,
      "loss": 1.4592,
      "step": 80864
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6838598251342773,
      "learning_rate": 1.563059505567248e-05,
      "loss": 1.4699,
      "step": 80865
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6700083613395691,
      "learning_rate": 1.5627265456412973e-05,
      "loss": 1.5621,
      "step": 80866
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6959661841392517,
      "learning_rate": 1.562393620234008e-05,
      "loss": 1.5654,
      "step": 80867
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6807034015655518,
      "learning_rate": 1.562060729345783e-05,
      "loss": 1.5365,
      "step": 80868
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6690247058868408,
      "learning_rate": 1.561727872977029e-05,
      "loss": 1.4827,
      "step": 80869
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6688089966773987,
      "learning_rate": 1.5613950511281416e-05,
      "loss": 1.5033,
      "step": 80870
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6680238842964172,
      "learning_rate": 1.561062263799534e-05,
      "loss": 1.4811,
      "step": 80871
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.703644335269928,
      "learning_rate": 1.560729510991603e-05,
      "loss": 1.5292,
      "step": 80872
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6536920070648193,
      "learning_rate": 1.560396792704761e-05,
      "loss": 1.4412,
      "step": 80873
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6736946702003479,
      "learning_rate": 1.560064108939405e-05,
      "loss": 1.4718,
      "step": 80874
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6709495186805725,
      "learning_rate": 1.5597314596959377e-05,
      "loss": 1.4888,
      "step": 80875
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7258931994438171,
      "learning_rate": 1.5593988449747685e-05,
      "loss": 1.4417,
      "step": 80876
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6626966595649719,
      "learning_rate": 1.5590662647762974e-05,
      "loss": 1.463,
      "step": 80877
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6736031770706177,
      "learning_rate": 1.5587337191009308e-05,
      "loss": 1.4701,
      "step": 80878
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6562386751174927,
      "learning_rate": 1.5584012079490682e-05,
      "loss": 1.5492,
      "step": 80879
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6773058772087097,
      "learning_rate": 1.5580687313211194e-05,
      "loss": 1.5874,
      "step": 80880
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6877265572547913,
      "learning_rate": 1.557736289217487e-05,
      "loss": 1.5222,
      "step": 80881
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6789357662200928,
      "learning_rate": 1.5574038816385646e-05,
      "loss": 1.5298,
      "step": 80882
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6719968318939209,
      "learning_rate": 1.5570715085847685e-05,
      "loss": 1.5201,
      "step": 80883
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6715331673622131,
      "learning_rate": 1.5567391700564947e-05,
      "loss": 1.5149,
      "step": 80884
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6593605279922485,
      "learning_rate": 1.556406866054146e-05,
      "loss": 1.5037,
      "step": 80885
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6683531403541565,
      "learning_rate": 1.5560745965781296e-05,
      "loss": 1.4839,
      "step": 80886
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6889218688011169,
      "learning_rate": 1.5557423616288512e-05,
      "loss": 1.4569,
      "step": 80887
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6952276229858398,
      "learning_rate": 1.5554101612067106e-05,
      "loss": 1.53,
      "step": 80888
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6655614376068115,
      "learning_rate": 1.5550779953121072e-05,
      "loss": 1.4701,
      "step": 80889
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6746839284896851,
      "learning_rate": 1.5547458639454515e-05,
      "loss": 1.5206,
      "step": 80890
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6884182095527649,
      "learning_rate": 1.554413767107142e-05,
      "loss": 1.6304,
      "step": 80891
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6505095958709717,
      "learning_rate": 1.5540817047975796e-05,
      "loss": 1.5084,
      "step": 80892
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.676949143409729,
      "learning_rate": 1.5537496770171698e-05,
      "loss": 1.6301,
      "step": 80893
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6794995069503784,
      "learning_rate": 1.553417683766326e-05,
      "loss": 1.5765,
      "step": 80894
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6727522015571594,
      "learning_rate": 1.5530857250454344e-05,
      "loss": 1.5176,
      "step": 80895
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7055984139442444,
      "learning_rate": 1.5527538008549013e-05,
      "loss": 1.5424,
      "step": 80896
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6341536641120911,
      "learning_rate": 1.552421911195143e-05,
      "loss": 1.4758,
      "step": 80897
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6909326314926147,
      "learning_rate": 1.5520900560665496e-05,
      "loss": 1.5012,
      "step": 80898
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6624940633773804,
      "learning_rate": 1.5517582354695236e-05,
      "loss": 1.5469,
      "step": 80899
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6961981058120728,
      "learning_rate": 1.5514264494044716e-05,
      "loss": 1.5071,
      "step": 80900
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6635618209838867,
      "learning_rate": 1.5510946978718e-05,
      "loss": 1.4851,
      "step": 80901
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6508503556251526,
      "learning_rate": 1.550762980871908e-05,
      "loss": 1.4649,
      "step": 80902
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6689316034317017,
      "learning_rate": 1.5504312984051957e-05,
      "loss": 1.4878,
      "step": 80903
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7075207233428955,
      "learning_rate": 1.5500996504720697e-05,
      "loss": 1.5228,
      "step": 80904
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6678717732429504,
      "learning_rate": 1.5497680370729293e-05,
      "loss": 1.6027,
      "step": 80905
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6513680815696716,
      "learning_rate": 1.5494364582081777e-05,
      "loss": 1.4815,
      "step": 80906
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6758285760879517,
      "learning_rate": 1.5491049138782173e-05,
      "loss": 1.5501,
      "step": 80907
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6956362724304199,
      "learning_rate": 1.5487734040834554e-05,
      "loss": 1.4651,
      "step": 80908
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6692845225334167,
      "learning_rate": 1.5484419288242912e-05,
      "loss": 1.5034,
      "step": 80909
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7020034193992615,
      "learning_rate": 1.5481104881011207e-05,
      "loss": 1.4781,
      "step": 80910
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7034987807273865,
      "learning_rate": 1.5477790819143576e-05,
      "loss": 1.6018,
      "step": 80911
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6715005040168762,
      "learning_rate": 1.5474477102643977e-05,
      "loss": 1.4948,
      "step": 80912
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6757060289382935,
      "learning_rate": 1.547116373151641e-05,
      "loss": 1.4944,
      "step": 80913
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6775643825531006,
      "learning_rate": 1.546785070576494e-05,
      "loss": 1.503,
      "step": 80914
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6514711976051331,
      "learning_rate": 1.5464538025393558e-05,
      "loss": 1.5508,
      "step": 80915
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6525999307632446,
      "learning_rate": 1.5461225690406332e-05,
      "loss": 1.4223,
      "step": 80916
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6672424674034119,
      "learning_rate": 1.5457913700807222e-05,
      "loss": 1.5005,
      "step": 80917
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6747716069221497,
      "learning_rate": 1.545460205660033e-05,
      "loss": 1.411,
      "step": 80918
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6698973774909973,
      "learning_rate": 1.5451290757789615e-05,
      "loss": 1.5181,
      "step": 80919
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6753681302070618,
      "learning_rate": 1.544797980437904e-05,
      "loss": 1.5344,
      "step": 80920
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6637864112854004,
      "learning_rate": 1.544466919637277e-05,
      "loss": 1.528,
      "step": 80921
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6611490249633789,
      "learning_rate": 1.5441358933774674e-05,
      "loss": 1.5583,
      "step": 80922
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.657289445400238,
      "learning_rate": 1.5438049016588904e-05,
      "loss": 1.5188,
      "step": 80923
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6822161078453064,
      "learning_rate": 1.54347394448194e-05,
      "loss": 1.4957,
      "step": 80924
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6909852623939514,
      "learning_rate": 1.5431430218470154e-05,
      "loss": 1.5931,
      "step": 80925
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6765422821044922,
      "learning_rate": 1.5428121337545262e-05,
      "loss": 1.4874,
      "step": 80926
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6726881861686707,
      "learning_rate": 1.542481280204866e-05,
      "loss": 1.5096,
      "step": 80927
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6701318025588989,
      "learning_rate": 1.542150461198447e-05,
      "loss": 1.4869,
      "step": 80928
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6828318238258362,
      "learning_rate": 1.5418196767356563e-05,
      "loss": 1.508,
      "step": 80929
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.69166100025177,
      "learning_rate": 1.5414889268169097e-05,
      "loss": 1.5408,
      "step": 80930
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6626788973808289,
      "learning_rate": 1.5411582114426034e-05,
      "loss": 1.5557,
      "step": 80931
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6849830746650696,
      "learning_rate": 1.540827530613131e-05,
      "loss": 1.5432,
      "step": 80932
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6539963483810425,
      "learning_rate": 1.540496884328909e-05,
      "loss": 1.4934,
      "step": 80933
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7093280553817749,
      "learning_rate": 1.5401662725903263e-05,
      "loss": 1.4758,
      "step": 80934
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6728019118309021,
      "learning_rate": 1.5398356953977865e-05,
      "loss": 1.5453,
      "step": 80935
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6796432733535767,
      "learning_rate": 1.539505152751692e-05,
      "loss": 1.4349,
      "step": 80936
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6769800782203674,
      "learning_rate": 1.5391746446524466e-05,
      "loss": 1.4866,
      "step": 80937
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6626225113868713,
      "learning_rate": 1.538844171100453e-05,
      "loss": 1.5034,
      "step": 80938
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.658763587474823,
      "learning_rate": 1.538513732096104e-05,
      "loss": 1.4889,
      "step": 80939
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6514163017272949,
      "learning_rate": 1.5381833276398092e-05,
      "loss": 1.5001,
      "step": 80940
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6835269331932068,
      "learning_rate": 1.5378529577319687e-05,
      "loss": 1.5536,
      "step": 80941
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6553763747215271,
      "learning_rate": 1.537522622372972e-05,
      "loss": 1.4832,
      "step": 80942
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6601034998893738,
      "learning_rate": 1.537192321563232e-05,
      "loss": 1.5005,
      "step": 80943
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6737878918647766,
      "learning_rate": 1.5368620553031554e-05,
      "loss": 1.5041,
      "step": 80944
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6787619590759277,
      "learning_rate": 1.536531823593128e-05,
      "loss": 1.541,
      "step": 80945
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6804805397987366,
      "learning_rate": 1.536201626433553e-05,
      "loss": 1.5609,
      "step": 80946
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6664000749588013,
      "learning_rate": 1.5358714638248403e-05,
      "loss": 1.5717,
      "step": 80947
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.697084903717041,
      "learning_rate": 1.5355413357673896e-05,
      "loss": 1.4403,
      "step": 80948
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6578431725502014,
      "learning_rate": 1.5352112422615903e-05,
      "loss": 1.5204,
      "step": 80949
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.687533438205719,
      "learning_rate": 1.534881183307849e-05,
      "loss": 1.5569,
      "step": 80950
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6829714179039001,
      "learning_rate": 1.5345511589065784e-05,
      "loss": 1.4958,
      "step": 80951
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6932135224342346,
      "learning_rate": 1.5342211690581585e-05,
      "loss": 1.4402,
      "step": 80952
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6754397749900818,
      "learning_rate": 1.5338912137630022e-05,
      "loss": 1.4695,
      "step": 80953
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6683382987976074,
      "learning_rate": 1.533561293021509e-05,
      "loss": 1.5842,
      "step": 80954
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6573662757873535,
      "learning_rate": 1.533231406834079e-05,
      "loss": 1.4952,
      "step": 80955
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6933730244636536,
      "learning_rate": 1.532901555201108e-05,
      "loss": 1.591,
      "step": 80956
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6635997295379639,
      "learning_rate": 1.532571738123003e-05,
      "loss": 1.4296,
      "step": 80957
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6590501070022583,
      "learning_rate": 1.5322419556001662e-05,
      "loss": 1.5299,
      "step": 80958
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6669442653656006,
      "learning_rate": 1.531912207632985e-05,
      "loss": 1.5447,
      "step": 80959
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7122692465782166,
      "learning_rate": 1.531582494221868e-05,
      "loss": 1.4919,
      "step": 80960
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.664979100227356,
      "learning_rate": 1.531252815367222e-05,
      "loss": 1.5051,
      "step": 80961
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6734844446182251,
      "learning_rate": 1.530923171069437e-05,
      "loss": 1.5104,
      "step": 80962
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6817901134490967,
      "learning_rate": 1.530593561328912e-05,
      "loss": 1.5571,
      "step": 80963
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6933783292770386,
      "learning_rate": 1.5302639861460542e-05,
      "loss": 1.6047,
      "step": 80964
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6639947295188904,
      "learning_rate": 1.5299344455212692e-05,
      "loss": 1.5111,
      "step": 80965
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6802496910095215,
      "learning_rate": 1.5296049394549405e-05,
      "loss": 1.4905,
      "step": 80966
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6892877817153931,
      "learning_rate": 1.529275467947474e-05,
      "loss": 1.4825,
      "step": 80967
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6595710515975952,
      "learning_rate": 1.5289460309992795e-05,
      "loss": 1.4524,
      "step": 80968
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6765813827514648,
      "learning_rate": 1.5286166286107472e-05,
      "loss": 1.493,
      "step": 80969
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6782819628715515,
      "learning_rate": 1.528287260782276e-05,
      "loss": 1.4422,
      "step": 80970
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6738240122795105,
      "learning_rate": 1.527957927514273e-05,
      "loss": 1.5175,
      "step": 80971
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6535437107086182,
      "learning_rate": 1.5276286288071338e-05,
      "loss": 1.4689,
      "step": 80972
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6557825803756714,
      "learning_rate": 1.5272993646612553e-05,
      "loss": 1.4896,
      "step": 80973
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6753234267234802,
      "learning_rate": 1.5269701350770404e-05,
      "loss": 1.4929,
      "step": 80974
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7026527523994446,
      "learning_rate": 1.5266409400548885e-05,
      "loss": 1.562,
      "step": 80975
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6560351848602295,
      "learning_rate": 1.526311779595203e-05,
      "loss": 1.5378,
      "step": 80976
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6673144102096558,
      "learning_rate": 1.5259826536983734e-05,
      "loss": 1.5135,
      "step": 80977
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6669001579284668,
      "learning_rate": 1.5256535623648126e-05,
      "loss": 1.4923,
      "step": 80978
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6594914197921753,
      "learning_rate": 1.5253245055949104e-05,
      "loss": 1.4954,
      "step": 80979
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6897680163383484,
      "learning_rate": 1.5249954833890666e-05,
      "loss": 1.5502,
      "step": 80980
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6718993782997131,
      "learning_rate": 1.5246664957476839e-05,
      "loss": 1.4457,
      "step": 80981
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6771795749664307,
      "learning_rate": 1.524337542671159e-05,
      "loss": 1.4889,
      "step": 80982
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6685367822647095,
      "learning_rate": 1.5240086241598948e-05,
      "loss": 1.4992,
      "step": 80983
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6655130982398987,
      "learning_rate": 1.5236797402142842e-05,
      "loss": 1.4826,
      "step": 80984
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6834323406219482,
      "learning_rate": 1.5233508908347336e-05,
      "loss": 1.5102,
      "step": 80985
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6432173848152161,
      "learning_rate": 1.5230220760216427e-05,
      "loss": 1.4283,
      "step": 80986
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6757396459579468,
      "learning_rate": 1.5226932957754012e-05,
      "loss": 1.5736,
      "step": 80987
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6715102195739746,
      "learning_rate": 1.5223645500964188e-05,
      "loss": 1.5448,
      "step": 80988
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6737171411514282,
      "learning_rate": 1.522035838985085e-05,
      "loss": 1.4793,
      "step": 80989
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6806364059448242,
      "learning_rate": 1.5217071624418065e-05,
      "loss": 1.4732,
      "step": 80990
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.71994948387146,
      "learning_rate": 1.5213785204669827e-05,
      "loss": 1.5068,
      "step": 80991
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6871703863143921,
      "learning_rate": 1.5210499130610033e-05,
      "loss": 1.512,
      "step": 80992
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6780868172645569,
      "learning_rate": 1.520721340224278e-05,
      "loss": 1.4909,
      "step": 80993
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.7006769776344299,
      "learning_rate": 1.5203928019571965e-05,
      "loss": 1.5662,
      "step": 80994
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6915817856788635,
      "learning_rate": 1.5200642982601653e-05,
      "loss": 1.6195,
      "step": 80995
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6926371455192566,
      "learning_rate": 1.5197358291335737e-05,
      "loss": 1.4529,
      "step": 80996
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6742537021636963,
      "learning_rate": 1.5194073945778317e-05,
      "loss": 1.5457,
      "step": 80997
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6797324419021606,
      "learning_rate": 1.5190789945933356e-05,
      "loss": 1.5302,
      "step": 80998
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.668822169303894,
      "learning_rate": 1.5187506291804752e-05,
      "loss": 1.5191,
      "step": 80999
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6732805371284485,
      "learning_rate": 1.51842229833966e-05,
      "loss": 1.5451,
      "step": 81000
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.662639856338501,
      "learning_rate": 1.5180940020712795e-05,
      "loss": 1.5716,
      "step": 81001
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6864068508148193,
      "learning_rate": 1.5177657403757371e-05,
      "loss": 1.4834,
      "step": 81002
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.697318971157074,
      "learning_rate": 1.5174375132534288e-05,
      "loss": 1.5786,
      "step": 81003
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6676674485206604,
      "learning_rate": 1.517109320704758e-05,
      "loss": 1.4607,
      "step": 81004
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7114458680152893,
      "learning_rate": 1.5167811627301207e-05,
      "loss": 1.4907,
      "step": 81005
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6659770011901855,
      "learning_rate": 1.51645303932991e-05,
      "loss": 1.4086,
      "step": 81006
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6684420108795166,
      "learning_rate": 1.5161249505045325e-05,
      "loss": 1.5448,
      "step": 81007
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6809282898902893,
      "learning_rate": 1.515796896254381e-05,
      "loss": 1.5329,
      "step": 81008
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6831306219100952,
      "learning_rate": 1.5154688765798518e-05,
      "loss": 1.5285,
      "step": 81009
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6646032929420471,
      "learning_rate": 1.5151408914813478e-05,
      "loss": 1.5575,
      "step": 81010
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6797151565551758,
      "learning_rate": 1.5148129409592723e-05,
      "loss": 1.5186,
      "step": 81011
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7148503661155701,
      "learning_rate": 1.5144850250140084e-05,
      "loss": 1.4968,
      "step": 81012
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.668796956539154,
      "learning_rate": 1.5141571436459654e-05,
      "loss": 1.5289,
      "step": 81013
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6919862031936646,
      "learning_rate": 1.5138292968555399e-05,
      "loss": 1.4834,
      "step": 81014
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6854433417320251,
      "learning_rate": 1.5135014846431281e-05,
      "loss": 1.5641,
      "step": 81015
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6623036861419678,
      "learning_rate": 1.5131737070091232e-05,
      "loss": 1.5802,
      "step": 81016
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6439565420150757,
      "learning_rate": 1.5128459639539315e-05,
      "loss": 1.486,
      "step": 81017
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6807991862297058,
      "learning_rate": 1.5125182554779492e-05,
      "loss": 1.5521,
      "step": 81018
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6554820537567139,
      "learning_rate": 1.5121905815815726e-05,
      "loss": 1.5685,
      "step": 81019
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6797213554382324,
      "learning_rate": 1.5118629422651952e-05,
      "loss": 1.5197,
      "step": 81020
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6849212646484375,
      "learning_rate": 1.5115353375292227e-05,
      "loss": 1.5696,
      "step": 81021
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6729934811592102,
      "learning_rate": 1.5112077673740519e-05,
      "loss": 1.4634,
      "step": 81022
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.67583167552948,
      "learning_rate": 1.510880231800069e-05,
      "loss": 1.477,
      "step": 81023
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.698978841304779,
      "learning_rate": 1.5105527308076803e-05,
      "loss": 1.5383,
      "step": 81024
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6741738319396973,
      "learning_rate": 1.510225264397289e-05,
      "loss": 1.5252,
      "step": 81025
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6580296158790588,
      "learning_rate": 1.5098978325692846e-05,
      "loss": 1.5719,
      "step": 81026
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6704802513122559,
      "learning_rate": 1.5095704353240635e-05,
      "loss": 1.4626,
      "step": 81027
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6667831540107727,
      "learning_rate": 1.5092430726620285e-05,
      "loss": 1.4015,
      "step": 81028
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6747332811355591,
      "learning_rate": 1.5089157445835765e-05,
      "loss": 1.55,
      "step": 81029
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.668635368347168,
      "learning_rate": 1.5085884510890967e-05,
      "loss": 1.5547,
      "step": 81030
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6956347823143005,
      "learning_rate": 1.5082611921789988e-05,
      "loss": 1.4939,
      "step": 81031
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.72162926197052,
      "learning_rate": 1.5079339678536662e-05,
      "loss": 1.4979,
      "step": 81032
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6585797071456909,
      "learning_rate": 1.5076067781135115e-05,
      "loss": 1.5749,
      "step": 81033
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6728350520133972,
      "learning_rate": 1.507279622958918e-05,
      "loss": 1.4958,
      "step": 81034
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6838582158088684,
      "learning_rate": 1.5069525023902918e-05,
      "loss": 1.4844,
      "step": 81035
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6624430418014526,
      "learning_rate": 1.5066254164080293e-05,
      "loss": 1.4491,
      "step": 81036
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6746039986610413,
      "learning_rate": 1.5062983650125204e-05,
      "loss": 1.4598,
      "step": 81037
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6628587245941162,
      "learning_rate": 1.5059713482041713e-05,
      "loss": 1.4569,
      "step": 81038
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6908290982246399,
      "learning_rate": 1.5056443659833717e-05,
      "loss": 1.527,
      "step": 81039
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6858258843421936,
      "learning_rate": 1.5053174183505245e-05,
      "loss": 1.5261,
      "step": 81040
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.691536009311676,
      "learning_rate": 1.504990505306023e-05,
      "loss": 1.5362,
      "step": 81041
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6621854901313782,
      "learning_rate": 1.5046636268502598e-05,
      "loss": 1.5212,
      "step": 81042
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6671472787857056,
      "learning_rate": 1.5043367829836417e-05,
      "loss": 1.5489,
      "step": 81043
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.9556936025619507,
      "learning_rate": 1.5040099737065547e-05,
      "loss": 1.4829,
      "step": 81044
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6804735064506531,
      "learning_rate": 1.5036831990194054e-05,
      "loss": 1.4956,
      "step": 81045
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6722493171691895,
      "learning_rate": 1.5033564589225833e-05,
      "loss": 1.5251,
      "step": 81046
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6762018203735352,
      "learning_rate": 1.5030297534164881e-05,
      "loss": 1.5589,
      "step": 81047
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6635106205940247,
      "learning_rate": 1.5027030825015196e-05,
      "loss": 1.4628,
      "step": 81048
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.713638186454773,
      "learning_rate": 1.5023764461780641e-05,
      "loss": 1.5042,
      "step": 81049
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6786519885063171,
      "learning_rate": 1.5020498444465312e-05,
      "loss": 1.4516,
      "step": 81050
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6655346155166626,
      "learning_rate": 1.5017232773073107e-05,
      "loss": 1.5739,
      "step": 81051
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6942886710166931,
      "learning_rate": 1.5013967447607922e-05,
      "loss": 1.5476,
      "step": 81052
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6825528740882874,
      "learning_rate": 1.501070246807382e-05,
      "loss": 1.4682,
      "step": 81053
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6873323321342468,
      "learning_rate": 1.5007437834474767e-05,
      "loss": 1.5173,
      "step": 81054
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.664448082447052,
      "learning_rate": 1.5004173546814691e-05,
      "loss": 1.5372,
      "step": 81055
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6622315049171448,
      "learning_rate": 1.5000909605097488e-05,
      "loss": 1.4986,
      "step": 81056
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.668074905872345,
      "learning_rate": 1.4997646009327259e-05,
      "loss": 1.4965,
      "step": 81057
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6745585799217224,
      "learning_rate": 1.4994382759507895e-05,
      "loss": 1.4658,
      "step": 81058
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6638627052307129,
      "learning_rate": 1.499111985564333e-05,
      "loss": 1.4711,
      "step": 81059
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6598244309425354,
      "learning_rate": 1.4987857297737527e-05,
      "loss": 1.4518,
      "step": 81060
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6769595742225647,
      "learning_rate": 1.4984595085794548e-05,
      "loss": 1.4771,
      "step": 81061
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6979178786277771,
      "learning_rate": 1.4981333219818193e-05,
      "loss": 1.4166,
      "step": 81062
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6886881589889526,
      "learning_rate": 1.4978071699812521e-05,
      "loss": 1.5896,
      "step": 81063
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6995609998703003,
      "learning_rate": 1.49748105257815e-05,
      "loss": 1.6028,
      "step": 81064
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7166898250579834,
      "learning_rate": 1.497154969772909e-05,
      "loss": 1.5303,
      "step": 81065
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6715661883354187,
      "learning_rate": 1.4968289215659158e-05,
      "loss": 1.4924,
      "step": 81066
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6789695024490356,
      "learning_rate": 1.4965029079575729e-05,
      "loss": 1.533,
      "step": 81067
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6556366086006165,
      "learning_rate": 1.4961769289482839e-05,
      "loss": 1.4977,
      "step": 81068
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6756311058998108,
      "learning_rate": 1.4958509845384281e-05,
      "loss": 1.4992,
      "step": 81069
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6842620968818665,
      "learning_rate": 1.4955250747284086e-05,
      "loss": 1.5475,
      "step": 81070
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6737135052680969,
      "learning_rate": 1.4951991995186252e-05,
      "loss": 1.4822,
      "step": 81071
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6916987299919128,
      "learning_rate": 1.4948733589094708e-05,
      "loss": 1.4867,
      "step": 81072
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6649724841117859,
      "learning_rate": 1.4945475529013385e-05,
      "loss": 1.5014,
      "step": 81073
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6870751976966858,
      "learning_rate": 1.4942217814946211e-05,
      "loss": 1.5431,
      "step": 81074
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6859521269798279,
      "learning_rate": 1.4938960446897286e-05,
      "loss": 1.5105,
      "step": 81075
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6715261340141296,
      "learning_rate": 1.4935703424870405e-05,
      "loss": 1.5253,
      "step": 81076
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6781203150749207,
      "learning_rate": 1.493244674886953e-05,
      "loss": 1.5235,
      "step": 81077
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6671695709228516,
      "learning_rate": 1.4929190418898728e-05,
      "loss": 1.4566,
      "step": 81078
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.686164915561676,
      "learning_rate": 1.4925934434961895e-05,
      "loss": 1.4986,
      "step": 81079
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6645565032958984,
      "learning_rate": 1.4922678797062926e-05,
      "loss": 1.4913,
      "step": 81080
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6821857690811157,
      "learning_rate": 1.4919423505205818e-05,
      "loss": 1.4541,
      "step": 81081
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6927986741065979,
      "learning_rate": 1.4916168559394604e-05,
      "loss": 1.5422,
      "step": 81082
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6678460240364075,
      "learning_rate": 1.4912913959633077e-05,
      "loss": 1.5181,
      "step": 81083
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6806483268737793,
      "learning_rate": 1.490965970592527e-05,
      "loss": 1.4972,
      "step": 81084
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6664416193962097,
      "learning_rate": 1.4906405798275144e-05,
      "loss": 1.5383,
      "step": 81085
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6681387424468994,
      "learning_rate": 1.4903152236686666e-05,
      "loss": 1.5421,
      "step": 81086
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6692039966583252,
      "learning_rate": 1.4899899021163698e-05,
      "loss": 1.532,
      "step": 81087
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6872052550315857,
      "learning_rate": 1.48966461517103e-05,
      "loss": 1.5761,
      "step": 81088
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6759991645812988,
      "learning_rate": 1.4893393628330375e-05,
      "loss": 1.5314,
      "step": 81089
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6540663838386536,
      "learning_rate": 1.4890141451027782e-05,
      "loss": 1.5389,
      "step": 81090
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.659133791923523,
      "learning_rate": 1.4886889619806586e-05,
      "loss": 1.5378,
      "step": 81091
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6770145297050476,
      "learning_rate": 1.4883638134670717e-05,
      "loss": 1.4747,
      "step": 81092
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7078565955162048,
      "learning_rate": 1.4880386995624104e-05,
      "loss": 1.449,
      "step": 81093
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6637071967124939,
      "learning_rate": 1.4877136202670648e-05,
      "loss": 1.5289,
      "step": 81094
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6685567498207092,
      "learning_rate": 1.4873885755814408e-05,
      "loss": 1.4589,
      "step": 81095
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6960440278053284,
      "learning_rate": 1.4870635655059215e-05,
      "loss": 1.5048,
      "step": 81096
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6711390018463135,
      "learning_rate": 1.4867385900409035e-05,
      "loss": 1.5775,
      "step": 81097
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6501318216323853,
      "learning_rate": 1.4864136491867895e-05,
      "loss": 1.4764,
      "step": 81098
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6917750239372253,
      "learning_rate": 1.4860887429439627e-05,
      "loss": 1.5467,
      "step": 81099
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6751716732978821,
      "learning_rate": 1.4857638713128262e-05,
      "loss": 1.5019,
      "step": 81100
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6652106642723083,
      "learning_rate": 1.485439034293766e-05,
      "loss": 1.497,
      "step": 81101
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.692720890045166,
      "learning_rate": 1.4851142318871856e-05,
      "loss": 1.6026,
      "step": 81102
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6732873320579529,
      "learning_rate": 1.4847894640934777e-05,
      "loss": 1.4346,
      "step": 81103
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6631529927253723,
      "learning_rate": 1.4844647309130287e-05,
      "loss": 1.5556,
      "step": 81104
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6669757962226868,
      "learning_rate": 1.4841400323462416e-05,
      "loss": 1.5853,
      "step": 81105
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6637179255485535,
      "learning_rate": 1.4838153683935028e-05,
      "loss": 1.5189,
      "step": 81106
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6509717702865601,
      "learning_rate": 1.4834907390552154e-05,
      "loss": 1.4907,
      "step": 81107
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6627755165100098,
      "learning_rate": 1.4831661443317655e-05,
      "loss": 1.5735,
      "step": 81108
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6607632040977478,
      "learning_rate": 1.4828415842235498e-05,
      "loss": 1.4627,
      "step": 81109
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7001438736915588,
      "learning_rate": 1.4825170587309643e-05,
      "loss": 1.4329,
      "step": 81110
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7211238741874695,
      "learning_rate": 1.4821925678543989e-05,
      "loss": 1.564,
      "step": 81111
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.686833381652832,
      "learning_rate": 1.4818681115942533e-05,
      "loss": 1.4615,
      "step": 81112
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6844797730445862,
      "learning_rate": 1.4815436899509136e-05,
      "loss": 1.5047,
      "step": 81113
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6566972136497498,
      "learning_rate": 1.4812193029247798e-05,
      "loss": 1.4621,
      "step": 81114
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6765599846839905,
      "learning_rate": 1.4808949505162481e-05,
      "loss": 1.5016,
      "step": 81115
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6837595701217651,
      "learning_rate": 1.4805706327257016e-05,
      "loss": 1.5182,
      "step": 81116
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6719010472297668,
      "learning_rate": 1.4802463495535433e-05,
      "loss": 1.4708,
      "step": 81117
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6867257952690125,
      "learning_rate": 1.4799221010001661e-05,
      "loss": 1.5385,
      "step": 81118
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6712173819541931,
      "learning_rate": 1.479597887065953e-05,
      "loss": 1.5026,
      "step": 81119
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6954075694084167,
      "learning_rate": 1.4792737077513106e-05,
      "loss": 1.5662,
      "step": 81120
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.673892080783844,
      "learning_rate": 1.4789495630566284e-05,
      "loss": 1.5264,
      "step": 81121
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6577986478805542,
      "learning_rate": 1.4786254529822993e-05,
      "loss": 1.3984,
      "step": 81122
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6499497890472412,
      "learning_rate": 1.4783013775287133e-05,
      "loss": 1.4862,
      "step": 81123
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.687711775302887,
      "learning_rate": 1.4779773366962733e-05,
      "loss": 1.4998,
      "step": 81124
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6743101477622986,
      "learning_rate": 1.4776533304853622e-05,
      "loss": 1.4746,
      "step": 81125
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6905612349510193,
      "learning_rate": 1.4773293588963764e-05,
      "loss": 1.5172,
      "step": 81126
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.668307363986969,
      "learning_rate": 1.477005421929709e-05,
      "loss": 1.4629,
      "step": 81127
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6803884506225586,
      "learning_rate": 1.4766815195857562e-05,
      "loss": 1.4422,
      "step": 81128
    },
    {
      "epoch": 2.7,
      "grad_norm": 1.349055290222168,
      "learning_rate": 1.4763576518649112e-05,
      "loss": 1.5656,
      "step": 81129
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6775959730148315,
      "learning_rate": 1.4760338187675635e-05,
      "loss": 1.5266,
      "step": 81130
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7033527493476868,
      "learning_rate": 1.4757100202941096e-05,
      "loss": 1.4686,
      "step": 81131
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6629716753959656,
      "learning_rate": 1.4753862564449392e-05,
      "loss": 1.5917,
      "step": 81132
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6476761102676392,
      "learning_rate": 1.4750625272204453e-05,
      "loss": 1.4995,
      "step": 81133
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6874932646751404,
      "learning_rate": 1.4747388326210207e-05,
      "loss": 1.5522,
      "step": 81134
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6885868310928345,
      "learning_rate": 1.4744151726470688e-05,
      "loss": 1.5086,
      "step": 81135
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6594557762145996,
      "learning_rate": 1.474091547298969e-05,
      "loss": 1.5347,
      "step": 81136
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7045466303825378,
      "learning_rate": 1.4737679565771177e-05,
      "loss": 1.4659,
      "step": 81137
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6674577593803406,
      "learning_rate": 1.4734444004819112e-05,
      "loss": 1.5418,
      "step": 81138
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6851468682289124,
      "learning_rate": 1.4731208790137394e-05,
      "loss": 1.5086,
      "step": 81139
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6525990962982178,
      "learning_rate": 1.4727973921729918e-05,
      "loss": 1.5364,
      "step": 81140
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6755366921424866,
      "learning_rate": 1.4724739399600683e-05,
      "loss": 1.5658,
      "step": 81141
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6579781174659729,
      "learning_rate": 1.4721505223753582e-05,
      "loss": 1.4995,
      "step": 81142
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6828010678291321,
      "learning_rate": 1.4718271394192549e-05,
      "loss": 1.4691,
      "step": 81143
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6636539101600647,
      "learning_rate": 1.4715037910921478e-05,
      "loss": 1.5091,
      "step": 81144
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6878650784492493,
      "learning_rate": 1.4711804773944336e-05,
      "loss": 1.5448,
      "step": 81145
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6650471091270447,
      "learning_rate": 1.470857198326505e-05,
      "loss": 1.4996,
      "step": 81146
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6893070340156555,
      "learning_rate": 1.4705339538887451e-05,
      "loss": 1.5232,
      "step": 81147
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6820051670074463,
      "learning_rate": 1.4702107440815602e-05,
      "loss": 1.5053,
      "step": 81148
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6604734659194946,
      "learning_rate": 1.4698875689053302e-05,
      "loss": 1.5192,
      "step": 81149
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6547545194625854,
      "learning_rate": 1.469564428360458e-05,
      "loss": 1.4902,
      "step": 81150
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6813384294509888,
      "learning_rate": 1.4692413224473264e-05,
      "loss": 1.6227,
      "step": 81151
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6686366200447083,
      "learning_rate": 1.4689182511663356e-05,
      "loss": 1.5477,
      "step": 81152
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.677384078502655,
      "learning_rate": 1.4685952145178747e-05,
      "loss": 1.5154,
      "step": 81153
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.687532365322113,
      "learning_rate": 1.4682722125023306e-05,
      "loss": 1.4761,
      "step": 81154
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6787987351417542,
      "learning_rate": 1.4679492451201058e-05,
      "loss": 1.5236,
      "step": 81155
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6829545497894287,
      "learning_rate": 1.4676263123715804e-05,
      "loss": 1.5565,
      "step": 81156
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6484977602958679,
      "learning_rate": 1.467303414257157e-05,
      "loss": 1.4745,
      "step": 81157
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6780605912208557,
      "learning_rate": 1.4669805507772259e-05,
      "loss": 1.5063,
      "step": 81158
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6825879812240601,
      "learning_rate": 1.4666577219321695e-05,
      "loss": 1.5152,
      "step": 81159
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6985030770301819,
      "learning_rate": 1.4663349277223912e-05,
      "loss": 1.5284,
      "step": 81160
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6713000535964966,
      "learning_rate": 1.4660121681482739e-05,
      "loss": 1.5033,
      "step": 81161
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6794750094413757,
      "learning_rate": 1.4656894432102173e-05,
      "loss": 1.4993,
      "step": 81162
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7436920404434204,
      "learning_rate": 1.4653667529086044e-05,
      "loss": 1.5354,
      "step": 81163
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6606851816177368,
      "learning_rate": 1.4650440972438381e-05,
      "loss": 1.5014,
      "step": 81164
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6731663346290588,
      "learning_rate": 1.4647214762163018e-05,
      "loss": 1.487,
      "step": 81165
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6426433324813843,
      "learning_rate": 1.4643988898263881e-05,
      "loss": 1.469,
      "step": 81166
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6791830062866211,
      "learning_rate": 1.4640763380744902e-05,
      "loss": 1.5167,
      "step": 81167
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6862141489982605,
      "learning_rate": 1.4637538209610011e-05,
      "loss": 1.5879,
      "step": 81168
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.695156991481781,
      "learning_rate": 1.4634313384863072e-05,
      "loss": 1.5111,
      "step": 81169
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.694582462310791,
      "learning_rate": 1.4631088906508015e-05,
      "loss": 1.5397,
      "step": 81170
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7166459560394287,
      "learning_rate": 1.4627864774548803e-05,
      "loss": 1.5816,
      "step": 81171
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6968242526054382,
      "learning_rate": 1.46246409889893e-05,
      "loss": 1.5056,
      "step": 81172
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6853163838386536,
      "learning_rate": 1.4621417549833437e-05,
      "loss": 1.5379,
      "step": 81173
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6543962359428406,
      "learning_rate": 1.4618194457085142e-05,
      "loss": 1.527,
      "step": 81174
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6753236055374146,
      "learning_rate": 1.4614971710748313e-05,
      "loss": 1.5191,
      "step": 81175
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.67446368932724,
      "learning_rate": 1.4611749310826814e-05,
      "loss": 1.4702,
      "step": 81176
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7410469055175781,
      "learning_rate": 1.460852725732461e-05,
      "loss": 1.5654,
      "step": 81177
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6724929809570312,
      "learning_rate": 1.4605305550245661e-05,
      "loss": 1.5386,
      "step": 81178
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6934306621551514,
      "learning_rate": 1.4602084189593766e-05,
      "loss": 1.516,
      "step": 81179
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.672345757484436,
      "learning_rate": 1.4598863175372889e-05,
      "loss": 1.5215,
      "step": 81180
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6768112778663635,
      "learning_rate": 1.4595642507586958e-05,
      "loss": 1.4827,
      "step": 81181
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6734419465065002,
      "learning_rate": 1.4592422186239871e-05,
      "loss": 1.6007,
      "step": 81182
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6540321707725525,
      "learning_rate": 1.4589202211335526e-05,
      "loss": 1.4034,
      "step": 81183
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6849774718284607,
      "learning_rate": 1.4585982582877787e-05,
      "loss": 1.4693,
      "step": 81184
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6604284644126892,
      "learning_rate": 1.4582763300870715e-05,
      "loss": 1.4497,
      "step": 81185
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6658426523208618,
      "learning_rate": 1.4579544365318041e-05,
      "loss": 1.5272,
      "step": 81186
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6550407409667969,
      "learning_rate": 1.457632577622373e-05,
      "loss": 1.488,
      "step": 81187
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6537368893623352,
      "learning_rate": 1.4573107533591744e-05,
      "loss": 1.5351,
      "step": 81188
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6561000943183899,
      "learning_rate": 1.456988963742598e-05,
      "loss": 1.502,
      "step": 81189
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6613583564758301,
      "learning_rate": 1.4566672087730235e-05,
      "loss": 1.5081,
      "step": 81190
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6714761853218079,
      "learning_rate": 1.4563454884508507e-05,
      "loss": 1.4608,
      "step": 81191
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6634331345558167,
      "learning_rate": 1.456023802776476e-05,
      "loss": 1.5417,
      "step": 81192
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6756874918937683,
      "learning_rate": 1.4557021517502754e-05,
      "loss": 1.484,
      "step": 81193
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6739080548286438,
      "learning_rate": 1.4553805353726488e-05,
      "loss": 1.4365,
      "step": 81194
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6906160712242126,
      "learning_rate": 1.4550589536439861e-05,
      "loss": 1.4866,
      "step": 81195
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7189169526100159,
      "learning_rate": 1.4547374065646766e-05,
      "loss": 1.544,
      "step": 81196
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6876986622810364,
      "learning_rate": 1.4544158941351035e-05,
      "loss": 1.4595,
      "step": 81197
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6712486147880554,
      "learning_rate": 1.4540944163556667e-05,
      "loss": 1.5554,
      "step": 81198
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6707955598831177,
      "learning_rate": 1.4537729732267588e-05,
      "loss": 1.595,
      "step": 81199
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6785376071929932,
      "learning_rate": 1.45345156474876e-05,
      "loss": 1.6054,
      "step": 81200
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6733967065811157,
      "learning_rate": 1.4531301909220628e-05,
      "loss": 1.5505,
      "step": 81201
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6929282546043396,
      "learning_rate": 1.4528088517470638e-05,
      "loss": 1.5156,
      "step": 81202
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6726192831993103,
      "learning_rate": 1.452487547224146e-05,
      "loss": 1.4244,
      "step": 81203
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6893369555473328,
      "learning_rate": 1.452166277353699e-05,
      "loss": 1.43,
      "step": 81204
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6599482893943787,
      "learning_rate": 1.4518450421361227e-05,
      "loss": 1.4541,
      "step": 81205
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6718717813491821,
      "learning_rate": 1.4515238415717967e-05,
      "loss": 1.4586,
      "step": 81206
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6862067580223083,
      "learning_rate": 1.4512026756611139e-05,
      "loss": 1.4664,
      "step": 81207
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6743385791778564,
      "learning_rate": 1.4508815444044609e-05,
      "loss": 1.5078,
      "step": 81208
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.676274299621582,
      "learning_rate": 1.450560447802237e-05,
      "loss": 1.5415,
      "step": 81209
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7454395890235901,
      "learning_rate": 1.4502393858548256e-05,
      "loss": 1.4964,
      "step": 81210
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6679880023002625,
      "learning_rate": 1.4499183585626129e-05,
      "loss": 1.5354,
      "step": 81211
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.7289512157440186,
      "learning_rate": 1.4495973659259986e-05,
      "loss": 1.5023,
      "step": 81212
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6704574823379517,
      "learning_rate": 1.4492764079453657e-05,
      "loss": 1.5163,
      "step": 81213
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6733734607696533,
      "learning_rate": 1.4489554846211005e-05,
      "loss": 1.4572,
      "step": 81214
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6787119507789612,
      "learning_rate": 1.4486345959535994e-05,
      "loss": 1.5975,
      "step": 81215
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6805543899536133,
      "learning_rate": 1.4483137419432455e-05,
      "loss": 1.4793,
      "step": 81216
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6742188930511475,
      "learning_rate": 1.4479929225904352e-05,
      "loss": 1.4813,
      "step": 81217
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6822908520698547,
      "learning_rate": 1.4476721378955514e-05,
      "loss": 1.4671,
      "step": 81218
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6878464221954346,
      "learning_rate": 1.4473513878589904e-05,
      "loss": 1.466,
      "step": 81219
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6777181029319763,
      "learning_rate": 1.4470306724811354e-05,
      "loss": 1.524,
      "step": 81220
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6804882884025574,
      "learning_rate": 1.4467099917623792e-05,
      "loss": 1.4995,
      "step": 81221
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6662892699241638,
      "learning_rate": 1.4463893457031084e-05,
      "loss": 1.4858,
      "step": 81222
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.68429034948349,
      "learning_rate": 1.4460687343037125e-05,
      "loss": 1.5559,
      "step": 81223
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6845802068710327,
      "learning_rate": 1.445748157564588e-05,
      "loss": 1.5354,
      "step": 81224
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6637276411056519,
      "learning_rate": 1.4454276154861144e-05,
      "loss": 1.4758,
      "step": 81225
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6569653153419495,
      "learning_rate": 1.4451071080686816e-05,
      "loss": 1.4968,
      "step": 81226
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6736086010932922,
      "learning_rate": 1.4447866353126858e-05,
      "loss": 1.4801,
      "step": 81227
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6702359318733215,
      "learning_rate": 1.4444661972185068e-05,
      "loss": 1.5415,
      "step": 81228
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.683373749256134,
      "learning_rate": 1.4441457937865441e-05,
      "loss": 1.4898,
      "step": 81229
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6577218770980835,
      "learning_rate": 1.4438254250171777e-05,
      "loss": 1.4896,
      "step": 81230
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6905006170272827,
      "learning_rate": 1.4435050909108004e-05,
      "loss": 1.6002,
      "step": 81231
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.681014895439148,
      "learning_rate": 1.4431847914678018e-05,
      "loss": 1.4795,
      "step": 81232
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6818931698799133,
      "learning_rate": 1.4428645266885652e-05,
      "loss": 1.5093,
      "step": 81233
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6560216546058655,
      "learning_rate": 1.4425442965734868e-05,
      "loss": 1.5195,
      "step": 81234
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6757810115814209,
      "learning_rate": 1.442224101122953e-05,
      "loss": 1.5248,
      "step": 81235
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6719211339950562,
      "learning_rate": 1.4419039403373466e-05,
      "loss": 1.5065,
      "step": 81236
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6896882057189941,
      "learning_rate": 1.441583814217061e-05,
      "loss": 1.504,
      "step": 81237
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6926402449607849,
      "learning_rate": 1.441263722762489e-05,
      "loss": 1.5471,
      "step": 81238
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6628011465072632,
      "learning_rate": 1.4409436659740137e-05,
      "loss": 1.5322,
      "step": 81239
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6775441765785217,
      "learning_rate": 1.4406236438520247e-05,
      "loss": 1.4808,
      "step": 81240
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6657428741455078,
      "learning_rate": 1.4403036563969116e-05,
      "loss": 1.564,
      "step": 81241
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.703639030456543,
      "learning_rate": 1.4399837036090612e-05,
      "loss": 1.627,
      "step": 81242
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6721970438957214,
      "learning_rate": 1.4396637854888593e-05,
      "loss": 1.4703,
      "step": 81243
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.652802050113678,
      "learning_rate": 1.439343902036696e-05,
      "loss": 1.5069,
      "step": 81244
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6857538819313049,
      "learning_rate": 1.4390240532529673e-05,
      "loss": 1.4975,
      "step": 81245
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6731828451156616,
      "learning_rate": 1.4387042391380533e-05,
      "loss": 1.4777,
      "step": 81246
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6982271075248718,
      "learning_rate": 1.43838445969234e-05,
      "loss": 1.5108,
      "step": 81247
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6701976656913757,
      "learning_rate": 1.4380647149162273e-05,
      "loss": 1.4467,
      "step": 81248
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6810404062271118,
      "learning_rate": 1.4377450048100913e-05,
      "loss": 1.5567,
      "step": 81249
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6972251534461975,
      "learning_rate": 1.437425329374322e-05,
      "loss": 1.452,
      "step": 81250
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.659416675567627,
      "learning_rate": 1.437105688609309e-05,
      "loss": 1.5112,
      "step": 81251
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6791013479232788,
      "learning_rate": 1.4367860825154453e-05,
      "loss": 1.5022,
      "step": 81252
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6759334802627563,
      "learning_rate": 1.4364665110931173e-05,
      "loss": 1.4898,
      "step": 81253
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6870440244674683,
      "learning_rate": 1.4361469743427045e-05,
      "loss": 1.5544,
      "step": 81254
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6676201820373535,
      "learning_rate": 1.4358274722646035e-05,
      "loss": 1.544,
      "step": 81255
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6837906241416931,
      "learning_rate": 1.4355080048592004e-05,
      "loss": 1.5986,
      "step": 81256
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6933679580688477,
      "learning_rate": 1.4351885721268785e-05,
      "loss": 1.5726,
      "step": 81257
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6808041930198669,
      "learning_rate": 1.4348691740680274e-05,
      "loss": 1.4882,
      "step": 81258
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6726768016815186,
      "learning_rate": 1.43454981068304e-05,
      "loss": 1.534,
      "step": 81259
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6968275308609009,
      "learning_rate": 1.4342304819723027e-05,
      "loss": 1.534,
      "step": 81260
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6815643906593323,
      "learning_rate": 1.4339111879361953e-05,
      "loss": 1.5234,
      "step": 81261
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6781227588653564,
      "learning_rate": 1.433591928575114e-05,
      "loss": 1.4791,
      "step": 81262
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6846405267715454,
      "learning_rate": 1.4332727038894421e-05,
      "loss": 1.4771,
      "step": 81263
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.665070116519928,
      "learning_rate": 1.4329535138795655e-05,
      "loss": 1.4926,
      "step": 81264
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6676121950149536,
      "learning_rate": 1.4326343585458776e-05,
      "loss": 1.5053,
      "step": 81265
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6470245718955994,
      "learning_rate": 1.432315237888758e-05,
      "loss": 1.4783,
      "step": 81266
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6729055047035217,
      "learning_rate": 1.4319961519086032e-05,
      "loss": 1.5167,
      "step": 81267
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6882551908493042,
      "learning_rate": 1.4316771006057926e-05,
      "loss": 1.5527,
      "step": 81268
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6658068895339966,
      "learning_rate": 1.4313580839807192e-05,
      "loss": 1.522,
      "step": 81269
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.673381507396698,
      "learning_rate": 1.4310391020337696e-05,
      "loss": 1.5145,
      "step": 81270
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6713964343070984,
      "learning_rate": 1.4307201547653235e-05,
      "loss": 1.4931,
      "step": 81271
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6819983720779419,
      "learning_rate": 1.430401242175777e-05,
      "loss": 1.568,
      "step": 81272
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6961163282394409,
      "learning_rate": 1.4300823642655102e-05,
      "loss": 1.5923,
      "step": 81273
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.681060791015625,
      "learning_rate": 1.429763521034919e-05,
      "loss": 1.5425,
      "step": 81274
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6780006885528564,
      "learning_rate": 1.4294447124843866e-05,
      "loss": 1.4536,
      "step": 81275
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6526663899421692,
      "learning_rate": 1.4291259386142928e-05,
      "loss": 1.53,
      "step": 81276
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6534044146537781,
      "learning_rate": 1.4288071994250338e-05,
      "loss": 1.5372,
      "step": 81277
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6617411375045776,
      "learning_rate": 1.4284884949169895e-05,
      "loss": 1.541,
      "step": 81278
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6780153512954712,
      "learning_rate": 1.4281698250905527e-05,
      "loss": 1.5472,
      "step": 81279
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6846234798431396,
      "learning_rate": 1.4278511899461065e-05,
      "loss": 1.5436,
      "step": 81280
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6809312701225281,
      "learning_rate": 1.427532589484044e-05,
      "loss": 1.5152,
      "step": 81281
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6743355989456177,
      "learning_rate": 1.4272140237047447e-05,
      "loss": 1.5534,
      "step": 81282
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6688445210456848,
      "learning_rate": 1.4268954926085918e-05,
      "loss": 1.4933,
      "step": 81283
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6933921575546265,
      "learning_rate": 1.426576996195985e-05,
      "loss": 1.5672,
      "step": 81284
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6556954383850098,
      "learning_rate": 1.426258534467304e-05,
      "loss": 1.4532,
      "step": 81285
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6711539030075073,
      "learning_rate": 1.4259401074229282e-05,
      "loss": 1.4572,
      "step": 81286
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6797225475311279,
      "learning_rate": 1.4256217150632544e-05,
      "loss": 1.5422,
      "step": 81287
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6719972491264343,
      "learning_rate": 1.4253033573886652e-05,
      "loss": 1.5387,
      "step": 81288
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6980099678039551,
      "learning_rate": 1.4249850343995506e-05,
      "loss": 1.5386,
      "step": 81289
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6691057085990906,
      "learning_rate": 1.4246667460962902e-05,
      "loss": 1.5162,
      "step": 81290
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6764764189720154,
      "learning_rate": 1.424348492479277e-05,
      "loss": 1.4664,
      "step": 81291
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6897507905960083,
      "learning_rate": 1.424030273548894e-05,
      "loss": 1.5269,
      "step": 81292
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6757274270057678,
      "learning_rate": 1.423712089305521e-05,
      "loss": 1.4668,
      "step": 81293
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6662097573280334,
      "learning_rate": 1.4233939397495541e-05,
      "loss": 1.4897,
      "step": 81294
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6735365390777588,
      "learning_rate": 1.4230758248813868e-05,
      "loss": 1.4545,
      "step": 81295
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6609060168266296,
      "learning_rate": 1.4227577447013816e-05,
      "loss": 1.5017,
      "step": 81296
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6617446541786194,
      "learning_rate": 1.4224396992099418e-05,
      "loss": 1.5291,
      "step": 81297
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6721823811531067,
      "learning_rate": 1.4221216884074537e-05,
      "loss": 1.4198,
      "step": 81298
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6724754571914673,
      "learning_rate": 1.4218037122942971e-05,
      "loss": 1.4554,
      "step": 81299
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6706318259239197,
      "learning_rate": 1.421485770870855e-05,
      "loss": 1.4997,
      "step": 81300
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6819270253181458,
      "learning_rate": 1.4211678641375202e-05,
      "loss": 1.5532,
      "step": 81301
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.653353214263916,
      "learning_rate": 1.4208499920946858e-05,
      "loss": 1.5074,
      "step": 81302
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.673483669757843,
      "learning_rate": 1.4205321547427184e-05,
      "loss": 1.5052,
      "step": 81303
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.6800423264503479,
      "learning_rate": 1.4202143520820142e-05,
      "loss": 1.5565,
      "step": 81304
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6611783504486084,
      "learning_rate": 1.4198965841129627e-05,
      "loss": 1.5441,
      "step": 81305
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6814581155776978,
      "learning_rate": 1.4195788508359474e-05,
      "loss": 1.5521,
      "step": 81306
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6938658952713013,
      "learning_rate": 1.4192611522513475e-05,
      "loss": 1.4174,
      "step": 81307
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6871973872184753,
      "learning_rate": 1.4189434883595497e-05,
      "loss": 1.501,
      "step": 81308
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6798792481422424,
      "learning_rate": 1.4186258591609568e-05,
      "loss": 1.4734,
      "step": 81309
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7011590600013733,
      "learning_rate": 1.4183082646559285e-05,
      "loss": 1.4569,
      "step": 81310
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6617385745048523,
      "learning_rate": 1.4179907048448647e-05,
      "loss": 1.5469,
      "step": 81311
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6687426567077637,
      "learning_rate": 1.4176731797281548e-05,
      "loss": 1.5618,
      "step": 81312
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6811818480491638,
      "learning_rate": 1.4173556893061755e-05,
      "loss": 1.5076,
      "step": 81313
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6882196664810181,
      "learning_rate": 1.4170382335793128e-05,
      "loss": 1.4913,
      "step": 81314
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6733062863349915,
      "learning_rate": 1.4167208125479534e-05,
      "loss": 1.5231,
      "step": 81315
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6644319891929626,
      "learning_rate": 1.4164034262124901e-05,
      "loss": 1.4513,
      "step": 81316
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6773248910903931,
      "learning_rate": 1.4160860745732927e-05,
      "loss": 1.5515,
      "step": 81317
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7020906209945679,
      "learning_rate": 1.4157687576307574e-05,
      "loss": 1.4506,
      "step": 81318
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6828617453575134,
      "learning_rate": 1.4154514753852707e-05,
      "loss": 1.4571,
      "step": 81319
    },
    {
      "epoch": 2.71,
      "grad_norm": 1.0797463655471802,
      "learning_rate": 1.4151342278372158e-05,
      "loss": 1.5714,
      "step": 81320
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6731374859809875,
      "learning_rate": 1.4148170149869687e-05,
      "loss": 1.4762,
      "step": 81321
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.687185525894165,
      "learning_rate": 1.4144998368349291e-05,
      "loss": 1.4565,
      "step": 81322
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6845566630363464,
      "learning_rate": 1.4141826933814737e-05,
      "loss": 1.5436,
      "step": 81323
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6957440972328186,
      "learning_rate": 1.4138655846269819e-05,
      "loss": 1.493,
      "step": 81324
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6833252310752869,
      "learning_rate": 1.4135485105718503e-05,
      "loss": 1.4475,
      "step": 81325
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6839714050292969,
      "learning_rate": 1.4132314712164584e-05,
      "loss": 1.6027,
      "step": 81326
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6641879081726074,
      "learning_rate": 1.4129144665611924e-05,
      "loss": 1.4721,
      "step": 81327
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.688666820526123,
      "learning_rate": 1.4125974966064357e-05,
      "loss": 1.5306,
      "step": 81328
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6724002957344055,
      "learning_rate": 1.4122805613525745e-05,
      "loss": 1.5226,
      "step": 81329
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6812838315963745,
      "learning_rate": 1.4119636607999917e-05,
      "loss": 1.4961,
      "step": 81330
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6965755820274353,
      "learning_rate": 1.4116467949490706e-05,
      "loss": 1.5548,
      "step": 81331
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.671949565410614,
      "learning_rate": 1.4113299638002007e-05,
      "loss": 1.5041,
      "step": 81332
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6800397038459778,
      "learning_rate": 1.4110131673537583e-05,
      "loss": 1.4379,
      "step": 81333
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.673433780670166,
      "learning_rate": 1.41069640561014e-05,
      "loss": 1.5047,
      "step": 81334
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6717287302017212,
      "learning_rate": 1.4103796785697219e-05,
      "loss": 1.4894,
      "step": 81335
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7063249945640564,
      "learning_rate": 1.4100629862328905e-05,
      "loss": 1.5545,
      "step": 81336
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.673900306224823,
      "learning_rate": 1.4097463286000321e-05,
      "loss": 1.4999,
      "step": 81337
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.695590078830719,
      "learning_rate": 1.409429705671523e-05,
      "loss": 1.564,
      "step": 81338
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.701214075088501,
      "learning_rate": 1.4091131174477599e-05,
      "loss": 1.5257,
      "step": 81339
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6921513080596924,
      "learning_rate": 1.4087965639291155e-05,
      "loss": 1.5119,
      "step": 81340
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7165151238441467,
      "learning_rate": 1.4084800451159829e-05,
      "loss": 1.5512,
      "step": 81341
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.682716429233551,
      "learning_rate": 1.4081635610087449e-05,
      "loss": 1.51,
      "step": 81342
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6898151636123657,
      "learning_rate": 1.4078471116077783e-05,
      "loss": 1.5565,
      "step": 81343
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7083315849304199,
      "learning_rate": 1.407530696913476e-05,
      "loss": 1.495,
      "step": 81344
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.65186607837677,
      "learning_rate": 1.4072143169262173e-05,
      "loss": 1.5342,
      "step": 81345
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6688803434371948,
      "learning_rate": 1.406897971646389e-05,
      "loss": 1.5118,
      "step": 81346
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6929112076759338,
      "learning_rate": 1.4065816610743675e-05,
      "loss": 1.5358,
      "step": 81347
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6666992902755737,
      "learning_rate": 1.4062653852105487e-05,
      "loss": 1.5145,
      "step": 81348
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6641494631767273,
      "learning_rate": 1.4059491440553127e-05,
      "loss": 1.4598,
      "step": 81349
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6494019031524658,
      "learning_rate": 1.405632937609036e-05,
      "loss": 1.5367,
      "step": 81350
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6847632527351379,
      "learning_rate": 1.405316765872111e-05,
      "loss": 1.5228,
      "step": 81351
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6655920743942261,
      "learning_rate": 1.4050006288449178e-05,
      "loss": 1.4761,
      "step": 81352
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.8159750699996948,
      "learning_rate": 1.4046845265278361e-05,
      "loss": 1.5904,
      "step": 81353
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6762707829475403,
      "learning_rate": 1.4043684589212556e-05,
      "loss": 1.5539,
      "step": 81354
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6503525376319885,
      "learning_rate": 1.4040524260255626e-05,
      "loss": 1.5248,
      "step": 81355
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6600663065910339,
      "learning_rate": 1.4037364278411366e-05,
      "loss": 1.5322,
      "step": 81356
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6819406747817993,
      "learning_rate": 1.4034204643683577e-05,
      "loss": 1.4775,
      "step": 81357
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6880776882171631,
      "learning_rate": 1.4031045356076154e-05,
      "loss": 1.4707,
      "step": 81358
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6702259182929993,
      "learning_rate": 1.4027886415592892e-05,
      "loss": 1.5285,
      "step": 81359
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.69232577085495,
      "learning_rate": 1.4024727822237625e-05,
      "loss": 1.4645,
      "step": 81360
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6566256284713745,
      "learning_rate": 1.4021569576014214e-05,
      "loss": 1.4447,
      "step": 81361
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6954541206359863,
      "learning_rate": 1.4018411676926488e-05,
      "loss": 1.5466,
      "step": 81362
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6789816617965698,
      "learning_rate": 1.4015254124978282e-05,
      "loss": 1.563,
      "step": 81363
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6813884377479553,
      "learning_rate": 1.4012096920173388e-05,
      "loss": 1.5522,
      "step": 81364
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7069090604782104,
      "learning_rate": 1.4008940062515706e-05,
      "loss": 1.5272,
      "step": 81365
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6778507232666016,
      "learning_rate": 1.4005783552009031e-05,
      "loss": 1.5388,
      "step": 81366
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.674688994884491,
      "learning_rate": 1.4002627388657162e-05,
      "loss": 1.4768,
      "step": 81367
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7121710777282715,
      "learning_rate": 1.399947157246396e-05,
      "loss": 1.5456,
      "step": 81368
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6863337755203247,
      "learning_rate": 1.3996316103433291e-05,
      "loss": 1.4573,
      "step": 81369
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6761445999145508,
      "learning_rate": 1.3993160981568951e-05,
      "loss": 1.5238,
      "step": 81370
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6515958905220032,
      "learning_rate": 1.3990006206874737e-05,
      "loss": 1.5195,
      "step": 81371
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6626546382904053,
      "learning_rate": 1.398685177935458e-05,
      "loss": 1.4969,
      "step": 81372
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6915651559829712,
      "learning_rate": 1.3983697699012208e-05,
      "loss": 1.5181,
      "step": 81373
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6673664450645447,
      "learning_rate": 1.3980543965851453e-05,
      "loss": 1.4666,
      "step": 81374
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.688363254070282,
      "learning_rate": 1.397739057987618e-05,
      "loss": 1.5311,
      "step": 81375
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6712539792060852,
      "learning_rate": 1.397423754109025e-05,
      "loss": 1.5095,
      "step": 81376
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6495091915130615,
      "learning_rate": 1.3971084849497461e-05,
      "loss": 1.4979,
      "step": 81377
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6751073598861694,
      "learning_rate": 1.3967932505101576e-05,
      "loss": 1.4716,
      "step": 81378
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6843220591545105,
      "learning_rate": 1.3964780507906526e-05,
      "loss": 1.5523,
      "step": 81379
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6811591982841492,
      "learning_rate": 1.3961628857916074e-05,
      "loss": 1.6224,
      "step": 81380
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6640886664390564,
      "learning_rate": 1.3958477555134017e-05,
      "loss": 1.509,
      "step": 81381
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6737102270126343,
      "learning_rate": 1.3955326599564287e-05,
      "loss": 1.5304,
      "step": 81382
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6881815791130066,
      "learning_rate": 1.3952175991210579e-05,
      "loss": 1.5268,
      "step": 81383
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6883131265640259,
      "learning_rate": 1.3949025730076857e-05,
      "loss": 1.5245,
      "step": 81384
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6665291786193848,
      "learning_rate": 1.3945875816166785e-05,
      "loss": 1.4475,
      "step": 81385
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6685947775840759,
      "learning_rate": 1.3942726249484326e-05,
      "loss": 1.5171,
      "step": 81386
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6529167294502258,
      "learning_rate": 1.3939577030033278e-05,
      "loss": 1.4993,
      "step": 81387
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6696237325668335,
      "learning_rate": 1.393642815781737e-05,
      "loss": 1.5471,
      "step": 81388
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.682478129863739,
      "learning_rate": 1.3933279632840533e-05,
      "loss": 1.6058,
      "step": 81389
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.665553629398346,
      "learning_rate": 1.3930131455106497e-05,
      "loss": 1.5227,
      "step": 81390
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6595631241798401,
      "learning_rate": 1.3926983624619159e-05,
      "loss": 1.5377,
      "step": 81391
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6877723336219788,
      "learning_rate": 1.3923836141382349e-05,
      "loss": 1.5308,
      "step": 81392
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7028890252113342,
      "learning_rate": 1.3920689005399766e-05,
      "loss": 1.5121,
      "step": 81393
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6647953391075134,
      "learning_rate": 1.3917542216675404e-05,
      "loss": 1.4458,
      "step": 81394
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6670291423797607,
      "learning_rate": 1.3914395775212927e-05,
      "loss": 1.5104,
      "step": 81395
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.8626159429550171,
      "learning_rate": 1.3911249681016267e-05,
      "loss": 1.5563,
      "step": 81396
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6620906591415405,
      "learning_rate": 1.3908103934089121e-05,
      "loss": 1.4918,
      "step": 81397
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6739540696144104,
      "learning_rate": 1.3904958534435484e-05,
      "loss": 1.5254,
      "step": 81398
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6856116652488708,
      "learning_rate": 1.390181348205902e-05,
      "loss": 1.5624,
      "step": 81399
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.702584445476532,
      "learning_rate": 1.3898668776963596e-05,
      "loss": 1.4949,
      "step": 81400
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6827089786529541,
      "learning_rate": 1.389552441915307e-05,
      "loss": 1.5309,
      "step": 81401
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6704190969467163,
      "learning_rate": 1.389238040863121e-05,
      "loss": 1.4717,
      "step": 81402
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6688732504844666,
      "learning_rate": 1.388923674540181e-05,
      "loss": 1.5477,
      "step": 81403
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6684309244155884,
      "learning_rate": 1.3886093429468703e-05,
      "loss": 1.427,
      "step": 81404
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6748939752578735,
      "learning_rate": 1.3882950460835784e-05,
      "loss": 1.4463,
      "step": 81405
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6783778667449951,
      "learning_rate": 1.3879807839506785e-05,
      "loss": 1.5251,
      "step": 81406
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6492651700973511,
      "learning_rate": 1.38766655654855e-05,
      "loss": 1.4638,
      "step": 81407
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6882999539375305,
      "learning_rate": 1.3873523638775863e-05,
      "loss": 1.5409,
      "step": 81408
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6841514110565186,
      "learning_rate": 1.3870382059381568e-05,
      "loss": 1.4972,
      "step": 81409
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6732929348945618,
      "learning_rate": 1.3867240827306447e-05,
      "loss": 1.5266,
      "step": 81410
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6801908612251282,
      "learning_rate": 1.386409994255433e-05,
      "loss": 1.5169,
      "step": 81411
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6929126977920532,
      "learning_rate": 1.3860959405129146e-05,
      "loss": 1.5058,
      "step": 81412
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6727436780929565,
      "learning_rate": 1.3857819215034494e-05,
      "loss": 1.4971,
      "step": 81413
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6626471281051636,
      "learning_rate": 1.3854679372274269e-05,
      "loss": 1.5657,
      "step": 81414
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6765654683113098,
      "learning_rate": 1.3851539876852369e-05,
      "loss": 1.4881,
      "step": 81415
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7014446258544922,
      "learning_rate": 1.3848400728772524e-05,
      "loss": 1.4839,
      "step": 81416
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6899909377098083,
      "learning_rate": 1.3845261928038531e-05,
      "loss": 1.5275,
      "step": 81417
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6709438562393188,
      "learning_rate": 1.3842123474654221e-05,
      "loss": 1.5713,
      "step": 81418
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6795411109924316,
      "learning_rate": 1.3838985368623456e-05,
      "loss": 1.54,
      "step": 81419
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6489508152008057,
      "learning_rate": 1.3835847609949968e-05,
      "loss": 1.5213,
      "step": 81420
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6969563961029053,
      "learning_rate": 1.3832710198637586e-05,
      "loss": 1.5363,
      "step": 81421
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6764693260192871,
      "learning_rate": 1.3829573134690141e-05,
      "loss": 1.5335,
      "step": 81422
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6776702404022217,
      "learning_rate": 1.3826436418111464e-05,
      "loss": 1.4898,
      "step": 81423
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6807733774185181,
      "learning_rate": 1.382330004890525e-05,
      "loss": 1.5189,
      "step": 81424
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6686949133872986,
      "learning_rate": 1.382016402707543e-05,
      "loss": 1.5633,
      "step": 81425
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6762174963951111,
      "learning_rate": 1.3817028352625803e-05,
      "loss": 1.532,
      "step": 81426
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6597776412963867,
      "learning_rate": 1.3813893025560096e-05,
      "loss": 1.409,
      "step": 81427
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7058126926422119,
      "learning_rate": 1.381075804588211e-05,
      "loss": 1.5017,
      "step": 81428
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6815778613090515,
      "learning_rate": 1.3807623413595769e-05,
      "loss": 1.5619,
      "step": 81429
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6507686376571655,
      "learning_rate": 1.380448912870481e-05,
      "loss": 1.4373,
      "step": 81430
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6861099600791931,
      "learning_rate": 1.380135519121296e-05,
      "loss": 1.4974,
      "step": 81431
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6607076525688171,
      "learning_rate": 1.3798221601124148e-05,
      "loss": 1.4672,
      "step": 81432
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6733548641204834,
      "learning_rate": 1.379508835844214e-05,
      "loss": 1.4612,
      "step": 81433
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.668631374835968,
      "learning_rate": 1.3791955463170668e-05,
      "loss": 1.4998,
      "step": 81434
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6642065644264221,
      "learning_rate": 1.378882291531359e-05,
      "loss": 1.5613,
      "step": 81435
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.664845883846283,
      "learning_rate": 1.3785690714874776e-05,
      "loss": 1.543,
      "step": 81436
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6813949346542358,
      "learning_rate": 1.3782558861857917e-05,
      "loss": 1.4546,
      "step": 81437
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6787043213844299,
      "learning_rate": 1.3779427356266848e-05,
      "loss": 1.5121,
      "step": 81438
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7066819667816162,
      "learning_rate": 1.3776296198105429e-05,
      "loss": 1.5004,
      "step": 81439
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6963121891021729,
      "learning_rate": 1.3773165387377394e-05,
      "loss": 1.5367,
      "step": 81440
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6613090634346008,
      "learning_rate": 1.3770034924086537e-05,
      "loss": 1.4907,
      "step": 81441
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6957061290740967,
      "learning_rate": 1.376690480823669e-05,
      "loss": 1.6099,
      "step": 81442
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6614115238189697,
      "learning_rate": 1.3763775039831682e-05,
      "loss": 1.4976,
      "step": 81443
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6672871708869934,
      "learning_rate": 1.3760645618875243e-05,
      "loss": 1.5107,
      "step": 81444
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6717908978462219,
      "learning_rate": 1.3757516545371205e-05,
      "loss": 1.5269,
      "step": 81445
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.666519820690155,
      "learning_rate": 1.3754387819323399e-05,
      "loss": 1.4926,
      "step": 81446
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6843641996383667,
      "learning_rate": 1.3751259440735584e-05,
      "loss": 1.5288,
      "step": 81447
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6926692724227905,
      "learning_rate": 1.3748131409611496e-05,
      "loss": 1.5212,
      "step": 81448
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6788363456726074,
      "learning_rate": 1.3745003725955094e-05,
      "loss": 1.4977,
      "step": 81449
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.697861909866333,
      "learning_rate": 1.3741876389769979e-05,
      "loss": 1.5506,
      "step": 81450
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6982777118682861,
      "learning_rate": 1.3738749401060145e-05,
      "loss": 1.4364,
      "step": 81451
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6719993948936462,
      "learning_rate": 1.3735622759829223e-05,
      "loss": 1.5447,
      "step": 81452
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.67522794008255,
      "learning_rate": 1.3732496466081111e-05,
      "loss": 1.5004,
      "step": 81453
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6918148994445801,
      "learning_rate": 1.3729370519819572e-05,
      "loss": 1.3875,
      "step": 81454
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6862449049949646,
      "learning_rate": 1.3726244921048368e-05,
      "loss": 1.5058,
      "step": 81455
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6656541228294373,
      "learning_rate": 1.3723119669771365e-05,
      "loss": 1.4642,
      "step": 81456
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7015170454978943,
      "learning_rate": 1.371999476599226e-05,
      "loss": 1.5286,
      "step": 81457
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6602669358253479,
      "learning_rate": 1.3716870209714948e-05,
      "loss": 1.5016,
      "step": 81458
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6777448654174805,
      "learning_rate": 1.371374600094316e-05,
      "loss": 1.4794,
      "step": 81459
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6788877248764038,
      "learning_rate": 1.371062213968066e-05,
      "loss": 1.4548,
      "step": 81460
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.695572555065155,
      "learning_rate": 1.3707498625931346e-05,
      "loss": 1.5553,
      "step": 81461
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6713118553161621,
      "learning_rate": 1.3704375459698879e-05,
      "loss": 1.4785,
      "step": 81462
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6686714887619019,
      "learning_rate": 1.3701252640987193e-05,
      "loss": 1.5081,
      "step": 81463
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6873824000358582,
      "learning_rate": 1.3698130169799915e-05,
      "loss": 1.4767,
      "step": 81464
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.677052915096283,
      "learning_rate": 1.3695008046141009e-05,
      "loss": 1.5371,
      "step": 81465
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6773728728294373,
      "learning_rate": 1.3691886270014141e-05,
      "loss": 1.5704,
      "step": 81466
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6728793978691101,
      "learning_rate": 1.3688764841423106e-05,
      "loss": 1.5855,
      "step": 81467
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6724927425384521,
      "learning_rate": 1.3685643760371767e-05,
      "loss": 1.5347,
      "step": 81468
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7230173945426941,
      "learning_rate": 1.368252302686389e-05,
      "loss": 1.5381,
      "step": 81469
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6775263547897339,
      "learning_rate": 1.3679402640903202e-05,
      "loss": 1.5122,
      "step": 81470
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6575748324394226,
      "learning_rate": 1.3676282602493504e-05,
      "loss": 1.5426,
      "step": 81471
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7074968814849854,
      "learning_rate": 1.3673162911638658e-05,
      "loss": 1.5447,
      "step": 81472
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.667082667350769,
      "learning_rate": 1.3670043568342427e-05,
      "loss": 1.5066,
      "step": 81473
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6637934446334839,
      "learning_rate": 1.3666924572608506e-05,
      "loss": 1.4819,
      "step": 81474
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6676585078239441,
      "learning_rate": 1.3663805924440796e-05,
      "loss": 1.5398,
      "step": 81475
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6550471782684326,
      "learning_rate": 1.3660687623843058e-05,
      "loss": 1.5344,
      "step": 81476
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6717933416366577,
      "learning_rate": 1.3657569670818991e-05,
      "loss": 1.5394,
      "step": 81477
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6816431879997253,
      "learning_rate": 1.3654452065372456e-05,
      "loss": 1.5751,
      "step": 81478
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6650075316429138,
      "learning_rate": 1.3651334807507253e-05,
      "loss": 1.5374,
      "step": 81479
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6663417220115662,
      "learning_rate": 1.3648217897227143e-05,
      "loss": 1.4776,
      "step": 81480
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6855999827384949,
      "learning_rate": 1.3645101334535858e-05,
      "loss": 1.5679,
      "step": 81481
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6579468250274658,
      "learning_rate": 1.3641985119437293e-05,
      "loss": 1.5304,
      "step": 81482
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.664168655872345,
      "learning_rate": 1.3638869251935147e-05,
      "loss": 1.537,
      "step": 81483
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6673024296760559,
      "learning_rate": 1.3635753732033184e-05,
      "loss": 1.4599,
      "step": 81484
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6789636611938477,
      "learning_rate": 1.3632638559735199e-05,
      "loss": 1.5471,
      "step": 81485
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6916054487228394,
      "learning_rate": 1.362952373504509e-05,
      "loss": 1.4539,
      "step": 81486
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6764081120491028,
      "learning_rate": 1.3626409257966486e-05,
      "loss": 1.4422,
      "step": 81487
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6856308579444885,
      "learning_rate": 1.362329512850322e-05,
      "loss": 1.5506,
      "step": 81488
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.658837616443634,
      "learning_rate": 1.362018134665912e-05,
      "loss": 1.5476,
      "step": 81489
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6564396023750305,
      "learning_rate": 1.3617067912437918e-05,
      "loss": 1.4183,
      "step": 81490
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6817425489425659,
      "learning_rate": 1.3613954825843344e-05,
      "loss": 1.5123,
      "step": 81491
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7018773555755615,
      "learning_rate": 1.3610842086879226e-05,
      "loss": 1.4788,
      "step": 81492
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6661329865455627,
      "learning_rate": 1.360772969554943e-05,
      "loss": 1.5883,
      "step": 81493
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7013041973114014,
      "learning_rate": 1.3604617651857618e-05,
      "loss": 1.5547,
      "step": 81494
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6709006428718567,
      "learning_rate": 1.3601505955807557e-05,
      "loss": 1.5617,
      "step": 81495
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6629775762557983,
      "learning_rate": 1.359839460740314e-05,
      "loss": 1.5889,
      "step": 81496
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6765942573547363,
      "learning_rate": 1.3595283606648067e-05,
      "loss": 1.5446,
      "step": 81497
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6913391947746277,
      "learning_rate": 1.3592172953546065e-05,
      "loss": 1.516,
      "step": 81498
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6628803610801697,
      "learning_rate": 1.3589062648101001e-05,
      "loss": 1.4787,
      "step": 81499
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6640938520431519,
      "learning_rate": 1.358595269031657e-05,
      "loss": 1.4649,
      "step": 81500
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6829240918159485,
      "learning_rate": 1.3582843080196636e-05,
      "loss": 1.5668,
      "step": 81501
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.697746992111206,
      "learning_rate": 1.3579733817744898e-05,
      "loss": 1.518,
      "step": 81502
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6702802181243896,
      "learning_rate": 1.3576624902965217e-05,
      "loss": 1.5188,
      "step": 81503
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6574198603630066,
      "learning_rate": 1.357351633586129e-05,
      "loss": 1.4081,
      "step": 81504
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.696151614189148,
      "learning_rate": 1.3570408116436881e-05,
      "loss": 1.5523,
      "step": 81505
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6729915142059326,
      "learning_rate": 1.3567300244695822e-05,
      "loss": 1.4753,
      "step": 81506
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6753000617027283,
      "learning_rate": 1.3564192720641809e-05,
      "loss": 1.568,
      "step": 81507
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6992520093917847,
      "learning_rate": 1.3561085544278739e-05,
      "loss": 1.5795,
      "step": 81508
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6414667963981628,
      "learning_rate": 1.3557978715610274e-05,
      "loss": 1.5017,
      "step": 81509
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6972545385360718,
      "learning_rate": 1.355487223464018e-05,
      "loss": 1.4945,
      "step": 81510
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6751624941825867,
      "learning_rate": 1.3551766101372319e-05,
      "loss": 1.5032,
      "step": 81511
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7054504156112671,
      "learning_rate": 1.3548660315810356e-05,
      "loss": 1.5304,
      "step": 81512
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6736036539077759,
      "learning_rate": 1.3545554877958153e-05,
      "loss": 1.5197,
      "step": 81513
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6981687545776367,
      "learning_rate": 1.3542449787819376e-05,
      "loss": 1.4502,
      "step": 81514
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6396906971931458,
      "learning_rate": 1.3539345045397953e-05,
      "loss": 1.44,
      "step": 81515
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6793439388275146,
      "learning_rate": 1.3536240650697515e-05,
      "loss": 1.5599,
      "step": 81516
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6699074506759644,
      "learning_rate": 1.3533136603721828e-05,
      "loss": 1.4915,
      "step": 81517
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6845033764839172,
      "learning_rate": 1.3530032904474787e-05,
      "loss": 1.5775,
      "step": 81518
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6645416021347046,
      "learning_rate": 1.3526929552960052e-05,
      "loss": 1.45,
      "step": 81519
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7054412961006165,
      "learning_rate": 1.352382654918136e-05,
      "loss": 1.4827,
      "step": 81520
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6830212473869324,
      "learning_rate": 1.3520723893142538e-05,
      "loss": 1.5133,
      "step": 81521
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6483023762702942,
      "learning_rate": 1.3517621584847415e-05,
      "loss": 1.4831,
      "step": 81522
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7006539702415466,
      "learning_rate": 1.3514519624299658e-05,
      "loss": 1.4901,
      "step": 81523
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6758642792701721,
      "learning_rate": 1.3511418011503028e-05,
      "loss": 1.5702,
      "step": 81524
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6827955842018127,
      "learning_rate": 1.3508316746461355e-05,
      "loss": 1.4573,
      "step": 81525
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7292065024375916,
      "learning_rate": 1.3505215829178406e-05,
      "loss": 1.5091,
      "step": 81526
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6938456296920776,
      "learning_rate": 1.3502115259657842e-05,
      "loss": 1.5167,
      "step": 81527
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6626853942871094,
      "learning_rate": 1.3499015037903527e-05,
      "loss": 1.5949,
      "step": 81528
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6915949583053589,
      "learning_rate": 1.3495915163919224e-05,
      "loss": 1.5825,
      "step": 81529
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6736497282981873,
      "learning_rate": 1.349281563770863e-05,
      "loss": 1.5048,
      "step": 81530
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6614057421684265,
      "learning_rate": 1.3489716459275512e-05,
      "loss": 1.5721,
      "step": 81531
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.673572301864624,
      "learning_rate": 1.348661762862373e-05,
      "loss": 1.5094,
      "step": 81532
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6848268508911133,
      "learning_rate": 1.3483519145756983e-05,
      "loss": 1.5802,
      "step": 81533
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6817176938056946,
      "learning_rate": 1.3480421010678966e-05,
      "loss": 1.5502,
      "step": 81534
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6885496973991394,
      "learning_rate": 1.347732322339351e-05,
      "loss": 1.5195,
      "step": 81535
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6639071106910706,
      "learning_rate": 1.3474225783904446e-05,
      "loss": 1.4861,
      "step": 81536
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6531972289085388,
      "learning_rate": 1.347112869221537e-05,
      "loss": 1.4472,
      "step": 81537
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6505700945854187,
      "learning_rate": 1.3468031948330116e-05,
      "loss": 1.4201,
      "step": 81538
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6515710353851318,
      "learning_rate": 1.346493555225251e-05,
      "loss": 1.5211,
      "step": 81539
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.668266236782074,
      "learning_rate": 1.3461839503986249e-05,
      "loss": 1.5713,
      "step": 81540
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6693145632743835,
      "learning_rate": 1.3458743803535066e-05,
      "loss": 1.436,
      "step": 81541
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6862384080886841,
      "learning_rate": 1.3455648450902723e-05,
      "loss": 1.4676,
      "step": 81542
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6766649484634399,
      "learning_rate": 1.3452553446093083e-05,
      "loss": 1.4785,
      "step": 81543
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6692575812339783,
      "learning_rate": 1.3449458789109779e-05,
      "loss": 1.4452,
      "step": 81544
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6929428577423096,
      "learning_rate": 1.3446364479956573e-05,
      "loss": 1.4949,
      "step": 81545
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6841962933540344,
      "learning_rate": 1.3443270518637328e-05,
      "loss": 1.4799,
      "step": 81546
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6875107884407043,
      "learning_rate": 1.344017690515571e-05,
      "loss": 1.5187,
      "step": 81547
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7135086059570312,
      "learning_rate": 1.3437083639515444e-05,
      "loss": 1.4753,
      "step": 81548
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6870096325874329,
      "learning_rate": 1.34339907217204e-05,
      "loss": 1.4773,
      "step": 81549
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6545301079750061,
      "learning_rate": 1.3430898151774238e-05,
      "loss": 1.5005,
      "step": 81550
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6557239294052124,
      "learning_rate": 1.3427805929680724e-05,
      "loss": 1.5003,
      "step": 81551
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6834316849708557,
      "learning_rate": 1.3424714055443653e-05,
      "loss": 1.5492,
      "step": 81552
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6758095622062683,
      "learning_rate": 1.3421622529066756e-05,
      "loss": 1.549,
      "step": 81553
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6789923310279846,
      "learning_rate": 1.3418531350553796e-05,
      "loss": 1.5159,
      "step": 81554
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6731111407279968,
      "learning_rate": 1.3415440519908472e-05,
      "loss": 1.5156,
      "step": 81555
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6550434827804565,
      "learning_rate": 1.3412350037134611e-05,
      "loss": 1.4864,
      "step": 81556
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6814023852348328,
      "learning_rate": 1.3409259902235946e-05,
      "loss": 1.5038,
      "step": 81557
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6965175271034241,
      "learning_rate": 1.3406170115216174e-05,
      "loss": 1.4521,
      "step": 81558
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6625459790229797,
      "learning_rate": 1.3403080676079058e-05,
      "loss": 1.458,
      "step": 81559
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6686460375785828,
      "learning_rate": 1.3399991584828429e-05,
      "loss": 1.4709,
      "step": 81560
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.669784426689148,
      "learning_rate": 1.3396902841467982e-05,
      "loss": 1.4964,
      "step": 81561
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7154752016067505,
      "learning_rate": 1.339381444600145e-05,
      "loss": 1.5961,
      "step": 81562
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6679978370666504,
      "learning_rate": 1.3390726398432594e-05,
      "loss": 1.4721,
      "step": 81563
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6722396016120911,
      "learning_rate": 1.3387638698765213e-05,
      "loss": 1.4669,
      "step": 81564
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6867384314537048,
      "learning_rate": 1.3384551347002937e-05,
      "loss": 1.5026,
      "step": 81565
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6537442803382874,
      "learning_rate": 1.3381464343149629e-05,
      "loss": 1.4936,
      "step": 81566
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6749774813652039,
      "learning_rate": 1.3378377687208953e-05,
      "loss": 1.5255,
      "step": 81567
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6843744516372681,
      "learning_rate": 1.3375291379184739e-05,
      "loss": 1.5085,
      "step": 81568
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6571642160415649,
      "learning_rate": 1.3372205419080651e-05,
      "loss": 1.5138,
      "step": 81569
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6715877056121826,
      "learning_rate": 1.3369119806900486e-05,
      "loss": 1.4559,
      "step": 81570
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6666328310966492,
      "learning_rate": 1.3366034542648007e-05,
      "loss": 1.4815,
      "step": 81571
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6782416105270386,
      "learning_rate": 1.3362949626326879e-05,
      "loss": 1.6152,
      "step": 81572
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6685920357704163,
      "learning_rate": 1.3359865057940933e-05,
      "loss": 1.5195,
      "step": 81573
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6724399328231812,
      "learning_rate": 1.335678083749383e-05,
      "loss": 1.5413,
      "step": 81574
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6837069988250732,
      "learning_rate": 1.3353696964989435e-05,
      "loss": 1.4706,
      "step": 81575
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6727783679962158,
      "learning_rate": 1.3350613440431379e-05,
      "loss": 1.4806,
      "step": 81576
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6580297946929932,
      "learning_rate": 1.3347530263823425e-05,
      "loss": 1.5374,
      "step": 81577
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6693474650382996,
      "learning_rate": 1.3344447435169337e-05,
      "loss": 1.4856,
      "step": 81578
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6578753590583801,
      "learning_rate": 1.3341364954472845e-05,
      "loss": 1.5409,
      "step": 81579
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6895366907119751,
      "learning_rate": 1.3338282821737745e-05,
      "loss": 1.5448,
      "step": 81580
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7045639753341675,
      "learning_rate": 1.3335201036967669e-05,
      "loss": 1.4585,
      "step": 81581
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6712055206298828,
      "learning_rate": 1.333211960016648e-05,
      "loss": 1.4593,
      "step": 81582
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6538681387901306,
      "learning_rate": 1.3329038511337842e-05,
      "loss": 1.4744,
      "step": 81583
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6780025362968445,
      "learning_rate": 1.3325957770485485e-05,
      "loss": 1.5074,
      "step": 81584
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6832975149154663,
      "learning_rate": 1.3322877377613206e-05,
      "loss": 1.525,
      "step": 81585
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6569845676422119,
      "learning_rate": 1.3319797332724736e-05,
      "loss": 1.4936,
      "step": 81586
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6775417923927307,
      "learning_rate": 1.3316717635823737e-05,
      "loss": 1.5747,
      "step": 81587
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6542737483978271,
      "learning_rate": 1.3313638286914008e-05,
      "loss": 1.5285,
      "step": 81588
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6759411692619324,
      "learning_rate": 1.3310559285999311e-05,
      "loss": 1.4553,
      "step": 81589
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6813042163848877,
      "learning_rate": 1.3307480633083344e-05,
      "loss": 1.4995,
      "step": 81590
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6662094593048096,
      "learning_rate": 1.3304402328169839e-05,
      "loss": 1.4984,
      "step": 81591
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6634075045585632,
      "learning_rate": 1.3301324371262557e-05,
      "loss": 1.4969,
      "step": 81592
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.706721305847168,
      "learning_rate": 1.3298246762365262e-05,
      "loss": 1.5123,
      "step": 81593
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6675794124603271,
      "learning_rate": 1.3295169501481584e-05,
      "loss": 1.5176,
      "step": 81594
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6978482007980347,
      "learning_rate": 1.3292092588615322e-05,
      "loss": 1.4755,
      "step": 81595
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6768308281898499,
      "learning_rate": 1.3289016023770272e-05,
      "loss": 1.4818,
      "step": 81596
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6515552401542664,
      "learning_rate": 1.3285939806950097e-05,
      "loss": 1.4925,
      "step": 81597
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.662507176399231,
      "learning_rate": 1.3282863938158527e-05,
      "loss": 1.5145,
      "step": 81598
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6865513920783997,
      "learning_rate": 1.3279788417399329e-05,
      "loss": 1.5553,
      "step": 81599
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.680770754814148,
      "learning_rate": 1.327671324467623e-05,
      "loss": 1.5593,
      "step": 81600
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6677489280700684,
      "learning_rate": 1.3273638419992927e-05,
      "loss": 1.5119,
      "step": 81601
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6771953701972961,
      "learning_rate": 1.3270563943353185e-05,
      "loss": 1.5344,
      "step": 81602
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.7460562586784363,
      "learning_rate": 1.3267489814760734e-05,
      "loss": 1.5489,
      "step": 81603
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6900125741958618,
      "learning_rate": 1.3264416034219338e-05,
      "loss": 1.5479,
      "step": 81604
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6666252017021179,
      "learning_rate": 1.3261342601732627e-05,
      "loss": 1.4339,
      "step": 81605
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6754133105278015,
      "learning_rate": 1.3258269517304464e-05,
      "loss": 1.4643,
      "step": 81606
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6627782583236694,
      "learning_rate": 1.3255196780938482e-05,
      "loss": 1.412,
      "step": 81607
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6903282999992371,
      "learning_rate": 1.3252124392638442e-05,
      "loss": 1.5042,
      "step": 81608
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6726387143135071,
      "learning_rate": 1.3249052352408041e-05,
      "loss": 1.4902,
      "step": 81609
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6505632400512695,
      "learning_rate": 1.3245980660251076e-05,
      "loss": 1.4831,
      "step": 81610
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6814536452293396,
      "learning_rate": 1.3242909316171246e-05,
      "loss": 1.5128,
      "step": 81611
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6652085781097412,
      "learning_rate": 1.3239838320172247e-05,
      "loss": 1.4938,
      "step": 81612
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6762163043022156,
      "learning_rate": 1.3236767672257875e-05,
      "loss": 1.577,
      "step": 81613
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6648550629615784,
      "learning_rate": 1.3233697372431795e-05,
      "loss": 1.5086,
      "step": 81614
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.672541618347168,
      "learning_rate": 1.3230627420697704e-05,
      "loss": 1.5146,
      "step": 81615
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6501734256744385,
      "learning_rate": 1.322755781705943e-05,
      "loss": 1.5877,
      "step": 81616
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6725524067878723,
      "learning_rate": 1.3224488561520608e-05,
      "loss": 1.5051,
      "step": 81617
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.704508900642395,
      "learning_rate": 1.3221419654085063e-05,
      "loss": 1.519,
      "step": 81618
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6680461764335632,
      "learning_rate": 1.3218351094756396e-05,
      "loss": 1.5088,
      "step": 81619
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7029207348823547,
      "learning_rate": 1.3215282883538435e-05,
      "loss": 1.4919,
      "step": 81620
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.671564519405365,
      "learning_rate": 1.321221502043488e-05,
      "loss": 1.5029,
      "step": 81621
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6766236424446106,
      "learning_rate": 1.3209147505449392e-05,
      "loss": 1.5393,
      "step": 81622
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6955918669700623,
      "learning_rate": 1.3206080338585767e-05,
      "loss": 1.565,
      "step": 81623
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6914499402046204,
      "learning_rate": 1.3203013519847706e-05,
      "loss": 1.4993,
      "step": 81624
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6683311462402344,
      "learning_rate": 1.3199947049238934e-05,
      "loss": 1.5643,
      "step": 81625
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6644401550292969,
      "learning_rate": 1.3196880926763153e-05,
      "loss": 1.4876,
      "step": 81626
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6796239018440247,
      "learning_rate": 1.3193815152424092e-05,
      "loss": 1.4582,
      "step": 81627
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6558010578155518,
      "learning_rate": 1.3190749726225513e-05,
      "loss": 1.5079,
      "step": 81628
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6639853715896606,
      "learning_rate": 1.3187684648171048e-05,
      "loss": 1.4188,
      "step": 81629
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6527236700057983,
      "learning_rate": 1.3184619918264528e-05,
      "loss": 1.5055,
      "step": 81630
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6885248422622681,
      "learning_rate": 1.318155553650958e-05,
      "loss": 1.5615,
      "step": 81631
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6679903864860535,
      "learning_rate": 1.3178491502910005e-05,
      "loss": 1.4643,
      "step": 81632
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6838541626930237,
      "learning_rate": 1.3175427817469496e-05,
      "loss": 1.5375,
      "step": 81633
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6662533283233643,
      "learning_rate": 1.3172364480191688e-05,
      "loss": 1.5465,
      "step": 81634
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6826152801513672,
      "learning_rate": 1.3169301491080408e-05,
      "loss": 1.5465,
      "step": 81635
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6642201542854309,
      "learning_rate": 1.3166238850139354e-05,
      "loss": 1.4842,
      "step": 81636
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6989644765853882,
      "learning_rate": 1.3163176557372157e-05,
      "loss": 1.553,
      "step": 81637
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6704391241073608,
      "learning_rate": 1.3160114612782612e-05,
      "loss": 1.5251,
      "step": 81638
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6858749985694885,
      "learning_rate": 1.3157053016374486e-05,
      "loss": 1.5001,
      "step": 81639
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6738757491111755,
      "learning_rate": 1.3153991768151407e-05,
      "loss": 1.5239,
      "step": 81640
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6807659268379211,
      "learning_rate": 1.3150930868117071e-05,
      "loss": 1.4937,
      "step": 81641
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6912241578102112,
      "learning_rate": 1.314787031627531e-05,
      "loss": 1.5321,
      "step": 81642
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6751722693443298,
      "learning_rate": 1.3144810112629755e-05,
      "loss": 1.4888,
      "step": 81643
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6872953176498413,
      "learning_rate": 1.314175025718407e-05,
      "loss": 1.5702,
      "step": 81644
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6651155948638916,
      "learning_rate": 1.313869074994205e-05,
      "loss": 1.4721,
      "step": 81645
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6483442187309265,
      "learning_rate": 1.3135631590907492e-05,
      "loss": 1.4953,
      "step": 81646
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6943851113319397,
      "learning_rate": 1.3132572780083928e-05,
      "loss": 1.4465,
      "step": 81647
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6757203936576843,
      "learning_rate": 1.312951431747512e-05,
      "loss": 1.4844,
      "step": 81648
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6961252093315125,
      "learning_rate": 1.3126456203084867e-05,
      "loss": 1.4374,
      "step": 81649
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6706269979476929,
      "learning_rate": 1.3123398436916833e-05,
      "loss": 1.4559,
      "step": 81650
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6833236813545227,
      "learning_rate": 1.3120341018974679e-05,
      "loss": 1.4668,
      "step": 81651
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6635858416557312,
      "learning_rate": 1.311728394926217e-05,
      "loss": 1.5188,
      "step": 81652
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6585090756416321,
      "learning_rate": 1.3114227227783103e-05,
      "loss": 1.4842,
      "step": 81653
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6698995232582092,
      "learning_rate": 1.3111170854540975e-05,
      "loss": 1.4878,
      "step": 81654
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7218919396400452,
      "learning_rate": 1.3108114829539651e-05,
      "loss": 1.6626,
      "step": 81655
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6736998558044434,
      "learning_rate": 1.3105059152782826e-05,
      "loss": 1.5376,
      "step": 81656
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6946716904640198,
      "learning_rate": 1.3102003824274165e-05,
      "loss": 1.4976,
      "step": 81657
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6880620121955872,
      "learning_rate": 1.3098948844017399e-05,
      "loss": 1.4276,
      "step": 81658
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.658039927482605,
      "learning_rate": 1.3095894212016222e-05,
      "loss": 1.487,
      "step": 81659
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7032572031021118,
      "learning_rate": 1.3092839928274435e-05,
      "loss": 1.506,
      "step": 81660
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6634056568145752,
      "learning_rate": 1.3089785992795564e-05,
      "loss": 1.571,
      "step": 81661
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6903849244117737,
      "learning_rate": 1.3086732405583445e-05,
      "loss": 1.5153,
      "step": 81662
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.690547525882721,
      "learning_rate": 1.3083679166641803e-05,
      "loss": 1.5341,
      "step": 81663
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6626615524291992,
      "learning_rate": 1.3080626275974304e-05,
      "loss": 1.4897,
      "step": 81664
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6797609329223633,
      "learning_rate": 1.307757373358458e-05,
      "loss": 1.4294,
      "step": 81665
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6798901557922363,
      "learning_rate": 1.3074521539476457e-05,
      "loss": 1.5402,
      "step": 81666
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6927284002304077,
      "learning_rate": 1.3071469693653602e-05,
      "loss": 1.581,
      "step": 81667
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7069081664085388,
      "learning_rate": 1.3068418196119645e-05,
      "loss": 1.5432,
      "step": 81668
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.683289110660553,
      "learning_rate": 1.306536704687835e-05,
      "loss": 1.4836,
      "step": 81669
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6603168845176697,
      "learning_rate": 1.306231624593348e-05,
      "loss": 1.5611,
      "step": 81670
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6765984892845154,
      "learning_rate": 1.3059265793288664e-05,
      "loss": 1.5075,
      "step": 81671
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6507866978645325,
      "learning_rate": 1.3056215688947602e-05,
      "loss": 1.5165,
      "step": 81672
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6434439420700073,
      "learning_rate": 1.3053165932914056e-05,
      "loss": 1.4711,
      "step": 81673
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6612294316291809,
      "learning_rate": 1.3050116525191657e-05,
      "loss": 1.5304,
      "step": 81674
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6687284111976624,
      "learning_rate": 1.3047067465784101e-05,
      "loss": 1.4659,
      "step": 81675
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6988056302070618,
      "learning_rate": 1.3044018754695151e-05,
      "loss": 1.4573,
      "step": 81676
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6887019276618958,
      "learning_rate": 1.3040970391928507e-05,
      "loss": 1.4849,
      "step": 81677
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7056971788406372,
      "learning_rate": 1.303792237748783e-05,
      "loss": 1.5015,
      "step": 81678
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6608070731163025,
      "learning_rate": 1.303487471137682e-05,
      "loss": 1.4954,
      "step": 81679
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6753056645393372,
      "learning_rate": 1.3031827393599204e-05,
      "loss": 1.5646,
      "step": 81680
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6737619042396545,
      "learning_rate": 1.302878042415868e-05,
      "loss": 1.5151,
      "step": 81681
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6941566467285156,
      "learning_rate": 1.3025733803058913e-05,
      "loss": 1.5559,
      "step": 81682
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6875674724578857,
      "learning_rate": 1.3022687530303633e-05,
      "loss": 1.4745,
      "step": 81683
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.655890941619873,
      "learning_rate": 1.3019641605896503e-05,
      "loss": 1.5425,
      "step": 81684
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6781730651855469,
      "learning_rate": 1.3016596029841253e-05,
      "loss": 1.443,
      "step": 81685
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6780067086219788,
      "learning_rate": 1.3013550802141548e-05,
      "loss": 1.5703,
      "step": 81686
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6891552209854126,
      "learning_rate": 1.3010505922801151e-05,
      "loss": 1.5221,
      "step": 81687
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6889453530311584,
      "learning_rate": 1.3007461391823727e-05,
      "loss": 1.5529,
      "step": 81688
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.664360523223877,
      "learning_rate": 1.3004417209212903e-05,
      "loss": 1.5861,
      "step": 81689
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6760477423667908,
      "learning_rate": 1.3001373374972478e-05,
      "loss": 1.4866,
      "step": 81690
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7098925709724426,
      "learning_rate": 1.2998329889106051e-05,
      "loss": 1.4843,
      "step": 81691
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6675272583961487,
      "learning_rate": 1.2995286751617383e-05,
      "loss": 1.5133,
      "step": 81692
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6923931837081909,
      "learning_rate": 1.2992243962510174e-05,
      "loss": 1.5355,
      "step": 81693
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6819199323654175,
      "learning_rate": 1.298920152178805e-05,
      "loss": 1.4827,
      "step": 81694
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7018285393714905,
      "learning_rate": 1.2986159429454778e-05,
      "loss": 1.5174,
      "step": 81695
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6765308380126953,
      "learning_rate": 1.2983117685513989e-05,
      "loss": 1.471,
      "step": 81696
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6591318249702454,
      "learning_rate": 1.2980076289969443e-05,
      "loss": 1.5173,
      "step": 81697
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7096905708312988,
      "learning_rate": 1.2977035242824773e-05,
      "loss": 1.5578,
      "step": 81698
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6574603319168091,
      "learning_rate": 1.2973994544083711e-05,
      "loss": 1.5178,
      "step": 81699
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.676328182220459,
      "learning_rate": 1.2970954193749916e-05,
      "loss": 1.4963,
      "step": 81700
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.68186354637146,
      "learning_rate": 1.2967914191827055e-05,
      "loss": 1.4644,
      "step": 81701
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7148668766021729,
      "learning_rate": 1.2964874538318926e-05,
      "loss": 1.6155,
      "step": 81702
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6818187832832336,
      "learning_rate": 1.2961835233229124e-05,
      "loss": 1.5546,
      "step": 81703
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6960989236831665,
      "learning_rate": 1.2958796276561312e-05,
      "loss": 1.5833,
      "step": 81704
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6742036938667297,
      "learning_rate": 1.2955757668319222e-05,
      "loss": 1.46,
      "step": 81705
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6601957678794861,
      "learning_rate": 1.2952719408506617e-05,
      "loss": 1.5692,
      "step": 81706
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.670936644077301,
      "learning_rate": 1.2949681497127096e-05,
      "loss": 1.515,
      "step": 81707
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6705583333969116,
      "learning_rate": 1.294664393418432e-05,
      "loss": 1.4921,
      "step": 81708
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6654960513114929,
      "learning_rate": 1.2943606719682086e-05,
      "loss": 1.4673,
      "step": 81709
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6643180251121521,
      "learning_rate": 1.2940569853623995e-05,
      "loss": 1.5094,
      "step": 81710
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6579288840293884,
      "learning_rate": 1.293753333601374e-05,
      "loss": 1.5072,
      "step": 81711
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7020115256309509,
      "learning_rate": 1.2934497166855018e-05,
      "loss": 1.5989,
      "step": 81712
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7194057703018188,
      "learning_rate": 1.2931461346151562e-05,
      "loss": 1.5547,
      "step": 81713
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6924769282341003,
      "learning_rate": 1.2928425873907e-05,
      "loss": 1.6106,
      "step": 81714
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6724086403846741,
      "learning_rate": 1.2925390750124998e-05,
      "loss": 1.5049,
      "step": 81715
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6666147708892822,
      "learning_rate": 1.2922355974809284e-05,
      "loss": 1.5068,
      "step": 81716
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.694911003112793,
      "learning_rate": 1.2919321547963556e-05,
      "loss": 1.482,
      "step": 81717
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6635875105857849,
      "learning_rate": 1.2916287469591447e-05,
      "loss": 1.488,
      "step": 81718
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6967538595199585,
      "learning_rate": 1.291325373969665e-05,
      "loss": 1.4826,
      "step": 81719
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6887466311454773,
      "learning_rate": 1.2910220358282897e-05,
      "loss": 1.4639,
      "step": 81720
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6999073028564453,
      "learning_rate": 1.2907187325353851e-05,
      "loss": 1.5148,
      "step": 81721
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7182807922363281,
      "learning_rate": 1.2904154640913145e-05,
      "loss": 1.5002,
      "step": 81722
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6678544282913208,
      "learning_rate": 1.2901122304964507e-05,
      "loss": 1.4886,
      "step": 81723
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6831765174865723,
      "learning_rate": 1.28980903175116e-05,
      "loss": 1.5556,
      "step": 81724
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6646715402603149,
      "learning_rate": 1.289505867855809e-05,
      "loss": 1.5218,
      "step": 81725
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6743375658988953,
      "learning_rate": 1.2892027388107673e-05,
      "loss": 1.4581,
      "step": 81726
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6675506830215454,
      "learning_rate": 1.2888996446164079e-05,
      "loss": 1.4674,
      "step": 81727
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6761069893836975,
      "learning_rate": 1.2885965852730939e-05,
      "loss": 1.4982,
      "step": 81728
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6898816823959351,
      "learning_rate": 1.2882935607811884e-05,
      "loss": 1.5174,
      "step": 81729
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6792916655540466,
      "learning_rate": 1.2879905711410676e-05,
      "loss": 1.5321,
      "step": 81730
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7089036703109741,
      "learning_rate": 1.2876876163530947e-05,
      "loss": 1.5677,
      "step": 81731
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6827495098114014,
      "learning_rate": 1.287384696417636e-05,
      "loss": 1.5203,
      "step": 81732
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6768069863319397,
      "learning_rate": 1.2870818113350679e-05,
      "loss": 1.4786,
      "step": 81733
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6545069217681885,
      "learning_rate": 1.2867789611057433e-05,
      "loss": 1.4968,
      "step": 81734
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6767898201942444,
      "learning_rate": 1.2864761457300455e-05,
      "loss": 1.5103,
      "step": 81735
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7051932215690613,
      "learning_rate": 1.2861733652083306e-05,
      "loss": 1.4494,
      "step": 81736
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6884517669677734,
      "learning_rate": 1.2858706195409717e-05,
      "loss": 1.5164,
      "step": 81737
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6646609306335449,
      "learning_rate": 1.2855679087283388e-05,
      "loss": 1.4806,
      "step": 81738
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6701335310935974,
      "learning_rate": 1.2852652327707913e-05,
      "loss": 1.5618,
      "step": 81739
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6654253602027893,
      "learning_rate": 1.2849625916687023e-05,
      "loss": 1.4981,
      "step": 81740
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7121112942695618,
      "learning_rate": 1.2846599854224349e-05,
      "loss": 1.4355,
      "step": 81741
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6928762793540955,
      "learning_rate": 1.284357414032362e-05,
      "loss": 1.5268,
      "step": 81742
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6827189326286316,
      "learning_rate": 1.2840548774988502e-05,
      "loss": 1.5602,
      "step": 81743
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6981121301651001,
      "learning_rate": 1.2837523758222623e-05,
      "loss": 1.5531,
      "step": 81744
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6878350377082825,
      "learning_rate": 1.2834499090029681e-05,
      "loss": 1.5646,
      "step": 81745
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7001559734344482,
      "learning_rate": 1.2831474770413308e-05,
      "loss": 1.5479,
      "step": 81746
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6733409762382507,
      "learning_rate": 1.2828450799377265e-05,
      "loss": 1.4759,
      "step": 81747
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7189986705780029,
      "learning_rate": 1.2825427176925152e-05,
      "loss": 1.5879,
      "step": 81748
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6799882054328918,
      "learning_rate": 1.2822403903060663e-05,
      "loss": 1.5016,
      "step": 81749
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6716700792312622,
      "learning_rate": 1.2819380977787463e-05,
      "loss": 1.5072,
      "step": 81750
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6540207266807556,
      "learning_rate": 1.2816358401109216e-05,
      "loss": 1.5178,
      "step": 81751
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.682353675365448,
      "learning_rate": 1.2813336173029586e-05,
      "loss": 1.5598,
      "step": 81752
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6588881015777588,
      "learning_rate": 1.2810314293552271e-05,
      "loss": 1.5706,
      "step": 81753
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6639859080314636,
      "learning_rate": 1.2807292762680898e-05,
      "loss": 1.5099,
      "step": 81754
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6826723217964172,
      "learning_rate": 1.2804271580419135e-05,
      "loss": 1.5151,
      "step": 81755
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6978822946548462,
      "learning_rate": 1.2801250746770742e-05,
      "loss": 1.4609,
      "step": 81756
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6925495266914368,
      "learning_rate": 1.2798230261739284e-05,
      "loss": 1.536,
      "step": 81757
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6901238560676575,
      "learning_rate": 1.2795210125328392e-05,
      "loss": 1.489,
      "step": 81758
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6845558285713196,
      "learning_rate": 1.2792190337541896e-05,
      "loss": 1.501,
      "step": 81759
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6690849661827087,
      "learning_rate": 1.2789170898383328e-05,
      "loss": 1.4675,
      "step": 81760
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6928525567054749,
      "learning_rate": 1.278615180785635e-05,
      "loss": 1.4834,
      "step": 81761
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6794993877410889,
      "learning_rate": 1.2783133065964657e-05,
      "loss": 1.491,
      "step": 81762
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6569541692733765,
      "learning_rate": 1.2780114672712016e-05,
      "loss": 1.4817,
      "step": 81763
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6548681855201721,
      "learning_rate": 1.2777096628101924e-05,
      "loss": 1.5186,
      "step": 81764
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6557973027229309,
      "learning_rate": 1.277407893213811e-05,
      "loss": 1.5011,
      "step": 81765
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7012732028961182,
      "learning_rate": 1.2771061584824271e-05,
      "loss": 1.6625,
      "step": 81766
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6713382005691528,
      "learning_rate": 1.2768044586164039e-05,
      "loss": 1.5064,
      "step": 81767
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.658089280128479,
      "learning_rate": 1.2765027936161043e-05,
      "loss": 1.5155,
      "step": 81768
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6805440783500671,
      "learning_rate": 1.2762011634819014e-05,
      "loss": 1.5474,
      "step": 81769
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6555231213569641,
      "learning_rate": 1.2758995682141615e-05,
      "loss": 1.4627,
      "step": 81770
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6571370363235474,
      "learning_rate": 1.2755980078132411e-05,
      "loss": 1.4911,
      "step": 81771
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6880297064781189,
      "learning_rate": 1.2752964822795131e-05,
      "loss": 1.5013,
      "step": 81772
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6651290655136108,
      "learning_rate": 1.274994991613344e-05,
      "loss": 1.449,
      "step": 81773
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6635078191757202,
      "learning_rate": 1.2746935358151033e-05,
      "loss": 1.4583,
      "step": 81774
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6798949837684631,
      "learning_rate": 1.2743921148851444e-05,
      "loss": 1.4454,
      "step": 81775
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6911336779594421,
      "learning_rate": 1.2740907288238433e-05,
      "loss": 1.5735,
      "step": 81776
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6990380883216858,
      "learning_rate": 1.27378937763157e-05,
      "loss": 1.5288,
      "step": 81777
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6913295388221741,
      "learning_rate": 1.273488061308674e-05,
      "loss": 1.5023,
      "step": 81778
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.672150194644928,
      "learning_rate": 1.2731867798555352e-05,
      "loss": 1.5342,
      "step": 81779
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6681183576583862,
      "learning_rate": 1.2728855332725163e-05,
      "loss": 1.5058,
      "step": 81780
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6767132878303528,
      "learning_rate": 1.2725843215599808e-05,
      "loss": 1.4578,
      "step": 81781
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6729104518890381,
      "learning_rate": 1.2722831447182912e-05,
      "loss": 1.5024,
      "step": 81782
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6777870059013367,
      "learning_rate": 1.2719820027478245e-05,
      "loss": 1.517,
      "step": 81783
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6865825057029724,
      "learning_rate": 1.2716808956489333e-05,
      "loss": 1.4785,
      "step": 81784
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6777639389038086,
      "learning_rate": 1.2713798234219907e-05,
      "loss": 1.5552,
      "step": 81785
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6636133790016174,
      "learning_rate": 1.2710787860673566e-05,
      "loss": 1.4778,
      "step": 81786
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6876553893089294,
      "learning_rate": 1.2707777835854038e-05,
      "loss": 1.5287,
      "step": 81787
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6728789210319519,
      "learning_rate": 1.2704768159764922e-05,
      "loss": 1.4987,
      "step": 81788
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7072272896766663,
      "learning_rate": 1.270175883240988e-05,
      "loss": 1.5314,
      "step": 81789
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6918578147888184,
      "learning_rate": 1.2698749853792578e-05,
      "loss": 1.5074,
      "step": 81790
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6824818253517151,
      "learning_rate": 1.269574122391671e-05,
      "loss": 1.4702,
      "step": 81791
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6529644727706909,
      "learning_rate": 1.2692732942785811e-05,
      "loss": 1.4266,
      "step": 81792
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6662247180938721,
      "learning_rate": 1.268972501040364e-05,
      "loss": 1.4286,
      "step": 81793
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6934313178062439,
      "learning_rate": 1.2686717426773762e-05,
      "loss": 1.4812,
      "step": 81794
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6722521781921387,
      "learning_rate": 1.268371019189991e-05,
      "loss": 1.4959,
      "step": 81795
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6950443983078003,
      "learning_rate": 1.2680703305785677e-05,
      "loss": 1.4831,
      "step": 81796
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6568776965141296,
      "learning_rate": 1.2677696768434798e-05,
      "loss": 1.4958,
      "step": 81797
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7140166163444519,
      "learning_rate": 1.2674690579850833e-05,
      "loss": 1.5619,
      "step": 81798
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6623507738113403,
      "learning_rate": 1.2671684740037413e-05,
      "loss": 1.5227,
      "step": 81799
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6847689151763916,
      "learning_rate": 1.266867924899827e-05,
      "loss": 1.5613,
      "step": 81800
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6525682806968689,
      "learning_rate": 1.2665674106737e-05,
      "loss": 1.5438,
      "step": 81801
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.664452314376831,
      "learning_rate": 1.2662669313257268e-05,
      "loss": 1.4683,
      "step": 81802
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6610692739486694,
      "learning_rate": 1.2659664868562702e-05,
      "loss": 1.5658,
      "step": 81803
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6645461916923523,
      "learning_rate": 1.2656660772657001e-05,
      "loss": 1.5081,
      "step": 81804
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6858150959014893,
      "learning_rate": 1.2653657025543796e-05,
      "loss": 1.5656,
      "step": 81805
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6559849381446838,
      "learning_rate": 1.2650653627226648e-05,
      "loss": 1.5214,
      "step": 81806
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7323688268661499,
      "learning_rate": 1.264765057770929e-05,
      "loss": 1.5786,
      "step": 81807
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6480178236961365,
      "learning_rate": 1.2644647876995351e-05,
      "loss": 1.4265,
      "step": 81808
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6791114211082458,
      "learning_rate": 1.2641645525088463e-05,
      "loss": 1.4936,
      "step": 81809
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6763962507247925,
      "learning_rate": 1.263864352199232e-05,
      "loss": 1.5069,
      "step": 81810
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6723532676696777,
      "learning_rate": 1.2635641867710455e-05,
      "loss": 1.5513,
      "step": 81811
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6668620705604553,
      "learning_rate": 1.2632640562246633e-05,
      "loss": 1.4228,
      "step": 81812
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6714205741882324,
      "learning_rate": 1.262963960560438e-05,
      "loss": 1.4895,
      "step": 81813
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6608350276947021,
      "learning_rate": 1.2626638997787464e-05,
      "loss": 1.4957,
      "step": 81814
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6938888430595398,
      "learning_rate": 1.2623638738799446e-05,
      "loss": 1.5522,
      "step": 81815
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6703647971153259,
      "learning_rate": 1.2620638828643992e-05,
      "loss": 1.4756,
      "step": 81816
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7009762525558472,
      "learning_rate": 1.2617639267324765e-05,
      "loss": 1.5292,
      "step": 81817
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6651784181594849,
      "learning_rate": 1.2614640054845326e-05,
      "loss": 1.4679,
      "step": 81818
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6875333189964294,
      "learning_rate": 1.2611641191209409e-05,
      "loss": 1.5186,
      "step": 81819
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6826637387275696,
      "learning_rate": 1.2608642676420611e-05,
      "loss": 1.5153,
      "step": 81820
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6822152137756348,
      "learning_rate": 1.2605644510482526e-05,
      "loss": 1.5248,
      "step": 81821
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.678386390209198,
      "learning_rate": 1.2602646693398888e-05,
      "loss": 1.4947,
      "step": 81822
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6864263415336609,
      "learning_rate": 1.2599649225173292e-05,
      "loss": 1.5302,
      "step": 81823
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6696119904518127,
      "learning_rate": 1.2596652105809368e-05,
      "loss": 1.4795,
      "step": 81824
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6907600164413452,
      "learning_rate": 1.2593655335310748e-05,
      "loss": 1.4803,
      "step": 81825
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6700797080993652,
      "learning_rate": 1.2590658913681128e-05,
      "loss": 1.5399,
      "step": 81826
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6858159303665161,
      "learning_rate": 1.2587662840924074e-05,
      "loss": 1.5279,
      "step": 81827
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6807040572166443,
      "learning_rate": 1.2584667117043212e-05,
      "loss": 1.5002,
      "step": 81828
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6682448983192444,
      "learning_rate": 1.2581671742042244e-05,
      "loss": 1.531,
      "step": 81829
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6686417460441589,
      "learning_rate": 1.2578676715924796e-05,
      "loss": 1.4994,
      "step": 81830
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6899359822273254,
      "learning_rate": 1.2575682038694467e-05,
      "loss": 1.4941,
      "step": 81831
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6778573989868164,
      "learning_rate": 1.257268771035489e-05,
      "loss": 1.4795,
      "step": 81832
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6998416781425476,
      "learning_rate": 1.2569693730909758e-05,
      "loss": 1.4975,
      "step": 81833
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6862500309944153,
      "learning_rate": 1.256670010036267e-05,
      "loss": 1.5098,
      "step": 81834
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.678612470626831,
      "learning_rate": 1.2563706818717223e-05,
      "loss": 1.5058,
      "step": 81835
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7066422700881958,
      "learning_rate": 1.2560713885977081e-05,
      "loss": 1.5324,
      "step": 81836
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6817200183868408,
      "learning_rate": 1.2557721302145906e-05,
      "loss": 1.5698,
      "step": 81837
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6777312159538269,
      "learning_rate": 1.2554729067227331e-05,
      "loss": 1.5006,
      "step": 81838
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6838732957839966,
      "learning_rate": 1.2551737181224886e-05,
      "loss": 1.4709,
      "step": 81839
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7032957077026367,
      "learning_rate": 1.2548745644142333e-05,
      "loss": 1.4705,
      "step": 81840
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6704705357551575,
      "learning_rate": 1.254575445598327e-05,
      "loss": 1.5065,
      "step": 81841
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6968343257904053,
      "learning_rate": 1.2542763616751228e-05,
      "loss": 1.4921,
      "step": 81842
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6728852391242981,
      "learning_rate": 1.2539773126449936e-05,
      "loss": 1.5261,
      "step": 81843
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6668437719345093,
      "learning_rate": 1.253678298508306e-05,
      "loss": 1.4304,
      "step": 81844
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6518728733062744,
      "learning_rate": 1.2533793192654162e-05,
      "loss": 1.523,
      "step": 81845
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6839228868484497,
      "learning_rate": 1.253080374916684e-05,
      "loss": 1.4413,
      "step": 81846
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6821906566619873,
      "learning_rate": 1.252781465462479e-05,
      "loss": 1.5475,
      "step": 81847
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7105129957199097,
      "learning_rate": 1.2524825909031643e-05,
      "loss": 1.4767,
      "step": 81848
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6568978428840637,
      "learning_rate": 1.2521837512390964e-05,
      "loss": 1.5287,
      "step": 81849
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6636030077934265,
      "learning_rate": 1.2518849464706415e-05,
      "loss": 1.4449,
      "step": 81850
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6759073734283447,
      "learning_rate": 1.2515861765981628e-05,
      "loss": 1.5897,
      "step": 81851
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6781147718429565,
      "learning_rate": 1.2512874416220265e-05,
      "loss": 1.5823,
      "step": 81852
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6596708297729492,
      "learning_rate": 1.2509887415425857e-05,
      "loss": 1.5454,
      "step": 81853
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6853281259536743,
      "learning_rate": 1.2506900763602101e-05,
      "loss": 1.5525,
      "step": 81854
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6904252767562866,
      "learning_rate": 1.2503914460752629e-05,
      "loss": 1.4778,
      "step": 81855
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6593850255012512,
      "learning_rate": 1.2500928506881035e-05,
      "loss": 1.5351,
      "step": 81856
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6858469843864441,
      "learning_rate": 1.2497942901990953e-05,
      "loss": 1.5455,
      "step": 81857
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6497933864593506,
      "learning_rate": 1.2494957646085979e-05,
      "loss": 1.5109,
      "step": 81858
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7069394588470459,
      "learning_rate": 1.2491972739169808e-05,
      "loss": 1.5133,
      "step": 81859
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6815992593765259,
      "learning_rate": 1.2488988181246007e-05,
      "loss": 1.5399,
      "step": 81860
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.698472797870636,
      "learning_rate": 1.248600397231817e-05,
      "loss": 1.5416,
      "step": 81861
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6568604111671448,
      "learning_rate": 1.248302011239003e-05,
      "loss": 1.4462,
      "step": 81862
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6915903687477112,
      "learning_rate": 1.2480036601465081e-05,
      "loss": 1.5072,
      "step": 81863
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6969314813613892,
      "learning_rate": 1.2477053439547058e-05,
      "loss": 1.5659,
      "step": 81864
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6697930097579956,
      "learning_rate": 1.2474070626639454e-05,
      "loss": 1.5523,
      "step": 81865
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6668705344200134,
      "learning_rate": 1.2471088162746034e-05,
      "loss": 1.522,
      "step": 81866
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6824551820755005,
      "learning_rate": 1.246810604787033e-05,
      "loss": 1.5361,
      "step": 81867
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6638171076774597,
      "learning_rate": 1.2465124282015936e-05,
      "loss": 1.5293,
      "step": 81868
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6821854114532471,
      "learning_rate": 1.2462142865186587e-05,
      "loss": 1.5239,
      "step": 81869
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.707389771938324,
      "learning_rate": 1.2459161797385808e-05,
      "loss": 1.5507,
      "step": 81870
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6817430853843689,
      "learning_rate": 1.24561810786172e-05,
      "loss": 1.5016,
      "step": 81871
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6752068996429443,
      "learning_rate": 1.2453200708884426e-05,
      "loss": 1.5634,
      "step": 81872
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6655434966087341,
      "learning_rate": 1.2450220688191115e-05,
      "loss": 1.4935,
      "step": 81873
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6561754941940308,
      "learning_rate": 1.2447241016540899e-05,
      "loss": 1.5124,
      "step": 81874
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6733001470565796,
      "learning_rate": 1.2444261693937307e-05,
      "loss": 1.5235,
      "step": 81875
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6915327310562134,
      "learning_rate": 1.2441282720384039e-05,
      "loss": 1.5355,
      "step": 81876
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6991235017776489,
      "learning_rate": 1.2438304095884721e-05,
      "loss": 1.4547,
      "step": 81877
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6854751706123352,
      "learning_rate": 1.2435325820442854e-05,
      "loss": 1.5264,
      "step": 81878
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6865132451057434,
      "learning_rate": 1.2432347894062166e-05,
      "loss": 1.4914,
      "step": 81879
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6706641912460327,
      "learning_rate": 1.242937031674629e-05,
      "loss": 1.4732,
      "step": 81880
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6903226375579834,
      "learning_rate": 1.242639308849872e-05,
      "loss": 1.4506,
      "step": 81881
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6506112813949585,
      "learning_rate": 1.2423416209323123e-05,
      "loss": 1.5192,
      "step": 81882
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7219880819320679,
      "learning_rate": 1.242043967922316e-05,
      "loss": 1.6295,
      "step": 81883
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6928931474685669,
      "learning_rate": 1.241746349820243e-05,
      "loss": 1.4518,
      "step": 81884
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6911858916282654,
      "learning_rate": 1.2414487666264494e-05,
      "loss": 1.5313,
      "step": 81885
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7051647305488586,
      "learning_rate": 1.2411512183412987e-05,
      "loss": 1.5108,
      "step": 81886
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6782450675964355,
      "learning_rate": 1.2408537049651602e-05,
      "loss": 1.4848,
      "step": 81887
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6702368855476379,
      "learning_rate": 1.2405562264983803e-05,
      "loss": 1.4907,
      "step": 81888
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.672194242477417,
      "learning_rate": 1.2402587829413257e-05,
      "loss": 1.4782,
      "step": 81889
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6780853271484375,
      "learning_rate": 1.239961374294366e-05,
      "loss": 1.4329,
      "step": 81890
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7066273093223572,
      "learning_rate": 1.2396640005578539e-05,
      "loss": 1.4638,
      "step": 81891
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.7044579386711121,
      "learning_rate": 1.2393666617321496e-05,
      "loss": 1.5749,
      "step": 81892
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6737995743751526,
      "learning_rate": 1.2390693578176159e-05,
      "loss": 1.5481,
      "step": 81893
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6609871983528137,
      "learning_rate": 1.2387720888146224e-05,
      "loss": 1.528,
      "step": 81894
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6569497585296631,
      "learning_rate": 1.2384748547235158e-05,
      "loss": 1.5293,
      "step": 81895
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6637489199638367,
      "learning_rate": 1.2381776555446588e-05,
      "loss": 1.477,
      "step": 81896
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6727117896080017,
      "learning_rate": 1.2378804912784246e-05,
      "loss": 1.4668,
      "step": 81897
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6607651114463806,
      "learning_rate": 1.237583361925163e-05,
      "loss": 1.4706,
      "step": 81898
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6620445251464844,
      "learning_rate": 1.2372862674852336e-05,
      "loss": 1.4212,
      "step": 81899
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6723394989967346,
      "learning_rate": 1.2369892079590028e-05,
      "loss": 1.4708,
      "step": 81900
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6871358752250671,
      "learning_rate": 1.2366921833468302e-05,
      "loss": 1.4713,
      "step": 81901
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6862344741821289,
      "learning_rate": 1.2363951936490724e-05,
      "loss": 1.6215,
      "step": 81902
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6644667983055115,
      "learning_rate": 1.2360982388660922e-05,
      "loss": 1.531,
      "step": 81903
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6932069659233093,
      "learning_rate": 1.2358013189982563e-05,
      "loss": 1.5823,
      "step": 81904
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.6831218004226685,
      "learning_rate": 1.2355044340459175e-05,
      "loss": 1.4064,
      "step": 81905
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6707041263580322,
      "learning_rate": 1.2352075840094355e-05,
      "loss": 1.563,
      "step": 81906
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6746897101402283,
      "learning_rate": 1.2349107688891734e-05,
      "loss": 1.5304,
      "step": 81907
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6700825691223145,
      "learning_rate": 1.2346139886854945e-05,
      "loss": 1.5462,
      "step": 81908
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.71529221534729,
      "learning_rate": 1.2343172433987514e-05,
      "loss": 1.5048,
      "step": 81909
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6638694405555725,
      "learning_rate": 1.234020533029314e-05,
      "loss": 1.4994,
      "step": 81910
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6795128583908081,
      "learning_rate": 1.2337238575775322e-05,
      "loss": 1.5719,
      "step": 81911
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6519219279289246,
      "learning_rate": 1.233427217043772e-05,
      "loss": 1.4219,
      "step": 81912
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6746677756309509,
      "learning_rate": 1.2331306114283935e-05,
      "loss": 1.4517,
      "step": 81913
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6771093606948853,
      "learning_rate": 1.2328340407317561e-05,
      "loss": 1.4746,
      "step": 81914
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6979926824569702,
      "learning_rate": 1.232537504954223e-05,
      "loss": 1.4959,
      "step": 81915
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6669887900352478,
      "learning_rate": 1.2322410040961439e-05,
      "loss": 1.4984,
      "step": 81916
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6641445159912109,
      "learning_rate": 1.2319445381578886e-05,
      "loss": 1.5046,
      "step": 81917
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.672038197517395,
      "learning_rate": 1.2316481071398133e-05,
      "loss": 1.524,
      "step": 81918
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6747058033943176,
      "learning_rate": 1.231351711042281e-05,
      "loss": 1.5453,
      "step": 81919
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.693275511264801,
      "learning_rate": 1.231055349865645e-05,
      "loss": 1.6407,
      "step": 81920
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6763638854026794,
      "learning_rate": 1.2307590236102716e-05,
      "loss": 1.5106,
      "step": 81921
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6870326399803162,
      "learning_rate": 1.230462732276517e-05,
      "loss": 1.478,
      "step": 81922
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.685093879699707,
      "learning_rate": 1.2301664758647412e-05,
      "loss": 1.5403,
      "step": 81923
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6582457423210144,
      "learning_rate": 1.229870254375307e-05,
      "loss": 1.5169,
      "step": 81924
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6751036643981934,
      "learning_rate": 1.2295740678085642e-05,
      "loss": 1.4967,
      "step": 81925
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6690388917922974,
      "learning_rate": 1.2292779161648858e-05,
      "loss": 1.4245,
      "step": 81926
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6799453496932983,
      "learning_rate": 1.2289817994446249e-05,
      "loss": 1.4996,
      "step": 81927
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6841678619384766,
      "learning_rate": 1.228685717648138e-05,
      "loss": 1.425,
      "step": 81928
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6708738803863525,
      "learning_rate": 1.2283896707757912e-05,
      "loss": 1.4063,
      "step": 81929
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6708455085754395,
      "learning_rate": 1.2280936588279344e-05,
      "loss": 1.472,
      "step": 81930
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.674004852771759,
      "learning_rate": 1.2277976818049373e-05,
      "loss": 1.5126,
      "step": 81931
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6790885925292969,
      "learning_rate": 1.2275017397071495e-05,
      "loss": 1.4361,
      "step": 81932
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7221366167068481,
      "learning_rate": 1.227205832534941e-05,
      "loss": 1.494,
      "step": 81933
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6747563481330872,
      "learning_rate": 1.2269099602886645e-05,
      "loss": 1.4605,
      "step": 81934
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6803001165390015,
      "learning_rate": 1.2266141229686733e-05,
      "loss": 1.4839,
      "step": 81935
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.666449248790741,
      "learning_rate": 1.2263183205753402e-05,
      "loss": 1.5096,
      "step": 81936
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6785818934440613,
      "learning_rate": 1.2260225531090151e-05,
      "loss": 1.5038,
      "step": 81937
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6725814938545227,
      "learning_rate": 1.2257268205700577e-05,
      "loss": 1.5091,
      "step": 81938
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6857262253761292,
      "learning_rate": 1.2254311229588242e-05,
      "loss": 1.5385,
      "step": 81939
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6676012873649597,
      "learning_rate": 1.2251354602756846e-05,
      "loss": 1.5571,
      "step": 81940
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6974809765815735,
      "learning_rate": 1.2248398325209885e-05,
      "loss": 1.5093,
      "step": 81941
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6757199168205261,
      "learning_rate": 1.2245442396950955e-05,
      "loss": 1.4543,
      "step": 81942
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7135496139526367,
      "learning_rate": 1.2242486817983688e-05,
      "loss": 1.5901,
      "step": 81943
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.669097900390625,
      "learning_rate": 1.2239531588311646e-05,
      "loss": 1.5091,
      "step": 81944
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6919716000556946,
      "learning_rate": 1.2236576707938362e-05,
      "loss": 1.5104,
      "step": 81945
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6702353358268738,
      "learning_rate": 1.2233622176867497e-05,
      "loss": 1.5376,
      "step": 81946
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6828655004501343,
      "learning_rate": 1.2230667995102649e-05,
      "loss": 1.6174,
      "step": 81947
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6684728264808655,
      "learning_rate": 1.2227714162647351e-05,
      "loss": 1.4599,
      "step": 81948
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6928784847259521,
      "learning_rate": 1.2224760679505164e-05,
      "loss": 1.5515,
      "step": 81949
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6934892535209656,
      "learning_rate": 1.2221807545679785e-05,
      "loss": 1.5356,
      "step": 81950
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6785398721694946,
      "learning_rate": 1.2218854761174713e-05,
      "loss": 1.4963,
      "step": 81951
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6662828922271729,
      "learning_rate": 1.221590232599351e-05,
      "loss": 1.4956,
      "step": 81952
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6899963617324829,
      "learning_rate": 1.2212950240139775e-05,
      "loss": 1.5725,
      "step": 81953
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6967809796333313,
      "learning_rate": 1.2209998503617203e-05,
      "loss": 1.4204,
      "step": 81954
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6627916097640991,
      "learning_rate": 1.2207047116429258e-05,
      "loss": 1.533,
      "step": 81955
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6712365746498108,
      "learning_rate": 1.2204096078579505e-05,
      "loss": 1.4671,
      "step": 81956
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6728268265724182,
      "learning_rate": 1.2201145390071643e-05,
      "loss": 1.5085,
      "step": 81957
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6696662902832031,
      "learning_rate": 1.2198195050909164e-05,
      "loss": 1.5142,
      "step": 81958
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7056964039802551,
      "learning_rate": 1.2195245061095637e-05,
      "loss": 1.4318,
      "step": 81959
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.682260274887085,
      "learning_rate": 1.2192295420634657e-05,
      "loss": 1.4626,
      "step": 81960
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6733478307723999,
      "learning_rate": 1.2189346129529887e-05,
      "loss": 1.4764,
      "step": 81961
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6710346341133118,
      "learning_rate": 1.2186397187784857e-05,
      "loss": 1.4974,
      "step": 81962
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6929736733436584,
      "learning_rate": 1.2183448595403068e-05,
      "loss": 1.5216,
      "step": 81963
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6698170900344849,
      "learning_rate": 1.2180500352388211e-05,
      "loss": 1.5328,
      "step": 81964
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6847440004348755,
      "learning_rate": 1.2177552458743822e-05,
      "loss": 1.4622,
      "step": 81965
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6985023021697998,
      "learning_rate": 1.2174604914473429e-05,
      "loss": 1.5219,
      "step": 81966
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.682040274143219,
      "learning_rate": 1.2171657719580696e-05,
      "loss": 1.5487,
      "step": 81967
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6675887107849121,
      "learning_rate": 1.216871087406912e-05,
      "loss": 1.5271,
      "step": 81968
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6964911222457886,
      "learning_rate": 1.2165764377942367e-05,
      "loss": 1.5267,
      "step": 81969
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6886914968490601,
      "learning_rate": 1.216281823120393e-05,
      "loss": 1.5384,
      "step": 81970
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6735106706619263,
      "learning_rate": 1.2159872433857476e-05,
      "loss": 1.5339,
      "step": 81971
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.678462028503418,
      "learning_rate": 1.2156926985906501e-05,
      "loss": 1.507,
      "step": 81972
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.676315426826477,
      "learning_rate": 1.2153981887354569e-05,
      "loss": 1.5212,
      "step": 81973
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6626231670379639,
      "learning_rate": 1.215103713820531e-05,
      "loss": 1.5153,
      "step": 81974
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6780935525894165,
      "learning_rate": 1.2148092738462256e-05,
      "loss": 1.5133,
      "step": 81975
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7031136155128479,
      "learning_rate": 1.214514868812907e-05,
      "loss": 1.4958,
      "step": 81976
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6811268329620361,
      "learning_rate": 1.2142204987209214e-05,
      "loss": 1.5171,
      "step": 81977
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.681302547454834,
      "learning_rate": 1.213926163570632e-05,
      "loss": 1.532,
      "step": 81978
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7163938879966736,
      "learning_rate": 1.2136318633623954e-05,
      "loss": 1.4984,
      "step": 81979
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6830605864524841,
      "learning_rate": 1.2133375980965642e-05,
      "loss": 1.4861,
      "step": 81980
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6790845394134521,
      "learning_rate": 1.2130433677735053e-05,
      "loss": 1.504,
      "step": 81981
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6683847904205322,
      "learning_rate": 1.2127491723935645e-05,
      "loss": 1.5325,
      "step": 81982
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.682531476020813,
      "learning_rate": 1.2124550119571086e-05,
      "loss": 1.4692,
      "step": 81983
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7074340581893921,
      "learning_rate": 1.2121608864644905e-05,
      "loss": 1.5342,
      "step": 81984
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6486310362815857,
      "learning_rate": 1.2118667959160666e-05,
      "loss": 1.5094,
      "step": 81985
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7115678787231445,
      "learning_rate": 1.2115727403121967e-05,
      "loss": 1.5931,
      "step": 81986
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7172825336456299,
      "learning_rate": 1.2112787196532337e-05,
      "loss": 1.5404,
      "step": 81987
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6976562738418579,
      "learning_rate": 1.210984733939534e-05,
      "loss": 1.5703,
      "step": 81988
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6851502060890198,
      "learning_rate": 1.2106907831714573e-05,
      "loss": 1.5479,
      "step": 81989
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6828964948654175,
      "learning_rate": 1.2103968673493635e-05,
      "loss": 1.4705,
      "step": 81990
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6803504824638367,
      "learning_rate": 1.2101029864736055e-05,
      "loss": 1.4821,
      "step": 81991
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6684859395027161,
      "learning_rate": 1.2098091405445397e-05,
      "loss": 1.503,
      "step": 81992
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.687059223651886,
      "learning_rate": 1.2095153295625226e-05,
      "loss": 1.561,
      "step": 81993
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6950410604476929,
      "learning_rate": 1.2092215535279171e-05,
      "loss": 1.5198,
      "step": 81994
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6898229122161865,
      "learning_rate": 1.2089278124410662e-05,
      "loss": 1.5018,
      "step": 81995
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6667221188545227,
      "learning_rate": 1.2086341063023363e-05,
      "loss": 1.4911,
      "step": 81996
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6600168943405151,
      "learning_rate": 1.2083404351120906e-05,
      "loss": 1.517,
      "step": 81997
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7026245594024658,
      "learning_rate": 1.2080467988706687e-05,
      "loss": 1.5037,
      "step": 81998
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6800822019577026,
      "learning_rate": 1.2077531975784372e-05,
      "loss": 1.4943,
      "step": 81999
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6775503158569336,
      "learning_rate": 1.2074596312357554e-05,
      "loss": 1.5104,
      "step": 82000
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6584048867225647,
      "learning_rate": 1.2071660998429733e-05,
      "loss": 1.4835,
      "step": 82001
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6883254051208496,
      "learning_rate": 1.2068726034004439e-05,
      "loss": 1.5142,
      "step": 82002
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6556451916694641,
      "learning_rate": 1.2065791419085303e-05,
      "loss": 1.489,
      "step": 82003
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6802080869674683,
      "learning_rate": 1.2062857153675953e-05,
      "loss": 1.5133,
      "step": 82004
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.665869414806366,
      "learning_rate": 1.205992323777979e-05,
      "loss": 1.4965,
      "step": 82005
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7113975882530212,
      "learning_rate": 1.2056989671400474e-05,
      "loss": 1.4577,
      "step": 82006
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6721664667129517,
      "learning_rate": 1.2054056454541539e-05,
      "loss": 1.5481,
      "step": 82007
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7124419212341309,
      "learning_rate": 1.2051123587206578e-05,
      "loss": 1.5446,
      "step": 82008
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6809252500534058,
      "learning_rate": 1.2048191069399093e-05,
      "loss": 1.5041,
      "step": 82009
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6656447649002075,
      "learning_rate": 1.2045258901122679e-05,
      "loss": 1.437,
      "step": 82010
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6849192976951599,
      "learning_rate": 1.2042327082380965e-05,
      "loss": 1.4605,
      "step": 82011
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6777154803276062,
      "learning_rate": 1.2039395613177349e-05,
      "loss": 1.4739,
      "step": 82012
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.698153018951416,
      "learning_rate": 1.2036464493515497e-05,
      "loss": 1.5346,
      "step": 82013
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.9411365389823914,
      "learning_rate": 1.2033533723398969e-05,
      "loss": 1.4639,
      "step": 82014
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6821126937866211,
      "learning_rate": 1.2030603302831298e-05,
      "loss": 1.4824,
      "step": 82015
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.674046516418457,
      "learning_rate": 1.2027673231816015e-05,
      "loss": 1.4645,
      "step": 82016
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6883326768875122,
      "learning_rate": 1.2024743510356749e-05,
      "loss": 1.4772,
      "step": 82017
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6957578659057617,
      "learning_rate": 1.2021814138456997e-05,
      "loss": 1.5121,
      "step": 82018
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6918032765388489,
      "learning_rate": 1.2018885116120324e-05,
      "loss": 1.5283,
      "step": 82019
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6514235734939575,
      "learning_rate": 1.2015956443350261e-05,
      "loss": 1.4832,
      "step": 82020
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6814637184143066,
      "learning_rate": 1.2013028120150436e-05,
      "loss": 1.5797,
      "step": 82021
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7308290004730225,
      "learning_rate": 1.2010100146524381e-05,
      "loss": 1.6192,
      "step": 82022
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7011032104492188,
      "learning_rate": 1.200717252247556e-05,
      "loss": 1.4862,
      "step": 82023
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.669934093952179,
      "learning_rate": 1.2004245248007672e-05,
      "loss": 1.5263,
      "step": 82024
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.677787721157074,
      "learning_rate": 1.2001318323124176e-05,
      "loss": 1.4928,
      "step": 82025
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6658525466918945,
      "learning_rate": 1.1998391747828607e-05,
      "loss": 1.4673,
      "step": 82026
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6845917105674744,
      "learning_rate": 1.1995465522124625e-05,
      "loss": 1.4405,
      "step": 82027
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6954565644264221,
      "learning_rate": 1.1992539646015631e-05,
      "loss": 1.4623,
      "step": 82028
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6803555488586426,
      "learning_rate": 1.198961411950532e-05,
      "loss": 1.5366,
      "step": 82029
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6752201318740845,
      "learning_rate": 1.1986688942597123e-05,
      "loss": 1.4248,
      "step": 82030
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.681778073310852,
      "learning_rate": 1.1983764115294703e-05,
      "loss": 1.4943,
      "step": 82031
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6477071046829224,
      "learning_rate": 1.1980839637601558e-05,
      "loss": 1.4392,
      "step": 82032
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6974738240242004,
      "learning_rate": 1.1977915509521186e-05,
      "loss": 1.5612,
      "step": 82033
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6681378483772278,
      "learning_rate": 1.1974991731057249e-05,
      "loss": 1.5275,
      "step": 82034
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6815447807312012,
      "learning_rate": 1.1972068302213178e-05,
      "loss": 1.4972,
      "step": 82035
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.677061915397644,
      "learning_rate": 1.1969145222992604e-05,
      "loss": 1.5718,
      "step": 82036
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6712536811828613,
      "learning_rate": 1.1966222493399058e-05,
      "loss": 1.5241,
      "step": 82037
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6526234149932861,
      "learning_rate": 1.1963300113436036e-05,
      "loss": 1.5156,
      "step": 82038
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6869105100631714,
      "learning_rate": 1.196037808310717e-05,
      "loss": 1.5692,
      "step": 82039
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6685116291046143,
      "learning_rate": 1.1957456402415954e-05,
      "loss": 1.4836,
      "step": 82040
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6741253733634949,
      "learning_rate": 1.1954535071365956e-05,
      "loss": 1.4894,
      "step": 82041
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6934840083122253,
      "learning_rate": 1.195161408996067e-05,
      "loss": 1.4212,
      "step": 82042
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6854119896888733,
      "learning_rate": 1.1948693458203729e-05,
      "loss": 1.497,
      "step": 82043
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.674446165561676,
      "learning_rate": 1.1945773176098627e-05,
      "loss": 1.5011,
      "step": 82044
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6970186233520508,
      "learning_rate": 1.1942853243648865e-05,
      "loss": 1.5477,
      "step": 82045
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6823471784591675,
      "learning_rate": 1.193993366085807e-05,
      "loss": 1.5094,
      "step": 82046
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6720150113105774,
      "learning_rate": 1.193701442772974e-05,
      "loss": 1.3929,
      "step": 82047
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6684839129447937,
      "learning_rate": 1.1934095544267442e-05,
      "loss": 1.5732,
      "step": 82048
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6926488280296326,
      "learning_rate": 1.1931177010474701e-05,
      "loss": 1.5347,
      "step": 82049
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6824157238006592,
      "learning_rate": 1.1928258826355087e-05,
      "loss": 1.5188,
      "step": 82050
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6639412641525269,
      "learning_rate": 1.1925340991912124e-05,
      "loss": 1.4753,
      "step": 82051
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6699126362800598,
      "learning_rate": 1.1922423507149314e-05,
      "loss": 1.5756,
      "step": 82052
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6976536512374878,
      "learning_rate": 1.1919506372070254e-05,
      "loss": 1.5294,
      "step": 82053
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7164614200592041,
      "learning_rate": 1.1916589586678504e-05,
      "loss": 1.4765,
      "step": 82054
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6925377249717712,
      "learning_rate": 1.1913673150977499e-05,
      "loss": 1.4617,
      "step": 82055
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.681634247303009,
      "learning_rate": 1.1910757064970866e-05,
      "loss": 1.4832,
      "step": 82056
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6431847214698792,
      "learning_rate": 1.1907841328662138e-05,
      "loss": 1.5025,
      "step": 82057
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.684184730052948,
      "learning_rate": 1.1904925942054877e-05,
      "loss": 1.573,
      "step": 82058
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6743332147598267,
      "learning_rate": 1.1902010905152514e-05,
      "loss": 1.5002,
      "step": 82059
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6893904805183411,
      "learning_rate": 1.1899096217958715e-05,
      "loss": 1.3884,
      "step": 82060
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6902466416358948,
      "learning_rate": 1.1896181880476974e-05,
      "loss": 1.454,
      "step": 82061
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7068209648132324,
      "learning_rate": 1.1893267892710756e-05,
      "loss": 1.469,
      "step": 82062
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6742164492607117,
      "learning_rate": 1.1890354254663693e-05,
      "loss": 1.5146,
      "step": 82063
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6868067383766174,
      "learning_rate": 1.1887440966339312e-05,
      "loss": 1.5125,
      "step": 82064
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6804927587509155,
      "learning_rate": 1.1884528027741114e-05,
      "loss": 1.4536,
      "step": 82065
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6943389177322388,
      "learning_rate": 1.1881615438872626e-05,
      "loss": 1.4823,
      "step": 82066
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7001384496688843,
      "learning_rate": 1.1878703199737416e-05,
      "loss": 1.4793,
      "step": 82067
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6607019901275635,
      "learning_rate": 1.1875791310339044e-05,
      "loss": 1.5525,
      "step": 82068
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6581482291221619,
      "learning_rate": 1.1872879770680944e-05,
      "loss": 1.5267,
      "step": 82069
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7059503197669983,
      "learning_rate": 1.186996858076671e-05,
      "loss": 1.5314,
      "step": 82070
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6666193008422852,
      "learning_rate": 1.186705774059994e-05,
      "loss": 1.526,
      "step": 82071
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6679746508598328,
      "learning_rate": 1.1864147250184097e-05,
      "loss": 1.5633,
      "step": 82072
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.702517032623291,
      "learning_rate": 1.186123710952268e-05,
      "loss": 1.5612,
      "step": 82073
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6672488451004028,
      "learning_rate": 1.185832731861932e-05,
      "loss": 1.5199,
      "step": 82074
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6892728209495544,
      "learning_rate": 1.185541787747748e-05,
      "loss": 1.5098,
      "step": 82075
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6664862036705017,
      "learning_rate": 1.185250878610069e-05,
      "loss": 1.5289,
      "step": 82076
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6691474318504333,
      "learning_rate": 1.184960004449248e-05,
      "loss": 1.5596,
      "step": 82077
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6752873659133911,
      "learning_rate": 1.1846691652656448e-05,
      "loss": 1.47,
      "step": 82078
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6605237722396851,
      "learning_rate": 1.1843783610596058e-05,
      "loss": 1.5541,
      "step": 82079
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6500720381736755,
      "learning_rate": 1.1840875918314807e-05,
      "loss": 1.5074,
      "step": 82080
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7102214097976685,
      "learning_rate": 1.1837968575816359e-05,
      "loss": 1.4798,
      "step": 82081
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6730139851570129,
      "learning_rate": 1.1835061583104111e-05,
      "loss": 1.4544,
      "step": 82082
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6615085601806641,
      "learning_rate": 1.1832154940181625e-05,
      "loss": 1.5192,
      "step": 82083
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7159271240234375,
      "learning_rate": 1.182924864705247e-05,
      "loss": 1.4814,
      "step": 82084
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7115002274513245,
      "learning_rate": 1.1826342703720138e-05,
      "loss": 1.5036,
      "step": 82085
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6811829209327698,
      "learning_rate": 1.1823437110188194e-05,
      "loss": 1.6001,
      "step": 82086
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6750292181968689,
      "learning_rate": 1.1820531866460071e-05,
      "loss": 1.4331,
      "step": 82087
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6780841946601868,
      "learning_rate": 1.181762697253943e-05,
      "loss": 1.5703,
      "step": 82088
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.657174825668335,
      "learning_rate": 1.1814722428429701e-05,
      "loss": 1.516,
      "step": 82089
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6846916675567627,
      "learning_rate": 1.1811818234134418e-05,
      "loss": 1.5553,
      "step": 82090
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6934568285942078,
      "learning_rate": 1.1808914389657143e-05,
      "loss": 1.5506,
      "step": 82091
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7027129530906677,
      "learning_rate": 1.1806010895001373e-05,
      "loss": 1.5201,
      "step": 82092
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6966993808746338,
      "learning_rate": 1.180310775017067e-05,
      "loss": 1.5284,
      "step": 82093
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.668302595615387,
      "learning_rate": 1.1800204955168502e-05,
      "loss": 1.4575,
      "step": 82094
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6672359108924866,
      "learning_rate": 1.179730250999843e-05,
      "loss": 1.5033,
      "step": 82095
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6938021183013916,
      "learning_rate": 1.1794400414663985e-05,
      "loss": 1.5539,
      "step": 82096
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.656646192073822,
      "learning_rate": 1.179149866916863e-05,
      "loss": 1.4662,
      "step": 82097
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6636021137237549,
      "learning_rate": 1.1788597273515966e-05,
      "loss": 1.5117,
      "step": 82098
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6727064847946167,
      "learning_rate": 1.1785696227709452e-05,
      "loss": 1.519,
      "step": 82099
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6622543931007385,
      "learning_rate": 1.1782795531752654e-05,
      "loss": 1.5168,
      "step": 82100
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6717990636825562,
      "learning_rate": 1.1779895185649102e-05,
      "loss": 1.4921,
      "step": 82101
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7041489481925964,
      "learning_rate": 1.1776995189402227e-05,
      "loss": 1.5483,
      "step": 82102
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6852787137031555,
      "learning_rate": 1.1774095543015693e-05,
      "loss": 1.464,
      "step": 82103
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6866552829742432,
      "learning_rate": 1.1771196246492897e-05,
      "loss": 1.5709,
      "step": 82104
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6551562547683716,
      "learning_rate": 1.176829729983737e-05,
      "loss": 1.4701,
      "step": 82105
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6753103733062744,
      "learning_rate": 1.1765398703052675e-05,
      "loss": 1.4583,
      "step": 82106
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6835623979568481,
      "learning_rate": 1.1762500456142343e-05,
      "loss": 1.5071,
      "step": 82107
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.665716826915741,
      "learning_rate": 1.1759602559109871e-05,
      "loss": 1.5093,
      "step": 82108
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6788680553436279,
      "learning_rate": 1.1756705011958722e-05,
      "loss": 1.4887,
      "step": 82109
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6589962840080261,
      "learning_rate": 1.1753807814692496e-05,
      "loss": 1.5558,
      "step": 82110
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6748034358024597,
      "learning_rate": 1.175091096731472e-05,
      "loss": 1.5133,
      "step": 82111
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6818518042564392,
      "learning_rate": 1.1748014469828793e-05,
      "loss": 1.5117,
      "step": 82112
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.647861897945404,
      "learning_rate": 1.174511832223831e-05,
      "loss": 1.5117,
      "step": 82113
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6781009435653687,
      "learning_rate": 1.1742222524546841e-05,
      "loss": 1.4929,
      "step": 82114
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6902288794517517,
      "learning_rate": 1.1739327076757777e-05,
      "loss": 1.546,
      "step": 82115
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6907263994216919,
      "learning_rate": 1.1736431978874716e-05,
      "loss": 1.5086,
      "step": 82116
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.673531174659729,
      "learning_rate": 1.1733537230901158e-05,
      "loss": 1.528,
      "step": 82117
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6947380900382996,
      "learning_rate": 1.1730642832840631e-05,
      "loss": 1.5027,
      "step": 82118
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6898771524429321,
      "learning_rate": 1.17277487846966e-05,
      "loss": 1.5285,
      "step": 82119
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6705276370048523,
      "learning_rate": 1.1724855086472596e-05,
      "loss": 1.4463,
      "step": 82120
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.70060133934021,
      "learning_rate": 1.1721961738172214e-05,
      "loss": 1.5029,
      "step": 82121
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6818757653236389,
      "learning_rate": 1.171906873979882e-05,
      "loss": 1.5171,
      "step": 82122
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6742737889289856,
      "learning_rate": 1.171617609135601e-05,
      "loss": 1.5161,
      "step": 82123
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6696519255638123,
      "learning_rate": 1.1713283792847317e-05,
      "loss": 1.5105,
      "step": 82124
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6785060167312622,
      "learning_rate": 1.1710391844276202e-05,
      "loss": 1.4415,
      "step": 82125
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6924548745155334,
      "learning_rate": 1.1707500245646195e-05,
      "loss": 1.5207,
      "step": 82126
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6724719405174255,
      "learning_rate": 1.1704608996960796e-05,
      "loss": 1.4987,
      "step": 82127
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6515058875083923,
      "learning_rate": 1.1701718098223566e-05,
      "loss": 1.4741,
      "step": 82128
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6864693760871887,
      "learning_rate": 1.1698827549437905e-05,
      "loss": 1.4558,
      "step": 82129
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.69198077917099,
      "learning_rate": 1.169593735060741e-05,
      "loss": 1.5516,
      "step": 82130
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.8310607671737671,
      "learning_rate": 1.1693047501735609e-05,
      "loss": 1.5368,
      "step": 82131
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6758298873901367,
      "learning_rate": 1.1690158002825933e-05,
      "loss": 1.5649,
      "step": 82132
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7113773822784424,
      "learning_rate": 1.1687268853881915e-05,
      "loss": 1.513,
      "step": 82133
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6662358045578003,
      "learning_rate": 1.1684380054907117e-05,
      "loss": 1.4677,
      "step": 82134
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6769126057624817,
      "learning_rate": 1.168149160590497e-05,
      "loss": 1.4806,
      "step": 82135
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.700870931148529,
      "learning_rate": 1.1678603506879003e-05,
      "loss": 1.4898,
      "step": 82136
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6758485436439514,
      "learning_rate": 1.1675715757832716e-05,
      "loss": 1.5569,
      "step": 82137
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6683445572853088,
      "learning_rate": 1.1672828358769671e-05,
      "loss": 1.5209,
      "step": 82138
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6749163269996643,
      "learning_rate": 1.1669941309693298e-05,
      "loss": 1.4978,
      "step": 82139
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6837652921676636,
      "learning_rate": 1.1667054610607129e-05,
      "loss": 1.5022,
      "step": 82140
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6905034780502319,
      "learning_rate": 1.1664168261514695e-05,
      "loss": 1.4785,
      "step": 82141
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6551375985145569,
      "learning_rate": 1.1661282262419491e-05,
      "loss": 1.4869,
      "step": 82142
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6909419298171997,
      "learning_rate": 1.165839661332495e-05,
      "loss": 1.5353,
      "step": 82143
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6605548858642578,
      "learning_rate": 1.16555113142347e-05,
      "loss": 1.5265,
      "step": 82144
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6818091869354248,
      "learning_rate": 1.1652626365152107e-05,
      "loss": 1.5322,
      "step": 82145
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.682856559753418,
      "learning_rate": 1.1649741766080767e-05,
      "loss": 1.5846,
      "step": 82146
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.690851628780365,
      "learning_rate": 1.1646857517024145e-05,
      "loss": 1.4827,
      "step": 82147
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6876266598701477,
      "learning_rate": 1.1643973617985769e-05,
      "loss": 1.5915,
      "step": 82148
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7032848596572876,
      "learning_rate": 1.1641090068969138e-05,
      "loss": 1.5895,
      "step": 82149
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6544679999351501,
      "learning_rate": 1.1638206869977684e-05,
      "loss": 1.5496,
      "step": 82150
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.661967933177948,
      "learning_rate": 1.1635324021015002e-05,
      "loss": 1.4385,
      "step": 82151
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6703413724899292,
      "learning_rate": 1.1632441522084523e-05,
      "loss": 1.5584,
      "step": 82152
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6750738620758057,
      "learning_rate": 1.1629559373189778e-05,
      "loss": 1.5348,
      "step": 82153
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7033530473709106,
      "learning_rate": 1.1626677574334297e-05,
      "loss": 1.5638,
      "step": 82154
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6848258376121521,
      "learning_rate": 1.1623796125521478e-05,
      "loss": 1.4969,
      "step": 82155
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6773677468299866,
      "learning_rate": 1.1620915026754918e-05,
      "loss": 1.5734,
      "step": 82156
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6936659812927246,
      "learning_rate": 1.1618034278038046e-05,
      "loss": 1.5052,
      "step": 82157
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6650685667991638,
      "learning_rate": 1.1615153879374429e-05,
      "loss": 1.4639,
      "step": 82158
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6762245297431946,
      "learning_rate": 1.161227383076746e-05,
      "loss": 1.4819,
      "step": 82159
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6731066107749939,
      "learning_rate": 1.1609394132220774e-05,
      "loss": 1.4683,
      "step": 82160
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.657711386680603,
      "learning_rate": 1.1606514783737763e-05,
      "loss": 1.5387,
      "step": 82161
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6920996308326721,
      "learning_rate": 1.1603635785321929e-05,
      "loss": 1.4867,
      "step": 82162
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6817737817764282,
      "learning_rate": 1.1600757136976801e-05,
      "loss": 1.4975,
      "step": 82163
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6802250742912292,
      "learning_rate": 1.1597878838705844e-05,
      "loss": 1.5647,
      "step": 82164
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6738017201423645,
      "learning_rate": 1.1595000890512617e-05,
      "loss": 1.544,
      "step": 82165
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6685037016868591,
      "learning_rate": 1.1592123292400523e-05,
      "loss": 1.5236,
      "step": 82166
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6546494960784912,
      "learning_rate": 1.1589246044373124e-05,
      "loss": 1.5205,
      "step": 82167
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6800087690353394,
      "learning_rate": 1.1586369146433882e-05,
      "loss": 1.5042,
      "step": 82168
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7192155718803406,
      "learning_rate": 1.1583492598586264e-05,
      "loss": 1.4842,
      "step": 82169
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.686762273311615,
      "learning_rate": 1.1580616400833798e-05,
      "loss": 1.4718,
      "step": 82170
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7010819315910339,
      "learning_rate": 1.1577740553180015e-05,
      "loss": 1.5134,
      "step": 82171
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6681363582611084,
      "learning_rate": 1.157486505562828e-05,
      "loss": 1.5731,
      "step": 82172
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6816292405128479,
      "learning_rate": 1.1571989908182189e-05,
      "loss": 1.5718,
      "step": 82173
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6792601346969604,
      "learning_rate": 1.1569115110845207e-05,
      "loss": 1.4896,
      "step": 82174
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6908177733421326,
      "learning_rate": 1.1566240663620863e-05,
      "loss": 1.507,
      "step": 82175
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6970114707946777,
      "learning_rate": 1.1563366566512522e-05,
      "loss": 1.5193,
      "step": 82176
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6564856767654419,
      "learning_rate": 1.1560492819523848e-05,
      "loss": 1.52,
      "step": 82177
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6938319802284241,
      "learning_rate": 1.1557619422658204e-05,
      "loss": 1.5054,
      "step": 82178
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6569252014160156,
      "learning_rate": 1.1554746375919055e-05,
      "loss": 1.525,
      "step": 82179
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.681221067905426,
      "learning_rate": 1.1551873679309964e-05,
      "loss": 1.5522,
      "step": 82180
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6931985020637512,
      "learning_rate": 1.1549001332834429e-05,
      "loss": 1.4222,
      "step": 82181
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6590243577957153,
      "learning_rate": 1.1546129336495912e-05,
      "loss": 1.4871,
      "step": 82182
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7012457251548767,
      "learning_rate": 1.1543257690297846e-05,
      "loss": 1.437,
      "step": 82183
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6793320775032043,
      "learning_rate": 1.1540386394243829e-05,
      "loss": 1.5635,
      "step": 82184
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.672699511051178,
      "learning_rate": 1.1537515448337253e-05,
      "loss": 1.4761,
      "step": 82185
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6906614899635315,
      "learning_rate": 1.1534644852581587e-05,
      "loss": 1.5643,
      "step": 82186
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.676891565322876,
      "learning_rate": 1.1531774606980392e-05,
      "loss": 1.5001,
      "step": 82187
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.670864462852478,
      "learning_rate": 1.1528904711537135e-05,
      "loss": 1.4609,
      "step": 82188
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6900938749313354,
      "learning_rate": 1.1526035166255276e-05,
      "loss": 1.5256,
      "step": 82189
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7105774879455566,
      "learning_rate": 1.1523165971138281e-05,
      "loss": 1.5494,
      "step": 82190
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.672428548336029,
      "learning_rate": 1.1520297126189682e-05,
      "loss": 1.5257,
      "step": 82191
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6907703280448914,
      "learning_rate": 1.1517428631412939e-05,
      "loss": 1.4909,
      "step": 82192
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7022888660430908,
      "learning_rate": 1.1514560486811485e-05,
      "loss": 1.5938,
      "step": 82193
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6990494728088379,
      "learning_rate": 1.1511692692388885e-05,
      "loss": 1.5037,
      "step": 82194
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6728268265724182,
      "learning_rate": 1.1508825248148601e-05,
      "loss": 1.5958,
      "step": 82195
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6732469797134399,
      "learning_rate": 1.1505958154094097e-05,
      "loss": 1.4973,
      "step": 82196
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7236580848693848,
      "learning_rate": 1.1503091410228804e-05,
      "loss": 1.4703,
      "step": 82197
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6571028232574463,
      "learning_rate": 1.1500225016556286e-05,
      "loss": 1.4981,
      "step": 82198
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6772304773330688,
      "learning_rate": 1.1497358973080006e-05,
      "loss": 1.5335,
      "step": 82199
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.659304141998291,
      "learning_rate": 1.1494493279803362e-05,
      "loss": 1.5507,
      "step": 82200
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7000020146369934,
      "learning_rate": 1.1491627936729953e-05,
      "loss": 1.4773,
      "step": 82201
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6887767910957336,
      "learning_rate": 1.1488762943863138e-05,
      "loss": 1.4885,
      "step": 82202
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6848645210266113,
      "learning_rate": 1.148589830120652e-05,
      "loss": 1.5401,
      "step": 82203
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6844063997268677,
      "learning_rate": 1.1483034008763458e-05,
      "loss": 1.5551,
      "step": 82204
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6954445838928223,
      "learning_rate": 1.148017006653752e-05,
      "loss": 1.5711,
      "step": 82205
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6760989427566528,
      "learning_rate": 1.1477306474532134e-05,
      "loss": 1.5042,
      "step": 82206
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6697951555252075,
      "learning_rate": 1.1474443232750763e-05,
      "loss": 1.4891,
      "step": 82207
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.687494158744812,
      "learning_rate": 1.147158034119694e-05,
      "loss": 1.4671,
      "step": 82208
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.9857366681098938,
      "learning_rate": 1.1468717799874062e-05,
      "loss": 1.5777,
      "step": 82209
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6811279654502869,
      "learning_rate": 1.146585560878569e-05,
      "loss": 1.5329,
      "step": 82210
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7180465459823608,
      "learning_rate": 1.1462993767935258e-05,
      "loss": 1.5548,
      "step": 82211
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6951169371604919,
      "learning_rate": 1.1460132277326195e-05,
      "loss": 1.5081,
      "step": 82212
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7197996377944946,
      "learning_rate": 1.1457271136962065e-05,
      "loss": 1.6399,
      "step": 82213
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6801072359085083,
      "learning_rate": 1.1454410346846266e-05,
      "loss": 1.538,
      "step": 82214
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.692888081073761,
      "learning_rate": 1.1451549906982293e-05,
      "loss": 1.5404,
      "step": 82215
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6863188743591309,
      "learning_rate": 1.1448689817373614e-05,
      "loss": 1.5431,
      "step": 82216
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6644258499145508,
      "learning_rate": 1.1445830078023754e-05,
      "loss": 1.4968,
      "step": 82217
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6790669560432434,
      "learning_rate": 1.1442970688936114e-05,
      "loss": 1.5636,
      "step": 82218
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6649471521377563,
      "learning_rate": 1.1440111650114192e-05,
      "loss": 1.5632,
      "step": 82219
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7063395977020264,
      "learning_rate": 1.143725296156145e-05,
      "loss": 1.505,
      "step": 82220
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6937054395675659,
      "learning_rate": 1.1434394623281385e-05,
      "loss": 1.5049,
      "step": 82221
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6475231051445007,
      "learning_rate": 1.1431536635277427e-05,
      "loss": 1.5342,
      "step": 82222
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7065443396568298,
      "learning_rate": 1.1428678997553043e-05,
      "loss": 1.5671,
      "step": 82223
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6722909808158875,
      "learning_rate": 1.142582171011176e-05,
      "loss": 1.502,
      "step": 82224
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6859315037727356,
      "learning_rate": 1.1422964772957011e-05,
      "loss": 1.5043,
      "step": 82225
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6908321976661682,
      "learning_rate": 1.1420108186092225e-05,
      "loss": 1.5393,
      "step": 82226
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6651440262794495,
      "learning_rate": 1.1417251949520967e-05,
      "loss": 1.5187,
      "step": 82227
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.683324933052063,
      "learning_rate": 1.1414396063246633e-05,
      "loss": 1.485,
      "step": 82228
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.67833012342453,
      "learning_rate": 1.1411540527272655e-05,
      "loss": 1.4182,
      "step": 82229
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6679525375366211,
      "learning_rate": 1.1408685341602564e-05,
      "loss": 1.5067,
      "step": 82230
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7047284245491028,
      "learning_rate": 1.1405830506239855e-05,
      "loss": 1.468,
      "step": 82231
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6710895299911499,
      "learning_rate": 1.1402976021187892e-05,
      "loss": 1.4846,
      "step": 82232
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6867796778678894,
      "learning_rate": 1.1400121886450175e-05,
      "loss": 1.5515,
      "step": 82233
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6693364381790161,
      "learning_rate": 1.1397268102030232e-05,
      "loss": 1.5376,
      "step": 82234
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6901888251304626,
      "learning_rate": 1.1394414667931461e-05,
      "loss": 1.489,
      "step": 82235
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6648041009902954,
      "learning_rate": 1.139156158415736e-05,
      "loss": 1.5142,
      "step": 82236
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6643548607826233,
      "learning_rate": 1.1388708850711325e-05,
      "loss": 1.4792,
      "step": 82237
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6720227599143982,
      "learning_rate": 1.1385856467596988e-05,
      "loss": 1.4744,
      "step": 82238
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7142887711524963,
      "learning_rate": 1.1383004434817611e-05,
      "loss": 1.5164,
      "step": 82239
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6629227995872498,
      "learning_rate": 1.1380152752376726e-05,
      "loss": 1.4915,
      "step": 82240
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.666697084903717,
      "learning_rate": 1.1377301420277862e-05,
      "loss": 1.4536,
      "step": 82241
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6880125403404236,
      "learning_rate": 1.1374450438524418e-05,
      "loss": 1.5185,
      "step": 82242
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6543440222740173,
      "learning_rate": 1.1371599807119825e-05,
      "loss": 1.4946,
      "step": 82243
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6851436495780945,
      "learning_rate": 1.136874952606761e-05,
      "loss": 1.51,
      "step": 82244
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6548947691917419,
      "learning_rate": 1.1365899595371242e-05,
      "loss": 1.5198,
      "step": 82245
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6700258255004883,
      "learning_rate": 1.136305001503408e-05,
      "loss": 1.5136,
      "step": 82246
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.690108597278595,
      "learning_rate": 1.1360200785059658e-05,
      "loss": 1.4512,
      "step": 82247
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6827078461647034,
      "learning_rate": 1.1357351905451439e-05,
      "loss": 1.5169,
      "step": 82248
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7158547639846802,
      "learning_rate": 1.1354503376212886e-05,
      "loss": 1.5386,
      "step": 82249
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6456895470619202,
      "learning_rate": 1.1351655197347398e-05,
      "loss": 1.4978,
      "step": 82250
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6668504476547241,
      "learning_rate": 1.1348807368858503e-05,
      "loss": 1.49,
      "step": 82251
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6643995046615601,
      "learning_rate": 1.1345959890749635e-05,
      "loss": 1.5099,
      "step": 82252
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.670882523059845,
      "learning_rate": 1.1343112763024187e-05,
      "loss": 1.5483,
      "step": 82253
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7088044285774231,
      "learning_rate": 1.1340265985685659e-05,
      "loss": 1.5551,
      "step": 82254
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7014917135238647,
      "learning_rate": 1.1337419558737582e-05,
      "loss": 1.5516,
      "step": 82255
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7136339545249939,
      "learning_rate": 1.1334573482183318e-05,
      "loss": 1.5604,
      "step": 82256
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.682571530342102,
      "learning_rate": 1.1331727756026332e-05,
      "loss": 1.5248,
      "step": 82257
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6674089431762695,
      "learning_rate": 1.132888238027012e-05,
      "loss": 1.495,
      "step": 82258
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6717954277992249,
      "learning_rate": 1.1326037354918115e-05,
      "loss": 1.4732,
      "step": 82259
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6647295355796814,
      "learning_rate": 1.1323192679973747e-05,
      "loss": 1.5001,
      "step": 82260
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6956624984741211,
      "learning_rate": 1.1320348355440512e-05,
      "loss": 1.5403,
      "step": 82261
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6691386103630066,
      "learning_rate": 1.1317504381321807e-05,
      "loss": 1.5027,
      "step": 82262
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6885340213775635,
      "learning_rate": 1.131466075762113e-05,
      "loss": 1.4807,
      "step": 82263
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6882776021957397,
      "learning_rate": 1.1311817484341912e-05,
      "loss": 1.5047,
      "step": 82264
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6908228993415833,
      "learning_rate": 1.1308974561487616e-05,
      "loss": 1.5267,
      "step": 82265
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6692867279052734,
      "learning_rate": 1.130613198906174e-05,
      "loss": 1.5107,
      "step": 82266
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6640435457229614,
      "learning_rate": 1.1303289767067581e-05,
      "loss": 1.5191,
      "step": 82267
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6939132213592529,
      "learning_rate": 1.1300447895508768e-05,
      "loss": 1.5184,
      "step": 82268
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6977846026420593,
      "learning_rate": 1.1297606374388635e-05,
      "loss": 1.5113,
      "step": 82269
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6762900352478027,
      "learning_rate": 1.1294765203710709e-05,
      "loss": 1.5766,
      "step": 82270
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6810647249221802,
      "learning_rate": 1.129192438347839e-05,
      "loss": 1.5567,
      "step": 82271
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6750783920288086,
      "learning_rate": 1.1289083913695108e-05,
      "loss": 1.5192,
      "step": 82272
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6838997602462769,
      "learning_rate": 1.1286243794364359e-05,
      "loss": 1.5204,
      "step": 82273
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6762979626655579,
      "learning_rate": 1.128340402548954e-05,
      "loss": 1.4424,
      "step": 82274
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6686263680458069,
      "learning_rate": 1.128056460707415e-05,
      "loss": 1.5389,
      "step": 82275
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6756667494773865,
      "learning_rate": 1.1277725539121584e-05,
      "loss": 1.5125,
      "step": 82276
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6953298449516296,
      "learning_rate": 1.1274886821635375e-05,
      "loss": 1.4935,
      "step": 82277
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7018977999687195,
      "learning_rate": 1.1272048454618888e-05,
      "loss": 1.5126,
      "step": 82278
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6757048964500427,
      "learning_rate": 1.1269210438075582e-05,
      "loss": 1.5186,
      "step": 82279
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6817745566368103,
      "learning_rate": 1.1266372772008924e-05,
      "loss": 1.5583,
      "step": 82280
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6873081922531128,
      "learning_rate": 1.126353545642238e-05,
      "loss": 1.4541,
      "step": 82281
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6853736639022827,
      "learning_rate": 1.1260698491319276e-05,
      "loss": 1.5615,
      "step": 82282
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.663074791431427,
      "learning_rate": 1.1257861876703178e-05,
      "loss": 1.5262,
      "step": 82283
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6708347797393799,
      "learning_rate": 1.1255025612577517e-05,
      "loss": 1.5142,
      "step": 82284
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7071288824081421,
      "learning_rate": 1.1252189698945691e-05,
      "loss": 1.4545,
      "step": 82285
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.695152223110199,
      "learning_rate": 1.1249354135811162e-05,
      "loss": 1.4914,
      "step": 82286
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6797471046447754,
      "learning_rate": 1.1246518923177395e-05,
      "loss": 1.4554,
      "step": 82287
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6925230622291565,
      "learning_rate": 1.1243684061047785e-05,
      "loss": 1.4351,
      "step": 82288
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6744266748428345,
      "learning_rate": 1.1240849549425768e-05,
      "loss": 1.5237,
      "step": 82289
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6898422837257385,
      "learning_rate": 1.1238015388314836e-05,
      "loss": 1.518,
      "step": 82290
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6815317869186401,
      "learning_rate": 1.1235181577718422e-05,
      "loss": 1.5551,
      "step": 82291
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6790179014205933,
      "learning_rate": 1.1232348117639956e-05,
      "loss": 1.5588,
      "step": 82292
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.690090537071228,
      "learning_rate": 1.1229515008082835e-05,
      "loss": 1.4848,
      "step": 82293
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6843340396881104,
      "learning_rate": 1.122668224905059e-05,
      "loss": 1.5602,
      "step": 82294
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.667589545249939,
      "learning_rate": 1.1223849840546584e-05,
      "loss": 1.5187,
      "step": 82295
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.694635272026062,
      "learning_rate": 1.1221017782574216e-05,
      "loss": 1.5406,
      "step": 82296
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.685819149017334,
      "learning_rate": 1.1218186075137015e-05,
      "loss": 1.4887,
      "step": 82297
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6835759282112122,
      "learning_rate": 1.1215354718238411e-05,
      "loss": 1.5381,
      "step": 82298
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6852150559425354,
      "learning_rate": 1.1212523711881838e-05,
      "loss": 1.5193,
      "step": 82299
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6695051789283752,
      "learning_rate": 1.1209693056070657e-05,
      "loss": 1.5053,
      "step": 82300
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6601600646972656,
      "learning_rate": 1.1206862750808365e-05,
      "loss": 1.4909,
      "step": 82301
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6747865080833435,
      "learning_rate": 1.1204032796098428e-05,
      "loss": 1.5437,
      "step": 82302
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6976131796836853,
      "learning_rate": 1.1201203191944209e-05,
      "loss": 1.5067,
      "step": 82303
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6733399033546448,
      "learning_rate": 1.119837393834917e-05,
      "loss": 1.5836,
      "step": 82304
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.66690993309021,
      "learning_rate": 1.1195545035316777e-05,
      "loss": 1.4747,
      "step": 82305
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6650956869125366,
      "learning_rate": 1.1192716482850428e-05,
      "loss": 1.5797,
      "step": 82306
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6638158559799194,
      "learning_rate": 1.1189888280953552e-05,
      "loss": 1.5619,
      "step": 82307
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.684027373790741,
      "learning_rate": 1.1187060429629647e-05,
      "loss": 1.5147,
      "step": 82308
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6816376447677612,
      "learning_rate": 1.1184232928882076e-05,
      "loss": 1.5747,
      "step": 82309
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6553229689598083,
      "learning_rate": 1.1181405778714236e-05,
      "loss": 1.4573,
      "step": 82310
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6680788993835449,
      "learning_rate": 1.1178578979129626e-05,
      "loss": 1.499,
      "step": 82311
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.697575032711029,
      "learning_rate": 1.1175752530131743e-05,
      "loss": 1.5856,
      "step": 82312
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6883641481399536,
      "learning_rate": 1.1172926431723883e-05,
      "loss": 1.543,
      "step": 82313
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6762961149215698,
      "learning_rate": 1.1170100683909545e-05,
      "loss": 1.4606,
      "step": 82314
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6908699870109558,
      "learning_rate": 1.1167275286692157e-05,
      "loss": 1.5233,
      "step": 82315
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7066771388053894,
      "learning_rate": 1.1164450240075119e-05,
      "loss": 1.4509,
      "step": 82316
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6818819642066956,
      "learning_rate": 1.1161625544061891e-05,
      "loss": 1.5166,
      "step": 82317
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6775375008583069,
      "learning_rate": 1.115880119865591e-05,
      "loss": 1.4738,
      "step": 82318
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6883642077445984,
      "learning_rate": 1.1155977203860534e-05,
      "loss": 1.5856,
      "step": 82319
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6712969541549683,
      "learning_rate": 1.1153153559679295e-05,
      "loss": 1.4883,
      "step": 82320
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6610761284828186,
      "learning_rate": 1.1150330266115525e-05,
      "loss": 1.5456,
      "step": 82321
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6556614637374878,
      "learning_rate": 1.1147507323172723e-05,
      "loss": 1.5208,
      "step": 82322
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6963422894477844,
      "learning_rate": 1.114468473085428e-05,
      "loss": 1.46,
      "step": 82323
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6438840627670288,
      "learning_rate": 1.1141862489163633e-05,
      "loss": 1.4806,
      "step": 82324
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6669026017189026,
      "learning_rate": 1.113904059810421e-05,
      "loss": 1.5152,
      "step": 82325
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6875491738319397,
      "learning_rate": 1.1136219057679407e-05,
      "loss": 1.5591,
      "step": 82326
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6949074864387512,
      "learning_rate": 1.113339786789269e-05,
      "loss": 1.5081,
      "step": 82327
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6658712029457092,
      "learning_rate": 1.1130577028747456e-05,
      "loss": 1.5205,
      "step": 82328
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.657935380935669,
      "learning_rate": 1.1127756540247134e-05,
      "loss": 1.5072,
      "step": 82329
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6545272469520569,
      "learning_rate": 1.112493640239519e-05,
      "loss": 1.533,
      "step": 82330
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6728552579879761,
      "learning_rate": 1.1122116615194954e-05,
      "loss": 1.5405,
      "step": 82331
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.686202883720398,
      "learning_rate": 1.1119297178649922e-05,
      "loss": 1.4515,
      "step": 82332
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6674396991729736,
      "learning_rate": 1.1116478092763492e-05,
      "loss": 1.4342,
      "step": 82333
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6694072484970093,
      "learning_rate": 1.1113659357539129e-05,
      "loss": 1.4958,
      "step": 82334
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6801468133926392,
      "learning_rate": 1.1110840972980228e-05,
      "loss": 1.4995,
      "step": 82335
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6805839538574219,
      "learning_rate": 1.1108022939090122e-05,
      "loss": 1.5804,
      "step": 82336
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6812573075294495,
      "learning_rate": 1.1105205255872374e-05,
      "loss": 1.4609,
      "step": 82337
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6822975277900696,
      "learning_rate": 1.1102387923330346e-05,
      "loss": 1.5369,
      "step": 82338
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6642993688583374,
      "learning_rate": 1.1099570941467406e-05,
      "loss": 1.5073,
      "step": 82339
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6675159931182861,
      "learning_rate": 1.1096754310287014e-05,
      "loss": 1.5061,
      "step": 82340
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6910914182662964,
      "learning_rate": 1.1093938029792637e-05,
      "loss": 1.5549,
      "step": 82341
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.673469603061676,
      "learning_rate": 1.109112209998767e-05,
      "loss": 1.5148,
      "step": 82342
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.663608193397522,
      "learning_rate": 1.1088306520875445e-05,
      "loss": 1.4811,
      "step": 82343
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6878456473350525,
      "learning_rate": 1.1085491292459492e-05,
      "loss": 1.4848,
      "step": 82344
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7011810541152954,
      "learning_rate": 1.1082676414743209e-05,
      "loss": 1.5095,
      "step": 82345
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6728834509849548,
      "learning_rate": 1.1079861887729925e-05,
      "loss": 1.531,
      "step": 82346
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6745177507400513,
      "learning_rate": 1.1077047711423104e-05,
      "loss": 1.4933,
      "step": 82347
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6980301737785339,
      "learning_rate": 1.1074233885826279e-05,
      "loss": 1.5444,
      "step": 82348
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6773167252540588,
      "learning_rate": 1.1071420410942678e-05,
      "loss": 1.4824,
      "step": 82349
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6990869641304016,
      "learning_rate": 1.10686072867758e-05,
      "loss": 1.5543,
      "step": 82350
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6691232323646545,
      "learning_rate": 1.1065794513329107e-05,
      "loss": 1.5744,
      "step": 82351
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6556940078735352,
      "learning_rate": 1.1062982090605932e-05,
      "loss": 1.4617,
      "step": 82352
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6851747035980225,
      "learning_rate": 1.1060170018609738e-05,
      "loss": 1.5053,
      "step": 82353
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6724635362625122,
      "learning_rate": 1.1057358297343888e-05,
      "loss": 1.4863,
      "step": 82354
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6838023662567139,
      "learning_rate": 1.1054546926811914e-05,
      "loss": 1.4893,
      "step": 82355
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6900494694709778,
      "learning_rate": 1.1051735907017078e-05,
      "loss": 1.4887,
      "step": 82356
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6912086009979248,
      "learning_rate": 1.1048925237962846e-05,
      "loss": 1.4731,
      "step": 82357
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6731325387954712,
      "learning_rate": 1.1046114919652715e-05,
      "loss": 1.5354,
      "step": 82358
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6854141354560852,
      "learning_rate": 1.1043304952089982e-05,
      "loss": 1.4466,
      "step": 82359
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6703245639801025,
      "learning_rate": 1.1040495335278077e-05,
      "loss": 1.4724,
      "step": 82360
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6707120537757874,
      "learning_rate": 1.1037686069220464e-05,
      "loss": 1.5579,
      "step": 82361
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6545437574386597,
      "learning_rate": 1.1034877153920574e-05,
      "loss": 1.4849,
      "step": 82362
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6853563785552979,
      "learning_rate": 1.103206858938167e-05,
      "loss": 1.5817,
      "step": 82363
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6788403987884521,
      "learning_rate": 1.1029260375607286e-05,
      "loss": 1.4432,
      "step": 82364
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7116523385047913,
      "learning_rate": 1.1026452512600847e-05,
      "loss": 1.545,
      "step": 82365
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6818222403526306,
      "learning_rate": 1.1023645000365688e-05,
      "loss": 1.4754,
      "step": 82366
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6625686287879944,
      "learning_rate": 1.1020837838905238e-05,
      "loss": 1.4651,
      "step": 82367
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6688400506973267,
      "learning_rate": 1.101803102822293e-05,
      "loss": 1.5571,
      "step": 82368
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7121679782867432,
      "learning_rate": 1.1015224568322156e-05,
      "loss": 1.4857,
      "step": 82369
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6667208671569824,
      "learning_rate": 1.1012418459206286e-05,
      "loss": 1.4776,
      "step": 82370
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7109768390655518,
      "learning_rate": 1.1009612700878745e-05,
      "loss": 1.5113,
      "step": 82371
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6968356370925903,
      "learning_rate": 1.1006807293343e-05,
      "loss": 1.4796,
      "step": 82372
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6640979051589966,
      "learning_rate": 1.1004002236602417e-05,
      "loss": 1.49,
      "step": 82373
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6734882593154907,
      "learning_rate": 1.1001197530660355e-05,
      "loss": 1.5088,
      "step": 82374
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6659924387931824,
      "learning_rate": 1.099839317552028e-05,
      "loss": 1.4011,
      "step": 82375
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6924628615379333,
      "learning_rate": 1.0995589171185593e-05,
      "loss": 1.5098,
      "step": 82376
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6776037216186523,
      "learning_rate": 1.0992785517659618e-05,
      "loss": 1.4226,
      "step": 82377
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7028308510780334,
      "learning_rate": 1.0989982214945892e-05,
      "loss": 1.5511,
      "step": 82378
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6831454634666443,
      "learning_rate": 1.0987179263047674e-05,
      "loss": 1.525,
      "step": 82379
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7111931443214417,
      "learning_rate": 1.0984376661968497e-05,
      "loss": 1.5503,
      "step": 82380
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7006940841674805,
      "learning_rate": 1.0981574411711625e-05,
      "loss": 1.4536,
      "step": 82381
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6964101791381836,
      "learning_rate": 1.097877251228062e-05,
      "loss": 1.4703,
      "step": 82382
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6950424313545227,
      "learning_rate": 1.0975970963678782e-05,
      "loss": 1.5101,
      "step": 82383
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6738343834877014,
      "learning_rate": 1.0973169765909473e-05,
      "loss": 1.4829,
      "step": 82384
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6797683835029602,
      "learning_rate": 1.0970368918976224e-05,
      "loss": 1.5079,
      "step": 82385
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6838454604148865,
      "learning_rate": 1.09675684228823e-05,
      "loss": 1.4794,
      "step": 82386
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6846466064453125,
      "learning_rate": 1.0964768277631198e-05,
      "loss": 1.4737,
      "step": 82387
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6668001413345337,
      "learning_rate": 1.096196848322628e-05,
      "loss": 1.4411,
      "step": 82388
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6713447570800781,
      "learning_rate": 1.0959169039670912e-05,
      "loss": 1.5306,
      "step": 82389
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6713167428970337,
      "learning_rate": 1.0956369946968557e-05,
      "loss": 1.4844,
      "step": 82390
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7179933190345764,
      "learning_rate": 1.0953571205122547e-05,
      "loss": 1.5148,
      "step": 82391
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.681178867816925,
      "learning_rate": 1.0950772814136344e-05,
      "loss": 1.5949,
      "step": 82392
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6707704067230225,
      "learning_rate": 1.0947974774013313e-05,
      "loss": 1.4545,
      "step": 82393
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6768457293510437,
      "learning_rate": 1.0945177084756851e-05,
      "loss": 1.4831,
      "step": 82394
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6715413928031921,
      "learning_rate": 1.0942379746370355e-05,
      "loss": 1.4769,
      "step": 82395
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.695288360118866,
      "learning_rate": 1.093958275885719e-05,
      "loss": 1.5945,
      "step": 82396
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6643112897872925,
      "learning_rate": 1.093678612222082e-05,
      "loss": 1.4925,
      "step": 82397
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6910510659217834,
      "learning_rate": 1.0933989836464574e-05,
      "loss": 1.4592,
      "step": 82398
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6762778162956238,
      "learning_rate": 1.0931193901591883e-05,
      "loss": 1.5584,
      "step": 82399
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6799537539482117,
      "learning_rate": 1.092839831760608e-05,
      "loss": 1.5434,
      "step": 82400
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6837372779846191,
      "learning_rate": 1.0925603084510692e-05,
      "loss": 1.5126,
      "step": 82401
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.659135639667511,
      "learning_rate": 1.0922808202308986e-05,
      "loss": 1.4948,
      "step": 82402
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6672885417938232,
      "learning_rate": 1.092001367100439e-05,
      "loss": 1.4777,
      "step": 82403
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.664096474647522,
      "learning_rate": 1.0917219490600338e-05,
      "loss": 1.468,
      "step": 82404
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.668293833732605,
      "learning_rate": 1.0914425661100157e-05,
      "loss": 1.5451,
      "step": 82405
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6938751339912415,
      "learning_rate": 1.0911632182507279e-05,
      "loss": 1.6116,
      "step": 82406
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7266947627067566,
      "learning_rate": 1.0908839054825036e-05,
      "loss": 1.5789,
      "step": 82407
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6996434330940247,
      "learning_rate": 1.0906046278056957e-05,
      "loss": 1.4871,
      "step": 82408
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6861951351165771,
      "learning_rate": 1.0903253852206307e-05,
      "loss": 1.4836,
      "step": 82409
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6885184049606323,
      "learning_rate": 1.090046177727648e-05,
      "loss": 1.5162,
      "step": 82410
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.686578631401062,
      "learning_rate": 1.0897670053270912e-05,
      "loss": 1.5639,
      "step": 82411
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7105593681335449,
      "learning_rate": 1.0894878680192998e-05,
      "loss": 1.5213,
      "step": 82412
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6735740303993225,
      "learning_rate": 1.0892087658046068e-05,
      "loss": 1.5433,
      "step": 82413
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6891878843307495,
      "learning_rate": 1.0889296986833552e-05,
      "loss": 1.5012,
      "step": 82414
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6723554730415344,
      "learning_rate": 1.0886506666558847e-05,
      "loss": 1.5034,
      "step": 82415
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6954185366630554,
      "learning_rate": 1.0883716697225353e-05,
      "loss": 1.4036,
      "step": 82416
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7006906270980835,
      "learning_rate": 1.0880927078836365e-05,
      "loss": 1.5242,
      "step": 82417
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6717053651809692,
      "learning_rate": 1.0878137811395382e-05,
      "loss": 1.466,
      "step": 82418
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.687584638595581,
      "learning_rate": 1.0875348894905734e-05,
      "loss": 1.5015,
      "step": 82419
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.668641209602356,
      "learning_rate": 1.0872560329370749e-05,
      "loss": 1.5656,
      "step": 82420
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6702558398246765,
      "learning_rate": 1.0869772114793929e-05,
      "loss": 1.5511,
      "step": 82421
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6756010055541992,
      "learning_rate": 1.08669842511786e-05,
      "loss": 1.5363,
      "step": 82422
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6868269443511963,
      "learning_rate": 1.0864196738528163e-05,
      "loss": 1.5047,
      "step": 82423
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6802974939346313,
      "learning_rate": 1.0861409576845948e-05,
      "loss": 1.5333,
      "step": 82424
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6629401445388794,
      "learning_rate": 1.0858622766135417e-05,
      "loss": 1.4945,
      "step": 82425
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6633460521697998,
      "learning_rate": 1.0855836306399934e-05,
      "loss": 1.6053,
      "step": 82426
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6669517755508423,
      "learning_rate": 1.0853050197642798e-05,
      "loss": 1.4867,
      "step": 82427
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6693952083587646,
      "learning_rate": 1.0850264439867474e-05,
      "loss": 1.4928,
      "step": 82428
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6530314087867737,
      "learning_rate": 1.0847479033077355e-05,
      "loss": 1.4967,
      "step": 82429
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.675338864326477,
      "learning_rate": 1.0844693977275776e-05,
      "loss": 1.5908,
      "step": 82430
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.752496600151062,
      "learning_rate": 1.0841909272466132e-05,
      "loss": 1.4785,
      "step": 82431
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6686286926269531,
      "learning_rate": 1.083912491865182e-05,
      "loss": 1.4844,
      "step": 82432
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6574503183364868,
      "learning_rate": 1.0836340915836206e-05,
      "loss": 1.5366,
      "step": 82433
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6763294339179993,
      "learning_rate": 1.0833557264022619e-05,
      "loss": 1.5218,
      "step": 82434
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6849764585494995,
      "learning_rate": 1.0830773963214523e-05,
      "loss": 1.4642,
      "step": 82435
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6696520447731018,
      "learning_rate": 1.082799101341525e-05,
      "loss": 1.4778,
      "step": 82436
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6702827215194702,
      "learning_rate": 1.0825208414628228e-05,
      "loss": 1.5184,
      "step": 82437
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6886056065559387,
      "learning_rate": 1.0822426166856723e-05,
      "loss": 1.5271,
      "step": 82438
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.659928023815155,
      "learning_rate": 1.0819644270104234e-05,
      "loss": 1.53,
      "step": 82439
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6680935621261597,
      "learning_rate": 1.0816862724374087e-05,
      "loss": 1.5748,
      "step": 82440
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6697261333465576,
      "learning_rate": 1.081408152966965e-05,
      "loss": 1.5293,
      "step": 82441
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6986187696456909,
      "learning_rate": 1.0811300685994318e-05,
      "loss": 1.4863,
      "step": 82442
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6803686618804932,
      "learning_rate": 1.0808520193351423e-05,
      "loss": 1.4219,
      "step": 82443
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6799512505531311,
      "learning_rate": 1.0805740051744426e-05,
      "loss": 1.4719,
      "step": 82444
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6647719740867615,
      "learning_rate": 1.080296026117663e-05,
      "loss": 1.4916,
      "step": 82445
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6950817108154297,
      "learning_rate": 1.0800180821651394e-05,
      "loss": 1.5526,
      "step": 82446
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6841977834701538,
      "learning_rate": 1.0797401733172184e-05,
      "loss": 1.4726,
      "step": 82447
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6758377552032471,
      "learning_rate": 1.0794622995742263e-05,
      "loss": 1.4682,
      "step": 82448
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6697424650192261,
      "learning_rate": 1.0791844609365097e-05,
      "loss": 1.4856,
      "step": 82449
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6633186340332031,
      "learning_rate": 1.0789066574043981e-05,
      "loss": 1.4612,
      "step": 82450
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.676623523235321,
      "learning_rate": 1.0786288889782379e-05,
      "loss": 1.5087,
      "step": 82451
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6556906700134277,
      "learning_rate": 1.078351155658359e-05,
      "loss": 1.5275,
      "step": 82452
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6641109585762024,
      "learning_rate": 1.0780734574450978e-05,
      "loss": 1.5377,
      "step": 82453
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6588468551635742,
      "learning_rate": 1.0777957943387939e-05,
      "loss": 1.4744,
      "step": 82454
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6686392426490784,
      "learning_rate": 1.0775181663397869e-05,
      "loss": 1.5239,
      "step": 82455
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6855531334877014,
      "learning_rate": 1.0772405734484102e-05,
      "loss": 1.5642,
      "step": 82456
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6546505689620972,
      "learning_rate": 1.076963015665e-05,
      "loss": 1.5063,
      "step": 82457
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6783952116966248,
      "learning_rate": 1.0766854929898993e-05,
      "loss": 1.5392,
      "step": 82458
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6710295677185059,
      "learning_rate": 1.076408005423438e-05,
      "loss": 1.4651,
      "step": 82459
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6903383731842041,
      "learning_rate": 1.0761305529659558e-05,
      "loss": 1.5701,
      "step": 82460
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.679013192653656,
      "learning_rate": 1.0758531356177892e-05,
      "loss": 1.5482,
      "step": 82461
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6976481676101685,
      "learning_rate": 1.0755757533792774e-05,
      "loss": 1.5473,
      "step": 82462
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6694624423980713,
      "learning_rate": 1.0752984062507508e-05,
      "loss": 1.5013,
      "step": 82463
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6653623580932617,
      "learning_rate": 1.075021094232552e-05,
      "loss": 1.5578,
      "step": 82464
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6895434260368347,
      "learning_rate": 1.0747438173250212e-05,
      "loss": 1.5405,
      "step": 82465
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6644489765167236,
      "learning_rate": 1.074466575528481e-05,
      "loss": 1.5237,
      "step": 82466
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6710533499717712,
      "learning_rate": 1.074189368843278e-05,
      "loss": 1.5381,
      "step": 82467
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7027594447135925,
      "learning_rate": 1.0739121972697518e-05,
      "loss": 1.5499,
      "step": 82468
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6907069087028503,
      "learning_rate": 1.0736350608082323e-05,
      "loss": 1.4752,
      "step": 82469
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6856322288513184,
      "learning_rate": 1.0733579594590525e-05,
      "loss": 1.5324,
      "step": 82470
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6995795369148254,
      "learning_rate": 1.0730808932225553e-05,
      "loss": 1.5335,
      "step": 82471
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6568162441253662,
      "learning_rate": 1.0728038620990842e-05,
      "loss": 1.4165,
      "step": 82472
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6550860404968262,
      "learning_rate": 1.0725268660889618e-05,
      "loss": 1.5288,
      "step": 82473
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6801788806915283,
      "learning_rate": 1.0722499051925249e-05,
      "loss": 1.5859,
      "step": 82474
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7041892409324646,
      "learning_rate": 1.0719729794101195e-05,
      "loss": 1.4456,
      "step": 82475
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6627168655395508,
      "learning_rate": 1.071696088742079e-05,
      "loss": 1.5028,
      "step": 82476
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6977530121803284,
      "learning_rate": 1.0714192331887295e-05,
      "loss": 1.5621,
      "step": 82477
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6704344749450684,
      "learning_rate": 1.0711424127504176e-05,
      "loss": 1.6336,
      "step": 82478
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6952922344207764,
      "learning_rate": 1.070865627427483e-05,
      "loss": 1.559,
      "step": 82479
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6898069381713867,
      "learning_rate": 1.0705888772202453e-05,
      "loss": 1.5309,
      "step": 82480
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6719672083854675,
      "learning_rate": 1.0703121621290545e-05,
      "loss": 1.5328,
      "step": 82481
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6852774024009705,
      "learning_rate": 1.0700354821542434e-05,
      "loss": 1.519,
      "step": 82482
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6745604872703552,
      "learning_rate": 1.0697588372961452e-05,
      "loss": 1.5327,
      "step": 82483
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6844020485877991,
      "learning_rate": 1.0694822275550963e-05,
      "loss": 1.5084,
      "step": 82484
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.658927857875824,
      "learning_rate": 1.0692056529314363e-05,
      "loss": 1.4788,
      "step": 82485
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6781908273696899,
      "learning_rate": 1.068929113425495e-05,
      "loss": 1.4866,
      "step": 82486
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6847428679466248,
      "learning_rate": 1.068652609037609e-05,
      "loss": 1.4506,
      "step": 82487
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6894112229347229,
      "learning_rate": 1.0683761397681179e-05,
      "loss": 1.4554,
      "step": 82488
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6492016315460205,
      "learning_rate": 1.0680997056173578e-05,
      "loss": 1.5404,
      "step": 82489
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6816615462303162,
      "learning_rate": 1.0678233065856589e-05,
      "loss": 1.4985,
      "step": 82490
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.672196090221405,
      "learning_rate": 1.0675469426733608e-05,
      "loss": 1.5497,
      "step": 82491
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.682264506816864,
      "learning_rate": 1.0672706138807963e-05,
      "loss": 1.5398,
      "step": 82492
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6788867712020874,
      "learning_rate": 1.0669943202083054e-05,
      "loss": 1.53,
      "step": 82493
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6729511022567749,
      "learning_rate": 1.0667180616562176e-05,
      "loss": 1.488,
      "step": 82494
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.663764238357544,
      "learning_rate": 1.066441838224873e-05,
      "loss": 1.5152,
      "step": 82495
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6807723045349121,
      "learning_rate": 1.0661656499146009e-05,
      "loss": 1.5814,
      "step": 82496
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.7006453275680542,
      "learning_rate": 1.0658894967257447e-05,
      "loss": 1.5319,
      "step": 82497
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6909872889518738,
      "learning_rate": 1.0656133786586308e-05,
      "loss": 1.4817,
      "step": 82498
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6754934787750244,
      "learning_rate": 1.0653372957136053e-05,
      "loss": 1.5727,
      "step": 82499
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6676831841468811,
      "learning_rate": 1.0650612478909947e-05,
      "loss": 1.5506,
      "step": 82500
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6662970185279846,
      "learning_rate": 1.0647852351911324e-05,
      "loss": 1.4963,
      "step": 82501
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6533554792404175,
      "learning_rate": 1.064509257614361e-05,
      "loss": 1.4799,
      "step": 82502
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6913943290710449,
      "learning_rate": 1.0642333151610105e-05,
      "loss": 1.5326,
      "step": 82503
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6826092004776001,
      "learning_rate": 1.0639574078314172e-05,
      "loss": 1.4524,
      "step": 82504
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6679369807243347,
      "learning_rate": 1.0636815356259209e-05,
      "loss": 1.4966,
      "step": 82505
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.6676427125930786,
      "learning_rate": 1.0634056985448448e-05,
      "loss": 1.4824,
      "step": 82506
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6620374917984009,
      "learning_rate": 1.0631298965885348e-05,
      "loss": 1.5018,
      "step": 82507
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7214855551719666,
      "learning_rate": 1.0628541297573178e-05,
      "loss": 1.4884,
      "step": 82508
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.68031907081604,
      "learning_rate": 1.0625783980515368e-05,
      "loss": 1.5337,
      "step": 82509
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6715967059135437,
      "learning_rate": 1.062302701471518e-05,
      "loss": 1.4675,
      "step": 82510
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6732009053230286,
      "learning_rate": 1.0620270400176012e-05,
      "loss": 1.4945,
      "step": 82511
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.668470025062561,
      "learning_rate": 1.0617514136901229e-05,
      "loss": 1.538,
      "step": 82512
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6845245361328125,
      "learning_rate": 1.0614758224894094e-05,
      "loss": 1.4907,
      "step": 82513
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6590749621391296,
      "learning_rate": 1.0612002664158037e-05,
      "loss": 1.4826,
      "step": 82514
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6624653935432434,
      "learning_rate": 1.0609247454696356e-05,
      "loss": 1.4845,
      "step": 82515
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6822288036346436,
      "learning_rate": 1.0606492596512417e-05,
      "loss": 1.5046,
      "step": 82516
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6636030077934265,
      "learning_rate": 1.0603738089609515e-05,
      "loss": 1.5692,
      "step": 82517
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6724320650100708,
      "learning_rate": 1.060098393399108e-05,
      "loss": 1.5819,
      "step": 82518
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6579189896583557,
      "learning_rate": 1.0598230129660412e-05,
      "loss": 1.5455,
      "step": 82519
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6952453851699829,
      "learning_rate": 1.059547667662084e-05,
      "loss": 1.5636,
      "step": 82520
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6854594945907593,
      "learning_rate": 1.0592723574875727e-05,
      "loss": 1.4744,
      "step": 82521
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6549661159515381,
      "learning_rate": 1.0589970824428406e-05,
      "loss": 1.5123,
      "step": 82522
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6783327460289001,
      "learning_rate": 1.0587218425282173e-05,
      "loss": 1.6373,
      "step": 82523
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6750855445861816,
      "learning_rate": 1.0584466377440426e-05,
      "loss": 1.4873,
      "step": 82524
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6732625365257263,
      "learning_rate": 1.0581714680906527e-05,
      "loss": 1.5049,
      "step": 82525
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6837436556816101,
      "learning_rate": 1.057896333568381e-05,
      "loss": 1.5291,
      "step": 82526
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6942289471626282,
      "learning_rate": 1.0576212341775502e-05,
      "loss": 1.4798,
      "step": 82527
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6728596687316895,
      "learning_rate": 1.0573461699185104e-05,
      "loss": 1.501,
      "step": 82528
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6668153405189514,
      "learning_rate": 1.0570711407915843e-05,
      "loss": 1.4406,
      "step": 82529
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6753527522087097,
      "learning_rate": 1.0567961467971086e-05,
      "loss": 1.4796,
      "step": 82530
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6643897891044617,
      "learning_rate": 1.0565211879354163e-05,
      "loss": 1.5198,
      "step": 82531
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6748135685920715,
      "learning_rate": 1.056246264206847e-05,
      "loss": 1.5688,
      "step": 82532
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6508467197418213,
      "learning_rate": 1.0559713756117305e-05,
      "loss": 1.5152,
      "step": 82533
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6781750321388245,
      "learning_rate": 1.0556965221503966e-05,
      "loss": 1.4648,
      "step": 82534
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6950370669364929,
      "learning_rate": 1.055421703823185e-05,
      "loss": 1.5507,
      "step": 82535
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6642425656318665,
      "learning_rate": 1.0551469206304253e-05,
      "loss": 1.6098,
      "step": 82536
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6734743118286133,
      "learning_rate": 1.0548721725724507e-05,
      "loss": 1.4787,
      "step": 82537
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6955296397209167,
      "learning_rate": 1.0545974596495976e-05,
      "loss": 1.6377,
      "step": 82538
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6814479827880859,
      "learning_rate": 1.0543227818621992e-05,
      "loss": 1.4789,
      "step": 82539
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6598820090293884,
      "learning_rate": 1.0540481392105915e-05,
      "loss": 1.409,
      "step": 82540
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6808128356933594,
      "learning_rate": 1.0537735316950979e-05,
      "loss": 1.4879,
      "step": 82541
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6690911054611206,
      "learning_rate": 1.0534989593160615e-05,
      "loss": 1.5728,
      "step": 82542
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6943057179450989,
      "learning_rate": 1.053224422073815e-05,
      "loss": 1.5062,
      "step": 82543
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6710902452468872,
      "learning_rate": 1.052949919968682e-05,
      "loss": 1.5266,
      "step": 82544
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6771400570869446,
      "learning_rate": 1.0526754530010051e-05,
      "loss": 1.4561,
      "step": 82545
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6660146713256836,
      "learning_rate": 1.0524010211711176e-05,
      "loss": 1.5197,
      "step": 82546
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.70325767993927,
      "learning_rate": 1.0521266244793491e-05,
      "loss": 1.5652,
      "step": 82547
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6954240202903748,
      "learning_rate": 1.0518522629260329e-05,
      "loss": 1.5049,
      "step": 82548
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.681707501411438,
      "learning_rate": 1.0515779365115018e-05,
      "loss": 1.4111,
      "step": 82549
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6665535569190979,
      "learning_rate": 1.0513036452360923e-05,
      "loss": 1.4558,
      "step": 82550
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6905714869499207,
      "learning_rate": 1.0510293891001342e-05,
      "loss": 1.5213,
      "step": 82551
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6741167902946472,
      "learning_rate": 1.0507551681039606e-05,
      "loss": 1.4819,
      "step": 82552
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6993309259414673,
      "learning_rate": 1.050480982247901e-05,
      "loss": 1.4966,
      "step": 82553
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6677468419075012,
      "learning_rate": 1.0502068315322987e-05,
      "loss": 1.4918,
      "step": 82554
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6810974478721619,
      "learning_rate": 1.0499327159574733e-05,
      "loss": 1.5655,
      "step": 82555
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6958686709403992,
      "learning_rate": 1.049658635523768e-05,
      "loss": 1.5492,
      "step": 82556
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6600064039230347,
      "learning_rate": 1.0493845902315123e-05,
      "loss": 1.4984,
      "step": 82557
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6767237782478333,
      "learning_rate": 1.0491105800810362e-05,
      "loss": 1.496,
      "step": 82558
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6830551028251648,
      "learning_rate": 1.0488366050726726e-05,
      "loss": 1.4572,
      "step": 82559
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6457078456878662,
      "learning_rate": 1.048562665206758e-05,
      "loss": 1.4749,
      "step": 82560
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6808068752288818,
      "learning_rate": 1.0482887604836221e-05,
      "loss": 1.507,
      "step": 82561
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6647912263870239,
      "learning_rate": 1.0480148909035979e-05,
      "loss": 1.4946,
      "step": 82562
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6627621650695801,
      "learning_rate": 1.0477410564670152e-05,
      "loss": 1.4661,
      "step": 82563
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6759663820266724,
      "learning_rate": 1.0474672571742137e-05,
      "loss": 1.5566,
      "step": 82564
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6613867878913879,
      "learning_rate": 1.0471934930255166e-05,
      "loss": 1.5023,
      "step": 82565
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.68967205286026,
      "learning_rate": 1.0469197640212634e-05,
      "loss": 1.5246,
      "step": 82566
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6620059609413147,
      "learning_rate": 1.0466460701617806e-05,
      "loss": 1.4978,
      "step": 82567
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6861806511878967,
      "learning_rate": 1.0463724114474082e-05,
      "loss": 1.5071,
      "step": 82568
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6672216653823853,
      "learning_rate": 1.046098787878472e-05,
      "loss": 1.5121,
      "step": 82569
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7144845128059387,
      "learning_rate": 1.0458251994553024e-05,
      "loss": 1.5378,
      "step": 82570
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7091048955917358,
      "learning_rate": 1.0455516461782387e-05,
      "loss": 1.562,
      "step": 82571
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6815418004989624,
      "learning_rate": 1.0452781280476074e-05,
      "loss": 1.4881,
      "step": 82572
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6788049340248108,
      "learning_rate": 1.0450046450637383e-05,
      "loss": 1.5509,
      "step": 82573
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6816943287849426,
      "learning_rate": 1.0447311972269712e-05,
      "loss": 1.5143,
      "step": 82574
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6817795634269714,
      "learning_rate": 1.0444577845376356e-05,
      "loss": 1.5056,
      "step": 82575
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6677805185317993,
      "learning_rate": 1.0441844069960614e-05,
      "loss": 1.4829,
      "step": 82576
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6704307198524475,
      "learning_rate": 1.043911064602575e-05,
      "loss": 1.5626,
      "step": 82577
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.655222475528717,
      "learning_rate": 1.0436377573575227e-05,
      "loss": 1.4871,
      "step": 82578
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6860056519508362,
      "learning_rate": 1.0433644852612245e-05,
      "loss": 1.5294,
      "step": 82579
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7054135799407959,
      "learning_rate": 1.043091248314013e-05,
      "loss": 1.4852,
      "step": 82580
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6830980777740479,
      "learning_rate": 1.0428180465162183e-05,
      "loss": 1.516,
      "step": 82581
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6962701678276062,
      "learning_rate": 1.0425448798681869e-05,
      "loss": 1.5681,
      "step": 82582
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6562574505805969,
      "learning_rate": 1.0422717483702314e-05,
      "loss": 1.4777,
      "step": 82583
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6645188927650452,
      "learning_rate": 1.041998652022692e-05,
      "loss": 1.4703,
      "step": 82584
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6853718161582947,
      "learning_rate": 1.0417255908259014e-05,
      "loss": 1.4703,
      "step": 82585
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6596381664276123,
      "learning_rate": 1.0414525647801897e-05,
      "loss": 1.5993,
      "step": 82586
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6788333058357239,
      "learning_rate": 1.0411795738858863e-05,
      "loss": 1.5597,
      "step": 82587
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6630491018295288,
      "learning_rate": 1.0409066181433212e-05,
      "loss": 1.5004,
      "step": 82588
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6653054356575012,
      "learning_rate": 1.0406336975528373e-05,
      "loss": 1.5306,
      "step": 82589
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6515421271324158,
      "learning_rate": 1.0403608121147477e-05,
      "loss": 1.4874,
      "step": 82590
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6948844194412231,
      "learning_rate": 1.0400879618293956e-05,
      "loss": 1.441,
      "step": 82591
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6484564542770386,
      "learning_rate": 1.0398151466971138e-05,
      "loss": 1.4437,
      "step": 82592
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6847975850105286,
      "learning_rate": 1.0395423667182257e-05,
      "loss": 1.4932,
      "step": 82593
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.693716287612915,
      "learning_rate": 1.0392696218930673e-05,
      "loss": 1.523,
      "step": 82594
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6762703657150269,
      "learning_rate": 1.0389969122219655e-05,
      "loss": 1.5053,
      "step": 82595
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6963862180709839,
      "learning_rate": 1.0387242377052596e-05,
      "loss": 1.4754,
      "step": 82596
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6566843390464783,
      "learning_rate": 1.0384515983432729e-05,
      "loss": 1.4677,
      "step": 82597
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6874441504478455,
      "learning_rate": 1.038178994136335e-05,
      "loss": 1.4928,
      "step": 82598
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6845996975898743,
      "learning_rate": 1.0379064250847857e-05,
      "loss": 1.4703,
      "step": 82599
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6884845495223999,
      "learning_rate": 1.037633891188948e-05,
      "loss": 1.6262,
      "step": 82600
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7010090351104736,
      "learning_rate": 1.0373613924491553e-05,
      "loss": 1.5168,
      "step": 82601
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7085715532302856,
      "learning_rate": 1.0370889288657403e-05,
      "loss": 1.514,
      "step": 82602
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6670181155204773,
      "learning_rate": 1.0368165004390295e-05,
      "loss": 1.5057,
      "step": 82603
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6801475286483765,
      "learning_rate": 1.036544107169356e-05,
      "loss": 1.4851,
      "step": 82604
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6809960007667542,
      "learning_rate": 1.0362717490570493e-05,
      "loss": 1.5208,
      "step": 82605
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6706328392028809,
      "learning_rate": 1.0359994261024462e-05,
      "loss": 1.5476,
      "step": 82606
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6370276212692261,
      "learning_rate": 1.0357271383058696e-05,
      "loss": 1.5357,
      "step": 82607
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6592211723327637,
      "learning_rate": 1.0354548856676492e-05,
      "loss": 1.5044,
      "step": 82608
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6614367365837097,
      "learning_rate": 1.0351826681881247e-05,
      "loss": 1.4789,
      "step": 82609
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6832363605499268,
      "learning_rate": 1.0349104858676194e-05,
      "loss": 1.5011,
      "step": 82610
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6837330460548401,
      "learning_rate": 1.0346383387064594e-05,
      "loss": 1.5084,
      "step": 82611
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6803101301193237,
      "learning_rate": 1.034366226704988e-05,
      "loss": 1.5736,
      "step": 82612
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.663554310798645,
      "learning_rate": 1.0340941498635213e-05,
      "loss": 1.4783,
      "step": 82613
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6941959261894226,
      "learning_rate": 1.0338221081823994e-05,
      "loss": 1.5526,
      "step": 82614
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6648444533348083,
      "learning_rate": 1.0335501016619485e-05,
      "loss": 1.4896,
      "step": 82615
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6938014626502991,
      "learning_rate": 1.0332781303025017e-05,
      "loss": 1.4766,
      "step": 82616
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6832587718963623,
      "learning_rate": 1.0330061941043888e-05,
      "loss": 1.5107,
      "step": 82617
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6547018885612488,
      "learning_rate": 1.0327342930679328e-05,
      "loss": 1.4969,
      "step": 82618
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6737442016601562,
      "learning_rate": 1.0324624271934768e-05,
      "loss": 1.4513,
      "step": 82619
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6714100241661072,
      "learning_rate": 1.0321905964813337e-05,
      "loss": 1.5749,
      "step": 82620
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.684487521648407,
      "learning_rate": 1.0319188009318502e-05,
      "loss": 1.4611,
      "step": 82621
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6767890453338623,
      "learning_rate": 1.0316470405453492e-05,
      "loss": 1.5027,
      "step": 82622
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6701995134353638,
      "learning_rate": 1.0313753153221571e-05,
      "loss": 1.5768,
      "step": 82623
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6823807954788208,
      "learning_rate": 1.0311036252626103e-05,
      "loss": 1.468,
      "step": 82624
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6793583631515503,
      "learning_rate": 1.0308319703670288e-05,
      "loss": 1.5156,
      "step": 82625
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6674089431762695,
      "learning_rate": 1.0305603506357551e-05,
      "loss": 1.5026,
      "step": 82626
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6874368786811829,
      "learning_rate": 1.0302887660691095e-05,
      "loss": 1.4381,
      "step": 82627
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7038092017173767,
      "learning_rate": 1.0300172166674282e-05,
      "loss": 1.4802,
      "step": 82628
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6665195822715759,
      "learning_rate": 1.0297457024310374e-05,
      "loss": 1.4764,
      "step": 82629
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7014961242675781,
      "learning_rate": 1.0294742233602605e-05,
      "loss": 1.5059,
      "step": 82630
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6708148121833801,
      "learning_rate": 1.0292027794554402e-05,
      "loss": 1.4988,
      "step": 82631
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6735951900482178,
      "learning_rate": 1.0289313707168967e-05,
      "loss": 1.4918,
      "step": 82632
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6672410368919373,
      "learning_rate": 1.0286599971449593e-05,
      "loss": 1.4816,
      "step": 82633
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6859630346298218,
      "learning_rate": 1.0283886587399615e-05,
      "loss": 1.4896,
      "step": 82634
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6620979905128479,
      "learning_rate": 1.0281173555022327e-05,
      "loss": 1.4706,
      "step": 82635
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6734334230422974,
      "learning_rate": 1.0278460874321026e-05,
      "loss": 1.5536,
      "step": 82636
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.665198802947998,
      "learning_rate": 1.0275748545298946e-05,
      "loss": 1.544,
      "step": 82637
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6659460663795471,
      "learning_rate": 1.0273036567959447e-05,
      "loss": 1.428,
      "step": 82638
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6664299368858337,
      "learning_rate": 1.0270324942305763e-05,
      "loss": 1.5717,
      "step": 82639
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.722362220287323,
      "learning_rate": 1.0267613668341224e-05,
      "loss": 1.4793,
      "step": 82640
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.682321310043335,
      "learning_rate": 1.0264902746069093e-05,
      "loss": 1.5254,
      "step": 82641
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7078961133956909,
      "learning_rate": 1.02621921754927e-05,
      "loss": 1.4723,
      "step": 82642
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6896288990974426,
      "learning_rate": 1.0259481956615345e-05,
      "loss": 1.4921,
      "step": 82643
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6894620656967163,
      "learning_rate": 1.0256772089440225e-05,
      "loss": 1.4882,
      "step": 82644
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6734699010848999,
      "learning_rate": 1.0254062573970733e-05,
      "loss": 1.4426,
      "step": 82645
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6854776740074158,
      "learning_rate": 1.025135341021014e-05,
      "loss": 1.5071,
      "step": 82646
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6752356886863708,
      "learning_rate": 1.0248644598161671e-05,
      "loss": 1.5219,
      "step": 82647
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6731303930282593,
      "learning_rate": 1.0245936137828625e-05,
      "loss": 1.4829,
      "step": 82648
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6643818616867065,
      "learning_rate": 1.0243228029214368e-05,
      "loss": 1.5182,
      "step": 82649
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6864628791809082,
      "learning_rate": 1.024052027232216e-05,
      "loss": 1.527,
      "step": 82650
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6876486539840698,
      "learning_rate": 1.0237812867155204e-05,
      "loss": 1.5168,
      "step": 82651
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6841278076171875,
      "learning_rate": 1.0235105813716893e-05,
      "loss": 1.4805,
      "step": 82652
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7136428952217102,
      "learning_rate": 1.0232399112010491e-05,
      "loss": 1.515,
      "step": 82653
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6756578087806702,
      "learning_rate": 1.02296927620392e-05,
      "loss": 1.4852,
      "step": 82654
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6943302750587463,
      "learning_rate": 1.0226986763806377e-05,
      "loss": 1.4985,
      "step": 82655
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6753482818603516,
      "learning_rate": 1.0224281117315325e-05,
      "loss": 1.5288,
      "step": 82656
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6769413948059082,
      "learning_rate": 1.0221575822569306e-05,
      "loss": 1.5107,
      "step": 82657
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6668353080749512,
      "learning_rate": 1.021887087957155e-05,
      "loss": 1.5259,
      "step": 82658
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6896895170211792,
      "learning_rate": 1.0216166288325422e-05,
      "loss": 1.5127,
      "step": 82659
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6811216473579407,
      "learning_rate": 1.0213462048834186e-05,
      "loss": 1.54,
      "step": 82660
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6912648677825928,
      "learning_rate": 1.0210758161101073e-05,
      "loss": 1.5147,
      "step": 82661
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7031578421592712,
      "learning_rate": 1.020805462512938e-05,
      "loss": 1.5463,
      "step": 82662
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7026060819625854,
      "learning_rate": 1.0205351440922472e-05,
      "loss": 1.5585,
      "step": 82663
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6950412392616272,
      "learning_rate": 1.0202648608483544e-05,
      "loss": 1.4778,
      "step": 82664
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6638991236686707,
      "learning_rate": 1.0199946127815862e-05,
      "loss": 1.5173,
      "step": 82665
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6676323413848877,
      "learning_rate": 1.0197243998922821e-05,
      "loss": 1.513,
      "step": 82666
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6775062084197998,
      "learning_rate": 1.0194542221807588e-05,
      "loss": 1.5197,
      "step": 82667
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7096953988075256,
      "learning_rate": 1.019184079647346e-05,
      "loss": 1.5149,
      "step": 82668
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6630538702011108,
      "learning_rate": 1.0189139722923768e-05,
      "loss": 1.5253,
      "step": 82669
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6798374056816101,
      "learning_rate": 1.0186439001161705e-05,
      "loss": 1.5097,
      "step": 82670
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6761254668235779,
      "learning_rate": 1.0183738631190674e-05,
      "loss": 1.5304,
      "step": 82671
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6704114079475403,
      "learning_rate": 1.0181038613013836e-05,
      "loss": 1.4644,
      "step": 82672
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6810653209686279,
      "learning_rate": 1.0178338946634523e-05,
      "loss": 1.4898,
      "step": 82673
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6993373036384583,
      "learning_rate": 1.0175639632056032e-05,
      "loss": 1.5096,
      "step": 82674
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6729507446289062,
      "learning_rate": 1.017294066928156e-05,
      "loss": 1.5155,
      "step": 82675
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6946823000907898,
      "learning_rate": 1.017024205831447e-05,
      "loss": 1.5452,
      "step": 82676
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6657690405845642,
      "learning_rate": 1.0167543799157996e-05,
      "loss": 1.488,
      "step": 82677
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6839222311973572,
      "learning_rate": 1.0164845891815431e-05,
      "loss": 1.4357,
      "step": 82678
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6720687747001648,
      "learning_rate": 1.016214833629001e-05,
      "loss": 1.5392,
      "step": 82679
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6647616624832153,
      "learning_rate": 1.0159451132585028e-05,
      "loss": 1.5309,
      "step": 82680
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6856690049171448,
      "learning_rate": 1.0156754280703817e-05,
      "loss": 1.5067,
      "step": 82681
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.681034505367279,
      "learning_rate": 1.0154057780649538e-05,
      "loss": 1.5262,
      "step": 82682
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6546804904937744,
      "learning_rate": 1.0151361632425592e-05,
      "loss": 1.5253,
      "step": 82683
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.665536105632782,
      "learning_rate": 1.0148665836035108e-05,
      "loss": 1.4063,
      "step": 82684
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6807302236557007,
      "learning_rate": 1.0145970391481517e-05,
      "loss": 1.511,
      "step": 82685
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6529607176780701,
      "learning_rate": 1.0143275298767984e-05,
      "loss": 1.4301,
      "step": 82686
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6854932308197021,
      "learning_rate": 1.014058055789777e-05,
      "loss": 1.5245,
      "step": 82687
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6894359588623047,
      "learning_rate": 1.0137886168874209e-05,
      "loss": 1.5246,
      "step": 82688
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6701827049255371,
      "learning_rate": 1.0135192131700564e-05,
      "loss": 1.4372,
      "step": 82689
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6616752743721008,
      "learning_rate": 1.0132498446380034e-05,
      "loss": 1.4577,
      "step": 82690
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.696122944355011,
      "learning_rate": 1.0129805112915978e-05,
      "loss": 1.6254,
      "step": 82691
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6860072016716003,
      "learning_rate": 1.0127112131311633e-05,
      "loss": 1.5147,
      "step": 82692
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6838225722312927,
      "learning_rate": 1.0124419501570258e-05,
      "loss": 1.4921,
      "step": 82693
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6691905856132507,
      "learning_rate": 1.0121727223695086e-05,
      "loss": 1.5958,
      "step": 82694
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6769026517868042,
      "learning_rate": 1.0119035297689482e-05,
      "loss": 1.5409,
      "step": 82695
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6888138055801392,
      "learning_rate": 1.011634372355664e-05,
      "loss": 1.4748,
      "step": 82696
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6829314231872559,
      "learning_rate": 1.0113652501299829e-05,
      "loss": 1.5254,
      "step": 82697
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7129573822021484,
      "learning_rate": 1.0110961630922344e-05,
      "loss": 1.5097,
      "step": 82698
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6717690229415894,
      "learning_rate": 1.010827111242748e-05,
      "loss": 1.4854,
      "step": 82699
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6585906744003296,
      "learning_rate": 1.0105580945818404e-05,
      "loss": 1.5063,
      "step": 82700
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6772968769073486,
      "learning_rate": 1.0102891131098411e-05,
      "loss": 1.4953,
      "step": 82701
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6676177382469177,
      "learning_rate": 1.0100201668270868e-05,
      "loss": 1.4461,
      "step": 82702
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6809390783309937,
      "learning_rate": 1.0097512557338939e-05,
      "loss": 1.5323,
      "step": 82703
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6892862319946289,
      "learning_rate": 1.0094823798305884e-05,
      "loss": 1.5054,
      "step": 82704
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6866410970687866,
      "learning_rate": 1.0092135391175004e-05,
      "loss": 1.5519,
      "step": 82705
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7189222574234009,
      "learning_rate": 1.008944733594963e-05,
      "loss": 1.4911,
      "step": 82706
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6810493469238281,
      "learning_rate": 1.0086759632632856e-05,
      "loss": 1.5549,
      "step": 82707
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6648589968681335,
      "learning_rate": 1.0084072281228083e-05,
      "loss": 1.5325,
      "step": 82708
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6765497326850891,
      "learning_rate": 1.008138528173854e-05,
      "loss": 1.5014,
      "step": 82709
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.668377161026001,
      "learning_rate": 1.0078698634167459e-05,
      "loss": 1.5114,
      "step": 82710
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6618927717208862,
      "learning_rate": 1.0076012338518102e-05,
      "loss": 1.4601,
      "step": 82711
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7191874384880066,
      "learning_rate": 1.0073326394793736e-05,
      "loss": 1.5491,
      "step": 82712
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6722881197929382,
      "learning_rate": 1.0070640802997721e-05,
      "loss": 1.519,
      "step": 82713
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6738854646682739,
      "learning_rate": 1.0067955563133156e-05,
      "loss": 1.4674,
      "step": 82714
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6693567633628845,
      "learning_rate": 1.0065270675203374e-05,
      "loss": 1.4895,
      "step": 82715
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7327597737312317,
      "learning_rate": 1.006258613921167e-05,
      "loss": 1.5187,
      "step": 82716
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6934500336647034,
      "learning_rate": 1.0059901955161242e-05,
      "loss": 1.551,
      "step": 82717
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6749732494354248,
      "learning_rate": 1.0057218123055354e-05,
      "loss": 1.5197,
      "step": 82718
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7058924436569214,
      "learning_rate": 1.0054534642897338e-05,
      "loss": 1.4732,
      "step": 82719
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6865933537483215,
      "learning_rate": 1.005185151469039e-05,
      "loss": 1.5764,
      "step": 82720
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6688957810401917,
      "learning_rate": 1.0049168738437707e-05,
      "loss": 1.4423,
      "step": 82721
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7181982398033142,
      "learning_rate": 1.004648631414262e-05,
      "loss": 1.5555,
      "step": 82722
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6614702939987183,
      "learning_rate": 1.004380424180843e-05,
      "loss": 1.502,
      "step": 82723
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6817517280578613,
      "learning_rate": 1.0041122521438327e-05,
      "loss": 1.5341,
      "step": 82724
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6635982394218445,
      "learning_rate": 1.0038441153035547e-05,
      "loss": 1.5095,
      "step": 82725
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7075586915016174,
      "learning_rate": 1.0035760136603387e-05,
      "loss": 1.484,
      "step": 82726
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6860992908477783,
      "learning_rate": 1.0033079472145111e-05,
      "loss": 1.4617,
      "step": 82727
    },
    {
      "epoch": 2.75,
      "grad_norm": 1.0729573965072632,
      "learning_rate": 1.0030399159663949e-05,
      "loss": 1.6045,
      "step": 82728
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6978778839111328,
      "learning_rate": 1.002771919916313e-05,
      "loss": 1.5215,
      "step": 82729
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6746648550033569,
      "learning_rate": 1.0025039590645955e-05,
      "loss": 1.4906,
      "step": 82730
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6638271808624268,
      "learning_rate": 1.0022360334115654e-05,
      "loss": 1.4886,
      "step": 82731
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6886484622955322,
      "learning_rate": 1.0019681429575454e-05,
      "loss": 1.4539,
      "step": 82732
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6673939228057861,
      "learning_rate": 1.001700287702869e-05,
      "loss": 1.4763,
      "step": 82733
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6438482999801636,
      "learning_rate": 1.0014324676478524e-05,
      "loss": 1.4717,
      "step": 82734
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6921419501304626,
      "learning_rate": 1.001164682792822e-05,
      "loss": 1.5583,
      "step": 82735
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6623523831367493,
      "learning_rate": 1.0008969331381078e-05,
      "loss": 1.4613,
      "step": 82736
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6864328384399414,
      "learning_rate": 1.0006292186840292e-05,
      "loss": 1.4688,
      "step": 82737
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6969668865203857,
      "learning_rate": 1.0003615394309195e-05,
      "loss": 1.5168,
      "step": 82738
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6804159283638,
      "learning_rate": 1.0000938953790949e-05,
      "loss": 1.519,
      "step": 82739
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6581076979637146,
      "learning_rate": 9.99826286528882e-06,
      "loss": 1.5175,
      "step": 82740
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6612105369567871,
      "learning_rate": 9.99558712880607e-06,
      "loss": 1.4955,
      "step": 82741
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6741040349006653,
      "learning_rate": 9.992911744345932e-06,
      "loss": 1.5034,
      "step": 82742
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6753134727478027,
      "learning_rate": 9.990236711911703e-06,
      "loss": 1.5331,
      "step": 82743
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6790416836738586,
      "learning_rate": 9.98756203150658e-06,
      "loss": 1.5362,
      "step": 82744
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.682490885257721,
      "learning_rate": 9.98488770313386e-06,
      "loss": 1.4521,
      "step": 82745
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6924293041229248,
      "learning_rate": 9.98221372679674e-06,
      "loss": 1.5207,
      "step": 82746
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.66844242811203,
      "learning_rate": 9.979540102498418e-06,
      "loss": 1.4591,
      "step": 82747
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6704601645469666,
      "learning_rate": 9.976866830242292e-06,
      "loss": 1.469,
      "step": 82748
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6841258406639099,
      "learning_rate": 9.974193910031459e-06,
      "loss": 1.5819,
      "step": 82749
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6728212237358093,
      "learning_rate": 9.971521341869215e-06,
      "loss": 1.5047,
      "step": 82750
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6939505338668823,
      "learning_rate": 9.968849125758827e-06,
      "loss": 1.5198,
      "step": 82751
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6971364617347717,
      "learning_rate": 9.966177261703557e-06,
      "loss": 1.483,
      "step": 82752
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6772919297218323,
      "learning_rate": 9.963505749706569e-06,
      "loss": 1.5149,
      "step": 82753
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6782816648483276,
      "learning_rate": 9.960834589771161e-06,
      "loss": 1.5074,
      "step": 82754
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6590837836265564,
      "learning_rate": 9.958163781900563e-06,
      "loss": 1.4541,
      "step": 82755
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.655267596244812,
      "learning_rate": 9.955493326098041e-06,
      "loss": 1.4031,
      "step": 82756
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6738519668579102,
      "learning_rate": 9.952823222366791e-06,
      "loss": 1.5607,
      "step": 82757
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6622531414031982,
      "learning_rate": 9.950153470710042e-06,
      "loss": 1.5558,
      "step": 82758
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6935310363769531,
      "learning_rate": 9.947484071131129e-06,
      "loss": 1.5159,
      "step": 82759
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6764576435089111,
      "learning_rate": 9.944815023633245e-06,
      "loss": 1.5089,
      "step": 82760
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7163400650024414,
      "learning_rate": 9.942146328219558e-06,
      "loss": 1.5172,
      "step": 82761
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6792190670967102,
      "learning_rate": 9.939477984893428e-06,
      "loss": 1.4897,
      "step": 82762
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.686642587184906,
      "learning_rate": 9.93680999365799e-06,
      "loss": 1.5642,
      "step": 82763
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6862095594406128,
      "learning_rate": 9.934142354516538e-06,
      "loss": 1.5486,
      "step": 82764
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6684242486953735,
      "learning_rate": 9.931475067472273e-06,
      "loss": 1.522,
      "step": 82765
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6762990951538086,
      "learning_rate": 9.928808132528487e-06,
      "loss": 1.4678,
      "step": 82766
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6591309309005737,
      "learning_rate": 9.926141549688416e-06,
      "loss": 1.4938,
      "step": 82767
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6599393486976624,
      "learning_rate": 9.92347531895522e-06,
      "loss": 1.5153,
      "step": 82768
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6936589479446411,
      "learning_rate": 9.9208094403322e-06,
      "loss": 1.4524,
      "step": 82769
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6834157705307007,
      "learning_rate": 9.918143913822585e-06,
      "loss": 1.5107,
      "step": 82770
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6628011465072632,
      "learning_rate": 9.915478739429571e-06,
      "loss": 1.4542,
      "step": 82771
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6826512217521667,
      "learning_rate": 9.912813917156426e-06,
      "loss": 1.4623,
      "step": 82772
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6847462058067322,
      "learning_rate": 9.910149447006443e-06,
      "loss": 1.4778,
      "step": 82773
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7110830545425415,
      "learning_rate": 9.907485328982755e-06,
      "loss": 1.5484,
      "step": 82774
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6982989311218262,
      "learning_rate": 9.904821563088628e-06,
      "loss": 1.5048,
      "step": 82775
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6807560324668884,
      "learning_rate": 9.902158149327321e-06,
      "loss": 1.5189,
      "step": 82776
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6523810625076294,
      "learning_rate": 9.899495087702036e-06,
      "loss": 1.4885,
      "step": 82777
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7044976949691772,
      "learning_rate": 9.896832378216036e-06,
      "loss": 1.5739,
      "step": 82778
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6797061562538147,
      "learning_rate": 9.894170020872483e-06,
      "loss": 1.5268,
      "step": 82779
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6580595970153809,
      "learning_rate": 9.891508015674743e-06,
      "loss": 1.49,
      "step": 82780
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6731804609298706,
      "learning_rate": 9.888846362625947e-06,
      "loss": 1.4905,
      "step": 82781
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6964688897132874,
      "learning_rate": 9.88618506172929e-06,
      "loss": 1.5429,
      "step": 82782
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6930604577064514,
      "learning_rate": 9.883524112988105e-06,
      "loss": 1.5195,
      "step": 82783
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.670704185962677,
      "learning_rate": 9.88086351640559e-06,
      "loss": 1.5177,
      "step": 82784
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6569029688835144,
      "learning_rate": 9.878203271984908e-06,
      "loss": 1.4547,
      "step": 82785
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6817702651023865,
      "learning_rate": 9.87554337972939e-06,
      "loss": 1.4684,
      "step": 82786
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6584887504577637,
      "learning_rate": 9.872883839642165e-06,
      "loss": 1.4277,
      "step": 82787
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.7043566107749939,
      "learning_rate": 9.870224651726567e-06,
      "loss": 1.4842,
      "step": 82788
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6802921295166016,
      "learning_rate": 9.867565815985723e-06,
      "loss": 1.5292,
      "step": 82789
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6768149137496948,
      "learning_rate": 9.864907332422934e-06,
      "loss": 1.506,
      "step": 82790
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6733582615852356,
      "learning_rate": 9.862249201041394e-06,
      "loss": 1.5177,
      "step": 82791
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6787494421005249,
      "learning_rate": 9.859591421844304e-06,
      "loss": 1.5695,
      "step": 82792
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6751977801322937,
      "learning_rate": 9.85693399483496e-06,
      "loss": 1.4292,
      "step": 82793
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6654140949249268,
      "learning_rate": 9.854276920016524e-06,
      "loss": 1.4658,
      "step": 82794
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6729177832603455,
      "learning_rate": 9.851620197392262e-06,
      "loss": 1.4845,
      "step": 82795
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6814082264900208,
      "learning_rate": 9.848963826965372e-06,
      "loss": 1.4974,
      "step": 82796
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6798750758171082,
      "learning_rate": 9.846307808739052e-06,
      "loss": 1.4912,
      "step": 82797
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6756131052970886,
      "learning_rate": 9.84365214271663e-06,
      "loss": 1.5565,
      "step": 82798
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6875743865966797,
      "learning_rate": 9.840996828901204e-06,
      "loss": 1.4971,
      "step": 82799
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6670741438865662,
      "learning_rate": 9.838341867296073e-06,
      "loss": 1.5515,
      "step": 82800
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6723366379737854,
      "learning_rate": 9.835687257904435e-06,
      "loss": 1.5223,
      "step": 82801
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6874998211860657,
      "learning_rate": 9.83303300072955e-06,
      "loss": 1.5152,
      "step": 82802
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6970601081848145,
      "learning_rate": 9.830379095774621e-06,
      "loss": 1.5058,
      "step": 82803
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6752145290374756,
      "learning_rate": 9.827725543042808e-06,
      "loss": 1.4819,
      "step": 82804
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6598808169364929,
      "learning_rate": 9.82507234253741e-06,
      "loss": 1.4905,
      "step": 82805
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6728925704956055,
      "learning_rate": 9.822419494261624e-06,
      "loss": 1.5045,
      "step": 82806
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.6783685088157654,
      "learning_rate": 9.819766998218614e-06,
      "loss": 1.4644,
      "step": 82807
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6590567827224731,
      "learning_rate": 9.817114854411678e-06,
      "loss": 1.531,
      "step": 82808
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6739252805709839,
      "learning_rate": 9.814463062844013e-06,
      "loss": 1.5061,
      "step": 82809
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6515727639198303,
      "learning_rate": 9.81181162351885e-06,
      "loss": 1.4447,
      "step": 82810
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6734792590141296,
      "learning_rate": 9.809160536439353e-06,
      "loss": 1.5381,
      "step": 82811
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6787067651748657,
      "learning_rate": 9.80650980160882e-06,
      "loss": 1.4454,
      "step": 82812
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6684355735778809,
      "learning_rate": 9.803859419030447e-06,
      "loss": 1.523,
      "step": 82813
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6863436698913574,
      "learning_rate": 9.801209388707365e-06,
      "loss": 1.5344,
      "step": 82814
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6960976719856262,
      "learning_rate": 9.798559710642839e-06,
      "loss": 1.536,
      "step": 82815
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6834782361984253,
      "learning_rate": 9.7959103848402e-06,
      "loss": 1.5418,
      "step": 82816
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6970182061195374,
      "learning_rate": 9.79326141130251e-06,
      "loss": 1.6109,
      "step": 82817
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7069762945175171,
      "learning_rate": 9.790612790033004e-06,
      "loss": 1.5157,
      "step": 82818
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7012845277786255,
      "learning_rate": 9.787964521034974e-06,
      "loss": 1.5346,
      "step": 82819
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6701709032058716,
      "learning_rate": 9.785316604311622e-06,
      "loss": 1.4845,
      "step": 82820
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.680126965045929,
      "learning_rate": 9.782669039866075e-06,
      "loss": 1.5024,
      "step": 82821
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6662387847900391,
      "learning_rate": 9.780021827701635e-06,
      "loss": 1.4329,
      "step": 82822
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6853119730949402,
      "learning_rate": 9.777374967821527e-06,
      "loss": 1.5534,
      "step": 82823
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6682203412055969,
      "learning_rate": 9.774728460228853e-06,
      "loss": 1.5347,
      "step": 82824
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6818685531616211,
      "learning_rate": 9.77208230492691e-06,
      "loss": 1.563,
      "step": 82825
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6784225106239319,
      "learning_rate": 9.769436501918926e-06,
      "loss": 1.5827,
      "step": 82826
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6727945804595947,
      "learning_rate": 9.7667910512081e-06,
      "loss": 1.5803,
      "step": 82827
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6561480164527893,
      "learning_rate": 9.764145952797564e-06,
      "loss": 1.5126,
      "step": 82828
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6940563917160034,
      "learning_rate": 9.761501206690614e-06,
      "loss": 1.4802,
      "step": 82829
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6902816891670227,
      "learning_rate": 9.758856812890481e-06,
      "loss": 1.5215,
      "step": 82830
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.679661750793457,
      "learning_rate": 9.756212771400296e-06,
      "loss": 1.5163,
      "step": 82831
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6880635023117065,
      "learning_rate": 9.753569082223256e-06,
      "loss": 1.5204,
      "step": 82832
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6702171564102173,
      "learning_rate": 9.750925745362692e-06,
      "loss": 1.4807,
      "step": 82833
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7076306343078613,
      "learning_rate": 9.748282760821736e-06,
      "loss": 1.4987,
      "step": 82834
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6905065178871155,
      "learning_rate": 9.745640128603548e-06,
      "loss": 1.4751,
      "step": 82835
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6737455129623413,
      "learning_rate": 9.742997848711399e-06,
      "loss": 1.4928,
      "step": 82836
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6660500764846802,
      "learning_rate": 9.740355921148512e-06,
      "loss": 1.4965,
      "step": 82837
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6858862638473511,
      "learning_rate": 9.737714345918023e-06,
      "loss": 1.496,
      "step": 82838
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.668279767036438,
      "learning_rate": 9.735073123023196e-06,
      "loss": 1.5615,
      "step": 82839
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6592937707901001,
      "learning_rate": 9.73243225246726e-06,
      "loss": 1.4478,
      "step": 82840
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.671612024307251,
      "learning_rate": 9.729791734253344e-06,
      "loss": 1.489,
      "step": 82841
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6818847060203552,
      "learning_rate": 9.727151568384683e-06,
      "loss": 1.524,
      "step": 82842
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.682723343372345,
      "learning_rate": 9.72451175486454e-06,
      "loss": 1.5169,
      "step": 82843
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6789572238922119,
      "learning_rate": 9.721872293696043e-06,
      "loss": 1.5086,
      "step": 82844
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6801167726516724,
      "learning_rate": 9.719233184882392e-06,
      "loss": 1.6068,
      "step": 82845
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7353913187980652,
      "learning_rate": 9.716594428426849e-06,
      "loss": 1.552,
      "step": 82846
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.664861261844635,
      "learning_rate": 9.71395602433258e-06,
      "loss": 1.5301,
      "step": 82847
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7078343033790588,
      "learning_rate": 9.711317972602816e-06,
      "loss": 1.5317,
      "step": 82848
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6841407418251038,
      "learning_rate": 9.708680273240688e-06,
      "loss": 1.5006,
      "step": 82849
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7024034261703491,
      "learning_rate": 9.706042926249525e-06,
      "loss": 1.5076,
      "step": 82850
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6630123853683472,
      "learning_rate": 9.703405931632424e-06,
      "loss": 1.5175,
      "step": 82851
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6796943545341492,
      "learning_rate": 9.700769289392585e-06,
      "loss": 1.5309,
      "step": 82852
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6937953233718872,
      "learning_rate": 9.69813299953327e-06,
      "loss": 1.4611,
      "step": 82853
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6939040422439575,
      "learning_rate": 9.69549706205761e-06,
      "loss": 1.4675,
      "step": 82854
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6773133277893066,
      "learning_rate": 9.692861476968904e-06,
      "loss": 1.4381,
      "step": 82855
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6699752807617188,
      "learning_rate": 9.69022624427025e-06,
      "loss": 1.4544,
      "step": 82856
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6591240763664246,
      "learning_rate": 9.687591363964874e-06,
      "loss": 1.4985,
      "step": 82857
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6775585412979126,
      "learning_rate": 9.684956836056013e-06,
      "loss": 1.479,
      "step": 82858
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6993370652198792,
      "learning_rate": 9.682322660546827e-06,
      "loss": 1.5084,
      "step": 82859
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6577040553092957,
      "learning_rate": 9.679688837440547e-06,
      "loss": 1.4804,
      "step": 82860
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7039883732795715,
      "learning_rate": 9.677055366740305e-06,
      "loss": 1.5477,
      "step": 82861
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.675548791885376,
      "learning_rate": 9.674422248449365e-06,
      "loss": 1.4774,
      "step": 82862
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6738105416297913,
      "learning_rate": 9.671789482570924e-06,
      "loss": 1.4536,
      "step": 82863
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6928429007530212,
      "learning_rate": 9.669157069108113e-06,
      "loss": 1.5374,
      "step": 82864
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6786016821861267,
      "learning_rate": 9.666525008064197e-06,
      "loss": 1.4972,
      "step": 82865
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6925070881843567,
      "learning_rate": 9.663893299442339e-06,
      "loss": 1.4991,
      "step": 82866
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6770675778388977,
      "learning_rate": 9.661261943245702e-06,
      "loss": 1.4583,
      "step": 82867
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6637386679649353,
      "learning_rate": 9.658630939477518e-06,
      "loss": 1.492,
      "step": 82868
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6546018719673157,
      "learning_rate": 9.656000288140987e-06,
      "loss": 1.5321,
      "step": 82869
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6676150560379028,
      "learning_rate": 9.653369989239335e-06,
      "loss": 1.5475,
      "step": 82870
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6617651581764221,
      "learning_rate": 9.650740042775628e-06,
      "loss": 1.4723,
      "step": 82871
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6883209347724915,
      "learning_rate": 9.6481104487532e-06,
      "loss": 1.5179,
      "step": 82872
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7034347057342529,
      "learning_rate": 9.64548120717521e-06,
      "loss": 1.4904,
      "step": 82873
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6743295788764954,
      "learning_rate": 9.642852318044759e-06,
      "loss": 1.5213,
      "step": 82874
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.68157958984375,
      "learning_rate": 9.640223781365108e-06,
      "loss": 1.5025,
      "step": 82875
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6777855753898621,
      "learning_rate": 9.637595597139458e-06,
      "loss": 1.4844,
      "step": 82876
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6922740936279297,
      "learning_rate": 9.634967765371004e-06,
      "loss": 1.451,
      "step": 82877
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6936169862747192,
      "learning_rate": 9.632340286062878e-06,
      "loss": 1.4623,
      "step": 82878
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.659932017326355,
      "learning_rate": 9.629713159218344e-06,
      "loss": 1.4627,
      "step": 82879
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6798381209373474,
      "learning_rate": 9.627086384840566e-06,
      "loss": 1.5541,
      "step": 82880
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6715724468231201,
      "learning_rate": 9.624459962932674e-06,
      "loss": 1.4782,
      "step": 82881
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6927477121353149,
      "learning_rate": 9.621833893497899e-06,
      "loss": 1.5344,
      "step": 82882
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6786206960678101,
      "learning_rate": 9.619208176539472e-06,
      "loss": 1.4583,
      "step": 82883
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6727787256240845,
      "learning_rate": 9.616582812060559e-06,
      "loss": 1.4906,
      "step": 82884
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6974472999572754,
      "learning_rate": 9.613957800064286e-06,
      "loss": 1.5706,
      "step": 82885
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6464062929153442,
      "learning_rate": 9.61133314055389e-06,
      "loss": 1.4582,
      "step": 82886
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.68155437707901,
      "learning_rate": 9.608708833532564e-06,
      "loss": 1.4947,
      "step": 82887
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6639216542243958,
      "learning_rate": 9.606084879003439e-06,
      "loss": 1.5398,
      "step": 82888
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6975613832473755,
      "learning_rate": 9.603461276969749e-06,
      "loss": 1.4706,
      "step": 82889
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6927654147148132,
      "learning_rate": 9.600838027434721e-06,
      "loss": 1.4885,
      "step": 82890
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.680303692817688,
      "learning_rate": 9.598215130401454e-06,
      "loss": 1.5239,
      "step": 82891
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.687172532081604,
      "learning_rate": 9.595592585873147e-06,
      "loss": 1.5987,
      "step": 82892
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6817914247512817,
      "learning_rate": 9.592970393853028e-06,
      "loss": 1.5605,
      "step": 82893
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6638932824134827,
      "learning_rate": 9.590348554344263e-06,
      "loss": 1.4404,
      "step": 82894
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6596297025680542,
      "learning_rate": 9.587727067349982e-06,
      "loss": 1.5513,
      "step": 82895
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.660148024559021,
      "learning_rate": 9.585105932873415e-06,
      "loss": 1.4593,
      "step": 82896
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6723962426185608,
      "learning_rate": 9.582485150917762e-06,
      "loss": 1.5346,
      "step": 82897
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6802068948745728,
      "learning_rate": 9.579864721486186e-06,
      "loss": 1.5117,
      "step": 82898
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6708045601844788,
      "learning_rate": 9.57724464458185e-06,
      "loss": 1.4995,
      "step": 82899
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6796945929527283,
      "learning_rate": 9.574624920207951e-06,
      "loss": 1.4943,
      "step": 82900
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7075468897819519,
      "learning_rate": 9.57200554836769e-06,
      "loss": 1.5857,
      "step": 82901
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6693989634513855,
      "learning_rate": 9.56938652906416e-06,
      "loss": 1.4983,
      "step": 82902
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6745458245277405,
      "learning_rate": 9.566767862300661e-06,
      "loss": 1.5922,
      "step": 82903
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6938003897666931,
      "learning_rate": 9.564149548080257e-06,
      "loss": 1.4572,
      "step": 82904
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.672234833240509,
      "learning_rate": 9.561531586406245e-06,
      "loss": 1.4936,
      "step": 82905
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6502256393432617,
      "learning_rate": 9.55891397728169e-06,
      "loss": 1.5267,
      "step": 82906
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6722751259803772,
      "learning_rate": 9.556296720709855e-06,
      "loss": 1.4597,
      "step": 82907
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6853387951850891,
      "learning_rate": 9.553679816693871e-06,
      "loss": 1.4685,
      "step": 82908
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.692215621471405,
      "learning_rate": 9.551063265236902e-06,
      "loss": 1.481,
      "step": 82909
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6886297464370728,
      "learning_rate": 9.54844706634218e-06,
      "loss": 1.4618,
      "step": 82910
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6812528371810913,
      "learning_rate": 9.5458312200128e-06,
      "loss": 1.5155,
      "step": 82911
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6701804995536804,
      "learning_rate": 9.543215726252029e-06,
      "loss": 1.4524,
      "step": 82912
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7177788615226746,
      "learning_rate": 9.540600585062997e-06,
      "loss": 1.5199,
      "step": 82913
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6909094452857971,
      "learning_rate": 9.537985796448832e-06,
      "loss": 1.5224,
      "step": 82914
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6858783960342407,
      "learning_rate": 9.535371360412803e-06,
      "loss": 1.4763,
      "step": 82915
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6742686033248901,
      "learning_rate": 9.532757276958004e-06,
      "loss": 1.4758,
      "step": 82916
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6661588549613953,
      "learning_rate": 9.530143546087665e-06,
      "loss": 1.5198,
      "step": 82917
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6974836587905884,
      "learning_rate": 9.527530167804886e-06,
      "loss": 1.5799,
      "step": 82918
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6707682609558105,
      "learning_rate": 9.524917142112964e-06,
      "loss": 1.5046,
      "step": 82919
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6866960525512695,
      "learning_rate": 9.522304469014963e-06,
      "loss": 1.5043,
      "step": 82920
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6941953897476196,
      "learning_rate": 9.519692148514047e-06,
      "loss": 1.5233,
      "step": 82921
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6454228758811951,
      "learning_rate": 9.517080180613446e-06,
      "loss": 1.3851,
      "step": 82922
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6863363981246948,
      "learning_rate": 9.514468565316324e-06,
      "loss": 1.5365,
      "step": 82923
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6667481660842896,
      "learning_rate": 9.511857302625814e-06,
      "loss": 1.4684,
      "step": 82924
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6776101589202881,
      "learning_rate": 9.509246392545112e-06,
      "loss": 1.4791,
      "step": 82925
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.675125002861023,
      "learning_rate": 9.506635835077415e-06,
      "loss": 1.5094,
      "step": 82926
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.687791109085083,
      "learning_rate": 9.50402563022582e-06,
      "loss": 1.4333,
      "step": 82927
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6834613084793091,
      "learning_rate": 9.501415777993526e-06,
      "loss": 1.5241,
      "step": 82928
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6877279281616211,
      "learning_rate": 9.498806278383764e-06,
      "loss": 1.5205,
      "step": 82929
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6548808813095093,
      "learning_rate": 9.49619713139963e-06,
      "loss": 1.4312,
      "step": 82930
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6769534945487976,
      "learning_rate": 9.493588337044288e-06,
      "loss": 1.53,
      "step": 82931
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6884593963623047,
      "learning_rate": 9.490979895320905e-06,
      "loss": 1.5201,
      "step": 82932
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7060054540634155,
      "learning_rate": 9.488371806232742e-06,
      "loss": 1.4857,
      "step": 82933
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6584713459014893,
      "learning_rate": 9.485764069782831e-06,
      "loss": 1.5067,
      "step": 82934
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.701632022857666,
      "learning_rate": 9.483156685974402e-06,
      "loss": 1.4922,
      "step": 82935
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6669635772705078,
      "learning_rate": 9.480549654810622e-06,
      "loss": 1.5331,
      "step": 82936
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.661186158657074,
      "learning_rate": 9.477942976294684e-06,
      "loss": 1.4987,
      "step": 82937
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7006716132164001,
      "learning_rate": 9.475336650429655e-06,
      "loss": 1.5151,
      "step": 82938
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6954378485679626,
      "learning_rate": 9.472730677218764e-06,
      "loss": 1.5487,
      "step": 82939
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6623303890228271,
      "learning_rate": 9.470125056665245e-06,
      "loss": 1.4936,
      "step": 82940
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.656335711479187,
      "learning_rate": 9.467519788772126e-06,
      "loss": 1.5344,
      "step": 82941
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6895564794540405,
      "learning_rate": 9.464914873542639e-06,
      "loss": 1.5118,
      "step": 82942
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6714780330657959,
      "learning_rate": 9.462310310979949e-06,
      "loss": 1.5012,
      "step": 82943
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6718347668647766,
      "learning_rate": 9.459706101087216e-06,
      "loss": 1.513,
      "step": 82944
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6593883037567139,
      "learning_rate": 9.457102243867543e-06,
      "loss": 1.5028,
      "step": 82945
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6944290995597839,
      "learning_rate": 9.454498739324157e-06,
      "loss": 1.531,
      "step": 82946
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6810774803161621,
      "learning_rate": 9.451895587460256e-06,
      "loss": 1.4107,
      "step": 82947
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6863189339637756,
      "learning_rate": 9.449292788278872e-06,
      "loss": 1.5614,
      "step": 82948
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6868177056312561,
      "learning_rate": 9.446690341783237e-06,
      "loss": 1.5031,
      "step": 82949
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6649081707000732,
      "learning_rate": 9.444088247976544e-06,
      "loss": 1.525,
      "step": 82950
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6967949867248535,
      "learning_rate": 9.441486506861928e-06,
      "loss": 1.5172,
      "step": 82951
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6814874410629272,
      "learning_rate": 9.438885118442485e-06,
      "loss": 1.4779,
      "step": 82952
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6706889867782593,
      "learning_rate": 9.43628408272148e-06,
      "loss": 1.5617,
      "step": 82953
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6808024644851685,
      "learning_rate": 9.433683399702008e-06,
      "loss": 1.5963,
      "step": 82954
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6644976139068604,
      "learning_rate": 9.431083069387169e-06,
      "loss": 1.4951,
      "step": 82955
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6742647290229797,
      "learning_rate": 9.428483091780226e-06,
      "loss": 1.5158,
      "step": 82956
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6927815079689026,
      "learning_rate": 9.425883466884277e-06,
      "loss": 1.4823,
      "step": 82957
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6913968324661255,
      "learning_rate": 9.423284194702518e-06,
      "loss": 1.5316,
      "step": 82958
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6759285926818848,
      "learning_rate": 9.420685275238049e-06,
      "loss": 1.5764,
      "step": 82959
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6794384717941284,
      "learning_rate": 9.418086708494065e-06,
      "loss": 1.5099,
      "step": 82960
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.656893789768219,
      "learning_rate": 9.415488494473734e-06,
      "loss": 1.5081,
      "step": 82961
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6797134280204773,
      "learning_rate": 9.412890633180147e-06,
      "loss": 1.462,
      "step": 82962
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6824584603309631,
      "learning_rate": 9.410293124616508e-06,
      "loss": 1.5024,
      "step": 82963
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6723288297653198,
      "learning_rate": 9.407695968785944e-06,
      "loss": 1.5313,
      "step": 82964
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6911410093307495,
      "learning_rate": 9.405099165691653e-06,
      "loss": 1.5657,
      "step": 82965
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6837072372436523,
      "learning_rate": 9.402502715336702e-06,
      "loss": 1.4931,
      "step": 82966
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6683864593505859,
      "learning_rate": 9.399906617724351e-06,
      "loss": 1.4228,
      "step": 82967
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6775738596916199,
      "learning_rate": 9.397310872857667e-06,
      "loss": 1.5695,
      "step": 82968
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6839902400970459,
      "learning_rate": 9.394715480739812e-06,
      "loss": 1.5104,
      "step": 82969
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6843220591545105,
      "learning_rate": 9.392120441373986e-06,
      "loss": 1.4757,
      "step": 82970
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7162578105926514,
      "learning_rate": 9.389525754763282e-06,
      "loss": 1.5591,
      "step": 82971
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7202505469322205,
      "learning_rate": 9.386931420910903e-06,
      "loss": 1.5126,
      "step": 82972
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6727038025856018,
      "learning_rate": 9.384337439819978e-06,
      "loss": 1.4923,
      "step": 82973
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6879875063896179,
      "learning_rate": 9.381743811493603e-06,
      "loss": 1.5208,
      "step": 82974
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6844009160995483,
      "learning_rate": 9.37915053593501e-06,
      "loss": 1.4917,
      "step": 82975
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6886248588562012,
      "learning_rate": 9.376557613147262e-06,
      "loss": 1.5278,
      "step": 82976
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.678560733795166,
      "learning_rate": 9.37396504313359e-06,
      "loss": 1.4872,
      "step": 82977
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6922292113304138,
      "learning_rate": 9.371372825897061e-06,
      "loss": 1.4518,
      "step": 82978
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6897660493850708,
      "learning_rate": 9.368780961440903e-06,
      "loss": 1.5165,
      "step": 82979
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6947298049926758,
      "learning_rate": 9.366189449768247e-06,
      "loss": 1.4998,
      "step": 82980
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6950501203536987,
      "learning_rate": 9.363598290882157e-06,
      "loss": 1.572,
      "step": 82981
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6866552829742432,
      "learning_rate": 9.361007484785865e-06,
      "loss": 1.5313,
      "step": 82982
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6849008798599243,
      "learning_rate": 9.358417031482502e-06,
      "loss": 1.5578,
      "step": 82983
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6690474152565002,
      "learning_rate": 9.35582693097513e-06,
      "loss": 1.4731,
      "step": 82984
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6679460406303406,
      "learning_rate": 9.353237183267015e-06,
      "loss": 1.4776,
      "step": 82985
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6703037023544312,
      "learning_rate": 9.350647788361221e-06,
      "loss": 1.4678,
      "step": 82986
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6757248044013977,
      "learning_rate": 9.348058746260944e-06,
      "loss": 1.4724,
      "step": 82987
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7099104523658752,
      "learning_rate": 9.345470056969285e-06,
      "loss": 1.5002,
      "step": 82988
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6713873147964478,
      "learning_rate": 9.342881720489404e-06,
      "loss": 1.5014,
      "step": 82989
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6892703771591187,
      "learning_rate": 9.340293736824434e-06,
      "loss": 1.5713,
      "step": 82990
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7113450765609741,
      "learning_rate": 9.337706105977505e-06,
      "loss": 1.4886,
      "step": 82991
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6675238609313965,
      "learning_rate": 9.335118827951749e-06,
      "loss": 1.532,
      "step": 82992
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6783381104469299,
      "learning_rate": 9.332531902750396e-06,
      "loss": 1.5196,
      "step": 82993
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6960594654083252,
      "learning_rate": 9.329945330376509e-06,
      "loss": 1.4309,
      "step": 82994
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6686997413635254,
      "learning_rate": 9.327359110833222e-06,
      "loss": 1.517,
      "step": 82995
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6690459847450256,
      "learning_rate": 9.324773244123695e-06,
      "loss": 1.5204,
      "step": 82996
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6732335090637207,
      "learning_rate": 9.322187730251063e-06,
      "loss": 1.5065,
      "step": 82997
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6811389327049255,
      "learning_rate": 9.319602569218453e-06,
      "loss": 1.4735,
      "step": 82998
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6778095960617065,
      "learning_rate": 9.317017761029032e-06,
      "loss": 1.4583,
      "step": 82999
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6674692630767822,
      "learning_rate": 9.31443330568593e-06,
      "loss": 1.535,
      "step": 83000
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6742624044418335,
      "learning_rate": 9.31184920319228e-06,
      "loss": 1.4958,
      "step": 83001
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6690724492073059,
      "learning_rate": 9.309265453551173e-06,
      "loss": 1.563,
      "step": 83002
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6776027679443359,
      "learning_rate": 9.306682056765813e-06,
      "loss": 1.4643,
      "step": 83003
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6856451034545898,
      "learning_rate": 9.304099012839327e-06,
      "loss": 1.4491,
      "step": 83004
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6737719178199768,
      "learning_rate": 9.301516321774816e-06,
      "loss": 1.5254,
      "step": 83005
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7017154693603516,
      "learning_rate": 9.298933983575407e-06,
      "loss": 1.6317,
      "step": 83006
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6779869794845581,
      "learning_rate": 9.2963519982443e-06,
      "loss": 1.4948,
      "step": 83007
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6839693784713745,
      "learning_rate": 9.293770365784558e-06,
      "loss": 1.5638,
      "step": 83008
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6578692197799683,
      "learning_rate": 9.291189086199346e-06,
      "loss": 1.5346,
      "step": 83009
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6718976497650146,
      "learning_rate": 9.288608159491828e-06,
      "loss": 1.5241,
      "step": 83010
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6907913088798523,
      "learning_rate": 9.286027585665101e-06,
      "loss": 1.5918,
      "step": 83011
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6847618222236633,
      "learning_rate": 9.283447364722264e-06,
      "loss": 1.5486,
      "step": 83012
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7032108306884766,
      "learning_rate": 9.280867496666511e-06,
      "loss": 1.5608,
      "step": 83013
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6758548021316528,
      "learning_rate": 9.278287981500942e-06,
      "loss": 1.4906,
      "step": 83014
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6674004793167114,
      "learning_rate": 9.275708819228722e-06,
      "loss": 1.5329,
      "step": 83015
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6638082265853882,
      "learning_rate": 9.273130009852914e-06,
      "loss": 1.4751,
      "step": 83016
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6880168914794922,
      "learning_rate": 9.270551553376714e-06,
      "loss": 1.5062,
      "step": 83017
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6510353684425354,
      "learning_rate": 9.267973449803256e-06,
      "loss": 1.4275,
      "step": 83018
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6778068542480469,
      "learning_rate": 9.265395699135603e-06,
      "loss": 1.4884,
      "step": 83019
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6575703024864197,
      "learning_rate": 9.262818301376918e-06,
      "loss": 1.4472,
      "step": 83020
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6883636116981506,
      "learning_rate": 9.260241256530332e-06,
      "loss": 1.4802,
      "step": 83021
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6572452187538147,
      "learning_rate": 9.25766456459901e-06,
      "loss": 1.4448,
      "step": 83022
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7251819372177124,
      "learning_rate": 9.255088225585983e-06,
      "loss": 1.5224,
      "step": 83023
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6805707216262817,
      "learning_rate": 9.252512239494515e-06,
      "loss": 1.543,
      "step": 83024
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.711144208908081,
      "learning_rate": 9.249936606327635e-06,
      "loss": 1.506,
      "step": 83025
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6891676187515259,
      "learning_rate": 9.247361326088442e-06,
      "loss": 1.4952,
      "step": 83026
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6759284138679504,
      "learning_rate": 9.244786398780169e-06,
      "loss": 1.4935,
      "step": 83027
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7605939507484436,
      "learning_rate": 9.242211824405842e-06,
      "loss": 1.5352,
      "step": 83028
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6814950108528137,
      "learning_rate": 9.239637602968664e-06,
      "loss": 1.5566,
      "step": 83029
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6829850673675537,
      "learning_rate": 9.237063734471729e-06,
      "loss": 1.5272,
      "step": 83030
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6923177242279053,
      "learning_rate": 9.2344902189181e-06,
      "loss": 1.521,
      "step": 83031
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6854554414749146,
      "learning_rate": 9.231917056311012e-06,
      "loss": 1.5043,
      "step": 83032
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6669700741767883,
      "learning_rate": 9.229344246653492e-06,
      "loss": 1.4788,
      "step": 83033
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6676615476608276,
      "learning_rate": 9.226771789948739e-06,
      "loss": 1.4727,
      "step": 83034
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6793264746665955,
      "learning_rate": 9.224199686199818e-06,
      "loss": 1.5416,
      "step": 83035
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6711251735687256,
      "learning_rate": 9.221627935409892e-06,
      "loss": 1.4439,
      "step": 83036
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7024442553520203,
      "learning_rate": 9.219056537582092e-06,
      "loss": 1.5011,
      "step": 83037
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6769882440567017,
      "learning_rate": 9.21648549271945e-06,
      "loss": 1.4781,
      "step": 83038
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6768542528152466,
      "learning_rate": 9.213914800825228e-06,
      "loss": 1.4609,
      "step": 83039
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6642107367515564,
      "learning_rate": 9.211344461902426e-06,
      "loss": 1.4627,
      "step": 83040
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6842038035392761,
      "learning_rate": 9.208774475954172e-06,
      "loss": 1.5933,
      "step": 83041
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6963914632797241,
      "learning_rate": 9.206204842983633e-06,
      "loss": 1.5177,
      "step": 83042
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6672276854515076,
      "learning_rate": 9.203635562993938e-06,
      "loss": 1.5414,
      "step": 83043
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6836550831794739,
      "learning_rate": 9.20106663598822e-06,
      "loss": 1.5505,
      "step": 83044
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.680340051651001,
      "learning_rate": 9.198498061969472e-06,
      "loss": 1.5522,
      "step": 83045
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.662074089050293,
      "learning_rate": 9.195929840940963e-06,
      "loss": 1.4886,
      "step": 83046
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6926333904266357,
      "learning_rate": 9.193361972905756e-06,
      "loss": 1.601,
      "step": 83047
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7000975012779236,
      "learning_rate": 9.190794457866913e-06,
      "loss": 1.5657,
      "step": 83048
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6607650518417358,
      "learning_rate": 9.188227295827599e-06,
      "loss": 1.4944,
      "step": 83049
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6993170976638794,
      "learning_rate": 9.18566048679098e-06,
      "loss": 1.5322,
      "step": 83050
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6859601140022278,
      "learning_rate": 9.183094030760085e-06,
      "loss": 1.4972,
      "step": 83051
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6822376251220703,
      "learning_rate": 9.180527927738047e-06,
      "loss": 1.5046,
      "step": 83052
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7008457779884338,
      "learning_rate": 9.177962177728026e-06,
      "loss": 1.541,
      "step": 83053
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6666999459266663,
      "learning_rate": 9.175396780733091e-06,
      "loss": 1.4284,
      "step": 83054
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6809689998626709,
      "learning_rate": 9.17283173675637e-06,
      "loss": 1.4972,
      "step": 83055
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.696690022945404,
      "learning_rate": 9.170267045800961e-06,
      "loss": 1.4327,
      "step": 83056
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6980175971984863,
      "learning_rate": 9.167702707870095e-06,
      "loss": 1.5238,
      "step": 83057
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6774924397468567,
      "learning_rate": 9.16513872296667e-06,
      "loss": 1.5057,
      "step": 83058
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6661224365234375,
      "learning_rate": 9.16257509109395e-06,
      "loss": 1.5384,
      "step": 83059
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7192550301551819,
      "learning_rate": 9.16001181225503e-06,
      "loss": 1.6018,
      "step": 83060
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6977401375770569,
      "learning_rate": 9.157448886453011e-06,
      "loss": 1.4788,
      "step": 83061
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.703376829624176,
      "learning_rate": 9.154886313690957e-06,
      "loss": 1.5426,
      "step": 83062
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6551828980445862,
      "learning_rate": 9.15232409397203e-06,
      "loss": 1.5414,
      "step": 83063
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6635292172431946,
      "learning_rate": 9.149762227299361e-06,
      "loss": 1.5274,
      "step": 83064
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6623322367668152,
      "learning_rate": 9.147200713675985e-06,
      "loss": 1.5078,
      "step": 83065
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.674587070941925,
      "learning_rate": 9.14463955310506e-06,
      "loss": 1.5414,
      "step": 83066
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7071624398231506,
      "learning_rate": 9.142078745589688e-06,
      "loss": 1.4464,
      "step": 83067
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7399395704269409,
      "learning_rate": 9.139518291132997e-06,
      "loss": 1.5261,
      "step": 83068
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6764296889305115,
      "learning_rate": 9.136958189738053e-06,
      "loss": 1.4966,
      "step": 83069
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6862848401069641,
      "learning_rate": 9.134398441407986e-06,
      "loss": 1.5081,
      "step": 83070
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6719657778739929,
      "learning_rate": 9.131839046145928e-06,
      "loss": 1.529,
      "step": 83071
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7130662798881531,
      "learning_rate": 9.129280003954942e-06,
      "loss": 1.5313,
      "step": 83072
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6932209134101868,
      "learning_rate": 9.126721314838126e-06,
      "loss": 1.5208,
      "step": 83073
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6664155721664429,
      "learning_rate": 9.124162978798644e-06,
      "loss": 1.5177,
      "step": 83074
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6961884498596191,
      "learning_rate": 9.12160499583956e-06,
      "loss": 1.4643,
      "step": 83075
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6802672743797302,
      "learning_rate": 9.119047365963972e-06,
      "loss": 1.4923,
      "step": 83076
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6805344223976135,
      "learning_rate": 9.116490089175043e-06,
      "loss": 1.4947,
      "step": 83077
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6941161155700684,
      "learning_rate": 9.11393316547584e-06,
      "loss": 1.4964,
      "step": 83078
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7021512389183044,
      "learning_rate": 9.11137659486939e-06,
      "loss": 1.5282,
      "step": 83079
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6657708883285522,
      "learning_rate": 9.108820377358927e-06,
      "loss": 1.5021,
      "step": 83080
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6695873141288757,
      "learning_rate": 9.10626451294748e-06,
      "loss": 1.5395,
      "step": 83081
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6594517827033997,
      "learning_rate": 9.103709001638182e-06,
      "loss": 1.5035,
      "step": 83082
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6885472536087036,
      "learning_rate": 9.101153843434094e-06,
      "loss": 1.4772,
      "step": 83083
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.677924633026123,
      "learning_rate": 9.09859903833835e-06,
      "loss": 1.4943,
      "step": 83084
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6823505759239197,
      "learning_rate": 9.096044586354078e-06,
      "loss": 1.4996,
      "step": 83085
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6627963781356812,
      "learning_rate": 9.093490487484278e-06,
      "loss": 1.4563,
      "step": 83086
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6959735751152039,
      "learning_rate": 9.09093674173218e-06,
      "loss": 1.5258,
      "step": 83087
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6919711232185364,
      "learning_rate": 9.088383349100781e-06,
      "loss": 1.4705,
      "step": 83088
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7155789732933044,
      "learning_rate": 9.085830309593245e-06,
      "loss": 1.5351,
      "step": 83089
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6743277311325073,
      "learning_rate": 9.08327762321267e-06,
      "loss": 1.5174,
      "step": 83090
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6619952321052551,
      "learning_rate": 9.080725289962054e-06,
      "loss": 1.5219,
      "step": 83091
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6774314641952515,
      "learning_rate": 9.078173309844627e-06,
      "loss": 1.6205,
      "step": 83092
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6828107237815857,
      "learning_rate": 9.075621682863421e-06,
      "loss": 1.5196,
      "step": 83093
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6769988536834717,
      "learning_rate": 9.073070409021566e-06,
      "loss": 1.5547,
      "step": 83094
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6711636781692505,
      "learning_rate": 9.070519488322093e-06,
      "loss": 1.561,
      "step": 83095
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6773040294647217,
      "learning_rate": 9.067968920768198e-06,
      "loss": 1.5153,
      "step": 83096
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6619910597801208,
      "learning_rate": 9.065418706362881e-06,
      "loss": 1.4628,
      "step": 83097
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6862460374832153,
      "learning_rate": 9.062868845109273e-06,
      "loss": 1.4925,
      "step": 83098
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6722309589385986,
      "learning_rate": 9.060319337010502e-06,
      "loss": 1.4864,
      "step": 83099
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6923027634620667,
      "learning_rate": 9.057770182069667e-06,
      "loss": 1.4962,
      "step": 83100
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7179327607154846,
      "learning_rate": 9.055221380289768e-06,
      "loss": 1.5151,
      "step": 83101
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6913697719573975,
      "learning_rate": 9.052672931673965e-06,
      "loss": 1.5295,
      "step": 83102
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6944307684898376,
      "learning_rate": 9.050124836225358e-06,
      "loss": 1.5014,
      "step": 83103
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.669715404510498,
      "learning_rate": 9.047577093947045e-06,
      "loss": 1.5581,
      "step": 83104
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6776521801948547,
      "learning_rate": 9.045029704842089e-06,
      "loss": 1.4684,
      "step": 83105
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.6694876551628113,
      "learning_rate": 9.04248266891362e-06,
      "loss": 1.4912,
      "step": 83106
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7323796153068542,
      "learning_rate": 9.039935986164704e-06,
      "loss": 1.4621,
      "step": 83107
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6641427874565125,
      "learning_rate": 9.037389656598403e-06,
      "loss": 1.5721,
      "step": 83108
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6801191568374634,
      "learning_rate": 9.034843680217851e-06,
      "loss": 1.5234,
      "step": 83109
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6730596423149109,
      "learning_rate": 9.032298057026144e-06,
      "loss": 1.5259,
      "step": 83110
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6779689192771912,
      "learning_rate": 9.029752787026345e-06,
      "loss": 1.4118,
      "step": 83111
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7060390710830688,
      "learning_rate": 9.02720787022152e-06,
      "loss": 1.5127,
      "step": 83112
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6805004477500916,
      "learning_rate": 9.024663306614865e-06,
      "loss": 1.4794,
      "step": 83113
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6921687126159668,
      "learning_rate": 9.022119096209346e-06,
      "loss": 1.5693,
      "step": 83114
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6931732296943665,
      "learning_rate": 9.019575239008092e-06,
      "loss": 1.547,
      "step": 83115
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7203639149665833,
      "learning_rate": 9.017031735014202e-06,
      "loss": 1.5194,
      "step": 83116
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6986966729164124,
      "learning_rate": 9.014488584230806e-06,
      "loss": 1.5414,
      "step": 83117
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6818423867225647,
      "learning_rate": 9.011945786660934e-06,
      "loss": 1.5044,
      "step": 83118
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.687679648399353,
      "learning_rate": 9.009403342307653e-06,
      "loss": 1.5104,
      "step": 83119
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6965976357460022,
      "learning_rate": 9.006861251174092e-06,
      "loss": 1.4769,
      "step": 83120
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6786911487579346,
      "learning_rate": 9.004319513263348e-06,
      "loss": 1.4985,
      "step": 83121
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.695125937461853,
      "learning_rate": 9.001778128578452e-06,
      "loss": 1.4968,
      "step": 83122
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6906591653823853,
      "learning_rate": 8.999237097122502e-06,
      "loss": 1.4857,
      "step": 83123
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6748524308204651,
      "learning_rate": 8.996696418898664e-06,
      "loss": 1.5365,
      "step": 83124
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6434188485145569,
      "learning_rate": 8.994156093909932e-06,
      "loss": 1.4419,
      "step": 83125
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6778952479362488,
      "learning_rate": 8.991616122159406e-06,
      "loss": 1.4831,
      "step": 83126
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6896670460700989,
      "learning_rate": 8.989076503650183e-06,
      "loss": 1.5449,
      "step": 83127
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7186298966407776,
      "learning_rate": 8.98653723838536e-06,
      "loss": 1.4568,
      "step": 83128
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7012600302696228,
      "learning_rate": 8.98399832636797e-06,
      "loss": 1.5286,
      "step": 83129
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6545042395591736,
      "learning_rate": 8.981459767601174e-06,
      "loss": 1.4772,
      "step": 83130
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6884601712226868,
      "learning_rate": 8.978921562087971e-06,
      "loss": 1.51,
      "step": 83131
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.698074996471405,
      "learning_rate": 8.976383709831492e-06,
      "loss": 1.4834,
      "step": 83132
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6699388027191162,
      "learning_rate": 8.973846210834767e-06,
      "loss": 1.4458,
      "step": 83133
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6838934421539307,
      "learning_rate": 8.971309065100963e-06,
      "loss": 1.524,
      "step": 83134
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6861585974693298,
      "learning_rate": 8.968772272633107e-06,
      "loss": 1.525,
      "step": 83135
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6732722520828247,
      "learning_rate": 8.966235833434233e-06,
      "loss": 1.52,
      "step": 83136
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6852721571922302,
      "learning_rate": 8.963699747507502e-06,
      "loss": 1.6421,
      "step": 83137
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6768717765808105,
      "learning_rate": 8.961164014855916e-06,
      "loss": 1.5699,
      "step": 83138
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.723305881023407,
      "learning_rate": 8.958628635482668e-06,
      "loss": 1.5247,
      "step": 83139
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6594564318656921,
      "learning_rate": 8.956093609390691e-06,
      "loss": 1.4783,
      "step": 83140
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6876205205917358,
      "learning_rate": 8.953558936583183e-06,
      "loss": 1.55,
      "step": 83141
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6756952404975891,
      "learning_rate": 8.95102461706314e-06,
      "loss": 1.5058,
      "step": 83142
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7073127031326294,
      "learning_rate": 8.948490650833662e-06,
      "loss": 1.5206,
      "step": 83143
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6854844093322754,
      "learning_rate": 8.945957037897878e-06,
      "loss": 1.4918,
      "step": 83144
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6956220865249634,
      "learning_rate": 8.943423778258784e-06,
      "loss": 1.6182,
      "step": 83145
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6854559183120728,
      "learning_rate": 8.940890871919482e-06,
      "loss": 1.5058,
      "step": 83146
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6982427835464478,
      "learning_rate": 8.9383583188831e-06,
      "loss": 1.476,
      "step": 83147
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6721903085708618,
      "learning_rate": 8.9358261191526e-06,
      "loss": 1.4654,
      "step": 83148
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6861369609832764,
      "learning_rate": 8.933294272731151e-06,
      "loss": 1.4526,
      "step": 83149
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6678134799003601,
      "learning_rate": 8.930762779621781e-06,
      "loss": 1.4608,
      "step": 83150
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6744393706321716,
      "learning_rate": 8.928231639827621e-06,
      "loss": 1.4495,
      "step": 83151
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6679972410202026,
      "learning_rate": 8.925700853351637e-06,
      "loss": 1.4797,
      "step": 83152
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6824977993965149,
      "learning_rate": 8.923170420197023e-06,
      "loss": 1.4812,
      "step": 83153
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6727077960968018,
      "learning_rate": 8.92064034036678e-06,
      "loss": 1.4882,
      "step": 83154
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6612924933433533,
      "learning_rate": 8.918110613863972e-06,
      "loss": 1.5641,
      "step": 83155
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6672459244728088,
      "learning_rate": 8.915581240691694e-06,
      "loss": 1.5155,
      "step": 83156
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6754916310310364,
      "learning_rate": 8.913052220853012e-06,
      "loss": 1.5139,
      "step": 83157
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.703197181224823,
      "learning_rate": 8.91052355435099e-06,
      "loss": 1.511,
      "step": 83158
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6987133622169495,
      "learning_rate": 8.907995241188693e-06,
      "loss": 1.4893,
      "step": 83159
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6847767233848572,
      "learning_rate": 8.905467281369216e-06,
      "loss": 1.4433,
      "step": 83160
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6659881472587585,
      "learning_rate": 8.902939674895626e-06,
      "loss": 1.4282,
      "step": 83161
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6790944933891296,
      "learning_rate": 8.900412421770952e-06,
      "loss": 1.5001,
      "step": 83162
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6687077879905701,
      "learning_rate": 8.897885521998293e-06,
      "loss": 1.5405,
      "step": 83163
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6792958378791809,
      "learning_rate": 8.895358975580746e-06,
      "loss": 1.486,
      "step": 83164
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6998699903488159,
      "learning_rate": 8.892832782521275e-06,
      "loss": 1.5534,
      "step": 83165
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6887137293815613,
      "learning_rate": 8.89030694282301e-06,
      "loss": 1.5906,
      "step": 83166
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6958338022232056,
      "learning_rate": 8.887781456489118e-06,
      "loss": 1.3855,
      "step": 83167
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6967943906784058,
      "learning_rate": 8.885256323522461e-06,
      "loss": 1.5518,
      "step": 83168
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6733189821243286,
      "learning_rate": 8.882731543926236e-06,
      "loss": 1.5437,
      "step": 83169
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6825738549232483,
      "learning_rate": 8.880207117703508e-06,
      "loss": 1.5479,
      "step": 83170
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7084110975265503,
      "learning_rate": 8.87768304485731e-06,
      "loss": 1.5437,
      "step": 83171
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6779587268829346,
      "learning_rate": 8.875159325390668e-06,
      "loss": 1.5057,
      "step": 83172
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6853708624839783,
      "learning_rate": 8.872635959306718e-06,
      "loss": 1.5044,
      "step": 83173
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6632817983627319,
      "learning_rate": 8.87011294660852e-06,
      "loss": 1.5464,
      "step": 83174
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.66650390625,
      "learning_rate": 8.867590287299075e-06,
      "loss": 1.5133,
      "step": 83175
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7170883417129517,
      "learning_rate": 8.865067981381479e-06,
      "loss": 1.5546,
      "step": 83176
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6719034314155579,
      "learning_rate": 8.862546028858796e-06,
      "loss": 1.5319,
      "step": 83177
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.692201554775238,
      "learning_rate": 8.860024429734092e-06,
      "loss": 1.4533,
      "step": 83178
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6651970744132996,
      "learning_rate": 8.857503184010428e-06,
      "loss": 1.4792,
      "step": 83179
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7268185615539551,
      "learning_rate": 8.854982291690805e-06,
      "loss": 1.4907,
      "step": 83180
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6630059480667114,
      "learning_rate": 8.852461752778416e-06,
      "loss": 1.505,
      "step": 83181
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.683214545249939,
      "learning_rate": 8.849941567276198e-06,
      "loss": 1.5141,
      "step": 83182
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6842161417007446,
      "learning_rate": 8.847421735187244e-06,
      "loss": 1.4594,
      "step": 83183
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6597104668617249,
      "learning_rate": 8.844902256514652e-06,
      "loss": 1.533,
      "step": 83184
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6753544211387634,
      "learning_rate": 8.842383131261422e-06,
      "loss": 1.5214,
      "step": 83185
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.671819269657135,
      "learning_rate": 8.839864359430614e-06,
      "loss": 1.5054,
      "step": 83186
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6750325560569763,
      "learning_rate": 8.837345941025365e-06,
      "loss": 1.537,
      "step": 83187
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6611775755882263,
      "learning_rate": 8.834827876048667e-06,
      "loss": 1.5187,
      "step": 83188
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6715896725654602,
      "learning_rate": 8.832310164503554e-06,
      "loss": 1.4275,
      "step": 83189
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6676288843154907,
      "learning_rate": 8.82979280639312e-06,
      "loss": 1.5704,
      "step": 83190
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6977021098136902,
      "learning_rate": 8.827275801720435e-06,
      "loss": 1.5046,
      "step": 83191
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6980334520339966,
      "learning_rate": 8.824759150488558e-06,
      "loss": 1.531,
      "step": 83192
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.663382351398468,
      "learning_rate": 8.822242852700456e-06,
      "loss": 1.4642,
      "step": 83193
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6712878346443176,
      "learning_rate": 8.819726908359326e-06,
      "loss": 1.4907,
      "step": 83194
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7004336714744568,
      "learning_rate": 8.817211317468099e-06,
      "loss": 1.4128,
      "step": 83195
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.660430371761322,
      "learning_rate": 8.814696080029871e-06,
      "loss": 1.5174,
      "step": 83196
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6614071130752563,
      "learning_rate": 8.812181196047707e-06,
      "loss": 1.4519,
      "step": 83197
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6579915285110474,
      "learning_rate": 8.809666665524639e-06,
      "loss": 1.5463,
      "step": 83198
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7238790392875671,
      "learning_rate": 8.807152488463765e-06,
      "loss": 1.4711,
      "step": 83199
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6954831480979919,
      "learning_rate": 8.804638664868047e-06,
      "loss": 1.4461,
      "step": 83200
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6833502650260925,
      "learning_rate": 8.802125194740616e-06,
      "loss": 1.5485,
      "step": 83201
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6608821749687195,
      "learning_rate": 8.79961207808454e-06,
      "loss": 1.5072,
      "step": 83202
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6853407025337219,
      "learning_rate": 8.797099314902779e-06,
      "loss": 1.5195,
      "step": 83203
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.683111846446991,
      "learning_rate": 8.794586905198465e-06,
      "loss": 1.5526,
      "step": 83204
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6956183910369873,
      "learning_rate": 8.792074848974563e-06,
      "loss": 1.5161,
      "step": 83205
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6961998343467712,
      "learning_rate": 8.789563146234235e-06,
      "loss": 1.5261,
      "step": 83206
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6727311611175537,
      "learning_rate": 8.78705179698045e-06,
      "loss": 1.4965,
      "step": 83207
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.660342812538147,
      "learning_rate": 8.784540801216266e-06,
      "loss": 1.4467,
      "step": 83208
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6771227121353149,
      "learning_rate": 8.782030158944752e-06,
      "loss": 1.4537,
      "step": 83209
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6745510101318359,
      "learning_rate": 8.779519870168905e-06,
      "loss": 1.4751,
      "step": 83210
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.66578608751297,
      "learning_rate": 8.777009934891854e-06,
      "loss": 1.4326,
      "step": 83211
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6535513401031494,
      "learning_rate": 8.774500353116598e-06,
      "loss": 1.5287,
      "step": 83212
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6855438947677612,
      "learning_rate": 8.771991124846167e-06,
      "loss": 1.5181,
      "step": 83213
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6774232983589172,
      "learning_rate": 8.76948225008366e-06,
      "loss": 1.4597,
      "step": 83214
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6704785227775574,
      "learning_rate": 8.766973728832071e-06,
      "loss": 1.5293,
      "step": 83215
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6861939430236816,
      "learning_rate": 8.76446556109447e-06,
      "loss": 1.5786,
      "step": 83216
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6972308158874512,
      "learning_rate": 8.761957746873916e-06,
      "loss": 1.6192,
      "step": 83217
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6703963875770569,
      "learning_rate": 8.759450286173408e-06,
      "loss": 1.5031,
      "step": 83218
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6891571283340454,
      "learning_rate": 8.756943178996012e-06,
      "loss": 1.5738,
      "step": 83219
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.674441933631897,
      "learning_rate": 8.754436425344791e-06,
      "loss": 1.4551,
      "step": 83220
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6701537370681763,
      "learning_rate": 8.751930025222775e-06,
      "loss": 1.4695,
      "step": 83221
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6857643127441406,
      "learning_rate": 8.749423978632964e-06,
      "loss": 1.5547,
      "step": 83222
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6721586585044861,
      "learning_rate": 8.746918285578486e-06,
      "loss": 1.4296,
      "step": 83223
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7014477849006653,
      "learning_rate": 8.744412946062307e-06,
      "loss": 1.5598,
      "step": 83224
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6922523975372314,
      "learning_rate": 8.741907960087491e-06,
      "loss": 1.4628,
      "step": 83225
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6906165480613708,
      "learning_rate": 8.739403327657068e-06,
      "loss": 1.5081,
      "step": 83226
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6694290637969971,
      "learning_rate": 8.736899048774137e-06,
      "loss": 1.4239,
      "step": 83227
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6718509793281555,
      "learning_rate": 8.734395123441695e-06,
      "loss": 1.537,
      "step": 83228
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6791034936904907,
      "learning_rate": 8.731891551662773e-06,
      "loss": 1.5616,
      "step": 83229
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6870866417884827,
      "learning_rate": 8.729388333440402e-06,
      "loss": 1.3771,
      "step": 83230
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6781682372093201,
      "learning_rate": 8.726885468777678e-06,
      "loss": 1.4545,
      "step": 83231
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6787218451499939,
      "learning_rate": 8.724382957677534e-06,
      "loss": 1.5706,
      "step": 83232
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6712225675582886,
      "learning_rate": 8.7218808001431e-06,
      "loss": 1.4771,
      "step": 83233
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6872933506965637,
      "learning_rate": 8.719378996177405e-06,
      "loss": 1.5232,
      "step": 83234
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6783407926559448,
      "learning_rate": 8.716877545783452e-06,
      "loss": 1.5456,
      "step": 83235
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6708418726921082,
      "learning_rate": 8.714376448964266e-06,
      "loss": 1.4723,
      "step": 83236
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6862451434135437,
      "learning_rate": 8.711875705722948e-06,
      "loss": 1.5397,
      "step": 83237
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6514426469802856,
      "learning_rate": 8.709375316062494e-06,
      "loss": 1.5015,
      "step": 83238
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7027462124824524,
      "learning_rate": 8.706875279985903e-06,
      "loss": 1.5399,
      "step": 83239
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6587522029876709,
      "learning_rate": 8.704375597496239e-06,
      "loss": 1.5206,
      "step": 83240
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6789553165435791,
      "learning_rate": 8.701876268596597e-06,
      "loss": 1.5338,
      "step": 83241
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6930623650550842,
      "learning_rate": 8.699377293289944e-06,
      "loss": 1.4887,
      "step": 83242
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6759535670280457,
      "learning_rate": 8.696878671579277e-06,
      "loss": 1.5517,
      "step": 83243
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6693457961082458,
      "learning_rate": 8.694380403467727e-06,
      "loss": 1.42,
      "step": 83244
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6797026991844177,
      "learning_rate": 8.691882488958257e-06,
      "loss": 1.4988,
      "step": 83245
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6383745670318604,
      "learning_rate": 8.6893849280539e-06,
      "loss": 1.4321,
      "step": 83246
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6779738068580627,
      "learning_rate": 8.68688772075775e-06,
      "loss": 1.5674,
      "step": 83247
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.674526572227478,
      "learning_rate": 8.684390867072776e-06,
      "loss": 1.4953,
      "step": 83248
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6708492636680603,
      "learning_rate": 8.68189436700204e-06,
      "loss": 1.4881,
      "step": 83249
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6985108852386475,
      "learning_rate": 8.679398220548506e-06,
      "loss": 1.4822,
      "step": 83250
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6795332431793213,
      "learning_rate": 8.676902427715338e-06,
      "loss": 1.5249,
      "step": 83251
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6741614937782288,
      "learning_rate": 8.674406988505433e-06,
      "loss": 1.5214,
      "step": 83252
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6684678196907043,
      "learning_rate": 8.671911902921891e-06,
      "loss": 1.452,
      "step": 83253
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6736955642700195,
      "learning_rate": 8.66941717096774e-06,
      "loss": 1.561,
      "step": 83254
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6898209452629089,
      "learning_rate": 8.666922792645948e-06,
      "loss": 1.5126,
      "step": 83255
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6738144159317017,
      "learning_rate": 8.664428767959607e-06,
      "loss": 1.5169,
      "step": 83256
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6790910363197327,
      "learning_rate": 8.661935096911721e-06,
      "loss": 1.5827,
      "step": 83257
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.678303599357605,
      "learning_rate": 8.659441779505317e-06,
      "loss": 1.5174,
      "step": 83258
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6792744994163513,
      "learning_rate": 8.656948815743458e-06,
      "loss": 1.4774,
      "step": 83259
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6872507929801941,
      "learning_rate": 8.654456205629079e-06,
      "loss": 1.5058,
      "step": 83260
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6715881824493408,
      "learning_rate": 8.651963949165309e-06,
      "loss": 1.5079,
      "step": 83261
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6623575091362,
      "learning_rate": 8.649472046355077e-06,
      "loss": 1.4627,
      "step": 83262
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6864195466041565,
      "learning_rate": 8.646980497201517e-06,
      "loss": 1.4914,
      "step": 83263
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6509547829627991,
      "learning_rate": 8.644489301707591e-06,
      "loss": 1.4804,
      "step": 83264
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6814066767692566,
      "learning_rate": 8.641998459876265e-06,
      "loss": 1.6013,
      "step": 83265
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6753553748130798,
      "learning_rate": 8.63950797171067e-06,
      "loss": 1.5567,
      "step": 83266
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6837100386619568,
      "learning_rate": 8.637017837213767e-06,
      "loss": 1.4771,
      "step": 83267
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6900848150253296,
      "learning_rate": 8.63452805638859e-06,
      "loss": 1.5472,
      "step": 83268
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6750426292419434,
      "learning_rate": 8.63203862923817e-06,
      "loss": 1.4882,
      "step": 83269
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6825968623161316,
      "learning_rate": 8.629549555765535e-06,
      "loss": 1.4591,
      "step": 83270
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6843945384025574,
      "learning_rate": 8.62706083597372e-06,
      "loss": 1.4535,
      "step": 83271
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6909210085868835,
      "learning_rate": 8.624572469865654e-06,
      "loss": 1.5395,
      "step": 83272
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6760124564170837,
      "learning_rate": 8.622084457444468e-06,
      "loss": 1.5431,
      "step": 83273
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6578918695449829,
      "learning_rate": 8.619596798713157e-06,
      "loss": 1.4932,
      "step": 83274
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6828897595405579,
      "learning_rate": 8.617109493674656e-06,
      "loss": 1.5964,
      "step": 83275
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6751825213432312,
      "learning_rate": 8.614622542332095e-06,
      "loss": 1.5512,
      "step": 83276
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6774818301200867,
      "learning_rate": 8.612135944688437e-06,
      "loss": 1.5235,
      "step": 83277
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.705992579460144,
      "learning_rate": 8.609649700746746e-06,
      "loss": 1.5015,
      "step": 83278
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6921079158782959,
      "learning_rate": 8.607163810509954e-06,
      "loss": 1.5021,
      "step": 83279
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6640418767929077,
      "learning_rate": 8.604678273981191e-06,
      "loss": 1.5059,
      "step": 83280
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6753458976745605,
      "learning_rate": 8.60219309116339e-06,
      "loss": 1.5138,
      "step": 83281
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6681975722312927,
      "learning_rate": 8.599708262059546e-06,
      "loss": 1.5368,
      "step": 83282
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6570609211921692,
      "learning_rate": 8.597223786672759e-06,
      "loss": 1.4949,
      "step": 83283
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6589286923408508,
      "learning_rate": 8.594739665006024e-06,
      "loss": 1.4906,
      "step": 83284
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6856755614280701,
      "learning_rate": 8.592255897062306e-06,
      "loss": 1.5609,
      "step": 83285
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6516268253326416,
      "learning_rate": 8.589772482844637e-06,
      "loss": 1.5138,
      "step": 83286
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6791046261787415,
      "learning_rate": 8.58728942235608e-06,
      "loss": 1.4917,
      "step": 83287
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6826237440109253,
      "learning_rate": 8.584806715599635e-06,
      "loss": 1.5176,
      "step": 83288
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7119452953338623,
      "learning_rate": 8.582324362578264e-06,
      "loss": 1.5177,
      "step": 83289
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6728047728538513,
      "learning_rate": 8.579842363294998e-06,
      "loss": 1.5173,
      "step": 83290
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.654780924320221,
      "learning_rate": 8.577360717752901e-06,
      "loss": 1.4798,
      "step": 83291
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6785997748374939,
      "learning_rate": 8.57487942595494e-06,
      "loss": 1.4702,
      "step": 83292
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6908177137374878,
      "learning_rate": 8.572398487904109e-06,
      "loss": 1.5175,
      "step": 83293
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7146628499031067,
      "learning_rate": 8.569917903603473e-06,
      "loss": 1.5394,
      "step": 83294
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6614331603050232,
      "learning_rate": 8.567437673056032e-06,
      "loss": 1.573,
      "step": 83295
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6776844263076782,
      "learning_rate": 8.56495779626475e-06,
      "loss": 1.5168,
      "step": 83296
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.664739191532135,
      "learning_rate": 8.562478273232654e-06,
      "loss": 1.5174,
      "step": 83297
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6582744121551514,
      "learning_rate": 8.559999103962811e-06,
      "loss": 1.4748,
      "step": 83298
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6700611710548401,
      "learning_rate": 8.557520288458153e-06,
      "loss": 1.5374,
      "step": 83299
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6450715065002441,
      "learning_rate": 8.555041826721742e-06,
      "loss": 1.5022,
      "step": 83300
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6782540678977966,
      "learning_rate": 8.552563718756577e-06,
      "loss": 1.5402,
      "step": 83301
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6930724382400513,
      "learning_rate": 8.550085964565655e-06,
      "loss": 1.5206,
      "step": 83302
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.695442259311676,
      "learning_rate": 8.547608564151942e-06,
      "loss": 1.478,
      "step": 83303
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6643077731132507,
      "learning_rate": 8.545131517518534e-06,
      "loss": 1.5349,
      "step": 83304
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6763041615486145,
      "learning_rate": 8.542654824668394e-06,
      "loss": 1.5018,
      "step": 83305
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7049837112426758,
      "learning_rate": 8.540178485604488e-06,
      "loss": 1.5627,
      "step": 83306
    },
    {
      "epoch": 2.77,
      "grad_norm": 1.135170340538025,
      "learning_rate": 8.53770250032988e-06,
      "loss": 1.4923,
      "step": 83307
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6905468106269836,
      "learning_rate": 8.535226868847566e-06,
      "loss": 1.4222,
      "step": 83308
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6775028705596924,
      "learning_rate": 8.532751591160547e-06,
      "loss": 1.5223,
      "step": 83309
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6773325800895691,
      "learning_rate": 8.530276667271818e-06,
      "loss": 1.5686,
      "step": 83310
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6726157069206238,
      "learning_rate": 8.527802097184378e-06,
      "loss": 1.4594,
      "step": 83311
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6696351170539856,
      "learning_rate": 8.525327880901256e-06,
      "loss": 1.5259,
      "step": 83312
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6886608600616455,
      "learning_rate": 8.522854018425418e-06,
      "loss": 1.4965,
      "step": 83313
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6976486444473267,
      "learning_rate": 8.520380509759894e-06,
      "loss": 1.5906,
      "step": 83314
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6770957112312317,
      "learning_rate": 8.517907354907682e-06,
      "loss": 1.5463,
      "step": 83315
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6590359807014465,
      "learning_rate": 8.51543455387178e-06,
      "loss": 1.5236,
      "step": 83316
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6661840081214905,
      "learning_rate": 8.512962106655186e-06,
      "loss": 1.439,
      "step": 83317
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6765996813774109,
      "learning_rate": 8.51049001326093e-06,
      "loss": 1.5264,
      "step": 83318
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6669058203697205,
      "learning_rate": 8.508018273691974e-06,
      "loss": 1.5337,
      "step": 83319
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6794772148132324,
      "learning_rate": 8.50554688795132e-06,
      "loss": 1.549,
      "step": 83320
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6820376515388489,
      "learning_rate": 8.50307585604203e-06,
      "loss": 1.4292,
      "step": 83321
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6578116416931152,
      "learning_rate": 8.500605177967e-06,
      "loss": 1.5398,
      "step": 83322
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6668946146965027,
      "learning_rate": 8.498134853729333e-06,
      "loss": 1.5333,
      "step": 83323
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7045775055885315,
      "learning_rate": 8.495664883331954e-06,
      "loss": 1.5434,
      "step": 83324
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6822406053543091,
      "learning_rate": 8.493195266777863e-06,
      "loss": 1.5281,
      "step": 83325
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6762022972106934,
      "learning_rate": 8.490726004070125e-06,
      "loss": 1.4515,
      "step": 83326
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6710994839668274,
      "learning_rate": 8.48825709521167e-06,
      "loss": 1.5445,
      "step": 83327
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6703355312347412,
      "learning_rate": 8.48578854020553e-06,
      "loss": 1.456,
      "step": 83328
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.674731433391571,
      "learning_rate": 8.483320339054667e-06,
      "loss": 1.5362,
      "step": 83329
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6836026310920715,
      "learning_rate": 8.480852491762146e-06,
      "loss": 1.5004,
      "step": 83330
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6752934455871582,
      "learning_rate": 8.4783849983309e-06,
      "loss": 1.4635,
      "step": 83331
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6960594058036804,
      "learning_rate": 8.475917858763926e-06,
      "loss": 1.5153,
      "step": 83332
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6747931838035583,
      "learning_rate": 8.473451073064219e-06,
      "loss": 1.5267,
      "step": 83333
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6734278798103333,
      "learning_rate": 8.470984641234846e-06,
      "loss": 1.5153,
      "step": 83334
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6711137294769287,
      "learning_rate": 8.46851856327867e-06,
      "loss": 1.4488,
      "step": 83335
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6874713897705078,
      "learning_rate": 8.46605283919879e-06,
      "loss": 1.4919,
      "step": 83336
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6979803442955017,
      "learning_rate": 8.463587468998168e-06,
      "loss": 1.4559,
      "step": 83337
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6713961958885193,
      "learning_rate": 8.461122452679802e-06,
      "loss": 1.5217,
      "step": 83338
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6926144957542419,
      "learning_rate": 8.458657790246659e-06,
      "loss": 1.5186,
      "step": 83339
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7221454977989197,
      "learning_rate": 8.456193481701767e-06,
      "loss": 1.5923,
      "step": 83340
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6761478185653687,
      "learning_rate": 8.453729527048126e-06,
      "loss": 1.5226,
      "step": 83341
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6857422590255737,
      "learning_rate": 8.45126592628863e-06,
      "loss": 1.5628,
      "step": 83342
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6710506081581116,
      "learning_rate": 8.448802679426347e-06,
      "loss": 1.4757,
      "step": 83343
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6599746942520142,
      "learning_rate": 8.446339786464307e-06,
      "loss": 1.4698,
      "step": 83344
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6707178354263306,
      "learning_rate": 8.44387724740544e-06,
      "loss": 1.483,
      "step": 83345
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6868181824684143,
      "learning_rate": 8.441415062252744e-06,
      "loss": 1.4975,
      "step": 83346
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6773084402084351,
      "learning_rate": 8.438953231009215e-06,
      "loss": 1.4723,
      "step": 83347
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6666402220726013,
      "learning_rate": 8.43649175367782e-06,
      "loss": 1.4994,
      "step": 83348
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6724419593811035,
      "learning_rate": 8.434030630261557e-06,
      "loss": 1.5201,
      "step": 83349
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6825557351112366,
      "learning_rate": 8.43156986076342e-06,
      "loss": 1.4766,
      "step": 83350
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6822344660758972,
      "learning_rate": 8.429109445186444e-06,
      "loss": 1.5191,
      "step": 83351
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.668581485748291,
      "learning_rate": 8.426649383533556e-06,
      "loss": 1.6202,
      "step": 83352
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6626390814781189,
      "learning_rate": 8.424189675807724e-06,
      "loss": 1.568,
      "step": 83353
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6820554137229919,
      "learning_rate": 8.421730322011977e-06,
      "loss": 1.4338,
      "step": 83354
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6926714777946472,
      "learning_rate": 8.419271322149313e-06,
      "loss": 1.589,
      "step": 83355
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.680507481098175,
      "learning_rate": 8.416812676222628e-06,
      "loss": 1.4576,
      "step": 83356
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7014179229736328,
      "learning_rate": 8.41435438423499e-06,
      "loss": 1.4555,
      "step": 83357
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6551616191864014,
      "learning_rate": 8.411896446189393e-06,
      "loss": 1.4958,
      "step": 83358
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6944533586502075,
      "learning_rate": 8.409438862088802e-06,
      "loss": 1.4416,
      "step": 83359
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6928581595420837,
      "learning_rate": 8.406981631936116e-06,
      "loss": 1.5007,
      "step": 83360
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6585553288459778,
      "learning_rate": 8.404524755734466e-06,
      "loss": 1.4978,
      "step": 83361
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6914002895355225,
      "learning_rate": 8.402068233486747e-06,
      "loss": 1.6046,
      "step": 83362
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7007889747619629,
      "learning_rate": 8.399612065195927e-06,
      "loss": 1.4723,
      "step": 83363
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.68194580078125,
      "learning_rate": 8.397156250865e-06,
      "loss": 1.5226,
      "step": 83364
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.677868127822876,
      "learning_rate": 8.394700790496967e-06,
      "loss": 1.5105,
      "step": 83365
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6489635109901428,
      "learning_rate": 8.392245684094822e-06,
      "loss": 1.5086,
      "step": 83366
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6936177015304565,
      "learning_rate": 8.3897909316615e-06,
      "loss": 1.5095,
      "step": 83367
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6884156465530396,
      "learning_rate": 8.387336533200061e-06,
      "loss": 1.4988,
      "step": 83368
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6986134052276611,
      "learning_rate": 8.384882488713373e-06,
      "loss": 1.5392,
      "step": 83369
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6927847266197205,
      "learning_rate": 8.3824287982045e-06,
      "loss": 1.5095,
      "step": 83370
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6925185322761536,
      "learning_rate": 8.37997546167637e-06,
      "loss": 1.5788,
      "step": 83371
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.658537745475769,
      "learning_rate": 8.377522479131982e-06,
      "loss": 1.4957,
      "step": 83372
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6740981936454773,
      "learning_rate": 8.375069850574333e-06,
      "loss": 1.4909,
      "step": 83373
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6822489500045776,
      "learning_rate": 8.372617576006358e-06,
      "loss": 1.609,
      "step": 83374
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6759104132652283,
      "learning_rate": 8.37016565543105e-06,
      "loss": 1.4848,
      "step": 83375
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6649509072303772,
      "learning_rate": 8.36771408885144e-06,
      "loss": 1.5212,
      "step": 83376
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6923778653144836,
      "learning_rate": 8.365262876270396e-06,
      "loss": 1.4548,
      "step": 83377
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6852664351463318,
      "learning_rate": 8.362812017690978e-06,
      "loss": 1.5463,
      "step": 83378
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6939746737480164,
      "learning_rate": 8.36036151311612e-06,
      "loss": 1.5092,
      "step": 83379
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6626545190811157,
      "learning_rate": 8.357911362548853e-06,
      "loss": 1.4931,
      "step": 83380
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6925941705703735,
      "learning_rate": 8.355461565992072e-06,
      "loss": 1.5332,
      "step": 83381
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6865403652191162,
      "learning_rate": 8.35301212344881e-06,
      "loss": 1.5431,
      "step": 83382
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6955034732818604,
      "learning_rate": 8.350563034921998e-06,
      "loss": 1.4839,
      "step": 83383
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7032580971717834,
      "learning_rate": 8.348114300414631e-06,
      "loss": 1.4722,
      "step": 83384
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6908977031707764,
      "learning_rate": 8.345665919929712e-06,
      "loss": 1.4749,
      "step": 83385
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6847050786018372,
      "learning_rate": 8.343217893470133e-06,
      "loss": 1.4808,
      "step": 83386
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6792849898338318,
      "learning_rate": 8.340770221038961e-06,
      "loss": 1.4822,
      "step": 83387
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6736629605293274,
      "learning_rate": 8.338322902639127e-06,
      "loss": 1.5173,
      "step": 83388
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6887374520301819,
      "learning_rate": 8.335875938273528e-06,
      "loss": 1.5198,
      "step": 83389
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.679378092288971,
      "learning_rate": 8.333429327945263e-06,
      "loss": 1.5362,
      "step": 83390
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6963639855384827,
      "learning_rate": 8.330983071657226e-06,
      "loss": 1.5623,
      "step": 83391
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6804786324501038,
      "learning_rate": 8.328537169412386e-06,
      "loss": 1.5902,
      "step": 83392
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6749877333641052,
      "learning_rate": 8.326091621213704e-06,
      "loss": 1.4728,
      "step": 83393
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6867900490760803,
      "learning_rate": 8.323646427064212e-06,
      "loss": 1.5247,
      "step": 83394
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.69927978515625,
      "learning_rate": 8.321201586966841e-06,
      "loss": 1.4597,
      "step": 83395
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6970833539962769,
      "learning_rate": 8.318757100924523e-06,
      "loss": 1.431,
      "step": 83396
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6474165320396423,
      "learning_rate": 8.316312968940287e-06,
      "loss": 1.5152,
      "step": 83397
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6784510612487793,
      "learning_rate": 8.313869191017063e-06,
      "loss": 1.4989,
      "step": 83398
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6531311869621277,
      "learning_rate": 8.311425767157786e-06,
      "loss": 1.4407,
      "step": 83399
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6757238507270813,
      "learning_rate": 8.308982697365485e-06,
      "loss": 1.5487,
      "step": 83400
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6683850288391113,
      "learning_rate": 8.306539981643123e-06,
      "loss": 1.5636,
      "step": 83401
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6860700845718384,
      "learning_rate": 8.3040976199936e-06,
      "loss": 1.5022,
      "step": 83402
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6896836757659912,
      "learning_rate": 8.301655612419945e-06,
      "loss": 1.4721,
      "step": 83403
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6732475161552429,
      "learning_rate": 8.299213958925121e-06,
      "loss": 1.4996,
      "step": 83404
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6725575923919678,
      "learning_rate": 8.296772659512064e-06,
      "loss": 1.5191,
      "step": 83405
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6939367651939392,
      "learning_rate": 8.2943317141837e-06,
      "loss": 1.5273,
      "step": 83406
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6602683067321777,
      "learning_rate": 8.291891122943061e-06,
      "loss": 1.49,
      "step": 83407
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.6772172451019287,
      "learning_rate": 8.289450885793115e-06,
      "loss": 1.4568,
      "step": 83408
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6806790232658386,
      "learning_rate": 8.287011002736754e-06,
      "loss": 1.4551,
      "step": 83409
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7017609477043152,
      "learning_rate": 8.28457147377698e-06,
      "loss": 1.549,
      "step": 83410
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.675196647644043,
      "learning_rate": 8.282132298916788e-06,
      "loss": 1.4732,
      "step": 83411
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6763277649879456,
      "learning_rate": 8.27969347815911e-06,
      "loss": 1.5231,
      "step": 83412
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6855947971343994,
      "learning_rate": 8.277255011506844e-06,
      "loss": 1.4722,
      "step": 83413
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.667436420917511,
      "learning_rate": 8.274816898963022e-06,
      "loss": 1.5347,
      "step": 83414
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6949387788772583,
      "learning_rate": 8.272379140530672e-06,
      "loss": 1.4699,
      "step": 83415
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6978678703308105,
      "learning_rate": 8.269941736212593e-06,
      "loss": 1.5521,
      "step": 83416
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.697100043296814,
      "learning_rate": 8.267504686011817e-06,
      "loss": 1.5322,
      "step": 83417
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.677598237991333,
      "learning_rate": 8.265067989931306e-06,
      "loss": 1.4886,
      "step": 83418
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6880208849906921,
      "learning_rate": 8.262631647974061e-06,
      "loss": 1.5478,
      "step": 83419
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6923863291740417,
      "learning_rate": 8.260195660142943e-06,
      "loss": 1.4443,
      "step": 83420
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6745960712432861,
      "learning_rate": 8.257760026441017e-06,
      "loss": 1.4768,
      "step": 83421
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6831063032150269,
      "learning_rate": 8.25532474687115e-06,
      "loss": 1.4773,
      "step": 83422
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6897740364074707,
      "learning_rate": 8.252889821436337e-06,
      "loss": 1.4197,
      "step": 83423
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6667507886886597,
      "learning_rate": 8.250455250139509e-06,
      "loss": 1.464,
      "step": 83424
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6718154549598694,
      "learning_rate": 8.248021032983665e-06,
      "loss": 1.5373,
      "step": 83425
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6951634883880615,
      "learning_rate": 8.245587169971734e-06,
      "loss": 1.5143,
      "step": 83426
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6677785515785217,
      "learning_rate": 8.24315366110665e-06,
      "loss": 1.5641,
      "step": 83427
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6609440445899963,
      "learning_rate": 8.240720506391441e-06,
      "loss": 1.4665,
      "step": 83428
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6749759912490845,
      "learning_rate": 8.238287705828972e-06,
      "loss": 1.525,
      "step": 83429
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6767112612724304,
      "learning_rate": 8.235855259422208e-06,
      "loss": 1.473,
      "step": 83430
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6611504554748535,
      "learning_rate": 8.233423167174181e-06,
      "loss": 1.5454,
      "step": 83431
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6774851679801941,
      "learning_rate": 8.230991429087752e-06,
      "loss": 1.4466,
      "step": 83432
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6841321587562561,
      "learning_rate": 8.228560045165921e-06,
      "loss": 1.4819,
      "step": 83433
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6682676076889038,
      "learning_rate": 8.22612901541162e-06,
      "loss": 1.5473,
      "step": 83434
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6810778975486755,
      "learning_rate": 8.223698339827811e-06,
      "loss": 1.5095,
      "step": 83435
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6697503328323364,
      "learning_rate": 8.221268018417459e-06,
      "loss": 1.5289,
      "step": 83436
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7085182666778564,
      "learning_rate": 8.218838051183462e-06,
      "loss": 1.5847,
      "step": 83437
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6844412684440613,
      "learning_rate": 8.216408438128852e-06,
      "loss": 1.5465,
      "step": 83438
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6786400079727173,
      "learning_rate": 8.213979179256458e-06,
      "loss": 1.5661,
      "step": 83439
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6954101920127869,
      "learning_rate": 8.211550274569378e-06,
      "loss": 1.5733,
      "step": 83440
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6655210256576538,
      "learning_rate": 8.209121724070445e-06,
      "loss": 1.4774,
      "step": 83441
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.674553394317627,
      "learning_rate": 8.206693527762653e-06,
      "loss": 1.5083,
      "step": 83442
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6553756594657898,
      "learning_rate": 8.204265685648937e-06,
      "loss": 1.4352,
      "step": 83443
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6964604258537292,
      "learning_rate": 8.201838197732224e-06,
      "loss": 1.5191,
      "step": 83444
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.668097198009491,
      "learning_rate": 8.199411064015516e-06,
      "loss": 1.4866,
      "step": 83445
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7017799615859985,
      "learning_rate": 8.196984284501707e-06,
      "loss": 1.5823,
      "step": 83446
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6707209944725037,
      "learning_rate": 8.194557859193796e-06,
      "loss": 1.5129,
      "step": 83447
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6711018085479736,
      "learning_rate": 8.192131788094681e-06,
      "loss": 1.5422,
      "step": 83448
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6629020571708679,
      "learning_rate": 8.189706071207292e-06,
      "loss": 1.5244,
      "step": 83449
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6818311214447021,
      "learning_rate": 8.18728070853466e-06,
      "loss": 1.5227,
      "step": 83450
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6783751249313354,
      "learning_rate": 8.184855700079652e-06,
      "loss": 1.5377,
      "step": 83451
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6630135178565979,
      "learning_rate": 8.182431045845195e-06,
      "loss": 1.442,
      "step": 83452
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6947442293167114,
      "learning_rate": 8.180006745834288e-06,
      "loss": 1.4923,
      "step": 83453
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6577567458152771,
      "learning_rate": 8.177582800049865e-06,
      "loss": 1.5284,
      "step": 83454
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6761626601219177,
      "learning_rate": 8.175159208494885e-06,
      "loss": 1.4837,
      "step": 83455
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6953110694885254,
      "learning_rate": 8.172735971172217e-06,
      "loss": 1.5709,
      "step": 83456
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6879966855049133,
      "learning_rate": 8.17031308808489e-06,
      "loss": 1.511,
      "step": 83457
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6814408898353577,
      "learning_rate": 8.167890559235802e-06,
      "loss": 1.5658,
      "step": 83458
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6810863018035889,
      "learning_rate": 8.165468384627848e-06,
      "loss": 1.5426,
      "step": 83459
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6901503205299377,
      "learning_rate": 8.16304656426403e-06,
      "loss": 1.481,
      "step": 83460
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6604107022285461,
      "learning_rate": 8.160625098147277e-06,
      "loss": 1.5005,
      "step": 83461
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6684049963951111,
      "learning_rate": 8.158203986280553e-06,
      "loss": 1.5195,
      "step": 83462
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.690861701965332,
      "learning_rate": 8.155783228666723e-06,
      "loss": 1.4738,
      "step": 83463
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.687255859375,
      "learning_rate": 8.153362825308817e-06,
      "loss": 1.498,
      "step": 83464
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6835075616836548,
      "learning_rate": 8.150942776209734e-06,
      "loss": 1.478,
      "step": 83465
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6744541525840759,
      "learning_rate": 8.148523081372371e-06,
      "loss": 1.5689,
      "step": 83466
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7050874829292297,
      "learning_rate": 8.146103740799659e-06,
      "loss": 1.5209,
      "step": 83467
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6818755865097046,
      "learning_rate": 8.143684754494661e-06,
      "loss": 1.5382,
      "step": 83468
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6844127774238586,
      "learning_rate": 8.141266122460178e-06,
      "loss": 1.4753,
      "step": 83469
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.685954213142395,
      "learning_rate": 8.138847844699203e-06,
      "loss": 1.4963,
      "step": 83470
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6962948441505432,
      "learning_rate": 8.136429921214671e-06,
      "loss": 1.4979,
      "step": 83471
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6730408668518066,
      "learning_rate": 8.134012352009512e-06,
      "loss": 1.532,
      "step": 83472
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6832278966903687,
      "learning_rate": 8.131595137086622e-06,
      "loss": 1.5265,
      "step": 83473
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6501685380935669,
      "learning_rate": 8.129178276448967e-06,
      "loss": 1.4361,
      "step": 83474
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6933287382125854,
      "learning_rate": 8.126761770099543e-06,
      "loss": 1.5667,
      "step": 83475
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.675421953201294,
      "learning_rate": 8.124345618041216e-06,
      "loss": 1.4702,
      "step": 83476
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.682611882686615,
      "learning_rate": 8.121929820276884e-06,
      "loss": 1.5098,
      "step": 83477
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7173545360565186,
      "learning_rate": 8.119514376809545e-06,
      "loss": 1.5536,
      "step": 83478
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6675192713737488,
      "learning_rate": 8.117099287642126e-06,
      "loss": 1.5375,
      "step": 83479
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6735722422599792,
      "learning_rate": 8.114684552777494e-06,
      "loss": 1.4924,
      "step": 83480
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6654871106147766,
      "learning_rate": 8.112270172218683e-06,
      "loss": 1.4657,
      "step": 83481
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7006036639213562,
      "learning_rate": 8.109856145968518e-06,
      "loss": 1.4939,
      "step": 83482
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6686773300170898,
      "learning_rate": 8.107442474030035e-06,
      "loss": 1.5228,
      "step": 83483
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6912825703620911,
      "learning_rate": 8.105029156406062e-06,
      "loss": 1.5486,
      "step": 83484
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7002189755439758,
      "learning_rate": 8.102616193099598e-06,
      "loss": 1.484,
      "step": 83485
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.678386926651001,
      "learning_rate": 8.100203584113574e-06,
      "loss": 1.5662,
      "step": 83486
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6555532813072205,
      "learning_rate": 8.09779132945082e-06,
      "loss": 1.4701,
      "step": 83487
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6939716935157776,
      "learning_rate": 8.095379429114402e-06,
      "loss": 1.5144,
      "step": 83488
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6863389015197754,
      "learning_rate": 8.092967883107149e-06,
      "loss": 1.4912,
      "step": 83489
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6516767740249634,
      "learning_rate": 8.090556691432026e-06,
      "loss": 1.4944,
      "step": 83490
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6894710063934326,
      "learning_rate": 8.088145854091999e-06,
      "loss": 1.5504,
      "step": 83491
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6543096899986267,
      "learning_rate": 8.085735371089896e-06,
      "loss": 1.5044,
      "step": 83492
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.684115469455719,
      "learning_rate": 8.083325242428718e-06,
      "loss": 1.4584,
      "step": 83493
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6770768761634827,
      "learning_rate": 8.08091546811136e-06,
      "loss": 1.4631,
      "step": 83494
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6739156246185303,
      "learning_rate": 8.078506048140788e-06,
      "loss": 1.4916,
      "step": 83495
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6475905179977417,
      "learning_rate": 8.076096982519865e-06,
      "loss": 1.4694,
      "step": 83496
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6721441745758057,
      "learning_rate": 8.073688271251589e-06,
      "loss": 1.5511,
      "step": 83497
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6688376069068909,
      "learning_rate": 8.071279914338823e-06,
      "loss": 1.5339,
      "step": 83498
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6583390831947327,
      "learning_rate": 8.06887191178447e-06,
      "loss": 1.5178,
      "step": 83499
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6713253855705261,
      "learning_rate": 8.066464263591554e-06,
      "loss": 1.4691,
      "step": 83500
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7105920910835266,
      "learning_rate": 8.064056969762877e-06,
      "loss": 1.5602,
      "step": 83501
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6889598965644836,
      "learning_rate": 8.06165003030147e-06,
      "loss": 1.5641,
      "step": 83502
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6795771718025208,
      "learning_rate": 8.059243445210161e-06,
      "loss": 1.477,
      "step": 83503
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6681646704673767,
      "learning_rate": 8.056837214491951e-06,
      "loss": 1.4423,
      "step": 83504
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7111477255821228,
      "learning_rate": 8.054431338149735e-06,
      "loss": 1.5362,
      "step": 83505
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6836941838264465,
      "learning_rate": 8.052025816186381e-06,
      "loss": 1.4385,
      "step": 83506
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6925994753837585,
      "learning_rate": 8.049620648604883e-06,
      "loss": 1.5607,
      "step": 83507
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6746562123298645,
      "learning_rate": 8.04721583540814e-06,
      "loss": 1.5003,
      "step": 83508
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6468847393989563,
      "learning_rate": 8.044811376599013e-06,
      "loss": 1.4282,
      "step": 83509
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6926547884941101,
      "learning_rate": 8.042407272180473e-06,
      "loss": 1.4612,
      "step": 83510
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6627395749092102,
      "learning_rate": 8.040003522155447e-06,
      "loss": 1.4778,
      "step": 83511
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6734316349029541,
      "learning_rate": 8.037600126526867e-06,
      "loss": 1.5108,
      "step": 83512
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6676946878433228,
      "learning_rate": 8.035197085297596e-06,
      "loss": 1.4905,
      "step": 83513
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6658445596694946,
      "learning_rate": 8.032794398470566e-06,
      "loss": 1.473,
      "step": 83514
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6592971086502075,
      "learning_rate": 8.030392066048741e-06,
      "loss": 1.5085,
      "step": 83515
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6699796319007874,
      "learning_rate": 8.027990088034952e-06,
      "loss": 1.5139,
      "step": 83516
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6759693026542664,
      "learning_rate": 8.025588464432165e-06,
      "loss": 1.5732,
      "step": 83517
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6822183132171631,
      "learning_rate": 8.023187195243375e-06,
      "loss": 1.4884,
      "step": 83518
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6705374121665955,
      "learning_rate": 8.020786280471314e-06,
      "loss": 1.5386,
      "step": 83519
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6779325604438782,
      "learning_rate": 8.018385720119046e-06,
      "loss": 1.4359,
      "step": 83520
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.683099627494812,
      "learning_rate": 8.015985514189438e-06,
      "loss": 1.5522,
      "step": 83521
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6670995354652405,
      "learning_rate": 8.013585662685384e-06,
      "loss": 1.4949,
      "step": 83522
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6888330578804016,
      "learning_rate": 8.011186165609817e-06,
      "loss": 1.5293,
      "step": 83523
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.65805584192276,
      "learning_rate": 8.008787022965635e-06,
      "loss": 1.507,
      "step": 83524
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6955451965332031,
      "learning_rate": 8.006388234755834e-06,
      "loss": 1.5646,
      "step": 83525
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7037160992622375,
      "learning_rate": 8.00398980098318e-06,
      "loss": 1.5246,
      "step": 83526
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6851787567138672,
      "learning_rate": 8.001591721650668e-06,
      "loss": 1.4756,
      "step": 83527
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6687012314796448,
      "learning_rate": 7.9991939967612e-06,
      "loss": 1.4642,
      "step": 83528
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7036823630332947,
      "learning_rate": 7.996796626317737e-06,
      "loss": 1.5551,
      "step": 83529
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6720075607299805,
      "learning_rate": 7.994399610323076e-06,
      "loss": 1.4695,
      "step": 83530
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6643183827400208,
      "learning_rate": 7.992002948780186e-06,
      "loss": 1.4799,
      "step": 83531
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6701230406761169,
      "learning_rate": 7.98960664169206e-06,
      "loss": 1.4508,
      "step": 83532
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6914433240890503,
      "learning_rate": 7.987210689061429e-06,
      "loss": 1.4577,
      "step": 83533
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6884733438491821,
      "learning_rate": 7.984815090891327e-06,
      "loss": 1.5033,
      "step": 83534
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6652477383613586,
      "learning_rate": 7.982419847184651e-06,
      "loss": 1.5015,
      "step": 83535
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6712222695350647,
      "learning_rate": 7.980024957944297e-06,
      "loss": 1.5029,
      "step": 83536
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6705183982849121,
      "learning_rate": 7.977630423173164e-06,
      "loss": 1.5016,
      "step": 83537
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.685143768787384,
      "learning_rate": 7.97523624287415e-06,
      "loss": 1.5057,
      "step": 83538
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6948160529136658,
      "learning_rate": 7.972842417050184e-06,
      "loss": 1.5513,
      "step": 83539
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6917195916175842,
      "learning_rate": 7.970448945704133e-06,
      "loss": 1.5552,
      "step": 83540
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7069482803344727,
      "learning_rate": 7.968055828838926e-06,
      "loss": 1.5579,
      "step": 83541
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6682586669921875,
      "learning_rate": 7.965663066457495e-06,
      "loss": 1.5626,
      "step": 83542
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6960647702217102,
      "learning_rate": 7.963270658562736e-06,
      "loss": 1.5817,
      "step": 83543
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6790079474449158,
      "learning_rate": 7.960878605157483e-06,
      "loss": 1.5146,
      "step": 83544
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6718595027923584,
      "learning_rate": 7.958486906244731e-06,
      "loss": 1.4477,
      "step": 83545
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6681239008903503,
      "learning_rate": 7.956095561827346e-06,
      "loss": 1.5273,
      "step": 83546
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6685177683830261,
      "learning_rate": 7.953704571908226e-06,
      "loss": 1.5048,
      "step": 83547
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6741378903388977,
      "learning_rate": 7.951313936490267e-06,
      "loss": 1.5254,
      "step": 83548
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6606705188751221,
      "learning_rate": 7.948923655576366e-06,
      "loss": 1.5149,
      "step": 83549
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6962761282920837,
      "learning_rate": 7.946533729169491e-06,
      "loss": 1.5326,
      "step": 83550
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6910846829414368,
      "learning_rate": 7.944144157272437e-06,
      "loss": 1.4839,
      "step": 83551
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6705141663551331,
      "learning_rate": 7.9417549398882e-06,
      "loss": 1.5326,
      "step": 83552
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6727125644683838,
      "learning_rate": 7.939366077019648e-06,
      "loss": 1.5069,
      "step": 83553
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6496068239212036,
      "learning_rate": 7.936977568669612e-06,
      "loss": 1.5159,
      "step": 83554
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6848436594009399,
      "learning_rate": 7.93458941484112e-06,
      "loss": 1.6533,
      "step": 83555
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.675754189491272,
      "learning_rate": 7.932201615536936e-06,
      "loss": 1.517,
      "step": 83556
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7115290760993958,
      "learning_rate": 7.929814170760095e-06,
      "loss": 1.4986,
      "step": 83557
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6604384779930115,
      "learning_rate": 7.927427080513394e-06,
      "loss": 1.5355,
      "step": 83558
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6731668710708618,
      "learning_rate": 7.92504034479976e-06,
      "loss": 1.477,
      "step": 83559
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6657171845436096,
      "learning_rate": 7.922653963622094e-06,
      "loss": 1.5666,
      "step": 83560
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6931593418121338,
      "learning_rate": 7.92026793698326e-06,
      "loss": 1.4956,
      "step": 83561
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6614925861358643,
      "learning_rate": 7.917882264886222e-06,
      "loss": 1.425,
      "step": 83562
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6938050985336304,
      "learning_rate": 7.91549694733381e-06,
      "loss": 1.5257,
      "step": 83563
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6944433450698853,
      "learning_rate": 7.913111984328991e-06,
      "loss": 1.4868,
      "step": 83564
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6614534854888916,
      "learning_rate": 7.910727375874593e-06,
      "loss": 1.4853,
      "step": 83565
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7198789715766907,
      "learning_rate": 7.908343121973515e-06,
      "loss": 1.548,
      "step": 83566
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6688736081123352,
      "learning_rate": 7.905959222628722e-06,
      "loss": 1.4672,
      "step": 83567
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6796102523803711,
      "learning_rate": 7.903575677843044e-06,
      "loss": 1.5203,
      "step": 83568
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6953026652336121,
      "learning_rate": 7.901192487619346e-06,
      "loss": 1.4589,
      "step": 83569
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6525543928146362,
      "learning_rate": 7.898809651960557e-06,
      "loss": 1.4242,
      "step": 83570
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6745814681053162,
      "learning_rate": 7.896427170869612e-06,
      "loss": 1.486,
      "step": 83571
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6917487978935242,
      "learning_rate": 7.894045044349374e-06,
      "loss": 1.5452,
      "step": 83572
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6661852598190308,
      "learning_rate": 7.89166327240267e-06,
      "loss": 1.4856,
      "step": 83573
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6791102290153503,
      "learning_rate": 7.889281855032503e-06,
      "loss": 1.5037,
      "step": 83574
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7240132093429565,
      "learning_rate": 7.886900792241702e-06,
      "loss": 1.5359,
      "step": 83575
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6974968314170837,
      "learning_rate": 7.884520084033131e-06,
      "loss": 1.4872,
      "step": 83576
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6681240797042847,
      "learning_rate": 7.882139730409687e-06,
      "loss": 1.5487,
      "step": 83577
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6763852834701538,
      "learning_rate": 7.879759731374335e-06,
      "loss": 1.5241,
      "step": 83578
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6786467432975769,
      "learning_rate": 7.877380086929942e-06,
      "loss": 1.5032,
      "step": 83579
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.683050811290741,
      "learning_rate": 7.875000797079301e-06,
      "loss": 1.4783,
      "step": 83580
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6853624582290649,
      "learning_rate": 7.872621861825413e-06,
      "loss": 1.4818,
      "step": 83581
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6852805018424988,
      "learning_rate": 7.870243281171107e-06,
      "loss": 1.5037,
      "step": 83582
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7015100121498108,
      "learning_rate": 7.867865055119248e-06,
      "loss": 1.5144,
      "step": 83583
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6702889204025269,
      "learning_rate": 7.86548718367277e-06,
      "loss": 1.5242,
      "step": 83584
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6675449013710022,
      "learning_rate": 7.863109666834566e-06,
      "loss": 1.5052,
      "step": 83585
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6739091277122498,
      "learning_rate": 7.860732504607503e-06,
      "loss": 1.5467,
      "step": 83586
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.675422191619873,
      "learning_rate": 7.858355696994445e-06,
      "loss": 1.4529,
      "step": 83587
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6720741391181946,
      "learning_rate": 7.855979243998323e-06,
      "loss": 1.5002,
      "step": 83588
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6777119636535645,
      "learning_rate": 7.853603145622001e-06,
      "loss": 1.4713,
      "step": 83589
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6609962582588196,
      "learning_rate": 7.85122740186831e-06,
      "loss": 1.4876,
      "step": 83590
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6839163899421692,
      "learning_rate": 7.848852012740215e-06,
      "loss": 1.6034,
      "step": 83591
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6886076927185059,
      "learning_rate": 7.84647697824058e-06,
      "loss": 1.5331,
      "step": 83592
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6849802136421204,
      "learning_rate": 7.844102298372267e-06,
      "loss": 1.3821,
      "step": 83593
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6665949821472168,
      "learning_rate": 7.841727973138146e-06,
      "loss": 1.4792,
      "step": 83594
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6786606907844543,
      "learning_rate": 7.839354002541144e-06,
      "loss": 1.4558,
      "step": 83595
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6670020222663879,
      "learning_rate": 7.836980386584124e-06,
      "loss": 1.5501,
      "step": 83596
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6721169948577881,
      "learning_rate": 7.834607125269954e-06,
      "loss": 1.4993,
      "step": 83597
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7096337676048279,
      "learning_rate": 7.83223421860153e-06,
      "loss": 1.5757,
      "step": 83598
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6878989338874817,
      "learning_rate": 7.829861666581683e-06,
      "loss": 1.5091,
      "step": 83599
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6831574440002441,
      "learning_rate": 7.827489469213377e-06,
      "loss": 1.5364,
      "step": 83600
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6859337091445923,
      "learning_rate": 7.82511762649941e-06,
      "loss": 1.5033,
      "step": 83601
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6910500526428223,
      "learning_rate": 7.822746138442747e-06,
      "loss": 1.5528,
      "step": 83602
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7122383117675781,
      "learning_rate": 7.82037500504622e-06,
      "loss": 1.5241,
      "step": 83603
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6983960866928101,
      "learning_rate": 7.818004226312658e-06,
      "loss": 1.5366,
      "step": 83604
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6714712977409363,
      "learning_rate": 7.815633802245025e-06,
      "loss": 1.4556,
      "step": 83605
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6998686790466309,
      "learning_rate": 7.813263732846154e-06,
      "loss": 1.5206,
      "step": 83606
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6625893115997314,
      "learning_rate": 7.810894018118941e-06,
      "loss": 1.4188,
      "step": 83607
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6738331913948059,
      "learning_rate": 7.80852465806625e-06,
      "loss": 1.4979,
      "step": 83608
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6590222716331482,
      "learning_rate": 7.806155652690916e-06,
      "loss": 1.5254,
      "step": 83609
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6729497909545898,
      "learning_rate": 7.803787001995898e-06,
      "loss": 1.5462,
      "step": 83610
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6546886563301086,
      "learning_rate": 7.801418705983996e-06,
      "loss": 1.4753,
      "step": 83611
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6846305727958679,
      "learning_rate": 7.799050764658144e-06,
      "loss": 1.5279,
      "step": 83612
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6790148019790649,
      "learning_rate": 7.796683178021168e-06,
      "loss": 1.5185,
      "step": 83613
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6765404343605042,
      "learning_rate": 7.794315946076002e-06,
      "loss": 1.4997,
      "step": 83614
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7050347328186035,
      "learning_rate": 7.791949068825476e-06,
      "loss": 1.5397,
      "step": 83615
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6734915971755981,
      "learning_rate": 7.789582546272454e-06,
      "loss": 1.5588,
      "step": 83616
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6764138340950012,
      "learning_rate": 7.787216378419836e-06,
      "loss": 1.5165,
      "step": 83617
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6854729056358337,
      "learning_rate": 7.78485056527045e-06,
      "loss": 1.56,
      "step": 83618
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6682122945785522,
      "learning_rate": 7.78248510682723e-06,
      "loss": 1.4665,
      "step": 83619
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6764926910400391,
      "learning_rate": 7.780120003092971e-06,
      "loss": 1.5279,
      "step": 83620
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7087534070014954,
      "learning_rate": 7.777755254070638e-06,
      "loss": 1.5287,
      "step": 83621
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6954228281974792,
      "learning_rate": 7.775390859763064e-06,
      "loss": 1.4857,
      "step": 83622
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6568697690963745,
      "learning_rate": 7.773026820173078e-06,
      "loss": 1.5273,
      "step": 83623
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6933716535568237,
      "learning_rate": 7.770663135303578e-06,
      "loss": 1.534,
      "step": 83624
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6739566922187805,
      "learning_rate": 7.768299805157463e-06,
      "loss": 1.4467,
      "step": 83625
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6782010197639465,
      "learning_rate": 7.765936829737529e-06,
      "loss": 1.4908,
      "step": 83626
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7005717158317566,
      "learning_rate": 7.763574209046708e-06,
      "loss": 1.4767,
      "step": 83627
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.673088788986206,
      "learning_rate": 7.761211943087864e-06,
      "loss": 1.5124,
      "step": 83628
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6740930676460266,
      "learning_rate": 7.758850031863861e-06,
      "loss": 1.5583,
      "step": 83629
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6748805642127991,
      "learning_rate": 7.756488475377531e-06,
      "loss": 1.4878,
      "step": 83630
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6781968474388123,
      "learning_rate": 7.754127273631772e-06,
      "loss": 1.4911,
      "step": 83631
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6827666163444519,
      "learning_rate": 7.751766426629446e-06,
      "loss": 1.499,
      "step": 83632
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6924400925636292,
      "learning_rate": 7.749405934373387e-06,
      "loss": 1.5272,
      "step": 83633
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.662773609161377,
      "learning_rate": 7.747045796866491e-06,
      "loss": 1.4724,
      "step": 83634
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6706181168556213,
      "learning_rate": 7.74468601411169e-06,
      "loss": 1.4962,
      "step": 83635
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7144435048103333,
      "learning_rate": 7.74232658611168e-06,
      "loss": 1.4839,
      "step": 83636
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7012559771537781,
      "learning_rate": 7.739967512869461e-06,
      "loss": 1.4871,
      "step": 83637
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6793123483657837,
      "learning_rate": 7.737608794387895e-06,
      "loss": 1.5856,
      "step": 83638
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6785343289375305,
      "learning_rate": 7.735250430669782e-06,
      "loss": 1.5237,
      "step": 83639
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6981736421585083,
      "learning_rate": 7.732892421717984e-06,
      "loss": 1.5764,
      "step": 83640
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6812440156936646,
      "learning_rate": 7.730534767535401e-06,
      "loss": 1.457,
      "step": 83641
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7030060291290283,
      "learning_rate": 7.72817746812493e-06,
      "loss": 1.5416,
      "step": 83642
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6863880753517151,
      "learning_rate": 7.725820523489368e-06,
      "loss": 1.5256,
      "step": 83643
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6781681776046753,
      "learning_rate": 7.723463933631546e-06,
      "loss": 1.4923,
      "step": 83644
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6790233850479126,
      "learning_rate": 7.72110769855443e-06,
      "loss": 1.5167,
      "step": 83645
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6943219900131226,
      "learning_rate": 7.718751818260816e-06,
      "loss": 1.4755,
      "step": 83646
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6642150282859802,
      "learning_rate": 7.716396292753569e-06,
      "loss": 1.4298,
      "step": 83647
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6776736974716187,
      "learning_rate": 7.71404112203552e-06,
      "loss": 1.5984,
      "step": 83648
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6872521042823792,
      "learning_rate": 7.711686306109633e-06,
      "loss": 1.534,
      "step": 83649
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7108484506607056,
      "learning_rate": 7.709331844978605e-06,
      "loss": 1.5613,
      "step": 83650
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6567806601524353,
      "learning_rate": 7.706977738645403e-06,
      "loss": 1.4682,
      "step": 83651
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6760717630386353,
      "learning_rate": 7.70462398711289e-06,
      "loss": 1.5038,
      "step": 83652
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6686843633651733,
      "learning_rate": 7.702270590383896e-06,
      "loss": 1.4663,
      "step": 83653
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6799240708351135,
      "learning_rate": 7.699917548461254e-06,
      "loss": 1.5502,
      "step": 83654
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7023881077766418,
      "learning_rate": 7.69756486134786e-06,
      "loss": 1.615,
      "step": 83655
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6705513596534729,
      "learning_rate": 7.695212529046579e-06,
      "loss": 1.4798,
      "step": 83656
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6780094504356384,
      "learning_rate": 7.692860551560175e-06,
      "loss": 1.4833,
      "step": 83657
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6845413446426392,
      "learning_rate": 7.69050892889158e-06,
      "loss": 1.5143,
      "step": 83658
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6739842891693115,
      "learning_rate": 7.688157661043692e-06,
      "loss": 1.5417,
      "step": 83659
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6928504705429077,
      "learning_rate": 7.685806748019275e-06,
      "loss": 1.5345,
      "step": 83660
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6886158585548401,
      "learning_rate": 7.683456189821225e-06,
      "loss": 1.4806,
      "step": 83661
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6505922079086304,
      "learning_rate": 7.681105986452407e-06,
      "loss": 1.4515,
      "step": 83662
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6891782283782959,
      "learning_rate": 7.67875613791562e-06,
      "loss": 1.4875,
      "step": 83663
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6775835752487183,
      "learning_rate": 7.676406644213762e-06,
      "loss": 1.5184,
      "step": 83664
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.676703929901123,
      "learning_rate": 7.674057505349696e-06,
      "loss": 1.5188,
      "step": 83665
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7206621766090393,
      "learning_rate": 7.671708721326219e-06,
      "loss": 1.4866,
      "step": 83666
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6806045770645142,
      "learning_rate": 7.669360292146231e-06,
      "loss": 1.5274,
      "step": 83667
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7060044407844543,
      "learning_rate": 7.667012217812563e-06,
      "loss": 1.5009,
      "step": 83668
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.697625994682312,
      "learning_rate": 7.664664498328076e-06,
      "loss": 1.5212,
      "step": 83669
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7011464834213257,
      "learning_rate": 7.662317133695639e-06,
      "loss": 1.5191,
      "step": 83670
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.661818265914917,
      "learning_rate": 7.659970123918014e-06,
      "loss": 1.4581,
      "step": 83671
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6810542941093445,
      "learning_rate": 7.657623468998164e-06,
      "loss": 1.5093,
      "step": 83672
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6696386337280273,
      "learning_rate": 7.655277168938856e-06,
      "loss": 1.5398,
      "step": 83673
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6869826316833496,
      "learning_rate": 7.652931223742986e-06,
      "loss": 1.4919,
      "step": 83674
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6686202883720398,
      "learning_rate": 7.650585633413354e-06,
      "loss": 1.4692,
      "step": 83675
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.654341459274292,
      "learning_rate": 7.648240397952853e-06,
      "loss": 1.5429,
      "step": 83676
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.67868572473526,
      "learning_rate": 7.64589551736432e-06,
      "loss": 1.5165,
      "step": 83677
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6991134285926819,
      "learning_rate": 7.643550991650549e-06,
      "loss": 1.53,
      "step": 83678
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6850696802139282,
      "learning_rate": 7.641206820814505e-06,
      "loss": 1.4971,
      "step": 83679
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6759237051010132,
      "learning_rate": 7.638863004858885e-06,
      "loss": 1.46,
      "step": 83680
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6872127056121826,
      "learning_rate": 7.636519543786657e-06,
      "loss": 1.5572,
      "step": 83681
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6705275774002075,
      "learning_rate": 7.634176437600614e-06,
      "loss": 1.4528,
      "step": 83682
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6933150291442871,
      "learning_rate": 7.631833686303557e-06,
      "loss": 1.4951,
      "step": 83683
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6982203722000122,
      "learning_rate": 7.629491289898448e-06,
      "loss": 1.5011,
      "step": 83684
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6900569796562195,
      "learning_rate": 7.62714924838802e-06,
      "loss": 1.4443,
      "step": 83685
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6850870847702026,
      "learning_rate": 7.624807561775137e-06,
      "loss": 1.4864,
      "step": 83686
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6820599436759949,
      "learning_rate": 7.622466230062663e-06,
      "loss": 1.528,
      "step": 83687
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6779090166091919,
      "learning_rate": 7.620125253253462e-06,
      "loss": 1.5092,
      "step": 83688
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6844157576560974,
      "learning_rate": 7.617784631350332e-06,
      "loss": 1.4791,
      "step": 83689
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6733235716819763,
      "learning_rate": 7.615444364356105e-06,
      "loss": 1.5225,
      "step": 83690
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6611244678497314,
      "learning_rate": 7.613104452273711e-06,
      "loss": 1.5382,
      "step": 83691
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6676607131958008,
      "learning_rate": 7.610764895105881e-06,
      "loss": 1.5492,
      "step": 83692
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6695662140846252,
      "learning_rate": 7.608425692855513e-06,
      "loss": 1.4677,
      "step": 83693
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6869112849235535,
      "learning_rate": 7.606086845525406e-06,
      "loss": 1.4778,
      "step": 83694
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6750707626342773,
      "learning_rate": 7.603748353118455e-06,
      "loss": 1.5617,
      "step": 83695
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6995382905006409,
      "learning_rate": 7.601410215637493e-06,
      "loss": 1.4889,
      "step": 83696
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6658039093017578,
      "learning_rate": 7.5990724330852844e-06,
      "loss": 1.5017,
      "step": 83697
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6761651039123535,
      "learning_rate": 7.5967350054647605e-06,
      "loss": 1.4695,
      "step": 83698
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6540102958679199,
      "learning_rate": 7.594397932778717e-06,
      "loss": 1.4665,
      "step": 83699
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.672773003578186,
      "learning_rate": 7.592061215029955e-06,
      "loss": 1.4644,
      "step": 83700
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6620664596557617,
      "learning_rate": 7.589724852221335e-06,
      "loss": 1.4483,
      "step": 83701
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7203925251960754,
      "learning_rate": 7.587388844355757e-06,
      "loss": 1.4707,
      "step": 83702
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6732071042060852,
      "learning_rate": 7.585053191435985e-06,
      "loss": 1.5196,
      "step": 83703
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6892770528793335,
      "learning_rate": 7.5827178934648846e-06,
      "loss": 1.4914,
      "step": 83704
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6917315721511841,
      "learning_rate": 7.580382950445252e-06,
      "loss": 1.4903,
      "step": 83705
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.7169458270072937,
      "learning_rate": 7.578048362379985e-06,
      "loss": 1.5742,
      "step": 83706
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6740415096282959,
      "learning_rate": 7.5757141292718485e-06,
      "loss": 1.5566,
      "step": 83707
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6623827219009399,
      "learning_rate": 7.5733802511237064e-06,
      "loss": 1.4987,
      "step": 83708
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6683226227760315,
      "learning_rate": 7.57104672793839e-06,
      "loss": 1.4454,
      "step": 83709
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6921772956848145,
      "learning_rate": 7.568713559718764e-06,
      "loss": 1.5581,
      "step": 83710
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6839258074760437,
      "learning_rate": 7.566380746467626e-06,
      "loss": 1.4981,
      "step": 83711
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6687644720077515,
      "learning_rate": 7.564048288187807e-06,
      "loss": 1.5372,
      "step": 83712
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6995502710342407,
      "learning_rate": 7.5617161848821715e-06,
      "loss": 1.4926,
      "step": 83713
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6503582000732422,
      "learning_rate": 7.55938443655345e-06,
      "loss": 1.5413,
      "step": 83714
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6625509262084961,
      "learning_rate": 7.5570530432046085e-06,
      "loss": 1.5198,
      "step": 83715
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6644522547721863,
      "learning_rate": 7.55472200483841e-06,
      "loss": 1.4628,
      "step": 83716
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7147853970527649,
      "learning_rate": 7.552391321457685e-06,
      "loss": 1.5539,
      "step": 83717
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6728671193122864,
      "learning_rate": 7.550060993065232e-06,
      "loss": 1.5014,
      "step": 83718
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6617247462272644,
      "learning_rate": 7.54773101966395e-06,
      "loss": 1.4879,
      "step": 83719
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.692593514919281,
      "learning_rate": 7.545401401256634e-06,
      "loss": 1.532,
      "step": 83720
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6796308755874634,
      "learning_rate": 7.543072137846084e-06,
      "loss": 1.5234,
      "step": 83721
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6888737082481384,
      "learning_rate": 7.5407432294351976e-06,
      "loss": 1.5469,
      "step": 83722
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6704635620117188,
      "learning_rate": 7.538414676026705e-06,
      "loss": 1.4866,
      "step": 83723
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6464051008224487,
      "learning_rate": 7.536086477623537e-06,
      "loss": 1.5188,
      "step": 83724
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6789801120758057,
      "learning_rate": 7.533758634228426e-06,
      "loss": 1.4056,
      "step": 83725
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6918537616729736,
      "learning_rate": 7.531431145844235e-06,
      "loss": 1.514,
      "step": 83726
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6824817061424255,
      "learning_rate": 7.52910401247383e-06,
      "loss": 1.5442,
      "step": 83727
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6847673058509827,
      "learning_rate": 7.526777234119974e-06,
      "loss": 1.5453,
      "step": 83728
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6756071448326111,
      "learning_rate": 7.524450810785531e-06,
      "loss": 1.4464,
      "step": 83729
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6809028387069702,
      "learning_rate": 7.522124742473301e-06,
      "loss": 1.5697,
      "step": 83730
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7016385197639465,
      "learning_rate": 7.519799029186114e-06,
      "loss": 1.5381,
      "step": 83731
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6813422441482544,
      "learning_rate": 7.517473670926833e-06,
      "loss": 1.596,
      "step": 83732
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6690006256103516,
      "learning_rate": 7.51514866769819e-06,
      "loss": 1.4515,
      "step": 83733
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6973509192466736,
      "learning_rate": 7.512824019503083e-06,
      "loss": 1.618,
      "step": 83734
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7001266479492188,
      "learning_rate": 7.51049972634431e-06,
      "loss": 1.5431,
      "step": 83735
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7084527015686035,
      "learning_rate": 7.508175788224702e-06,
      "loss": 1.4813,
      "step": 83736
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6808692812919617,
      "learning_rate": 7.505852205147023e-06,
      "loss": 1.4987,
      "step": 83737
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.669710636138916,
      "learning_rate": 7.5035289771142036e-06,
      "loss": 1.4711,
      "step": 83738
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.687849760055542,
      "learning_rate": 7.5012061041290094e-06,
      "loss": 1.5079,
      "step": 83739
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6752675175666809,
      "learning_rate": 7.498883586194204e-06,
      "loss": 1.5116,
      "step": 83740
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6684932112693787,
      "learning_rate": 7.4965614233126855e-06,
      "loss": 1.4837,
      "step": 83741
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6665980219841003,
      "learning_rate": 7.494239615487252e-06,
      "loss": 1.5654,
      "step": 83742
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6668373346328735,
      "learning_rate": 7.491918162720667e-06,
      "loss": 1.5783,
      "step": 83743
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.675984263420105,
      "learning_rate": 7.489597065015829e-06,
      "loss": 1.5629,
      "step": 83744
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6646795272827148,
      "learning_rate": 7.487276322375501e-06,
      "loss": 1.5035,
      "step": 83745
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.671887993812561,
      "learning_rate": 7.48495593480255e-06,
      "loss": 1.4689,
      "step": 83746
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6685239672660828,
      "learning_rate": 7.482635902299738e-06,
      "loss": 1.5303,
      "step": 83747
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6583223938941956,
      "learning_rate": 7.480316224869931e-06,
      "loss": 1.4595,
      "step": 83748
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6855689287185669,
      "learning_rate": 7.477996902515926e-06,
      "loss": 1.3965,
      "step": 83749
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.687314510345459,
      "learning_rate": 7.4756779352404874e-06,
      "loss": 1.5546,
      "step": 83750
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6862274408340454,
      "learning_rate": 7.4733593230464795e-06,
      "loss": 1.5321,
      "step": 83751
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6685967445373535,
      "learning_rate": 7.471041065936767e-06,
      "loss": 1.3741,
      "step": 83752
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6936406493186951,
      "learning_rate": 7.468723163914048e-06,
      "loss": 1.491,
      "step": 83753
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6579626202583313,
      "learning_rate": 7.466405616981219e-06,
      "loss": 1.4555,
      "step": 83754
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6863071322441101,
      "learning_rate": 7.464088425141079e-06,
      "loss": 1.5448,
      "step": 83755
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6874927878379822,
      "learning_rate": 7.461771588396426e-06,
      "loss": 1.4675,
      "step": 83756
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6549792885780334,
      "learning_rate": 7.459455106750056e-06,
      "loss": 1.5535,
      "step": 83757
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6789317727088928,
      "learning_rate": 7.457138980204802e-06,
      "loss": 1.4697,
      "step": 83758
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6620762944221497,
      "learning_rate": 7.454823208763561e-06,
      "loss": 1.4372,
      "step": 83759
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6735265254974365,
      "learning_rate": 7.4525077924289634e-06,
      "loss": 1.4422,
      "step": 83760
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7069481611251831,
      "learning_rate": 7.450192731203941e-06,
      "loss": 1.4697,
      "step": 83761
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6904546022415161,
      "learning_rate": 7.447878025091292e-06,
      "loss": 1.5389,
      "step": 83762
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7070041298866272,
      "learning_rate": 7.445563674093847e-06,
      "loss": 1.4669,
      "step": 83763
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6895785331726074,
      "learning_rate": 7.443249678214303e-06,
      "loss": 1.557,
      "step": 83764
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6804312467575073,
      "learning_rate": 7.4409360374555914e-06,
      "loss": 1.5311,
      "step": 83765
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6767750382423401,
      "learning_rate": 7.438622751820511e-06,
      "loss": 1.4719,
      "step": 83766
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6957350373268127,
      "learning_rate": 7.436309821311792e-06,
      "loss": 1.5573,
      "step": 83767
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6688523888587952,
      "learning_rate": 7.433997245932266e-06,
      "loss": 1.5261,
      "step": 83768
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6814451217651367,
      "learning_rate": 7.431685025684797e-06,
      "loss": 1.5334,
      "step": 83769
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6966558694839478,
      "learning_rate": 7.429373160572183e-06,
      "loss": 1.5396,
      "step": 83770
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6893215775489807,
      "learning_rate": 7.427061650597122e-06,
      "loss": 1.4933,
      "step": 83771
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6695520281791687,
      "learning_rate": 7.424750495762577e-06,
      "loss": 1.4769,
      "step": 83772
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6651298999786377,
      "learning_rate": 7.422439696071248e-06,
      "loss": 1.4896,
      "step": 83773
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6866949200630188,
      "learning_rate": 7.42012925152593e-06,
      "loss": 1.5403,
      "step": 83774
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6743908524513245,
      "learning_rate": 7.41781916212949e-06,
      "loss": 1.5095,
      "step": 83775
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6651512980461121,
      "learning_rate": 7.415509427884725e-06,
      "loss": 1.52,
      "step": 83776
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.690876841545105,
      "learning_rate": 7.413200048794432e-06,
      "loss": 1.5008,
      "step": 83777
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6843941807746887,
      "learning_rate": 7.410891024861343e-06,
      "loss": 1.5114,
      "step": 83778
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6712956428527832,
      "learning_rate": 7.408582356088388e-06,
      "loss": 1.4793,
      "step": 83779
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6624714136123657,
      "learning_rate": 7.406274042478299e-06,
      "loss": 1.4782,
      "step": 83780
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.68809974193573,
      "learning_rate": 7.4039660840338415e-06,
      "loss": 1.566,
      "step": 83781
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6951008439064026,
      "learning_rate": 7.401658480757877e-06,
      "loss": 1.5907,
      "step": 83782
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6838997006416321,
      "learning_rate": 7.3993512326531725e-06,
      "loss": 1.4864,
      "step": 83783
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6777228116989136,
      "learning_rate": 7.397044339722558e-06,
      "loss": 1.5327,
      "step": 83784
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6844335198402405,
      "learning_rate": 7.394737801968797e-06,
      "loss": 1.4954,
      "step": 83785
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6815416812896729,
      "learning_rate": 7.3924316193947235e-06,
      "loss": 1.4771,
      "step": 83786
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6714909076690674,
      "learning_rate": 7.3901257920031655e-06,
      "loss": 1.4795,
      "step": 83787
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.67861008644104,
      "learning_rate": 7.387820319796822e-06,
      "loss": 1.5123,
      "step": 83788
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6828266978263855,
      "learning_rate": 7.3855152027785916e-06,
      "loss": 1.5262,
      "step": 83789
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.684180736541748,
      "learning_rate": 7.38321044095117e-06,
      "loss": 1.4839,
      "step": 83790
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6547676920890808,
      "learning_rate": 7.380906034317491e-06,
      "loss": 1.5693,
      "step": 83791
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6742849349975586,
      "learning_rate": 7.37860198288025e-06,
      "loss": 1.5902,
      "step": 83792
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7531599998474121,
      "learning_rate": 7.376298286642246e-06,
      "loss": 1.5285,
      "step": 83793
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6957754492759705,
      "learning_rate": 7.373994945606309e-06,
      "loss": 1.5513,
      "step": 83794
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.67238849401474,
      "learning_rate": 7.371691959775239e-06,
      "loss": 1.4697,
      "step": 83795
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7060011625289917,
      "learning_rate": 7.369389329151831e-06,
      "loss": 1.5343,
      "step": 83796
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6702439188957214,
      "learning_rate": 7.367087053738818e-06,
      "loss": 1.5072,
      "step": 83797
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7111542820930481,
      "learning_rate": 7.364785133539097e-06,
      "loss": 1.4658,
      "step": 83798
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6628125309944153,
      "learning_rate": 7.3624835685553994e-06,
      "loss": 1.558,
      "step": 83799
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6747940182685852,
      "learning_rate": 7.360182358790489e-06,
      "loss": 1.5015,
      "step": 83800
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6675336360931396,
      "learning_rate": 7.357881504247231e-06,
      "loss": 1.5042,
      "step": 83801
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6622276306152344,
      "learning_rate": 7.355581004928424e-06,
      "loss": 1.4726,
      "step": 83802
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6698452234268188,
      "learning_rate": 7.3532808608367635e-06,
      "loss": 1.4716,
      "step": 83803
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7004837393760681,
      "learning_rate": 7.3509810719750815e-06,
      "loss": 1.5416,
      "step": 83804
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6605111956596375,
      "learning_rate": 7.3486816383462435e-06,
      "loss": 1.4596,
      "step": 83805
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6879515647888184,
      "learning_rate": 7.3463825599529794e-06,
      "loss": 1.4872,
      "step": 83806
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7020422220230103,
      "learning_rate": 7.344083836798054e-06,
      "loss": 1.5459,
      "step": 83807
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6766808032989502,
      "learning_rate": 7.341785468884331e-06,
      "loss": 1.5024,
      "step": 83808
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6742991209030151,
      "learning_rate": 7.339487456214543e-06,
      "loss": 1.5358,
      "step": 83809
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7033240795135498,
      "learning_rate": 7.337189798791487e-06,
      "loss": 1.5847,
      "step": 83810
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7004572749137878,
      "learning_rate": 7.334892496617928e-06,
      "loss": 1.508,
      "step": 83811
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6852617263793945,
      "learning_rate": 7.332595549696729e-06,
      "loss": 1.5185,
      "step": 83812
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6850619316101074,
      "learning_rate": 7.3302989580306556e-06,
      "loss": 1.5255,
      "step": 83813
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.687961220741272,
      "learning_rate": 7.328002721622439e-06,
      "loss": 1.4901,
      "step": 83814
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6639634966850281,
      "learning_rate": 7.325706840474943e-06,
      "loss": 1.5652,
      "step": 83815
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6789855360984802,
      "learning_rate": 7.323411314590899e-06,
      "loss": 1.5291,
      "step": 83816
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6702319979667664,
      "learning_rate": 7.321116143973071e-06,
      "loss": 1.5585,
      "step": 83817
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6533443927764893,
      "learning_rate": 7.318821328624292e-06,
      "loss": 1.4327,
      "step": 83818
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6822400093078613,
      "learning_rate": 7.31652686854739e-06,
      "loss": 1.5504,
      "step": 83819
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6881753206253052,
      "learning_rate": 7.314232763745065e-06,
      "loss": 1.4862,
      "step": 83820
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7057428956031799,
      "learning_rate": 7.311939014220114e-06,
      "loss": 1.4853,
      "step": 83821
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6834040284156799,
      "learning_rate": 7.3096456199754015e-06,
      "loss": 1.4622,
      "step": 83822
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6761661171913147,
      "learning_rate": 7.307352581013626e-06,
      "loss": 1.4353,
      "step": 83823
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6871760487556458,
      "learning_rate": 7.305059897337584e-06,
      "loss": 1.4729,
      "step": 83824
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6800612807273865,
      "learning_rate": 7.302767568950074e-06,
      "loss": 1.501,
      "step": 83825
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6629306674003601,
      "learning_rate": 7.300475595853894e-06,
      "loss": 1.482,
      "step": 83826
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6693363785743713,
      "learning_rate": 7.298183978051808e-06,
      "loss": 1.515,
      "step": 83827
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6814550161361694,
      "learning_rate": 7.295892715546581e-06,
      "loss": 1.4346,
      "step": 83828
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6749127507209778,
      "learning_rate": 7.293601808341043e-06,
      "loss": 1.4123,
      "step": 83829
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6676350831985474,
      "learning_rate": 7.291311256437926e-06,
      "loss": 1.5231,
      "step": 83830
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.684268593788147,
      "learning_rate": 7.289021059840027e-06,
      "loss": 1.4707,
      "step": 83831
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6900477409362793,
      "learning_rate": 7.286731218550113e-06,
      "loss": 1.5564,
      "step": 83832
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6731753349304199,
      "learning_rate": 7.284441732570978e-06,
      "loss": 1.4242,
      "step": 83833
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6589034795761108,
      "learning_rate": 7.282152601905455e-06,
      "loss": 1.5124,
      "step": 83834
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6825263500213623,
      "learning_rate": 7.2798638265562095e-06,
      "loss": 1.5104,
      "step": 83835
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.707586944103241,
      "learning_rate": 7.2775754065261035e-06,
      "loss": 1.5823,
      "step": 83836
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6920236349105835,
      "learning_rate": 7.275287341817904e-06,
      "loss": 1.4908,
      "step": 83837
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.66478431224823,
      "learning_rate": 7.27299963243434e-06,
      "loss": 1.5812,
      "step": 83838
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6808757185935974,
      "learning_rate": 7.270712278378244e-06,
      "loss": 1.4558,
      "step": 83839
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.678536593914032,
      "learning_rate": 7.2684252796523454e-06,
      "loss": 1.5493,
      "step": 83840
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6938582062721252,
      "learning_rate": 7.266138636259477e-06,
      "loss": 1.5227,
      "step": 83841
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6748071312904358,
      "learning_rate": 7.263852348202404e-06,
      "loss": 1.5886,
      "step": 83842
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6847740411758423,
      "learning_rate": 7.261566415483855e-06,
      "loss": 1.5322,
      "step": 83843
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.680554986000061,
      "learning_rate": 7.259280838106629e-06,
      "loss": 1.5384,
      "step": 83844
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6959161758422852,
      "learning_rate": 7.256995616073491e-06,
      "loss": 1.5181,
      "step": 83845
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6711559891700745,
      "learning_rate": 7.254710749387238e-06,
      "loss": 1.5052,
      "step": 83846
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.661155641078949,
      "learning_rate": 7.252426238050635e-06,
      "loss": 1.4598,
      "step": 83847
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7210162281990051,
      "learning_rate": 7.250142082066446e-06,
      "loss": 1.5553,
      "step": 83848
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6920970678329468,
      "learning_rate": 7.247858281437468e-06,
      "loss": 1.5686,
      "step": 83849
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6917082667350769,
      "learning_rate": 7.245574836166435e-06,
      "loss": 1.5687,
      "step": 83850
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6697454452514648,
      "learning_rate": 7.243291746256141e-06,
      "loss": 1.5431,
      "step": 83851
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6844074130058289,
      "learning_rate": 7.241009011709386e-06,
      "loss": 1.4318,
      "step": 83852
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6716130971908569,
      "learning_rate": 7.238726632528869e-06,
      "loss": 1.5015,
      "step": 83853
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6849780082702637,
      "learning_rate": 7.236444608717384e-06,
      "loss": 1.5602,
      "step": 83854
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6784698367118835,
      "learning_rate": 7.234162940277766e-06,
      "loss": 1.5648,
      "step": 83855
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.669288694858551,
      "learning_rate": 7.231881627212743e-06,
      "loss": 1.5296,
      "step": 83856
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6775850653648376,
      "learning_rate": 7.229600669525049e-06,
      "loss": 1.5408,
      "step": 83857
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7219582796096802,
      "learning_rate": 7.2273200672175124e-06,
      "loss": 1.5057,
      "step": 83858
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6603111028671265,
      "learning_rate": 7.225039820292833e-06,
      "loss": 1.5293,
      "step": 83859
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7089918851852417,
      "learning_rate": 7.222759928753841e-06,
      "loss": 1.4888,
      "step": 83860
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.703984260559082,
      "learning_rate": 7.220480392603234e-06,
      "loss": 1.5732,
      "step": 83861
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7368607521057129,
      "learning_rate": 7.218201211843877e-06,
      "loss": 1.4785,
      "step": 83862
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6747427582740784,
      "learning_rate": 7.215922386478501e-06,
      "loss": 1.4986,
      "step": 83863
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7297030687332153,
      "learning_rate": 7.213643916509804e-06,
      "loss": 1.5875,
      "step": 83864
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6744642853736877,
      "learning_rate": 7.21136580194065e-06,
      "loss": 1.5594,
      "step": 83865
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7006886005401611,
      "learning_rate": 7.209088042773736e-06,
      "loss": 1.4764,
      "step": 83866
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6916472315788269,
      "learning_rate": 7.206810639011828e-06,
      "loss": 1.5106,
      "step": 83867
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7158384323120117,
      "learning_rate": 7.204533590657691e-06,
      "loss": 1.5215,
      "step": 83868
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6669994592666626,
      "learning_rate": 7.202256897714187e-06,
      "loss": 1.5092,
      "step": 83869
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6789276599884033,
      "learning_rate": 7.199980560183949e-06,
      "loss": 1.4593,
      "step": 83870
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.694000780582428,
      "learning_rate": 7.197704578069774e-06,
      "loss": 1.4115,
      "step": 83871
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6974575519561768,
      "learning_rate": 7.195428951374493e-06,
      "loss": 1.5053,
      "step": 83872
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.693763792514801,
      "learning_rate": 7.193153680100805e-06,
      "loss": 1.5273,
      "step": 83873
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6563557386398315,
      "learning_rate": 7.190878764251473e-06,
      "loss": 1.4757,
      "step": 83874
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.666968047618866,
      "learning_rate": 7.188604203829262e-06,
      "loss": 1.5389,
      "step": 83875
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6848466396331787,
      "learning_rate": 7.186329998837004e-06,
      "loss": 1.4826,
      "step": 83876
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6992903351783752,
      "learning_rate": 7.184056149277328e-06,
      "loss": 1.5405,
      "step": 83877
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6912459135055542,
      "learning_rate": 7.181782655153068e-06,
      "loss": 1.5501,
      "step": 83878
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7367079854011536,
      "learning_rate": 7.179509516466986e-06,
      "loss": 1.5808,
      "step": 83879
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6622271537780762,
      "learning_rate": 7.177236733221881e-06,
      "loss": 1.4899,
      "step": 83880
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6861831545829773,
      "learning_rate": 7.174964305420417e-06,
      "loss": 1.5419,
      "step": 83881
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6973550915718079,
      "learning_rate": 7.172692233065391e-06,
      "loss": 1.4557,
      "step": 83882
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6784582734107971,
      "learning_rate": 7.1704205161596025e-06,
      "loss": 1.4934,
      "step": 83883
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6778529286384583,
      "learning_rate": 7.168149154705749e-06,
      "loss": 1.5522,
      "step": 83884
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6734510064125061,
      "learning_rate": 7.165878148706627e-06,
      "loss": 1.4912,
      "step": 83885
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6689997911453247,
      "learning_rate": 7.163607498165003e-06,
      "loss": 1.5823,
      "step": 83886
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6779164671897888,
      "learning_rate": 7.1613372030836054e-06,
      "loss": 1.5517,
      "step": 83887
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6615445613861084,
      "learning_rate": 7.159067263465168e-06,
      "loss": 1.4846,
      "step": 83888
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6892284154891968,
      "learning_rate": 7.15679767931252e-06,
      "loss": 1.5692,
      "step": 83889
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6418789625167847,
      "learning_rate": 7.154528450628361e-06,
      "loss": 1.4804,
      "step": 83890
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6836938858032227,
      "learning_rate": 7.15225957741542e-06,
      "loss": 1.5682,
      "step": 83891
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.697442889213562,
      "learning_rate": 7.1499910596764964e-06,
      "loss": 1.5591,
      "step": 83892
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6606199741363525,
      "learning_rate": 7.147722897414354e-06,
      "loss": 1.506,
      "step": 83893
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6771957874298096,
      "learning_rate": 7.145455090631724e-06,
      "loss": 1.467,
      "step": 83894
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6845816969871521,
      "learning_rate": 7.143187639331338e-06,
      "loss": 1.4784,
      "step": 83895
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7307431101799011,
      "learning_rate": 7.140920543515993e-06,
      "loss": 1.5643,
      "step": 83896
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6666871905326843,
      "learning_rate": 7.138653803188421e-06,
      "loss": 1.5187,
      "step": 83897
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6623082160949707,
      "learning_rate": 7.1363874183513525e-06,
      "loss": 1.5228,
      "step": 83898
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6973119378089905,
      "learning_rate": 7.134121389007586e-06,
      "loss": 1.5066,
      "step": 83899
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6689956188201904,
      "learning_rate": 7.131855715159818e-06,
      "loss": 1.4714,
      "step": 83900
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.67378830909729,
      "learning_rate": 7.129590396810847e-06,
      "loss": 1.5262,
      "step": 83901
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6744346022605896,
      "learning_rate": 7.127325433963371e-06,
      "loss": 1.5508,
      "step": 83902
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6717354655265808,
      "learning_rate": 7.125060826620221e-06,
      "loss": 1.548,
      "step": 83903
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6663705110549927,
      "learning_rate": 7.122796574784062e-06,
      "loss": 1.5019,
      "step": 83904
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6635512113571167,
      "learning_rate": 7.120532678457658e-06,
      "loss": 1.5382,
      "step": 83905
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.661180317401886,
      "learning_rate": 7.118269137643806e-06,
      "loss": 1.4912,
      "step": 83906
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6866014003753662,
      "learning_rate": 7.1160059523451716e-06,
      "loss": 1.5533,
      "step": 83907
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6642480492591858,
      "learning_rate": 7.113743122564619e-06,
      "loss": 1.4908,
      "step": 83908
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.706288754940033,
      "learning_rate": 7.111480648304813e-06,
      "loss": 1.5348,
      "step": 83909
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6743606328964233,
      "learning_rate": 7.10921852956845e-06,
      "loss": 1.4845,
      "step": 83910
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6698353886604309,
      "learning_rate": 7.10695676635843e-06,
      "loss": 1.4568,
      "step": 83911
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6960959434509277,
      "learning_rate": 7.104695358677348e-06,
      "loss": 1.5047,
      "step": 83912
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6838384866714478,
      "learning_rate": 7.1024343065280375e-06,
      "loss": 1.5145,
      "step": 83913
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6794165372848511,
      "learning_rate": 7.100173609913162e-06,
      "loss": 1.5357,
      "step": 83914
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6699436902999878,
      "learning_rate": 7.097913268835587e-06,
      "loss": 1.4544,
      "step": 83915
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6731058955192566,
      "learning_rate": 7.095653283297975e-06,
      "loss": 1.4878,
      "step": 83916
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.680419385433197,
      "learning_rate": 7.0933936533030585e-06,
      "loss": 1.4937,
      "step": 83917
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6981717348098755,
      "learning_rate": 7.091134378853602e-06,
      "loss": 1.5928,
      "step": 83918
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6709480285644531,
      "learning_rate": 7.088875459952403e-06,
      "loss": 1.4871,
      "step": 83919
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6714615821838379,
      "learning_rate": 7.086616896602093e-06,
      "loss": 1.553,
      "step": 83920
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6756911277770996,
      "learning_rate": 7.084358688805469e-06,
      "loss": 1.4586,
      "step": 83921
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6639729142189026,
      "learning_rate": 7.082100836565297e-06,
      "loss": 1.4941,
      "step": 83922
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6613441705703735,
      "learning_rate": 7.079843339884306e-06,
      "loss": 1.4498,
      "step": 83923
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.75969398021698,
      "learning_rate": 7.077586198765195e-06,
      "loss": 1.4951,
      "step": 83924
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.667119562625885,
      "learning_rate": 7.075329413210762e-06,
      "loss": 1.4318,
      "step": 83925
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6916764974594116,
      "learning_rate": 7.073072983223738e-06,
      "loss": 1.5484,
      "step": 83926
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6683051586151123,
      "learning_rate": 7.070816908806787e-06,
      "loss": 1.4813,
      "step": 83927
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6796116232872009,
      "learning_rate": 7.068561189962707e-06,
      "loss": 1.5216,
      "step": 83928
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6804254651069641,
      "learning_rate": 7.066305826694263e-06,
      "loss": 1.5719,
      "step": 83929
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7131103277206421,
      "learning_rate": 7.0640508190041855e-06,
      "loss": 1.5406,
      "step": 83930
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6856911778450012,
      "learning_rate": 7.06179616689514e-06,
      "loss": 1.5083,
      "step": 83931
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6543292999267578,
      "learning_rate": 7.0595418703699226e-06,
      "loss": 1.4459,
      "step": 83932
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6813271045684814,
      "learning_rate": 7.057287929431299e-06,
      "loss": 1.519,
      "step": 83933
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6713501811027527,
      "learning_rate": 7.0550343440819e-06,
      "loss": 1.4885,
      "step": 83934
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6768383383750916,
      "learning_rate": 7.052781114324557e-06,
      "loss": 1.4318,
      "step": 83935
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.694346010684967,
      "learning_rate": 7.0505282401619676e-06,
      "loss": 1.4969,
      "step": 83936
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.657056987285614,
      "learning_rate": 7.048275721596897e-06,
      "loss": 1.4557,
      "step": 83937
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7038223147392273,
      "learning_rate": 7.046023558632008e-06,
      "loss": 1.4546,
      "step": 83938
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6849953532218933,
      "learning_rate": 7.043771751270133e-06,
      "loss": 1.5289,
      "step": 83939
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7062969207763672,
      "learning_rate": 7.041520299513937e-06,
      "loss": 1.5745,
      "step": 83940
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6663491129875183,
      "learning_rate": 7.039269203366149e-06,
      "loss": 1.4914,
      "step": 83941
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6812263131141663,
      "learning_rate": 7.037018462829536e-06,
      "loss": 1.5904,
      "step": 83942
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7148554921150208,
      "learning_rate": 7.034768077906827e-06,
      "loss": 1.5618,
      "step": 83943
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6548861265182495,
      "learning_rate": 7.032518048600722e-06,
      "loss": 1.473,
      "step": 83944
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6868702173233032,
      "learning_rate": 7.030268374913983e-06,
      "loss": 1.509,
      "step": 83945
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7082555294036865,
      "learning_rate": 7.028019056849344e-06,
      "loss": 1.5054,
      "step": 83946
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.671188473701477,
      "learning_rate": 7.025770094409533e-06,
      "loss": 1.4688,
      "step": 83947
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6588650345802307,
      "learning_rate": 7.023521487597217e-06,
      "loss": 1.5163,
      "step": 83948
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6759150624275208,
      "learning_rate": 7.021273236415226e-06,
      "loss": 1.4934,
      "step": 83949
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6736258268356323,
      "learning_rate": 7.019025340866224e-06,
      "loss": 1.4617,
      "step": 83950
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6984174251556396,
      "learning_rate": 7.016777800952944e-06,
      "loss": 1.4708,
      "step": 83951
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7095595598220825,
      "learning_rate": 7.014530616678149e-06,
      "loss": 1.5444,
      "step": 83952
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6962723135948181,
      "learning_rate": 7.012283788044537e-06,
      "loss": 1.5652,
      "step": 83953
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6638166308403015,
      "learning_rate": 7.010037315054839e-06,
      "loss": 1.4249,
      "step": 83954
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6775474548339844,
      "learning_rate": 7.007791197711787e-06,
      "loss": 1.5058,
      "step": 83955
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6960659027099609,
      "learning_rate": 7.0055454360181114e-06,
      "loss": 1.5541,
      "step": 83956
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6770275235176086,
      "learning_rate": 7.003300029976511e-06,
      "loss": 1.5193,
      "step": 83957
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6799850463867188,
      "learning_rate": 7.001054979589748e-06,
      "loss": 1.4827,
      "step": 83958
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6686758399009705,
      "learning_rate": 6.998810284860556e-06,
      "loss": 1.5766,
      "step": 83959
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6580764651298523,
      "learning_rate": 6.996565945791599e-06,
      "loss": 1.463,
      "step": 83960
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6767055988311768,
      "learning_rate": 6.9943219623856735e-06,
      "loss": 1.4704,
      "step": 83961
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6750577688217163,
      "learning_rate": 6.992078334645446e-06,
      "loss": 1.5177,
      "step": 83962
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7161409854888916,
      "learning_rate": 6.989835062573678e-06,
      "loss": 1.5144,
      "step": 83963
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7009366154670715,
      "learning_rate": 6.987592146173038e-06,
      "loss": 1.5496,
      "step": 83964
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6487125158309937,
      "learning_rate": 6.985349585446321e-06,
      "loss": 1.4616,
      "step": 83965
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6768578886985779,
      "learning_rate": 6.983107380396224e-06,
      "loss": 1.5334,
      "step": 83966
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6942799687385559,
      "learning_rate": 6.980865531025448e-06,
      "loss": 1.4845,
      "step": 83967
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6726593375205994,
      "learning_rate": 6.978624037336722e-06,
      "loss": 1.5019,
      "step": 83968
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.65326327085495,
      "learning_rate": 6.976382899332811e-06,
      "loss": 1.5339,
      "step": 83969
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7193094491958618,
      "learning_rate": 6.974142117016346e-06,
      "loss": 1.5676,
      "step": 83970
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.688723623752594,
      "learning_rate": 6.971901690390092e-06,
      "loss": 1.4997,
      "step": 83971
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6830605268478394,
      "learning_rate": 6.969661619456812e-06,
      "loss": 1.4606,
      "step": 83972
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6873212456703186,
      "learning_rate": 6.9674219042191726e-06,
      "loss": 1.5316,
      "step": 83973
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6736484169960022,
      "learning_rate": 6.965182544679904e-06,
      "loss": 1.521,
      "step": 83974
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6830046772956848,
      "learning_rate": 6.962943540841736e-06,
      "loss": 1.4458,
      "step": 83975
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6699891090393066,
      "learning_rate": 6.9607048927073696e-06,
      "loss": 1.5486,
      "step": 83976
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.684890866279602,
      "learning_rate": 6.9584666002795e-06,
      "loss": 1.4901,
      "step": 83977
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6691382527351379,
      "learning_rate": 6.956228663560892e-06,
      "loss": 1.4999,
      "step": 83978
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6913400292396545,
      "learning_rate": 6.953991082554311e-06,
      "loss": 1.562,
      "step": 83979
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6862216591835022,
      "learning_rate": 6.951753857262321e-06,
      "loss": 1.4769,
      "step": 83980
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6896846890449524,
      "learning_rate": 6.9495169876877535e-06,
      "loss": 1.5225,
      "step": 83981
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6824244260787964,
      "learning_rate": 6.947280473833305e-06,
      "loss": 1.577,
      "step": 83982
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7212335467338562,
      "learning_rate": 6.945044315701676e-06,
      "loss": 1.5055,
      "step": 83983
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.696603000164032,
      "learning_rate": 6.942808513295562e-06,
      "loss": 1.4743,
      "step": 83984
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.692343533039093,
      "learning_rate": 6.940573066617694e-06,
      "loss": 1.4691,
      "step": 83985
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6768636703491211,
      "learning_rate": 6.938337975670838e-06,
      "loss": 1.5676,
      "step": 83986
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7111834287643433,
      "learning_rate": 6.936103240457624e-06,
      "loss": 1.4749,
      "step": 83987
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6815633177757263,
      "learning_rate": 6.9338688609807844e-06,
      "loss": 1.4853,
      "step": 83988
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6547280550003052,
      "learning_rate": 6.931634837243083e-06,
      "loss": 1.5165,
      "step": 83989
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6788215041160583,
      "learning_rate": 6.929401169247184e-06,
      "loss": 1.5043,
      "step": 83990
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6677471995353699,
      "learning_rate": 6.927167856995785e-06,
      "loss": 1.4593,
      "step": 83991
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6836572289466858,
      "learning_rate": 6.924934900491619e-06,
      "loss": 1.5324,
      "step": 83992
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6881904006004333,
      "learning_rate": 6.922702299737448e-06,
      "loss": 1.4965,
      "step": 83993
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7001837491989136,
      "learning_rate": 6.920470054735905e-06,
      "loss": 1.5391,
      "step": 83994
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7049090266227722,
      "learning_rate": 6.91823816548972e-06,
      "loss": 1.5071,
      "step": 83995
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6618407368659973,
      "learning_rate": 6.916006632001625e-06,
      "loss": 1.4868,
      "step": 83996
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6902313828468323,
      "learning_rate": 6.9137754542743174e-06,
      "loss": 1.5918,
      "step": 83997
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6718032360076904,
      "learning_rate": 6.911544632310495e-06,
      "loss": 1.5217,
      "step": 83998
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6674086451530457,
      "learning_rate": 6.909314166112856e-06,
      "loss": 1.5155,
      "step": 83999
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6697484254837036,
      "learning_rate": 6.907084055684164e-06,
      "loss": 1.4812,
      "step": 84000
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6738563179969788,
      "learning_rate": 6.9048543010270516e-06,
      "loss": 1.5078,
      "step": 84001
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6801311373710632,
      "learning_rate": 6.902624902144249e-06,
      "loss": 1.4572,
      "step": 84002
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6797486543655396,
      "learning_rate": 6.900395859038521e-06,
      "loss": 1.5116,
      "step": 84003
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.7152448892593384,
      "learning_rate": 6.898167171712532e-06,
      "loss": 1.4366,
      "step": 84004
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6895588040351868,
      "learning_rate": 6.895938840168913e-06,
      "loss": 1.5035,
      "step": 84005
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6696009635925293,
      "learning_rate": 6.893710864410495e-06,
      "loss": 1.5228,
      "step": 84006
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.692743718624115,
      "learning_rate": 6.891483244439911e-06,
      "loss": 1.4701,
      "step": 84007
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6544619798660278,
      "learning_rate": 6.889255980259889e-06,
      "loss": 1.4471,
      "step": 84008
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.663403332233429,
      "learning_rate": 6.887029071873063e-06,
      "loss": 1.427,
      "step": 84009
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6599904298782349,
      "learning_rate": 6.884802519282262e-06,
      "loss": 1.4504,
      "step": 84010
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6921975016593933,
      "learning_rate": 6.882576322490119e-06,
      "loss": 1.5667,
      "step": 84011
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6657844185829163,
      "learning_rate": 6.880350481499297e-06,
      "loss": 1.5022,
      "step": 84012
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6712568998336792,
      "learning_rate": 6.878124996312595e-06,
      "loss": 1.4569,
      "step": 84013
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6781417727470398,
      "learning_rate": 6.875899866932644e-06,
      "loss": 1.5102,
      "step": 84014
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6746543645858765,
      "learning_rate": 6.8736750933621075e-06,
      "loss": 1.4653,
      "step": 84015
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6837027668952942,
      "learning_rate": 6.871450675603785e-06,
      "loss": 1.5,
      "step": 84016
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6872732639312744,
      "learning_rate": 6.8692266136603055e-06,
      "loss": 1.4957,
      "step": 84017
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6685490012168884,
      "learning_rate": 6.8670029075344356e-06,
      "loss": 1.4631,
      "step": 84018
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.700072169303894,
      "learning_rate": 6.864779557228806e-06,
      "loss": 1.4795,
      "step": 84019
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.700145959854126,
      "learning_rate": 6.862556562746146e-06,
      "loss": 1.5626,
      "step": 84020
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6967080235481262,
      "learning_rate": 6.860333924089156e-06,
      "loss": 1.5667,
      "step": 84021
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6814666986465454,
      "learning_rate": 6.858111641260533e-06,
      "loss": 1.4912,
      "step": 84022
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.663847029209137,
      "learning_rate": 6.8558897142629745e-06,
      "loss": 1.4693,
      "step": 84023
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6874635815620422,
      "learning_rate": 6.853668143099145e-06,
      "loss": 1.5141,
      "step": 84024
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6585798859596252,
      "learning_rate": 6.851446927771776e-06,
      "loss": 1.4566,
      "step": 84025
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7160319089889526,
      "learning_rate": 6.849226068283564e-06,
      "loss": 1.5468,
      "step": 84026
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6735738515853882,
      "learning_rate": 6.8470055646372094e-06,
      "loss": 1.4848,
      "step": 84027
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6888841390609741,
      "learning_rate": 6.844785416835374e-06,
      "loss": 1.5563,
      "step": 84028
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6766128540039062,
      "learning_rate": 6.842565624880792e-06,
      "loss": 1.5629,
      "step": 84029
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.692746102809906,
      "learning_rate": 6.840346188776124e-06,
      "loss": 1.5021,
      "step": 84030
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6809211373329163,
      "learning_rate": 6.8381271085240714e-06,
      "loss": 1.5214,
      "step": 84031
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6757427453994751,
      "learning_rate": 6.835908384127398e-06,
      "loss": 1.4744,
      "step": 84032
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6785607933998108,
      "learning_rate": 6.8336900155887e-06,
      "loss": 1.5121,
      "step": 84033
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6668840646743774,
      "learning_rate": 6.831472002910676e-06,
      "loss": 1.5079,
      "step": 84034
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6698772311210632,
      "learning_rate": 6.829254346096091e-06,
      "loss": 1.4304,
      "step": 84035
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6648054718971252,
      "learning_rate": 6.8270370451475765e-06,
      "loss": 1.5,
      "step": 84036
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.669282853603363,
      "learning_rate": 6.8248201000678295e-06,
      "loss": 1.529,
      "step": 84037
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6925736665725708,
      "learning_rate": 6.822603510859548e-06,
      "loss": 1.4871,
      "step": 84038
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6645662784576416,
      "learning_rate": 6.820387277525463e-06,
      "loss": 1.3871,
      "step": 84039
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6698762774467468,
      "learning_rate": 6.818171400068239e-06,
      "loss": 1.5633,
      "step": 84040
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.691071629524231,
      "learning_rate": 6.815955878490509e-06,
      "loss": 1.5588,
      "step": 84041
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6714909076690674,
      "learning_rate": 6.813740712795035e-06,
      "loss": 1.5385,
      "step": 84042
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.688912570476532,
      "learning_rate": 6.811525902984516e-06,
      "loss": 1.4983,
      "step": 84043
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.717019259929657,
      "learning_rate": 6.809311449061549e-06,
      "loss": 1.503,
      "step": 84044
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6590760350227356,
      "learning_rate": 6.8070973510288676e-06,
      "loss": 1.4873,
      "step": 84045
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.700950026512146,
      "learning_rate": 6.8048836088892e-06,
      "loss": 1.5894,
      "step": 84046
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6675547957420349,
      "learning_rate": 6.802670222645212e-06,
      "loss": 1.4877,
      "step": 84047
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6816325187683105,
      "learning_rate": 6.8004571922995685e-06,
      "loss": 1.4653,
      "step": 84048
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6585009694099426,
      "learning_rate": 6.798244517855e-06,
      "loss": 1.4598,
      "step": 84049
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6777007579803467,
      "learning_rate": 6.7960321993141385e-06,
      "loss": 1.5027,
      "step": 84050
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6795641183853149,
      "learning_rate": 6.7938202366796815e-06,
      "loss": 1.4727,
      "step": 84051
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6859414577484131,
      "learning_rate": 6.791608629954293e-06,
      "loss": 1.6117,
      "step": 84052
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.71025550365448,
      "learning_rate": 6.7893973791407376e-06,
      "loss": 1.5479,
      "step": 84053
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6894318461418152,
      "learning_rate": 6.78718648424168e-06,
      "loss": 1.5208,
      "step": 84054
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6739067435264587,
      "learning_rate": 6.784975945259719e-06,
      "loss": 1.5144,
      "step": 84055
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6810206174850464,
      "learning_rate": 6.782765762197618e-06,
      "loss": 1.4568,
      "step": 84056
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6637398600578308,
      "learning_rate": 6.780555935058041e-06,
      "loss": 1.498,
      "step": 84057
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6965216398239136,
      "learning_rate": 6.77834646384362e-06,
      "loss": 1.4951,
      "step": 84058
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7049488425254822,
      "learning_rate": 6.7761373485571204e-06,
      "loss": 1.5823,
      "step": 84059
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6873207688331604,
      "learning_rate": 6.773928589201172e-06,
      "loss": 1.5125,
      "step": 84060
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.682759165763855,
      "learning_rate": 6.771720185778506e-06,
      "loss": 1.5264,
      "step": 84061
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7023784518241882,
      "learning_rate": 6.7695121382917215e-06,
      "loss": 1.5406,
      "step": 84062
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6859930157661438,
      "learning_rate": 6.767304446743582e-06,
      "loss": 1.4539,
      "step": 84063
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6497874855995178,
      "learning_rate": 6.765097111136719e-06,
      "loss": 1.5057,
      "step": 84064
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6883954405784607,
      "learning_rate": 6.762890131473797e-06,
      "loss": 1.5021,
      "step": 84065
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6918679475784302,
      "learning_rate": 6.760683507757547e-06,
      "loss": 1.5581,
      "step": 84066
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6866550445556641,
      "learning_rate": 6.758477239990568e-06,
      "loss": 1.5535,
      "step": 84067
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6775098443031311,
      "learning_rate": 6.756271328175655e-06,
      "loss": 1.5519,
      "step": 84068
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6844836473464966,
      "learning_rate": 6.754065772315376e-06,
      "loss": 1.4978,
      "step": 84069
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6777419447898865,
      "learning_rate": 6.751860572412493e-06,
      "loss": 1.4538,
      "step": 84070
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6804512739181519,
      "learning_rate": 6.7496557284696385e-06,
      "loss": 1.4833,
      "step": 84071
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6696974635124207,
      "learning_rate": 6.747451240489476e-06,
      "loss": 1.5115,
      "step": 84072
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.677544891834259,
      "learning_rate": 6.745247108474705e-06,
      "loss": 1.4747,
      "step": 84073
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6635035872459412,
      "learning_rate": 6.7430433324279555e-06,
      "loss": 1.5151,
      "step": 84074
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6677313446998596,
      "learning_rate": 6.740839912351992e-06,
      "loss": 1.5297,
      "step": 84075
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6452111601829529,
      "learning_rate": 6.738636848249446e-06,
      "loss": 1.4567,
      "step": 84076
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6746429204940796,
      "learning_rate": 6.736434140122948e-06,
      "loss": 1.47,
      "step": 84077
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6860144138336182,
      "learning_rate": 6.734231787975231e-06,
      "loss": 1.505,
      "step": 84078
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6768224835395813,
      "learning_rate": 6.7320297918089235e-06,
      "loss": 1.4601,
      "step": 84079
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7080934643745422,
      "learning_rate": 6.729828151626759e-06,
      "loss": 1.4576,
      "step": 84080
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6734111905097961,
      "learning_rate": 6.727626867431335e-06,
      "loss": 1.4948,
      "step": 84081
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6872504949569702,
      "learning_rate": 6.725425939225382e-06,
      "loss": 1.5139,
      "step": 84082
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6774311065673828,
      "learning_rate": 6.723225367011564e-06,
      "loss": 1.4422,
      "step": 84083
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6531730890274048,
      "learning_rate": 6.721025150792514e-06,
      "loss": 1.5027,
      "step": 84084
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6612558960914612,
      "learning_rate": 6.718825290570928e-06,
      "loss": 1.4993,
      "step": 84085
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6696872115135193,
      "learning_rate": 6.716625786349506e-06,
      "loss": 1.4776,
      "step": 84086
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6731809973716736,
      "learning_rate": 6.714426638130843e-06,
      "loss": 1.4889,
      "step": 84087
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6823191046714783,
      "learning_rate": 6.712227845917639e-06,
      "loss": 1.6121,
      "step": 84088
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7082317471504211,
      "learning_rate": 6.710029409712625e-06,
      "loss": 1.4435,
      "step": 84089
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7035908102989197,
      "learning_rate": 6.7078313295183986e-06,
      "loss": 1.4725,
      "step": 84090
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7084661722183228,
      "learning_rate": 6.705633605337657e-06,
      "loss": 1.4926,
      "step": 84091
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6855475902557373,
      "learning_rate": 6.703436237173065e-06,
      "loss": 1.5654,
      "step": 84092
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6853460073471069,
      "learning_rate": 6.701239225027289e-06,
      "loss": 1.5047,
      "step": 84093
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6778225302696228,
      "learning_rate": 6.699042568902957e-06,
      "loss": 1.4562,
      "step": 84094
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6621826887130737,
      "learning_rate": 6.696846268802802e-06,
      "loss": 1.514,
      "step": 84095
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6821541786193848,
      "learning_rate": 6.694650324729489e-06,
      "loss": 1.5366,
      "step": 84096
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6714025139808655,
      "learning_rate": 6.692454736685582e-06,
      "loss": 1.5883,
      "step": 84097
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7184576392173767,
      "learning_rate": 6.690259504673845e-06,
      "loss": 1.5204,
      "step": 84098
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6634349226951599,
      "learning_rate": 6.688064628696943e-06,
      "loss": 1.5768,
      "step": 84099
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6680988073348999,
      "learning_rate": 6.685870108757507e-06,
      "loss": 1.5193,
      "step": 84100
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6894766688346863,
      "learning_rate": 6.683675944858169e-06,
      "loss": 1.6158,
      "step": 84101
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6734151840209961,
      "learning_rate": 6.6814821370016596e-06,
      "loss": 1.5127,
      "step": 84102
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6987946033477783,
      "learning_rate": 6.679288685190643e-06,
      "loss": 1.5622,
      "step": 84103
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6619077920913696,
      "learning_rate": 6.677095589427717e-06,
      "loss": 1.4704,
      "step": 84104
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6974257826805115,
      "learning_rate": 6.674902849715546e-06,
      "loss": 1.5076,
      "step": 84105
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6792806386947632,
      "learning_rate": 6.672710466056896e-06,
      "loss": 1.5139,
      "step": 84106
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6792839765548706,
      "learning_rate": 6.670518438454298e-06,
      "loss": 1.5304,
      "step": 84107
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6647995710372925,
      "learning_rate": 6.668326766910481e-06,
      "loss": 1.4716,
      "step": 84108
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6493812799453735,
      "learning_rate": 6.666135451428112e-06,
      "loss": 1.5153,
      "step": 84109
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6877154111862183,
      "learning_rate": 6.663944492009854e-06,
      "loss": 1.4639,
      "step": 84110
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6908862590789795,
      "learning_rate": 6.6617538886583055e-06,
      "loss": 1.5638,
      "step": 84111
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6917503476142883,
      "learning_rate": 6.659563641376164e-06,
      "loss": 1.5268,
      "step": 84112
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6869597434997559,
      "learning_rate": 6.657373750166095e-06,
      "loss": 1.4913,
      "step": 84113
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.665871798992157,
      "learning_rate": 6.655184215030796e-06,
      "loss": 1.5768,
      "step": 84114
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.666677713394165,
      "learning_rate": 6.6529950359728304e-06,
      "loss": 1.491,
      "step": 84115
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6675059795379639,
      "learning_rate": 6.650806212994897e-06,
      "loss": 1.5183,
      "step": 84116
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7140248417854309,
      "learning_rate": 6.648617746099727e-06,
      "loss": 1.557,
      "step": 84117
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6816686987876892,
      "learning_rate": 6.646429635289852e-06,
      "loss": 1.478,
      "step": 84118
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6705272197723389,
      "learning_rate": 6.644241880568002e-06,
      "loss": 1.6118,
      "step": 84119
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6895564794540405,
      "learning_rate": 6.642054481936843e-06,
      "loss": 1.5218,
      "step": 84120
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7215948104858398,
      "learning_rate": 6.639867439399005e-06,
      "loss": 1.5116,
      "step": 84121
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.662686288356781,
      "learning_rate": 6.637680752957087e-06,
      "loss": 1.5017,
      "step": 84122
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6745191812515259,
      "learning_rate": 6.635494422613852e-06,
      "loss": 1.5001,
      "step": 84123
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6942522525787354,
      "learning_rate": 6.633308448371899e-06,
      "loss": 1.5217,
      "step": 84124
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.692564845085144,
      "learning_rate": 6.631122830233859e-06,
      "loss": 1.521,
      "step": 84125
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6829472780227661,
      "learning_rate": 6.628937568202431e-06,
      "loss": 1.5418,
      "step": 84126
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.660828709602356,
      "learning_rate": 6.626752662280244e-06,
      "loss": 1.5463,
      "step": 84127
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6748770475387573,
      "learning_rate": 6.624568112469963e-06,
      "loss": 1.5447,
      "step": 84128
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6754139065742493,
      "learning_rate": 6.622383918774188e-06,
      "loss": 1.518,
      "step": 84129
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6779053807258606,
      "learning_rate": 6.620200081195648e-06,
      "loss": 1.5065,
      "step": 84130
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6694367527961731,
      "learning_rate": 6.618016599736975e-06,
      "loss": 1.4768,
      "step": 84131
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6777287721633911,
      "learning_rate": 6.615833474400767e-06,
      "loss": 1.4958,
      "step": 84132
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6851237416267395,
      "learning_rate": 6.613650705189721e-06,
      "loss": 1.5245,
      "step": 84133
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6696913242340088,
      "learning_rate": 6.611468292106436e-06,
      "loss": 1.4984,
      "step": 84134
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6574989557266235,
      "learning_rate": 6.609286235153644e-06,
      "loss": 1.4576,
      "step": 84135
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6764380931854248,
      "learning_rate": 6.6071045343339406e-06,
      "loss": 1.5486,
      "step": 84136
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6835472583770752,
      "learning_rate": 6.604923189649991e-06,
      "loss": 1.5757,
      "step": 84137
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6891735792160034,
      "learning_rate": 6.602742201104428e-06,
      "loss": 1.5344,
      "step": 84138
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6933585405349731,
      "learning_rate": 6.600561568699914e-06,
      "loss": 1.5438,
      "step": 84139
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.659653902053833,
      "learning_rate": 6.598381292439081e-06,
      "loss": 1.478,
      "step": 84140
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.690954327583313,
      "learning_rate": 6.596201372324561e-06,
      "loss": 1.4613,
      "step": 84141
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6593727469444275,
      "learning_rate": 6.5940218083590516e-06,
      "loss": 1.4457,
      "step": 84142
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6672815680503845,
      "learning_rate": 6.591842600545183e-06,
      "loss": 1.5054,
      "step": 84143
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6818710565567017,
      "learning_rate": 6.589663748885521e-06,
      "loss": 1.4576,
      "step": 84144
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6918062567710876,
      "learning_rate": 6.587485253382829e-06,
      "loss": 1.5075,
      "step": 84145
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6719321012496948,
      "learning_rate": 6.585307114039673e-06,
      "loss": 1.4975,
      "step": 84146
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6835536360740662,
      "learning_rate": 6.58312933085875e-06,
      "loss": 1.5132,
      "step": 84147
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6862390041351318,
      "learning_rate": 6.580951903842624e-06,
      "loss": 1.4423,
      "step": 84148
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6938448548316956,
      "learning_rate": 6.578774832994027e-06,
      "loss": 1.5519,
      "step": 84149
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7161773443222046,
      "learning_rate": 6.57659811831559e-06,
      "loss": 1.5887,
      "step": 84150
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6971415877342224,
      "learning_rate": 6.574421759809878e-06,
      "loss": 1.546,
      "step": 84151
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6422994136810303,
      "learning_rate": 6.572245757479622e-06,
      "loss": 1.5487,
      "step": 84152
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6761744022369385,
      "learning_rate": 6.570070111327419e-06,
      "loss": 1.4608,
      "step": 84153
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6886202692985535,
      "learning_rate": 6.567894821355868e-06,
      "loss": 1.5182,
      "step": 84154
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6780610084533691,
      "learning_rate": 6.5657198875677e-06,
      "loss": 1.5234,
      "step": 84155
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6755833625793457,
      "learning_rate": 6.563545309965512e-06,
      "loss": 1.5533,
      "step": 84156
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6701629161834717,
      "learning_rate": 6.5613710885519365e-06,
      "loss": 1.4458,
      "step": 84157
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6784948706626892,
      "learning_rate": 6.559197223329604e-06,
      "loss": 1.5121,
      "step": 84158
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7029150724411011,
      "learning_rate": 6.557023714301213e-06,
      "loss": 1.4992,
      "step": 84159
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6911876201629639,
      "learning_rate": 6.554850561469327e-06,
      "loss": 1.6102,
      "step": 84160
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6782222390174866,
      "learning_rate": 6.552677764836611e-06,
      "loss": 1.4988,
      "step": 84161
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.706693708896637,
      "learning_rate": 6.550505324405697e-06,
      "loss": 1.5229,
      "step": 84162
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6880192160606384,
      "learning_rate": 6.548333240179282e-06,
      "loss": 1.5164,
      "step": 84163
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6981298327445984,
      "learning_rate": 6.546161512159931e-06,
      "loss": 1.5801,
      "step": 84164
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6849784851074219,
      "learning_rate": 6.543990140350275e-06,
      "loss": 1.4442,
      "step": 84165
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7076356410980225,
      "learning_rate": 6.5418191247529785e-06,
      "loss": 1.5423,
      "step": 84166
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6938909292221069,
      "learning_rate": 6.539648465370706e-06,
      "loss": 1.5734,
      "step": 84167
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6819482445716858,
      "learning_rate": 6.537478162206022e-06,
      "loss": 1.4956,
      "step": 84168
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6969459652900696,
      "learning_rate": 6.535308215261625e-06,
      "loss": 1.4431,
      "step": 84169
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6907928586006165,
      "learning_rate": 6.533138624540113e-06,
      "loss": 1.4644,
      "step": 84170
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6714381575584412,
      "learning_rate": 6.53096939004415e-06,
      "loss": 1.5017,
      "step": 84171
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7060323357582092,
      "learning_rate": 6.528800511776333e-06,
      "loss": 1.5087,
      "step": 84172
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6919436454772949,
      "learning_rate": 6.526631989739328e-06,
      "loss": 1.5525,
      "step": 84173
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6737463474273682,
      "learning_rate": 6.524463823935766e-06,
      "loss": 1.5287,
      "step": 84174
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6880226731300354,
      "learning_rate": 6.5222960143682115e-06,
      "loss": 1.5276,
      "step": 84175
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6894673109054565,
      "learning_rate": 6.520128561039362e-06,
      "loss": 1.5284,
      "step": 84176
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6664513945579529,
      "learning_rate": 6.517961463951849e-06,
      "loss": 1.5259,
      "step": 84177
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6844205856323242,
      "learning_rate": 6.515794723108303e-06,
      "loss": 1.5148,
      "step": 84178
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6962009072303772,
      "learning_rate": 6.51362833851129e-06,
      "loss": 1.5255,
      "step": 84179
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.674536406993866,
      "learning_rate": 6.51146231016354e-06,
      "loss": 1.4644,
      "step": 84180
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6675010323524475,
      "learning_rate": 6.509296638067618e-06,
      "loss": 1.4859,
      "step": 84181
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6885862350463867,
      "learning_rate": 6.507131322226156e-06,
      "loss": 1.5575,
      "step": 84182
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6675238013267517,
      "learning_rate": 6.5049663626417835e-06,
      "loss": 1.5611,
      "step": 84183
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6763186454772949,
      "learning_rate": 6.502801759317133e-06,
      "loss": 1.4762,
      "step": 84184
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.658835768699646,
      "learning_rate": 6.5006375122548694e-06,
      "loss": 1.5267,
      "step": 84185
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6669210195541382,
      "learning_rate": 6.498473621457556e-06,
      "loss": 1.4384,
      "step": 84186
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6705610752105713,
      "learning_rate": 6.496310086927858e-06,
      "loss": 1.5339,
      "step": 84187
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6674512624740601,
      "learning_rate": 6.494146908668441e-06,
      "loss": 1.4851,
      "step": 84188
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6696639657020569,
      "learning_rate": 6.4919840866818005e-06,
      "loss": 1.5602,
      "step": 84189
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6880088448524475,
      "learning_rate": 6.489821620970703e-06,
      "loss": 1.5726,
      "step": 84190
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6926090121269226,
      "learning_rate": 6.4876595115376795e-06,
      "loss": 1.5289,
      "step": 84191
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.692956268787384,
      "learning_rate": 6.485497758385428e-06,
      "loss": 1.5907,
      "step": 84192
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.677796483039856,
      "learning_rate": 6.483336361516545e-06,
      "loss": 1.4749,
      "step": 84193
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6895461678504944,
      "learning_rate": 6.481175320933596e-06,
      "loss": 1.5789,
      "step": 84194
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6733109951019287,
      "learning_rate": 6.479014636639279e-06,
      "loss": 1.5045,
      "step": 84195
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6533002853393555,
      "learning_rate": 6.4768543086361595e-06,
      "loss": 1.4587,
      "step": 84196
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6701264977455139,
      "learning_rate": 6.474694336926933e-06,
      "loss": 1.4815,
      "step": 84197
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6584914326667786,
      "learning_rate": 6.472534721514133e-06,
      "loss": 1.4974,
      "step": 84198
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6765807867050171,
      "learning_rate": 6.470375462400457e-06,
      "loss": 1.4957,
      "step": 84199
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6906566619873047,
      "learning_rate": 6.468216559588501e-06,
      "loss": 1.4807,
      "step": 84200
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.691861093044281,
      "learning_rate": 6.466058013080866e-06,
      "loss": 1.5001,
      "step": 84201
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6863385438919067,
      "learning_rate": 6.463899822880214e-06,
      "loss": 1.5118,
      "step": 84202
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7327556014060974,
      "learning_rate": 6.461741988989111e-06,
      "loss": 1.4828,
      "step": 84203
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6602516174316406,
      "learning_rate": 6.459584511410188e-06,
      "loss": 1.4412,
      "step": 84204
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6856323480606079,
      "learning_rate": 6.457427390146075e-06,
      "loss": 1.4452,
      "step": 84205
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6775156855583191,
      "learning_rate": 6.455270625199438e-06,
      "loss": 1.4908,
      "step": 84206
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6922051310539246,
      "learning_rate": 6.453114216572841e-06,
      "loss": 1.4682,
      "step": 84207
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.686819314956665,
      "learning_rate": 6.450958164268882e-06,
      "loss": 1.5216,
      "step": 84208
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6945394277572632,
      "learning_rate": 6.4488024682902266e-06,
      "loss": 1.4698,
      "step": 84209
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7244334816932678,
      "learning_rate": 6.44664712863947e-06,
      "loss": 1.4748,
      "step": 84210
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6765021085739136,
      "learning_rate": 6.444492145319213e-06,
      "loss": 1.5439,
      "step": 84211
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7135632634162903,
      "learning_rate": 6.442337518332086e-06,
      "loss": 1.5452,
      "step": 84212
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6782621145248413,
      "learning_rate": 6.4401832476807855e-06,
      "loss": 1.5302,
      "step": 84213
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.679704487323761,
      "learning_rate": 6.438029333367778e-06,
      "loss": 1.5491,
      "step": 84214
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6804829835891724,
      "learning_rate": 6.4358757753957266e-06,
      "loss": 1.4926,
      "step": 84215
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6927762031555176,
      "learning_rate": 6.43372257376733e-06,
      "loss": 1.4537,
      "step": 84216
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6635381579399109,
      "learning_rate": 6.431569728485119e-06,
      "loss": 1.5188,
      "step": 84217
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6833302974700928,
      "learning_rate": 6.429417239551693e-06,
      "loss": 1.4774,
      "step": 84218
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6822251677513123,
      "learning_rate": 6.427265106969714e-06,
      "loss": 1.5357,
      "step": 84219
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6835461854934692,
      "learning_rate": 6.425113330741816e-06,
      "loss": 1.5314,
      "step": 84220
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6662381291389465,
      "learning_rate": 6.422961910870527e-06,
      "loss": 1.5528,
      "step": 84221
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6521055698394775,
      "learning_rate": 6.420810847358515e-06,
      "loss": 1.4959,
      "step": 84222
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6744906306266785,
      "learning_rate": 6.418660140208409e-06,
      "loss": 1.5777,
      "step": 84223
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7003951072692871,
      "learning_rate": 6.416509789422808e-06,
      "loss": 1.5228,
      "step": 84224
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6856716871261597,
      "learning_rate": 6.414359795004243e-06,
      "loss": 1.5459,
      "step": 84225
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6803452968597412,
      "learning_rate": 6.412210156955411e-06,
      "loss": 1.5817,
      "step": 84226
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6804601550102234,
      "learning_rate": 6.410060875278944e-06,
      "loss": 1.4482,
      "step": 84227
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6723569631576538,
      "learning_rate": 6.40791194997734e-06,
      "loss": 1.5337,
      "step": 84228
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.670285165309906,
      "learning_rate": 6.405763381053297e-06,
      "loss": 1.5534,
      "step": 84229
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6600989103317261,
      "learning_rate": 6.403615168509413e-06,
      "loss": 1.4993,
      "step": 84230
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7007960677146912,
      "learning_rate": 6.401467312348285e-06,
      "loss": 1.5792,
      "step": 84231
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7212815880775452,
      "learning_rate": 6.399319812572478e-06,
      "loss": 1.5125,
      "step": 84232
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7007817625999451,
      "learning_rate": 6.397172669184625e-06,
      "loss": 1.6512,
      "step": 84233
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6872013211250305,
      "learning_rate": 6.3950258821874215e-06,
      "loss": 1.5008,
      "step": 84234
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6674851775169373,
      "learning_rate": 6.3928794515833324e-06,
      "loss": 1.5303,
      "step": 84235
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6653227806091309,
      "learning_rate": 6.390733377375024e-06,
      "loss": 1.5768,
      "step": 84236
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6906498074531555,
      "learning_rate": 6.3885876595651585e-06,
      "loss": 1.4095,
      "step": 84237
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7094684839248657,
      "learning_rate": 6.3864422981562355e-06,
      "loss": 1.518,
      "step": 84238
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6981421113014221,
      "learning_rate": 6.3842972931509195e-06,
      "loss": 1.4964,
      "step": 84239
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6893130540847778,
      "learning_rate": 6.382152644551841e-06,
      "loss": 1.5539,
      "step": 84240
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6650640964508057,
      "learning_rate": 6.380008352361532e-06,
      "loss": 1.4529,
      "step": 84241
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6882184147834778,
      "learning_rate": 6.377864416582623e-06,
      "loss": 1.4625,
      "step": 84242
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6776729822158813,
      "learning_rate": 6.375720837217713e-06,
      "loss": 1.4902,
      "step": 84243
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6826488971710205,
      "learning_rate": 6.373577614269465e-06,
      "loss": 1.5219,
      "step": 84244
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6635507941246033,
      "learning_rate": 6.3714347477404114e-06,
      "loss": 1.5041,
      "step": 84245
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6805998086929321,
      "learning_rate": 6.36929223763315e-06,
      "loss": 1.5845,
      "step": 84246
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6968169212341309,
      "learning_rate": 6.367150083950312e-06,
      "loss": 1.454,
      "step": 84247
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.670274019241333,
      "learning_rate": 6.365008286694529e-06,
      "loss": 1.4921,
      "step": 84248
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6765360832214355,
      "learning_rate": 6.362866845868297e-06,
      "loss": 1.5177,
      "step": 84249
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6769806146621704,
      "learning_rate": 6.360725761474317e-06,
      "loss": 1.3943,
      "step": 84250
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.679486870765686,
      "learning_rate": 6.358585033515118e-06,
      "loss": 1.4637,
      "step": 84251
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7095090746879578,
      "learning_rate": 6.3564446619933655e-06,
      "loss": 1.5974,
      "step": 84252
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.67863929271698,
      "learning_rate": 6.35430464691159e-06,
      "loss": 1.5272,
      "step": 84253
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6617996096611023,
      "learning_rate": 6.352164988272457e-06,
      "loss": 1.4576,
      "step": 84254
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7190069556236267,
      "learning_rate": 6.3500256860785305e-06,
      "loss": 1.4849,
      "step": 84255
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7040345668792725,
      "learning_rate": 6.347886740332375e-06,
      "loss": 1.4794,
      "step": 84256
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6732166409492493,
      "learning_rate": 6.345748151036656e-06,
      "loss": 1.5751,
      "step": 84257
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.693678617477417,
      "learning_rate": 6.34360991819387e-06,
      "loss": 1.4241,
      "step": 84258
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6880709528923035,
      "learning_rate": 6.341472041806717e-06,
      "loss": 1.5788,
      "step": 84259
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6874595284461975,
      "learning_rate": 6.339334521877759e-06,
      "loss": 1.4458,
      "step": 84260
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6942842602729797,
      "learning_rate": 6.3371973584095625e-06,
      "loss": 1.431,
      "step": 84261
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6931792497634888,
      "learning_rate": 6.3350605514047245e-06,
      "loss": 1.5203,
      "step": 84262
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6746946573257446,
      "learning_rate": 6.3329241008658775e-06,
      "loss": 1.4998,
      "step": 84263
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6838374733924866,
      "learning_rate": 6.330788006795584e-06,
      "loss": 1.4849,
      "step": 84264
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6948303580284119,
      "learning_rate": 6.3286522691964105e-06,
      "loss": 1.4511,
      "step": 84265
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6951392292976379,
      "learning_rate": 6.326516888071054e-06,
      "loss": 1.4789,
      "step": 84266
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6602675318717957,
      "learning_rate": 6.324381863421979e-06,
      "loss": 1.5139,
      "step": 84267
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6726188659667969,
      "learning_rate": 6.32224719525185e-06,
      "loss": 1.5393,
      "step": 84268
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6659864783287048,
      "learning_rate": 6.320112883563233e-06,
      "loss": 1.4296,
      "step": 84269
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6924571394920349,
      "learning_rate": 6.3179789283587575e-06,
      "loss": 1.5242,
      "step": 84270
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6700446009635925,
      "learning_rate": 6.315845329640956e-06,
      "loss": 1.4975,
      "step": 84271
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6702299118041992,
      "learning_rate": 6.313712087412426e-06,
      "loss": 1.5136,
      "step": 84272
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7135623097419739,
      "learning_rate": 6.3115792016757986e-06,
      "loss": 1.5166,
      "step": 84273
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.674612283706665,
      "learning_rate": 6.3094466724336716e-06,
      "loss": 1.5124,
      "step": 84274
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6945144534111023,
      "learning_rate": 6.307314499688543e-06,
      "loss": 1.5897,
      "step": 84275
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6710148453712463,
      "learning_rate": 6.305182683443111e-06,
      "loss": 1.4621,
      "step": 84276
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6576915383338928,
      "learning_rate": 6.303051223699906e-06,
      "loss": 1.4258,
      "step": 84277
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6864936947822571,
      "learning_rate": 6.300920120461494e-06,
      "loss": 1.5041,
      "step": 84278
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6581444144248962,
      "learning_rate": 6.298789373730506e-06,
      "loss": 1.5292,
      "step": 84279
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6926953792572021,
      "learning_rate": 6.29665898350954e-06,
      "loss": 1.5367,
      "step": 84280
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6541127562522888,
      "learning_rate": 6.294528949801125e-06,
      "loss": 1.512,
      "step": 84281
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6676715612411499,
      "learning_rate": 6.292399272607862e-06,
      "loss": 1.5232,
      "step": 84282
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.686480700969696,
      "learning_rate": 6.2902699519323475e-06,
      "loss": 1.5172,
      "step": 84283
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6965785026550293,
      "learning_rate": 6.288140987777246e-06,
      "loss": 1.497,
      "step": 84284
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.7149333953857422,
      "learning_rate": 6.286012380144989e-06,
      "loss": 1.5626,
      "step": 84285
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6697751879692078,
      "learning_rate": 6.2838841290382414e-06,
      "loss": 1.4794,
      "step": 84286
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6668273210525513,
      "learning_rate": 6.281756234459601e-06,
      "loss": 1.5602,
      "step": 84287
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6844185590744019,
      "learning_rate": 6.279628696411665e-06,
      "loss": 1.4803,
      "step": 84288
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6754644513130188,
      "learning_rate": 6.277501514896932e-06,
      "loss": 1.4563,
      "step": 84289
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6887755990028381,
      "learning_rate": 6.275374689918034e-06,
      "loss": 1.4835,
      "step": 84290
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6809850931167603,
      "learning_rate": 6.2732482214776e-06,
      "loss": 1.5076,
      "step": 84291
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6819659471511841,
      "learning_rate": 6.271122109578097e-06,
      "loss": 1.4921,
      "step": 84292
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6782392859458923,
      "learning_rate": 6.268996354222189e-06,
      "loss": 1.603,
      "step": 84293
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6734529137611389,
      "learning_rate": 6.266870955412473e-06,
      "loss": 1.5943,
      "step": 84294
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6722918748855591,
      "learning_rate": 6.264745913151481e-06,
      "loss": 1.4245,
      "step": 84295
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6747399568557739,
      "learning_rate": 6.262621227441811e-06,
      "loss": 1.4935,
      "step": 84296
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6536219716072083,
      "learning_rate": 6.260496898286027e-06,
      "loss": 1.4607,
      "step": 84297
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6634963154792786,
      "learning_rate": 6.258372925686761e-06,
      "loss": 1.4536,
      "step": 84298
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6958121657371521,
      "learning_rate": 6.256249309646477e-06,
      "loss": 1.5382,
      "step": 84299
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6827864646911621,
      "learning_rate": 6.254126050167907e-06,
      "loss": 1.4927,
      "step": 84300
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6820830702781677,
      "learning_rate": 6.2520031472534815e-06,
      "loss": 1.4838,
      "step": 84301
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6691702008247375,
      "learning_rate": 6.249880600905865e-06,
      "loss": 1.5458,
      "step": 84302
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6680890321731567,
      "learning_rate": 6.24775841112759e-06,
      "loss": 1.4805,
      "step": 84303
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6676570177078247,
      "learning_rate": 6.245636577921287e-06,
      "loss": 1.4639,
      "step": 84304
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6756516098976135,
      "learning_rate": 6.24351510128952e-06,
      "loss": 1.5019,
      "step": 84305
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6677650213241577,
      "learning_rate": 6.241393981234788e-06,
      "loss": 1.5249,
      "step": 84306
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6948966979980469,
      "learning_rate": 6.239273217759755e-06,
      "loss": 1.5297,
      "step": 84307
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6907856464385986,
      "learning_rate": 6.237152810866919e-06,
      "loss": 1.5287,
      "step": 84308
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6847701668739319,
      "learning_rate": 6.235032760558944e-06,
      "loss": 1.5363,
      "step": 84309
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6934286952018738,
      "learning_rate": 6.2329130668383295e-06,
      "loss": 1.5341,
      "step": 84310
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6886001825332642,
      "learning_rate": 6.2307937297076725e-06,
      "loss": 1.5377,
      "step": 84311
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.667996883392334,
      "learning_rate": 6.228674749169571e-06,
      "loss": 1.4707,
      "step": 84312
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7153728008270264,
      "learning_rate": 6.226556125226523e-06,
      "loss": 1.6053,
      "step": 84313
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6628541946411133,
      "learning_rate": 6.224437857881193e-06,
      "loss": 1.434,
      "step": 84314
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6761804223060608,
      "learning_rate": 6.222319947136112e-06,
      "loss": 1.4895,
      "step": 84315
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6598623991012573,
      "learning_rate": 6.220202392993845e-06,
      "loss": 1.4832,
      "step": 84316
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6968144178390503,
      "learning_rate": 6.218085195456957e-06,
      "loss": 1.4839,
      "step": 84317
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6789531707763672,
      "learning_rate": 6.215968354528011e-06,
      "loss": 1.4923,
      "step": 84318
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.690434992313385,
      "learning_rate": 6.213851870209608e-06,
      "loss": 1.4555,
      "step": 84319
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7069048285484314,
      "learning_rate": 6.2117357425043095e-06,
      "loss": 1.5755,
      "step": 84320
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6872637867927551,
      "learning_rate": 6.2096199714146814e-06,
      "loss": 1.4533,
      "step": 84321
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6869871020317078,
      "learning_rate": 6.2075045569432545e-06,
      "loss": 1.4504,
      "step": 84322
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6950392127037048,
      "learning_rate": 6.205389499092661e-06,
      "loss": 1.4803,
      "step": 84323
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.698749303817749,
      "learning_rate": 6.203274797865432e-06,
      "loss": 1.5647,
      "step": 84324
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6562280058860779,
      "learning_rate": 6.201160453264098e-06,
      "loss": 1.5343,
      "step": 84325
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6735450625419617,
      "learning_rate": 6.199046465291324e-06,
      "loss": 1.5214,
      "step": 84326
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6675884127616882,
      "learning_rate": 6.1969328339496085e-06,
      "loss": 1.4769,
      "step": 84327
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6650118231773376,
      "learning_rate": 6.194819559241482e-06,
      "loss": 1.459,
      "step": 84328
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6810441613197327,
      "learning_rate": 6.192706641169576e-06,
      "loss": 1.4786,
      "step": 84329
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6672226786613464,
      "learning_rate": 6.190594079736455e-06,
      "loss": 1.5035,
      "step": 84330
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7028852701187134,
      "learning_rate": 6.18848187494465e-06,
      "loss": 1.4744,
      "step": 84331
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6877129077911377,
      "learning_rate": 6.186370026796728e-06,
      "loss": 1.5295,
      "step": 84332
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6695366501808167,
      "learning_rate": 6.18425853529525e-06,
      "loss": 1.5479,
      "step": 84333
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6881389021873474,
      "learning_rate": 6.182147400442817e-06,
      "loss": 1.5603,
      "step": 84334
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7210057973861694,
      "learning_rate": 6.180036622241958e-06,
      "loss": 1.5091,
      "step": 84335
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6758215427398682,
      "learning_rate": 6.177926200695238e-06,
      "loss": 1.5584,
      "step": 84336
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6917288303375244,
      "learning_rate": 6.1758161358052564e-06,
      "loss": 1.5277,
      "step": 84337
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6461820006370544,
      "learning_rate": 6.173706427574476e-06,
      "loss": 1.5264,
      "step": 84338
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6691942811012268,
      "learning_rate": 6.171597076005564e-06,
      "loss": 1.5432,
      "step": 84339
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6661843061447144,
      "learning_rate": 6.169488081101015e-06,
      "loss": 1.4564,
      "step": 84340
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.705258846282959,
      "learning_rate": 6.167379442863463e-06,
      "loss": 1.4884,
      "step": 84341
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6850535273551941,
      "learning_rate": 6.1652711612953705e-06,
      "loss": 1.5145,
      "step": 84342
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6725478172302246,
      "learning_rate": 6.163163236399338e-06,
      "loss": 1.5259,
      "step": 84343
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6788858771324158,
      "learning_rate": 6.1610556681779945e-06,
      "loss": 1.5325,
      "step": 84344
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6588344573974609,
      "learning_rate": 6.158948456633772e-06,
      "loss": 1.475,
      "step": 84345
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6720407009124756,
      "learning_rate": 6.156841601769302e-06,
      "loss": 1.4294,
      "step": 84346
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6648700833320618,
      "learning_rate": 6.154735103587149e-06,
      "loss": 1.4762,
      "step": 84347
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6543998718261719,
      "learning_rate": 6.152628962089845e-06,
      "loss": 1.4376,
      "step": 84348
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6748008131980896,
      "learning_rate": 6.15052317727992e-06,
      "loss": 1.4904,
      "step": 84349
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6681746244430542,
      "learning_rate": 6.1484177491599725e-06,
      "loss": 1.516,
      "step": 84350
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6928052306175232,
      "learning_rate": 6.1463126777326344e-06,
      "loss": 1.5479,
      "step": 84351
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6906437873840332,
      "learning_rate": 6.144207963000269e-06,
      "loss": 1.5669,
      "step": 84352
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7139001488685608,
      "learning_rate": 6.142103604965576e-06,
      "loss": 1.5002,
      "step": 84353
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6799931526184082,
      "learning_rate": 6.139999603631085e-06,
      "loss": 1.4435,
      "step": 84354
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6589474678039551,
      "learning_rate": 6.137895958999328e-06,
      "loss": 1.5012,
      "step": 84355
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6876015663146973,
      "learning_rate": 6.13579267107287e-06,
      "loss": 1.5176,
      "step": 84356
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6966527700424194,
      "learning_rate": 6.133689739854242e-06,
      "loss": 1.4084,
      "step": 84357
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7215876579284668,
      "learning_rate": 6.1315871653460416e-06,
      "loss": 1.4961,
      "step": 84358
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6632740497589111,
      "learning_rate": 6.129484947550767e-06,
      "loss": 1.5071,
      "step": 84359
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6783444285392761,
      "learning_rate": 6.127383086471016e-06,
      "loss": 1.5484,
      "step": 84360
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6704220771789551,
      "learning_rate": 6.1252815821093205e-06,
      "loss": 1.4801,
      "step": 84361
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6715672016143799,
      "learning_rate": 6.123180434468244e-06,
      "loss": 1.5638,
      "step": 84362
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6677188277244568,
      "learning_rate": 6.1210796435502865e-06,
      "loss": 1.5002,
      "step": 84363
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6680439710617065,
      "learning_rate": 6.118979209358077e-06,
      "loss": 1.5029,
      "step": 84364
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6581265330314636,
      "learning_rate": 6.116879131894115e-06,
      "loss": 1.4647,
      "step": 84365
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6923978328704834,
      "learning_rate": 6.114779411160964e-06,
      "loss": 1.4242,
      "step": 84366
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6793836355209351,
      "learning_rate": 6.112680047161156e-06,
      "loss": 1.5198,
      "step": 84367
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6577467918395996,
      "learning_rate": 6.110581039897255e-06,
      "loss": 1.4954,
      "step": 84368
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6887484192848206,
      "learning_rate": 6.108482389371794e-06,
      "loss": 1.4852,
      "step": 84369
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6796358227729797,
      "learning_rate": 6.106384095587335e-06,
      "loss": 1.524,
      "step": 84370
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6723411679267883,
      "learning_rate": 6.104286158546446e-06,
      "loss": 1.5342,
      "step": 84371
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6683840155601501,
      "learning_rate": 6.102188578251655e-06,
      "loss": 1.4763,
      "step": 84372
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6934352517127991,
      "learning_rate": 6.100091354705494e-06,
      "loss": 1.5103,
      "step": 84373
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7041876316070557,
      "learning_rate": 6.097994487910496e-06,
      "loss": 1.5449,
      "step": 84374
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6678939461708069,
      "learning_rate": 6.0958979778692245e-06,
      "loss": 1.5263,
      "step": 84375
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6457304358482361,
      "learning_rate": 6.093801824584276e-06,
      "loss": 1.4324,
      "step": 84376
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6887905597686768,
      "learning_rate": 6.091706028058119e-06,
      "loss": 1.488,
      "step": 84377
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6873757243156433,
      "learning_rate": 6.089610588293315e-06,
      "loss": 1.5772,
      "step": 84378
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6769315600395203,
      "learning_rate": 6.087515505292428e-06,
      "loss": 1.4695,
      "step": 84379
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6818714141845703,
      "learning_rate": 6.085420779057992e-06,
      "loss": 1.5669,
      "step": 84380
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6860233545303345,
      "learning_rate": 6.083326409592537e-06,
      "loss": 1.4577,
      "step": 84381
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6903480887413025,
      "learning_rate": 6.081232396898628e-06,
      "loss": 1.4995,
      "step": 84382
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6654016971588135,
      "learning_rate": 6.079138740978795e-06,
      "loss": 1.5534,
      "step": 84383
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6719053983688354,
      "learning_rate": 6.077045441835604e-06,
      "loss": 1.5274,
      "step": 84384
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6935467720031738,
      "learning_rate": 6.0749524994715195e-06,
      "loss": 1.5767,
      "step": 84385
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.686253547668457,
      "learning_rate": 6.072859913889172e-06,
      "loss": 1.5429,
      "step": 84386
    },
    {
      "epoch": 2.81,
      "grad_norm": 1.039707899093628,
      "learning_rate": 6.070767685091093e-06,
      "loss": 1.4842,
      "step": 84387
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.682221531867981,
      "learning_rate": 6.068675813079748e-06,
      "loss": 1.5591,
      "step": 84388
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6582261919975281,
      "learning_rate": 6.066584297857702e-06,
      "loss": 1.4852,
      "step": 84389
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6820540428161621,
      "learning_rate": 6.064493139427551e-06,
      "loss": 1.4596,
      "step": 84390
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6732843518257141,
      "learning_rate": 6.062402337791794e-06,
      "loss": 1.5421,
      "step": 84391
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6812175512313843,
      "learning_rate": 6.060311892952963e-06,
      "loss": 1.4513,
      "step": 84392
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6805641651153564,
      "learning_rate": 6.058221804913621e-06,
      "loss": 1.5402,
      "step": 84393
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7114673256874084,
      "learning_rate": 6.056132073676268e-06,
      "loss": 1.5027,
      "step": 84394
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6920234560966492,
      "learning_rate": 6.054042699243467e-06,
      "loss": 1.6416,
      "step": 84395
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6750941872596741,
      "learning_rate": 6.051953681617716e-06,
      "loss": 1.515,
      "step": 84396
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6691638827323914,
      "learning_rate": 6.049865020801614e-06,
      "loss": 1.4639,
      "step": 84397
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6832756996154785,
      "learning_rate": 6.047776716797692e-06,
      "loss": 1.5073,
      "step": 84398
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6950526833534241,
      "learning_rate": 6.045688769608381e-06,
      "loss": 1.4862,
      "step": 84399
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6608641743659973,
      "learning_rate": 6.043601179236346e-06,
      "loss": 1.563,
      "step": 84400
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6918318271636963,
      "learning_rate": 6.041513945684085e-06,
      "loss": 1.4384,
      "step": 84401
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6666931509971619,
      "learning_rate": 6.039427068954061e-06,
      "loss": 1.4748,
      "step": 84402
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6802743077278137,
      "learning_rate": 6.037340549048875e-06,
      "loss": 1.5227,
      "step": 84403
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6905383467674255,
      "learning_rate": 6.035254385971056e-06,
      "loss": 1.5355,
      "step": 84404
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6750748157501221,
      "learning_rate": 6.0331685797231355e-06,
      "loss": 1.5375,
      "step": 84405
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6640580892562866,
      "learning_rate": 6.031083130307612e-06,
      "loss": 1.5459,
      "step": 84406
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6774009466171265,
      "learning_rate": 6.0289980377270505e-06,
      "loss": 1.5485,
      "step": 84407
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.661903440952301,
      "learning_rate": 6.026913301983982e-06,
      "loss": 1.3965,
      "step": 84408
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6561877727508545,
      "learning_rate": 6.024828923080905e-06,
      "loss": 1.4954,
      "step": 84409
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6660277247428894,
      "learning_rate": 6.022744901020349e-06,
      "loss": 1.4741,
      "step": 84410
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6762391924858093,
      "learning_rate": 6.020661235804913e-06,
      "loss": 1.499,
      "step": 84411
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6532289981842041,
      "learning_rate": 6.018577927437063e-06,
      "loss": 1.534,
      "step": 84412
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6724866628646851,
      "learning_rate": 6.016494975919328e-06,
      "loss": 1.5317,
      "step": 84413
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6684526801109314,
      "learning_rate": 6.0144123812542745e-06,
      "loss": 1.5324,
      "step": 84414
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6769456267356873,
      "learning_rate": 6.012330143444399e-06,
      "loss": 1.5303,
      "step": 84415
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6707366108894348,
      "learning_rate": 6.010248262492234e-06,
      "loss": 1.4515,
      "step": 84416
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6923277378082275,
      "learning_rate": 6.008166738400311e-06,
      "loss": 1.5021,
      "step": 84417
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6856054067611694,
      "learning_rate": 6.006085571171159e-06,
      "loss": 1.4903,
      "step": 84418
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7056347131729126,
      "learning_rate": 6.004004760807313e-06,
      "loss": 1.5397,
      "step": 84419
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6858953237533569,
      "learning_rate": 6.001924307311234e-06,
      "loss": 1.469,
      "step": 84420
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.685539186000824,
      "learning_rate": 5.999844210685556e-06,
      "loss": 1.5384,
      "step": 84421
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6567479968070984,
      "learning_rate": 5.997764470932742e-06,
      "loss": 1.5012,
      "step": 84422
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6831954121589661,
      "learning_rate": 5.995685088055291e-06,
      "loss": 1.5721,
      "step": 84423
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6783408522605896,
      "learning_rate": 5.9936060620558e-06,
      "loss": 1.5867,
      "step": 84424
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6949980854988098,
      "learning_rate": 5.991527392936701e-06,
      "loss": 1.5304,
      "step": 84425
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6751278042793274,
      "learning_rate": 5.989449080700626e-06,
      "loss": 1.4891,
      "step": 84426
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6851131916046143,
      "learning_rate": 5.987371125350005e-06,
      "loss": 1.4248,
      "step": 84427
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6790549159049988,
      "learning_rate": 5.985293526887402e-06,
      "loss": 1.5262,
      "step": 84428
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6908629536628723,
      "learning_rate": 5.983216285315318e-06,
      "loss": 1.4619,
      "step": 84429
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6619994044303894,
      "learning_rate": 5.981139400636315e-06,
      "loss": 1.524,
      "step": 84430
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6760680675506592,
      "learning_rate": 5.979062872852858e-06,
      "loss": 1.5005,
      "step": 84431
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.694443941116333,
      "learning_rate": 5.976986701967512e-06,
      "loss": 1.5801,
      "step": 84432
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6685910224914551,
      "learning_rate": 5.9749108879827754e-06,
      "loss": 1.4873,
      "step": 84433
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6651854515075684,
      "learning_rate": 5.972835430901212e-06,
      "loss": 1.4681,
      "step": 84434
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6723375916481018,
      "learning_rate": 5.9707603307252546e-06,
      "loss": 1.532,
      "step": 84435
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6640708446502686,
      "learning_rate": 5.9686855874575e-06,
      "loss": 1.5025,
      "step": 84436
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6801440715789795,
      "learning_rate": 5.966611201100413e-06,
      "loss": 1.4823,
      "step": 84437
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6760928630828857,
      "learning_rate": 5.964537171656559e-06,
      "loss": 1.5419,
      "step": 84438
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6780262589454651,
      "learning_rate": 5.962463499128401e-06,
      "loss": 1.5259,
      "step": 84439
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6476332545280457,
      "learning_rate": 5.960390183518504e-06,
      "loss": 1.4652,
      "step": 84440
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6672417521476746,
      "learning_rate": 5.958317224829401e-06,
      "loss": 1.5108,
      "step": 84441
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6746003031730652,
      "learning_rate": 5.956244623063522e-06,
      "loss": 1.5146,
      "step": 84442
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6933512687683105,
      "learning_rate": 5.954172378223465e-06,
      "loss": 1.4928,
      "step": 84443
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6875866651535034,
      "learning_rate": 5.9521004903117285e-06,
      "loss": 1.5294,
      "step": 84444
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6922962665557861,
      "learning_rate": 5.950028959330811e-06,
      "loss": 1.5505,
      "step": 84445
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6889676451683044,
      "learning_rate": 5.947957785283208e-06,
      "loss": 1.5214,
      "step": 84446
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6742464900016785,
      "learning_rate": 5.945886968171487e-06,
      "loss": 1.5226,
      "step": 84447
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6703594923019409,
      "learning_rate": 5.943816507998112e-06,
      "loss": 1.5945,
      "step": 84448
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6930376291275024,
      "learning_rate": 5.941746404765612e-06,
      "loss": 1.564,
      "step": 84449
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6731743216514587,
      "learning_rate": 5.939676658476522e-06,
      "loss": 1.5781,
      "step": 84450
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6940639615058899,
      "learning_rate": 5.937607269133338e-06,
      "loss": 1.5982,
      "step": 84451
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6718457937240601,
      "learning_rate": 5.935538236738557e-06,
      "loss": 1.509,
      "step": 84452
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6537240147590637,
      "learning_rate": 5.9334695612947124e-06,
      "loss": 1.4884,
      "step": 84453
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6775108575820923,
      "learning_rate": 5.931401242804335e-06,
      "loss": 1.5173,
      "step": 84454
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6997918486595154,
      "learning_rate": 5.929333281269855e-06,
      "loss": 1.6028,
      "step": 84455
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.683726966381073,
      "learning_rate": 5.927265676693837e-06,
      "loss": 1.4226,
      "step": 84456
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6846312284469604,
      "learning_rate": 5.9251984290788145e-06,
      "loss": 1.5012,
      "step": 84457
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6722057461738586,
      "learning_rate": 5.923131538427284e-06,
      "loss": 1.446,
      "step": 84458
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6597467660903931,
      "learning_rate": 5.92106500474171e-06,
      "loss": 1.5393,
      "step": 84459
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6734366416931152,
      "learning_rate": 5.918998828024624e-06,
      "loss": 1.4937,
      "step": 84460
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6753640174865723,
      "learning_rate": 5.916933008278623e-06,
      "loss": 1.5495,
      "step": 84461
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6813452243804932,
      "learning_rate": 5.9148675455060414e-06,
      "loss": 1.5132,
      "step": 84462
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6700829863548279,
      "learning_rate": 5.912802439709507e-06,
      "loss": 1.4905,
      "step": 84463
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7090122699737549,
      "learning_rate": 5.91073769089152e-06,
      "loss": 1.5127,
      "step": 84464
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7056190967559814,
      "learning_rate": 5.908673299054578e-06,
      "loss": 1.4878,
      "step": 84465
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.679038941860199,
      "learning_rate": 5.906609264201112e-06,
      "loss": 1.4679,
      "step": 84466
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6969418525695801,
      "learning_rate": 5.904545586333753e-06,
      "loss": 1.5483,
      "step": 84467
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6886822581291199,
      "learning_rate": 5.902482265454933e-06,
      "loss": 1.4535,
      "step": 84468
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6702988743782043,
      "learning_rate": 5.900419301567116e-06,
      "loss": 1.5051,
      "step": 84469
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6745319962501526,
      "learning_rate": 5.898356694672868e-06,
      "loss": 1.4941,
      "step": 84470
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6787627339363098,
      "learning_rate": 5.896294444774719e-06,
      "loss": 1.4898,
      "step": 84471
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6860510110855103,
      "learning_rate": 5.8942325518751335e-06,
      "loss": 1.534,
      "step": 84472
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6784287095069885,
      "learning_rate": 5.892171015976577e-06,
      "loss": 1.5492,
      "step": 84473
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.692218542098999,
      "learning_rate": 5.890109837081647e-06,
      "loss": 1.5717,
      "step": 84474
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6737702488899231,
      "learning_rate": 5.888049015192742e-06,
      "loss": 1.4818,
      "step": 84475
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6691502332687378,
      "learning_rate": 5.885988550312426e-06,
      "loss": 1.5272,
      "step": 84476
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.671604573726654,
      "learning_rate": 5.883928442443164e-06,
      "loss": 1.4574,
      "step": 84477
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.685058057308197,
      "learning_rate": 5.881868691587488e-06,
      "loss": 1.5792,
      "step": 84478
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6877838969230652,
      "learning_rate": 5.8798092977479286e-06,
      "loss": 1.4996,
      "step": 84479
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6739805340766907,
      "learning_rate": 5.877750260926883e-06,
      "loss": 1.5021,
      "step": 84480
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6936875581741333,
      "learning_rate": 5.875691581126951e-06,
      "loss": 1.4804,
      "step": 84481
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6521753072738647,
      "learning_rate": 5.873633258350596e-06,
      "loss": 1.4566,
      "step": 84482
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6671604514122009,
      "learning_rate": 5.87157529260025e-06,
      "loss": 1.4621,
      "step": 84483
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6673375964164734,
      "learning_rate": 5.8695176838785444e-06,
      "loss": 1.4952,
      "step": 84484
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6647341251373291,
      "learning_rate": 5.867460432187876e-06,
      "loss": 1.4678,
      "step": 84485
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.684700608253479,
      "learning_rate": 5.865403537530777e-06,
      "loss": 1.5184,
      "step": 84486
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6606829762458801,
      "learning_rate": 5.863346999909713e-06,
      "loss": 1.503,
      "step": 84487
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6956596970558167,
      "learning_rate": 5.861290819327247e-06,
      "loss": 1.5306,
      "step": 84488
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6679405570030212,
      "learning_rate": 5.859234995785844e-06,
      "loss": 1.5259,
      "step": 84489
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6866225600242615,
      "learning_rate": 5.857179529287936e-06,
      "loss": 1.4994,
      "step": 84490
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6950488686561584,
      "learning_rate": 5.855124419836121e-06,
      "loss": 1.4851,
      "step": 84491
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6683729887008667,
      "learning_rate": 5.8530696674328306e-06,
      "loss": 1.5629,
      "step": 84492
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6518642902374268,
      "learning_rate": 5.851015272080561e-06,
      "loss": 1.5009,
      "step": 84493
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6407504081726074,
      "learning_rate": 5.848961233781846e-06,
      "loss": 1.4545,
      "step": 84494
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6812146306037903,
      "learning_rate": 5.8469075525391155e-06,
      "loss": 1.5542,
      "step": 84495
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6643515825271606,
      "learning_rate": 5.844854228354934e-06,
      "loss": 1.5871,
      "step": 84496
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6598598957061768,
      "learning_rate": 5.8428012612316995e-06,
      "loss": 1.454,
      "step": 84497
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6846433877944946,
      "learning_rate": 5.8407486511720115e-06,
      "loss": 1.498,
      "step": 84498
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6630181670188904,
      "learning_rate": 5.8386963981783e-06,
      "loss": 1.4881,
      "step": 84499
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.700643002986908,
      "learning_rate": 5.836644502253063e-06,
      "loss": 1.5118,
      "step": 84500
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6922224760055542,
      "learning_rate": 5.834592963398832e-06,
      "loss": 1.4667,
      "step": 84501
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7002375721931458,
      "learning_rate": 5.832541781618006e-06,
      "loss": 1.5038,
      "step": 84502
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.696578860282898,
      "learning_rate": 5.8304909569131804e-06,
      "loss": 1.5266,
      "step": 84503
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.68366938829422,
      "learning_rate": 5.82844048928679e-06,
      "loss": 1.5386,
      "step": 84504
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6756980419158936,
      "learning_rate": 5.826390378741297e-06,
      "loss": 1.4142,
      "step": 84505
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.67356276512146,
      "learning_rate": 5.8243406252792004e-06,
      "loss": 1.4798,
      "step": 84506
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6992238163948059,
      "learning_rate": 5.822291228903064e-06,
      "loss": 1.5309,
      "step": 84507
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7098889350891113,
      "learning_rate": 5.8202421896153205e-06,
      "loss": 1.5563,
      "step": 84508
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6860211491584778,
      "learning_rate": 5.8181935074184e-06,
      "loss": 1.5363,
      "step": 84509
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6862003803253174,
      "learning_rate": 5.816145182314902e-06,
      "loss": 1.5699,
      "step": 84510
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6805346608161926,
      "learning_rate": 5.814097214307256e-06,
      "loss": 1.531,
      "step": 84511
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7114918231964111,
      "learning_rate": 5.812049603397928e-06,
      "loss": 1.4915,
      "step": 84512
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6992049217224121,
      "learning_rate": 5.810002349589416e-06,
      "loss": 1.4391,
      "step": 84513
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6984515190124512,
      "learning_rate": 5.80795545288425e-06,
      "loss": 1.4991,
      "step": 84514
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6545107364654541,
      "learning_rate": 5.8059089132848625e-06,
      "loss": 1.4592,
      "step": 84515
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6949857473373413,
      "learning_rate": 5.803862730793718e-06,
      "loss": 1.4771,
      "step": 84516
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6884603500366211,
      "learning_rate": 5.801816905413381e-06,
      "loss": 1.522,
      "step": 84517
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6664648056030273,
      "learning_rate": 5.799771437146317e-06,
      "loss": 1.4746,
      "step": 84518
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6983481645584106,
      "learning_rate": 5.7977263259949224e-06,
      "loss": 1.551,
      "step": 84519
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7083840370178223,
      "learning_rate": 5.79568157196173e-06,
      "loss": 1.5096,
      "step": 84520
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6940378546714783,
      "learning_rate": 5.793637175049271e-06,
      "loss": 1.4872,
      "step": 84521
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6842981576919556,
      "learning_rate": 5.7915931352600086e-06,
      "loss": 1.4644,
      "step": 84522
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7064322829246521,
      "learning_rate": 5.789549452596343e-06,
      "loss": 1.5153,
      "step": 84523
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6612618565559387,
      "learning_rate": 5.78750612706087e-06,
      "loss": 1.5869,
      "step": 84524
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7074365615844727,
      "learning_rate": 5.785463158655989e-06,
      "loss": 1.5131,
      "step": 84525
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6673491597175598,
      "learning_rate": 5.7834205473841985e-06,
      "loss": 1.4708,
      "step": 84526
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6875600814819336,
      "learning_rate": 5.781378293247962e-06,
      "loss": 1.5514,
      "step": 84527
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6722905039787292,
      "learning_rate": 5.779336396249812e-06,
      "loss": 1.5102,
      "step": 84528
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7003270983695984,
      "learning_rate": 5.7772948563922115e-06,
      "loss": 1.4795,
      "step": 84529
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6489647626876831,
      "learning_rate": 5.775253673677594e-06,
      "loss": 1.5368,
      "step": 84530
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6898590326309204,
      "learning_rate": 5.773212848108488e-06,
      "loss": 1.4658,
      "step": 84531
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.679363489151001,
      "learning_rate": 5.771172379687361e-06,
      "loss": 1.5469,
      "step": 84532
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6601883172988892,
      "learning_rate": 5.769132268416643e-06,
      "loss": 1.4902,
      "step": 84533
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6805930733680725,
      "learning_rate": 5.767092514298865e-06,
      "loss": 1.5717,
      "step": 84534
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6912630200386047,
      "learning_rate": 5.76505311733646e-06,
      "loss": 1.4952,
      "step": 84535
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6888166069984436,
      "learning_rate": 5.763014077531958e-06,
      "loss": 1.4843,
      "step": 84536
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6704337000846863,
      "learning_rate": 5.7609753948877565e-06,
      "loss": 1.4741,
      "step": 84537
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7071765065193176,
      "learning_rate": 5.758937069406422e-06,
      "loss": 1.5698,
      "step": 84538
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6727257370948792,
      "learning_rate": 5.756899101090384e-06,
      "loss": 1.4967,
      "step": 84539
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6727330684661865,
      "learning_rate": 5.754861489942108e-06,
      "loss": 1.4646,
      "step": 84540
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6963163614273071,
      "learning_rate": 5.75282423596406e-06,
      "loss": 1.5408,
      "step": 84541
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6892085075378418,
      "learning_rate": 5.750787339158736e-06,
      "loss": 1.4705,
      "step": 84542
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6810173988342285,
      "learning_rate": 5.748750799528601e-06,
      "loss": 1.5569,
      "step": 84543
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6593336462974548,
      "learning_rate": 5.746714617076154e-06,
      "loss": 1.4583,
      "step": 84544
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6813569664955139,
      "learning_rate": 5.744678791803792e-06,
      "loss": 1.5081,
      "step": 84545
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6653726696968079,
      "learning_rate": 5.74264332371408e-06,
      "loss": 1.5926,
      "step": 84546
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6927845478057861,
      "learning_rate": 5.7406082128093835e-06,
      "loss": 1.5929,
      "step": 84547
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7081056237220764,
      "learning_rate": 5.7385734590922994e-06,
      "loss": 1.5551,
      "step": 84548
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6622651219367981,
      "learning_rate": 5.7365390625651595e-06,
      "loss": 1.4901,
      "step": 84549
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6803647875785828,
      "learning_rate": 5.734505023230562e-06,
      "loss": 1.4724,
      "step": 84550
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6770809888839722,
      "learning_rate": 5.732471341090905e-06,
      "loss": 1.5141,
      "step": 84551
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6737149357795715,
      "learning_rate": 5.730438016148653e-06,
      "loss": 1.5193,
      "step": 84552
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6628355383872986,
      "learning_rate": 5.728405048406304e-06,
      "loss": 1.4523,
      "step": 84553
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6923782825469971,
      "learning_rate": 5.726372437866322e-06,
      "loss": 1.5946,
      "step": 84554
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.689454972743988,
      "learning_rate": 5.72434018453114e-06,
      "loss": 1.466,
      "step": 84555
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6848663687705994,
      "learning_rate": 5.722308288403221e-06,
      "loss": 1.5046,
      "step": 84556
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.943544328212738,
      "learning_rate": 5.720276749485131e-06,
      "loss": 1.5523,
      "step": 84557
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.682413637638092,
      "learning_rate": 5.7182455677792334e-06,
      "loss": 1.5529,
      "step": 84558
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6833699941635132,
      "learning_rate": 5.716214743287995e-06,
      "loss": 1.5438,
      "step": 84559
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6770846843719482,
      "learning_rate": 5.714184276013978e-06,
      "loss": 1.4889,
      "step": 84560
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6714317798614502,
      "learning_rate": 5.712154165959548e-06,
      "loss": 1.4845,
      "step": 84561
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6873631477355957,
      "learning_rate": 5.71012441312717e-06,
      "loss": 1.6005,
      "step": 84562
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6707373261451721,
      "learning_rate": 5.708095017519343e-06,
      "loss": 1.4798,
      "step": 84563
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7140689492225647,
      "learning_rate": 5.7060659791385964e-06,
      "loss": 1.5472,
      "step": 84564
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.677508533000946,
      "learning_rate": 5.704037297987263e-06,
      "loss": 1.4867,
      "step": 84565
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6786125302314758,
      "learning_rate": 5.702008974067873e-06,
      "loss": 1.5149,
      "step": 84566
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7022184729576111,
      "learning_rate": 5.699981007382892e-06,
      "loss": 1.4658,
      "step": 84567
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6668962836265564,
      "learning_rate": 5.6979533979347844e-06,
      "loss": 1.577,
      "step": 84568
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6770733594894409,
      "learning_rate": 5.695926145725949e-06,
      "loss": 1.4884,
      "step": 84569
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7115993499755859,
      "learning_rate": 5.6938992507589155e-06,
      "loss": 1.4706,
      "step": 84570
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6667352914810181,
      "learning_rate": 5.691872713036183e-06,
      "loss": 1.4862,
      "step": 84571
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6922447085380554,
      "learning_rate": 5.689846532560083e-06,
      "loss": 1.5539,
      "step": 84572
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6771789789199829,
      "learning_rate": 5.687820709333146e-06,
      "loss": 1.5683,
      "step": 84573
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6921094655990601,
      "learning_rate": 5.685795243357871e-06,
      "loss": 1.5436,
      "step": 84574
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6753726601600647,
      "learning_rate": 5.683770134636656e-06,
      "loss": 1.4545,
      "step": 84575
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7111617922782898,
      "learning_rate": 5.681745383171965e-06,
      "loss": 1.5728,
      "step": 84576
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6685470342636108,
      "learning_rate": 5.679720988966263e-06,
      "loss": 1.5765,
      "step": 84577
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6857517957687378,
      "learning_rate": 5.677696952022082e-06,
      "loss": 1.5353,
      "step": 84578
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6913707852363586,
      "learning_rate": 5.675673272341719e-06,
      "loss": 1.5281,
      "step": 84579
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6830456256866455,
      "learning_rate": 5.673649949927772e-06,
      "loss": 1.5427,
      "step": 84580
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6938895583152771,
      "learning_rate": 5.67162698478264e-06,
      "loss": 1.5175,
      "step": 84581
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6894790530204773,
      "learning_rate": 5.669604376908787e-06,
      "loss": 1.5138,
      "step": 84582
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6829161047935486,
      "learning_rate": 5.667582126308645e-06,
      "loss": 1.5333,
      "step": 84583
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.649550199508667,
      "learning_rate": 5.665560232984745e-06,
      "loss": 1.4969,
      "step": 84584
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6616433262825012,
      "learning_rate": 5.663538696939452e-06,
      "loss": 1.4283,
      "step": 84585
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6791735887527466,
      "learning_rate": 5.661517518175229e-06,
      "loss": 1.5739,
      "step": 84586
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.69321209192276,
      "learning_rate": 5.659496696694577e-06,
      "loss": 1.5368,
      "step": 84587
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6812514662742615,
      "learning_rate": 5.6574762324999246e-06,
      "loss": 1.5672,
      "step": 84588
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6866852045059204,
      "learning_rate": 5.655456125593738e-06,
      "loss": 1.4318,
      "step": 84589
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6909308433532715,
      "learning_rate": 5.653436375978449e-06,
      "loss": 1.4896,
      "step": 84590
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6940433979034424,
      "learning_rate": 5.65141698365652e-06,
      "loss": 1.4953,
      "step": 84591
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6697163581848145,
      "learning_rate": 5.649397948630419e-06,
      "loss": 1.5678,
      "step": 84592
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6948460340499878,
      "learning_rate": 5.6473792709025415e-06,
      "loss": 1.501,
      "step": 84593
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6825209259986877,
      "learning_rate": 5.6453609504753864e-06,
      "loss": 1.477,
      "step": 84594
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6834594011306763,
      "learning_rate": 5.643342987351418e-06,
      "loss": 1.5208,
      "step": 84595
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6870936751365662,
      "learning_rate": 5.6413253815330354e-06,
      "loss": 1.5987,
      "step": 84596
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6704809069633484,
      "learning_rate": 5.639308133022735e-06,
      "loss": 1.4524,
      "step": 84597
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.687303364276886,
      "learning_rate": 5.637291241822916e-06,
      "loss": 1.5055,
      "step": 84598
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6932336688041687,
      "learning_rate": 5.635274707936077e-06,
      "loss": 1.5915,
      "step": 84599
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6719168424606323,
      "learning_rate": 5.633258531364615e-06,
      "loss": 1.5178,
      "step": 84600
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6669074296951294,
      "learning_rate": 5.6312427121110286e-06,
      "loss": 1.5483,
      "step": 84601
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6751630902290344,
      "learning_rate": 5.629227250177715e-06,
      "loss": 1.4376,
      "step": 84602
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.67775958776474,
      "learning_rate": 5.627212145567173e-06,
      "loss": 1.4877,
      "step": 84603
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6857867240905762,
      "learning_rate": 5.6251973982818e-06,
      "loss": 1.4395,
      "step": 84604
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.7298772931098938,
      "learning_rate": 5.623183008324061e-06,
      "loss": 1.5013,
      "step": 84605
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6959185600280762,
      "learning_rate": 5.6211689756964215e-06,
      "loss": 1.5506,
      "step": 84606
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6805040240287781,
      "learning_rate": 5.619155300401313e-06,
      "loss": 1.5677,
      "step": 84607
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6696609258651733,
      "learning_rate": 5.617141982441164e-06,
      "loss": 1.514,
      "step": 84608
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.6531642079353333,
      "learning_rate": 5.61512902181841e-06,
      "loss": 1.5067,
      "step": 84609
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.664557933807373,
      "learning_rate": 5.613116418535546e-06,
      "loss": 1.5475,
      "step": 84610
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6882047653198242,
      "learning_rate": 5.611104172594971e-06,
      "loss": 1.472,
      "step": 84611
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.661653459072113,
      "learning_rate": 5.609092283999117e-06,
      "loss": 1.5893,
      "step": 84612
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6882920861244202,
      "learning_rate": 5.607080752750481e-06,
      "loss": 1.5179,
      "step": 84613
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6954775452613831,
      "learning_rate": 5.605069578851462e-06,
      "loss": 1.5592,
      "step": 84614
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6920102834701538,
      "learning_rate": 5.603058762304524e-06,
      "loss": 1.5507,
      "step": 84615
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6798060536384583,
      "learning_rate": 5.601048303112066e-06,
      "loss": 1.5111,
      "step": 84616
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6625841856002808,
      "learning_rate": 5.599038201276584e-06,
      "loss": 1.4522,
      "step": 84617
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.683147668838501,
      "learning_rate": 5.597028456800479e-06,
      "loss": 1.5437,
      "step": 84618
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6936675906181335,
      "learning_rate": 5.59501906968618e-06,
      "loss": 1.4989,
      "step": 84619
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.691162109375,
      "learning_rate": 5.593010039936186e-06,
      "loss": 1.5018,
      "step": 84620
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6817500591278076,
      "learning_rate": 5.591001367552894e-06,
      "loss": 1.5231,
      "step": 84621
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6682294011116028,
      "learning_rate": 5.5889930525387375e-06,
      "loss": 1.5261,
      "step": 84622
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6704803705215454,
      "learning_rate": 5.586985094896146e-06,
      "loss": 1.466,
      "step": 84623
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6803158521652222,
      "learning_rate": 5.584977494627618e-06,
      "loss": 1.5325,
      "step": 84624
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6959004998207092,
      "learning_rate": 5.582970251735519e-06,
      "loss": 1.4907,
      "step": 84625
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6766722202301025,
      "learning_rate": 5.580963366222313e-06,
      "loss": 1.4703,
      "step": 84626
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.671944797039032,
      "learning_rate": 5.578956838090465e-06,
      "loss": 1.5273,
      "step": 84627
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6744396090507507,
      "learning_rate": 5.576950667342372e-06,
      "loss": 1.4866,
      "step": 84628
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6769610643386841,
      "learning_rate": 5.5749448539804344e-06,
      "loss": 1.4965,
      "step": 84629
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6596126556396484,
      "learning_rate": 5.572939398007182e-06,
      "loss": 1.5084,
      "step": 84630
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6758540272712708,
      "learning_rate": 5.570934299424979e-06,
      "loss": 1.5194,
      "step": 84631
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6788389682769775,
      "learning_rate": 5.56892955823629e-06,
      "loss": 1.5137,
      "step": 84632
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6686309576034546,
      "learning_rate": 5.566925174443515e-06,
      "loss": 1.5567,
      "step": 84633
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.670241117477417,
      "learning_rate": 5.564921148049118e-06,
      "loss": 1.4526,
      "step": 84634
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6835817694664001,
      "learning_rate": 5.562917479055562e-06,
      "loss": 1.4031,
      "step": 84635
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6728946566581726,
      "learning_rate": 5.560914167465213e-06,
      "loss": 1.5127,
      "step": 84636
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6798247694969177,
      "learning_rate": 5.558911213280504e-06,
      "loss": 1.4993,
      "step": 84637
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7111016511917114,
      "learning_rate": 5.55690861650393e-06,
      "loss": 1.5664,
      "step": 84638
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6725793480873108,
      "learning_rate": 5.554906377137891e-06,
      "loss": 1.4706,
      "step": 84639
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6713960766792297,
      "learning_rate": 5.552904495184784e-06,
      "loss": 1.5206,
      "step": 84640
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6842076182365417,
      "learning_rate": 5.550902970647076e-06,
      "loss": 1.559,
      "step": 84641
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6904153227806091,
      "learning_rate": 5.548901803527195e-06,
      "loss": 1.5031,
      "step": 84642
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.670977771282196,
      "learning_rate": 5.546900993827541e-06,
      "loss": 1.5237,
      "step": 84643
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6773484349250793,
      "learning_rate": 5.544900541550578e-06,
      "loss": 1.4453,
      "step": 84644
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6737801432609558,
      "learning_rate": 5.542900446698706e-06,
      "loss": 1.542,
      "step": 84645
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6740712523460388,
      "learning_rate": 5.5409007092743875e-06,
      "loss": 1.5442,
      "step": 84646
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6946805715560913,
      "learning_rate": 5.538901329280021e-06,
      "loss": 1.5649,
      "step": 84647
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.682411789894104,
      "learning_rate": 5.536902306718038e-06,
      "loss": 1.506,
      "step": 84648
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6572878956794739,
      "learning_rate": 5.534903641590904e-06,
      "loss": 1.4493,
      "step": 84649
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.682346522808075,
      "learning_rate": 5.53290533390095e-06,
      "loss": 1.4781,
      "step": 84650
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.675349771976471,
      "learning_rate": 5.530907383650707e-06,
      "loss": 1.5232,
      "step": 84651
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6608429551124573,
      "learning_rate": 5.528909790842506e-06,
      "loss": 1.473,
      "step": 84652
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6791681051254272,
      "learning_rate": 5.52691255547888e-06,
      "loss": 1.5837,
      "step": 84653
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6690311431884766,
      "learning_rate": 5.524915677562125e-06,
      "loss": 1.4897,
      "step": 84654
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6664819717407227,
      "learning_rate": 5.5229191570948076e-06,
      "loss": 1.4909,
      "step": 84655
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6871706247329712,
      "learning_rate": 5.520922994079258e-06,
      "loss": 1.4995,
      "step": 84656
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6773978471755981,
      "learning_rate": 5.518927188517874e-06,
      "loss": 1.4753,
      "step": 84657
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6786526441574097,
      "learning_rate": 5.5169317404131556e-06,
      "loss": 1.558,
      "step": 84658
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.699859619140625,
      "learning_rate": 5.514936649767465e-06,
      "loss": 1.4311,
      "step": 84659
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6685175895690918,
      "learning_rate": 5.512941916583302e-06,
      "loss": 1.4804,
      "step": 84660
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6826857328414917,
      "learning_rate": 5.510947540862998e-06,
      "loss": 1.5282,
      "step": 84661
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6749942898750305,
      "learning_rate": 5.5089535226090165e-06,
      "loss": 1.5356,
      "step": 84662
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6922701001167297,
      "learning_rate": 5.5069598618237895e-06,
      "loss": 1.5635,
      "step": 84663
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6912546753883362,
      "learning_rate": 5.5049665585097155e-06,
      "loss": 1.5214,
      "step": 84664
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6793121695518494,
      "learning_rate": 5.5029736126692256e-06,
      "loss": 1.6071,
      "step": 84665
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6957699656486511,
      "learning_rate": 5.500981024304718e-06,
      "loss": 1.4677,
      "step": 84666
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6874953508377075,
      "learning_rate": 5.498988793418624e-06,
      "loss": 1.5135,
      "step": 84667
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6571916937828064,
      "learning_rate": 5.4969969200133745e-06,
      "loss": 1.5205,
      "step": 84668
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6616280674934387,
      "learning_rate": 5.495005404091368e-06,
      "loss": 1.4549,
      "step": 84669
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.705726146697998,
      "learning_rate": 5.4930142456550695e-06,
      "loss": 1.5429,
      "step": 84670
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6927478909492493,
      "learning_rate": 5.4910234447068434e-06,
      "loss": 1.4926,
      "step": 84671
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6598331928253174,
      "learning_rate": 5.489033001249088e-06,
      "loss": 1.5189,
      "step": 84672
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6808215379714966,
      "learning_rate": 5.487042915284268e-06,
      "loss": 1.5076,
      "step": 84673
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6693723797798157,
      "learning_rate": 5.485053186814781e-06,
      "loss": 1.5847,
      "step": 84674
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6609890460968018,
      "learning_rate": 5.4830638158430584e-06,
      "loss": 1.4633,
      "step": 84675
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6724807024002075,
      "learning_rate": 5.481074802371499e-06,
      "loss": 1.5001,
      "step": 84676
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6742205619812012,
      "learning_rate": 5.479086146402534e-06,
      "loss": 1.5127,
      "step": 84677
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6591030359268188,
      "learning_rate": 5.477097847938528e-06,
      "loss": 1.4188,
      "step": 84678
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7134169936180115,
      "learning_rate": 5.475109906981945e-06,
      "loss": 1.5911,
      "step": 84679
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6945614218711853,
      "learning_rate": 5.47312232353515e-06,
      "loss": 1.4741,
      "step": 84680
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6937995553016663,
      "learning_rate": 5.4711350976006765e-06,
      "loss": 1.594,
      "step": 84681
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6539019346237183,
      "learning_rate": 5.469148229180787e-06,
      "loss": 1.4619,
      "step": 84682
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6480070948600769,
      "learning_rate": 5.467161718277946e-06,
      "loss": 1.4882,
      "step": 84683
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6610583662986755,
      "learning_rate": 5.465175564894586e-06,
      "loss": 1.5309,
      "step": 84684
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6909567713737488,
      "learning_rate": 5.463189769033105e-06,
      "loss": 1.5023,
      "step": 84685
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.685230553150177,
      "learning_rate": 5.461204330695901e-06,
      "loss": 1.4854,
      "step": 84686
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6802963018417358,
      "learning_rate": 5.459219249885404e-06,
      "loss": 1.4233,
      "step": 84687
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6836941242218018,
      "learning_rate": 5.457234526604048e-06,
      "loss": 1.5702,
      "step": 84688
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6786067485809326,
      "learning_rate": 5.455250160854197e-06,
      "loss": 1.5016,
      "step": 84689
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6801593899726868,
      "learning_rate": 5.453266152638247e-06,
      "loss": 1.4998,
      "step": 84690
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6836012601852417,
      "learning_rate": 5.451282501958632e-06,
      "loss": 1.5716,
      "step": 84691
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6858016848564148,
      "learning_rate": 5.449299208817815e-06,
      "loss": 1.6204,
      "step": 84692
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6702878475189209,
      "learning_rate": 5.4473162732180944e-06,
      "loss": 1.4892,
      "step": 84693
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6591998338699341,
      "learning_rate": 5.445333695161902e-06,
      "loss": 1.5225,
      "step": 84694
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6877087950706482,
      "learning_rate": 5.443351474651769e-06,
      "loss": 1.5366,
      "step": 84695
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7826529145240784,
      "learning_rate": 5.441369611689927e-06,
      "loss": 1.5423,
      "step": 84696
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7049210667610168,
      "learning_rate": 5.439388106278908e-06,
      "loss": 1.4872,
      "step": 84697
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6727983355522156,
      "learning_rate": 5.437406958421042e-06,
      "loss": 1.5651,
      "step": 84698
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6638475060462952,
      "learning_rate": 5.435426168118795e-06,
      "loss": 1.4891,
      "step": 84699
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6593279838562012,
      "learning_rate": 5.433445735374498e-06,
      "loss": 1.4722,
      "step": 84700
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6734172701835632,
      "learning_rate": 5.4314656601906146e-06,
      "loss": 1.5001,
      "step": 84701
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6920792460441589,
      "learning_rate": 5.429485942569544e-06,
      "loss": 1.5025,
      "step": 84702
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6534126400947571,
      "learning_rate": 5.427506582513652e-06,
      "loss": 1.4436,
      "step": 84703
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.663621723651886,
      "learning_rate": 5.425527580025335e-06,
      "loss": 1.5102,
      "step": 84704
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6999632120132446,
      "learning_rate": 5.423548935107091e-06,
      "loss": 1.5183,
      "step": 84705
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6585444808006287,
      "learning_rate": 5.42157064776122e-06,
      "loss": 1.5298,
      "step": 84706
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6854851841926575,
      "learning_rate": 5.419592717990151e-06,
      "loss": 1.5121,
      "step": 84707
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6822616457939148,
      "learning_rate": 5.417615145796317e-06,
      "loss": 1.4565,
      "step": 84708
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6845965385437012,
      "learning_rate": 5.4156379311820815e-06,
      "loss": 1.4636,
      "step": 84709
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6928462386131287,
      "learning_rate": 5.413661074149844e-06,
      "loss": 1.5209,
      "step": 84710
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6841427087783813,
      "learning_rate": 5.411684574702002e-06,
      "loss": 1.4691,
      "step": 84711
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6797484159469604,
      "learning_rate": 5.40970843284102e-06,
      "loss": 1.5145,
      "step": 84712
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6453613042831421,
      "learning_rate": 5.40773264856923e-06,
      "loss": 1.4501,
      "step": 84713
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6753131747245789,
      "learning_rate": 5.4057572218890285e-06,
      "loss": 1.4125,
      "step": 84714
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6639065146446228,
      "learning_rate": 5.4037821528028495e-06,
      "loss": 1.4424,
      "step": 84715
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.651142418384552,
      "learning_rate": 5.401807441313055e-06,
      "loss": 1.5035,
      "step": 84716
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6689655184745789,
      "learning_rate": 5.399833087422079e-06,
      "loss": 1.5193,
      "step": 84717
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6810266971588135,
      "learning_rate": 5.397859091132284e-06,
      "loss": 1.5452,
      "step": 84718
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6781037449836731,
      "learning_rate": 5.395885452446069e-06,
      "loss": 1.5077,
      "step": 84719
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7401507496833801,
      "learning_rate": 5.393912171365866e-06,
      "loss": 1.4628,
      "step": 84720
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6851475238800049,
      "learning_rate": 5.391939247894006e-06,
      "loss": 1.5582,
      "step": 84721
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6751051545143127,
      "learning_rate": 5.389966682032987e-06,
      "loss": 1.5167,
      "step": 84722
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6511028409004211,
      "learning_rate": 5.387994473785107e-06,
      "loss": 1.5327,
      "step": 84723
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6826331615447998,
      "learning_rate": 5.3860226231527634e-06,
      "loss": 1.5393,
      "step": 84724
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6852532029151917,
      "learning_rate": 5.384051130138422e-06,
      "loss": 1.4915,
      "step": 84725
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6714813709259033,
      "learning_rate": 5.382079994744415e-06,
      "loss": 1.5542,
      "step": 84726
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6777288317680359,
      "learning_rate": 5.380109216973138e-06,
      "loss": 1.4947,
      "step": 84727
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6911801695823669,
      "learning_rate": 5.378138796827025e-06,
      "loss": 1.5632,
      "step": 84728
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.676119863986969,
      "learning_rate": 5.376168734308439e-06,
      "loss": 1.5287,
      "step": 84729
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6969481706619263,
      "learning_rate": 5.374199029419779e-06,
      "loss": 1.548,
      "step": 84730
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6782197952270508,
      "learning_rate": 5.372229682163376e-06,
      "loss": 1.4768,
      "step": 84731
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6738312244415283,
      "learning_rate": 5.370260692541728e-06,
      "loss": 1.5046,
      "step": 84732
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6763970851898193,
      "learning_rate": 5.368292060557167e-06,
      "loss": 1.4871,
      "step": 84733
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7035863995552063,
      "learning_rate": 5.36632378621209e-06,
      "loss": 1.5134,
      "step": 84734
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6751360893249512,
      "learning_rate": 5.364355869508863e-06,
      "loss": 1.5349,
      "step": 84735
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6888149976730347,
      "learning_rate": 5.362388310449884e-06,
      "loss": 1.4915,
      "step": 84736
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6914080381393433,
      "learning_rate": 5.360421109037583e-06,
      "loss": 1.485,
      "step": 84737
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6914917826652527,
      "learning_rate": 5.358454265274326e-06,
      "loss": 1.4787,
      "step": 84738
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7189319133758545,
      "learning_rate": 5.356487779162477e-06,
      "loss": 1.4765,
      "step": 84739
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6647734045982361,
      "learning_rate": 5.354521650704402e-06,
      "loss": 1.6096,
      "step": 84740
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6708959341049194,
      "learning_rate": 5.352555879902564e-06,
      "loss": 1.495,
      "step": 84741
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6754605770111084,
      "learning_rate": 5.35059046675933e-06,
      "loss": 1.5169,
      "step": 84742
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6674267053604126,
      "learning_rate": 5.34862541127703e-06,
      "loss": 1.4833,
      "step": 84743
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.656283974647522,
      "learning_rate": 5.346660713458062e-06,
      "loss": 1.4932,
      "step": 84744
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6842057704925537,
      "learning_rate": 5.3446963733048905e-06,
      "loss": 1.5271,
      "step": 84745
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6730883717536926,
      "learning_rate": 5.342732390819815e-06,
      "loss": 1.5197,
      "step": 84746
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7124179005622864,
      "learning_rate": 5.340768766005232e-06,
      "loss": 1.5613,
      "step": 84747
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6923539042472839,
      "learning_rate": 5.3388054988635745e-06,
      "loss": 1.5162,
      "step": 84748
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.702027440071106,
      "learning_rate": 5.336842589397173e-06,
      "loss": 1.451,
      "step": 84749
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6827797889709473,
      "learning_rate": 5.3348800376083914e-06,
      "loss": 1.555,
      "step": 84750
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6697313785552979,
      "learning_rate": 5.332917843499696e-06,
      "loss": 1.4606,
      "step": 84751
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6965197324752808,
      "learning_rate": 5.330956007073417e-06,
      "loss": 1.5828,
      "step": 84752
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.69725102186203,
      "learning_rate": 5.32899452833192e-06,
      "loss": 1.5261,
      "step": 84753
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6792650818824768,
      "learning_rate": 5.327033407277603e-06,
      "loss": 1.5545,
      "step": 84754
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6655377745628357,
      "learning_rate": 5.325072643912864e-06,
      "loss": 1.4996,
      "step": 84755
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6730940937995911,
      "learning_rate": 5.323112238240101e-06,
      "loss": 1.4991,
      "step": 84756
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6898176074028015,
      "learning_rate": 5.3211521902616125e-06,
      "loss": 1.4743,
      "step": 84757
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6803794503211975,
      "learning_rate": 5.31919249997983e-06,
      "loss": 1.4811,
      "step": 84758
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.669782817363739,
      "learning_rate": 5.31723316739715e-06,
      "loss": 1.5408,
      "step": 84759
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6875380873680115,
      "learning_rate": 5.315274192515906e-06,
      "loss": 1.4378,
      "step": 84760
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6648780107498169,
      "learning_rate": 5.3133155753384946e-06,
      "loss": 1.5548,
      "step": 84761
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6733734011650085,
      "learning_rate": 5.311357315867348e-06,
      "loss": 1.4919,
      "step": 84762
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6610035300254822,
      "learning_rate": 5.3093994141047646e-06,
      "loss": 1.4823,
      "step": 84763
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6723728179931641,
      "learning_rate": 5.307441870053142e-06,
      "loss": 1.4937,
      "step": 84764
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6628510355949402,
      "learning_rate": 5.305484683714878e-06,
      "loss": 1.5442,
      "step": 84765
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6489899754524231,
      "learning_rate": 5.303527855092305e-06,
      "loss": 1.4829,
      "step": 84766
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6802789568901062,
      "learning_rate": 5.301571384187853e-06,
      "loss": 1.5283,
      "step": 84767
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7006012797355652,
      "learning_rate": 5.299615271003854e-06,
      "loss": 1.5199,
      "step": 84768
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7150225639343262,
      "learning_rate": 5.2976595155427075e-06,
      "loss": 1.5171,
      "step": 84769
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6808226108551025,
      "learning_rate": 5.2957041178068094e-06,
      "loss": 1.4307,
      "step": 84770
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6991477012634277,
      "learning_rate": 5.293749077798459e-06,
      "loss": 1.422,
      "step": 84771
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6772376298904419,
      "learning_rate": 5.291794395520088e-06,
      "loss": 1.511,
      "step": 84772
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6716110706329346,
      "learning_rate": 5.289840070974094e-06,
      "loss": 1.4866,
      "step": 84773
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7323535084724426,
      "learning_rate": 5.2878861041627415e-06,
      "loss": 1.4534,
      "step": 84774
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7255383133888245,
      "learning_rate": 5.28593249508853e-06,
      "loss": 1.5887,
      "step": 84775
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6732969284057617,
      "learning_rate": 5.283979243753722e-06,
      "loss": 1.4735,
      "step": 84776
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.68210369348526,
      "learning_rate": 5.282026350160784e-06,
      "loss": 1.4446,
      "step": 84777
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6830335855484009,
      "learning_rate": 5.280073814312047e-06,
      "loss": 1.5338,
      "step": 84778
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6659050583839417,
      "learning_rate": 5.278121636209842e-06,
      "loss": 1.477,
      "step": 84779
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6784477829933167,
      "learning_rate": 5.276169815856601e-06,
      "loss": 1.4963,
      "step": 84780
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6882753372192383,
      "learning_rate": 5.2742183532546226e-06,
      "loss": 1.4981,
      "step": 84781
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6633731126785278,
      "learning_rate": 5.272267248406336e-06,
      "loss": 1.4605,
      "step": 84782
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6580349206924438,
      "learning_rate": 5.270316501314109e-06,
      "loss": 1.475,
      "step": 84783
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6913823485374451,
      "learning_rate": 5.268366111980271e-06,
      "loss": 1.5636,
      "step": 84784
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6608026027679443,
      "learning_rate": 5.266416080407221e-06,
      "loss": 1.4883,
      "step": 84785
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7222482562065125,
      "learning_rate": 5.26446640659729e-06,
      "loss": 1.5381,
      "step": 84786
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6971912980079651,
      "learning_rate": 5.262517090552909e-06,
      "loss": 1.5109,
      "step": 84787
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6742836833000183,
      "learning_rate": 5.260568132276411e-06,
      "loss": 1.4675,
      "step": 84788
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6654201745986938,
      "learning_rate": 5.2586195317701255e-06,
      "loss": 1.5533,
      "step": 84789
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6777895092964172,
      "learning_rate": 5.2566712890364185e-06,
      "loss": 1.4427,
      "step": 84790
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7001999020576477,
      "learning_rate": 5.254723404077721e-06,
      "loss": 1.512,
      "step": 84791
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6840185523033142,
      "learning_rate": 5.252775876896398e-06,
      "loss": 1.5707,
      "step": 84792
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6601739525794983,
      "learning_rate": 5.2508287074947145e-06,
      "loss": 1.5645,
      "step": 84793
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6887115240097046,
      "learning_rate": 5.248881895875134e-06,
      "loss": 1.4749,
      "step": 84794
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.667075514793396,
      "learning_rate": 5.246935442039956e-06,
      "loss": 1.4291,
      "step": 84795
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6980161666870117,
      "learning_rate": 5.2449893459915795e-06,
      "loss": 1.5714,
      "step": 84796
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6802425980567932,
      "learning_rate": 5.243043607732334e-06,
      "loss": 1.447,
      "step": 84797
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6952462196350098,
      "learning_rate": 5.2410982272646505e-06,
      "loss": 1.5027,
      "step": 84798
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7064946889877319,
      "learning_rate": 5.239153204590796e-06,
      "loss": 1.5456,
      "step": 84799
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6994956731796265,
      "learning_rate": 5.2372085397132e-06,
      "loss": 1.5745,
      "step": 84800
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6676053404808044,
      "learning_rate": 5.235264232634195e-06,
      "loss": 1.5229,
      "step": 84801
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6952537894248962,
      "learning_rate": 5.233320283356179e-06,
      "loss": 1.594,
      "step": 84802
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6916242837905884,
      "learning_rate": 5.231376691881417e-06,
      "loss": 1.475,
      "step": 84803
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7040578126907349,
      "learning_rate": 5.2294334582123735e-06,
      "loss": 1.5283,
      "step": 84804
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6521078944206238,
      "learning_rate": 5.227490582351379e-06,
      "loss": 1.3978,
      "step": 84805
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6865549087524414,
      "learning_rate": 5.225548064300766e-06,
      "loss": 1.5425,
      "step": 84806
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6632271409034729,
      "learning_rate": 5.2236059040628664e-06,
      "loss": 1.4649,
      "step": 84807
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6589265465736389,
      "learning_rate": 5.221664101640111e-06,
      "loss": 1.5546,
      "step": 84808
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6560297608375549,
      "learning_rate": 5.2197226570348305e-06,
      "loss": 1.4427,
      "step": 84809
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6846117377281189,
      "learning_rate": 5.217781570249357e-06,
      "loss": 1.4969,
      "step": 84810
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6823606491088867,
      "learning_rate": 5.215840841286056e-06,
      "loss": 1.4866,
      "step": 84811
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6679247617721558,
      "learning_rate": 5.213900470147325e-06,
      "loss": 1.5174,
      "step": 84812
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6674643158912659,
      "learning_rate": 5.211960456835462e-06,
      "loss": 1.5303,
      "step": 84813
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6886439919471741,
      "learning_rate": 5.210020801352832e-06,
      "loss": 1.5004,
      "step": 84814
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6513508558273315,
      "learning_rate": 5.2080815037017995e-06,
      "loss": 1.5278,
      "step": 84815
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6962428092956543,
      "learning_rate": 5.2061425638847635e-06,
      "loss": 1.5276,
      "step": 84816
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6785160303115845,
      "learning_rate": 5.2042039819039875e-06,
      "loss": 1.542,
      "step": 84817
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6899384260177612,
      "learning_rate": 5.202265757761903e-06,
      "loss": 1.54,
      "step": 84818
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6761003732681274,
      "learning_rate": 5.200327891460809e-06,
      "loss": 1.5378,
      "step": 84819
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6656848192214966,
      "learning_rate": 5.19839038300307e-06,
      "loss": 1.5727,
      "step": 84820
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6767647862434387,
      "learning_rate": 5.196453232391051e-06,
      "loss": 1.4662,
      "step": 84821
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6956019997596741,
      "learning_rate": 5.194516439627117e-06,
      "loss": 1.5759,
      "step": 84822
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6923900842666626,
      "learning_rate": 5.192580004713631e-06,
      "loss": 1.5208,
      "step": 84823
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6654658317565918,
      "learning_rate": 5.19064392765286e-06,
      "loss": 1.4659,
      "step": 84824
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6605877876281738,
      "learning_rate": 5.188708208447234e-06,
      "loss": 1.5188,
      "step": 84825
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6819105744361877,
      "learning_rate": 5.186772847099085e-06,
      "loss": 1.5101,
      "step": 84826
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7026196718215942,
      "learning_rate": 5.1848378436107455e-06,
      "loss": 1.4911,
      "step": 84827
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6754785180091858,
      "learning_rate": 5.182903197984578e-06,
      "loss": 1.4744,
      "step": 84828
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6938403248786926,
      "learning_rate": 5.1809689102229155e-06,
      "loss": 1.578,
      "step": 84829
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.680343508720398,
      "learning_rate": 5.179034980328156e-06,
      "loss": 1.4999,
      "step": 84830
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6918543577194214,
      "learning_rate": 5.177101408302564e-06,
      "loss": 1.5849,
      "step": 84831
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6775023937225342,
      "learning_rate": 5.175168194148538e-06,
      "loss": 1.4731,
      "step": 84832
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7057023048400879,
      "learning_rate": 5.173235337868442e-06,
      "loss": 1.5173,
      "step": 84833
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.66215980052948,
      "learning_rate": 5.171302839464575e-06,
      "loss": 1.4623,
      "step": 84834
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6761012077331543,
      "learning_rate": 5.169370698939301e-06,
      "loss": 1.5641,
      "step": 84835
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6882973313331604,
      "learning_rate": 5.167438916294986e-06,
      "loss": 1.505,
      "step": 84836
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6654728055000305,
      "learning_rate": 5.16550749153396e-06,
      "loss": 1.4685,
      "step": 84837
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6626328229904175,
      "learning_rate": 5.163576424658522e-06,
      "loss": 1.4349,
      "step": 84838
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6973698139190674,
      "learning_rate": 5.161645715671103e-06,
      "loss": 1.5188,
      "step": 84839
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6621453762054443,
      "learning_rate": 5.159715364574035e-06,
      "loss": 1.5327,
      "step": 84840
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7011255025863647,
      "learning_rate": 5.157785371369549e-06,
      "loss": 1.5446,
      "step": 84841
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6789065003395081,
      "learning_rate": 5.155855736060144e-06,
      "loss": 1.5202,
      "step": 84842
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.682587206363678,
      "learning_rate": 5.153926458648017e-06,
      "loss": 1.4783,
      "step": 84843
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.679929792881012,
      "learning_rate": 5.1519975391356325e-06,
      "loss": 1.4714,
      "step": 84844
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6773421168327332,
      "learning_rate": 5.1500689775252905e-06,
      "loss": 1.5493,
      "step": 84845
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6845594048500061,
      "learning_rate": 5.148140773819287e-06,
      "loss": 1.4943,
      "step": 84846
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6829324960708618,
      "learning_rate": 5.1462129280199886e-06,
      "loss": 1.5126,
      "step": 84847
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6667594313621521,
      "learning_rate": 5.144285440129758e-06,
      "loss": 1.4835,
      "step": 84848
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6581628918647766,
      "learning_rate": 5.142358310150929e-06,
      "loss": 1.4868,
      "step": 84849
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6715707778930664,
      "learning_rate": 5.140431538085798e-06,
      "loss": 1.47,
      "step": 84850
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6880115866661072,
      "learning_rate": 5.138505123936765e-06,
      "loss": 1.5673,
      "step": 84851
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6535989046096802,
      "learning_rate": 5.136579067706159e-06,
      "loss": 1.4922,
      "step": 84852
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6915743947029114,
      "learning_rate": 5.13465336939628e-06,
      "loss": 1.4995,
      "step": 84853
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6760205626487732,
      "learning_rate": 5.132728029009492e-06,
      "loss": 1.5422,
      "step": 84854
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6670358180999756,
      "learning_rate": 5.130803046548126e-06,
      "loss": 1.5185,
      "step": 84855
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6640356779098511,
      "learning_rate": 5.128878422014482e-06,
      "loss": 1.4928,
      "step": 84856
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6697342395782471,
      "learning_rate": 5.126954155410956e-06,
      "loss": 1.4776,
      "step": 84857
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6872983574867249,
      "learning_rate": 5.125030246739881e-06,
      "loss": 1.513,
      "step": 84858
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.682730495929718,
      "learning_rate": 5.123106696003554e-06,
      "loss": 1.5311,
      "step": 84859
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6903274059295654,
      "learning_rate": 5.121183503204307e-06,
      "loss": 1.5871,
      "step": 84860
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6618495583534241,
      "learning_rate": 5.119260668344505e-06,
      "loss": 1.4505,
      "step": 84861
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6922497749328613,
      "learning_rate": 5.117338191426512e-06,
      "loss": 1.6038,
      "step": 84862
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6785540580749512,
      "learning_rate": 5.1154160724525935e-06,
      "loss": 1.4486,
      "step": 84863
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6917799711227417,
      "learning_rate": 5.113494311425081e-06,
      "loss": 1.4826,
      "step": 84864
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6616067290306091,
      "learning_rate": 5.111572908346373e-06,
      "loss": 1.5159,
      "step": 84865
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6822441816329956,
      "learning_rate": 5.1096518632187665e-06,
      "loss": 1.5403,
      "step": 84866
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6644347310066223,
      "learning_rate": 5.1077311760445936e-06,
      "loss": 1.4786,
      "step": 84867
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6832727789878845,
      "learning_rate": 5.105810846826153e-06,
      "loss": 1.5489,
      "step": 84868
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7091536521911621,
      "learning_rate": 5.103890875565874e-06,
      "loss": 1.5758,
      "step": 84869
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6995052695274353,
      "learning_rate": 5.101971262265958e-06,
      "loss": 1.5314,
      "step": 84870
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6610440015792847,
      "learning_rate": 5.100052006928801e-06,
      "loss": 1.5323,
      "step": 84871
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6842288970947266,
      "learning_rate": 5.0981331095567345e-06,
      "loss": 1.4574,
      "step": 84872
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.678429126739502,
      "learning_rate": 5.096214570152124e-06,
      "loss": 1.4675,
      "step": 84873
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7000142335891724,
      "learning_rate": 5.0942963887172e-06,
      "loss": 1.5346,
      "step": 84874
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6972665786743164,
      "learning_rate": 5.092378565254396e-06,
      "loss": 1.5814,
      "step": 84875
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7185314297676086,
      "learning_rate": 5.090461099765975e-06,
      "loss": 1.5504,
      "step": 84876
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6836271286010742,
      "learning_rate": 5.088543992254268e-06,
      "loss": 1.4808,
      "step": 84877
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.685335099697113,
      "learning_rate": 5.086627242721608e-06,
      "loss": 1.4735,
      "step": 84878
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7021487355232239,
      "learning_rate": 5.08471085117036e-06,
      "loss": 1.5698,
      "step": 84879
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6784753799438477,
      "learning_rate": 5.082794817602787e-06,
      "loss": 1.5101,
      "step": 84880
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6886903643608093,
      "learning_rate": 5.0808791420212545e-06,
      "loss": 1.5382,
      "step": 84881
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6829591989517212,
      "learning_rate": 5.078963824428095e-06,
      "loss": 1.5028,
      "step": 84882
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.705946147441864,
      "learning_rate": 5.0770488648256395e-06,
      "loss": 1.5609,
      "step": 84883
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6799485683441162,
      "learning_rate": 5.075134263216152e-06,
      "loss": 1.542,
      "step": 84884
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6596735119819641,
      "learning_rate": 5.073220019602031e-06,
      "loss": 1.522,
      "step": 84885
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6719340682029724,
      "learning_rate": 5.071306133985509e-06,
      "loss": 1.4819,
      "step": 84886
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6796835064888,
      "learning_rate": 5.069392606369016e-06,
      "loss": 1.5103,
      "step": 84887
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6733654141426086,
      "learning_rate": 5.067479436754784e-06,
      "loss": 1.4707,
      "step": 84888
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6723374128341675,
      "learning_rate": 5.065566625145212e-06,
      "loss": 1.4831,
      "step": 84889
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6835945844650269,
      "learning_rate": 5.063654171542597e-06,
      "loss": 1.5284,
      "step": 84890
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6739277243614197,
      "learning_rate": 5.061742075949204e-06,
      "loss": 1.5032,
      "step": 84891
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6697542071342468,
      "learning_rate": 5.059830338367432e-06,
      "loss": 1.4291,
      "step": 84892
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6706739664077759,
      "learning_rate": 5.057918958799545e-06,
      "loss": 1.448,
      "step": 84893
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6830588579177856,
      "learning_rate": 5.056007937247908e-06,
      "loss": 1.4549,
      "step": 84894
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6849115490913391,
      "learning_rate": 5.054097273714819e-06,
      "loss": 1.5197,
      "step": 84895
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6902909874916077,
      "learning_rate": 5.052186968202576e-06,
      "loss": 1.5699,
      "step": 84896
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.689784824848175,
      "learning_rate": 5.050277020713545e-06,
      "loss": 1.5032,
      "step": 84897
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6905335783958435,
      "learning_rate": 5.048367431250022e-06,
      "loss": 1.5615,
      "step": 84898
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6880717873573303,
      "learning_rate": 5.046458199814307e-06,
      "loss": 1.4681,
      "step": 84899
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.681663453578949,
      "learning_rate": 5.044549326408698e-06,
      "loss": 1.4829,
      "step": 84900
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6857288479804993,
      "learning_rate": 5.042640811035592e-06,
      "loss": 1.5859,
      "step": 84901
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6816653609275818,
      "learning_rate": 5.040732653697288e-06,
      "loss": 1.5147,
      "step": 84902
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6736327409744263,
      "learning_rate": 5.038824854396017e-06,
      "loss": 1.487,
      "step": 84903
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7021290063858032,
      "learning_rate": 5.036917413134178e-06,
      "loss": 1.5779,
      "step": 84904
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.684702455997467,
      "learning_rate": 5.0350103299140686e-06,
      "loss": 1.4828,
      "step": 84905
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7168179750442505,
      "learning_rate": 5.033103604737954e-06,
      "loss": 1.4953,
      "step": 84906
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.7077926397323608,
      "learning_rate": 5.031197237608198e-06,
      "loss": 1.5072,
      "step": 84907
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6786156296730042,
      "learning_rate": 5.0292912285271325e-06,
      "loss": 1.5019,
      "step": 84908
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6942684650421143,
      "learning_rate": 5.027385577497056e-06,
      "loss": 1.508,
      "step": 84909
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6718962788581848,
      "learning_rate": 5.025480284520234e-06,
      "loss": 1.4704,
      "step": 84910
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.6996546983718872,
      "learning_rate": 5.023575349599063e-06,
      "loss": 1.5075,
      "step": 84911
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6834625005722046,
      "learning_rate": 5.021670772735775e-06,
      "loss": 1.5293,
      "step": 84912
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.701557457447052,
      "learning_rate": 5.019766553932736e-06,
      "loss": 1.5971,
      "step": 84913
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6843985319137573,
      "learning_rate": 5.0178626931922095e-06,
      "loss": 1.5206,
      "step": 84914
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6489588022232056,
      "learning_rate": 5.015959190516561e-06,
      "loss": 1.4916,
      "step": 84915
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6757850050926208,
      "learning_rate": 5.0140560459080546e-06,
      "loss": 1.4305,
      "step": 84916
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6626256108283997,
      "learning_rate": 5.012153259369023e-06,
      "loss": 1.4495,
      "step": 84917
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7036097645759583,
      "learning_rate": 5.010250830901763e-06,
      "loss": 1.5038,
      "step": 84918
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6929594278335571,
      "learning_rate": 5.0083487605086406e-06,
      "loss": 1.5503,
      "step": 84919
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6741639375686646,
      "learning_rate": 5.0064470481918526e-06,
      "loss": 1.5143,
      "step": 84920
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6776491403579712,
      "learning_rate": 5.004545693953799e-06,
      "loss": 1.4527,
      "step": 84921
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6831475496292114,
      "learning_rate": 5.002644697796809e-06,
      "loss": 1.4677,
      "step": 84922
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6722497344017029,
      "learning_rate": 5.000744059723083e-06,
      "loss": 1.4701,
      "step": 84923
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6750860810279846,
      "learning_rate": 4.998843779734985e-06,
      "loss": 1.5522,
      "step": 84924
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.670589804649353,
      "learning_rate": 4.9969438578348455e-06,
      "loss": 1.5679,
      "step": 84925
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6736224293708801,
      "learning_rate": 4.995044294024963e-06,
      "loss": 1.4833,
      "step": 84926
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.702574610710144,
      "learning_rate": 4.993145088307604e-06,
      "loss": 1.5204,
      "step": 84927
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6650604605674744,
      "learning_rate": 4.991246240685099e-06,
      "loss": 1.4952,
      "step": 84928
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6721215844154358,
      "learning_rate": 4.989347751159811e-06,
      "loss": 1.5306,
      "step": 84929
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6881629824638367,
      "learning_rate": 4.987449619733941e-06,
      "loss": 1.5281,
      "step": 84930
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6718607544898987,
      "learning_rate": 4.9855518464098185e-06,
      "loss": 1.4961,
      "step": 84931
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6808756589889526,
      "learning_rate": 4.983654431189777e-06,
      "loss": 1.5067,
      "step": 84932
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6918084025382996,
      "learning_rate": 4.981757374076145e-06,
      "loss": 1.5184,
      "step": 84933
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6899776458740234,
      "learning_rate": 4.979860675071157e-06,
      "loss": 1.5718,
      "step": 84934
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.728003203868866,
      "learning_rate": 4.977964334177176e-06,
      "loss": 1.512,
      "step": 84935
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6562458872795105,
      "learning_rate": 4.976068351396467e-06,
      "loss": 1.5059,
      "step": 84936
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.679048478603363,
      "learning_rate": 4.974172726731329e-06,
      "loss": 1.4742,
      "step": 84937
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6902986764907837,
      "learning_rate": 4.97227746018406e-06,
      "loss": 1.5152,
      "step": 84938
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6793078184127808,
      "learning_rate": 4.970382551757024e-06,
      "loss": 1.4448,
      "step": 84939
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6978111863136292,
      "learning_rate": 4.968488001452453e-06,
      "loss": 1.5197,
      "step": 84940
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7074097394943237,
      "learning_rate": 4.966593809272645e-06,
      "loss": 1.5009,
      "step": 84941
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7071009278297424,
      "learning_rate": 4.964699975219933e-06,
      "loss": 1.4492,
      "step": 84942
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.658450722694397,
      "learning_rate": 4.962806499296612e-06,
      "loss": 1.4639,
      "step": 84943
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6719416379928589,
      "learning_rate": 4.96091338150495e-06,
      "loss": 1.4639,
      "step": 84944
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6631195545196533,
      "learning_rate": 4.9590206218473095e-06,
      "loss": 1.4934,
      "step": 84945
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6764214038848877,
      "learning_rate": 4.95712822032589e-06,
      "loss": 1.5208,
      "step": 84946
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6897652745246887,
      "learning_rate": 4.955236176943089e-06,
      "loss": 1.5461,
      "step": 84947
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6578435301780701,
      "learning_rate": 4.9533444917011385e-06,
      "loss": 1.5323,
      "step": 84948
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6912079453468323,
      "learning_rate": 4.95145316460237e-06,
      "loss": 1.5544,
      "step": 84949
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7154163122177124,
      "learning_rate": 4.9495621956490815e-06,
      "loss": 1.5113,
      "step": 84950
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6859560608863831,
      "learning_rate": 4.9476715848435045e-06,
      "loss": 1.496,
      "step": 84951
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6751219630241394,
      "learning_rate": 4.945781332188004e-06,
      "loss": 1.4604,
      "step": 84952
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6921795606613159,
      "learning_rate": 4.9438914376848435e-06,
      "loss": 1.5706,
      "step": 84953
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6997232437133789,
      "learning_rate": 4.942001901336323e-06,
      "loss": 1.5109,
      "step": 84954
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6829675436019897,
      "learning_rate": 4.94011272314474e-06,
      "loss": 1.5558,
      "step": 84955
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6934077739715576,
      "learning_rate": 4.938223903112392e-06,
      "loss": 1.4867,
      "step": 84956
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6833986639976501,
      "learning_rate": 4.936335441241579e-06,
      "loss": 1.5369,
      "step": 84957
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.665558397769928,
      "learning_rate": 4.934447337534531e-06,
      "loss": 1.4493,
      "step": 84958
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6848967671394348,
      "learning_rate": 4.9325595919936455e-06,
      "loss": 1.5116,
      "step": 84959
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.690188467502594,
      "learning_rate": 4.930672204621089e-06,
      "loss": 1.5151,
      "step": 84960
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6951808333396912,
      "learning_rate": 4.928785175419292e-06,
      "loss": 1.4637,
      "step": 84961
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6919228434562683,
      "learning_rate": 4.926898504390453e-06,
      "loss": 1.5321,
      "step": 84962
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.68896484375,
      "learning_rate": 4.925012191536837e-06,
      "loss": 1.5453,
      "step": 84963
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6950315237045288,
      "learning_rate": 4.9231262368608085e-06,
      "loss": 1.5505,
      "step": 84964
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6951267719268799,
      "learning_rate": 4.921240640364632e-06,
      "loss": 1.5139,
      "step": 84965
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.662968099117279,
      "learning_rate": 4.9193554020506065e-06,
      "loss": 1.5238,
      "step": 84966
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.679612398147583,
      "learning_rate": 4.917470521920963e-06,
      "loss": 1.5148,
      "step": 84967
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6553507447242737,
      "learning_rate": 4.915585999978067e-06,
      "loss": 1.4746,
      "step": 84968
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6881837248802185,
      "learning_rate": 4.913701836224182e-06,
      "loss": 1.5421,
      "step": 84969
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6725400686264038,
      "learning_rate": 4.911818030661541e-06,
      "loss": 1.5299,
      "step": 84970
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6813496351242065,
      "learning_rate": 4.9099345832925076e-06,
      "loss": 1.5008,
      "step": 84971
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6662442684173584,
      "learning_rate": 4.908051494119347e-06,
      "loss": 1.5255,
      "step": 84972
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6606003046035767,
      "learning_rate": 4.906168763144291e-06,
      "loss": 1.5226,
      "step": 84973
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6447500586509705,
      "learning_rate": 4.904286390369672e-06,
      "loss": 1.4815,
      "step": 84974
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6831883788108826,
      "learning_rate": 4.902404375797786e-06,
      "loss": 1.4982,
      "step": 84975
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.682343602180481,
      "learning_rate": 4.900522719430899e-06,
      "loss": 1.5675,
      "step": 84976
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6817619204521179,
      "learning_rate": 4.898641421271277e-06,
      "loss": 1.4331,
      "step": 84977
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6578344106674194,
      "learning_rate": 4.896760481321216e-06,
      "loss": 1.4253,
      "step": 84978
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6940624713897705,
      "learning_rate": 4.894879899583082e-06,
      "loss": 1.5454,
      "step": 84979
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.693428099155426,
      "learning_rate": 4.8929996760590065e-06,
      "loss": 1.5102,
      "step": 84980
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6721236705780029,
      "learning_rate": 4.891119810751354e-06,
      "loss": 1.4999,
      "step": 84981
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6843974590301514,
      "learning_rate": 4.889240303662423e-06,
      "loss": 1.4643,
      "step": 84982
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6773409843444824,
      "learning_rate": 4.887361154794478e-06,
      "loss": 1.5155,
      "step": 84983
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6736401319503784,
      "learning_rate": 4.885482364149751e-06,
      "loss": 1.4921,
      "step": 84984
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6692166328430176,
      "learning_rate": 4.883603931730607e-06,
      "loss": 1.5224,
      "step": 84985
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.65477055311203,
      "learning_rate": 4.8817258575393096e-06,
      "loss": 1.503,
      "step": 84986
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7091375589370728,
      "learning_rate": 4.879848141578058e-06,
      "loss": 1.506,
      "step": 84987
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6714280843734741,
      "learning_rate": 4.877970783849183e-06,
      "loss": 1.5604,
      "step": 84988
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6710922718048096,
      "learning_rate": 4.876093784354984e-06,
      "loss": 1.5543,
      "step": 84989
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6879677772521973,
      "learning_rate": 4.8742171430977585e-06,
      "loss": 1.4776,
      "step": 84990
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6768524050712585,
      "learning_rate": 4.8723408600797044e-06,
      "loss": 1.5292,
      "step": 84991
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6840678453445435,
      "learning_rate": 4.870464935303154e-06,
      "loss": 1.4948,
      "step": 84992
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6810706257820129,
      "learning_rate": 4.868589368770403e-06,
      "loss": 1.4731,
      "step": 84993
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6652622818946838,
      "learning_rate": 4.866714160483653e-06,
      "loss": 1.4354,
      "step": 84994
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6684607267379761,
      "learning_rate": 4.8648393104452345e-06,
      "loss": 1.5283,
      "step": 84995
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6818280220031738,
      "learning_rate": 4.862964818657411e-06,
      "loss": 1.4807,
      "step": 84996
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6928358674049377,
      "learning_rate": 4.861090685122515e-06,
      "loss": 1.4393,
      "step": 84997
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6681138277053833,
      "learning_rate": 4.859216909842712e-06,
      "loss": 1.47,
      "step": 84998
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6794000267982483,
      "learning_rate": 4.857343492820365e-06,
      "loss": 1.4323,
      "step": 84999
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6740487813949585,
      "learning_rate": 4.855470434057706e-06,
      "loss": 1.4827,
      "step": 85000
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6756569147109985,
      "learning_rate": 4.853597733557002e-06,
      "loss": 1.5274,
      "step": 85001
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6985024809837341,
      "learning_rate": 4.8517253913205486e-06,
      "loss": 1.5713,
      "step": 85002
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6872108578681946,
      "learning_rate": 4.849853407350612e-06,
      "loss": 1.4487,
      "step": 85003
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6768109798431396,
      "learning_rate": 4.84798178164949e-06,
      "loss": 1.4994,
      "step": 85004
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6848741769790649,
      "learning_rate": 4.846110514219381e-06,
      "loss": 1.4975,
      "step": 85005
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.662140429019928,
      "learning_rate": 4.84423960506265e-06,
      "loss": 1.491,
      "step": 85006
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6836121678352356,
      "learning_rate": 4.842369054181528e-06,
      "loss": 1.4817,
      "step": 85007
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6703457236289978,
      "learning_rate": 4.840498861578246e-06,
      "loss": 1.4094,
      "step": 85008
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6900196671485901,
      "learning_rate": 4.8386290272551366e-06,
      "loss": 1.5547,
      "step": 85009
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6614413261413574,
      "learning_rate": 4.836759551214397e-06,
      "loss": 1.487,
      "step": 85010
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6652626991271973,
      "learning_rate": 4.8348904334583935e-06,
      "loss": 1.5485,
      "step": 85011
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6667402982711792,
      "learning_rate": 4.833021673989324e-06,
      "loss": 1.4919,
      "step": 85012
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7217957377433777,
      "learning_rate": 4.831153272809451e-06,
      "loss": 1.468,
      "step": 85013
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6626614928245544,
      "learning_rate": 4.8292852299211095e-06,
      "loss": 1.5812,
      "step": 85014
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6829714775085449,
      "learning_rate": 4.827417545326495e-06,
      "loss": 1.5758,
      "step": 85015
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6625513434410095,
      "learning_rate": 4.825550219027907e-06,
      "loss": 1.4892,
      "step": 85016
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6661896109580994,
      "learning_rate": 4.82368325102761e-06,
      "loss": 1.4227,
      "step": 85017
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6826181411743164,
      "learning_rate": 4.821816641327869e-06,
      "loss": 1.5286,
      "step": 85018
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6812605857849121,
      "learning_rate": 4.819950389930982e-06,
      "loss": 1.4956,
      "step": 85019
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.68506920337677,
      "learning_rate": 4.818084496839147e-06,
      "loss": 1.549,
      "step": 85020
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6980975866317749,
      "learning_rate": 4.816218962054663e-06,
      "loss": 1.5512,
      "step": 85021
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6651800870895386,
      "learning_rate": 4.8143537855798275e-06,
      "loss": 1.5765,
      "step": 85022
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.652064323425293,
      "learning_rate": 4.812488967416839e-06,
      "loss": 1.4672,
      "step": 85023
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.681389331817627,
      "learning_rate": 4.810624507567995e-06,
      "loss": 1.486,
      "step": 85024
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6577252149581909,
      "learning_rate": 4.808760406035561e-06,
      "loss": 1.4358,
      "step": 85025
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.674656331539154,
      "learning_rate": 4.806896662821835e-06,
      "loss": 1.5165,
      "step": 85026
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7199322581291199,
      "learning_rate": 4.805033277928983e-06,
      "loss": 1.5263,
      "step": 85027
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7189834713935852,
      "learning_rate": 4.803170251359367e-06,
      "loss": 1.5074,
      "step": 85028
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.681997537612915,
      "learning_rate": 4.801307583115221e-06,
      "loss": 1.5086,
      "step": 85029
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6835870146751404,
      "learning_rate": 4.799445273198743e-06,
      "loss": 1.4578,
      "step": 85030
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6611457467079163,
      "learning_rate": 4.797583321612264e-06,
      "loss": 1.509,
      "step": 85031
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6735780835151672,
      "learning_rate": 4.795721728358048e-06,
      "loss": 1.4705,
      "step": 85032
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.666702389717102,
      "learning_rate": 4.793860493438295e-06,
      "loss": 1.4531,
      "step": 85033
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.691055953502655,
      "learning_rate": 4.791999616855302e-06,
      "loss": 1.5434,
      "step": 85034
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6682037115097046,
      "learning_rate": 4.7901390986113675e-06,
      "loss": 1.44,
      "step": 85035
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6624382734298706,
      "learning_rate": 4.7882789387086566e-06,
      "loss": 1.4776,
      "step": 85036
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6854721307754517,
      "learning_rate": 4.7864191371494995e-06,
      "loss": 1.4612,
      "step": 85037
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6782927513122559,
      "learning_rate": 4.784559693936096e-06,
      "loss": 1.526,
      "step": 85038
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6553201675415039,
      "learning_rate": 4.782700609070811e-06,
      "loss": 1.4015,
      "step": 85039
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6854968070983887,
      "learning_rate": 4.780841882555775e-06,
      "loss": 1.4819,
      "step": 85040
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6760663986206055,
      "learning_rate": 4.778983514393286e-06,
      "loss": 1.5007,
      "step": 85041
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6737961769104004,
      "learning_rate": 4.777125504585677e-06,
      "loss": 1.4972,
      "step": 85042
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6870433688163757,
      "learning_rate": 4.775267853135112e-06,
      "loss": 1.5537,
      "step": 85043
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6875510811805725,
      "learning_rate": 4.773410560043822e-06,
      "loss": 1.5051,
      "step": 85044
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6779613494873047,
      "learning_rate": 4.77155362531414e-06,
      "loss": 1.454,
      "step": 85045
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6722426414489746,
      "learning_rate": 4.7696970489483285e-06,
      "loss": 1.5514,
      "step": 85046
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7066933512687683,
      "learning_rate": 4.767840830948588e-06,
      "loss": 1.4968,
      "step": 85047
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6869120001792908,
      "learning_rate": 4.765984971317149e-06,
      "loss": 1.4864,
      "step": 85048
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.668168842792511,
      "learning_rate": 4.764129470056344e-06,
      "loss": 1.5186,
      "step": 85049
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7199764847755432,
      "learning_rate": 4.762274327168403e-06,
      "loss": 1.5818,
      "step": 85050
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7010313868522644,
      "learning_rate": 4.760419542655491e-06,
      "loss": 1.5051,
      "step": 85051
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.662580132484436,
      "learning_rate": 4.758565116520008e-06,
      "loss": 1.4646,
      "step": 85052
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6854427456855774,
      "learning_rate": 4.756711048764084e-06,
      "loss": 1.4817,
      "step": 85053
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6782095432281494,
      "learning_rate": 4.754857339389984e-06,
      "loss": 1.5349,
      "step": 85054
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6752766370773315,
      "learning_rate": 4.753003988400006e-06,
      "loss": 1.5072,
      "step": 85055
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.692190945148468,
      "learning_rate": 4.751150995796383e-06,
      "loss": 1.5064,
      "step": 85056
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6741741299629211,
      "learning_rate": 4.749298361581377e-06,
      "loss": 1.4834,
      "step": 85057
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6864069104194641,
      "learning_rate": 4.74744608575719e-06,
      "loss": 1.4831,
      "step": 85058
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6743359565734863,
      "learning_rate": 4.74559416832615e-06,
      "loss": 1.5086,
      "step": 85059
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7172779440879822,
      "learning_rate": 4.743742609290424e-06,
      "loss": 1.5728,
      "step": 85060
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6771284341812134,
      "learning_rate": 4.741891408652276e-06,
      "loss": 1.4709,
      "step": 85061
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.684677243232727,
      "learning_rate": 4.740040566413972e-06,
      "loss": 1.5486,
      "step": 85062
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6901717782020569,
      "learning_rate": 4.738190082577742e-06,
      "loss": 1.566,
      "step": 85063
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6758324503898621,
      "learning_rate": 4.736339957145885e-06,
      "loss": 1.5048,
      "step": 85064
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6736102104187012,
      "learning_rate": 4.734490190120565e-06,
      "loss": 1.4861,
      "step": 85065
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6847179532051086,
      "learning_rate": 4.732640781504116e-06,
      "loss": 1.5148,
      "step": 85066
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6636337041854858,
      "learning_rate": 4.7307917312987e-06,
      "loss": 1.4888,
      "step": 85067
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6857163310050964,
      "learning_rate": 4.728943039506583e-06,
      "loss": 1.528,
      "step": 85068
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6930626630783081,
      "learning_rate": 4.727094706130064e-06,
      "loss": 1.501,
      "step": 85069
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6884456276893616,
      "learning_rate": 4.725246731171306e-06,
      "loss": 1.604,
      "step": 85070
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6979251503944397,
      "learning_rate": 4.7233991146326425e-06,
      "loss": 1.4739,
      "step": 85071
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6693069338798523,
      "learning_rate": 4.721551856516237e-06,
      "loss": 1.4899,
      "step": 85072
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6897096633911133,
      "learning_rate": 4.719704956824322e-06,
      "loss": 1.4983,
      "step": 85073
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6731944680213928,
      "learning_rate": 4.717858415559228e-06,
      "loss": 1.4708,
      "step": 85074
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6709752678871155,
      "learning_rate": 4.716012232723121e-06,
      "loss": 1.5451,
      "step": 85075
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6820576190948486,
      "learning_rate": 4.714166408318299e-06,
      "loss": 1.5313,
      "step": 85076
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6636287569999695,
      "learning_rate": 4.712320942346926e-06,
      "loss": 1.5248,
      "step": 85077
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7275482416152954,
      "learning_rate": 4.710475834811333e-06,
      "loss": 1.5164,
      "step": 85078
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6872172355651855,
      "learning_rate": 4.708631085713688e-06,
      "loss": 1.5048,
      "step": 85079
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6908738017082214,
      "learning_rate": 4.706786695056252e-06,
      "loss": 1.46,
      "step": 85080
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6819862723350525,
      "learning_rate": 4.704942662841293e-06,
      "loss": 1.4653,
      "step": 85081
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7110309600830078,
      "learning_rate": 4.703098989070975e-06,
      "loss": 1.604,
      "step": 85082
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6739540696144104,
      "learning_rate": 4.701255673747628e-06,
      "loss": 1.5263,
      "step": 85083
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6659045219421387,
      "learning_rate": 4.699412716873418e-06,
      "loss": 1.4776,
      "step": 85084
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6868916749954224,
      "learning_rate": 4.697570118450644e-06,
      "loss": 1.6173,
      "step": 85085
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6926103234291077,
      "learning_rate": 4.695727878481503e-06,
      "loss": 1.4756,
      "step": 85086
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6723036766052246,
      "learning_rate": 4.693885996968194e-06,
      "loss": 1.5003,
      "step": 85087
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7145162224769592,
      "learning_rate": 4.692044473913015e-06,
      "loss": 1.5203,
      "step": 85088
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6627129912376404,
      "learning_rate": 4.69020330931823e-06,
      "loss": 1.5012,
      "step": 85089
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6727526783943176,
      "learning_rate": 4.688362503185972e-06,
      "loss": 1.5133,
      "step": 85090
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.705451250076294,
      "learning_rate": 4.6865220555185375e-06,
      "loss": 1.4981,
      "step": 85091
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6727709174156189,
      "learning_rate": 4.684681966318193e-06,
      "loss": 1.5171,
      "step": 85092
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6860169768333435,
      "learning_rate": 4.682842235587103e-06,
      "loss": 1.5026,
      "step": 85093
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6680680513381958,
      "learning_rate": 4.681002863327499e-06,
      "loss": 1.5462,
      "step": 85094
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6840029358863831,
      "learning_rate": 4.679163849541678e-06,
      "loss": 1.5257,
      "step": 85095
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6824713945388794,
      "learning_rate": 4.677325194231873e-06,
      "loss": 1.4725,
      "step": 85096
    },
    {
      "epoch": 2.83,
      "grad_norm": 1.2602866888046265,
      "learning_rate": 4.675486897400216e-06,
      "loss": 1.5184,
      "step": 85097
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6954111456871033,
      "learning_rate": 4.673648959049036e-06,
      "loss": 1.512,
      "step": 85098
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6817479133605957,
      "learning_rate": 4.671811379180535e-06,
      "loss": 1.5013,
      "step": 85099
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6526270508766174,
      "learning_rate": 4.669974157796941e-06,
      "loss": 1.4903,
      "step": 85100
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6640321612358093,
      "learning_rate": 4.668137294900454e-06,
      "loss": 1.5401,
      "step": 85101
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.674146831035614,
      "learning_rate": 4.666300790493338e-06,
      "loss": 1.5811,
      "step": 85102
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6696047186851501,
      "learning_rate": 4.664464644577859e-06,
      "loss": 1.5653,
      "step": 85103
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6589775681495667,
      "learning_rate": 4.662628857156181e-06,
      "loss": 1.4937,
      "step": 85104
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6733996272087097,
      "learning_rate": 4.660793428230536e-06,
      "loss": 1.4808,
      "step": 85105
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6895548701286316,
      "learning_rate": 4.658958357803188e-06,
      "loss": 1.4435,
      "step": 85106
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6704612374305725,
      "learning_rate": 4.657123645876371e-06,
      "loss": 1.4861,
      "step": 85107
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6757091879844666,
      "learning_rate": 4.655289292452247e-06,
      "loss": 1.5551,
      "step": 85108
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6751561164855957,
      "learning_rate": 4.653455297533115e-06,
      "loss": 1.5582,
      "step": 85109
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6856954097747803,
      "learning_rate": 4.651621661121174e-06,
      "loss": 1.5738,
      "step": 85110
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6644163131713867,
      "learning_rate": 4.649788383218622e-06,
      "loss": 1.4791,
      "step": 85111
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7069093585014343,
      "learning_rate": 4.647955463827724e-06,
      "loss": 1.4887,
      "step": 85112
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6817684173583984,
      "learning_rate": 4.646122902950677e-06,
      "loss": 1.4648,
      "step": 85113
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6551519632339478,
      "learning_rate": 4.644290700589748e-06,
      "loss": 1.4288,
      "step": 85114
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6921631097793579,
      "learning_rate": 4.6424588567471e-06,
      "loss": 1.5266,
      "step": 85115
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6802079677581787,
      "learning_rate": 4.640627371424998e-06,
      "loss": 1.476,
      "step": 85116
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7046424150466919,
      "learning_rate": 4.638796244625675e-06,
      "loss": 1.5664,
      "step": 85117
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6807016730308533,
      "learning_rate": 4.6369654763512954e-06,
      "loss": 1.5442,
      "step": 85118
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6676690578460693,
      "learning_rate": 4.635135066604156e-06,
      "loss": 1.4564,
      "step": 85119
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6542597413063049,
      "learning_rate": 4.6333050153864235e-06,
      "loss": 1.4973,
      "step": 85120
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6619450449943542,
      "learning_rate": 4.631475322700362e-06,
      "loss": 1.5117,
      "step": 85121
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.662776529788971,
      "learning_rate": 4.629645988548136e-06,
      "loss": 1.4678,
      "step": 85122
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6614437103271484,
      "learning_rate": 4.627817012932011e-06,
      "loss": 1.5201,
      "step": 85123
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6990063190460205,
      "learning_rate": 4.625988395854219e-06,
      "loss": 1.4956,
      "step": 85124
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6924718618392944,
      "learning_rate": 4.6241601373168905e-06,
      "loss": 1.5706,
      "step": 85125
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6718781590461731,
      "learning_rate": 4.622332237322391e-06,
      "loss": 1.5356,
      "step": 85126
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.68756502866745,
      "learning_rate": 4.620504695872784e-06,
      "loss": 1.5078,
      "step": 85127
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6712183952331543,
      "learning_rate": 4.618677512970403e-06,
      "loss": 1.4488,
      "step": 85128
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6724217534065247,
      "learning_rate": 4.616850688617446e-06,
      "loss": 1.5267,
      "step": 85129
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6875171661376953,
      "learning_rate": 4.615024222816077e-06,
      "loss": 1.5291,
      "step": 85130
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6574188470840454,
      "learning_rate": 4.613198115568562e-06,
      "loss": 1.5065,
      "step": 85131
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6673094034194946,
      "learning_rate": 4.611372366877064e-06,
      "loss": 1.5416,
      "step": 85132
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6557932496070862,
      "learning_rate": 4.609546976743883e-06,
      "loss": 1.4951,
      "step": 85133
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6631907224655151,
      "learning_rate": 4.60772194517115e-06,
      "loss": 1.5061,
      "step": 85134
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6970130801200867,
      "learning_rate": 4.605897272161163e-06,
      "loss": 1.4914,
      "step": 85135
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6907784342765808,
      "learning_rate": 4.604072957716087e-06,
      "loss": 1.5284,
      "step": 85136
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6723283529281616,
      "learning_rate": 4.602249001838087e-06,
      "loss": 1.5006,
      "step": 85137
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6737493872642517,
      "learning_rate": 4.600425404529495e-06,
      "loss": 1.5387,
      "step": 85138
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7010356783866882,
      "learning_rate": 4.598602165792442e-06,
      "loss": 1.517,
      "step": 85139
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6886072158813477,
      "learning_rate": 4.596779285629126e-06,
      "loss": 1.6012,
      "step": 85140
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6758208870887756,
      "learning_rate": 4.5949567640418124e-06,
      "loss": 1.5077,
      "step": 85141
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6989678144454956,
      "learning_rate": 4.5931346010326995e-06,
      "loss": 1.4707,
      "step": 85142
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6688895225524902,
      "learning_rate": 4.591312796604019e-06,
      "loss": 1.4418,
      "step": 85143
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6817448139190674,
      "learning_rate": 4.589491350757934e-06,
      "loss": 1.5319,
      "step": 85144
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6526963710784912,
      "learning_rate": 4.5876702634966785e-06,
      "loss": 1.5629,
      "step": 85145
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6732122898101807,
      "learning_rate": 4.585849534822483e-06,
      "loss": 1.443,
      "step": 85146
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.698806643486023,
      "learning_rate": 4.584029164737512e-06,
      "loss": 1.5412,
      "step": 85147
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6735972762107849,
      "learning_rate": 4.5822091532439984e-06,
      "loss": 1.5037,
      "step": 85148
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6575523614883423,
      "learning_rate": 4.580389500344239e-06,
      "loss": 1.5238,
      "step": 85149
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6789225935935974,
      "learning_rate": 4.5785702060402665e-06,
      "loss": 1.6259,
      "step": 85150
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6463584899902344,
      "learning_rate": 4.576751270334378e-06,
      "loss": 1.4123,
      "step": 85151
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6693320274353027,
      "learning_rate": 4.574932693228839e-06,
      "loss": 1.4872,
      "step": 85152
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6874688863754272,
      "learning_rate": 4.573114474725781e-06,
      "loss": 1.4645,
      "step": 85153
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7015399932861328,
      "learning_rate": 4.5712966148274355e-06,
      "loss": 1.4996,
      "step": 85154
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6933283805847168,
      "learning_rate": 4.569479113535968e-06,
      "loss": 1.5084,
      "step": 85155
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6614651679992676,
      "learning_rate": 4.567661970853709e-06,
      "loss": 1.4923,
      "step": 85156
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7084351181983948,
      "learning_rate": 4.56584518678269e-06,
      "loss": 1.5336,
      "step": 85157
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6832008361816406,
      "learning_rate": 4.564028761325245e-06,
      "loss": 1.4559,
      "step": 85158
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6701590418815613,
      "learning_rate": 4.562212694483536e-06,
      "loss": 1.5547,
      "step": 85159
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6766624450683594,
      "learning_rate": 4.5603969862597955e-06,
      "loss": 1.4737,
      "step": 85160
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6837849020957947,
      "learning_rate": 4.5585816366561555e-06,
      "loss": 1.4917,
      "step": 85161
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6851742267608643,
      "learning_rate": 4.5567666456748804e-06,
      "loss": 1.5416,
      "step": 85162
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6733717322349548,
      "learning_rate": 4.554952013318169e-06,
      "loss": 1.4852,
      "step": 85163
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6844313144683838,
      "learning_rate": 4.55313773958822e-06,
      "loss": 1.4403,
      "step": 85164
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6885162591934204,
      "learning_rate": 4.551323824487196e-06,
      "loss": 1.539,
      "step": 85165
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6980558633804321,
      "learning_rate": 4.549510268017365e-06,
      "loss": 1.599,
      "step": 85166
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7035539746284485,
      "learning_rate": 4.547697070180889e-06,
      "loss": 1.5483,
      "step": 85167
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6700631380081177,
      "learning_rate": 4.545884230979968e-06,
      "loss": 1.4605,
      "step": 85168
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6474435329437256,
      "learning_rate": 4.544071750416833e-06,
      "loss": 1.4607,
      "step": 85169
    },
    {
      "epoch": 2.83,
      "grad_norm": 1.756050705909729,
      "learning_rate": 4.542259628493649e-06,
      "loss": 1.4395,
      "step": 85170
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6675185561180115,
      "learning_rate": 4.5404478652126155e-06,
      "loss": 1.4468,
      "step": 85171
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6848927736282349,
      "learning_rate": 4.538636460575929e-06,
      "loss": 1.5127,
      "step": 85172
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6961283087730408,
      "learning_rate": 4.536825414585854e-06,
      "loss": 1.5118,
      "step": 85173
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.659453809261322,
      "learning_rate": 4.5350147272445235e-06,
      "loss": 1.508,
      "step": 85174
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6782625317573547,
      "learning_rate": 4.533204398554102e-06,
      "loss": 1.5222,
      "step": 85175
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.682283878326416,
      "learning_rate": 4.531394428516888e-06,
      "loss": 1.5312,
      "step": 85176
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6753694415092468,
      "learning_rate": 4.529584817135046e-06,
      "loss": 1.5086,
      "step": 85177
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6727901101112366,
      "learning_rate": 4.527775564410674e-06,
      "loss": 1.4874,
      "step": 85178
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6728743314743042,
      "learning_rate": 4.5259666703461036e-06,
      "loss": 1.4819,
      "step": 85179
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7150942087173462,
      "learning_rate": 4.5241581349434674e-06,
      "loss": 1.4902,
      "step": 85180
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6596848368644714,
      "learning_rate": 4.5223499582049625e-06,
      "loss": 1.5156,
      "step": 85181
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6687187552452087,
      "learning_rate": 4.520542140132755e-06,
      "loss": 1.5202,
      "step": 85182
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6909114122390747,
      "learning_rate": 4.518734680729108e-06,
      "loss": 1.4422,
      "step": 85183
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6916807889938354,
      "learning_rate": 4.516927579996188e-06,
      "loss": 1.5414,
      "step": 85184
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.699317455291748,
      "learning_rate": 4.515120837936159e-06,
      "loss": 1.5181,
      "step": 85185
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7030218839645386,
      "learning_rate": 4.513314454551253e-06,
      "loss": 1.5876,
      "step": 85186
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6859512329101562,
      "learning_rate": 4.511508429843635e-06,
      "loss": 1.472,
      "step": 85187
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.687934398651123,
      "learning_rate": 4.509702763815504e-06,
      "loss": 1.4958,
      "step": 85188
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6820952892303467,
      "learning_rate": 4.507897456469089e-06,
      "loss": 1.5091,
      "step": 85189
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6789283156394958,
      "learning_rate": 4.506092507806491e-06,
      "loss": 1.5365,
      "step": 85190
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.647630512714386,
      "learning_rate": 4.504287917830007e-06,
      "loss": 1.5514,
      "step": 85191
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6837882399559021,
      "learning_rate": 4.502483686541736e-06,
      "loss": 1.457,
      "step": 85192
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6737791299819946,
      "learning_rate": 4.5006798139439415e-06,
      "loss": 1.474,
      "step": 85193
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6990143060684204,
      "learning_rate": 4.498876300038756e-06,
      "loss": 1.4703,
      "step": 85194
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6965311169624329,
      "learning_rate": 4.4970731448284114e-06,
      "loss": 1.5883,
      "step": 85195
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6806021332740784,
      "learning_rate": 4.495270348315105e-06,
      "loss": 1.4738,
      "step": 85196
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6897393465042114,
      "learning_rate": 4.493467910500936e-06,
      "loss": 1.5774,
      "step": 85197
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6730776429176331,
      "learning_rate": 4.491665831388203e-06,
      "loss": 1.5244,
      "step": 85198
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6688776612281799,
      "learning_rate": 4.489864110979036e-06,
      "loss": 1.5423,
      "step": 85199
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6840454936027527,
      "learning_rate": 4.4880627492756336e-06,
      "loss": 1.5607,
      "step": 85200
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6557223796844482,
      "learning_rate": 4.486261746280162e-06,
      "loss": 1.5239,
      "step": 85201
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6978456974029541,
      "learning_rate": 4.4844611019948515e-06,
      "loss": 1.5321,
      "step": 85202
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6827806830406189,
      "learning_rate": 4.482660816421868e-06,
      "loss": 1.4604,
      "step": 85203
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6621858477592468,
      "learning_rate": 4.480860889563376e-06,
      "loss": 1.4879,
      "step": 85204
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6733095049858093,
      "learning_rate": 4.479061321421573e-06,
      "loss": 1.5221,
      "step": 85205
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6452122330665588,
      "learning_rate": 4.4772621119986914e-06,
      "loss": 1.4418,
      "step": 85206
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6645978093147278,
      "learning_rate": 4.47546326129683e-06,
      "loss": 1.5358,
      "step": 85207
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.7007091045379639,
      "learning_rate": 4.473664769318186e-06,
      "loss": 1.5725,
      "step": 85208
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6976536512374878,
      "learning_rate": 4.471866636065024e-06,
      "loss": 1.5004,
      "step": 85209
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.6661193370819092,
      "learning_rate": 4.470068861539444e-06,
      "loss": 1.5209,
      "step": 85210
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.699704110622406,
      "learning_rate": 4.468271445743643e-06,
      "loss": 1.5662,
      "step": 85211
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6831306219100952,
      "learning_rate": 4.4664743886798195e-06,
      "loss": 1.5547,
      "step": 85212
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6655631065368652,
      "learning_rate": 4.464677690350205e-06,
      "loss": 1.5792,
      "step": 85213
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.687773585319519,
      "learning_rate": 4.462881350756864e-06,
      "loss": 1.5147,
      "step": 85214
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6577273011207581,
      "learning_rate": 4.461085369902062e-06,
      "loss": 1.4944,
      "step": 85215
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6902894377708435,
      "learning_rate": 4.459289747787964e-06,
      "loss": 1.5405,
      "step": 85216
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6657200455665588,
      "learning_rate": 4.457494484416735e-06,
      "loss": 1.5297,
      "step": 85217
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6947408318519592,
      "learning_rate": 4.455699579790539e-06,
      "loss": 1.5513,
      "step": 85218
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6827221512794495,
      "learning_rate": 4.453905033911609e-06,
      "loss": 1.5019,
      "step": 85219
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7266815900802612,
      "learning_rate": 4.452110846782109e-06,
      "loss": 1.4864,
      "step": 85220
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.657102644443512,
      "learning_rate": 4.45031701840417e-06,
      "loss": 1.5129,
      "step": 85221
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.683853030204773,
      "learning_rate": 4.448523548779992e-06,
      "loss": 1.4893,
      "step": 85222
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6703335642814636,
      "learning_rate": 4.446730437911772e-06,
      "loss": 1.481,
      "step": 85223
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6914165019989014,
      "learning_rate": 4.444937685801675e-06,
      "loss": 1.5121,
      "step": 85224
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7306352853775024,
      "learning_rate": 4.443145292451866e-06,
      "loss": 1.5503,
      "step": 85225
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6600070595741272,
      "learning_rate": 4.441353257864544e-06,
      "loss": 1.5266,
      "step": 85226
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6597268581390381,
      "learning_rate": 4.439561582041873e-06,
      "loss": 1.5042,
      "step": 85227
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6851139664649963,
      "learning_rate": 4.437770264985985e-06,
      "loss": 1.4764,
      "step": 85228
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6729362607002258,
      "learning_rate": 4.435979306699111e-06,
      "loss": 1.5194,
      "step": 85229
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7002038359642029,
      "learning_rate": 4.43418870718345e-06,
      "loss": 1.528,
      "step": 85230
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6930642127990723,
      "learning_rate": 4.4323984664411e-06,
      "loss": 1.5106,
      "step": 85231
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6893937587738037,
      "learning_rate": 4.43060858447426e-06,
      "loss": 1.4444,
      "step": 85232
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6736241579055786,
      "learning_rate": 4.428819061285127e-06,
      "loss": 1.4597,
      "step": 85233
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6617403626441956,
      "learning_rate": 4.427029896875867e-06,
      "loss": 1.4996,
      "step": 85234
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7021300792694092,
      "learning_rate": 4.425241091248644e-06,
      "loss": 1.4659,
      "step": 85235
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6692405939102173,
      "learning_rate": 4.423452644405623e-06,
      "loss": 1.5289,
      "step": 85236
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6792060136795044,
      "learning_rate": 4.421664556348936e-06,
      "loss": 1.4616,
      "step": 85237
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6668131947517395,
      "learning_rate": 4.419876827080848e-06,
      "loss": 1.4127,
      "step": 85238
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6568853259086609,
      "learning_rate": 4.418089456603458e-06,
      "loss": 1.509,
      "step": 85239
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6967058181762695,
      "learning_rate": 4.4163024449189625e-06,
      "loss": 1.5276,
      "step": 85240
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6703794598579407,
      "learning_rate": 4.414515792029527e-06,
      "loss": 1.4159,
      "step": 85241
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6867431402206421,
      "learning_rate": 4.412729497937284e-06,
      "loss": 1.4881,
      "step": 85242
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6951109170913696,
      "learning_rate": 4.410943562644498e-06,
      "loss": 1.5045,
      "step": 85243
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6580872535705566,
      "learning_rate": 4.4091579861532e-06,
      "loss": 1.5313,
      "step": 85244
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6751492619514465,
      "learning_rate": 4.407372768465689e-06,
      "loss": 1.5613,
      "step": 85245
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6639266610145569,
      "learning_rate": 4.405587909584063e-06,
      "loss": 1.5101,
      "step": 85246
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6805695295333862,
      "learning_rate": 4.4038034095104535e-06,
      "loss": 1.4893,
      "step": 85247
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7288907170295715,
      "learning_rate": 4.402019268247126e-06,
      "loss": 1.539,
      "step": 85248
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6751717329025269,
      "learning_rate": 4.400235485796178e-06,
      "loss": 1.5322,
      "step": 85249
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6893870234489441,
      "learning_rate": 4.398452062159774e-06,
      "loss": 1.5584,
      "step": 85250
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6790785193443298,
      "learning_rate": 4.396668997340114e-06,
      "loss": 1.4425,
      "step": 85251
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6950826048851013,
      "learning_rate": 4.394886291339328e-06,
      "loss": 1.5034,
      "step": 85252
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6919069290161133,
      "learning_rate": 4.393103944159615e-06,
      "loss": 1.4778,
      "step": 85253
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6903029680252075,
      "learning_rate": 4.3913219558031066e-06,
      "loss": 1.4684,
      "step": 85254
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.673067569732666,
      "learning_rate": 4.389540326271968e-06,
      "loss": 1.5367,
      "step": 85255
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.679945707321167,
      "learning_rate": 4.387759055568396e-06,
      "loss": 1.513,
      "step": 85256
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6933567523956299,
      "learning_rate": 4.385978143694491e-06,
      "loss": 1.5689,
      "step": 85257
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6671144366264343,
      "learning_rate": 4.384197590652449e-06,
      "loss": 1.5419,
      "step": 85258
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6789581179618835,
      "learning_rate": 4.382417396444471e-06,
      "loss": 1.4668,
      "step": 85259
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6889805793762207,
      "learning_rate": 4.380637561072687e-06,
      "loss": 1.4146,
      "step": 85260
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6653317809104919,
      "learning_rate": 4.378858084539228e-06,
      "loss": 1.5414,
      "step": 85261
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6873384118080139,
      "learning_rate": 4.377078966846293e-06,
      "loss": 1.5142,
      "step": 85262
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.674105167388916,
      "learning_rate": 4.375300207996013e-06,
      "loss": 1.4895,
      "step": 85263
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6737514138221741,
      "learning_rate": 4.373521807990554e-06,
      "loss": 1.4604,
      "step": 85264
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6830058693885803,
      "learning_rate": 4.371743766832081e-06,
      "loss": 1.4755,
      "step": 85265
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6954946517944336,
      "learning_rate": 4.369966084522791e-06,
      "loss": 1.5746,
      "step": 85266
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6965432167053223,
      "learning_rate": 4.368188761064751e-06,
      "loss": 1.4971,
      "step": 85267
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6561738848686218,
      "learning_rate": 4.36641179646019e-06,
      "loss": 1.5574,
      "step": 85268
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6726667284965515,
      "learning_rate": 4.3646351907112405e-06,
      "loss": 1.5464,
      "step": 85269
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6733591556549072,
      "learning_rate": 4.362858943820069e-06,
      "loss": 1.5139,
      "step": 85270
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6870203614234924,
      "learning_rate": 4.361083055788839e-06,
      "loss": 1.4679,
      "step": 85271
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6904695630073547,
      "learning_rate": 4.359307526619649e-06,
      "loss": 1.5504,
      "step": 85272
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6910216212272644,
      "learning_rate": 4.357532356314764e-06,
      "loss": 1.4382,
      "step": 85273
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6683341860771179,
      "learning_rate": 4.355757544876248e-06,
      "loss": 1.5419,
      "step": 85274
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6793743371963501,
      "learning_rate": 4.353983092306268e-06,
      "loss": 1.4894,
      "step": 85275
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6761684417724609,
      "learning_rate": 4.3522089986069875e-06,
      "loss": 1.5197,
      "step": 85276
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6813591122627258,
      "learning_rate": 4.350435263780605e-06,
      "loss": 1.4141,
      "step": 85277
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6951090693473816,
      "learning_rate": 4.348661887829186e-06,
      "loss": 1.4781,
      "step": 85278
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.668185830116272,
      "learning_rate": 4.346888870754928e-06,
      "loss": 1.407,
      "step": 85279
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6807050704956055,
      "learning_rate": 4.3451162125600294e-06,
      "loss": 1.4176,
      "step": 85280
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6971169710159302,
      "learning_rate": 4.343343913246555e-06,
      "loss": 1.5174,
      "step": 85281
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6718280911445618,
      "learning_rate": 4.3415719728167046e-06,
      "loss": 1.4722,
      "step": 85282
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6661114692687988,
      "learning_rate": 4.339800391272641e-06,
      "loss": 1.5268,
      "step": 85283
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.684729278087616,
      "learning_rate": 4.3380291686164966e-06,
      "loss": 1.5273,
      "step": 85284
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6799421310424805,
      "learning_rate": 4.336258304850404e-06,
      "loss": 1.5568,
      "step": 85285
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.680378794670105,
      "learning_rate": 4.3344877999765604e-06,
      "loss": 1.5197,
      "step": 85286
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6824356317520142,
      "learning_rate": 4.332717653997064e-06,
      "loss": 1.5058,
      "step": 85287
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7076502442359924,
      "learning_rate": 4.330947866914048e-06,
      "loss": 1.6155,
      "step": 85288
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6631355285644531,
      "learning_rate": 4.329178438729741e-06,
      "loss": 1.5406,
      "step": 85289
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7021884918212891,
      "learning_rate": 4.327409369446244e-06,
      "loss": 1.529,
      "step": 85290
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.692904531955719,
      "learning_rate": 4.325640659065688e-06,
      "loss": 1.5545,
      "step": 85291
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6831757426261902,
      "learning_rate": 4.323872307590237e-06,
      "loss": 1.4744,
      "step": 85292
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.689128577709198,
      "learning_rate": 4.322104315022057e-06,
      "loss": 1.5108,
      "step": 85293
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6744391918182373,
      "learning_rate": 4.320336681363279e-06,
      "loss": 1.5322,
      "step": 85294
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6834810376167297,
      "learning_rate": 4.318569406616035e-06,
      "loss": 1.4692,
      "step": 85295
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6579746007919312,
      "learning_rate": 4.316802490782489e-06,
      "loss": 1.5348,
      "step": 85296
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6874004602432251,
      "learning_rate": 4.315035933864741e-06,
      "loss": 1.5222,
      "step": 85297
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6774008274078369,
      "learning_rate": 4.313269735865021e-06,
      "loss": 1.5152,
      "step": 85298
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6849099397659302,
      "learning_rate": 4.311503896785395e-06,
      "loss": 1.5958,
      "step": 85299
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6678352952003479,
      "learning_rate": 4.309738416628061e-06,
      "loss": 1.4772,
      "step": 85300
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6668652892112732,
      "learning_rate": 4.3079732953951175e-06,
      "loss": 1.5103,
      "step": 85301
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6678332090377808,
      "learning_rate": 4.306208533088728e-06,
      "loss": 1.4618,
      "step": 85302
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6873190402984619,
      "learning_rate": 4.30444412971106e-06,
      "loss": 1.4816,
      "step": 85303
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6658012270927429,
      "learning_rate": 4.302680085264176e-06,
      "loss": 1.4637,
      "step": 85304
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7102320790290833,
      "learning_rate": 4.300916399750309e-06,
      "loss": 1.4156,
      "step": 85305
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.696982204914093,
      "learning_rate": 4.299153073171557e-06,
      "loss": 1.4652,
      "step": 85306
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.701084315776825,
      "learning_rate": 4.297390105530052e-06,
      "loss": 1.5175,
      "step": 85307
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6883342266082764,
      "learning_rate": 4.295627496827958e-06,
      "loss": 1.5389,
      "step": 85308
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.695296049118042,
      "learning_rate": 4.293865247067374e-06,
      "loss": 1.5111,
      "step": 85309
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6655754446983337,
      "learning_rate": 4.292103356250498e-06,
      "loss": 1.5615,
      "step": 85310
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6628708839416504,
      "learning_rate": 4.290341824379395e-06,
      "loss": 1.4897,
      "step": 85311
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6854209303855896,
      "learning_rate": 4.288580651456297e-06,
      "loss": 1.5018,
      "step": 85312
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6739144325256348,
      "learning_rate": 4.286819837483269e-06,
      "loss": 1.5313,
      "step": 85313
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6703097820281982,
      "learning_rate": 4.285059382462475e-06,
      "loss": 1.5685,
      "step": 85314
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6827054619789124,
      "learning_rate": 4.283299286396047e-06,
      "loss": 1.4929,
      "step": 85315
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6750951409339905,
      "learning_rate": 4.28153954928615e-06,
      "loss": 1.526,
      "step": 85316
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6865395903587341,
      "learning_rate": 4.2797801711348504e-06,
      "loss": 1.4975,
      "step": 85317
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.670717716217041,
      "learning_rate": 4.278021151944311e-06,
      "loss": 1.5312,
      "step": 85318
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7041890025138855,
      "learning_rate": 4.276262491716698e-06,
      "loss": 1.5312,
      "step": 85319
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6637041568756104,
      "learning_rate": 4.274504190454175e-06,
      "loss": 1.5212,
      "step": 85320
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6737324595451355,
      "learning_rate": 4.272746248158776e-06,
      "loss": 1.5703,
      "step": 85321
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6674003601074219,
      "learning_rate": 4.2709886648326976e-06,
      "loss": 1.52,
      "step": 85322
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6719294786453247,
      "learning_rate": 4.269231440478105e-06,
      "loss": 1.4637,
      "step": 85323
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6952438950538635,
      "learning_rate": 4.267474575097029e-06,
      "loss": 1.4178,
      "step": 85324
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6654361486434937,
      "learning_rate": 4.265718068691704e-06,
      "loss": 1.4822,
      "step": 85325
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6711430549621582,
      "learning_rate": 4.263961921264225e-06,
      "loss": 1.5353,
      "step": 85326
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6777782440185547,
      "learning_rate": 4.2622061328167255e-06,
      "loss": 1.5366,
      "step": 85327
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7007555365562439,
      "learning_rate": 4.260450703351303e-06,
      "loss": 1.4756,
      "step": 85328
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6818807721138,
      "learning_rate": 4.258695632870124e-06,
      "loss": 1.4728,
      "step": 85329
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6775575876235962,
      "learning_rate": 4.256940921375351e-06,
      "loss": 1.4928,
      "step": 85330
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6724507808685303,
      "learning_rate": 4.2551865688690515e-06,
      "loss": 1.5266,
      "step": 85331
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6987168788909912,
      "learning_rate": 4.253432575353355e-06,
      "loss": 1.4516,
      "step": 85332
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6752828359603882,
      "learning_rate": 4.2516789408304605e-06,
      "loss": 1.4772,
      "step": 85333
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.692477822303772,
      "learning_rate": 4.249925665302434e-06,
      "loss": 1.5229,
      "step": 85334
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6930816769599915,
      "learning_rate": 4.248172748771406e-06,
      "loss": 1.5558,
      "step": 85335
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6777417659759521,
      "learning_rate": 4.246420191239508e-06,
      "loss": 1.5307,
      "step": 85336
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.668143630027771,
      "learning_rate": 4.244667992708939e-06,
      "loss": 1.526,
      "step": 85337
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6824459433555603,
      "learning_rate": 4.242916153181697e-06,
      "loss": 1.5392,
      "step": 85338
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6953516006469727,
      "learning_rate": 4.241164672660013e-06,
      "loss": 1.4578,
      "step": 85339
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6794730424880981,
      "learning_rate": 4.239413551145987e-06,
      "loss": 1.4943,
      "step": 85340
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6738020777702332,
      "learning_rate": 4.237662788641716e-06,
      "loss": 1.4975,
      "step": 85341
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6825624108314514,
      "learning_rate": 4.235912385149332e-06,
      "loss": 1.6099,
      "step": 85342
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6905018091201782,
      "learning_rate": 4.234162340670999e-06,
      "loss": 1.4565,
      "step": 85343
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6811245083808899,
      "learning_rate": 4.232412655208817e-06,
      "loss": 1.4635,
      "step": 85344
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6802471280097961,
      "learning_rate": 4.2306633287648826e-06,
      "loss": 1.5518,
      "step": 85345
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6533055901527405,
      "learning_rate": 4.228914361341329e-06,
      "loss": 1.485,
      "step": 85346
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6587697863578796,
      "learning_rate": 4.22716575294032e-06,
      "loss": 1.4719,
      "step": 85347
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7090325355529785,
      "learning_rate": 4.225417503563954e-06,
      "loss": 1.551,
      "step": 85348
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6843404769897461,
      "learning_rate": 4.223669613214331e-06,
      "loss": 1.5195,
      "step": 85349
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6792764067649841,
      "learning_rate": 4.221922081893614e-06,
      "loss": 1.5166,
      "step": 85350
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6850979328155518,
      "learning_rate": 4.220174909603902e-06,
      "loss": 1.5038,
      "step": 85351
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6775979399681091,
      "learning_rate": 4.218428096347292e-06,
      "loss": 1.5053,
      "step": 85352
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6927538514137268,
      "learning_rate": 4.216681642125985e-06,
      "loss": 1.4786,
      "step": 85353
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6829754114151001,
      "learning_rate": 4.214935546941978e-06,
      "loss": 1.4497,
      "step": 85354
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7043147087097168,
      "learning_rate": 4.213189810797502e-06,
      "loss": 1.515,
      "step": 85355
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6777356266975403,
      "learning_rate": 4.211444433694589e-06,
      "loss": 1.5144,
      "step": 85356
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6975976228713989,
      "learning_rate": 4.209699415635437e-06,
      "loss": 1.4905,
      "step": 85357
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.659952700138092,
      "learning_rate": 4.207954756622145e-06,
      "loss": 1.4126,
      "step": 85358
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6973158717155457,
      "learning_rate": 4.206210456656745e-06,
      "loss": 1.4994,
      "step": 85359
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6535431146621704,
      "learning_rate": 4.204466515741467e-06,
      "loss": 1.5045,
      "step": 85360
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6804332733154297,
      "learning_rate": 4.202722933878377e-06,
      "loss": 1.5071,
      "step": 85361
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6780591011047363,
      "learning_rate": 4.200979711069607e-06,
      "loss": 1.4667,
      "step": 85362
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6697593927383423,
      "learning_rate": 4.199236847317255e-06,
      "loss": 1.488,
      "step": 85363
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6752321124076843,
      "learning_rate": 4.197494342623453e-06,
      "loss": 1.5655,
      "step": 85364
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6991704106330872,
      "learning_rate": 4.195752196990299e-06,
      "loss": 1.4466,
      "step": 85365
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.660595715045929,
      "learning_rate": 4.194010410419924e-06,
      "loss": 1.5216,
      "step": 85366
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6803219318389893,
      "learning_rate": 4.192268982914426e-06,
      "loss": 1.4622,
      "step": 85367
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6617271900177002,
      "learning_rate": 4.190527914475905e-06,
      "loss": 1.5213,
      "step": 85368
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6687813997268677,
      "learning_rate": 4.188787205106558e-06,
      "loss": 1.554,
      "step": 85369
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6582820415496826,
      "learning_rate": 4.187046854808418e-06,
      "loss": 1.5086,
      "step": 85370
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6891033053398132,
      "learning_rate": 4.1853068635835816e-06,
      "loss": 1.557,
      "step": 85371
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6953384280204773,
      "learning_rate": 4.183567231434215e-06,
      "loss": 1.4801,
      "step": 85372
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6777024865150452,
      "learning_rate": 4.181827958362449e-06,
      "loss": 1.5203,
      "step": 85373
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7007453441619873,
      "learning_rate": 4.180089044370283e-06,
      "loss": 1.5269,
      "step": 85374
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6871214509010315,
      "learning_rate": 4.178350489459947e-06,
      "loss": 1.4401,
      "step": 85375
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6732724905014038,
      "learning_rate": 4.176612293633508e-06,
      "loss": 1.5235,
      "step": 85376
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6758130192756653,
      "learning_rate": 4.1748744568930625e-06,
      "loss": 1.545,
      "step": 85377
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6752465963363647,
      "learning_rate": 4.173136979240743e-06,
      "loss": 1.5483,
      "step": 85378
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7003169655799866,
      "learning_rate": 4.171399860678648e-06,
      "loss": 1.5473,
      "step": 85379
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.674371063709259,
      "learning_rate": 4.169663101208876e-06,
      "loss": 1.5533,
      "step": 85380
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6978875994682312,
      "learning_rate": 4.167926700833557e-06,
      "loss": 1.4842,
      "step": 85381
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6921616196632385,
      "learning_rate": 4.166190659554758e-06,
      "loss": 1.5318,
      "step": 85382
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6868855953216553,
      "learning_rate": 4.164454977374643e-06,
      "loss": 1.5052,
      "step": 85383
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6724939942359924,
      "learning_rate": 4.162719654295277e-06,
      "loss": 1.471,
      "step": 85384
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6663466095924377,
      "learning_rate": 4.160984690318759e-06,
      "loss": 1.5107,
      "step": 85385
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6924149394035339,
      "learning_rate": 4.159250085447252e-06,
      "loss": 1.5459,
      "step": 85386
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6738657355308533,
      "learning_rate": 4.157515839682824e-06,
      "loss": 1.5116,
      "step": 85387
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6616799831390381,
      "learning_rate": 4.15578195302757e-06,
      "loss": 1.5759,
      "step": 85388
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7220388054847717,
      "learning_rate": 4.154048425483592e-06,
      "loss": 1.5143,
      "step": 85389
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7007436156272888,
      "learning_rate": 4.152315257053051e-06,
      "loss": 1.5963,
      "step": 85390
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6819477081298828,
      "learning_rate": 4.150582447737949e-06,
      "loss": 1.5377,
      "step": 85391
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6876646280288696,
      "learning_rate": 4.148849997540482e-06,
      "loss": 1.4642,
      "step": 85392
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6927838921546936,
      "learning_rate": 4.1471179064627155e-06,
      "loss": 1.5008,
      "step": 85393
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6972899436950684,
      "learning_rate": 4.145386174506782e-06,
      "loss": 1.5291,
      "step": 85394
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6968888640403748,
      "learning_rate": 4.143654801674711e-06,
      "loss": 1.5309,
      "step": 85395
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6683257222175598,
      "learning_rate": 4.14192378796867e-06,
      "loss": 1.5595,
      "step": 85396
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6493474245071411,
      "learning_rate": 4.140193133390757e-06,
      "loss": 1.4751,
      "step": 85397
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6912603378295898,
      "learning_rate": 4.138462837943035e-06,
      "loss": 1.4648,
      "step": 85398
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6715685725212097,
      "learning_rate": 4.136732901627637e-06,
      "loss": 1.4417,
      "step": 85399
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.70051109790802,
      "learning_rate": 4.135003324446629e-06,
      "loss": 1.5445,
      "step": 85400
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6765173077583313,
      "learning_rate": 4.1332741064021735e-06,
      "loss": 1.5319,
      "step": 85401
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7050924301147461,
      "learning_rate": 4.131545247496304e-06,
      "loss": 1.5162,
      "step": 85402
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6988519430160522,
      "learning_rate": 4.129816747731152e-06,
      "loss": 1.5253,
      "step": 85403
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6671550273895264,
      "learning_rate": 4.128088607108815e-06,
      "loss": 1.5201,
      "step": 85404
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6588642001152039,
      "learning_rate": 4.1263608256313585e-06,
      "loss": 1.4586,
      "step": 85405
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6781625747680664,
      "learning_rate": 4.124633403300914e-06,
      "loss": 1.5287,
      "step": 85406
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6559725403785706,
      "learning_rate": 4.12290634011958e-06,
      "loss": 1.4178,
      "step": 85407
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6772487759590149,
      "learning_rate": 4.121179636089456e-06,
      "loss": 1.4794,
      "step": 85408
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7075143456459045,
      "learning_rate": 4.119453291212571e-06,
      "loss": 1.5374,
      "step": 85409
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6943579912185669,
      "learning_rate": 4.117727305491126e-06,
      "loss": 1.582,
      "step": 85410
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6787683367729187,
      "learning_rate": 4.11600167892715e-06,
      "loss": 1.5518,
      "step": 85411
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7127847075462341,
      "learning_rate": 4.114276411522744e-06,
      "loss": 1.4461,
      "step": 85412
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.67061448097229,
      "learning_rate": 4.112551503280037e-06,
      "loss": 1.4914,
      "step": 85413
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6555091738700867,
      "learning_rate": 4.1108269542010634e-06,
      "loss": 1.4845,
      "step": 85414
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6801790595054626,
      "learning_rate": 4.109102764287953e-06,
      "loss": 1.472,
      "step": 85415
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6920164227485657,
      "learning_rate": 4.107378933542771e-06,
      "loss": 1.4773,
      "step": 85416
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6580848097801208,
      "learning_rate": 4.105655461967683e-06,
      "loss": 1.5413,
      "step": 85417
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6929954290390015,
      "learning_rate": 4.10393234956472e-06,
      "loss": 1.5574,
      "step": 85418
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6787791848182678,
      "learning_rate": 4.102209596335948e-06,
      "loss": 1.4694,
      "step": 85419
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6704930663108826,
      "learning_rate": 4.1004872022835315e-06,
      "loss": 1.514,
      "step": 85420
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7175631523132324,
      "learning_rate": 4.0987651674095015e-06,
      "loss": 1.5446,
      "step": 85421
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6739304065704346,
      "learning_rate": 4.0970434917160234e-06,
      "loss": 1.4991,
      "step": 85422
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6799474358558655,
      "learning_rate": 4.0953221752050955e-06,
      "loss": 1.5224,
      "step": 85423
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6761895418167114,
      "learning_rate": 4.093601217878817e-06,
      "loss": 1.5157,
      "step": 85424
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6844362616539001,
      "learning_rate": 4.091880619739352e-06,
      "loss": 1.479,
      "step": 85425
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6806121468544006,
      "learning_rate": 4.090160380788732e-06,
      "loss": 1.5009,
      "step": 85426
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7071287035942078,
      "learning_rate": 4.088440501029056e-06,
      "loss": 1.4814,
      "step": 85427
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6759487390518188,
      "learning_rate": 4.086720980462388e-06,
      "loss": 1.493,
      "step": 85428
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6651026010513306,
      "learning_rate": 4.085001819090894e-06,
      "loss": 1.5244,
      "step": 85429
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6641778945922852,
      "learning_rate": 4.083283016916572e-06,
      "loss": 1.5326,
      "step": 85430
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.690892219543457,
      "learning_rate": 4.0815645739415535e-06,
      "loss": 1.461,
      "step": 85431
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6951929330825806,
      "learning_rate": 4.079846490167871e-06,
      "loss": 1.4399,
      "step": 85432
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6713054776191711,
      "learning_rate": 4.0781287655977215e-06,
      "loss": 1.5822,
      "step": 85433
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6786787509918213,
      "learning_rate": 4.076411400233104e-06,
      "loss": 1.5329,
      "step": 85434
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6748763918876648,
      "learning_rate": 4.074694394076084e-06,
      "loss": 1.4587,
      "step": 85435
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6728480458259583,
      "learning_rate": 4.072977747128825e-06,
      "loss": 1.5258,
      "step": 85436
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6926617622375488,
      "learning_rate": 4.07126145939336e-06,
      "loss": 1.5885,
      "step": 85437
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6968317627906799,
      "learning_rate": 4.069545530871754e-06,
      "loss": 1.5238,
      "step": 85438
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6861799955368042,
      "learning_rate": 4.067829961566105e-06,
      "loss": 1.6027,
      "step": 85439
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6824378371238708,
      "learning_rate": 4.066114751478578e-06,
      "loss": 1.5387,
      "step": 85440
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6569291353225708,
      "learning_rate": 4.064399900611104e-06,
      "loss": 1.4929,
      "step": 85441
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6811356544494629,
      "learning_rate": 4.062685408965882e-06,
      "loss": 1.4331,
      "step": 85442
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6631729006767273,
      "learning_rate": 4.060971276544944e-06,
      "loss": 1.4633,
      "step": 85443
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6676715612411499,
      "learning_rate": 4.059257503350422e-06,
      "loss": 1.4791,
      "step": 85444
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6589188575744629,
      "learning_rate": 4.057544089384312e-06,
      "loss": 1.4959,
      "step": 85445
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6814607977867126,
      "learning_rate": 4.055831034648749e-06,
      "loss": 1.5346,
      "step": 85446
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6981976628303528,
      "learning_rate": 4.054118339145829e-06,
      "loss": 1.4634,
      "step": 85447
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6883715987205505,
      "learning_rate": 4.052406002877551e-06,
      "loss": 1.6021,
      "step": 85448
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6583433151245117,
      "learning_rate": 4.05069402584608e-06,
      "loss": 1.5295,
      "step": 85449
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6913034319877625,
      "learning_rate": 4.048982408053447e-06,
      "loss": 1.5032,
      "step": 85450
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6946535706520081,
      "learning_rate": 4.047271149501785e-06,
      "loss": 1.5054,
      "step": 85451
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6892852187156677,
      "learning_rate": 4.045560250193059e-06,
      "loss": 1.5261,
      "step": 85452
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6646274924278259,
      "learning_rate": 4.043849710129465e-06,
      "loss": 1.52,
      "step": 85453
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6746991276741028,
      "learning_rate": 4.0421395293130375e-06,
      "loss": 1.4948,
      "step": 85454
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6527693271636963,
      "learning_rate": 4.040429707745807e-06,
      "loss": 1.5084,
      "step": 85455
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6652061343193054,
      "learning_rate": 4.038720245429905e-06,
      "loss": 1.5382,
      "step": 85456
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6897075176239014,
      "learning_rate": 4.037011142367397e-06,
      "loss": 1.4882,
      "step": 85457
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6555243730545044,
      "learning_rate": 4.035302398560348e-06,
      "loss": 1.4507,
      "step": 85458
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6795486211776733,
      "learning_rate": 4.033594014010821e-06,
      "loss": 1.5782,
      "step": 85459
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.676327109336853,
      "learning_rate": 4.031885988720917e-06,
      "loss": 1.5145,
      "step": 85460
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6717924475669861,
      "learning_rate": 4.030178322692701e-06,
      "loss": 1.5202,
      "step": 85461
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6751165390014648,
      "learning_rate": 4.028471015928203e-06,
      "loss": 1.5152,
      "step": 85462
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6742387413978577,
      "learning_rate": 4.026764068429556e-06,
      "loss": 1.5054,
      "step": 85463
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6566877365112305,
      "learning_rate": 4.025057480198824e-06,
      "loss": 1.4509,
      "step": 85464
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.686750054359436,
      "learning_rate": 4.023351251238038e-06,
      "loss": 1.4343,
      "step": 85465
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6990760564804077,
      "learning_rate": 4.021645381549299e-06,
      "loss": 1.5594,
      "step": 85466
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7126689553260803,
      "learning_rate": 4.0199398711346695e-06,
      "loss": 1.5054,
      "step": 85467
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6867913603782654,
      "learning_rate": 4.01823471999625e-06,
      "loss": 1.5696,
      "step": 85468
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6976897716522217,
      "learning_rate": 4.016529928136037e-06,
      "loss": 1.4166,
      "step": 85469
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6796454787254333,
      "learning_rate": 4.014825495556162e-06,
      "loss": 1.5408,
      "step": 85470
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.656137228012085,
      "learning_rate": 4.013121422258691e-06,
      "loss": 1.5205,
      "step": 85471
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6761848330497742,
      "learning_rate": 4.011417708245657e-06,
      "loss": 1.5526,
      "step": 85472
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6812045574188232,
      "learning_rate": 4.009714353519156e-06,
      "loss": 1.4485,
      "step": 85473
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6654717326164246,
      "learning_rate": 4.008011358081287e-06,
      "loss": 1.4754,
      "step": 85474
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6640233397483826,
      "learning_rate": 4.0063087219340485e-06,
      "loss": 1.546,
      "step": 85475
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6805120706558228,
      "learning_rate": 4.004606445079539e-06,
      "loss": 1.5768,
      "step": 85476
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6755717992782593,
      "learning_rate": 4.0029045275198235e-06,
      "loss": 1.6235,
      "step": 85477
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6508591771125793,
      "learning_rate": 4.001202969256967e-06,
      "loss": 1.417,
      "step": 85478
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6850710511207581,
      "learning_rate": 3.999501770293034e-06,
      "loss": 1.5591,
      "step": 85479
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6662067770957947,
      "learning_rate": 3.997800930630124e-06,
      "loss": 1.5177,
      "step": 85480
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6903184056282043,
      "learning_rate": 3.996100450270234e-06,
      "loss": 1.5217,
      "step": 85481
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6894253492355347,
      "learning_rate": 3.994400329215463e-06,
      "loss": 1.5111,
      "step": 85482
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6663686037063599,
      "learning_rate": 3.992700567467877e-06,
      "loss": 1.4816,
      "step": 85483
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6894538402557373,
      "learning_rate": 3.991001165029573e-06,
      "loss": 1.5101,
      "step": 85484
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6686956882476807,
      "learning_rate": 3.989302121902549e-06,
      "loss": 1.4601,
      "step": 85485
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6953091621398926,
      "learning_rate": 3.987603438088904e-06,
      "loss": 1.5164,
      "step": 85486
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6777806878089905,
      "learning_rate": 3.9859051135907035e-06,
      "loss": 1.5423,
      "step": 85487
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6813702583312988,
      "learning_rate": 3.984207148409979e-06,
      "loss": 1.51,
      "step": 85488
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6828625798225403,
      "learning_rate": 3.982509542548795e-06,
      "loss": 1.4701,
      "step": 85489
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6811837553977966,
      "learning_rate": 3.980812296009283e-06,
      "loss": 1.5024,
      "step": 85490
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.677729070186615,
      "learning_rate": 3.9791154087934096e-06,
      "loss": 1.4779,
      "step": 85491
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6517200469970703,
      "learning_rate": 3.977418880903272e-06,
      "loss": 1.5746,
      "step": 85492
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6788471341133118,
      "learning_rate": 3.975722712340934e-06,
      "loss": 1.4852,
      "step": 85493
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6905921697616577,
      "learning_rate": 3.974026903108463e-06,
      "loss": 1.5117,
      "step": 85494
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6909824013710022,
      "learning_rate": 3.972331453207889e-06,
      "loss": 1.4586,
      "step": 85495
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6612491011619568,
      "learning_rate": 3.970636362641311e-06,
      "loss": 1.5177,
      "step": 85496
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6784539222717285,
      "learning_rate": 3.96894163141076e-06,
      "loss": 1.4773,
      "step": 85497
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6933401226997375,
      "learning_rate": 3.967247259518269e-06,
      "loss": 1.4844,
      "step": 85498
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7112526893615723,
      "learning_rate": 3.965553246965936e-06,
      "loss": 1.5111,
      "step": 85499
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6691448092460632,
      "learning_rate": 3.963859593755825e-06,
      "loss": 1.5263,
      "step": 85500
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6872173547744751,
      "learning_rate": 3.962166299889935e-06,
      "loss": 1.4629,
      "step": 85501
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6943879127502441,
      "learning_rate": 3.960473365370365e-06,
      "loss": 1.4906,
      "step": 85502
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.7112065553665161,
      "learning_rate": 3.958780790199178e-06,
      "loss": 1.4742,
      "step": 85503
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6822935342788696,
      "learning_rate": 3.957088574378409e-06,
      "loss": 1.5163,
      "step": 85504
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6636603474617004,
      "learning_rate": 3.955396717910086e-06,
      "loss": 1.4985,
      "step": 85505
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6716744899749756,
      "learning_rate": 3.953705220796311e-06,
      "loss": 1.5234,
      "step": 85506
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6824836730957031,
      "learning_rate": 3.952014083039146e-06,
      "loss": 1.5338,
      "step": 85507
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6776669025421143,
      "learning_rate": 3.950323304640557e-06,
      "loss": 1.5415,
      "step": 85508
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6746625900268555,
      "learning_rate": 3.948632885602676e-06,
      "loss": 1.5454,
      "step": 85509
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6720795035362244,
      "learning_rate": 3.946942825927568e-06,
      "loss": 1.4743,
      "step": 85510
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6919007301330566,
      "learning_rate": 3.9452531256172315e-06,
      "loss": 1.4969,
      "step": 85511
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.6968631148338318,
      "learning_rate": 3.9435637846736976e-06,
      "loss": 1.5049,
      "step": 85512
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6905531883239746,
      "learning_rate": 3.941874803099099e-06,
      "loss": 1.5214,
      "step": 85513
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6682079434394836,
      "learning_rate": 3.940186180895433e-06,
      "loss": 1.4991,
      "step": 85514
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6671551465988159,
      "learning_rate": 3.938497918064765e-06,
      "loss": 1.5266,
      "step": 85515
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6677400469779968,
      "learning_rate": 3.936810014609093e-06,
      "loss": 1.531,
      "step": 85516
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6775606870651245,
      "learning_rate": 3.9351224705305495e-06,
      "loss": 1.474,
      "step": 85517
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6790341138839722,
      "learning_rate": 3.933435285831166e-06,
      "loss": 1.5353,
      "step": 85518
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6898506879806519,
      "learning_rate": 3.93174846051294e-06,
      "loss": 1.55,
      "step": 85519
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6749541163444519,
      "learning_rate": 3.930061994577938e-06,
      "loss": 1.5288,
      "step": 85520
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6842639446258545,
      "learning_rate": 3.928375888028257e-06,
      "loss": 1.4523,
      "step": 85521
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6886970400810242,
      "learning_rate": 3.926690140865863e-06,
      "loss": 1.6525,
      "step": 85522
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6880126595497131,
      "learning_rate": 3.925004753092853e-06,
      "loss": 1.5081,
      "step": 85523
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6792774200439453,
      "learning_rate": 3.9233197247112605e-06,
      "loss": 1.5419,
      "step": 85524
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6838179230690002,
      "learning_rate": 3.921635055723149e-06,
      "loss": 1.5318,
      "step": 85525
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.679222822189331,
      "learning_rate": 3.919950746130518e-06,
      "loss": 1.4224,
      "step": 85526
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6826164126396179,
      "learning_rate": 3.918266795935465e-06,
      "loss": 1.5952,
      "step": 85527
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6830873489379883,
      "learning_rate": 3.916583205140023e-06,
      "loss": 1.5263,
      "step": 85528
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6912294030189514,
      "learning_rate": 3.914899973746188e-06,
      "loss": 1.5439,
      "step": 85529
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.689670979976654,
      "learning_rate": 3.913217101756061e-06,
      "loss": 1.5371,
      "step": 85530
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6729580163955688,
      "learning_rate": 3.911534589171672e-06,
      "loss": 1.561,
      "step": 85531
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6832406520843506,
      "learning_rate": 3.90985243599502e-06,
      "loss": 1.5522,
      "step": 85532
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6663619875907898,
      "learning_rate": 3.9081706422282035e-06,
      "loss": 1.5487,
      "step": 85533
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6623834371566772,
      "learning_rate": 3.906489207873254e-06,
      "loss": 1.5023,
      "step": 85534
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6842823624610901,
      "learning_rate": 3.904808132932169e-06,
      "loss": 1.5332,
      "step": 85535
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6910147070884705,
      "learning_rate": 3.903127417407015e-06,
      "loss": 1.5806,
      "step": 85536
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6766213774681091,
      "learning_rate": 3.9014470612998894e-06,
      "loss": 1.549,
      "step": 85537
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6647723913192749,
      "learning_rate": 3.8997670646127244e-06,
      "loss": 1.5167,
      "step": 85538
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6865525841712952,
      "learning_rate": 3.898087427347618e-06,
      "loss": 1.6002,
      "step": 85539
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6855780482292175,
      "learning_rate": 3.896408149506636e-06,
      "loss": 1.5061,
      "step": 85540
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7127047181129456,
      "learning_rate": 3.894729231091775e-06,
      "loss": 1.5504,
      "step": 85541
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7106369137763977,
      "learning_rate": 3.893050672105069e-06,
      "loss": 1.4514,
      "step": 85542
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6779397130012512,
      "learning_rate": 3.8913724725485815e-06,
      "loss": 1.4999,
      "step": 85543
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6801195740699768,
      "learning_rate": 3.889694632424345e-06,
      "loss": 1.5066,
      "step": 85544
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6704895496368408,
      "learning_rate": 3.888017151734357e-06,
      "loss": 1.4594,
      "step": 85545
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6965965032577515,
      "learning_rate": 3.886340030480717e-06,
      "loss": 1.5125,
      "step": 85546
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6939212679862976,
      "learning_rate": 3.884663268665422e-06,
      "loss": 1.5756,
      "step": 85547
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6597838401794434,
      "learning_rate": 3.882986866290505e-06,
      "loss": 1.4964,
      "step": 85548
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6991670727729797,
      "learning_rate": 3.88131082335803e-06,
      "loss": 1.4829,
      "step": 85549
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6611496210098267,
      "learning_rate": 3.87963513987003e-06,
      "loss": 1.5305,
      "step": 85550
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6808027625083923,
      "learning_rate": 3.877959815828469e-06,
      "loss": 1.5067,
      "step": 85551
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.701924204826355,
      "learning_rate": 3.876284851235445e-06,
      "loss": 1.5061,
      "step": 85552
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6780796051025391,
      "learning_rate": 3.874610246093024e-06,
      "loss": 1.4738,
      "step": 85553
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.683826208114624,
      "learning_rate": 3.872936000403171e-06,
      "loss": 1.4889,
      "step": 85554
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6874105930328369,
      "learning_rate": 3.871262114167917e-06,
      "loss": 1.5463,
      "step": 85555
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6706088185310364,
      "learning_rate": 3.869588587389327e-06,
      "loss": 1.6112,
      "step": 85556
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6682495474815369,
      "learning_rate": 3.867915420069467e-06,
      "loss": 1.5119,
      "step": 85557
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6672241687774658,
      "learning_rate": 3.866242612210269e-06,
      "loss": 1.5245,
      "step": 85558
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6834824681282043,
      "learning_rate": 3.864570163813829e-06,
      "loss": 1.494,
      "step": 85559
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6600005626678467,
      "learning_rate": 3.862898074882182e-06,
      "loss": 1.5482,
      "step": 85560
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6705049276351929,
      "learning_rate": 3.8612263454173566e-06,
      "loss": 1.5423,
      "step": 85561
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6741188764572144,
      "learning_rate": 3.859554975421352e-06,
      "loss": 1.4974,
      "step": 85562
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7091876864433289,
      "learning_rate": 3.857883964896202e-06,
      "loss": 1.505,
      "step": 85563
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6731472611427307,
      "learning_rate": 3.85621331384397e-06,
      "loss": 1.4805,
      "step": 85564
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6859328150749207,
      "learning_rate": 3.854543022266654e-06,
      "loss": 1.5378,
      "step": 85565
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6584843397140503,
      "learning_rate": 3.852873090166253e-06,
      "loss": 1.52,
      "step": 85566
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6987051963806152,
      "learning_rate": 3.851203517544865e-06,
      "loss": 1.52,
      "step": 85567
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6697826981544495,
      "learning_rate": 3.849534304404489e-06,
      "loss": 1.4872,
      "step": 85568
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6688658595085144,
      "learning_rate": 3.847865450747123e-06,
      "loss": 1.5756,
      "step": 85569
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6606040000915527,
      "learning_rate": 3.846196956574798e-06,
      "loss": 1.5164,
      "step": 85570
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6801835298538208,
      "learning_rate": 3.844528821889581e-06,
      "loss": 1.5631,
      "step": 85571
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7104073166847229,
      "learning_rate": 3.842861046693468e-06,
      "loss": 1.5522,
      "step": 85572
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6728469729423523,
      "learning_rate": 3.841193630988459e-06,
      "loss": 1.5328,
      "step": 85573
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6719688773155212,
      "learning_rate": 3.839526574776619e-06,
      "loss": 1.4576,
      "step": 85574
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6889286637306213,
      "learning_rate": 3.837859878059979e-06,
      "loss": 1.4898,
      "step": 85575
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7003079056739807,
      "learning_rate": 3.8361935408405045e-06,
      "loss": 1.4705,
      "step": 85576
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6786611676216125,
      "learning_rate": 3.8345275631202935e-06,
      "loss": 1.543,
      "step": 85577
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6761635541915894,
      "learning_rate": 3.832861944901311e-06,
      "loss": 1.5144,
      "step": 85578
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7001847624778748,
      "learning_rate": 3.831196686185556e-06,
      "loss": 1.5506,
      "step": 85579
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7033169865608215,
      "learning_rate": 3.829531786975127e-06,
      "loss": 1.4957,
      "step": 85580
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6842700839042664,
      "learning_rate": 3.827867247272021e-06,
      "loss": 1.5418,
      "step": 85581
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6833047270774841,
      "learning_rate": 3.826203067078237e-06,
      "loss": 1.5112,
      "step": 85582
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6827990412712097,
      "learning_rate": 3.824539246395774e-06,
      "loss": 1.5077,
      "step": 85583
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6582064032554626,
      "learning_rate": 3.822875785226698e-06,
      "loss": 1.4844,
      "step": 85584
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6783055067062378,
      "learning_rate": 3.8212126835730384e-06,
      "loss": 1.5555,
      "step": 85585
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6717561483383179,
      "learning_rate": 3.819549941436728e-06,
      "loss": 1.4299,
      "step": 85586
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6741942763328552,
      "learning_rate": 3.8178875588198985e-06,
      "loss": 1.5055,
      "step": 85587
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6732419729232788,
      "learning_rate": 3.816225535724482e-06,
      "loss": 1.4297,
      "step": 85588
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6687266826629639,
      "learning_rate": 3.8145638721525427e-06,
      "loss": 1.5033,
      "step": 85589
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.655890941619873,
      "learning_rate": 3.81290256810608e-06,
      "loss": 1.4428,
      "step": 85590
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6667402982711792,
      "learning_rate": 3.8112416235871246e-06,
      "loss": 1.5129,
      "step": 85591
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.674723207950592,
      "learning_rate": 3.8095810385976753e-06,
      "loss": 1.5144,
      "step": 85592
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6717016696929932,
      "learning_rate": 3.807920813139731e-06,
      "loss": 1.4779,
      "step": 85593
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6808107495307922,
      "learning_rate": 3.8062609472153227e-06,
      "loss": 1.5603,
      "step": 85594
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6709330677986145,
      "learning_rate": 3.8046014408264823e-06,
      "loss": 1.4872,
      "step": 85595
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6741240620613098,
      "learning_rate": 3.802942293975242e-06,
      "loss": 1.4926,
      "step": 85596
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6851122379302979,
      "learning_rate": 3.801283506663566e-06,
      "loss": 1.5533,
      "step": 85597
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.673618733882904,
      "learning_rate": 3.799625078893487e-06,
      "loss": 1.4473,
      "step": 85598
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6623967289924622,
      "learning_rate": 3.7979670106670358e-06,
      "loss": 1.4257,
      "step": 85599
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6701533794403076,
      "learning_rate": 3.7963093019861777e-06,
      "loss": 1.4547,
      "step": 85600
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6963648200035095,
      "learning_rate": 3.7946519528529783e-06,
      "loss": 1.5681,
      "step": 85601
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6597386002540588,
      "learning_rate": 3.792994963269402e-06,
      "loss": 1.4364,
      "step": 85602
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7015766501426697,
      "learning_rate": 3.791338333237515e-06,
      "loss": 1.4823,
      "step": 85603
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7077661752700806,
      "learning_rate": 3.789682062759314e-06,
      "loss": 1.5547,
      "step": 85604
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7024391889572144,
      "learning_rate": 3.788026151836765e-06,
      "loss": 1.5194,
      "step": 85605
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6821614503860474,
      "learning_rate": 3.786370600471933e-06,
      "loss": 1.4848,
      "step": 85606
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6689548492431641,
      "learning_rate": 3.784715408666783e-06,
      "loss": 1.4091,
      "step": 85607
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6847209930419922,
      "learning_rate": 3.7830605764233136e-06,
      "loss": 1.5132,
      "step": 85608
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6503815650939941,
      "learning_rate": 3.7814061037435896e-06,
      "loss": 1.4325,
      "step": 85609
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6977031826972961,
      "learning_rate": 3.7797519906296092e-06,
      "loss": 1.529,
      "step": 85610
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7114723920822144,
      "learning_rate": 3.778098237083371e-06,
      "loss": 1.5266,
      "step": 85611
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6993207931518555,
      "learning_rate": 3.7764448431068406e-06,
      "loss": 1.5078,
      "step": 85612
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6656203269958496,
      "learning_rate": 3.7747918087020825e-06,
      "loss": 1.5046,
      "step": 85613
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6811378598213196,
      "learning_rate": 3.773139133871095e-06,
      "loss": 1.4476,
      "step": 85614
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6903114914894104,
      "learning_rate": 3.77148681861581e-06,
      "loss": 1.512,
      "step": 85615
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6812866926193237,
      "learning_rate": 3.7698348629383257e-06,
      "loss": 1.5873,
      "step": 85616
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6584572792053223,
      "learning_rate": 3.768183266840641e-06,
      "loss": 1.5155,
      "step": 85617
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6718164086341858,
      "learning_rate": 3.7665320303247205e-06,
      "loss": 1.479,
      "step": 85618
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6990531086921692,
      "learning_rate": 3.764881153392563e-06,
      "loss": 1.4809,
      "step": 85619
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6721545457839966,
      "learning_rate": 3.7632306360461993e-06,
      "loss": 1.5543,
      "step": 85620
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6763365268707275,
      "learning_rate": 3.761580478287629e-06,
      "loss": 1.4643,
      "step": 85621
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6805446743965149,
      "learning_rate": 3.75993068011885e-06,
      "loss": 1.5008,
      "step": 85622
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7049920558929443,
      "learning_rate": 3.7582812415418606e-06,
      "loss": 1.5064,
      "step": 85623
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7110835909843445,
      "learning_rate": 3.7566321625586925e-06,
      "loss": 1.4824,
      "step": 85624
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7080698013305664,
      "learning_rate": 3.754983443171311e-06,
      "loss": 1.5459,
      "step": 85625
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6896883845329285,
      "learning_rate": 3.753335083381681e-06,
      "loss": 1.5062,
      "step": 85626
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6850805878639221,
      "learning_rate": 3.7516870831919345e-06,
      "loss": 1.4799,
      "step": 85627
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6861940026283264,
      "learning_rate": 3.750039442603936e-06,
      "loss": 1.5176,
      "step": 85628
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7058094143867493,
      "learning_rate": 3.748392161619751e-06,
      "loss": 1.4626,
      "step": 85629
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6663614511489868,
      "learning_rate": 3.7467452402413445e-06,
      "loss": 1.5361,
      "step": 85630
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.696930468082428,
      "learning_rate": 3.745098678470815e-06,
      "loss": 1.5457,
      "step": 85631
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6642505526542664,
      "learning_rate": 3.743452476310027e-06,
      "loss": 1.5129,
      "step": 85632
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7057235240936279,
      "learning_rate": 3.741806633761013e-06,
      "loss": 1.5257,
      "step": 85633
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6784223914146423,
      "learning_rate": 3.7401611508258377e-06,
      "loss": 1.4967,
      "step": 85634
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6736655831336975,
      "learning_rate": 3.738516027506466e-06,
      "loss": 1.4558,
      "step": 85635
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6790041923522949,
      "learning_rate": 3.73687126380483e-06,
      "loss": 1.5415,
      "step": 85636
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6976322531700134,
      "learning_rate": 3.7352268597230286e-06,
      "loss": 1.4313,
      "step": 85637
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.677356481552124,
      "learning_rate": 3.733582815262992e-06,
      "loss": 1.497,
      "step": 85638
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6769128441810608,
      "learning_rate": 3.73193913042672e-06,
      "loss": 1.5137,
      "step": 85639
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6782538294792175,
      "learning_rate": 3.7302958052162103e-06,
      "loss": 1.4434,
      "step": 85640
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.694441020488739,
      "learning_rate": 3.7286528396334948e-06,
      "loss": 1.5346,
      "step": 85641
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.683440625667572,
      "learning_rate": 3.7270102336805717e-06,
      "loss": 1.4885,
      "step": 85642
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6768084764480591,
      "learning_rate": 3.72536798735934e-06,
      "loss": 1.5621,
      "step": 85643
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.687666654586792,
      "learning_rate": 3.7237261006718977e-06,
      "loss": 1.4729,
      "step": 85644
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6986806988716125,
      "learning_rate": 3.72208457362021e-06,
      "loss": 1.5565,
      "step": 85645
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6931700706481934,
      "learning_rate": 3.720443406206208e-06,
      "loss": 1.5336,
      "step": 85646
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6700597405433655,
      "learning_rate": 3.718802598431958e-06,
      "loss": 1.4436,
      "step": 85647
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6768726110458374,
      "learning_rate": 3.7171621502994243e-06,
      "loss": 1.4813,
      "step": 85648
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6651028394699097,
      "learning_rate": 3.715522061810605e-06,
      "loss": 1.4743,
      "step": 85649
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6793850064277649,
      "learning_rate": 3.7138823329674992e-06,
      "loss": 1.4753,
      "step": 85650
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6619341969490051,
      "learning_rate": 3.7122429637720717e-06,
      "loss": 1.4868,
      "step": 85651
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7268505096435547,
      "learning_rate": 3.710603954226321e-06,
      "loss": 1.5272,
      "step": 85652
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7058054208755493,
      "learning_rate": 3.708965304332245e-06,
      "loss": 1.4795,
      "step": 85653
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6607785224914551,
      "learning_rate": 3.7073270140918434e-06,
      "loss": 1.5315,
      "step": 85654
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7177641987800598,
      "learning_rate": 3.7056890835070465e-06,
      "loss": 1.4632,
      "step": 85655
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6674997806549072,
      "learning_rate": 3.7040515125799195e-06,
      "loss": 1.5093,
      "step": 85656
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6653736233711243,
      "learning_rate": 3.7024143013124285e-06,
      "loss": 1.4784,
      "step": 85657
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6739123463630676,
      "learning_rate": 3.7007774497065047e-06,
      "loss": 1.4157,
      "step": 85658
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6704526543617249,
      "learning_rate": 3.6991409577642127e-06,
      "loss": 1.5431,
      "step": 85659
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6780540943145752,
      "learning_rate": 3.6975048254875185e-06,
      "loss": 1.5264,
      "step": 85660
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6749429702758789,
      "learning_rate": 3.695869052878353e-06,
      "loss": 1.4763,
      "step": 85661
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.650785505771637,
      "learning_rate": 3.6942336399387817e-06,
      "loss": 1.5048,
      "step": 85662
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6854906678199768,
      "learning_rate": 3.6925985866707364e-06,
      "loss": 1.4828,
      "step": 85663
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.695884108543396,
      "learning_rate": 3.6909638930762153e-06,
      "loss": 1.568,
      "step": 85664
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7148743271827698,
      "learning_rate": 3.689329559157217e-06,
      "loss": 1.5924,
      "step": 85665
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7100046277046204,
      "learning_rate": 3.687695584915673e-06,
      "loss": 1.5231,
      "step": 85666
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6890597343444824,
      "learning_rate": 3.686061970353682e-06,
      "loss": 1.4708,
      "step": 85667
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.714568018913269,
      "learning_rate": 3.684428715473109e-06,
      "loss": 1.4635,
      "step": 85668
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7047128081321716,
      "learning_rate": 3.682795820275952e-06,
      "loss": 1.6145,
      "step": 85669
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6818661689758301,
      "learning_rate": 3.6811632847642768e-06,
      "loss": 1.4836,
      "step": 85670
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7056574821472168,
      "learning_rate": 3.6795311089399815e-06,
      "loss": 1.5353,
      "step": 85671
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6646956205368042,
      "learning_rate": 3.6778992928050645e-06,
      "loss": 1.443,
      "step": 85672
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7223855257034302,
      "learning_rate": 3.6762678363614904e-06,
      "loss": 1.5272,
      "step": 85673
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6953784823417664,
      "learning_rate": 3.6746367396113586e-06,
      "loss": 1.534,
      "step": 85674
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.688766598701477,
      "learning_rate": 3.6730060025564665e-06,
      "loss": 1.5463,
      "step": 85675
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6983128190040588,
      "learning_rate": 3.6713756251989135e-06,
      "loss": 1.508,
      "step": 85676
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6889455318450928,
      "learning_rate": 3.669745607540664e-06,
      "loss": 1.5287,
      "step": 85677
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7063229084014893,
      "learning_rate": 3.668115949583683e-06,
      "loss": 1.5174,
      "step": 85678
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6581233739852905,
      "learning_rate": 3.6664866513299027e-06,
      "loss": 1.4676,
      "step": 85679
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6763613224029541,
      "learning_rate": 3.664857712781355e-06,
      "loss": 1.5662,
      "step": 85680
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6735943555831909,
      "learning_rate": 3.663229133940071e-06,
      "loss": 1.5133,
      "step": 85681
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7038306593894958,
      "learning_rate": 3.661600914807883e-06,
      "loss": 1.461,
      "step": 85682
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.695551872253418,
      "learning_rate": 3.659973055386889e-06,
      "loss": 1.5572,
      "step": 85683
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7008146643638611,
      "learning_rate": 3.658345555679021e-06,
      "loss": 1.5298,
      "step": 85684
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6993269324302673,
      "learning_rate": 3.656718415686277e-06,
      "loss": 1.5462,
      "step": 85685
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.687595546245575,
      "learning_rate": 3.6550916354105562e-06,
      "loss": 1.4767,
      "step": 85686
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6961758732795715,
      "learning_rate": 3.653465214853923e-06,
      "loss": 1.515,
      "step": 85687
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6663443446159363,
      "learning_rate": 3.651839154018343e-06,
      "loss": 1.5037,
      "step": 85688
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6589887142181396,
      "learning_rate": 3.650213452905748e-06,
      "loss": 1.4639,
      "step": 85689
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6993789076805115,
      "learning_rate": 3.648588111518103e-06,
      "loss": 1.5003,
      "step": 85690
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6940464377403259,
      "learning_rate": 3.6469631298574387e-06,
      "loss": 1.5575,
      "step": 85691
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6653826832771301,
      "learning_rate": 3.645338507925688e-06,
      "loss": 1.4977,
      "step": 85692
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6653674840927124,
      "learning_rate": 3.6437142457248157e-06,
      "loss": 1.474,
      "step": 85693
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6860969066619873,
      "learning_rate": 3.6420903432568204e-06,
      "loss": 1.494,
      "step": 85694
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6911229491233826,
      "learning_rate": 3.640466800523667e-06,
      "loss": 1.5062,
      "step": 85695
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6674243807792664,
      "learning_rate": 3.6388436175273207e-06,
      "loss": 1.4798,
      "step": 85696
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.666835367679596,
      "learning_rate": 3.637220794269713e-06,
      "loss": 1.5529,
      "step": 85697
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6710503697395325,
      "learning_rate": 3.635598330752909e-06,
      "loss": 1.5723,
      "step": 85698
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6834456920623779,
      "learning_rate": 3.6339762269788074e-06,
      "loss": 1.5622,
      "step": 85699
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6800682544708252,
      "learning_rate": 3.632354482949373e-06,
      "loss": 1.48,
      "step": 85700
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6843612790107727,
      "learning_rate": 3.630733098666605e-06,
      "loss": 1.4849,
      "step": 85701
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6817529201507568,
      "learning_rate": 3.629112074132434e-06,
      "loss": 1.5236,
      "step": 85702
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6734384894371033,
      "learning_rate": 3.6274914093488595e-06,
      "loss": 1.4837,
      "step": 85703
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7016662955284119,
      "learning_rate": 3.625871104317879e-06,
      "loss": 1.562,
      "step": 85704
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6644668579101562,
      "learning_rate": 3.6242511590413913e-06,
      "loss": 1.5573,
      "step": 85705
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6612143516540527,
      "learning_rate": 3.6226315735213953e-06,
      "loss": 1.4295,
      "step": 85706
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6692479252815247,
      "learning_rate": 3.621012347759855e-06,
      "loss": 1.5216,
      "step": 85707
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6863405108451843,
      "learning_rate": 3.6193934817587365e-06,
      "loss": 1.5228,
      "step": 85708
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6768665909767151,
      "learning_rate": 3.617774975520038e-06,
      "loss": 1.4629,
      "step": 85709
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6969065070152283,
      "learning_rate": 3.616156829045658e-06,
      "loss": 1.549,
      "step": 85710
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6857407689094543,
      "learning_rate": 3.614539042337594e-06,
      "loss": 1.5021,
      "step": 85711
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6817596554756165,
      "learning_rate": 3.6129216153978123e-06,
      "loss": 1.4822,
      "step": 85712
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6829254627227783,
      "learning_rate": 3.6113045482282775e-06,
      "loss": 1.5347,
      "step": 85713
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.690538763999939,
      "learning_rate": 3.609687840830955e-06,
      "loss": 1.5165,
      "step": 85714
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7040998339653015,
      "learning_rate": 3.608071493207776e-06,
      "loss": 1.5397,
      "step": 85715
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6722029447555542,
      "learning_rate": 3.606455505360739e-06,
      "loss": 1.5695,
      "step": 85716
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6933624148368835,
      "learning_rate": 3.6048398772917765e-06,
      "loss": 1.5143,
      "step": 85717
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6781609654426575,
      "learning_rate": 3.603224609002919e-06,
      "loss": 1.4643,
      "step": 85718
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6720980405807495,
      "learning_rate": 3.601609700496e-06,
      "loss": 1.4227,
      "step": 85719
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6759791374206543,
      "learning_rate": 3.5999951517731163e-06,
      "loss": 1.4519,
      "step": 85720
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6729104518890381,
      "learning_rate": 3.598380962836167e-06,
      "loss": 1.4754,
      "step": 85721
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6946719288825989,
      "learning_rate": 3.596767133687084e-06,
      "loss": 1.5607,
      "step": 85722
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.675780713558197,
      "learning_rate": 3.5951536643278657e-06,
      "loss": 1.4964,
      "step": 85723
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6589869260787964,
      "learning_rate": 3.5935405547604437e-06,
      "loss": 1.4571,
      "step": 85724
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6836705207824707,
      "learning_rate": 3.5919278049867827e-06,
      "loss": 1.5018,
      "step": 85725
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6825535297393799,
      "learning_rate": 3.590315415008849e-06,
      "loss": 1.5155,
      "step": 85726
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6986150741577148,
      "learning_rate": 3.588703384828606e-06,
      "loss": 1.5496,
      "step": 85727
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6600986123085022,
      "learning_rate": 3.5870917144480204e-06,
      "loss": 1.54,
      "step": 85728
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6874353289604187,
      "learning_rate": 3.585480403869023e-06,
      "loss": 1.4093,
      "step": 85729
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6719024777412415,
      "learning_rate": 3.5838694530935795e-06,
      "loss": 1.5029,
      "step": 85730
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6779265403747559,
      "learning_rate": 3.5822588621236546e-06,
      "loss": 1.463,
      "step": 85731
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6737381219863892,
      "learning_rate": 3.580648630961147e-06,
      "loss": 1.4122,
      "step": 85732
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6594507098197937,
      "learning_rate": 3.5790387596080884e-06,
      "loss": 1.4815,
      "step": 85733
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6719844341278076,
      "learning_rate": 3.57742924806641e-06,
      "loss": 1.5174,
      "step": 85734
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7062787413597107,
      "learning_rate": 3.5758200963380447e-06,
      "loss": 1.551,
      "step": 85735
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6834930181503296,
      "learning_rate": 3.5742113044249233e-06,
      "loss": 1.4472,
      "step": 85736
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6919533610343933,
      "learning_rate": 3.572602872329078e-06,
      "loss": 1.5561,
      "step": 85737
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.8219406604766846,
      "learning_rate": 3.5709948000524067e-06,
      "loss": 1.5819,
      "step": 85738
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6676759719848633,
      "learning_rate": 3.5693870875968757e-06,
      "loss": 1.5164,
      "step": 85739
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6787182092666626,
      "learning_rate": 3.5677797349644155e-06,
      "loss": 1.5438,
      "step": 85740
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6893886923789978,
      "learning_rate": 3.5661727421570254e-06,
      "loss": 1.5166,
      "step": 85741
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6736612319946289,
      "learning_rate": 3.5645661091766033e-06,
      "loss": 1.4403,
      "step": 85742
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6914920806884766,
      "learning_rate": 3.562959836025081e-06,
      "loss": 1.4986,
      "step": 85743
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6979680061340332,
      "learning_rate": 3.561353922704524e-06,
      "loss": 1.5885,
      "step": 85744
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.671808123588562,
      "learning_rate": 3.5597483692167638e-06,
      "loss": 1.4451,
      "step": 85745
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6938026547431946,
      "learning_rate": 3.5581431755637655e-06,
      "loss": 1.5155,
      "step": 85746
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7349100112915039,
      "learning_rate": 3.556538341747528e-06,
      "loss": 1.5564,
      "step": 85747
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6896884441375732,
      "learning_rate": 3.554933867770016e-06,
      "loss": 1.4978,
      "step": 85748
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6732246279716492,
      "learning_rate": 3.5533297536330607e-06,
      "loss": 1.5037,
      "step": 85749
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7020014524459839,
      "learning_rate": 3.5517259993387283e-06,
      "loss": 1.5454,
      "step": 85750
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6980884075164795,
      "learning_rate": 3.5501226048889166e-06,
      "loss": 1.4927,
      "step": 85751
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.680620551109314,
      "learning_rate": 3.5485195702855908e-06,
      "loss": 1.4896,
      "step": 85752
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6635587811470032,
      "learning_rate": 3.5469168955306495e-06,
      "loss": 1.4973,
      "step": 85753
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6729453802108765,
      "learning_rate": 3.545314580626091e-06,
      "loss": 1.5297,
      "step": 85754
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6745740175247192,
      "learning_rate": 3.543712625573847e-06,
      "loss": 1.4978,
      "step": 85755
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6606930494308472,
      "learning_rate": 3.542111030375816e-06,
      "loss": 1.4416,
      "step": 85756
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6788666844367981,
      "learning_rate": 3.540509795033997e-06,
      "loss": 1.5621,
      "step": 85757
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6801801323890686,
      "learning_rate": 3.5389089195503207e-06,
      "loss": 1.461,
      "step": 85758
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6968868970870972,
      "learning_rate": 3.537308403926753e-06,
      "loss": 1.4789,
      "step": 85759
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6636431813240051,
      "learning_rate": 3.5357082481651923e-06,
      "loss": 1.5291,
      "step": 85760
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6564700603485107,
      "learning_rate": 3.5341084522676035e-06,
      "loss": 1.4927,
      "step": 85761
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6916735172271729,
      "learning_rate": 3.5325090162359183e-06,
      "loss": 1.4645,
      "step": 85762
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6715425252914429,
      "learning_rate": 3.5309099400720685e-06,
      "loss": 1.4731,
      "step": 85763
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6389439105987549,
      "learning_rate": 3.529311223778053e-06,
      "loss": 1.5147,
      "step": 85764
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6856178641319275,
      "learning_rate": 3.5277128673557364e-06,
      "loss": 1.4689,
      "step": 85765
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6720138192176819,
      "learning_rate": 3.5261148708071173e-06,
      "loss": 1.4067,
      "step": 85766
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6869911551475525,
      "learning_rate": 3.524517234134061e-06,
      "loss": 1.5082,
      "step": 85767
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6882155537605286,
      "learning_rate": 3.5229199573386324e-06,
      "loss": 1.4923,
      "step": 85768
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7035782933235168,
      "learning_rate": 3.5213230404226633e-06,
      "loss": 1.4974,
      "step": 85769
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6729628443717957,
      "learning_rate": 3.5197264833880855e-06,
      "loss": 1.4763,
      "step": 85770
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.678935170173645,
      "learning_rate": 3.518130286236931e-06,
      "loss": 1.5152,
      "step": 85771
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6662195324897766,
      "learning_rate": 3.516534448971031e-06,
      "loss": 1.4866,
      "step": 85772
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6875275373458862,
      "learning_rate": 3.5149389715924183e-06,
      "loss": 1.4879,
      "step": 85773
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7066128849983215,
      "learning_rate": 3.5133438541029903e-06,
      "loss": 1.5719,
      "step": 85774
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6767325401306152,
      "learning_rate": 3.5117490965046457e-06,
      "loss": 1.4738,
      "step": 85775
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6895852088928223,
      "learning_rate": 3.51015469879935e-06,
      "loss": 1.5092,
      "step": 85776
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6604756116867065,
      "learning_rate": 3.508560660989035e-06,
      "loss": 1.5378,
      "step": 85777
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6800791025161743,
      "learning_rate": 3.5069669830756653e-06,
      "loss": 1.469,
      "step": 85778
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6725907325744629,
      "learning_rate": 3.5053736650611397e-06,
      "loss": 1.4709,
      "step": 85779
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.691669225692749,
      "learning_rate": 3.503780706947423e-06,
      "loss": 1.5539,
      "step": 85780
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.698627769947052,
      "learning_rate": 3.5021881087364144e-06,
      "loss": 1.4707,
      "step": 85781
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6840031743049622,
      "learning_rate": 3.5005958704300785e-06,
      "loss": 1.467,
      "step": 85782
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7054991126060486,
      "learning_rate": 3.4990039920302805e-06,
      "loss": 1.4903,
      "step": 85783
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6796601414680481,
      "learning_rate": 3.4974124735390852e-06,
      "loss": 1.4839,
      "step": 85784
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6675289273262024,
      "learning_rate": 3.4958213149582912e-06,
      "loss": 1.4922,
      "step": 85785
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6816253066062927,
      "learning_rate": 3.494230516289864e-06,
      "loss": 1.572,
      "step": 85786
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6657730340957642,
      "learning_rate": 3.492640077535802e-06,
      "loss": 1.5094,
      "step": 85787
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6766222715377808,
      "learning_rate": 3.49104999869797e-06,
      "loss": 1.5181,
      "step": 85788
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6766848564147949,
      "learning_rate": 3.4894602797783e-06,
      "loss": 1.5068,
      "step": 85789
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6728083491325378,
      "learning_rate": 3.4878709207787236e-06,
      "loss": 1.5419,
      "step": 85790
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6740835905075073,
      "learning_rate": 3.4862819217012395e-06,
      "loss": 1.4978,
      "step": 85791
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7075760960578918,
      "learning_rate": 3.484693282547679e-06,
      "loss": 1.5334,
      "step": 85792
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6660149693489075,
      "learning_rate": 3.483105003320008e-06,
      "loss": 1.5507,
      "step": 85793
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6833578944206238,
      "learning_rate": 3.481517084020158e-06,
      "loss": 1.5025,
      "step": 85794
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7096973657608032,
      "learning_rate": 3.4799295246500934e-06,
      "loss": 1.5362,
      "step": 85795
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6582582592964172,
      "learning_rate": 3.478342325211647e-06,
      "loss": 1.4456,
      "step": 85796
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6556847095489502,
      "learning_rate": 3.4767554857068504e-06,
      "loss": 1.5554,
      "step": 85797
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6988475322723389,
      "learning_rate": 3.475169006137568e-06,
      "loss": 1.4143,
      "step": 85798
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6843701601028442,
      "learning_rate": 3.4735828865057325e-06,
      "loss": 1.5451,
      "step": 85799
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6901143789291382,
      "learning_rate": 3.471997126813275e-06,
      "loss": 1.5156,
      "step": 85800
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6938948035240173,
      "learning_rate": 3.470411727062128e-06,
      "loss": 1.5258,
      "step": 85801
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6537762880325317,
      "learning_rate": 3.4688266872542226e-06,
      "loss": 1.503,
      "step": 85802
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.678428590297699,
      "learning_rate": 3.467242007391424e-06,
      "loss": 1.5266,
      "step": 85803
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6701487898826599,
      "learning_rate": 3.4656576874757314e-06,
      "loss": 1.5013,
      "step": 85804
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6774106621742249,
      "learning_rate": 3.464073727509076e-06,
      "loss": 1.4231,
      "step": 85805
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7003682255744934,
      "learning_rate": 3.4624901274932893e-06,
      "loss": 1.5388,
      "step": 85806
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6545048952102661,
      "learning_rate": 3.460906887430337e-06,
      "loss": 1.4899,
      "step": 85807
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6620224714279175,
      "learning_rate": 3.459324007322184e-06,
      "loss": 1.4633,
      "step": 85808
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6755557656288147,
      "learning_rate": 3.4577414871707286e-06,
      "loss": 1.5038,
      "step": 85809
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.673072099685669,
      "learning_rate": 3.45615932697787e-06,
      "loss": 1.4916,
      "step": 85810
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6834725737571716,
      "learning_rate": 3.454577526745539e-06,
      "loss": 1.5657,
      "step": 85811
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6802454590797424,
      "learning_rate": 3.4529960864756346e-06,
      "loss": 1.5212,
      "step": 85812
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.677178144454956,
      "learning_rate": 3.4514150061701216e-06,
      "loss": 1.4808,
      "step": 85813
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6704086661338806,
      "learning_rate": 3.449834285830866e-06,
      "loss": 1.5288,
      "step": 85814
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6797029972076416,
      "learning_rate": 3.448253925459865e-06,
      "loss": 1.4707,
      "step": 85815
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6792802810668945,
      "learning_rate": 3.446673925058985e-06,
      "loss": 1.5441,
      "step": 85816
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7129742503166199,
      "learning_rate": 3.44509428463009e-06,
      "loss": 1.521,
      "step": 85817
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6708874702453613,
      "learning_rate": 3.4435150041752125e-06,
      "loss": 1.4565,
      "step": 85818
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6535362005233765,
      "learning_rate": 3.441936083696217e-06,
      "loss": 1.4795,
      "step": 85819
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6751227378845215,
      "learning_rate": 3.44035752319497e-06,
      "loss": 1.5315,
      "step": 85820
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6884269118309021,
      "learning_rate": 3.4387793226734684e-06,
      "loss": 1.4688,
      "step": 85821
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6826095581054688,
      "learning_rate": 3.437201482133578e-06,
      "loss": 1.4853,
      "step": 85822
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6736223697662354,
      "learning_rate": 3.435624001577231e-06,
      "loss": 1.4611,
      "step": 85823
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6720520257949829,
      "learning_rate": 3.434046881006325e-06,
      "loss": 1.5816,
      "step": 85824
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6768766641616821,
      "learning_rate": 3.432470120422792e-06,
      "loss": 1.4703,
      "step": 85825
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6684542298316956,
      "learning_rate": 3.4308937198285645e-06,
      "loss": 1.504,
      "step": 85826
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6803853511810303,
      "learning_rate": 3.4293176792255405e-06,
      "loss": 1.5957,
      "step": 85827
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6601645350456238,
      "learning_rate": 3.4277419986156184e-06,
      "loss": 1.5277,
      "step": 85828
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6816850900650024,
      "learning_rate": 3.426166678000697e-06,
      "loss": 1.5838,
      "step": 85829
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6833927035331726,
      "learning_rate": 3.424591717382741e-06,
      "loss": 1.5459,
      "step": 85830
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6757950782775879,
      "learning_rate": 3.4230171167636154e-06,
      "loss": 1.4434,
      "step": 85831
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7052003741264343,
      "learning_rate": 3.4214428761452196e-06,
      "loss": 1.5777,
      "step": 85832
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6910231709480286,
      "learning_rate": 3.419868995529551e-06,
      "loss": 1.5392,
      "step": 85833
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.654159665107727,
      "learning_rate": 3.418295474918409e-06,
      "loss": 1.4705,
      "step": 85834
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6714561581611633,
      "learning_rate": 3.416722314313791e-06,
      "loss": 1.5471,
      "step": 85835
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6824914813041687,
      "learning_rate": 3.415149513717563e-06,
      "loss": 1.4825,
      "step": 85836
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6748785376548767,
      "learning_rate": 3.413577073131657e-06,
      "loss": 1.5163,
      "step": 85837
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7026016116142273,
      "learning_rate": 3.4120049925579707e-06,
      "loss": 1.5582,
      "step": 85838
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6768277883529663,
      "learning_rate": 3.4104332719983694e-06,
      "loss": 1.4958,
      "step": 85839
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6918573975563049,
      "learning_rate": 3.408861911454852e-06,
      "loss": 1.5354,
      "step": 85840
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6968756318092346,
      "learning_rate": 3.40729091092925e-06,
      "loss": 1.5358,
      "step": 85841
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7056073546409607,
      "learning_rate": 3.405720270423495e-06,
      "loss": 1.5896,
      "step": 85842
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6963085532188416,
      "learning_rate": 3.4041499899394863e-06,
      "loss": 1.5204,
      "step": 85843
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6848857998847961,
      "learning_rate": 3.402580069479155e-06,
      "loss": 1.4616,
      "step": 85844
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6732251644134521,
      "learning_rate": 3.4010105090443994e-06,
      "loss": 1.4964,
      "step": 85845
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6669445633888245,
      "learning_rate": 3.399441308637085e-06,
      "loss": 1.4996,
      "step": 85846
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.677600622177124,
      "learning_rate": 3.3978724682591774e-06,
      "loss": 1.5573,
      "step": 85847
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6835165023803711,
      "learning_rate": 3.396303987912541e-06,
      "loss": 1.4324,
      "step": 85848
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6507266759872437,
      "learning_rate": 3.3947358675990743e-06,
      "loss": 1.4302,
      "step": 85849
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6739717125892639,
      "learning_rate": 3.393168107320676e-06,
      "loss": 1.4779,
      "step": 85850
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.648327112197876,
      "learning_rate": 3.391600707079345e-06,
      "loss": 1.4239,
      "step": 85851
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6957352757453918,
      "learning_rate": 3.3900336668768456e-06,
      "loss": 1.4051,
      "step": 85852
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6912484765052795,
      "learning_rate": 3.3884669867151437e-06,
      "loss": 1.4944,
      "step": 85853
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6845566034317017,
      "learning_rate": 3.386900666596171e-06,
      "loss": 1.4959,
      "step": 85854
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6737775802612305,
      "learning_rate": 3.3853347065217582e-06,
      "loss": 1.4346,
      "step": 85855
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6855963468551636,
      "learning_rate": 3.383769106493872e-06,
      "loss": 1.5311,
      "step": 85856
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6716970205307007,
      "learning_rate": 3.382203866514377e-06,
      "loss": 1.4449,
      "step": 85857
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6856492161750793,
      "learning_rate": 3.3806389865852045e-06,
      "loss": 1.5636,
      "step": 85858
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7143574953079224,
      "learning_rate": 3.379074466708187e-06,
      "loss": 1.6011,
      "step": 85859
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6752656698226929,
      "learning_rate": 3.3775103068852894e-06,
      "loss": 1.5469,
      "step": 85860
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6604986190795898,
      "learning_rate": 3.37594650711841e-06,
      "loss": 1.496,
      "step": 85861
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7019367218017578,
      "learning_rate": 3.374383067409414e-06,
      "loss": 1.5066,
      "step": 85862
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6718397736549377,
      "learning_rate": 3.372819987760167e-06,
      "loss": 1.5057,
      "step": 85863
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6921088695526123,
      "learning_rate": 3.3712572681726336e-06,
      "loss": 1.4923,
      "step": 85864
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6776668429374695,
      "learning_rate": 3.3696949086487458e-06,
      "loss": 1.4179,
      "step": 85865
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6895459294319153,
      "learning_rate": 3.368132909190302e-06,
      "loss": 1.6163,
      "step": 85866
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6719192266464233,
      "learning_rate": 3.366571269799201e-06,
      "loss": 1.5235,
      "step": 85867
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7076516151428223,
      "learning_rate": 3.3650099904774077e-06,
      "loss": 1.503,
      "step": 85868
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6789185404777527,
      "learning_rate": 3.3634490712268203e-06,
      "loss": 1.4877,
      "step": 85869
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6765738725662231,
      "learning_rate": 3.361888512049238e-06,
      "loss": 1.5102,
      "step": 85870
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6531272530555725,
      "learning_rate": 3.3603283129466585e-06,
      "loss": 1.5238,
      "step": 85871
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6949824690818787,
      "learning_rate": 3.3587684739209144e-06,
      "loss": 1.5858,
      "step": 85872
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.677397608757019,
      "learning_rate": 3.3572089949739033e-06,
      "loss": 1.4499,
      "step": 85873
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6658666729927063,
      "learning_rate": 3.3556498761075577e-06,
      "loss": 1.4926,
      "step": 85874
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6758421063423157,
      "learning_rate": 3.354091117323743e-06,
      "loss": 1.4606,
      "step": 85875
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6438523530960083,
      "learning_rate": 3.352532718624357e-06,
      "loss": 1.478,
      "step": 85876
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6799390912055969,
      "learning_rate": 3.3509746800112645e-06,
      "loss": 1.4727,
      "step": 85877
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6740588545799255,
      "learning_rate": 3.3494170014863987e-06,
      "loss": 1.5654,
      "step": 85878
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6812722086906433,
      "learning_rate": 3.3478596830516234e-06,
      "loss": 1.5878,
      "step": 85879
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6887511610984802,
      "learning_rate": 3.346302724708805e-06,
      "loss": 1.5408,
      "step": 85880
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6684989929199219,
      "learning_rate": 3.3447461264599073e-06,
      "loss": 1.4596,
      "step": 85881
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7034960389137268,
      "learning_rate": 3.3431898883067633e-06,
      "loss": 1.5452,
      "step": 85882
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6758801341056824,
      "learning_rate": 3.341634010251304e-06,
      "loss": 1.549,
      "step": 85883
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6703932285308838,
      "learning_rate": 3.340078492295328e-06,
      "loss": 1.4421,
      "step": 85884
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6781954765319824,
      "learning_rate": 3.3385233344408345e-06,
      "loss": 1.458,
      "step": 85885
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6876897811889648,
      "learning_rate": 3.3369685366896883e-06,
      "loss": 1.4785,
      "step": 85886
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6621435284614563,
      "learning_rate": 3.3354140990436873e-06,
      "loss": 1.5088,
      "step": 85887
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6933900713920593,
      "learning_rate": 3.3338600215048305e-06,
      "loss": 1.5596,
      "step": 85888
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7095471620559692,
      "learning_rate": 3.3323063040749165e-06,
      "loss": 1.5269,
      "step": 85889
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6672834157943726,
      "learning_rate": 3.330752946755877e-06,
      "loss": 1.5077,
      "step": 85890
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6790968775749207,
      "learning_rate": 3.3291999495496434e-06,
      "loss": 1.5445,
      "step": 85891
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6687930822372437,
      "learning_rate": 3.3276473124579816e-06,
      "loss": 1.5176,
      "step": 85892
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6891357898712158,
      "learning_rate": 3.3260950354828563e-06,
      "loss": 1.5266,
      "step": 85893
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.664876401424408,
      "learning_rate": 3.324543118626166e-06,
      "loss": 1.5322,
      "step": 85894
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6521635055541992,
      "learning_rate": 3.3229915618897763e-06,
      "loss": 1.5125,
      "step": 85895
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.668503999710083,
      "learning_rate": 3.3214403652755185e-06,
      "loss": 1.5512,
      "step": 85896
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7064105868339539,
      "learning_rate": 3.319889528785358e-06,
      "loss": 1.4761,
      "step": 85897
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6930423974990845,
      "learning_rate": 3.318339052421126e-06,
      "loss": 1.4985,
      "step": 85898
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6653454899787903,
      "learning_rate": 3.316788936184689e-06,
      "loss": 1.5468,
      "step": 85899
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6939380168914795,
      "learning_rate": 3.3152391800779777e-06,
      "loss": 1.5874,
      "step": 85900
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6737357378005981,
      "learning_rate": 3.3136897841028577e-06,
      "loss": 1.5585,
      "step": 85901
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6976655721664429,
      "learning_rate": 3.312140748261194e-06,
      "loss": 1.5059,
      "step": 85902
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6821138262748718,
      "learning_rate": 3.3105920725548516e-06,
      "loss": 1.5822,
      "step": 85903
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.675625741481781,
      "learning_rate": 3.3090437569857963e-06,
      "loss": 1.4733,
      "step": 85904
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6805451512336731,
      "learning_rate": 3.307495801555826e-06,
      "loss": 1.55,
      "step": 85905
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6830030679702759,
      "learning_rate": 3.305948206266806e-06,
      "loss": 1.5231,
      "step": 85906
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6870244741439819,
      "learning_rate": 3.3044009711206686e-06,
      "loss": 1.4601,
      "step": 85907
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.699097752571106,
      "learning_rate": 3.3028540961192784e-06,
      "loss": 1.5241,
      "step": 85908
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6849207282066345,
      "learning_rate": 3.3013075812645008e-06,
      "loss": 1.4932,
      "step": 85909
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6959735155105591,
      "learning_rate": 3.299761426558201e-06,
      "loss": 1.5102,
      "step": 85910
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6852720379829407,
      "learning_rate": 3.2982156320023103e-06,
      "loss": 1.4609,
      "step": 85911
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.682092010974884,
      "learning_rate": 3.2966701975986608e-06,
      "loss": 1.4927,
      "step": 85912
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6754535436630249,
      "learning_rate": 3.2951251233491184e-06,
      "loss": 1.4961,
      "step": 85913
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6779912114143372,
      "learning_rate": 3.293580409255581e-06,
      "loss": 1.5682,
      "step": 85914
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6911802887916565,
      "learning_rate": 3.2920360553199464e-06,
      "loss": 1.5885,
      "step": 85915
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6590098142623901,
      "learning_rate": 3.290492061544048e-06,
      "loss": 1.4844,
      "step": 85916
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6925387382507324,
      "learning_rate": 3.2889484279297495e-06,
      "loss": 1.4219,
      "step": 85917
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6816644668579102,
      "learning_rate": 3.2874051544789835e-06,
      "loss": 1.5847,
      "step": 85918
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6944981217384338,
      "learning_rate": 3.285862241193582e-06,
      "loss": 1.5382,
      "step": 85919
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.686621904373169,
      "learning_rate": 3.2843196880754095e-06,
      "loss": 1.4651,
      "step": 85920
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6875267028808594,
      "learning_rate": 3.2827774951263654e-06,
      "loss": 1.5016,
      "step": 85921
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6890234351158142,
      "learning_rate": 3.281235662348314e-06,
      "loss": 1.533,
      "step": 85922
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6665382981300354,
      "learning_rate": 3.2796941897430873e-06,
      "loss": 1.5203,
      "step": 85923
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6847707629203796,
      "learning_rate": 3.2781530773126176e-06,
      "loss": 1.4515,
      "step": 85924
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6630014777183533,
      "learning_rate": 3.276612325058736e-06,
      "loss": 1.5275,
      "step": 85925
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6816269755363464,
      "learning_rate": 3.2750719329833752e-06,
      "loss": 1.5086,
      "step": 85926
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6499349474906921,
      "learning_rate": 3.2735319010883e-06,
      "loss": 1.4372,
      "step": 85927
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6961970925331116,
      "learning_rate": 3.271992229375475e-06,
      "loss": 1.4597,
      "step": 85928
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6952248811721802,
      "learning_rate": 3.270452917846733e-06,
      "loss": 1.6046,
      "step": 85929
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.692654550075531,
      "learning_rate": 3.2689139665039056e-06,
      "loss": 1.5309,
      "step": 85930
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6686829328536987,
      "learning_rate": 3.2673753753488907e-06,
      "loss": 1.5314,
      "step": 85931
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6904672980308533,
      "learning_rate": 3.2658371443835875e-06,
      "loss": 1.5764,
      "step": 85932
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6989856362342834,
      "learning_rate": 3.2642992736098604e-06,
      "loss": 1.5722,
      "step": 85933
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6870265603065491,
      "learning_rate": 3.2627617630295087e-06,
      "loss": 1.5189,
      "step": 85934
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7095612287521362,
      "learning_rate": 3.2612246126444643e-06,
      "loss": 1.5681,
      "step": 85935
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7025646567344666,
      "learning_rate": 3.259687822456558e-06,
      "loss": 1.5287,
      "step": 85936
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.701061487197876,
      "learning_rate": 3.258151392467656e-06,
      "loss": 1.4961,
      "step": 85937
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6802110075950623,
      "learning_rate": 3.25661532267969e-06,
      "loss": 1.5341,
      "step": 85938
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6787696480751038,
      "learning_rate": 3.2550796130943913e-06,
      "loss": 1.5586,
      "step": 85939
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6775557994842529,
      "learning_rate": 3.2535442637137587e-06,
      "loss": 1.4929,
      "step": 85940
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.672055721282959,
      "learning_rate": 3.252009274539591e-06,
      "loss": 1.5543,
      "step": 85941
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6657894849777222,
      "learning_rate": 3.250474645573753e-06,
      "loss": 1.4846,
      "step": 85942
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6878929734230042,
      "learning_rate": 3.24894037681811e-06,
      "loss": 1.5436,
      "step": 85943
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6746835708618164,
      "learning_rate": 3.247406468274527e-06,
      "loss": 1.4696,
      "step": 85944
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6844930648803711,
      "learning_rate": 3.2458729199449028e-06,
      "loss": 1.5887,
      "step": 85945
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6732329726219177,
      "learning_rate": 3.2443397318310027e-06,
      "loss": 1.5408,
      "step": 85946
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6619194149971008,
      "learning_rate": 3.2428069039347913e-06,
      "loss": 1.4526,
      "step": 85947
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6627002954483032,
      "learning_rate": 3.2412744362581013e-06,
      "loss": 1.5105,
      "step": 85948
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.673780620098114,
      "learning_rate": 3.2397423288027635e-06,
      "loss": 1.4848,
      "step": 85949
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6737602949142456,
      "learning_rate": 3.238210581570644e-06,
      "loss": 1.4851,
      "step": 85950
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6665952801704407,
      "learning_rate": 3.2366791945636072e-06,
      "loss": 1.4844,
      "step": 85951
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6799454689025879,
      "learning_rate": 3.235148167783519e-06,
      "loss": 1.5078,
      "step": 85952
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6902274489402771,
      "learning_rate": 3.2336175012322443e-06,
      "loss": 1.524,
      "step": 85953
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6604616045951843,
      "learning_rate": 3.2320871949116144e-06,
      "loss": 1.518,
      "step": 85954
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6945938467979431,
      "learning_rate": 3.2305572488235286e-06,
      "loss": 1.566,
      "step": 85955
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6781057119369507,
      "learning_rate": 3.2290276629697855e-06,
      "loss": 1.5439,
      "step": 85956
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6778385639190674,
      "learning_rate": 3.227498437352316e-06,
      "loss": 1.4225,
      "step": 85957
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6836313009262085,
      "learning_rate": 3.2259695719729194e-06,
      "loss": 1.5043,
      "step": 85958
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6884772777557373,
      "learning_rate": 3.2244410668334606e-06,
      "loss": 1.4947,
      "step": 85959
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6932860612869263,
      "learning_rate": 3.2229129219358052e-06,
      "loss": 1.4693,
      "step": 85960
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6688825488090515,
      "learning_rate": 3.221385137281818e-06,
      "loss": 1.527,
      "step": 85961
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6898593902587891,
      "learning_rate": 3.2198577128733306e-06,
      "loss": 1.463,
      "step": 85962
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6678227782249451,
      "learning_rate": 3.218330648712175e-06,
      "loss": 1.4526,
      "step": 85963
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.672763466835022,
      "learning_rate": 3.2168039448002837e-06,
      "loss": 1.5429,
      "step": 85964
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6807984113693237,
      "learning_rate": 3.215277601139454e-06,
      "loss": 1.5061,
      "step": 85965
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6902815699577332,
      "learning_rate": 3.2137516177315525e-06,
      "loss": 1.4634,
      "step": 85966
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6623548865318298,
      "learning_rate": 3.21222599457841e-06,
      "loss": 1.5739,
      "step": 85967
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6710273027420044,
      "learning_rate": 3.2107007316819257e-06,
      "loss": 1.4767,
      "step": 85968
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.680520236492157,
      "learning_rate": 3.209175829043864e-06,
      "loss": 1.4353,
      "step": 85969
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6834272146224976,
      "learning_rate": 3.2076512866661574e-06,
      "loss": 1.5097,
      "step": 85970
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7055432796478271,
      "learning_rate": 3.206127104550671e-06,
      "loss": 1.5605,
      "step": 85971
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6722580194473267,
      "learning_rate": 3.204603282699203e-06,
      "loss": 1.4946,
      "step": 85972
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.664913535118103,
      "learning_rate": 3.2030798211135857e-06,
      "loss": 1.5457,
      "step": 85973
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6634948253631592,
      "learning_rate": 3.201556719795684e-06,
      "loss": 1.4094,
      "step": 85974
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6831686496734619,
      "learning_rate": 3.2000339787474296e-06,
      "loss": 1.4473,
      "step": 85975
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6712390780448914,
      "learning_rate": 3.1985115979705545e-06,
      "loss": 1.4739,
      "step": 85976
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.691691517829895,
      "learning_rate": 3.196989577466924e-06,
      "loss": 1.5008,
      "step": 85977
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6977576017379761,
      "learning_rate": 3.19546791723847e-06,
      "loss": 1.6255,
      "step": 85978
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6883561015129089,
      "learning_rate": 3.193946617286991e-06,
      "loss": 1.528,
      "step": 85979
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6968448758125305,
      "learning_rate": 3.1924256776142852e-06,
      "loss": 1.4721,
      "step": 85980
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6727285981178284,
      "learning_rate": 3.1909050982222516e-06,
      "loss": 1.5535,
      "step": 85981
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6566930413246155,
      "learning_rate": 3.1893848791127886e-06,
      "loss": 1.4801,
      "step": 85982
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.676567792892456,
      "learning_rate": 3.1878650202875945e-06,
      "loss": 1.4674,
      "step": 85983
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6629268527030945,
      "learning_rate": 3.1863455217486346e-06,
      "loss": 1.5792,
      "step": 85984
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7006542086601257,
      "learning_rate": 3.1848263834977404e-06,
      "loss": 1.4432,
      "step": 85985
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6832298040390015,
      "learning_rate": 3.1833076055367115e-06,
      "loss": 1.4642,
      "step": 85986
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7166127562522888,
      "learning_rate": 3.1817891878674117e-06,
      "loss": 1.5204,
      "step": 85987
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.660844624042511,
      "learning_rate": 3.1802711304916738e-06,
      "loss": 1.5261,
      "step": 85988
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6842122077941895,
      "learning_rate": 3.1787534334113627e-06,
      "loss": 1.5197,
      "step": 85989
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6577446460723877,
      "learning_rate": 3.1772360966283107e-06,
      "loss": 1.4809,
      "step": 85990
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6838818192481995,
      "learning_rate": 3.1757191201443487e-06,
      "loss": 1.4837,
      "step": 85991
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6784526109695435,
      "learning_rate": 3.174202503961343e-06,
      "loss": 1.505,
      "step": 85992
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6817497611045837,
      "learning_rate": 3.172686248081158e-06,
      "loss": 1.4869,
      "step": 85993
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6546744108200073,
      "learning_rate": 3.1711703525055256e-06,
      "loss": 1.5522,
      "step": 85994
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6768975257873535,
      "learning_rate": 3.169654817236411e-06,
      "loss": 1.4666,
      "step": 85995
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.69461989402771,
      "learning_rate": 3.16813964227558e-06,
      "loss": 1.5021,
      "step": 85996
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6915835738182068,
      "learning_rate": 3.166624827624864e-06,
      "loss": 1.5261,
      "step": 85997
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6838411688804626,
      "learning_rate": 3.1651103732861614e-06,
      "loss": 1.4813,
      "step": 85998
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6802428364753723,
      "learning_rate": 3.1635962792612714e-06,
      "loss": 1.4908,
      "step": 85999
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.659114420413971,
      "learning_rate": 3.1620825455520582e-06,
      "loss": 1.4752,
      "step": 86000
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6653560996055603,
      "learning_rate": 3.1605691721602877e-06,
      "loss": 1.4763,
      "step": 86001
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6831855177879333,
      "learning_rate": 3.1590561590878914e-06,
      "loss": 1.5004,
      "step": 86002
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7171294689178467,
      "learning_rate": 3.1575435063366684e-06,
      "loss": 1.5122,
      "step": 86003
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.66766357421875,
      "learning_rate": 3.1560312139084166e-06,
      "loss": 1.5362,
      "step": 86004
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6712458729743958,
      "learning_rate": 3.1545192818050345e-06,
      "loss": 1.5062,
      "step": 86005
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6670559048652649,
      "learning_rate": 3.153007710028288e-06,
      "loss": 1.5312,
      "step": 86006
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6728467345237732,
      "learning_rate": 3.1514964985801083e-06,
      "loss": 1.5351,
      "step": 86007
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6672012805938721,
      "learning_rate": 3.149985647462261e-06,
      "loss": 1.4681,
      "step": 86008
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6749390959739685,
      "learning_rate": 3.1484751566765444e-06,
      "loss": 1.4472,
      "step": 86009
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.8535807132720947,
      "learning_rate": 3.146965026224857e-06,
      "loss": 1.4572,
      "step": 86010
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6952006816864014,
      "learning_rate": 3.145455256109064e-06,
      "loss": 1.4869,
      "step": 86011
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6734505891799927,
      "learning_rate": 3.1439458463308974e-06,
      "loss": 1.4887,
      "step": 86012
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6985723972320557,
      "learning_rate": 3.142436796892256e-06,
      "loss": 1.6063,
      "step": 86013
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6982198357582092,
      "learning_rate": 3.140928107794971e-06,
      "loss": 1.5408,
      "step": 86014
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6829738616943359,
      "learning_rate": 3.1394197790408416e-06,
      "loss": 1.5319,
      "step": 86015
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.676667332649231,
      "learning_rate": 3.1379118106317323e-06,
      "loss": 1.5473,
      "step": 86016
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6784999370574951,
      "learning_rate": 3.1364042025694094e-06,
      "loss": 1.4311,
      "step": 86017
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6685857772827148,
      "learning_rate": 3.1348969548558366e-06,
      "loss": 1.415,
      "step": 86018
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7207381725311279,
      "learning_rate": 3.1333900674926805e-06,
      "loss": 1.5636,
      "step": 86019
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6822236180305481,
      "learning_rate": 3.131883540481872e-06,
      "loss": 1.4739,
      "step": 86020
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6821770668029785,
      "learning_rate": 3.1303773738252436e-06,
      "loss": 1.5052,
      "step": 86021
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6651580333709717,
      "learning_rate": 3.12887156752456e-06,
      "loss": 1.4798,
      "step": 86022
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7063890099525452,
      "learning_rate": 3.127366121581687e-06,
      "loss": 1.5162,
      "step": 86023
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6904197931289673,
      "learning_rate": 3.125861035998456e-06,
      "loss": 1.4854,
      "step": 86024
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7066865563392639,
      "learning_rate": 3.124356310776699e-06,
      "loss": 1.5435,
      "step": 86025
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6914448142051697,
      "learning_rate": 3.1228519459182145e-06,
      "loss": 1.4817,
      "step": 86026
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6946640610694885,
      "learning_rate": 3.1213479414248343e-06,
      "loss": 1.5216,
      "step": 86027
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7053856253623962,
      "learning_rate": 3.119844297298424e-06,
      "loss": 1.6123,
      "step": 86028
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6925879716873169,
      "learning_rate": 3.1183410135407817e-06,
      "loss": 1.4968,
      "step": 86029
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6907145380973816,
      "learning_rate": 3.116838090153706e-06,
      "loss": 1.5414,
      "step": 86030
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6817254424095154,
      "learning_rate": 3.1153355271390623e-06,
      "loss": 1.4487,
      "step": 86031
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6860668063163757,
      "learning_rate": 3.113833324498649e-06,
      "loss": 1.4605,
      "step": 86032
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6579973697662354,
      "learning_rate": 3.112331482234298e-06,
      "loss": 1.5113,
      "step": 86033
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6579630970954895,
      "learning_rate": 3.1108300003478416e-06,
      "loss": 1.4045,
      "step": 86034
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6814160943031311,
      "learning_rate": 3.1093288788410774e-06,
      "loss": 1.506,
      "step": 86035
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6688752770423889,
      "learning_rate": 3.1078281177158715e-06,
      "loss": 1.5087,
      "step": 86036
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7012743949890137,
      "learning_rate": 3.1063277169739553e-06,
      "loss": 1.5743,
      "step": 86037
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6750925779342651,
      "learning_rate": 3.1048276766172608e-06,
      "loss": 1.4769,
      "step": 86038
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6943627595901489,
      "learning_rate": 3.1033279966475867e-06,
      "loss": 1.5918,
      "step": 86039
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.693976640701294,
      "learning_rate": 3.1018286770666643e-06,
      "loss": 1.5158,
      "step": 86040
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6774742007255554,
      "learning_rate": 3.100329717876393e-06,
      "loss": 1.5014,
      "step": 86041
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6773414611816406,
      "learning_rate": 3.098831119078604e-06,
      "loss": 1.5076,
      "step": 86042
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6786819696426392,
      "learning_rate": 3.097332880675063e-06,
      "loss": 1.4372,
      "step": 86043
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6797766089439392,
      "learning_rate": 3.095835002667635e-06,
      "loss": 1.5,
      "step": 86044
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6705852746963501,
      "learning_rate": 3.094337485058085e-06,
      "loss": 1.4929,
      "step": 86045
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6786876916885376,
      "learning_rate": 3.0928403278483117e-06,
      "loss": 1.4344,
      "step": 86046
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6917065382003784,
      "learning_rate": 3.091343531040014e-06,
      "loss": 1.5453,
      "step": 86047
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6953076124191284,
      "learning_rate": 3.0898470946351227e-06,
      "loss": 1.463,
      "step": 86048
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.721242368221283,
      "learning_rate": 3.0883510186354042e-06,
      "loss": 1.4538,
      "step": 86049
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6834700703620911,
      "learning_rate": 3.0868553030426903e-06,
      "loss": 1.4877,
      "step": 86050
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6899036765098572,
      "learning_rate": 3.0853599478587455e-06,
      "loss": 1.4324,
      "step": 86051
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6935650110244751,
      "learning_rate": 3.0838649530854686e-06,
      "loss": 1.4794,
      "step": 86052
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6475841403007507,
      "learning_rate": 3.0823703187246253e-06,
      "loss": 1.5204,
      "step": 86053
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6860352158546448,
      "learning_rate": 3.0808760447780132e-06,
      "loss": 1.527,
      "step": 86054
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6799219250679016,
      "learning_rate": 3.0793821312474986e-06,
      "loss": 1.5705,
      "step": 86055
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6709728240966797,
      "learning_rate": 3.077888578134813e-06,
      "loss": 1.5016,
      "step": 86056
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6992828845977783,
      "learning_rate": 3.0763953854418878e-06,
      "loss": 1.5754,
      "step": 86057
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6952875256538391,
      "learning_rate": 3.074902553170422e-06,
      "loss": 1.5064,
      "step": 86058
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6880389451980591,
      "learning_rate": 3.0734100813222805e-06,
      "loss": 1.4886,
      "step": 86059
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7023512125015259,
      "learning_rate": 3.0719179698992958e-06,
      "loss": 1.5032,
      "step": 86060
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6890918612480164,
      "learning_rate": 3.070426218903199e-06,
      "loss": 1.5341,
      "step": 86061
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6977977156639099,
      "learning_rate": 3.0689348283359228e-06,
      "loss": 1.5587,
      "step": 86062
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6839523315429688,
      "learning_rate": 3.067443798199165e-06,
      "loss": 1.4503,
      "step": 86063
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.683449923992157,
      "learning_rate": 3.0659531284947915e-06,
      "loss": 1.5307,
      "step": 86064
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6683730483055115,
      "learning_rate": 3.0644628192246e-06,
      "loss": 1.4335,
      "step": 86065
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.687065601348877,
      "learning_rate": 3.06297287039039e-06,
      "loss": 1.4672,
      "step": 86066
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7011228799819946,
      "learning_rate": 3.061483281993993e-06,
      "loss": 1.5054,
      "step": 86067
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6761103272438049,
      "learning_rate": 3.0599940540371735e-06,
      "loss": 1.4869,
      "step": 86068
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6672315001487732,
      "learning_rate": 3.058505186521798e-06,
      "loss": 1.4191,
      "step": 86069
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6994093656539917,
      "learning_rate": 3.057016679449631e-06,
      "loss": 1.5176,
      "step": 86070
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6995610594749451,
      "learning_rate": 3.0555285328225376e-06,
      "loss": 1.5208,
      "step": 86071
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6799050569534302,
      "learning_rate": 3.05404074664225e-06,
      "loss": 1.5153,
      "step": 86072
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6707441210746765,
      "learning_rate": 3.0525533209105666e-06,
      "loss": 1.4294,
      "step": 86073
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6729540824890137,
      "learning_rate": 3.0510662556293865e-06,
      "loss": 1.5466,
      "step": 86074
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6854923367500305,
      "learning_rate": 3.0495795508004408e-06,
      "loss": 1.498,
      "step": 86075
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6873407363891602,
      "learning_rate": 3.048093206425528e-06,
      "loss": 1.5077,
      "step": 86076
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6900557279586792,
      "learning_rate": 3.0466072225064807e-06,
      "loss": 1.481,
      "step": 86077
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6991073489189148,
      "learning_rate": 3.0451215990451307e-06,
      "loss": 1.4836,
      "step": 86078
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7131327390670776,
      "learning_rate": 3.0436363360432093e-06,
      "loss": 1.485,
      "step": 86079
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6858062744140625,
      "learning_rate": 3.042151433502582e-06,
      "loss": 1.553,
      "step": 86080
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6725561618804932,
      "learning_rate": 3.0406668914250477e-06,
      "loss": 1.4506,
      "step": 86081
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.8127216696739197,
      "learning_rate": 3.039182709812371e-06,
      "loss": 1.5411,
      "step": 86082
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6703866124153137,
      "learning_rate": 3.037698888666351e-06,
      "loss": 1.4232,
      "step": 86083
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6926969289779663,
      "learning_rate": 3.0362154279888195e-06,
      "loss": 1.517,
      "step": 86084
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6976547241210938,
      "learning_rate": 3.034732327781575e-06,
      "loss": 1.5352,
      "step": 86085
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.699603259563446,
      "learning_rate": 3.0332495880464156e-06,
      "loss": 1.53,
      "step": 86086
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6738930344581604,
      "learning_rate": 3.0317672087851076e-06,
      "loss": 1.5743,
      "step": 86087
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6681613922119141,
      "learning_rate": 3.030285189999515e-06,
      "loss": 1.4752,
      "step": 86088
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6708110570907593,
      "learning_rate": 3.0288035316913706e-06,
      "loss": 1.5035,
      "step": 86089
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6655553579330444,
      "learning_rate": 3.027322233862506e-06,
      "loss": 1.5651,
      "step": 86090
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.690708339214325,
      "learning_rate": 3.0258412965147192e-06,
      "loss": 1.5384,
      "step": 86091
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.696365475654602,
      "learning_rate": 3.024360719649843e-06,
      "loss": 1.4969,
      "step": 86092
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6863998174667358,
      "learning_rate": 3.022880503269576e-06,
      "loss": 1.5505,
      "step": 86093
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6847513914108276,
      "learning_rate": 3.0214006473757823e-06,
      "loss": 1.5112,
      "step": 86094
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6816503405570984,
      "learning_rate": 3.0199211519702617e-06,
      "loss": 1.4986,
      "step": 86095
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6466929316520691,
      "learning_rate": 3.018442017054812e-06,
      "loss": 1.4524,
      "step": 86096
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6911633610725403,
      "learning_rate": 3.0169632426311983e-06,
      "loss": 1.5281,
      "step": 86097
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6859688758850098,
      "learning_rate": 3.0154848287012533e-06,
      "loss": 1.5172,
      "step": 86098
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6812973618507385,
      "learning_rate": 3.0140067752667417e-06,
      "loss": 1.5852,
      "step": 86099
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6994056105613708,
      "learning_rate": 3.012529082329462e-06,
      "loss": 1.5943,
      "step": 86100
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6708217859268188,
      "learning_rate": 3.0110517498912134e-06,
      "loss": 1.5289,
      "step": 86101
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6971659660339355,
      "learning_rate": 3.0095747779537937e-06,
      "loss": 1.5764,
      "step": 86102
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6633761525154114,
      "learning_rate": 3.0080981665190016e-06,
      "loss": 1.5541,
      "step": 86103
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.67645663022995,
      "learning_rate": 3.006621915588603e-06,
      "loss": 1.5124,
      "step": 86104
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6875269412994385,
      "learning_rate": 3.0051460251643954e-06,
      "loss": 1.5241,
      "step": 86105
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6785532832145691,
      "learning_rate": 3.0036704952482115e-06,
      "loss": 1.525,
      "step": 86106
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6706579923629761,
      "learning_rate": 3.002195325841783e-06,
      "loss": 1.5698,
      "step": 86107
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6747125387191772,
      "learning_rate": 3.0007205169469085e-06,
      "loss": 1.5068,
      "step": 86108
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6689817309379578,
      "learning_rate": 2.9992460685654528e-06,
      "loss": 1.5092,
      "step": 86109
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6784957647323608,
      "learning_rate": 2.997771980699115e-06,
      "loss": 1.5904,
      "step": 86110
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6630120873451233,
      "learning_rate": 2.996298253349727e-06,
      "loss": 1.5362,
      "step": 86111
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6927338242530823,
      "learning_rate": 2.994824886519087e-06,
      "loss": 1.5118,
      "step": 86112
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.6697972416877747,
      "learning_rate": 2.993351880208961e-06,
      "loss": 1.5493,
      "step": 86113
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6778691411018372,
      "learning_rate": 2.991879234421146e-06,
      "loss": 1.5033,
      "step": 86114
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6830790042877197,
      "learning_rate": 2.990406949157409e-06,
      "loss": 1.55,
      "step": 86115
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7016314268112183,
      "learning_rate": 2.988935024419581e-06,
      "loss": 1.5635,
      "step": 86116
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6680019497871399,
      "learning_rate": 2.987463460209394e-06,
      "loss": 1.491,
      "step": 86117
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7202003598213196,
      "learning_rate": 2.98599225652868e-06,
      "loss": 1.4375,
      "step": 86118
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6790978312492371,
      "learning_rate": 2.984521413379237e-06,
      "loss": 1.4621,
      "step": 86119
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6849048733711243,
      "learning_rate": 2.983050930762798e-06,
      "loss": 1.5267,
      "step": 86120
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6731886863708496,
      "learning_rate": 2.981580808681161e-06,
      "loss": 1.4675,
      "step": 86121
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6657816767692566,
      "learning_rate": 2.9801110471361246e-06,
      "loss": 1.5243,
      "step": 86122
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6978598833084106,
      "learning_rate": 2.9786416461294536e-06,
      "loss": 1.4842,
      "step": 86123
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6776217222213745,
      "learning_rate": 2.977172605662981e-06,
      "loss": 1.5968,
      "step": 86124
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6851560473442078,
      "learning_rate": 2.9757039257384373e-06,
      "loss": 1.4473,
      "step": 86125
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6874794363975525,
      "learning_rate": 2.9742356063576224e-06,
      "loss": 1.5382,
      "step": 86126
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6705724000930786,
      "learning_rate": 2.9727676475223337e-06,
      "loss": 1.4864,
      "step": 86127
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6728155612945557,
      "learning_rate": 2.9713000492343375e-06,
      "loss": 1.5046,
      "step": 86128
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6646659970283508,
      "learning_rate": 2.9698328114954317e-06,
      "loss": 1.4242,
      "step": 86129
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6932488679885864,
      "learning_rate": 2.9683659343073486e-06,
      "loss": 1.565,
      "step": 86130
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.670903742313385,
      "learning_rate": 2.9668994176719197e-06,
      "loss": 1.5242,
      "step": 86131
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6749075651168823,
      "learning_rate": 2.9654332615909104e-06,
      "loss": 1.4823,
      "step": 86132
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6683211922645569,
      "learning_rate": 2.9639674660661197e-06,
      "loss": 1.5148,
      "step": 86133
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6848381757736206,
      "learning_rate": 2.9625020310992785e-06,
      "loss": 1.5037,
      "step": 86134
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6983283162117004,
      "learning_rate": 2.96103695669222e-06,
      "loss": 1.4894,
      "step": 86135
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6842546463012695,
      "learning_rate": 2.959572242846675e-06,
      "loss": 1.4712,
      "step": 86136
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6822019219398499,
      "learning_rate": 2.9581078895644096e-06,
      "loss": 1.4947,
      "step": 86137
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6803206205368042,
      "learning_rate": 2.956643896847288e-06,
      "loss": 1.4609,
      "step": 86138
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6828087568283081,
      "learning_rate": 2.9551802646970104e-06,
      "loss": 1.4937,
      "step": 86139
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6917805671691895,
      "learning_rate": 2.953716993115374e-06,
      "loss": 1.605,
      "step": 86140
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6939584612846375,
      "learning_rate": 2.952254082104177e-06,
      "loss": 1.5035,
      "step": 86141
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6704532504081726,
      "learning_rate": 2.9507915316651865e-06,
      "loss": 1.5242,
      "step": 86142
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6668038368225098,
      "learning_rate": 2.949329341800133e-06,
      "loss": 1.4979,
      "step": 86143
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6743547320365906,
      "learning_rate": 2.947867512510815e-06,
      "loss": 1.5372,
      "step": 86144
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6855229139328003,
      "learning_rate": 2.9464060437990323e-06,
      "loss": 1.5401,
      "step": 86145
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6696977615356445,
      "learning_rate": 2.9449449356665823e-06,
      "loss": 1.44,
      "step": 86146
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6506766676902771,
      "learning_rate": 2.9434841881151305e-06,
      "loss": 1.4913,
      "step": 86147
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6668160557746887,
      "learning_rate": 2.942023801146576e-06,
      "loss": 1.4499,
      "step": 86148
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6643122434616089,
      "learning_rate": 2.9405637747626163e-06,
      "loss": 1.4664,
      "step": 86149
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6941758394241333,
      "learning_rate": 2.9391041089650513e-06,
      "loss": 1.539,
      "step": 86150
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6846103072166443,
      "learning_rate": 2.9376448037556123e-06,
      "loss": 1.536,
      "step": 86151
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6889603734016418,
      "learning_rate": 2.936185859136131e-06,
      "loss": 1.4936,
      "step": 86152
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.685910701751709,
      "learning_rate": 2.9347272751083393e-06,
      "loss": 1.5468,
      "step": 86153
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6836383938789368,
      "learning_rate": 2.9332690516740366e-06,
      "loss": 1.4536,
      "step": 86154
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6784581542015076,
      "learning_rate": 2.931811188834954e-06,
      "loss": 1.4739,
      "step": 86155
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6697360277175903,
      "learning_rate": 2.93035368659289e-06,
      "loss": 1.4884,
      "step": 86156
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6676211357116699,
      "learning_rate": 2.9288965449496105e-06,
      "loss": 1.5068,
      "step": 86157
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.680489718914032,
      "learning_rate": 2.927439763906847e-06,
      "loss": 1.5778,
      "step": 86158
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6508786082267761,
      "learning_rate": 2.9259833434664317e-06,
      "loss": 1.4514,
      "step": 86159
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6660605072975159,
      "learning_rate": 2.924527283630129e-06,
      "loss": 1.5016,
      "step": 86160
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6930112838745117,
      "learning_rate": 2.9230715843996054e-06,
      "loss": 1.4941,
      "step": 86161
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7180976271629333,
      "learning_rate": 2.921616245776759e-06,
      "loss": 1.5494,
      "step": 86162
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6928741335868835,
      "learning_rate": 2.920161267763288e-06,
      "loss": 1.5821,
      "step": 86163
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6540172100067139,
      "learning_rate": 2.918706650360958e-06,
      "loss": 1.5104,
      "step": 86164
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6834617257118225,
      "learning_rate": 2.917252393571534e-06,
      "loss": 1.4988,
      "step": 86165
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6609817147254944,
      "learning_rate": 2.915798497396815e-06,
      "loss": 1.5622,
      "step": 86166
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.691775381565094,
      "learning_rate": 2.9143449618385327e-06,
      "loss": 1.5099,
      "step": 86167
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7119811773300171,
      "learning_rate": 2.9128917868984527e-06,
      "loss": 1.434,
      "step": 86168
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6724148988723755,
      "learning_rate": 2.911438972578373e-06,
      "loss": 1.4916,
      "step": 86169
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7025479078292847,
      "learning_rate": 2.9099865188800254e-06,
      "loss": 1.5314,
      "step": 86170
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6878812313079834,
      "learning_rate": 2.9085344258051425e-06,
      "loss": 1.548,
      "step": 86171
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6891827583312988,
      "learning_rate": 2.907082693355556e-06,
      "loss": 1.5297,
      "step": 86172
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7028785347938538,
      "learning_rate": 2.9056313215329974e-06,
      "loss": 1.4851,
      "step": 86173
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6787029504776001,
      "learning_rate": 2.9041803103392325e-06,
      "loss": 1.5885,
      "step": 86174
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6868983507156372,
      "learning_rate": 2.902729659775993e-06,
      "loss": 1.4846,
      "step": 86175
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7022668123245239,
      "learning_rate": 2.9012793698450777e-06,
      "loss": 1.5791,
      "step": 86176
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6745995879173279,
      "learning_rate": 2.899829440548251e-06,
      "loss": 1.4738,
      "step": 86177
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6580461859703064,
      "learning_rate": 2.8983798718872463e-06,
      "loss": 1.4828,
      "step": 86178
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6991984844207764,
      "learning_rate": 2.896930663863828e-06,
      "loss": 1.457,
      "step": 86179
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6777395009994507,
      "learning_rate": 2.895481816479761e-06,
      "loss": 1.4981,
      "step": 86180
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7219331860542297,
      "learning_rate": 2.8940333297368113e-06,
      "loss": 1.5872,
      "step": 86181
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6745279431343079,
      "learning_rate": 2.8925852036367103e-06,
      "loss": 1.5358,
      "step": 86182
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6739630699157715,
      "learning_rate": 2.8911374381812238e-06,
      "loss": 1.5513,
      "step": 86183
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6691085696220398,
      "learning_rate": 2.8896900333721496e-06,
      "loss": 1.4977,
      "step": 86184
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6683867573738098,
      "learning_rate": 2.88824298921122e-06,
      "loss": 1.3844,
      "step": 86185
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6925958395004272,
      "learning_rate": 2.8867963057001677e-06,
      "loss": 1.5616,
      "step": 86186
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6873674392700195,
      "learning_rate": 2.885349982840757e-06,
      "loss": 1.5491,
      "step": 86187
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6733385920524597,
      "learning_rate": 2.883904020634786e-06,
      "loss": 1.4847,
      "step": 86188
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.8652243614196777,
      "learning_rate": 2.882458419083955e-06,
      "loss": 1.5677,
      "step": 86189
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7208163142204285,
      "learning_rate": 2.8810131781900282e-06,
      "loss": 1.5009,
      "step": 86190
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6631147861480713,
      "learning_rate": 2.879568297954804e-06,
      "loss": 1.4352,
      "step": 86191
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6880775690078735,
      "learning_rate": 2.8781237783799816e-06,
      "loss": 1.5136,
      "step": 86192
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6592609882354736,
      "learning_rate": 2.876679619467359e-06,
      "loss": 1.5311,
      "step": 86193
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6904309391975403,
      "learning_rate": 2.8752358212186356e-06,
      "loss": 1.5282,
      "step": 86194
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6819813251495361,
      "learning_rate": 2.873792383635609e-06,
      "loss": 1.5118,
      "step": 86195
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6778032183647156,
      "learning_rate": 2.8723493067200453e-06,
      "loss": 1.5151,
      "step": 86196
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6840776801109314,
      "learning_rate": 2.870906590473643e-06,
      "loss": 1.458,
      "step": 86197
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6766571998596191,
      "learning_rate": 2.8694642348982e-06,
      "loss": 1.5021,
      "step": 86198
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6721364259719849,
      "learning_rate": 2.868022239995449e-06,
      "loss": 1.487,
      "step": 86199
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6632229685783386,
      "learning_rate": 2.8665806057670883e-06,
      "loss": 1.4991,
      "step": 86200
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6881387829780579,
      "learning_rate": 2.8651393322149497e-06,
      "loss": 1.5788,
      "step": 86201
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.657566487789154,
      "learning_rate": 2.8636984193407987e-06,
      "loss": 1.5038,
      "step": 86202
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6555644273757935,
      "learning_rate": 2.862257867146267e-06,
      "loss": 1.5031,
      "step": 86203
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6890829205513,
      "learning_rate": 2.860817675633187e-06,
      "loss": 1.4879,
      "step": 86204
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6977116465568542,
      "learning_rate": 2.8593778448033233e-06,
      "loss": 1.4204,
      "step": 86205
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7011528611183167,
      "learning_rate": 2.857938374658375e-06,
      "loss": 1.5487,
      "step": 86206
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.679935872554779,
      "learning_rate": 2.856499265200107e-06,
      "loss": 1.4884,
      "step": 86207
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6724662780761719,
      "learning_rate": 2.855060516430252e-06,
      "loss": 1.4864,
      "step": 86208
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6496376991271973,
      "learning_rate": 2.8536221283506076e-06,
      "loss": 1.4693,
      "step": 86209
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6693633198738098,
      "learning_rate": 2.852184100962873e-06,
      "loss": 1.5365,
      "step": 86210
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6842714548110962,
      "learning_rate": 2.8507464342687802e-06,
      "loss": 1.5265,
      "step": 86211
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6793558597564697,
      "learning_rate": 2.8493091282701273e-06,
      "loss": 1.6022,
      "step": 86212
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6780758500099182,
      "learning_rate": 2.8478721829686135e-06,
      "loss": 1.4555,
      "step": 86213
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6716216802597046,
      "learning_rate": 2.8464355983660035e-06,
      "loss": 1.565,
      "step": 86214
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7064717411994934,
      "learning_rate": 2.84499937446403e-06,
      "loss": 1.5889,
      "step": 86215
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6905049681663513,
      "learning_rate": 2.8435635112644573e-06,
      "loss": 1.5813,
      "step": 86216
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6497741937637329,
      "learning_rate": 2.842128008769018e-06,
      "loss": 1.5128,
      "step": 86217
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6846662163734436,
      "learning_rate": 2.8406928669794106e-06,
      "loss": 1.5195,
      "step": 86218
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6760718822479248,
      "learning_rate": 2.8392580858974665e-06,
      "loss": 1.512,
      "step": 86219
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6748550534248352,
      "learning_rate": 2.837823665524852e-06,
      "loss": 1.5064,
      "step": 86220
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6834067702293396,
      "learning_rate": 2.836389605863332e-06,
      "loss": 1.5296,
      "step": 86221
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6778581142425537,
      "learning_rate": 2.834955906914671e-06,
      "loss": 1.458,
      "step": 86222
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6903344392776489,
      "learning_rate": 2.8335225686806017e-06,
      "loss": 1.5539,
      "step": 86223
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6817875504493713,
      "learning_rate": 2.8320895911627896e-06,
      "loss": 1.4866,
      "step": 86224
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6707159280776978,
      "learning_rate": 2.8306569743630657e-06,
      "loss": 1.4807,
      "step": 86225
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6530930399894714,
      "learning_rate": 2.8292247182831627e-06,
      "loss": 1.4932,
      "step": 86226
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6830430030822754,
      "learning_rate": 2.8277928229247794e-06,
      "loss": 1.4776,
      "step": 86227
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6875460147857666,
      "learning_rate": 2.826361288289647e-06,
      "loss": 1.5068,
      "step": 86228
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.657524049282074,
      "learning_rate": 2.8249301143795644e-06,
      "loss": 1.5348,
      "step": 86229
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.662709653377533,
      "learning_rate": 2.8234993011962305e-06,
      "loss": 1.4849,
      "step": 86230
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6832600831985474,
      "learning_rate": 2.8220688487413433e-06,
      "loss": 1.5164,
      "step": 86231
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6660358309745789,
      "learning_rate": 2.8206387570167022e-06,
      "loss": 1.4694,
      "step": 86232
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6651057600975037,
      "learning_rate": 2.8192090260240053e-06,
      "loss": 1.4656,
      "step": 86233
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6790765523910522,
      "learning_rate": 2.8177796557650176e-06,
      "loss": 1.5181,
      "step": 86234
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6867955923080444,
      "learning_rate": 2.816350646241439e-06,
      "loss": 1.488,
      "step": 86235
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6482005715370178,
      "learning_rate": 2.814921997455033e-06,
      "loss": 1.5177,
      "step": 86236
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6904408931732178,
      "learning_rate": 2.8134937094074993e-06,
      "loss": 1.5004,
      "step": 86237
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6746306419372559,
      "learning_rate": 2.8120657821006363e-06,
      "loss": 1.4675,
      "step": 86238
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6631919741630554,
      "learning_rate": 2.8106382155361097e-06,
      "loss": 1.5241,
      "step": 86239
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6966898441314697,
      "learning_rate": 2.8092110097156837e-06,
      "loss": 1.507,
      "step": 86240
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6879773139953613,
      "learning_rate": 2.8077841646410915e-06,
      "loss": 1.4747,
      "step": 86241
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6672775745391846,
      "learning_rate": 2.8063576803140643e-06,
      "loss": 1.5095,
      "step": 86242
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6847609877586365,
      "learning_rate": 2.804931556736334e-06,
      "loss": 1.4858,
      "step": 86243
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6766980886459351,
      "learning_rate": 2.8035057939095995e-06,
      "loss": 1.5374,
      "step": 86244
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6748688817024231,
      "learning_rate": 2.8020803918356594e-06,
      "loss": 1.5108,
      "step": 86245
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6893842220306396,
      "learning_rate": 2.8006553505161787e-06,
      "loss": 1.5481,
      "step": 86246
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6579374074935913,
      "learning_rate": 2.799230669952923e-06,
      "loss": 1.5099,
      "step": 86247
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6545839309692383,
      "learning_rate": 2.7978063501475913e-06,
      "loss": 1.4817,
      "step": 86248
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6767933964729309,
      "learning_rate": 2.796382391101948e-06,
      "loss": 1.5473,
      "step": 86249
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7046173214912415,
      "learning_rate": 2.794958792817692e-06,
      "loss": 1.4642,
      "step": 86250
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6788697838783264,
      "learning_rate": 2.793535555296589e-06,
      "loss": 1.493,
      "step": 86251
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6913870573043823,
      "learning_rate": 2.792112678540337e-06,
      "loss": 1.5585,
      "step": 86252
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7103971838951111,
      "learning_rate": 2.790690162550635e-06,
      "loss": 1.5198,
      "step": 86253
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.694057285785675,
      "learning_rate": 2.7892680073292817e-06,
      "loss": 1.453,
      "step": 86254
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7003721594810486,
      "learning_rate": 2.787846212877942e-06,
      "loss": 1.5096,
      "step": 86255
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.691020131111145,
      "learning_rate": 2.786424779198382e-06,
      "loss": 1.5272,
      "step": 86256
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6665851473808289,
      "learning_rate": 2.7850037062922993e-06,
      "loss": 1.5266,
      "step": 86257
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.675417959690094,
      "learning_rate": 2.783582994161426e-06,
      "loss": 1.5807,
      "step": 86258
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6694270968437195,
      "learning_rate": 2.782162642807528e-06,
      "loss": 1.5111,
      "step": 86259
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6743394136428833,
      "learning_rate": 2.7807426522322374e-06,
      "loss": 1.4702,
      "step": 86260
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6629360914230347,
      "learning_rate": 2.779323022437352e-06,
      "loss": 1.4769,
      "step": 86261
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6864830255508423,
      "learning_rate": 2.7779037534245707e-06,
      "loss": 1.4961,
      "step": 86262
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6719948649406433,
      "learning_rate": 2.776484845195659e-06,
      "loss": 1.4915,
      "step": 86263
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6705182194709778,
      "learning_rate": 2.7750662977522486e-06,
      "loss": 1.4308,
      "step": 86264
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6747562289237976,
      "learning_rate": 2.7736481110961384e-06,
      "loss": 1.4916,
      "step": 86265
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6658595204353333,
      "learning_rate": 2.7722302852290267e-06,
      "loss": 1.4045,
      "step": 86266
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6685553789138794,
      "learning_rate": 2.7708128201526126e-06,
      "loss": 1.5007,
      "step": 86267
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6732392311096191,
      "learning_rate": 2.769395715868661e-06,
      "loss": 1.4428,
      "step": 86268
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.662601113319397,
      "learning_rate": 2.76797897237887e-06,
      "loss": 1.4422,
      "step": 86269
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6701755523681641,
      "learning_rate": 2.7665625896849397e-06,
      "loss": 1.5665,
      "step": 86270
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7116447687149048,
      "learning_rate": 2.765146567788601e-06,
      "loss": 1.5055,
      "step": 86271
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6543684005737305,
      "learning_rate": 2.763730906691619e-06,
      "loss": 1.4742,
      "step": 86272
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7091001868247986,
      "learning_rate": 2.7623156063956595e-06,
      "loss": 1.4985,
      "step": 86273
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6665204167366028,
      "learning_rate": 2.7609006669024215e-06,
      "loss": 1.4736,
      "step": 86274
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6847398281097412,
      "learning_rate": 2.7594860882136695e-06,
      "loss": 1.4804,
      "step": 86275
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.655489444732666,
      "learning_rate": 2.7580718703311024e-06,
      "loss": 1.5513,
      "step": 86276
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6706133484840393,
      "learning_rate": 2.7566580132564518e-06,
      "loss": 1.4911,
      "step": 86277
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6644574403762817,
      "learning_rate": 2.755244516991384e-06,
      "loss": 1.4927,
      "step": 86278
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6688629984855652,
      "learning_rate": 2.7538313815376965e-06,
      "loss": 1.5491,
      "step": 86279
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.685620903968811,
      "learning_rate": 2.7524186068970554e-06,
      "loss": 1.5041,
      "step": 86280
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7000963687896729,
      "learning_rate": 2.751006193071159e-06,
      "loss": 1.517,
      "step": 86281
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6912977695465088,
      "learning_rate": 2.7495941400617727e-06,
      "loss": 1.487,
      "step": 86282
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6863577961921692,
      "learning_rate": 2.7481824478705616e-06,
      "loss": 1.4771,
      "step": 86283
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6953958868980408,
      "learning_rate": 2.7467711164992577e-06,
      "loss": 1.5087,
      "step": 86284
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6771687269210815,
      "learning_rate": 2.74536014594956e-06,
      "loss": 1.5149,
      "step": 86285
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6832265853881836,
      "learning_rate": 2.7439495362232332e-06,
      "loss": 1.4792,
      "step": 86286
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7029514312744141,
      "learning_rate": 2.742539287321943e-06,
      "loss": 1.5227,
      "step": 86287
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.681106686592102,
      "learning_rate": 2.741129399247388e-06,
      "loss": 1.4827,
      "step": 86288
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.666314423084259,
      "learning_rate": 2.7397198720013335e-06,
      "loss": 1.5142,
      "step": 86289
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6961442232131958,
      "learning_rate": 2.738310705585445e-06,
      "loss": 1.52,
      "step": 86290
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6913297772407532,
      "learning_rate": 2.7369019000014536e-06,
      "loss": 1.5078,
      "step": 86291
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6947242021560669,
      "learning_rate": 2.735493455251059e-06,
      "loss": 1.5526,
      "step": 86292
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6714460849761963,
      "learning_rate": 2.734085371335959e-06,
      "loss": 1.4977,
      "step": 86293
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6668124794960022,
      "learning_rate": 2.7326776482579193e-06,
      "loss": 1.4495,
      "step": 86294
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6781178712844849,
      "learning_rate": 2.731270286018572e-06,
      "loss": 1.5347,
      "step": 86295
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6855947971343994,
      "learning_rate": 2.7298632846196822e-06,
      "loss": 1.4572,
      "step": 86296
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.687777578830719,
      "learning_rate": 2.728456644062915e-06,
      "loss": 1.5011,
      "step": 86297
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6812407374382019,
      "learning_rate": 2.7270503643500364e-06,
      "loss": 1.5929,
      "step": 86298
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6713923811912537,
      "learning_rate": 2.725644445482711e-06,
      "loss": 1.4293,
      "step": 86299
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7088239192962646,
      "learning_rate": 2.7242388874626043e-06,
      "loss": 1.5012,
      "step": 86300
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6706780195236206,
      "learning_rate": 2.722833690291515e-06,
      "loss": 1.5104,
      "step": 86301
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6950618624687195,
      "learning_rate": 2.721428853971075e-06,
      "loss": 1.5227,
      "step": 86302
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6687415242195129,
      "learning_rate": 2.7200243785030494e-06,
      "loss": 1.4813,
      "step": 86303
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6735334992408752,
      "learning_rate": 2.7186202638891043e-06,
      "loss": 1.4758,
      "step": 86304
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6754449009895325,
      "learning_rate": 2.7172165101309373e-06,
      "loss": 1.4444,
      "step": 86305
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6652796268463135,
      "learning_rate": 2.715813117230281e-06,
      "loss": 1.5215,
      "step": 86306
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6700528860092163,
      "learning_rate": 2.714410085188834e-06,
      "loss": 1.4817,
      "step": 86307
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6868229508399963,
      "learning_rate": 2.7130074140082612e-06,
      "loss": 1.4608,
      "step": 86308
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6773788928985596,
      "learning_rate": 2.7116051036903285e-06,
      "loss": 1.4823,
      "step": 86309
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.66850346326828,
      "learning_rate": 2.7102031542366675e-06,
      "loss": 1.4659,
      "step": 86310
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6637382507324219,
      "learning_rate": 2.7088015656490105e-06,
      "loss": 1.5019,
      "step": 86311
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.684252917766571,
      "learning_rate": 2.707400337929122e-06,
      "loss": 1.5304,
      "step": 86312
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6850882768630981,
      "learning_rate": 2.7059994710786016e-06,
      "loss": 1.4799,
      "step": 86313
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.683046817779541,
      "learning_rate": 2.7045989650991806e-06,
      "loss": 1.4147,
      "step": 86314
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6650107502937317,
      "learning_rate": 2.7031988199926246e-06,
      "loss": 1.5399,
      "step": 86315
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6738166213035583,
      "learning_rate": 2.7017990357605324e-06,
      "loss": 1.433,
      "step": 86316
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6849076151847839,
      "learning_rate": 2.700399612404669e-06,
      "loss": 1.4574,
      "step": 86317
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6742078065872192,
      "learning_rate": 2.6990005499267e-06,
      "loss": 1.5532,
      "step": 86318
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.667991042137146,
      "learning_rate": 2.69760184832839e-06,
      "loss": 1.5462,
      "step": 86319
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6557750105857849,
      "learning_rate": 2.6962035076113387e-06,
      "loss": 1.4535,
      "step": 86320
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6938970685005188,
      "learning_rate": 2.6948055277772775e-06,
      "loss": 1.5299,
      "step": 86321
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6737374663352966,
      "learning_rate": 2.6934079088279715e-06,
      "loss": 1.4951,
      "step": 86322
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7242515087127686,
      "learning_rate": 2.6920106507650195e-06,
      "loss": 1.4729,
      "step": 86323
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6945004463195801,
      "learning_rate": 2.690613753590187e-06,
      "loss": 1.5066,
      "step": 86324
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6749294996261597,
      "learning_rate": 2.6892172173051065e-06,
      "loss": 1.4959,
      "step": 86325
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.666607677936554,
      "learning_rate": 2.687821041911542e-06,
      "loss": 1.5272,
      "step": 86326
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6773601770401001,
      "learning_rate": 2.68642522741116e-06,
      "loss": 1.5263,
      "step": 86327
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6849425435066223,
      "learning_rate": 2.685029773805625e-06,
      "loss": 1.4842,
      "step": 86328
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6772796511650085,
      "learning_rate": 2.6836346810966693e-06,
      "loss": 1.5107,
      "step": 86329
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.677392840385437,
      "learning_rate": 2.6822399492859912e-06,
      "loss": 1.4998,
      "step": 86330
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6862044930458069,
      "learning_rate": 2.6808455783752235e-06,
      "loss": 1.4948,
      "step": 86331
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6807130575180054,
      "learning_rate": 2.6794515683661313e-06,
      "loss": 1.495,
      "step": 86332
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6921080946922302,
      "learning_rate": 2.678057919260379e-06,
      "loss": 1.5514,
      "step": 86333
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6721801161766052,
      "learning_rate": 2.676664631059633e-06,
      "loss": 1.5005,
      "step": 86334
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6855221390724182,
      "learning_rate": 2.6752717037656246e-06,
      "loss": 1.5257,
      "step": 86335
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7050127983093262,
      "learning_rate": 2.6738791373800196e-06,
      "loss": 1.4932,
      "step": 86336
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6817751526832581,
      "learning_rate": 2.6724869319045494e-06,
      "loss": 1.4913,
      "step": 86337
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7115764617919922,
      "learning_rate": 2.6710950873408132e-06,
      "loss": 1.4873,
      "step": 86338
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7196550965309143,
      "learning_rate": 2.6697036036906093e-06,
      "loss": 1.6131,
      "step": 86339
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6645292639732361,
      "learning_rate": 2.66831248095557e-06,
      "loss": 1.4539,
      "step": 86340
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6746941208839417,
      "learning_rate": 2.6669217191373603e-06,
      "loss": 1.4447,
      "step": 86341
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6716891527175903,
      "learning_rate": 2.665531318237679e-06,
      "loss": 1.533,
      "step": 86342
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6817970871925354,
      "learning_rate": 2.6641412782582917e-06,
      "loss": 1.4816,
      "step": 86343
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7068830728530884,
      "learning_rate": 2.6627515992007964e-06,
      "loss": 1.5412,
      "step": 86344
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6656563878059387,
      "learning_rate": 2.6613622810668922e-06,
      "loss": 1.46,
      "step": 86345
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.9183602929115295,
      "learning_rate": 2.659973323858344e-06,
      "loss": 1.5258,
      "step": 86346
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7137019634246826,
      "learning_rate": 2.658584727576718e-06,
      "loss": 1.5252,
      "step": 86347
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6971390247344971,
      "learning_rate": 2.6571964922237786e-06,
      "loss": 1.5198,
      "step": 86348
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.681641161441803,
      "learning_rate": 2.655808617801192e-06,
      "loss": 1.5058,
      "step": 86349
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6692830324172974,
      "learning_rate": 2.6544211043106555e-06,
      "loss": 1.5085,
      "step": 86350
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6726446151733398,
      "learning_rate": 2.653033951753836e-06,
      "loss": 1.4611,
      "step": 86351
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7018996477127075,
      "learning_rate": 2.6516471601323973e-06,
      "loss": 1.5073,
      "step": 86352
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6903533339500427,
      "learning_rate": 2.6502607294480394e-06,
      "loss": 1.4611,
      "step": 86353
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6856688857078552,
      "learning_rate": 2.6488746597024934e-06,
      "loss": 1.542,
      "step": 86354
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6759467124938965,
      "learning_rate": 2.6474889508973916e-06,
      "loss": 1.4735,
      "step": 86355
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6671707630157471,
      "learning_rate": 2.6461036030343997e-06,
      "loss": 1.4715,
      "step": 86356
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.691128671169281,
      "learning_rate": 2.644718616115249e-06,
      "loss": 1.4804,
      "step": 86357
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7085438966751099,
      "learning_rate": 2.643333990141572e-06,
      "loss": 1.5634,
      "step": 86358
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6658425331115723,
      "learning_rate": 2.6419497251151003e-06,
      "loss": 1.4592,
      "step": 86359
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6859858632087708,
      "learning_rate": 2.6405658210374657e-06,
      "loss": 1.4778,
      "step": 86360
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6859987378120422,
      "learning_rate": 2.6391822779104012e-06,
      "loss": 1.5054,
      "step": 86361
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6558842658996582,
      "learning_rate": 2.6377990957355378e-06,
      "loss": 1.4948,
      "step": 86362
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6769773960113525,
      "learning_rate": 2.6364162745145745e-06,
      "loss": 1.5056,
      "step": 86363
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.665722131729126,
      "learning_rate": 2.6350338142491766e-06,
      "loss": 1.4646,
      "step": 86364
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6626861691474915,
      "learning_rate": 2.633651714941043e-06,
      "loss": 1.3863,
      "step": 86365
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.663117527961731,
      "learning_rate": 2.6322699765918386e-06,
      "loss": 1.5096,
      "step": 86366
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6716539263725281,
      "learning_rate": 2.630888599203229e-06,
      "loss": 1.5542,
      "step": 86367
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7014628052711487,
      "learning_rate": 2.629507582776913e-06,
      "loss": 1.5097,
      "step": 86368
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6784602403640747,
      "learning_rate": 2.6281269273145887e-06,
      "loss": 1.5958,
      "step": 86369
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6916007399559021,
      "learning_rate": 2.6267466328178886e-06,
      "loss": 1.5048,
      "step": 86370
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7007212042808533,
      "learning_rate": 2.625366699288478e-06,
      "loss": 1.5562,
      "step": 86371
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6822366714477539,
      "learning_rate": 2.6239871267280886e-06,
      "loss": 1.4688,
      "step": 86372
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6632978320121765,
      "learning_rate": 2.6226079151383528e-06,
      "loss": 1.5297,
      "step": 86373
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6428397297859192,
      "learning_rate": 2.6212290645209354e-06,
      "loss": 1.4808,
      "step": 86374
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6883568167686462,
      "learning_rate": 2.6198505748775356e-06,
      "loss": 1.5507,
      "step": 86375
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6754149198532104,
      "learning_rate": 2.6184724462098518e-06,
      "loss": 1.4956,
      "step": 86376
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6938982605934143,
      "learning_rate": 2.617094678519482e-06,
      "loss": 1.4203,
      "step": 86377
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6884986758232117,
      "learning_rate": 2.6157172718081265e-06,
      "loss": 1.6091,
      "step": 86378
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6879094839096069,
      "learning_rate": 2.614340226077516e-06,
      "loss": 1.5389,
      "step": 86379
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.7276416420936584,
      "learning_rate": 2.6129635413292828e-06,
      "loss": 1.5806,
      "step": 86380
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6688507795333862,
      "learning_rate": 2.611587217565059e-06,
      "loss": 1.4635,
      "step": 86381
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6803958415985107,
      "learning_rate": 2.610211254786576e-06,
      "loss": 1.3788,
      "step": 86382
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6997557282447815,
      "learning_rate": 2.6088356529955e-06,
      "loss": 1.461,
      "step": 86383
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6888614892959595,
      "learning_rate": 2.6074604121934297e-06,
      "loss": 1.4559,
      "step": 86384
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6870023608207703,
      "learning_rate": 2.606085532382096e-06,
      "loss": 1.4834,
      "step": 86385
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6836793422698975,
      "learning_rate": 2.604711013563199e-06,
      "loss": 1.4656,
      "step": 86386
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6721459031105042,
      "learning_rate": 2.603336855738336e-06,
      "loss": 1.4843,
      "step": 86387
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6917659640312195,
      "learning_rate": 2.6019630589091733e-06,
      "loss": 1.4974,
      "step": 86388
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6730449795722961,
      "learning_rate": 2.6005896230774424e-06,
      "loss": 1.553,
      "step": 86389
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6655822992324829,
      "learning_rate": 2.599216548244776e-06,
      "loss": 1.4747,
      "step": 86390
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6835031509399414,
      "learning_rate": 2.597843834412805e-06,
      "loss": 1.4885,
      "step": 86391
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.681860625743866,
      "learning_rate": 2.596471481583262e-06,
      "loss": 1.5145,
      "step": 86392
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6959736347198486,
      "learning_rate": 2.595099489757779e-06,
      "loss": 1.5059,
      "step": 86393
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6830005049705505,
      "learning_rate": 2.5937278589380215e-06,
      "loss": 1.5213,
      "step": 86394
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6833096146583557,
      "learning_rate": 2.5923565891256547e-06,
      "loss": 1.5521,
      "step": 86395
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6794955730438232,
      "learning_rate": 2.590985680322344e-06,
      "loss": 1.4824,
      "step": 86396
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6564604640007019,
      "learning_rate": 2.5896151325297878e-06,
      "loss": 1.5286,
      "step": 86397
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6865212917327881,
      "learning_rate": 2.5882449457495847e-06,
      "loss": 1.481,
      "step": 86398
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6798823475837708,
      "learning_rate": 2.586875119983434e-06,
      "loss": 1.4524,
      "step": 86399
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6762491464614868,
      "learning_rate": 2.585505655233e-06,
      "loss": 1.5217,
      "step": 86400
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6918060183525085,
      "learning_rate": 2.584136551499949e-06,
      "loss": 1.5555,
      "step": 86401
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.690630316734314,
      "learning_rate": 2.5827678087859125e-06,
      "loss": 1.5189,
      "step": 86402
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6550582051277161,
      "learning_rate": 2.5813994270925897e-06,
      "loss": 1.5112,
      "step": 86403
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6698903441429138,
      "learning_rate": 2.580031406421612e-06,
      "loss": 1.5152,
      "step": 86404
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6809325218200684,
      "learning_rate": 2.578663746774645e-06,
      "loss": 1.4661,
      "step": 86405
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6685343980789185,
      "learning_rate": 2.5772964481533876e-06,
      "loss": 1.5087,
      "step": 86406
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6911289691925049,
      "learning_rate": 2.575929510559438e-06,
      "loss": 1.427,
      "step": 86407
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6508376598358154,
      "learning_rate": 2.5745629339945285e-06,
      "loss": 1.4874,
      "step": 86408
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6695968508720398,
      "learning_rate": 2.5731967184602243e-06,
      "loss": 1.5079,
      "step": 86409
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6812830567359924,
      "learning_rate": 2.5718308639582906e-06,
      "loss": 1.5554,
      "step": 86410
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6731088161468506,
      "learning_rate": 2.5704653704902933e-06,
      "loss": 1.4964,
      "step": 86411
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6914486885070801,
      "learning_rate": 2.5691002380579306e-06,
      "loss": 1.5552,
      "step": 86412
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6846960186958313,
      "learning_rate": 2.567735466662868e-06,
      "loss": 1.4751,
      "step": 86413
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6752653121948242,
      "learning_rate": 2.5663710563067375e-06,
      "loss": 1.5313,
      "step": 86414
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7186256647109985,
      "learning_rate": 2.565007006991204e-06,
      "loss": 1.5718,
      "step": 86415
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6585390567779541,
      "learning_rate": 2.5636433187179673e-06,
      "loss": 1.546,
      "step": 86416
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6607025861740112,
      "learning_rate": 2.5622799914885914e-06,
      "loss": 1.5343,
      "step": 86417
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6847495436668396,
      "learning_rate": 2.5609170253048096e-06,
      "loss": 1.5336,
      "step": 86418
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6436154246330261,
      "learning_rate": 2.5595544201682193e-06,
      "loss": 1.4796,
      "step": 86419
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6855639815330505,
      "learning_rate": 2.5581921760805536e-06,
      "loss": 1.448,
      "step": 86420
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6751189827919006,
      "learning_rate": 2.556830293043377e-06,
      "loss": 1.4973,
      "step": 86421
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7257516384124756,
      "learning_rate": 2.5554687710583888e-06,
      "loss": 1.5082,
      "step": 86422
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6631021499633789,
      "learning_rate": 2.554107610127254e-06,
      "loss": 1.4953,
      "step": 86423
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6812586784362793,
      "learning_rate": 2.5527468102515712e-06,
      "loss": 1.4424,
      "step": 86424
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6774437427520752,
      "learning_rate": 2.5513863714330727e-06,
      "loss": 1.4246,
      "step": 86425
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6825292706489563,
      "learning_rate": 2.550026293673324e-06,
      "loss": 1.5748,
      "step": 86426
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6791033744812012,
      "learning_rate": 2.5486665769740232e-06,
      "loss": 1.455,
      "step": 86427
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6702447533607483,
      "learning_rate": 2.547307221336836e-06,
      "loss": 1.5804,
      "step": 86428
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6694227457046509,
      "learning_rate": 2.545948226763361e-06,
      "loss": 1.5068,
      "step": 86429
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.686425507068634,
      "learning_rate": 2.5445895932553305e-06,
      "loss": 1.4874,
      "step": 86430
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6938029527664185,
      "learning_rate": 2.5432313208142762e-06,
      "loss": 1.5198,
      "step": 86431
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6868628263473511,
      "learning_rate": 2.5418734094419303e-06,
      "loss": 1.5755,
      "step": 86432
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6865577101707458,
      "learning_rate": 2.540515859139958e-06,
      "loss": 1.5256,
      "step": 86433
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6585231423377991,
      "learning_rate": 2.5391586699099244e-06,
      "loss": 1.5218,
      "step": 86434
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7111577987670898,
      "learning_rate": 2.5378018417535284e-06,
      "loss": 1.5389,
      "step": 86435
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6680247783660889,
      "learning_rate": 2.536445374672469e-06,
      "loss": 1.4528,
      "step": 86436
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6884340047836304,
      "learning_rate": 2.5350892686682778e-06,
      "loss": 1.5204,
      "step": 86437
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6937092542648315,
      "learning_rate": 2.5337335237426536e-06,
      "loss": 1.5185,
      "step": 86438
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6714373826980591,
      "learning_rate": 2.532378139897262e-06,
      "loss": 1.6104,
      "step": 86439
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6552432775497437,
      "learning_rate": 2.5310231171337345e-06,
      "loss": 1.4927,
      "step": 86440
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6934733986854553,
      "learning_rate": 2.529668455453737e-06,
      "loss": 1.572,
      "step": 86441
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6958172917366028,
      "learning_rate": 2.528314154858835e-06,
      "loss": 1.5153,
      "step": 86442
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6912174224853516,
      "learning_rate": 2.5269602153507927e-06,
      "loss": 1.5643,
      "step": 86443
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7085037231445312,
      "learning_rate": 2.5256066369311767e-06,
      "loss": 1.5171,
      "step": 86444
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6647669076919556,
      "learning_rate": 2.5242534196016185e-06,
      "loss": 1.5425,
      "step": 86445
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6727715730667114,
      "learning_rate": 2.5229005633637833e-06,
      "loss": 1.5024,
      "step": 86446
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6714923977851868,
      "learning_rate": 2.521548068219337e-06,
      "loss": 1.569,
      "step": 86447
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6868303418159485,
      "learning_rate": 2.520195934169911e-06,
      "loss": 1.5055,
      "step": 86448
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6891306638717651,
      "learning_rate": 2.5188441612171038e-06,
      "loss": 1.4745,
      "step": 86449
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6812648177146912,
      "learning_rate": 2.517492749362615e-06,
      "loss": 1.5308,
      "step": 86450
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6767934560775757,
      "learning_rate": 2.516141698608043e-06,
      "loss": 1.5296,
      "step": 86451
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7201194763183594,
      "learning_rate": 2.5147910089550195e-06,
      "loss": 1.5179,
      "step": 86452
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6742573976516724,
      "learning_rate": 2.513440680405243e-06,
      "loss": 1.4509,
      "step": 86453
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6719557046890259,
      "learning_rate": 2.512090712960313e-06,
      "loss": 1.4751,
      "step": 86454
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6949177384376526,
      "learning_rate": 2.510741106621861e-06,
      "loss": 1.5333,
      "step": 86455
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6594861745834351,
      "learning_rate": 2.509391861391552e-06,
      "loss": 1.52,
      "step": 86456
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6698708534240723,
      "learning_rate": 2.5080429772710187e-06,
      "loss": 1.4978,
      "step": 86457
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6866889595985413,
      "learning_rate": 2.506694454261826e-06,
      "loss": 1.5095,
      "step": 86458
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6866700053215027,
      "learning_rate": 2.5053462923657062e-06,
      "loss": 1.4748,
      "step": 86459
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6875715851783752,
      "learning_rate": 2.5039984915842916e-06,
      "loss": 1.5437,
      "step": 86460
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6595935821533203,
      "learning_rate": 2.50265105191918e-06,
      "loss": 1.4819,
      "step": 86461
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6586783528327942,
      "learning_rate": 2.5013039733719707e-06,
      "loss": 1.4472,
      "step": 86462
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6826084852218628,
      "learning_rate": 2.499957255944396e-06,
      "loss": 1.5553,
      "step": 86463
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6610386371612549,
      "learning_rate": 2.4986108996380207e-06,
      "loss": 1.4746,
      "step": 86464
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7050914764404297,
      "learning_rate": 2.4972649044544768e-06,
      "loss": 1.508,
      "step": 86465
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6669792532920837,
      "learning_rate": 2.4959192703954635e-06,
      "loss": 1.5437,
      "step": 86466
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.704384982585907,
      "learning_rate": 2.4945739974625124e-06,
      "loss": 1.5268,
      "step": 86467
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6842216849327087,
      "learning_rate": 2.4932290856573557e-06,
      "loss": 1.4456,
      "step": 86468
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6725708842277527,
      "learning_rate": 2.4918845349815585e-06,
      "loss": 1.5474,
      "step": 86469
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.66578608751297,
      "learning_rate": 2.4905403454367868e-06,
      "loss": 1.4538,
      "step": 86470
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6998057961463928,
      "learning_rate": 2.4891965170246717e-06,
      "loss": 1.461,
      "step": 86471
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.8950864672660828,
      "learning_rate": 2.4878530497468465e-06,
      "loss": 1.4871,
      "step": 86472
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6704291105270386,
      "learning_rate": 2.4865099436049086e-06,
      "loss": 1.4741,
      "step": 86473
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6852771639823914,
      "learning_rate": 2.4851671986004906e-06,
      "loss": 1.547,
      "step": 86474
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7314673662185669,
      "learning_rate": 2.4838248147352914e-06,
      "loss": 1.5403,
      "step": 86475
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6527884006500244,
      "learning_rate": 2.4824827920108757e-06,
      "loss": 1.4924,
      "step": 86476
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6669988632202148,
      "learning_rate": 2.4811411304288763e-06,
      "loss": 1.505,
      "step": 86477
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6738703846931458,
      "learning_rate": 2.479799829990925e-06,
      "loss": 1.4796,
      "step": 86478
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6704167127609253,
      "learning_rate": 2.478458890698687e-06,
      "loss": 1.4512,
      "step": 86479
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6701304316520691,
      "learning_rate": 2.477118312553761e-06,
      "loss": 1.5973,
      "step": 86480
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6889850497245789,
      "learning_rate": 2.4757780955577457e-06,
      "loss": 1.5347,
      "step": 86481
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.679742157459259,
      "learning_rate": 2.4744382397123398e-06,
      "loss": 1.498,
      "step": 86482
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.684709370136261,
      "learning_rate": 2.4730987450191087e-06,
      "loss": 1.5079,
      "step": 86483
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6736902594566345,
      "learning_rate": 2.4717596114796844e-06,
      "loss": 1.4615,
      "step": 86484
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.674737274646759,
      "learning_rate": 2.470420839095699e-06,
      "loss": 1.5027,
      "step": 86485
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6789236664772034,
      "learning_rate": 2.4690824278688183e-06,
      "loss": 1.502,
      "step": 86486
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6820104718208313,
      "learning_rate": 2.4677443778006067e-06,
      "loss": 1.529,
      "step": 86487
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6638069748878479,
      "learning_rate": 2.466406688892697e-06,
      "loss": 1.4261,
      "step": 86488
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6811176538467407,
      "learning_rate": 2.4650693611467544e-06,
      "loss": 1.4723,
      "step": 86489
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.664797842502594,
      "learning_rate": 2.4637323945643774e-06,
      "loss": 1.5257,
      "step": 86490
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6836321949958801,
      "learning_rate": 2.462395789147198e-06,
      "loss": 1.5708,
      "step": 86491
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.665149450302124,
      "learning_rate": 2.461059544896815e-06,
      "loss": 1.5456,
      "step": 86492
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6878080368041992,
      "learning_rate": 2.459723661814894e-06,
      "loss": 1.4657,
      "step": 86493
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6608992218971252,
      "learning_rate": 2.458388139903e-06,
      "loss": 1.4926,
      "step": 86494
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6778488755226135,
      "learning_rate": 2.457052979162766e-06,
      "loss": 1.5227,
      "step": 86495
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6685357093811035,
      "learning_rate": 2.455718179595856e-06,
      "loss": 1.5231,
      "step": 86496
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.670184850692749,
      "learning_rate": 2.4543837412038693e-06,
      "loss": 1.5416,
      "step": 86497
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6627800464630127,
      "learning_rate": 2.4530496639884043e-06,
      "loss": 1.4854,
      "step": 86498
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.678114652633667,
      "learning_rate": 2.4517159479510606e-06,
      "loss": 1.5264,
      "step": 86499
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6768368482589722,
      "learning_rate": 2.4503825930935693e-06,
      "loss": 1.4992,
      "step": 86500
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6805548071861267,
      "learning_rate": 2.44904959941743e-06,
      "loss": 1.5017,
      "step": 86501
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6763079166412354,
      "learning_rate": 2.4477169669242737e-06,
      "loss": 1.5032,
      "step": 86502
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.717394232749939,
      "learning_rate": 2.4463846956157994e-06,
      "loss": 1.5465,
      "step": 86503
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6506376266479492,
      "learning_rate": 2.4450527854935397e-06,
      "loss": 1.5032,
      "step": 86504
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6767455339431763,
      "learning_rate": 2.4437212365591594e-06,
      "loss": 1.5355,
      "step": 86505
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6881691813468933,
      "learning_rate": 2.442390048814258e-06,
      "loss": 1.5283,
      "step": 86506
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6842141151428223,
      "learning_rate": 2.441059222260433e-06,
      "loss": 1.4949,
      "step": 86507
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7041621804237366,
      "learning_rate": 2.4397287568993506e-06,
      "loss": 1.5324,
      "step": 86508
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6744661331176758,
      "learning_rate": 2.438398652732543e-06,
      "loss": 1.4926,
      "step": 86509
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6904009580612183,
      "learning_rate": 2.437068909761708e-06,
      "loss": 1.4905,
      "step": 86510
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.672308087348938,
      "learning_rate": 2.4357395279884453e-06,
      "loss": 1.5131,
      "step": 86511
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6881993412971497,
      "learning_rate": 2.4344105074143194e-06,
      "loss": 1.5063,
      "step": 86512
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6802940964698792,
      "learning_rate": 2.4330818480409962e-06,
      "loss": 1.4728,
      "step": 86513
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6537850499153137,
      "learning_rate": 2.4317535498700745e-06,
      "loss": 1.489,
      "step": 86514
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6954291462898254,
      "learning_rate": 2.4304256129031194e-06,
      "loss": 1.4894,
      "step": 86515
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6969537138938904,
      "learning_rate": 2.42909803714183e-06,
      "loss": 1.5243,
      "step": 86516
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6780933141708374,
      "learning_rate": 2.427770822587738e-06,
      "loss": 1.4636,
      "step": 86517
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6782047748565674,
      "learning_rate": 2.4264439692425084e-06,
      "loss": 1.5224,
      "step": 86518
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6877644658088684,
      "learning_rate": 2.4251174771077075e-06,
      "loss": 1.5716,
      "step": 86519
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6862102150917053,
      "learning_rate": 2.423791346185e-06,
      "loss": 1.5255,
      "step": 86520
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6855925917625427,
      "learning_rate": 2.4224655764759514e-06,
      "loss": 1.5178,
      "step": 86521
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6887248158454895,
      "learning_rate": 2.4211401679821607e-06,
      "loss": 1.4673,
      "step": 86522
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6964515447616577,
      "learning_rate": 2.4198151207052594e-06,
      "loss": 1.5755,
      "step": 86523
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6731822490692139,
      "learning_rate": 2.4184904346468804e-06,
      "loss": 1.5392,
      "step": 86524
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6757657527923584,
      "learning_rate": 2.4171661098085884e-06,
      "loss": 1.458,
      "step": 86525
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.703332781791687,
      "learning_rate": 2.4158421461920486e-06,
      "loss": 1.4579,
      "step": 86526
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6566386222839355,
      "learning_rate": 2.4145185437987935e-06,
      "loss": 1.5375,
      "step": 86527
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6849352717399597,
      "learning_rate": 2.4131953026304883e-06,
      "loss": 1.4774,
      "step": 86528
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6814476251602173,
      "learning_rate": 2.4118724226886656e-06,
      "loss": 1.5334,
      "step": 86529
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.653907835483551,
      "learning_rate": 2.4105499039750564e-06,
      "loss": 1.562,
      "step": 86530
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6843293905258179,
      "learning_rate": 2.409227746491127e-06,
      "loss": 1.5337,
      "step": 86531
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6955138444900513,
      "learning_rate": 2.4079059502385758e-06,
      "loss": 1.5362,
      "step": 86532
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6707503199577332,
      "learning_rate": 2.406584515219001e-06,
      "loss": 1.522,
      "step": 86533
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6952393054962158,
      "learning_rate": 2.4052634414339357e-06,
      "loss": 1.5896,
      "step": 86534
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6644045114517212,
      "learning_rate": 2.403942728885078e-06,
      "loss": 1.3866,
      "step": 86535
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6812422871589661,
      "learning_rate": 2.4026223775739595e-06,
      "loss": 1.6147,
      "step": 86536
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6858579516410828,
      "learning_rate": 2.401302387502213e-06,
      "loss": 1.5067,
      "step": 86537
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6701192259788513,
      "learning_rate": 2.399982758671437e-06,
      "loss": 1.53,
      "step": 86538
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6966968178749084,
      "learning_rate": 2.39866349108323e-06,
      "loss": 1.5359,
      "step": 86539
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6687051057815552,
      "learning_rate": 2.3973445847391915e-06,
      "loss": 1.5014,
      "step": 86540
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6687423586845398,
      "learning_rate": 2.396026039640919e-06,
      "loss": 1.5137,
      "step": 86541
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7013669610023499,
      "learning_rate": 2.3947078557900458e-06,
      "loss": 1.5309,
      "step": 86542
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6694739460945129,
      "learning_rate": 2.3933900331881696e-06,
      "loss": 1.5015,
      "step": 86543
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6733297109603882,
      "learning_rate": 2.392072571836823e-06,
      "loss": 1.4897,
      "step": 86544
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.703437864780426,
      "learning_rate": 2.3907554717376378e-06,
      "loss": 1.478,
      "step": 86545
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6618374586105347,
      "learning_rate": 2.389438732892246e-06,
      "loss": 1.5076,
      "step": 86546
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6666797995567322,
      "learning_rate": 2.3881223553022467e-06,
      "loss": 1.4935,
      "step": 86547
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6774799227714539,
      "learning_rate": 2.386806338969172e-06,
      "loss": 1.533,
      "step": 86548
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6573072075843811,
      "learning_rate": 2.3854906838947197e-06,
      "loss": 1.5396,
      "step": 86549
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6831105947494507,
      "learning_rate": 2.3841753900803896e-06,
      "loss": 1.5374,
      "step": 86550
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.695713222026825,
      "learning_rate": 2.382860457527813e-06,
      "loss": 1.5197,
      "step": 86551
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6573431491851807,
      "learning_rate": 2.3815458862385895e-06,
      "loss": 1.4297,
      "step": 86552
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6764498949050903,
      "learning_rate": 2.3802316762143834e-06,
      "loss": 1.5805,
      "step": 86553
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6714808344841003,
      "learning_rate": 2.378917827456661e-06,
      "loss": 1.5073,
      "step": 86554
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7329811453819275,
      "learning_rate": 2.3776043399670872e-06,
      "loss": 1.5123,
      "step": 86555
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6745082139968872,
      "learning_rate": 2.376291213747261e-06,
      "loss": 1.5428,
      "step": 86556
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6605580449104309,
      "learning_rate": 2.3749784487987477e-06,
      "loss": 1.433,
      "step": 86557
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6845538020133972,
      "learning_rate": 2.373666045123179e-06,
      "loss": 1.4783,
      "step": 86558
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6849277019500732,
      "learning_rate": 2.3723540027220877e-06,
      "loss": 1.5434,
      "step": 86559
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6790390014648438,
      "learning_rate": 2.3710423215971717e-06,
      "loss": 1.4097,
      "step": 86560
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6777912378311157,
      "learning_rate": 2.369731001749897e-06,
      "loss": 1.4764,
      "step": 86561
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7007181644439697,
      "learning_rate": 2.3684200431819287e-06,
      "loss": 1.6215,
      "step": 86562
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7094670534133911,
      "learning_rate": 2.3671094458948658e-06,
      "loss": 1.4984,
      "step": 86563
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6784161925315857,
      "learning_rate": 2.3657992098902734e-06,
      "loss": 1.4467,
      "step": 86564
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6761249899864197,
      "learning_rate": 2.364489335169717e-06,
      "loss": 1.4984,
      "step": 86565
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6839446425437927,
      "learning_rate": 2.3631798217348287e-06,
      "loss": 1.4792,
      "step": 86566
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6820646524429321,
      "learning_rate": 2.3618706695872403e-06,
      "loss": 1.5006,
      "step": 86567
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6832126379013062,
      "learning_rate": 2.3605618787284173e-06,
      "loss": 1.491,
      "step": 86568
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7027642130851746,
      "learning_rate": 2.3592534491600257e-06,
      "loss": 1.532,
      "step": 86569
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7049363255500793,
      "learning_rate": 2.3579453808836635e-06,
      "loss": 1.592,
      "step": 86570
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6748259663581848,
      "learning_rate": 2.3566376739009294e-06,
      "loss": 1.4266,
      "step": 86571
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6728822588920593,
      "learning_rate": 2.3553303282133227e-06,
      "loss": 1.4947,
      "step": 86572
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6667340993881226,
      "learning_rate": 2.3540233438225087e-06,
      "loss": 1.5287,
      "step": 86573
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6884356737136841,
      "learning_rate": 2.3527167207300857e-06,
      "loss": 1.5464,
      "step": 86574
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6835775971412659,
      "learning_rate": 2.3514104589375525e-06,
      "loss": 1.4887,
      "step": 86575
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6820736527442932,
      "learning_rate": 2.350104558446575e-06,
      "loss": 1.4903,
      "step": 86576
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6910246014595032,
      "learning_rate": 2.3487990192587514e-06,
      "loss": 1.5064,
      "step": 86577
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6766902804374695,
      "learning_rate": 2.3474938413755807e-06,
      "loss": 1.562,
      "step": 86578
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6754593849182129,
      "learning_rate": 2.3461890247986946e-06,
      "loss": 1.4997,
      "step": 86579
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6777476072311401,
      "learning_rate": 2.344884569529726e-06,
      "loss": 1.5778,
      "step": 86580
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6800423264503479,
      "learning_rate": 2.3435804755701725e-06,
      "loss": 1.5511,
      "step": 86581
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7032071352005005,
      "learning_rate": 2.3422767429216673e-06,
      "loss": 1.4536,
      "step": 86582
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6970273852348328,
      "learning_rate": 2.3409733715857747e-06,
      "loss": 1.4858,
      "step": 86583
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6945350766181946,
      "learning_rate": 2.339670361564061e-06,
      "loss": 1.4978,
      "step": 86584
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6596669554710388,
      "learning_rate": 2.338367712858158e-06,
      "loss": 1.4991,
      "step": 86585
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6740500330924988,
      "learning_rate": 2.3370654254695975e-06,
      "loss": 1.5288,
      "step": 86586
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6784273386001587,
      "learning_rate": 2.3357634994000117e-06,
      "loss": 1.4808,
      "step": 86587
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6763171553611755,
      "learning_rate": 2.334461934650933e-06,
      "loss": 1.4918,
      "step": 86588
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6655891537666321,
      "learning_rate": 2.3331607312239597e-06,
      "loss": 1.536,
      "step": 86589
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6570786833763123,
      "learning_rate": 2.3318598891206575e-06,
      "loss": 1.5125,
      "step": 86590
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6728033423423767,
      "learning_rate": 2.3305594083426247e-06,
      "loss": 1.5079,
      "step": 86591
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6751008629798889,
      "learning_rate": 2.3292592888914607e-06,
      "loss": 1.5197,
      "step": 86592
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6851102113723755,
      "learning_rate": 2.327959530768697e-06,
      "loss": 1.576,
      "step": 86593
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6770529747009277,
      "learning_rate": 2.3266601339758995e-06,
      "loss": 1.4746,
      "step": 86594
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6884229183197021,
      "learning_rate": 2.3253610985147e-06,
      "loss": 1.5375,
      "step": 86595
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6909142136573792,
      "learning_rate": 2.3240624243866633e-06,
      "loss": 1.4708,
      "step": 86596
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6741918921470642,
      "learning_rate": 2.322764111593356e-06,
      "loss": 1.5111,
      "step": 86597
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6908436417579651,
      "learning_rate": 2.321466160136343e-06,
      "loss": 1.5821,
      "step": 86598
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6521993279457092,
      "learning_rate": 2.3201685700171892e-06,
      "loss": 1.4481,
      "step": 86599
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7000635862350464,
      "learning_rate": 2.318871341237527e-06,
      "loss": 1.5161,
      "step": 86600
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7150721549987793,
      "learning_rate": 2.3175744737988555e-06,
      "loss": 1.5861,
      "step": 86601
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6720163226127625,
      "learning_rate": 2.3162779677028065e-06,
      "loss": 1.5539,
      "step": 86602
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6744284629821777,
      "learning_rate": 2.3149818229509785e-06,
      "loss": 1.4968,
      "step": 86603
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7194923758506775,
      "learning_rate": 2.3136860395448377e-06,
      "loss": 1.4789,
      "step": 86604
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.678198516368866,
      "learning_rate": 2.312390617486015e-06,
      "loss": 1.5362,
      "step": 86605
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6772003173828125,
      "learning_rate": 2.3110955567761437e-06,
      "loss": 1.5059,
      "step": 86606
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.666808009147644,
      "learning_rate": 2.309800857416688e-06,
      "loss": 1.5361,
      "step": 86607
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6510432958602905,
      "learning_rate": 2.3085065194093143e-06,
      "loss": 1.4619,
      "step": 86608
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6758258938789368,
      "learning_rate": 2.307212542755488e-06,
      "loss": 1.5338,
      "step": 86609
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6732710599899292,
      "learning_rate": 2.30591892745694e-06,
      "loss": 1.5151,
      "step": 86610
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6934307813644409,
      "learning_rate": 2.3046256735150703e-06,
      "loss": 1.481,
      "step": 86611
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.685610294342041,
      "learning_rate": 2.3033327809315104e-06,
      "loss": 1.4953,
      "step": 86612
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6750138998031616,
      "learning_rate": 2.302040249707893e-06,
      "loss": 1.4254,
      "step": 86613
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6989203095436096,
      "learning_rate": 2.3007480798457157e-06,
      "loss": 1.5014,
      "step": 86614
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6658221483230591,
      "learning_rate": 2.299456271346545e-06,
      "loss": 1.5087,
      "step": 86615
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6904348134994507,
      "learning_rate": 2.2981648242119786e-06,
      "loss": 1.5132,
      "step": 86616
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6772482991218567,
      "learning_rate": 2.2968737384436164e-06,
      "loss": 1.4454,
      "step": 86617
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6832425594329834,
      "learning_rate": 2.295583014042923e-06,
      "loss": 1.5155,
      "step": 86618
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6902977824211121,
      "learning_rate": 2.2942926510115645e-06,
      "loss": 1.5269,
      "step": 86619
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6618334650993347,
      "learning_rate": 2.2930026493510724e-06,
      "loss": 1.5475,
      "step": 86620
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6653438806533813,
      "learning_rate": 2.291713009063012e-06,
      "loss": 1.5138,
      "step": 86621
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7068452835083008,
      "learning_rate": 2.290423730148916e-06,
      "loss": 1.4647,
      "step": 86622
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6780582070350647,
      "learning_rate": 2.289134812610416e-06,
      "loss": 1.5466,
      "step": 86623
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6721950769424438,
      "learning_rate": 2.287846256449011e-06,
      "loss": 1.4364,
      "step": 86624
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6625269055366516,
      "learning_rate": 2.2865580616662995e-06,
      "loss": 1.5393,
      "step": 86625
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7006586194038391,
      "learning_rate": 2.285270228263847e-06,
      "loss": 1.5221,
      "step": 86626
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6690177321434021,
      "learning_rate": 2.283982756243219e-06,
      "loss": 1.5407,
      "step": 86627
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6647788882255554,
      "learning_rate": 2.282695645605981e-06,
      "loss": 1.4881,
      "step": 86628
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.709126353263855,
      "learning_rate": 2.2814088963536316e-06,
      "loss": 1.542,
      "step": 86629
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6950312852859497,
      "learning_rate": 2.2801225084878362e-06,
      "loss": 1.4879,
      "step": 86630
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6672091484069824,
      "learning_rate": 2.2788364820100933e-06,
      "loss": 1.5169,
      "step": 86631
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6820996403694153,
      "learning_rate": 2.277550816921969e-06,
      "loss": 1.4251,
      "step": 86632
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6980844736099243,
      "learning_rate": 2.2762655132250286e-06,
      "loss": 1.5358,
      "step": 86633
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6814518570899963,
      "learning_rate": 2.274980570920837e-06,
      "loss": 1.4654,
      "step": 86634
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6926172971725464,
      "learning_rate": 2.2736959900109598e-06,
      "loss": 1.4734,
      "step": 86635
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6666387915611267,
      "learning_rate": 2.272411770496929e-06,
      "loss": 1.5131,
      "step": 86636
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6793745160102844,
      "learning_rate": 2.271127912380344e-06,
      "loss": 1.4578,
      "step": 86637
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6722425818443298,
      "learning_rate": 2.269844415662736e-06,
      "loss": 1.4057,
      "step": 86638
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6960042119026184,
      "learning_rate": 2.2685612803456376e-06,
      "loss": 1.532,
      "step": 86639
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6957541704177856,
      "learning_rate": 2.2672785064306807e-06,
      "loss": 1.5422,
      "step": 86640
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6985208988189697,
      "learning_rate": 2.265996093919331e-06,
      "loss": 1.5432,
      "step": 86641
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6835334897041321,
      "learning_rate": 2.2647140428132537e-06,
      "loss": 1.498,
      "step": 86642
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.674480140209198,
      "learning_rate": 2.2634323531139142e-06,
      "loss": 1.4508,
      "step": 86643
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6808140873908997,
      "learning_rate": 2.262151024822878e-06,
      "loss": 1.4098,
      "step": 86644
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6835530400276184,
      "learning_rate": 2.260870057941744e-06,
      "loss": 1.5975,
      "step": 86645
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6819667816162109,
      "learning_rate": 2.2595894524720436e-06,
      "loss": 1.462,
      "step": 86646
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6692675352096558,
      "learning_rate": 2.258309208415343e-06,
      "loss": 1.5763,
      "step": 86647
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.699687659740448,
      "learning_rate": 2.257029325773141e-06,
      "loss": 1.5246,
      "step": 86648
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6947481036186218,
      "learning_rate": 2.255749804547069e-06,
      "loss": 1.6056,
      "step": 86649
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7127770185470581,
      "learning_rate": 2.2544706447386597e-06,
      "loss": 1.5655,
      "step": 86650
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6834158301353455,
      "learning_rate": 2.2531918463494114e-06,
      "loss": 1.4736,
      "step": 86651
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6778149008750916,
      "learning_rate": 2.2519134093809567e-06,
      "loss": 1.4828,
      "step": 86652
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7098506689071655,
      "learning_rate": 2.2506353338347606e-06,
      "loss": 1.4969,
      "step": 86653
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6892343163490295,
      "learning_rate": 2.2493576197124887e-06,
      "loss": 1.5347,
      "step": 86654
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6877021789550781,
      "learning_rate": 2.248080267015573e-06,
      "loss": 1.598,
      "step": 86655
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6862790584564209,
      "learning_rate": 2.2468032757456456e-06,
      "loss": 1.5126,
      "step": 86656
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6868910193443298,
      "learning_rate": 2.2455266459042055e-06,
      "loss": 1.535,
      "step": 86657
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6814876198768616,
      "learning_rate": 2.244250377492818e-06,
      "loss": 1.5078,
      "step": 86658
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6833518743515015,
      "learning_rate": 2.242974470513048e-06,
      "loss": 1.5053,
      "step": 86659
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7031500935554504,
      "learning_rate": 2.241698924966462e-06,
      "loss": 1.5115,
      "step": 86660
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6850706338882446,
      "learning_rate": 2.240423740854558e-06,
      "loss": 1.4694,
      "step": 86661
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6723947525024414,
      "learning_rate": 2.2391489181789015e-06,
      "loss": 1.5583,
      "step": 86662
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6920231580734253,
      "learning_rate": 2.2378744569410247e-06,
      "loss": 1.5031,
      "step": 86663
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6921252608299255,
      "learning_rate": 2.2366003571425593e-06,
      "loss": 1.536,
      "step": 86664
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6540006399154663,
      "learning_rate": 2.2353266187849385e-06,
      "loss": 1.5219,
      "step": 86665
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7101598381996155,
      "learning_rate": 2.2340532418697597e-06,
      "loss": 1.6242,
      "step": 86666
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6727603673934937,
      "learning_rate": 2.2327802263985897e-06,
      "loss": 1.5171,
      "step": 86667
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6589323878288269,
      "learning_rate": 2.231507572372926e-06,
      "loss": 1.5047,
      "step": 86668
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6739526987075806,
      "learning_rate": 2.2302352797943344e-06,
      "loss": 1.5632,
      "step": 86669
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7011576890945435,
      "learning_rate": 2.228963348664381e-06,
      "loss": 1.463,
      "step": 86670
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6672568917274475,
      "learning_rate": 2.2276917789845973e-06,
      "loss": 1.4943,
      "step": 86671
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6729545593261719,
      "learning_rate": 2.226420570756482e-06,
      "loss": 1.4996,
      "step": 86672
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7056616544723511,
      "learning_rate": 2.2251497239816673e-06,
      "loss": 1.5353,
      "step": 86673
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6846179366111755,
      "learning_rate": 2.223879238661619e-06,
      "loss": 1.4194,
      "step": 86674
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6731621623039246,
      "learning_rate": 2.222609114797902e-06,
      "loss": 1.5224,
      "step": 86675
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6844838261604309,
      "learning_rate": 2.221339352392082e-06,
      "loss": 1.503,
      "step": 86676
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7086973190307617,
      "learning_rate": 2.220069951445691e-06,
      "loss": 1.4776,
      "step": 86677
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.675245463848114,
      "learning_rate": 2.2188009119602277e-06,
      "loss": 1.4943,
      "step": 86678
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6819427013397217,
      "learning_rate": 2.217532233937258e-06,
      "loss": 1.5332,
      "step": 86679
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6684734225273132,
      "learning_rate": 2.216263917378347e-06,
      "loss": 1.4613,
      "step": 86680
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6732993721961975,
      "learning_rate": 2.2149959622850265e-06,
      "loss": 1.4984,
      "step": 86681
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6921405792236328,
      "learning_rate": 2.213728368658796e-06,
      "loss": 1.5103,
      "step": 86682
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6949216723442078,
      "learning_rate": 2.21246113650122e-06,
      "loss": 1.5486,
      "step": 86683
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6694744825363159,
      "learning_rate": 2.2111942658138982e-06,
      "loss": 1.5188,
      "step": 86684
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6910427212715149,
      "learning_rate": 2.2099277565982286e-06,
      "loss": 1.5916,
      "step": 86685
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6789501309394836,
      "learning_rate": 2.2086616088558774e-06,
      "loss": 1.4796,
      "step": 86686
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6712645292282104,
      "learning_rate": 2.2073958225883424e-06,
      "loss": 1.5151,
      "step": 86687
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6874763369560242,
      "learning_rate": 2.2061303977971236e-06,
      "loss": 1.5772,
      "step": 86688
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6742598414421082,
      "learning_rate": 2.204865334483785e-06,
      "loss": 1.5381,
      "step": 86689
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.670337975025177,
      "learning_rate": 2.2036006326498934e-06,
      "loss": 1.4939,
      "step": 86690
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6577675938606262,
      "learning_rate": 2.2023362922969134e-06,
      "loss": 1.4736,
      "step": 86691
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7022462487220764,
      "learning_rate": 2.201072313426444e-06,
      "loss": 1.5528,
      "step": 86692
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6726310849189758,
      "learning_rate": 2.199808696039984e-06,
      "loss": 1.5037,
      "step": 86693
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.677091121673584,
      "learning_rate": 2.1985454401390657e-06,
      "loss": 1.4979,
      "step": 86694
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.67020583152771,
      "learning_rate": 2.197282545725254e-06,
      "loss": 1.4962,
      "step": 86695
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7029087543487549,
      "learning_rate": 2.1960200128000484e-06,
      "loss": 1.5111,
      "step": 86696
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6689330339431763,
      "learning_rate": 2.1947578413650136e-06,
      "loss": 1.4891,
      "step": 86697
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6727392673492432,
      "learning_rate": 2.1934960314216487e-06,
      "loss": 1.552,
      "step": 86698
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6907861828804016,
      "learning_rate": 2.192234582971486e-06,
      "loss": 1.5594,
      "step": 86699
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6643027663230896,
      "learning_rate": 2.190973496016124e-06,
      "loss": 1.4386,
      "step": 86700
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6944044828414917,
      "learning_rate": 2.189712770556995e-06,
      "loss": 1.5158,
      "step": 86701
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6915975213050842,
      "learning_rate": 2.1884524065956643e-06,
      "loss": 1.5061,
      "step": 86702
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.684424877166748,
      "learning_rate": 2.1871924041336973e-06,
      "loss": 1.548,
      "step": 86703
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.7054727077484131,
      "learning_rate": 2.185932763172593e-06,
      "loss": 1.5162,
      "step": 86704
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6923092007637024,
      "learning_rate": 2.1846734837138837e-06,
      "loss": 1.5862,
      "step": 86705
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6737619638442993,
      "learning_rate": 2.1834145657591007e-06,
      "loss": 1.5277,
      "step": 86706
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6825733780860901,
      "learning_rate": 2.182156009309777e-06,
      "loss": 1.5387,
      "step": 86707
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6754234433174133,
      "learning_rate": 2.1808978143674103e-06,
      "loss": 1.4799,
      "step": 86708
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6913543343544006,
      "learning_rate": 2.1796399809335676e-06,
      "loss": 1.463,
      "step": 86709
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6788524985313416,
      "learning_rate": 2.1783825090097796e-06,
      "loss": 1.5084,
      "step": 86710
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6926562786102295,
      "learning_rate": 2.1771253985975456e-06,
      "loss": 1.4864,
      "step": 86711
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6683366298675537,
      "learning_rate": 2.1758686496983646e-06,
      "loss": 1.4988,
      "step": 86712
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6931151747703552,
      "learning_rate": 2.174612262313835e-06,
      "loss": 1.563,
      "step": 86713
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6518746614456177,
      "learning_rate": 2.1733562364454227e-06,
      "loss": 1.532,
      "step": 86714
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6965085864067078,
      "learning_rate": 2.1721005720946927e-06,
      "loss": 1.4321,
      "step": 86715
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6942028999328613,
      "learning_rate": 2.170845269263144e-06,
      "loss": 1.555,
      "step": 86716
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7142851948738098,
      "learning_rate": 2.1695903279523087e-06,
      "loss": 1.552,
      "step": 86717
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6875770688056946,
      "learning_rate": 2.1683357481636854e-06,
      "loss": 1.4799,
      "step": 86718
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6596874594688416,
      "learning_rate": 2.1670815298988063e-06,
      "loss": 1.5155,
      "step": 86719
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6677409410476685,
      "learning_rate": 2.1658276731592706e-06,
      "loss": 1.4807,
      "step": 86720
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6624215841293335,
      "learning_rate": 2.1645741779464765e-06,
      "loss": 1.4797,
      "step": 86721
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.671424388885498,
      "learning_rate": 2.163321044262023e-06,
      "loss": 1.4604,
      "step": 86722
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6853814721107483,
      "learning_rate": 2.1620682721074424e-06,
      "loss": 1.5672,
      "step": 86723
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.680448055267334,
      "learning_rate": 2.1608158614841996e-06,
      "loss": 1.4996,
      "step": 86724
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6989492774009705,
      "learning_rate": 2.1595638123938276e-06,
      "loss": 1.572,
      "step": 86725
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6984705328941345,
      "learning_rate": 2.1583121248378576e-06,
      "loss": 1.5029,
      "step": 86726
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6959568858146667,
      "learning_rate": 2.1570607988178556e-06,
      "loss": 1.5819,
      "step": 86727
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6557515263557434,
      "learning_rate": 2.155809834335287e-06,
      "loss": 1.4438,
      "step": 86728
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6684439182281494,
      "learning_rate": 2.1545592313916504e-06,
      "loss": 1.488,
      "step": 86729
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.667201042175293,
      "learning_rate": 2.1533089899885113e-06,
      "loss": 1.4787,
      "step": 86730
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6611842513084412,
      "learning_rate": 2.1520591101273686e-06,
      "loss": 1.4992,
      "step": 86731
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6765806674957275,
      "learning_rate": 2.150809591809721e-06,
      "loss": 1.5436,
      "step": 86732
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.2476285696029663,
      "learning_rate": 2.1495604350371342e-06,
      "loss": 1.5908,
      "step": 86733
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6664057970046997,
      "learning_rate": 2.1483116398111067e-06,
      "loss": 1.458,
      "step": 86734
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6861041784286499,
      "learning_rate": 2.147063206133104e-06,
      "loss": 1.4527,
      "step": 86735
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.670259952545166,
      "learning_rate": 2.145815134004691e-06,
      "loss": 1.5403,
      "step": 86736
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.671903669834137,
      "learning_rate": 2.144567423427368e-06,
      "loss": 1.5323,
      "step": 86737
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6524344682693481,
      "learning_rate": 2.1433200744026655e-06,
      "loss": 1.5063,
      "step": 86738
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6996621489524841,
      "learning_rate": 2.1420730869320833e-06,
      "loss": 1.5184,
      "step": 86739
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6803115010261536,
      "learning_rate": 2.14082646101712e-06,
      "loss": 1.4551,
      "step": 86740
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6975452303886414,
      "learning_rate": 2.1395801966593406e-06,
      "loss": 1.514,
      "step": 86741
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6874356269836426,
      "learning_rate": 2.1383342938601778e-06,
      "loss": 1.5187,
      "step": 86742
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6949970722198486,
      "learning_rate": 2.1370887526211967e-06,
      "loss": 1.4674,
      "step": 86743
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6955804228782654,
      "learning_rate": 2.1358435729439293e-06,
      "loss": 1.4952,
      "step": 86744
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6635826826095581,
      "learning_rate": 2.134598754829875e-06,
      "loss": 1.5342,
      "step": 86745
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6644929051399231,
      "learning_rate": 2.1333542982804986e-06,
      "loss": 1.572,
      "step": 86746
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.733327329158783,
      "learning_rate": 2.1321102032973324e-06,
      "loss": 1.5812,
      "step": 86747
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7138581871986389,
      "learning_rate": 2.1308664698819087e-06,
      "loss": 1.558,
      "step": 86748
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6914100050926208,
      "learning_rate": 2.1296230980357266e-06,
      "loss": 1.5003,
      "step": 86749
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.669768214225769,
      "learning_rate": 2.1283800877603176e-06,
      "loss": 1.513,
      "step": 86750
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6585728526115417,
      "learning_rate": 2.127137439057114e-06,
      "loss": 1.4747,
      "step": 86751
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6807612180709839,
      "learning_rate": 2.1258951519277147e-06,
      "loss": 1.5544,
      "step": 86752
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6598643064498901,
      "learning_rate": 2.124653226373552e-06,
      "loss": 1.4648,
      "step": 86753
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6960114240646362,
      "learning_rate": 2.123411662396224e-06,
      "loss": 1.562,
      "step": 86754
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6730040907859802,
      "learning_rate": 2.1221704599971635e-06,
      "loss": 1.5516,
      "step": 86755
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6692653298377991,
      "learning_rate": 2.120929619177869e-06,
      "loss": 1.5584,
      "step": 86756
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6871547698974609,
      "learning_rate": 2.119689139939906e-06,
      "loss": 1.5642,
      "step": 86757
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7346974611282349,
      "learning_rate": 2.1184490222847073e-06,
      "loss": 1.5373,
      "step": 86758
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6624191403388977,
      "learning_rate": 2.1172092662138705e-06,
      "loss": 1.5175,
      "step": 86759
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6698786616325378,
      "learning_rate": 2.115969871728829e-06,
      "loss": 1.4703,
      "step": 86760
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.684772253036499,
      "learning_rate": 2.1147308388311135e-06,
      "loss": 1.4925,
      "step": 86761
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.674854040145874,
      "learning_rate": 2.113492167522224e-06,
      "loss": 1.4787,
      "step": 86762
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6877374649047852,
      "learning_rate": 2.1122538578036584e-06,
      "loss": 1.5192,
      "step": 86763
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6968497037887573,
      "learning_rate": 2.1110159096769498e-06,
      "loss": 1.4882,
      "step": 86764
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6567699909210205,
      "learning_rate": 2.1097783231435297e-06,
      "loss": 1.5319,
      "step": 86765
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7005132436752319,
      "learning_rate": 2.108541098204997e-06,
      "loss": 1.4545,
      "step": 86766
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7056994438171387,
      "learning_rate": 2.107304234862783e-06,
      "loss": 1.5593,
      "step": 86767
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.67538982629776,
      "learning_rate": 2.1060677331183883e-06,
      "loss": 1.4185,
      "step": 86768
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6898022890090942,
      "learning_rate": 2.1048315929733438e-06,
      "loss": 1.4745,
      "step": 86769
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6910392642021179,
      "learning_rate": 2.1035958144291487e-06,
      "loss": 1.4994,
      "step": 86770
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6812820434570312,
      "learning_rate": 2.1023603974873017e-06,
      "loss": 1.473,
      "step": 86771
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6934951543807983,
      "learning_rate": 2.101125342149268e-06,
      "loss": 1.5672,
      "step": 86772
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.0558834075927734,
      "learning_rate": 2.0998906484166135e-06,
      "loss": 1.5608,
      "step": 86773
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6631196141242981,
      "learning_rate": 2.0986563162907697e-06,
      "loss": 1.4786,
      "step": 86774
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6789326071739197,
      "learning_rate": 2.0974223457732696e-06,
      "loss": 1.5326,
      "step": 86775
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.685929536819458,
      "learning_rate": 2.0961887368656115e-06,
      "loss": 1.4795,
      "step": 86776
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6859668493270874,
      "learning_rate": 2.0949554895692943e-06,
      "loss": 1.4989,
      "step": 86777
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7644596099853516,
      "learning_rate": 2.0937226038857833e-06,
      "loss": 1.5538,
      "step": 86778
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6912379264831543,
      "learning_rate": 2.092490079816611e-06,
      "loss": 1.5323,
      "step": 86779
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6800392270088196,
      "learning_rate": 2.091257917363276e-06,
      "loss": 1.5056,
      "step": 86780
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.690362274646759,
      "learning_rate": 2.0900261165272435e-06,
      "loss": 1.4917,
      "step": 86781
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6917223334312439,
      "learning_rate": 2.0887946773100127e-06,
      "loss": 1.4396,
      "step": 86782
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6972164511680603,
      "learning_rate": 2.0875635997131157e-06,
      "loss": 1.5612,
      "step": 86783
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6907841563224792,
      "learning_rate": 2.086332883738018e-06,
      "loss": 1.5497,
      "step": 86784
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6985800266265869,
      "learning_rate": 2.0851025293862177e-06,
      "loss": 1.5591,
      "step": 86785
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6773915886878967,
      "learning_rate": 2.0838725366591813e-06,
      "loss": 1.5357,
      "step": 86786
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7118226289749146,
      "learning_rate": 2.0826429055584737e-06,
      "loss": 1.5397,
      "step": 86787
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6727450489997864,
      "learning_rate": 2.081413636085494e-06,
      "loss": 1.5178,
      "step": 86788
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6856978535652161,
      "learning_rate": 2.0801847282417738e-06,
      "loss": 1.528,
      "step": 86789
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6817267537117004,
      "learning_rate": 2.0789561820288457e-06,
      "loss": 1.5389,
      "step": 86790
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7101452946662903,
      "learning_rate": 2.077727997448175e-06,
      "loss": 1.485,
      "step": 86791
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6940348148345947,
      "learning_rate": 2.076500174501228e-06,
      "loss": 1.5074,
      "step": 86792
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6983919143676758,
      "learning_rate": 2.075272713189502e-06,
      "loss": 1.4579,
      "step": 86793
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6502145528793335,
      "learning_rate": 2.07404561351453e-06,
      "loss": 1.468,
      "step": 86794
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6700759530067444,
      "learning_rate": 2.072818875477744e-06,
      "loss": 1.4615,
      "step": 86795
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6540302038192749,
      "learning_rate": 2.0715924990806432e-06,
      "loss": 1.5204,
      "step": 86796
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6777096390724182,
      "learning_rate": 2.0703664843247923e-06,
      "loss": 1.5351,
      "step": 86797
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6717303991317749,
      "learning_rate": 2.0691408312115577e-06,
      "loss": 1.4883,
      "step": 86798
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6680492758750916,
      "learning_rate": 2.067915539742504e-06,
      "loss": 1.5381,
      "step": 86799
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.666510820388794,
      "learning_rate": 2.066690609919097e-06,
      "loss": 1.4803,
      "step": 86800
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6718213558197021,
      "learning_rate": 2.0654660417428694e-06,
      "loss": 1.491,
      "step": 86801
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6638759970664978,
      "learning_rate": 2.064241835215252e-06,
      "loss": 1.4703,
      "step": 86802
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6806401014328003,
      "learning_rate": 2.063017990337712e-06,
      "loss": 1.4494,
      "step": 86803
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6801824569702148,
      "learning_rate": 2.0617945071117804e-06,
      "loss": 1.5006,
      "step": 86804
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.729426920413971,
      "learning_rate": 2.060571385538956e-06,
      "loss": 1.514,
      "step": 86805
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6927992105484009,
      "learning_rate": 2.0593486256206715e-06,
      "loss": 1.4264,
      "step": 86806
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6880119442939758,
      "learning_rate": 2.0581262273584586e-06,
      "loss": 1.4838,
      "step": 86807
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7044843435287476,
      "learning_rate": 2.056904190753783e-06,
      "loss": 1.5021,
      "step": 86808
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6711879968643188,
      "learning_rate": 2.0556825158081104e-06,
      "loss": 1.5231,
      "step": 86809
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6658162474632263,
      "learning_rate": 2.054461202522939e-06,
      "loss": 1.5248,
      "step": 86810
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6816923022270203,
      "learning_rate": 2.053240250899768e-06,
      "loss": 1.4481,
      "step": 86811
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6579277515411377,
      "learning_rate": 2.052019660940063e-06,
      "loss": 1.4667,
      "step": 86812
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6929236054420471,
      "learning_rate": 2.050799432645289e-06,
      "loss": 1.4613,
      "step": 86813
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6867379546165466,
      "learning_rate": 2.0495795660169458e-06,
      "loss": 1.488,
      "step": 86814
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6549088954925537,
      "learning_rate": 2.0483600610564975e-06,
      "loss": 1.4838,
      "step": 86815
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6626524329185486,
      "learning_rate": 2.0471409177654776e-06,
      "loss": 1.5087,
      "step": 86816
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6632701754570007,
      "learning_rate": 2.045922136145317e-06,
      "loss": 1.4942,
      "step": 86817
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6731610894203186,
      "learning_rate": 2.0447037161974824e-06,
      "loss": 1.5606,
      "step": 86818
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6762623190879822,
      "learning_rate": 2.0434856579235047e-06,
      "loss": 1.5708,
      "step": 86819
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6701937913894653,
      "learning_rate": 2.042267961324784e-06,
      "loss": 1.5656,
      "step": 86820
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.4940266609191895,
      "learning_rate": 2.041050626402918e-06,
      "loss": 1.5439,
      "step": 86821
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7118289470672607,
      "learning_rate": 2.0398336531592396e-06,
      "loss": 1.6132,
      "step": 86822
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.690532922744751,
      "learning_rate": 2.0386170415953474e-06,
      "loss": 1.4891,
      "step": 86823
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6635085344314575,
      "learning_rate": 2.0374007917126734e-06,
      "loss": 1.5293,
      "step": 86824
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.666845977306366,
      "learning_rate": 2.0361849035126833e-06,
      "loss": 1.5172,
      "step": 86825
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6843806505203247,
      "learning_rate": 2.0349693769968755e-06,
      "loss": 1.5305,
      "step": 86826
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7126795053482056,
      "learning_rate": 2.0337542121666828e-06,
      "loss": 1.5146,
      "step": 86827
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6457473635673523,
      "learning_rate": 2.032539409023637e-06,
      "loss": 1.5002,
      "step": 86828
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6735385656356812,
      "learning_rate": 2.0313249675691367e-06,
      "loss": 1.4495,
      "step": 86829
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6774147748947144,
      "learning_rate": 2.030110887804748e-06,
      "loss": 1.4906,
      "step": 86830
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6400330662727356,
      "learning_rate": 2.0288971697319025e-06,
      "loss": 1.4499,
      "step": 86831
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6733714938163757,
      "learning_rate": 2.0276838133520656e-06,
      "loss": 1.3931,
      "step": 86832
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7023372054100037,
      "learning_rate": 2.0264708186667032e-06,
      "loss": 1.5371,
      "step": 86833
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6614735722541809,
      "learning_rate": 2.0252581856773144e-06,
      "loss": 1.4759,
      "step": 86834
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7001743912696838,
      "learning_rate": 2.024045914385364e-06,
      "loss": 1.5317,
      "step": 86835
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6966378688812256,
      "learning_rate": 2.022834004792284e-06,
      "loss": 1.4775,
      "step": 86836
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6652536988258362,
      "learning_rate": 2.021622456899641e-06,
      "loss": 1.5156,
      "step": 86837
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6699460744857788,
      "learning_rate": 2.020411270708766e-06,
      "loss": 1.546,
      "step": 86838
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6713360548019409,
      "learning_rate": 2.0192004462212584e-06,
      "loss": 1.5247,
      "step": 86839
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6806721687316895,
      "learning_rate": 2.017989983438517e-06,
      "loss": 1.5534,
      "step": 86840
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.665177583694458,
      "learning_rate": 2.0167798823620405e-06,
      "loss": 1.492,
      "step": 86841
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6806504726409912,
      "learning_rate": 2.0155701429932615e-06,
      "loss": 1.4919,
      "step": 86842
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6600903272628784,
      "learning_rate": 2.014360765333711e-06,
      "loss": 1.476,
      "step": 86843
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6716591715812683,
      "learning_rate": 2.0131517493848226e-06,
      "loss": 1.4899,
      "step": 86844
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6939308643341064,
      "learning_rate": 2.0119430951480274e-06,
      "loss": 1.523,
      "step": 86845
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6866282820701599,
      "learning_rate": 2.0107348026248248e-06,
      "loss": 1.4859,
      "step": 86846
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.697177529335022,
      "learning_rate": 2.0095268718167136e-06,
      "loss": 1.496,
      "step": 86847
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6677490472793579,
      "learning_rate": 2.0083193027251252e-06,
      "loss": 1.4665,
      "step": 86848
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.677643895149231,
      "learning_rate": 2.0071120953515265e-06,
      "loss": 1.5237,
      "step": 86849
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6741925477981567,
      "learning_rate": 2.0059052496973483e-06,
      "loss": 1.4708,
      "step": 86850
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6653133034706116,
      "learning_rate": 2.004698765764157e-06,
      "loss": 1.5031,
      "step": 86851
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6515451073646545,
      "learning_rate": 2.003492643553317e-06,
      "loss": 1.4752,
      "step": 86852
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6910569667816162,
      "learning_rate": 2.0022868830663284e-06,
      "loss": 1.5401,
      "step": 86853
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6982147693634033,
      "learning_rate": 2.001081484304656e-06,
      "loss": 1.4527,
      "step": 86854
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6774857044219971,
      "learning_rate": 1.9998764472697994e-06,
      "loss": 1.542,
      "step": 86855
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.687633752822876,
      "learning_rate": 1.998671771963123e-06,
      "loss": 1.5185,
      "step": 86856
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6968713998794556,
      "learning_rate": 1.9974674583861927e-06,
      "loss": 1.5662,
      "step": 86857
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6805324554443359,
      "learning_rate": 1.9962635065404407e-06,
      "loss": 1.4982,
      "step": 86858
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6635422706604004,
      "learning_rate": 1.9950599164272663e-06,
      "loss": 1.5451,
      "step": 86859
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.666846513748169,
      "learning_rate": 1.993856688048201e-06,
      "loss": 1.5574,
      "step": 86860
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6758806705474854,
      "learning_rate": 1.9926538214047107e-06,
      "loss": 1.463,
      "step": 86861
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6820909380912781,
      "learning_rate": 1.9914513164982272e-06,
      "loss": 1.5531,
      "step": 86862
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6766481399536133,
      "learning_rate": 1.9902491733301827e-06,
      "loss": 1.4983,
      "step": 86863
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7213069796562195,
      "learning_rate": 1.9890473919020765e-06,
      "loss": 1.5087,
      "step": 86864
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.1257954835891724,
      "learning_rate": 1.987845972215374e-06,
      "loss": 1.4711,
      "step": 86865
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6834561228752136,
      "learning_rate": 1.9866449142714735e-06,
      "loss": 1.5783,
      "step": 86866
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6965802907943726,
      "learning_rate": 1.9854442180719078e-06,
      "loss": 1.47,
      "step": 86867
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7009943127632141,
      "learning_rate": 1.9842438836181084e-06,
      "loss": 1.5526,
      "step": 86868
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.678439199924469,
      "learning_rate": 1.983043910911508e-06,
      "loss": 1.4969,
      "step": 86869
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6735085248947144,
      "learning_rate": 1.9818442999536055e-06,
      "loss": 1.4787,
      "step": 86870
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.674590528011322,
      "learning_rate": 1.9806450507457993e-06,
      "loss": 1.4678,
      "step": 86871
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6818075180053711,
      "learning_rate": 1.979446163289622e-06,
      "loss": 1.4663,
      "step": 86872
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.677338182926178,
      "learning_rate": 1.9782476375864385e-06,
      "loss": 1.5852,
      "step": 86873
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6925395727157593,
      "learning_rate": 1.9770494736377816e-06,
      "loss": 1.5414,
      "step": 86874
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6960850954055786,
      "learning_rate": 1.97585167144505e-06,
      "loss": 1.4812,
      "step": 86875
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7050104141235352,
      "learning_rate": 1.9746542310097756e-06,
      "loss": 1.4929,
      "step": 86876
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6914958357810974,
      "learning_rate": 1.9734571523333242e-06,
      "loss": 1.4487,
      "step": 86877
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.722054660320282,
      "learning_rate": 1.972260435417161e-06,
      "loss": 1.4801,
      "step": 86878
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6709830164909363,
      "learning_rate": 1.9710640802627854e-06,
      "loss": 1.5126,
      "step": 86879
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6691692471504211,
      "learning_rate": 1.9698680868716287e-06,
      "loss": 1.4688,
      "step": 86880
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6764165163040161,
      "learning_rate": 1.9686724552451237e-06,
      "loss": 1.4616,
      "step": 86881
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6644397974014282,
      "learning_rate": 1.967477185384736e-06,
      "loss": 1.5763,
      "step": 86882
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6741775274276733,
      "learning_rate": 1.966282277291931e-06,
      "loss": 1.5328,
      "step": 86883
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.2259336709976196,
      "learning_rate": 1.9650877309681733e-06,
      "loss": 1.5493,
      "step": 86884
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6859440803527832,
      "learning_rate": 1.9638935464148298e-06,
      "loss": 1.4711,
      "step": 86885
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6992027163505554,
      "learning_rate": 1.9626997236334653e-06,
      "loss": 1.5568,
      "step": 86886
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6935282945632935,
      "learning_rate": 1.9615062626254117e-06,
      "loss": 1.5324,
      "step": 86887
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6771713495254517,
      "learning_rate": 1.960313163392202e-06,
      "loss": 1.5113,
      "step": 86888
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6773006916046143,
      "learning_rate": 1.959120425935268e-06,
      "loss": 1.5045,
      "step": 86889
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6613734364509583,
      "learning_rate": 1.9579280502560414e-06,
      "loss": 1.4491,
      "step": 86890
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6717438697814941,
      "learning_rate": 1.9567360363559547e-06,
      "loss": 1.5376,
      "step": 86891
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6893470287322998,
      "learning_rate": 1.955544384236507e-06,
      "loss": 1.4601,
      "step": 86892
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6816917061805725,
      "learning_rate": 1.954353093899097e-06,
      "loss": 1.4582,
      "step": 86893
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6711068153381348,
      "learning_rate": 1.95316216534519e-06,
      "loss": 1.493,
      "step": 86894
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6546608805656433,
      "learning_rate": 1.9519715985762185e-06,
      "loss": 1.4412,
      "step": 86895
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6688035130500793,
      "learning_rate": 1.950781393593648e-06,
      "loss": 1.4678,
      "step": 86896
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6653557419776917,
      "learning_rate": 1.94959155039891e-06,
      "loss": 1.5131,
      "step": 86897
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6859539747238159,
      "learning_rate": 1.948402068993471e-06,
      "loss": 1.4741,
      "step": 86898
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6740273833274841,
      "learning_rate": 1.9472129493787292e-06,
      "loss": 1.4392,
      "step": 86899
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6811177730560303,
      "learning_rate": 1.9460241915561837e-06,
      "loss": 1.4763,
      "step": 86900
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7011298537254333,
      "learning_rate": 1.944835795527233e-06,
      "loss": 1.5404,
      "step": 86901
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6698246598243713,
      "learning_rate": 1.94364776129331e-06,
      "loss": 1.5331,
      "step": 86902
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7003150582313538,
      "learning_rate": 1.942460088855913e-06,
      "loss": 1.4988,
      "step": 86903
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6758187413215637,
      "learning_rate": 1.9412727782164407e-06,
      "loss": 1.5746,
      "step": 86904
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7238363027572632,
      "learning_rate": 1.9400858293763588e-06,
      "loss": 1.591,
      "step": 86905
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.656345009803772,
      "learning_rate": 1.9388992423370664e-06,
      "loss": 1.4625,
      "step": 86906
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6762917637825012,
      "learning_rate": 1.937713017100062e-06,
      "loss": 1.5401,
      "step": 86907
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6597886085510254,
      "learning_rate": 1.936527153666778e-06,
      "loss": 1.4861,
      "step": 86908
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6709335446357727,
      "learning_rate": 1.93534165203858e-06,
      "loss": 1.4829,
      "step": 86909
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6651217341423035,
      "learning_rate": 1.9341565122169665e-06,
      "loss": 1.4763,
      "step": 86910
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6814577579498291,
      "learning_rate": 1.9329717342034037e-06,
      "loss": 1.5452,
      "step": 86911
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7009903788566589,
      "learning_rate": 1.931787317999289e-06,
      "loss": 1.4989,
      "step": 86912
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.670731246471405,
      "learning_rate": 1.930603263606023e-06,
      "loss": 1.524,
      "step": 86913
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6632862091064453,
      "learning_rate": 1.929419571025137e-06,
      "loss": 1.5014,
      "step": 86914
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6811596751213074,
      "learning_rate": 1.9282362402579967e-06,
      "loss": 1.494,
      "step": 86915
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6862819194793701,
      "learning_rate": 1.927053271306067e-06,
      "loss": 1.4668,
      "step": 86916
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6825622320175171,
      "learning_rate": 1.925870664170748e-06,
      "loss": 1.4905,
      "step": 86917
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6748595833778381,
      "learning_rate": 1.924688418853537e-06,
      "loss": 1.5332,
      "step": 86918
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6854912638664246,
      "learning_rate": 1.9235065353558343e-06,
      "loss": 1.3464,
      "step": 86919
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6751471161842346,
      "learning_rate": 1.922325013679038e-06,
      "loss": 1.5627,
      "step": 86920
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6740942597389221,
      "learning_rate": 1.921143853824647e-06,
      "loss": 1.5055,
      "step": 86921
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6927071809768677,
      "learning_rate": 1.9199630557940605e-06,
      "loss": 1.5737,
      "step": 86922
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6524298191070557,
      "learning_rate": 1.9187826195887433e-06,
      "loss": 1.5198,
      "step": 86923
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6843240261077881,
      "learning_rate": 1.917602545210062e-06,
      "loss": 1.4977,
      "step": 86924
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6743981242179871,
      "learning_rate": 1.9164228326595145e-06,
      "loss": 1.4661,
      "step": 86925
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6900396943092346,
      "learning_rate": 1.9152434819384998e-06,
      "loss": 1.5197,
      "step": 86926
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7027267813682556,
      "learning_rate": 1.914064493048484e-06,
      "loss": 1.4642,
      "step": 86927
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6788061857223511,
      "learning_rate": 1.912885865990832e-06,
      "loss": 1.4635,
      "step": 86928
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6635561585426331,
      "learning_rate": 1.911707600767043e-06,
      "loss": 1.5292,
      "step": 86929
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6986660957336426,
      "learning_rate": 1.9105296973785155e-06,
      "loss": 1.4973,
      "step": 86930
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6904819011688232,
      "learning_rate": 1.909352155826682e-06,
      "loss": 1.548,
      "step": 86931
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.681312084197998,
      "learning_rate": 1.9081749761129748e-06,
      "loss": 1.5209,
      "step": 86932
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6533129215240479,
      "learning_rate": 1.906998158238826e-06,
      "loss": 1.4805,
      "step": 86933
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6970775723457336,
      "learning_rate": 1.9058217022056676e-06,
      "loss": 1.4088,
      "step": 86934
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6554834246635437,
      "learning_rate": 1.9046456080148987e-06,
      "loss": 1.5606,
      "step": 86935
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.683954656124115,
      "learning_rate": 1.9034698756679845e-06,
      "loss": 1.509,
      "step": 86936
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6875861287117004,
      "learning_rate": 1.9022945051662908e-06,
      "loss": 1.5604,
      "step": 86937
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6553144454956055,
      "learning_rate": 1.9011194965113497e-06,
      "loss": 1.5268,
      "step": 86938
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7080003023147583,
      "learning_rate": 1.8999448497044934e-06,
      "loss": 1.4992,
      "step": 86939
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6744516491889954,
      "learning_rate": 1.8987705647471873e-06,
      "loss": 1.4098,
      "step": 86940
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6766650676727295,
      "learning_rate": 1.897596641640864e-06,
      "loss": 1.4489,
      "step": 86941
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6849163174629211,
      "learning_rate": 1.8964230803869217e-06,
      "loss": 1.5451,
      "step": 86942
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6908047199249268,
      "learning_rate": 1.8952498809867934e-06,
      "loss": 1.5253,
      "step": 86943
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6709713339805603,
      "learning_rate": 1.8940770434419105e-06,
      "loss": 1.5483,
      "step": 86944
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6816191673278809,
      "learning_rate": 1.8929045677537059e-06,
      "loss": 1.5139,
      "step": 86945
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6806836128234863,
      "learning_rate": 1.891732453923578e-06,
      "loss": 1.528,
      "step": 86946
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6722251772880554,
      "learning_rate": 1.8905607019529589e-06,
      "loss": 1.4375,
      "step": 86947
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6732778549194336,
      "learning_rate": 1.8893893118432812e-06,
      "loss": 1.4952,
      "step": 86948
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6861670613288879,
      "learning_rate": 1.888218283595977e-06,
      "loss": 1.4935,
      "step": 86949
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6709056496620178,
      "learning_rate": 1.887047617212445e-06,
      "loss": 1.5136,
      "step": 86950
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6699144244194031,
      "learning_rate": 1.885877312694084e-06,
      "loss": 1.4722,
      "step": 86951
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6851277947425842,
      "learning_rate": 1.8847073700423599e-06,
      "loss": 1.509,
      "step": 86952
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6932011246681213,
      "learning_rate": 1.8835377892586712e-06,
      "loss": 1.4661,
      "step": 86953
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.694092333316803,
      "learning_rate": 1.8823685703444835e-06,
      "loss": 1.451,
      "step": 86954
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6879298686981201,
      "learning_rate": 1.8811997133011291e-06,
      "loss": 1.5276,
      "step": 86955
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.674088716506958,
      "learning_rate": 1.8800312181300737e-06,
      "loss": 1.4952,
      "step": 86956
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6534172296524048,
      "learning_rate": 1.878863084832749e-06,
      "loss": 1.5291,
      "step": 86957
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6856050491333008,
      "learning_rate": 1.8776953134105544e-06,
      "loss": 1.5846,
      "step": 86958
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7075247764587402,
      "learning_rate": 1.8765279038649217e-06,
      "loss": 1.5301,
      "step": 86959
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.672248899936676,
      "learning_rate": 1.8753608561972168e-06,
      "loss": 1.5266,
      "step": 86960
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6752432584762573,
      "learning_rate": 1.8741941704089715e-06,
      "loss": 1.4709,
      "step": 86961
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6686632037162781,
      "learning_rate": 1.8730278465014515e-06,
      "loss": 1.4872,
      "step": 86962
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6661628484725952,
      "learning_rate": 1.871861884476189e-06,
      "loss": 1.509,
      "step": 86963
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6843261122703552,
      "learning_rate": 1.8706962843345496e-06,
      "loss": 1.4554,
      "step": 86964
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.660884439945221,
      "learning_rate": 1.8695310460779656e-06,
      "loss": 1.5112,
      "step": 86965
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6580640077590942,
      "learning_rate": 1.8683661697078355e-06,
      "loss": 1.5147,
      "step": 86966
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6657505035400391,
      "learning_rate": 1.8672016552255586e-06,
      "loss": 1.5051,
      "step": 86967
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6603319048881531,
      "learning_rate": 1.8660375026326335e-06,
      "loss": 1.4448,
      "step": 86968
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6742674112319946,
      "learning_rate": 1.8648737119303591e-06,
      "loss": 1.5527,
      "step": 86969
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6755029559135437,
      "learning_rate": 1.8637102831202011e-06,
      "loss": 1.4198,
      "step": 86970
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6890005469322205,
      "learning_rate": 1.8625472162035915e-06,
      "loss": 1.5936,
      "step": 86971
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.711096465587616,
      "learning_rate": 1.8613845111819292e-06,
      "loss": 1.5586,
      "step": 86972
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7122758030891418,
      "learning_rate": 1.8602221680565798e-06,
      "loss": 1.4921,
      "step": 86973
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.660532534122467,
      "learning_rate": 1.8590601868290423e-06,
      "loss": 1.4562,
      "step": 86974
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6760109066963196,
      "learning_rate": 1.8578985675006486e-06,
      "loss": 1.5504,
      "step": 86975
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6959226727485657,
      "learning_rate": 1.856737310072831e-06,
      "loss": 1.5211,
      "step": 86976
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6700721979141235,
      "learning_rate": 1.8555764145469887e-06,
      "loss": 1.5274,
      "step": 86977
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6714925169944763,
      "learning_rate": 1.8544158809245868e-06,
      "loss": 1.5314,
      "step": 86978
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6856649518013,
      "learning_rate": 1.8532557092069577e-06,
      "loss": 1.4859,
      "step": 86979
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6805127859115601,
      "learning_rate": 1.852095899395567e-06,
      "loss": 1.5003,
      "step": 86980
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6677290797233582,
      "learning_rate": 1.8509364514918135e-06,
      "loss": 1.585,
      "step": 86981
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6920956373214722,
      "learning_rate": 1.8497773654970627e-06,
      "loss": 1.5306,
      "step": 86982
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7312037348747253,
      "learning_rate": 1.84861864141278e-06,
      "loss": 1.6148,
      "step": 86983
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6869112253189087,
      "learning_rate": 1.8474602792403315e-06,
      "loss": 1.5452,
      "step": 86984
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6816899180412292,
      "learning_rate": 1.8463022789811155e-06,
      "loss": 1.5173,
      "step": 86985
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6633520126342773,
      "learning_rate": 1.8451446406365976e-06,
      "loss": 1.4394,
      "step": 86986
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6803462505340576,
      "learning_rate": 1.8439873642081104e-06,
      "loss": 1.5009,
      "step": 86987
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6566057205200195,
      "learning_rate": 1.8428304496971191e-06,
      "loss": 1.4808,
      "step": 86988
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6643174886703491,
      "learning_rate": 1.8416738971049893e-06,
      "loss": 1.45,
      "step": 86989
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6755693554878235,
      "learning_rate": 1.84051770643312e-06,
      "loss": 1.4966,
      "step": 86990
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6834865808486938,
      "learning_rate": 1.8393618776829434e-06,
      "loss": 1.5136,
      "step": 86991
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6902393102645874,
      "learning_rate": 1.838206410855858e-06,
      "loss": 1.526,
      "step": 86992
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6845200061798096,
      "learning_rate": 1.83705130595323e-06,
      "loss": 1.5825,
      "step": 86993
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6750286221504211,
      "learning_rate": 1.8358965629765243e-06,
      "loss": 1.5337,
      "step": 86994
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6881269812583923,
      "learning_rate": 1.8347421819270735e-06,
      "loss": 1.444,
      "step": 86995
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.692590057849884,
      "learning_rate": 1.8335881628063431e-06,
      "loss": 1.5458,
      "step": 86996
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.674294114112854,
      "learning_rate": 1.8324345056156987e-06,
      "loss": 1.5194,
      "step": 86997
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6727784872055054,
      "learning_rate": 1.8312812103565388e-06,
      "loss": 1.4949,
      "step": 86998
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.699791669845581,
      "learning_rate": 1.8301282770302628e-06,
      "loss": 1.5562,
      "step": 86999
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.679530918598175,
      "learning_rate": 1.8289757056382692e-06,
      "loss": 1.49,
      "step": 87000
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6694864630699158,
      "learning_rate": 1.8278234961819903e-06,
      "loss": 1.5455,
      "step": 87001
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6991683840751648,
      "learning_rate": 1.826671648662792e-06,
      "loss": 1.5085,
      "step": 87002
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7072772979736328,
      "learning_rate": 1.825520163082106e-06,
      "loss": 1.5063,
      "step": 87003
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6820473074913025,
      "learning_rate": 1.8243690394412647e-06,
      "loss": 1.5556,
      "step": 87004
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.7017909288406372,
      "learning_rate": 1.8232182777417005e-06,
      "loss": 1.512,
      "step": 87005
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.689395010471344,
      "learning_rate": 1.8220678779848451e-06,
      "loss": 1.4552,
      "step": 87006
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6875685453414917,
      "learning_rate": 1.8209178401720647e-06,
      "loss": 1.4876,
      "step": 87007
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6663939952850342,
      "learning_rate": 1.8197681643047579e-06,
      "loss": 1.4962,
      "step": 87008
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6686636805534363,
      "learning_rate": 1.8186188503842902e-06,
      "loss": 1.4587,
      "step": 87009
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6853715181350708,
      "learning_rate": 1.8174698984120938e-06,
      "loss": 1.5342,
      "step": 87010
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6958673596382141,
      "learning_rate": 1.8163213083895677e-06,
      "loss": 1.5082,
      "step": 87011
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6750556230545044,
      "learning_rate": 1.8151730803180776e-06,
      "loss": 1.5167,
      "step": 87012
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6644135117530823,
      "learning_rate": 1.814025214199022e-06,
      "loss": 1.5173,
      "step": 87013
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6670548319816589,
      "learning_rate": 1.8128777100338331e-06,
      "loss": 1.4616,
      "step": 87014
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.6743730902671814,
      "learning_rate": 1.8117305678238437e-06,
      "loss": 1.6541,
      "step": 87015
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.676343560218811,
      "learning_rate": 1.8105837875705186e-06,
      "loss": 1.495,
      "step": 87016
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7124130725860596,
      "learning_rate": 1.8094373692751908e-06,
      "loss": 1.5271,
      "step": 87017
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6900673508644104,
      "learning_rate": 1.8082913129392585e-06,
      "loss": 1.4788,
      "step": 87018
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.680391788482666,
      "learning_rate": 1.8071456185641209e-06,
      "loss": 1.5371,
      "step": 87019
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6726723909378052,
      "learning_rate": 1.8060002861511769e-06,
      "loss": 1.5118,
      "step": 87020
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6797894239425659,
      "learning_rate": 1.8048553157018253e-06,
      "loss": 1.518,
      "step": 87021
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6758514642715454,
      "learning_rate": 1.8037107072174316e-06,
      "loss": 1.5721,
      "step": 87022
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6912879347801208,
      "learning_rate": 1.802566460699395e-06,
      "loss": 1.499,
      "step": 87023
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6946557760238647,
      "learning_rate": 1.8014225761491142e-06,
      "loss": 1.5417,
      "step": 87024
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6713920831680298,
      "learning_rate": 1.8002790535679545e-06,
      "loss": 1.5044,
      "step": 87025
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6984674334526062,
      "learning_rate": 1.7991358929573152e-06,
      "loss": 1.5139,
      "step": 87026
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6599962711334229,
      "learning_rate": 1.797993094318595e-06,
      "loss": 1.5025,
      "step": 87027
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6515487432479858,
      "learning_rate": 1.7968506576531928e-06,
      "loss": 1.5711,
      "step": 87028
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6715632081031799,
      "learning_rate": 1.7957085829624408e-06,
      "loss": 1.5363,
      "step": 87029
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7015389204025269,
      "learning_rate": 1.7945668702477711e-06,
      "loss": 1.5704,
      "step": 87030
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6824287176132202,
      "learning_rate": 1.793425519510583e-06,
      "loss": 1.5256,
      "step": 87031
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7927669286727905,
      "learning_rate": 1.7922845307522082e-06,
      "loss": 1.4325,
      "step": 87032
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6902815103530884,
      "learning_rate": 1.7911439039740794e-06,
      "loss": 1.5563,
      "step": 87033
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6814270615577698,
      "learning_rate": 1.7900036391775286e-06,
      "loss": 1.5463,
      "step": 87034
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6718866229057312,
      "learning_rate": 1.7888637363640212e-06,
      "loss": 1.4854,
      "step": 87035
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.703728437423706,
      "learning_rate": 1.7877241955348897e-06,
      "loss": 1.5243,
      "step": 87036
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7206737995147705,
      "learning_rate": 1.7865850166914997e-06,
      "loss": 1.5431,
      "step": 87037
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6735152006149292,
      "learning_rate": 1.7854461998352497e-06,
      "loss": 1.5382,
      "step": 87038
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6759098768234253,
      "learning_rate": 1.7843077449675724e-06,
      "loss": 1.5066,
      "step": 87039
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6818888783454895,
      "learning_rate": 1.7831696520897664e-06,
      "loss": 1.4661,
      "step": 87040
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.687811017036438,
      "learning_rate": 1.782031921203264e-06,
      "loss": 1.5235,
      "step": 87041
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6931846141815186,
      "learning_rate": 1.7808945523093975e-06,
      "loss": 1.5368,
      "step": 87042
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6891109347343445,
      "learning_rate": 1.7797575454096325e-06,
      "loss": 1.4362,
      "step": 87043
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6800696849822998,
      "learning_rate": 1.7786209005052677e-06,
      "loss": 1.5434,
      "step": 87044
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6722220182418823,
      "learning_rate": 1.7774846175977686e-06,
      "loss": 1.5029,
      "step": 87045
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6875942349433899,
      "learning_rate": 1.7763486966884344e-06,
      "loss": 1.4452,
      "step": 87046
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6782923936843872,
      "learning_rate": 1.7752131377786305e-06,
      "loss": 1.4142,
      "step": 87047
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6751360893249512,
      "learning_rate": 1.7740779408698225e-06,
      "loss": 1.619,
      "step": 87048
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7089700698852539,
      "learning_rate": 1.7729431059633426e-06,
      "loss": 1.4184,
      "step": 87049
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6869993805885315,
      "learning_rate": 1.7718086330605563e-06,
      "loss": 1.462,
      "step": 87050
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6836731433868408,
      "learning_rate": 1.7706745221628626e-06,
      "loss": 1.4509,
      "step": 87051
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7142705917358398,
      "learning_rate": 1.7695407732715939e-06,
      "loss": 1.533,
      "step": 87052
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6887502074241638,
      "learning_rate": 1.768407386388182e-06,
      "loss": 1.4782,
      "step": 87053
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.666553795337677,
      "learning_rate": 1.7672743615139928e-06,
      "loss": 1.5275,
      "step": 87054
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6966838240623474,
      "learning_rate": 1.7661416986503917e-06,
      "loss": 1.5254,
      "step": 87055
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6838086843490601,
      "learning_rate": 1.7650093977987446e-06,
      "loss": 1.5093,
      "step": 87056
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6754347681999207,
      "learning_rate": 1.7638774589604165e-06,
      "loss": 1.4633,
      "step": 87057
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7015576958656311,
      "learning_rate": 1.7627458821368067e-06,
      "loss": 1.54,
      "step": 87058
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6939970254898071,
      "learning_rate": 1.7616146673292808e-06,
      "loss": 1.5309,
      "step": 87059
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6937106847763062,
      "learning_rate": 1.7604838145392375e-06,
      "loss": 1.5485,
      "step": 87060
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6734828948974609,
      "learning_rate": 1.759353323768009e-06,
      "loss": 1.546,
      "step": 87061
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6802130937576294,
      "learning_rate": 1.7582231950169611e-06,
      "loss": 1.5367,
      "step": 87062
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6811301112174988,
      "learning_rate": 1.7570934282874927e-06,
      "loss": 1.5441,
      "step": 87063
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6818928718566895,
      "learning_rate": 1.7559640235809691e-06,
      "loss": 1.5005,
      "step": 87064
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6861474514007568,
      "learning_rate": 1.7548349808987894e-06,
      "loss": 1.5525,
      "step": 87065
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6730108857154846,
      "learning_rate": 1.7537063002422525e-06,
      "loss": 1.5243,
      "step": 87066
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6812265515327454,
      "learning_rate": 1.752577981612824e-06,
      "loss": 1.5111,
      "step": 87067
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6935120820999146,
      "learning_rate": 1.751450025011769e-06,
      "loss": 1.5419,
      "step": 87068
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6655999422073364,
      "learning_rate": 1.7503224304405205e-06,
      "loss": 1.456,
      "step": 87069
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6901951432228088,
      "learning_rate": 1.7491951979004436e-06,
      "loss": 1.4786,
      "step": 87070
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6712831854820251,
      "learning_rate": 1.7480683273929376e-06,
      "loss": 1.5024,
      "step": 87071
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6778022050857544,
      "learning_rate": 1.7469418189192675e-06,
      "loss": 1.4633,
      "step": 87072
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6817863583564758,
      "learning_rate": 1.7458156724808991e-06,
      "loss": 1.5446,
      "step": 87073
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.735553503036499,
      "learning_rate": 1.744689888079165e-06,
      "loss": 1.4723,
      "step": 87074
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6757146120071411,
      "learning_rate": 1.7435644657154302e-06,
      "loss": 1.5628,
      "step": 87075
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6883664131164551,
      "learning_rate": 1.7424394053910274e-06,
      "loss": 1.532,
      "step": 87076
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6999257802963257,
      "learning_rate": 1.7413147071073886e-06,
      "loss": 1.4693,
      "step": 87077
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6719595193862915,
      "learning_rate": 1.740190370865846e-06,
      "loss": 1.5328,
      "step": 87078
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6836249232292175,
      "learning_rate": 1.7390663966677653e-06,
      "loss": 1.4988,
      "step": 87079
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6802000403404236,
      "learning_rate": 1.7379427845145123e-06,
      "loss": 1.4198,
      "step": 87080
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6756077408790588,
      "learning_rate": 1.736819534407452e-06,
      "loss": 1.5193,
      "step": 87081
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7100548148155212,
      "learning_rate": 1.7356966463479504e-06,
      "loss": 1.5209,
      "step": 87082
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6811971664428711,
      "learning_rate": 1.7345741203373398e-06,
      "loss": 1.4709,
      "step": 87083
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6811061501502991,
      "learning_rate": 1.7334519563770188e-06,
      "loss": 1.5541,
      "step": 87084
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7005195021629333,
      "learning_rate": 1.7323301544683531e-06,
      "loss": 1.5426,
      "step": 87085
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6731730103492737,
      "learning_rate": 1.7312087146126751e-06,
      "loss": 1.4091,
      "step": 87086
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6776278614997864,
      "learning_rate": 1.7300876368113837e-06,
      "loss": 1.4875,
      "step": 87087
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6779661178588867,
      "learning_rate": 1.7289669210658107e-06,
      "loss": 1.5335,
      "step": 87088
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6725983619689941,
      "learning_rate": 1.7278465673773223e-06,
      "loss": 1.567,
      "step": 87089
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6820526123046875,
      "learning_rate": 1.7267265757472504e-06,
      "loss": 1.4778,
      "step": 87090
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6564319729804993,
      "learning_rate": 1.7256069461770272e-06,
      "loss": 1.4299,
      "step": 87091
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6838427186012268,
      "learning_rate": 1.7244876786679517e-06,
      "loss": 1.5705,
      "step": 87092
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6503818035125732,
      "learning_rate": 1.7233687732213896e-06,
      "loss": 1.5639,
      "step": 87093
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.686434268951416,
      "learning_rate": 1.7222502298387064e-06,
      "loss": 1.491,
      "step": 87094
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6901168823242188,
      "learning_rate": 1.7211320485212676e-06,
      "loss": 1.4797,
      "step": 87095
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7135344743728638,
      "learning_rate": 1.7200142292704389e-06,
      "loss": 1.5343,
      "step": 87096
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6857959032058716,
      "learning_rate": 1.7188967720875524e-06,
      "loss": 1.4687,
      "step": 87097
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6705507636070251,
      "learning_rate": 1.7177796769739738e-06,
      "loss": 1.5561,
      "step": 87098
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6685289740562439,
      "learning_rate": 1.716662943931102e-06,
      "loss": 1.4674,
      "step": 87099
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6835993528366089,
      "learning_rate": 1.7155465729602026e-06,
      "loss": 1.4407,
      "step": 87100
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6867945194244385,
      "learning_rate": 1.7144305640626743e-06,
      "loss": 1.5596,
      "step": 87101
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6702437400817871,
      "learning_rate": 1.713314917239883e-06,
      "loss": 1.5253,
      "step": 87102
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6681808829307556,
      "learning_rate": 1.712199632493194e-06,
      "loss": 1.4868,
      "step": 87103
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6925358772277832,
      "learning_rate": 1.71108470982394e-06,
      "loss": 1.4419,
      "step": 87104
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6798853874206543,
      "learning_rate": 1.709970149233486e-06,
      "loss": 1.5085,
      "step": 87105
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.681837797164917,
      "learning_rate": 1.7088559507231647e-06,
      "loss": 1.5101,
      "step": 87106
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6712180376052856,
      "learning_rate": 1.7077421142943415e-06,
      "loss": 1.5077,
      "step": 87107
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6689164638519287,
      "learning_rate": 1.706628639948382e-06,
      "loss": 1.5835,
      "step": 87108
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6812708377838135,
      "learning_rate": 1.7055155276866184e-06,
      "loss": 1.512,
      "step": 87109
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.674580991268158,
      "learning_rate": 1.704402777510383e-06,
      "loss": 1.4841,
      "step": 87110
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6729052066802979,
      "learning_rate": 1.7032903894210747e-06,
      "loss": 1.4963,
      "step": 87111
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6986886262893677,
      "learning_rate": 1.7021783634200258e-06,
      "loss": 1.5713,
      "step": 87112
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6924220323562622,
      "learning_rate": 1.7010666995085687e-06,
      "loss": 1.5226,
      "step": 87113
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6733168959617615,
      "learning_rate": 1.6999553976880352e-06,
      "loss": 1.512,
      "step": 87114
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.680103063583374,
      "learning_rate": 1.6988444579598581e-06,
      "loss": 1.5241,
      "step": 87115
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6805534362792969,
      "learning_rate": 1.6977338803253027e-06,
      "loss": 1.552,
      "step": 87116
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6657370328903198,
      "learning_rate": 1.6966236647857345e-06,
      "loss": 1.5418,
      "step": 87117
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6726863980293274,
      "learning_rate": 1.6955138113425525e-06,
      "loss": 1.4385,
      "step": 87118
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6834779381752014,
      "learning_rate": 1.6944043199970225e-06,
      "loss": 1.4731,
      "step": 87119
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6746835112571716,
      "learning_rate": 1.6932951907505433e-06,
      "loss": 1.4834,
      "step": 87120
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.673901379108429,
      "learning_rate": 1.6921864236044803e-06,
      "loss": 1.517,
      "step": 87121
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.707269012928009,
      "learning_rate": 1.6910780185600991e-06,
      "loss": 1.6065,
      "step": 87122
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.67972332239151,
      "learning_rate": 1.6899699756188323e-06,
      "loss": 1.5495,
      "step": 87123
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6612036824226379,
      "learning_rate": 1.6888622947819785e-06,
      "loss": 1.4745,
      "step": 87124
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6693238615989685,
      "learning_rate": 1.6877549760508702e-06,
      "loss": 1.4459,
      "step": 87125
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.684170126914978,
      "learning_rate": 1.6866480194269062e-06,
      "loss": 1.5208,
      "step": 87126
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6989907026290894,
      "learning_rate": 1.6855414249113851e-06,
      "loss": 1.5391,
      "step": 87127
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6845508217811584,
      "learning_rate": 1.6844351925056733e-06,
      "loss": 1.4688,
      "step": 87128
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6862730979919434,
      "learning_rate": 1.6833293222110689e-06,
      "loss": 1.477,
      "step": 87129
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6425619721412659,
      "learning_rate": 1.6822238140289712e-06,
      "loss": 1.479,
      "step": 87130
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6442168354988098,
      "learning_rate": 1.6811186679607125e-06,
      "loss": 1.5114,
      "step": 87131
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6526753306388855,
      "learning_rate": 1.6800138840075917e-06,
      "loss": 1.4272,
      "step": 87132
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6703683733940125,
      "learning_rate": 1.6789094621709742e-06,
      "loss": 1.502,
      "step": 87133
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6678748726844788,
      "learning_rate": 1.6778054024522258e-06,
      "loss": 1.565,
      "step": 87134
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6674986481666565,
      "learning_rate": 1.6767017048526786e-06,
      "loss": 1.5081,
      "step": 87135
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6593976616859436,
      "learning_rate": 1.675598369373632e-06,
      "loss": 1.4172,
      "step": 87136
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6809210181236267,
      "learning_rate": 1.674495396016451e-06,
      "loss": 1.4993,
      "step": 87137
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6943784356117249,
      "learning_rate": 1.6733927847825013e-06,
      "loss": 1.4825,
      "step": 87138
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6874350309371948,
      "learning_rate": 1.672290535673082e-06,
      "loss": 1.5467,
      "step": 87139
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6847784519195557,
      "learning_rate": 1.6711886486895254e-06,
      "loss": 1.5955,
      "step": 87140
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6688652634620667,
      "learning_rate": 1.6700871238332302e-06,
      "loss": 1.4931,
      "step": 87141
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6757826209068298,
      "learning_rate": 1.6689859611054957e-06,
      "loss": 1.5051,
      "step": 87142
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6959648728370667,
      "learning_rate": 1.6678851605076204e-06,
      "loss": 1.5442,
      "step": 87143
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7213782668113708,
      "learning_rate": 1.6667847220409703e-06,
      "loss": 1.4531,
      "step": 87144
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6659666895866394,
      "learning_rate": 1.6656846457069107e-06,
      "loss": 1.5587,
      "step": 87145
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6742452383041382,
      "learning_rate": 1.6645849315067406e-06,
      "loss": 1.4459,
      "step": 87146
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6570550203323364,
      "learning_rate": 1.6634855794418257e-06,
      "loss": 1.4632,
      "step": 87147
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.674038290977478,
      "learning_rate": 1.6623865895134647e-06,
      "loss": 1.5171,
      "step": 87148
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.678196370601654,
      "learning_rate": 1.6612879617230234e-06,
      "loss": 1.5751,
      "step": 87149
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6796799302101135,
      "learning_rate": 1.6601896960718008e-06,
      "loss": 1.4389,
      "step": 87150
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6670888662338257,
      "learning_rate": 1.659091792561129e-06,
      "loss": 1.5201,
      "step": 87151
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6767391562461853,
      "learning_rate": 1.6579942511924072e-06,
      "loss": 1.4734,
      "step": 87152
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6719986796379089,
      "learning_rate": 1.6568970719669006e-06,
      "loss": 1.4758,
      "step": 87153
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.662923276424408,
      "learning_rate": 1.655800254885975e-06,
      "loss": 1.4947,
      "step": 87154
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6735275983810425,
      "learning_rate": 1.6547037999509293e-06,
      "loss": 1.4968,
      "step": 87155
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7010302543640137,
      "learning_rate": 1.6536077071631293e-06,
      "loss": 1.5447,
      "step": 87156
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6755701899528503,
      "learning_rate": 1.6525119765238737e-06,
      "loss": 1.4712,
      "step": 87157
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6785361766815186,
      "learning_rate": 1.6514166080345281e-06,
      "loss": 1.5102,
      "step": 87158
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6908132433891296,
      "learning_rate": 1.6503216016963915e-06,
      "loss": 1.5621,
      "step": 87159
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6744049191474915,
      "learning_rate": 1.6492269575107963e-06,
      "loss": 1.5187,
      "step": 87160
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6635916233062744,
      "learning_rate": 1.648132675479108e-06,
      "loss": 1.4399,
      "step": 87161
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6794738173484802,
      "learning_rate": 1.6470387556026253e-06,
      "loss": 1.467,
      "step": 87162
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6855761408805847,
      "learning_rate": 1.6459451978826477e-06,
      "loss": 1.5147,
      "step": 87163
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6938122510910034,
      "learning_rate": 1.6448520023205402e-06,
      "loss": 1.5753,
      "step": 87164
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6924424767494202,
      "learning_rate": 1.6437591689176354e-06,
      "loss": 1.5695,
      "step": 87165
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6753312945365906,
      "learning_rate": 1.6426666976752324e-06,
      "loss": 1.538,
      "step": 87166
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.677143394947052,
      "learning_rate": 1.6415745885946963e-06,
      "loss": 1.4405,
      "step": 87167
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6775649785995483,
      "learning_rate": 1.640482841677293e-06,
      "loss": 1.5474,
      "step": 87168
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6647970080375671,
      "learning_rate": 1.6393914569243883e-06,
      "loss": 1.5703,
      "step": 87169
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6687527894973755,
      "learning_rate": 1.638300434337314e-06,
      "loss": 1.4725,
      "step": 87170
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7022380232810974,
      "learning_rate": 1.637209773917403e-06,
      "loss": 1.5742,
      "step": 87171
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6771959662437439,
      "learning_rate": 1.63611947566592e-06,
      "loss": 1.4733,
      "step": 87172
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6758777499198914,
      "learning_rate": 1.6350295395842316e-06,
      "loss": 1.4833,
      "step": 87173
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6969119906425476,
      "learning_rate": 1.6339399656736696e-06,
      "loss": 1.4583,
      "step": 87174
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6929066777229309,
      "learning_rate": 1.632850753935533e-06,
      "loss": 1.4444,
      "step": 87175
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.679061770439148,
      "learning_rate": 1.6317619043711538e-06,
      "loss": 1.5606,
      "step": 87176
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6784691214561462,
      "learning_rate": 1.6306734169818647e-06,
      "loss": 1.4455,
      "step": 87177
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6635976433753967,
      "learning_rate": 1.6295852917689644e-06,
      "loss": 1.5187,
      "step": 87178
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7204148173332214,
      "learning_rate": 1.6284975287337854e-06,
      "loss": 1.4704,
      "step": 87179
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6959892511367798,
      "learning_rate": 1.6274101278776596e-06,
      "loss": 1.4889,
      "step": 87180
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6820558905601501,
      "learning_rate": 1.6263230892018863e-06,
      "loss": 1.4904,
      "step": 87181
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7047151923179626,
      "learning_rate": 1.6252364127077977e-06,
      "loss": 1.4993,
      "step": 87182
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6788281202316284,
      "learning_rate": 1.6241500983966927e-06,
      "loss": 1.4806,
      "step": 87183
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6861032843589783,
      "learning_rate": 1.6230641462699034e-06,
      "loss": 1.5799,
      "step": 87184
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6769400835037231,
      "learning_rate": 1.6219785563287623e-06,
      "loss": 1.5068,
      "step": 87185
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6661049127578735,
      "learning_rate": 1.6208933285745684e-06,
      "loss": 1.4948,
      "step": 87186
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6714419722557068,
      "learning_rate": 1.619808463008654e-06,
      "loss": 1.4497,
      "step": 87187
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6693082451820374,
      "learning_rate": 1.618723959632351e-06,
      "loss": 1.502,
      "step": 87188
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6763882637023926,
      "learning_rate": 1.6176398184469253e-06,
      "loss": 1.4871,
      "step": 87189
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6820521354675293,
      "learning_rate": 1.6165560394537092e-06,
      "loss": 1.49,
      "step": 87190
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6908155083656311,
      "learning_rate": 1.6154726226540348e-06,
      "loss": 1.5467,
      "step": 87191
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.675768256187439,
      "learning_rate": 1.6143895680492347e-06,
      "loss": 1.5095,
      "step": 87192
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6971133947372437,
      "learning_rate": 1.6133068756405743e-06,
      "loss": 1.576,
      "step": 87193
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6564387083053589,
      "learning_rate": 1.6122245454294192e-06,
      "loss": 1.5154,
      "step": 87194
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6964035630226135,
      "learning_rate": 1.6111425774170683e-06,
      "loss": 1.5464,
      "step": 87195
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.673170268535614,
      "learning_rate": 1.6100609716047875e-06,
      "loss": 1.5927,
      "step": 87196
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6820744276046753,
      "learning_rate": 1.6089797279939087e-06,
      "loss": 1.488,
      "step": 87197
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6792358756065369,
      "learning_rate": 1.6078988465858312e-06,
      "loss": 1.5005,
      "step": 87198
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6776155829429626,
      "learning_rate": 1.6068183273817536e-06,
      "loss": 1.4841,
      "step": 87199
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6732844710350037,
      "learning_rate": 1.605738170383042e-06,
      "loss": 1.5068,
      "step": 87200
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6815305948257446,
      "learning_rate": 1.6046583755909947e-06,
      "loss": 1.5293,
      "step": 87201
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6656336188316345,
      "learning_rate": 1.6035789430069446e-06,
      "loss": 1.5142,
      "step": 87202
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6880755424499512,
      "learning_rate": 1.6024998726321569e-06,
      "loss": 1.498,
      "step": 87203
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6950329542160034,
      "learning_rate": 1.6014211644679643e-06,
      "loss": 1.4864,
      "step": 87204
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6905823945999146,
      "learning_rate": 1.6003428185156985e-06,
      "loss": 1.4578,
      "step": 87205
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6778354644775391,
      "learning_rate": 1.5992648347766257e-06,
      "loss": 1.4884,
      "step": 87206
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6973361372947693,
      "learning_rate": 1.5981872132521112e-06,
      "loss": 1.4888,
      "step": 87207
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.705129861831665,
      "learning_rate": 1.5971099539434208e-06,
      "loss": 1.4153,
      "step": 87208
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6967577338218689,
      "learning_rate": 1.596033056851853e-06,
      "loss": 1.4928,
      "step": 87209
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.68404221534729,
      "learning_rate": 1.5949565219787408e-06,
      "loss": 1.4784,
      "step": 87210
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6787639260292053,
      "learning_rate": 1.5938803493253827e-06,
      "loss": 1.557,
      "step": 87211
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6629555821418762,
      "learning_rate": 1.592804538893111e-06,
      "loss": 1.5759,
      "step": 87212
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6744204163551331,
      "learning_rate": 1.5917290906831914e-06,
      "loss": 1.5233,
      "step": 87213
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6816723346710205,
      "learning_rate": 1.590654004696923e-06,
      "loss": 1.516,
      "step": 87214
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.680408775806427,
      "learning_rate": 1.5895792809356379e-06,
      "loss": 1.5418,
      "step": 87215
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6955043077468872,
      "learning_rate": 1.5885049194006683e-06,
      "loss": 1.5047,
      "step": 87216
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7164100408554077,
      "learning_rate": 1.5874309200932467e-06,
      "loss": 1.5012,
      "step": 87217
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6748487949371338,
      "learning_rate": 1.5863572830147387e-06,
      "loss": 1.516,
      "step": 87218
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6796656250953674,
      "learning_rate": 1.5852840081664097e-06,
      "loss": 1.4912,
      "step": 87219
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6533602476119995,
      "learning_rate": 1.5842110955495924e-06,
      "loss": 1.4912,
      "step": 87220
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.691493809223175,
      "learning_rate": 1.583138545165552e-06,
      "loss": 1.4853,
      "step": 87221
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6901787519454956,
      "learning_rate": 1.582066357015621e-06,
      "loss": 1.4536,
      "step": 87222
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6887575387954712,
      "learning_rate": 1.5809945311010986e-06,
      "loss": 1.496,
      "step": 87223
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6735131740570068,
      "learning_rate": 1.5799230674232832e-06,
      "loss": 1.5366,
      "step": 87224
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6720507144927979,
      "learning_rate": 1.5788519659834408e-06,
      "loss": 1.5235,
      "step": 87225
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6904497742652893,
      "learning_rate": 1.5777812267829372e-06,
      "loss": 1.5152,
      "step": 87226
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6942780017852783,
      "learning_rate": 1.576710849823004e-06,
      "loss": 1.5095,
      "step": 87227
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6829473376274109,
      "learning_rate": 1.5756408351050075e-06,
      "loss": 1.4613,
      "step": 87228
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6992574334144592,
      "learning_rate": 1.5745711826301798e-06,
      "loss": 1.5754,
      "step": 87229
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6694218516349792,
      "learning_rate": 1.5735018923998865e-06,
      "loss": 1.4863,
      "step": 87230
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6803058385848999,
      "learning_rate": 1.5724329644153599e-06,
      "loss": 1.5165,
      "step": 87231
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6765459179878235,
      "learning_rate": 1.5713643986779323e-06,
      "loss": 1.5028,
      "step": 87232
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6593050956726074,
      "learning_rate": 1.5702961951889026e-06,
      "loss": 1.4635,
      "step": 87233
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6776821613311768,
      "learning_rate": 1.5692283539495699e-06,
      "loss": 1.493,
      "step": 87234
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6863281726837158,
      "learning_rate": 1.568160874961233e-06,
      "loss": 1.5147,
      "step": 87235
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6904663443565369,
      "learning_rate": 1.5670937582251575e-06,
      "loss": 1.5187,
      "step": 87236
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6787282228469849,
      "learning_rate": 1.5660270037426759e-06,
      "loss": 1.4618,
      "step": 87237
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6955510973930359,
      "learning_rate": 1.5649606115150536e-06,
      "loss": 1.4999,
      "step": 87238
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6793872714042664,
      "learning_rate": 1.5638945815435566e-06,
      "loss": 1.5773,
      "step": 87239
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.664027750492096,
      "learning_rate": 1.5628289138295502e-06,
      "loss": 1.5211,
      "step": 87240
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6950021386146545,
      "learning_rate": 1.5617636083743334e-06,
      "loss": 1.4906,
      "step": 87241
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6658066511154175,
      "learning_rate": 1.5606986651791386e-06,
      "loss": 1.479,
      "step": 87242
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7113083004951477,
      "learning_rate": 1.5596340842452648e-06,
      "loss": 1.5247,
      "step": 87243
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6833022236824036,
      "learning_rate": 1.5585698655740442e-06,
      "loss": 1.53,
      "step": 87244
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6752761602401733,
      "learning_rate": 1.5575060091667425e-06,
      "loss": 1.491,
      "step": 87245
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6686304211616516,
      "learning_rate": 1.5564425150246252e-06,
      "loss": 1.5091,
      "step": 87246
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.659369170665741,
      "learning_rate": 1.5553793831490247e-06,
      "loss": 1.4562,
      "step": 87247
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.683474600315094,
      "learning_rate": 1.5543166135412732e-06,
      "loss": 1.5794,
      "step": 87248
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.651907742023468,
      "learning_rate": 1.5532542062025365e-06,
      "loss": 1.4722,
      "step": 87249
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6818870306015015,
      "learning_rate": 1.5521921611342136e-06,
      "loss": 1.4811,
      "step": 87250
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6941084265708923,
      "learning_rate": 1.5511304783375366e-06,
      "loss": 1.4839,
      "step": 87251
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6742562055587769,
      "learning_rate": 1.550069157813838e-06,
      "loss": 1.4868,
      "step": 87252
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6885291337966919,
      "learning_rate": 1.54900819956435e-06,
      "loss": 1.4946,
      "step": 87253
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6781403422355652,
      "learning_rate": 1.5479476035904049e-06,
      "loss": 1.6172,
      "step": 87254
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6420660018920898,
      "learning_rate": 1.5468873698933015e-06,
      "loss": 1.5103,
      "step": 87255
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6617544293403625,
      "learning_rate": 1.5458274984742725e-06,
      "loss": 1.4573,
      "step": 87256
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6963580846786499,
      "learning_rate": 1.5447679893346166e-06,
      "loss": 1.4732,
      "step": 87257
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6470035910606384,
      "learning_rate": 1.543708842475666e-06,
      "loss": 1.507,
      "step": 87258
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6662001013755798,
      "learning_rate": 1.5426500578986868e-06,
      "loss": 1.5202,
      "step": 87259
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6626092791557312,
      "learning_rate": 1.541591635604944e-06,
      "loss": 1.5251,
      "step": 87260
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6755824685096741,
      "learning_rate": 1.5405335755957037e-06,
      "loss": 1.4613,
      "step": 87261
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.675391674041748,
      "learning_rate": 1.5394758778723316e-06,
      "loss": 1.4552,
      "step": 87262
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6863617300987244,
      "learning_rate": 1.5384185424360262e-06,
      "loss": 1.5585,
      "step": 87263
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6928189992904663,
      "learning_rate": 1.537361569288087e-06,
      "loss": 1.5293,
      "step": 87264
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6494245529174805,
      "learning_rate": 1.536304958429846e-06,
      "loss": 1.4645,
      "step": 87265
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6768543124198914,
      "learning_rate": 1.5352487098625687e-06,
      "loss": 1.5195,
      "step": 87266
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.685241162776947,
      "learning_rate": 1.5341928235874878e-06,
      "loss": 1.4926,
      "step": 87267
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.695446789264679,
      "learning_rate": 1.5331372996059355e-06,
      "loss": 1.5884,
      "step": 87268
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6877039670944214,
      "learning_rate": 1.5320821379191773e-06,
      "loss": 1.4749,
      "step": 87269
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6756600737571716,
      "learning_rate": 1.5310273385284788e-06,
      "loss": 1.4381,
      "step": 87270
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.677217423915863,
      "learning_rate": 1.5299729014351393e-06,
      "loss": 1.4143,
      "step": 87271
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6784572601318359,
      "learning_rate": 1.5289188266404573e-06,
      "loss": 1.4975,
      "step": 87272
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6610854268074036,
      "learning_rate": 1.5278651141456989e-06,
      "loss": 1.4888,
      "step": 87273
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6827971935272217,
      "learning_rate": 1.526811763952096e-06,
      "loss": 1.477,
      "step": 87274
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6875444650650024,
      "learning_rate": 1.5257587760609813e-06,
      "loss": 1.4671,
      "step": 87275
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6612944602966309,
      "learning_rate": 1.5247061504736202e-06,
      "loss": 1.4725,
      "step": 87276
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6869867444038391,
      "learning_rate": 1.5236538871912785e-06,
      "loss": 1.5726,
      "step": 87277
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6668909192085266,
      "learning_rate": 1.522601986215255e-06,
      "loss": 1.5517,
      "step": 87278
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6744418144226074,
      "learning_rate": 1.5215504475468154e-06,
      "loss": 1.4829,
      "step": 87279
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7018619775772095,
      "learning_rate": 1.5204992711872255e-06,
      "loss": 1.4759,
      "step": 87280
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6641082763671875,
      "learning_rate": 1.519448457137784e-06,
      "loss": 1.4871,
      "step": 87281
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6662116646766663,
      "learning_rate": 1.5183980053997568e-06,
      "loss": 1.5113,
      "step": 87282
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6505070924758911,
      "learning_rate": 1.5173479159743762e-06,
      "loss": 1.4763,
      "step": 87283
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6670988202095032,
      "learning_rate": 1.5162981888629743e-06,
      "loss": 1.4552,
      "step": 87284
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6846898794174194,
      "learning_rate": 1.5152488240668504e-06,
      "loss": 1.4812,
      "step": 87285
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.663901686668396,
      "learning_rate": 1.5141998215871697e-06,
      "loss": 1.4127,
      "step": 87286
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6816481351852417,
      "learning_rate": 1.5131511814252984e-06,
      "loss": 1.5064,
      "step": 87287
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6950840353965759,
      "learning_rate": 1.5121029035825015e-06,
      "loss": 1.4923,
      "step": 87288
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6644415259361267,
      "learning_rate": 1.511054988060012e-06,
      "loss": 1.4922,
      "step": 87289
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.683679461479187,
      "learning_rate": 1.5100074348590951e-06,
      "loss": 1.5345,
      "step": 87290
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7078433036804199,
      "learning_rate": 1.5089602439810833e-06,
      "loss": 1.4011,
      "step": 87291
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.646048367023468,
      "learning_rate": 1.5079134154272088e-06,
      "loss": 1.4425,
      "step": 87292
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.672336757183075,
      "learning_rate": 1.5068669491987372e-06,
      "loss": 1.5043,
      "step": 87293
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6930697560310364,
      "learning_rate": 1.5058208452969678e-06,
      "loss": 1.5798,
      "step": 87294
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6783657073974609,
      "learning_rate": 1.5047751037231325e-06,
      "loss": 1.4875,
      "step": 87295
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6878819465637207,
      "learning_rate": 1.5037297244785308e-06,
      "loss": 1.5262,
      "step": 87296
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6732457280158997,
      "learning_rate": 1.5026847075643945e-06,
      "loss": 1.5067,
      "step": 87297
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6872587203979492,
      "learning_rate": 1.5016400529820561e-06,
      "loss": 1.5351,
      "step": 87298
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6542957425117493,
      "learning_rate": 1.5005957607327146e-06,
      "loss": 1.433,
      "step": 87299
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6677291393280029,
      "learning_rate": 1.499551830817669e-06,
      "loss": 1.5149,
      "step": 87300
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.681742250919342,
      "learning_rate": 1.4985082632382184e-06,
      "loss": 1.6395,
      "step": 87301
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6880814433097839,
      "learning_rate": 1.4974650579955617e-06,
      "loss": 1.4535,
      "step": 87302
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6536554098129272,
      "learning_rate": 1.4964222150909976e-06,
      "loss": 1.5013,
      "step": 87303
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6738688349723816,
      "learning_rate": 1.4953797345258256e-06,
      "loss": 1.4874,
      "step": 87304
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6662929058074951,
      "learning_rate": 1.4943376163012777e-06,
      "loss": 1.4479,
      "step": 87305
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6870743632316589,
      "learning_rate": 1.4932958604185863e-06,
      "loss": 1.5137,
      "step": 87306
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6678293347358704,
      "learning_rate": 1.4922544668790505e-06,
      "loss": 1.4227,
      "step": 87307
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6659530401229858,
      "learning_rate": 1.4912134356839689e-06,
      "loss": 1.5542,
      "step": 87308
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6982578039169312,
      "learning_rate": 1.4901727668345742e-06,
      "loss": 1.5486,
      "step": 87309
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6974029541015625,
      "learning_rate": 1.4891324603320986e-06,
      "loss": 1.5296,
      "step": 87310
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6828495860099792,
      "learning_rate": 1.4880925161778413e-06,
      "loss": 1.5049,
      "step": 87311
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6567224860191345,
      "learning_rate": 1.4870529343730675e-06,
      "loss": 1.5346,
      "step": 87312
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6858010292053223,
      "learning_rate": 1.4860137149190098e-06,
      "loss": 1.5548,
      "step": 87313
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6920663118362427,
      "learning_rate": 1.484974857816934e-06,
      "loss": 1.5485,
      "step": 87314
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6609811782836914,
      "learning_rate": 1.4839363630681722e-06,
      "loss": 1.4924,
      "step": 87315
    },
    {
      "epoch": 2.91,
      "grad_norm": 1.1512324810028076,
      "learning_rate": 1.48289823067389e-06,
      "loss": 1.5273,
      "step": 87316
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6643637418746948,
      "learning_rate": 1.4818604606353868e-06,
      "loss": 1.4702,
      "step": 87317
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6951116323471069,
      "learning_rate": 1.4808230529538945e-06,
      "loss": 1.5699,
      "step": 87318
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6909700036048889,
      "learning_rate": 1.4797860076307456e-06,
      "loss": 1.5819,
      "step": 87319
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6886842250823975,
      "learning_rate": 1.4787493246671057e-06,
      "loss": 1.541,
      "step": 87320
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6858142018318176,
      "learning_rate": 1.477713004064307e-06,
      "loss": 1.493,
      "step": 87321
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6873551607131958,
      "learning_rate": 1.4766770458235822e-06,
      "loss": 1.5157,
      "step": 87322
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7036923170089722,
      "learning_rate": 1.4756414499461966e-06,
      "loss": 1.4577,
      "step": 87323
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6731234788894653,
      "learning_rate": 1.4746062164333494e-06,
      "loss": 1.4225,
      "step": 87324
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6675441861152649,
      "learning_rate": 1.4735713452864063e-06,
      "loss": 1.5081,
      "step": 87325
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6662937998771667,
      "learning_rate": 1.4725368365065326e-06,
      "loss": 1.4071,
      "step": 87326
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.691683292388916,
      "learning_rate": 1.4715026900949944e-06,
      "loss": 1.489,
      "step": 87327
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6858608722686768,
      "learning_rate": 1.4704689060530906e-06,
      "loss": 1.5478,
      "step": 87328
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6770957112312317,
      "learning_rate": 1.46943548438202e-06,
      "loss": 1.489,
      "step": 87329
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.679575502872467,
      "learning_rate": 1.4684024250831151e-06,
      "loss": 1.4731,
      "step": 87330
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.672168493270874,
      "learning_rate": 1.4673697281575414e-06,
      "loss": 1.4953,
      "step": 87331
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6657587289810181,
      "learning_rate": 1.4663373936066313e-06,
      "loss": 1.488,
      "step": 87332
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6801841259002686,
      "learning_rate": 1.465305421431584e-06,
      "loss": 1.5305,
      "step": 87333
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.653570294380188,
      "learning_rate": 1.464273811633665e-06,
      "loss": 1.4682,
      "step": 87334
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6984727382659912,
      "learning_rate": 1.46324256421414e-06,
      "loss": 1.4925,
      "step": 87335
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.665594220161438,
      "learning_rate": 1.462211679174241e-06,
      "loss": 1.484,
      "step": 87336
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6759900450706482,
      "learning_rate": 1.4611811565152342e-06,
      "loss": 1.4869,
      "step": 87337
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6825645565986633,
      "learning_rate": 1.4601509962383518e-06,
      "loss": 1.5158,
      "step": 87338
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6762327551841736,
      "learning_rate": 1.4591211983448593e-06,
      "loss": 1.4775,
      "step": 87339
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6641939878463745,
      "learning_rate": 1.4580917628360222e-06,
      "loss": 1.5707,
      "step": 87340
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7003964185714722,
      "learning_rate": 1.4570626897130733e-06,
      "loss": 1.4583,
      "step": 87341
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6851999163627625,
      "learning_rate": 1.4560339789772447e-06,
      "loss": 1.4611,
      "step": 87342
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.669538140296936,
      "learning_rate": 1.455005630629802e-06,
      "loss": 1.495,
      "step": 87343
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6840863227844238,
      "learning_rate": 1.453977644672011e-06,
      "loss": 1.5053,
      "step": 87344
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6580580472946167,
      "learning_rate": 1.4529500211051036e-06,
      "loss": 1.5057,
      "step": 87345
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6741301417350769,
      "learning_rate": 1.451922759930313e-06,
      "loss": 1.4043,
      "step": 87346
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6982560753822327,
      "learning_rate": 1.4508958611489375e-06,
      "loss": 1.4834,
      "step": 87347
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6956080794334412,
      "learning_rate": 1.4498693247621429e-06,
      "loss": 1.5183,
      "step": 87348
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6937564611434937,
      "learning_rate": 1.4488431507712284e-06,
      "loss": 1.5326,
      "step": 87349
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6620211601257324,
      "learning_rate": 1.4478173391774261e-06,
      "loss": 1.4678,
      "step": 87350
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6777768731117249,
      "learning_rate": 1.446791889982002e-06,
      "loss": 1.4895,
      "step": 87351
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6842913627624512,
      "learning_rate": 1.4457668031861547e-06,
      "loss": 1.5555,
      "step": 87352
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6912647485733032,
      "learning_rate": 1.44474207879115e-06,
      "loss": 1.5304,
      "step": 87353
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6894381046295166,
      "learning_rate": 1.4437177167982872e-06,
      "loss": 1.5166,
      "step": 87354
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6975415349006653,
      "learning_rate": 1.4426937172087315e-06,
      "loss": 1.4335,
      "step": 87355
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7337313294410706,
      "learning_rate": 1.441670080023749e-06,
      "loss": 1.4793,
      "step": 87356
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6693992614746094,
      "learning_rate": 1.440646805244572e-06,
      "loss": 1.4796,
      "step": 87357
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6749412417411804,
      "learning_rate": 1.439623892872499e-06,
      "loss": 1.4874,
      "step": 87358
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7171525955200195,
      "learning_rate": 1.4386013429087294e-06,
      "loss": 1.6238,
      "step": 87359
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6619035601615906,
      "learning_rate": 1.4375791553544624e-06,
      "loss": 1.4096,
      "step": 87360
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6884693503379822,
      "learning_rate": 1.43655733021103e-06,
      "loss": 1.4719,
      "step": 87361
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6716993451118469,
      "learning_rate": 1.4355358674796314e-06,
      "loss": 1.4979,
      "step": 87362
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7196081876754761,
      "learning_rate": 1.4345147671614653e-06,
      "loss": 1.6029,
      "step": 87363
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6748123168945312,
      "learning_rate": 1.4334940292577978e-06,
      "loss": 1.4964,
      "step": 87364
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6857595443725586,
      "learning_rate": 1.4324736537699278e-06,
      "loss": 1.4895,
      "step": 87365
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6907819509506226,
      "learning_rate": 1.4314536406989874e-06,
      "loss": 1.5149,
      "step": 87366
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6884194016456604,
      "learning_rate": 1.4304339900463091e-06,
      "loss": 1.4818,
      "step": 87367
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6885385513305664,
      "learning_rate": 1.429414701813092e-06,
      "loss": 1.5597,
      "step": 87368
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6709107160568237,
      "learning_rate": 1.4283957760005682e-06,
      "loss": 1.477,
      "step": 87369
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.741743803024292,
      "learning_rate": 1.427377212609937e-06,
      "loss": 1.5292,
      "step": 87370
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6717562079429626,
      "learning_rate": 1.4263590116425305e-06,
      "loss": 1.4502,
      "step": 87371
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6767217516899109,
      "learning_rate": 1.4253411730995146e-06,
      "loss": 1.4242,
      "step": 87372
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6751519441604614,
      "learning_rate": 1.4243236969821547e-06,
      "loss": 1.5572,
      "step": 87373
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6757698059082031,
      "learning_rate": 1.4233065832916502e-06,
      "loss": 1.5611,
      "step": 87374
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6638075113296509,
      "learning_rate": 1.4222898320292664e-06,
      "loss": 1.4759,
      "step": 87375
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6870229244232178,
      "learning_rate": 1.421273443196236e-06,
      "loss": 1.5506,
      "step": 87376
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6917106509208679,
      "learning_rate": 1.4202574167937574e-06,
      "loss": 1.5472,
      "step": 87377
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6791257262229919,
      "learning_rate": 1.419241752823097e-06,
      "loss": 1.4006,
      "step": 87378
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6845949292182922,
      "learning_rate": 1.4182264512855201e-06,
      "loss": 1.5168,
      "step": 87379
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6734094023704529,
      "learning_rate": 1.4172115121822258e-06,
      "loss": 1.5209,
      "step": 87380
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7082608938217163,
      "learning_rate": 1.41619693551438e-06,
      "loss": 1.4537,
      "step": 87381
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6765347719192505,
      "learning_rate": 1.4151827212833477e-06,
      "loss": 1.4658,
      "step": 87382
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6704187393188477,
      "learning_rate": 1.414168869490262e-06,
      "loss": 1.4679,
      "step": 87383
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7049826979637146,
      "learning_rate": 1.413155380136355e-06,
      "loss": 1.5331,
      "step": 87384
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6790827512741089,
      "learning_rate": 1.4121422532228921e-06,
      "loss": 1.502,
      "step": 87385
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6787917017936707,
      "learning_rate": 1.4111294887511392e-06,
      "loss": 1.5098,
      "step": 87386
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6989442706108093,
      "learning_rate": 1.410117086722229e-06,
      "loss": 1.4842,
      "step": 87387
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6790367960929871,
      "learning_rate": 1.4091050471374599e-06,
      "loss": 1.4818,
      "step": 87388
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6612610220909119,
      "learning_rate": 1.4080933699980645e-06,
      "loss": 1.5129,
      "step": 87389
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6821132302284241,
      "learning_rate": 1.4070820553052087e-06,
      "loss": 1.4622,
      "step": 87390
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6774450540542603,
      "learning_rate": 1.4060711030601913e-06,
      "loss": 1.4682,
      "step": 87391
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6750280857086182,
      "learning_rate": 1.4050605132641778e-06,
      "loss": 1.4866,
      "step": 87392
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.669683039188385,
      "learning_rate": 1.4040502859184344e-06,
      "loss": 1.4878,
      "step": 87393
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6626191139221191,
      "learning_rate": 1.403040421024193e-06,
      "loss": 1.5024,
      "step": 87394
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7207466959953308,
      "learning_rate": 1.4020309185826528e-06,
      "loss": 1.5819,
      "step": 87395
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6887272000312805,
      "learning_rate": 1.4010217785950462e-06,
      "loss": 1.5287,
      "step": 87396
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6943667531013489,
      "learning_rate": 1.4000130010626055e-06,
      "loss": 1.4909,
      "step": 87397
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6976522207260132,
      "learning_rate": 1.3990045859865629e-06,
      "loss": 1.5344,
      "step": 87398
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7090252041816711,
      "learning_rate": 1.3979965333681176e-06,
      "loss": 1.5211,
      "step": 87399
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6651787757873535,
      "learning_rate": 1.3969888432085353e-06,
      "loss": 1.5029,
      "step": 87400
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6781141757965088,
      "learning_rate": 1.3959815155089815e-06,
      "loss": 1.4669,
      "step": 87401
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6558486819267273,
      "learning_rate": 1.394974550270722e-06,
      "loss": 1.5245,
      "step": 87402
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6933647990226746,
      "learning_rate": 1.393967947494956e-06,
      "loss": 1.5146,
      "step": 87403
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6724068522453308,
      "learning_rate": 1.3929617071829159e-06,
      "loss": 1.4682,
      "step": 87404
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6719310283660889,
      "learning_rate": 1.3919558293358335e-06,
      "loss": 1.4927,
      "step": 87405
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6576400399208069,
      "learning_rate": 1.3909503139549083e-06,
      "loss": 1.4975,
      "step": 87406
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6673197150230408,
      "learning_rate": 1.3899451610413725e-06,
      "loss": 1.4671,
      "step": 87407
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7099440693855286,
      "learning_rate": 1.3889403705964586e-06,
      "loss": 1.4983,
      "step": 87408
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6938923001289368,
      "learning_rate": 1.3879359426213654e-06,
      "loss": 1.5399,
      "step": 87409
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.691105842590332,
      "learning_rate": 1.3869318771173254e-06,
      "loss": 1.5742,
      "step": 87410
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.694595456123352,
      "learning_rate": 1.3859281740855377e-06,
      "loss": 1.5071,
      "step": 87411
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6728165149688721,
      "learning_rate": 1.384924833527268e-06,
      "loss": 1.4701,
      "step": 87412
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6744438409805298,
      "learning_rate": 1.3839218554436483e-06,
      "loss": 1.4719,
      "step": 87413
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.683056116104126,
      "learning_rate": 1.3829192398359778e-06,
      "loss": 1.4315,
      "step": 87414
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6731027960777283,
      "learning_rate": 1.3819169867054559e-06,
      "loss": 1.438,
      "step": 87415
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6903102993965149,
      "learning_rate": 1.380915096053281e-06,
      "loss": 1.5229,
      "step": 87416
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6836996674537659,
      "learning_rate": 1.3799135678806528e-06,
      "loss": 1.4982,
      "step": 87417
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7097232937812805,
      "learning_rate": 1.3789124021888364e-06,
      "loss": 1.4711,
      "step": 87418
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6764872670173645,
      "learning_rate": 1.377911598978998e-06,
      "loss": 1.5316,
      "step": 87419
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7060756683349609,
      "learning_rate": 1.3769111582523696e-06,
      "loss": 1.6033,
      "step": 87420
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6883265972137451,
      "learning_rate": 1.3759110800101837e-06,
      "loss": 1.52,
      "step": 87421
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6820216178894043,
      "learning_rate": 1.3749113642536725e-06,
      "loss": 1.5528,
      "step": 87422
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6829790472984314,
      "learning_rate": 1.3739120109839686e-06,
      "loss": 1.5049,
      "step": 87423
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6957043409347534,
      "learning_rate": 1.3729130202023708e-06,
      "loss": 1.5311,
      "step": 87424
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6808146834373474,
      "learning_rate": 1.371914391910045e-06,
      "loss": 1.5513,
      "step": 87425
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6527398824691772,
      "learning_rate": 1.3709161261082236e-06,
      "loss": 1.487,
      "step": 87426
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6901044249534607,
      "learning_rate": 1.3699182227980721e-06,
      "loss": 1.5099,
      "step": 87427
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6861913800239563,
      "learning_rate": 1.3689206819808562e-06,
      "loss": 1.4928,
      "step": 87428
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7022226452827454,
      "learning_rate": 1.3679235036578084e-06,
      "loss": 1.5155,
      "step": 87429
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6668458580970764,
      "learning_rate": 1.366926687830061e-06,
      "loss": 1.5646,
      "step": 87430
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6563208699226379,
      "learning_rate": 1.3659302344988466e-06,
      "loss": 1.5328,
      "step": 87431
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6929353475570679,
      "learning_rate": 1.3649341436654305e-06,
      "loss": 1.5588,
      "step": 87432
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6793243288993835,
      "learning_rate": 1.3639384153309784e-06,
      "loss": 1.4951,
      "step": 87433
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6877357959747314,
      "learning_rate": 1.3629430494966898e-06,
      "loss": 1.5424,
      "step": 87434
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7001596093177795,
      "learning_rate": 1.3619480461637633e-06,
      "loss": 1.5477,
      "step": 87435
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6693823337554932,
      "learning_rate": 1.3609534053334648e-06,
      "loss": 1.516,
      "step": 87436
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6827170252799988,
      "learning_rate": 1.3599591270069598e-06,
      "loss": 1.5708,
      "step": 87437
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6647294163703918,
      "learning_rate": 1.3589652111854476e-06,
      "loss": 1.4869,
      "step": 87438
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6791563630104065,
      "learning_rate": 1.3579716578701605e-06,
      "loss": 1.4955,
      "step": 87439
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6654945611953735,
      "learning_rate": 1.3569784670622974e-06,
      "loss": 1.4174,
      "step": 87440
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6762193441390991,
      "learning_rate": 1.3559856387630575e-06,
      "loss": 1.4892,
      "step": 87441
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7348911166191101,
      "learning_rate": 1.3549931729736395e-06,
      "loss": 1.5448,
      "step": 87442
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6893748641014099,
      "learning_rate": 1.3540010696952762e-06,
      "loss": 1.5372,
      "step": 87443
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6587777137756348,
      "learning_rate": 1.3530093289291333e-06,
      "loss": 1.4664,
      "step": 87444
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6715731024742126,
      "learning_rate": 1.3520179506764429e-06,
      "loss": 1.5965,
      "step": 87445
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6683960556983948,
      "learning_rate": 1.3510269349383706e-06,
      "loss": 1.545,
      "step": 87446
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6902244687080383,
      "learning_rate": 1.3500362817161824e-06,
      "loss": 1.4774,
      "step": 87447
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6815373301506042,
      "learning_rate": 1.349045991011044e-06,
      "loss": 1.5129,
      "step": 87448
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6708760261535645,
      "learning_rate": 1.3480560628241543e-06,
      "loss": 1.5067,
      "step": 87449
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6995517015457153,
      "learning_rate": 1.3470664971567124e-06,
      "loss": 1.5122,
      "step": 87450
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7069898843765259,
      "learning_rate": 1.3460772940099174e-06,
      "loss": 1.5519,
      "step": 87451
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.672668993473053,
      "learning_rate": 1.3450884533850014e-06,
      "loss": 1.5162,
      "step": 87452
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6805513501167297,
      "learning_rate": 1.3440999752831305e-06,
      "loss": 1.4984,
      "step": 87453
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7080418467521667,
      "learning_rate": 1.3431118597055368e-06,
      "loss": 1.5419,
      "step": 87454
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6789701581001282,
      "learning_rate": 1.3421241066533862e-06,
      "loss": 1.5815,
      "step": 87455
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7131537199020386,
      "learning_rate": 1.3411367161278774e-06,
      "loss": 1.5967,
      "step": 87456
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6740894913673401,
      "learning_rate": 1.340149688130243e-06,
      "loss": 1.5099,
      "step": 87457
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6870967745780945,
      "learning_rate": 1.339163022661649e-06,
      "loss": 1.5327,
      "step": 87458
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6816690564155579,
      "learning_rate": 1.3381767197233273e-06,
      "loss": 1.563,
      "step": 87459
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.674435019493103,
      "learning_rate": 1.3371907793164439e-06,
      "loss": 1.5506,
      "step": 87460
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6960514783859253,
      "learning_rate": 1.3362052014421975e-06,
      "loss": 1.4807,
      "step": 87461
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6802148222923279,
      "learning_rate": 1.3352199861017875e-06,
      "loss": 1.5412,
      "step": 87462
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6787473559379578,
      "learning_rate": 1.334235133296413e-06,
      "loss": 1.5025,
      "step": 87463
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6659344434738159,
      "learning_rate": 1.333250643027306e-06,
      "loss": 1.5098,
      "step": 87464
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6904212832450867,
      "learning_rate": 1.332266515295566e-06,
      "loss": 1.5297,
      "step": 87465
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6685987114906311,
      "learning_rate": 1.3312827501024914e-06,
      "loss": 1.5029,
      "step": 87466
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6584978699684143,
      "learning_rate": 1.330299347449215e-06,
      "loss": 1.4986,
      "step": 87467
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6785745620727539,
      "learning_rate": 1.3293163073369695e-06,
      "loss": 1.5675,
      "step": 87468
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6916306018829346,
      "learning_rate": 1.3283336297669201e-06,
      "loss": 1.5134,
      "step": 87469
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6530951261520386,
      "learning_rate": 1.327351314740266e-06,
      "loss": 1.543,
      "step": 87470
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7080379724502563,
      "learning_rate": 1.3263693622581728e-06,
      "loss": 1.5182,
      "step": 87471
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7488685846328735,
      "learning_rate": 1.3253877723219064e-06,
      "loss": 1.55,
      "step": 87472
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6710438132286072,
      "learning_rate": 1.324406544932566e-06,
      "loss": 1.4648,
      "step": 87473
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6610029935836792,
      "learning_rate": 1.3234256800914168e-06,
      "loss": 1.4293,
      "step": 87474
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6964557766914368,
      "learning_rate": 1.3224451777995914e-06,
      "loss": 1.5595,
      "step": 87475
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6597626805305481,
      "learning_rate": 1.321465038058356e-06,
      "loss": 1.4773,
      "step": 87476
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6689311265945435,
      "learning_rate": 1.3204852608688089e-06,
      "loss": 1.5166,
      "step": 87477
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6933367848396301,
      "learning_rate": 1.319505846232216e-06,
      "loss": 1.4565,
      "step": 87478
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6911945939064026,
      "learning_rate": 1.3185267941497103e-06,
      "loss": 1.4959,
      "step": 87479
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6757552623748779,
      "learning_rate": 1.3175481046225234e-06,
      "loss": 1.4843,
      "step": 87480
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6820867657661438,
      "learning_rate": 1.3165697776518213e-06,
      "loss": 1.4786,
      "step": 87481
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6699832677841187,
      "learning_rate": 1.3155918132388032e-06,
      "loss": 1.5106,
      "step": 87482
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6997045278549194,
      "learning_rate": 1.3146142113846015e-06,
      "loss": 1.5532,
      "step": 87483
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6554226875305176,
      "learning_rate": 1.3136369720904816e-06,
      "loss": 1.4929,
      "step": 87484
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6615633368492126,
      "learning_rate": 1.3126600953576094e-06,
      "loss": 1.4709,
      "step": 87485
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6648247241973877,
      "learning_rate": 1.3116835811871506e-06,
      "loss": 1.4842,
      "step": 87486
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6769009232521057,
      "learning_rate": 1.3107074295803043e-06,
      "loss": 1.4657,
      "step": 87487
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7085409164428711,
      "learning_rate": 1.309731640538203e-06,
      "loss": 1.5102,
      "step": 87488
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6902827620506287,
      "learning_rate": 1.3087562140621454e-06,
      "loss": 1.5234,
      "step": 87489
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6572341322898865,
      "learning_rate": 1.3077811501531976e-06,
      "loss": 1.4882,
      "step": 87490
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.673247218132019,
      "learning_rate": 1.306806448812625e-06,
      "loss": 1.4267,
      "step": 87491
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6790399551391602,
      "learning_rate": 1.3058321100415604e-06,
      "loss": 1.5066,
      "step": 87492
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.67644202709198,
      "learning_rate": 1.3048581338412022e-06,
      "loss": 1.5335,
      "step": 87493
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6645225882530212,
      "learning_rate": 1.3038845202127502e-06,
      "loss": 1.5023,
      "step": 87494
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6921701431274414,
      "learning_rate": 1.3029112691573696e-06,
      "loss": 1.4562,
      "step": 87495
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6842980980873108,
      "learning_rate": 1.3019383806762263e-06,
      "loss": 1.4943,
      "step": 87496
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6770138144493103,
      "learning_rate": 1.3009658547705526e-06,
      "loss": 1.4994,
      "step": 87497
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6896334886550903,
      "learning_rate": 1.2999936914414477e-06,
      "loss": 1.4956,
      "step": 87498
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6609386801719666,
      "learning_rate": 1.2990218906901772e-06,
      "loss": 1.5159,
      "step": 87499
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6965006589889526,
      "learning_rate": 1.2980504525178736e-06,
      "loss": 1.5117,
      "step": 87500
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6789124011993408,
      "learning_rate": 1.2970793769257026e-06,
      "loss": 1.4876,
      "step": 87501
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6905393004417419,
      "learning_rate": 1.2961086639148965e-06,
      "loss": 1.5262,
      "step": 87502
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6436160206794739,
      "learning_rate": 1.2951383134865879e-06,
      "loss": 1.5042,
      "step": 87503
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6752114295959473,
      "learning_rate": 1.2941683256419754e-06,
      "loss": 1.4865,
      "step": 87504
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6582273840904236,
      "learning_rate": 1.2931987003822252e-06,
      "loss": 1.4986,
      "step": 87505
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.711763858795166,
      "learning_rate": 1.2922294377085363e-06,
      "loss": 1.5655,
      "step": 87506
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.670893669128418,
      "learning_rate": 1.2912605376220408e-06,
      "loss": 1.4982,
      "step": 87507
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6739212870597839,
      "learning_rate": 1.2902920001239715e-06,
      "loss": 1.4993,
      "step": 87508
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6878644824028015,
      "learning_rate": 1.2893238252154602e-06,
      "loss": 1.5614,
      "step": 87509
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6897857189178467,
      "learning_rate": 1.2883560128976734e-06,
      "loss": 1.5488,
      "step": 87510
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6690644025802612,
      "learning_rate": 1.2873885631718427e-06,
      "loss": 1.4858,
      "step": 87511
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6763740181922913,
      "learning_rate": 1.2864214760391012e-06,
      "loss": 1.542,
      "step": 87512
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6738746762275696,
      "learning_rate": 1.2854547515006141e-06,
      "loss": 1.4903,
      "step": 87513
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6952757835388184,
      "learning_rate": 1.2844883895575809e-06,
      "loss": 1.5015,
      "step": 87514
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6717049479484558,
      "learning_rate": 1.2835223902111668e-06,
      "loss": 1.528,
      "step": 87515
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6891027688980103,
      "learning_rate": 1.2825567534625714e-06,
      "loss": 1.5663,
      "step": 87516
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6844024658203125,
      "learning_rate": 1.2815914793128934e-06,
      "loss": 1.4903,
      "step": 87517
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6540818810462952,
      "learning_rate": 1.2806265677633653e-06,
      "loss": 1.5259,
      "step": 87518
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7039976716041565,
      "learning_rate": 1.279662018815153e-06,
      "loss": 1.5156,
      "step": 87519
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6602516174316406,
      "learning_rate": 1.2786978324693887e-06,
      "loss": 1.5303,
      "step": 87520
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6717047095298767,
      "learning_rate": 1.2777340087273046e-06,
      "loss": 1.5981,
      "step": 87521
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7108010649681091,
      "learning_rate": 1.2767705475900004e-06,
      "loss": 1.5009,
      "step": 87522
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6826618909835815,
      "learning_rate": 1.2758074490587078e-06,
      "loss": 1.5334,
      "step": 87523
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7016064524650574,
      "learning_rate": 1.2748447131345596e-06,
      "loss": 1.489,
      "step": 87524
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6764993667602539,
      "learning_rate": 1.2738823398187547e-06,
      "loss": 1.4831,
      "step": 87525
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6925511360168457,
      "learning_rate": 1.2729203291124257e-06,
      "loss": 1.5798,
      "step": 87526
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6895065903663635,
      "learning_rate": 1.2719586810167715e-06,
      "loss": 1.5329,
      "step": 87527
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.673782229423523,
      "learning_rate": 1.2709973955329245e-06,
      "loss": 1.4887,
      "step": 87528
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6710909008979797,
      "learning_rate": 1.2700364726620838e-06,
      "loss": 1.6123,
      "step": 87529
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6985907554626465,
      "learning_rate": 1.2690759124053818e-06,
      "loss": 1.5351,
      "step": 87530
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6666292548179626,
      "learning_rate": 1.2681157147640176e-06,
      "loss": 1.4311,
      "step": 87531
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6560449004173279,
      "learning_rate": 1.2671558797391568e-06,
      "loss": 1.4709,
      "step": 87532
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6913232207298279,
      "learning_rate": 1.266196407331932e-06,
      "loss": 1.6601,
      "step": 87533
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6654680967330933,
      "learning_rate": 1.2652372975435422e-06,
      "loss": 1.5338,
      "step": 87534
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6666181087493896,
      "learning_rate": 1.2642785503751528e-06,
      "loss": 1.5046,
      "step": 87535
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6614971160888672,
      "learning_rate": 1.2633201658278968e-06,
      "loss": 1.4786,
      "step": 87536
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6720417141914368,
      "learning_rate": 1.2623621439029396e-06,
      "loss": 1.4817,
      "step": 87537
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.670669674873352,
      "learning_rate": 1.261404484601447e-06,
      "loss": 1.4407,
      "step": 87538
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6725018620491028,
      "learning_rate": 1.2604471879246514e-06,
      "loss": 1.4704,
      "step": 87539
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6708261370658875,
      "learning_rate": 1.2594902538736184e-06,
      "loss": 1.5039,
      "step": 87540
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.677115797996521,
      "learning_rate": 1.258533682449514e-06,
      "loss": 1.4713,
      "step": 87541
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6619337797164917,
      "learning_rate": 1.2575774736535704e-06,
      "loss": 1.5447,
      "step": 87542
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6892452239990234,
      "learning_rate": 1.25662162748692e-06,
      "loss": 1.5009,
      "step": 87543
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.699785590171814,
      "learning_rate": 1.2556661439506954e-06,
      "loss": 1.4877,
      "step": 87544
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6675786375999451,
      "learning_rate": 1.2547110230460622e-06,
      "loss": 1.4629,
      "step": 87545
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6803238391876221,
      "learning_rate": 1.2537562647742194e-06,
      "loss": 1.4936,
      "step": 87546
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7009575963020325,
      "learning_rate": 1.2528018691362995e-06,
      "loss": 1.5387,
      "step": 87547
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6895303726196289,
      "learning_rate": 1.251847836133435e-06,
      "loss": 1.562,
      "step": 87548
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.666704535484314,
      "learning_rate": 1.2508941657668247e-06,
      "loss": 1.4524,
      "step": 87549
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6738350987434387,
      "learning_rate": 1.2499408580376014e-06,
      "loss": 1.5201,
      "step": 87550
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6863330006599426,
      "learning_rate": 1.2489879129469305e-06,
      "loss": 1.4368,
      "step": 87551
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6919500827789307,
      "learning_rate": 1.2480353304959778e-06,
      "loss": 1.491,
      "step": 87552
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6728625893592834,
      "learning_rate": 1.247083110685909e-06,
      "loss": 1.4454,
      "step": 87553
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6897813677787781,
      "learning_rate": 1.2461312535178236e-06,
      "loss": 1.5528,
      "step": 87554
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6782670021057129,
      "learning_rate": 1.2451797589929202e-06,
      "loss": 1.5673,
      "step": 87555
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6835645437240601,
      "learning_rate": 1.2442286271123647e-06,
      "loss": 1.4736,
      "step": 87556
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7069180011749268,
      "learning_rate": 1.2432778578772894e-06,
      "loss": 1.5155,
      "step": 87557
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6945164799690247,
      "learning_rate": 1.2423274512888604e-06,
      "loss": 1.5895,
      "step": 87558
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6837236285209656,
      "learning_rate": 1.241377407348243e-06,
      "loss": 1.4919,
      "step": 87559
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6887343525886536,
      "learning_rate": 1.2404277260565365e-06,
      "loss": 1.5186,
      "step": 87560
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6675949096679688,
      "learning_rate": 1.23947840741494e-06,
      "loss": 1.4711,
      "step": 87561
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6674408316612244,
      "learning_rate": 1.2385294514246192e-06,
      "loss": 1.4805,
      "step": 87562
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6936337351799011,
      "learning_rate": 1.2375808580866731e-06,
      "loss": 1.4623,
      "step": 87563
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6828427314758301,
      "learning_rate": 1.2366326274023341e-06,
      "loss": 1.4763,
      "step": 87564
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6793700456619263,
      "learning_rate": 1.235684759372635e-06,
      "loss": 1.5208,
      "step": 87565
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6837884187698364,
      "learning_rate": 1.2347372539988409e-06,
      "loss": 1.4501,
      "step": 87566
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6898537278175354,
      "learning_rate": 1.2337901112820513e-06,
      "loss": 1.5745,
      "step": 87567
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6689491271972656,
      "learning_rate": 1.2328433312233988e-06,
      "loss": 1.5296,
      "step": 87568
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6856669783592224,
      "learning_rate": 1.2318969138240819e-06,
      "loss": 1.4978,
      "step": 87569
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6940589547157288,
      "learning_rate": 1.230950859085167e-06,
      "loss": 1.4988,
      "step": 87570
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6972978711128235,
      "learning_rate": 1.2300051670079192e-06,
      "loss": 1.5241,
      "step": 87571
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6903789639472961,
      "learning_rate": 1.2290598375933713e-06,
      "loss": 1.5451,
      "step": 87572
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6839735507965088,
      "learning_rate": 1.2281148708427557e-06,
      "loss": 1.4849,
      "step": 87573
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6727554202079773,
      "learning_rate": 1.2271702667571714e-06,
      "loss": 1.4762,
      "step": 87574
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6625731587409973,
      "learning_rate": 1.2262260253377843e-06,
      "loss": 1.5113,
      "step": 87575
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6880764961242676,
      "learning_rate": 1.2252821465857599e-06,
      "loss": 1.4237,
      "step": 87576
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6696423888206482,
      "learning_rate": 1.2243386305021974e-06,
      "loss": 1.5135,
      "step": 87577
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6767987608909607,
      "learning_rate": 1.2233954770882625e-06,
      "loss": 1.5496,
      "step": 87578
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7095056772232056,
      "learning_rate": 1.222452686345121e-06,
      "loss": 1.6109,
      "step": 87579
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6916396021842957,
      "learning_rate": 1.2215102582738722e-06,
      "loss": 1.5468,
      "step": 87580
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6916624903678894,
      "learning_rate": 1.2205681928756815e-06,
      "loss": 1.4492,
      "step": 87581
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6901516914367676,
      "learning_rate": 1.219626490151715e-06,
      "loss": 1.565,
      "step": 87582
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6858786344528198,
      "learning_rate": 1.2186851501031047e-06,
      "loss": 1.5204,
      "step": 87583
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7023443579673767,
      "learning_rate": 1.2177441727309834e-06,
      "loss": 1.4658,
      "step": 87584
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6717896461486816,
      "learning_rate": 1.2168035580365166e-06,
      "loss": 1.56,
      "step": 87585
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6728703379631042,
      "learning_rate": 1.2158633060208033e-06,
      "loss": 1.538,
      "step": 87586
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6627814769744873,
      "learning_rate": 1.2149234166850098e-06,
      "loss": 1.5306,
      "step": 87587
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6946700811386108,
      "learning_rate": 1.2139838900302678e-06,
      "loss": 1.5339,
      "step": 87588
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6848306655883789,
      "learning_rate": 1.2130447260577436e-06,
      "loss": 1.4833,
      "step": 87589
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6883185505867004,
      "learning_rate": 1.212105924768536e-06,
      "loss": 1.5684,
      "step": 87590
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.699930727481842,
      "learning_rate": 1.211167486163811e-06,
      "loss": 1.4881,
      "step": 87591
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6657921075820923,
      "learning_rate": 1.2102294102447341e-06,
      "loss": 1.4864,
      "step": 87592
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6784409284591675,
      "learning_rate": 1.2092916970124044e-06,
      "loss": 1.5229,
      "step": 87593
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6804962158203125,
      "learning_rate": 1.2083543464679545e-06,
      "loss": 1.4834,
      "step": 87594
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7015191912651062,
      "learning_rate": 1.2074173586125502e-06,
      "loss": 1.5563,
      "step": 87595
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6764481663703918,
      "learning_rate": 1.2064807334473237e-06,
      "loss": 1.4849,
      "step": 87596
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.687926173210144,
      "learning_rate": 1.2055444709733742e-06,
      "loss": 1.4517,
      "step": 87597
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.665336549282074,
      "learning_rate": 1.2046085711918673e-06,
      "loss": 1.4843,
      "step": 87598
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7040499448776245,
      "learning_rate": 1.203673034103969e-06,
      "loss": 1.5668,
      "step": 87599
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.678477942943573,
      "learning_rate": 1.2027378597107783e-06,
      "loss": 1.4878,
      "step": 87600
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6709461212158203,
      "learning_rate": 1.2018030480134277e-06,
      "loss": 1.4782,
      "step": 87601
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7006330490112305,
      "learning_rate": 1.2008685990130828e-06,
      "loss": 1.5373,
      "step": 87602
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7005158066749573,
      "learning_rate": 1.199934512710843e-06,
      "loss": 1.4978,
      "step": 87603
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6659427285194397,
      "learning_rate": 1.19900078910784e-06,
      "loss": 1.483,
      "step": 87604
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6924142837524414,
      "learning_rate": 1.1980674282052406e-06,
      "loss": 1.5946,
      "step": 87605
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6860653758049011,
      "learning_rate": 1.1971344300041764e-06,
      "loss": 1.4825,
      "step": 87606
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.7129206657409668,
      "learning_rate": 1.1962017945057467e-06,
      "loss": 1.4487,
      "step": 87607
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6713625192642212,
      "learning_rate": 1.195269521711084e-06,
      "loss": 1.5275,
      "step": 87608
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6928329467773438,
      "learning_rate": 1.1943376116213543e-06,
      "loss": 1.5476,
      "step": 87609
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.665353536605835,
      "learning_rate": 1.1934060642376898e-06,
      "loss": 1.4814,
      "step": 87610
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6766303777694702,
      "learning_rate": 1.1924748795611895e-06,
      "loss": 1.5311,
      "step": 87611
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6793427467346191,
      "learning_rate": 1.1915440575929857e-06,
      "loss": 1.5433,
      "step": 87612
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6979674100875854,
      "learning_rate": 1.1906135983342446e-06,
      "loss": 1.5652,
      "step": 87613
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6676744818687439,
      "learning_rate": 1.189683501786065e-06,
      "loss": 1.525,
      "step": 87614
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6829301118850708,
      "learning_rate": 1.1887537679495462e-06,
      "loss": 1.514,
      "step": 87615
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6797953844070435,
      "learning_rate": 1.187824396825887e-06,
      "loss": 1.4733,
      "step": 87616
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.665157675743103,
      "learning_rate": 1.186895388416187e-06,
      "loss": 1.4552,
      "step": 87617
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6805316209793091,
      "learning_rate": 1.1859667427215446e-06,
      "loss": 1.5136,
      "step": 87618
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6771791577339172,
      "learning_rate": 1.185038459743126e-06,
      "loss": 1.5478,
      "step": 87619
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6588562726974487,
      "learning_rate": 1.1841105394820306e-06,
      "loss": 1.4383,
      "step": 87620
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6540637612342834,
      "learning_rate": 1.1831829819394234e-06,
      "loss": 1.4875,
      "step": 87621
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6668072938919067,
      "learning_rate": 1.1822557871163708e-06,
      "loss": 1.4936,
      "step": 87622
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6936173439025879,
      "learning_rate": 1.1813289550140382e-06,
      "loss": 1.5681,
      "step": 87623
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7026902437210083,
      "learning_rate": 1.1804024856335582e-06,
      "loss": 1.4659,
      "step": 87624
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7032675743103027,
      "learning_rate": 1.1794763789760297e-06,
      "loss": 1.5101,
      "step": 87625
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6863024234771729,
      "learning_rate": 1.1785506350425854e-06,
      "loss": 1.4361,
      "step": 87626
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6709786057472229,
      "learning_rate": 1.1776252538343577e-06,
      "loss": 1.4892,
      "step": 87627
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6886683106422424,
      "learning_rate": 1.1767002353524458e-06,
      "loss": 1.486,
      "step": 87628
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6880992650985718,
      "learning_rate": 1.175775579598015e-06,
      "loss": 1.5241,
      "step": 87629
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6995618343353271,
      "learning_rate": 1.174851286572165e-06,
      "loss": 1.461,
      "step": 87630
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6602887511253357,
      "learning_rate": 1.1739273562759943e-06,
      "loss": 1.5066,
      "step": 87631
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6581195592880249,
      "learning_rate": 1.1730037887106691e-06,
      "loss": 1.4681,
      "step": 87632
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6898699998855591,
      "learning_rate": 1.172080583877255e-06,
      "loss": 1.5602,
      "step": 87633
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6632052659988403,
      "learning_rate": 1.171157741776918e-06,
      "loss": 1.4021,
      "step": 87634
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6701793670654297,
      "learning_rate": 1.1702352624107903e-06,
      "loss": 1.5631,
      "step": 87635
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.69013512134552,
      "learning_rate": 1.1693131457799377e-06,
      "loss": 1.5762,
      "step": 87636
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6665756106376648,
      "learning_rate": 1.1683913918855258e-06,
      "loss": 1.4561,
      "step": 87637
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6767873764038086,
      "learning_rate": 1.1674700007286542e-06,
      "loss": 1.494,
      "step": 87638
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.679268479347229,
      "learning_rate": 1.1665489723104216e-06,
      "loss": 1.4927,
      "step": 87639
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.662277102470398,
      "learning_rate": 1.1656283066319938e-06,
      "loss": 1.467,
      "step": 87640
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6818937659263611,
      "learning_rate": 1.1647080036944367e-06,
      "loss": 1.366,
      "step": 87641
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6822014451026917,
      "learning_rate": 1.1637880634989162e-06,
      "loss": 1.5313,
      "step": 87642
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6905790567398071,
      "learning_rate": 1.1628684860465309e-06,
      "loss": 1.593,
      "step": 87643
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6765960454940796,
      "learning_rate": 1.161949271338347e-06,
      "loss": 1.4781,
      "step": 87644
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6968817710876465,
      "learning_rate": 1.1610304193755637e-06,
      "loss": 1.5187,
      "step": 87645
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6683619618415833,
      "learning_rate": 1.1601119301592466e-06,
      "loss": 1.4848,
      "step": 87646
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6845300197601318,
      "learning_rate": 1.1591938036905279e-06,
      "loss": 1.5192,
      "step": 87647
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6532485485076904,
      "learning_rate": 1.158276039970507e-06,
      "loss": 1.4945,
      "step": 87648
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.682479739189148,
      "learning_rate": 1.1573586390003165e-06,
      "loss": 1.5776,
      "step": 87649
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6741408109664917,
      "learning_rate": 1.156441600781055e-06,
      "loss": 1.612,
      "step": 87650
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6569913029670715,
      "learning_rate": 1.1555249253138222e-06,
      "loss": 1.5081,
      "step": 87651
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7062569260597229,
      "learning_rate": 1.1546086125997832e-06,
      "loss": 1.5347,
      "step": 87652
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.688285768032074,
      "learning_rate": 1.1536926626400045e-06,
      "loss": 1.4963,
      "step": 87653
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6833922863006592,
      "learning_rate": 1.152777075435618e-06,
      "loss": 1.515,
      "step": 87654
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6665267944335938,
      "learning_rate": 1.1518618509876898e-06,
      "loss": 1.4963,
      "step": 87655
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6861574053764343,
      "learning_rate": 1.1509469892974188e-06,
      "loss": 1.518,
      "step": 87656
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6756094098091125,
      "learning_rate": 1.1500324903658375e-06,
      "loss": 1.4409,
      "step": 87657
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6820207238197327,
      "learning_rate": 1.1491183541940786e-06,
      "loss": 1.5387,
      "step": 87658
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6792637705802917,
      "learning_rate": 1.148204580783274e-06,
      "loss": 1.5193,
      "step": 87659
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6990634799003601,
      "learning_rate": 1.14729117013449e-06,
      "loss": 1.473,
      "step": 87660
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6921194791793823,
      "learning_rate": 1.1463781222488922e-06,
      "loss": 1.5417,
      "step": 87661
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6617181301116943,
      "learning_rate": 1.145465437127513e-06,
      "loss": 1.4926,
      "step": 87662
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6935228109359741,
      "learning_rate": 1.1445531147715515e-06,
      "loss": 1.5655,
      "step": 87663
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.659414529800415,
      "learning_rate": 1.1436411551820401e-06,
      "loss": 1.5268,
      "step": 87664
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6757478713989258,
      "learning_rate": 1.1427295583601448e-06,
      "loss": 1.5548,
      "step": 87665
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6755327582359314,
      "learning_rate": 1.1418183243068978e-06,
      "loss": 1.5036,
      "step": 87666
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6601884365081787,
      "learning_rate": 1.1409074530234986e-06,
      "loss": 1.5005,
      "step": 87667
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6797411441802979,
      "learning_rate": 1.1399969445109458e-06,
      "loss": 1.4486,
      "step": 87668
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6725058555603027,
      "learning_rate": 1.139086798770439e-06,
      "loss": 1.5017,
      "step": 87669
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6661667227745056,
      "learning_rate": 1.1381770158030435e-06,
      "loss": 1.5386,
      "step": 87670
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6766189336776733,
      "learning_rate": 1.1372675956098586e-06,
      "loss": 1.5125,
      "step": 87671
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6733952760696411,
      "learning_rate": 1.1363585381919838e-06,
      "loss": 1.4712,
      "step": 87672
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6614671349525452,
      "learning_rate": 1.1354498435505511e-06,
      "loss": 1.4159,
      "step": 87673
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6750393509864807,
      "learning_rate": 1.1345415116866596e-06,
      "loss": 1.437,
      "step": 87674
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6753093600273132,
      "learning_rate": 1.1336335426013753e-06,
      "loss": 1.5025,
      "step": 87675
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6760549545288086,
      "learning_rate": 1.1327259362958307e-06,
      "loss": 1.4704,
      "step": 87676
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7215293049812317,
      "learning_rate": 1.1318186927711248e-06,
      "loss": 1.4695,
      "step": 87677
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6926630139350891,
      "learning_rate": 1.1309118120283567e-06,
      "loss": 1.5062,
      "step": 87678
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.665593683719635,
      "learning_rate": 1.1300052940685922e-06,
      "loss": 1.4175,
      "step": 87679
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6690056324005127,
      "learning_rate": 1.1290991388929972e-06,
      "loss": 1.4757,
      "step": 87680
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6815863251686096,
      "learning_rate": 1.1281933465026705e-06,
      "loss": 1.5562,
      "step": 87681
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7117254137992859,
      "learning_rate": 1.1272879168986115e-06,
      "loss": 1.5578,
      "step": 87682
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.665214478969574,
      "learning_rate": 1.1263828500820527e-06,
      "loss": 1.4968,
      "step": 87683
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.679972231388092,
      "learning_rate": 1.125478146053993e-06,
      "loss": 1.5207,
      "step": 87684
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6971885561943054,
      "learning_rate": 1.124573804815565e-06,
      "loss": 1.5508,
      "step": 87685
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.665167510509491,
      "learning_rate": 1.1236698263678678e-06,
      "loss": 1.4849,
      "step": 87686
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6972225308418274,
      "learning_rate": 1.1227662107120005e-06,
      "loss": 1.475,
      "step": 87687
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6686612367630005,
      "learning_rate": 1.1218629578490624e-06,
      "loss": 1.5345,
      "step": 87688
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6904415488243103,
      "learning_rate": 1.1209600677801189e-06,
      "loss": 1.4474,
      "step": 87689
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6669853925704956,
      "learning_rate": 1.1200575405063362e-06,
      "loss": 1.4645,
      "step": 87690
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6766913533210754,
      "learning_rate": 1.1191553760287463e-06,
      "loss": 1.5242,
      "step": 87691
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6608622670173645,
      "learning_rate": 1.118253574348449e-06,
      "loss": 1.464,
      "step": 87692
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7114815711975098,
      "learning_rate": 1.117352135466576e-06,
      "loss": 1.4876,
      "step": 87693
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6776806712150574,
      "learning_rate": 1.1164510593841934e-06,
      "loss": 1.4969,
      "step": 87694
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6799647212028503,
      "learning_rate": 1.1155503461024006e-06,
      "loss": 1.5336,
      "step": 87695
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7145230174064636,
      "learning_rate": 1.1146499956222966e-06,
      "loss": 1.5857,
      "step": 87696
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.686896562576294,
      "learning_rate": 1.1137500079449468e-06,
      "loss": 1.4975,
      "step": 87697
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7055712342262268,
      "learning_rate": 1.1128503830714842e-06,
      "loss": 1.5496,
      "step": 87698
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6788102984428406,
      "learning_rate": 1.111951121002974e-06,
      "loss": 1.4951,
      "step": 87699
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6522451639175415,
      "learning_rate": 1.111052221740516e-06,
      "loss": 1.5778,
      "step": 87700
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.676256537437439,
      "learning_rate": 1.1101536852851757e-06,
      "loss": 1.5526,
      "step": 87701
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6764090657234192,
      "learning_rate": 1.1092555116381186e-06,
      "loss": 1.5371,
      "step": 87702
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6560608148574829,
      "learning_rate": 1.1083577008003774e-06,
      "loss": 1.5693,
      "step": 87703
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6695888638496399,
      "learning_rate": 1.1074602527730182e-06,
      "loss": 1.4008,
      "step": 87704
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6711361408233643,
      "learning_rate": 1.1065631675572063e-06,
      "loss": 1.5044,
      "step": 87705
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6886718273162842,
      "learning_rate": 1.105666445153941e-06,
      "loss": 1.5339,
      "step": 87706
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6533063650131226,
      "learning_rate": 1.1047700855643882e-06,
      "loss": 1.458,
      "step": 87707
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.685958206653595,
      "learning_rate": 1.1038740887895803e-06,
      "loss": 1.4303,
      "step": 87708
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6980161666870117,
      "learning_rate": 1.1029784548306497e-06,
      "loss": 1.5596,
      "step": 87709
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6682846546173096,
      "learning_rate": 1.1020831836886622e-06,
      "loss": 1.4985,
      "step": 87710
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6869097948074341,
      "learning_rate": 1.101188275364684e-06,
      "loss": 1.5066,
      "step": 87711
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6527935266494751,
      "learning_rate": 1.100293729859847e-06,
      "loss": 1.4729,
      "step": 87712
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6962032318115234,
      "learning_rate": 1.099399547175217e-06,
      "loss": 1.5456,
      "step": 87713
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6805844902992249,
      "learning_rate": 1.0985057273118602e-06,
      "loss": 1.5233,
      "step": 87714
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6964936852455139,
      "learning_rate": 1.0976122702708755e-06,
      "loss": 1.5709,
      "step": 87715
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6723617911338806,
      "learning_rate": 1.0967191760533621e-06,
      "loss": 1.5653,
      "step": 87716
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6858431100845337,
      "learning_rate": 1.0958264446603526e-06,
      "loss": 1.5053,
      "step": 87717
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7123207449913025,
      "learning_rate": 1.0949340760930125e-06,
      "loss": 1.5612,
      "step": 87718
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6890566945075989,
      "learning_rate": 1.094042070352341e-06,
      "loss": 1.3961,
      "step": 87719
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6917081475257874,
      "learning_rate": 1.0931504274395043e-06,
      "loss": 1.5184,
      "step": 87720
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6528317332267761,
      "learning_rate": 1.0922591473555008e-06,
      "loss": 1.5381,
      "step": 87721
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6873552203178406,
      "learning_rate": 1.0913682301014637e-06,
      "loss": 1.4981,
      "step": 87722
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6732121109962463,
      "learning_rate": 1.0904776756784916e-06,
      "loss": 1.4575,
      "step": 87723
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6817735433578491,
      "learning_rate": 1.0895874840876173e-06,
      "loss": 1.4315,
      "step": 87724
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6727468371391296,
      "learning_rate": 1.0886976553299398e-06,
      "loss": 1.5762,
      "step": 87725
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6812843680381775,
      "learning_rate": 1.0878081894065582e-06,
      "loss": 1.5193,
      "step": 87726
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6824484467506409,
      "learning_rate": 1.086919086318505e-06,
      "loss": 1.5266,
      "step": 87727
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6801028251647949,
      "learning_rate": 1.0860303460669129e-06,
      "loss": 1.4918,
      "step": 87728
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6802302002906799,
      "learning_rate": 1.085141968652814e-06,
      "loss": 1.4619,
      "step": 87729
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6564432978630066,
      "learning_rate": 1.0842539540773409e-06,
      "loss": 1.5523,
      "step": 87730
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.701224684715271,
      "learning_rate": 1.083366302341493e-06,
      "loss": 1.4935,
      "step": 87731
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6753860116004944,
      "learning_rate": 1.0824790134464357e-06,
      "loss": 1.4529,
      "step": 87732
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6846917867660522,
      "learning_rate": 1.0815920873932015e-06,
      "loss": 1.4194,
      "step": 87733
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.67772376537323,
      "learning_rate": 1.0807055241828566e-06,
      "loss": 1.4681,
      "step": 87734
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6732504367828369,
      "learning_rate": 1.0798193238164999e-06,
      "loss": 1.4326,
      "step": 87735
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6684591174125671,
      "learning_rate": 1.078933486295197e-06,
      "loss": 1.4602,
      "step": 87736
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6794463396072388,
      "learning_rate": 1.078048011620014e-06,
      "loss": 1.501,
      "step": 87737
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.67714923620224,
      "learning_rate": 1.0771628997920502e-06,
      "loss": 1.4216,
      "step": 87738
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6693373918533325,
      "learning_rate": 1.0762781508123708e-06,
      "loss": 1.5338,
      "step": 87739
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6586834788322449,
      "learning_rate": 1.075393764682042e-06,
      "loss": 1.4594,
      "step": 87740
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6748009920120239,
      "learning_rate": 1.0745097414021297e-06,
      "loss": 1.5243,
      "step": 87741
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7442924976348877,
      "learning_rate": 1.073626080973733e-06,
      "loss": 1.5527,
      "step": 87742
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7009262442588806,
      "learning_rate": 1.0727427833979174e-06,
      "loss": 1.5256,
      "step": 87743
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6804183721542358,
      "learning_rate": 1.0718598486757158e-06,
      "loss": 1.5031,
      "step": 87744
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6811513304710388,
      "learning_rate": 1.0709772768082604e-06,
      "loss": 1.4568,
      "step": 87745
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6581845283508301,
      "learning_rate": 1.0700950677965503e-06,
      "loss": 1.4261,
      "step": 87746
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.659925639629364,
      "learning_rate": 1.0692132216417514e-06,
      "loss": 1.4743,
      "step": 87747
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6794731616973877,
      "learning_rate": 1.068331738344863e-06,
      "loss": 1.551,
      "step": 87748
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6906214952468872,
      "learning_rate": 1.0674506179069508e-06,
      "loss": 1.5342,
      "step": 87749
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6889901161193848,
      "learning_rate": 1.0665698603291473e-06,
      "loss": 1.4919,
      "step": 87750
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6812140345573425,
      "learning_rate": 1.0656894656124514e-06,
      "loss": 1.4737,
      "step": 87751
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.677283763885498,
      "learning_rate": 1.064809433757996e-06,
      "loss": 1.5186,
      "step": 87752
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6775311827659607,
      "learning_rate": 1.06392976476678e-06,
      "loss": 1.4791,
      "step": 87753
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7026011347770691,
      "learning_rate": 1.0630504586399358e-06,
      "loss": 1.4768,
      "step": 87754
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6780992746353149,
      "learning_rate": 1.0621715153784627e-06,
      "loss": 1.4905,
      "step": 87755
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.678146243095398,
      "learning_rate": 1.061292934983493e-06,
      "loss": 1.5449,
      "step": 87756
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6968452334403992,
      "learning_rate": 1.060414717456093e-06,
      "loss": 1.5232,
      "step": 87757
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6783755421638489,
      "learning_rate": 1.0595368627972612e-06,
      "loss": 1.555,
      "step": 87758
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6844573616981506,
      "learning_rate": 1.0586593710081303e-06,
      "loss": 1.4979,
      "step": 87759
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6716432571411133,
      "learning_rate": 1.057782242089733e-06,
      "loss": 1.4344,
      "step": 87760
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.661973774433136,
      "learning_rate": 1.0569054760431351e-06,
      "loss": 1.5112,
      "step": 87761
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6908129453659058,
      "learning_rate": 1.0560290728694022e-06,
      "loss": 1.5234,
      "step": 87762
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6631299257278442,
      "learning_rate": 1.0551530325696e-06,
      "loss": 1.5142,
      "step": 87763
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6670783758163452,
      "learning_rate": 1.054277355144828e-06,
      "loss": 1.5338,
      "step": 87764
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6677334308624268,
      "learning_rate": 1.0534020405960852e-06,
      "loss": 1.4493,
      "step": 87765
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6761862635612488,
      "learning_rate": 1.0525270889244707e-06,
      "loss": 1.4757,
      "step": 87766
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6853300929069519,
      "learning_rate": 1.0516525001310505e-06,
      "loss": 1.5263,
      "step": 87767
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6886550784111023,
      "learning_rate": 1.0507782742168569e-06,
      "loss": 1.5444,
      "step": 87768
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.686241626739502,
      "learning_rate": 1.049904411182989e-06,
      "loss": 1.5018,
      "step": 87769
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.699524462223053,
      "learning_rate": 1.0490309110304795e-06,
      "loss": 1.4662,
      "step": 87770
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6870852708816528,
      "learning_rate": 1.0481577737603942e-06,
      "loss": 1.5029,
      "step": 87771
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6871238350868225,
      "learning_rate": 1.0472849993737986e-06,
      "loss": 1.4828,
      "step": 87772
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6673668026924133,
      "learning_rate": 1.0464125878717588e-06,
      "loss": 1.4743,
      "step": 87773
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6865742802619934,
      "learning_rate": 1.0455405392553074e-06,
      "loss": 1.5205,
      "step": 87774
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6892609596252441,
      "learning_rate": 1.0446688535255432e-06,
      "loss": 1.4451,
      "step": 87775
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6862415075302124,
      "learning_rate": 1.0437975306834988e-06,
      "loss": 1.5178,
      "step": 87776
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6817758679389954,
      "learning_rate": 1.042926570730207e-06,
      "loss": 1.5113,
      "step": 87777
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7167565226554871,
      "learning_rate": 1.0420559736668e-06,
      "loss": 1.5124,
      "step": 87778
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6955971717834473,
      "learning_rate": 1.0411857394942436e-06,
      "loss": 1.4638,
      "step": 87779
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6799342036247253,
      "learning_rate": 1.0403158682136704e-06,
      "loss": 1.5175,
      "step": 87780
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6434224843978882,
      "learning_rate": 1.0394463598260793e-06,
      "loss": 1.5017,
      "step": 87781
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6690298914909363,
      "learning_rate": 1.03857721433257e-06,
      "loss": 1.5073,
      "step": 87782
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6840806603431702,
      "learning_rate": 1.0377084317341743e-06,
      "loss": 1.5529,
      "step": 87783
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6732178330421448,
      "learning_rate": 1.0368400120319586e-06,
      "loss": 1.5289,
      "step": 87784
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7150495052337646,
      "learning_rate": 1.035971955226922e-06,
      "loss": 1.435,
      "step": 87785
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6609943509101868,
      "learning_rate": 1.0351042613201966e-06,
      "loss": 1.4972,
      "step": 87786
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6975762248039246,
      "learning_rate": 1.0342369303128483e-06,
      "loss": 1.4729,
      "step": 87787
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.702392041683197,
      "learning_rate": 1.03336996220581e-06,
      "loss": 1.537,
      "step": 87788
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6866500377655029,
      "learning_rate": 1.0325033570002472e-06,
      "loss": 1.4493,
      "step": 87789
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6847364902496338,
      "learning_rate": 1.0316371146971926e-06,
      "loss": 1.4927,
      "step": 87790
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6722158193588257,
      "learning_rate": 1.030771235297645e-06,
      "loss": 1.5241,
      "step": 87791
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6953463554382324,
      "learning_rate": 1.0299057188027038e-06,
      "loss": 1.5212,
      "step": 87792
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6629865169525146,
      "learning_rate": 1.0290405652134016e-06,
      "loss": 1.5453,
      "step": 87793
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7180910110473633,
      "learning_rate": 1.028175774530804e-06,
      "loss": 1.4962,
      "step": 87794
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6756260395050049,
      "learning_rate": 1.0273113467559434e-06,
      "loss": 1.4932,
      "step": 87795
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6703487634658813,
      "learning_rate": 1.0264472818898862e-06,
      "loss": 1.5446,
      "step": 87796
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.656756579875946,
      "learning_rate": 1.0255835799336643e-06,
      "loss": 1.5225,
      "step": 87797
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6900247931480408,
      "learning_rate": 1.0247202408883104e-06,
      "loss": 1.6048,
      "step": 87798
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6511986255645752,
      "learning_rate": 1.0238572647549237e-06,
      "loss": 1.4836,
      "step": 87799
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.677629292011261,
      "learning_rate": 1.0229946515345034e-06,
      "loss": 1.4887,
      "step": 87800
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.642738401889801,
      "learning_rate": 1.0221324012281151e-06,
      "loss": 1.5077,
      "step": 87801
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6864848732948303,
      "learning_rate": 1.0212705138368249e-06,
      "loss": 1.4759,
      "step": 87802
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6937851309776306,
      "learning_rate": 1.020408989361632e-06,
      "loss": 1.6028,
      "step": 87803
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.68163001537323,
      "learning_rate": 1.0195478278036351e-06,
      "loss": 1.4807,
      "step": 87804
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6812075972557068,
      "learning_rate": 1.018687029163834e-06,
      "loss": 1.5603,
      "step": 87805
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6732643842697144,
      "learning_rate": 1.0178265934432939e-06,
      "loss": 1.5147,
      "step": 87806
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6738288402557373,
      "learning_rate": 1.016966520643081e-06,
      "loss": 1.5648,
      "step": 87807
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6985440850257874,
      "learning_rate": 1.0161068107642279e-06,
      "loss": 1.478,
      "step": 87808
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6688907742500305,
      "learning_rate": 1.0152474638077335e-06,
      "loss": 1.4973,
      "step": 87809
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.667322039604187,
      "learning_rate": 1.014388479774697e-06,
      "loss": 1.4633,
      "step": 87810
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6874195337295532,
      "learning_rate": 1.0135298586661177e-06,
      "loss": 1.538,
      "step": 87811
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6555225849151611,
      "learning_rate": 1.0126716004830948e-06,
      "loss": 1.4842,
      "step": 87812
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6578419208526611,
      "learning_rate": 1.011813705226594e-06,
      "loss": 1.5107,
      "step": 87813
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6728056073188782,
      "learning_rate": 1.0109561728977145e-06,
      "loss": 1.473,
      "step": 87814
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7033694982528687,
      "learning_rate": 1.0100990034974887e-06,
      "loss": 1.483,
      "step": 87815
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6714297533035278,
      "learning_rate": 1.0092421970269493e-06,
      "loss": 1.4967,
      "step": 87816
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.681399941444397,
      "learning_rate": 1.0083857534871287e-06,
      "loss": 1.5013,
      "step": 87817
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7010390162467957,
      "learning_rate": 1.0075296728790594e-06,
      "loss": 1.4927,
      "step": 87818
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6610562205314636,
      "learning_rate": 1.0066739552038072e-06,
      "loss": 1.5592,
      "step": 87819
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.9893340468406677,
      "learning_rate": 1.0058186004624047e-06,
      "loss": 1.5509,
      "step": 87820
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6766590476036072,
      "learning_rate": 1.0049636086558843e-06,
      "loss": 1.4864,
      "step": 87821
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7036500573158264,
      "learning_rate": 1.0041089797852786e-06,
      "loss": 1.5668,
      "step": 87822
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6639624238014221,
      "learning_rate": 1.00325471385162e-06,
      "loss": 1.426,
      "step": 87823
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6737478971481323,
      "learning_rate": 1.0024008108559745e-06,
      "loss": 1.4794,
      "step": 87824
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7030365467071533,
      "learning_rate": 1.001547270799341e-06,
      "loss": 1.4921,
      "step": 87825
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6766778230667114,
      "learning_rate": 1.0006940936827857e-06,
      "loss": 1.4709,
      "step": 87826
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6886736750602722,
      "learning_rate": 9.998412795073074e-07,
      "loss": 1.471,
      "step": 87827
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7051246166229248,
      "learning_rate": 9.989888282740054e-07,
      "loss": 1.5052,
      "step": 87828
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.653747022151947,
      "learning_rate": 9.981367399838457e-07,
      "loss": 1.4645,
      "step": 87829
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6986286044120789,
      "learning_rate": 9.972850146379274e-07,
      "loss": 1.4919,
      "step": 87830
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7024660110473633,
      "learning_rate": 9.964336522372162e-07,
      "loss": 1.5537,
      "step": 87831
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6919623613357544,
      "learning_rate": 9.95582652782778e-07,
      "loss": 1.5054,
      "step": 87832
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6772394776344299,
      "learning_rate": 9.947320162756456e-07,
      "loss": 1.4686,
      "step": 87833
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7104972004890442,
      "learning_rate": 9.938817427168844e-07,
      "loss": 1.5512,
      "step": 87834
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6891024708747864,
      "learning_rate": 9.930318321074604e-07,
      "loss": 1.5061,
      "step": 87835
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6686253547668457,
      "learning_rate": 9.921822844484395e-07,
      "loss": 1.4792,
      "step": 87836
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6879141330718994,
      "learning_rate": 9.913330997408542e-07,
      "loss": 1.449,
      "step": 87837
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6834458112716675,
      "learning_rate": 9.904842779857368e-07,
      "loss": 1.5213,
      "step": 87838
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.676494836807251,
      "learning_rate": 9.896358191841202e-07,
      "loss": 1.389,
      "step": 87839
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6874997019767761,
      "learning_rate": 9.887877233370367e-07,
      "loss": 1.5585,
      "step": 87840
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7038241624832153,
      "learning_rate": 9.879399904455187e-07,
      "loss": 1.5466,
      "step": 87841
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6863474249839783,
      "learning_rate": 9.870926205105656e-07,
      "loss": 1.5097,
      "step": 87842
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6620015501976013,
      "learning_rate": 9.862456135332097e-07,
      "loss": 1.4849,
      "step": 87843
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6894643902778625,
      "learning_rate": 9.85398969514517e-07,
      "loss": 1.4768,
      "step": 87844
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.65144282579422,
      "learning_rate": 9.845526884554866e-07,
      "loss": 1.4915,
      "step": 87845
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.681439995765686,
      "learning_rate": 9.837067703571178e-07,
      "loss": 1.5215,
      "step": 87846
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6704226136207581,
      "learning_rate": 9.828612152205095e-07,
      "loss": 1.5472,
      "step": 87847
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6872883439064026,
      "learning_rate": 9.820160230466612e-07,
      "loss": 1.5153,
      "step": 87848
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6744825839996338,
      "learning_rate": 9.81171193836572e-07,
      "loss": 1.586,
      "step": 87849
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6864251494407654,
      "learning_rate": 9.803267275912741e-07,
      "loss": 1.5679,
      "step": 87850
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.686420738697052,
      "learning_rate": 9.794826243118004e-07,
      "loss": 1.4496,
      "step": 87851
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6680554747581482,
      "learning_rate": 9.786388839991833e-07,
      "loss": 1.5046,
      "step": 87852
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6823267936706543,
      "learning_rate": 9.777955066544219e-07,
      "loss": 1.4678,
      "step": 87853
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.694240927696228,
      "learning_rate": 9.76952492278582e-07,
      "loss": 1.5185,
      "step": 87854
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6828566193580627,
      "learning_rate": 9.76109840872663e-07,
      "loss": 1.4573,
      "step": 87855
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6891401410102844,
      "learning_rate": 9.75267552437664e-07,
      "loss": 1.5231,
      "step": 87856
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6848289370536804,
      "learning_rate": 9.744256269746509e-07,
      "loss": 1.4802,
      "step": 87857
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6916009783744812,
      "learning_rate": 9.735840644846226e-07,
      "loss": 1.5315,
      "step": 87858
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.729283332824707,
      "learning_rate": 9.72742864968612e-07,
      "loss": 1.5321,
      "step": 87859
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6925676465034485,
      "learning_rate": 9.71902028427618e-07,
      "loss": 1.544,
      "step": 87860
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6737726330757141,
      "learning_rate": 9.710615548626732e-07,
      "loss": 1.4697,
      "step": 87861
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6506611704826355,
      "learning_rate": 9.702214442748102e-07,
      "loss": 1.4914,
      "step": 87862
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6807596683502197,
      "learning_rate": 9.69381696665028e-07,
      "loss": 1.5164,
      "step": 87863
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6643010973930359,
      "learning_rate": 9.685423120343593e-07,
      "loss": 1.4053,
      "step": 87864
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6682028770446777,
      "learning_rate": 9.677032903838367e-07,
      "loss": 1.51,
      "step": 87865
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6837334036827087,
      "learning_rate": 9.668646317144258e-07,
      "loss": 1.5738,
      "step": 87866
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7174401879310608,
      "learning_rate": 9.660263360272257e-07,
      "loss": 1.4891,
      "step": 87867
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6646933555603027,
      "learning_rate": 9.651884033231694e-07,
      "loss": 1.4821,
      "step": 87868
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6683823466300964,
      "learning_rate": 9.643508336033224e-07,
      "loss": 1.4303,
      "step": 87869
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6933849453926086,
      "learning_rate": 9.63513626868717e-07,
      "loss": 1.517,
      "step": 87870
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6912244558334351,
      "learning_rate": 9.626767831203196e-07,
      "loss": 1.5145,
      "step": 87871
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6851529479026794,
      "learning_rate": 9.618403023591959e-07,
      "loss": 1.5115,
      "step": 87872
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6945855021476746,
      "learning_rate": 9.610041845863115e-07,
      "loss": 1.4972,
      "step": 87873
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6992416977882385,
      "learning_rate": 9.601684298027323e-07,
      "loss": 1.5088,
      "step": 87874
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6925194263458252,
      "learning_rate": 9.593330380094244e-07,
      "loss": 1.4839,
      "step": 87875
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6714407205581665,
      "learning_rate": 9.5849800920742e-07,
      "loss": 1.5078,
      "step": 87876
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6823104023933411,
      "learning_rate": 9.576633433977521e-07,
      "loss": 1.5055,
      "step": 87877
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6902245879173279,
      "learning_rate": 9.568290405814195e-07,
      "loss": 1.4662,
      "step": 87878
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6711319088935852,
      "learning_rate": 9.559951007594214e-07,
      "loss": 1.5453,
      "step": 87879
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7001163363456726,
      "learning_rate": 9.551615239328237e-07,
      "loss": 1.4937,
      "step": 87880
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6722617149353027,
      "learning_rate": 9.543283101025589e-07,
      "loss": 1.5307,
      "step": 87881
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6909751296043396,
      "learning_rate": 9.534954592696597e-07,
      "loss": 1.5226,
      "step": 87882
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.666934072971344,
      "learning_rate": 9.526629714351919e-07,
      "loss": 1.5132,
      "step": 87883
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6753633618354797,
      "learning_rate": 9.518308466001212e-07,
      "loss": 1.5135,
      "step": 87884
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6874703764915466,
      "learning_rate": 9.50999084765447e-07,
      "loss": 1.5445,
      "step": 87885
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.697069525718689,
      "learning_rate": 9.501676859322349e-07,
      "loss": 1.506,
      "step": 87886
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7125486135482788,
      "learning_rate": 9.493366501014177e-07,
      "loss": 1.5198,
      "step": 87887
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.673664391040802,
      "learning_rate": 9.485059772740611e-07,
      "loss": 1.4883,
      "step": 87888
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6722431182861328,
      "learning_rate": 9.476756674511643e-07,
      "loss": 1.4852,
      "step": 87889
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6570764780044556,
      "learning_rate": 9.468457206337266e-07,
      "loss": 1.5154,
      "step": 87890
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6990585923194885,
      "learning_rate": 9.460161368227137e-07,
      "loss": 1.5009,
      "step": 87891
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6588466167449951,
      "learning_rate": 9.451869160191916e-07,
      "loss": 1.4676,
      "step": 87892
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6916224360466003,
      "learning_rate": 9.443580582241927e-07,
      "loss": 1.5326,
      "step": 87893
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6734277009963989,
      "learning_rate": 9.435295634386497e-07,
      "loss": 1.5344,
      "step": 87894
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6933906078338623,
      "learning_rate": 9.427014316635617e-07,
      "loss": 1.5707,
      "step": 87895
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6832029819488525,
      "learning_rate": 9.418736628999945e-07,
      "loss": 1.4564,
      "step": 87896
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6853103637695312,
      "learning_rate": 9.410462571489808e-07,
      "loss": 1.5732,
      "step": 87897
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6709349751472473,
      "learning_rate": 9.402192144114195e-07,
      "loss": 1.5674,
      "step": 87898
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6891663074493408,
      "learning_rate": 9.393925346883435e-07,
      "loss": 1.587,
      "step": 87899
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7074388265609741,
      "learning_rate": 9.385662179808185e-07,
      "loss": 1.5202,
      "step": 87900
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6718838214874268,
      "learning_rate": 9.377402642898102e-07,
      "loss": 1.4727,
      "step": 87901
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6798968315124512,
      "learning_rate": 9.36914673616318e-07,
      "loss": 1.5545,
      "step": 87902
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6686989665031433,
      "learning_rate": 9.360894459613411e-07,
      "loss": 1.4567,
      "step": 87903
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6768214702606201,
      "learning_rate": 9.352645813259118e-07,
      "loss": 1.5947,
      "step": 87904
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6965973973274231,
      "learning_rate": 9.34440079710963e-07,
      "loss": 1.6068,
      "step": 87905
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6732116341590881,
      "learning_rate": 9.336159411175603e-07,
      "loss": 1.4717,
      "step": 87906
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6613850593566895,
      "learning_rate": 9.327921655466697e-07,
      "loss": 1.4969,
      "step": 87907
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6602523922920227,
      "learning_rate": 9.319687529993236e-07,
      "loss": 1.5119,
      "step": 87908
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6887151002883911,
      "learning_rate": 9.31145703476488e-07,
      "loss": 1.5172,
      "step": 87909
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6894013285636902,
      "learning_rate": 9.303230169791954e-07,
      "loss": 1.5505,
      "step": 87910
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6578793525695801,
      "learning_rate": 9.295006935084115e-07,
      "loss": 1.4913,
      "step": 87911
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6788644194602966,
      "learning_rate": 9.286787330651357e-07,
      "loss": 1.5293,
      "step": 87912
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6836885809898376,
      "learning_rate": 9.278571356504006e-07,
      "loss": 1.5173,
      "step": 87913
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7248005270957947,
      "learning_rate": 9.270359012651718e-07,
      "loss": 1.5249,
      "step": 87914
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.6924464702606201,
      "learning_rate": 9.262150299104487e-07,
      "loss": 1.4584,
      "step": 87915
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7199596762657166,
      "learning_rate": 9.253945215872305e-07,
      "loss": 1.4219,
      "step": 87916
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6995271444320679,
      "learning_rate": 9.245743762965163e-07,
      "loss": 1.5103,
      "step": 87917
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6698132157325745,
      "learning_rate": 9.237545940393387e-07,
      "loss": 1.4924,
      "step": 87918
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6954167485237122,
      "learning_rate": 9.229351748165969e-07,
      "loss": 1.5276,
      "step": 87919
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.691011905670166,
      "learning_rate": 9.221161186293902e-07,
      "loss": 1.5237,
      "step": 87920
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6772428750991821,
      "learning_rate": 9.21297425478651e-07,
      "loss": 1.5487,
      "step": 87921
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6948676109313965,
      "learning_rate": 9.204790953653785e-07,
      "loss": 1.5086,
      "step": 87922
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6889767646789551,
      "learning_rate": 9.196611282906052e-07,
      "loss": 1.4586,
      "step": 87923
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6769163012504578,
      "learning_rate": 9.188435242552639e-07,
      "loss": 1.461,
      "step": 87924
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6754115223884583,
      "learning_rate": 9.180262832604202e-07,
      "loss": 1.5368,
      "step": 87925
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6640676856040955,
      "learning_rate": 9.172094053069734e-07,
      "loss": 1.5179,
      "step": 87926
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7006850242614746,
      "learning_rate": 9.163928903960227e-07,
      "loss": 1.4504,
      "step": 87927
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6691588759422302,
      "learning_rate": 9.155767385284673e-07,
      "loss": 1.5404,
      "step": 87928
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6735000014305115,
      "learning_rate": 9.147609497053398e-07,
      "loss": 1.5595,
      "step": 87929
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7008243203163147,
      "learning_rate": 9.139455239276061e-07,
      "loss": 1.559,
      "step": 87930
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7053877115249634,
      "learning_rate": 9.131304611962987e-07,
      "loss": 1.4658,
      "step": 87931
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7180349230766296,
      "learning_rate": 9.123157615123833e-07,
      "loss": 1.437,
      "step": 87932
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6833497285842896,
      "learning_rate": 9.11501424876826e-07,
      "loss": 1.5323,
      "step": 87933
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6727210879325867,
      "learning_rate": 9.106874512906593e-07,
      "loss": 1.5461,
      "step": 87934
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7021441459655762,
      "learning_rate": 9.098738407548489e-07,
      "loss": 1.5584,
      "step": 87935
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6722278594970703,
      "learning_rate": 9.090605932703943e-07,
      "loss": 1.55,
      "step": 87936
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6774588823318481,
      "learning_rate": 9.082477088382278e-07,
      "loss": 1.4559,
      "step": 87937
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7095820307731628,
      "learning_rate": 9.074351874594155e-07,
      "loss": 1.5292,
      "step": 87938
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6661089658737183,
      "learning_rate": 9.066230291348897e-07,
      "loss": 1.4568,
      "step": 87939
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6597058773040771,
      "learning_rate": 9.058112338656831e-07,
      "loss": 1.5417,
      "step": 87940
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6887342929840088,
      "learning_rate": 9.049998016527282e-07,
      "loss": 1.5559,
      "step": 87941
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.678688108921051,
      "learning_rate": 9.041887324970243e-07,
      "loss": 1.5314,
      "step": 87942
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6694038510322571,
      "learning_rate": 9.033780263995704e-07,
      "loss": 1.5166,
      "step": 87943
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6666179895401001,
      "learning_rate": 9.02567683361366e-07,
      "loss": 1.5525,
      "step": 87944
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6673657894134521,
      "learning_rate": 9.017577033833434e-07,
      "loss": 1.4993,
      "step": 87945
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.721655011177063,
      "learning_rate": 9.009480864665686e-07,
      "loss": 1.5307,
      "step": 87946
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7052499055862427,
      "learning_rate": 9.001388326119408e-07,
      "loss": 1.5866,
      "step": 87947
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6730952858924866,
      "learning_rate": 8.993299418204592e-07,
      "loss": 1.4641,
      "step": 87948
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6629689335823059,
      "learning_rate": 8.985214140931229e-07,
      "loss": 1.5047,
      "step": 87949
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6564876437187195,
      "learning_rate": 8.977132494309314e-07,
      "loss": 1.4379,
      "step": 87950
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6978792548179626,
      "learning_rate": 8.969054478348503e-07,
      "loss": 1.511,
      "step": 87951
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6839123964309692,
      "learning_rate": 8.960980093058123e-07,
      "loss": 1.4485,
      "step": 87952
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6910598874092102,
      "learning_rate": 8.952909338448832e-07,
      "loss": 1.4362,
      "step": 87953
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6681018471717834,
      "learning_rate": 8.944842214529957e-07,
      "loss": 1.6135,
      "step": 87954
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6766035556793213,
      "learning_rate": 8.936778721311155e-07,
      "loss": 1.5183,
      "step": 87955
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6745188236236572,
      "learning_rate": 8.92871885880242e-07,
      "loss": 1.5099,
      "step": 87956
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6878010034561157,
      "learning_rate": 8.920662627013742e-07,
      "loss": 1.6317,
      "step": 87957
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6605678796768188,
      "learning_rate": 8.912610025954447e-07,
      "loss": 1.5489,
      "step": 87958
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.691520094871521,
      "learning_rate": 8.904561055634529e-07,
      "loss": 1.4391,
      "step": 87959
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6821045279502869,
      "learning_rate": 8.896515716063645e-07,
      "loss": 1.4878,
      "step": 87960
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7013389468193054,
      "learning_rate": 8.888474007251789e-07,
      "loss": 1.4852,
      "step": 87961
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6849920153617859,
      "learning_rate": 8.880435929208618e-07,
      "loss": 1.5736,
      "step": 87962
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6865900754928589,
      "learning_rate": 8.872401481943791e-07,
      "loss": 1.5101,
      "step": 87963
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7155094742774963,
      "learning_rate": 8.864370665467302e-07,
      "loss": 1.589,
      "step": 87964
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6897939443588257,
      "learning_rate": 8.856343479788807e-07,
      "loss": 1.484,
      "step": 87965
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6758263111114502,
      "learning_rate": 8.848319924917968e-07,
      "loss": 1.4707,
      "step": 87966
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6906001567840576,
      "learning_rate": 8.840300000864442e-07,
      "loss": 1.5123,
      "step": 87967
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6839026808738708,
      "learning_rate": 8.832283707638221e-07,
      "loss": 1.5252,
      "step": 87968
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7063957452774048,
      "learning_rate": 8.824271045248632e-07,
      "loss": 1.5418,
      "step": 87969
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6821916103363037,
      "learning_rate": 8.816262013705666e-07,
      "loss": 1.5108,
      "step": 87970
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.679413914680481,
      "learning_rate": 8.808256613018982e-07,
      "loss": 1.5229,
      "step": 87971
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7055999636650085,
      "learning_rate": 8.800254843198573e-07,
      "loss": 1.5034,
      "step": 87972
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6840132474899292,
      "learning_rate": 8.792256704253764e-07,
      "loss": 1.4789,
      "step": 87973
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6800044178962708,
      "learning_rate": 8.784262196194547e-07,
      "loss": 1.5513,
      "step": 87974
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6719674468040466,
      "learning_rate": 8.776271319030581e-07,
      "loss": 1.5495,
      "step": 87975
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6929818391799927,
      "learning_rate": 8.768284072771193e-07,
      "loss": 1.5427,
      "step": 87976
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6657172441482544,
      "learning_rate": 8.760300457426373e-07,
      "loss": 1.4663,
      "step": 87977
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.679145097732544,
      "learning_rate": 8.752320473006114e-07,
      "loss": 1.5227,
      "step": 87978
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6812688112258911,
      "learning_rate": 8.744344119519741e-07,
      "loss": 1.515,
      "step": 87979
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6738075613975525,
      "learning_rate": 8.736371396976915e-07,
      "loss": 1.4337,
      "step": 87980
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6885343790054321,
      "learning_rate": 8.728402305387294e-07,
      "loss": 1.5028,
      "step": 87981
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6741526126861572,
      "learning_rate": 8.720436844760536e-07,
      "loss": 1.4682,
      "step": 87982
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.698912501335144,
      "learning_rate": 8.712475015106635e-07,
      "loss": 1.577,
      "step": 87983
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6710735559463501,
      "learning_rate": 8.704516816435247e-07,
      "loss": 1.4365,
      "step": 87984
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6793354749679565,
      "learning_rate": 8.696562248755368e-07,
      "loss": 1.4944,
      "step": 87985
    },
    {
      "epoch": 2.93,
      "grad_norm": 1.1982945203781128,
      "learning_rate": 8.688611312077321e-07,
      "loss": 1.5819,
      "step": 87986
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6671320796012878,
      "learning_rate": 8.680664006410764e-07,
      "loss": 1.526,
      "step": 87987
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6803683042526245,
      "learning_rate": 8.672720331764693e-07,
      "loss": 1.448,
      "step": 87988
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6858965158462524,
      "learning_rate": 8.664780288149431e-07,
      "loss": 1.4809,
      "step": 87989
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6737176179885864,
      "learning_rate": 8.656843875574638e-07,
      "loss": 1.485,
      "step": 87990
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6881723999977112,
      "learning_rate": 8.648911094049305e-07,
      "loss": 1.5431,
      "step": 87991
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6668840050697327,
      "learning_rate": 8.640981943583425e-07,
      "loss": 1.518,
      "step": 87992
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6793935894966125,
      "learning_rate": 8.633056424186991e-07,
      "loss": 1.5683,
      "step": 87993
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6945168375968933,
      "learning_rate": 8.625134535868994e-07,
      "loss": 1.5586,
      "step": 87994
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6792792081832886,
      "learning_rate": 8.617216278639427e-07,
      "loss": 1.5029,
      "step": 87995
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6754401326179504,
      "learning_rate": 8.609301652507616e-07,
      "loss": 1.5407,
      "step": 87996
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6833393573760986,
      "learning_rate": 8.601390657483554e-07,
      "loss": 1.5279,
      "step": 87997
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6881991624832153,
      "learning_rate": 8.593483293576564e-07,
      "loss": 1.46,
      "step": 87998
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6908013820648193,
      "learning_rate": 8.585579560796307e-07,
      "loss": 1.5093,
      "step": 87999
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6747886538505554,
      "learning_rate": 8.577679459152442e-07,
      "loss": 1.5058,
      "step": 88000
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.666010856628418,
      "learning_rate": 8.569782988654628e-07,
      "loss": 1.5142,
      "step": 88001
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6783969402313232,
      "learning_rate": 8.561890149311857e-07,
      "loss": 1.4562,
      "step": 88002
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6756276488304138,
      "learning_rate": 8.554000941134786e-07,
      "loss": 1.4553,
      "step": 88003
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6691098213195801,
      "learning_rate": 8.546115364132078e-07,
      "loss": 1.4384,
      "step": 88004
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6642928719520569,
      "learning_rate": 8.538233418313722e-07,
      "loss": 1.4907,
      "step": 88005
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7019456028938293,
      "learning_rate": 8.530355103689046e-07,
      "loss": 1.542,
      "step": 88006
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6662430167198181,
      "learning_rate": 8.522480420267708e-07,
      "loss": 1.5137,
      "step": 88007
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6718233227729797,
      "learning_rate": 8.514609368059366e-07,
      "loss": 1.5566,
      "step": 88008
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6795331835746765,
      "learning_rate": 8.506741947073681e-07,
      "loss": 1.4979,
      "step": 88009
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6834399700164795,
      "learning_rate": 8.498878157319977e-07,
      "loss": 1.503,
      "step": 88010
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6775333881378174,
      "learning_rate": 8.491017998807581e-07,
      "loss": 1.5891,
      "step": 88011
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6841239333152771,
      "learning_rate": 8.483161471546484e-07,
      "loss": 1.5689,
      "step": 88012
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6798805594444275,
      "learning_rate": 8.475308575546013e-07,
      "loss": 1.5893,
      "step": 88013
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6702204942703247,
      "learning_rate": 8.46745931081616e-07,
      "loss": 1.4697,
      "step": 88014
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.8510933518409729,
      "learning_rate": 8.459613677365584e-07,
      "loss": 1.4802,
      "step": 88015
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6807697415351868,
      "learning_rate": 8.451771675204278e-07,
      "loss": 1.4561,
      "step": 88016
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6899441480636597,
      "learning_rate": 8.443933304341899e-07,
      "loss": 1.4752,
      "step": 88017
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6785445809364319,
      "learning_rate": 8.436098564787775e-07,
      "loss": 1.4834,
      "step": 88018
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6955461502075195,
      "learning_rate": 8.42826745655123e-07,
      "loss": 1.5036,
      "step": 88019
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6752233505249023,
      "learning_rate": 8.420439979641924e-07,
      "loss": 1.4761,
      "step": 88020
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6740267872810364,
      "learning_rate": 8.412616134069849e-07,
      "loss": 1.5674,
      "step": 88021
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6968995332717896,
      "learning_rate": 8.404795919843999e-07,
      "loss": 1.5398,
      "step": 88022
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6646198034286499,
      "learning_rate": 8.396979336973697e-07,
      "loss": 1.4738,
      "step": 88023
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6661391854286194,
      "learning_rate": 8.389166385468604e-07,
      "loss": 1.5089,
      "step": 88024
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6802481412887573,
      "learning_rate": 8.381357065338379e-07,
      "loss": 1.4421,
      "step": 88025
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6722075939178467,
      "learning_rate": 8.373551376592346e-07,
      "loss": 1.5283,
      "step": 88026
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6734015941619873,
      "learning_rate": 8.365749319240167e-07,
      "loss": 1.537,
      "step": 88027
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6905847787857056,
      "learning_rate": 8.357950893291165e-07,
      "loss": 1.451,
      "step": 88028
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6622708439826965,
      "learning_rate": 8.350156098754668e-07,
      "loss": 1.4964,
      "step": 88029
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7050424814224243,
      "learning_rate": 8.342364935640333e-07,
      "loss": 1.5004,
      "step": 88030
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6690338253974915,
      "learning_rate": 8.33457740395782e-07,
      "loss": 1.4882,
      "step": 88031
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6890128254890442,
      "learning_rate": 8.326793503716122e-07,
      "loss": 1.4656,
      "step": 88032
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6819223761558533,
      "learning_rate": 8.319013234924898e-07,
      "loss": 1.5257,
      "step": 88033
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.702945351600647,
      "learning_rate": 8.311236597593474e-07,
      "loss": 1.5156,
      "step": 88034
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7259823679924011,
      "learning_rate": 8.303463591731507e-07,
      "loss": 1.5276,
      "step": 88035
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6770562529563904,
      "learning_rate": 8.295694217348325e-07,
      "loss": 1.4768,
      "step": 88036
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6957212090492249,
      "learning_rate": 8.287928474453587e-07,
      "loss": 1.4946,
      "step": 88037
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7075865864753723,
      "learning_rate": 8.280166363056284e-07,
      "loss": 1.561,
      "step": 88038
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6871519684791565,
      "learning_rate": 8.272407883166077e-07,
      "loss": 1.4571,
      "step": 88039
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6765189170837402,
      "learning_rate": 8.26465303479229e-07,
      "loss": 1.4276,
      "step": 88040
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6939328908920288,
      "learning_rate": 8.256901817944251e-07,
      "loss": 1.4602,
      "step": 88041
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7028123140335083,
      "learning_rate": 8.249154232631949e-07,
      "loss": 1.5361,
      "step": 88042
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6934162974357605,
      "learning_rate": 8.241410278864047e-07,
      "loss": 1.5004,
      "step": 88043
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6885441541671753,
      "learning_rate": 8.233669956650202e-07,
      "loss": 1.4776,
      "step": 88044
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6683982014656067,
      "learning_rate": 8.225933266000073e-07,
      "loss": 1.461,
      "step": 88045
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6855989098548889,
      "learning_rate": 8.218200206922654e-07,
      "loss": 1.5653,
      "step": 88046
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6931944489479065,
      "learning_rate": 8.210470779427602e-07,
      "loss": 1.4893,
      "step": 88047
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6729081273078918,
      "learning_rate": 8.202744983524245e-07,
      "loss": 1.5037,
      "step": 88048
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6840517520904541,
      "learning_rate": 8.195022819222241e-07,
      "loss": 1.526,
      "step": 88049
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6751261353492737,
      "learning_rate": 8.18730428653025e-07,
      "loss": 1.5465,
      "step": 88050
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6866198182106018,
      "learning_rate": 8.179589385457929e-07,
      "loss": 1.5007,
      "step": 88051
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6856271028518677,
      "learning_rate": 8.17187811601494e-07,
      "loss": 1.4476,
      "step": 88052
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6632167100906372,
      "learning_rate": 8.164170478210607e-07,
      "loss": 1.4676,
      "step": 88053
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6918473839759827,
      "learning_rate": 8.156466472054257e-07,
      "loss": 1.5061,
      "step": 88054
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6906421184539795,
      "learning_rate": 8.148766097554882e-07,
      "loss": 1.4643,
      "step": 88055
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6998815536499023,
      "learning_rate": 8.14106935472214e-07,
      "loss": 1.5308,
      "step": 88056
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6692147254943848,
      "learning_rate": 8.13337624356536e-07,
      "loss": 1.5323,
      "step": 88057
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6712267398834229,
      "learning_rate": 8.125686764093531e-07,
      "loss": 1.4885,
      "step": 88058
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6670399308204651,
      "learning_rate": 8.118000916316647e-07,
      "loss": 1.4732,
      "step": 88059
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6641825437545776,
      "learning_rate": 8.110318700243368e-07,
      "loss": 1.5378,
      "step": 88060
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.736668050289154,
      "learning_rate": 8.102640115883686e-07,
      "loss": 1.4948,
      "step": 88061
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7191603183746338,
      "learning_rate": 8.094965163246259e-07,
      "loss": 1.529,
      "step": 88062
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6602325439453125,
      "learning_rate": 8.087293842340748e-07,
      "loss": 1.4823,
      "step": 88063
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6841424107551575,
      "learning_rate": 8.07962615317681e-07,
      "loss": 1.5429,
      "step": 88064
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6667417287826538,
      "learning_rate": 8.071962095762774e-07,
      "loss": 1.5373,
      "step": 88065
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6893728375434875,
      "learning_rate": 8.064301670108963e-07,
      "loss": 1.5882,
      "step": 88066
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6899437308311462,
      "learning_rate": 8.056644876224038e-07,
      "loss": 1.4595,
      "step": 88067
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6743171215057373,
      "learning_rate": 8.048991714117659e-07,
      "loss": 1.4922,
      "step": 88068
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6830998659133911,
      "learning_rate": 8.041342183798816e-07,
      "loss": 1.5236,
      "step": 88069
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7046587467193604,
      "learning_rate": 8.033696285277169e-07,
      "loss": 1.5254,
      "step": 88070
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7146240472793579,
      "learning_rate": 8.026054018561379e-07,
      "loss": 1.5331,
      "step": 88071
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6689290404319763,
      "learning_rate": 8.018415383661437e-07,
      "loss": 1.5804,
      "step": 88072
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6783844828605652,
      "learning_rate": 8.010780380586002e-07,
      "loss": 1.5159,
      "step": 88073
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6890812516212463,
      "learning_rate": 8.003149009345067e-07,
      "loss": 1.4206,
      "step": 88074
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6815818548202515,
      "learning_rate": 7.995521269947291e-07,
      "loss": 1.4927,
      "step": 88075
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6858807802200317,
      "learning_rate": 7.987897162402002e-07,
      "loss": 1.5334,
      "step": 88076
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6923050880432129,
      "learning_rate": 7.980276686718523e-07,
      "loss": 1.4857,
      "step": 88077
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7122275829315186,
      "learning_rate": 7.972659842906182e-07,
      "loss": 1.5638,
      "step": 88078
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6518481969833374,
      "learning_rate": 7.96504663097397e-07,
      "loss": 1.4853,
      "step": 88079
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6531676650047302,
      "learning_rate": 7.957437050931548e-07,
      "loss": 1.4656,
      "step": 88080
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6967832446098328,
      "learning_rate": 7.949831102787907e-07,
      "loss": 1.4863,
      "step": 88081
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6938639283180237,
      "learning_rate": 7.942228786552374e-07,
      "loss": 1.486,
      "step": 88082
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6753227114677429,
      "learning_rate": 7.934630102234274e-07,
      "loss": 1.4479,
      "step": 88083
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.698482871055603,
      "learning_rate": 7.927035049842601e-07,
      "loss": 1.5605,
      "step": 88084
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6654402017593384,
      "learning_rate": 7.919443629386346e-07,
      "loss": 1.5785,
      "step": 88085
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.695106029510498,
      "learning_rate": 7.91185584087517e-07,
      "loss": 1.5279,
      "step": 88086
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6649311184883118,
      "learning_rate": 7.904271684318397e-07,
      "loss": 1.4912,
      "step": 88087
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6837993264198303,
      "learning_rate": 7.896691159724688e-07,
      "loss": 1.536,
      "step": 88088
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.701914370059967,
      "learning_rate": 7.889114267103369e-07,
      "loss": 1.4922,
      "step": 88089
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6721539497375488,
      "learning_rate": 7.881541006464098e-07,
      "loss": 1.4143,
      "step": 88090
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.674275279045105,
      "learning_rate": 7.873971377815869e-07,
      "loss": 1.5624,
      "step": 88091
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6739450693130493,
      "learning_rate": 7.866405381167673e-07,
      "loss": 1.426,
      "step": 88092
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6542577743530273,
      "learning_rate": 7.858843016528504e-07,
      "loss": 1.4718,
      "step": 88093
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.670275092124939,
      "learning_rate": 7.851284283908022e-07,
      "loss": 1.4919,
      "step": 88094
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6730278730392456,
      "learning_rate": 7.843729183315217e-07,
      "loss": 1.5261,
      "step": 88095
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6794247031211853,
      "learning_rate": 7.836177714759418e-07,
      "loss": 1.5416,
      "step": 88096
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6701152920722961,
      "learning_rate": 7.828629878249282e-07,
      "loss": 1.4143,
      "step": 88097
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6835036277770996,
      "learning_rate": 7.82108567379447e-07,
      "loss": 1.5298,
      "step": 88098
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6664285063743591,
      "learning_rate": 7.813545101403973e-07,
      "loss": 1.4753,
      "step": 88099
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6749772429466248,
      "learning_rate": 7.806008161087118e-07,
      "loss": 1.4765,
      "step": 88100
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6964089870452881,
      "learning_rate": 7.798474852852898e-07,
      "loss": 1.5201,
      "step": 88101
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6608375906944275,
      "learning_rate": 7.790945176709973e-07,
      "loss": 1.528,
      "step": 88102
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6787062883377075,
      "learning_rate": 7.783419132668666e-07,
      "loss": 1.5592,
      "step": 88103
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.661959171295166,
      "learning_rate": 7.775896720736974e-07,
      "loss": 1.5322,
      "step": 88104
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6756576895713806,
      "learning_rate": 7.768377940924552e-07,
      "loss": 1.5142,
      "step": 88105
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.706674337387085,
      "learning_rate": 7.760862793240396e-07,
      "loss": 1.5075,
      "step": 88106
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7027162313461304,
      "learning_rate": 7.753351277693498e-07,
      "loss": 1.5458,
      "step": 88107
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6654476523399353,
      "learning_rate": 7.745843394293516e-07,
      "loss": 1.5213,
      "step": 88108
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6821500658988953,
      "learning_rate": 7.738339143048778e-07,
      "loss": 1.4658,
      "step": 88109
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6993592977523804,
      "learning_rate": 7.730838523969274e-07,
      "loss": 1.4402,
      "step": 88110
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.677952766418457,
      "learning_rate": 7.723341537063333e-07,
      "loss": 1.5209,
      "step": 88111
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6713359951972961,
      "learning_rate": 7.715848182340278e-07,
      "loss": 1.5442,
      "step": 88112
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6919038891792297,
      "learning_rate": 7.708358459809439e-07,
      "loss": 1.4514,
      "step": 88113
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6538717746734619,
      "learning_rate": 7.700872369479804e-07,
      "loss": 1.4926,
      "step": 88114
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6650094985961914,
      "learning_rate": 7.693389911360371e-07,
      "loss": 1.4644,
      "step": 88115
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6701503992080688,
      "learning_rate": 7.685911085460128e-07,
      "loss": 1.4778,
      "step": 88116
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6936087012290955,
      "learning_rate": 7.678435891788737e-07,
      "loss": 1.488,
      "step": 88117
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.666149377822876,
      "learning_rate": 7.670964330354524e-07,
      "loss": 1.5665,
      "step": 88118
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.705934464931488,
      "learning_rate": 7.663496401166813e-07,
      "loss": 1.5352,
      "step": 88119
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6692197918891907,
      "learning_rate": 7.6560321042346e-07,
      "loss": 1.4825,
      "step": 88120
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7033055424690247,
      "learning_rate": 7.648571439567541e-07,
      "loss": 1.4838,
      "step": 88121
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6844954490661621,
      "learning_rate": 7.641114407173632e-07,
      "loss": 1.5117,
      "step": 88122
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6928786039352417,
      "learning_rate": 7.633661007062864e-07,
      "loss": 1.46,
      "step": 88123
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6596100330352783,
      "learning_rate": 7.626211239243896e-07,
      "loss": 1.4927,
      "step": 88124
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6568031311035156,
      "learning_rate": 7.618765103725721e-07,
      "loss": 1.5379,
      "step": 88125
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6945708394050598,
      "learning_rate": 7.611322600517333e-07,
      "loss": 1.4918,
      "step": 88126
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6838776469230652,
      "learning_rate": 7.603883729628057e-07,
      "loss": 1.5169,
      "step": 88127
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6802995800971985,
      "learning_rate": 7.596448491066886e-07,
      "loss": 1.543,
      "step": 88128
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6770254373550415,
      "learning_rate": 7.58901688484248e-07,
      "loss": 1.5526,
      "step": 88129
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6896822452545166,
      "learning_rate": 7.581588910964164e-07,
      "loss": 1.4912,
      "step": 88130
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6815475225448608,
      "learning_rate": 7.574164569440932e-07,
      "loss": 1.4777,
      "step": 88131
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6753399968147278,
      "learning_rate": 7.566743860281776e-07,
      "loss": 1.4845,
      "step": 88132
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6897154450416565,
      "learning_rate": 7.559326783495689e-07,
      "loss": 1.5075,
      "step": 88133
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6688221096992493,
      "learning_rate": 7.551913339091664e-07,
      "loss": 1.4751,
      "step": 88134
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7457404136657715,
      "learning_rate": 7.544503527078694e-07,
      "loss": 1.5127,
      "step": 88135
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7019040584564209,
      "learning_rate": 7.537097347465437e-07,
      "loss": 1.5491,
      "step": 88136
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6746321320533752,
      "learning_rate": 7.529694800261554e-07,
      "loss": 1.4911,
      "step": 88137
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6881690621376038,
      "learning_rate": 7.522295885475704e-07,
      "loss": 1.4653,
      "step": 88138
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.653158962726593,
      "learning_rate": 7.51490060311688e-07,
      "loss": 1.5319,
      "step": 88139
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6962419748306274,
      "learning_rate": 7.507508953194075e-07,
      "loss": 1.5088,
      "step": 88140
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.672003984451294,
      "learning_rate": 7.500120935715947e-07,
      "loss": 1.5246,
      "step": 88141
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6797910332679749,
      "learning_rate": 7.492736550692157e-07,
      "loss": 1.5336,
      "step": 88142
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7052531838417053,
      "learning_rate": 7.485355798131031e-07,
      "loss": 1.5193,
      "step": 88143
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6872923970222473,
      "learning_rate": 7.477978678041895e-07,
      "loss": 1.4721,
      "step": 88144
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6648880243301392,
      "learning_rate": 7.470605190433409e-07,
      "loss": 1.5034,
      "step": 88145
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6734336614608765,
      "learning_rate": 7.463235335314566e-07,
      "loss": 1.5265,
      "step": 88146
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6904274225234985,
      "learning_rate": 7.45586911269469e-07,
      "loss": 1.5376,
      "step": 88147
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6743603348731995,
      "learning_rate": 7.44850652258211e-07,
      "loss": 1.5498,
      "step": 88148
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.690093457698822,
      "learning_rate": 7.441147564986482e-07,
      "loss": 1.5963,
      "step": 88149
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.666113555431366,
      "learning_rate": 7.433792239916136e-07,
      "loss": 1.473,
      "step": 88150
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6867477893829346,
      "learning_rate": 7.426440547380396e-07,
      "loss": 1.5125,
      "step": 88151
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7044937610626221,
      "learning_rate": 7.419092487387923e-07,
      "loss": 1.5288,
      "step": 88152
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6767261028289795,
      "learning_rate": 7.411748059947708e-07,
      "loss": 1.5054,
      "step": 88153
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6742393374443054,
      "learning_rate": 7.404407265069079e-07,
      "loss": 1.5554,
      "step": 88154
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6966835260391235,
      "learning_rate": 7.397070102760027e-07,
      "loss": 1.5073,
      "step": 88155
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6966835260391235,
      "learning_rate": 7.389736573030214e-07,
      "loss": 1.454,
      "step": 88156
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6836448311805725,
      "learning_rate": 7.382406675888297e-07,
      "loss": 1.4901,
      "step": 88157
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6611050367355347,
      "learning_rate": 7.37508041134327e-07,
      "loss": 1.5199,
      "step": 88158
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.686955451965332,
      "learning_rate": 7.367757779403794e-07,
      "loss": 1.4773,
      "step": 88159
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.68244868516922,
      "learning_rate": 7.360438780079192e-07,
      "loss": 1.4957,
      "step": 88160
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6527240872383118,
      "learning_rate": 7.353123413377793e-07,
      "loss": 1.4261,
      "step": 88161
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6725068688392639,
      "learning_rate": 7.345811679308922e-07,
      "loss": 1.4342,
      "step": 88162
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.671314537525177,
      "learning_rate": 7.338503577881238e-07,
      "loss": 1.493,
      "step": 88163
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6644114255905151,
      "learning_rate": 7.331199109103736e-07,
      "loss": 1.4889,
      "step": 88164
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6620259881019592,
      "learning_rate": 7.323898272985073e-07,
      "loss": 1.4573,
      "step": 88165
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6760842204093933,
      "learning_rate": 7.316601069534245e-07,
      "loss": 1.4356,
      "step": 88166
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6794610023498535,
      "learning_rate": 7.309307498760241e-07,
      "loss": 1.5235,
      "step": 88167
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6917219161987305,
      "learning_rate": 7.302017560671725e-07,
      "loss": 1.5326,
      "step": 88168
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6821909546852112,
      "learning_rate": 7.294731255277353e-07,
      "loss": 1.5038,
      "step": 88169
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6868621110916138,
      "learning_rate": 7.287448582586452e-07,
      "loss": 1.5604,
      "step": 88170
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7015218138694763,
      "learning_rate": 7.280169542607683e-07,
      "loss": 1.5452,
      "step": 88171
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6662905812263489,
      "learning_rate": 7.272894135349705e-07,
      "loss": 1.5279,
      "step": 88172
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6820874810218811,
      "learning_rate": 7.265622360821843e-07,
      "loss": 1.4861,
      "step": 88173
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6913861036300659,
      "learning_rate": 7.258354219032092e-07,
      "loss": 1.5255,
      "step": 88174
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7144318222999573,
      "learning_rate": 7.25108970999011e-07,
      "loss": 1.5214,
      "step": 88175
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6820948123931885,
      "learning_rate": 7.24382883370389e-07,
      "loss": 1.4689,
      "step": 88176
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.674629807472229,
      "learning_rate": 7.236571590183093e-07,
      "loss": 1.4589,
      "step": 88177
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6642623543739319,
      "learning_rate": 7.229317979436045e-07,
      "loss": 1.4803,
      "step": 88178
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6857464909553528,
      "learning_rate": 7.222068001471404e-07,
      "loss": 1.4493,
      "step": 88179
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6789534687995911,
      "learning_rate": 7.214821656298498e-07,
      "loss": 1.4354,
      "step": 88180
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6700171828269958,
      "learning_rate": 7.207578943925985e-07,
      "loss": 1.459,
      "step": 88181
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7018457651138306,
      "learning_rate": 7.200339864362192e-07,
      "loss": 1.4774,
      "step": 88182
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6846242547035217,
      "learning_rate": 7.193104417616114e-07,
      "loss": 1.5725,
      "step": 88183
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6705055832862854,
      "learning_rate": 7.185872603697074e-07,
      "loss": 1.5321,
      "step": 88184
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6775819659233093,
      "learning_rate": 7.178644422613067e-07,
      "loss": 1.5395,
      "step": 88185
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6424513459205627,
      "learning_rate": 7.171419874373085e-07,
      "loss": 1.5092,
      "step": 88186
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6638749837875366,
      "learning_rate": 7.164198958986455e-07,
      "loss": 1.5585,
      "step": 88187
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6600729823112488,
      "learning_rate": 7.156981676461171e-07,
      "loss": 1.5146,
      "step": 88188
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6704688668251038,
      "learning_rate": 7.149768026806557e-07,
      "loss": 1.4937,
      "step": 88189
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6748022437095642,
      "learning_rate": 7.142558010030941e-07,
      "loss": 1.4719,
      "step": 88190
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6831026673316956,
      "learning_rate": 7.135351626143315e-07,
      "loss": 1.5124,
      "step": 88191
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6882538795471191,
      "learning_rate": 7.128148875152673e-07,
      "loss": 1.4911,
      "step": 88192
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7001067399978638,
      "learning_rate": 7.120949757067007e-07,
      "loss": 1.5516,
      "step": 88193
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6788593530654907,
      "learning_rate": 7.113754271895977e-07,
      "loss": 1.5106,
      "step": 88194
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6816372871398926,
      "learning_rate": 7.10656241964791e-07,
      "loss": 1.5031,
      "step": 88195
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6570578813552856,
      "learning_rate": 7.099374200331131e-07,
      "loss": 1.4474,
      "step": 88196
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6939932703971863,
      "learning_rate": 7.092189613954636e-07,
      "loss": 1.5185,
      "step": 88197
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.677815854549408,
      "learning_rate": 7.085008660527746e-07,
      "loss": 1.4769,
      "step": 88198
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6905346512794495,
      "learning_rate": 7.077831340058459e-07,
      "loss": 1.458,
      "step": 88199
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6807441115379333,
      "learning_rate": 7.070657652555434e-07,
      "loss": 1.54,
      "step": 88200
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6956914067268372,
      "learning_rate": 7.063487598027995e-07,
      "loss": 1.5222,
      "step": 88201
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6838359236717224,
      "learning_rate": 7.056321176484469e-07,
      "loss": 1.4656,
      "step": 88202
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6814497113227844,
      "learning_rate": 7.049158387933184e-07,
      "loss": 1.4738,
      "step": 88203
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6568116545677185,
      "learning_rate": 7.041999232383466e-07,
      "loss": 1.5432,
      "step": 88204
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7101889848709106,
      "learning_rate": 7.034843709843974e-07,
      "loss": 1.525,
      "step": 88205
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6957727074623108,
      "learning_rate": 7.027691820323034e-07,
      "loss": 1.5393,
      "step": 88206
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7280542850494385,
      "learning_rate": 7.020543563829306e-07,
      "loss": 1.5562,
      "step": 88207
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6751971244812012,
      "learning_rate": 7.013398940371783e-07,
      "loss": 1.5173,
      "step": 88208
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6758604049682617,
      "learning_rate": 7.006257949959126e-07,
      "loss": 1.5011,
      "step": 88209
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7053930759429932,
      "learning_rate": 6.99912059259966e-07,
      "loss": 1.5592,
      "step": 88210
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6985203623771667,
      "learning_rate": 6.991986868302712e-07,
      "loss": 1.5692,
      "step": 88211
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6893173456192017,
      "learning_rate": 6.984856777075943e-07,
      "loss": 1.4965,
      "step": 88212
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6964125037193298,
      "learning_rate": 6.977730318928676e-07,
      "loss": 1.4955,
      "step": 88213
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6955748796463013,
      "learning_rate": 6.970607493869906e-07,
      "loss": 1.4724,
      "step": 88214
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.7113328576087952,
      "learning_rate": 6.963488301907294e-07,
      "loss": 1.5869,
      "step": 88215
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6671268939971924,
      "learning_rate": 6.956372743050165e-07,
      "loss": 1.4903,
      "step": 88216
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.6703460216522217,
      "learning_rate": 6.949260817306846e-07,
      "loss": 1.5288,
      "step": 88217
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6904951333999634,
      "learning_rate": 6.942152524686329e-07,
      "loss": 1.4848,
      "step": 88218
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6496363878250122,
      "learning_rate": 6.935047865196941e-07,
      "loss": 1.5054,
      "step": 88219
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6771202683448792,
      "learning_rate": 6.927946838847342e-07,
      "loss": 1.5521,
      "step": 88220
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6826456785202026,
      "learning_rate": 6.920849445646526e-07,
      "loss": 1.5028,
      "step": 88221
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7020556926727295,
      "learning_rate": 6.913755685602484e-07,
      "loss": 1.5803,
      "step": 88222
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6980736255645752,
      "learning_rate": 6.906665558724212e-07,
      "loss": 1.5135,
      "step": 88223
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.691826581954956,
      "learning_rate": 6.899579065020367e-07,
      "loss": 1.4825,
      "step": 88224
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6789268851280212,
      "learning_rate": 6.892496204499276e-07,
      "loss": 1.4451,
      "step": 88225
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6657665371894836,
      "learning_rate": 6.8854169771696e-07,
      "loss": 1.5504,
      "step": 88226
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6881142258644104,
      "learning_rate": 6.878341383039998e-07,
      "loss": 1.4995,
      "step": 88227
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7010305523872375,
      "learning_rate": 6.87126942211913e-07,
      "loss": 1.3799,
      "step": 88228
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.719078004360199,
      "learning_rate": 6.864201094415656e-07,
      "loss": 1.5572,
      "step": 88229
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6955155730247498,
      "learning_rate": 6.857136399937902e-07,
      "loss": 1.4452,
      "step": 88230
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6793938875198364,
      "learning_rate": 6.850075338694528e-07,
      "loss": 1.4702,
      "step": 88231
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6933653950691223,
      "learning_rate": 6.843017910694193e-07,
      "loss": 1.5221,
      "step": 88232
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6528310179710388,
      "learning_rate": 6.835964115945558e-07,
      "loss": 1.4603,
      "step": 88233
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6920353770256042,
      "learning_rate": 6.828913954456949e-07,
      "loss": 1.4713,
      "step": 88234
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6818217039108276,
      "learning_rate": 6.821867426237026e-07,
      "loss": 1.5304,
      "step": 88235
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6870729923248291,
      "learning_rate": 6.814824531294116e-07,
      "loss": 1.5171,
      "step": 88236
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6500408053398132,
      "learning_rate": 6.807785269637212e-07,
      "loss": 1.5127,
      "step": 88237
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6845364570617676,
      "learning_rate": 6.800749641274638e-07,
      "loss": 1.504,
      "step": 88238
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6763719320297241,
      "learning_rate": 6.793717646214725e-07,
      "loss": 1.5277,
      "step": 88239
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6832422018051147,
      "learning_rate": 6.786689284466462e-07,
      "loss": 1.482,
      "step": 88240
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6799605488777161,
      "learning_rate": 6.779664556038178e-07,
      "loss": 1.474,
      "step": 88241
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6727246046066284,
      "learning_rate": 6.772643460937866e-07,
      "loss": 1.5348,
      "step": 88242
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6639909148216248,
      "learning_rate": 6.765625999174851e-07,
      "loss": 1.5136,
      "step": 88243
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.67699134349823,
      "learning_rate": 6.75861217075746e-07,
      "loss": 1.4614,
      "step": 88244
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6983785033226013,
      "learning_rate": 6.751601975694021e-07,
      "loss": 1.5336,
      "step": 88245
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6757851839065552,
      "learning_rate": 6.74459541399286e-07,
      "loss": 1.5118,
      "step": 88246
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6726370453834534,
      "learning_rate": 6.737592485662968e-07,
      "loss": 1.5175,
      "step": 88247
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6681078672409058,
      "learning_rate": 6.730593190712674e-07,
      "loss": 1.5025,
      "step": 88248
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6827033758163452,
      "learning_rate": 6.723597529150304e-07,
      "loss": 1.5024,
      "step": 88249
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6760028004646301,
      "learning_rate": 6.716605500984185e-07,
      "loss": 1.4529,
      "step": 88250
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6760300397872925,
      "learning_rate": 6.709617106223308e-07,
      "loss": 1.5702,
      "step": 88251
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6898877620697021,
      "learning_rate": 6.702632344876002e-07,
      "loss": 1.4632,
      "step": 88252
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6765080094337463,
      "learning_rate": 6.695651216950593e-07,
      "loss": 1.5215,
      "step": 88253
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6812049150466919,
      "learning_rate": 6.688673722455406e-07,
      "loss": 1.4568,
      "step": 88254
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6822394132614136,
      "learning_rate": 6.681699861399437e-07,
      "loss": 1.4509,
      "step": 88255
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6887877583503723,
      "learning_rate": 6.674729633790676e-07,
      "loss": 1.4816,
      "step": 88256
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6891772150993347,
      "learning_rate": 6.667763039637786e-07,
      "loss": 1.5487,
      "step": 88257
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6484516263008118,
      "learning_rate": 6.660800078949091e-07,
      "loss": 1.4846,
      "step": 88258
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6594794988632202,
      "learning_rate": 6.653840751733252e-07,
      "loss": 1.4578,
      "step": 88259
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6819721460342407,
      "learning_rate": 6.646885057998597e-07,
      "loss": 1.5189,
      "step": 88260
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6744072437286377,
      "learning_rate": 6.639932997753783e-07,
      "loss": 1.5583,
      "step": 88261
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6999732851982117,
      "learning_rate": 6.632984571006805e-07,
      "loss": 1.5342,
      "step": 88262
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.67432701587677,
      "learning_rate": 6.626039777766323e-07,
      "loss": 1.4571,
      "step": 88263
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6600305438041687,
      "learning_rate": 6.619098618040663e-07,
      "loss": 1.4772,
      "step": 88264
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6927492022514343,
      "learning_rate": 6.612161091838486e-07,
      "loss": 1.4889,
      "step": 88265
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6930143237113953,
      "learning_rate": 6.605227199168117e-07,
      "loss": 1.5487,
      "step": 88266
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6788581609725952,
      "learning_rate": 6.598296940037884e-07,
      "loss": 1.4965,
      "step": 88267
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6739115118980408,
      "learning_rate": 6.591370314456445e-07,
      "loss": 1.4881,
      "step": 88268
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6940559148788452,
      "learning_rate": 6.584447322431796e-07,
      "loss": 1.5774,
      "step": 88269
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6994192004203796,
      "learning_rate": 6.577527963972596e-07,
      "loss": 1.4225,
      "step": 88270
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6878838539123535,
      "learning_rate": 6.570612239087169e-07,
      "loss": 1.521,
      "step": 88271
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6845344305038452,
      "learning_rate": 6.563700147784179e-07,
      "loss": 1.4884,
      "step": 88272
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6983193755149841,
      "learning_rate": 6.556791690071616e-07,
      "loss": 1.4696,
      "step": 88273
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.695030152797699,
      "learning_rate": 6.549886865958143e-07,
      "loss": 1.5024,
      "step": 88274
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6908615827560425,
      "learning_rate": 6.542985675452083e-07,
      "loss": 1.5581,
      "step": 88275
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6782512664794922,
      "learning_rate": 6.536088118561766e-07,
      "loss": 1.4852,
      "step": 88276
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6615232229232788,
      "learning_rate": 6.529194195295517e-07,
      "loss": 1.4686,
      "step": 88277
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.68231600522995,
      "learning_rate": 6.522303905661663e-07,
      "loss": 1.4423,
      "step": 88278
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6916810274124146,
      "learning_rate": 6.51541724966853e-07,
      "loss": 1.5204,
      "step": 88279
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.686750054359436,
      "learning_rate": 6.508534227325112e-07,
      "loss": 1.5191,
      "step": 88280
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7033838033676147,
      "learning_rate": 6.501654838638736e-07,
      "loss": 1.5205,
      "step": 88281
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6892781853675842,
      "learning_rate": 6.494779083618729e-07,
      "loss": 1.5406,
      "step": 88282
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6675111651420593,
      "learning_rate": 6.487906962272749e-07,
      "loss": 1.4902,
      "step": 88283
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6814632415771484,
      "learning_rate": 6.481038474609457e-07,
      "loss": 1.5427,
      "step": 88284
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6759030222892761,
      "learning_rate": 6.474173620636846e-07,
      "loss": 1.4893,
      "step": 88285
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6815593838691711,
      "learning_rate": 6.467312400363911e-07,
      "loss": 1.5135,
      "step": 88286
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.666598379611969,
      "learning_rate": 6.46045481379831e-07,
      "loss": 1.5404,
      "step": 88287
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6723723411560059,
      "learning_rate": 6.453600860948705e-07,
      "loss": 1.4792,
      "step": 88288
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6713853478431702,
      "learning_rate": 6.44675054182342e-07,
      "loss": 1.495,
      "step": 88289
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7392382621765137,
      "learning_rate": 6.439903856430784e-07,
      "loss": 1.5237,
      "step": 88290
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.687402606010437,
      "learning_rate": 6.433060804778789e-07,
      "loss": 1.51,
      "step": 88291
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7092836499214172,
      "learning_rate": 6.426221386876096e-07,
      "loss": 1.5196,
      "step": 88292
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7084774374961853,
      "learning_rate": 6.419385602730698e-07,
      "loss": 1.5255,
      "step": 88293
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6770832538604736,
      "learning_rate": 6.412553452351255e-07,
      "loss": 1.5056,
      "step": 88294
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6926321983337402,
      "learning_rate": 6.405724935746093e-07,
      "loss": 1.5246,
      "step": 88295
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6842014789581299,
      "learning_rate": 6.398900052922873e-07,
      "loss": 1.5451,
      "step": 88296
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.690693199634552,
      "learning_rate": 6.392078803890588e-07,
      "loss": 1.4651,
      "step": 88297
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6542534232139587,
      "learning_rate": 6.385261188657231e-07,
      "loss": 1.4775,
      "step": 88298
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6724562048912048,
      "learning_rate": 6.37844720723113e-07,
      "loss": 1.5138,
      "step": 88299
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6741915345191956,
      "learning_rate": 6.371636859620277e-07,
      "loss": 1.4863,
      "step": 88300
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6888860464096069,
      "learning_rate": 6.364830145833332e-07,
      "loss": 1.5132,
      "step": 88301
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6853936910629272,
      "learning_rate": 6.358027065878291e-07,
      "loss": 1.4938,
      "step": 88302
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6659111976623535,
      "learning_rate": 6.351227619763477e-07,
      "loss": 1.515,
      "step": 88303
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6850138902664185,
      "learning_rate": 6.344431807497219e-07,
      "loss": 1.5252,
      "step": 88304
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7326382398605347,
      "learning_rate": 6.337639629087843e-07,
      "loss": 1.4868,
      "step": 88305
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6837446689605713,
      "learning_rate": 6.330851084543343e-07,
      "loss": 1.4737,
      "step": 88306
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6887086629867554,
      "learning_rate": 6.324066173872044e-07,
      "loss": 1.5176,
      "step": 88307
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6671529412269592,
      "learning_rate": 6.317284897082608e-07,
      "loss": 1.4643,
      "step": 88308
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6772747039794922,
      "learning_rate": 6.310507254182695e-07,
      "loss": 1.5556,
      "step": 88309
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6781588792800903,
      "learning_rate": 6.303733245180631e-07,
      "loss": 1.4555,
      "step": 88310
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6863892674446106,
      "learning_rate": 6.296962870084743e-07,
      "loss": 1.5059,
      "step": 88311
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6737968325614929,
      "learning_rate": 6.290196128903357e-07,
      "loss": 1.5412,
      "step": 88312
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6740246415138245,
      "learning_rate": 6.283433021644136e-07,
      "loss": 1.45,
      "step": 88313
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6774259805679321,
      "learning_rate": 6.276673548316069e-07,
      "loss": 1.4723,
      "step": 88314
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6822248697280884,
      "learning_rate": 6.269917708927152e-07,
      "loss": 1.5157,
      "step": 88315
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6924483180046082,
      "learning_rate": 6.263165503485379e-07,
      "loss": 1.5181,
      "step": 88316
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.685917854309082,
      "learning_rate": 6.256416931998742e-07,
      "loss": 1.5992,
      "step": 88317
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6693779230117798,
      "learning_rate": 6.249671994475902e-07,
      "loss": 1.5336,
      "step": 88318
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6841054558753967,
      "learning_rate": 6.242930690924853e-07,
      "loss": 1.4763,
      "step": 88319
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6600345969200134,
      "learning_rate": 6.23619302135392e-07,
      "loss": 1.4437,
      "step": 88320
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6539130806922913,
      "learning_rate": 6.229458985771096e-07,
      "loss": 1.5272,
      "step": 88321
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6838574409484863,
      "learning_rate": 6.222728584184377e-07,
      "loss": 1.5293,
      "step": 88322
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6780452132225037,
      "learning_rate": 6.21600181660209e-07,
      "loss": 1.543,
      "step": 88323
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6986072659492493,
      "learning_rate": 6.209278683032892e-07,
      "loss": 1.5042,
      "step": 88324
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6497212052345276,
      "learning_rate": 6.202559183484112e-07,
      "loss": 1.4738,
      "step": 88325
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6761096715927124,
      "learning_rate": 6.19584331796441e-07,
      "loss": 1.5009,
      "step": 88326
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7016533017158508,
      "learning_rate": 6.189131086482113e-07,
      "loss": 1.5509,
      "step": 88327
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6811011433601379,
      "learning_rate": 6.18242248904488e-07,
      "loss": 1.4933,
      "step": 88328
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6900737881660461,
      "learning_rate": 6.175717525661039e-07,
      "loss": 1.5294,
      "step": 88329
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6733635067939758,
      "learning_rate": 6.169016196338583e-07,
      "loss": 1.5638,
      "step": 88330
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6873501539230347,
      "learning_rate": 6.162318501086172e-07,
      "loss": 1.4209,
      "step": 88331
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6853983402252197,
      "learning_rate": 6.155624439911466e-07,
      "loss": 1.5219,
      "step": 88332
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6788124442100525,
      "learning_rate": 6.148934012822793e-07,
      "loss": 1.4857,
      "step": 88333
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6551510691642761,
      "learning_rate": 6.142247219827812e-07,
      "loss": 1.5475,
      "step": 88334
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6844115853309631,
      "learning_rate": 6.135564060935516e-07,
      "loss": 1.5676,
      "step": 88335
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6824526786804199,
      "learning_rate": 6.128884536153233e-07,
      "loss": 1.4923,
      "step": 88336
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7169669270515442,
      "learning_rate": 6.12220864548929e-07,
      "loss": 1.4543,
      "step": 88337
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7035976052284241,
      "learning_rate": 6.115536388952013e-07,
      "loss": 1.5552,
      "step": 88338
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6799030900001526,
      "learning_rate": 6.108867766549397e-07,
      "loss": 1.455,
      "step": 88339
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.685396671295166,
      "learning_rate": 6.102202778289434e-07,
      "loss": 1.4479,
      "step": 88340
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6679919958114624,
      "learning_rate": 6.095541424180117e-07,
      "loss": 1.4913,
      "step": 88341
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6731212735176086,
      "learning_rate": 6.088883704229774e-07,
      "loss": 1.4608,
      "step": 88342
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6967595219612122,
      "learning_rate": 6.082229618446399e-07,
      "loss": 1.506,
      "step": 88343
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7061420679092407,
      "learning_rate": 6.075579166837985e-07,
      "loss": 1.5464,
      "step": 88344
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6907206773757935,
      "learning_rate": 6.068932349412859e-07,
      "loss": 1.4791,
      "step": 88345
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6853601932525635,
      "learning_rate": 6.062289166179013e-07,
      "loss": 1.5696,
      "step": 88346
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6859831809997559,
      "learning_rate": 6.055649617144109e-07,
      "loss": 1.4825,
      "step": 88347
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6731446981430054,
      "learning_rate": 6.049013702316807e-07,
      "loss": 1.4736,
      "step": 88348
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.673646092414856,
      "learning_rate": 6.042381421704434e-07,
      "loss": 1.4824,
      "step": 88349
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6720136404037476,
      "learning_rate": 6.03575277531565e-07,
      "loss": 1.5406,
      "step": 88350
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.658898115158081,
      "learning_rate": 6.029127763158448e-07,
      "loss": 1.5407,
      "step": 88351
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6575639843940735,
      "learning_rate": 6.022506385240822e-07,
      "loss": 1.5512,
      "step": 88352
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6736043095588684,
      "learning_rate": 6.015888641570765e-07,
      "loss": 1.534,
      "step": 88353
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6979213356971741,
      "learning_rate": 6.009274532155939e-07,
      "loss": 1.4667,
      "step": 88354
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6836796402931213,
      "learning_rate": 6.002664057005003e-07,
      "loss": 1.509,
      "step": 88355
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6952794790267944,
      "learning_rate": 5.996057216125616e-07,
      "loss": 1.5292,
      "step": 88356
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6683855652809143,
      "learning_rate": 5.989454009525773e-07,
      "loss": 1.4509,
      "step": 88357
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6338175535202026,
      "learning_rate": 5.982854437213802e-07,
      "loss": 1.5205,
      "step": 88358
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6984263062477112,
      "learning_rate": 5.976258499197028e-07,
      "loss": 1.5389,
      "step": 88359
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6815156936645508,
      "learning_rate": 5.969666195484446e-07,
      "loss": 1.5347,
      "step": 88360
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6680080890655518,
      "learning_rate": 5.963077526083382e-07,
      "loss": 1.474,
      "step": 88361
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6935611963272095,
      "learning_rate": 5.956492491001829e-07,
      "loss": 1.572,
      "step": 88362
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6883488893508911,
      "learning_rate": 5.949911090248117e-07,
      "loss": 1.5188,
      "step": 88363
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6761066317558289,
      "learning_rate": 5.943333323829901e-07,
      "loss": 1.4523,
      "step": 88364
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6777828335762024,
      "learning_rate": 5.936759191755513e-07,
      "loss": 1.5399,
      "step": 88365
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7171905636787415,
      "learning_rate": 5.930188694032612e-07,
      "loss": 1.5587,
      "step": 88366
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6989488005638123,
      "learning_rate": 5.92362183066919e-07,
      "loss": 1.5126,
      "step": 88367
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.666553258895874,
      "learning_rate": 5.917058601673575e-07,
      "loss": 1.4358,
      "step": 88368
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7178884148597717,
      "learning_rate": 5.910499007053426e-07,
      "loss": 1.4898,
      "step": 88369
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6825856566429138,
      "learning_rate": 5.903943046816739e-07,
      "loss": 1.4851,
      "step": 88370
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6766983866691589,
      "learning_rate": 5.897390720971507e-07,
      "loss": 1.5353,
      "step": 88371
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6708129048347473,
      "learning_rate": 5.890842029525722e-07,
      "loss": 1.5507,
      "step": 88372
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.667155385017395,
      "learning_rate": 5.884296972487379e-07,
      "loss": 1.5543,
      "step": 88373
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6595723628997803,
      "learning_rate": 5.877755549864139e-07,
      "loss": 1.4945,
      "step": 88374
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6670225262641907,
      "learning_rate": 5.871217761664326e-07,
      "loss": 1.5285,
      "step": 88375
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6921278238296509,
      "learning_rate": 5.864683607895604e-07,
      "loss": 1.4355,
      "step": 88376
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6808072328567505,
      "learning_rate": 5.858153088565965e-07,
      "loss": 1.4892,
      "step": 88377
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6992495059967041,
      "learning_rate": 5.851626203683402e-07,
      "loss": 1.5398,
      "step": 88378
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6978640556335449,
      "learning_rate": 5.845102953255909e-07,
      "loss": 1.5339,
      "step": 88379
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7152296900749207,
      "learning_rate": 5.838583337290815e-07,
      "loss": 1.5914,
      "step": 88380
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6553633213043213,
      "learning_rate": 5.83206735579711e-07,
      "loss": 1.4783,
      "step": 88381
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.740710973739624,
      "learning_rate": 5.825555008781791e-07,
      "loss": 1.5197,
      "step": 88382
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6705943942070007,
      "learning_rate": 5.819046296253182e-07,
      "loss": 1.5454,
      "step": 88383
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6982267498970032,
      "learning_rate": 5.812541218218947e-07,
      "loss": 1.5843,
      "step": 88384
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6784852147102356,
      "learning_rate": 5.806039774687077e-07,
      "loss": 1.5225,
      "step": 88385
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6748717427253723,
      "learning_rate": 5.799541965665899e-07,
      "loss": 1.4221,
      "step": 88386
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6698819398880005,
      "learning_rate": 5.793047791162408e-07,
      "loss": 1.5076,
      "step": 88387
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6922643780708313,
      "learning_rate": 5.786557251185265e-07,
      "loss": 1.4863,
      "step": 88388
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6929845809936523,
      "learning_rate": 5.780070345742128e-07,
      "loss": 1.619,
      "step": 88389
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6936981678009033,
      "learning_rate": 5.773587074840658e-07,
      "loss": 1.5165,
      "step": 88390
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6750256419181824,
      "learning_rate": 5.767107438488849e-07,
      "loss": 1.474,
      "step": 88391
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6731579899787903,
      "learning_rate": 5.760631436694696e-07,
      "loss": 1.4577,
      "step": 88392
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6946148872375488,
      "learning_rate": 5.754159069465858e-07,
      "loss": 1.5673,
      "step": 88393
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6825118064880371,
      "learning_rate": 5.747690336810329e-07,
      "loss": 1.5612,
      "step": 88394
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6937561631202698,
      "learning_rate": 5.741225238736102e-07,
      "loss": 1.5454,
      "step": 88395
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6944165825843811,
      "learning_rate": 5.734763775250506e-07,
      "loss": 1.4813,
      "step": 88396
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6663886904716492,
      "learning_rate": 5.728305946361866e-07,
      "loss": 1.4527,
      "step": 88397
    },
    {
      "epoch": 2.94,
      "grad_norm": 1.3139350414276123,
      "learning_rate": 5.721851752077844e-07,
      "loss": 1.5477,
      "step": 88398
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6916369795799255,
      "learning_rate": 5.715401192406432e-07,
      "loss": 1.5581,
      "step": 88399
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.656785786151886,
      "learning_rate": 5.708954267355293e-07,
      "loss": 1.4852,
      "step": 88400
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7658509016036987,
      "learning_rate": 5.702510976932084e-07,
      "loss": 1.5827,
      "step": 88401
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6818541884422302,
      "learning_rate": 5.696071321145135e-07,
      "loss": 1.5787,
      "step": 88402
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6957446932792664,
      "learning_rate": 5.689635300001772e-07,
      "loss": 1.5571,
      "step": 88403
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6943032741546631,
      "learning_rate": 5.683202913510321e-07,
      "loss": 1.4895,
      "step": 88404
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6756089925765991,
      "learning_rate": 5.676774161677778e-07,
      "loss": 1.4951,
      "step": 88405
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6595644950866699,
      "learning_rate": 5.670349044512801e-07,
      "loss": 1.4859,
      "step": 88406
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6724052429199219,
      "learning_rate": 5.663927562022719e-07,
      "loss": 1.5124,
      "step": 88407
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6696956753730774,
      "learning_rate": 5.657509714215525e-07,
      "loss": 1.5543,
      "step": 88408
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6451584696769714,
      "learning_rate": 5.651095501098879e-07,
      "loss": 1.4547,
      "step": 88409
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7074089646339417,
      "learning_rate": 5.644684922680442e-07,
      "loss": 1.4645,
      "step": 88410
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6628568768501282,
      "learning_rate": 5.638277978968208e-07,
      "loss": 1.4741,
      "step": 88411
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7120940685272217,
      "learning_rate": 5.631874669970171e-07,
      "loss": 1.4879,
      "step": 88412
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6823024153709412,
      "learning_rate": 5.625474995693324e-07,
      "loss": 1.4252,
      "step": 88413
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6873824000358582,
      "learning_rate": 5.619078956146328e-07,
      "loss": 1.4728,
      "step": 88414
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6750771999359131,
      "learning_rate": 5.612686551336509e-07,
      "loss": 1.5059,
      "step": 88415
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6832801699638367,
      "learning_rate": 5.606297781271862e-07,
      "loss": 1.6321,
      "step": 88416
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.706243634223938,
      "learning_rate": 5.599912645959714e-07,
      "loss": 1.5243,
      "step": 88417
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6811776757240295,
      "learning_rate": 5.593531145408059e-07,
      "loss": 1.5767,
      "step": 88418
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6540941596031189,
      "learning_rate": 5.58715327962489e-07,
      "loss": 1.5546,
      "step": 88419
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6675684452056885,
      "learning_rate": 5.580779048617534e-07,
      "loss": 1.4824,
      "step": 88420
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.694209098815918,
      "learning_rate": 5.574408452393986e-07,
      "loss": 1.4445,
      "step": 88421
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7023363709449768,
      "learning_rate": 5.568041490961572e-07,
      "loss": 1.4998,
      "step": 88422
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6782296299934387,
      "learning_rate": 5.56167816432862e-07,
      "loss": 1.5437,
      "step": 88423
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7143628597259521,
      "learning_rate": 5.555318472502456e-07,
      "loss": 1.5104,
      "step": 88424
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6738459467887878,
      "learning_rate": 5.548962415491076e-07,
      "loss": 1.4482,
      "step": 88425
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6856696605682373,
      "learning_rate": 5.542609993302138e-07,
      "loss": 1.4857,
      "step": 88426
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7013276815414429,
      "learning_rate": 5.536261205943304e-07,
      "loss": 1.4914,
      "step": 88427
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6906539797782898,
      "learning_rate": 5.529916053421901e-07,
      "loss": 1.5273,
      "step": 88428
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.69521564245224,
      "learning_rate": 5.523574535746256e-07,
      "loss": 1.4771,
      "step": 88429
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7090643048286438,
      "learning_rate": 5.517236652923695e-07,
      "loss": 1.5695,
      "step": 88430
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6940644383430481,
      "learning_rate": 5.510902404961882e-07,
      "loss": 1.5487,
      "step": 88431
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6871088743209839,
      "learning_rate": 5.504571791868473e-07,
      "loss": 1.4755,
      "step": 88432
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7007542848587036,
      "learning_rate": 5.498244813651465e-07,
      "loss": 1.5091,
      "step": 88433
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.674705445766449,
      "learning_rate": 5.491921470318517e-07,
      "loss": 1.5192,
      "step": 88434
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6657202243804932,
      "learning_rate": 5.485601761876956e-07,
      "loss": 1.4593,
      "step": 88435
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7063313722610474,
      "learning_rate": 5.479285688334778e-07,
      "loss": 1.4784,
      "step": 88436
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7263270020484924,
      "learning_rate": 5.472973249699642e-07,
      "loss": 1.5335,
      "step": 88437
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6937819719314575,
      "learning_rate": 5.466664445978874e-07,
      "loss": 1.5633,
      "step": 88438
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6764401197433472,
      "learning_rate": 5.46035927718047e-07,
      "loss": 1.5308,
      "step": 88439
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7017395496368408,
      "learning_rate": 5.454057743311757e-07,
      "loss": 1.5146,
      "step": 88440
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6990432143211365,
      "learning_rate": 5.447759844380728e-07,
      "loss": 1.5685,
      "step": 88441
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6724985837936401,
      "learning_rate": 5.441465580395044e-07,
      "loss": 1.473,
      "step": 88442
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6860383749008179,
      "learning_rate": 5.435174951362031e-07,
      "loss": 1.4762,
      "step": 88443
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6730924248695374,
      "learning_rate": 5.428887957289352e-07,
      "loss": 1.5307,
      "step": 88444
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6563430428504944,
      "learning_rate": 5.422604598184999e-07,
      "loss": 1.4914,
      "step": 88445
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6872316598892212,
      "learning_rate": 5.416324874056299e-07,
      "loss": 1.5783,
      "step": 88446
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6701076626777649,
      "learning_rate": 5.410048784911247e-07,
      "loss": 1.4984,
      "step": 88447
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6616822481155396,
      "learning_rate": 5.403776330756837e-07,
      "loss": 1.433,
      "step": 88448
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6449838280677795,
      "learning_rate": 5.397507511601062e-07,
      "loss": 1.5165,
      "step": 88449
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6790706515312195,
      "learning_rate": 5.391242327451251e-07,
      "loss": 1.4601,
      "step": 88450
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6928005218505859,
      "learning_rate": 5.384980778315396e-07,
      "loss": 1.4407,
      "step": 88451
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7025150060653687,
      "learning_rate": 5.378722864201157e-07,
      "loss": 1.5756,
      "step": 88452
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.690261721611023,
      "learning_rate": 5.372468585115864e-07,
      "loss": 1.5082,
      "step": 88453
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.670964777469635,
      "learning_rate": 5.366217941066842e-07,
      "loss": 1.5018,
      "step": 88454
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6683378219604492,
      "learning_rate": 5.359970932062418e-07,
      "loss": 1.5365,
      "step": 88455
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.670062780380249,
      "learning_rate": 5.353727558109256e-07,
      "loss": 1.4723,
      "step": 88456
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6920462250709534,
      "learning_rate": 5.347487819216012e-07,
      "loss": 1.5588,
      "step": 88457
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6846667528152466,
      "learning_rate": 5.34125171538935e-07,
      "loss": 1.5941,
      "step": 88458
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.69575434923172,
      "learning_rate": 5.335019246636929e-07,
      "loss": 1.5214,
      "step": 88459
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6698288321495056,
      "learning_rate": 5.328790412966744e-07,
      "loss": 1.4995,
      "step": 88460
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7050756812095642,
      "learning_rate": 5.322565214386453e-07,
      "loss": 1.5865,
      "step": 88461
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6826780438423157,
      "learning_rate": 5.316343650903054e-07,
      "loss": 1.5209,
      "step": 88462
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7059258818626404,
      "learning_rate": 5.310125722524205e-07,
      "loss": 1.5186,
      "step": 88463
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6802845001220703,
      "learning_rate": 5.303911429257901e-07,
      "loss": 1.5101,
      "step": 88464
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6721900701522827,
      "learning_rate": 5.297700771111468e-07,
      "loss": 1.4735,
      "step": 88465
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7093005776405334,
      "learning_rate": 5.291493748092235e-07,
      "loss": 1.5933,
      "step": 88466
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6643155217170715,
      "learning_rate": 5.285290360207861e-07,
      "loss": 1.4489,
      "step": 88467
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6624537706375122,
      "learning_rate": 5.279090607466008e-07,
      "loss": 1.5357,
      "step": 88468
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6795207858085632,
      "learning_rate": 5.272894489873669e-07,
      "loss": 1.5023,
      "step": 88469
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6688997149467468,
      "learning_rate": 5.266702007439171e-07,
      "loss": 1.5495,
      "step": 88470
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6900083422660828,
      "learning_rate": 5.260513160169511e-07,
      "loss": 1.5292,
      "step": 88471
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6779896020889282,
      "learning_rate": 5.254327948072679e-07,
      "loss": 1.4503,
      "step": 88472
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.678534209728241,
      "learning_rate": 5.248146371155337e-07,
      "loss": 1.5766,
      "step": 88473
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6502814888954163,
      "learning_rate": 5.241968429425813e-07,
      "loss": 1.43,
      "step": 88474
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6647350192070007,
      "learning_rate": 5.235794122891102e-07,
      "loss": 1.4693,
      "step": 88475
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6705507636070251,
      "learning_rate": 5.229623451558861e-07,
      "loss": 1.4338,
      "step": 88476
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6747429966926575,
      "learning_rate": 5.223456415436755e-07,
      "loss": 1.4544,
      "step": 88477
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.715337336063385,
      "learning_rate": 5.217293014532109e-07,
      "loss": 1.5489,
      "step": 88478
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.673869788646698,
      "learning_rate": 5.211133248852251e-07,
      "loss": 1.5398,
      "step": 88479
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6584217548370361,
      "learning_rate": 5.204977118404841e-07,
      "loss": 1.4739,
      "step": 88480
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7176409363746643,
      "learning_rate": 5.19882462319754e-07,
      "loss": 1.5284,
      "step": 88481
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6715894341468811,
      "learning_rate": 5.192675763237675e-07,
      "loss": 1.4914,
      "step": 88482
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6966276168823242,
      "learning_rate": 5.186530538532241e-07,
      "loss": 1.4731,
      "step": 88483
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6563764810562134,
      "learning_rate": 5.180388949089231e-07,
      "loss": 1.4812,
      "step": 88484
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6832476258277893,
      "learning_rate": 5.174250994915974e-07,
      "loss": 1.4916,
      "step": 88485
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6898760199546814,
      "learning_rate": 5.168116676020128e-07,
      "loss": 1.4569,
      "step": 88486
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6652471423149109,
      "learning_rate": 5.16198599240869e-07,
      "loss": 1.5466,
      "step": 88487
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6658576726913452,
      "learning_rate": 5.155858944089319e-07,
      "loss": 1.5406,
      "step": 88488
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6668951511383057,
      "learning_rate": 5.149735531069676e-07,
      "loss": 1.4885,
      "step": 88489
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.679899275302887,
      "learning_rate": 5.143615753356756e-07,
      "loss": 1.5178,
      "step": 88490
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6974260210990906,
      "learning_rate": 5.137499610958218e-07,
      "loss": 1.4617,
      "step": 88491
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7007708549499512,
      "learning_rate": 5.13138710388139e-07,
      "loss": 1.5306,
      "step": 88492
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6967523097991943,
      "learning_rate": 5.125278232134267e-07,
      "loss": 1.5949,
      "step": 88493
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6948637366294861,
      "learning_rate": 5.119172995723175e-07,
      "loss": 1.5741,
      "step": 88494
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6709391474723816,
      "learning_rate": 5.113071394656442e-07,
      "loss": 1.4661,
      "step": 88495
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6831666231155396,
      "learning_rate": 5.106973428941397e-07,
      "loss": 1.4421,
      "step": 88496
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6845070123672485,
      "learning_rate": 5.100879098584698e-07,
      "loss": 1.524,
      "step": 88497
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6908189654350281,
      "learning_rate": 5.094788403594674e-07,
      "loss": 1.4949,
      "step": 88498
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6731899976730347,
      "learning_rate": 5.088701343977985e-07,
      "loss": 1.4734,
      "step": 88499
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.675865113735199,
      "learning_rate": 5.082617919742627e-07,
      "loss": 1.5709,
      "step": 88500
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6689738631248474,
      "learning_rate": 5.076538130895591e-07,
      "loss": 1.5039,
      "step": 88501
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6833189725875854,
      "learning_rate": 5.070461977444207e-07,
      "loss": 1.4768,
      "step": 88502
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7082245945930481,
      "learning_rate": 5.064389459396134e-07,
      "loss": 1.5193,
      "step": 88503
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6992988586425781,
      "learning_rate": 5.058320576758701e-07,
      "loss": 1.5002,
      "step": 88504
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.7022673487663269,
      "learning_rate": 5.052255329538901e-07,
      "loss": 1.4943,
      "step": 88505
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6580194234848022,
      "learning_rate": 5.046193717744729e-07,
      "loss": 1.4137,
      "step": 88506
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6898900270462036,
      "learning_rate": 5.040135741382844e-07,
      "loss": 1.5074,
      "step": 88507
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6777606010437012,
      "learning_rate": 5.034081400461242e-07,
      "loss": 1.5396,
      "step": 88508
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6877686977386475,
      "learning_rate": 5.028030694986585e-07,
      "loss": 1.5242,
      "step": 88509
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.676421582698822,
      "learning_rate": 5.021983624967196e-07,
      "loss": 1.4738,
      "step": 88510
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6912979483604431,
      "learning_rate": 5.015940190409407e-07,
      "loss": 1.4537,
      "step": 88511
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.70689857006073,
      "learning_rate": 5.009900391320876e-07,
      "loss": 1.5365,
      "step": 88512
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6877211332321167,
      "learning_rate": 5.003864227709265e-07,
      "loss": 1.5123,
      "step": 88513
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6772530674934387,
      "learning_rate": 4.9978316995819e-07,
      "loss": 1.5072,
      "step": 88514
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6863123178482056,
      "learning_rate": 4.991802806945444e-07,
      "loss": 1.5056,
      "step": 88515
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6938626766204834,
      "learning_rate": 4.98577754980789e-07,
      "loss": 1.5208,
      "step": 88516
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.6831555962562561,
      "learning_rate": 4.979755928176232e-07,
      "loss": 1.5231,
      "step": 88517
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6758492588996887,
      "learning_rate": 4.973737942057798e-07,
      "loss": 1.4993,
      "step": 88518
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6559966802597046,
      "learning_rate": 4.967723591459916e-07,
      "loss": 1.456,
      "step": 88519
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6983048319816589,
      "learning_rate": 4.961712876389912e-07,
      "loss": 1.529,
      "step": 88520
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6864410042762756,
      "learning_rate": 4.955705796855447e-07,
      "loss": 1.4351,
      "step": 88521
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7155336737632751,
      "learning_rate": 4.949702352863183e-07,
      "loss": 1.627,
      "step": 88522
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.68917316198349,
      "learning_rate": 4.94370254442078e-07,
      "loss": 1.4875,
      "step": 88523
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.683739423751831,
      "learning_rate": 4.937706371535233e-07,
      "loss": 1.4639,
      "step": 88524
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.667930543422699,
      "learning_rate": 4.931713834214201e-07,
      "loss": 1.5041,
      "step": 88525
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6770384907722473,
      "learning_rate": 4.925724932464681e-07,
      "loss": 1.5448,
      "step": 88526
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7039183974266052,
      "learning_rate": 4.919739666293998e-07,
      "loss": 1.5258,
      "step": 88527
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6913076043128967,
      "learning_rate": 4.91375803570948e-07,
      "loss": 1.5833,
      "step": 88528
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6759070754051208,
      "learning_rate": 4.907780040718124e-07,
      "loss": 1.4711,
      "step": 88529
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6775410771369934,
      "learning_rate": 4.901805681327587e-07,
      "loss": 1.548,
      "step": 88530
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6687372326850891,
      "learning_rate": 4.895834957545197e-07,
      "loss": 1.5099,
      "step": 88531
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6905230283737183,
      "learning_rate": 4.889867869377617e-07,
      "loss": 1.5737,
      "step": 88532
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6832408308982849,
      "learning_rate": 4.88390441683284e-07,
      "loss": 1.5795,
      "step": 88533
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6816877126693726,
      "learning_rate": 4.877944599917194e-07,
      "loss": 1.5162,
      "step": 88534
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.687877357006073,
      "learning_rate": 4.871988418638673e-07,
      "loss": 1.5066,
      "step": 88535
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6716144680976868,
      "learning_rate": 4.86603587300427e-07,
      "loss": 1.4853,
      "step": 88536
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6904360055923462,
      "learning_rate": 4.860086963020982e-07,
      "loss": 1.5416,
      "step": 88537
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.692416787147522,
      "learning_rate": 4.854141688696467e-07,
      "loss": 1.5128,
      "step": 88538
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6666001677513123,
      "learning_rate": 4.848200050037721e-07,
      "loss": 1.4285,
      "step": 88539
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6915308237075806,
      "learning_rate": 4.842262047051737e-07,
      "loss": 1.5327,
      "step": 88540
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6737636923789978,
      "learning_rate": 4.836327679746177e-07,
      "loss": 1.5074,
      "step": 88541
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6798465847969055,
      "learning_rate": 4.830396948127701e-07,
      "loss": 1.4835,
      "step": 88542
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.669905960559845,
      "learning_rate": 4.824469852204305e-07,
      "loss": 1.4796,
      "step": 88543
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.663759171962738,
      "learning_rate": 4.818546391982314e-07,
      "loss": 1.4545,
      "step": 88544
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7041178345680237,
      "learning_rate": 4.812626567469058e-07,
      "loss": 1.4658,
      "step": 88545
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6756619215011597,
      "learning_rate": 4.806710378672529e-07,
      "loss": 1.4939,
      "step": 88546
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6526199579238892,
      "learning_rate": 4.800797825598724e-07,
      "loss": 1.5157,
      "step": 88547
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6789417862892151,
      "learning_rate": 4.794888908255967e-07,
      "loss": 1.4797,
      "step": 88548
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6950302720069885,
      "learning_rate": 4.788983626650589e-07,
      "loss": 1.4808,
      "step": 88549
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6427934765815735,
      "learning_rate": 4.783081980790249e-07,
      "loss": 1.5138,
      "step": 88550
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6782256960868835,
      "learning_rate": 4.777183970681609e-07,
      "loss": 1.5321,
      "step": 88551
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6792418956756592,
      "learning_rate": 4.771289596332328e-07,
      "loss": 1.4601,
      "step": 88552
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.674313485622406,
      "learning_rate": 4.765398857749403e-07,
      "loss": 1.5352,
      "step": 88553
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6787136793136597,
      "learning_rate": 4.75951175494016e-07,
      "loss": 1.5023,
      "step": 88554
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7001857757568359,
      "learning_rate": 4.75362828791126e-07,
      "loss": 1.5458,
      "step": 88555
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6471538543701172,
      "learning_rate": 4.747748456670031e-07,
      "loss": 1.5094,
      "step": 88556
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6849669814109802,
      "learning_rate": 4.7418722612238004e-07,
      "loss": 1.5633,
      "step": 88557
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6846498847007751,
      "learning_rate": 4.7359997015798954e-07,
      "loss": 1.5235,
      "step": 88558
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7102431654930115,
      "learning_rate": 4.7301307777449783e-07,
      "loss": 1.5167,
      "step": 88559
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6792139410972595,
      "learning_rate": 4.7242654897260423e-07,
      "loss": 1.494,
      "step": 88560
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6969666481018066,
      "learning_rate": 4.7184038375307485e-07,
      "loss": 1.4966,
      "step": 88561
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.677503764629364,
      "learning_rate": 4.7125458211660916e-07,
      "loss": 1.4325,
      "step": 88562
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6812292337417603,
      "learning_rate": 4.7066914406390656e-07,
      "loss": 1.5203,
      "step": 88563
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7013165354728699,
      "learning_rate": 4.7008406959566647e-07,
      "loss": 1.4822,
      "step": 88564
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6724085807800293,
      "learning_rate": 4.694993587126217e-07,
      "loss": 1.4877,
      "step": 88565
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6821442246437073,
      "learning_rate": 4.689150114154716e-07,
      "loss": 1.4767,
      "step": 88566
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.681549072265625,
      "learning_rate": 4.6833102770491573e-07,
      "loss": 1.5086,
      "step": 88567
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6815900802612305,
      "learning_rate": 4.677474075816534e-07,
      "loss": 1.4575,
      "step": 88568
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6684525609016418,
      "learning_rate": 4.671641510464508e-07,
      "loss": 1.5478,
      "step": 88569
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7061702609062195,
      "learning_rate": 4.665812580999406e-07,
      "loss": 1.529,
      "step": 88570
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6483648419380188,
      "learning_rate": 4.6599872874288904e-07,
      "loss": 1.4913,
      "step": 88571
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.684415876865387,
      "learning_rate": 4.6541656297596207e-07,
      "loss": 1.4704,
      "step": 88572
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6710524559020996,
      "learning_rate": 4.6483476079989257e-07,
      "loss": 1.4681,
      "step": 88573
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6694343090057373,
      "learning_rate": 4.642533222154132e-07,
      "loss": 1.5246,
      "step": 88574
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6727347373962402,
      "learning_rate": 4.636722472231569e-07,
      "loss": 1.5687,
      "step": 88575
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.67693030834198,
      "learning_rate": 4.630915358238563e-07,
      "loss": 1.4294,
      "step": 88576
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6459815502166748,
      "learning_rate": 4.625111880182775e-07,
      "loss": 1.4722,
      "step": 88577
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6586779952049255,
      "learning_rate": 4.6193120380702e-07,
      "loss": 1.4943,
      "step": 88578
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6581799387931824,
      "learning_rate": 4.6135158319088317e-07,
      "loss": 1.4918,
      "step": 88579
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6899285316467285,
      "learning_rate": 4.607723261705332e-07,
      "loss": 1.5506,
      "step": 88580
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6643877029418945,
      "learning_rate": 4.601934327466361e-07,
      "loss": 1.4906,
      "step": 88581
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6893036365509033,
      "learning_rate": 4.5961490291995806e-07,
      "loss": 1.5691,
      "step": 88582
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6877304315567017,
      "learning_rate": 4.5903673669116515e-07,
      "loss": 1.4744,
      "step": 88583
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6696290373802185,
      "learning_rate": 4.584589340609568e-07,
      "loss": 1.4594,
      "step": 88584
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6791973114013672,
      "learning_rate": 4.578814950300658e-07,
      "loss": 1.5507,
      "step": 88585
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6753877401351929,
      "learning_rate": 4.573044195991582e-07,
      "loss": 1.426,
      "step": 88586
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6618754267692566,
      "learning_rate": 4.567277077689335e-07,
      "loss": 1.5589,
      "step": 88587
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6863091588020325,
      "learning_rate": 4.561513595401245e-07,
      "loss": 1.4998,
      "step": 88588
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6727123260498047,
      "learning_rate": 4.5557537491339725e-07,
      "loss": 1.4686,
      "step": 88589
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6875970363616943,
      "learning_rate": 4.5499975388948453e-07,
      "loss": 1.5238,
      "step": 88590
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6901379227638245,
      "learning_rate": 4.5442449646905245e-07,
      "loss": 1.4962,
      "step": 88591
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6735863089561462,
      "learning_rate": 4.5384960265280045e-07,
      "loss": 1.5111,
      "step": 88592
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6648741364479065,
      "learning_rate": 4.5327507244146135e-07,
      "loss": 1.4902,
      "step": 88593
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7027955651283264,
      "learning_rate": 4.5270090583570115e-07,
      "loss": 1.4953,
      "step": 88594
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7190067768096924,
      "learning_rate": 4.5212710283621944e-07,
      "loss": 1.5336,
      "step": 88595
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6844215989112854,
      "learning_rate": 4.515536634437489e-07,
      "loss": 1.4489,
      "step": 88596
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6725831031799316,
      "learning_rate": 4.509805876589223e-07,
      "loss": 1.564,
      "step": 88597
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7000887393951416,
      "learning_rate": 4.504078754824725e-07,
      "loss": 1.5299,
      "step": 88598
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6421592235565186,
      "learning_rate": 4.4983552691509885e-07,
      "loss": 1.4928,
      "step": 88599
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6683416962623596,
      "learning_rate": 4.492635419575008e-07,
      "loss": 1.5175,
      "step": 88600
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6675412058830261,
      "learning_rate": 4.486919206103445e-07,
      "loss": 1.5208,
      "step": 88601
    },
    {
      "epoch": 2.95,
      "grad_norm": 1.1024502515792847,
      "learning_rate": 4.4812066287432947e-07,
      "loss": 1.4997,
      "step": 88602
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6699033975601196,
      "learning_rate": 4.4754976875018835e-07,
      "loss": 1.4559,
      "step": 88603
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6670141220092773,
      "learning_rate": 4.4697923823855395e-07,
      "loss": 1.54,
      "step": 88604
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6730425953865051,
      "learning_rate": 4.464090713401591e-07,
      "loss": 1.5805,
      "step": 88605
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6882757544517517,
      "learning_rate": 4.4583926805570323e-07,
      "loss": 1.4469,
      "step": 88606
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6960586309432983,
      "learning_rate": 4.4526982838585244e-07,
      "loss": 1.4975,
      "step": 88607
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6808748245239258,
      "learning_rate": 4.447007523313062e-07,
      "loss": 1.5482,
      "step": 88608
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6913343667984009,
      "learning_rate": 4.441320398927639e-07,
      "loss": 1.5217,
      "step": 88609
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6894688010215759,
      "learning_rate": 4.435636910708917e-07,
      "loss": 1.4728,
      "step": 88610
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6723015308380127,
      "learning_rate": 4.429957058663891e-07,
      "loss": 1.4948,
      "step": 88611
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6776944398880005,
      "learning_rate": 4.4242808427998876e-07,
      "loss": 1.5338,
      "step": 88612
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6930512189865112,
      "learning_rate": 4.4186082631232354e-07,
      "loss": 1.5588,
      "step": 88613
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6854599714279175,
      "learning_rate": 4.412939319640929e-07,
      "loss": 1.5726,
      "step": 88614
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6974353790283203,
      "learning_rate": 4.4072740123599624e-07,
      "loss": 1.4661,
      "step": 88615
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6616585850715637,
      "learning_rate": 4.4016123412869974e-07,
      "loss": 1.4842,
      "step": 88616
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7060743570327759,
      "learning_rate": 4.395954306429361e-07,
      "loss": 1.4986,
      "step": 88617
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7008424997329712,
      "learning_rate": 4.3902999077937153e-07,
      "loss": 1.5389,
      "step": 88618
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6548886895179749,
      "learning_rate": 4.3846491453867204e-07,
      "loss": 1.4649,
      "step": 88619
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6921766996383667,
      "learning_rate": 4.379002019215372e-07,
      "loss": 1.5006,
      "step": 88620
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6736263036727905,
      "learning_rate": 4.3733585292866634e-07,
      "loss": 1.4736,
      "step": 88621
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7004724144935608,
      "learning_rate": 4.367718675607257e-07,
      "loss": 1.5479,
      "step": 88622
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.682478666305542,
      "learning_rate": 4.362082458183813e-07,
      "loss": 1.5033,
      "step": 88623
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.725322961807251,
      "learning_rate": 4.35644987702366e-07,
      "loss": 1.4882,
      "step": 88624
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.685179591178894,
      "learning_rate": 4.3508209321334587e-07,
      "loss": 1.506,
      "step": 88625
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6781015396118164,
      "learning_rate": 4.3451956235198703e-07,
      "loss": 1.5387,
      "step": 88626
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6716865301132202,
      "learning_rate": 4.3395739511895564e-07,
      "loss": 1.5626,
      "step": 88627
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7098159193992615,
      "learning_rate": 4.333955915149845e-07,
      "loss": 1.4584,
      "step": 88628
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6843439936637878,
      "learning_rate": 4.3283415154073965e-07,
      "loss": 1.4406,
      "step": 88629
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6854519844055176,
      "learning_rate": 4.322730751968873e-07,
      "loss": 1.5109,
      "step": 88630
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6866080164909363,
      "learning_rate": 4.3171236248412675e-07,
      "loss": 1.5274,
      "step": 88631
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6822991371154785,
      "learning_rate": 4.3115201340312436e-07,
      "loss": 1.4349,
      "step": 88632
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6986380815505981,
      "learning_rate": 4.305920279545461e-07,
      "loss": 1.5184,
      "step": 88633
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.665359377861023,
      "learning_rate": 4.300324061391247e-07,
      "loss": 1.5104,
      "step": 88634
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6754164695739746,
      "learning_rate": 4.294731479574598e-07,
      "loss": 1.4681,
      "step": 88635
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6708733439445496,
      "learning_rate": 4.289142534103174e-07,
      "loss": 1.5144,
      "step": 88636
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6687265038490295,
      "learning_rate": 4.28355722498297e-07,
      "loss": 1.5115,
      "step": 88637
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6522296071052551,
      "learning_rate": 4.2779755522213135e-07,
      "loss": 1.5642,
      "step": 88638
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6828987002372742,
      "learning_rate": 4.2723975158248656e-07,
      "loss": 1.4931,
      "step": 88639
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6734211444854736,
      "learning_rate": 4.2668231157999557e-07,
      "loss": 1.5043,
      "step": 88640
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6917729377746582,
      "learning_rate": 4.261252352154243e-07,
      "loss": 1.546,
      "step": 88641
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6683822274208069,
      "learning_rate": 4.2556852248937234e-07,
      "loss": 1.5164,
      "step": 88642
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6673005223274231,
      "learning_rate": 4.2501217340253913e-07,
      "loss": 1.5433,
      "step": 88643
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6848931908607483,
      "learning_rate": 4.2445618795559077e-07,
      "loss": 1.5414,
      "step": 88644
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7018987536430359,
      "learning_rate": 4.2390056614922674e-07,
      "loss": 1.567,
      "step": 88645
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7124300003051758,
      "learning_rate": 4.2334530798411317e-07,
      "loss": 1.5371,
      "step": 88646
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6812137961387634,
      "learning_rate": 4.227904134608828e-07,
      "loss": 1.4767,
      "step": 88647
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.692586362361908,
      "learning_rate": 4.2223588258030184e-07,
      "loss": 1.4581,
      "step": 88648
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6692434549331665,
      "learning_rate": 4.2168171534293635e-07,
      "loss": 1.5477,
      "step": 88649
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6700367331504822,
      "learning_rate": 4.211279117495192e-07,
      "loss": 1.4725,
      "step": 88650
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7208777070045471,
      "learning_rate": 4.205744718007165e-07,
      "loss": 1.5491,
      "step": 88651
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7106773853302002,
      "learning_rate": 4.2002139549719426e-07,
      "loss": 1.5437,
      "step": 88652
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6690238118171692,
      "learning_rate": 4.194686828396521e-07,
      "loss": 1.5292,
      "step": 88653
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6874999403953552,
      "learning_rate": 4.1891633382868937e-07,
      "loss": 1.5074,
      "step": 88654
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6824173927307129,
      "learning_rate": 4.1836434846503897e-07,
      "loss": 1.5837,
      "step": 88655
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6713391542434692,
      "learning_rate": 4.178127267493669e-07,
      "loss": 1.5239,
      "step": 88656
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6736381649971008,
      "learning_rate": 4.1726146868230616e-07,
      "loss": 1.4643,
      "step": 88657
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6733725666999817,
      "learning_rate": 4.16710574264556e-07,
      "loss": 1.4698,
      "step": 88658
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6686735153198242,
      "learning_rate": 4.161600434967827e-07,
      "loss": 1.4755,
      "step": 88659
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6814177632331848,
      "learning_rate": 4.1560987637965226e-07,
      "loss": 1.4665,
      "step": 88660
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.675184965133667,
      "learning_rate": 4.1506007291383093e-07,
      "loss": 1.4844,
      "step": 88661
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7020492553710938,
      "learning_rate": 4.1451063309998477e-07,
      "loss": 1.5418,
      "step": 88662
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6837565898895264,
      "learning_rate": 4.1396155693877997e-07,
      "loss": 1.4398,
      "step": 88663
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6690897345542908,
      "learning_rate": 4.1341284443088263e-07,
      "loss": 1.4955,
      "step": 88664
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6817847490310669,
      "learning_rate": 4.128644955769256e-07,
      "loss": 1.4874,
      "step": 88665
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6598613262176514,
      "learning_rate": 4.1231651037767486e-07,
      "loss": 1.4839,
      "step": 88666
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6997023820877075,
      "learning_rate": 4.1176888883369676e-07,
      "loss": 1.5338,
      "step": 88667
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6833488941192627,
      "learning_rate": 4.112216309456573e-07,
      "loss": 1.5404,
      "step": 88668
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.711540699005127,
      "learning_rate": 4.106747367142893e-07,
      "loss": 1.5889,
      "step": 88669
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6909107565879822,
      "learning_rate": 4.1012820614022555e-07,
      "loss": 1.5543,
      "step": 88670
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7035685181617737,
      "learning_rate": 4.0958203922409895e-07,
      "loss": 1.5077,
      "step": 88671
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7194933295249939,
      "learning_rate": 4.090362359666088e-07,
      "loss": 1.5706,
      "step": 88672
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6780195236206055,
      "learning_rate": 4.0849079636842143e-07,
      "loss": 1.4783,
      "step": 88673
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6575533151626587,
      "learning_rate": 4.079457204301695e-07,
      "loss": 1.5282,
      "step": 88674
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6866617798805237,
      "learning_rate": 4.074010081525192e-07,
      "loss": 1.5708,
      "step": 88675
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6999059915542603,
      "learning_rate": 4.068566595361367e-07,
      "loss": 1.5269,
      "step": 88676
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6703503727912903,
      "learning_rate": 4.063126745817213e-07,
      "loss": 1.4645,
      "step": 88677
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6634418964385986,
      "learning_rate": 4.0576905328987275e-07,
      "loss": 1.5505,
      "step": 88678
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7090916633605957,
      "learning_rate": 4.052257956612903e-07,
      "loss": 1.5458,
      "step": 88679
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6797563433647156,
      "learning_rate": 4.0468290169660687e-07,
      "loss": 1.5287,
      "step": 88680
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6710241436958313,
      "learning_rate": 4.041403713964886e-07,
      "loss": 1.5008,
      "step": 88681
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.672391414642334,
      "learning_rate": 4.0359820476163486e-07,
      "loss": 1.4734,
      "step": 88682
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6791089177131653,
      "learning_rate": 4.030564017926452e-07,
      "loss": 1.5625,
      "step": 88683
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6551560163497925,
      "learning_rate": 4.0251496249018577e-07,
      "loss": 1.5098,
      "step": 88684
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6733601689338684,
      "learning_rate": 4.01973886854956e-07,
      "loss": 1.5227,
      "step": 88685
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6774719953536987,
      "learning_rate": 4.0143317488758877e-07,
      "loss": 1.4524,
      "step": 88686
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7039738297462463,
      "learning_rate": 4.008928265887168e-07,
      "loss": 1.4379,
      "step": 88687
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6730734705924988,
      "learning_rate": 4.003528419590396e-07,
      "loss": 1.4912,
      "step": 88688
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6862078905105591,
      "learning_rate": 3.998132209991567e-07,
      "loss": 1.4933,
      "step": 88689
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6865251660346985,
      "learning_rate": 3.9927396370980083e-07,
      "loss": 1.5931,
      "step": 88690
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6622904539108276,
      "learning_rate": 3.9873507009153815e-07,
      "loss": 1.4431,
      "step": 88691
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6797136664390564,
      "learning_rate": 3.981965401451015e-07,
      "loss": 1.4781,
      "step": 88692
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6713635325431824,
      "learning_rate": 3.9765837387109033e-07,
      "loss": 1.5251,
      "step": 88693
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6729262471199036,
      "learning_rate": 3.9712057127017085e-07,
      "loss": 1.4705,
      "step": 88694
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7076719999313354,
      "learning_rate": 3.965831323430424e-07,
      "loss": 1.5388,
      "step": 88695
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6629064679145813,
      "learning_rate": 3.9604605709027126e-07,
      "loss": 1.5568,
      "step": 88696
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6843053698539734,
      "learning_rate": 3.9550934551259017e-07,
      "loss": 1.5029,
      "step": 88697
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6573176383972168,
      "learning_rate": 3.9497299761059864e-07,
      "loss": 1.5294,
      "step": 88698
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6780557632446289,
      "learning_rate": 3.944370133849628e-07,
      "loss": 1.5722,
      "step": 88699
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6689998507499695,
      "learning_rate": 3.939013928363488e-07,
      "loss": 1.5135,
      "step": 88700
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6617153286933899,
      "learning_rate": 3.933661359653895e-07,
      "loss": 1.5022,
      "step": 88701
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6858416199684143,
      "learning_rate": 3.928312427727176e-07,
      "loss": 1.5013,
      "step": 88702
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.675538957118988,
      "learning_rate": 3.9229671325903265e-07,
      "loss": 1.5272,
      "step": 88703
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6991236209869385,
      "learning_rate": 3.917625474249342e-07,
      "loss": 1.552,
      "step": 88704
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6835815906524658,
      "learning_rate": 3.912287452710883e-07,
      "loss": 1.4952,
      "step": 88705
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.655168354511261,
      "learning_rate": 3.906953067981611e-07,
      "loss": 1.4694,
      "step": 88706
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6842408180236816,
      "learning_rate": 3.901622320067854e-07,
      "loss": 1.503,
      "step": 88707
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6807246208190918,
      "learning_rate": 3.896295208975941e-07,
      "loss": 1.5473,
      "step": 88708
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.672590434551239,
      "learning_rate": 3.8909717347128667e-07,
      "loss": 1.5096,
      "step": 88709
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6799271702766418,
      "learning_rate": 3.885651897284292e-07,
      "loss": 1.5284,
      "step": 88710
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6833631992340088,
      "learning_rate": 3.880335696696879e-07,
      "loss": 1.5718,
      "step": 88711
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6794722080230713,
      "learning_rate": 3.875023132957622e-07,
      "loss": 1.4794,
      "step": 88712
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6594179272651672,
      "learning_rate": 3.869714206072849e-07,
      "loss": 1.4586,
      "step": 88713
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6863730549812317,
      "learning_rate": 3.864408916048223e-07,
      "loss": 1.4799,
      "step": 88714
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6802384853363037,
      "learning_rate": 3.8591072628910704e-07,
      "loss": 1.4892,
      "step": 88715
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6805943250656128,
      "learning_rate": 3.853809246607387e-07,
      "loss": 1.4472,
      "step": 88716
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.683896005153656,
      "learning_rate": 3.8485148672038336e-07,
      "loss": 1.5355,
      "step": 88717
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6789625883102417,
      "learning_rate": 3.843224124686739e-07,
      "loss": 1.5675,
      "step": 88718
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6827806234359741,
      "learning_rate": 3.8379370190624315e-07,
      "loss": 1.5063,
      "step": 88719
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6719300150871277,
      "learning_rate": 3.8326535503375723e-07,
      "loss": 1.4965,
      "step": 88720
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6907217502593994,
      "learning_rate": 3.8273737185181566e-07,
      "loss": 1.5115,
      "step": 88721
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6690201759338379,
      "learning_rate": 3.822097523610845e-07,
      "loss": 1.5034,
      "step": 88722
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6705735325813293,
      "learning_rate": 3.8168249656223005e-07,
      "loss": 1.4664,
      "step": 88723
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6579585671424866,
      "learning_rate": 3.811556044558517e-07,
      "loss": 1.5246,
      "step": 88724
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6778162121772766,
      "learning_rate": 3.8062907604258233e-07,
      "loss": 1.5761,
      "step": 88725
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6694103479385376,
      "learning_rate": 3.801029113231213e-07,
      "loss": 1.5397,
      "step": 88726
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6608738899230957,
      "learning_rate": 3.7957711029803496e-07,
      "loss": 1.5116,
      "step": 88727
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6751600503921509,
      "learning_rate": 3.7905167296798933e-07,
      "loss": 1.4927,
      "step": 88728
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6675025224685669,
      "learning_rate": 3.785265993336506e-07,
      "loss": 1.4808,
      "step": 88729
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6986707448959351,
      "learning_rate": 3.7800188939565157e-07,
      "loss": 1.5277,
      "step": 88730
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6825253963470459,
      "learning_rate": 3.7747754315459177e-07,
      "loss": 1.5061,
      "step": 88731
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7062829732894897,
      "learning_rate": 3.7695356061110404e-07,
      "loss": 1.4453,
      "step": 88732
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.664630115032196,
      "learning_rate": 3.764299417658878e-07,
      "loss": 1.504,
      "step": 88733
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6636652946472168,
      "learning_rate": 3.759066866195093e-07,
      "loss": 1.5135,
      "step": 88734
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7031008005142212,
      "learning_rate": 3.753837951726346e-07,
      "loss": 1.5112,
      "step": 88735
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6816537380218506,
      "learning_rate": 3.7486126742589664e-07,
      "loss": 1.5118,
      "step": 88736
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6401759386062622,
      "learning_rate": 3.7433910337996143e-07,
      "loss": 1.4984,
      "step": 88737
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6836237907409668,
      "learning_rate": 3.7381730303539524e-07,
      "loss": 1.4688,
      "step": 88738
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6583909392356873,
      "learning_rate": 3.7329586639286423e-07,
      "loss": 1.4728,
      "step": 88739
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7073608636856079,
      "learning_rate": 3.727747934530345e-07,
      "loss": 1.5,
      "step": 88740
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7283928990364075,
      "learning_rate": 3.722540842165056e-07,
      "loss": 1.5484,
      "step": 88741
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6933459639549255,
      "learning_rate": 3.71733738683877e-07,
      "loss": 1.5234,
      "step": 88742
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6765939593315125,
      "learning_rate": 3.712137568558482e-07,
      "loss": 1.5152,
      "step": 88743
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.695389986038208,
      "learning_rate": 3.706941387329854e-07,
      "loss": 1.4869,
      "step": 88744
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6659620404243469,
      "learning_rate": 3.7017488431598794e-07,
      "loss": 1.4837,
      "step": 88745
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6736880540847778,
      "learning_rate": 3.696559936054222e-07,
      "loss": 1.4979,
      "step": 88746
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6704363822937012,
      "learning_rate": 3.691374666019542e-07,
      "loss": 1.4468,
      "step": 88747
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6878255605697632,
      "learning_rate": 3.686193033062168e-07,
      "loss": 1.5041,
      "step": 88748
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6814962029457092,
      "learning_rate": 3.6810150371880954e-07,
      "loss": 1.5123,
      "step": 88749
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6888551712036133,
      "learning_rate": 3.675840678403985e-07,
      "loss": 1.5957,
      "step": 88750
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6881271600723267,
      "learning_rate": 3.670669956715833e-07,
      "loss": 1.477,
      "step": 88751
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6744512915611267,
      "learning_rate": 3.6655028721299664e-07,
      "loss": 1.5199,
      "step": 88752
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6921318173408508,
      "learning_rate": 3.660339424652714e-07,
      "loss": 1.4525,
      "step": 88753
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6697157621383667,
      "learning_rate": 3.655179614290071e-07,
      "loss": 1.4921,
      "step": 88754
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6833126544952393,
      "learning_rate": 3.6500234410490326e-07,
      "loss": 1.5643,
      "step": 88755
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6811498403549194,
      "learning_rate": 3.6448709049349265e-07,
      "loss": 1.4968,
      "step": 88756
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6959802508354187,
      "learning_rate": 3.6397220059547484e-07,
      "loss": 1.5351,
      "step": 88757
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6624383926391602,
      "learning_rate": 3.6345767441141595e-07,
      "loss": 1.4945,
      "step": 88758
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6706569790840149,
      "learning_rate": 3.6294351194201543e-07,
      "loss": 1.4617,
      "step": 88759
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6524446606636047,
      "learning_rate": 3.624297131878062e-07,
      "loss": 1.5294,
      "step": 88760
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.700509786605835,
      "learning_rate": 3.6191627814948776e-07,
      "loss": 1.4986,
      "step": 88761
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6893820762634277,
      "learning_rate": 3.6140320682762623e-07,
      "loss": 1.5056,
      "step": 88762
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6724449992179871,
      "learning_rate": 3.6089049922288783e-07,
      "loss": 1.5614,
      "step": 88763
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6992745399475098,
      "learning_rate": 3.60378155335872e-07,
      "loss": 1.462,
      "step": 88764
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6841944456100464,
      "learning_rate": 3.598661751672449e-07,
      "loss": 1.4436,
      "step": 88765
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6800804734230042,
      "learning_rate": 3.5935455871753947e-07,
      "loss": 1.502,
      "step": 88766
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6872565150260925,
      "learning_rate": 3.5884330598745516e-07,
      "loss": 1.5654,
      "step": 88767
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6600608825683594,
      "learning_rate": 3.583324169775581e-07,
      "loss": 1.4343,
      "step": 88768
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6620107293128967,
      "learning_rate": 3.578218916885145e-07,
      "loss": 1.4728,
      "step": 88769
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6672243475914001,
      "learning_rate": 3.5731173012095714e-07,
      "loss": 1.5283,
      "step": 88770
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6638842225074768,
      "learning_rate": 3.56801932275419e-07,
      "loss": 1.5038,
      "step": 88771
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6851491928100586,
      "learning_rate": 3.562924981525994e-07,
      "loss": 1.5293,
      "step": 88772
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6608110666275024,
      "learning_rate": 3.5578342775309796e-07,
      "loss": 1.5778,
      "step": 88773
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6727882623672485,
      "learning_rate": 3.552747210775142e-07,
      "loss": 1.4406,
      "step": 88774
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6798523664474487,
      "learning_rate": 3.547663781264476e-07,
      "loss": 1.5504,
      "step": 88775
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6833452582359314,
      "learning_rate": 3.5425839890059757e-07,
      "loss": 1.4673,
      "step": 88776
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6690852642059326,
      "learning_rate": 3.537507834004971e-07,
      "loss": 1.4402,
      "step": 88777
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6751656532287598,
      "learning_rate": 3.5324353162677897e-07,
      "loss": 1.5428,
      "step": 88778
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6672918200492859,
      "learning_rate": 3.5273664358010933e-07,
      "loss": 1.5005,
      "step": 88779
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.662481427192688,
      "learning_rate": 3.5223011926105437e-07,
      "loss": 1.5315,
      "step": 88780
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7012048363685608,
      "learning_rate": 3.5172395867021364e-07,
      "loss": 1.5448,
      "step": 88781
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6744515895843506,
      "learning_rate": 3.5121816180825323e-07,
      "loss": 1.5195,
      "step": 88782
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6940116882324219,
      "learning_rate": 3.507127286757394e-07,
      "loss": 1.5223,
      "step": 88783
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6983438730239868,
      "learning_rate": 3.5020765927333826e-07,
      "loss": 1.4709,
      "step": 88784
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6696455478668213,
      "learning_rate": 3.4970295360161604e-07,
      "loss": 1.4701,
      "step": 88785
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7019982933998108,
      "learning_rate": 3.491986116612389e-07,
      "loss": 1.5432,
      "step": 88786
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7077761888504028,
      "learning_rate": 3.4869463345273965e-07,
      "loss": 1.5197,
      "step": 88787
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6730974912643433,
      "learning_rate": 3.4819101897678446e-07,
      "loss": 1.4825,
      "step": 88788
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6924431324005127,
      "learning_rate": 3.476877682339729e-07,
      "loss": 1.4855,
      "step": 88789
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6764753460884094,
      "learning_rate": 3.471848812249378e-07,
      "loss": 1.5646,
      "step": 88790
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6932221055030823,
      "learning_rate": 3.4668235795024535e-07,
      "loss": 1.5072,
      "step": 88791
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6766310334205627,
      "learning_rate": 3.4618019841052836e-07,
      "loss": 1.4204,
      "step": 88792
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6712072491645813,
      "learning_rate": 3.4567840260641967e-07,
      "loss": 1.4672,
      "step": 88793
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6593279242515564,
      "learning_rate": 3.4517697053848546e-07,
      "loss": 1.5427,
      "step": 88794
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6721843481063843,
      "learning_rate": 3.4467590220735864e-07,
      "loss": 1.5437,
      "step": 88795
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6759721636772156,
      "learning_rate": 3.441751976136387e-07,
      "loss": 1.5383,
      "step": 88796
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6839836239814758,
      "learning_rate": 3.436748567579251e-07,
      "loss": 1.4955,
      "step": 88797
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6937349438667297,
      "learning_rate": 3.4317487964088396e-07,
      "loss": 1.5111,
      "step": 88798
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.708757758140564,
      "learning_rate": 3.4267526626304833e-07,
      "loss": 1.5599,
      "step": 88799
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6811050176620483,
      "learning_rate": 3.421760166250509e-07,
      "loss": 1.4822,
      "step": 88800
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6708207130432129,
      "learning_rate": 3.4167713072749123e-07,
      "loss": 1.541,
      "step": 88801
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6586673259735107,
      "learning_rate": 3.411786085709689e-07,
      "loss": 1.495,
      "step": 88802
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6773061752319336,
      "learning_rate": 3.4068045015615e-07,
      "loss": 1.4975,
      "step": 88803
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6980217695236206,
      "learning_rate": 3.4018265548356737e-07,
      "loss": 1.5085,
      "step": 88804
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6648122072219849,
      "learning_rate": 3.3968522455385397e-07,
      "loss": 1.4994,
      "step": 88805
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.672145664691925,
      "learning_rate": 3.3918815736760917e-07,
      "loss": 1.4459,
      "step": 88806
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7000672817230225,
      "learning_rate": 3.386914539254326e-07,
      "loss": 1.4851,
      "step": 88807
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.685997486114502,
      "learning_rate": 3.3819511422792376e-07,
      "loss": 1.4929,
      "step": 88808
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6607662439346313,
      "learning_rate": 3.376991382757155e-07,
      "loss": 1.5075,
      "step": 88809
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6752998232841492,
      "learning_rate": 3.3720352606937396e-07,
      "loss": 1.493,
      "step": 88810
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6878537535667419,
      "learning_rate": 3.367082776094987e-07,
      "loss": 1.473,
      "step": 88811
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.657831609249115,
      "learning_rate": 3.3621339289672253e-07,
      "loss": 1.3931,
      "step": 88812
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6902909278869629,
      "learning_rate": 3.3571887193164505e-07,
      "loss": 1.5541,
      "step": 88813
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.667578399181366,
      "learning_rate": 3.3522471471483234e-07,
      "loss": 1.482,
      "step": 88814
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.7076731324195862,
      "learning_rate": 3.3473092124688404e-07,
      "loss": 1.5127,
      "step": 88815
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.670329749584198,
      "learning_rate": 3.3423749152846625e-07,
      "loss": 1.5433,
      "step": 88816
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6844097971916199,
      "learning_rate": 3.3374442556007855e-07,
      "loss": 1.4659,
      "step": 88817
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.6787365078926086,
      "learning_rate": 3.332517233424203e-07,
      "loss": 1.4909,
      "step": 88818
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6761647462844849,
      "learning_rate": 3.327593848760246e-07,
      "loss": 1.5297,
      "step": 88819
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6677240133285522,
      "learning_rate": 3.3226741016149083e-07,
      "loss": 1.5129,
      "step": 88820
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6719415187835693,
      "learning_rate": 3.3177579919941853e-07,
      "loss": 1.5307,
      "step": 88821
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6941941380500793,
      "learning_rate": 3.312845519904406e-07,
      "loss": 1.5008,
      "step": 88822
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6798629760742188,
      "learning_rate": 3.3079366853515645e-07,
      "loss": 1.5214,
      "step": 88823
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.697557806968689,
      "learning_rate": 3.3030314883409904e-07,
      "loss": 1.4995,
      "step": 88824
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6612077951431274,
      "learning_rate": 3.298129928879012e-07,
      "loss": 1.5526,
      "step": 88825
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6837369799613953,
      "learning_rate": 3.2932320069716243e-07,
      "loss": 1.4633,
      "step": 88826
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6775152087211609,
      "learning_rate": 3.28833772262449e-07,
      "loss": 1.5355,
      "step": 88827
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6814785599708557,
      "learning_rate": 3.2834470758439367e-07,
      "loss": 1.4953,
      "step": 88828
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.651607871055603,
      "learning_rate": 3.2785600666359604e-07,
      "loss": 1.4529,
      "step": 88829
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6806448101997375,
      "learning_rate": 3.273676695005889e-07,
      "loss": 1.5648,
      "step": 88830
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6820456981658936,
      "learning_rate": 3.268796960960052e-07,
      "loss": 1.4891,
      "step": 88831
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.712822675704956,
      "learning_rate": 3.2639208645044434e-07,
      "loss": 1.5202,
      "step": 88832
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6622314453125,
      "learning_rate": 3.2590484056450596e-07,
      "loss": 1.5676,
      "step": 88833
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6962353587150574,
      "learning_rate": 3.254179584387562e-07,
      "loss": 1.6026,
      "step": 88834
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6732386946678162,
      "learning_rate": 3.249314400737946e-07,
      "loss": 1.4342,
      "step": 88835
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6588791608810425,
      "learning_rate": 3.244452854701873e-07,
      "loss": 1.5605,
      "step": 88836
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6656786203384399,
      "learning_rate": 3.239594946286006e-07,
      "loss": 1.4898,
      "step": 88837
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6765314936637878,
      "learning_rate": 3.2347406754953397e-07,
      "loss": 1.4491,
      "step": 88838
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6947721242904663,
      "learning_rate": 3.2298900423358696e-07,
      "loss": 1.5094,
      "step": 88839
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6738902926445007,
      "learning_rate": 3.2250430468142576e-07,
      "loss": 1.4538,
      "step": 88840
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6889709234237671,
      "learning_rate": 3.220199688935832e-07,
      "loss": 1.4993,
      "step": 88841
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6926349401473999,
      "learning_rate": 3.215359968706255e-07,
      "loss": 1.5545,
      "step": 88842
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6911410689353943,
      "learning_rate": 3.210523886131855e-07,
      "loss": 1.44,
      "step": 88843
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7016411423683167,
      "learning_rate": 3.205691441218294e-07,
      "loss": 1.5348,
      "step": 88844
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6970115900039673,
      "learning_rate": 3.200862633971568e-07,
      "loss": 1.5764,
      "step": 88845
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.688909649848938,
      "learning_rate": 3.1960374643973383e-07,
      "loss": 1.4793,
      "step": 88846
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6826807856559753,
      "learning_rate": 3.191215932501601e-07,
      "loss": 1.4334,
      "step": 88847
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6769642233848572,
      "learning_rate": 3.1863980382900165e-07,
      "loss": 1.5297,
      "step": 88848
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6730099320411682,
      "learning_rate": 3.181583781768582e-07,
      "loss": 1.4264,
      "step": 88849
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6641486883163452,
      "learning_rate": 3.1767731629432915e-07,
      "loss": 1.5051,
      "step": 88850
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6811367273330688,
      "learning_rate": 3.171966181819807e-07,
      "loss": 1.5435,
      "step": 88851
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6822199821472168,
      "learning_rate": 3.167162838404125e-07,
      "loss": 1.4842,
      "step": 88852
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6821170449256897,
      "learning_rate": 3.162363132701573e-07,
      "loss": 1.51,
      "step": 88853
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7020624876022339,
      "learning_rate": 3.1575670647188135e-07,
      "loss": 1.4555,
      "step": 88854
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6698203682899475,
      "learning_rate": 3.152774634460842e-07,
      "loss": 1.4625,
      "step": 88855
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6931250691413879,
      "learning_rate": 3.147985841933987e-07,
      "loss": 1.4729,
      "step": 88856
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6648226380348206,
      "learning_rate": 3.14320068714391e-07,
      "loss": 1.4227,
      "step": 88857
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7155023813247681,
      "learning_rate": 3.1384191700962735e-07,
      "loss": 1.5244,
      "step": 88858
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.680526852607727,
      "learning_rate": 3.133641290797406e-07,
      "loss": 1.527,
      "step": 88859
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6879525780677795,
      "learning_rate": 3.128867049252304e-07,
      "loss": 1.4279,
      "step": 88860
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6667420864105225,
      "learning_rate": 3.1240964454676274e-07,
      "loss": 1.446,
      "step": 88861
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7014353275299072,
      "learning_rate": 3.1193294794483736e-07,
      "loss": 1.5102,
      "step": 88862
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6956592798233032,
      "learning_rate": 3.11456615120087e-07,
      "loss": 1.5116,
      "step": 88863
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.680641233921051,
      "learning_rate": 3.1098064607304464e-07,
      "loss": 1.4487,
      "step": 88864
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6971186399459839,
      "learning_rate": 3.10505040804343e-07,
      "loss": 1.5262,
      "step": 88865
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6856358051300049,
      "learning_rate": 3.1002979931451513e-07,
      "loss": 1.5438,
      "step": 88866
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6597482562065125,
      "learning_rate": 3.095549216041604e-07,
      "loss": 1.5007,
      "step": 88867
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6799222826957703,
      "learning_rate": 3.090804076738451e-07,
      "loss": 1.5044,
      "step": 88868
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7035727500915527,
      "learning_rate": 3.086062575241355e-07,
      "loss": 1.5089,
      "step": 88869
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6778524518013,
      "learning_rate": 3.081324711556643e-07,
      "loss": 1.5195,
      "step": 88870
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6744163036346436,
      "learning_rate": 3.076590485689312e-07,
      "loss": 1.4859,
      "step": 88871
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6898968815803528,
      "learning_rate": 3.071859897645357e-07,
      "loss": 1.4377,
      "step": 88872
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6603866219520569,
      "learning_rate": 3.067132947430773e-07,
      "loss": 1.4702,
      "step": 88873
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.675486147403717,
      "learning_rate": 3.062409635050889e-07,
      "loss": 1.569,
      "step": 88874
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6702175736427307,
      "learning_rate": 3.0576899605120333e-07,
      "loss": 1.4459,
      "step": 88875
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6610205173492432,
      "learning_rate": 3.052973923819202e-07,
      "loss": 1.5005,
      "step": 88876
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6682704091072083,
      "learning_rate": 3.0482615249787234e-07,
      "loss": 1.4935,
      "step": 88877
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.687195897102356,
      "learning_rate": 3.043552763995927e-07,
      "loss": 1.4805,
      "step": 88878
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6745803356170654,
      "learning_rate": 3.038847640876474e-07,
      "loss": 1.6022,
      "step": 88879
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6793684959411621,
      "learning_rate": 3.034146155626693e-07,
      "loss": 1.5479,
      "step": 88880
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6730453372001648,
      "learning_rate": 3.029448308251581e-07,
      "loss": 1.5395,
      "step": 88881
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.692394495010376,
      "learning_rate": 3.024754098757465e-07,
      "loss": 1.4999,
      "step": 88882
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7079282402992249,
      "learning_rate": 3.0200635271493413e-07,
      "loss": 1.5169,
      "step": 88883
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6854467988014221,
      "learning_rate": 3.015376593433538e-07,
      "loss": 1.5759,
      "step": 88884
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6793950796127319,
      "learning_rate": 3.010693297615385e-07,
      "loss": 1.5122,
      "step": 88885
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6804271340370178,
      "learning_rate": 3.006013639700544e-07,
      "loss": 1.5081,
      "step": 88886
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6920039653778076,
      "learning_rate": 3.00133761969501e-07,
      "loss": 1.5007,
      "step": 88887
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6933943629264832,
      "learning_rate": 2.9966652376041125e-07,
      "loss": 1.4938,
      "step": 88888
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.682353675365448,
      "learning_rate": 2.991996493433846e-07,
      "loss": 1.5131,
      "step": 88889
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6550919413566589,
      "learning_rate": 2.9873313871895397e-07,
      "loss": 1.5334,
      "step": 88890
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7155571579933167,
      "learning_rate": 2.98266991887719e-07,
      "loss": 1.5612,
      "step": 88891
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6777248978614807,
      "learning_rate": 2.978012088502124e-07,
      "loss": 1.54,
      "step": 88892
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.679756224155426,
      "learning_rate": 2.9733578960703385e-07,
      "loss": 1.5939,
      "step": 88893
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6978164911270142,
      "learning_rate": 2.968707341587162e-07,
      "loss": 1.531,
      "step": 88894
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6831260323524475,
      "learning_rate": 2.9640604250582566e-07,
      "loss": 1.4734,
      "step": 88895
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6899780631065369,
      "learning_rate": 2.9594171464896177e-07,
      "loss": 1.498,
      "step": 88896
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6785726547241211,
      "learning_rate": 2.954777505886574e-07,
      "loss": 1.4768,
      "step": 88897
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6782286167144775,
      "learning_rate": 2.9501415032547883e-07,
      "loss": 1.573,
      "step": 88898
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6829062700271606,
      "learning_rate": 2.945509138600255e-07,
      "loss": 1.4057,
      "step": 88899
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6876899003982544,
      "learning_rate": 2.9408804119279703e-07,
      "loss": 1.4859,
      "step": 88900
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6689720153808594,
      "learning_rate": 2.9362553232439303e-07,
      "loss": 1.4182,
      "step": 88901
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7017691135406494,
      "learning_rate": 2.9316338725534625e-07,
      "loss": 1.5308,
      "step": 88902
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6545649170875549,
      "learning_rate": 2.927016059862897e-07,
      "loss": 1.5515,
      "step": 88903
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6750040650367737,
      "learning_rate": 2.922401885176895e-07,
      "loss": 1.5432,
      "step": 88904
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7068583965301514,
      "learning_rate": 2.917791348501786e-07,
      "loss": 1.5135,
      "step": 88905
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6971353888511658,
      "learning_rate": 2.913184449842565e-07,
      "loss": 1.5325,
      "step": 88906
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6725570559501648,
      "learning_rate": 2.908581189205228e-07,
      "loss": 1.4572,
      "step": 88907
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6967865228652954,
      "learning_rate": 2.903981566595437e-07,
      "loss": 1.4776,
      "step": 88908
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6736046075820923,
      "learning_rate": 2.8993855820185205e-07,
      "loss": 1.53,
      "step": 88909
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6692173480987549,
      "learning_rate": 2.8947932354801417e-07,
      "loss": 1.4968,
      "step": 88910
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6840354800224304,
      "learning_rate": 2.8902045269859617e-07,
      "loss": 1.4519,
      "step": 88911
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6751938462257385,
      "learning_rate": 2.8856194565413104e-07,
      "loss": 1.6163,
      "step": 88912
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.686763346195221,
      "learning_rate": 2.881038024152182e-07,
      "loss": 1.4786,
      "step": 88913
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.652378499507904,
      "learning_rate": 2.876460229823574e-07,
      "loss": 1.4455,
      "step": 88914
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6862519979476929,
      "learning_rate": 2.87188607356148e-07,
      "loss": 1.4645,
      "step": 88915
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6837151646614075,
      "learning_rate": 2.86731555537123e-07,
      "loss": 1.5491,
      "step": 88916
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6736156940460205,
      "learning_rate": 2.862748675258486e-07,
      "loss": 1.562,
      "step": 88917
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6881140470504761,
      "learning_rate": 2.85818543322891e-07,
      "loss": 1.4811,
      "step": 88918
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6940536499023438,
      "learning_rate": 2.853625829287498e-07,
      "loss": 1.5143,
      "step": 88919
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.658748984336853,
      "learning_rate": 2.8490698634405785e-07,
      "loss": 1.5414,
      "step": 88920
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6874544620513916,
      "learning_rate": 2.844517535693147e-07,
      "loss": 1.525,
      "step": 88921
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6927493810653687,
      "learning_rate": 2.8399688460508664e-07,
      "loss": 1.6162,
      "step": 88922
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6709315180778503,
      "learning_rate": 2.835423794519065e-07,
      "loss": 1.4798,
      "step": 88923
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7190462350845337,
      "learning_rate": 2.8308823811037384e-07,
      "loss": 1.5426,
      "step": 88924
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.681899905204773,
      "learning_rate": 2.826344605809883e-07,
      "loss": 1.4193,
      "step": 88925
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6781560182571411,
      "learning_rate": 2.821810468643493e-07,
      "loss": 1.4598,
      "step": 88926
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6871923208236694,
      "learning_rate": 2.817279969609565e-07,
      "loss": 1.5261,
      "step": 88927
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6795837879180908,
      "learning_rate": 2.812753108714094e-07,
      "loss": 1.4292,
      "step": 88928
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6834621429443359,
      "learning_rate": 2.808229885962077e-07,
      "loss": 1.5395,
      "step": 88929
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7023553848266602,
      "learning_rate": 2.8037103013595074e-07,
      "loss": 1.508,
      "step": 88930
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.673633873462677,
      "learning_rate": 2.799194354911383e-07,
      "loss": 1.5299,
      "step": 88931
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6693698167800903,
      "learning_rate": 2.7946820466233646e-07,
      "loss": 1.5445,
      "step": 88932
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6765775084495544,
      "learning_rate": 2.790173376501115e-07,
      "loss": 1.5239,
      "step": 88933
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6688437461853027,
      "learning_rate": 2.785668344549963e-07,
      "loss": 1.4768,
      "step": 88934
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6901618242263794,
      "learning_rate": 2.7811669507752377e-07,
      "loss": 1.4917,
      "step": 88935
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6771725416183472,
      "learning_rate": 2.7766691951829344e-07,
      "loss": 1.439,
      "step": 88936
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6505578756332397,
      "learning_rate": 2.7721750777780494e-07,
      "loss": 1.5364,
      "step": 88937
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.662583589553833,
      "learning_rate": 2.767684598565911e-07,
      "loss": 1.4907,
      "step": 88938
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.677324116230011,
      "learning_rate": 2.7631977575521824e-07,
      "loss": 1.5264,
      "step": 88939
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6863613128662109,
      "learning_rate": 2.758714554742525e-07,
      "loss": 1.5516,
      "step": 88940
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6779102683067322,
      "learning_rate": 2.7542349901419347e-07,
      "loss": 1.5181,
      "step": 88941
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6696695685386658,
      "learning_rate": 2.749759063756074e-07,
      "loss": 1.4474,
      "step": 88942
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6785402297973633,
      "learning_rate": 2.745286775590605e-07,
      "loss": 1.5855,
      "step": 88943
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.66487056016922,
      "learning_rate": 2.7408181256505233e-07,
      "loss": 1.4503,
      "step": 88944
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.666516900062561,
      "learning_rate": 2.736353113941492e-07,
      "loss": 1.404,
      "step": 88945
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7003069519996643,
      "learning_rate": 2.731891740469172e-07,
      "loss": 1.46,
      "step": 88946
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6717038750648499,
      "learning_rate": 2.7274340052385604e-07,
      "loss": 1.4729,
      "step": 88947
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6673796772956848,
      "learning_rate": 2.7229799082549855e-07,
      "loss": 1.5511,
      "step": 88948
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6750741600990295,
      "learning_rate": 2.7185294495241097e-07,
      "loss": 1.5518,
      "step": 88949
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6562584042549133,
      "learning_rate": 2.714082629051595e-07,
      "loss": 1.4978,
      "step": 88950
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.683851420879364,
      "learning_rate": 2.7096394468424375e-07,
      "loss": 1.4815,
      "step": 88951
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6592349410057068,
      "learning_rate": 2.7051999029019664e-07,
      "loss": 1.4452,
      "step": 88952
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6807735562324524,
      "learning_rate": 2.700763997236177e-07,
      "loss": 1.4557,
      "step": 88953
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.680919885635376,
      "learning_rate": 2.6963317298497325e-07,
      "loss": 1.555,
      "step": 88954
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6733567118644714,
      "learning_rate": 2.691903100748294e-07,
      "loss": 1.5503,
      "step": 88955
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6613118052482605,
      "learning_rate": 2.687478109937191e-07,
      "loss": 1.5523,
      "step": 88956
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6531385183334351,
      "learning_rate": 2.6830567574220863e-07,
      "loss": 1.4917,
      "step": 88957
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7238753437995911,
      "learning_rate": 2.678639043207975e-07,
      "loss": 1.5112,
      "step": 88958
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.687844455242157,
      "learning_rate": 2.674224967300187e-07,
      "loss": 1.5845,
      "step": 88959
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6857218742370605,
      "learning_rate": 2.669814529704717e-07,
      "loss": 1.5181,
      "step": 88960
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6774621605873108,
      "learning_rate": 2.665407730426228e-07,
      "loss": 1.495,
      "step": 88961
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7091302871704102,
      "learning_rate": 2.661004569470049e-07,
      "loss": 1.4855,
      "step": 88962
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6853392124176025,
      "learning_rate": 2.6566050468421753e-07,
      "loss": 1.5099,
      "step": 88963
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6597591042518616,
      "learning_rate": 2.65220916254727e-07,
      "loss": 1.5662,
      "step": 88964
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6899309754371643,
      "learning_rate": 2.647816916590995e-07,
      "loss": 1.488,
      "step": 88965
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6643800139427185,
      "learning_rate": 2.643428308978679e-07,
      "loss": 1.5048,
      "step": 88966
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6815550327301025,
      "learning_rate": 2.639043339715652e-07,
      "loss": 1.5805,
      "step": 88967
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6853330731391907,
      "learning_rate": 2.634662008806909e-07,
      "loss": 1.5234,
      "step": 88968
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.675993025302887,
      "learning_rate": 2.6302843162584466e-07,
      "loss": 1.4209,
      "step": 88969
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6986459493637085,
      "learning_rate": 2.625910262074926e-07,
      "loss": 1.4402,
      "step": 88970
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6519252061843872,
      "learning_rate": 2.621539846262011e-07,
      "loss": 1.4668,
      "step": 88971
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6765097379684448,
      "learning_rate": 2.617173068824696e-07,
      "loss": 1.542,
      "step": 88972
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6757181286811829,
      "learning_rate": 2.6128099297686443e-07,
      "loss": 1.4918,
      "step": 88973
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7187127470970154,
      "learning_rate": 2.608450429099185e-07,
      "loss": 1.4995,
      "step": 88974
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6697894334793091,
      "learning_rate": 2.6040945668209803e-07,
      "loss": 1.5318,
      "step": 88975
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6741983890533447,
      "learning_rate": 2.5997423429400257e-07,
      "loss": 1.4902,
      "step": 88976
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6944752931594849,
      "learning_rate": 2.595393757461317e-07,
      "loss": 1.5036,
      "step": 88977
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6897410154342651,
      "learning_rate": 2.5910488103901837e-07,
      "loss": 1.5122,
      "step": 88978
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6670128107070923,
      "learning_rate": 2.586707501731955e-07,
      "loss": 1.5202,
      "step": 88979
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7091028690338135,
      "learning_rate": 2.5823698314916264e-07,
      "loss": 1.487,
      "step": 88980
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6682740449905396,
      "learning_rate": 2.57803579967486e-07,
      "loss": 1.5262,
      "step": 88981
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6749964952468872,
      "learning_rate": 2.5737054062866524e-07,
      "loss": 1.5136,
      "step": 88982
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6830220222473145,
      "learning_rate": 2.569378651332332e-07,
      "loss": 1.4725,
      "step": 88983
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6925990581512451,
      "learning_rate": 2.5650555348168956e-07,
      "loss": 1.6137,
      "step": 88984
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6787752509117126,
      "learning_rate": 2.5607360567460043e-07,
      "loss": 1.4601,
      "step": 88985
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6531729698181152,
      "learning_rate": 2.556420217124655e-07,
      "loss": 1.5382,
      "step": 88986
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6625570058822632,
      "learning_rate": 2.5521080159581765e-07,
      "loss": 1.5475,
      "step": 88987
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7104911804199219,
      "learning_rate": 2.5477994532518973e-07,
      "loss": 1.5146,
      "step": 88988
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7022188901901245,
      "learning_rate": 2.5434945290108145e-07,
      "loss": 1.5136,
      "step": 88989
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6924607753753662,
      "learning_rate": 2.5391932432405895e-07,
      "loss": 1.5238,
      "step": 88990
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6826729774475098,
      "learning_rate": 2.534895595945552e-07,
      "loss": 1.4982,
      "step": 88991
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.697405219078064,
      "learning_rate": 2.5306015871320307e-07,
      "loss": 1.4883,
      "step": 88992
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6964800953865051,
      "learning_rate": 2.5263112168043554e-07,
      "loss": 1.5259,
      "step": 88993
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6817450523376465,
      "learning_rate": 2.522024484968188e-07,
      "loss": 1.4867,
      "step": 88994
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6700130105018616,
      "learning_rate": 2.517741391628858e-07,
      "loss": 1.4735,
      "step": 88995
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7023949027061462,
      "learning_rate": 2.513461936791028e-07,
      "loss": 1.5063,
      "step": 88996
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6716025471687317,
      "learning_rate": 2.5091861204603605e-07,
      "loss": 1.4651,
      "step": 88997
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6960357427597046,
      "learning_rate": 2.5049139426415177e-07,
      "loss": 1.4749,
      "step": 88998
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6873443722724915,
      "learning_rate": 2.5006454033404953e-07,
      "loss": 1.5011,
      "step": 88999
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6668437719345093,
      "learning_rate": 2.496380502561957e-07,
      "loss": 1.4797,
      "step": 89000
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6772254109382629,
      "learning_rate": 2.492119240310897e-07,
      "loss": 1.5594,
      "step": 89001
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.696674108505249,
      "learning_rate": 2.487861616592979e-07,
      "loss": 1.5647,
      "step": 89002
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7073003649711609,
      "learning_rate": 2.483607631413198e-07,
      "loss": 1.55,
      "step": 89003
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6817736029624939,
      "learning_rate": 2.4793572847765506e-07,
      "loss": 1.5148,
      "step": 89004
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6797516942024231,
      "learning_rate": 2.475110576688033e-07,
      "loss": 1.4619,
      "step": 89005
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6749210357666016,
      "learning_rate": 2.470867507153307e-07,
      "loss": 1.6011,
      "step": 89006
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6881772875785828,
      "learning_rate": 2.466628076177368e-07,
      "loss": 1.5297,
      "step": 89007
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.703220546245575,
      "learning_rate": 2.462392283765213e-07,
      "loss": 1.5128,
      "step": 89008
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7125940918922424,
      "learning_rate": 2.458160129921838e-07,
      "loss": 1.5711,
      "step": 89009
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6853346824645996,
      "learning_rate": 2.453931614652904e-07,
      "loss": 1.4651,
      "step": 89010
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6786826848983765,
      "learning_rate": 2.4497067379630754e-07,
      "loss": 1.6265,
      "step": 89011
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6637359857559204,
      "learning_rate": 2.4454854998576803e-07,
      "loss": 1.5422,
      "step": 89012
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6627863049507141,
      "learning_rate": 2.441267900341715e-07,
      "loss": 1.5352,
      "step": 89013
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6557251811027527,
      "learning_rate": 2.437053939420508e-07,
      "loss": 1.5529,
      "step": 89014
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6847838163375854,
      "learning_rate": 2.432843617099056e-07,
      "loss": 1.4244,
      "step": 89015
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6868637204170227,
      "learning_rate": 2.428636933382355e-07,
      "loss": 1.4627,
      "step": 89016
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7117056250572205,
      "learning_rate": 2.424433888275734e-07,
      "loss": 1.5548,
      "step": 89017
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6795306205749512,
      "learning_rate": 2.420234481784189e-07,
      "loss": 1.4823,
      "step": 89018
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7058127522468567,
      "learning_rate": 2.416038713912383e-07,
      "loss": 1.547,
      "step": 89019
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.687537670135498,
      "learning_rate": 2.4118465846663104e-07,
      "loss": 1.5164,
      "step": 89020
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6873060464859009,
      "learning_rate": 2.4076580940506354e-07,
      "loss": 1.5747,
      "step": 89021
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6847688555717468,
      "learning_rate": 2.40347324207002e-07,
      "loss": 1.5354,
      "step": 89022
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.680319607257843,
      "learning_rate": 2.3992920287301263e-07,
      "loss": 1.5319,
      "step": 89023
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6472981572151184,
      "learning_rate": 2.395114454035618e-07,
      "loss": 1.4918,
      "step": 89024
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6842237114906311,
      "learning_rate": 2.390940517992157e-07,
      "loss": 1.5088,
      "step": 89025
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6666510701179504,
      "learning_rate": 2.386770220604073e-07,
      "loss": 1.4718,
      "step": 89026
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.649409830570221,
      "learning_rate": 2.3826035618766948e-07,
      "loss": 1.4399,
      "step": 89027
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6757693290710449,
      "learning_rate": 2.3784405418153518e-07,
      "loss": 1.5517,
      "step": 89028
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6800064444541931,
      "learning_rate": 2.37428116042504e-07,
      "loss": 1.5612,
      "step": 89029
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6699238419532776,
      "learning_rate": 2.3701254177104224e-07,
      "loss": 1.4914,
      "step": 89030
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6796450018882751,
      "learning_rate": 2.3659733136768278e-07,
      "loss": 1.4689,
      "step": 89031
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6704667210578918,
      "learning_rate": 2.3618248483295854e-07,
      "loss": 1.4877,
      "step": 89032
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6556597352027893,
      "learning_rate": 2.357680021673025e-07,
      "loss": 1.542,
      "step": 89033
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6773784756660461,
      "learning_rate": 2.353538833712809e-07,
      "loss": 1.4562,
      "step": 89034
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6724534630775452,
      "learning_rate": 2.3494012844536002e-07,
      "loss": 1.5219,
      "step": 89035
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6523100733757019,
      "learning_rate": 2.3452673739003947e-07,
      "loss": 1.5081,
      "step": 89036
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6768214702606201,
      "learning_rate": 2.3411371020585212e-07,
      "loss": 1.5795,
      "step": 89037
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6835113763809204,
      "learning_rate": 2.337010468932643e-07,
      "loss": 1.5389,
      "step": 89038
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6640938520431519,
      "learning_rate": 2.332887474528089e-07,
      "loss": 1.5749,
      "step": 89039
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.675024151802063,
      "learning_rate": 2.3287681188498553e-07,
      "loss": 1.5934,
      "step": 89040
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6954531669616699,
      "learning_rate": 2.3246524019026047e-07,
      "loss": 1.4475,
      "step": 89041
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6654761433601379,
      "learning_rate": 2.3205403236916664e-07,
      "loss": 1.5248,
      "step": 89042
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6945605278015137,
      "learning_rate": 2.3164318842217033e-07,
      "loss": 1.5392,
      "step": 89043
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.674657940864563,
      "learning_rate": 2.3123270834980445e-07,
      "loss": 1.4444,
      "step": 89044
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6377066373825073,
      "learning_rate": 2.3082259215256858e-07,
      "loss": 1.4296,
      "step": 89045
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6967616677284241,
      "learning_rate": 2.3041283983092906e-07,
      "loss": 1.5699,
      "step": 89046
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6952689290046692,
      "learning_rate": 2.3000345138538545e-07,
      "loss": 1.4835,
      "step": 89047
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.65595942735672,
      "learning_rate": 2.2959442681647067e-07,
      "loss": 1.4972,
      "step": 89048
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6893208622932434,
      "learning_rate": 2.29185766124651e-07,
      "loss": 1.4976,
      "step": 89049
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6689543128013611,
      "learning_rate": 2.2877746931045938e-07,
      "loss": 1.5069,
      "step": 89050
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6940743923187256,
      "learning_rate": 2.2836953637432875e-07,
      "loss": 1.4887,
      "step": 89051
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6753507852554321,
      "learning_rate": 2.2796196731679207e-07,
      "loss": 1.4929,
      "step": 89052
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.659521758556366,
      "learning_rate": 2.275547621383489e-07,
      "loss": 1.5119,
      "step": 89053
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6662396788597107,
      "learning_rate": 2.2714792083946555e-07,
      "loss": 1.4895,
      "step": 89054
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7081931829452515,
      "learning_rate": 2.2674144342067491e-07,
      "loss": 1.5405,
      "step": 89055
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6971250176429749,
      "learning_rate": 2.263353298824433e-07,
      "loss": 1.5244,
      "step": 89056
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7014129757881165,
      "learning_rate": 2.259295802252703e-07,
      "loss": 1.6042,
      "step": 89057
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6748235821723938,
      "learning_rate": 2.2552419444965553e-07,
      "loss": 1.447,
      "step": 89058
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7799965143203735,
      "learning_rate": 2.2511917255606525e-07,
      "loss": 1.6493,
      "step": 89059
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6719892621040344,
      "learning_rate": 2.2471451454503242e-07,
      "loss": 1.4948,
      "step": 89060
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6658928990364075,
      "learning_rate": 2.2431022041702328e-07,
      "loss": 1.5202,
      "step": 89061
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6711565256118774,
      "learning_rate": 2.2390629017250418e-07,
      "loss": 1.4758,
      "step": 89062
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6697206497192383,
      "learning_rate": 2.2350272381204126e-07,
      "loss": 1.5187,
      "step": 89063
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6961030960083008,
      "learning_rate": 2.2309952133603426e-07,
      "loss": 1.389,
      "step": 89064
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6650725603103638,
      "learning_rate": 2.2269668274504937e-07,
      "loss": 1.4915,
      "step": 89065
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6874597072601318,
      "learning_rate": 2.2229420803951957e-07,
      "loss": 1.5156,
      "step": 89066
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6949119567871094,
      "learning_rate": 2.2189209721994449e-07,
      "loss": 1.5184,
      "step": 89067
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6771755218505859,
      "learning_rate": 2.214903502868237e-07,
      "loss": 1.4708,
      "step": 89068
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6983697414398193,
      "learning_rate": 2.2108896724065685e-07,
      "loss": 1.5673,
      "step": 89069
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6847464442253113,
      "learning_rate": 2.2068794808194344e-07,
      "loss": 1.5035,
      "step": 89070
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.67353355884552,
      "learning_rate": 2.2028729281111657e-07,
      "loss": 1.5079,
      "step": 89071
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.672868549823761,
      "learning_rate": 2.1988700142867577e-07,
      "loss": 1.5742,
      "step": 89072
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6749789118766785,
      "learning_rate": 2.1948707393512065e-07,
      "loss": 1.4961,
      "step": 89073
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6995382308959961,
      "learning_rate": 2.1908751033098414e-07,
      "loss": 1.4907,
      "step": 89074
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6696829795837402,
      "learning_rate": 2.1868831061666592e-07,
      "loss": 1.5296,
      "step": 89075
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6615278124809265,
      "learning_rate": 2.1828947479269888e-07,
      "loss": 1.5367,
      "step": 89076
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6779810786247253,
      "learning_rate": 2.178910028595493e-07,
      "loss": 1.5299,
      "step": 89077
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6858558654785156,
      "learning_rate": 2.174928948177168e-07,
      "loss": 1.5624,
      "step": 89078
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6707704663276672,
      "learning_rate": 2.170951506676677e-07,
      "loss": 1.4708,
      "step": 89079
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6811389327049255,
      "learning_rate": 2.1669777040990154e-07,
      "loss": 1.5953,
      "step": 89080
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6715399026870728,
      "learning_rate": 2.1630075404491798e-07,
      "loss": 1.6004,
      "step": 89081
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6580238938331604,
      "learning_rate": 2.1590410157311665e-07,
      "loss": 1.5206,
      "step": 89082
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6899698376655579,
      "learning_rate": 2.1550781299509712e-07,
      "loss": 1.5089,
      "step": 89083
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6526400446891785,
      "learning_rate": 2.1511188831122573e-07,
      "loss": 1.4944,
      "step": 89084
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6655247807502747,
      "learning_rate": 2.1471632752206867e-07,
      "loss": 1.4827,
      "step": 89085
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6527867913246155,
      "learning_rate": 2.1432113062809232e-07,
      "loss": 1.4282,
      "step": 89086
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6868545413017273,
      "learning_rate": 2.1392629762972958e-07,
      "loss": 1.5175,
      "step": 89087
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7059219479560852,
      "learning_rate": 2.1353182852751337e-07,
      "loss": 1.5802,
      "step": 89088
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6879165768623352,
      "learning_rate": 2.1313772332187674e-07,
      "loss": 1.4842,
      "step": 89089
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6744046807289124,
      "learning_rate": 2.1274398201331923e-07,
      "loss": 1.4729,
      "step": 89090
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6722925901412964,
      "learning_rate": 2.1235060460230712e-07,
      "loss": 1.4542,
      "step": 89091
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6757380366325378,
      "learning_rate": 2.1195759108937338e-07,
      "loss": 1.5673,
      "step": 89092
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6753622889518738,
      "learning_rate": 2.1156494147491764e-07,
      "loss": 1.5626,
      "step": 89093
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7112137675285339,
      "learning_rate": 2.1117265575943952e-07,
      "loss": 1.4885,
      "step": 89094
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6795343160629272,
      "learning_rate": 2.1078073394343863e-07,
      "loss": 1.5296,
      "step": 89095
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6783100366592407,
      "learning_rate": 2.1038917602738126e-07,
      "loss": 1.5325,
      "step": 89096
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6715649366378784,
      "learning_rate": 2.09997982011767e-07,
      "loss": 1.5499,
      "step": 89097
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6870031356811523,
      "learning_rate": 2.096071518969955e-07,
      "loss": 1.4977,
      "step": 89098
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6566749215126038,
      "learning_rate": 2.0921668568363302e-07,
      "loss": 1.4268,
      "step": 89099
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6551647782325745,
      "learning_rate": 2.0882658337207925e-07,
      "loss": 1.5146,
      "step": 89100
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6816571354866028,
      "learning_rate": 2.0843684496283375e-07,
      "loss": 1.4558,
      "step": 89101
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7075107097625732,
      "learning_rate": 2.0804747045639614e-07,
      "loss": 1.4844,
      "step": 89102
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7097053527832031,
      "learning_rate": 2.076584598531994e-07,
      "loss": 1.4469,
      "step": 89103
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6705355048179626,
      "learning_rate": 2.0726981315374314e-07,
      "loss": 1.3988,
      "step": 89104
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6990131735801697,
      "learning_rate": 2.0688153035849365e-07,
      "loss": 1.4677,
      "step": 89105
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6936200261116028,
      "learning_rate": 2.0649361146791721e-07,
      "loss": 1.5025,
      "step": 89106
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6809072494506836,
      "learning_rate": 2.0610605648248013e-07,
      "loss": 1.5622,
      "step": 89107
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.672601044178009,
      "learning_rate": 2.057188654026487e-07,
      "loss": 1.4669,
      "step": 89108
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6596953272819519,
      "learning_rate": 2.0533203822888922e-07,
      "loss": 1.4313,
      "step": 89109
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.681027889251709,
      "learning_rate": 2.0494557496170128e-07,
      "loss": 1.5487,
      "step": 89110
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6907939314842224,
      "learning_rate": 2.0455947560155118e-07,
      "loss": 1.461,
      "step": 89111
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.7220130562782288,
      "learning_rate": 2.0417374014887189e-07,
      "loss": 1.6011,
      "step": 89112
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6752322316169739,
      "learning_rate": 2.0378836860416304e-07,
      "loss": 1.5092,
      "step": 89113
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6784807443618774,
      "learning_rate": 2.0340336096789088e-07,
      "loss": 1.5164,
      "step": 89114
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6937377452850342,
      "learning_rate": 2.0301871724048846e-07,
      "loss": 1.5121,
      "step": 89115
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6738335490226746,
      "learning_rate": 2.0263443742248864e-07,
      "loss": 1.5168,
      "step": 89116
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.667952299118042,
      "learning_rate": 2.022505215142911e-07,
      "loss": 1.4597,
      "step": 89117
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6895323991775513,
      "learning_rate": 2.0186696951636217e-07,
      "loss": 1.4926,
      "step": 89118
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.6801488399505615,
      "learning_rate": 2.0148378142923472e-07,
      "loss": 1.4442,
      "step": 89119
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6956614851951599,
      "learning_rate": 2.0110095725330843e-07,
      "loss": 1.5082,
      "step": 89120
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6625572443008423,
      "learning_rate": 2.0071849698908292e-07,
      "loss": 1.523,
      "step": 89121
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.656194269657135,
      "learning_rate": 2.003364006370245e-07,
      "loss": 1.468,
      "step": 89122
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6901871562004089,
      "learning_rate": 1.9995466819756613e-07,
      "loss": 1.4233,
      "step": 89123
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6836045384407043,
      "learning_rate": 1.995732996712074e-07,
      "loss": 1.4877,
      "step": 89124
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6980974674224854,
      "learning_rate": 1.991922950583813e-07,
      "loss": 1.5734,
      "step": 89125
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6717045903205872,
      "learning_rate": 1.9881165435955414e-07,
      "loss": 1.5209,
      "step": 89126
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6674318909645081,
      "learning_rate": 1.9843137757519223e-07,
      "loss": 1.5643,
      "step": 89127
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6984449028968811,
      "learning_rate": 1.9805146470579515e-07,
      "loss": 1.5029,
      "step": 89128
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6657592058181763,
      "learning_rate": 1.9767191575176255e-07,
      "loss": 1.5686,
      "step": 89129
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6772991418838501,
      "learning_rate": 1.9729273071356077e-07,
      "loss": 1.4905,
      "step": 89130
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6745551824569702,
      "learning_rate": 1.969139095917227e-07,
      "loss": 1.5835,
      "step": 89131
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6551603078842163,
      "learning_rate": 1.9653545238661472e-07,
      "loss": 1.4876,
      "step": 89132
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6848397850990295,
      "learning_rate": 1.9615735909876974e-07,
      "loss": 1.4942,
      "step": 89133
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7044276595115662,
      "learning_rate": 1.957796297285874e-07,
      "loss": 1.5155,
      "step": 89134
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6692644953727722,
      "learning_rate": 1.9540226427656734e-07,
      "loss": 1.4818,
      "step": 89135
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6715067028999329,
      "learning_rate": 1.9502526274317587e-07,
      "loss": 1.5541,
      "step": 89136
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6707096099853516,
      "learning_rate": 1.9464862512881264e-07,
      "loss": 1.5255,
      "step": 89137
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6897020936012268,
      "learning_rate": 1.9427235143401053e-07,
      "loss": 1.5325,
      "step": 89138
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.667493999004364,
      "learning_rate": 1.93896441659136e-07,
      "loss": 1.5476,
      "step": 89139
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.693461537361145,
      "learning_rate": 1.9352089580475517e-07,
      "loss": 1.4936,
      "step": 89140
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.699699342250824,
      "learning_rate": 1.9314571387123444e-07,
      "loss": 1.4983,
      "step": 89141
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.681638777256012,
      "learning_rate": 1.9277089585904016e-07,
      "loss": 1.4462,
      "step": 89142
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6715012192726135,
      "learning_rate": 1.9239644176867185e-07,
      "loss": 1.5529,
      "step": 89143
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6881207823753357,
      "learning_rate": 1.9202235160056256e-07,
      "loss": 1.4708,
      "step": 89144
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6679773926734924,
      "learning_rate": 1.9164862535517856e-07,
      "loss": 1.5763,
      "step": 89145
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6815961003303528,
      "learning_rate": 1.912752630329195e-07,
      "loss": 1.5056,
      "step": 89146
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6856570839881897,
      "learning_rate": 1.9090226463431836e-07,
      "loss": 1.4523,
      "step": 89147
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6715959906578064,
      "learning_rate": 1.9052963015974142e-07,
      "loss": 1.4808,
      "step": 89148
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6707749962806702,
      "learning_rate": 1.9015735960972166e-07,
      "loss": 1.5094,
      "step": 89149
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6626759767532349,
      "learning_rate": 1.8978545298465875e-07,
      "loss": 1.5394,
      "step": 89150
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.668845534324646,
      "learning_rate": 1.8941391028505226e-07,
      "loss": 1.4878,
      "step": 89151
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6700716018676758,
      "learning_rate": 1.890427315113019e-07,
      "loss": 1.4604,
      "step": 89152
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6994430422782898,
      "learning_rate": 1.8867191666387393e-07,
      "loss": 1.4672,
      "step": 89153
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6552892923355103,
      "learning_rate": 1.8830146574320138e-07,
      "loss": 1.4628,
      "step": 89154
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6735662221908569,
      "learning_rate": 1.879313787497838e-07,
      "loss": 1.5483,
      "step": 89155
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6796116232872009,
      "learning_rate": 1.8756165568405424e-07,
      "loss": 1.5165,
      "step": 89156
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.678245484828949,
      "learning_rate": 1.871922965464123e-07,
      "loss": 1.4462,
      "step": 89157
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6709349751472473,
      "learning_rate": 1.8682330133735767e-07,
      "loss": 1.4798,
      "step": 89158
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6956762075424194,
      "learning_rate": 1.864546700573566e-07,
      "loss": 1.5793,
      "step": 89159
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6836225986480713,
      "learning_rate": 1.8608640270677543e-07,
      "loss": 1.4748,
      "step": 89160
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6463501453399658,
      "learning_rate": 1.8571849928614714e-07,
      "loss": 1.5081,
      "step": 89161
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.721196174621582,
      "learning_rate": 1.8535095979587132e-07,
      "loss": 1.5215,
      "step": 89162
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6571459174156189,
      "learning_rate": 1.8498378423638106e-07,
      "loss": 1.4203,
      "step": 89163
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6939016580581665,
      "learning_rate": 1.8461697260817587e-07,
      "loss": 1.5182,
      "step": 89164
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6914476156234741,
      "learning_rate": 1.842505249116555e-07,
      "loss": 1.4827,
      "step": 89165
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6603765487670898,
      "learning_rate": 1.8388444114728618e-07,
      "loss": 1.5514,
      "step": 89166
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6782386302947998,
      "learning_rate": 1.8351872131550094e-07,
      "loss": 1.5519,
      "step": 89167
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6786769032478333,
      "learning_rate": 1.8315336541673275e-07,
      "loss": 1.4481,
      "step": 89168
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6750322580337524,
      "learning_rate": 1.8278837345144793e-07,
      "loss": 1.5331,
      "step": 89169
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.689319372177124,
      "learning_rate": 1.8242374542007942e-07,
      "loss": 1.4809,
      "step": 89170
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6845625042915344,
      "learning_rate": 1.8205948132309357e-07,
      "loss": 1.5265,
      "step": 89171
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.686286211013794,
      "learning_rate": 1.8169558116089e-07,
      "loss": 1.4609,
      "step": 89172
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6894063949584961,
      "learning_rate": 1.8133204493393506e-07,
      "loss": 1.5273,
      "step": 89173
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6683188676834106,
      "learning_rate": 1.80968872642695e-07,
      "loss": 1.4498,
      "step": 89174
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.680739164352417,
      "learning_rate": 1.806060642875362e-07,
      "loss": 1.5004,
      "step": 89175
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7023636102676392,
      "learning_rate": 1.8024361986899162e-07,
      "loss": 1.569,
      "step": 89176
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7167050838470459,
      "learning_rate": 1.7988153938742754e-07,
      "loss": 1.6133,
      "step": 89177
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6886259913444519,
      "learning_rate": 1.7951982284331034e-07,
      "loss": 1.4208,
      "step": 89178
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6744030714035034,
      "learning_rate": 1.7915847023707296e-07,
      "loss": 1.5217,
      "step": 89179
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.704156756401062,
      "learning_rate": 1.7879748156918172e-07,
      "loss": 1.5323,
      "step": 89180
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6831023693084717,
      "learning_rate": 1.7843685684006957e-07,
      "loss": 1.4698,
      "step": 89181
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6675981879234314,
      "learning_rate": 1.7807659605010293e-07,
      "loss": 1.4764,
      "step": 89182
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6806246042251587,
      "learning_rate": 1.7771669919981467e-07,
      "loss": 1.4625,
      "step": 89183
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6750178933143616,
      "learning_rate": 1.773571662896045e-07,
      "loss": 1.5234,
      "step": 89184
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.668067991733551,
      "learning_rate": 1.7699799731987206e-07,
      "loss": 1.5715,
      "step": 89185
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6617717742919922,
      "learning_rate": 1.76639192291117e-07,
      "loss": 1.464,
      "step": 89186
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.681289553642273,
      "learning_rate": 1.7628075120373896e-07,
      "loss": 1.4651,
      "step": 89187
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6744674444198608,
      "learning_rate": 1.7592267405817096e-07,
      "loss": 1.5083,
      "step": 89188
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6626715064048767,
      "learning_rate": 1.7556496085487926e-07,
      "loss": 1.4294,
      "step": 89189
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.671738862991333,
      "learning_rate": 1.7520761159426355e-07,
      "loss": 1.5221,
      "step": 89190
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6596445441246033,
      "learning_rate": 1.7485062627675682e-07,
      "loss": 1.4833,
      "step": 89191
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6662962436676025,
      "learning_rate": 1.7449400490279208e-07,
      "loss": 1.4676,
      "step": 89192
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6861922144889832,
      "learning_rate": 1.741377474728356e-07,
      "loss": 1.4753,
      "step": 89193
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6713730692863464,
      "learning_rate": 1.7378185398728705e-07,
      "loss": 1.5213,
      "step": 89194
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7050730586051941,
      "learning_rate": 1.7342632444661275e-07,
      "loss": 1.5742,
      "step": 89195
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7076341509819031,
      "learning_rate": 1.7307115885121236e-07,
      "loss": 1.5154,
      "step": 89196
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7015001773834229,
      "learning_rate": 1.7271635720151887e-07,
      "loss": 1.561,
      "step": 89197
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.674055814743042,
      "learning_rate": 1.7236191949796529e-07,
      "loss": 1.4919,
      "step": 89198
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6684932112693787,
      "learning_rate": 1.720078457409846e-07,
      "loss": 1.54,
      "step": 89199
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6725663542747498,
      "learning_rate": 1.7165413593104305e-07,
      "loss": 1.4043,
      "step": 89200
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6617408394813538,
      "learning_rate": 1.7130079006850706e-07,
      "loss": 1.4858,
      "step": 89201
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6606404781341553,
      "learning_rate": 1.709478081538429e-07,
      "loss": 1.4894,
      "step": 89202
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6605939269065857,
      "learning_rate": 1.7059519018745027e-07,
      "loss": 1.5648,
      "step": 89203
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.682744562625885,
      "learning_rate": 1.7024293616979546e-07,
      "loss": 1.6028,
      "step": 89204
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6706582307815552,
      "learning_rate": 1.6989104610127812e-07,
      "loss": 1.5655,
      "step": 89205
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6929660439491272,
      "learning_rate": 1.695395199823313e-07,
      "loss": 1.5115,
      "step": 89206
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7009134292602539,
      "learning_rate": 1.6918835781342121e-07,
      "loss": 1.3948,
      "step": 89207
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6899452209472656,
      "learning_rate": 1.6883755959491429e-07,
      "loss": 1.5349,
      "step": 89208
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6655321717262268,
      "learning_rate": 1.684871253272435e-07,
      "loss": 1.4942,
      "step": 89209
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6829401850700378,
      "learning_rate": 1.6813705501087514e-07,
      "loss": 1.4981,
      "step": 89210
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6651020646095276,
      "learning_rate": 1.677873486462089e-07,
      "loss": 1.5157,
      "step": 89211
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6547394394874573,
      "learning_rate": 1.6743800623364445e-07,
      "loss": 1.449,
      "step": 89212
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6672667264938354,
      "learning_rate": 1.6708902777364806e-07,
      "loss": 1.5618,
      "step": 89213
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6669130325317383,
      "learning_rate": 1.6674041326665276e-07,
      "loss": 1.508,
      "step": 89214
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6702533960342407,
      "learning_rate": 1.663921627130249e-07,
      "loss": 1.5074,
      "step": 89215
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7068372368812561,
      "learning_rate": 1.6604427611323078e-07,
      "loss": 1.5762,
      "step": 89216
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7047212719917297,
      "learning_rate": 1.6569675346767009e-07,
      "loss": 1.5656,
      "step": 89217
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6996066570281982,
      "learning_rate": 1.653495947767758e-07,
      "loss": 1.4753,
      "step": 89218
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6509591937065125,
      "learning_rate": 1.6500280004098088e-07,
      "loss": 1.5288,
      "step": 89219
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7003979682922363,
      "learning_rate": 1.6465636926068503e-07,
      "loss": 1.4675,
      "step": 89220
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6868676543235779,
      "learning_rate": 1.6431030243632126e-07,
      "loss": 1.4851,
      "step": 89221
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6865882277488708,
      "learning_rate": 1.6396459956832253e-07,
      "loss": 1.4454,
      "step": 89222
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6784893274307251,
      "learning_rate": 1.6361926065705523e-07,
      "loss": 1.4639,
      "step": 89223
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6808756589889526,
      "learning_rate": 1.6327428570301893e-07,
      "loss": 1.5081,
      "step": 89224
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6840077042579651,
      "learning_rate": 1.629296747065467e-07,
      "loss": 1.4686,
      "step": 89225
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7004492878913879,
      "learning_rate": 1.625854276681382e-07,
      "loss": 1.5332,
      "step": 89226
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6945897936820984,
      "learning_rate": 1.6224154458812644e-07,
      "loss": 1.5173,
      "step": 89227
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6827422976493835,
      "learning_rate": 1.6189802546701103e-07,
      "loss": 1.4701,
      "step": 89228
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6837251782417297,
      "learning_rate": 1.6155487030515833e-07,
      "loss": 1.5088,
      "step": 89229
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6740813851356506,
      "learning_rate": 1.6121207910300137e-07,
      "loss": 1.4635,
      "step": 89230
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6729351282119751,
      "learning_rate": 1.6086965186093981e-07,
      "loss": 1.5624,
      "step": 89231
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6648638844490051,
      "learning_rate": 1.6052758857943992e-07,
      "loss": 1.4681,
      "step": 89232
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7151440978050232,
      "learning_rate": 1.601858892588348e-07,
      "loss": 1.5579,
      "step": 89233
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7018153071403503,
      "learning_rate": 1.5984455389962404e-07,
      "loss": 1.548,
      "step": 89234
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.683240532875061,
      "learning_rate": 1.5950358250217398e-07,
      "loss": 1.503,
      "step": 89235
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6999217867851257,
      "learning_rate": 1.5916297506688436e-07,
      "loss": 1.4331,
      "step": 89236
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6566835045814514,
      "learning_rate": 1.5882273159422143e-07,
      "loss": 1.505,
      "step": 89237
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6803499460220337,
      "learning_rate": 1.584828520845516e-07,
      "loss": 1.4181,
      "step": 89238
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6791464686393738,
      "learning_rate": 1.581433365383078e-07,
      "loss": 1.4958,
      "step": 89239
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6768268942832947,
      "learning_rate": 1.5780418495588976e-07,
      "loss": 1.5411,
      "step": 89240
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6785679459571838,
      "learning_rate": 1.5746539733773046e-07,
      "loss": 1.5066,
      "step": 89241
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.679578423500061,
      "learning_rate": 1.5712697368419625e-07,
      "loss": 1.5079,
      "step": 89242
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6959254145622253,
      "learning_rate": 1.5678891399575345e-07,
      "loss": 1.558,
      "step": 89243
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6996720433235168,
      "learning_rate": 1.564512182728017e-07,
      "loss": 1.5611,
      "step": 89244
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6557673811912537,
      "learning_rate": 1.5611388651574076e-07,
      "loss": 1.4983,
      "step": 89245
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6777200102806091,
      "learning_rate": 1.557769187249369e-07,
      "loss": 1.536,
      "step": 89246
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6823164820671082,
      "learning_rate": 1.554403149008898e-07,
      "loss": 1.554,
      "step": 89247
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6818228363990784,
      "learning_rate": 1.5510407504393252e-07,
      "loss": 1.4732,
      "step": 89248
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6970176100730896,
      "learning_rate": 1.54768199154498e-07,
      "loss": 1.5502,
      "step": 89249
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7023255825042725,
      "learning_rate": 1.5443268723298596e-07,
      "loss": 1.5357,
      "step": 89250
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.675251841545105,
      "learning_rate": 1.5409753927982938e-07,
      "loss": 1.5175,
      "step": 89251
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6895769834518433,
      "learning_rate": 1.5376275529542792e-07,
      "loss": 1.5189,
      "step": 89252
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6651908159255981,
      "learning_rate": 1.5342833528014798e-07,
      "loss": 1.4881,
      "step": 89253
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6801526546478271,
      "learning_rate": 1.5309427923445582e-07,
      "loss": 1.5463,
      "step": 89254
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.682008683681488,
      "learning_rate": 1.5276058715871787e-07,
      "loss": 1.4239,
      "step": 89255
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6968757510185242,
      "learning_rate": 1.5242725905333375e-07,
      "loss": 1.5284,
      "step": 89256
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6739199161529541,
      "learning_rate": 1.5209429491873648e-07,
      "loss": 1.4739,
      "step": 89257
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6891981363296509,
      "learning_rate": 1.5176169475532573e-07,
      "loss": 1.507,
      "step": 89258
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6694297194480896,
      "learning_rate": 1.5142945856346788e-07,
      "loss": 1.5007,
      "step": 89259
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6843151450157166,
      "learning_rate": 1.5109758634359593e-07,
      "loss": 1.5417,
      "step": 89260
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6744772791862488,
      "learning_rate": 1.5076607809614283e-07,
      "loss": 1.5345,
      "step": 89261
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.67019122838974,
      "learning_rate": 1.5043493382144168e-07,
      "loss": 1.5558,
      "step": 89262
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6702435612678528,
      "learning_rate": 1.5010415351995875e-07,
      "loss": 1.4912,
      "step": 89263
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6687430739402771,
      "learning_rate": 1.4977373719206043e-07,
      "loss": 1.458,
      "step": 89264
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6885520815849304,
      "learning_rate": 1.494436848381464e-07,
      "loss": 1.4985,
      "step": 89265
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6897411346435547,
      "learning_rate": 1.4911399645864963e-07,
      "loss": 1.5428,
      "step": 89266
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.692725419998169,
      "learning_rate": 1.487846720539365e-07,
      "loss": 1.477,
      "step": 89267
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6810952425003052,
      "learning_rate": 1.4845571162440672e-07,
      "loss": 1.5214,
      "step": 89268
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6972052454948425,
      "learning_rate": 1.4812711517049326e-07,
      "loss": 1.4496,
      "step": 89269
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6886691451072693,
      "learning_rate": 1.4779888269252914e-07,
      "loss": 1.5111,
      "step": 89270
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.698918342590332,
      "learning_rate": 1.4747101419101404e-07,
      "loss": 1.5514,
      "step": 89271
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6885247230529785,
      "learning_rate": 1.4714350966624766e-07,
      "loss": 1.5088,
      "step": 89272
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.667029619216919,
      "learning_rate": 1.4681636911866301e-07,
      "loss": 1.4814,
      "step": 89273
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6602017283439636,
      "learning_rate": 1.4648959254869308e-07,
      "loss": 1.5054,
      "step": 89274
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.691676139831543,
      "learning_rate": 1.4616317995667093e-07,
      "loss": 1.4935,
      "step": 89275
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6926336884498596,
      "learning_rate": 1.4583713134306286e-07,
      "loss": 1.5664,
      "step": 89276
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6541576385498047,
      "learning_rate": 1.455114467082019e-07,
      "loss": 1.5436,
      "step": 89277
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6800573468208313,
      "learning_rate": 1.4518612605252112e-07,
      "loss": 1.4974,
      "step": 89278
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6562342643737793,
      "learning_rate": 1.448611693763868e-07,
      "loss": 1.5159,
      "step": 89279
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.669387698173523,
      "learning_rate": 1.4453657668019868e-07,
      "loss": 1.4478,
      "step": 89280
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6674497127532959,
      "learning_rate": 1.4421234796438974e-07,
      "loss": 1.506,
      "step": 89281
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6823142170906067,
      "learning_rate": 1.4388848322932634e-07,
      "loss": 1.5421,
      "step": 89282
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6876944899559021,
      "learning_rate": 1.4356498247537484e-07,
      "loss": 1.5183,
      "step": 89283
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7048621773719788,
      "learning_rate": 1.4324184570296826e-07,
      "loss": 1.5126,
      "step": 89284
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6976686120033264,
      "learning_rate": 1.4291907291250627e-07,
      "loss": 1.4942,
      "step": 89285
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6871753931045532,
      "learning_rate": 1.4259666410432192e-07,
      "loss": 1.5146,
      "step": 89286
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6977129578590393,
      "learning_rate": 1.422746192788815e-07,
      "loss": 1.4336,
      "step": 89287
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6641162037849426,
      "learning_rate": 1.419529384364848e-07,
      "loss": 1.4954,
      "step": 89288
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7267343401908875,
      "learning_rate": 1.4163162157763143e-07,
      "loss": 1.5956,
      "step": 89289
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6955293416976929,
      "learning_rate": 1.4131066870262108e-07,
      "loss": 1.5079,
      "step": 89290
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6891025304794312,
      "learning_rate": 1.409900798118868e-07,
      "loss": 1.5838,
      "step": 89291
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6823371052742004,
      "learning_rate": 1.4066985490579496e-07,
      "loss": 1.4627,
      "step": 89292
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6941226124763489,
      "learning_rate": 1.4034999398477854e-07,
      "loss": 1.5048,
      "step": 89293
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7082956433296204,
      "learning_rate": 1.4003049704917057e-07,
      "loss": 1.464,
      "step": 89294
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6936767101287842,
      "learning_rate": 1.3971136409937078e-07,
      "loss": 1.5152,
      "step": 89295
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6757776737213135,
      "learning_rate": 1.3939259513581215e-07,
      "loss": 1.4812,
      "step": 89296
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6945497989654541,
      "learning_rate": 1.390741901588277e-07,
      "loss": 1.5586,
      "step": 89297
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6952202320098877,
      "learning_rate": 1.3875614916885047e-07,
      "loss": 1.5331,
      "step": 89298
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6781102418899536,
      "learning_rate": 1.3843847216621352e-07,
      "loss": 1.6077,
      "step": 89299
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.709837794303894,
      "learning_rate": 1.381211591513165e-07,
      "loss": 1.519,
      "step": 89300
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6825178861618042,
      "learning_rate": 1.378042101245924e-07,
      "loss": 1.567,
      "step": 89301
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7026239037513733,
      "learning_rate": 1.3748762508637434e-07,
      "loss": 1.5131,
      "step": 89302
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6914882659912109,
      "learning_rate": 1.3717140403706194e-07,
      "loss": 1.5074,
      "step": 89303
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6786841154098511,
      "learning_rate": 1.3685554697705493e-07,
      "loss": 1.5724,
      "step": 89304
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6696994304656982,
      "learning_rate": 1.3654005390671964e-07,
      "loss": 1.439,
      "step": 89305
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6662620306015015,
      "learning_rate": 1.3622492482642244e-07,
      "loss": 1.4693,
      "step": 89306
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.695152759552002,
      "learning_rate": 1.3591015973659637e-07,
      "loss": 1.5587,
      "step": 89307
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7092840075492859,
      "learning_rate": 1.3559575863757445e-07,
      "loss": 1.511,
      "step": 89308
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6934087872505188,
      "learning_rate": 1.3528172152975635e-07,
      "loss": 1.4189,
      "step": 89309
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7053604125976562,
      "learning_rate": 1.349680484135085e-07,
      "loss": 1.4862,
      "step": 89310
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.669805645942688,
      "learning_rate": 1.3465473928923053e-07,
      "loss": 1.5012,
      "step": 89311
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6600213050842285,
      "learning_rate": 1.3434179415732215e-07,
      "loss": 1.4645,
      "step": 89312
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6842069029808044,
      "learning_rate": 1.3402921301811641e-07,
      "loss": 1.4772,
      "step": 89313
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.66289222240448,
      "learning_rate": 1.3371699587204632e-07,
      "loss": 1.529,
      "step": 89314
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6870495080947876,
      "learning_rate": 1.334051427194449e-07,
      "loss": 1.5087,
      "step": 89315
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7031044960021973,
      "learning_rate": 1.3309365356067858e-07,
      "loss": 1.5755,
      "step": 89316
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6939278841018677,
      "learning_rate": 1.327825283961803e-07,
      "loss": 1.5548,
      "step": 89317
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6747507452964783,
      "learning_rate": 1.3247176722631648e-07,
      "loss": 1.5509,
      "step": 89318
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6941693425178528,
      "learning_rate": 1.3216137005142015e-07,
      "loss": 1.5374,
      "step": 89319
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6693057417869568,
      "learning_rate": 1.31851336871891e-07,
      "loss": 1.5209,
      "step": 89320
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6914411783218384,
      "learning_rate": 1.3154166768812868e-07,
      "loss": 1.5448,
      "step": 89321
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6843967437744141,
      "learning_rate": 1.3123236250049963e-07,
      "loss": 1.525,
      "step": 89322
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6722668409347534,
      "learning_rate": 1.3092342130937016e-07,
      "loss": 1.5167,
      "step": 89323
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7016189694404602,
      "learning_rate": 1.306148441151067e-07,
      "loss": 1.436,
      "step": 89324
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6798434257507324,
      "learning_rate": 1.3030663091807557e-07,
      "loss": 1.5436,
      "step": 89325
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6613755822181702,
      "learning_rate": 1.299987817186765e-07,
      "loss": 1.5244,
      "step": 89326
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7136845588684082,
      "learning_rate": 1.2969129651727583e-07,
      "loss": 1.545,
      "step": 89327
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6627567410469055,
      "learning_rate": 1.2938417531427325e-07,
      "loss": 1.5143,
      "step": 89328
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6805316805839539,
      "learning_rate": 1.2907741811000183e-07,
      "loss": 1.5098,
      "step": 89329
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.653131365776062,
      "learning_rate": 1.2877102490482793e-07,
      "loss": 1.4065,
      "step": 89330
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6763895153999329,
      "learning_rate": 1.2846499569915125e-07,
      "loss": 1.5877,
      "step": 89331
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6855224370956421,
      "learning_rate": 1.2815933049333815e-07,
      "loss": 1.522,
      "step": 89332
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6609627604484558,
      "learning_rate": 1.27854029287755e-07,
      "loss": 1.4981,
      "step": 89333
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.653473436832428,
      "learning_rate": 1.275490920827682e-07,
      "loss": 1.4756,
      "step": 89334
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6647297143936157,
      "learning_rate": 1.2724451887874408e-07,
      "loss": 1.4733,
      "step": 89335
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6669687032699585,
      "learning_rate": 1.2694030967608238e-07,
      "loss": 1.4797,
      "step": 89336
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7008554935455322,
      "learning_rate": 1.2663646447511612e-07,
      "loss": 1.5769,
      "step": 89337
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.665132999420166,
      "learning_rate": 1.2633298327624496e-07,
      "loss": 1.4822,
      "step": 89338
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6760678887367249,
      "learning_rate": 1.2602986607980203e-07,
      "loss": 1.5365,
      "step": 89339
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6911436915397644,
      "learning_rate": 1.2572711288618697e-07,
      "loss": 1.5008,
      "step": 89340
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6738950610160828,
      "learning_rate": 1.2542472369576618e-07,
      "loss": 1.4537,
      "step": 89341
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6692784428596497,
      "learning_rate": 1.251226985088727e-07,
      "loss": 1.488,
      "step": 89342
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.692646861076355,
      "learning_rate": 1.248210373259062e-07,
      "loss": 1.5744,
      "step": 89343
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6426130533218384,
      "learning_rate": 1.2451974014723308e-07,
      "loss": 1.4957,
      "step": 89344
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6770745515823364,
      "learning_rate": 1.2421880697318643e-07,
      "loss": 1.4206,
      "step": 89345
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6825103759765625,
      "learning_rate": 1.2391823780416588e-07,
      "loss": 1.577,
      "step": 89346
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6602848172187805,
      "learning_rate": 1.2361803264050453e-07,
      "loss": 1.4961,
      "step": 89347
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.674414873123169,
      "learning_rate": 1.2331819148260202e-07,
      "loss": 1.4733,
      "step": 89348
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6669198274612427,
      "learning_rate": 1.2301871433079148e-07,
      "loss": 1.6019,
      "step": 89349
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6779382228851318,
      "learning_rate": 1.2271960118547254e-07,
      "loss": 1.5046,
      "step": 89350
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6659362316131592,
      "learning_rate": 1.2242085204697827e-07,
      "loss": 1.5154,
      "step": 89351
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6790148019790649,
      "learning_rate": 1.2212246691570838e-07,
      "loss": 1.511,
      "step": 89352
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6670166850090027,
      "learning_rate": 1.218244457919626e-07,
      "loss": 1.4949,
      "step": 89353
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6642209887504578,
      "learning_rate": 1.2152678867614063e-07,
      "loss": 1.4531,
      "step": 89354
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6831697821617126,
      "learning_rate": 1.2122949556860883e-07,
      "loss": 1.4575,
      "step": 89355
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6982361674308777,
      "learning_rate": 1.2093256646970029e-07,
      "loss": 1.5283,
      "step": 89356
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6803439259529114,
      "learning_rate": 1.2063600137981466e-07,
      "loss": 1.5916,
      "step": 89357
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6869125962257385,
      "learning_rate": 1.2033980029928503e-07,
      "loss": 1.412,
      "step": 89358
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6631363034248352,
      "learning_rate": 1.2004396322847775e-07,
      "loss": 1.4778,
      "step": 89359
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6691058278083801,
      "learning_rate": 1.1974849016775921e-07,
      "loss": 1.4609,
      "step": 89360
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6743369102478027,
      "learning_rate": 1.194533811174625e-07,
      "loss": 1.5058,
      "step": 89361
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6477923393249512,
      "learning_rate": 1.1915863607798725e-07,
      "loss": 1.4815,
      "step": 89362
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6662665009498596,
      "learning_rate": 1.1886425504966657e-07,
      "loss": 1.4786,
      "step": 89363
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6956889629364014,
      "learning_rate": 1.185702380328335e-07,
      "loss": 1.6016,
      "step": 89364
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6777278184890747,
      "learning_rate": 1.1827658502788772e-07,
      "loss": 1.5198,
      "step": 89365
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6684858202934265,
      "learning_rate": 1.1798329603516232e-07,
      "loss": 1.5257,
      "step": 89366
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6775535941123962,
      "learning_rate": 1.1769037105502366e-07,
      "loss": 1.4905,
      "step": 89367
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6735058426856995,
      "learning_rate": 1.1739781008783811e-07,
      "loss": 1.5124,
      "step": 89368
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6687578558921814,
      "learning_rate": 1.1710561313393874e-07,
      "loss": 1.4541,
      "step": 89369
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6684332489967346,
      "learning_rate": 1.1681378019369192e-07,
      "loss": 1.5281,
      "step": 89370
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6791564226150513,
      "learning_rate": 1.1652231126743073e-07,
      "loss": 1.5452,
      "step": 89371
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6806130409240723,
      "learning_rate": 1.1623120635552152e-07,
      "loss": 1.4691,
      "step": 89372
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.681578516960144,
      "learning_rate": 1.1594046545833069e-07,
      "loss": 1.5068,
      "step": 89373
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6537215709686279,
      "learning_rate": 1.156500885762246e-07,
      "loss": 1.4457,
      "step": 89374
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6824151277542114,
      "learning_rate": 1.15360075709503e-07,
      "loss": 1.5253,
      "step": 89375
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6596415042877197,
      "learning_rate": 1.150704268585656e-07,
      "loss": 1.5467,
      "step": 89376
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6647313237190247,
      "learning_rate": 1.1478114202374544e-07,
      "loss": 1.5318,
      "step": 89377
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6680962443351746,
      "learning_rate": 1.144922212053756e-07,
      "loss": 1.5146,
      "step": 89378
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.673334002494812,
      "learning_rate": 1.1420366440385576e-07,
      "loss": 1.4914,
      "step": 89379
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6782842874526978,
      "learning_rate": 1.1391547161948567e-07,
      "loss": 1.4597,
      "step": 89380
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6540269255638123,
      "learning_rate": 1.136276428526317e-07,
      "loss": 1.5072,
      "step": 89381
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7115771770477295,
      "learning_rate": 1.1334017810366025e-07,
      "loss": 1.5821,
      "step": 89382
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6705154180526733,
      "learning_rate": 1.1305307737290436e-07,
      "loss": 1.4843,
      "step": 89383
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6795468926429749,
      "learning_rate": 1.1276634066069712e-07,
      "loss": 1.5624,
      "step": 89384
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6824347376823425,
      "learning_rate": 1.1247996796743819e-07,
      "loss": 1.5115,
      "step": 89385
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6787508726119995,
      "learning_rate": 1.1219395929342734e-07,
      "loss": 1.4917,
      "step": 89386
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6874130368232727,
      "learning_rate": 1.1190831463903094e-07,
      "loss": 1.5425,
      "step": 89387
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6781846880912781,
      "learning_rate": 1.1162303400458206e-07,
      "loss": 1.4755,
      "step": 89388
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6602966785430908,
      "learning_rate": 1.1133811739044706e-07,
      "loss": 1.5142,
      "step": 89389
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.676618218421936,
      "learning_rate": 1.1105356479695904e-07,
      "loss": 1.5236,
      "step": 89390
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.685312032699585,
      "learning_rate": 1.1076937622445103e-07,
      "loss": 1.4975,
      "step": 89391
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6739984750747681,
      "learning_rate": 1.1048555167328943e-07,
      "loss": 1.5147,
      "step": 89392
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6759482026100159,
      "learning_rate": 1.1020209114380729e-07,
      "loss": 1.5161,
      "step": 89393
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6677387952804565,
      "learning_rate": 1.09918994636371e-07,
      "loss": 1.5194,
      "step": 89394
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.693665087223053,
      "learning_rate": 1.0963626215131361e-07,
      "loss": 1.4778,
      "step": 89395
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6741811633110046,
      "learning_rate": 1.0935389368893488e-07,
      "loss": 1.4871,
      "step": 89396
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7020941376686096,
      "learning_rate": 1.090718892496345e-07,
      "loss": 1.5327,
      "step": 89397
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6717408299446106,
      "learning_rate": 1.0879024883374554e-07,
      "loss": 1.51,
      "step": 89398
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6644707918167114,
      "learning_rate": 1.0850897244156775e-07,
      "loss": 1.4468,
      "step": 89399
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6863484978675842,
      "learning_rate": 1.0822806007350082e-07,
      "loss": 1.5456,
      "step": 89400
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.68670654296875,
      "learning_rate": 1.079475117298445e-07,
      "loss": 1.5407,
      "step": 89401
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6443460583686829,
      "learning_rate": 1.0766732741096518e-07,
      "loss": 1.4806,
      "step": 89402
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.685725212097168,
      "learning_rate": 1.073875071171626e-07,
      "loss": 1.4583,
      "step": 89403
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6638586521148682,
      "learning_rate": 1.0710805084883644e-07,
      "loss": 1.5604,
      "step": 89404
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6954249739646912,
      "learning_rate": 1.0682895860628648e-07,
      "loss": 1.4578,
      "step": 89405
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6943703889846802,
      "learning_rate": 1.0655023038984579e-07,
      "loss": 1.5048,
      "step": 89406
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6999862790107727,
      "learning_rate": 1.0627186619988071e-07,
      "loss": 1.5377,
      "step": 89407
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6878776550292969,
      "learning_rate": 1.0599386603669103e-07,
      "loss": 1.5174,
      "step": 89408
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6752288937568665,
      "learning_rate": 1.057162299006764e-07,
      "loss": 1.4878,
      "step": 89409
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6760092377662659,
      "learning_rate": 1.0543895779210332e-07,
      "loss": 1.4787,
      "step": 89410
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6721959114074707,
      "learning_rate": 1.0516204971133813e-07,
      "loss": 1.5244,
      "step": 89411
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.7122929096221924,
      "learning_rate": 1.048855056587472e-07,
      "loss": 1.4943,
      "step": 89412
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.669232189655304,
      "learning_rate": 1.0460932563459701e-07,
      "loss": 1.5212,
      "step": 89413
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6896678805351257,
      "learning_rate": 1.0433350963928722e-07,
      "loss": 1.5071,
      "step": 89414
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6750724911689758,
      "learning_rate": 1.040580576731509e-07,
      "loss": 1.4842,
      "step": 89415
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6856865882873535,
      "learning_rate": 1.0378296973645451e-07,
      "loss": 1.5015,
      "step": 89416
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.686038076877594,
      "learning_rate": 1.0350824582963102e-07,
      "loss": 1.491,
      "step": 89417
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6811164617538452,
      "learning_rate": 1.032338859529136e-07,
      "loss": 1.507,
      "step": 89418
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.6935768127441406,
      "learning_rate": 1.0295989010670192e-07,
      "loss": 1.5281,
      "step": 89419
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6715076565742493,
      "learning_rate": 1.0268625829129574e-07,
      "loss": 1.4879,
      "step": 89420
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6954565048217773,
      "learning_rate": 1.0241299050706142e-07,
      "loss": 1.5529,
      "step": 89421
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6660681962966919,
      "learning_rate": 1.0214008675429874e-07,
      "loss": 1.4748,
      "step": 89422
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6817091107368469,
      "learning_rate": 1.0186754703337407e-07,
      "loss": 1.5096,
      "step": 89423
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7009998559951782,
      "learning_rate": 1.0159537134455387e-07,
      "loss": 1.5494,
      "step": 89424
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7119699716567993,
      "learning_rate": 1.013235596882378e-07,
      "loss": 1.5272,
      "step": 89425
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6901537775993347,
      "learning_rate": 1.0105211206472563e-07,
      "loss": 1.4766,
      "step": 89426
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6784514784812927,
      "learning_rate": 1.0078102847431713e-07,
      "loss": 1.4932,
      "step": 89427
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6983405947685242,
      "learning_rate": 1.0051030891741196e-07,
      "loss": 1.5571,
      "step": 89428
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6921141743659973,
      "learning_rate": 1.002399533942766e-07,
      "loss": 1.5778,
      "step": 89429
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6750431060791016,
      "learning_rate": 9.99699619052774e-08,
      "loss": 1.5626,
      "step": 89430
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6787925362586975,
      "learning_rate": 9.970033445071413e-08,
      "loss": 1.5202,
      "step": 89431
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6727039813995361,
      "learning_rate": 9.943107103091986e-08,
      "loss": 1.4639,
      "step": 89432
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6711609959602356,
      "learning_rate": 9.916217164622764e-08,
      "loss": 1.5042,
      "step": 89433
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6884841322898865,
      "learning_rate": 9.889363629697056e-08,
      "loss": 1.4821,
      "step": 89434
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6880160570144653,
      "learning_rate": 9.862546498348167e-08,
      "loss": 1.5681,
      "step": 89435
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.67024165391922,
      "learning_rate": 9.835765770606075e-08,
      "loss": 1.5087,
      "step": 89436
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6816287040710449,
      "learning_rate": 9.809021446504084e-08,
      "loss": 1.4811,
      "step": 89437
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6879640817642212,
      "learning_rate": 9.782313526075503e-08,
      "loss": 1.4619,
      "step": 89438
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6685220003128052,
      "learning_rate": 9.755642009353637e-08,
      "loss": 1.5487,
      "step": 89439
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6890467405319214,
      "learning_rate": 9.729006896368463e-08,
      "loss": 1.5537,
      "step": 89440
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6999454498291016,
      "learning_rate": 9.702408187153287e-08,
      "loss": 1.5083,
      "step": 89441
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6664049029350281,
      "learning_rate": 9.675845881741417e-08,
      "loss": 1.4444,
      "step": 89442
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6736831665039062,
      "learning_rate": 9.649319980162829e-08,
      "loss": 1.4787,
      "step": 89443
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6943245530128479,
      "learning_rate": 9.622830482450827e-08,
      "loss": 1.5124,
      "step": 89444
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6936013698577881,
      "learning_rate": 9.59637738863872e-08,
      "loss": 1.5768,
      "step": 89445
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6759414076805115,
      "learning_rate": 9.569960698759815e-08,
      "loss": 1.5253,
      "step": 89446
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6801389455795288,
      "learning_rate": 9.543580412840757e-08,
      "loss": 1.4749,
      "step": 89447
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6807277202606201,
      "learning_rate": 9.517236530918182e-08,
      "loss": 1.5337,
      "step": 89448
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6656302809715271,
      "learning_rate": 9.490929053022067e-08,
      "loss": 1.5432,
      "step": 89449
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6878784894943237,
      "learning_rate": 9.464657979185719e-08,
      "loss": 1.5947,
      "step": 89450
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6961871385574341,
      "learning_rate": 9.438423309442445e-08,
      "loss": 1.5125,
      "step": 89451
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6840689182281494,
      "learning_rate": 9.412225043818888e-08,
      "loss": 1.5115,
      "step": 89452
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.683419406414032,
      "learning_rate": 9.386063182351688e-08,
      "loss": 1.5163,
      "step": 89453
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6661075353622437,
      "learning_rate": 9.35993772506749e-08,
      "loss": 1.5093,
      "step": 89454
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7014970779418945,
      "learning_rate": 9.333848672006262e-08,
      "loss": 1.5747,
      "step": 89455
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6765483021736145,
      "learning_rate": 9.307796023191316e-08,
      "loss": 1.5312,
      "step": 89456
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7275869250297546,
      "learning_rate": 9.281779778659293e-08,
      "loss": 1.5063,
      "step": 89457
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7171158790588379,
      "learning_rate": 9.255799938440167e-08,
      "loss": 1.5451,
      "step": 89458
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6654119491577148,
      "learning_rate": 9.229856502567245e-08,
      "loss": 1.5173,
      "step": 89459
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6775578260421753,
      "learning_rate": 9.203949471067173e-08,
      "loss": 1.4744,
      "step": 89460
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6939356923103333,
      "learning_rate": 9.178078843976588e-08,
      "loss": 1.4941,
      "step": 89461
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6514915227890015,
      "learning_rate": 9.152244621325466e-08,
      "loss": 1.509,
      "step": 89462
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6807016730308533,
      "learning_rate": 9.126446803143783e-08,
      "loss": 1.5055,
      "step": 89463
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.686665415763855,
      "learning_rate": 9.100685389461515e-08,
      "loss": 1.5296,
      "step": 89464
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6454282402992249,
      "learning_rate": 9.074960380315299e-08,
      "loss": 1.4577,
      "step": 89465
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6687154173851013,
      "learning_rate": 9.04927177573178e-08,
      "loss": 1.5608,
      "step": 89466
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.685124397277832,
      "learning_rate": 9.023619575744268e-08,
      "loss": 1.4929,
      "step": 89467
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6623874306678772,
      "learning_rate": 8.998003780382735e-08,
      "loss": 1.5173,
      "step": 89468
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.670357882976532,
      "learning_rate": 8.972424389677158e-08,
      "loss": 1.5654,
      "step": 89469
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6661078929901123,
      "learning_rate": 8.946881403660844e-08,
      "loss": 1.5442,
      "step": 89470
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7022112607955933,
      "learning_rate": 8.92137482236377e-08,
      "loss": 1.4715,
      "step": 89471
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.686653196811676,
      "learning_rate": 8.89590464581924e-08,
      "loss": 1.504,
      "step": 89472
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7254458665847778,
      "learning_rate": 8.870470874053903e-08,
      "loss": 1.533,
      "step": 89473
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6850617527961731,
      "learning_rate": 8.845073507101063e-08,
      "loss": 1.5022,
      "step": 89474
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6986681818962097,
      "learning_rate": 8.819712544990699e-08,
      "loss": 1.4626,
      "step": 89475
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6459008455276489,
      "learning_rate": 8.794387987756113e-08,
      "loss": 1.5529,
      "step": 89476
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6845045685768127,
      "learning_rate": 8.769099835427285e-08,
      "loss": 1.5546,
      "step": 89477
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6871376037597656,
      "learning_rate": 8.743848088030858e-08,
      "loss": 1.5241,
      "step": 89478
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7019615769386292,
      "learning_rate": 8.71863274560014e-08,
      "loss": 1.5378,
      "step": 89479
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6982530355453491,
      "learning_rate": 8.693453808168439e-08,
      "loss": 1.4553,
      "step": 89480
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6991198062896729,
      "learning_rate": 8.668311275762397e-08,
      "loss": 1.5949,
      "step": 89481
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.691308856010437,
      "learning_rate": 8.643205148415322e-08,
      "loss": 1.4942,
      "step": 89482
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6785913705825806,
      "learning_rate": 8.618135426153861e-08,
      "loss": 1.4937,
      "step": 89483
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6755783557891846,
      "learning_rate": 8.593102109011319e-08,
      "loss": 1.4926,
      "step": 89484
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.676919162273407,
      "learning_rate": 8.568105197021002e-08,
      "loss": 1.5314,
      "step": 89485
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7234843969345093,
      "learning_rate": 8.543144690206228e-08,
      "loss": 1.5733,
      "step": 89486
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6820253729820251,
      "learning_rate": 8.51822058860363e-08,
      "loss": 1.5733,
      "step": 89487
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6987954378128052,
      "learning_rate": 8.493332892239857e-08,
      "loss": 1.5423,
      "step": 89488
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7105605602264404,
      "learning_rate": 8.468481601144883e-08,
      "loss": 1.4995,
      "step": 89489
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.67854243516922,
      "learning_rate": 8.443666715352016e-08,
      "loss": 1.5912,
      "step": 89490
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6868233680725098,
      "learning_rate": 8.4188882348879e-08,
      "loss": 1.4393,
      "step": 89491
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7029617428779602,
      "learning_rate": 8.394146159785842e-08,
      "loss": 1.5348,
      "step": 89492
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6550740003585815,
      "learning_rate": 8.369440490075819e-08,
      "loss": 1.5061,
      "step": 89493
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6723846793174744,
      "learning_rate": 8.344771225781144e-08,
      "loss": 1.5003,
      "step": 89494
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6874977946281433,
      "learning_rate": 8.320138366941786e-08,
      "loss": 1.4233,
      "step": 89495
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6752128005027771,
      "learning_rate": 8.29554191358106e-08,
      "loss": 1.4899,
      "step": 89496
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7007208466529846,
      "learning_rate": 8.270981865728943e-08,
      "loss": 1.552,
      "step": 89497
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6892092823982239,
      "learning_rate": 8.246458223418739e-08,
      "loss": 1.5575,
      "step": 89498
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6777357459068298,
      "learning_rate": 8.221970986677095e-08,
      "loss": 1.4827,
      "step": 89499
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6737467646598816,
      "learning_rate": 8.197520155533987e-08,
      "loss": 1.5215,
      "step": 89500
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6708629727363586,
      "learning_rate": 8.173105730022722e-08,
      "loss": 1.509,
      "step": 89501
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6902808547019958,
      "learning_rate": 8.148727710166614e-08,
      "loss": 1.4586,
      "step": 89502
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6545623540878296,
      "learning_rate": 8.1243860960023e-08,
      "loss": 1.5653,
      "step": 89503
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6571524739265442,
      "learning_rate": 8.100080887553095e-08,
      "loss": 1.4116,
      "step": 89504
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6891261339187622,
      "learning_rate": 8.075812084855638e-08,
      "loss": 1.4684,
      "step": 89505
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6809782385826111,
      "learning_rate": 8.05157968792991e-08,
      "loss": 1.5786,
      "step": 89506
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7019147872924805,
      "learning_rate": 8.02738369681255e-08,
      "loss": 1.5129,
      "step": 89507
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6640666723251343,
      "learning_rate": 8.003224111530204e-08,
      "loss": 1.5146,
      "step": 89508
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6610763669013977,
      "learning_rate": 7.979100932116178e-08,
      "loss": 1.4489,
      "step": 89509
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6850038170814514,
      "learning_rate": 7.955014158593786e-08,
      "loss": 1.5524,
      "step": 89510
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7062079906463623,
      "learning_rate": 7.930963790993006e-08,
      "loss": 1.556,
      "step": 89511
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6630123257637024,
      "learning_rate": 7.906949829347142e-08,
      "loss": 1.4898,
      "step": 89512
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6863507628440857,
      "learning_rate": 7.882972273682841e-08,
      "loss": 1.5358,
      "step": 89513
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6896603107452393,
      "learning_rate": 7.859031124030079e-08,
      "loss": 1.5611,
      "step": 89514
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6851958632469177,
      "learning_rate": 7.835126380415501e-08,
      "loss": 1.5529,
      "step": 89515
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6545214056968689,
      "learning_rate": 7.811258042872414e-08,
      "loss": 1.5259,
      "step": 89516
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6737309098243713,
      "learning_rate": 7.787426111427464e-08,
      "loss": 1.5197,
      "step": 89517
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6787295937538147,
      "learning_rate": 7.763630586107294e-08,
      "loss": 1.4987,
      "step": 89518
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6754276156425476,
      "learning_rate": 7.739871466941883e-08,
      "loss": 1.4592,
      "step": 89519
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.658291757106781,
      "learning_rate": 7.716148753964534e-08,
      "loss": 1.4562,
      "step": 89520
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6795979738235474,
      "learning_rate": 7.692462447198567e-08,
      "loss": 1.5125,
      "step": 89521
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6702635288238525,
      "learning_rate": 7.668812546673953e-08,
      "loss": 1.5568,
      "step": 89522
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6678110957145691,
      "learning_rate": 7.64519905242067e-08,
      "loss": 1.5095,
      "step": 89523
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7241840958595276,
      "learning_rate": 7.621621964468694e-08,
      "loss": 1.4889,
      "step": 89524
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6856735944747925,
      "learning_rate": 7.59808128284467e-08,
      "loss": 1.5267,
      "step": 89525
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6780750751495361,
      "learning_rate": 7.574577007575244e-08,
      "loss": 1.4721,
      "step": 89526
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6768726706504822,
      "learning_rate": 7.551109138693723e-08,
      "loss": 1.4402,
      "step": 89527
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.66983962059021,
      "learning_rate": 7.527677676226752e-08,
      "loss": 1.4897,
      "step": 89528
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6660142540931702,
      "learning_rate": 7.504282620197643e-08,
      "loss": 1.4949,
      "step": 89529
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.682654857635498,
      "learning_rate": 7.480923970643037e-08,
      "loss": 1.6015,
      "step": 89530
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6920835375785828,
      "learning_rate": 7.457601727586249e-08,
      "loss": 1.5211,
      "step": 89531
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6725471019744873,
      "learning_rate": 7.434315891053921e-08,
      "loss": 1.4964,
      "step": 89532
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6679609417915344,
      "learning_rate": 7.411066461079363e-08,
      "loss": 1.5437,
      "step": 89533
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6660793423652649,
      "learning_rate": 7.387853437689217e-08,
      "loss": 1.4676,
      "step": 89534
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.683695375919342,
      "learning_rate": 7.364676820913462e-08,
      "loss": 1.5606,
      "step": 89535
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6732714772224426,
      "learning_rate": 7.341536610772081e-08,
      "loss": 1.5537,
      "step": 89536
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6677072644233704,
      "learning_rate": 7.318432807301711e-08,
      "loss": 1.5207,
      "step": 89537
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6821054220199585,
      "learning_rate": 7.295365410528998e-08,
      "loss": 1.4659,
      "step": 89538
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7004241347312927,
      "learning_rate": 7.272334420477254e-08,
      "loss": 1.5736,
      "step": 89539
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6728674173355103,
      "learning_rate": 7.24933983717979e-08,
      "loss": 1.5389,
      "step": 89540
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6760895848274231,
      "learning_rate": 7.22638166066325e-08,
      "loss": 1.5513,
      "step": 89541
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6514070630073547,
      "learning_rate": 7.203459890954277e-08,
      "loss": 1.4613,
      "step": 89542
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7036811113357544,
      "learning_rate": 7.18057452807952e-08,
      "loss": 1.4433,
      "step": 89543
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6749712228775024,
      "learning_rate": 7.15772557206895e-08,
      "loss": 1.5355,
      "step": 89544
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.676348865032196,
      "learning_rate": 7.134913022949218e-08,
      "loss": 1.4711,
      "step": 89545
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6638197898864746,
      "learning_rate": 7.112136880750297e-08,
      "loss": 1.4891,
      "step": 89546
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6906160712242126,
      "learning_rate": 7.089397145495501e-08,
      "loss": 1.522,
      "step": 89547
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6757016181945801,
      "learning_rate": 7.066693817218138e-08,
      "loss": 1.4561,
      "step": 89548
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6790987253189087,
      "learning_rate": 7.044026895938194e-08,
      "loss": 1.567,
      "step": 89549
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6591560244560242,
      "learning_rate": 7.021396381692301e-08,
      "loss": 1.4836,
      "step": 89550
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.652599573135376,
      "learning_rate": 6.998802274500449e-08,
      "loss": 1.4188,
      "step": 89551
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7003044486045837,
      "learning_rate": 6.976244574392609e-08,
      "loss": 1.4937,
      "step": 89552
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6854389905929565,
      "learning_rate": 6.953723281395429e-08,
      "loss": 1.5271,
      "step": 89553
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6772820353507996,
      "learning_rate": 6.931238395538885e-08,
      "loss": 1.488,
      "step": 89554
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6728800535202026,
      "learning_rate": 6.908789916849622e-08,
      "loss": 1.4765,
      "step": 89555
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6829953193664551,
      "learning_rate": 6.886377845350954e-08,
      "loss": 1.5492,
      "step": 89556
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6602817177772522,
      "learning_rate": 6.864002181076189e-08,
      "loss": 1.458,
      "step": 89557
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6711041927337646,
      "learning_rate": 6.84166292404531e-08,
      "loss": 1.5449,
      "step": 89558
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6801052093505859,
      "learning_rate": 6.819360074291624e-08,
      "loss": 1.5867,
      "step": 89559
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6593063473701477,
      "learning_rate": 6.797093631841776e-08,
      "loss": 1.4828,
      "step": 89560
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6685194969177246,
      "learning_rate": 6.774863596719082e-08,
      "loss": 1.4637,
      "step": 89561
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6937915086746216,
      "learning_rate": 6.752669968953516e-08,
      "loss": 1.6013,
      "step": 89562
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6743916869163513,
      "learning_rate": 6.730512748568396e-08,
      "loss": 1.4573,
      "step": 89563
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7022764086723328,
      "learning_rate": 6.708391935593693e-08,
      "loss": 1.5377,
      "step": 89564
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6638557314872742,
      "learning_rate": 6.686307530056056e-08,
      "loss": 1.5427,
      "step": 89565
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6643670201301575,
      "learning_rate": 6.664259531982131e-08,
      "loss": 1.4504,
      "step": 89566
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6707890629768372,
      "learning_rate": 6.64224794140189e-08,
      "loss": 1.474,
      "step": 89567
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6871522068977356,
      "learning_rate": 6.620272758335321e-08,
      "loss": 1.4559,
      "step": 89568
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6565939784049988,
      "learning_rate": 6.598333982812398e-08,
      "loss": 1.4674,
      "step": 89569
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6743093729019165,
      "learning_rate": 6.576431614859768e-08,
      "loss": 1.5105,
      "step": 89570
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6894176006317139,
      "learning_rate": 6.554565654504073e-08,
      "loss": 1.5237,
      "step": 89571
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6789116263389587,
      "learning_rate": 6.532736101771962e-08,
      "loss": 1.5077,
      "step": 89572
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6550359725952148,
      "learning_rate": 6.51094295669008e-08,
      "loss": 1.4692,
      "step": 89573
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6597201824188232,
      "learning_rate": 6.48918621928507e-08,
      "loss": 1.4398,
      "step": 89574
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6677142977714539,
      "learning_rate": 6.467465889580248e-08,
      "loss": 1.5863,
      "step": 89575
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6868032217025757,
      "learning_rate": 6.44578196760559e-08,
      "loss": 1.491,
      "step": 89576
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7064794301986694,
      "learning_rate": 6.424134453387742e-08,
      "loss": 1.3999,
      "step": 89577
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6761740446090698,
      "learning_rate": 6.402523346953347e-08,
      "loss": 1.4501,
      "step": 89578
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7141138911247253,
      "learning_rate": 6.380948648322392e-08,
      "loss": 1.5567,
      "step": 89579
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6689363718032837,
      "learning_rate": 6.359410357528183e-08,
      "loss": 1.4899,
      "step": 89580
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6853601932525635,
      "learning_rate": 6.337908474594033e-08,
      "loss": 1.5203,
      "step": 89581
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6876886487007141,
      "learning_rate": 6.316442999546589e-08,
      "loss": 1.513,
      "step": 89582
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6733774542808533,
      "learning_rate": 6.295013932412496e-08,
      "loss": 1.5297,
      "step": 89583
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6936323642730713,
      "learning_rate": 6.273621273215068e-08,
      "loss": 1.5559,
      "step": 89584
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6994985938072205,
      "learning_rate": 6.252265021984282e-08,
      "loss": 1.5064,
      "step": 89585
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6978968381881714,
      "learning_rate": 6.23094517874012e-08,
      "loss": 1.606,
      "step": 89586
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6755445003509521,
      "learning_rate": 6.209661743515892e-08,
      "loss": 1.4873,
      "step": 89587
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6629414558410645,
      "learning_rate": 6.18841471633158e-08,
      "loss": 1.4537,
      "step": 89588
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6692926287651062,
      "learning_rate": 6.16720409721716e-08,
      "loss": 1.5059,
      "step": 89589
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6861854791641235,
      "learning_rate": 6.146029886195947e-08,
      "loss": 1.5411,
      "step": 89590
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6663001179695129,
      "learning_rate": 6.124892083291255e-08,
      "loss": 1.4616,
      "step": 89591
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6629000306129456,
      "learning_rate": 6.103790688533061e-08,
      "loss": 1.5166,
      "step": 89592
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6705408692359924,
      "learning_rate": 6.08272570194801e-08,
      "loss": 1.611,
      "step": 89593
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6709993481636047,
      "learning_rate": 6.061697123556086e-08,
      "loss": 1.5414,
      "step": 89594
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6882289052009583,
      "learning_rate": 6.040704953387265e-08,
      "loss": 1.5264,
      "step": 89595
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6808099746704102,
      "learning_rate": 6.019749191464862e-08,
      "loss": 1.5525,
      "step": 89596
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6683217287063599,
      "learning_rate": 5.998829837815522e-08,
      "loss": 1.4845,
      "step": 89597
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6687240600585938,
      "learning_rate": 5.97794689246589e-08,
      "loss": 1.4813,
      "step": 89598
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.691027820110321,
      "learning_rate": 5.957100355435951e-08,
      "loss": 1.4839,
      "step": 89599
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6854497790336609,
      "learning_rate": 5.93629022675568e-08,
      "loss": 1.5524,
      "step": 89600
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6931441426277161,
      "learning_rate": 5.915516506451723e-08,
      "loss": 1.586,
      "step": 89601
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6926117539405823,
      "learning_rate": 5.8947791945440635e-08,
      "loss": 1.534,
      "step": 89602
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6709157228469849,
      "learning_rate": 5.8740782910626784e-08,
      "loss": 1.5288,
      "step": 89603
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6895159482955933,
      "learning_rate": 5.8534137960308815e-08,
      "loss": 1.5526,
      "step": 89604
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.689574658870697,
      "learning_rate": 5.832785709471988e-08,
      "loss": 1.4874,
      "step": 89605
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6895092129707336,
      "learning_rate": 5.812194031415973e-08,
      "loss": 1.5911,
      "step": 89606
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6744484305381775,
      "learning_rate": 5.791638761879491e-08,
      "loss": 1.4512,
      "step": 89607
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.691307783126831,
      "learning_rate": 5.7711199008958485e-08,
      "loss": 1.4898,
      "step": 89608
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6764695644378662,
      "learning_rate": 5.7506374484850294e-08,
      "loss": 1.4756,
      "step": 89609
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6597658395767212,
      "learning_rate": 5.7301914046770094e-08,
      "loss": 1.5495,
      "step": 89610
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7047479152679443,
      "learning_rate": 5.709781769488442e-08,
      "loss": 1.5493,
      "step": 89611
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6794047355651855,
      "learning_rate": 5.6894085429526335e-08,
      "loss": 1.5031,
      "step": 89612
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6552066206932068,
      "learning_rate": 5.669071725086238e-08,
      "loss": 1.5611,
      "step": 89613
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6798044443130493,
      "learning_rate": 5.6487713159225624e-08,
      "loss": 1.5323,
      "step": 89614
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6723504662513733,
      "learning_rate": 5.628507315478259e-08,
      "loss": 1.5385,
      "step": 89615
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6733798384666443,
      "learning_rate": 5.6082797237833046e-08,
      "loss": 1.4581,
      "step": 89616
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6751551032066345,
      "learning_rate": 5.588088540861013e-08,
      "loss": 1.5254,
      "step": 89617
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6929082274436951,
      "learning_rate": 5.5679337667347e-08,
      "loss": 1.4526,
      "step": 89618
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6867460012435913,
      "learning_rate": 5.54781540142768e-08,
      "loss": 1.4695,
      "step": 89619
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6725958585739136,
      "learning_rate": 5.5277334449665975e-08,
      "loss": 1.4703,
      "step": 89620
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.677483081817627,
      "learning_rate": 5.507687897378099e-08,
      "loss": 1.4796,
      "step": 89621
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6673312783241272,
      "learning_rate": 5.487678758682168e-08,
      "loss": 1.4722,
      "step": 89622
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6814455986022949,
      "learning_rate": 5.4677060289021194e-08,
      "loss": 1.4234,
      "step": 89623
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7039663195610046,
      "learning_rate": 5.4477697080679285e-08,
      "loss": 1.5101,
      "step": 89624
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6669569611549377,
      "learning_rate": 5.42786979619958e-08,
      "loss": 1.5066,
      "step": 89625
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6805839538574219,
      "learning_rate": 5.408006293323719e-08,
      "loss": 1.5292,
      "step": 89626
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6972222328186035,
      "learning_rate": 5.38817919946366e-08,
      "loss": 1.4845,
      "step": 89627
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6786671876907349,
      "learning_rate": 5.368388514639388e-08,
      "loss": 1.4905,
      "step": 89628
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6768356561660767,
      "learning_rate": 5.348634238880878e-08,
      "loss": 1.5342,
      "step": 89629
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6869832873344421,
      "learning_rate": 5.328916372208114e-08,
      "loss": 1.4936,
      "step": 89630
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6773263216018677,
      "learning_rate": 5.309234914647742e-08,
      "loss": 1.5083,
      "step": 89631
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7213536500930786,
      "learning_rate": 5.289589866223076e-08,
      "loss": 1.5304,
      "step": 89632
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.684101939201355,
      "learning_rate": 5.2699812269541006e-08,
      "loss": 1.5562,
      "step": 89633
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6752452850341797,
      "learning_rate": 5.2504089968707917e-08,
      "loss": 1.5376,
      "step": 89634
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6593977808952332,
      "learning_rate": 5.230873175993133e-08,
      "loss": 1.5365,
      "step": 89635
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.691503643989563,
      "learning_rate": 5.2113737643477707e-08,
      "loss": 1.4715,
      "step": 89636
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6617153882980347,
      "learning_rate": 5.1919107619513566e-08,
      "loss": 1.5802,
      "step": 89637
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7038829922676086,
      "learning_rate": 5.172484168837199e-08,
      "loss": 1.5302,
      "step": 89638
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6752445101737976,
      "learning_rate": 5.15309398502195e-08,
      "loss": 1.482,
      "step": 89639
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.665518581867218,
      "learning_rate": 5.133740210532256e-08,
      "loss": 1.4743,
      "step": 89640
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6744398474693298,
      "learning_rate": 5.1144228453880995e-08,
      "loss": 1.5316,
      "step": 89641
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6707278490066528,
      "learning_rate": 5.0951418896194586e-08,
      "loss": 1.5299,
      "step": 89642
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6830153465270996,
      "learning_rate": 5.075897343242985e-08,
      "loss": 1.5397,
      "step": 89643
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6818011403083801,
      "learning_rate": 5.056689206285325e-08,
      "loss": 1.518,
      "step": 89644
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6794818639755249,
      "learning_rate": 5.037517478769793e-08,
      "loss": 1.5143,
      "step": 89645
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6645187735557556,
      "learning_rate": 5.018382160719703e-08,
      "loss": 1.4875,
      "step": 89646
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6764994263648987,
      "learning_rate": 4.9992832521550395e-08,
      "loss": 1.5236,
      "step": 89647
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6568779945373535,
      "learning_rate": 4.980220753105779e-08,
      "loss": 1.5163,
      "step": 89648
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7056688666343689,
      "learning_rate": 4.961194663588575e-08,
      "loss": 1.4869,
      "step": 89649
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6868734359741211,
      "learning_rate": 4.942204983630071e-08,
      "loss": 1.5211,
      "step": 89650
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7230786085128784,
      "learning_rate": 4.923251713250254e-08,
      "loss": 1.5952,
      "step": 89651
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6799952983856201,
      "learning_rate": 4.9043348524757666e-08,
      "loss": 1.462,
      "step": 89652
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7029192447662354,
      "learning_rate": 4.885454401326594e-08,
      "loss": 1.4462,
      "step": 89653
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6518388986587524,
      "learning_rate": 4.8666103598260506e-08,
      "loss": 1.4211,
      "step": 89654
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6889625787734985,
      "learning_rate": 4.847802728000783e-08,
      "loss": 1.4869,
      "step": 89655
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.680980384349823,
      "learning_rate": 4.8290315058674424e-08,
      "loss": 1.4778,
      "step": 89656
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.677929699420929,
      "learning_rate": 4.8102966934560064e-08,
      "loss": 1.5177,
      "step": 89657
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6875919699668884,
      "learning_rate": 4.7915982907831276e-08,
      "loss": 1.5538,
      "step": 89658
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.697216272354126,
      "learning_rate": 4.7729362978721206e-08,
      "loss": 1.4685,
      "step": 89659
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6759474277496338,
      "learning_rate": 4.754310714749632e-08,
      "loss": 1.5384,
      "step": 89660
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6662333011627197,
      "learning_rate": 4.7357215414356445e-08,
      "loss": 1.5466,
      "step": 89661
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6647523641586304,
      "learning_rate": 4.717168777950142e-08,
      "loss": 1.5066,
      "step": 89662
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.687278687953949,
      "learning_rate": 4.698652424323102e-08,
      "loss": 1.6021,
      "step": 89663
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6920492053031921,
      "learning_rate": 4.680172480567845e-08,
      "loss": 1.5663,
      "step": 89664
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7259036898612976,
      "learning_rate": 4.661728946714349e-08,
      "loss": 1.5508,
      "step": 89665
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6632800698280334,
      "learning_rate": 4.643321822779267e-08,
      "loss": 1.5015,
      "step": 89666
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7134021520614624,
      "learning_rate": 4.6249511087892434e-08,
      "loss": 1.5187,
      "step": 89667
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7023231387138367,
      "learning_rate": 4.606616804764263e-08,
      "loss": 1.4838,
      "step": 89668
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6445603370666504,
      "learning_rate": 4.58831891072764e-08,
      "loss": 1.5221,
      "step": 89669
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.660834014415741,
      "learning_rate": 4.570057426702689e-08,
      "loss": 1.5609,
      "step": 89670
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6744930744171143,
      "learning_rate": 4.551832352706064e-08,
      "loss": 1.5499,
      "step": 89671
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6558465957641602,
      "learning_rate": 4.533643688767741e-08,
      "loss": 1.4652,
      "step": 89672
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6566855907440186,
      "learning_rate": 4.5154914349043724e-08,
      "loss": 1.5211,
      "step": 89673
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6744737029075623,
      "learning_rate": 4.497375591139274e-08,
      "loss": 1.497,
      "step": 89674
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7016244530677795,
      "learning_rate": 4.47929615749576e-08,
      "loss": 1.5421,
      "step": 89675
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6767352223396301,
      "learning_rate": 4.461253133993814e-08,
      "loss": 1.5321,
      "step": 89676
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.709407389163971,
      "learning_rate": 4.4432465206567516e-08,
      "loss": 1.5362,
      "step": 89677
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6695648431777954,
      "learning_rate": 4.425276317504556e-08,
      "loss": 1.4934,
      "step": 89678
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6831764578819275,
      "learning_rate": 4.407342524563873e-08,
      "loss": 1.5002,
      "step": 89679
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6726850867271423,
      "learning_rate": 4.3894451418480245e-08,
      "loss": 1.4904,
      "step": 89680
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.693557858467102,
      "learning_rate": 4.371584169386988e-08,
      "loss": 1.6109,
      "step": 89681
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6787373423576355,
      "learning_rate": 4.353759607200746e-08,
      "loss": 1.5203,
      "step": 89682
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.683704137802124,
      "learning_rate": 4.335971455305953e-08,
      "loss": 1.4651,
      "step": 89683
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6682094931602478,
      "learning_rate": 4.318219713729254e-08,
      "loss": 1.4797,
      "step": 89684
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6495208144187927,
      "learning_rate": 4.3005043824906327e-08,
      "loss": 1.5054,
      "step": 89685
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.678810179233551,
      "learning_rate": 4.282825461610073e-08,
      "loss": 1.539,
      "step": 89686
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6906946897506714,
      "learning_rate": 4.265182951114221e-08,
      "loss": 1.5248,
      "step": 89687
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6504296064376831,
      "learning_rate": 4.247576851016399e-08,
      "loss": 1.5418,
      "step": 89688
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6765303611755371,
      "learning_rate": 4.2300071613465823e-08,
      "loss": 1.5292,
      "step": 89689
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7002887725830078,
      "learning_rate": 4.212473882118095e-08,
      "loss": 1.5567,
      "step": 89690
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6777573823928833,
      "learning_rate": 4.194977013357581e-08,
      "loss": 1.4965,
      "step": 89691
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6926788687705994,
      "learning_rate": 4.177516555085025e-08,
      "loss": 1.482,
      "step": 89692
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6902327537536621,
      "learning_rate": 4.160092507320412e-08,
      "loss": 1.5237,
      "step": 89693
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7168002724647522,
      "learning_rate": 4.142704870087055e-08,
      "loss": 1.4734,
      "step": 89694
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6738994717597961,
      "learning_rate": 4.125353643401608e-08,
      "loss": 1.4577,
      "step": 89695
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6686267852783203,
      "learning_rate": 4.108038827290716e-08,
      "loss": 1.5303,
      "step": 89696
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6899584531784058,
      "learning_rate": 4.090760421774364e-08,
      "loss": 1.4796,
      "step": 89697
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6965057849884033,
      "learning_rate": 4.0735184268692046e-08,
      "loss": 1.5063,
      "step": 89698
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6822952032089233,
      "learning_rate": 4.056312842601883e-08,
      "loss": 1.5268,
      "step": 89699
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6770039200782776,
      "learning_rate": 4.0391436689890535e-08,
      "loss": 1.5199,
      "step": 89700
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6661211252212524,
      "learning_rate": 4.0220109060540294e-08,
      "loss": 1.5384,
      "step": 89701
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6730538010597229,
      "learning_rate": 4.004914553813465e-08,
      "loss": 1.5255,
      "step": 89702
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6522462368011475,
      "learning_rate": 3.987854612294006e-08,
      "loss": 1.5815,
      "step": 89703
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7019184231758118,
      "learning_rate": 3.9708310815123046e-08,
      "loss": 1.5094,
      "step": 89704
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.683561384677887,
      "learning_rate": 3.953843961491676e-08,
      "loss": 1.5183,
      "step": 89705
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6785351634025574,
      "learning_rate": 3.9368932522521044e-08,
      "loss": 1.4679,
      "step": 89706
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6865231394767761,
      "learning_rate": 3.919978953810243e-08,
      "loss": 1.5486,
      "step": 89707
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6663576364517212,
      "learning_rate": 3.9031010661927374e-08,
      "loss": 1.5314,
      "step": 89708
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6872632503509521,
      "learning_rate": 3.8862595894162405e-08,
      "loss": 1.5582,
      "step": 89709
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6867101192474365,
      "learning_rate": 3.8694545235007366e-08,
      "loss": 1.4825,
      "step": 89710
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7235643863677979,
      "learning_rate": 3.85268586846954e-08,
      "loss": 1.5308,
      "step": 89711
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6870988011360168,
      "learning_rate": 3.835953624339305e-08,
      "loss": 1.56,
      "step": 89712
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6478998064994812,
      "learning_rate": 3.8192577911366765e-08,
      "loss": 1.4699,
      "step": 89713
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6454557180404663,
      "learning_rate": 3.8025983688749764e-08,
      "loss": 1.4234,
      "step": 89714
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6912261843681335,
      "learning_rate": 3.78597535757752e-08,
      "loss": 1.5676,
      "step": 89715
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.696954071521759,
      "learning_rate": 3.769388757264291e-08,
      "loss": 1.541,
      "step": 89716
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7082276940345764,
      "learning_rate": 3.752838567955274e-08,
      "loss": 1.5896,
      "step": 89717
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6876952648162842,
      "learning_rate": 3.736324789670453e-08,
      "loss": 1.5398,
      "step": 89718
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.655942976474762,
      "learning_rate": 3.7198474224298115e-08,
      "loss": 1.439,
      "step": 89719
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.6729217171669006,
      "learning_rate": 3.7034064662533336e-08,
      "loss": 1.5406,
      "step": 89720
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6577134132385254,
      "learning_rate": 3.6870019211610034e-08,
      "loss": 1.4601,
      "step": 89721
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6974067687988281,
      "learning_rate": 3.670633787172805e-08,
      "loss": 1.5596,
      "step": 89722
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7003178596496582,
      "learning_rate": 3.654302064308723e-08,
      "loss": 1.543,
      "step": 89723
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.708150327205658,
      "learning_rate": 3.638006752592071e-08,
      "loss": 1.5243,
      "step": 89724
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6648585200309753,
      "learning_rate": 3.621747852036172e-08,
      "loss": 1.4489,
      "step": 89725
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6651725769042969,
      "learning_rate": 3.6055253626610105e-08,
      "loss": 1.5346,
      "step": 89726
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7018916010856628,
      "learning_rate": 3.5893392844932314e-08,
      "loss": 1.5071,
      "step": 89727
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6563495993614197,
      "learning_rate": 3.573189617546157e-08,
      "loss": 1.4609,
      "step": 89728
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6722475290298462,
      "learning_rate": 3.557076361843103e-08,
      "loss": 1.5378,
      "step": 89729
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6568496227264404,
      "learning_rate": 3.540999517400722e-08,
      "loss": 1.5027,
      "step": 89730
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6609005331993103,
      "learning_rate": 3.5249590842389985e-08,
      "loss": 1.4798,
      "step": 89731
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6542255282402039,
      "learning_rate": 3.508955062381247e-08,
      "loss": 1.4172,
      "step": 89732
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6577112078666687,
      "learning_rate": 3.4929874518407896e-08,
      "loss": 1.487,
      "step": 89733
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6692082285881042,
      "learning_rate": 3.477056252640942e-08,
      "loss": 1.4965,
      "step": 89734
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6915789246559143,
      "learning_rate": 3.4611614648016874e-08,
      "loss": 1.5179,
      "step": 89735
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6883060932159424,
      "learning_rate": 3.445303088336349e-08,
      "loss": 1.4341,
      "step": 89736
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6826554536819458,
      "learning_rate": 3.429481123271571e-08,
      "loss": 1.463,
      "step": 89737
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6953113079071045,
      "learning_rate": 3.4136955696240084e-08,
      "loss": 1.4727,
      "step": 89738
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6795961260795593,
      "learning_rate": 3.397946427413645e-08,
      "loss": 1.5186,
      "step": 89739
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6946757435798645,
      "learning_rate": 3.382233696657133e-08,
      "loss": 1.4785,
      "step": 89740
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6751624345779419,
      "learning_rate": 3.366557377374457e-08,
      "loss": 1.4583,
      "step": 89741
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6605672240257263,
      "learning_rate": 3.350917469585601e-08,
      "loss": 1.5008,
      "step": 89742
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6772150993347168,
      "learning_rate": 3.335313973307219e-08,
      "loss": 1.4153,
      "step": 89743
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.711327314376831,
      "learning_rate": 3.319746888562624e-08,
      "loss": 1.4371,
      "step": 89744
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6863033175468445,
      "learning_rate": 3.304216215365141e-08,
      "loss": 1.5455,
      "step": 89745
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6943805813789368,
      "learning_rate": 3.2887219537380825e-08,
      "loss": 1.4466,
      "step": 89746
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6839009523391724,
      "learning_rate": 3.2732641036981036e-08,
      "loss": 1.5289,
      "step": 89747
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6887109875679016,
      "learning_rate": 3.257842665265187e-08,
      "loss": 1.504,
      "step": 89748
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7132725119590759,
      "learning_rate": 3.242457638459317e-08,
      "loss": 1.4745,
      "step": 89749
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6937803626060486,
      "learning_rate": 3.227109023293817e-08,
      "loss": 1.4799,
      "step": 89750
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6895642280578613,
      "learning_rate": 3.211796819792001e-08,
      "loss": 1.5097,
      "step": 89751
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6734399795532227,
      "learning_rate": 3.1965210279705224e-08,
      "loss": 1.5074,
      "step": 89752
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6931004524230957,
      "learning_rate": 3.181281647852696e-08,
      "loss": 1.5235,
      "step": 89753
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6948807835578918,
      "learning_rate": 3.166078679448514e-08,
      "loss": 1.5541,
      "step": 89754
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6692883372306824,
      "learning_rate": 3.15091212278129e-08,
      "loss": 1.5446,
      "step": 89755
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6831631660461426,
      "learning_rate": 3.1357819778710106e-08,
      "loss": 1.5644,
      "step": 89756
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6812390089035034,
      "learning_rate": 3.1206882447343264e-08,
      "loss": 1.5343,
      "step": 89757
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6573736667633057,
      "learning_rate": 3.105630923387892e-08,
      "loss": 1.5148,
      "step": 89758
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6911967992782593,
      "learning_rate": 3.090610013851691e-08,
      "loss": 1.5166,
      "step": 89759
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6860504746437073,
      "learning_rate": 3.075625516142377e-08,
      "loss": 1.4837,
      "step": 89760
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6816594004631042,
      "learning_rate": 3.060677430279934e-08,
      "loss": 1.5347,
      "step": 89761
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6705466508865356,
      "learning_rate": 3.045765756284346e-08,
      "loss": 1.4815,
      "step": 89762
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6859580874443054,
      "learning_rate": 3.030890494168936e-08,
      "loss": 1.5658,
      "step": 89763
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6986476182937622,
      "learning_rate": 3.016051643953688e-08,
      "loss": 1.4791,
      "step": 89764
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6610971093177795,
      "learning_rate": 3.0012492056585846e-08,
      "loss": 1.4867,
      "step": 89765
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6797693371772766,
      "learning_rate": 2.9864831793002805e-08,
      "loss": 1.5625,
      "step": 89766
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6693657040596008,
      "learning_rate": 2.9717535648954295e-08,
      "loss": 1.4943,
      "step": 89767
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6944018006324768,
      "learning_rate": 2.9570603624640142e-08,
      "loss": 1.4966,
      "step": 89768
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6606637239456177,
      "learning_rate": 2.942403572022689e-08,
      "loss": 1.5294,
      "step": 89769
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6826748847961426,
      "learning_rate": 2.927783193588107e-08,
      "loss": 1.4876,
      "step": 89770
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6728164553642273,
      "learning_rate": 2.9131992271802516e-08,
      "loss": 1.4635,
      "step": 89771
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6793641448020935,
      "learning_rate": 2.898651672815777e-08,
      "loss": 1.4782,
      "step": 89772
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6891984939575195,
      "learning_rate": 2.884140530514667e-08,
      "loss": 1.4754,
      "step": 89773
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6959933042526245,
      "learning_rate": 2.869665800290244e-08,
      "loss": 1.5337,
      "step": 89774
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6891661286354065,
      "learning_rate": 2.855227482162492e-08,
      "loss": 1.5733,
      "step": 89775
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6776501536369324,
      "learning_rate": 2.8408255761480648e-08,
      "loss": 1.489,
      "step": 89776
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6699395179748535,
      "learning_rate": 2.8264600822669458e-08,
      "loss": 1.4858,
      "step": 89777
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.697016716003418,
      "learning_rate": 2.8121310005324582e-08,
      "loss": 1.5575,
      "step": 89778
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6639593839645386,
      "learning_rate": 2.7978383309645858e-08,
      "loss": 1.5416,
      "step": 89779
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6804218888282776,
      "learning_rate": 2.7835820735799817e-08,
      "loss": 1.5217,
      "step": 89780
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7008432745933533,
      "learning_rate": 2.7693622283986306e-08,
      "loss": 1.5075,
      "step": 89781
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6734134554862976,
      "learning_rate": 2.755178795430524e-08,
      "loss": 1.4849,
      "step": 89782
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7074248194694519,
      "learning_rate": 2.741031774702307e-08,
      "loss": 1.5111,
      "step": 89783
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6514014601707458,
      "learning_rate": 2.7269211662239722e-08,
      "loss": 1.513,
      "step": 89784
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.663564920425415,
      "learning_rate": 2.7128469700188338e-08,
      "loss": 1.4925,
      "step": 89785
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6876184344291687,
      "learning_rate": 2.6988091860968842e-08,
      "loss": 1.5331,
      "step": 89786
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6712214946746826,
      "learning_rate": 2.684807814478107e-08,
      "loss": 1.5042,
      "step": 89787
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6902907490730286,
      "learning_rate": 2.6708428551824866e-08,
      "loss": 1.4968,
      "step": 89788
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6615016460418701,
      "learning_rate": 2.6569143082233456e-08,
      "loss": 1.4963,
      "step": 89789
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6708887219429016,
      "learning_rate": 2.643022173620668e-08,
      "loss": 1.4522,
      "step": 89790
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6741502285003662,
      "learning_rate": 2.6291664513877763e-08,
      "loss": 1.4261,
      "step": 89791
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6659824252128601,
      "learning_rate": 2.6153471415446546e-08,
      "loss": 1.477,
      "step": 89792
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6699597239494324,
      "learning_rate": 2.601564244104626e-08,
      "loss": 1.5155,
      "step": 89793
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6674315929412842,
      "learning_rate": 2.5878177590876736e-08,
      "loss": 1.438,
      "step": 89794
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6929996609687805,
      "learning_rate": 2.574107686507121e-08,
      "loss": 1.5312,
      "step": 89795
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6900355815887451,
      "learning_rate": 2.5604340263829516e-08,
      "loss": 1.4726,
      "step": 89796
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6875510215759277,
      "learning_rate": 2.546796778731819e-08,
      "loss": 1.514,
      "step": 89797
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6632228493690491,
      "learning_rate": 2.533195943567046e-08,
      "loss": 1.5009,
      "step": 89798
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6729705333709717,
      "learning_rate": 2.519631520908616e-08,
      "loss": 1.5148,
      "step": 89799
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6729560494422913,
      "learning_rate": 2.5061035107698525e-08,
      "loss": 1.5237,
      "step": 89800
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.681672990322113,
      "learning_rate": 2.492611913170739e-08,
      "loss": 1.5361,
      "step": 89801
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6877345442771912,
      "learning_rate": 2.4791567281245983e-08,
      "loss": 1.4964,
      "step": 89802
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6818334460258484,
      "learning_rate": 2.465737955648084e-08,
      "loss": 1.5707,
      "step": 89803
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7047061920166016,
      "learning_rate": 2.4523555957578488e-08,
      "loss": 1.5444,
      "step": 89804
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6796928644180298,
      "learning_rate": 2.4390096484738774e-08,
      "loss": 1.4501,
      "step": 89805
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.663088321685791,
      "learning_rate": 2.4257001138061616e-08,
      "loss": 1.4968,
      "step": 89806
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.688739538192749,
      "learning_rate": 2.4124269917746852e-08,
      "loss": 1.4994,
      "step": 89807
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.702557384967804,
      "learning_rate": 2.399190282392771e-08,
      "loss": 1.5801,
      "step": 89808
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6578164100646973,
      "learning_rate": 2.3859899856804032e-08,
      "loss": 1.5062,
      "step": 89809
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6844035983085632,
      "learning_rate": 2.3728261016509042e-08,
      "loss": 1.5728,
      "step": 89810
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6914110779762268,
      "learning_rate": 2.3596986303209276e-08,
      "loss": 1.4796,
      "step": 89811
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6584141850471497,
      "learning_rate": 2.3466075717071263e-08,
      "loss": 1.4922,
      "step": 89812
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.680398166179657,
      "learning_rate": 2.3335529258228235e-08,
      "loss": 1.5064,
      "step": 89813
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7056403756141663,
      "learning_rate": 2.3205346926846724e-08,
      "loss": 1.5582,
      "step": 89814
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6966089606285095,
      "learning_rate": 2.3075528723126568e-08,
      "loss": 1.4757,
      "step": 89815
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6822471022605896,
      "learning_rate": 2.2946074647167688e-08,
      "loss": 1.4698,
      "step": 89816
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6746317744255066,
      "learning_rate": 2.2816984699169926e-08,
      "loss": 1.4707,
      "step": 89817
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6619558930397034,
      "learning_rate": 2.268825887926651e-08,
      "loss": 1.4647,
      "step": 89818
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6722897291183472,
      "learning_rate": 2.2559897187623964e-08,
      "loss": 1.4932,
      "step": 89819
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7067937254905701,
      "learning_rate": 2.2431899624408832e-08,
      "loss": 1.4946,
      "step": 89820
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6665589213371277,
      "learning_rate": 2.230426618972103e-08,
      "loss": 1.4904,
      "step": 89821
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7055366635322571,
      "learning_rate": 2.2176996883793707e-08,
      "loss": 1.5478,
      "step": 89822
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6868008971214294,
      "learning_rate": 2.2050091706726782e-08,
      "loss": 1.5205,
      "step": 89823
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.688517689704895,
      "learning_rate": 2.1923550658686784e-08,
      "loss": 1.4416,
      "step": 89824
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6563757061958313,
      "learning_rate": 2.1797373739840252e-08,
      "loss": 1.5132,
      "step": 89825
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6663265824317932,
      "learning_rate": 2.167156095032041e-08,
      "loss": 1.4903,
      "step": 89826
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6704251170158386,
      "learning_rate": 2.15461122903271e-08,
      "loss": 1.4738,
      "step": 89827
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6584834456443787,
      "learning_rate": 2.1421027759926933e-08,
      "loss": 1.4442,
      "step": 89828
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.676181435585022,
      "learning_rate": 2.129630735935306e-08,
      "loss": 1.4723,
      "step": 89829
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6628195643424988,
      "learning_rate": 2.1171951088705397e-08,
      "loss": 1.5061,
      "step": 89830
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6878691911697388,
      "learning_rate": 2.1047958948183786e-08,
      "loss": 1.4545,
      "step": 89831
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7149299383163452,
      "learning_rate": 2.0924330937888145e-08,
      "loss": 1.5383,
      "step": 89832
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6933342218399048,
      "learning_rate": 2.0801067058018316e-08,
      "loss": 1.5156,
      "step": 89833
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6695526838302612,
      "learning_rate": 2.067816730867422e-08,
      "loss": 1.5269,
      "step": 89834
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6475428938865662,
      "learning_rate": 2.055563169002239e-08,
      "loss": 1.4828,
      "step": 89835
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6870702505111694,
      "learning_rate": 2.0433460202229357e-08,
      "loss": 1.522,
      "step": 89836
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7027281522750854,
      "learning_rate": 2.0311652845395042e-08,
      "loss": 1.5001,
      "step": 89837
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6620814800262451,
      "learning_rate": 2.0190209619752595e-08,
      "loss": 1.5233,
      "step": 89838
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6756421327590942,
      "learning_rate": 2.0069130525368626e-08,
      "loss": 1.4908,
      "step": 89839
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6760779023170471,
      "learning_rate": 1.9948415562442977e-08,
      "loss": 1.5186,
      "step": 89840
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.692078173160553,
      "learning_rate": 1.9828064731075567e-08,
      "loss": 1.5554,
      "step": 89841
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7137570381164551,
      "learning_rate": 1.9708078031432928e-08,
      "loss": 1.5565,
      "step": 89842
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6502742767333984,
      "learning_rate": 1.9588455463681597e-08,
      "loss": 1.5113,
      "step": 89843
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6815658807754517,
      "learning_rate": 1.9469197027954798e-08,
      "loss": 1.4611,
      "step": 89844
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6653258204460144,
      "learning_rate": 1.9350302724385758e-08,
      "loss": 1.4294,
      "step": 89845
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6899957656860352,
      "learning_rate": 1.9231772553107704e-08,
      "loss": 1.6295,
      "step": 89846
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6779446601867676,
      "learning_rate": 1.911360651432048e-08,
      "loss": 1.5108,
      "step": 89847
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6756720542907715,
      "learning_rate": 1.899580460809069e-08,
      "loss": 1.4444,
      "step": 89848
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7035337686538696,
      "learning_rate": 1.8878366834618187e-08,
      "loss": 1.5801,
      "step": 89849
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6863727569580078,
      "learning_rate": 1.8761293194036186e-08,
      "loss": 1.5466,
      "step": 89850
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6684108972549438,
      "learning_rate": 1.864458368647792e-08,
      "loss": 1.4846,
      "step": 89851
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6833348870277405,
      "learning_rate": 1.8528238312076616e-08,
      "loss": 1.5414,
      "step": 89852
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6847063899040222,
      "learning_rate": 1.8412257070965498e-08,
      "loss": 1.4651,
      "step": 89853
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.674598753452301,
      "learning_rate": 1.8296639963311098e-08,
      "loss": 1.4582,
      "step": 89854
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6944684982299805,
      "learning_rate": 1.818138698924665e-08,
      "loss": 1.5135,
      "step": 89855
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6705018877983093,
      "learning_rate": 1.8066498148905372e-08,
      "loss": 1.4428,
      "step": 89856
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6960407495498657,
      "learning_rate": 1.7951973442453803e-08,
      "loss": 1.504,
      "step": 89857
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6900684237480164,
      "learning_rate": 1.783781286999186e-08,
      "loss": 1.4847,
      "step": 89858
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6784555315971375,
      "learning_rate": 1.7724016431686082e-08,
      "loss": 1.5157,
      "step": 89859
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6778122186660767,
      "learning_rate": 1.7610584127636385e-08,
      "loss": 1.5623,
      "step": 89860
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6877860426902771,
      "learning_rate": 1.74975159580093e-08,
      "loss": 1.4493,
      "step": 89861
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6577413082122803,
      "learning_rate": 1.7384811922971366e-08,
      "loss": 1.5157,
      "step": 89862
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6811899542808533,
      "learning_rate": 1.7272472022622495e-08,
      "loss": 1.4797,
      "step": 89863
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6970091462135315,
      "learning_rate": 1.7160496257062617e-08,
      "loss": 1.4971,
      "step": 89864
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6978226900100708,
      "learning_rate": 1.7048884626524872e-08,
      "loss": 1.4863,
      "step": 89865
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6982946395874023,
      "learning_rate": 1.693763713104257e-08,
      "loss": 1.5729,
      "step": 89866
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6580028533935547,
      "learning_rate": 1.682675377081555e-08,
      "loss": 1.5109,
      "step": 89867
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6904228925704956,
      "learning_rate": 1.6716234545977037e-08,
      "loss": 1.4875,
      "step": 89868
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6720173358917236,
      "learning_rate": 1.6606079456626954e-08,
      "loss": 1.5044,
      "step": 89869
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6738630533218384,
      "learning_rate": 1.649628850293183e-08,
      "loss": 1.4517,
      "step": 89870
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6908402442932129,
      "learning_rate": 1.6386861684991592e-08,
      "loss": 1.5063,
      "step": 89871
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6812623143196106,
      "learning_rate": 1.627779900297277e-08,
      "loss": 1.495,
      "step": 89872
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6878234148025513,
      "learning_rate": 1.616910045697528e-08,
      "loss": 1.5128,
      "step": 89873
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6660391688346863,
      "learning_rate": 1.6060766047132356e-08,
      "loss": 1.5281,
      "step": 89874
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6729936003684998,
      "learning_rate": 1.5952795773643834e-08,
      "loss": 1.5481,
      "step": 89875
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6984617114067078,
      "learning_rate": 1.584518963654302e-08,
      "loss": 1.5453,
      "step": 89876
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6791372299194336,
      "learning_rate": 1.573794763602976e-08,
      "loss": 1.4902,
      "step": 89877
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7113466262817383,
      "learning_rate": 1.5631069772203964e-08,
      "loss": 1.5246,
      "step": 89878
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6632279753684998,
      "learning_rate": 1.5524556045198865e-08,
      "loss": 1.5097,
      "step": 89879
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6677950620651245,
      "learning_rate": 1.541840645514769e-08,
      "loss": 1.5318,
      "step": 89880
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7550011873245239,
      "learning_rate": 1.531262100215036e-08,
      "loss": 1.5913,
      "step": 89881
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6889268755912781,
      "learning_rate": 1.5207199686406714e-08,
      "loss": 1.517,
      "step": 89882
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6759342551231384,
      "learning_rate": 1.510214250798336e-08,
      "loss": 1.4566,
      "step": 89883
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6854987740516663,
      "learning_rate": 1.4997449467013534e-08,
      "loss": 1.5293,
      "step": 89884
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7102248668670654,
      "learning_rate": 1.4893120563663762e-08,
      "loss": 1.5117,
      "step": 89885
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6643125414848328,
      "learning_rate": 1.4789155798000662e-08,
      "loss": 1.5002,
      "step": 89886
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6490234732627869,
      "learning_rate": 1.4685555170224073e-08,
      "loss": 1.5248,
      "step": 89887
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7155850529670715,
      "learning_rate": 1.45823186803673e-08,
      "loss": 1.5119,
      "step": 89888
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6738771796226501,
      "learning_rate": 1.4479446328630184e-08,
      "loss": 1.5466,
      "step": 89889
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.668290376663208,
      "learning_rate": 1.4376938115145952e-08,
      "loss": 1.5099,
      "step": 89890
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6812142133712769,
      "learning_rate": 1.4274794039947913e-08,
      "loss": 1.5453,
      "step": 89891
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6790424585342407,
      "learning_rate": 1.417301410326921e-08,
      "loss": 1.4921,
      "step": 89892
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6877356171607971,
      "learning_rate": 1.4071598305176456e-08,
      "loss": 1.4253,
      "step": 89893
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6583240628242493,
      "learning_rate": 1.3970546645769575e-08,
      "loss": 1.5118,
      "step": 89894
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.688319206237793,
      "learning_rate": 1.38698591252151e-08,
      "loss": 1.6155,
      "step": 89895
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6724627614021301,
      "learning_rate": 1.3769535743646254e-08,
      "loss": 1.5175,
      "step": 89896
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7004534006118774,
      "learning_rate": 1.3669576501129652e-08,
      "loss": 1.5683,
      "step": 89897
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6859147548675537,
      "learning_rate": 1.3569981397831831e-08,
      "loss": 1.4391,
      "step": 89898
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.695430338382721,
      "learning_rate": 1.3470750433852706e-08,
      "loss": 1.4321,
      "step": 89899
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6771566867828369,
      "learning_rate": 1.3371883609325507e-08,
      "loss": 1.5104,
      "step": 89900
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6757137179374695,
      "learning_rate": 1.3273380924350152e-08,
      "loss": 1.4696,
      "step": 89901
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6752803325653076,
      "learning_rate": 1.317524237905987e-08,
      "loss": 1.4452,
      "step": 89902
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6927653551101685,
      "learning_rate": 1.3077467973587885e-08,
      "loss": 1.5163,
      "step": 89903
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6805950999259949,
      "learning_rate": 1.2980057708034119e-08,
      "loss": 1.4875,
      "step": 89904
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6659559607505798,
      "learning_rate": 1.2883011582531799e-08,
      "loss": 1.484,
      "step": 89905
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6978774666786194,
      "learning_rate": 1.2786329597180845e-08,
      "loss": 1.53,
      "step": 89906
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6532972455024719,
      "learning_rate": 1.2690011752114482e-08,
      "loss": 1.4791,
      "step": 89907
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7007085084915161,
      "learning_rate": 1.2594058047432631e-08,
      "loss": 1.4776,
      "step": 89908
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6829825639724731,
      "learning_rate": 1.2498468483235214e-08,
      "loss": 1.5252,
      "step": 89909
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.670522928237915,
      "learning_rate": 1.240324305968876e-08,
      "loss": 1.4873,
      "step": 89910
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.699225902557373,
      "learning_rate": 1.2308381776893195e-08,
      "loss": 1.4445,
      "step": 89911
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6926979422569275,
      "learning_rate": 1.2213884634948434e-08,
      "loss": 1.587,
      "step": 89912
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6829073429107666,
      "learning_rate": 1.21197516339544e-08,
      "loss": 1.5078,
      "step": 89913
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6732015013694763,
      "learning_rate": 1.2025982774077624e-08,
      "loss": 1.6222,
      "step": 89914
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6605573296546936,
      "learning_rate": 1.1932578055384723e-08,
      "loss": 1.5371,
      "step": 89915
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6700806617736816,
      "learning_rate": 1.183953747800892e-08,
      "loss": 1.4949,
      "step": 89916
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.678440272808075,
      "learning_rate": 1.1746861042050138e-08,
      "loss": 1.5003,
      "step": 89917
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6803932785987854,
      "learning_rate": 1.16545487476416e-08,
      "loss": 1.5179,
      "step": 89918
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6797971129417419,
      "learning_rate": 1.1562600594849925e-08,
      "loss": 1.5309,
      "step": 89919
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6885927319526672,
      "learning_rate": 1.1471016583841641e-08,
      "loss": 1.518,
      "step": 89920
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6946852803230286,
      "learning_rate": 1.1379796714716671e-08,
      "loss": 1.4687,
      "step": 89921
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6561076641082764,
      "learning_rate": 1.1288940987574935e-08,
      "loss": 1.4916,
      "step": 89922
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6782190799713135,
      "learning_rate": 1.1198449402516351e-08,
      "loss": 1.5421,
      "step": 89923
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6955649256706238,
      "learning_rate": 1.1108321959674149e-08,
      "loss": 1.4864,
      "step": 89924
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6756494045257568,
      "learning_rate": 1.101855865911494e-08,
      "loss": 1.504,
      "step": 89925
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6936952471733093,
      "learning_rate": 1.0929159501005259e-08,
      "loss": 1.5656,
      "step": 89926
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7008554935455322,
      "learning_rate": 1.0840124485445022e-08,
      "loss": 1.4362,
      "step": 89927
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.677670419216156,
      "learning_rate": 1.0751453612500849e-08,
      "loss": 1.5177,
      "step": 89928
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7088512182235718,
      "learning_rate": 1.0663146882272656e-08,
      "loss": 1.4962,
      "step": 89929
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6679612398147583,
      "learning_rate": 1.0575204294926975e-08,
      "loss": 1.4764,
      "step": 89930
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6926558017730713,
      "learning_rate": 1.048762585056373e-08,
      "loss": 1.4257,
      "step": 89931
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6649261116981506,
      "learning_rate": 1.0400411549249532e-08,
      "loss": 1.4322,
      "step": 89932
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6709873080253601,
      "learning_rate": 1.0313561391084301e-08,
      "loss": 1.5308,
      "step": 89933
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6909742951393127,
      "learning_rate": 1.0227075376234572e-08,
      "loss": 1.4345,
      "step": 89934
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6805923581123352,
      "learning_rate": 1.0140953504733652e-08,
      "loss": 1.47,
      "step": 89935
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6939222812652588,
      "learning_rate": 1.0055195776748071e-08,
      "loss": 1.466,
      "step": 89936
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6868769526481628,
      "learning_rate": 9.969802192344444e-09,
      "loss": 1.514,
      "step": 89937
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6941162347793579,
      "learning_rate": 9.884772751622693e-09,
      "loss": 1.5521,
      "step": 89938
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6771564483642578,
      "learning_rate": 9.800107454716043e-09,
      "loss": 1.5158,
      "step": 89939
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.676694393157959,
      "learning_rate": 9.71580630169111e-09,
      "loss": 1.5634,
      "step": 89940
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6992813348770142,
      "learning_rate": 9.631869292681115e-09,
      "loss": 1.4384,
      "step": 89941
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6402135491371155,
      "learning_rate": 9.548296427785983e-09,
      "loss": 1.4977,
      "step": 89942
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.702088475227356,
      "learning_rate": 9.465087707072327e-09,
      "loss": 1.5105,
      "step": 89943
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6575934290885925,
      "learning_rate": 9.382243130706679e-09,
      "loss": 1.4501,
      "step": 89944
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6788650751113892,
      "learning_rate": 9.299762698722346e-09,
      "loss": 1.5597,
      "step": 89945
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6998781561851501,
      "learning_rate": 9.217646411252555e-09,
      "loss": 1.5888,
      "step": 89946
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6835311055183411,
      "learning_rate": 9.135894268397226e-09,
      "loss": 1.5449,
      "step": 89947
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6740201711654663,
      "learning_rate": 9.054506270222972e-09,
      "loss": 1.5152,
      "step": 89948
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6718109250068665,
      "learning_rate": 8.97348241686302e-09,
      "loss": 1.5057,
      "step": 89949
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6714781522750854,
      "learning_rate": 8.892822708417291e-09,
      "loss": 1.5603,
      "step": 89950
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7107146382331848,
      "learning_rate": 8.812527144985704e-09,
      "loss": 1.5271,
      "step": 89951
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.677729606628418,
      "learning_rate": 8.732595726634873e-09,
      "loss": 1.4841,
      "step": 89952
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6947311162948608,
      "learning_rate": 8.653028453498022e-09,
      "loss": 1.5167,
      "step": 89953
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6707832217216492,
      "learning_rate": 8.57382532564177e-09,
      "loss": 1.495,
      "step": 89954
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6724738478660583,
      "learning_rate": 8.494986343199339e-09,
      "loss": 1.5619,
      "step": 89955
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7012085914611816,
      "learning_rate": 8.416511506204038e-09,
      "loss": 1.475,
      "step": 89956
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7069873213768005,
      "learning_rate": 8.338400814822399e-09,
      "loss": 1.5174,
      "step": 89957
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.679570198059082,
      "learning_rate": 8.26065426908773e-09,
      "loss": 1.5471,
      "step": 89958
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6963129043579102,
      "learning_rate": 8.183271869133256e-09,
      "loss": 1.491,
      "step": 89959
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6935999989509583,
      "learning_rate": 8.1062536150589e-09,
      "loss": 1.5184,
      "step": 89960
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6814268231391907,
      "learning_rate": 8.029599506931272e-09,
      "loss": 1.4437,
      "step": 89961
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6894949674606323,
      "learning_rate": 7.953309544850295e-09,
      "loss": 1.4873,
      "step": 89962
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6777157187461853,
      "learning_rate": 7.877383728915887e-09,
      "loss": 1.5306,
      "step": 89963
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.655594527721405,
      "learning_rate": 7.801822059227969e-09,
      "loss": 1.5073,
      "step": 89964
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6870386004447937,
      "learning_rate": 7.726624535853154e-09,
      "loss": 1.5084,
      "step": 89965
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6771774888038635,
      "learning_rate": 7.651791158891363e-09,
      "loss": 1.5153,
      "step": 89966
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6948763132095337,
      "learning_rate": 7.577321928442515e-09,
      "loss": 1.5484,
      "step": 89967
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6678251028060913,
      "learning_rate": 7.503216844573224e-09,
      "loss": 1.4793,
      "step": 89968
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6855831742286682,
      "learning_rate": 7.429475907416715e-09,
      "loss": 1.5488,
      "step": 89969
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6805694103240967,
      "learning_rate": 7.356099117039605e-09,
      "loss": 1.4932,
      "step": 89970
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6812707185745239,
      "learning_rate": 7.28308647354181e-09,
      "loss": 1.4939,
      "step": 89971
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7127394676208496,
      "learning_rate": 7.210437976989947e-09,
      "loss": 1.442,
      "step": 89972
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6673495173454285,
      "learning_rate": 7.138153627483934e-09,
      "loss": 1.5036,
      "step": 89973
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6731234788894653,
      "learning_rate": 7.066233425090384e-09,
      "loss": 1.5583,
      "step": 89974
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6595007181167603,
      "learning_rate": 6.994677369942525e-09,
      "loss": 1.4882,
      "step": 89975
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6632490158081055,
      "learning_rate": 6.923485462073663e-09,
      "loss": 1.4714,
      "step": 89976
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.696643054485321,
      "learning_rate": 6.852657701617026e-09,
      "loss": 1.4906,
      "step": 89977
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.659196138381958,
      "learning_rate": 6.782194088639226e-09,
      "loss": 1.4975,
      "step": 89978
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6723341345787048,
      "learning_rate": 6.712094623206876e-09,
      "loss": 1.4235,
      "step": 89979
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6786920428276062,
      "learning_rate": 6.642359305453204e-09,
      "loss": 1.5144,
      "step": 89980
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6758586764335632,
      "learning_rate": 6.572988135411517e-09,
      "loss": 1.4771,
      "step": 89981
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6724612712860107,
      "learning_rate": 6.50398111321504e-09,
      "loss": 1.5094,
      "step": 89982
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6623855233192444,
      "learning_rate": 6.435338238897081e-09,
      "loss": 1.4688,
      "step": 89983
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6880912780761719,
      "learning_rate": 6.3670595125575596e-09,
      "loss": 1.5068,
      "step": 89984
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6786876320838928,
      "learning_rate": 6.299144934329703e-09,
      "loss": 1.4897,
      "step": 89985
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6888412833213806,
      "learning_rate": 6.2315945042135106e-09,
      "loss": 1.5199,
      "step": 89986
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6862500309944153,
      "learning_rate": 6.16440822234221e-09,
      "loss": 1.5069,
      "step": 89987
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.666918158531189,
      "learning_rate": 6.097586088782413e-09,
      "loss": 1.4695,
      "step": 89988
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6624985337257385,
      "learning_rate": 6.031128103600735e-09,
      "loss": 1.4656,
      "step": 89989
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6552616953849792,
      "learning_rate": 5.965034266930402e-09,
      "loss": 1.4771,
      "step": 89990
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6584072709083557,
      "learning_rate": 5.89930457880472e-09,
      "loss": 1.5439,
      "step": 89991
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6935422420501709,
      "learning_rate": 5.833939039290303e-09,
      "loss": 1.4994,
      "step": 89992
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6661994457244873,
      "learning_rate": 5.768937648520378e-09,
      "loss": 1.5456,
      "step": 89993
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6641091704368591,
      "learning_rate": 5.704300406528251e-09,
      "loss": 1.4334,
      "step": 89994
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6631845235824585,
      "learning_rate": 5.640027313413842e-09,
      "loss": 1.5031,
      "step": 89995
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6779127717018127,
      "learning_rate": 5.576118369243765e-09,
      "loss": 1.5751,
      "step": 89996
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.65031498670578,
      "learning_rate": 5.51257357411794e-09,
      "loss": 1.5795,
      "step": 89997
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6788037419319153,
      "learning_rate": 5.44939292810298e-09,
      "loss": 1.4914,
      "step": 89998
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.704152524471283,
      "learning_rate": 5.386576431265499e-09,
      "loss": 1.5085,
      "step": 89999
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6656177043914795,
      "learning_rate": 5.32412408367211e-09,
      "loss": 1.4476,
      "step": 90000
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6836601495742798,
      "learning_rate": 5.262035885422733e-09,
      "loss": 1.5138,
      "step": 90001
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6880768537521362,
      "learning_rate": 5.200311836583981e-09,
      "loss": 1.5295,
      "step": 90002
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6708999276161194,
      "learning_rate": 5.138951937222468e-09,
      "loss": 1.5263,
      "step": 90003
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6698288321495056,
      "learning_rate": 5.077956187404808e-09,
      "loss": 1.4838,
      "step": 90004
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6756246089935303,
      "learning_rate": 5.0173245872642264e-09,
      "loss": 1.5064,
      "step": 90005
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6367460489273071,
      "learning_rate": 4.957057136800724e-09,
      "loss": 1.4697,
      "step": 90006
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6805697083473206,
      "learning_rate": 4.89715383611422e-09,
      "loss": 1.4961,
      "step": 90007
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6779807209968567,
      "learning_rate": 4.837614685304636e-09,
      "loss": 1.4961,
      "step": 90008
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6884574890136719,
      "learning_rate": 4.778439684371971e-09,
      "loss": 1.4916,
      "step": 90009
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6840431690216064,
      "learning_rate": 4.7196288334827585e-09,
      "loss": 1.482,
      "step": 90010
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6637060642242432,
      "learning_rate": 4.661182132636998e-09,
      "loss": 1.5061,
      "step": 90011
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6914357542991638,
      "learning_rate": 4.6030995819346106e-09,
      "loss": 1.4376,
      "step": 90012
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6971727013587952,
      "learning_rate": 4.545381181475516e-09,
      "loss": 1.5571,
      "step": 90013
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7019030451774597,
      "learning_rate": 4.488026931259714e-09,
      "loss": 1.4724,
      "step": 90014
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6868497133255005,
      "learning_rate": 4.4310368313871246e-09,
      "loss": 1.5034,
      "step": 90015
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6884936690330505,
      "learning_rate": 4.374410881957668e-09,
      "loss": 1.5136,
      "step": 90016
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6869009733200073,
      "learning_rate": 4.318149083004652e-09,
      "loss": 1.4531,
      "step": 90017
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.7032431364059448,
      "learning_rate": 4.262251434594688e-09,
      "loss": 1.5878,
      "step": 90018
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.662046492099762,
      "learning_rate": 4.2067179368276975e-09,
      "loss": 1.4918,
      "step": 90019
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6799550652503967,
      "learning_rate": 4.151548589736986e-09,
      "loss": 1.5339,
      "step": 90020
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6821011900901794,
      "learning_rate": 4.096743393422474e-09,
      "loss": 1.4727,
      "step": 90021
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7002322673797607,
      "learning_rate": 4.04230234791747e-09,
      "loss": 1.5348,
      "step": 90022
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6843985319137573,
      "learning_rate": 3.988225453321892e-09,
      "loss": 1.5984,
      "step": 90023
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6710519194602966,
      "learning_rate": 3.934512709669047e-09,
      "loss": 1.4899,
      "step": 90024
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7163899540901184,
      "learning_rate": 3.881164117025548e-09,
      "loss": 1.5307,
      "step": 90025
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6782909631729126,
      "learning_rate": 3.828179675458009e-09,
      "loss": 1.6043,
      "step": 90026
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6967594027519226,
      "learning_rate": 3.775559385066351e-09,
      "loss": 1.4873,
      "step": 90027
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6746736168861389,
      "learning_rate": 3.7233032458838797e-09,
      "loss": 1.5035,
      "step": 90028
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6644619107246399,
      "learning_rate": 3.671411257977208e-09,
      "loss": 1.5406,
      "step": 90029
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6818393468856812,
      "learning_rate": 3.6198834214129503e-09,
      "loss": 1.5525,
      "step": 90030
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.8827344179153442,
      "learning_rate": 3.5687197362577192e-09,
      "loss": 1.6008,
      "step": 90031
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6982641816139221,
      "learning_rate": 3.517920202544822e-09,
      "loss": 1.5562,
      "step": 90032
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7816632986068726,
      "learning_rate": 3.4674848204074845e-09,
      "loss": 1.4982,
      "step": 90033
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6910532712936401,
      "learning_rate": 3.417413589812401e-09,
      "loss": 1.477,
      "step": 90034
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7124629020690918,
      "learning_rate": 3.3677065108594912e-09,
      "loss": 1.4988,
      "step": 90035
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6755777597427368,
      "learning_rate": 3.3183635836486754e-09,
      "loss": 1.4804,
      "step": 90036
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6459097266197205,
      "learning_rate": 3.2693848081799535e-09,
      "loss": 1.5653,
      "step": 90037
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.674887478351593,
      "learning_rate": 3.2207701845532453e-09,
      "loss": 1.4524,
      "step": 90038
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6932058930397034,
      "learning_rate": 3.1725197128351643e-09,
      "loss": 1.5274,
      "step": 90039
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6661618947982788,
      "learning_rate": 3.1246333930257107e-09,
      "loss": 1.4334,
      "step": 90040
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7041646838188171,
      "learning_rate": 3.077111225258111e-09,
      "loss": 1.5967,
      "step": 90041
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6567131876945496,
      "learning_rate": 3.0299532095323653e-09,
      "loss": 1.4857,
      "step": 90042
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7023101449012756,
      "learning_rate": 2.983159345915087e-09,
      "loss": 1.5405,
      "step": 90043
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6702872514724731,
      "learning_rate": 2.9367296344728897e-09,
      "loss": 1.4473,
      "step": 90044
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6656801700592041,
      "learning_rate": 2.8906640752723865e-09,
      "loss": 1.5021,
      "step": 90045
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6763718724250793,
      "learning_rate": 2.8449626683801907e-09,
      "loss": 1.5314,
      "step": 90046
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6700496077537537,
      "learning_rate": 2.7996254137963026e-09,
      "loss": 1.5179,
      "step": 90047
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6714008450508118,
      "learning_rate": 2.754652311620642e-09,
      "loss": 1.5287,
      "step": 90048
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6747405529022217,
      "learning_rate": 2.7100433619198225e-09,
      "loss": 1.576,
      "step": 90049
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6796330809593201,
      "learning_rate": 2.665798564693844e-09,
      "loss": 1.524,
      "step": 90050
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6726076006889343,
      "learning_rate": 2.6219179200759333e-09,
      "loss": 1.484,
      "step": 90051
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6826899647712708,
      "learning_rate": 2.5784014280327834e-09,
      "loss": 1.4998,
      "step": 90052
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6834487915039062,
      "learning_rate": 2.5352490886643153e-09,
      "loss": 1.5143,
      "step": 90053
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6742511987686157,
      "learning_rate": 2.4924609020038345e-09,
      "loss": 1.4939,
      "step": 90054
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6864412426948547,
      "learning_rate": 2.4500368681512615e-09,
      "loss": 1.5079,
      "step": 90055
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6811622977256775,
      "learning_rate": 2.407976987106597e-09,
      "loss": 1.5094,
      "step": 90056
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6833330392837524,
      "learning_rate": 2.3662812589031466e-09,
      "loss": 1.5502,
      "step": 90057
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.70628422498703,
      "learning_rate": 2.324949683674138e-09,
      "loss": 1.4922,
      "step": 90058
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6648723483085632,
      "learning_rate": 2.2839822613862637e-09,
      "loss": 1.5459,
      "step": 90059
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.689321756362915,
      "learning_rate": 2.243378992139444e-09,
      "loss": 1.4861,
      "step": 90060
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6903592348098755,
      "learning_rate": 2.203139875966986e-09,
      "loss": 1.4767,
      "step": 90061
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6733563542366028,
      "learning_rate": 2.1632649129021963e-09,
      "loss": 1.5087,
      "step": 90062
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7014095783233643,
      "learning_rate": 2.123754103011688e-09,
      "loss": 1.4913,
      "step": 90063
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6756100058555603,
      "learning_rate": 2.0846074463620745e-09,
      "loss": 1.4658,
      "step": 90064
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.740902304649353,
      "learning_rate": 2.0458249429533557e-09,
      "loss": 1.5024,
      "step": 90065
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6966712474822998,
      "learning_rate": 2.0074065928521453e-09,
      "loss": 1.5809,
      "step": 90066
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.684499979019165,
      "learning_rate": 1.9693523961583635e-09,
      "loss": 1.5329,
      "step": 90067
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6710652709007263,
      "learning_rate": 1.9316623528387034e-09,
      "loss": 1.5174,
      "step": 90068
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6814980506896973,
      "learning_rate": 1.894336462959778e-09,
      "loss": 1.5234,
      "step": 90069
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6752566695213318,
      "learning_rate": 1.857374726588201e-09,
      "loss": 1.4632,
      "step": 90070
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6803076267242432,
      "learning_rate": 1.8207771437572794e-09,
      "loss": 1.4908,
      "step": 90071
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6818100214004517,
      "learning_rate": 1.784543714533626e-09,
      "loss": 1.5253,
      "step": 90072
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6698735952377319,
      "learning_rate": 1.7486744389172413e-09,
      "loss": 1.5022,
      "step": 90073
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6771378517150879,
      "learning_rate": 1.7131693169747386e-09,
      "loss": 1.564,
      "step": 90074
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6590497493743896,
      "learning_rate": 1.6780283487727309e-09,
      "loss": 1.4595,
      "step": 90075
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6859322190284729,
      "learning_rate": 1.6432515343112185e-09,
      "loss": 1.4665,
      "step": 90076
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6764737963676453,
      "learning_rate": 1.6088388736568147e-09,
      "loss": 1.4854,
      "step": 90077
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.694989800453186,
      "learning_rate": 1.5747903668428262e-09,
      "loss": 1.4905,
      "step": 90078
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6899689435958862,
      "learning_rate": 1.5411060139358667e-09,
      "loss": 1.5018,
      "step": 90079
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7005979418754578,
      "learning_rate": 1.5077858149359356e-09,
      "loss": 1.4422,
      "step": 90080
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6737068295478821,
      "learning_rate": 1.4748297699096468e-09,
      "loss": 1.5488,
      "step": 90081
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6876698136329651,
      "learning_rate": 1.4422378788903066e-09,
      "loss": 1.5375,
      "step": 90082
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6878311634063721,
      "learning_rate": 1.4100101419112219e-09,
      "loss": 1.4212,
      "step": 90083
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7055885791778564,
      "learning_rate": 1.3781465590056996e-09,
      "loss": 1.5145,
      "step": 90084
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6920186281204224,
      "learning_rate": 1.3466471302403526e-09,
      "loss": 1.5279,
      "step": 90085
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.8243672847747803,
      "learning_rate": 1.315511855648488e-09,
      "loss": 1.5222,
      "step": 90086
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6742435693740845,
      "learning_rate": 1.2847407352301054e-09,
      "loss": 1.4986,
      "step": 90087
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6733012795448303,
      "learning_rate": 1.2543337690518186e-09,
      "loss": 1.4842,
      "step": 90088
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6859217286109924,
      "learning_rate": 1.2242909571802406e-09,
      "loss": 1.4911,
      "step": 90089
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6698979735374451,
      "learning_rate": 1.1946122995820651e-09,
      "loss": 1.4818,
      "step": 90090
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6478711366653442,
      "learning_rate": 1.1652977963572118e-09,
      "loss": 1.4569,
      "step": 90091
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.681577205657959,
      "learning_rate": 1.136347447505681e-09,
      "loss": 1.4831,
      "step": 90092
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7061010599136353,
      "learning_rate": 1.1077612530607793e-09,
      "loss": 1.5293,
      "step": 90093
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6780016422271729,
      "learning_rate": 1.07953921308912e-09,
      "loss": 1.5009,
      "step": 90094
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6558941602706909,
      "learning_rate": 1.0516813275907033e-09,
      "loss": 1.41,
      "step": 90095
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6724691390991211,
      "learning_rate": 1.0241875966321422e-09,
      "loss": 1.5236,
      "step": 90096
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6877921223640442,
      "learning_rate": 9.970580202134371e-10,
      "loss": 1.4904,
      "step": 90097
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6642906665802002,
      "learning_rate": 9.702925983678944e-10,
      "loss": 1.415,
      "step": 90098
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7067330479621887,
      "learning_rate": 9.438913311621276e-10,
      "loss": 1.515,
      "step": 90099
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6841567754745483,
      "learning_rate": 9.178542185961368e-10,
      "loss": 1.528,
      "step": 90100
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.673357367515564,
      "learning_rate": 8.921812607032286e-10,
      "loss": 1.5362,
      "step": 90101
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6809553503990173,
      "learning_rate": 8.668724575500164e-10,
      "loss": 1.5726,
      "step": 90102
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6757993698120117,
      "learning_rate": 8.419278091365e-10,
      "loss": 1.5255,
      "step": 90103
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6795028448104858,
      "learning_rate": 8.173473154626798e-10,
      "loss": 1.5027,
      "step": 90104
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6642524600028992,
      "learning_rate": 7.931309766284755e-10,
      "loss": 1.5371,
      "step": 90105
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.686935544013977,
      "learning_rate": 7.692787926338872e-10,
      "loss": 1.5675,
      "step": 90106
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.706352949142456,
      "learning_rate": 7.457907634789151e-10,
      "loss": 1.465,
      "step": 90107
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.691041111946106,
      "learning_rate": 7.226668892301723e-10,
      "loss": 1.5137,
      "step": 90108
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7009516358375549,
      "learning_rate": 6.999071698876591e-10,
      "loss": 1.543,
      "step": 90109
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.669226348400116,
      "learning_rate": 6.775116055179885e-10,
      "loss": 1.5645,
      "step": 90110
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6688730716705322,
      "learning_rate": 6.554801961211608e-10,
      "loss": 1.5037,
      "step": 90111
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6613996028900146,
      "learning_rate": 6.33812941697176e-10,
      "loss": 1.5254,
      "step": 90112
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6665778756141663,
      "learning_rate": 6.125098423126474e-10,
      "loss": 1.4373,
      "step": 90113
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6673794984817505,
      "learning_rate": 5.915708980008815e-10,
      "loss": 1.5198,
      "step": 90114
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6697508096694946,
      "learning_rate": 5.709961087285719e-10,
      "loss": 1.6154,
      "step": 90115
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6875405311584473,
      "learning_rate": 5.507854745956386e-10,
      "loss": 1.5287,
      "step": 90116
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6736777424812317,
      "learning_rate": 5.309389955687749e-10,
      "loss": 1.5196,
      "step": 90117
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6861855983734131,
      "learning_rate": 5.11456671714594e-10,
      "loss": 1.424,
      "step": 90118
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6822423338890076,
      "learning_rate": 4.923385030330962e-10,
      "loss": 1.5978,
      "step": 90119
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.68584805727005,
      "learning_rate": 4.73584489557588e-10,
      "loss": 1.5302,
      "step": 90120
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6703038811683655,
      "learning_rate": 4.551946312880694e-10,
      "loss": 1.5154,
      "step": 90121
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6765888929367065,
      "learning_rate": 4.371689282578472e-10,
      "loss": 1.5554,
      "step": 90122
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6815107464790344,
      "learning_rate": 4.19507380500228e-10,
      "loss": 1.5262,
      "step": 90123
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6901889443397522,
      "learning_rate": 4.0220998804851856e-10,
      "loss": 1.5174,
      "step": 90124
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6686779260635376,
      "learning_rate": 3.852767508694121e-10,
      "loss": 1.5181,
      "step": 90125
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6736680269241333,
      "learning_rate": 3.687076690628288e-10,
      "loss": 1.4381,
      "step": 90126
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6993403434753418,
      "learning_rate": 3.5250274256215517e-10,
      "loss": 1.4474,
      "step": 90127
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7063239812850952,
      "learning_rate": 3.3666197146731133e-10,
      "loss": 1.5481,
      "step": 90128
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6710065603256226,
      "learning_rate": 3.211853557449906e-10,
      "loss": 1.5149,
      "step": 90129
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6534703373908997,
      "learning_rate": 3.0607289542849965e-10,
      "loss": 1.4995,
      "step": 90130
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6429476141929626,
      "learning_rate": 2.9132459055114523e-10,
      "loss": 1.4527,
      "step": 90131
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6963064670562744,
      "learning_rate": 2.7694044107962055e-10,
      "loss": 1.4238,
      "step": 90132
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6735308170318604,
      "learning_rate": 2.6292044711384576e-10,
      "loss": 1.538,
      "step": 90133
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7043212652206421,
      "learning_rate": 2.4926460862051414e-10,
      "loss": 1.4719,
      "step": 90134
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6944592595100403,
      "learning_rate": 2.3597292559962567e-10,
      "loss": 1.469,
      "step": 90135
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7004110813140869,
      "learning_rate": 2.2304539808448708e-10,
      "loss": 1.4738,
      "step": 90136
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6866421699523926,
      "learning_rate": 2.1048202610840504e-10,
      "loss": 1.5523,
      "step": 90137
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6757972836494446,
      "learning_rate": 1.9828280967137954e-10,
      "loss": 1.4625,
      "step": 90138
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6592703461647034,
      "learning_rate": 1.864477488067173e-10,
      "loss": 1.4997,
      "step": 90139
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6888916492462158,
      "learning_rate": 1.7497684351441832e-10,
      "loss": 1.4263,
      "step": 90140
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6570674180984497,
      "learning_rate": 1.6387009379448257e-10,
      "loss": 1.5282,
      "step": 90141
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6785581707954407,
      "learning_rate": 1.5312749964691007e-10,
      "loss": 1.4906,
      "step": 90142
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6700809001922607,
      "learning_rate": 1.4274906113831418e-10,
      "loss": 1.4621,
      "step": 90143
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6894088983535767,
      "learning_rate": 1.3273477826869494e-10,
      "loss": 1.5327,
      "step": 90144
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6740564703941345,
      "learning_rate": 1.2308465100474562e-10,
      "loss": 1.4815,
      "step": 90145
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7153162956237793,
      "learning_rate": 1.1379867941307963e-10,
      "loss": 1.5494,
      "step": 90146
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6735113859176636,
      "learning_rate": 1.0487686346039026e-10,
      "loss": 1.5118,
      "step": 90147
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6735695600509644,
      "learning_rate": 9.631920317998421e-11,
      "loss": 1.5148,
      "step": 90148
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6756568551063538,
      "learning_rate": 8.812569857186146e-11,
      "loss": 1.4315,
      "step": 90149
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6658678650856018,
      "learning_rate": 8.029634966932874e-11,
      "loss": 1.4772,
      "step": 90150
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6916219592094421,
      "learning_rate": 7.283115647238602e-11,
      "loss": 1.542,
      "step": 90151
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6849752068519592,
      "learning_rate": 6.57301189810333e-11,
      "loss": 1.5442,
      "step": 90152
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7063705325126648,
      "learning_rate": 5.899323719527061e-11,
      "loss": 1.5188,
      "step": 90153
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6605337262153625,
      "learning_rate": 5.2620511148404596e-11,
      "loss": 1.5154,
      "step": 90154
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6783880591392517,
      "learning_rate": 4.66119408071286e-11,
      "loss": 1.4904,
      "step": 90155
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7322070002555847,
      "learning_rate": 4.096752623805599e-11,
      "loss": 1.5924,
      "step": 90156
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6893506646156311,
      "learning_rate": 3.5687267407880085e-11,
      "loss": 1.4924,
      "step": 90157
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7161292433738708,
      "learning_rate": 3.077116431660087e-11,
      "loss": 1.5867,
      "step": 90158
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6912115812301636,
      "learning_rate": 2.621921699752505e-11,
      "loss": 1.5212,
      "step": 90159
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6966395974159241,
      "learning_rate": 2.2031425450652617e-11,
      "loss": 1.4938,
      "step": 90160
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.664613664150238,
      "learning_rate": 1.8207789675983575e-11,
      "loss": 1.468,
      "step": 90161
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6696774959564209,
      "learning_rate": 1.4748309673517923e-11,
      "loss": 1.4581,
      "step": 90162
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6774795651435852,
      "learning_rate": 1.1652985443255658e-11,
      "loss": 1.5893,
      "step": 90163
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6965247392654419,
      "learning_rate": 8.921816985196784e-12,
      "loss": 1.5277,
      "step": 90164
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6695339679718018,
      "learning_rate": 6.5548043326479895e-12,
      "loss": 1.468,
      "step": 90165
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6905097961425781,
      "learning_rate": 4.5519474523025844e-12,
      "loss": 1.5139,
      "step": 90166
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6825189590454102,
      "learning_rate": 2.91324637746726e-12,
      "loss": 1.5197,
      "step": 90167
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.666186511516571,
      "learning_rate": 1.6387010748353247e-12,
      "loss": 1.4496,
      "step": 90168
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6814790368080139,
      "learning_rate": 7.283115777134696e-13,
      "loss": 1.486,
      "step": 90169
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.691143810749054,
      "learning_rate": 1.820778861016947e-13,
      "loss": 1.442,
      "step": 90170
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.436651349067688,
      "learning_rate": 0.0,
      "loss": 1.4685,
      "step": 90171
    },
    {
      "epoch": 3.0,
      "step": 90171,
      "total_flos": 1.8707479223913677e+17,
      "train_loss": 1.6425582529524931,
      "train_runtime": 9833.6938,
      "train_samples_per_second": 586.839,
      "train_steps_per_second": 9.17
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 90171,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 5000,
  "total_flos": 1.8707479223913677e+17,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}